このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230213となっている論文です。

PDF登録状況(公開日: 20230213)

TitleAuthorsAbstract論文公表日・翻訳日
# 3体原子-イオンハイブリッド系のスペクトル特性

Spectral properties of a three body atom-ion hybrid system ( http://arxiv.org/abs/2101.08716v3 )

ライセンス: Link先を確認
Daniel J. Bosworth, Maxim Pyzh and Peter Schmelcher(参考訳) 準一次元トラップ幾何において1つのイオンと相互作用する一対のボソンからなるハイブリッド原子イオン系を考える。 初期の理論研究で開発された原子-イオン相互作用のモデルポテンシャルに基づいて、原子間の接触相互作用強度が変化するために低エネルギー固有状態の挙動を調べる。 特に,静的イオンと移動イオンの2つの例を比較した。 本研究は,Bosonsの多層多層構造時間依存型Hartree法,および交絡混合物の効率的なシミュレーション手法である$\textit{ab initio}$法を用いて行った。 反発性原子相互作用は各固有状態に特有の原子の確率分布を局所的に変化させる。 平均的な原子は、g$の増加とともに互いに分離するが、必ずしもイオンとは分離しない。 イオンの移動性は、一般に原子間および原子とイオン間の分離を増大させる。 特に、原子の運動エネルギーと全ての固有状態の原子-イオン相互作用エネルギーの交換を観測し、相互作用と運動の両方が引き起こされる。 基底状態については、各種に対して有効なハミルトニアンを構築し、イオンの移動に対する原子の反応を適切に捉えて直感的に記述する。 さらに, 実数値シミュレーションの結果と一致して, イオンの局在性の向上を予測した。

We consider a hybrid atom-ion system consisting of a pair of bosons interacting with a single ion in a quasi-one-dimensional trapping geometry. Building upon a model potential for the atom-ion interaction developed in earlier theoretical works, we investigate the behaviour of the low-energy eigenstates for varying contact interaction strength $g$ among the atoms. In particular, we contrast the two cases of a static and a mobile ion. Our study is carried out by means of the Multi-Layer Multi-Configuration Time-Dependent Hartree method for Bosons, a numerically-exact $\textit{ab initio}$ method for the efficient simulation of entangled mixtures. We find that repulsive atom interactions induce locally-distinct modifications of the atomic probability distribution unique to each eigenstate. Whilst the atoms on average separate from each other with increasing $g$, they do not necessarily separate from the ion. The mobility of the ion leads in general to greater separations among the atoms as well as between the atoms and the ion. Notably, we observe an exchange between the kinetic energy of the atoms and the atom-ion interaction energy for all eigenstates, which is both interaction- and mobility-induced. For the ground state, we provide an intuitive description by constructing an effective Hamiltonian for each species, which aptly captures the response of the atoms to the ion's mobility. Furthermore, the effective picture predicts enhanced localisation of the ion, in agreement with our results from exact numerical simulations.
翻訳日:2023-04-14 08:39:46 公開日:2023-02-13
# 量子情報理論における統計的構成

Statistical constructions in quantum information theory ( http://arxiv.org/abs/2103.10995v2 )

ライセンス: Link先を確認
Peter Burton(参考訳) 量子情報理論における非局所ゲームの平均化に基づく戦略の概念を導入する。 これらのいわゆる統計戦略は通勤型とより特定の空間型を持ち、それぞれが場においてよく考慮される量子通勤戦略と量子空間戦略の特別な場合である。 統計通勤戦略の集合と統計空間戦略の集合はそれぞれ、任意の非局所ゲームに対する量子通勤戦略の集合と量子空間戦略の集合と等しいことを証明した。 したがって、tsirelson の問題の最近の負の解を用いて、統計的可換戦略の集合が統計的空間戦略の集合の閉包を適切に含む非局所ゲームが存在することを示す統計アナログを得ることができる。 この定理の証明は、量子情報理論における多くの構成、特に観測構造と力学構造の間のフーリエ型双対性のための統計レプリカの開発を含む。 議論の要点は、そのような群の作用を保存するエルゴード測度によって可算離散群のユニタリ表現を近似する確立された理論を適用することである。 関連したグループは命名不可能である。 また,古典的戦略の最大値を超える確率を持つAspectの実験から,CHSHゲームに勝つための統計的戦略を明示的に記述する。

We introduce a notion of strategies based on averaging for nonlocal games in quantum information theory. These so-called statistical strategies come in a commuting type and a more specific spatial type, which are respectively special cases of the quantum commuting and quantum spatial strategies commonly considered in the field. We prove a theorem that the sets of statistical commuting strategies and statistical spatial strategies are respectively equal to the sets of quantum commuting strategies and quantum spatial strategies for any nonlocal game. Thus we are able to use the recent negative solution of Tsirelson's problem to obtain a statistical analog showing that there exists a nonlocal game where the set of statistical commuting strategies properly contains the closure of the set of statistical spatial strategies. The proof of this theorem involves development of statistical replicas for numerous constructions in quantum information theory, in particular for the Fourier-type duality between observation structures and dynamical structures. The main point of the argument is to apply the established theory of approximating unitary representations of countable discrete groups by ergodic measure preserving actions of such groups. We note that the relevant groups are nonamenable. We also give an explicit description of a statistical strategy to win the CHSH game from Aspect's experiment with a probability exceeding the maximum possible value for a classical strategy.
翻訳日:2023-04-07 10:45:01 公開日:2023-02-13
# 量子ラビモデルの固有値と固有状態

Eigenvalues and Eigenstates of Quantum Rabi Model ( http://arxiv.org/abs/2104.12771v2 )

ライセンス: Link先を確認
Andrei Ivanov(参考訳) 量子ラビモデルの解析解に対する科学的関心は、量子光学、量子コンピューティング、キャビティqed、ナノエレクトロメカニクスシステムにおいて、この単純なモデルが広く使われているためである。 この関心は、回転波近似が失敗した場合の2レベル系の量子振動子との相互作用を理論的に記述する必要性と関係している。 この手紙では、量子ラビハミルトニアンの正確な対角化へのアプローチを示す。 このアプローチはパウリ作用素の性質に基づいており、2-レベル系の定常シュロディンガー方程式を容易に解くことができる。 まず、よく知られた解を得るために、Jaynes-Cummings Hamiltonianに対するアプローチの適用性を示す。 次に,提案手法を用いて量子ラビハミルトニアンに対する固有値と固有状態を求める。 得られた固有状態は、Jaynes-Cummings Hamiltonianの固有状態に基づいて表現できることが示されている。

The scientific interest in the analytical solution of the quantum Rabi model is due to the widespread use of this simple model in quantum optics, quantum computing, cavity QED, and nanoelectromechanical systems. This interest is related to the need for the theoretical description of the interaction of a two-level system with a quantum oscillator in the case when the rotating wave approximation fails. In this Letter, we present an approach to the exact diagonalization of the quantum Rabi Hamiltonian. This approach is based on the properties of the Pauli operators and allows us to readily solve the stationary Schrodinger equation for a two-level system. First, we demonstrate the applicability of the approach to the Jaynes-Cummings Hamiltonian to get the well-known solution. Then, we obtain the eigenvalues and eigenstates for the quantum Rabi Hamiltonian using the proposed approach. It is shown that the obtained eigenstates can be represented in the basis of the eigenstates of the Jaynes-Cummings Hamiltonian.
翻訳日:2023-04-02 08:53:03 公開日:2023-02-13
# 相互作用量子場理論への音源断片化アプローチ

A source fragmentation approach to interacting quantum field theory ( http://arxiv.org/abs/2109.04412v2 )

ライセンス: Link先を確認
Peter Morgan(参考訳) リー・シュリーダーの定理の系が証明され、時間順序の真空期待値と正規化ラグランジュ量子論のS行列は局所的に支持されるソース関数の非線形汎函数を利用する局所作用素によって近似できる。 ワイトマン公理について、これは作用素値分布によって生成されない測度作用素の代数を導出する修正を示唆する。 ソース関数の演算子値非線形汎関数の使用は、ボトムアップブロッキングやスケーリング構成と対照的に、相互作用する量子場のトップダウン構成を十分に定義するために、ソースの多くの抽象的な断片を導入する。 この構成は、相互作用ダイナミクスの局所化逆問題を解くか、多点境界状態場の生成関数として考えることもできる。

A corollary to the Reeh-Schlieder theorem is proved: that the time-ordered Vacuum Expectation Values and the S-matrix of a regularized Lagrangian quantum theory can be approximated by a local operator that uses nonlinear functionals of a locally supported source function. For the Wightman axioms, this suggests a modification that takes the algebra of measurement operators not to be generated by an operator-valued distribution. The use of operator-valued nonlinear functionals of a source function introduces many abstract fragments of the source to give a well-defined top-down construction of interacting quantum fields, in contrast to a bottom-up blocking and scaling construction or to analyzing response to changing renormalization scales. The construction can also be thought of as solving a localized inverse problem for the interacting dynamics or as a generating function for multi-point bound state fields.
翻訳日:2023-03-15 18:15:59 公開日:2023-02-13
# 10$折りたたみ方法を超えて:13$連想$Z_2\times Z_2$-graded superdivision algebras

Beyond the $10$-fold way: $13$ associative $Z_2\times Z_2$-graded superdivision algebras ( http://arxiv.org/abs/2112.00840v3 )

ライセンス: Link先を確認
Zhanna Kuznetsova and Francesco Toppan(参考訳) 10$-fold way" とは、実数、複素数、四元数からなる)3ドルの連想除算代数と、7ドルの$${\mathbb z}_2$-graded、超分割代数(超分割代数では、各斉次元は可逆である)を組み合わせた分類である。 トポロジカル絶縁体と超伝導体の周期表との10ドル折りの接続はよく知られている。 最近の${\mathbb Z}_2\times{\mathbb Z}_2$-graded Physics(古典的および量子不変モデル、パラ統計学)への関心に触発され、連想的な${\mathbb Z}_2\times {\mathbb Z}_2$-graded superdivision algebraを分類し、13$非等価ケースを10$-foldな方法で追加する必要があることを示す。 このスキームは、「クリフォード代数のアルファベット的表現」に基づいており、ここでは次数付き超分割代数に拡張される。 生成元は4ドル文字のアルファベットで等しい長さの単語として表される(文字は可逆な2ドル2セントの実行列を符号化し、各単語ではテンソル積の記号はスキップされる)。 13$ inequivalent${\mathbb z}_2\times {\mathbb z}_2$-graded superdivision algebras は実数列 (4$ subcases with four$ generators)、複素数列 (5$ subcases with eight$ generators)、四元数列 (4$ subcases with $116$ generators) に分けられる。

The "$10$-fold way" refers to the combined classification of the $3$ associative division algebras (of real, complex and quaternionic numbers) and of the $7$, ${\mathbb Z}_2$-graded, superdivision algebras (in a superdivision algebra each homogeneous element is invertible). The connection of the $10$-fold way with the periodic table of topological insulators and superconductors is well known. Motivated by the recent interest in ${\mathbb Z}_2\times{\mathbb Z}_2$-graded physics (classical and quantum invariant models, parastatistics) we classify the associative ${\mathbb Z}_2\times {\mathbb Z}_2$-graded superdivision algebras and show that $13$ inequivalent cases have to be added to the $10$-fold way. Our scheme is based on the "alphabetic presentation of Clifford algebras", here extended to graded superdivision algebras. The generators are expressed as equal-length words in a $4$-letter alphabet (the letters encode a basis of invertible $2\times 2$ real matrices and in each word the symbol of tensor product is skipped). The $13$ inequivalent ${\mathbb Z}_2\times {\mathbb Z}_2$-graded superdivision algebras are split into real series ($4$ subcases with $4$ generators each), complex series ($5$ subcases with $8$ generators) and quaternionic series ($4$ subcases with $16$ generators).
翻訳日:2023-03-06 04:24:14 公開日:2023-02-13
# 完全同型暗号化を用いたプライバシ保護木ベース推論

Privacy-Preserving Tree-Based Inference with Fully Homomorphic Encryption ( http://arxiv.org/abs/2303.01254v1 )

ライセンス: Link先を確認
Jordan Frery and Andrei Stoian and Roman Bredehoft and Luis Montero and Celia Kherfallah and Benoit Chevallier-Mames and Arthur Meyre(参考訳) プライバシー強化技術(pets)は、データ分析を許可しながらデータのプライバシーを保護する方法として提案されている。 本研究では、暗号化データ上で任意の計算を実行できる強力なツールであるFully Homomorphic Encryption (FHE)に焦点を当てる。 FHEはここ数年で多くの注目を集め、現実的な実行時間と正確性に達しています。 より正確には、木ベースのモデルにfheを適用する方法を説明し、暗号化された表データに対して最先端のソリューションを得る。 本手法は, 決定木, ランダム林, 勾配増木木など, 幅広い木質モデルに適用可能であり, https://github.com/zama-ai/concrete-ml でオープンソース化された concrete-ML ライブラリ内に実装されている。 選択されたユースケースセットを用いて、FHEバージョンが正確性の観点から、保護されていないバージョンに非常に近いことを示す。

Privacy enhancing technologies (PETs) have been proposed as a way to protect the privacy of data while still allowing for data analysis. In this work, we focus on Fully Homomorphic Encryption (FHE), a powerful tool that allows for arbitrary computations to be performed on encrypted data. FHE has received lots of attention in the past few years and has reached realistic execution times and correctness. More precisely, we explain in this paper how we apply FHE to tree-based models and get state-of-the-art solutions over encrypted tabular data. We show that our method is applicable to a wide range of tree-based models, including decision trees, random forests, and gradient boosted trees, and has been implemented within the Concrete-ML library, which is open-source at https://github.com/zama-ai/concrete-ml. With a selected set of use-cases, we demonstrate that our FHE version is very close to the unprotected version in terms of accuracy.
翻訳日:2023-03-05 05:35:24 公開日:2023-02-13
# 量子情報科学における非互換測定

Incompatible measurements in quantum information science ( http://arxiv.org/abs/2112.06784v3 )

ライセンス: Link先を確認
Otfried G\"uhne, Erkka Haapasalo, Tristan Kraft, Juha-Pekka Pellonp\"a\"a, Roope Uola(参考訳) 量子力学におけるいくつかの測定は互いに干渉する。 これは理論の定式化以降、物理学者を困惑させたが、近年では一般測定の関節測定可能性の概念を用いて、測定の非互換性を詳細に分析している。 本稿では、量子情報科学の観点から、コロキウム関節測定可能性と非互換性を概観する。 Colloquiumは基本的な定義と概念について議論することから始まる。 測定の不確実性関係、量子相関のキャラクタリゼーション、あるいは量子状態判別のような情報処理タスクなど、不整合性の適用の概要を示す。 最後に、非互換性の資源理論や量子力学における測定の性質を理解する他の概念といった研究の新たな方向について論じる。

Some measurements in quantum mechanics disturb each other. This has puzzled physicists since the formulation of the theory, but only in recent decades has the incompatibility of measurements been analyzed in depth and detail, using the notion of joint measurability of generalized measurements. In this Colloquium joint measurability and incompatibility are reviewed from the perspective of quantum information science. The Colloquium starts by discussing the basic definitions and concepts. An overview on applications of incompatibility, such as in measurement uncertainty relations, the characterization of quantum correlations, or information processing tasks like quantum state discrimination, is then presented. Finally, emerging directions of research, such as a resource theory of incompatibility as well as other concepts to grasp the nature of measurements in quantum mechanics, are discussed.
翻訳日:2023-03-04 16:43:43 公開日:2023-02-13
# 一般化に基づく類似性

Generalization-based similarity ( http://arxiv.org/abs/2302.10096v1 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 類似性の検出と利用は、人工知能のコアであるアナログ推論の中核にある。 本稿では、抽象代数的概念を基礎から発展させ、一般化の集合が要素の重要な性質を符号化する観察に基づいて類似性の質的概念を定式化する。 このように定義される類似性は数学的性質に訴える。 普遍代数学の基本的な概念のみを用いて第一原理から類似性の概念を構築し、その概念の妥当性を読者に納得させることで、モデル理論型を通して自然に一階論理に組み込むことができることを示す。 より広い意味では、この論文は類推論の数学的理論へのさらなる一歩である。

Detecting and exploiting similarities is at the core of analogical reasoning which itself is at the core of artificial intelligence. This paper develops {\em from the ground up} an abstract algebraic and {\em qualitative} notion of similarity based on the observation that sets of generalizations encode important properties of elements. We show that similarity defined in this way has appealing mathematical properties. As we construct our notion of similarity from first principles using only elementary concepts of universal algebra, to convince the reader of the plausibility of our notion we show that it can be naturally embedded into first-order logic via model-theoretic types. In a broader sense, this paper is a further step towards a mathematical theory of analogical reasoning.
翻訳日:2023-02-26 14:45:05 公開日:2023-02-13
# paparazzi: 視点記述の接地のための言語と視覚モデルの能力について

Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint Descriptions ( http://arxiv.org/abs/2302.10282v1 )

ライセンス: Link先を確認
Henrik Voigt, Jan Hombeck, Monique Meuschke, Kai Lawonn, Sina Zarrie{\ss}(参考訳) 既存の言語と視覚モデルは、画像テキスト理解において印象的な性能を達成する。 しかし、3D環境における言語理解にどの程度使えるのか、オブジェクトの異なる視点など、暗黙的に3Dオブジェクトの知識を取得するのかは、オープンな疑問である。 本稿では,最先端の言語とビジョンモデルであるCLIPが3次元オブジェクトの視点記述を基盤として,テキストクエリに基づく共通オブジェクトの標準ビューを識別できるかどうかを検討する。 本稿では,3次元物体の周囲にカメラを配置し,異なる視点から画像を生成し,それらの自然言語記述との類似性の観点から評価する。 事前学習したCLIPモデルはほとんどの標準的ビューでは性能が悪く、ハードネガティブサンプリングとランダムコントラストを用いた微調整により、トレーニングデータが少ない条件下でも良好な結果が得られることがわかった。

Existing language and vision models achieve impressive performance in image-text understanding. Yet, it is an open question to what extent they can be used for language understanding in 3D environments and whether they implicitly acquire 3D object knowledge, e.g. about different views of an object. In this paper, we investigate whether a state-of-the-art language and vision model, CLIP, is able to ground perspective descriptions of a 3D object and identify canonical views of common objects based on text queries. We present an evaluation framework that uses a circling camera around a 3D object to generate images from different viewpoints and evaluate them in terms of their similarity to natural language descriptions. We find that a pre-trained CLIP model performs poorly on most canonical views and that fine-tuning using hard negative sampling and random contrasting yields good results even under conditions with little available training data.
翻訳日:2023-02-26 14:27:23 公開日:2023-02-13
# きめ細かい視覚分類のための意味的特徴統合ネットワーク

Semantic Feature Integration network for Fine-grained Visual Classification ( http://arxiv.org/abs/2302.10275v1 )

ライセンス: Link先を確認
Hui Wang, Yueyang li, Haichi Luo(参考訳) 細粒度視覚分類(FGVC)は下位分類の微妙な違いから難しい課題として知られている。 多くのFGVCアプローチは、注意機構を用いて識別領域を特定し、位置を特定することに重点を置いているが、オブジェクト構造を理解するのを妨げる不要な特徴の存在を無視している。 これらの不要な特徴は 1)物体の外観と視覚的類似性から生じる曖昧な部分 2)非形式的部分(背景雑音など)は分類結果に重大な影響を及ぼす可能性がある。 本稿では,これらの課題に対処する意味的特徴統合ネットワーク(SFI-Net)を提案する。 不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。 ネットワークは2つのモジュールで構成される。 1) マルチレベル特徴フィルタ (MFF) モジュールは, 異なる受容領域を持つ不要な特徴を除去し, その後の処理のために画素レベルの保存特徴を連結する。 2) 意味情報再構成(SIR)モジュールを提示し、MFFモジュールから得られる識別的特徴間の意味関係をさらに確立する。 これら2つのモジュールは慎重に設計されており、軽量に設計されており、教師の弱い方法でエンドツーエンドで訓練することができる。 提案したSFI-Netが最先端の性能を達成できることを示す。 特に,cub-200-2011およびスタンフォード犬におけるモデルの分類精度は,それぞれ92.64%,93.03%に達した。

Fine-Grained Visual Classification (FGVC) is known as a challenging task due to subtle differences among subordinate categories. Many current FGVC approaches focus on identifying and locating discriminative regions by using the attention mechanism, but neglect the presence of unnecessary features that hinder the understanding of object structure. These unnecessary features, including 1) ambiguous parts resulting from the visual similarity in object appearances and 2) noninformative parts (e.g., background noise), can have a significant adverse impact on classification results. In this paper, we propose the Semantic Feature Integration network (SFI-Net) to address the above difficulties. By eliminating unnecessary features and reconstructing the semantic relations among discriminative features, our SFI-Net has achieved satisfying performance. The network consists of two modules: 1) the multi-level feature filter (MFF) module is proposed to remove unnecessary features with different receptive field, and then concatenate the preserved features on pixel level for subsequent disposal; 2) the semantic information reconstitution (SIR) module is presented to further establish semantic relations among discriminative features obtained from the MFF module. These two modules are carefully designed to be light-weighted and can be trained end-to-end in a weakly-supervised way. Extensive experiments on four challenging fine-grained benchmarks demonstrate that our proposed SFI-Net achieves the state-of-the-arts performance. Especially, the classification accuracy of our model on CUB-200-2011 and Stanford Dogs reaches 92.64% and 93.03%, respectively.
翻訳日:2023-02-26 14:25:10 公開日:2023-02-13
# 人間中心型マルチモーダル機械学習:aiに基づくリクルートに関する最近の進歩とテストベッド

Human-Centric Multimodal Machine Learning: Recent Advances and Testbed on AI-based Recruitment ( http://arxiv.org/abs/2302.10908v1 )

ライセンス: Link先を確認
Alejandro Pe\~na, Ignacio Serna, Aythami Morales, Julian Fierrez, Alfonso Ortega, Ainhoa Herrarte, Manuel Alcantara and Javier Ortega-Garcia(参考訳) 社会における意思決定アルゴリズムの存在は急速に増加しており、その透明性とこれらのアルゴリズムが新たな差別源となる可能性への懸念が生まれている。 人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。 人中心機械学習は4つの主要な要件に基づいて開発する必要がある。 (i)実用性及び社会性 (二)プライバシー及びデータ所有権 (iii)透明性及び説明責任、及び (4)AIによる意思決定プロセスにおける公平性。 これら4つの人間中心の要件は互いに密接に関連している。 異質な情報ソースに基づく現在のマルチモーダルアルゴリズムが、データ中のセンシティブな要素や内部バイアスによってどのように影響を受けるかを研究することを目的として、自動採用に焦点を当てた架空のケーススタディであるFairCVtestを提案する。 画像,テキスト,構造化データを含むマルチモーダル合成プロファイルを用いて自動採用アルゴリズムを訓練し,性別や人種の偏りから意識的に得点する。 faircvtestは、この方法で構築された自動リクルートツール(リクルート以外の多くのアプリケーションシナリオで一般的なプラクティス)を支える人工知能(ai)の能力を示し、非構造化データから機密情報を抽出し、望ましくない(好ましくない)方法でデータバイアスと組み合わせて活用する。 本稿では、ディープラーニングアーキテクチャの意思決定プロセスからセンシティブな情報やバイアスを取り除く技術や、aiにおけるフェアネス研究に一般的に使用されるデータベースについて概説する。 我々は、潜在空間におけるプライバシーを保証するための学習アプローチが、偏見のない公正な自動意思決定プロセスにつながることを実証する。

The presence of decision-making algorithms in society is rapidly increasing nowadays, while concerns about their transparency and the possibility of these algorithms becoming new sources of discrimination are arising. There is a certain consensus about the need to develop AI applications with a Human-Centric approach. Human-Centric Machine Learning needs to be developed based on four main requirements: (i) utility and social good; (ii) privacy and data ownership; (iii) transparency and accountability; and (iv) fairness in AI-driven decision-making processes. All these four Human-Centric requirements are closely related to each other. With the aim of studying how current multimodal algorithms based on heterogeneous sources of information are affected by sensitive elements and inner biases in the data, we propose a fictitious case study focused on automated recruitment: FairCVtest. We train automatic recruitment algorithms using a set of multimodal synthetic profiles including image, text, and structured data, which are consciously scored with gender and racial biases. FairCVtest shows the capacity of the Artificial Intelligence (AI) behind automatic recruitment tools built this way (a common practice in many other application scenarios beyond recruitment) to extract sensitive information from unstructured data and exploit it in combination to data biases in undesirable (unfair) ways. We present an overview of recent works developing techniques capable of removing sensitive information and biases from the decision-making process of deep learning architectures, as well as commonly used databases for fairness research in AI. We demonstrate how learning approaches developed to guarantee privacy in latent spaces can lead to unbiased and fair automatic decision-making process.
翻訳日:2023-02-26 13:42:50 公開日:2023-02-13
# バイオインフォマティクスにおける拡散モデル--deep learning revolution in actionの新しい波

Diffusion Models in Bioinformatics: A New Wave of Deep Learning Revolution in Action ( http://arxiv.org/abs/2302.10907v1 )

ライセンス: Link先を確認
Zhiye Guo, Jian Liu, Yanli Wang, Mengrui Chen, Duolin Wang, Dong Xu, Jianlin Cheng(参考訳) 近年、拡散モデルが最も強力な生成モデルの一つとして出現している。 コンピュータビジョン、自然言語処理(NLP)、バイオインフォマティクスなど、多くの分野で大きな成功を収めている。 拡散モデルとそのコンピュータビジョンおよびNLPへの応用に関する優れたレビューはいくつかあるが、バイオインフォマティクスにおけるそれらの応用の概要は乏しい。 バイオインフォマティクスにおける拡散モデルの応用を概観し、バイオインフォマティクスと計算生物学のさらなる発展を支援することを目的としている。 We start with an introduction of the key concepts and theoretical foundations of three cornerstone diffusion modeling frameworks (denoising diffusion probabilistic models, noise-conditioned scoring networks, and stochastic differential equations), followed by a comprehensive description of diffusion models employed in the different domains of bioinformatics, including cryo-EM data enhancement, single-cell data analysis, protein design and generation, drug and small molecule design, and protein-ligand interaction. バイオインフォマティクスにおける拡散モデルの新たな展開と応用について概説した。

Denoising diffusion models have emerged as one of the most powerful generative models in recent years. They have achieved remarkable success in many fields, such as computer vision, natural language processing (NLP), and bioinformatics. Although there are a few excellent reviews on diffusion models and their applications in computer vision and NLP, there is a lack of an overview of their applications in bioinformatics. This review aims to provide a rather thorough overview of the applications of diffusion models in bioinformatics to aid their further development in bioinformatics and computational biology. We start with an introduction of the key concepts and theoretical foundations of three cornerstone diffusion modeling frameworks (denoising diffusion probabilistic models, noise-conditioned scoring networks, and stochastic differential equations), followed by a comprehensive description of diffusion models employed in the different domains of bioinformatics, including cryo-EM data enhancement, single-cell data analysis, protein design and generation, drug and small molecule design, and protein-ligand interaction. The review is concluded with a summary of the potential new development and applications of diffusion models in bioinformatics.
翻訳日:2023-02-26 13:42:20 公開日:2023-02-13
# tfheを用いた暗号推論のためのディープニューラルネットワーク

Deep Neural Networks for Encrypted Inference with TFHE ( http://arxiv.org/abs/2302.10906v1 )

ライセンス: Link先を確認
Andrei Stoian and Jordan Frery and Roman Bredehoft and Luis Montero and Celia Kherfallah and Benoit Chevallier-Mames(参考訳) full homomorphic encryption (fhe) は暗号化データ上で復号化せずに計算を行う暗号化手法である。 fheは、健康データ、生体認証、クレジットスコア、その他の個人情報などの機密データを扱うオンラインサービスのユーザーのプライバシーを保護している。 そのようなデータに価値あるサービスを提供する一般的な方法は、機械学習であり、現時点では、非構造化データにとってニューラルネットワークが支配的な機械学習モデルである。 本研究では、任意の深度計算回路を可能にするFHEスキームであるTFHEの制約に適合するディープニューラルネットワーク(DNN)を構築する方法を示す。 2つのコンピュータビジョンタスクの制約について議論し、DNNのアーキテクチャを示す。 TFHE のオープンソース実装である concrete stack を用いてアーキテクチャをベンチマークする。

Fully homomorphic encryption (FHE) is an encryption method that allows to perform computation on encrypted data, without decryption. FHE preserves the privacy of the users of online services that handle sensitive data, such as health data, biometrics, credit scores and other personal information. A common way to provide a valuable service on such data is through machine learning and, at this time, Neural Networks are the dominant machine learning model for unstructured data. In this work we show how to construct Deep Neural Networks (DNN) that are compatible with the constraints of TFHE, an FHE scheme that allows arbitrary depth computation circuits. We discuss the constraints and show the architecture of DNNs for two computer vision tasks. We benchmark the architectures using the Concrete stack, an open-source implementation of TFHE.
翻訳日:2023-02-26 13:42:04 公開日:2023-02-13
# 超伝導量子コンピュータによる分光実験のシミュレーション

Simulating spectroscopy experiments with a superconducting quantum computer ( http://arxiv.org/abs/2202.12910v3 )

ライセンス: Link先を確認
John P. T. Stenger, Gilad Ben-Shach, David Pekker, Nicholas T. Bronn(参考訳) 本稿では,量子計算機上でのスペクトルに基づく固有値問題の解法を提案する。 この方法は "probe" 量子ビットを一連のシステムシミュレーション量子ビットに結合し、プローブとハミルトニアンダイナミクス下のシステムの両方を時間発展させる。 このように、量子コンピュータ上で分光をシミュレートする。 本手法は,単純な単一スピンモデルと相互作用するキタエフ連鎖モデルに対して,ibm量子ハードウェア上でテストする。 キタエフ連鎖に対しては、2-サイトモデルの擬位相的位相境界を追跡する。

We present a novel method for solving eigenvalue problems on a quantum computer based on spectroscopy. The method works by coupling a "probe" qubit to a set of system simulation qubits and then time evolving both the probe and the system under Hamiltonian dynamics. In this way, we simulate spectroscopy on a quantum computer. We test our method on the IBM quantum hardware for a simple single spin model and an interacting Kitaev chain model. For the Kitaev chain, we trace out the pseudo-topological phase boundary for a two-site model.
翻訳日:2023-02-23 23:27:15 公開日:2023-02-13
# Perceval: 分散可変フォトニック量子コンピューティングのためのソフトウェアプラットフォーム

Perceval: A Software Platform for Discrete Variable Photonic Quantum Computing ( http://arxiv.org/abs/2204.00602v2 )

ライセンス: Link先を確認
Nicolas Heurtel, Andreas Fyrillas, Gr\'egoire de Gliniasty, Rapha\"el Le Bihan, S\'ebastien Malherbe, Marceau Pailhas, Eric Bertasi, Boris Bourdoncle, Pierre-Emmanuel Emeriau, Rawad Mezher, Luka Music, Nadia Belabas, Beno\^it Valiron, Pascale Senellart, Shane Mansfield, and Jean Senellart(参考訳) 我々は,分散可変フォトニック量子コンピュータをシミュレートし,インターフェースするオープンソースソフトウェアプラットフォームであるpercevalを紹介し,その主な機能とコンポーネントについて述べる。 pythonのフロントエンドは、フォトニック回路を光子源、ビームスプリッター、位相シフト器、検出器などの基本的なフォトニックビルディングブロックから構成できる。 さまざまな計算バックエンドが利用可能であり、さまざまなユースケースに最適化されている。 これらは、弱いシミュレーション、サンプリング、強いシミュレーションの両方をカバーする最先端のシミュレーション技術を使用する。 我々は、様々なフォトニック実験を再現し、グローバーやショールから量子機械学習の例まで、様々な量子アルゴリズムのフォトニック実装をシミュレートすることで、perceval in actionの例を示す。 Percevalは、離散可変フォトニクスの実験をモデル化し、設計し、シミュレートし、最適化したい実験家や、離散可変フォトニック量子コンピューティングプラットフォーム向けのアルゴリズムとアプリケーションを設計したい理論家、利用可能な最先端フォトニック量子コンピュータでアルゴリズムを評価したいアプリケーション設計者にとって有用なツールキットである。

We introduce Perceval, an open-source software platform for simulating and interfacing with discrete-variable photonic quantum computers, and describe its main features and components. Its Python front-end allows photonic circuits to be composed from basic photonic building blocks like photon sources, beam splitters, phase-shifters and detectors. A variety of computational back-ends are available and optimised for different use-cases. These use state-of-the-art simulation techniques covering both weak simulation, or sampling, and strong simulation. We give examples of Perceval in action by reproducing a variety of photonic experiments and simulating photonic implementations of a range of quantum algorithms, from Grover's and Shor's to examples of quantum machine learning. Perceval is intended to be a useful toolkit for experimentalists wishing to easily model, design, simulate, or optimise a discrete-variable photonic experiment, for theoreticians wishing to design algorithms and applications for discrete-variable photonic quantum computing platforms, and for application designers wishing to evaluate algorithms on available state-of-the-art photonic quantum computers.
翻訳日:2023-02-20 02:28:37 公開日:2023-02-13
# Twitter利用者の個人社会経済状態推定手法

A Method for Estimating Individual Socioeconomic Status of Twitter Users ( http://arxiv.org/abs/2203.11636v2 )

ライセンス: Link先を確認
Yuanmo He, Milena Tsvetkova(参考訳) ソーシャルメディアの台頭は、新しいデータと手法で社会科学の疑問を探求する無数の機会を開いている。 しかし、社会経済的不平等の研究は、デジタルトレースデータにおける個人レベルの社会経済的地位(ses)の制限によって制約されている。 Bourdieuに続いて、Twitterユーザーがフォローしている商業およびエンターテイメントのアカウントは、彼らの経済と文化の資本を反映していると主張する。 政治イデオロギーを推測する政治学の手法を適用し,米国内の339ブランドのアカウントをフォローする3,482,652人のtwitterユーザのsesを,通信分析を用いて推定する。 facebook marketing apiのデータや、ユーザのtwitterプロフィールに自己報告されたジョブタイトル、そして小さな調査サンプルを使って、見積もりを検証する。 その結果、SESの標準プロキシと合理的な相関を示すとともに、他の人口統計学的変数とのより弱い相関や非重要な相関を示す。 提案手法は,twitter等のオンラインプラットフォームにおける不平等に関する革新的社会研究の新たな機会を開くものである。

The rise of social media has opened countless opportunities to explore social science questions with new data and methods. However, research on socioeconomic inequality remains constrained by limited individual-level socioeconomic status (SES) measures in digital trace data. Following Bourdieu, we argue that the commercial and entertainment accounts Twitter users follow reflect their economic and cultural capital. Adapting a political science method for inferring political ideology, we use correspondence analysis to estimate the SES of 3,482,652 Twitter users who follow the accounts of 339 brands in the United States. We validate our estimates with data from the Facebook Marketing API, self-reported job titles on users' Twitter profiles, and a small survey sample. The results show reasonable correlations with the standard proxies for SES, alongside much weaker or non-significant correlations with other demographic variables. The proposed method opens new opportunities for innovative social research on inequality on Twitter and similar online platforms.
翻訳日:2023-02-19 15:48:31 公開日:2023-02-13
# 機械の説明と人間の理解

Machine Explanations and Human Understanding ( http://arxiv.org/abs/2202.04092v2 )

ライセンス: Link先を確認
Chacha Chen, Shi Feng, Amit Sharma, Chenhao Tan(参考訳) 説明は、機械学習モデルの人間の理解を改善し、モデルデバッギングから人間の意思決定の強化まで、様々な望ましい結果を達成すると仮定される。 しかし、経験的な研究は混ざり合った結果、さらには否定的な結果が得られた。 したがって、オープンな質問は、説明が人間の理解を改善する条件と、どのようにして行うかである。 適応因果図を用いて,機械の説明と人間の理解との相互作用を形式的に特徴付けし,人間の直観が人間の理解を実現する上で中心的な役割を果たすことを示す。 具体的には、タスク決定境界、モデル決定境界、モデルエラーという、人間-ai意思決定のコンテキストにおける理解のすべての既存の定量的尺度をカバーする3つの関心概念を識別する。 我々の重要な結果は、タスク固有の直観に関する仮定がなければ、説明はモデル決定境界に対する人間の理解を改善する可能性があるが、タスク決定境界やモデルエラーに対する人間の理解を改善することはできないということである。 補完的な人間-AIのパフォーマンスを達成するために、人間の直感で説明がどう機能するかを明確にする。 例えば、特徴の関連性に関する人間の直感(例えば、収入を予測するのに年齢よりも教育の方が重要である)は、モデルエラーを検出する上で重要である。 実験的な人間-主観研究により,機械説明の結果を形作る上で,人間の直観の重要性を検証する。 全体として、我々の研究は、将来のアルゴリズム開発と機械説明の実証実験のための実用的な意味を持つ一般的なフレームワークを提供する。

Explanations are hypothesized to improve human understanding of machine learning models and achieve a variety of desirable outcomes, ranging from model debugging to enhancing human decision making. However, empirical studies have found mixed and even negative results. An open question, therefore, is under what conditions explanations can improve human understanding and in what way. Using adapted causal diagrams, we provide a formal characterization of the interplay between machine explanations and human understanding, and show how human intuitions play a central role in enabling human understanding. Specifically, we identify three core concepts of interest that cover all existing quantitative measures of understanding in the context of human-AI decision making: task decision boundary, model decision boundary, and model error. Our key result is that without assumptions about task-specific intuitions, explanations may potentially improve human understanding of model decision boundary, but they cannot improve human understanding of task decision boundary or model error. To achieve complementary human-AI performance, we articulate possible ways on how explanations need to work with human intuitions. For instance, human intuitions about the relevance of features (e.g., education is more important than age in predicting a person's income) can be critical in detecting model error. We validate the importance of human intuitions in shaping the outcome of machine explanations with empirical human-subject studies. Overall, our work provides a general framework along with actionable implications for future algorithmic development and empirical experiments of machine explanations.
翻訳日:2023-02-19 14:46:51 公開日:2023-02-13
# 規制のある医療産業における製品を含む人工知能の検証

Validation of artificial intelligence containing products across the regulated healthcare industries ( http://arxiv.org/abs/2302.07103v1 )

ライセンス: Link先を確認
David Higgins, Christian Johner(参考訳) 目的: 医薬品開発(R&D)及び医薬品製造(MD)及び生体内診断(IVD)の規制分野への人工知能/機械学習(AI/ML)製品の導入は、新しい規制上の問題を引き起こす。 製品開発におけるバリデーションは、コンピュータ化されたシステムやAI/ML開発など、これらの分野のそれぞれに共通する重要なステップであり、製品開発における人々とプロセスの整合性を比較する機会を提供する。 方法: ワークショップとその後の一連の交換に基づいて構築された比較アプローチは、混合チーム作業に適したルックアップテーブルにまとめられている。 結果 1 ボトムアップの定義は、広義の検証と狭義の検証と規制体制との関係を区別するアプローチを導いた。 2.AIを含むソフトウェア検証の主要な方法論の共通基礎 3. 協力の基盤として, 医薬品開発と, MD/IVD 特有のAIソフトウェア開発 結論: 人工知能/機械学習(AI/ML)コンポーネントを含むソフトウェア製品の、規制された人間の健康産業における検証に使用される用語と方法論の調整は、プロセスの合理化とワークフローの改善における重要な第一歩です。

Purpose: The introduction of artificial intelligence / machine learning (AI/ML) products to the regulated fields of pharmaceutical research and development (R&D) and drug manufacture, and medical devices (MD) and in-vitro diagnostics (IVD), poses new regulatory problems: a lack of a common terminology and understanding leads to confusion, delays and product failures. Validation as a key step in product development, common to each of these sectors including computerized systems and AI/ML development, offers an opportune point of comparison for aligning people and processes for cross-sectoral product development. Methods: A comparative approach, built upon workshops and a subsequent written sequence of exchanges, summarized in a look-up table suitable for mixed-teams work. Results: 1. A bottom-up, definitions led, approach which leads to a distinction between broad vs narrow validation, and their relationship to regulatory regimes. 2. Common basis introduction to the primary methodologies for AI-containing software validation. 3. Pharmaceutical drug development and MD/IVD specific perspectives on compliant AI software development, as a basis for collaboration. Conclusions: Alignment of the terms and methodologies used in validation of software products containing artificial intelligence / machine learning (AI/ML) components across the regulated industries of human health is a vital first step in streamlining processes and improving workflows.
翻訳日:2023-02-19 14:11:09 公開日:2023-02-13
# 医療における人工知能と人文科学の統合

Integrating Artificial Intelligence and Humanities in Healthcare ( http://arxiv.org/abs/2302.07081v1 )

ライセンス: Link先を確認
Zohaib Tariq(参考訳) 人工知能(AI)と医療人文科学は、現在世界でもっとも重要かつ急速に成長している分野の2つになっている。 aiは近年大きく進歩し、人間が伝統的に行うタスクを実行できるアルゴリズムやシステムの開発を可能にした。 一方、医学的人文科学は医学、人文科学、社会科学の交点であり、健康、病気、医学の文化的、歴史的、哲学的、倫理的、社会的側面を扱う。 AIとメディカル・ヒューマニティの統合は、医療分野の急激な問題に対する革新的な解決策を提供することができる。

Artificial Intelligence (AI) and Medical Humanities have become two of the most crucial and rapidly growing fields in the current world. AI has made substantial advancements in recent years, enabling the development of algorithms and systems that can perform tasks traditionally done by humans. Medical Humanities, on the other hand, is the intersection of medical sciences, humanities, and the social sciences, and deals with the cultural, historical, philosophical, ethical, and social aspects of health, illness, and medicine. The integration of AI and Medical Humanities can offer innovative solutions to some of the pressing issues in the medical field.
翻訳日:2023-02-19 14:10:19 公開日:2023-02-13
# 規律を超えたAI研究の重要性について

On the importance of AI research beyond disciplines ( http://arxiv.org/abs/2302.06655v1 )

ライセンス: Link先を確認
Virginia Dignum, Donal Casey, Teresa Cerratto-Pargman, Frank Dignum, Valentina Fantasia, Bodil Formark, Bj\"orn Hammarfelt, Gunnar Holmberg, Andr\'e Holzapfel, Stefan Larsson, Amanda Lagerkvist, Nicolette Lakemond, Helena Lindgren, Fabian Lorig, Ana Marusic, Lina Rahm, Yulia Razmetaeva, Sverker Sikstr\"om, K{\i}van\c{c} Tatar, Jason Tucker(参考訳) 様々な科学分野におけるAIの影響が増大しているため、技術が社会に与える影響を理解するために学際的知識を受け入れることが不可欠である。 目標は、多様性を尊重し、創造し、批判し、新しい概念的および理論的な枠組みを開発する規律を超えて研究環境を育むことである。 規律を超えた研究は、複雑な社会問題を理解し、ポジティブな影響を生み出すのに不可欠であるが、評価することは極めて困難であり、しばしば現在の学術的キャリアの進展によって認識されない。 この論文の動機は、規律を幅広く議論し、構造化され包括的な方法でAI研究を指導する原則を特定し、新たな視点を明らかにし、社会的・人的幸福と持続可能性に寄与することである。

As the impact of AI on various scientific fields is increasing, it is crucial to embrace interdisciplinary knowledge to understand the impact of technology on society. The goal is to foster a research environment beyond disciplines that values diversity and creates, critiques and develops new conceptual and theoretical frameworks. Even though research beyond disciplines is essential for understanding complex societal issues and creating positive impact it is notoriously difficult to evaluate and is often not recognized by current academic career progression. The motivation for this paper is to engage in broad discussion across disciplines and identify guiding principles fir AI research beyond disciplines in a structured and inclusive way, revealing new perspectives and contributing to societal and human wellbeing and sustainability.
翻訳日:2023-02-19 14:09:09 公開日:2023-02-13
# トランザクショナル民主主義を超えて:カナダにおける市民技術の研究

Beyond Transactional Democracy: A Study of Civic Tech in Canada ( http://arxiv.org/abs/2302.06651v1 )

ライセンス: Link先を確認
Curtis W McCord, Christoph Becker(参考訳) 民間人が政策立案に携わるプロジェクトにおいて、しばしば「市民技術」というラベルで技術がますます登録されている。 しかし、投票のような従来型の取引による参加は、参加機会が限られている。 それに応えて、一部の市民技術グループは、新しい形態の民主的テクノロジーを探求するために共通の関心事の問題を組織している。 彼らの仕事は公務員と公務員の関係にどのように影響しますか。 本稿では,市民参加のための自律型コミュニティの維持と,カジュアルで社会的,非党派的,実験的,柔軟な参加を通じて,市民参加のためのプラットフォームを構築する方法について検討する。 本論文は,コミュニティの組織化,インタビュー,観察など2年間の行動研究に基づいて,この草の根市民技術グループが,公務員の業務に接する多様な参加者を配置し,公務員と公務員の両方を参加民主主義の業務のために準備する能力と関係を構築するための市民プラットフォームを構築する方法を示す。 このケースは、市民技術を理解するには単なる分析や技術工芸品の生産以上のレンズが必要であることを示している。 社会的かつ参加的な技術を作るための実践として、市民技術は、テクノロジー開発と実験と学習の機会の代替モードを作成し、民主的参加者の役割を再設定することができる。

Technologies are increasingly enrolled in projects to involve civilians in the work of policy-making, often under the label of 'civic technology'. But conventional forms of participation through transactions such as voting provide limited opportunities for engagement. In response, some civic tech groups organize around issues of shared concern to explore new forms of democratic technologies. How does their work affect the relationship between publics and public servants? This paper explores how a Civic Tech Toronto creates a platform for civic engagement through the maintenance of an autonomous community for civic engagement and participation that is casual, social, nonpartisan, experimental, and flexible. Based on two years of action research, including community organizing, interviews, and observations, this paper shows how this grassroots civic tech group creates a civic platform that places a diverse range of participants in contact with the work of public servants, helping to build capacities and relationships that prepare both publics and public servants for the work of participatory democracy. The case shows that understanding civic tech requires a lens beyond the mere analysis or production of technical artifacts. As a practice for making technologies that is social and participatory, civic tech creates alternative modes of technology development and opportunities for experimentation and learning, and it can reconfigure the roles of democratic participants.
翻訳日:2023-02-19 14:08:55 公開日:2023-02-13
# 戦略ユーザへのレコメンデーション

Recommending to Strategic Users ( http://arxiv.org/abs/2302.06559v1 )

ライセンス: Link先を確認
Andreas Haupt, Dylan Hadfield-Menell and Chara Podimata(参考訳) 勧告システムはデジタル経済に広く浸透している。 多くのデプロイされたシステムにおいて重要な仮定は、ユーザ消費が静的な意味でユーザの好みを反映しているということである。 しかし、大規模オンライン調査で文書化されているように、ユーザは将来推奨されるコンテンツの種類に影響を与えるために戦略的にコンテンツを選択します。 我々は,このユーザの行動を,レコメンデーションシステムとユーザ間の2段階のノイズシグナリングゲームとしてモデル化する。レコメンデーションシステムは,まずレコメンデーションポリシーにコミットし,ユーザがレコメンデーションフェーズで推奨されるコンテンツの種類に影響を与えるために,戦略的に消費することを選択したコールドスタートフェーズ中に,ユーザにコンテンツを提示する。 バランスの取れた状態では、ユーザーは異なる好みのプロフィールを持つユーザーとの違いを強調する行動にかかわる。 加えて、少数派コンテンツの展示物を失うことを恐れた(統計的な)マイノリティは、主流ユーザーから好まれるコンテンツを消費しないかもしれない。 次に、戦略的消費を考慮した場合、推奨品質(平均とマイノリティの両方)を改善するための3つの介入を提案する。(1)事前の嗜好を取り入れたレコメンデーションシステムポリシーを採用すること、(2)「メインストリーム」コンテンツが普遍的に好まれないユーザへのコミュニケートを行うこと、(3)パーソナライズされたコンテンツが最初から好まれることが予想されるサービングコンテンツ。 最後に,応用理論モデリングを調査結果で示す手法について述べる。

Recommendation systems are pervasive in the digital economy. An important assumption in many deployed systems is that user consumption reflects user preferences in a static sense: users consume the content they like with no other considerations in mind. However, as we document in a large-scale online survey, users do choose content strategically to influence the types of content they get recommended in the future. We model this user behavior as a two-stage noisy signalling game between the recommendation system and users: the recommendation system initially commits to a recommendation policy, presents content to the users during a cold start phase which the users choose to strategically consume in order to affect the types of content they will be recommended in a recommendation phase. We show that in equilibrium, users engage in behaviors that accentuate their differences to users of different preference profiles. In addition, (statistical) minorities out of fear of losing their minority content exposition may not consume content that is liked by mainstream users. We next propose three interventions that may improve recommendation quality (both on average and for minorities) when taking into account strategic consumption: (1) Adopting a recommendation system policy that uses preferences from a prior, (2) Communicating to users that universally liked ("mainstream") content will not be used as basis of recommendation, and (3) Serving content that is personalized-enough yet expected to be liked in the beginning. Finally, we describe a methodology to inform applied theory modeling with survey results.
翻訳日:2023-02-19 14:08:30 公開日:2023-02-13
# 現金と暗号通貨という2つの通貨の話

A Tale of Two Currencies: Cash and Crypto ( http://arxiv.org/abs/2302.06348v1 )

ライセンス: Link先を確認
Ravi Kashyap(参考訳) 我々は、今日の社会のスムーズな機能のために暗号通貨が高揚する理由について、多くの正当化について論じる。 我々は、ブロックチェーンプロジェクト、暗号通貨、および従来の政府発行通貨、現金またはフィアットの比較を行う。 我々は、参加者が分散金融(defi)をより信頼し、より優れたリスク管理を伴う富の獲得のために必要となる7つの基本的なイノベーションをまとめる。 私たちが議論する概念は、次のようなアプローチを概説する。 1) セキュリティ・ブループリントの強化 2)ブロックチェーン・ナンスのための再バランスと取引実行 3)ボラティリティと変動調整重量計算 4) 投資家の選好及びリスクパリティ構築の適応 5) 利益分配及び投資者保護 6) 集中リスク指標及び性能指標 7) 分散型自律組織(dao)の概念を含むマルチチェーン拡張と戦略イニシアティブの選択。 これらの概念を複数のプロジェクトに組み込むことは、ブロックチェーンエコシステム全体の成長を促進することで、このテクノロジが広く普及し、人間のインタラクションのあらゆる側面を変革する可能性を満たすことができる。

We discuss numerous justifications for why crypto-currencies would be highly conducive for the smooth functioning of today's society. We provide several comparisons between cryptocurrencies issued by blockchain projects, crypto, and conventional government issued currencies, cash or fiat. We summarize seven fundamental innovations that would be required for participants to have greater confidence in decentralized finance (DeFi) and to obtain wealth appreciation coupled with better risk management. The conceptual ideas we discuss outline an approach to: 1) Strengthened Security Blueprint; 2) Rebalancing and Trade Execution Suited for Blockchain Nuances 3) Volatility and Variance Adjusted Weight Calculation 4) Accommodating Investor Preferences and Risk Parity Construction; 5) Profit Sharing and Investor Protection; 6) Concentration Risk Indicator and Performance Metrics; 7) Multi-chain expansion and Select Strategic Initiatives including the notion of a Decentralized Autonomous Organization (DAO). Incorporating these concepts into several projects would also facilitate the growth of the overall blockchain eco-system so that this technology can, have wider mainstream adoption and, fulfill its potential in transforming all aspects of human interactions.
翻訳日:2023-02-19 14:08:01 公開日:2023-02-13
# 女子高生を惹きつけるためのict学習戦略

A Greed(y) Training Strategy to Attract High School Girls to Undertake Studies in ICT ( http://arxiv.org/abs/2302.06304v1 )

ライセンス: Link先を確認
Tiziana Catarci and Barbara Polidori and Daniel Raffini and Paola Velardi(参考訳) 多くの研究で、一般的に女子学生はICTのコースを受講することを望んでいないことが観察されている。 近年の文献では、これらの規律に関する女子の偏見を損なうことは、青年期には非常に困難であることが指摘されており、コンピュータの規律に関する意識プログラムを有効にするためには、就学前または中学生に提供すべきである。 一方で、大規模コンピュータリテラシープログラムが、中学校や幼稚園で直ちに活性化できると仮定しても、これらのプログラムの有効性を評価できるまで15~20年は待たない。 ICTにおける女性の不足は、国家の技術革新に明白な負の影響をもたらし、即時行動を必要とする。 本稿では,サピエンザ大学の工学科とコンピュータ科学科が連携し,女子高生に新しい技術やICTの重要性を知ってもらうための戦略とプログラムの詳細について述べる。 理論的アプローチを説明することに加えて、いくつかのプロジェクト例を示す。

It has been observed in many studies that female students in general are unwilling to undertake a course of study in ICT. Recent literature has also pointed out that undermining the prejudices of girls with respect to these disciplines is very difficult in adolescence, suggesting that, to be effective, awareness programs on computer disciplines should be offered in pre-school or lower school age. On the other hand, even assuming that large-scale computer literacy programs can be immediately activated in lower schools and kindergartens, we can't wait for >15-20 years before we can appreciate the effectiveness of these programs. The scarcity of women in ICT has a tangible negative impact on countries' technological innovation, which requires immediate action. In this paper, we describe a strategy, and the details of a number of programs coordinated by the Engineering and Computer Science Departments at Sapienza University, to make high school girl students aware of the importance of new technologies and ICT. In addition to describing the theoretical approach, the paper offers some project examples.
翻訳日:2023-02-19 14:07:46 公開日:2023-02-13
# minding rights:「ニューロライツ」の倫理的・法的基礎をマッピングする

Minding rights: Mapping ethical and legal foundations of 'neurorights' ( http://arxiv.org/abs/2302.06281v1 )

ライセンス: Link先を確認
Sjors Ligthart, Marcello Ienca, Gerben Meynen, Fruzsina Molnar-Gabor, Roberto Andorno, Christoph Bublitz, Paul Catley, Lisa Claydon, Thomas Douglas, Joseph J. Fins, Sara Goering, Pim Haselager, Fabrice Jotterand, Andrea Lavazza, Allan McCay, Abel Wajnerman Paz, Stephen Rainey, Jesper Ryberg, Philipp Kellmeyer(参考訳) 神経技術の台頭、特にAIベースの脳データ分析の手法と組み合わせることで、倫理的、法的、政策的な議論でしばしば「神経権利」として扱われる、メンタルプライバシ、精神的完全性、認知的自由の保護に関する懸念が持ち上がった。 いくつかの州は憲法の枠組みに「神経権利」を含め、ユネスコや欧州評議会のような国際機関や組織がこの問題に関する国際政策やガバナンスのガイドラインの開発に積極的に関心を寄せている。 しかし、哲学的仮定の「神経学」に関する多くの議論では、参照と法的解釈の倫理的枠組みは明確化されていないか、互いに対立している。 この学際的な研究の目的は、心的プライバシ、精神的完全性、認知的自由に関する共通のミニマリスト的な概念理解を促進し、学術的、法的な、そして政策的な議論を促進することを可能にする、概念的、倫理的、法的基礎を提供することである。

The rise of neurotechnologies, especially in combination with AI-based methods for brain data analytics, has given rise to concerns around the protection of mental privacy, mental integrity and cognitive liberty - often framed as 'neurorights' in ethical, legal and policy discussions. Several states are now looking at including 'neurorights' into their constitutional legal frameworks and international institutions and organizations, such as UNESCO and the Council of Europe, are taking an active interest in developing international policy and governance guidelines on this issue. However, in many discussions of 'neurorights' the philosophical assumptions, ethical frames of reference and legal interpretation are either not made explicit or are in conflict with each other. The aim of this multidisciplinary work here is to provide conceptual, ethical and legal foundations that allow for facilitating a common minimalist conceptual understanding of mental privacy, mental integrity and cognitive liberty to facilitate scholarly, legal and policy discussions.
翻訳日:2023-02-19 14:07:29 公開日:2023-02-13
# 都市サービスとリーダーシップと意思決定のためのダッシュボードのための重要指標に関するデータ分析

Data analytics on key indicators for the city's urban services and dashboards for leadership and decision-making ( http://arxiv.org/abs/2212.03081v2 )

ライセンス: Link先を確認
Md Aminul Islam (1), Abu Sufian (2) ((1) Oxford Brookes University, UK, (2) Data Analysis for Business Intelligence, University of Leicester)(参考訳) 都市は人間の居住地を進化させ続けている。 都市はますます都市化され、計画立案者、意思決定者、そしてコミュニティは適応する準備ができなければならない。 データは行政にとって重要な資源である。 いくつかの技術は、都市データの収集、処理、可視化を支援し、都市システムの動作の解釈と理解を支援する。 データ分析とスマートシティの関係は、両者への関心が高まるにつれて、近年明らかになってきた。 プランナーや住民を含む相互接続システムの高度なネットワークは、スマートシティとして知られている。 データ分析は、スマートシティのコンテキストでデータ駆動意思決定をサポートする可能性がある。 都市管理者も住民も、都市ダッシュボードへの関心が高まっている。 ダッシュボードは地域のパフォーマンスに関する情報を収集し、表示し、分析し、提供することで、スマートシティの開発を支援する。 意思決定プロセスを支援し,都市のパフォーマンスを向上させるために,都市課題に関する正確かつ代表的な情報を取得するためのダッシュボードの活用方法を検討する。 この章は、都市のサービスとリーダーシップと意思決定のためのダッシュボードの重要な指標に関するデータ分析をまとめている。 統合された情報、プランナーや意思決定者に関連するリアルタイムデータストリーム、住民の日々の生活、そしてユーザインタラクションや嗜好を評価する方法としてのサイト分析の1つが、都市ダッシュボードの提案である。 キーワード: -dashboard、データ分析、スマートシティ、サステナビリティ。

Cities are continuously evolving human settlements. Our cities are under strain in an increasingly urbanized world, and planners, decision-makers, and communities must be ready to adapt. Data is an important resource for municipal administration. Some technologies aid in the collection, processing, and visualization of urban data, assisting in the interpretation and comprehension of how urban systems operate. The relationship between data analytics and smart cities has come to light in recent years as interest in both has grown. A sophisticated network of interconnected systems, including planners and inhabitants, is what is known as a smart city. Data analysis has the potential to support data-driven decision-making in the context of smart cities. Both urban managers and residents are becoming more interested in city dashboards. Dashboards may collect, display, analyze, and provide information on regional performance to help smart cities development having sustainability. In order to assist decision-making processes and enhance the performance of cities, we examine how dashboards might be used to acquire accurate and representative information regarding urban challenges. This chapter culminates Data Analytics on key indicators for the city's urban services and dashboards for leadership and decision-making. A single web page with consolidated information, real-time data streams pertinent to planners and decision-makers as well as residents' everyday lives, and site analytics as a method to assess user interactions and preferences are among the proposals for urban dashboards. Keywords: -Dashboard, data analytics, smart city, sustainability.
翻訳日:2023-02-19 12:52:05 公開日:2023-02-13
# ハイstakes設定で人間にアドバイスする学習

Learning to Advise Humans in High-Stakes Settings ( http://arxiv.org/abs/2210.12849v3 )

ライセンス: Link先を確認
Nicholas Wolczynski, Maytal Saar-Tsechansky, Tong Wang(参考訳) AI支援意思決定(AIaDM)設定のエキスパート意思決定者(DM)は、最終的な決定を行う前に、AIシステムからレコメンデーションを受け取り、調整する。 チームのパフォーマンスを効果的に向上するAIaDMモデルを開発する上で重要な、これらの設定の異なる特性を特定します。 第一に、DMは、自身の判断に反するAIレコメンデーションを和解する際に、意思決定リソース(例えば、時間と労力)を行使することで和解コストを発生させる。 第二に、aiadm設定のdmはアルゴリズムの判断行動(adb)、すなわち、特定の決定タスクに対するアルゴリズムの推奨を不完全に受け入れ、拒否する傾向を示す。 人間の和解コストと不完全な意思決定行動は、(1)推奨事項を選択的に提供し、(2)人間のパートナーのADBを利用して、和解コストを正規化しながらチームの意思決定精度を最大化し、(3)本質的に解釈可能なAIシステムの開発の必要性をもたらす。 我々はAIaDM設定で人間に助言するAIを開発するタスクをアドバイスする学習として言及し、まずAI支援チーム(AIaT)学習フレームワークを導入することでこの問題に対処する。 ルールベースのモデルとAIaDM設定のレコメンデーションを生成するアルゴリズムであるTeamRules(TR)を開発するためのフレームワークをインスタンス化する。 TRは、人間のパートナーのADBを利用して、選択的に人間に助言し、特定の環境に対する和解コストとチームの正確性をトレードオフするように最適化されている。 様々なシミュレーションされた人間の正確性と裁量行動による合成および実世界のベンチマークデータセットの評価は、trが解釈可能なルールベースの代替案よりも、設定全体でチームの目標を堅牢に改善していることを示している。

Expert decision-makers (DMs) in high-stakes AI-assisted decision-making (AIaDM) settings receive and reconcile recommendations from AI systems before making their final decisions. We identify distinct properties of these settings which are key to developing AIaDM models that effectively benefit team performance. First, DMs incur reconciliation costs from exerting decision-making resources (e.g., time and effort) when reconciling AI recommendations that contradict their own judgment. Second, DMs in AIaDM settings exhibit algorithm discretion behavior (ADB), i.e., an idiosyncratic tendency to imperfectly accept or reject algorithmic recommendations for any given decision task. The human's reconciliation costs and imperfect discretion behavior introduce the need to develop AI systems which (1) provide recommendations selectively, (2) leverage the human partner's ADB to maximize the team's decision accuracy while regularizing for reconciliation costs, and (3) are inherently interpretable. We refer to the task of developing AI to advise humans in AIaDM settings as learning to advise and we address this task by first introducing the AI-assisted Team (AIaT)-Learning Framework. We instantiate our framework to develop TeamRules (TR): an algorithm that produces rule-based models and recommendations for AIaDM settings. TR is optimized to selectively advise a human and to trade-off reconciliation costs and team accuracy for a given environment by leveraging the human partner's ADB. Evaluations on synthetic and real-world benchmark datasets with a variety of simulated human accuracy and discretion behaviors show that TR robustly improves the team's objective across settings over interpretable, rule-based alternatives.
翻訳日:2023-02-19 12:00:40 公開日:2023-02-13
# テキスト・画像合成におけるホモグリフによる文化的バイアスの爆発

Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis ( http://arxiv.org/abs/2209.08891v2 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Felix Friedrich, Manuel Brack, Patrick Schramowski, Kristian Kersting(参考訳) DALL-E~2やStable Diffusionのようなテキストと画像の合成モデルは近年、学術や一般大衆から多くの関心を集めている。 これらのモデルは、テキスト記述に基づいて様々な概念やスタイルを表現した高品質な画像を生成することができる。 しかしこれらのモデルは、大量のトレーニングデータから特定のUnicodeスクリプトに関連する文化的特徴を取り入れているが、すぐには明らかではないかもしれない。 テキスト記述に1文字の非ラテン文字を挿入するだけで、共通のモデルが生成した画像に文化的ステレオタイプやバイアスを反映することを示す。 この挙動を定性的かつ定量的に分析し,モデルのテキストエンコーダを現象の根本原因として同定する。 さらに悪意のあるユーザやサービスプロバイダは、ラテン文字を非ラテン文字(いわゆるホモグリフ)の類似した文字に置き換えることで、画像生成を意図的にバイアスして人種差別的なステレオタイプを作成しようとする。 このような未知のスクリプト攻撃を軽減するために,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。

Models for text-to-image synthesis, such as DALL-E~2 and Stable Diffusion, have recently drawn a lot of interest from academia and the general public. These models are capable of producing high-quality images that depict a variety of concepts and styles when conditioned on textual descriptions. However, these models adopt cultural characteristics associated with specific Unicode scripts from their vast amount of training data, which may not be immediately apparent. We show that by simply inserting single non-Latin characters in a textual description, common models reflect cultural stereotypes and biases in their generated images. We analyze this behavior both qualitatively and quantitatively, and identify a model's text encoder as the root cause of the phenomenon. Additionally, malicious users or service providers may try to intentionally bias the image generation to create racist stereotypes by replacing Latin characters with similarly-looking characters from non-Latin scripts, so-called homoglyphs. To mitigate such unnoticed script attacks, we propose a novel homoglyph unlearning method to fine-tune a text encoder, making it robust against homoglyph manipulations.
翻訳日:2023-02-19 11:15:59 公開日:2023-02-13
# 物理インフォームドニューラル演算子を用いた磁気流体力学

Magnetohydrodynamics with Physics Informed Neural Operators ( http://arxiv.org/abs/2302.08332v1 )

ライセンス: Link先を確認
Shawn G. Rosofsky and E. A. Huerta(参考訳) テンソルフーリエニューラル演算子をバックボーンとして使用した物理情報ニューラル演算子の2次元非圧縮磁性流体力学シミュレーションへの最初の応用について述べる。 この結果から,レイノルズ数$Re\leq250$で層流を記述する磁気流体力学シミュレーションの物理を高精度にモデル化できることが示唆された。 また、乱流に対するAIサロゲートの適用性を定量化し、磁気流体力学シミュレーションとAIサロゲートが、波数全体の磁気エネルギーと運動エネルギーを保存する方法を探る。 これらの研究に基づいて、幅広いレイノルズ数に対する磁気流体力学シミュレーションの計算効率と高い忠実性を提供するaiサロゲートを作成するための様々な手法を提案する。 ニューラルネットワークとシミュレーションデータを生成する科学ソフトウェアは、この原稿を用いて、我々の物理情報に基づく神経オペレータを訓練し、検証し、テストする。

We present the first application of physics informed neural operators, which use tensor Fourier neural operators as their backbone, to model 2D incompressible magnetohydrodynamics simulations. Our results indicate that physics informed AI can accurately model the physics of magnetohydrodynamics simulations that describe laminar flows with Reynolds numbers $Re\leq250$. We also quantify the applicability of our AI surrogates for turbulent flows, and explore how magnetohydrodynamics simulations and AI surrogates store magnetic and kinetic energy across wavenumbers. Based on these studies, we propose a variety of approaches to create AI surrogates that provide a computationally efficient and high fidelity description of magnetohydrodynamics simulations for a broad range of Reynolds numbers. Neural operators and scientific software to produce simulation data to train, validate and test our physics informed neural operators are released with this manuscript.
翻訳日:2023-02-17 13:40:01 公開日:2023-02-13
# 心理学研究における人工知能

Artificial Intelligence in Psychology Research ( http://arxiv.org/abs/2302.07267v1 )

ライセンス: Link先を確認
Peter S. Park, Philipp Schoenegger and Chongyang Zhu(参考訳) 大規模言語モデルは機能的に大きく成長した。 このようなAIシステムの潜在的な応用の1つは、完全な実験的制御が現在不可能であり、大規模な代表的データセットの収集が一般的に高価である社会科学におけるデータ収集をサポートすることである。 本稿では, OpenAI の Text-davinci-003 モデルである GPT3.5 を用いて, Many Labs 2 複製プロジェクト (Klein et al., 2018) の14 つの研究を再現した。 分析可能な10の研究では、合計10,136の回答を収集し、それぞれがgpt3.5を実行し、それぞれをテキストとして入力した。 GPT3.5ベースのサンプルは、Multi Labs 2の結果の30%と、Multi Labs 2の結果の30%を複製しています。 また、対応する人間と異なり、gpt3.5は、極端な均質性を持ついくつかの調査質問に対して、異なるランの応答の変動がゼロであるなら、仮説上のai主導の未来は、ある方法では思考の多様性が減少する可能性があるという懸念に対して答えている。 本研究の結果は,大規模言語モデル心理学研究が実現可能であることを示唆するものであるが,人間の場合に直接一般化するものではない。 それでも、AIベースのデータ収集は、最終的には経験的社会科学において実現可能で経済的に関係のある方法となり、その能力と応用を中心的に理解する。

Large Language Models have vastly grown in capabilities. One potential application of such AI systems is to support data collection in the social sciences, where perfect experimental control is currently unfeasible and the collection of large, representative datasets is generally expensive. In this paper, we re-replicate 14 studies from the Many Labs 2 replication project (Klein et al., 2018) with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. For the 10 studies that we could analyse, we collected a total of 10,136 responses, each of which was obtained by running GPT3.5 with the corresponding study's survey inputted as text. We find that our GPT3.5-based sample replicates 30% of the original results as well as 30% of the Many Labs 2 results, although there is heterogeneity in both these numbers (as we replicate some original findings that Many Labs 2 did not and vice versa). We also find that unlike the corresponding human subjects, GPT3.5 answered some survey questions with extreme homogeneity$\unicode{x2013}$with zero variation in different runs' responses$\unicode{x2013}$raising concerns that a hypothetical AI-led future may in certain ways be subject to a diminished diversity of thought. Overall, while our results suggest that Large Language Model psychology studies are feasible, their findings should not be assumed to straightforwardly generalise to the human case. Nevertheless, AI-based data collection may eventually become a viable and economically relevant method in the empirical social sciences, making the understanding of its capabilities and applications central.
翻訳日:2023-02-16 16:46:20 公開日:2023-02-13
# rr-intervalsを用いた心房細動の光電図への応用

Atrial Fibrillation Detection Using RR-Intervals for Application in Photoplethysmographs ( http://arxiv.org/abs/2302.07648v1 )

ライセンス: Link先を確認
Georgia Smith and Yishi Wang(参考訳) 心房細動は不整脈の一般的な形態であり、非常に危険である。 心電図中の心房細動データを分析し、rr-intervalsまたは心拍数の長さのみに基づいたモデルを開発し、心房細動のリアルタイム分類モデルを構築し、現在市場に出回っている一般的な心拍数モニターに実装する。 PhysionetのMIT-BIH Atrial Fibrillation Database \cite{goldberger2000physiobank} と 2017 Challenge Database \cite{clifford2017af} は、心房細動のパターンとテスト分類モデルを特定するために使用された。 この2つのデータセットは全く異なる。 mit-bihデータベースは、消費者デバイスをシミュレートするのには役に立たないが、心房細動パターン検出に有用である医用グレードデバイスで採取された長いサンプルを含んでいる。 2017 Challengeデータベースには、ポータブルデバイスで採取した短い(<60sec$)サンプルが含まれており、リアルタイムデバイスにおけるAtrial Fibrillation分類の課題の多くを明らかにしている。 我々は,3つの特徴を抽出した複数のSVMモデルを予測変数として開発し,計算強度の低い適度な精度を実現した。 多くのPhotoplethysmographベースの消費者向け心拍モニターにロバストなフィルタリング技術が適用されているため、この手法は、コンシューマグレードの心拍モニターにおける心房細動検出のための信頼性の高いリアルタイムモデルの開発に使用できる。

Atrial Fibrillation is a common form of irregular heart rhythm that can be very dangerous. Our primary goal is to analyze Atrial Fibrillation data within ECGs to develop a model based only on RR-Intervals, or the length between heart-beats, to create a real time classification model for Atrial Fibrillation to be implemented in common heart-rate monitors on the market today. Physionet's MIT-BIH Atrial Fibrillation Database \cite{goldberger2000physiobank} and 2017 Challenge Database \cite{clifford2017af} were used to identify patterns of Atrial Fibrillation and test classification models on. These two datasets are very different. The MIT-BIH database contains long samples taken with a medical grade device, which is not useful for simulating a consumer device, but is useful for Atrial Fibrillation pattern detection. The 2017 Challenge database includes short ($<60sec$) samples taken with a portable device and reveals many of the challenges of Atrial Fibrillation classification in a real-time device. We developed multiple SVM models with three sets of extracted features as predictor variables which gave us moderately high accuracies with low computational intensity. With robust filtering techniques already applied in many Photoplethysmograph-based consumer heart-rate monitors, this method can be used to develop a reliable real time model for Atrial Fibrillation detection in consumer-grade heart-rate monitors.
翻訳日:2023-02-16 15:07:58 公開日:2023-02-13
# 量子状態空間、幾何相、およびブラキスト位相における曲線

Curves in quantum state space, geometric phases, and the brachistophase ( http://arxiv.org/abs/2302.07647v1 )

ライセンス: Link先を確認
C. Chryssomalakos, A. G. Flores-Delgado, E. Guzm\'an-Gonz\'alez, L. Hanotel, E. Serrano-Ens\'astiga(参考訳) 量子スピン状態空間の曲線が与えられたとき、その幾何学とそれに沿って蓄積された幾何学的位相の関係を問う。 ムクンダとシモンの結果によって(標準的なフビニ・スタディ計量において)測地学は幾何相を蓄積しないという動機づけられ、曲線の共変微分の観点から幾何学相の微分(様々な順序の)の一般表現が見つかる。 量子状態が与えられたら、時間の経過後に蓄積した幾何位相を最大化する(適切に正規化)ハミルトニアンを見つけ、すべてのスピン値に対する解析解を見つけ、小さな$\tau$に有効である。 例えば、スピンコヒーレント状態の最適進化は、残りから分離してマヨラナ球面上の円を追跡する単一のマヨラナ星からなる。

Given a curve in quantum spin state space, we inquire what is the relation between its geometry and the geometric phase accumulated along it. Motivated by Mukunda and Simon's result that geodesics (in the standard Fubini-Study metric) do not accumulate geometric phase, we find a general expression for the derivatives (of various orders) of the geometric phase in terms of the covariant derivatives of the curve. As an application of our results, we put forward the brachistophase problem: given a quantum state, find the (appropriately normalized) hamiltonian that maximizes the accumulated geometric phase after time $\tau$ - we find an analytical solution for all spin values, valid for small $\tau$. For example, the optimal evolution of a spin coherent state consists of a single Majorana star separating from the rest and tracing out a circle on the Majorana sphere.
翻訳日:2023-02-16 15:07:28 公開日:2023-02-13
# SATML言語モデルデータ抽出チャレンジにおけるGPT-Neoのターゲット攻撃

Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction Challenge ( http://arxiv.org/abs/2302.07735v1 )

ライセンス: Link先を確認
Ali Al-Kaswan, Maliheh Izadi, Arie van Deursen(参考訳) これまでの研究によると、大規模言語モデルはいわゆるデータ抽出攻撃の影響を受けやすい。 これにより、攻撃者はトレーニングデータに含まれていたサンプルを抽出することができる。 データ抽出攻撃の構築は困難であり、現在の攻撃は非常に非効率であり、標的外攻撃の抽出能力と記憶能力には大きなギャップがある。 これにより、トレーニングデータから与えられたサンプルがモデルから抽出可能かどうかを識別する標的攻撃が提案される。 本研究では,SATML2023言語モデル学習データ抽出チャレンジに対して,対象データ抽出攻撃を適用した。 我々は2段階のアプローチを適用する。 最初のステップでは、モデルのリコールを最大化し、サンプルの69%に対して接尾辞を抽出することができる。 第2のステップでは、世代毎に分類器ベースのメンバーシップ推論攻撃を使用する。 我々のAutoSklearn分類器は0.841の精度を達成する。 完全なアプローチは0.405リコールで10%の偽陽性率に達し、これは0.301のベースラインよりも34%改善されている。

Previous work has shown that Large Language Models are susceptible to so-called data extraction attacks. This allows an attacker to extract a sample that was contained in the training data, which has massive privacy implications. The construction of data extraction attacks is challenging, current attacks are quite inefficient, and there exists a significant gap in the extraction capabilities of untargeted attacks and memorization. Thus, targeted attacks are proposed, which identify if a given sample from the training data, is extractable from a model. In this work, we apply a targeted data extraction attack to the SATML2023 Language Model Training Data Extraction Challenge. We apply a two-step approach. In the first step, we maximise the recall of the model and are able to extract the suffix for 69% of the samples. In the second step, we use a classifier-based Membership Inference Attack on the generations. Our AutoSklearn classifier achieves a precision of 0.841. The full approach reaches a score of 0.405 recall at a 10% false positive rate, which is an improvement of 34% over the baseline of 0.301.
翻訳日:2023-02-16 14:42:08 公開日:2023-02-13
# 知識強化セマンティック通信受信機

Knowledge Enhanced Semantic Communication Receiver ( http://arxiv.org/abs/2302.07727v1 )

ライセンス: Link先を確認
Bingyan Wang, Rongpeng Li, Jianhang Zhu, Zhifeng Zhao, and Honggang Zhang(参考訳) 近年,ディープラーニングや自然言語処理技術の急速な発展に伴い,セマンティックコミュニケーションはコミュニケーション分野への関心が高まりつつある。 既存のディープラーニングベースのセマンティックコミュニケーションアプローチは、多くの利点を示しているが、まだ事前知識を十分に活用していない。 また,既存の意味的通信方式では,送信側の意味的符号化に重点を置いているが,受信側の意味的復号化も考慮すべきである。 本稿では,トランスミッターのニューラルネットワーク構造に余分な修正を加えることなく,知識ベースにおける事前知識をより積極的に活用し,意味推論や復号化を行う知識強化意味コミュニケーションフレームワークを提案する。 具体的には、受信した雑音信号に関連性のある事実三重項を求めるための変圧器に基づく知識抽出器を設計する。 webnlgデータセットの広範なシミュレーション結果から,提案する受信機は,知識グラフのエンハンスドデコード上で優れた性能をもたらすことが示された。

In recent years, with the rapid development of deep learning and natural language processing technologies, semantic communication has become a topic of great interest in the field of communication. Although existing deep learning based semantic communication approaches have shown many advantages, they still do not make sufficient use of prior knowledge. Moreover, most existing semantic communication methods focus on the semantic encoding at the transmitter side, while we believe that the semantic decoding capability of the receiver side should also be concerned. In this paper, we propose a knowledge enhanced semantic communication framework in which the receiver can more actively utilize the prior knowledge in the knowledge base for semantic reasoning and decoding, without extra modifications to the neural network structure of the transmitter. Specifically, we design a transformer-based knowledge extractor to find relevant factual triples for the received noisy signal. Extensive simulation results on the WebNLG dataset demonstrate that the proposed receiver yields superior performance on top of the knowledge graph enhanced decoding.
翻訳日:2023-02-16 14:39:24 公開日:2023-02-13
# 荷電ブラックホールの共有普遍性と多体SYKモデル

The shared universality of charged black holes and the many many-body SYK model ( http://arxiv.org/abs/2204.09629v3 )

ライセンス: Link先を確認
Jan Louw and Stefan Kehrein(参考訳) グランドカノニカルアンサンブルにおいて, Sachdev-Ye-Kitaev (SYK) モデルと相互作用する$q/2$-bodyについて検討した。 q$を大きなパラメータとして扱うことで、位相図を解析的に研究することができる。 化学ポテンシャルや温度の変化により、この系は、最大カオス状態において、低エントロピーと高エントロピーの相転移を行う。 エントロピーの同様の遷移は、大きな事象地平線と小さな事象地平線の間で遷移する荷電AdSブラックホールに見られる。 ゼロ温度に近づくと、一階のカオスから非カオスの量子相転移が起こり、有限の広範なエントロピーがゼロになる。 ホーキング・ページ(HP)は、大きなブラックホールと熱放射の間の遷移である。 連続相転移に関連する臨界現象の解析的研究により、平均場ファンデルワールス臨界指数と有効指数が得られる。 すべての類似の電力法則は、いくつかの荷電されたAdSブラックホール相転移と共有される。 これらの結果は、荷電された$q\to\infty$SYKモデルとブラックホールの関連性を示している。

We investigate the charged $q/2$-body interacting Sachdev-Ye-Kitaev (SYK) model in the grand-canonical ensemble. By treating $q$ as a large parameter, we are able to analytically study its phase diagram. By varying the chemical potential or temperature, we find that the system undergoes a phase transition between low and high entropies, in the maximally chaotic regime. A similar transition in entropy is seen in charged AdS black holes transitioning between a large and small event horizon. Approaching zero temperature, we find a first-order chaotic-to-non-chaotic quantum phase transition, where the finite extensive entropy drops to zero. This again has a gravitational analogue -- the Hawking-Page (HP) transition between a large black hole and thermal radiation. An analytical study of the critical phenomena associated with the continuous phase transition provides us with mean field van der Waals critical and effective exponents. We find that all analogous power laws are shared with several charged AdS black hole phase transitions. Together, these findings indicate a connection between the charged $q\to\infty$ SYK model and black holes.
翻訳日:2023-02-16 06:13:40 公開日:2023-02-13
# perada: パラメータ効率と一般化した連合学習のパーソナライゼーション

PerAda: Parameter-Efficient and Generalizable Federated Learning Personalization with Guarantees ( http://arxiv.org/abs/2302.06637v1 )

ライセンス: Link先を確認
Chulin Xie, De-An Huang, Wenda Chu, Daguang Xu, Chaowei Xiao, Bo Li, Anima Anandkumar(参考訳) パーソナライズド・フェデレーション・ラーニング(pFL)は、FLのクライアント間のデータの均一性に取り組むための有望なソリューションとして登場した。 しかし、既存のpfl手法は、(1)高い通信コストと計算コストを導入するか、(2)局所データへの過剰適合をもたらすかのいずれかであり、それはスコープが制限され、自然なシフトを伴う進化したテストサンプルに対して脆弱である。 本稿では、通信コストと計算コストを低減し、特にテスト時間分布シフトにおいて、より優れた一般化性能を示すパラメータ効率の高いpflフレームワークであるperadaを提案する。 PerAdaは、事前訓練されたモデルのパワーを活用してコストを削減し、アダプタから少数の追加パラメータを更新し、通信する。 PerAdaは、各クライアントのパーソナライズされたアダプタをグローバルアダプタで正規化するのに対して、グローバルアダプタは知識蒸留を使用して、すべてのクライアントから一般化された情報を集約する。 理論的には、PerAdaが一般化を改善する理由を説明するために一般化境界を提供し、非凸条件下での定常点への収束を証明する。 経験的に、PerAdaは競争上のパーソナライズされたパフォーマンス(CheXpertでは+4.85%)を実証し、ベースラインと比較して自然領域と医療領域の異なるデータセット上での配布外一般化(CIFAR-10-Cでは+5.23%)の改善を可能にしている。

Personalized Federated Learning (pFL) has emerged as a promising solution to tackle data heterogeneity across clients in FL. However, existing pFL methods either (1) introduce high communication and computation costs or (2) overfit to local data, which can be limited in scope, and are vulnerable to evolved test samples with natural shifts. In this paper, we propose PerAda, a parameter-efficient pFL framework that reduces communication and computational costs and exhibits superior generalization performance, especially under test-time distribution shifts. PerAda reduces the costs by leveraging the power of pretrained models and only updates and communicates a small number of additional parameters from adapters. PerAda has good generalization since it regularizes each client's personalized adapter with a global adapter, while the global adapter uses knowledge distillation to aggregate generalized information from all clients. Theoretically, we provide generalization bounds to explain why PerAda improves generalization, and we prove its convergence to stationary points under non-convex settings. Empirically, PerAda demonstrates competitive personalized performance (+4.85% on CheXpert) and enables better out-of-distribution generalization (+5.23% on CIFAR-10-C) on different datasets across natural and medical domains compared with baselines, while only updating 12.6% of parameters per model based on the adapter.
翻訳日:2023-02-15 17:34:30 公開日:2023-02-13
# テンソルネットワークか決定図か? 古典量子回路シミュレーションのガイドライン

Tensor Networks or Decision Diagrams? Guidelines for Classical Quantum Circuit Simulation ( http://arxiv.org/abs/2302.06616v1 )

ライセンス: Link先を確認
Lukas Burgholzer, Alexander Ploier, and Robert Wille(参考訳) 古典的な量子回路のシミュレーションは、量子アルゴリズムの開発やテストにおいて重要である。 指数関数的複雑性の根底にあるため、効率的なデータ構造はそのようなシミュレーションを行う上で鍵となる。 この目的のために、テンソルネットワークと決定図は異なる視点、用語、背景を念頭において独立に開発されてきた。 量子回路シミュレーションのための2つの相補的なデータ構造を持つ設計者が残されたが、今のところ、どの設計が与えられたユースケースにとって良い選択なのかは定かではない。 本研究では,(1)これらの手法が古典的量子回路シミュレーションにどのようにアプローチするかを考察し,(2)最も適用可能な抽象化レベル,所望のシミュレーション出力,計算順序の影響,ワークロードの分散容易性について,それらの(dis)類似性を検討する。 その結果、テンソルネットワークをよりよく利用する時期と、古典的な量子回路シミュレーションにおいて決定図をよりよく使用する時期のガイドラインが得られた。

Classically simulating quantum circuits is crucial when developing or testing quantum algorithms. Due to the underlying exponential complexity, efficient data structures are key for performing such simulations. To this end, tensor networks and decision diagrams have independently been developed with differing perspectives, terminologies, and backgrounds in mind. Although this left designers with two complementary data structures for quantum circuit simulation, thus far it remains unclear which one is the better choice for a given use case. In this work, we (1) consider how these techniques approach classical quantum circuit simulation, and (2) examine their (dis)similarities with regard to their most applicable abstraction level, the desired simulation output, the impact of the computation order, and the ease of distributing the workload. As a result, we provide guidelines for when to better use tensor networks and when to better use decision diagrams in classical quantum circuit simulation.
翻訳日:2023-02-15 17:33:59 公開日:2023-02-13
# 認知心理学に触発された人工知能の自己媒介探索

Self-mediated exploration in artificial intelligence inspired by cognitive psychology ( http://arxiv.org/abs/2302.06615v1 )

ライセンス: Link先を確認
Gustavo Assun\c{c}\~ao, Miguel Castelo-Branco, Paulo Menezes(参考訳) 物理環境の探索は、データ取得に必須の先駆者であり、分析的または直接的な試行を通じて知識生成を可能にする。 人工知能は最も未発達の生物の探索能力に欠けており、その自律性と適応性を妨げている。 この研究は認知心理学に支えられ、人間の行動と人工エージェントを結びつけて自己開発を支援する。 報告されたデータによると、認識と達成感情のパラダイムは、意思決定の際の影響に基づいて機械学習手法に組み込まれている。 研究はその後、前回の人体実験を反映するように設計され、人工エージェントはコンバージェンスに向けて繰り返し実施される。 結果は、ほとんどのエージェントが学習した因果関係を示し、その内部状態と、人間に対して報告されたものと一致した探索の間にある。 これらの発見の影響は、人間の認知と人工知能の改善の研究の両方に考慮されている。

Exploration of the physical environment is an indispensable precursor to data acquisition and enables knowledge generation via analytical or direct trialing. Artificial Intelligence lacks the exploratory capabilities of even the most underdeveloped organisms, hindering its autonomy and adaptability. Supported by cognitive psychology, this works links human behavior and artificial agents to endorse self-development. In accordance with reported data, paradigms of epistemic and achievement emotion are embedded to machine-learning methodology contingent on their impact when decision making. A study is subsequently designed to mirror previous human trials, which artificial agents are made to undergo repeatedly towards convergence. Results demonstrate causality, learned by the vast majority of agents, between their internal states and exploration to match those reported for human counterparts. The ramifications of these findings are pondered for both research into human cognition and betterment of artificial intelligence.
翻訳日:2023-02-15 17:33:44 公開日:2023-02-13
# 不均質スパイクウィグナーモデルに対する最適アルゴリズム

Optimal Algorithms for the Inhomogeneous Spiked Wigner Model ( http://arxiv.org/abs/2302.06665v1 )

ライセンス: Link先を確認
Aleksandr Pak, Justin Ko, Florent Krzakala(参考訳) 本稿では,不均質な雑音プロファイルを持つスパイクウィグナー問題について検討する。 この問題における我々の目的は、不均質な低ランクマトリクスチャネルを通過する信号を回復することである。 情報理論のパフォーマンスはよく知られているが,アルゴリズムの問題に注目する。 非均質問題に対する近似メッセージパッシングアルゴリズム(amp)を導出し、その厳密な状態進化が情報理論上最適ベイズ固定点方程式と一致することを示す。 特に,情報理論の閾値よりも大きい信号と雑音の比を必要とする既知のアルゴリズムが,ランダムよりも優れた処理を行うための統計的・計算的ギャップの存在を同定する。 最後に、適応amp反復から、一般的な分散プロファイルを持つ行列の遷移を回復するために使用できる単純で効率的なスペクトル法を推定する。 このスペクトル法は予測された最適計算相転移と一致する。

In this paper, we study a spiked Wigner problem with an inhomogeneous noise profile. Our aim in this problem is to recover the signal passed through an inhomogeneous low-rank matrix channel. While the information-theoretic performances are well-known, we focus on the algorithmic problem. We derive an approximate message-passing algorithm (AMP) for the inhomogeneous problem and show that its rigorous state evolution coincides with the information-theoretic optimal Bayes fixed-point equations. We identify in particular the existence of a statistical-to-computational gap where known algorithms require a signal-to-noise ratio bigger than the information-theoretic threshold to perform better than random. Finally, from the adapted AMP iteration we deduce a simple and efficient spectral method that can be used to recover the transition for matrices with general variance profiles. This spectral method matches the conjectured optimal computational phase transition.
翻訳日:2023-02-15 17:25:45 公開日:2023-02-13
# rydberg原子配列のyang-lee臨界性観測法の提案

Proposal for observing Yang-Lee criticality in Rydberg atomic arrays ( http://arxiv.org/abs/2302.06662v1 )

ライセンス: Link先を確認
Ruizhe Shen, Tianqi Chen, Fang Qin, Yin Zhong, Ching Hua Lee(参考訳) ヤン=リーエッジ特異点 (YLES) は、複雑な制御パラメータの空間における相互作用するスピンモデルの分配関数零点のエッジである。 これらは、多体物理学における非エルミート相転移の理解や、対応する非単位臨界度の特徴付けにおいて重要な役割を担っているが、そのような分割関数ゼロは、時間が虚数制御場として作用する動的実験において測定されている。 非平衡条件下での非単項相転移の物理探査を可能にするため、PT対称性の破れによるキンク動磁化応答を検出してYLESを観測するプロトコルを提供する。 特に,行列積状態(tmp)を持つ非ユニタリ時間発展回路に基づくスケーリング解析は,対応する非ユニタリcftに固有の指数を正確に回復する。 非エルミート多体力学現象をシミュレートする普遍的プラットフォームへの道を開く,レーザー誘起損失を伴うフロッケ・クエンチド・リドバーグ原子配列のイール臨界を観測するための明示的な提案を提案する。

Yang-Lee edge singularities (YLES) are the edges of the partition function zeros of an interacting spin model in the space of complex control parameters. They play an important role in understanding non-Hermitian phase transitions in many-body physics, as well as characterizing the corresponding non-unitary criticality.Even though such partition function zeroes have been measured in dynamical experiments where time acts as the imaginary control field, experimentally demonstrating such YLES criticality with a physical imaginary field has remained elusive due to the difficulty of physically realizing non-Hermitian many-body models. We provide a protocol for observing the YLES by detecting kinked dynamical magnetization responses due to broken PT symmetry, thus enabling the physical probing of non-unitary phase transitions in non-equilibrium settings. In particular, scaling analyses based on our non-unitary time evolution circuit with matrix product states (tMPS) accurately recover the exponents uniquely associated with the corresponding non-unitary CFT. We provide an explicit proposal for observing YLES criticality in Floquet quenched Rydberg atomic arrays with laser-induced loss, which paves the way towards an universal platform for simulating non-Hermitian many-body dynamical phenomena.
翻訳日:2023-02-15 17:25:32 公開日:2023-02-13
# ソースフリードメイン適応のための一般化可能な手法の探索

In Search for a Generalizable Method for Source Free Domain Adaptation ( http://arxiv.org/abs/2302.06658v1 )

ライセンス: Link先を確認
Malik Boudiaf, Tom Denton, Bart van Merri\"enboer, Vincent Dumoulin, Eleni Triantafillou(参考訳) ソースフリードメイン適応(SFDA)は、非ラベルデータのみを使用して、オフザシェルフモデルを新しいドメインに適応できるため、魅力的である。 本研究は,既存のsfda手法を,コンピュータビジョンで一般的に研究されているものとは大きく異なる生体音響学における自然に発生する分布シフトの集合に適用するものである。 既存の手法は、視力ベンチマークで観察されたものと異なる相対性を示し、時には適応が全くないよりも悪い場合もあります。 提案手法は,様々な視覚データセットにおいて強力な性能を発揮しつつ,既存の手法を新しいシフトで上回る新しい簡易な手法を提案する。 以上の結果から,既存のSFDA法は従来考えられていたほど一般化不可能であり,多様なモダリティを考慮すれば,より堅牢なモデルの設計に有用であることが示唆された。

Source-free domain adaptation (SFDA) is compelling because it allows adapting an off-the-shelf model to a new domain using only unlabelled data. In this work, we apply existing SFDA techniques to a challenging set of naturally-occurring distribution shifts in bioacoustics, which are very different from the ones commonly studied in computer vision. We find existing methods perform differently relative to each other than observed in vision benchmarks, and sometimes perform worse than no adaptation at all. We propose a new simple method which outperforms the existing methods on our new shifts while exhibiting strong performance on a range of vision datasets. Our findings suggest that existing SFDA methods are not as generalizable as previously thought and that considering diverse modalities can be a useful avenue for designing more robust models.
翻訳日:2023-02-15 17:25:07 公開日:2023-02-13
# 戦略的敵に対するより良いレグレットを達成する

Achieving Better Regret against Strategic Adversaries ( http://arxiv.org/abs/2302.06652v1 )

ライセンス: Link先を確認
Le Cong Dinh, Tri-Dung Nguyen, Alain Zemkoho and Long Tran-Thanh(参考訳) 我々は,学習者が相手の行動について余分な知識を持つオンライン学習問題,すなわち,対戦相手が通常,外部の後悔しない学習アルゴリズムに従うゲーム理論的な環境で研究する。 そこで,本研究では,不正確な情報を持つという最悪のシナリオにおいて,この知識を積極的に活用しつつ,不適切な特性を維持しながら,その知識を積極的に活用する,正則化リーダ(aftrl)とprod-br(prod-br)の2つのオンライン学習アルゴリズムを提案する。 特に aftrl は、prod-br の $o(\sqrt{t})$ \emph{dynamic regret} と比較して、外部の後悔のない敵に対して $o(1)$ または $o(1)$ \emph{forward regret} を達成する。 我々の知る限りでは、我々のアルゴリズムは、戦略的敵に対して$o(1)$ regretを達成する前進的後悔を最初に検討する。 AFTRL の特別な場合である精度乗算重み更新 (AMWU) でゼロサムゲームをするとき、ナッシュ平衡に \emph{last round convergence} を達成する。 また、理論的結果をさらに支援するための数値実験も実施する。 特に,本手法は,最先端技術(MWUやその楽観的手法であるOMWUなど)と比較して,残差や最終ラウンド収束率を著しく向上させることを示した。

We study online learning problems in which the learner has extra knowledge about the adversary's behaviour, i.e., in game-theoretic settings where opponents typically follow some no-external regret learning algorithms. Under this assumption, we propose two new online learning algorithms, Accurate Follow the Regularized Leader (AFTRL) and Prod-Best Response (Prod-BR), that intensively exploit this extra knowledge while maintaining the no-regret property in the worst-case scenario of having inaccurate extra information. Specifically, AFTRL achieves $O(1)$ external regret or $O(1)$ \emph{forward regret} against no-external regret adversary in comparison with $O(\sqrt{T})$ \emph{dynamic regret} of Prod-BR. To the best of our knowledge, our algorithm is the first to consider forward regret that achieves $O(1)$ regret against strategic adversaries. When playing zero-sum games with Accurate Multiplicative Weights Update (AMWU), a special case of AFTRL, we achieve \emph{last round convergence} to the Nash Equilibrium. We also provide numerical experiments to further support our theoretical results. In particular, we demonstrate that our methods achieve significantly better regret bounds and rate of last round convergence, compared to the state of the art (e.g., Multiplicative Weights Update (MWU) and its optimistic counterpart, OMWU).
翻訳日:2023-02-15 17:24:51 公開日:2023-02-13
# 視界に基づく自律運転用3次元3次元検出:サーベイ

Surround-View Vision-based 3D Detection for Autonomous Driving: A Survey ( http://arxiv.org/abs/2302.06650v1 )

ライセンス: Link先を確認
Apoorv Singh and Varun Bankiti(参考訳) 視覚に基づく3D検出タスクは、多くの研究者や自動運転エンジニアの間で注目を集めている自動運転システムの認識のための基本的なタスクである。 しかし、かなり良い3d bev(bird's eye view)性能を達成することは、カメラで2dセンサーの入力データを使う簡単な作業ではない。 本稿では,自律運転に着目した既存のビジョンベース3D検出手法に関する文献調査を行う。 我々は、Vision BEV検出アプローチを利用した60ドル以上の論文の詳細な分析を行い、共通トレンドの詳細な理解のために異なるサブグループを強調した。 また,文献や産業の傾向がサラウンドビュー画像ベース手法にどのように移行したかに注目し,この手法が対応している特殊な事例について考察する。 結論として, 協調知覚の方向を含む現在の手法の欠点に基づいて, 将来の研究に向けた3Dビジョン技術の考えを提起する。

Vision-based 3D Detection task is fundamental task for the perception of an autonomous driving system, which has peaked interest amongst many researchers and autonomous driving engineers. However achieving a rather good 3D BEV (Bird's Eye View) performance is not an easy task using 2D sensor input-data with cameras. In this paper we provide a literature survey for the existing Vision Based 3D detection methods, focused on autonomous driving. We have made detailed analysis of over $60$ papers leveraging Vision BEV detections approaches and highlighted different sub-groups for detailed understanding of common trends. Moreover, we have highlighted how the literature and industry trend have moved towards surround-view image based methods and note down thoughts on what special cases this method addresses. In conclusion, we provoke thoughts of 3D Vision techniques for future research based on shortcomings of the current techniques including the direction of collaborative perception.
翻訳日:2023-02-15 17:24:22 公開日:2023-02-13
# その急激なエスカレート:アラート優先順位付けのためのMLフレームワーク

That Escalated Quickly: An ML Framework for Alert Prioritization ( http://arxiv.org/abs/2302.06648v1 )

ライセンス: Link先を確認
Ben Gelman, Salma Taoufiq, Tam\'as V\"or\"os, Konstantin Berlin(参考訳) 社内ソリューションに代わり、組織はますます、サイバー防衛のためのマネージドサービスに向かっている。 セキュリティ・オペレーション・センター(Security Operations Centers)は、組織の防衛に責任を持つ専門のサイバーセキュリティ部門だが、脅威検出の大規模な集中化により、SOCは圧倒的な量の偽陽性警報に耐えている。 不正確なセンサーの大規模なコレクション、既知の偽陽性に適応できないこと、脅威環境の進化、そしてアナリスト時間の非効率的な使用は、いずれも警告疲労問題に寄与する。 これらの問題に対処するため、警告レベルとインシデントレベルの動作性を予測することで、SOCワークフローの変更を最小限に抑えながら、アラート疲労を低減する機械学習フレームワークであるThing Escalated Quickly(TEQ)を提示する。 実世界のデータでは、システムは実行可能なインシデントに対応するのに要する時間を229.9\%$に減らし、偽陽性の54.1\%$を検出率95.1\%に抑え、アナリストが特異なインシデント内で調査する必要があるアラートの数を14\%$に減らすことができる。

In place of in-house solutions, organizations are increasingly moving towards managed services for cyber defense. Security Operations Centers are specialized cybersecurity units responsible for the defense of an organization, but the large-scale centralization of threat detection is causing SOCs to endure an overwhelming amount of false positive alerts -- a phenomenon known as alert fatigue. Large collections of imprecise sensors, an inability to adapt to known false positives, evolution of the threat landscape, and inefficient use of analyst time all contribute to the alert fatigue problem. To combat these issues, we present That Escalated Quickly (TEQ), a machine learning framework that reduces alert fatigue with minimal changes to SOC workflows by predicting alert-level and incident-level actionability. On real-world data, the system is able to reduce the time it takes to respond to actionable incidents by $22.9\%$, suppress $54\%$ of false positives with a $95.1\%$ detection rate, and reduce the number of alerts an analyst needs to investigate within singular incidents by $14\%$.
翻訳日:2023-02-15 17:24:07 公開日:2023-02-13
# 簡単なハードウェア効率の長い畳み込みによるシーケンスモデリング

Simple Hardware-Efficient Long Convolutions for Sequence Modeling ( http://arxiv.org/abs/2302.06646v1 )

ライセンス: Link先を確認
Daniel Y. Fu, Elliot L. Epstein, Eric Nguyen, Armin W. Thomas, Michael Zhang, Tri Dao, Atri Rudra, Christopher R\'e(参考訳) 状態空間モデル(ssm)は長いシーケンスモデリングにおいて高い性能を持つが、高度な初期化技術と高品質と実行時のパフォーマンスのための特別な実装を必要とする。 我々は、単純な代替手段が性能と効率においてSSMと一致するかどうかを調査し、シーケンス上の長い畳み込みを直接学習する。 高い性能を達成するための重要な要件は、畳み込みカーネルをスムーズに保つことである。 例えば、カーネルの重みをスムースなカーネルに分散させ、長距離アリーナ、画像分類、言語モデリング、脳データモデリングなど、様々なタスクでssmのパフォーマンスを回復するといった単純な介入がある。 次に,長い畳み込みのランタイム性能を改善するio対応アルゴリズム flashbutterfly を開発した。 flashbutterflyは、gpuメモリioを削減し、フロップ利用を増加させるために畳み込みの古典的なバタフライ分解にアピールする。 FlashButterflyは畳み込みを2.2$\times$でスピードアップし、シーケンス長64Kの難しいタスクであるPath256のトレーニングを可能にします。 最後に,バタフライ分解の係数を学習し,ランタイムを増加させずに表現性を高めるflashbutterflyの拡張を提案する。 この拡張を用いてWikiText103上のTransformerを0.2 PPLで上回り、パラメータは30%減った。

State space models (SSMs) have high performance on long sequence modeling but require sophisticated initialization techniques and specialized implementations for high quality and runtime performance. We study whether a simple alternative can match SSMs in performance and efficiency: directly learning long convolutions over the sequence. We find that a key requirement to achieving high performance is keeping the convolution kernels smooth. We find that simple interventions--such as squashing the kernel weights--result in smooth kernels and recover SSM performance on a range of tasks including the long range arena, image classification, language modeling, and brain data modeling. Next, we develop FlashButterfly, an IO-aware algorithm to improve the runtime performance of long convolutions. FlashButterfly appeals to classic Butterfly decompositions of the convolution to reduce GPU memory IO and increase FLOP utilization. FlashButterfly speeds up convolutions by 2.2$\times$, and allows us to train on Path256, a challenging task with sequence length 64K, where we set state-of-the-art by 29.1 points while training 7.2$\times$ faster than prior work. Lastly, we introduce an extension to FlashButterfly that learns the coefficients of the Butterfly decomposition, increasing expressivity without increasing runtime. Using this extension, we outperform a Transformer on WikiText103 by 0.2 PPL with 30% fewer parameters.
翻訳日:2023-02-15 17:23:45 公開日:2023-02-13
# ロボットBEV検出のためのビジョンレーダ融合に関する調査

Vision-RADAR fusion for Robotics BEV Detections: A Survey ( http://arxiv.org/abs/2302.06643v1 )

ライセンス: Link先を確認
Apoorv Singh(参考訳) 自律型ロボット認識システムを構築する必要性が高まっているため、センサー融合は研究者やエンジニアの間で注目を集め、クロスモダリティ情報を最大限に活用している。 しかし、大規模にロボットプラットフォームを構築するためには、自律型ロボットプラットフォームの導入コストも重視する必要があります。 カメラとレーダーは本質的に補完的な知覚情報を含んでいるが、大規模に自律的なロボットプラットフォームを開発する可能性がある。 しかし、ビジョンワークで融合したlidarと比較して、視覚で融合したレーダーに関する作業は限られている。 本稿では,このギャップを,BEVオブジェクト検出システムにおけるビジョンレーダ融合手法の調査で解決する。 まず,ロボット知覚システムのための背景情報viz,物体検出タスク,センサの選択,センサ設定,ベンチマークデータセット,評価指標について検討する。 その後、モーダリティ(Camera と RADAR)データ表現を網羅し、サブグループviz.、アーリーフュージョン、ディープフュージョン、レイトフュージョンに基づくセンサフュージョン技術について詳細に検討し、各手法の長所と短所を容易に理解する。 最後に,将来の研究を啓蒙するためのビジョンレーダ融合の可能性について提案する。 定期的に更新された概要は、https://github.com/ApoorvRoboticist/Vision-RADAR-Fusion-BEV-Surveyで見ることができる。

Due to the trending need of building autonomous robotic perception system, sensor fusion has attracted a lot of attention amongst researchers and engineers to make best use of cross-modality information. However, in order to build a robotic platform at scale we need to emphasize on autonomous robot platform bring-up cost as well. Cameras and radars, which inherently includes complementary perception information, has potential for developing autonomous robotic platform at scale. However, there is a limited work around radar fused with Vision, compared to LiDAR fused with vision work. In this paper, we tackle this gap with a survey on Vision-Radar fusion approaches for a BEV object detection system. First we go through the background information viz., object detection tasks, choice of sensors, sensor setup, benchmark datasets and evaluation metrics for a robotic perception system. Later, we cover per-modality (Camera and RADAR) data representation, then we go into detail about sensor fusion techniques based on sub-groups viz., early-fusion, deep-fusion, and late-fusion to easily understand the pros and cons of each method. Finally, we propose possible future trends for vision-radar fusion to enlighten future research. Regularly updated summary can be found at: https://github.com/ApoorvRoboticist/Vision-RADAR-Fusion-BEV-Survey
翻訳日:2023-02-15 17:23:20 公開日:2023-02-13
# 126133猫量子ビット9時間における256ビット楕円曲線対数計算

Computing 256-bit Elliptic Curve Logarithm in 9 Hours with 126133 Cat Qubits ( http://arxiv.org/abs/2302.06639v1 )

ライセンス: Link先を確認
\'Elie Gouzien, Diego Ruiz, Francois-Marie Le R\'egent, J\'er\'emie Guillaud, Nicolas Sangouard(参考訳) cat qubitsは量子コンピューティングに魅力的なビルディングブロックを提供する。 これらは、平均光子数でビットフリップの指数関数的な抑制をもたらす可変ノイズバイアスを示し、簡単な繰り返しコードによって残りの位相誤差に対する保護を保証できる。 ここでは反復コードのコストを定量化し,shorのアルゴリズムを用いた楕円曲線上の離散対数計算に基づく性能解析を実現することにより,cat qubitsを用いた大規模アーキテクチャの選択のための有用なガイダンスを提供する。 近接接続を持つ猫キュービットの2次元グリッドに着目し,格子手術による2キュービットゲートと,投影計測およびその後のゲートテレポーテーションにより,オフラインでフォールトトレラントなマジック状態の調整を行う toffoliゲートの実装を提案する。 論理キュービット間のすべての接続は、ルーティングキュービットによって保証される。 1光子と2光子との損失の比が10^{-5}$と500ナノ秒のサイクルタイムと仮定すると、このアーキテクチャは126133個のキャットキュービットで9ドル時間で256ドルの楕円曲線対数を計算できることを具体的に示します。 shorのアルゴリズムの実現の詳細を述べることで,提案する性能解析を再利用して,他のプラットフォームにおけるアーキテクチャの選択を導くことができる。

Cat qubits provide appealing building blocks for quantum computing. They exhibit a tunable noise bias yielding an exponential suppression of bit-flips with the average photon number and a protection against the remaining phase errors can be ensured by a simple repetition code. We here quantify the cost of a repetition code and provide a valuable guidance for the choice of a large scale architecture using cat qubits by realizing a performance analysis based on the computation of discrete logarithms on an elliptic curve with Shor's algorithm. By focusing on a 2D grid of cat qubits with neighboring connectivity, we propose to implement two-qubit gates via lattice surgery and Toffoli gates with off-line fault-tolerant preparation of magic states through projective measurements and subsequent gate teleportations. All-to-all connectivity between logical qubits is ensured by routing qubits. Assuming a ratio between single-photon and two-photon losses of $10^{-5}$ and a cycle time of 500 nanoseconds, we show concretely that such an architecture can compute $256$-bit elliptic curve logarithm in $9$ hours with 126133 cat qubits. We give the details of the realization of Shor's algorithm so that the proposed performance analysis can be easily reused to guide the choice of architecture for others platforms.
翻訳日:2023-02-15 17:22:58 公開日:2023-02-13
# スペクトル変換を用いた高励起固有状態のスケーラブル量子計算

Scalable Quantum Computation of Highly Excited Eigenstates with Spectral Transforms ( http://arxiv.org/abs/2302.06638v1 )

ライセンス: Link先を確認
Shao-Hen Chiew, Leong-Chuan Kwek(参考訳) 物理ハミルトニアンの高励起内部固有状態を変動的に効率的に作成するために,HHLアルゴリズムなどの量子線形システム問題(QLSP)の自然な応用を提案する。 これは、逆期待値の効率的な計算によって実現され、QLSPソルバは、通常それに対応する指数的にコストのかかる前処理ステップを隠蔽することなく、問題サイズの指数関数的に優れたスケーリングを実現する。 本稿では, フォールトトレラント型, 短期型両量子コンピュータの実装を詳述し, その効率と実装性を解析し, 既存のアプローチよりも優れた性能とスケーラビリティを示す多体物理学および量子化学における応用とシミュレーション結果について議論する。

We propose a natural application of Quantum Linear Systems Problem (QLSP) solvers such as the HHL algorithm to efficiently prepare highly excited interior eigenstates of physical Hamiltonians in a variational manner. This is enabled by the efficient computation of inverse expectation values, taking advantage of the QLSP solvers' exponentially better scaling in problem size without concealing exponentially costly pre/post-processing steps that usually accompanies it. We detail implementations of this scheme for both fault-tolerant and near-term quantum computers, analyse their efficiency and implementability, and discuss applications and simulation results in many-body physics and quantum chemistry that demonstrate its superior effectiveness and scalability over existing approaches.
翻訳日:2023-02-15 17:22:34 公開日:2023-02-13
# 変圧器の非分布校正用トリックの袋

Bag of Tricks for In-Distribution Calibration of Pretrained Transformers ( http://arxiv.org/abs/2302.06690v1 )

ライセンス: Link先を確認
Jaeyoung Kim, Dongbin Na, Sungchul Choi, Sungbin Lim(参考訳) 事前訓練された言語モデル(PLM)は、テキスト分類タスクの正確性を促進するデファクトスタンダードとなっているが、最近の研究では、PLMが過度に自信過剰に予測することが多い。 アンサンブル学習やデータ拡張など、様々な校正手法が提案されているが、ほとんどの手法はPLMベースのテキスト分類タスクではなく、コンピュータビジョンベンチマークで検証されている。 本稿では, PLMの信頼性校正に関する実証的研究を行い, 信頼報酬損失, データ強化, アンサンブル手法の3つのカテゴリに対処する。 トレーニングセットに過度に適合したアンサンブルモデルが下位のキャリブレーション性能を示し,信頼度ペナルティ損失を訓練したplmがキャリブレーションと精度の間にトレードオフがあることを観察した。 これらの観測に基づいてキャリブレーション手法を組み合わせたキャリブレーションPLM(CALL)を提案する。 CALLは、キャリブレーション法を個別に利用する際に生じる欠点を補完し、分類とキャリブレーション精度を向上する。 キャリブレーション手法がPLMのキャリブレーション性能に与える影響について,CALLのトレーニング手順における設計選択について詳細に検討した。

While pre-trained language models (PLMs) have become a de-facto standard promoting the accuracy of text classification tasks, recent studies find that PLMs often predict over-confidently. Although various calibration methods have been proposed, such as ensemble learning and data augmentation, most of the methods have been verified in computer vision benchmarks rather than in PLM-based text classification tasks. In this paper, we present an empirical study on confidence calibration for PLMs, addressing three categories, including confidence penalty losses, data augmentations, and ensemble methods. We find that the ensemble model overfitted to the training set shows sub-par calibration performance and also observe that PLMs trained with confidence penalty loss have a trade-off between calibration and accuracy. Building on these observations, we propose the Calibrated PLM (CALL), a combination of calibration techniques. The CALL complements the drawbacks that may occur when utilizing a calibration method individually and boosts both classification and calibration accuracy. Design choices in CALL's training procedures are extensively studied, and we provide a detailed analysis of how calibration techniques affect the calibration performance of PLMs.
翻訳日:2023-02-15 17:16:33 公開日:2023-02-13
# その部分の合計:操作対象の慣性パラメータ識別のための視覚部分分割

The Sum of Its Parts: Visual Part Segmentation for Inertial Parameter Identification of Manipulated Objects ( http://arxiv.org/abs/2302.06685v1 )

ライセンス: Link先を確認
Philippe Nadeau, Matthew Giamou, Jonathan Kelly(参考訳) 作業者と共に安全かつ効率的に作業するためには,協調ロボット(cobots)は,操作対象のダイナミックスを迅速に理解する能力が必要である。 しかしながら、慣性パラメータの完全なセットを推定する従来の方法は、必ずしも高速で安全でない動き(十分な信号対雑音比を達成するために)に依存する。 本研究では,視覚と力のねじれを組み合わせることで,動きの遅さや「ストップ・アンド・ゴー」のみを必要とする慣性パラメータ同定アルゴリズムを開発した。 この手法は均質部分分割 (hps) と呼ばれ, 人工物は異なる均質な部分から構成されていることが多いという観察を生かしている。 我々は,表面に基づく点クラスタリング法と体積形状分割アルゴリズムを組み合わせることで,操作対象の部分レベルセグメンテーションを高速に生成し,そのセグメンテーション表現をHPSにより精度よくオブジェクトの慣性パラメータを推定するために利用する。 アルゴリズムをベンチマークするために、20の共通ワークショップツールに対して、現実的なメッシュ、セグメント化されたポイントクラウド、慣性パラメータからなる新しいデータセットを作成し、利用する。 最後に,低コストの協調ロボットアームを用いて,複雑な「ハンマーバランス法」を自律的かつオンラインで実施することにより,HPSの実際の性能と精度を実証する。 私たちのコードとデータセットはオープンソースで、自由に利用できます。

To operate safely and efficiently alongside human workers, collaborative robots (cobots) require the ability to quickly understand the dynamics of manipulated objects. However, traditional methods for estimating the full set of inertial parameters rely on motions that are necessarily fast and unsafe (to achieve a sufficient signal-to-noise ratio). In this work, we take an alternative approach: by combining visual and force-torque measurements, we develop an inertial parameter identification algorithm that requires slow or 'stop-and-go' motions only, and hence is ideally tailored for use around humans. Our technique, called Homogeneous Part Segmentation (HPS), leverages the observation that man-made objects are often composed of distinct, homogeneous parts. We combine a surface-based point clustering method with a volumetric shape segmentation algorithm to quickly produce a part-level segmentation of a manipulated object; the segmented representation is then used by HPS to accurately estimate the object's inertial parameters. To benchmark our algorithm, we create and utilize a novel dataset consisting of realistic meshes, segmented point clouds, and inertial parameters for 20 common workshop tools. Finally, we demonstrate the real-world performance and accuracy of HPS by performing an intricate 'hammer balancing act' autonomously and online with a low-cost collaborative robotic arm. Our code and dataset are open source and freely available.
翻訳日:2023-02-15 17:16:11 公開日:2023-02-13
# CheXpert5000におけるモダンアーキテクチャと正規化アプローチの総合的研究

A Comprehensive Study of Modern Architectures and Regularization Approaches on CheXpert5000 ( http://arxiv.org/abs/2302.06684v1 )

ライセンス: Link先を確認
Sontje Ihler, Felix Kuhnke, Svenja Spindeldreier(参考訳) コンピュータ支援診断(CAD)は、100k-200kデータセットをラベル付けした典型的な限定データアプリケーションの一例として、ここ数年、一般研究コミュニティで注目を集めてきた。 これらのデータセットは、ImageNet1k、ImageNet21k、JFTのような自然な画像データセットと比較してまだ小さいが、1k-10kラベルのサンプルがより一般的である注釈付き医療データセットには大きい。 ローデータレジームでどのメソッドを構築するべきかのベースラインはありません。 本研究では,限定的アノテーション(5k)による医用画像分類に関する広範な研究を通じて,このギャップを埋める。 我々は,chexpertデータセット上の5000画像の固定低データレジームに適用する近代的アーキテクチャの研究を行う。 ImageNet21kで事前訓練されたモデルはより高いAUCを実現し、より大きなモデルはより少ないトレーニングステップを必要とする。 すべてのモデルは、5000のトレーニングサンプルを微調整しただけで、かなりよく調整されています。 すべての'モダン'アーキテクチャはResNet50よりもAUCが高い。 MixUpまたはMean TeacherによるBig Transferモデルの正規化はキャリブレーションを改善し、MixUpは精度も向上する。 Vision TransformerはBig Transfer Modelsと同等または同等の結果を得る。

Computer aided diagnosis (CAD) has gained an increased amount of attention in the general research community over the last years as an example of a typical limited data application - with experiments on labeled 100k-200k datasets. Although these datasets are still small compared to natural image datasets like ImageNet1k, ImageNet21k and JFT, they are large for annotated medical datasets, where 1k-10k labeled samples are much more common. There is no baseline on which methods to build on in the low data regime. In this work we bridge this gap by providing an extensive study on medical image classification with limited annotations (5k). We present a study of modern architectures applied to a fixed low data regime of 5000 images on the CheXpert dataset. Conclusively we find that models pretrained on ImageNet21k achieve a higher AUC and larger models require less training steps. All models are quite well calibrated even though we only fine-tuned on 5000 training samples. All 'modern' architectures have higher AUC than ResNet50. Regularization of Big Transfer Models with MixUp or Mean Teacher improves calibration, MixUp also improves accuracy. Vision Transformer achieve comparable or on par results to Big Transfer Models.
翻訳日:2023-02-15 17:15:45 公開日:2023-02-13
# セルフアテンションと相対ポジショニングインフュージョンによる多変量時系列分類器の強化

Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion ( http://arxiv.org/abs/2302.06683v1 )

ライセンス: Link先を確認
Mehryar Abbasi, Parvaneh Saeedi(参考訳) 時系列分類(TSC)は多くのビジュアルコンピューティングアプリケーションにとって重要かつ困難な課題である。 TSC向けに開発された幅広い手法にもかかわらず、Deep Neural Networks (DNN) は比較的少ない。 本稿では,この手法が特定のデータセットやタスクに対して設計・最適化されている場合でも,深層学習に基づくTSCアプローチを強化することのできる2つの新しい注意ブロック(Global Temporal Attention と Temporal Pseudo-Gaussian augmented Self-Attention )を提案する。 我々は,多変量時系列分類(mtsc)データセットの標準化コレクションである東アングリア大学ベンチマーク(uea)上で,最先端のディープラーニングに基づくtscモデルを複数評価することにより,この主張を検証する。 提案する注意ブロックの追加により,ベースモデルの平均精度が最大3.6%向上することを示す。 さらに、提案したTPSブロックは、トランスに相対的な位置情報を含む新しいインジェクションモジュールを使用する。 計算複雑性の少ないスタンドアロンユニットとして、TPSは最先端のDNNベースのTSCメソッドよりもパフォーマンスがよい。 実験的なセットアップと提案する注意ブロックのソースコードが公開されています。

Time Series Classification (TSC) is an important and challenging task for many visual computing applications. Despite the extensive range of methods developed for TSC, relatively few utilized Deep Neural Networks (DNNs). In this paper, we propose two novel attention blocks (Global Temporal Attention and Temporal Pseudo-Gaussian augmented Self-Attention) that can enhance deep learning-based TSC approaches, even when such approaches are designed and optimized for a specific dataset or task. We validate this claim by evaluating multiple state-of-the-art deep learning-based TSC models on the University of East Anglia (UEA) benchmark, a standardized collection of 30 Multivariate Time Series Classification (MTSC) datasets. We show that adding the proposed attention blocks improves base models' average accuracy by up to 3.6%. Additionally, the proposed TPS block uses a new injection module to include the relative positional information in transformers. As a standalone unit with less computational complexity, it enables TPS to perform better than most of the state-of-the-art DNN-based TSC methods. The source codes for our experimental setups and proposed attention blocks are made publicly available.
翻訳日:2023-02-15 17:15:24 公開日:2023-02-13
# User-Centered Design (IX):人工知能時代の"User Experience 3.0"パラダイムフレームワーク

User-Centered Design (IX): A "User Experience 3.0" Paradigm Framework in the Intelligence Era ( http://arxiv.org/abs/2302.06681v1 )

ライセンス: Link先を確認
Wei Xu(参考訳) ユーザ中心設計」のデザイン哲学に基づくユーザエクスペリエンス(UX)の分野は、インテリジェンスの時代に向かっている。 それでも、既存のUXパラダイムは主にインテリジェントでないシステムを対象としており、インテリジェントなシステムに対するUXに対する体系的なアプローチが欠けている。 UXの開発を通じて、UXパラダイムは技術横断時代の進化特性を示している。 現在、インテリジェンス時代はUXパラダイムに対する新たな要求を提起している。 そこで本稿では,インテリジェンス時代の"UX 3.0"パラダイムフレームワークと,それに対応するUX方法論システムを提案する。 UX 3.0"パラダイムフレームワークには、エコロジーエクスペリエンス、イノベーション対応エクスペリエンス、AI対応エクスペリエンス、ヒューマン-AIインタラクションベースエクスペリエンス、ヒューマン-AIコラボレーションベースのエクスペリエンスメソッドの5つのカテゴリが含まれている。 UX 3.0"パラダイムの提案は、既存のUXメソッドの改善を支援し、インテリジェントシステム開発におけるUXの研究と応用に対する方法論的なサポートを提供する。 最後に、この論文は「UX 3.0」パラダイムの今後の研究と応用を楽しみにしている。

The field of user experience (UX) based on the design philosophy of "user-centered design" is moving towards the intelligence era. Still, the existing UX paradigm mainly aims at non-intelligent systems and lacks a systematic approach to UX for intelligent systems. Throughout the development of UX, the UX paradigm shows the evolution characteristics of the cross-technology era. At present, the intelligence era has put forward new demands on the UX paradigm. For this reason, this paper proposes a "UX 3.0" paradigm framework and the corresponding UX methodology system in the intelligence era. The "UX 3.0" paradigm framework includes five categories of UX methods: ecological experience, innovation-enabled experience, AI-enabled experience, human-AI interaction-based experience, and human-AI collaboration-based experience methods, each of which includes corresponding multiple UX paradigmatic orientations. The proposal of the "UX 3.0" paradigm helps improve the existing UX methods and provides methodological support for the research and application of UX in developing intelligent systems. Finally, this paper looks forward to future research and application of the "UX 3.0" paradigm.
翻訳日:2023-02-15 17:15:01 公開日:2023-02-13
# ニューラルネットワークのシステム識別: 正しければ、私たちは知っているだろうか?

System identification of neural systems: If we got it right, would we know? ( http://arxiv.org/abs/2302.06677v1 )

ライセンス: Link先を確認
Yena Han, Tomaso Poggio, Brian Cheung(参考訳) 人工ニューラルネットワークは脳の一部のモデルとして提案されている。 ネットワークは生体ニューロンの記録と比較され,神経応答の再現性能はモデルの有効性を裏付けると考えられる。 重要な疑問は、このシステム識別アプローチが脳の計算についてどれだけ教えてくれるかである。 あるモデルアーキテクチャを別のモデル上で検証するのでしょうか? 線形符号化モデルや中心核アライメントなど,最も一般的に使用される比較手法を評価し,脳記録を既知の基底モデルに置き換えることで,モデルを正確に同定する。 システム識別性能はかなり可変であり、また刺激画像のような基底的真理アーキテクチャに依存しない要因にも大きく依存する。 さらに,高次アーキテクチャモチーフの同定における機能的類似度スコアの使用の限界を示す。

Artificial neural networks are being proposed as models of parts of the brain. The networks are compared to recordings of biological neurons, and good performance in reproducing neural responses is considered to support the model's validity. A key question is how much this system identification approach tells us about brain computation. Does it validate one model architecture over another? We evaluate the most commonly used comparison techniques, such as a linear encoding model and centered kernel alignment, to correctly identify a model by replacing brain recordings with known ground truth models. System identification performance is quite variable; it also depends significantly on factors independent of the ground truth architecture, such as stimuli images. In addition, we show the limitations of using functional similarity scores in identifying higher-level architectural motifs.
翻訳日:2023-02-15 17:14:44 公開日:2023-02-13
# netflix and forget: 双方向レコメンデーションによる効率的かつ正確なマシンアンラーニング

Netflix and Forget: Efficient and Exact Machine Unlearning from Bi-linear Recommendations ( http://arxiv.org/abs/2302.06676v1 )

ライセンス: Link先を確認
Mimee Xu, Jiankai Sun, Xin Yang, Kevin Yao, Chong Wang(参考訳) 人々は別れ、流産し、愛する人を失います。 しかし、オンラインストリーミングとショッピングのレコメンデーションは必ずしも更新されず、損失の不幸なリマインダーとして機能する可能性がある。 ユーザが過去のアクションを再確認したい場合、レコメンダプラットフォームがモデルレベルで選択したデータを消去することを期待する。 理想的には、特定のユーザ履歴を考慮すれば、レコードがトレーニングの一部ではないかのように、レコメンデータは巻き戻し、あるいは"忘れる"ことができる。 そこで本稿では,行列の完全性に基づく推薦のための,単純かつ広く展開された双線形モデルについて述べる。 再トレーニングのコストを伴わず、かつ、不必要にモデルを劣化させることなく、最小二乗最適化を交互に行う微調整手順にいくつかの重要な変更を加え、トレーニング手順にかかわらず任意の双線型モデルに適用する。 我々は,unlearn-als は \emph{any} モデル劣化を伴わない再トレーニングと一致し,高速収束を示し,既存のレコメンデータの大きなクラスに適していることを示す。

People break up, miscarry, and lose loved ones. Their online streaming and shopping recommendations, however, do not necessarily update, and may serve as unhappy reminders of their loss. When users want to renege on their past actions, they expect the recommender platforms to erase selective data at the model level. Ideally, given any specified user history, the recommender can unwind or "forget", as if the record was not part of training. To that end, this paper focuses on simple but widely deployed bi-linear models for recommendations based on matrix completion. Without incurring the cost of re-training, and without degrading the model unnecessarily, we develop Unlearn-ALS by making a few key modifications to the fine-tuning procedure under Alternating Least Squares optimisation, thus applicable to any bi-linear models regardless of the training procedure. We show that Unlearn-ALS is consistent with retraining without \emph{any} model degradation and exhibits rapid convergence, making it suitable for a large class of existing recommenders.
翻訳日:2023-02-15 17:14:31 公開日:2023-02-13
# 最適化アルゴリズムの記号的発見

Symbolic Discovery of Optimization Algorithms ( http://arxiv.org/abs/2302.06675v1 )

ライセンス: Link先を確認
Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le(参考訳) 本稿では,プログラム探索としてアルゴリズム探索を定式化し,ディープニューラルネットワーク学習のための最適化アルゴリズムを探索する手法を提案する。 我々は効率的な探索技術を利用して無限にスパースなプログラム空間を探索する。 プロキシとターゲットタスク間の大きな一般化ギャップを埋めるため,プログラム選択と単純化戦略も導入する。 この手法は、単純かつ効果的な最適化アルゴリズムである$\textbf{lion}$ (\textit{evo$\textbf{l}$ved s$\textbf{i}$gn m$\textbf{o}$me$\textbf{n}$tum}$) を発見する。 運動量だけを追跡するため、Adamよりもメモリ効率が高い。 適応オプティマイザと異なり、その更新は符号演算によって計算された各パラメータに対して同じ大きさである。 lionとadamやadafactorといった広く使われているオプティマイザを比較して,さまざまなタスクでさまざまなモデルをトレーニングします。 画像分類では、LionはImageNetでViTの精度を最大2%向上させ、JFTでトレーニング済みの計算の最大5倍節約する。 視覚言語比較学習では、imagenetで88.3%$\textit{zero-shot}$と91.1%$\textit{fine-tuning}$をそれぞれ2%と0.1%の精度で達成した。 拡散モデルにおいて、ライオンはより良いfidスコアを達成し、トレーニング計算を最大2.3倍削減することでアダムを上回る。 自動回帰、マスク付き言語モデリング、微調整では、LionはAdamと同じような、あるいは優れたパフォーマンスを示している。 Lionの分析では、トレーニングバッチサイズによってパフォーマンスが向上することが明らかになった。 また、符号関数によって生成された更新のノルムが大きいため、Adamよりも学習速度が小さい。 さらに,ライオンの限界を検証し,その改善が統計的に重要でない場合のシナリオを特定する。 lionの実装が公開されている。

We present a method to formulate algorithm discovery as program search, and apply it to discover optimization algorithms for deep neural network training. We leverage efficient search techniques to explore an infinite and sparse program space. To bridge the large generalization gap between proxy and target tasks, we also introduce program selection and simplification strategies. Our method discovers a simple and effective optimization algorithm, $\textbf{Lion}$ ($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$\textbf{n}$tum}$). It is more memory-efficient than Adam as it only keeps track of the momentum. Different from adaptive optimizers, its update has the same magnitude for each parameter calculated through the sign operation. We compare Lion with widely used optimizers, such as Adam and Adafactor, for training a variety of models on different tasks. On image classification, Lion boosts the accuracy of ViT by up to 2% on ImageNet and saves up to 5x the pre-training compute on JFT. On vision-language contrastive learning, we achieve 88.3% $\textit{zero-shot}$ and 91.1% $\textit{fine-tuning}$ accuracy on ImageNet, surpassing the previous best results by 2% and 0.1%, respectively. On diffusion models, Lion outperforms Adam by achieving a better FID score and reducing the training compute by up to 2.3x. For autoregressive, masked language modeling, and fine-tuning, Lion exhibits a similar or better performance compared to Adam. Our analysis of Lion reveals that its performance gain grows with the training batch size. It also requires a smaller learning rate than Adam due to the larger norm of the update produced by the sign function. Additionally, we examine the limitations of Lion and identify scenarios where its improvements are small or not statistically significant. The implementation of Lion is publicly available.
翻訳日:2023-02-15 17:14:08 公開日:2023-02-13
# PK-ICR:接地対話のためのペルソナ知識対話型文脈検索

PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue ( http://arxiv.org/abs/2302.06674v1 )

ライセンス: Link先を確認
Minsik Oh, Joosung Lee, Jiwei Li, Guoyin Wang(参考訳) 対話システムにおける関連するペルソナや知識の同定は,対話応答生成の重要な要素である。 しかし,最近導入されたより実践的なマルチコンテキストタスクと分離して研究されている。 我々は、複雑な多言語対話設定において、ペルソナとナレッジの2つのコンテキスト識別を、与えられた対話において、ペルソナとナレッジを共同で識別するタスクとして定義する。 本稿では,対話のすべての文脈を同時に活用すると同時に,ニューラルネットワークq_&a検索モデルとの適合性からゼロショット推論による限定的な学習を要求できる新しい接地探索法を開発した。 さらに,ペルソナとダイアログの組み合わせによる否定的な振る舞いを,新たなnull陽性ランクテストによって分析する。

Identifying relevant Persona or Knowledge for conversational systems is a critical component of grounded dialogue response generation. However, each grounding has been studied in isolation with more practical multi-context tasks only recently introduced. We define Persona and Knowledge Dual Context Identification as the task to identify Persona and Knowledge jointly for a given dialogue, which could be of elevated importance in complex multi-context Dialogue settings. We develop a novel grounding retrieval method that utilizes all contexts of dialogue simultaneously while also requiring limited training via zero-shot inference due to compatibility with neural Q \& A retrieval models. We further analyze the hard-negative behavior of combining Persona and Dialogue via our novel null-positive rank test.
翻訳日:2023-02-15 17:13:34 公開日:2023-02-13
# 説明可能な視覚異常検出に向けて

Towards Explainable Visual Anomaly Detection ( http://arxiv.org/abs/2302.06670v1 )

ライセンス: Link先を確認
Yizhou Wang, Dongliang Guo, Sheng Li, Yun Fu(参考訳) 画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習のアカデミックと実世界のシナリオの両方において非常に重要である。 近年、視覚異常検出技術の急速な発展にもかかわらず、これらのブラックボックスモデルの解釈や、異常を区別できる理由の合理的な説明は少ない。 本稿では,説明可能な視覚異常検出法に注目した最初の調査を行う。 まず,画像レベルの異常検出の基礎的背景と映像レベルの異常検出について紹介する。 次に,本調査の主な内容として,画像とビデオの両方に対する説明可能な異常検出方法に関する総合的かつ徹底的な文献レビューを紹介する。 最後に,視覚異常検出の可否を説明するために,将来有望ないくつかの方向と課題について論じる。

Anomaly detection and localization of visual data, including images and videos, are of great significance in both machine learning academia and applied real-world scenarios. Despite the rapid development of visual anomaly detection techniques in recent years, the interpretations of these black-box models and reasonable explanations of why anomalies can be distinguished out are scarce. This paper provides the first survey concentrated on explainable visual anomaly detection methods. We first introduce the basic background of image-level anomaly detection and video-level anomaly detection, followed by the current explainable approaches for visual anomaly detection. Then, as the main content of this survey, a comprehensive and exhaustive literature review of explainable anomaly detection methods for both images and videos is presented. Finally, we discuss several promising future directions and open problems to explore on the explainability of visual anomaly detection.
翻訳日:2023-02-15 17:13:20 公開日:2023-02-13
# マシンラーニングモデルの帰属課題

Machine Learning Model Attribution Challenge ( http://arxiv.org/abs/2302.06716v1 )

ライセンス: Link先を確認
Elizabeth Merkhofe, Deepesh Chaudhari, Hyrum S. Anderson, Keith Manville, Lily Wong, Jo\~ao Gante(参考訳) 機械学習モデル属性チャレンジ(\href{https://mlmac.io}{https://mlmac.io})の成果を示す。 微調整された機械学習モデルは、明らかな帰属特性のない他の訓練されたモデルに由来する可能性がある。 この課題では、参加者は匿名で微調整された大規模言語モデル(LLM)のセットを、テキスト出力のみを使用して、一般に利用可能なベースモデルを特定する。 競技者は最も微調整されたモデルを正しく分類することを目的としており、その関係は、微調整モデルのapiへの呼び出しが少ないソリューションを使う競技者によって破られる。 最も成功したアプローチは手動で、参加者はモデルのアウトプット間の類似性を観察し、ベースモデルの公開ドキュメントに基づいた帰属ヒューリスティックを開発した。

We present the findings of the Machine Learning Model Attribution Challenge (\href{https://mlmac.io}{https://mlmac.io}). Fine-tuned machine learning models may derive from other trained models without obvious attribution characteristics. In this challenge, participants identify the publicly-available base models that underlie a set of anonymous, fine-tuned large language models (LLMs) using only textual output of the models. Contestants aim to correctly attribute the most fine-tuned models, with ties broken in the favor of contestants whose solutions use fewer calls to the fine-tuned models' API. The most successful approaches were manual, as participants observed similarities between model outputs and developed attribution heuristics based on public documentation of the base models, though several teams also submitted automated, statistical solutions.
翻訳日:2023-02-15 17:07:59 公開日:2023-02-13
# 2つのトランスモンを用いた単一論理量子ビットの自律的誤り訂正

Autonomous error correction of a single logical qubit using two transmons ( http://arxiv.org/abs/2302.06707v1 )

ライセンス: Link先を確認
Ziqian Li, Tanay Roy, David Rodriguez Perez, Kan-Heng Lee, Eliot Kapit, David I. Schuster(参考訳) 大規模な量子コンピュータは必然的に、非一貫性から情報を保護するために量子誤り訂正を必要とする。 従来の誤り訂正は、高効率なエラーシンドローム測定とリアルタイムフィードバックとともに、多くの量子ビットを必要とする。 自律型量子誤り訂正(AQEC)は、代わりに定常浴槽工学を用いてハードウェア効率の良い修正を行う。 2次元のスケーラブルなアーキテクチャで2つのトランスモン量子ビットで実装されたaqecスキームを実現し,単一光子損失を積極的に補正し,6つのマイクロ波ドライブを用いた低周波遅延を受動的に抑制する。 非訂正エンコーディングと比較して、論理ゼロ、1、重ね合わせ状態において、2.0、5.1、1.4の改善要素が実験的に確認される。 本結果は,トランスモンベースの量子情報プロセッサの信頼性を高めるために,ハードウェア効率のよいAQECを実装する可能性を示している。

Large-scale quantum computers will inevitably need quantum error correction to protect information against decoherence. Traditional error correction typically requires many qubits, along with high-efficiency error syndrome measurement and real-time feedback. Autonomous quantum error correction (AQEC) instead uses steady-state bath engineering to perform the correction in a hardware-efficient manner. We realize an AQEC scheme, implemented with only two transmon qubits in a 2D scalable architecture, that actively corrects single-photon loss and passively suppresses low-frequency dephasing using six microwave drives. Compared to uncorrected encoding, factors of 2.0, 5.1, and 1.4 improvements are experimentally witnessed for the logical zero, one, and superposition states. Our results show the potential of implementing hardware-efficient AQEC to enhance the reliability of a transmon-based quantum information processor.
翻訳日:2023-02-15 17:07:46 公開日:2023-02-13
# 大規模言語モデルの計画能力について(提案ベンチマークによる批判的考察)

On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark) ( http://arxiv.org/abs/2302.06706v1 )

ライセンス: Link先を確認
Karthik Valmeekam, Sarath Sreedharan, Matthew Marquez, Alberto Olmo, Subbarao Kambhampati(参考訳) 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。 本研究の目的は,1)コモンセンス計画タスクにおける簡単な計画の作成と検証において,LLMがいかに優れているかを評価すること,2)AIプランナーやヒューマンプランナーが計画タスクにおいて,他のエージェントに対するヒューリスティックガイダンスの源泉として,LLMがいかに優れているかを評価することである。 これらの質問を体系的に検討するため,我々は,国際計画コンペティションで採用されるドメインの種類を基準としたベンチマークスイートの開発から始める。 本ベンチマークでは,LLMを自律性,ヒューリスティック性,ループ内人間性という3つのモードで評価する。 以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%に過ぎなかった。 ヒューリスティックと人間のループモードは、もう少し期待できる。 これらの結果に加えて,研究コミュニティによる調査を支援するためのベンチマークと評価ツールも提供する。

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) how good LLMs are by themselves in generating and validating simple plans in commonsense planning tasks (of the type that humans are generally quite good at) and (2) how good LLMs are in being a source of heuristic guidance for other agents--either AI planners or human planners--in their planning tasks. To investigate these questions in a systematic rather than anecdotal manner, we start by developing a benchmark suite based on the kinds of domains employed in the International Planning Competition. On this benchmark, we evaluate LLMs in three modes: autonomous, heuristic and human-in-the-loop. Our results show that LLM's ability to autonomously generate executable plans is quite meager, averaging only about 3% success rate. The heuristic and human-in-the-loop modes show slightly more promise. In addition to these results, we also make our benchmark and evaluation tools available to support investigations by research community.
翻訳日:2023-02-15 17:07:31 公開日:2023-02-13
# 局所的および大域的低レベル問題を用いた通信効率のよい二重レベル最適化

Communication-Efficient Federated Bilevel Optimization with Local and Global Lower Level Problems ( http://arxiv.org/abs/2302.06701v1 )

ライセンス: Link先を確認
Junyi Li, Feihu Huang, Heng Huang(参考訳) バイレベル最適化は、新しい効率的なアルゴリズムで最近顕著な進歩をみせたが、フェデレートラーニング設定では過小評価されている。 フェデレートラーニングの課題がバイレベルアルゴリズムの収束にどのように影響するかは不明である。 本研究では,フェデレーテッド・バイレベル最適化問題について検討する。 我々はまず,高次推定問題を効率的に解くFedBiOアルゴリズムを提案し,FedBiOを高速化するためにFedBiOAccを提案する。 fedbioはリニアスピードアップで通信複雑性$o(\epsilon^{-1.5})$、feedbioaccは通信複雑性$o(\epsilon^{-1})$、サンプル複雑性$o(\epsilon^{-1.5})$、線形スピードアップを実現している。 また,フェデレート二レベル最適化問題と局所低レベル問題についても検討し,federated bilevel optimization問題とfederated bilevel optimization問題と fedbio と fedbioacc が同一の速度で収束することを示す。

Bilevel Optimization has witnessed notable progress recently with new emerging efficient algorithms, yet it is underexplored in the Federated Learning setting. It is unclear how the challenges of Federated Learning affect the convergence of bilevel algorithms. In this work, we study Federated Bilevel Optimization problems. We first propose the FedBiO algorithm that solves the hyper-gradient estimation problem efficiently, then we propose FedBiOAcc to accelerate FedBiO. FedBiO has communication complexity $O(\epsilon^{-1.5})$ with linear speed up, while FedBiOAcc achieves communication complexity $O(\epsilon^{-1})$, sample complexity $O(\epsilon^{-1.5})$ and also the linear speed up. We also study Federated Bilevel Optimization problems with local lower level problems, and prove that FedBiO and FedBiOAcc converges at the same rate with some modification.
翻訳日:2023-02-15 17:07:03 公開日:2023-02-13
# 複素合成ゲージ場を用いた結合電子発振器における高次例外点の生成

Generating high-order exceptional points in coupled electronic oscillators using complex synthetic gauge fields ( http://arxiv.org/abs/2302.06699v1 )

ライセンス: Link先を確認
Jos\'e D. Huerta-Morales, Mario A. Quiroz-Ju\'arez, Yogesh N. Joglekar, Roberto de J. Le\'on-Montiel(参考訳) 例外点 (EP) は非エルミート系の退化であり、固有値と固有ベクトルの両方が結合する。 高次EPを示す古典的および量子システムは最近、新しい超感度光電子デバイスを開発するための基本的な構成要素として特定されている。 しかし、大きな欠点の1つは、特に量子領域における潜在的な応用を制限する非線形増幅プロセスに依存することである。 本研究では,高次epを線形,時間変調,誘導結合型rlc(rは抵抗,lはインダクタンス,cは容量)電子回路によって設計可能であることを示す。 一般的な理論では、2N$の動的変数と時間依存パラメータを持つ$N$結合回路は、N$サイト、時間依存、非エルミート・ハミルトニアンに写像され、そのようなモデルにおいて$\mathcal{PT}$対称性に対する制約が得られる。 数値計算により、回路内のエネルギー力学を研究することにより、Floquetの例外的な$N$の輪郭を求める。 この結果は, センサ, エネルギー移動, トポロジーに重要な意味を持つ合成ゲージ場を用いて, 強靭で任意の順序のEPを実現するための道を開いた。

Exceptional points (EPs) are degeneracies of non-Hermitian systems, where both eigenvalues and eigenvectors coalesce. Classical and quantum systems exhibiting high-order EPs have recently been identified as fundamental building blocks for the development of novel, ultra-sensitive opto-electronic devices. However, arguably one of their major drawbacks is that they rely on non-linear amplification processes that could limit their potential applications, particularly in the quantum realm. In this work, we show that high-order EPs can be designed by means of linear, time-modulated, chain of inductively coupled RLC (where R stands for resistance, L for inductance, and C for capacitance) electronic circuits. With a general theory, we show that $N$ coupled circuits with $2N$ dynamical variables and time-dependent parameters can be mapped onto an $N$-site, time-dependent, non-Hermitian Hamiltonian, and obtain constraints for $\mathcal{PT}$-symmetry in such models. With numerical calculations, we obtain the Floquet exceptional contours of order $N$ by studying the energy dynamics in the circuit. Our results pave the way toward realizing robust, arbitrary-order EPs by means of synthetic gauge fields, with important implications for sensing, energy transfer, and topology.
翻訳日:2023-02-15 17:06:33 公開日:2023-02-13
# YOLO物体検出を用いた甘草チェリーフェノタイピングの深層学習への応用

An Application of Deep Learning for Sweet Cherry Phenotyping using YOLO Object Detection ( http://arxiv.org/abs/2302.06698v1 )

ライセンス: Link先を確認
Ritayu Nagpal, Sam Long, Shahid Jahagirdar, Weiwei Liu, Scott Fazackerley, Ramon Lawrence, Amritpal Singh(参考訳) 樹木の果実の育種は、多くのサンプルにおいて、様々な果実品質特性の反復測定を含む長期的な活動である。 これらの特徴は伝統的に手動で果実を計数し、果実の大きさを間接的に測定し、果実の色は色チャートと比較して主観的に異なる色カテゴリに分類される。 これらのプロセスは遅く、高価であり、評価者のバイアスや疲労にさらされる。 ディープラーニングの最近の進歩は、このプロセスの自動化に役立つ。 YOLOv3を用いて,カメラの視野におけるサツマイモの実の数をリアルタイムで計測する手法を開発した。 サイズや色といった他の特徴のイメージデータを解析するシステムもpythonを用いて開発された。 YOLOモデルでは,サイズと色情報を抽出する際に,対象検出とチェリー数において99%の精度と,対象位置決めのためのユニオン計量のインターセクション上で90%の精度を得た。 このモデルは人間のパフォーマンスを上回り、手動の計数よりも大幅に改善されている。

Tree fruit breeding is a long-term activity involving repeated measurements of various fruit quality traits on a large number of samples. These traits are traditionally measured by manually counting the fruits, weighing to indirectly measure the fruit size, and fruit colour is classified subjectively into different color categories using visual comparison to colour charts. These processes are slow, expensive and subject to evaluators' bias and fatigue. Recent advancements in deep learning can help automate this process. A method was developed to automatically count the number of sweet cherry fruits in a camera's field of view in real time using YOLOv3. A system capable of analyzing the image data for other traits such as size and color was also developed using Python. The YOLO model obtained close to 99% accuracy in object detection and counting of cherries and 90% on the Intersection over Union metric for object localization when extracting size and colour information. The model surpasses human performance and offers a significant improvement compared to manual counting.
翻訳日:2023-02-15 17:06:05 公開日:2023-02-13
# 適応確率的信念依存制約による簡易連続的高次元信念空間計画

Simplified Continuous High Dimensional Belief Space Planning with Adaptive Probabilistic Belief-dependent Constraints ( http://arxiv.org/abs/2302.06697v1 )

ライセンス: Link先を確認
Andrey Zhitnikov, Vadim Indelman(参考訳) 部分的に観測可能な領域でのオンライン意思決定は、Belief Space Planningとしても知られ、ロボティクスと人工知能の基本的な問題である。 予測可能な未来の発見が豊富にあるため、最適な行動経路を計算すると、エージェントに大きな計算負荷がかかる。 さらに、情報収集などの多くのシナリオでは、信念に依存した制約を導入する必要がある。 本稿では,近年導入された確率論的信念依存制約付きpomdpについて考察する。 本稿では,将来の観測サンプルの完全な集合を拡張する前に,確率的信念依存制約に関して候補行動系列を適応的に受け入れ,あるいは破棄する手法を提案する。 さらに,提案手法を用いて,提案手法を応用して,候補行動系列に有意なアクセラレーションを施すリスクのある値の観点で,最大実現可能な戻り値(情報ゲインなど)を求める適応手法を提案する。 さらに,確率的に制約された設定に対する適応的単純化手法を提案する。 このようなアプローチは、オンライン意思決定を劇的に加速しながら、同じ品質のソリューションを確実に返します。 我々の普遍的枠組みは、粒子で表される非パラメトリックな信念と同様に、パラメトリックな信念を持つ任意の信念依存的制約付き連続POMDPに適用される。 情報理論的制約の文脈において,提案フレームワークは,情報収集,アクティブSLAMなど,計画地平線に沿った累積的な情報取得が十分に重要であるかどうかを統計的に定量化する。 本研究では,高次元空間計画の課題であるアクティブSLAMに適用する。 広範に現実的なシミュレーションは、提案したアイデアの優越性を裏付ける。

Online decision making under uncertainty in partially observable domains, also known as Belief Space Planning, is a fundamental problem in robotics and Artificial Intelligence. Due to an abundance of plausible future unravelings, calculating an optimal course of action inflicts an enormous computational burden on the agent. Moreover, in many scenarios, e.g., information gathering, it is required to introduce a belief-dependent constraint. Prompted by this demand, in this paper, we consider a recently introduced probabilistic belief-dependent constrained POMDP. We present a technique to adaptively accept or discard a candidate action sequence with respect to a probabilistic belief-dependent constraint, before expanding a complete set of future observations samples and without any loss in accuracy. Moreover, using our proposed framework, we contribute an adaptive method to find a maximal feasible return (e.g., information gain) in terms of Value at Risk for the candidate action sequence with substantial acceleration. On top of that, we introduce an adaptive simplification technique for a probabilistically constrained setting. Such an approach provably returns an identical-quality solution while dramatically accelerating online decision making. Our universal framework applies to any belief-dependent constrained continuous POMDP with parametric beliefs, as well as nonparametric beliefs represented by particles. In the context of an information-theoretic constraint, our presented framework stochastically quantifies if a cumulative information gain along the planning horizon is sufficiently significant (e.g. for, information gathering, active SLAM). We apply our method to active SLAM, a highly challenging problem of high dimensional Belief Space Planning. Extensive realistic simulations corroborate the superiority of our proposed ideas.
翻訳日:2023-02-15 17:05:48 公開日:2023-02-13
# 地図レスナビゲーションにおける安全深層強化学習のためのオンライン安全特性収集と改良

Online Safety Property Collection and Refinement for Safe Deep Reinforcement Learning in Mapless Navigation ( http://arxiv.org/abs/2302.06695v1 )

ライセンス: Link先を確認
Luca Marzari, Enrico Marchesini and Alessandro Farinelli(参考訳) Deep Reinforcement Learning (DRL)アルゴリズムを現実のシナリオにデプロイするためには、安全性が不可欠である。 近年、プロパティと呼ばれる入出力関係に対するDRLポリシー違反数を定量化するための検証手法が提案されている。 しかし、そのような特性はハードコードされており、タスクレベルの知識を必要とするため、そのアプリケーションは安全なクリティカルなタスクに挑戦するのに難しかった。 そこで本研究では,オンラインプロパティ(crop)フレームワークの学習時にプロパティを設計するための収集と改良について紹介する。 CROPは安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。 そこで,同種の安全でない相互作用をモデル化する特性を組み合わせるための改良戦略を提案する。 本評価では, 標準ハードコードプロパティとCROPで生成したデータを用いて, 違反数を計算することの利点を比較した。 本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反基準が,従来のSafe DRL手法よりも高いリターンと低い違反を可能にすることを示す。

Safety is essential for deploying Deep Reinforcement Learning (DRL) algorithms in real-world scenarios. Recently, verification approaches have been proposed to allow quantifying the number of violations of a DRL policy over input-output relationships, called properties. However, such properties are hard-coded and require task-level knowledge, making their application intractable in challenging safety-critical tasks. To this end, we introduce the Collection and Refinement of Online Properties (CROP) framework to design properties at training time. CROP employs a cost signal to identify unsafe interactions and use them to shape safety properties. Hence, we propose a refinement strategy to combine properties that model similar unsafe interactions. Our evaluation compares the benefits of computing the number of violations using standard hard-coded properties and the ones generated with CROP. We evaluate our approach in several robotic mapless navigation tasks and demonstrate that the violation metric computed with CROP allows higher returns and lower violations over previous Safe DRL approaches.
翻訳日:2023-02-15 17:05:20 公開日:2023-02-13
# 大規模言語モデルを用いた強化学習における事前学習の指導

Guiding Pretraining in Reinforcement Learning with Large Language Models ( http://arxiv.org/abs/2302.06692v1 )

ライセンス: Link先を確認
Yuqing Du, Olivia Watkins, Zihan Wang, C\'edric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, Jacob Andreas(参考訳) 強化学習アルゴリズムは、通常、密集した形をした報酬関数の欠如に苦労する。 本質的に動機づけられた探索方法は、新しい状態や遷移を訪れるエージェントに報酬を与えることでこの制限に対処するが、これらの方法は、最も発見されるノベルティが下流タスクに無関係な大きな環境では限定的な利点を提供する。 本稿では,テキストコーパスの背景知識を用いた探索手法について述べる。 このメソッドは ELLM (Exploring with LLMs) と呼ばれ、エージェントの現在の状態を記述した言語モデルによって提案された目標を達成するエージェントに報酬を与える。 大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。 本研究は,造形ゲーム環境およびハウスキープロボットシミュレータにおけるellmの評価を行い,学習中の共通感覚行動のカバレッジが向上し,通常,下流タスクにおけるパフォーマンスが向上することを示す。

Reinforcement learning algorithms typically struggle in the absence of a dense, well-shaped reward function. Intrinsically motivated exploration methods address this limitation by rewarding agents for visiting novel states or transitions, but these methods offer limited benefits in large environments where most discovered novelty is irrelevant for downstream tasks. We describe a method that uses background knowledge from text corpora to shape exploration. This method, called ELLM (Exploring with LLMs) rewards an agent for achieving goals suggested by a language model prompted with a description of the agent's current state. By leveraging large-scale language model pretraining, ELLM guides agents toward human-meaningful and plausibly useful behaviors without requiring a human in the loop. We evaluate ELLM in the Crafter game environment and the Housekeep robotic simulator, showing that ELLM-trained agents have better coverage of common-sense behaviors during pretraining and usually match or improve performance on a range of downstream tasks.
翻訳日:2023-02-15 17:05:02 公開日:2023-02-13
# 量子ビット高効率変分選択構成-相互作用法

A Qubit-Efficient Variational Selected Configuration-Interaction Method ( http://arxiv.org/abs/2302.06691v1 )

ライセンス: Link先を確認
Daniel Yoffe, Amir Natan, and Adi Makmal(参考訳) 分子の基底状態エネルギーを見つけることは、量子コンピューティングが効率的な解を見つけることができる、重要かつ困難な計算問題である。 変分量子固有ソルバ (varuational quantum eigensolver, vqe) は、分子基底問題に取り組む量子アルゴリズムであり、量子コンピューティングのフラッグシップの一つであると考えられている。 しかし、現在の量子デバイスのノイズレベルが高いため、vqeで計算された分子はごくわずかであった。 ここでは、量子ビットをはるかに少なくする代替変分量子スキームを提案する。 量子ビット数の削減により、より浅い回路が十分になり、ノイズに耐性が増す。 提案アルゴリズムは変分量子選択-構成-相互作用 (VQ-SCI) と呼ばれる。 (a) 量子基底状態に直接符号化されたスレーター行列式の構成の重ね合わせとして目的基底状態を表すこと、及び b)最も支配的な構成のみを選択すること。 これはibm量子デバイス上で実行されるsto-3g基底系におけるh$_2$, lih, beh$_2$, h$_2$o, nh$_3$, c$_2$h$_4$分子の基底状態計算によって証明される。 VQ-SCIは, これまでに報告された最低量子ビット数を用いて, 化学精度でフルCI(FCI)エネルギーに達することを示す。 さらに、SCI行列が ``on the fly" 生成されると、VQ-SCIは古典的なSCIメソッドよりも指数関数的に少ないメモリを必要とする。 これは、古典的なSCI計算における深刻なメモリボトルネック問題に対する潜在的な対策を提供する。 最後に、提案されたスキームは一般的なものであり、化学文脈外の任意のエルミート行列の基底状態の発見に簡単に適用することができる。

Finding the ground-state energy of molecules is an important and challenging computational problem for which quantum computing can potentially find efficient solutions. The variational quantum eigensolver (VQE) is a quantum algorithm that tackles the molecular groundstate problem and is regarded as one of the flagships of quantum computing. Yet, to date, only very small molecules were computed via VQE, due to high noise levels in current quantum devices. Here we present an alternative variational quantum scheme that requires significantly less qubits. The reduction in qubit number allows for shallower circuits to be sufficient, rendering the method more resistant to noise. The proposed algorithm, termed variational quantum selected-configuration-interaction (VQ-SCI), is based on: (a) representing the target groundstate as a superposition of Slater determinant configurations, encoded directly upon the quantum computational basis states; and (b) selecting a-priory only the most dominant configurations. This is demonstrated through a set of groundstate calculations of the H$_2$, LiH, BeH$_2$, H$_2$O, NH$_3$ and C$_2$H$_4$ molecules in the sto-3g basis set, performed on IBM quantum devices. We show that the VQ-SCI reaches the full-CI (FCI) energy within chemical accuracy using the lowest number of qubits reported to date. Moreover, when the SCI matrix is generated ``on the fly", the VQ-SCI requires exponentially less memory than classical SCI methods. This offers a potential remedy to a severe memory bottleneck problem in classical SCI calculations. Finally, the proposed scheme is general and can be straightforwardly applied for finding the groundstate of any Hermitian matrix, outside the chemical context.
翻訳日:2023-02-15 17:04:46 公開日:2023-02-13
# 長距離フェルミオン系の基底状態における絡み合いエントロピー

Entanglement Entropy in Ground States of Long-Range Fermionic Systems ( http://arxiv.org/abs/2302.06743v1 )

ライセンス: Link先を確認
Debarghya Chakraborty, Nikolaos Angelinos(参考訳) ホッピング項とペアリング項がパワー則として崩壊する一次元格子上の様々な自由フェルミオンモデルの基底状態絡み合いエントロピーのスケーリングについて検討する。 我々は、ジェネリックモデルにおける絡み合いエントロピーのスケーリングを理解するために、パワー法則 $\alpha$ の指数は様々である。 ローカルシステムで見られる領域法スケーリングへの移行を管理する様々なシステムに共通する$\alpha_{c}$が存在するかどうかを問う。 いくつかの例を数値的に検討し、適用すれば、長距離モデルにおける絡み合いエントロピーのスケーリングは、低エネルギー理論からの予測によって制約される。 対照的に、連続極限のない無秩序なモデルやモデルは、ボリューム・ローの振る舞いに近づくエンタングルメントのフラクタルスケーリングを示し、$\alpha$が0に近づく。 我々は、$\alpha_{c}$ が非ユニバーサルであることが分かる。 これらの一般的な機能は、相互作用をオンにし続けることが期待されている。

We study the scaling of ground state entanglement entropy of various free fermionic models on one dimensional lattices where the hopping and pairing terms decay as a power law. We seek to understand the scaling of entanglement entropy in generic models as the exponent of the power law $\alpha$ is varied. We ask if there exists a common $\alpha_{c}$ across different systems governing the transition to the area law scaling found in local systems. We explore several examples numerically and argue that when applicable, the scaling of entanglement entropy in long-range models is constrained by predictions from low-energy theory. In contrast, disordered models and models without a continuum limit show fractal scaling of entanglement approaching volume-law behavior as $\alpha$ approaches zero. We find $\alpha_{c}$ to be non-universal. These general features are expected to persist on turning on interactions.
翻訳日:2023-02-15 16:57:58 公開日:2023-02-13
# LISAのための機械学習アンサンブルモデルによる太陽風速の推定

Solar Wind Speed Estimate with Machine Learning Ensemble Models for LISA ( http://arxiv.org/abs/2302.06740v1 )

ライセンス: Link先を確認
Federico Sabbatini and Catia Grimani(参考訳) 本研究では,2016-2017年のace衛星による第1ラグランジアン地点における太陽風速観測の再構成における機械学習モデルの可能性について,同じ年にl1を周回するlisaパスファインダーミッションでホストされた粒子検出器を用いて測定した宇宙線フラックスの入力データを用いて検討した。 その結果,不均質な弱回帰器からなるアンサンブルモデルでは,予測精度で弱回帰器を上回ることができることがわかった。 機械学習やその他の強力な予測アルゴリズムは、LISAや宇宙気象科学のような宇宙ミッションの診断の代理として動作するソフトウェアモデルに専用の機器を置き換える可能性の窓を開く。

In this work we study the potentialities of machine learning models in reconstructing the solar wind speed observations gathered in the first Lagrangian point by the ACE satellite in 2016--2017 using as input data galactic cosmic-ray flux variations measured with particle detectors hosted onboard the LISA Pathfinder mission also orbiting around L1 during the same years. We show that ensemble models composed of heterogeneous weak regressors are able to outperform weak regressors in terms of predictive accuracy. Machine learning and other powerful predictive algorithms open a window on the possibility of substituting dedicated instrumentation with software models acting as surrogates for diagnostics of space missions such as LISA and space weather science.
翻訳日:2023-02-15 16:57:45 公開日:2023-02-13
# 植林用高密度サイクルの検出・回収ギャップ

Detection-Recovery Gap for Planted Dense Cycles ( http://arxiv.org/abs/2302.06737v1 )

ライセンス: Link先を確認
Cheng Mao, Alexander S. Wein, Shenduo Zhang(参考訳) 植物密度サイクルは、社会科学における小さな世界ネットワークや計算生物学におけるシーケンスアセンブリなど、多くの応用に現れる潜在構造の一種である。 予測帯域幅 $n \tau$ とエッジ密度 $p$ を持つ密集サイクルが erd\h{o}s-r\'enyi graph $g(n,q)$ に植えられるようなモデルを考える。 低次多項式アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。 特に、あるパラメータのレジームにおいて、2つのしきい値の間にギャップが存在する。 例えば、$n^{-3/4} \ll \tau \ll n^{-1/2}$ と $p = c q = \theta(1)$ が定数 $c>1$ の場合、検出問題は計算が容易であるが、低次アルゴリズムでは回復問題は難しい。

Planted dense cycles are a type of latent structure that appears in many applications, such as small-world networks in social sciences and sequence assembly in computational biology. We consider a model where a dense cycle with expected bandwidth $n \tau$ and edge density $p$ is planted in an Erd\H{o}s-R\'enyi graph $G(n,q)$. We characterize the computational thresholds for the associated detection and recovery problems for the class of low-degree polynomial algorithms. In particular, a gap exists between the two thresholds in a certain regime of parameters. For example, if $n^{-3/4} \ll \tau \ll n^{-1/2}$ and $p = C q = \Theta(1)$ for a constant $C>1$, the detection problem is computationally easy while the recovery problem is hard for low-degree algorithms.
翻訳日:2023-02-15 16:57:36 公開日:2023-02-13
# 現代量子ハードウェア上での核反応シミュレーションのための量子古典的コプロセッシングプロトコル

A quantum-classical co-processing protocol towards simulating nuclear reactions on contemporary quantum hardware ( http://arxiv.org/abs/2302.06734v1 )

ライセンス: Link先を確認
Francesco Turro and Trevor Chistolini and Akel Hashim and Yosep Kim and William Livingston and Kyle. A. Wendt and Jonathan L Dubois and Francesco Pederiva and Sofia Quaglioni and David I. Santiago and Irfan Siddiqi(参考訳) 量子コンピュータは、安定性の限界における核物質の研究に最重要となる核力学過程(例えば散乱と反応)の正確なシミュレーションに到達し、恒星内の化学元素の形成を説明することを約束する。 しかし、フェルミオン多体系のユニタリ(実)時間ダイナミクスの量子シミュレーションは、現在許容される信頼性と長寿命の量子ビット数を必要とする。 本稿では,古典的プロセッサ上で空間座標の時間発展を行い,量子プロセッサ上でスピン自由度の進化を行う実時間ダイナミクスのシミュレーションのための共処理アルゴリズムを提案する。 このハイブリッドアルゴリズムは、ローレンス・バークレー国立研究所のAdvanced Quantum Testbedで実行される2つの中性子の散乱の量子シミュレーションによって実証される。 そこで本研究では,回路圧縮法とトモグラフィー法を併用してデコヒーレンスの発生を解明する手法に加えて,アルゴリズムの精度を向上させるための誤り緩和戦略を実装した結果,提案手法の原理を検証した。 我々は,本方式の一般化が,核散乱の(リアルタイムな)経路積分シミュレーションの道を開くことを期待する。

Quantum computers hold great promise for arriving at exact simulations of nuclear dynamical processes (e.g., scattering and reactions) that are paramount to the study of nuclear matter at the limit of stability and to explaining the formation of chemical elements in stars. However, quantum simulations of the unitary (real) time dynamics of fermionic many-body systems require a currently prohibitive number of reliable and long-lived qubits. We propose a co-processing algorithm for the simulation of real-time dynamics in which the time evolution of the spatial coordinates is carried out on a classical processor, while the evolution of the spin degrees of freedom is carried out on a quantum processor. This hybrid algorithm is demonstrated by a quantum simulation of the scattering of two neutrons performed at the Lawrence Berkeley National Laboratory's Advanced Quantum Testbed. We show that, after implementation of error mitigation strategies to improve the accuracy of the algorithm in addition to the use of either circuit compression techniques or tomography as methods to elucidate the onset of decoherence, this initial demonstration validates the principle of the proposed co-processing scheme. We anticipate that a generalization of this present scheme will open the way for (real-time) path integral simulations of nuclear scattering.
翻訳日:2023-02-15 16:57:20 公開日:2023-02-13
# Robust Unsupervised StyleGAN Image Restoration

Robust Unsupervised StyleGAN Image Restoration ( http://arxiv.org/abs/2302.06733v1 )

ライセンス: Link先を確認
Yohan Poirier-Ginter and Jean-Fran\c{c}ois Lalonde(参考訳) GANベースの画像復元は、既知の劣化によって破損した画像を修復する生成過程を反転させる。 既存の教師なしメソッドは、各タスクと分解レベルに対して慎重に調整されなければならない。 本研究は,StyleGAN画像復元を堅牢なものとし,一組のハイパーパラメータを広範囲の劣化レベルにわたって動作させる。 これにより、複数の劣化の組み合わせをリチューンする必要なしに処理できる。 提案手法は, 3相進行遅延空間拡張と, 追加の正規化項を不要とする保守的オプティマイザに頼っている。 広範な実験により、様々な劣化レベルにおけるインパインティング、アップサンプリング、デノイジング、ディアティファクトのロバスト性が示され、他のスタイルガンベースのインバージョン技術よりも優れている。 また,よりリアルな逆変換結果を得ることで,拡散型復元と好適な比較を行った。 コードは出版時に公開される。

GAN-based image restoration inverts the generative process to repair images corrupted by known degradations. Existing unsupervised methods must be carefully tuned for each task and degradation level. In this work, we make StyleGAN image restoration robust: a single set of hyperparameters works across a wide range of degradation levels. This makes it possible to handle combinations of several degradations, without the need to retune. Our proposed approach relies on a 3-phase progressive latent space extension and a conservative optimizer, which avoids the need for any additional regularization terms. Extensive experiments demonstrate robustness on inpainting, upsampling, denoising, and deartifacting at varying degradations levels, outperforming other StyleGAN-based inversion techniques. Our approach also favorably compares to diffusion-based restoration by yielding much more realistic inversion results. Code will be released upon publication.
翻訳日:2023-02-15 16:57:01 公開日:2023-02-13
# 最適電力と帯域割り当てを用いたマルチキャリアNOMAを用いた無線フェデレーション学習

Multi-Carrier NOMA-Empowered Wireless Federated Learning with Optimal Power and Bandwidth Allocation ( http://arxiv.org/abs/2302.06730v1 )

ライセンス: Link先を確認
Weicai Li, Tiejun Lv, Yashuai Cao, Wei Ni, and Mugen Peng(参考訳) ワイヤレスフェデレーション学習(wfl)は、uplinkにおけるコミュニケーションのボトルネックとなり、グローバルアグリゲーションラウンド毎にローカルモデルをアップロードできるユーザ数が制限される。 本稿では,フレキシブルアグリゲーションの適応学習環境下でのマルチキャリア非orthogonal multi-access (mc-noma)-empowered wflシステムを提案する。 wflラウンドは、各ユーザのローカルモデルトレーニングとアップロードの両方に対応しているので、フレキシブルアグリゲーションを使用することで、1ラウンドあたりのさまざまなイテレーションをトレーニングでき、チャネル条件や計算リソースに適応することができる。 重要なアイデアは、mc-nomaを使用してユーザのローカルモデルを同時アップロードすることで、ユーザのローカルモデルのトレーニング時間を延長し、参加ユーザを増やすことだ。 WGPTM(Weighted Global Proportion of Trained Mini-batches)と呼ばれる新しい指標が、新システムの収束度を測定するために分析的に確立されている。 もう一つの重要な側面は、WGPTMを最大化して、送信電力とサブチャネル帯域幅を最適化することで、新しいシステムの収束を利用することである。 この非凸問題は可搬凸問題と等価に変換され、変数置換とコーシーの不等式を用いて効率的に解かれる。 畳み込みニューラルネットワークと18層住宅ネットワークを併用した実験により,提案したMC-NOMA WFLは通信遅延を効率よく低減し,局所モデルトレーニング時間を短縮し,既存の代替品と比較して40%以上の収束を加速することができる。

Wireless federated learning (WFL) undergoes a communication bottleneck in uplink, limiting the number of users that can upload their local models in each global aggregation round. This paper presents a new multi-carrier non-orthogonal multiple-access (MC-NOMA)-empowered WFL system under an adaptive learning setting of Flexible Aggregation. Since a WFL round accommodates both local model training and uploading for each user, the use of Flexible Aggregation allows the users to train different numbers of iterations per round, adapting to their channel conditions and computing resources. The key idea is to use MC-NOMA to concurrently upload the local models of the users, thereby extending the local model training times of the users and increasing participating users. A new metric, namely, Weighted Global Proportion of Trained Mini-batches (WGPTM), is analytically established to measure the convergence of the new system. Another important aspect is that we maximize the WGPTM to harness the convergence of the new system by jointly optimizing the transmit powers and subchannel bandwidths. This nonconvex problem is converted equivalently to a tractable convex problem and solved efficiently using variable substitution and Cauchy's inequality. As corroborated experimentally using a convolutional neural network and an 18-layer residential network, the proposed MC-NOMA WFL can efficiently reduce communication delay, increase local model training times, and accelerate the convergence by over 40%, compared to its existing alternative.
翻訳日:2023-02-15 16:56:47 公開日:2023-02-13
# STREET:マルチタスク構造化推論と説明ベンチマーク

STREET: A Multi-Task Structured Reasoning and Explanation Benchmark ( http://arxiv.org/abs/2302.06729v1 )

ライセンス: Link先を確認
Danilo Ribeiro, Shen Wang, Xiaofei Ma, Henry Zhu, Rui Dong, Deguang Kong, Juliette Burger, Anjelica Ramos, William Wang, Zhiheng Huang, George Karypis, Bing Xiang, Dan Roth(参考訳) マルチタスクとマルチドメインの自然言語推論と説明ベンチマークであるSTREETを紹介する。 既存のQAデータセットとは異なり、モデルでは質問に答えるだけでなく、ある回答の正しさを証明できる中間的な結論を生成するために、質問の前提がどのように使われているかを記述する、ステップバイステップの構造化された説明が期待されている。 GPT-3や微調整T5などの人気言語モデルを用いて広範に評価を行う。 これらのモデルは、そのような構造化された推論ステップを生成する際に、人間のパフォーマンスに遅れがあることがわかりました。 この取り組みは、自然言語による多段階推論と説明のシステムを、コミュニティがより良く訓練し、テストするための方法を提供すると信じています。

We introduce STREET, a unified multi-task and multi-domain natural language reasoning and explanation benchmark. Unlike most existing question-answering (QA) datasets, we expect models to not only answer questions, but also produce step-by-step structured explanations describing how premises in the question are used to produce intermediate conclusions that can prove the correctness of a certain answer. We perform extensive evaluation with popular language models such as few-shot prompting GPT-3 and fine-tuned T5. We find that these models still lag behind human performance when producing such structured reasoning steps. We believe this work will provide a way for the community to better train and test systems on multi-step reasoning and explanations in natural language.
翻訳日:2023-02-15 16:56:20 公開日:2023-02-13
# イギリスのバイオバンク・ファンドによるパーキンソン病の深層学習予測とインシデント予測

Deep Learning Predicts Prevalent and Incident Parkinson's Disease From UK Biobank Fundus Imaging ( http://arxiv.org/abs/2302.06727v1 )

ライセンス: Link先を確認
Charlie Tran, Kai Shen, Kevin Liu, and Ruogu Fang(参考訳) パーキンソン病は世界で最も成長している神経疾患である。 パーキンソン病のメカニズムを解明し、診断を自動化する研究は、パーキンソン病患者の治療を大幅に改善する。 現在の診断方法は限られた可用性で高価である。 パーキンソン病の長期経過を考えると、医学的介入を許容する症状の発症前であっても、望ましいスクリーニングは診断的に正確であるべきである。 我々は,パーキンソン病の診断基準として,しばしば「脳への窓」と呼ばれる網膜底イメージングの注意を喚起する。 パーキンソン病をイギリスのバイオバンク法から分類するための従来の機械学習とディープラーニングの手法を体系的に評価した。 その結果,パーキンソン病患者は年齢や性別が健康な被験者と71%の精度で区別できることが示唆された。 この精度はパーキンソン病の流行または発症の予測において維持される。 説明可能性と信頼性は、局所的なバイオマーカーの視覚属性マップと、データ摂動に対するモデルロバストネスの定量化によって向上する。

Parkinson's disease is the world's fastest growing neurological disorder. Research to elucidate the mechanisms of Parkinson's disease and automate diagnostics would greatly improve the treatment of patients with Parkinson's disease. Current diagnostic methods are expensive with limited availability. Considering the long progression time of Parkinson's disease, a desirable screening should be diagnostically accurate even before the onset of symptoms to allow medical intervention. We promote attention for retinal fundus imaging, often termed a window to the brain, as a diagnostic screening modality for Parkinson's disease. We conduct a systematic evaluation of conventional machine learning and deep learning techniques to classify Parkinson's disease from UK Biobank fundus imaging. Our results suggest Parkinson's disease individuals can be differentiated from age and gender matched healthy subjects with 71% accuracy. This accuracy is maintained when predicting either prevalent or incident Parkinson's disease. Explainability and trustworthiness is enhanced by visual attribution maps of localized biomarkers and quantified metrics of model robustness to data perturbations.
翻訳日:2023-02-15 16:56:07 公開日:2023-02-13
# マルチキャリブレーションによる全述語概念の特徴付け

Characterizing notions of omniprediction via multicalibration ( http://arxiv.org/abs/2302.06726v1 )

ライセンス: Link先を確認
Parikshit Gopalan and Michael P. Kim and Omer Reingold(参考訳) 損失最小化は、特定の損失関数だけでなく、大きな損失の族に属する損失に対しても適用される。 先行研究は、様々な強度の多群フェアネス保証から全方位の様々な概念を導出したが、接続が両方の方向に進むかどうかは不明である。 本研究では、この問いに肯定的に答え、多分法の概念と全述法の間の同値性を確立する。 この等価性の鍵を握る新しい定義は、オンライン学習におけるスワップ後悔から着想を得た、スワップ・オムニプレディクションという新しい概念である。 これらをスワップ多重化と呼ぶ多重化の強化によって正確に特徴づけることができることを示す。 さらに、標準多重化のための既知のすべてのアルゴリズムは、実際には、スワップ多重化を与える。 しかし、全推定の文脈において、スワップの結果の概念を導入することは、予測者が少なくとも期待損失を最小限に抑えること、そして、予測者が予測した値に基づいて損失関数と仮説の両方を選択できる適応的逆者を必要とする、確実に強い概念をもたらす。 これらの特徴に基づいて,文献における様々な全述語概念との関係を,それらの間の意味と分離の確立によって完全な図式化する。 本研究は,マルチグループフェアネス,損失最小化,結果の不明瞭性の相互関係の理解を深め,オンライン学習における古典的概念への新たなつながりを確立する。

A recent line of work shows that notions of multigroup fairness imply surprisingly strong notions of omniprediction: loss minimization guarantees that apply not just for a specific loss function, but for any loss belonging to a large family of losses. While prior work has derived various notions of omniprediction from multigroup fairness guarantees of varying strength, it was unknown whether the connection goes in both directions. In this work, we answer this question in the affirmative, establishing equivalences between notions of multicalibration and omniprediction. The new definitions that hold the key to this equivalence are new notions of swap omniprediction, which are inspired by swap regret in online learning. We show that these can be characterized exactly by a strengthening of multicalibration that we refer to as swap multicalibration. One can go from standard to swap multicalibration by a simple discretization; moreover all known algorithms for standard multicalibration in fact give swap multicalibration. In the context of omniprediction though, introducing the notion of swapping results in provably stronger notions, which require a predictor to minimize expected loss at least as well as an adaptive adversary who can choose both the loss function and hypothesis based on the value predicted by the predictor. Building on these characterizations, we paint a complete picture of the relationship between the various omniprediction notions in the literature by establishing implications and separations between them. Our work deepens our understanding of the connections between multigroup fairness, loss minimization and outcome indistinguishability and establishes new connections to classic notions in online learning.
翻訳日:2023-02-15 16:55:52 公開日:2023-02-13
# ポートグラフと量子回路に対する部分グラフ同型問題

The Subgraph Isomorphism Problem for Port Graphs and Quantum Circuits ( http://arxiv.org/abs/2302.06717v1 )

ライセンス: Link先を確認
Luca Mondada and Pablo Andr\'es-Mart\'inez(参考訳) 我々は,量子コンピューティングコミュニティに高い関心を持つ部分グラフ同型問題(subgraph isomorphism problem)の変種について検討する。 この結果から,パターン数とは独立に,多数のパターンを同時に量子回路でパターンマッチングを行うアルゴリズムが得られた。 パターンを決定木にコンパイルした事前計算ステップの後、実行時間は入力量子回路のサイズで線形となる。 より一般に、接続されたポートグラフを考えると、すべてのエッジ$e$インシデントから$v$へのラベル$l_v(e)$は$v$である。 Jiang と Bunke は、そのようなグラフに対する部分グラフ同型問題 $H \subseteq G$ は時間$O(|V(G)| \cdot |V(H)|)$ で解けることを示した。 さらに, グラフが有向非巡回であれば, 部分グラフ同型問題は非有界数のパターンに対して同時に解くことができることを示した。 O(P)^{P+3/2} \cdot |V(G)| + O(m)$, ここで$P$は最大のパターンの頂点の数である。 量子回路の場合、パターンの最大数$N$とdeep $\delta$の項で得られる境界を表現することができる:$O(N)^{N + 1/2} \cdot \delta \log \delta \cdot |V(G)| + O(m)$。

We study a variant of the subgraph isomorphism problem that is of high interest to the quantum computing community. Our results give an algorithm to perform pattern matching in quantum circuits for many patterns simultaneously, independently of the number of patterns. After a pre-computation step in which the patterns are compiled into a decision tree, the running time is linear in the size of the input quantum circuit. More generally, we consider connected port graphs, in which every edge $e$ incident to $v$ has a label $L_v(e)$ unique in $v$. Jiang and Bunke showed that the subgraph isomorphism problem $H \subseteq G$ for such graphs can be solved in time $O(|V(G)| \cdot |V(H)|)$. We show that if in addition the graphs are directed acyclic, then the subgraph isomorphism problem can be solved for an unbounded number of patterns simultaneously. We enumerate all $m$ pattern matches in time $O(P)^{P+3/2} \cdot |V(G)| + O(m)$, where $P$ is the number of vertices of the largest pattern. In the case of quantum circuits, we can express the bound obtained in terms of the maximum number of qubits $N$ and depth $\delta$ of the patterns : $O(N)^{N + 1/2} \cdot \delta \log \delta \cdot |V(G)| + O(m)$.
翻訳日:2023-02-15 16:55:23 公開日:2023-02-13
# カーネル化拡散写像

Kernelized Diffusion maps ( http://arxiv.org/abs/2302.06757v1 )

ライセンス: Link先を確認
Loucas Pillaud-Vivien and Francis Bach(参考訳) スペクトルクラスタリングと拡散マップは、データの拡散構造に関連する固有要素の上に構築された次元減少アルゴリズムである。 これらの手順の中核はグラフカーネルアプローチによるラプラシアンの近似であるが、この局所的な平均構成は高次元 d によって呪われることが知られている。 本稿では,この問題の正則性に自然に適応する再生核ヒルベルト空間法を用いて,ラプラシアンの異なる推定器を構築する。 我々は、構築したカーネル推定器が次元性の呪いを回避できることを示す非漸近統計率を提供する。 最後に、全体的な性能を低下させずに、推定器の計算コストを削減できる手法(nystr\"om subsampling, fourier features)について論じる。

Spectral clustering and diffusion maps are celebrated dimensionality reduction algorithms built on eigen-elements related to the diffusive structure of the data. The core of these procedures is the approximation of a Laplacian through a graph kernel approach, however this local average construction is known to be cursed by the high-dimension d. In this article, we build a different estimator of the Laplacian, via a reproducing kernel Hilbert space method, which adapts naturally to the regularity of the problem. We provide non-asymptotic statistical rates proving that the kernel estimator we build can circumvent the curse of dimensionality. Finally we discuss techniques (Nystr\"om subsampling, Fourier features) that enable to reduce the computational cost of the estimator while not degrading its overall performance.
翻訳日:2023-02-15 16:48:14 公開日:2023-02-13
# 対流型暗黙的勾配を用いたデータセット蒸留

Dataset Distillation with Convexified Implicit Gradients ( http://arxiv.org/abs/2302.06755v1 )

ライセンス: Link先を確認
Noel Loo, Ramin Hasani, Mathias Lechner, Daniela Rus(参考訳) 本稿では,暗黙的勾配(RCIG)の再パラメータ化と凸化を用いた新しいデータセット蒸留アルゴリズムを提案する。 この目的のために,まずデータセット蒸留を二段階最適化問題として定式化する。 次に,メタグレード更新の計算に暗黙の勾配を効果的に用いる方法を示す。 さらに,凍結した有限幅神経接核上での学習に対応する凸近似をアルゴリズムに適用する。 最後に,ニューラルネットワークをパラメータ化することで,ボディーパラメータが与えられた最終層パラメータの解析計算を可能にすることで,暗黙の勾配におけるバイアスを改善する。 RCIGは、さまざまなデータセット蒸留タスクに新たな最先端技術を確立する。 特に、クラスごとに1つの画像が再サイズされたImageNetでは、RCIGは従来の最先端の蒸留アルゴリズムよりも平均108%改善している。 同様に、Tiny-ImageNetではSOTAが66%、CIFAR-100では37%上昇した。

We propose a new dataset distillation algorithm using reparameterization and convexification of implicit gradients (RCIG), that substantially improves the state-of-the-art. To this end, we first formulate dataset distillation as a bi-level optimization problem. Then, we show how implicit gradients can be effectively used to compute meta-gradient updates. We further equip the algorithm with a convexified approximation that corresponds to learning on top of a frozen finite-width neural tangent kernel. Finally, we improve bias in implicit gradients by parameterizing the neural network to enable analytical computation of final-layer parameters given the body parameters. RCIG establishes the new state-of-the-art on a diverse series of dataset distillation tasks. Notably, with one image per class, on resized ImageNet, RCIG sees on average a 108% improvement over the previous state-of-the-art distillation algorithm. Similarly, we observed a 66% gain over SOTA on Tiny-ImageNet and 37% on CIFAR-100.
翻訳日:2023-02-15 16:48:01 公開日:2023-02-13
# 予測モデルにおける伝搬型サンプリングバイアスの検出

Provable Detection of Propagating Sampling Bias in Prediction Models ( http://arxiv.org/abs/2302.06752v1 )

ライセンス: Link先を確認
Pavan Ravishankar, Qingyu Mo, Edward McFowland III, Daniel B. Neill(参考訳) 機械学習モデルに公平性を導入することへの注目が高まる中、機械学習パイプラインの各ステージにおけるバイアスの評価と緩和だけでなく、ステージ間のバイアスの下流への影響を理解することが必須となる。 ここでは、(潜在的に偏りのある)トレーニングデータから予測モデルを学習する一般的な、しかし現実的なシナリオを考察し、いくつかの監査方法によってモデル予測をフェアネスの後に評価する。 本稿では,データバイアスの特定の形式である差分サンプリングバイアスが,データステージから予測ステージにどのように伝播するかを理論的に分析する。 先行研究とは異なり,データバイアスの下流への影響を質的ではなく定量的に評価し,検出に対する理論的保証を証明する。 合理的な仮定の下では、モデル予測におけるバイアスの量は、データ内の差動サンプリングバイアスの関数としてどのように変化するか、そしてどの時点でこのバイアスが監査者によって確実に検出されるのかを定量化する。 2つの刑事司法データセット(有名なCompASデータセットとNYPDのストップとフリスクポリシーの歴史的データ)の実験を通じて、我々の仮定が緩和された場合でも理論結果が実践されることを示した。

With an increased focus on incorporating fairness in machine learning models, it becomes imperative not only to assess and mitigate bias at each stage of the machine learning pipeline but also to understand the downstream impacts of bias across stages. Here we consider a general, but realistic, scenario in which a predictive model is learned from (potentially biased) training data, and model predictions are assessed post-hoc for fairness by some auditing method. We provide a theoretical analysis of how a specific form of data bias, differential sampling bias, propagates from the data stage to the prediction stage. Unlike prior work, we evaluate the downstream impacts of data biases quantitatively rather than qualitatively and prove theoretical guarantees for detection. Under reasonable assumptions, we quantify how the amount of bias in the model predictions varies as a function of the amount of differential sampling bias in the data, and at what point this bias becomes provably detectable by the auditor. Through experiments on two criminal justice datasets -- the well-known COMPAS dataset and historical data from NYPD's stop and frisk policy -- we demonstrate that the theoretical results hold in practice even when our assumptions are relaxed.
翻訳日:2023-02-15 16:47:47 公開日:2023-02-13
# OpenHLS:実験科学のための低レイテンシディープニューラルネットワークのための高レベル合成

OpenHLS: High-Level Synthesis for Low-Latency Deep Neural Networks for Experimental Science ( http://arxiv.org/abs/2302.06751v1 )

ライセンス: Link先を確認
Maksim Levental, Arham Khan, Kyle Chard, Ian Foster, Ryan Chard, Kazutomo Yoshi(参考訳) 高エネルギー物理学、物質科学、宇宙論など、多くの実験駆動科学領域において、高データレート実験はデータ取得システムに対して厳しい制約を課している。 他のフィルタリングタスクに有効なディープニューラルネットワークは、設計とデプロイメントの困難のため、このようなデータ取得システムに広く採用されていない。 我々は,高度なニューラルネットワークの高レベル表現を低レベル表現に変換するための,高レベル合成技術に基づくOpenHLSという,プロプライエタリな依存関係のないオープンソースで軽量なコンパイラフレームワークを提案する。 各種ワークロード上でOpenHLSを評価し,高エネルギー回折顕微鏡を用いたブラッグピーク検出のためのディープニューラルネットワークのケーススタディ実装を提案する。 我々は、openhlsがスループット4.8$\mu$s/sampleでネットワークの実装を作成できることを示し、これは既存の実装よりも約4$\times$の改善である。

In many experiment-driven scientific domains, such as high-energy physics, material science, and cosmology, high data rate experiments impose hard constraints on data acquisition systems: collected data must either be indiscriminately stored for post-processing and analysis, thereby necessitating large storage capacity, or accurately filtered in real-time, thereby necessitating low-latency processing. Deep neural networks, effective in other filtering tasks, have not been widely employed in such data acquisition systems, due to design and deployment difficulties. We present an open source, lightweight, compiler framework, without any proprietary dependencies, OpenHLS, based on high-level synthesis techniques, for translating high-level representations of deep neural networks to low-level representations, suitable for deployment to near-sensor devices such as field-programmable gate arrays. We evaluate OpenHLS on various workloads and present a case-study implementation of a deep neural network for Bragg peak detection in the context of high-energy diffraction microscopy. We show OpenHLS is able to produce an implementation of the network with a throughput 4.8 $\mu$s/sample, which is approximately a 4$\times$ improvement over the existing implementation
翻訳日:2023-02-15 16:47:24 公開日:2023-02-13
# 可変時間量子探索のための改良アルゴリズムと低境界

Improved Algorithm and Lower Bound for Variable Time Quantum Search ( http://arxiv.org/abs/2302.06749v1 )

ライセンス: Link先を確認
Andris Ambainis, Martins Kokainis, Jevg\=enijs Vihrovs(参考訳) 変数時間探索は、異なる項目に対するクエリに異なる時間を要する量子探索の形式である。 我々の最初の結果は、複雑さを持つ変数時間探索を行う新しい量子アルゴリズムである$O(\sqrt{T}\log n)$ where $T=\sum_{i=1}^n t_i^2$ with $t_i$。 2つ目の結果は、$\Omega(\sqrt{T\log T})$の量子下界である。 アルゴリズムと下限は、従来知られていた結果に対して$\sqrt{\log t}$という係数で改善されるが、アルゴリズムは従来知られていた量子アルゴリズムよりも大幅に単純である。

We study variable time search, a form of quantum search where queries to different items take different time. Our first result is a new quantum algorithm that performs variable time search with complexity $O(\sqrt{T}\log n)$ where $T=\sum_{i=1}^n t_i^2$ with $t_i$ denoting the time to check the $i$-th item. Our second result is a quantum lower bound of $\Omega(\sqrt{T\log T})$. Both the algorithm and the lower bound improve over previously known results by a factor of $\sqrt{\log T}$ but the algorithm is also substantially simpler than the previously known quantum algorithms.
翻訳日:2023-02-15 16:47:05 公開日:2023-02-13
# 量子ハンドシェイクは

The Quantum Handshake Explored ( http://arxiv.org/abs/2302.06748v1 )

ライセンス: Link先を確認
John G. Cramer(参考訳) 量子力学のトランザクショナル解釈を議論し、いくつかの逆直観的な量子光学実験(2スリット量子消去器、閉じ込められた原子、...)に適用し、トランザクションがどのように形成されるかを示す数学的モデルを記述する。

We discuss the transactional interpretation of quantum mechanics, apply it to several counter-intuitive quantum optics experiments (two-slit, quantum eraser, trapped atom, ...) and describe a mathematical model that shows how transactions form.
翻訳日:2023-02-15 16:46:50 公開日:2023-02-13
# スパーススパイクニューラルネットワークのための負荷バランスプルーニング

Workload-Balanced Pruning for Sparse Spiking Neural Networks ( http://arxiv.org/abs/2302.06746v1 )

ライセンス: Link先を確認
Ruokai Yin, Youngeun Kim, Yuhang Li, Abhishek Moitra, Nitin Satpute, Anna Hambitzer, Priyadarshini Panda(参考訳) Pruning for Spiking Neural Networks (SNN)は、リソース制約のあるエッジデバイスにディープSNNをデプロイするための基本的な方法論として登場した。 既存のプルーニング法は深層snに対して非常に高いスパルサビリティを提供することができるが、高スパルサビリティはワークロードの不均衡をもたらす。 特に、ワークロードの不均衡は、異なる数の非ゼロウェイトが並列に実行されるハードウェアユニットに割り当てられ、結果としてハードウェア使用率が低下し、より長いレイテンシとより高いエネルギーコストが課される場合に発生する。 予備実験では、スパースSNN(98%の重量空間)が$\sim$59%の低利用に悩まされることが示されている。 ワークロードの不均衡問題を解決するため,我々は,宝くじ仮説(lth)に基づくプルーニング中にsnnの重み接続を監視し,調整することで,最終チケットがハードウェアにデプロイされた場合に最適な利用を保証できるu-ticketを提案する。 実験の結果,U-Ticketは最大100%のハードウェア利用を保証でき,76.9%のレイテンシと63.8%のエネルギーコストを低減できることがわかった。

Pruning for Spiking Neural Networks (SNNs) has emerged as a fundamental methodology for deploying deep SNNs on resource-constrained edge devices. Though the existing pruning methods can provide extremely high weight sparsity for deep SNNs, the high weight sparsity brings a workload imbalance problem. Specifically, the workload imbalance happens when a different number of non-zero weights are assigned to hardware units running in parallel, which results in low hardware utilization and thus imposes longer latency and higher energy costs. In preliminary experiments, we show that sparse SNNs ($\sim$98% weight sparsity) can suffer as low as $\sim$59% utilization. To alleviate the workload imbalance problem, we propose u-Ticket, where we monitor and adjust the weight connections of the SNN during Lottery Ticket Hypothesis (LTH) based pruning, thus guaranteeing the final ticket gets optimal utilization when deployed onto the hardware. Experiments indicate that our u-Ticket can guarantee up to 100% hardware utilization, thus reducing up to 76.9% latency and 63.8% energy cost compared to the non-utilization-aware LTH method.
翻訳日:2023-02-15 16:46:44 公開日:2023-02-13
# 遺伝子マスキングと分散検索による進化の加速

Accelerating Evolution Through Gene Masking and Distributed Search ( http://arxiv.org/abs/2302.06745v1 )

ライセンス: Link先を確認
Hormoz Shahrzad, Risto Miikkulainen(参考訳) 進化計算(EC)の実用化には,2つの最適化が不可欠である。 まず,探索手法のパラメータをドメインに調整し,探索と利用を効果的に両立させる必要がある。 第二に、並列コンピューティングリソースを利用するためには、探索方法を分散する必要がある。 本稿では,両目標を同時に達成するためのアプローチとしてBLADE(BLAnket Distributed Evolution)を提案する。 ブレードはブランケット(すなわち遺伝的表現上のマスク)を使用して探索中に進化演算子をチューニングし、ハブ・アンド・スポーク分布による探索を実行する。 本論文では, 1) マルコフ連鎖過程として (1 + 1)EA の場合の毛布法を定式化する。 その効果は確率行列の支配的かつ従属的な固有値を分析し、一般化理論を示唆し、(2)分布解析に適合レベル理論を用い、(3)これらの知見を3つのベンチマーク問題で実験的に検証し、毛布と分布の両方が進化を加速させることを示した。 さらに、これらの間に驚くべきシナジーが出現する: 分散と組み合わせると、ブランケットアプローチは、場合によっては$n$クライアントで$n$-fold以上のスピードアップを達成する。 この研究は、実用的な応用における進化計算の最適化の重要性と可能性を強調している。

In building practical applications of evolutionary computation (EC), two optimizations are essential. First, the parameters of the search method need to be tuned to the domain in order to balance exploration and exploitation effectively. Second, the search method needs to be distributed to take advantage of parallel computing resources. This paper presents BLADE (BLAnket Distributed Evolution) as an approach to achieving both goals simultaneously. BLADE uses blankets (i.e., masks on the genetic representation) to tune the evolutionary operators during the search, and implements the search through hub-and-spoke distribution. In the paper, (1) the blanket method is formalized for the (1 + 1)EA case as a Markov chain process. Its effectiveness is then demonstrated by analyzing dominant and subdominant eigenvalues of stochastic matrices, suggesting a generalizable theory; (2) the fitness-level theory is used to analyze the distribution method; and (3) these insights are verified experimentally on three benchmark problems, showing that both blankets and distribution lead to accelerated evolution. Moreover, a surprising synergy emerges between them: When combined with distribution, the blanket approach achieves more than $n$-fold speedup with $n$ clients in some cases. The work thus highlights the importance and potential of optimizing evolutionary computation in practical applications.
翻訳日:2023-02-15 16:46:19 公開日:2023-02-13
# スマートフォン内蔵Wi-Fi技術と機械学習アルゴリズムを用いた新しい毒水検出法

A Novel Poisoned Water Detection Method Using Smartphone Embedded Wi-Fi Technology and Machine Learning Algorithms ( http://arxiv.org/abs/2302.07153v1 )

ライセンス: Link先を確認
Halgurd S. Maghdid, Sheerko R. Hma Salah, Akar T. Hawre, Hassan M. Bayram, Azhin T. Sabir, Kosrat N. Kaka, Salam Ghafour Taher, Ladeh S. Abdulrahman, Abdulbasit K. Al-Talabani, Safar M. Asaad, Aras Asaad(参考訳) 水は人体に必要な液体であり、その質と清潔度の自動チェックは研究の現在進行中の領域である。 そのようなアプローチの1つは、液体を様々な種類の信号に提示し、信号減衰量を液体カテゴリーの表示にすることである。 本稿では,Wi-Fi信号を用いて,異なる機械学習アルゴリズムを訓練することにより,清浄水と有毒水とを識別する。 Wi-Fiアクセスポイント(WAP)信号は、同等のスマートフォン内蔵Wi-Fiチップセットを介して取得され、Channel-State-Information CSI測度を抽出して特徴ベクトルに変換し、機械学習分類アルゴリズムの入力として使用する。 CSIデータの測定振幅と位相を入力特徴として、k-NN、SVM、LSTM、Ensembleの4つの分類器を選択する。 実験の結果, lstmを適用した場合, 汚染水と清水との区別精度は89%であり, アダブースト・センブル分類器を適用した場合の分類精度は92%であった。

Water is a necessary fluid to the human body and automatic checking of its quality and cleanness is an ongoing area of research. One such approach is to present the liquid to various types of signals and make the amount of signal attenuation an indication of the liquid category. In this article, we have utilized the Wi-Fi signal to distinguish clean water from poisoned water via training different machine learning algorithms. The Wi-Fi access points (WAPs) signal is acquired via equivalent smartphone-embedded Wi-Fi chipsets, and then Channel-State-Information CSI measures are extracted and converted into feature vectors to be used as input for machine learning classification algorithms. The measured amplitude and phase of the CSI data are selected as input features into four classifiers k-NN, SVM, LSTM, and Ensemble. The experimental results show that the model is adequate to differentiate poison water from clean water with a classification accuracy of 89% when LSTM is applied, while 92% classification accuracy is achieved when the AdaBoost-Ensemble classifier is applied.
翻訳日:2023-02-15 15:08:56 公開日:2023-02-13
# アナログニューロモルフィックハードウェアのためのイベントベースバックプロパゲーション

Event-based Backpropagation for Analog Neuromorphic Hardware ( http://arxiv.org/abs/2302.07141v1 )

ライセンス: Link先を確認
Christian Pehle and Luca Blessing and Elias Arnold and Eric M\"uller and Johannes Schemmel(参考訳) ニューロモルフィックコンピューティングは、コンピュータアーキテクチャの設計に生物学的神経システムの研究の教訓を取り入れることを目的としている。 既存のアプローチでは、スパーススパイクベースの計算のような計算原理の側面をうまく実装しているが、大規模システムでは、イベントベースのスケーラブルな学習は、いまだに難解な目標である。 しかし、他のハードウェアアーキテクチャと比較して、ニューロモルフィックシステムの潜在的なエネルギー効率の利点は学習中にのみ実現できる。 本稿では,BrainScaleS-2アナログニューロモルフィックハードウェアの例を用いて,EventPropアルゴリズムの実装について述べる。 以前のグラデーションに基づく学習のアプローチでは、"surrogate gradients"と" dense sampling of observables"を使用していたり、基礎となるダイナミクスと損失関数の仮定によって制限されていたりした。 対照的に、我々のアプローチは、原理化された方法で膜電圧測定などの他の観測可能なシステムを組み込むことができながら、システムからのスパイク時間観測しか必要としない。 これにより、勾配推定の情報効率が1次改善され、最適化されたハードウェア実装で対応するエネルギー効率の改善に直接変換される。 本稿では,脳スケール2システムを用いた低次元分類タスクにおいて,勾配推定と推定の正確性を検証するための理論的枠組みを提案する。 この研究に基づいて構築することは、システム状態の連続的な測定が禁止され、エネルギー効率が低下するので、大規模ニューロモルフィックハードウェアにおけるスケーラブルな勾配推定を可能にする可能性がある。 また、大規模アナログニューロモーフィックハードウェアにおけるスケーラブルでエネルギー効率のよいイベントベースの学習を可能にするアルゴリズムのデバイス上での完全な実装の可能性も示唆している。

Neuromorphic computing aims to incorporate lessons from studying biological nervous systems in the design of computer architectures. While existing approaches have successfully implemented aspects of those computational principles, such as sparse spike-based computation, event-based scalable learning has remained an elusive goal in large-scale systems. However, only then the potential energy-efficiency advantages of neuromorphic systems relative to other hardware architectures can be realized during learning. We present our progress implementing the EventProp algorithm using the example of the BrainScaleS-2 analog neuromorphic hardware. Previous gradient-based approaches to learning used "surrogate gradients" and dense sampling of observables or were limited by assumptions on the underlying dynamics and loss functions. In contrast, our approach only needs spike time observations from the system while being able to incorporate other system observables, such as membrane voltage measurements, in a principled way. This leads to a one-order-of-magnitude improvement in the information efficiency of the gradient estimate, which would directly translate to corresponding energy efficiency improvements in an optimized hardware implementation. We present the theoretical framework for estimating gradients and results verifying the correctness of the estimation, as well as results on a low-dimensional classification task using the BrainScaleS-2 system. Building on this work has the potential to enable scalable gradient estimation in large-scale neuromorphic hardware as a continuous measurement of the system state would be prohibitive and energy-inefficient in such instances. It also suggests the feasibility of a full on-device implementation of the algorithm that would enable scalable, energy-efficient, event-based learning in large-scale analog neuromorphic hardware.
翻訳日:2023-02-15 15:08:03 公開日:2023-02-13
# ヘッカー思想

Heckerthoughts ( http://arxiv.org/abs/2302.05449v1 )

ライセンス: Link先を確認
David Heckerman(参考訳) 1987年、エリック・ホーヴィッツ、グレッグ・クーパー、私は彼の大学でI.J.グッドを訪問した。 アラン・チューリングと協力して、ドイツから暗号化されたメッセージを解読して第二次世界大戦に勝利させたかったからではありません。 むしろ、我々はちょうど彼の著書"good thinking"を読み終えたばかりで、彼の人生における確率とその応用に関する仕事が要約されたので、彼に会いたかったのです。 私たちはスタンフォード大学の大学院生で、彼の考えが私たちの考えと非常に似ていて、私たちの何十年も前に働いていて、aiとは別の視点から来ていることに驚きました。 この物語はこの写本の紹介にぴったりだ。 私の仕事の振り返り、その本質に固執し、aiとmlの進化におけるその重要性を(もしあれば)より高く評価するために、私は仕事の観点で検討する時が来たことに気付き、それを探求したい人にロードマップを提供したいのです。 このことに気がついた後、私はI.J. Goodが本の中で行なったことを発見した。 この原稿は、MLとAIの中心となる基本的な概念を理解し、これらの概念の初期の応用について学びたい人のためのものである。 皮肉なことに、この原稿を書き終えた後、私が含んだ概念の多くは、MLの現代的なコースに欠けていることに気づきました。 この仕事がこれらの欠落を補うのに役立つことを願っています。 プレゼンテーションには技術的な部分もありますが、数学を最小限に保とうとしました。 技術的なプレゼンテーションに加えて、アイデアがどのようになり、それらが与えた影響についての話も持っています。 物理学の学生だった頃、私は読むために乾いたテキストをもらった。 しかし、授業では、物理学の教授数人が作品に関する話をしていた。 その話は私を魅了し、本当に理論を固くした。 ここでは、アイデアと背後にあるストーリーの両方を提示するために最善を尽くします。

In 1987, Eric Horvitz, Greg Cooper, and I visited I.J. Good at his university. We wanted to see him was not because he worked with Alan Turing to help win WWII by decoding encrypted messages from the Germans, although that certainly intrigued us. Rather, we wanted to see him because we had just finished reading his book "Good Thinking," which summarized his life's work in Probability and its Applications. We were graduate students at Stanford working in AI, and amazed that his thinking was so similar to ours, having worked decades before us and coming from such a seemingly different perspective not involving AI. This story is a fitting introduction this manuscript. Now having years to look back on my work, to boil it down to its essence, and to better appreciate its significance (if any) in the evolution of AI and ML, I realized it was time to put my work in perspective, providing a roadmap to any who would like to explore it. After I had this realization, it occurred to me that this is what I.J. Good did in his book. This manuscript is for those who want to understand basic concepts central to ML and AI and to learn about early applications of these concepts. Ironically, after I finished writing this manuscript, I realized that a lot of the concepts that I included are missing in modern courses on ML. I hope this work will help to make up for these omissions. The presentation gets somewhat technical in parts, but I've tried to keep the math to the bare minimum. In addition to the technical presentations, I include stories about how the ideas came to be and the effects they have had. When I was a student in physics, I was given dry texts to read. In class, however, several of my physics professors would tell stories around the work. Those stories fascinated me and really made the theory stick. So here, I do my best to present both the ideas and the stories behind them.
翻訳日:2023-02-14 20:13:29 公開日:2023-02-13
# MALDI-MSIデータにおける成分の空間分布解析による同位体包絡の同定

Isotopic envelope identification by analysis of the spatial distribution of components in MALDI-MSI data ( http://arxiv.org/abs/2302.06051v1 )

ライセンス: Link先を確認
Anna Glodek, Joanna Pola\'nska, Marta Gawin(参考訳) タンパク質の同定につながるプロセスの重要なステップの1つは質量分析であり、タンパク質の構造に関する情報を得ることができる。 質量スペクトルから同位体ピークを除去することは不可欠であり、脱同位体化と呼ばれるプロセスで行われる。 脱同位体化には異なるアルゴリズムがあるが、それらの制限があり、質量分析の異なる方法に特化している。 MALDI-ToF法による実験から得られたデータは高次元性によって特徴づけられる。 本稿では,マンダニ-アシランファジィ系に基づくMALDI-ToF分子イメージングデータ中の同位体包有物同定法と,同位体包有物に含まれるピークの分子分布の空間マップを提案する。 空間分子分布マップを評価するためにいくつかの画像テクスチャ計測法が用いられた。 MALDI-ToF実験から得られた8つのデータセットを用いて,頭頸部癌患者からGliwiceの国立腫瘍学研究所のサンプルを用いて実験を行った。 データは前処理と特徴抽出の対象となった。 結果は既存の3つの非等方性アルゴリズムと比較された。 その結果,本論文で提案する同位体包絡膜を同定する方法は,ピーク対の研究を指向したアプローチを用いて重なり合う包絡膜を検出できることがわかった。 さらに,提案アルゴリズムは大規模データセットの解析を可能にする。

One of the significant steps in the process leading to the identification of proteins is mass spectrometry, which allows for obtaining information about the structure of proteins. Removing isotope peaks from the mass spectrum is vital and it is done in a process called deisotoping. There are different algorithms for deisotoping, but they have their limitations, they are dedicated to different methods of mass spectrometry. Data from experiments performed with the MALDI-ToF technique are characterized by high dimensionality. This paper presents a method for identifying isotope envelopes in MALDI-ToF molecular imaging data based on the Mamdani-Assilan fuzzy system and spatial maps of the molecular distribution of peaks included in the isotopic envelope. Several image texture measures were used to evaluate spatial molecular distribution maps. The algorithm was tested on eight datasets obtained from the MALDI-ToF experiment on samples from the National Institute of Oncology in Gliwice from patients with cancer of the head and neck region. The data were subjected to pre-processing and feature extraction. The results were collected and compared with three existing deisotoping algorithms. The analysis of the obtained results showed that the method for identifying isotopic envelopes proposed in this paper enables the detection of overlapping envelopes by using the approach oriented to study peak pairs. Moreover, the proposed algorithm enables the analysis of large data sets.
翻訳日:2023-02-14 17:02:49 公開日:2023-02-13
# 訓練ダイナミクスに基づく適応しきい値付き教師なし深部1級分類

Unsupervised Deep One-Class Classification with Adaptive Threshold based on Training Dynamics ( http://arxiv.org/abs/2302.06048v1 )

ライセンス: Link先を確認
Minkyung Kim, Junsik Kim, Jongmin Yu, Jun Kyun Choi(参考訳) 1クラス分類は、通常のサンプルからなるデータセットが利用可能であると仮定して、深い異常検出モデルを構築するのに一般的な方法である。 しかし実際には、異常なサンプルはしばしばトレーニングデータセットに混ざり合っており、その適用性を制限する深層モデルのトレーニングに有害な影響を与える。 深い実用モデルのロバストな正規性学習のために,疑似ラベル付き正規サンプル,すなわち単一クラスタシナリオにおける異常検出から正規性を学ぶ教師なしの深い1クラス分類を提案する。 そこで本研究では,ランキングに基づくトレーニングダイナミクスによって選択される適応しきい値による擬似ラベル法を提案する。 また,10個の異常検出ベンチマークを用いた実験により,異常検出性能をかなりのマージンで効果的に改善できることを示した。

One-class classification has been a prevailing method in building deep anomaly detection models under the assumption that a dataset consisting of normal samples is available. In practice, however, abnormal samples are often mixed in a training dataset, and they detrimentally affect the training of deep models, which limits their applicability. For robust normality learning of deep practical models, we propose an unsupervised deep one-class classification that learns normality from pseudo-labeled normal samples, i.e., outlier detection in single cluster scenarios. To this end, we propose a pseudo-labeling method by an adaptive threshold selected by ranking-based training dynamics. The experiments on 10 anomaly detection benchmarks show that our method effectively improves performance on anomaly detection by sizable margins.
翻訳日:2023-02-14 17:02:29 公開日:2023-02-13
# 信頼性ドメイン適応オブジェクト検出のためのクラス分布シフト予測

Predicting Class Distribution Shift for Reliable Domain Adaptive Object Detection ( http://arxiv.org/abs/2302.06039v1 )

ライセンス: Link先を確認
Nicolas Harvey Chapman, Feras Dayoub, Will Browne and Christopher Lehnert(参考訳) Unsupervised Domain Adaptive Object Detection (UDA-OD) は、オープンワールド環境におけるロボットビジョンシステムの信頼性を向上させるために、非ラベルデータを使用する。 自己学習に基づくUDA-ODに対する従来のアプローチは、画像の一般的な外観の変化を克服するのに有効である。 しかし、ロボットの配置環境の変化は、クラス分散シフトと呼ばれる異なるオブジェクトが発生する可能性にも影響する。 そこで本研究では,自己学習における疑似ラベルの信頼性を向上させるために,クラス分散シフトに明示的に対処するフレームワークを提案する。 本手法では,事前学習された共同視覚と言語モデルの領域不変性と文脈理解を用いて,ラベルなしデータのクラス分布を予測する。 擬似ラベルのクラス分布をこの予測と整合させることで、擬似ラベル精度の弱い監視を行う。 自己学習早期に低品質な擬似ラベルを更に考慮するために,モデル信頼度に基づいて画像毎の擬似ラベル数を動的に調整する手法を提案する。 本手法は,クラス分散シフトに直面する場合の4.7mAPの改善など,いくつかのベンチマークにおいて最先端の手法よりも優れる。

Unsupervised Domain Adaptive Object Detection (UDA-OD) uses unlabelled data to improve the reliability of robotic vision systems in open-world environments. Previous approaches to UDA-OD based on self-training have been effective in overcoming changes in the general appearance of images. However, shifts in a robot's deployment environment can also impact the likelihood that different objects will occur, termed class distribution shift. Motivated by this, we propose a framework for explicitly addressing class distribution shift to improve pseudo-label reliability in self-training. Our approach uses the domain invariance and contextual understanding of a pre-trained joint vision and language model to predict the class distribution of unlabelled data. By aligning the class distribution of pseudo-labels with this prediction, we provide weak supervision of pseudo-label accuracy. To further account for low quality pseudo-labels early in self-training, we propose an approach to dynamically adjust the number of pseudo-labels per image based on model confidence. Our method outperforms state-of-the-art approaches on several benchmarks, including a 4.7 mAP improvement when facing challenging class distribution shift.
翻訳日:2023-02-14 17:02:15 公開日:2023-02-13
# 6DoF IMUを用いた実時間慣性姿勢推定のためのエンドツーエンドディープラーニングフレームワーク

End-to-End Deep Learning Framework for Real-Time Inertial Attitude Estimation using 6DoF IMU ( http://arxiv.org/abs/2302.06037v1 )

ライセンス: Link先を確認
Arman Asgharpoor Golroudbari, Mohammad Hossein Sabour(参考訳) 慣性測定ユニット(IMU)は工学から医学への慣性姿勢推定に一般的に用いられる。 これらのアプリケーションの環境には乱れや高いダイナミクスがあるかもしれない。 また、その動きの特徴やパターンも異なる可能性がある。 IMU測定に基づく慣性姿勢推定問題に対処するために,多くの従来のフィルタが提案されている。 これらのフィルタには運動と環境特性の一般化はない。 その結果、従来のフィルタは様々な動作特性やパターンに直面するため、フィルタの性能は制限され、各状況でフィルタパラメータを最適化する必要がある。 本稿では,動作パターン,サンプリング速度,環境障害に一般化した慣性センサ計測を用いて,実時間姿勢推定の問題を解決するために,エンド・ツー・エンドの2つのディープラーニングモデルを提案する。 提案モデルでは、加速度計とジャイロスコープの読み取りを入力とし、7つの公開データセットの組み合わせから収集する。 モデルは畳み込みニューラルネットワーク(CNN)層と双方向長短項メモリ(LSTM)を結合し、四元数の推定のためにフルフォワードニューラルネットワーク(FFNN)が続く。 妥当性と信頼性を評価するため,120時間200km以上のIMU測定を行う7つの公開データセットに対して,広範囲かつ包括的な評価を行った。 その結果,提案手法は精度とロバスト性において最先端手法よりも優れていることがわかった。 さらに, このモデルでは, 様々な動作特性やセンササンプリング率に対して, 他の手法よりも優れることを示した。

Inertial Measurement Units (IMU) are commonly used in inertial attitude estimation from engineering to medical sciences. There may be disturbances and high dynamics in the environment of these applications. Also, their motion characteristics and patterns also may differ. Many conventional filters have been proposed to tackle the inertial attitude estimation problem based on IMU measurements. There is no generalization over motion and environmental characteristics in these filters. As a result, the presented conventional filters will face various motion characteristics and patterns, which will limit filter performance and need to optimize the filter parameters for each situation. In this paper, two end-to-end deep-learning models are proposed to solve the problem of real-time attitude estimation by using inertial sensor measurements, which are generalized to motion patterns, sampling rates, and environmental disturbances. The proposed models incorporate accelerometer and gyroscope readings as inputs, which are collected from a combination of seven public datasets. The models consist of convolutional neural network (CNN) layers combined with Bi-Directional Long-Short Term Memory (LSTM) followed by a Fully Forward Neural Network (FFNN) to estimate the quaternion. To evaluate the validity and reliability, we have performed an extensive and comprehensive evaluation over seven publicly available datasets, which consist of more than 120 hours and 200 kilometers of IMU measurements. The results show that the proposed method outperforms the state-of-the-art methods in terms of accuracy and robustness. Furthermore, it demonstrates that this model generalizes better than other methods over various motion characteristics and sensor sampling rates.
翻訳日:2023-02-14 17:01:54 公開日:2023-02-13
# 特異点の分解による変分ベイズニューラルネットワーク

Variational Bayesian Neural Networks via Resolution of Singularities ( http://arxiv.org/abs/2302.06035v1 )

ライセンス: Link先を確認
Susan Wei, Edmund Lau(参考訳) 本研究では,ベイズニューラルネットワーク(BNN)における変分推論の理論と実践に関連して,特異学習理論(SLT)の重要性を提唱する。 まず, SLTを用いて, 下流予測性能, テストログ予測密度, 変動目標との相違点を取り巻く混乱を解消する。 次に,特異な後方分布に対するslt補正漸近形式を用いて,変分族自体の設計を知らせる。 具体的には、理論上は魅力的だが実質的に難解な \citet{bhattacharya_evidence_2020} に導入された理想化された変分系を構築する。 本提案は,基本分布が注意深く初期化された一般化ガンマである正規化フローとして形容する。 我々は、これを標準ガウス基底分布と比較する実験を行い、変分自由エネルギーと変分一般化誤差の観点から改善を示す。

In this work, we advocate for the importance of singular learning theory (SLT) as it pertains to the theory and practice of variational inference in Bayesian neural networks (BNNs). To begin, using SLT, we lay to rest some of the confusion surrounding discrepancies between downstream predictive performance measured via e.g., the test log predictive density, and the variational objective. Next, we use the SLT-corrected asymptotic form for singular posterior distributions to inform the design of the variational family itself. Specifically, we build upon the idealized variational family introduced in \citet{bhattacharya_evidence_2020} which is theoretically appealing but practically intractable. Our proposal takes shape as a normalizing flow where the base distribution is a carefully-initialized generalized gamma. We conduct experiments comparing this to the canonical Gaussian base distribution and show improvements in terms of variational free energy and variational generalization error.
翻訳日:2023-02-14 17:01:31 公開日:2023-02-13
# 分散低減を伴う非凸確率最適化のための近最適高確率収束

Near-Optimal High-Probability Convergence for Non-Convex Stochastic Optimization with Variance Reduction ( http://arxiv.org/abs/2302.06032v1 )

ライセンス: Link先を確認
Zijian Liu, Perry Dong, Srikanth Jagabathula, Zhengyuan Zhou(参考訳) 非凸確率最適化問題に対する従来の解析は期待値の収束限界を特徴付けるが、これは単一の実行で有用な性能保証を提供しないため不適切である。 その重要性に動機づけられた最近の文献は、古典的確率勾配降下(sgd)を含むいくつかのアルゴリズムの高確率収束挙動を研究している。 しかし、収束過程を加速することが知られており、確率的最適化のデファクトなアルゴリズム技術である分散低減アルゴリズムについては、高い確率性が確立されていない。 この重要なギャップを埋めるために,非凸確率最適化のための分散低減アルゴリズムを提案する。 確率が少なくとも1-\delta$であれば、このアルゴリズムは問題次元が$d$であるような$t$イテレーションの後に$o(\log(dt/\delta)/t^{1/3})$の割合で収束する。 この収束保証は、ログ係数までの既存の下限と一致し、私たちの知る限り、最初の高確率(近)最適結果である。 最後に,数値実験によるアルゴリズムの有効性を示す。

Traditional analyses for non-convex stochastic optimization problems characterize convergence bounds in expectation, which is inadequate as it does not supply a useful performance guarantee on a single run. Motivated by its importance, an emerging line of literature has recently studied the high-probability convergence behavior of several algorithms, including the classic stochastic gradient descent (SGD). However, no high-probability results are established for optimization algorithms with variance reduction, which is known to accelerate the convergence process and has been the de facto algorithmic technique for stochastic optimization at large. To close this important gap, we introduce a new variance-reduced algorithm for non-convex stochastic optimization, which we call Generalized SignSTORM. We show that with probability at least $1-\delta$, our algorithm converges at the rate of $O(\log(dT/\delta)/T^{1/3})$ after $T$ iterations where $d$ is the problem dimension. This convergence guarantee matches the existing lower bound up to a log factor, and to our best knowledge, is the first high-probability minimax (near-)optimal result. Finally, we demonstrate the effectiveness of our algorithm through numerical experiments.
翻訳日:2023-02-14 17:01:15 公開日:2023-02-13
# r/SuicideWatchへのサブレディット遷移の時間-時間モデリング

Time-to-event modeling of subreddits transitions to r/SuicideWatch ( http://arxiv.org/abs/2302.06030v1 )

ライセンス: Link先を確認
Xueying Liu, Shiaofen Fang, George Mohler, Joan Carlson, Yunyu Xiao(参考訳) 近年のデータマイニング研究は、自殺の考えをオンラインで識別するためのソーシャルメディアテキスト、コンテンツ、ネットワークの分析に重点を置いている。 しかし、利用者の時間的ダイナミクスと自殺観念についての研究は限られている。 本研究では,r/suicidewatchの投稿に移行したユーザと,どのサブレディットが高いかを特定するために,時系列モデリングを用いる。 この目的では、入力テキストとサブredditネットワークの機能を取り、redditユーザーがr/suicidewatchに投稿するまでの間、確率分布を出力するcox比例ハザードモデルを使用する。 分析の結果,r/sicidewatchの早期移行を予測できる統計学的に重要な特徴がいくつか見出された。 例えばr/depressionはより早くr/suicidewatchに投稿することと関連があるが、r/wishlistのリスクの高い投稿とr/suicidewatchの投稿の間の平均時間は10.2日である。 次にこれらの結果と今後の研究の方向性について述べる。

Recent data mining research has focused on the analysis of social media text, content and networks to identify suicide ideation online. However, there has been limited research on the temporal dynamics of users and suicide ideation. In this work, we use time-to-event modeling to identify which subreddits have a higher association with users transitioning to posting on r/suicidewatch. For this purpose we use a Cox proportional hazards model that takes as input text and subreddit network features and outputs a probability distribution for the time until a Reddit user posts on r/suicidewatch. In our analysis we find a number of statistically significant features that predict earlier transitions to r/suicidewatch. While some patterns match existing intuition, for example r/depression is positively associated with posting sooner on r/suicidewatch, others were more surprising (for example, the average time between a high risk post on r/Wishlist and a post on r/suicidewatch is 10.2 days). We then discuss these results as well as directions for future research.
翻訳日:2023-02-14 17:00:57 公開日:2023-02-13
# 非固定長文脈会話における感情検出

Emotion Detection in Unfix-length-Context Conversation ( http://arxiv.org/abs/2302.06029v1 )

ライセンス: Link先を確認
Xiaochen Zhang and Daniel Tang(参考訳) 異なる発話の感情を予測する際に、異なるコンテキストウィンドウを利用する。 新しいモジュールは変数長コンテキストを実現するために含まれます。 1)内部及び話者間依存関係を明示的にモデル化し、蒸留した会話コンテキストを形成する2つの話者認識ユニット 2)top-k正規化層は、会話コンテキストから最も適切なコンテキストウィンドウを決定し、感情を予測する。 実験とアブレーション実験により、我々のアプローチは3つの公開データセットに対していくつかの強いベースラインを上回ります。

We leverage different context windows when predicting the emotion of different utterances. New modules are included to realize variable-length context: 1) two speaker-aware units, which explicitly model inner- and inter-speaker dependencies to form distilled conversational context, and 2) a top-k normalization layer, which determines the most proper context windows from the conversational context to predict emotion. Experiments and ablation studies show that our approach outperforms several strong baselines on three public datasets.
翻訳日:2023-02-14 17:00:39 公開日:2023-02-13
# マルチタッチアトリビューションにおける除去効果の理解のためのグラフィカルポイントプロセスフレームワーク

A Graphical Point Process Framework for Understanding Removal Effects in Multi-Touch Attribution ( http://arxiv.org/abs/2302.06075v1 )

ライセンス: Link先を確認
Jun Tao, Qian Chen, James W. Snyder Jr., Arava Sai Kumar, Amirhossein Meisami, and Lingzhou Xue(参考訳) マーケターは様々なオンライン広告チャネルを使って顧客にリーチし、個々のタッチポイントが最終的に変換に寄与する度合いを測定することへの貢献に特に興味を持っている。 個々の顧客レベルのパスから購入までのデータと、オンラインマーケティングチャネルやタッチポイントの種類の増加は、この根本的な問題に新たな挑戦をもたらします。 我々は,経路レベルで帰属を行うことで,より細かい粒度で帰属問題に取り組むことを目的とする。 この目的のために,多種類のタッチポイント間の直接変換効果と完全な関係構造を同時に研究するための新しいグラフィカルポイントプロセスフレームワークを開発した。 さらに、変換の時間的ポイントプロセスとグラフィカルな構造を利用して、購入する各顧客の経路の個々のタッチポイントまたは対応するチャネルに対して、帰属スコアと呼ばれる適切なパスレベルの変換クレジットを割り当てるグラフィカル帰属方法を提案する。 提案手法では, 帰属スコアを除去効果として考慮し, 厳密な確率的定義を用いて2種類の除去効果を導出する。 提案手法の性能を広範囲なシミュレーション実験で検討し,その性能を一般的な帰属モデルと比較した。 また,実世界の帰属アプリケーションにおいて提案手法の性能を示す。

Marketers employ various online advertising channels to reach customers, and they are particularly interested in attribution for measuring the degree to which individual touchpoints contribute to an eventual conversion. The availability of individual customer-level path-to-purchase data and the increasing number of online marketing channels and types of touchpoints bring new challenges to this fundamental problem. We aim to tackle the attribution problem with finer granularity by conducting attribution at the path level. To this end, we develop a novel graphical point process framework to study the direct conversion effects and the full relational structure among numerous types of touchpoints simultaneously. Utilizing the temporal point process of conversion and the graphical structure, we further propose graphical attribution methods to allocate proper path-level conversion credit, called the attribution score, to individual touchpoints or corresponding channels for each customer's path to purchase. Our proposed attribution methods consider the attribution score as the removal effect, and we use the rigorous probabilistic definition to derive two types of removal effects. We examine the performance of our proposed methods in extensive simulation studies and compare their performance with commonly used attribution models. We also demonstrate the performance of the proposed methods in a real-world attribution application.
翻訳日:2023-02-14 16:54:12 公開日:2023-02-13
# 可逆回路の漸近最適合成

Asymptotically optimal synthesis of reversible circuits ( http://arxiv.org/abs/2302.06074v1 )

ライセンス: Link先を確認
Lvzhou Li and Xian Wu(参考訳) 長い間、可逆回路は学術界から多くの注目を集めてきた。 彼らは、デジタル信号処理、暗号、量子コンピューティングなど、さまざまな分野で多くのアプリケーションを持っています。 n$-wire可逆回路の合成のために下限の$\omega(2^n n/\log n)$が約20年間提案されてきたが、既存の合成方法のいずれにもこの制限はない。 BDD(Binary decision diagram)やサイクルに基づく従来のアルゴリズムでは、最悪の場合、O(2^n n)$小ゲートの回路が得られる。 本稿では,o(2^n n/\log n)$ 1 以上のゲートを持つ任意の$n$-wire 可逆回路を実装する手順を提案することにより,下限が漸近的に最適であることを初めて証明する。

For a long time, reversible circuits have attracted much attention from the academic community. They have plenty of applications in various areas, such as digital signal processing, cryptography, quantum computing, etc. Although the lower bound $\Omega(2^n n/\log n)$ for synthesis of an $n$-wire reversible circuit has been proposed for about 20 years, none of the existing synthesis methods achieves this bound. Previous algorithms, based on BDD(Binary decision diagram) or cycle, yield circuits with $O(2^n n)$ elementary gates in the worst case. In this paper, we prove for the first time that the lower bound is asymptotically optimal, by proposing a procedure to implement an arbitrary $n$-wire reversible circuit with no more than $O(2^n n/\log n)$ elementary gates.
翻訳日:2023-02-14 16:53:52 公開日:2023-02-13
# Demystifying Vision-Language Navigationのための行動的原子概念学習

Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation ( http://arxiv.org/abs/2302.06072v1 )

ライセンス: Link先を確認
Bingqian Lin, Yi Zhu, Xiaodan Liang, Liang Lin, Jianzhuang Liu(参考訳) VLN(Vision-Language Navigation)は、エージェントが複雑な視覚的観察を言語命令に合わせることで目標位置に到達するという課題である。 既存のvlnエージェントのほとんどが直接学習し、一方のホットラベルを使って訓練された方向特徴と視覚的特徴を言語的指示特徴に合わせる。 しかし、マルチモーダル入力間の大きな意味的ギャップによりアライメントが難しくなり、ナビゲーション性能が制限される。 本稿では,行動的原子概念学習(AACL)を提案し,視覚的観察を行動的原子概念にマッピングしてアライメントを容易にする。 具体的には、アクション・アトミックの概念は、自然言語のフレーズで、原子の作用とオブジェクト、例えば ' ‘go up stairs'' を含む。 これらの行動的原子の概念は、観察と指示の間の橋渡しとなり、意味的ギャップを効果的に軽減し、アライメントを単純化することができる。 AACLは3つのコアコンポーネントを含んでいる。 1) VLN環境と最近提案されたContrastive Language- Image Pretraining (CLIP)モデルを通して, 観測結果を行動原子概念表現にマッピングする概念マッピングモジュール。 2)予測された対象概念をクリップで並べ替えることで、より命令指向な対象概念抽出を促す概念改良アダプタ 3) 概念表現を利用して観測表現を正則化する観測共包モジュール。 我々のAACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立します。 さらに、AACLは行動決定における解釈可能性を大幅に改善することを示す。

Vision-Language Navigation (VLN) is a challenging task which requires an agent to align complex visual observations to language instructions to reach the goal position. Most existing VLN agents directly learn to align the raw directional features and visual features trained using one-hot labels to linguistic instruction features. However, the big semantic gap among these multi-modal inputs makes the alignment difficult and therefore limits the navigation performance. In this paper, we propose Actional Atomic-Concept Learning (AACL), which maps visual observations to actional atomic concepts for facilitating the alignment. Specifically, an actional atomic concept is a natural language phrase containing an atomic action and an object, e.g., ``go up stairs''. These actional atomic concepts, which serve as the bridge between observations and instructions, can effectively mitigate the semantic gap and simplify the alignment. AACL contains three core components: 1) a concept mapping module to map the observations to the actional atomic concept representations through the VLN environment and the recently proposed Contrastive Language-Image Pretraining (CLIP) model, 2) a concept refining adapter to encourage more instruction-oriented object concept extraction by re-ranking the predicted object concepts by CLIP, and 3) an observation co-embedding module which utilizes concept representations to regularize the observation representations. Our AACL establishes new state-of-the-art results on both fine-grained (R2R) and high-level (REVERIE and R2R-Last) VLN benchmarks. Moreover, the visualization shows that AACL significantly improves the interpretability in action decision.
翻訳日:2023-02-14 16:53:35 公開日:2023-02-13
# 単クラス予測による動的環境のユニバーサルオンライン最適化

Universal Online Optimization in Dynamic Environments via Uniclass Prediction ( http://arxiv.org/abs/2302.06066v1 )

ライセンス: Link先を確認
Arnold Salas(参考訳) 近年,コンベックス,強凸,指数的にコスト関数を同時に扱えるオンライン凸最適化法がいくつか提案されている。 しかしながら、これらのアルゴリズムの多くは静的な後悔の最小化を念頭に設計されているが、この後悔の概念は環境の変化に適していないかもしれない。 この欠点に対処するため、動的環境におけるユニバーサルオンライン最適化のための新しい直感的なフレームワークを提案する。 既存の普遍的アルゴリズムとは異なり、我々の戦略は専門家の集合と付随するメタアルゴリズムの構築に依存しない。 代わりに、動的なオンライン最適化の問題は一クラス予測問題に還元できることを示した。 ユーザの手に一級損失関数の選択を残すことで、動的後悔境界の制御と最適化が可能となり、結果として元の問題へと引き継がれる。 我々の知る限りでは、一般的な凸コスト関数に対しても、最先端の動的後悔保証を伴う普遍的アプローチを提案する最初の論文である。

Recently, several universal methods have been proposed for online convex optimization which can handle convex, strongly convex and exponentially concave cost functions simultaneously. However, most of these algorithms have been designed with static regret minimization in mind, but this notion of regret may not be suitable for changing environments. To address this shortcoming, we propose a novel and intuitive framework for universal online optimization in dynamic environments. Unlike existing universal algorithms, our strategy does not rely on the construction of a set of experts and an accompanying meta-algorithm. Instead, we show that the problem of dynamic online optimization can be reduced to a uniclass prediction problem. By leaving the choice of uniclass loss function in the user's hands, they are able to control and optimize dynamic regret bounds, which in turn carry over into the original problem. To the best of our knowledge, this is the first paper proposing a universal approach with state-of-the-art dynamic regret guarantees even for general convex cost functions.
翻訳日:2023-02-14 16:53:06 公開日:2023-02-13
# ステップワイズ振動制約による安全な強化学習

Provably Safe Reinforcement Learning with Step-wise Violation Constraints ( http://arxiv.org/abs/2302.06064v1 )

ライセンス: Link先を確認
Nuoya Xiong, Yihan du, Longbo huang(参考訳) 本稿では,ステップワイド違反制約を伴う新しい安全強化学習問題について検討する。 従来の課題とは, 段階的に違反する制約を厳格に考慮し, 安全行動の存在を想定せず, あらゆる意思決定ステップにおいて安全を保証し, ロボット制御や自律運転など, 常に安全な行動を取る必要のない, 安全クリティカルなアプリケーションに適している, という点である。 提案する新しいアルゴリズム SUCBVI は,$\widetilde{O}(\sqrt{ST})$ step-wise violation and $\widetilde{O}(\sqrt{H^3SAT})$ regret を保証する。 下限は、$S$および$T$に対する違反と後悔のパフォーマンスの両方の最適性を検証するために提供される。 さらに,段階的違反制約を伴う新たな安全報酬フリー探索問題についても検討する。 この問題に対して、我々は$(\varepsilon,\delta)$-pacアルゴリズム srf-ucrl を設計し、探索中に$\widetilde{o}((\frac{s^2ah^2}{\varepsilon}+\frac{h^4sa}{\varepsilon^2})(\log(\frac{1}{\delta})+s)$ を保証し、ほぼ最先端のサンプル複雑性である$\widetilde{o}(\sqrt{st})$ を達成する。 実験結果は,安全性能におけるアルゴリズムの優位性を実証し,理論的結果を裏付けるものである。

In this paper, we investigate a novel safe reinforcement learning problem with step-wise violation constraints. Our problem differs from existing works in that we consider stricter step-wise violation constraints and do not assume the existence of safe actions, making our formulation more suitable for safety-critical applications which need to ensure safety in all decision steps and may not always possess safe actions, e.g., robot control and autonomous driving. We propose a novel algorithm SUCBVI, which guarantees $\widetilde{O}(\sqrt{ST})$ step-wise violation and $\widetilde{O}(\sqrt{H^3SAT})$ regret. Lower bounds are provided to validate the optimality in both violation and regret performance with respect to $S$ and $T$. Moreover, we further study a novel safe reward-free exploration problem with step-wise violation constraints. For this problem, we design an $(\varepsilon,\delta)$-PAC algorithm SRF-UCRL, which achieves nearly state-of-the-art sample complexity $\widetilde{O}((\frac{S^2AH^2}{\varepsilon}+\frac{H^4SA}{\varepsilon^2})(\log(\frac{1}{\delta})+S))$, and guarantees $\widetilde{O}(\sqrt{ST})$ violation during the exploration. The experimental results demonstrate the superiority of our algorithms in safety performance, and corroborate our theoretical results.
翻訳日:2023-02-14 16:52:51 公開日:2023-02-13
# 光リモートセンシング画像における物体検出に対するパッチ攻撃の脅威

Threatening Patch Attacks on Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2302.06060v1 )

ライセンス: Link先を確認
Xuxiang Sun, Gong Cheng, Lei Pei, Hongda Li, and Junwei Han(参考訳) 自然画像における物体検出におけるadvanced patch attack(pas)は、ディープニューラルネットワークに基づく手法における大きな安全性の脆弱性を指摘した。 しかし、光学リモートセンシング画像(O-RSI)では、この話題にはほとんど注目されていない。 この目的のために我々は,O-RSIにおける物体検出におけるPA(PA)に着目し,TPAと呼ばれる視覚的品質の低下を伴わない,より危険なPAを提案する。 具体的には,既存のパッチ選択方式における局所的・グローバル的ランドスケープの不整合問題に対処するために,マスキング前後の目的関数の1次差分(fod)を活用して,攻撃対象のサブパッチを選択することを提案する。 さらに,従来の座標ベース損失をPAに直接適用する際の勾配浸出の問題を考慮すると,検出された境界箱を初期から切り離すような境界ボックスドリフト損失(BDL)と呼ばれる,PAに特有のIoUベースの目的関数を設計する。 最後に、広く使われている2つのベンチマーク、すなわちDIORとDOTAにおいて、我々のTPAを4つの典型的な検出器(Faster R-CNN、FCOS、RetinaNet、YOLO-v4)で包括的な評価を行った。 我々の知る限りでは、これがO-RSIにおけるオブジェクト検出におけるPAの研究の最初の試みであり、この研究が読者にこのトピックの研究に興味を持たせることを願っている。

Advanced Patch Attacks (PAs) on object detection in natural images have pointed out the great safety vulnerability in methods based on deep neural networks. However, little attention has been paid to this topic in Optical Remote Sensing Images (O-RSIs). To this end, we focus on this research, i.e., PAs on object detection in O-RSIs, and propose a more Threatening PA without the scarification of the visual quality, dubbed TPA. Specifically, to address the problem of inconsistency between local and global landscapes in existing patch selection schemes, we propose leveraging the First-Order Difference (FOD) of the objective function before and after masking to select the sub-patches to be attacked. Further, considering the problem of gradient inundation when applying existing coordinate-based loss to PAs directly, we design an IoU-based objective function specific for PAs, dubbed Bounding box Drifting Loss (BDL), which pushes the detected bounding boxes far from the initial ones until there are no intersections between them. Finally, on two widely used benchmarks, i.e., DIOR and DOTA, comprehensive evaluations of our TPA with four typical detectors (Faster R-CNN, FCOS, RetinaNet, and YOLO-v4) witness its remarkable effectiveness. To the best of our knowledge, this is the first attempt to study the PAs on object detection in O-RSIs, and we hope this work can get our readers interested in studying this topic.
翻訳日:2023-02-14 16:52:17 公開日:2023-02-13
# 効率的なN:Mスパーストレーニングのための双方向マスク

Bi-directional Masks for Efficient N:M Sparse Training ( http://arxiv.org/abs/2302.06058v1 )

ライセンス: Link先を確認
Yuxin Zhang, Yiting Luo, Mingbao Lin, Yunshan Zhong, Jingjing Xie, Fei Chao, Rongrong Ji(参考訳) 我々は,n:m スパーステンソルコアが支持する実用的な高速化を実現するために,m 連続重みのうち最大 n を保存できる n:m 細粒度スパルシティーのトレーニング効率に関する密集した後方伝播問題に対処することに注力する。 そこで,両方向マスク (Bi-Mask) の新たな手法について述べる。 1) 前向きと後向きの2方向のスパースマスクを分離してトレーニング加速度を得る。 これは前方と後方の重量空間を乱し、非常に密度の高い勾配計算を克服する。 2) 性能を維持するための効率的な重み列置換法。 従来の一方向マスクと我々の双方向マスクの勾配差を最小限に抑えるために、最も適度なN:M重みブロックを持つ置換候補を後方に拾い上げる。 トランスポーザブルマスクを応用し、後方加速を可能にする既存の一方向シナリオと比較して、我々のBi-Maskは性能がより優れていることを実験的に実証した。 また、私たちのBi-Maskは、後方加速度の達成に失敗するメソッドと同等かそれ以上に機能します。 この論文のプロジェクトは \url{https://github.com/zyxxmu/bi-mask} で入手できる。

We focus on addressing the dense backward propagation issue for training efficiency of N:M fine-grained sparsity that preserves at most N out of M consecutive weights and achieves practical speedups supported by the N:M sparse tensor core. Therefore, we present a novel method of Bi-directional Masks (Bi-Mask) with its two central innovations in: 1) Separate sparse masks in the two directions of forward and backward propagation to obtain training acceleration. It disentangles the forward and backward weight sparsity and overcomes the very dense gradient computation. 2) An efficient weight row permutation method to maintain performance. It picks up the permutation candidate with the most eligible N:M weight blocks in the backward to minimize the gradient gap between traditional uni-directional masks and our bi-directional masks. Compared with existing uni-directional scenario that applies a transposable mask and enables backward acceleration, our Bi-Mask is experimentally demonstrated to be more superior in performance. Also, our Bi-Mask performs on par with or even better than methods that fail to achieve backward acceleration. Project of this paper is available at \url{https://github.com/zyxxmu/Bi-Mask}.
翻訳日:2023-02-14 16:51:51 公開日:2023-02-13
# TIGER: 再起動を組み込んだテンポラルインタラクショングラフ

TIGER: Temporal Interaction Graph Embedding with Restarts ( http://arxiv.org/abs/2302.06057v1 )

ライセンス: Link先を確認
Yao Zhang, Yun Xiong, Yongxiang Liao, Yiheng Sun, Yucheng Jin, Xuehao Zheng, Yangyong Zhu(参考訳) 時間的相互作用グラフ(TIG)は、Eコマースやソーシャルネットワークなどの分野で広く使われている。 時間とともに変化する動的ノード埋め込みをよりよく学ぶために、研究者はtigsのための一連のテンポラリグラフニューラルネットワークを提案した。 しかし、時間的および構造的依存関係が絡み合ったため、既存のメソッドはノード表現が最新であることを保証するために、時系列的に連続的にイベントのシーケンスを処理する必要がある。 これにより既存のモデルの並列化が防止され、産業アプリケーションにおける柔軟性が低下する。 本稿では,TIG埋め込みモデルとして,任意のタイムスタンプで再起動可能なTIGERを提案する。 ノード表現の温かい初期化として機能する代理表現を生成する再起動モジュールを導入する。 複数のタイムスタンプから同時に再起動することで、シーケンスを複数のチャンクに分割し、自然にモデルの並列化を可能にする。 さらに, 単一メモリユニットを用いた従来のモデルとは対照的に, 周辺情報をうまく活用し, 安定化問題を緩和するデュアルメモリモジュールを導入する。 4つの公開データセットと1つの産業データセットに関する広範な実験を行い,本研究の有効性と効率を検証した。

Temporal interaction graphs (TIGs), consisting of sequences of timestamped interaction events, are prevalent in fields like e-commerce and social networks. To better learn dynamic node embeddings that vary over time, researchers have proposed a series of temporal graph neural networks for TIGs. However, due to the entangled temporal and structural dependencies, existing methods have to process the sequence of events chronologically and consecutively to ensure node representations are up-to-date. This prevents existing models from parallelization and reduces their flexibility in industrial applications. To tackle the above challenge, in this paper, we propose TIGER, a TIG embedding model that can restart at any timestamp. We introduce a restarter module that generates surrogate representations acting as the warm initialization of node representations. By restarting from multiple timestamps simultaneously, we divide the sequence into multiple chunks and naturally enable the parallelization of the model. Moreover, in contrast to previous models that utilize a single memory unit, we introduce a dual memory module to better exploit neighborhood information and alleviate the staleness problem. Extensive experiments on four public datasets and one industrial dataset are conducted, and the results verify both the effectiveness and the efficiency of our work.
翻訳日:2023-02-14 16:51:32 公開日:2023-02-13
# UAVと船舶の協調による不確実な海洋作業の計算負荷

Computation Offloading for Uncertain Marine Tasks by Cooperation of UAVs and Vessels ( http://arxiv.org/abs/2302.06055v1 )

ライセンス: Link先を確認
Jiahao You, Ziye Jia, Chao Dong, Lijun He, Yilu Cao, and Qihui Wu(参考訳) 海上利用の継続的な増加に伴い、データオフロードのための海洋ネットワークの開発が必要である。 しかし、限られた海上ネットワーク資源は、リアルタイムの要求を満たすことが非常に困難である。 さらに、複数の計算集約的なタスクを効果的に処理する方法も難題である。 そこで本稿では,無人航空機(UAV)と船舶の協力により,海上作業のオフロードの決定に焦点をあてる。 具体的には、まず、海洋生物のインターネット(MIoT)デバイスやUAVや船舶からのリソースプロバイダからの要求を含む、協調的なオフロードフレームワークを提案する。 uavのエネルギーと計算能力が限られているため、船を計算オフロードに適用するのに役立つ必要がある。 次に, 総実行時間とエネルギーコストの最小化を目的として, 検討した問題をマルコフ決定プロセスに定式化する。 次に、リアプノフ最適化を利用して、実行時間とエネルギーコストの長期的制約をそれらの短期的制約に変換し、さらに、時間スロットごとの最適化問題を導出する。 さらに,短期的な問題を効果的に解決するためのQ-Learningに基づくアプローチを提案する。 最後に,提案アルゴリズムの正確性と有効性を検証するためにシミュレーションを行った。

With the continuous increment of maritime applications, the development of marine networks for data offloading becomes necessary. However, the limited maritime network resources are very difficult to satisfy real-time demands. Besides, how to effectively handle multiple compute-intensive tasks becomes another intractable issue. Hence, in this paper, we focus on the decision of maritime task offloading by the cooperation of unmanned aerial vehicles (UAVs) and vessels. Specifically, we first propose a cooperative offloading framework, including the demands from marine Internet of Things (MIoTs) devices and resource providers from UAVs and vessels. Due to the limited energy and computation ability of UAVs, it is necessary to help better apply the vessels to computation offloading. Then, we formulate the studied problem into a Markov decision process, aiming to minimize the total execution time and energy cost. Then, we leverage Lyapunov optimization to convert the long-term constraints of the total execution time and energy cost into their short-term constraints, further yielding a set of per-time-slot optimization problems. Furthermore, we propose a Q-learning based approach to solve the short-term problem efficiently. Finally, simulation results are conducted to verify the correctness and effectiveness of the proposed algorithm.
翻訳日:2023-02-14 16:51:12 公開日:2023-02-13
# CFNet: デンス予測のためのカスケード核融合ネットワーク

CFNet: Cascade Fusion Network for Dense Prediction ( http://arxiv.org/abs/2302.06052v1 )

ライセンス: Link先を確認
Gang Zhang, Ziyi Li, Jianmin Li, Xiaolin Hu(参考訳) オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、密集した予測タスクには、マルチスケール機能が不可欠である。 既存の最先端の手法は通常、分類バックボーンによって複数の特徴を抽出し、軽量モジュール(例えばFPNの融合モジュール)によってこれらの特徴を融合させる。 しかし,このようなパラダイムを通したマルチスケール特徴の融合は十分ではないかもしれない。なぜなら,特徴融合に割り当てられるパラメータは,重分類バックボーンと比較して限定的であるからである。 この問題に対処するため,我々はカスケード・フュージョン・ネットワーク (CFNet) という新しいアーキテクチャを提案する。 幹といくつかのブロックで初期高分解能な特徴を抽出するのに加えて,CFNetのマルチスケール特徴を生成するためにいくつかのカスケードステージを導入する。 各ステージには、機能抽出用のサブバックボーンと、機能統合のための非常に軽量なトランジションブロックが含まれている。 この設計により、バックボーン全体のパラメータの大きな割合で、より深く効果的に機能を融合することができる。 オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関する広範な実験により、提案するcfnetの有効性が検証された。 コードはhttps://github.com/zhanggang001/cfnetで入手できる。

Multi-scale features are essential for dense prediction tasks, including object detection, instance segmentation, and semantic segmentation. Existing state-of-the-art methods usually first extract multi-scale features by a classification backbone and then fuse these features by a lightweight module (e.g. the fusion module in FPN). However, we argue that it may not be sufficient to fuse the multi-scale features through such a paradigm, because the parameters allocated for feature fusion are limited compared with the heavy classification backbone. In order to address this issue, we propose a new architecture named Cascade Fusion Network (CFNet) for dense prediction. Besides the stem and several blocks used to extract initial high-resolution features, we introduce several cascaded stages to generate multi-scale features in CFNet. Each stage includes a sub-backbone for feature extraction and an extremely lightweight transition block for feature integration. This design makes it possible to fuse features more deeply and effectively with a large proportion of parameters of the whole backbone. Extensive experiments on object detection, instance segmentation, and semantic segmentation validated the effectiveness of the proposed CFNet. Codes will be available at https://github.com/zhanggang001/CFNet.
翻訳日:2023-02-14 16:50:54 公開日:2023-02-13
# ACE-EMを用いたAb initio Cryo-EM 3D再構成

Boosted ab initio Cryo-EM 3D Reconstruction with ACE-EM ( http://arxiv.org/abs/2302.06091v1 )

ライセンス: Link先を確認
Lin Yao (1), Ruihan Xu (2), Zhifeng Gao (1), Guolin Ke (1) and Yuhang Wang (1) ((1) DP Technology, Ltd., Beijing, China (2) Peking University, Beijing, China)(参考訳) 低温電子顕微鏡(cryo-EM)の中心的な問題は、3次元構造をノイズの多い2次元投影画像から復元することである。 近年, 遅延ベクトル空間サンプリング問題に苦しむオートエンコーダアーキテクチャを用いて, 3次元再構成問題を解く手法が提案されている。 本稿では、ACE-EM法を設計したACE(Asymmetric Complementary AutoEncoder)と呼ばれる改良されたオートエンコーダアーキテクチャを提案する。 従来の手法と比較して、ACE-EMはトレーニング時間内で高いポーズ空間をカバーし、デコーダの選択にかかわらず再構成性能を向上した。 この方法により、シミュレーションおよび実験用Cryo-EMデータセットの3次元再構成において、Nyquist分解能(最も高い分解能)が到達した。 さらに、ace-emはnyquist分解能に達した唯一の償却推論方法である。

The central problem in cryo-electron microscopy (cryo-EM) is to recover the 3D structure from noisy 2D projection images which requires estimating the missing projection angles (poses). Recent methods attempted to solve the 3D reconstruction problem with the autoencoder architecture, which suffers from the latent vector space sampling problem and frequently produces suboptimal pose inferences and inferior 3D reconstructions. Here we present an improved autoencoder architecture called ACE (Asymmetric Complementary autoEncoder), based on which we designed the ACE-EM method for cryo-EM 3D reconstructions. Compared to previous methods, ACE-EM reached higher pose space coverage within the same training time and boosted the reconstruction performance regardless of the choice of decoders. With this method, the Nyquist resolution (highest possible resolution) was reached for 3D reconstructions of both simulated and experimental cryo-EM datasets. Furthermore, ACE-EM is the only amortized inference method that reached the Nyquist resolution.
翻訳日:2023-02-14 16:45:38 公開日:2023-02-13
# 曲面空間における拘束電位と磁場の影響下での2次元電子ガス

Two-dimensional electron gas under the effect of constrained potential and magnetic field in curved space ( http://arxiv.org/abs/2302.06090v1 )

ライセンス: Link先を確認
H. Pahlavani, M. Botshekananfard(参考訳) 均一磁場中における曲面2次元電子ガスのエネルギースペクトルに及ぼす円筒面の曲率の影響を考察した。 エネルギースペクトルに対する補正は、数値的に得られた以前の研究とは対照的に、初めて摂動的に得られる。 曲率半径の関数として分散関係を求め, 曲線面に対する結果と平面との比較を行った。

The effect of the curvature of a cylindrical surface on the energy spectrum for a curved two-dimensional electron gas in a homogeneous magnetic field is considered. The corrections to the energy spectrum are obtained for the first time perturbatively, in contrast to previous works where it was obtained numerically. The dispersion relationship is obtained as a function of curvature radius and the results for curved surface have been compared with the flat surface.
翻訳日:2023-02-14 16:45:21 公開日:2023-02-13
# 前立腺癌診断とGleason gradingのための比較学習モデル

Federated contrastive learning models for prostate cancer diagnosis and Gleason grading ( http://arxiv.org/abs/2302.06089v1 )

ライセンス: Link先を確認
Fei Kong, Jinxi Xiang, Xiyue Wang, Xinran Wang, Meng Yue, Jun Zhang, Sen Yang, Junhan Zhao, Xiao Han, Yuhan Dong, Yueping Liu(参考訳) 医療画像分野における人工知能(AI)の応用効果は顕著である。 堅牢なAIモデルトレーニングには大規模なデータセットが必要だが、データ収集は通信、倫理、プライバシ保護の制約に直面している。 フェデレーション学習は、複数のクライアントが元のデータを共有せずにモデルをトレーニングするためにコーディネートすることで、上記の問題を解決することができる。 本研究では,大規模病理画像のためのFCL(Federated contrastive learning framework)を設計し,その不均一性に挑戦する。 ローカルクライアントモデルとサーバモデルの間の注意の一貫性を最大化することで、モデルの一般化能力を高める。 重みの伝達やfclのロバスト性検証を行う際のプライバシリーク問題を軽減するため,差分プライバシを用いて,ノイズを付加することでモデルをさらに保護する。 我々は,FCLががん診断タスクおよびGleason gradingタスクに及ぼす影響を,複数のクライアントから19,635前立腺癌WSIに対して評価した。 診断タスクでは, カテゴリーが比較的バランスが取れた場合, 平均7クライアント auc は 95\% であり, fcl は 97\% に達する。 Gleason グレーディングタスクでは、6つのクライアントの平均 Kappa は 0.74 であり、FCL の Kappa は 0.84 である。 さらに,外部データセット(1つの公開データセットと2つのプライベートデータセット)におけるモデルのロバスト性を検証する。 また,モデルの分類効果をよりよく説明するために,ヒートマップを描き,病変領域に焦点を当てているかどうかを示す。 FCLは、バイオメディカル研究に堅牢で正確で低コストなAIトレーニングモデルを提供し、医療データのプライバシーを効果的に保護する。

The application effect of artificial intelligence(AI) in the field of medical imaging is remarkable. Robust AI model training requires large datasets, but data collection faces constraints in communication, ethics, and privacy protection. Federated learning can solve the above problems by coordinating multiple clients to train the model without sharing the original data. In this study, we design a federated contrastive learning framework(FCL) for large-scale pathology images and the heterogeneity challenges. It enhances the generalization ability of the model by maximizing the attention consistency between the local client model and the server model. To alleviate the privacy leakage problem when transferring weights and verify the robustness of FCL, we use differential privacy to further protect the model by adding noise. We evaluate the effectiveness of FCL on the cancer diagnosis task and Gleason grading task on 19,635 prostate cancer WSIs from multiple clients. In the diagnosis task, the average AUC of 7 clients is 95\% when the categories are relatively balanced, and our FCL achieves 97\%. In the Gleason grading task, the average Kappa of 6 clients is 0.74, and the Kappa of FCL reaches 0.84. Furthermore, we also validate the robustness of the model on external datasets(one public dataset and two private datasets). In addition, to better explain the classification effect of the model, we show whether the model focuses on the lesion area by drawing a heatmap. FCL brings a robust, accurate, and low-cost AI training model to biomedical research, effectively protecting the privacy of medical data.
翻訳日:2023-02-14 16:45:15 公開日:2023-02-13
# 数値欠陥に対するディープニューラルネットワークアーキテクチャの信頼性保証

Reliability Assurance for Deep Neural Network Architectures Against Numerical Defects ( http://arxiv.org/abs/2302.06086v1 )

ライセンス: Link先を確認
Linyi Li, Yuhao Zhang, Luyao Ren, Yingfei Xiong, Tao Xie(参考訳) ディープニューラルネットワーク(DNN)の普及により、DNNベースのシステムの信頼性を保証することが非常に重要である。 システム障害などの深刻な信頼性問題は、DNNの最も頻繁な欠陥の一つである数値的な欠陥によって引き起こされる可能性がある。 数値欠陥に対する高い信頼性を確保するため,本論文では,潜在的な数値欠陥の検出,潜在的な欠陥の確認,欠陥修正の提案という,3つの信頼性保証タスクのための新しい手法を含むRANUM手法を提案する。 私たちの知る限りでは、RANUMは失敗防止テストによる潜在的な欠陥の可能性を確認し、自動的に修正を提案する最初のアプローチです。 63の現実世界のDNNアーキテクチャのベンチマークに関する大規模な実験は、RANUMが3つの信頼性保証タスクで最先端のアプローチより優れていることを示している。 さらに、オープンソースの開発者の修正と比較すると、40ケース中37ケースで、ranumが生成した修正は、人間の修正と同等か、それ以上に優れている。

With the widespread deployment of deep neural networks (DNNs), ensuring the reliability of DNN-based systems is of great importance. Serious reliability issues such as system failures can be caused by numerical defects, one of the most frequent defects in DNNs. To assure high reliability against numerical defects, in this paper, we propose the RANUM approach including novel techniques for three reliability assurance tasks: detection of potential numerical defects, confirmation of potential-defect feasibility, and suggestion of defect fixes. To the best of our knowledge, RANUM is the first approach that confirms potential-defect feasibility with failure-exhibiting tests and suggests fixes automatically. Extensive experiments on the benchmarks of 63 real-world DNN architectures show that RANUM outperforms state-of-the-art approaches across the three reliability assurance tasks. In addition, when the RANUM-generated fixes are compared with developers' fixes on open-source projects, in 37 out of 40 cases, RANUM-generated fixes are equivalent to or even better than human fixes.
翻訳日:2023-02-14 16:44:49 公開日:2023-02-13
# 対数ラプラス変換と非ユークリッド近位サンプリングのアルゴリズム的側面

Algorithmic Aspects of the Log-Laplace Transform and a Non-Euclidean Proximal Sampler ( http://arxiv.org/abs/2302.06085v1 )

ライセンス: Link先を確認
Sivakanth Gopi, Yin Tat Lee, Daogao Liu, Ruoqi Shen, Kevin Tian(参考訳) 非ユークリッドジオメトリーに適応する効率的なサンプリングアルゴリズムの開発は、ユークリッド設定に成功する離散化技術がより一般的な設定に容易に継承できないため、難しい課題となっている。 我々は、密度の対数ラプラス変換(LLT)と呼ばれる物体によって自然に正規化を誘導する、最近の[LST21]の近位サンプルの非ユークリッドアナログを開発する。 我々は,LLTの厳密な凸性-平滑性双対性や等長不等式など,LLTの新たな数学的特性(アルゴリズム的フレーバー付き)を証明し,温暖開始時の近位サンプルラーマッチング [LST21] の混合時間を証明する。 メインのアプリケーションとして、wwarm-started samplerは、oracleのプライベートな凸最適化の複雑さを$\ell_p$ と schatten-$p$ で改善し、euclidean設定 [gll22] にマッチさせながら、最先端の過剰なリスク境界 [gllst23] を保持する。 我々は,LLTについて,サンプルを設計するためのツールとしての有用性を実証し,今後の探索の方向性を概説する。

The development of efficient sampling algorithms catering to non-Euclidean geometries has been a challenging endeavor, as discretization techniques which succeed in the Euclidean setting do not readily carry over to more general settings. We develop a non-Euclidean analog of the recent proximal sampler of [LST21], which naturally induces regularization by an object known as the log-Laplace transform (LLT) of a density. We prove new mathematical properties (with an algorithmic flavor) of the LLT, such as strong convexity-smoothness duality and an isoperimetric inequality, which are used to prove a mixing time on our proximal sampler matching [LST21] under a warm start. As our main application, we show our warm-started sampler improves the value oracle complexity of differentially private convex optimization in $\ell_p$ and Schatten-$p$ norms for $p \in [1, 2]$ to match the Euclidean setting [GLL22], while retaining state-of-the-art excess risk bounds [GLLST23]. We find our investigation of the LLT to be a promising proof-of-concept of its utility as a tool for designing samplers, and outline directions for future exploration.
翻訳日:2023-02-14 16:44:32 公開日:2023-02-13
# 分布クローズネステストのための簡潔かつ効率的な量子アルゴリズム

Concise and Efficient Quantum Algorithms for Distribution Closeness Testing ( http://arxiv.org/abs/2302.06084v1 )

ライセンス: Link先を確認
Lvzhou Li and Jingquan Luo(参考訳) 量子計算が分布の性質をテストする基本的な問題に及ぼす影響について検討する。 特に、2つの未知の古典分布が十分に近いか遠くにあるかの検証に焦点をあて、現在最良の量子アルゴリズムを、$l^1$- distance と $l^2$- distance の指標で提案する。 量子特異値変換(qsvt)の手法に依存する \cite{gilyen2019distributional} の最近の結果と比較すると、我々のアルゴリズムは複雑さを低下させるだけでなく、より簡潔である。

We study the impact of quantum computation on the fundamental problem of testing the property of distributions. In particular, we focus on testing whether two unknown classical distributions are close or far enough, and propose the currently best quantum algorithms for this problem under the metrics of $l^1$-distance and $l^2$-distance. Compared with the latest results given in \cite{gilyen2019distributional} which relied on the technique of quantum singular value transformation (QSVT), our algorithms not only have lower complexity, but also are more concise.
翻訳日:2023-02-14 16:43:35 公開日:2023-02-13
# ユニバーサルエージェントの混合と知能の幾何学

Universal Agent Mixtures and the Geometry of Intelligence ( http://arxiv.org/abs/2302.06083v1 )

ライセンス: Link先を確認
Samuel Allen Alexander, David Quarel, Len Du, Marcus Hutter(参考訳) マルチエージェント強化学習(RL)の最近の進歩に触発された本研究では,重み付け混合操作を導入することにより,理論的普遍エージェントの知的知的行動について検討する。 加重剤が与えられた場合、その加重混合物は、任意の環境において期待される総報酬が、その環境において期待される元のエージェントの総報酬の対応する重み付き平均である新しいエージェントである。 したがって、RLエージェントインテリジェンスを環境全体のパフォーマンスの観点から定量化すれば、重み付き混合のインテリジェンスは元のエージェントインテリジェンスの重み付き平均となる。 この操作は、rlエージェントインテリジェンスの幾何学、すなわち、対称性、凸エージェント集合、局所極値に関する結果に光を当てる、様々な興味深い新しい定理を可能にする。 また,環境全体の平均的性能に基づくrlエージェント知能指標は,特定の弱い技術的条件下では,その知性尺度に依存する1つの環境における性能と(一定の要因まで)同一であることを示した。

Inspired by recent progress in multi-agent Reinforcement Learning (RL), in this work we examine the collective intelligent behaviour of theoretical universal agents by introducing a weighted mixture operation. Given a weighted set of agents, their weighted mixture is a new agent whose expected total reward in any environment is the corresponding weighted average of the original agents' expected total rewards in that environment. Thus, if RL agent intelligence is quantified in terms of performance across environments, the weighted mixture's intelligence is the weighted average of the original agents' intelligences. This operation enables various interesting new theorems that shed light on the geometry of RL agent intelligence, namely: results about symmetries, convex agent-sets, and local extrema. We also show that any RL agent intelligence measure based on average performance across environments, subject to certain weak technical conditions, is identical (up to a constant factor) to performance within a single environment dependent on said intelligence measure.
翻訳日:2023-02-14 16:43:19 公開日:2023-02-13
# 教師なしクロスドメイン画像検索のための対応自由領域アライメント

Correspondence-Free Domain Alignment for Unsupervised Cross-Domain Image Retrieval ( http://arxiv.org/abs/2302.06081v1 )

ライセンス: Link先を確認
Xu Wang, Dezhong Peng, Ming Yan, Peng Hu(参考訳) クロスドメイン画像検索は、異なるドメインにまたがる画像を検索して、クロスドメインの分類や対応関係を抽出することを目的としている。 本稿では,非教師付きクロスドメイン画像検索という,非教師付きクロスドメイン画像検索の問題点について,以下の前提から考察する。 (i)対応関係がなく、また (ii)カテゴリアノテーションなし。 ドメイン間の対応なしに異なるドメインを調整し橋渡しすることは困難である。 そこで本研究では, ドメイン間自己マッチング監督 (iss) とクロスドメイン分類アライメント (cca) により, ドメイン間ギャップを効果的に排除する新しい対応なしドメインアライメント (coda) 手法を提案する。 具体的には、ISSは、新しい自己マッチング監視機構を組み込むことにより、識別情報を潜在共通空間にカプセル化する。 ドメイン間の相違を緩和するため、CCAは異なるドメイン固有の分類器を整合させることが提案されている。 ISSとCCAにより,非教師なしクロスドメイン画像検索のための領域不変な埋め込み空間への識別を符号化することができた。 提案手法の有効性を検証するために,4つのベンチマークデータセットを用いた6つの最先端手法との比較実験を行った。

Cross-domain image retrieval aims at retrieving images across different domains to excavate cross-domain classificatory or correspondence relationships. This paper studies a less-touched problem of cross-domain image retrieval, i.e., unsupervised cross-domain image retrieval, considering the following practical assumptions: (i) no correspondence relationship, and (ii) no category annotations. It is challenging to align and bridge distinct domains without cross-domain correspondence. To tackle the challenge, we present a novel Correspondence-free Domain Alignment (CoDA) method to effectively eliminate the cross-domain gap through In-domain Self-matching Supervision (ISS) and Cross-domain Classifier Alignment (CCA). To be specific, ISS is presented to encapsulate discriminative information into the latent common space by elaborating a novel self-matching supervision mechanism. To alleviate the cross-domain discrepancy, CCA is proposed to align distinct domain-specific classifiers. Thanks to the ISS and CCA, our method could encode the discrimination into the domain-invariant embedding space for unsupervised cross-domain image retrieval. To verify the effectiveness of the proposed method, extensive experiments are conducted on four benchmark datasets compared with six state-of-the-art methods.
翻訳日:2023-02-14 16:42:49 公開日:2023-02-13
# GAIN: グラディエント分解によるフェデレーション学習におけるビザンチンロバスト性向上

GAIN: Enhancing Byzantine Robustness in Federated Learning with Gradient Decomposition ( http://arxiv.org/abs/2302.06079v1 )

ライセンス: Link先を確認
Yuchen Liu, Chen Chen, Lingjuan Lyu, Fangzhao Wu, Sai Wu, Gang Chen(参考訳) フェデレーション学習は、参加者がプライベートデータを公開せずにモデルの共同トレーニングを可能にすることによって、プライバシを意識した学習フレームワークを提供する。 しかし、同盟学習はビザンツ攻撃の脆弱性を示しており、敵はグローバルモデルの収束と性能を破壊することを目指している。 一方、既存のロバストなアグリゲーションルール(AGR)は、非IID設定における最適勾配(正直な勾配の平均)から逸脱した集約された勾配を止めることができない。 我々は,これらのAGRの故障の原因として,新たに提案された2つの概念,識別障害と整合性障害を挙げる。 識別の失敗は主に、非IID設定における次元性の悪化した呪いに由来する。 整合性の失敗は、保守的なフィルタリング戦略と勾配の不均一性の組み合わせの結果である。 両障害に対処するために,既存のロバストアルゴリズムを異種データセットに適応させるための勾配分解スキームgainを提案する。 また、既存の堅牢なAGRをGAINに統合するための収束解析も提供する。 様々な実世界のデータセットにおける実験により,提案手法の有効性が検証された。

Federated learning provides a privacy-aware learning framework by enabling participants to jointly train models without exposing their private data. However, federated learning has exhibited vulnerabilities to Byzantine attacks, where the adversary aims to destroy the convergence and performance of the global model. Meanwhile, we observe that most existing robust AGgregation Rules (AGRs) fail to stop the aggregated gradient deviating from the optimal gradient (the average of honest gradients) in the non-IID setting. We attribute the reason of the failure of these AGRs to two newly proposed concepts: identification failure and integrity failure. The identification failure mainly comes from the exacerbated curse of dimensionality in the non-IID setting. The integrity failure is a combined result of conservative filtering strategy and gradient heterogeneity. In order to address both failures, we propose GAIN, a gradient decomposition scheme that can help adapt existing robust algorithms to heterogeneous datasets. We also provide convergence analysis for integrating existing robust AGRs into GAIN. Experiments on various real-world datasets verify the efficacy of our proposed GAIN.
翻訳日:2023-02-14 16:42:27 公開日:2023-02-13
# NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, You's Good Meme Analysis

NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, then you have Good Meme Analysis ( http://arxiv.org/abs/2302.06078v1 )

ライセンス: Link先を確認
Yu-Chien Tang, Kuang-Da Wang, Ting-Yun Ou, Wen-Chih Peng(参考訳) 本稿では,Memotion 3.0共有タスクに対する堅牢なソリューションを提案する。 この課題の目的は、通常ソーシャルメディア上で短い字幕を持つ画像の形で、ミームによって表現される感情と対応する強度を分類することである。 与えられたミームのマルチモーダル機能を理解することが、タスクの解決の鍵となるでしょう。 本稿では,CLIPを用いて画像テキストの特徴を抽出し,タスクAの協調指導モデル(CTM)とタスクB&Cのカスケード感情分類器(CEC)からなる新たな感情分析フレームワークを提案する。 CTMは、知識蒸留の考え方に基づいて、タスクAにおける与えられたミームの感情をより正確に予測できる; CECはタスクCの予測から感情をより正確に分類するために、タスクBの感情強度提案を活用できる;実験により、タスクAとタスクBの2位、タスクCの4位、重み付きF1スコアが0.342、0.784、0.535の2位にランクされた。 その結果,フレームワークの堅牢性と有効性を示した。 私たちのコードはgithubでリリースされています。

This paper presents a robust solution to the Memotion 3.0 Shared Task. The goal of this task is to classify the emotion and the corresponding intensity expressed by memes, which are usually in the form of images with short captions on social media. Understanding the multi-modal features of the given memes will be the key to solving the task. In this work, we use CLIP to extract aligned image-text features and propose a novel meme sentiment analysis framework, consisting of a Cooperative Teaching Model (CTM) for Task A and a Cascaded Emotion Classifier (CEC) for Tasks B&C. CTM is based on the idea of knowledge distillation, and can better predict the sentiment of a given meme in Task A; CEC can leverage the emotion intensity suggestion from the prediction of Task C to classify the emotion more precisely in Task B. Experiments show that we achieved the 2nd place ranking for both Task A and Task B and the 4th place ranking for Task C, with weighted F1-scores of 0.342, 0.784, and 0.535 respectively. The results show the robustness and effectiveness of our framework. Our code is released at github.
翻訳日:2023-02-14 16:42:12 公開日:2023-02-13
# デバイストポロジ対応グラフ展開による分散DNNトレーニングの高速化

Expediting Distributed DNN Training with Device Topology-Aware Graph Deployment ( http://arxiv.org/abs/2302.06126v1 )

ライセンス: Link先を確認
Shiwei Zhang, Xiaodong Yi, Lansong Diao, Chuan Wu, Siyu Wang, and Wei Lin(参考訳) 本稿では,最適化されたdnnトレーニンググラフとそのデバイストポロジへの配置を自動的に導出するシステムであるtagを提案する。 グラフニューラルネットワーク(GNN)への入力として,DNN計算グラフとデバイストポロジグラフの両方を新たに結合し,最適化された分散トレーニング戦略を迅速に識別する検索ベースの手法でGNNと結合する。 ヘテロジニアスクラスタにおける通信を減らすために,ロスレス勾配圧縮手法をさらに検討し,組合せ最適化問題を解き,学習時間最小化手法を自動適用する。 様々な代表的DNNモデルとデバイストポロジを用いてTAGを評価し,既存のスキームと比較して最大4.56倍のトレーニング速度を達成可能であることを示す。 TAGは、未確認のDNNモデルと未確認のデバイストポロジの両方に対して、大規模な微調整なしで効率的なデプロイメント戦略を作成できる。

This paper presents TAG, an automatic system to derive optimized DNN training graph and its deployment onto any device topology, for expedited training in device- and topology- heterogeneous ML clusters. We novelly combine both the DNN computation graph and the device topology graph as input to a graph neural network (GNN), and join the GNN with a search-based method to quickly identify optimized distributed training strategies. To reduce communication in a heterogeneous cluster, we further explore a lossless gradient compression technique and solve a combinatorial optimization problem to automatically apply the technique for training time minimization. We evaluate TAG with various representative DNN models and device topologies, showing that it can achieve up to 4.56x training speed-up as compared to existing schemes. TAG can produce efficient deployment strategies for both unseen DNN models and unseen device topologies, without heavy fine-tuning.
翻訳日:2023-02-14 16:35:17 公開日:2023-02-13
# 大規模タンパク質接触予測モデルからの知識をデータスカースRNA接触予測タスクに転送できる

Knowledge from Large-Scale Protein Contact Prediction Models Can Be Transferred to the Data-Scarce RNA Contact Prediction Task ( http://arxiv.org/abs/2302.06120v1 )

ライセンス: Link先を確認
Yiren Jian and Chongyang Gao and Chen Zeng and Yunjie Zhao and Soroush Vosoughi(参考訳) RNAの機能はその構造によって決定されるが、多くの生物学的活性において重要な役割を果たす。 RNA配列の各ヌクレオチド間の対構造近接の予測は、RNAの構造情報を特徴づけることができる。 歴史的に、この問題はエキスパートエンジニアリング機能を使用して機械学習モデルに取り組み、ラベル付きデータセットの不足に基づいて訓練されてきた。 ここでは,タンパク質共進化トランスフォーマーを用いた深層ニューラルネットワークから得られた知識をrnaコンタクト予測タスクに転送できることを見いだす。 タンパク質のデータセットはRNA接触予測よりも桁違いに大きいため、我々の発見とその後のフレームワークはデータ不足のボトルネックを大幅に減らした。 公開タンパク質モデルを用いた転写学習によるRNA接触予測が大幅に改善されていることを確認した。 以上の結果から,タンパク質の構造パターンはRNAに転移し,新たな研究の道を開く可能性が示唆された。

RNA, whose functionality is largely determined by its structure, plays an important role in many biological activities. The prediction of pairwise structural proximity between each nucleotide of an RNA sequence can characterize the structural information of the RNA. Historically, this problem has been tackled by machine learning models using expert-engineered features and trained on scarce labeled datasets. Here, we find that the knowledge learned by a protein-coevolution Transformer-based deep neural network can be transferred to the RNA contact prediction task. As protein datasets are orders of magnitude larger than those for RNA contact prediction, our findings and the subsequent framework greatly reduce the data scarcity bottleneck. Experiments confirm that RNA contact prediction through transfer learning using a publicly available protein model is greatly improved. Our findings indicate that the learned structural patterns of proteins can be transferred to RNAs, opening up potential new avenues for research.
翻訳日:2023-02-14 16:34:59 公開日:2023-02-13
# フレームワーク税:研究と展開における推論効率の差

The Framework Tax: Disparities Between Inference Efficiency in Research and Deployment ( http://arxiv.org/abs/2302.06117v1 )

ライセンス: Link先を確認
Jared Fernandez, Jacob Kahn, Clara Na, Yonatan Bisk, Emma Strubell(参考訳) 機械学習システムのデプロイへの注目が高まり、ハードウェアアクセラレーションのパフォーマンスとニューラルネットワークモデルの効率が急速に向上した。 しかし、結果として浮動小数点演算の削減と加速器の計算スループットの増大は、現実世界の推論遅延の改善に直接は変換されていない。 これらの相違は、ディープラーニングフレームワークが導入したボトルネックにより、モデルアーキテクチャと基盤となるハードウェアの能力の相違に起因することが証明されている。 我々は、この現象を \textit{framework tax} と表現し、ハードウェアの速度が時間とともに増加するにつれて差が大きくなることを観察する。 本研究では,モデル設計決定,フレームワークパラダイム,ハードウェアプラットフォームがモデル全体のレイテンシに与える影響を分析する一連のケーススタディを通じて,この現象を考察する。 本研究は,効率的なMLモデル研究と実践のギャップを狭めることを目的とした,ML研究者と実践者に対して,実用的なレコメンデーションを提供する。

Increased focus on the deployment of machine learning systems has led to rapid improvements in hardware accelerator performance and neural network model efficiency. However, the resulting reductions in floating point operations and increases in computational throughput of accelerators have not directly translated to improvements in real-world inference latency. We demonstrate that these discrepancies can be largely attributed to mis-alignments between model architectures and the capabilities of underlying hardware due to bottlenecks introduced by deep learning frameworks. We denote this phenomena as the \textit{framework tax}, and observe that the disparity is growing as hardware speed increases over time. In this work, we examine this phenomena through a series of case studies analyzing the effects of model design decisions, framework paradigms, and hardware platforms on total model latency. Based on our findings, we provide actionable recommendations to ML researchers and practitioners aimed at narrowing the gap between efficient ML model research and practice.
翻訳日:2023-02-14 16:34:45 公開日:2023-02-13
# グラフ要約のためのグラフニューラルネットワークに関する調査

A Survey on Graph Neural Networks for Graph Summarization ( http://arxiv.org/abs/2302.06114v1 )

ライセンス: Link先を確認
Nasrin Shabani, Jia Wu, Amin Beheshti, Jin Foo, Ambreen Hanif, Maryam Shahabikargar(参考訳) 大規模グラフが普及するにつれ、大規模なグラフデータを抽出、処理、解釈する計算上の課題が顕在化する。 したがって、その重要な特性を維持しながら元のグラフを要約する方法を探すことは自然である。 本稿では,グラフニューラルネットワーク (GNN) の手法に着目したグラフ要約のためのグラフの深層学習の最新の進歩について概説する。 論文は,グラフ再帰ネットワーク,グラフ畳み込みネットワーク,グラフオートエンコーダ,グラフアテンションネットワークの4つのカテゴリに分類される。 また,グラフ強化学習を用いて,グラフ要約の質を評価・改善する新たな研究ラインについても論じる。 最後に、この調査を締めくくり、この分野のさらなる研究の動機となる多くのオープンな研究課題について論じる。

As large-scale graphs become more widespread today, it exposes computational challenges to extract, process, and interpret large graph data. It is therefore natural to search for ways to summarize the original graph while maintaining its key characteristics. In this survey, we outline the most current progress of deep learning on graphs for graph summarization explicitly concentrating on Graph Neural Networks (GNNs) methods. We structure the paper into four categories, including graph recurrent networks, graph convolutional networks, graph autoencoders, and graph attention networks. We also discuss a new booming line of research which is elaborating on using graph reinforcement learning for evaluating and improving the quality of graph summaries. Finally, we conclude this survey and discuss a number of open research challenges that would motivate further study in this area.
翻訳日:2023-02-14 16:34:31 公開日:2023-02-13
# バッチ正規化による残差ネットワーク上でのドロップアウトの正しく使用方法

How to Use Dropout Correctly on Residual Networks with Batch Normalization ( http://arxiv.org/abs/2302.06112v1 )

ライセンス: Link先を確認
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Donggeon Lee, Sang Woo Kim(参考訳) ディープニューラルネットワークの安定した最適化のために、ドロップアウトやバッチ正規化といった正規化手法が様々なタスクで使われている。 それにもかかわらず、ドロップアウト適用の正しい立場はめったに議論されておらず、実践者によって異なる立場が採用されている。 本研究では,ドロップアウトを適用すべき正しい位置について検討する。 バッチ正規化のある残差ネットワークでは,特定の位置にドロップアウトを施すと性能が向上するが,他の位置にドロップアウトを施すと性能が低下する。 理論的解析に基づき,最後のバッチ正規化の後に1回のドロップアウトを施すが,残枝の最後の重み付け層の前に1回のドロップアウトを施す。 この主張を支持するための詳細な理論的説明を提供し,モジュールテストを通じてそれを実証する。 また,最終的な予測を行う頭部の投下位置について検討する。 現在のコンセンサスは、グローバル平均プールの後にドロップアウトを適用することであるが、グローバル平均プールよりも先にドロップアウトを適用することで、より安定した出力が得られることを証明している。 提案したガイドラインは、異なるデータセットとモデルを用いた実験を通じて検証される。

For the stable optimization of deep neural networks, regularization methods such as dropout and batch normalization have been used in various tasks. Nevertheless, the correct position to apply dropout has rarely been discussed, and different positions have been employed depending on the practitioners. In this study, we investigate the correct position to apply dropout. We demonstrate that for a residual network with batch normalization, applying dropout at certain positions increases the performance, whereas applying dropout at other positions decreases the performance. Based on theoretical analysis, we provide the following guideline for the correct position to apply dropout: apply one dropout after the last batch normalization but before the last weight layer in the residual branch. We provide detailed theoretical explanations to support this claim and demonstrate them through module tests. In addition, we investigate the correct position of dropout in the head that produces the final prediction. Although the current consensus is to apply dropout after global average pooling, we prove that applying dropout before global average pooling leads to a more stable output. The proposed guidelines are validated through experiments using different datasets and models.
翻訳日:2023-02-14 16:34:19 公開日:2023-02-13
# FedDA: Restarted Dual Averagingによるローカル適応型グラディエントメソッドの高速フレームワーク

FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted Dual Averaging ( http://arxiv.org/abs/2302.06103v1 )

ライセンス: Link先を確認
Junyi Li, Feihu Huang, Heng Huang(参考訳) フェデレーション学習(federated learning, fl)は,大規模分散データを扱うための新たな学習パラダイムである。 連合学習において、クライアントのセットは、サーバの調整の下で機械学習タスクを共同で実行する。 FedAvgアルゴリズムは、フェデレートラーニング問題を解決する最も広く使われている手法の1つである。 FedAvgでは、学習率は適応的に変化するのではなく、一定である。 適応勾配法は一定の学習率のスケジュールよりも優れた性能を示すが、適応勾配法をフェデレーション設定に組み込む一般的な枠組みはいまだ存在しない。 本稿では,局所適応勾配法のための新しい枠組みである \textbf{fedda} を提案する。 このフレームワークは再起動された2つの平均化手法を採用し、様々な勾配推定法と適応学習率の定式化で柔軟である。 特に、我々のフレームワークのインスタンス化である \textbf{fedda-mvr} を分析し、定常点 $\epsilon$ を見つけるために、勾配複雑性 $\tilde{o}(\epsilon^{-1.5})$ と通信複雑性 $\tilde{o}(\epsilon^{-1})$ を達成することを示した。 これは1次FLアルゴリズムの最もよく知られたレートと一致し、 \textbf{FedDA-MVR} はこのレートを達成する最初の適応FLアルゴリズムである。 また,本手法の有効性を検証するため,広範な数値実験を行った。

Federated learning (FL) is an emerging learning paradigm to tackle massively distributed data. In Federated Learning, a set of clients jointly perform a machine learning task under the coordination of a server. The FedAvg algorithm is one of the most widely used methods to solve Federated Learning problems. In FedAvg, the learning rate is a constant rather than changing adaptively. The adaptive gradient methods show superior performance over the constant learning rate schedule; however, there is still no general framework to incorporate adaptive gradient methods into the federated setting. In this paper, we propose \textbf{FedDA}, a novel framework for local adaptive gradient methods. The framework adopts a restarted dual averaging technique and is flexible with various gradient estimation methods and adaptive learning rate formulations. In particular, we analyze \textbf{FedDA-MVR}, an instantiation of our framework, and show that it achieves gradient complexity $\tilde{O}(\epsilon^{-1.5})$ and communication complexity $\tilde{O}(\epsilon^{-1})$ for finding a stationary point $\epsilon$. This matches the best known rate for first-order FL algorithms and \textbf{FedDA-MVR} is the first adaptive FL algorithm that achieves this rate. We also perform extensive numerical experiments to verify the efficacy of our method.
翻訳日:2023-02-14 16:34:03 公開日:2023-02-13
# gpt-3は法定推論を実行できるか?

Can GPT-3 Perform Statutory Reasoning? ( http://arxiv.org/abs/2302.06100v1 )

ライセンス: Link先を確認
Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme(参考訳) 法令推論は、立法府によって自然言語で書かれた規則である事実や法令を推論する作業である。 基本的な法的技能である。 本稿では,最も有能な GPT-3 モデルである text-davinci-003 について,SARA と呼ばれる定式化データセットを用いて検討する。 動的少ショットプロンプト、チェーンオブ思想プロンプト、ゼロショットプロンプトなど、さまざまなアプローチを検討します。 GPT-3で得られた結果は、これまでの最良な結果よりも優れているが、いくつかの明確な誤りも特定できる。 これらの原因を調査した結果、GPT-3 は SARA が基盤とする実際の米国法令の事前知識が不十分であることが判明した。 さらに重要なことは、GPT-3は単純な合成法則に関する簡単な質問に答えるには不十分である。 また, 合成規則が文体で書かれる際にも, 同じ疑問を呈示することにより, GPT-3の劣悪な性能の一部は, 段落や段落を含む規則の典型的構造を解析することの難しさから生じることがわかった。

Statutory reasoning is the task of reasoning with facts and statutes, which are rules written in natural language by a legislature. It is a basic legal skill. In this paper we explore the capabilities of the most capable GPT-3 model, text-davinci-003, on an established statutory-reasoning dataset called SARA. We consider a variety of approaches, including dynamic few-shot prompting, chain-of-thought prompting, and zero-shot prompting. While we achieve results with GPT-3 that are better than the previous best published results, we also identify several types of clear errors it makes. In investigating why these happen, we discover that GPT-3 has imperfect prior knowledge of the actual U.S. statutes on which SARA is based. More importantly, GPT-3 performs poorly at answering straightforward questions about simple synthetic statutes. By also posing the same questions when the synthetic statutes are written in sentence form, we find that some of GPT-3's poor performance results from difficulty in parsing the typical structure of statutes, containing subsections and paragraphs.
翻訳日:2023-02-14 16:33:37 公開日:2023-02-13
# 画像キャプションのための局所視覚モデリングに向けて

Towards Local Visual Modeling for Image Captioning ( http://arxiv.org/abs/2302.06098v1 )

ライセンス: Link先を確認
Yiwei Ma, Jiayi Ji, Xiaoshuai Sun, Yiyi Zhou, Rongrong Ji(参考訳) 本稿では,画像キャプションのためのグリッド特徴を用いた局所的な視覚モデルについて検討する。 そこで我々は,LSTNet(Locality-Sensitive Transformer Network)とLSA(Locality-Sensitive Attention)とLSF(Locality-Sensitive Fusion)の2つの新しい設計を提案する。 LSAはトランスフォーマー内の層間相互作用のために、各格子とその近傍の関係をモデル化して展開される。 キャプション中の局所的物体認識の困難さを低減させる。 LSFは層間情報融合に使われ、層間セマンティック補完のために異なるエンコーダ層の情報を集約する。 これら2つの新しい設計により、LSTNetはグリッド特徴の局所的な視覚情報をモデル化し、キャプションの品質を向上させることができる。 LSTNetを検証するため,競争力のあるMS-COCOベンチマークについて広範な実験を行った。 実験の結果、LSTNetは局所的なビジュアルモデリングだけでなく、オフラインおよびオンラインテストにおいて、それぞれ134.8 CIDErと136.3 CIDErといった最先端のキャプションモデルよりも優れていた。 さらに、LSTNetの一般化はFlickr8kとFlickr30kデータセットでも検証されている。

In this paper, we study the local visual modeling with grid features for image captioning, which is critical for generating accurate and detailed captions. To achieve this target, we propose a Locality-Sensitive Transformer Network (LSTNet) with two novel designs, namely Locality-Sensitive Attention (LSA) and Locality-Sensitive Fusion (LSF). LSA is deployed for the intra-layer interaction in Transformer via modeling the relationship between each grid and its neighbors. It reduces the difficulty of local object recognition during captioning. LSF is used for inter-layer information fusion, which aggregates the information of different encoder layers for cross-layer semantical complementarity. With these two novel designs, the proposed LSTNet can model the local visual information of grid features to improve the captioning quality. To validate LSTNet, we conduct extensive experiments on the competitive MS-COCO benchmark. The experimental results show that LSTNet is not only capable of local visual modeling, but also outperforms a bunch of state-of-the-art captioning models on offline and online testings, i.e., 134.8 CIDEr and 136.3 CIDEr, respectively. Besides, the generalization of LSTNet is also verified on the Flickr8k and Flickr30k datasets
翻訳日:2023-02-14 16:33:16 公開日:2023-02-13
# 適応型ダウンサンプリングと空間変数変換による2層画像圧縮

Dual-layer Image Compression via Adaptive Downsampling and Spatially Varying Upconversion ( http://arxiv.org/abs/2302.06096v1 )

ライセンス: Link先を確認
Xi Zhang and Xiaolin Wu(参考訳) ultra high resolution (uhr) イメージは、ほとんど常にダウンサンプリングされ、モバイル端末の小さなディスプレイに収まり、非常に高解像度のディスプレイに表示されると元の解像度にアップサンプリングされる。 この観察により,画像内容に空間的適応したダウンサンプリングとアップサンプリングの協調最適化により,最大レートゆらぎ性能が向上する。 本稿では,適応型ダウンサンプリング型2層画像圧縮システム(ADDL)を提案する。 ADDL圧縮システムでは、学習したコンテンツ適応型ダウンサンプリングカーネルによって画像の解像度を下げ、圧縮して符号化ベース層を形成する。 減圧のために、ベース層をデコードし、ディープアップサンプリングニューラルネットワークを用いて元の解像度にアップコンバートし、学習した適応ダウンサンプリングカーネルの事前知識により支援する。 フィルタ最適化の複雑さを低減し、適応的なアップサンプリングに必要なデコーダに必要なサイド情報量を削減するため、ダウンサンプリングカーネルをgaborフィルタの形式に制限する。 共同最適化,空間適応型ダウンサンプリング,アップコンバージョンによるADDL圧縮手法は,画像圧縮手法の精度を向上することを示した。

Ultra high resolution (UHR) images are almost always downsampled to fit small displays of mobile end devices and upsampled to its original resolution when exhibited on very high-resolution displays. This observation motivates us on jointly optimizing operation pairs of downsampling and upsampling that are spatially adaptive to image contents for maximal rate-distortion performance. In this paper, we propose an adaptive downsampled dual-layer (ADDL) image compression system. In the ADDL compression system, an image is reduced in resolution by learned content-adaptive downsampling kernels and compressed to form a coded base layer. For decompression the base layer is decoded and upconverted to the original resolution using a deep upsampling neural network, aided by the prior knowledge of the learned adaptive downsampling kernels. We restrict the downsampling kernels to the form of Gabor filters in order to reduce the complexity of filter optimization and also reduce the amount of side information needed by the decoder for adaptive upsampling. Extensive experiments demonstrate that the proposed ADDL compression approach of jointly optimized, spatially adaptive downsampling and upconversion outperforms the state of the art image compression methods.
翻訳日:2023-02-14 16:32:52 公開日:2023-02-13
# 自律型UAV検査のための学習に基づく欠陥認識

Learning-Based Defect Recognitions for Autonomous UAV Inspections ( http://arxiv.org/abs/2302.06093v1 )

ライセンス: Link先を確認
Kangcheng Liu(参考訳) 自動き裂検出とセグメンテーションは無人航空機の検査システム全体において重要な役割を果たす。 本稿では,alexnet,vgg,resnetなどの古典的ネットワークアーキテクチャに基づくき裂検出のためのディープラーニングフレームワークを実装した。 さらに, 階層型畳み込みニューラルネットワーク(CNN)によるフラクチャーセグメンテーションを効率的に行うディープラーニングフレームワークである特徴ピラミッドネットワークアーキテクチャに着想を得て, その性能を他の最先端ネットワークアーキテクチャと比較した。 我々は,既存のクラック検出およびセグメント化データセットを要約し,インターネット上で最大のクラック検出およびセグメント化のためのベンチマークデータセットを確立した。 我々のフィーチャーピラミッドクラックセグメンテーションネットワークはベンチマークデータセット上でテストされ、十分なセグメンテーション結果が得られる。 また, 各種コンクリート構造物のひび割れ検査作業のために, 無人航空機の自動点検のための枠組みも提案する。 すべての自己確立したデータセットとコードは、https://github.com/KangchengLiu/Crack-Detection-and-Segmentation-for-UAV-Inspectionでオープンソース化されています。

Automatic crack detection and segmentation play a significant role in the whole system of unmanned aerial vehicle inspections. In this paper, we have implemented a deep learning framework for crack detection based on classical network architectures including Alexnet, VGG, and Resnet. Moreover, inspired by the feature pyramid network architecture, a hierarchical convolutional neural network (CNN) deep learning framework which is efficient in crack segmentation is also proposed, and its performance of it is compared with other state-of-the-art network architecture. We have summarized the existing crack detection and segmentation datasets and established the largest existing benchmark dataset on the internet for crack detection and segmentation, which is open-sourced for the research community. Our feature pyramid crack segmentation network is tested on the benchmark dataset and gives satisfactory segmentation results. A framework for automatic unmanned aerial vehicle inspections is also proposed and will be established for the crack inspection tasks of various concrete structures. All our self-established datasets and codes are open-sourced at: https://github.com/KangchengLiu/Crack-Detection-and-Segmentation-Dataset-for-UAV-Inspection
翻訳日:2023-02-14 16:32:33 公開日:2023-02-13
# パルス形状と人工神経ネットワークを用いたPMTの飽和応答の復元

Restoring the saturation response of a PMT using pulse-shape and artificial-neural-networks ( http://arxiv.org/abs/2302.06170v1 )

ライセンス: Link先を確認
Hyun-Gi Lee, Jungsic Park, Byeongsu Yang(参考訳) 光増倍管(PMT)の線形応答は、ニュートリノエネルギーの光子計数と再構成に必要な性質である。 線形アルキルベンゼン (LAB) 系液体シンチレータを用いて, PMTの線形性有効領域と飽和応答を検討した。 2種類の飽和反応の間にはパルス形状歪みとパルス面積減少の相関が認められた。 観測されたパルス形状は、パルス領域に対する線形領域の推定に有用な情報を提供する。 この相関に基づく診断は、以前に困難であった線型性範囲の${in}$-${situ}$推定を可能にする。 この2つの飽和応答の相関関係を人工神経ネットワーク(ann)の訓練に応用し,観察したパルス形状からパルス面積の低下を予測した。 ANN予測パルス領域減少により、飽和挙動とは無関係に理想的な光電子数の予測が可能となる。 このパルス形状に基づく機械学習技術は、PMTの飽和応答を復元する新しい方法を提供する。

The linear response of a photomultiplier tube (PMT) is a required property for photon counting and reconstruction of the neutrino energy. The linearity valid region and the saturation response of PMT were investigated using a linear-alkyl-benzene (LAB)-based liquid scintillator. A correlation was observed between the two different saturation responses, with pulse-shape distortion and pulse-area decrease. The observed pulse-shape provides useful information for the estimation of the linearity region relative to the pulse-area. This correlation-based diagnosis allows an ${in}$-${situ}$ estimation of the linearity range, which was previously challenging. The measured correlation between the two saturation responses was employed to train an artificial-neural-network (ANN) to predict the decrease in pulse-area from the observed pulse-shape. The ANN-predicted pulse-area decrease enables the prediction of the ideal number of photoelectrons irrelevant to the saturation behavior. This pulse-shape-based machine learning technique offers a novel method for restoring the saturation response of PMTs.
翻訳日:2023-02-14 16:26:39 公開日:2023-02-13
# スパース次元還元再訪

Sparse Dimensionality Reduction Revisited ( http://arxiv.org/abs/2302.06165v1 )

ライセンス: Link先を確認
Mikael M{\o}ller H{\o}gsgaard, Lion Kamma, Kasper Green Larsen, Jelani Nelson, Chris Schwiegelshohn(参考訳) スパースジョンソン・リンデンシュトラウス変換は次元還元の中心的な手法の一つである。 これは$n$の点集合を$\mathbb{R}^d$に$m=O(\varepsilon^{-2} \lg n)$次元に埋め込み、すべての対距離を$1 \pm \varepsilon$に保存することをサポートする。 それぞれの入力ポイント$x$は$Ax$に埋め込まれ、$A$は$m \times d$Matrixで列当たり$s$非ゼロで、$O(s \|x\|_0)$の埋め込み時間を可能にする。 A$の空白が埋め込み時間を支配するので、多くの作業が空白$s$の改善に費やされている。 Kane and Nelson (JACM'14) による現在の最先端は、s = O(\varepsilon ^{-1} \lg n)$ suffices であることを示している。 これは、Nelson and Nguyen (STOC'13) による $s = \Omega(\varepsilon ^{-1} \lg n/\lg(1/\varepsilon))$ の下界とほぼ一致する。 これまでの研究は、ほぼ最適な埋め込みがあることを示唆している。 本研究では, スパース埋め込みを再検討し, 下界の抜け穴を同定する。 具体的には$d \geq n$が必要で、多くのアプリケーションでは非現実的である。 この抜け穴を利用して、$d = o(n)$, achieve $s = O(\varepsilon^{-1}(\lg n/\lg(1/\varepsilon)+\lg^{2/3}n \lg^{1/3} d)$ のときにスペーサーを埋め込む。 我々はまた、Nelson と Nguyen の下界を$d \ll n$ のときも保持するように強化することで解析を補完し、新しいスパーシティ上界の最初の項と一致する。 最後に、最適な埋め込み次元のための最良部分空間埋め込みのスパース性も改善する。

The sparse Johnson-Lindenstrauss transform is one of the central techniques in dimensionality reduction. It supports embedding a set of $n$ points in $\mathbb{R}^d$ into $m=O(\varepsilon^{-2} \lg n)$ dimensions while preserving all pairwise distances to within $1 \pm \varepsilon$. Each input point $x$ is embedded to $Ax$, where $A$ is an $m \times d$ matrix having $s$ non-zeros per column, allowing for an embedding time of $O(s \|x\|_0)$. Since the sparsity of $A$ governs the embedding time, much work has gone into improving the sparsity $s$. The current state-of-the-art by Kane and Nelson (JACM'14) shows that $s = O(\varepsilon ^{-1} \lg n)$ suffices. This is almost matched by a lower bound of $s = \Omega(\varepsilon ^{-1} \lg n/\lg(1/\varepsilon))$ by Nelson and Nguyen (STOC'13). Previous work thus suggests that we have near-optimal embeddings. In this work, we revisit sparse embeddings and identify a loophole in the lower bound. Concretely, it requires $d \geq n$, which in many applications is unrealistic. We exploit this loophole to give a sparser embedding when $d = o(n)$, achieving $s = O(\varepsilon^{-1}(\lg n/\lg(1/\varepsilon)+\lg^{2/3}n \lg^{1/3} d))$. We also complement our analysis by strengthening the lower bound of Nelson and Nguyen to hold also when $d \ll n$, thereby matching the first term in our new sparsity upper bound. Finally, we also improve the sparsity of the best oblivious subspace embeddings for optimal embedding dimensionality.
翻訳日:2023-02-14 16:26:24 公開日:2023-02-13
# テキスト分類改善のための意味的に難解なサンプルの同定

Identifying Semantically Difficult Samples to Improve Text Classification ( http://arxiv.org/abs/2302.06155v1 )

ライセンス: Link先を確認
Shashank Mujumdar, Stuti Mehta, Hima Patel, Suman Mitra(参考訳) 本稿では,あるテキストデータセットから抽出した難しいサンプルが下流テキスト分類タスクに与える影響について検討する。 我々は、難解なサンプルを、意味的な埋め込み空間で解析することで、テキスト分類の不可避なケースとして定義する。 (i)異なるクラスに属する意味的に類似したサンプル (ii)同一クラスに属する意味的に異質なサンプル。 データセット内の各サンプルの総合難易度スコアを測定するためのペナルティ関数を提案する。 13の標準データセットについて徹底的な実験を行い,9%までの一貫性のある改善を示すとともに,テキスト分類モデルにおける難解なサンプル同定における質的結果の有効性を示す。

In this paper, we investigate the effect of addressing difficult samples from a given text dataset on the downstream text classification task. We define difficult samples as being non-obvious cases for text classification by analysing them in the semantic embedding space; specifically - (i) semantically similar samples that belong to different classes and (ii) semantically dissimilar samples that belong to the same class. We propose a penalty function to measure the overall difficulty score of every sample in the dataset. We conduct exhaustive experiments on 13 standard datasets to show a consistent improvement of up to 9% and discuss qualitative results to show effectiveness of our approach in identifying difficult samples for a text classification model.
翻訳日:2023-02-14 16:25:45 公開日:2023-02-13
# 輪郭文脈:3次元LiDARループ検出とメートル法推定のための抽象構造分布

Contour Context: Abstract Structural Distribution for 3D LiDAR Loop Detection and Metric Pose Estimation ( http://arxiv.org/abs/2302.06149v1 )

ライセンス: Link先を確認
Binqian Jiang, Shaojie Shen(参考訳) そこで,本稿では,都市内走行シナリオを対象とし,高精度な3次元距離ポーズ推定を行う簡易かつ効果的かつ効率的なトポロジカルループクロージャ検出パイプラインである \textit{contour context}を提案する。 3dlidar点から投影されたデカルト鳥の眼図(bev)像を構造の層状分布として解釈する。 BEVから標高情報を復元するために、異なる高さでスライスし、各レベルの連結画素が輪郭を形成する。 各輪郭は、ピクセル数、中心位置、共分散、平均高さなどの抽象情報によってパラメータ化される。 2つのBEVの類似性は、逐次離散および連続的なステップで計算される。 最初のステップは、グラフのような星座の幾何学的コンセンサスを、特定の局所的な輪郭によって形成される。 2番目のステップは、輪郭の大部分を2.5Dガウス混合モデルとしてモデル化し、連続空間における相関計算と相対変換の最適化に用いられる。 検索キーは、層状KD木でインデックスされたデータベースの検索を高速化するように設計されている。 提案手法の有効性を,近年の公開データセットとの比較により検証した。

This paper proposes \textit{Contour Context}, a simple, effective, and efficient topological loop closure detection pipeline with accurate 3-DoF metric pose estimation, targeting the urban utonomous driving scenario. We interpret the Cartesian birds' eye view (BEV) image projected from 3D LiDAR points as layered distribution of structures. To recover elevation information from BEVs, we slice them at different heights, and connected pixels at each level will form contours. Each contour is parameterized by abstract information, e.g., pixel count, center position, covariance, and mean height. The similarity of two BEVs is calculated in sequential discrete and continuous steps. The first step considers the geometric consensus of graph-like constellations formed by contours in particular localities. The second step models the majority of contours as a 2.5D Gaussian mixture model, which is used to calculate correlation and optimize relative transform in continuous space. A retrieval key is designed to accelerate the search of a database indexed by layered KD-trees. We validate the efficacy of our method by comparing it with recent works on public datasets.
翻訳日:2023-02-14 16:25:34 公開日:2023-02-13
# CoMAE:小型RGB-Dデータセットを用いたシングルモデルハイブリッド事前学習

CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets ( http://arxiv.org/abs/2302.06148v1 )

ライセンス: Link先を確認
Jiange Yang, Sheng Guo, Gangshan Wu, Limin Wang(参考訳) 現在のRGB-Dシーン認識アプローチでは、RGBとdeepModalitiesの2つのスタンドアロンバックボーンをトレーニングすることが多い。 しかし、事前訓練された深度ネットワークは依然としてRGBベースのモデルに偏りがあり、それによって準最適解が得られる。 本稿では,rgbと深さモダリティのための単一モデル自己教師付きハイブリッド事前学習フレームワークcomaeを提案する。 コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提案する。 具体的には,まずパッチレベルのアライメントタスクを構築し,クロスモーダルコントラスト学習を通じて2つのモダリティで共有される1つのエンコーダを事前学習する。 そして、事前学習されたコントラストエンコーダをマルチモーダルマスクオートエンコーダに渡して、生成的観点からより細かいコンテキスト特徴をキャプチャする。 さらに,融合モジュールを必要としない単一モデル設計は,訓練段階と試験段階の両方において,一様シナリオに一般化する上で非常に柔軟かつ堅牢である。 SUN RGB-DおよびNYUDv2データセットの大規模な実験により、RGBと深度表現学習におけるCoMAEの有効性が示された。 さらに,実験結果から,CoMAEはデータ効率のよい表現学習者であることが判明した。 トレーニングには小規模でラベルなしのトレーニングセットしか使用していませんが、当社のCoMAE事前トレーニングモデルは、大規模で教師付きRGBデータセットを事前トレーニング可能な最先端の手法と競合しています。 コードはhttps://github.com/MCG-NJU/CoMAEでリリースされる。

Current RGB-D scene recognition approaches often train two standalone backbones for RGB and depth modalities with the same Places or ImageNet pre-training. However, the pre-trained depth network is still biased by RGB-based models which may result in a suboptimal solution. In this paper, we present a single-model self-supervised hybrid pre-training framework for RGB and depth modalities, termed as CoMAE. Our CoMAE presents a curriculum learning strategy to unify the two popular self-supervised representation learning algorithms: contrastive learning and masked image modeling. Specifically, we first build a patch-level alignment task to pre-train a single encoder shared by two modalities via cross-modal contrastive learning. Then, the pre-trained contrastive encoder is passed to a multi-modal masked autoencoder to capture the finer context features from a generative perspective. In addition, our single-model design without requirement of fusion module is very flexible and robust to generalize to unimodal scenario in both training and testing phases. Extensive experiments on SUN RGB-D and NYUDv2 datasets demonstrate the effectiveness of our CoMAE for RGB and depth representation learning. In addition, our experiment results reveal that CoMAE is a data-efficient representation learner. Although we only use the small-scale and unlabeled training set for pre-training, our CoMAE pre-trained models are still competitive to the state-of-the-art methods with extra large-scale and supervised RGB dataset pre-training. Code will be released at https://github.com/MCG-NJU/CoMAE.
翻訳日:2023-02-14 16:25:13 公開日:2023-02-13
# 有限サイズ誘電体を含む自由空間における量子電磁系のモデル化

Numerical Framework for Modeling Quantum Electromagnetic Systems Involving Finite-Sized Lossy Dielectric Objects in Free Space ( http://arxiv.org/abs/2302.06145v1 )

ライセンス: Link先を確認
Dong-Yeop Na, Thomas E Roth, Jie Zhu, Weng C Chew, Christopher J Ryu(参考訳) 改良されたランゲヴィンノイズ形式は、自由空間における有限サイズの損失誘電体の存在下での量子電磁場の正しいチャーター化のために提案されている。 原型(バルク不均一損失誘電体にのみ利用可能なグリーン関数法としても知られる)への主な変更は、放射線損失に反応して変動源を追加することである。 これにより、結果の電界演算子が決定される。 (i)境界支援及び 二 放射線及び媒体損失による変動源である均等な足場における中力場 しかし、長い数学的操作と複雑な概念のため、改良されたランゲヴィンノイズ形式の有効性はまだ明確には確認されていない。 本研究では,CEM(Computer Electromagnetic Method)を利用した改良型Langevin雑音定式化のための新しい数値解析フレームワークを提案する。 具体的には,有限要素法を用いて,各解が境界支援場と中支援場である平面波散乱問題と点放射問題を数値的に解く。 開発した数値的枠組みに基づいて、損失誘電体スラブ内外における2レベル原子のパーセル係数を算出する。 グリーン関数の想像的部分である自然放出率viz.の従来の表現を回収できることは、初めて数値的に証明されている。 提案手法は, 実用プラズモン構造や準曲面近傍の多層原子の力学を推定するために特に有用である。

The modified Langevin noise formalism has been proposed for the correct charaterization of quantum electromagnetic fields in the presence of finite-sized lossy dielectric objects in free space. The main modification to the original one (also known as the Green's function approach available only for bulk inhomogeneous lossy dielectric medium) was to add fluctuating sources in reaction to the radiation loss. Consequently, a resulting electric field operator is now determined by (i) boundary-assisted and (ii) medium-assisted fields on an equal footing, which are fluctuating sources due to radiation and medium losses, respectively. However, due to the lengthy mathematical manipulation and complicated concepts, the validity of the modified Langevin noise formalism has not been clearly checked yet. In this work, we propose and develop a novel numerical framework for the modified Langevin noise formalism by exploiting computational electromagnetic methods (CEM). Specifically, we utilize the finite-element method to numerically solve plane-wave-scattering and point-source-radiation problems whose solutions are boundary-assisted and medium-assisted fields, respectively. Based on the developed numerical framework, we calculate the Purcell factor of a two-level atom inside or outside a lossy dielectric slab. It is numerically proved, for the first time, that one can retrieve the conventional expression of the spontaneous emission rate, viz., the imaginary part of the Green's function. The proposed numerical framework is particularly useful for estimating the dynamics of multi-level atoms near practical plasmonic structures or metasurfaces.
翻訳日:2023-02-14 16:24:47 公開日:2023-02-13
# RFC-Net:計算予算に基づく医用画像分割のための高分解能グローバル特徴の学習

RFC-Net: Learning High Resolution Global Features for Medical Image Segmentation on a Computational Budget ( http://arxiv.org/abs/2302.06134v1 )

ライセンス: Link先を確認
Sourajit Saha, Shaswati Saha, Md Osman Gani, Tim Oates, David Chapman(参考訳) セマンティックセグメンテーションには高分解能表現の学習が不可欠である。 下流と上流の伝播流を伴う畳み込みニューラルネットワーク(CNN)アーキテクチャは、診断におけるセグメンテーションに人気がある。 しかし、複数の段階で空間的なダウンサンプリングやアップサンプリングを行うため、情報損失は不可避である。 逆に、高空間解像度で密結合する層は計算コストが高い。 本研究では,後続の層内のニューロンを少ないパラメータで接続するルースセンス接続戦略を考案した。 その上,m-way Tree構造を用いて,圧縮された計算空間上の高分解能グローバルな特徴を学習するReceptive Field Chain Network (RFC-Net)を提案する。 提案実験により,RFC-Net が Kvasir および CVC-ClinicDB のPolyp セグメンテーションのベンチマークにおいて,最先端のパフォーマンスを達成することを示す。

Learning High-Resolution representations is essential for semantic segmentation. Convolutional neural network (CNN)architectures with downstream and upstream propagation flow are popular for segmentation in medical diagnosis. However, due to performing spatial downsampling and upsampling in multiple stages, information loss is inexorable. On the contrary, connecting layers densely on high spatial resolution is computationally expensive. In this work, we devise a Loose Dense Connection Strategy to connect neurons in subsequent layers with reduced parameters. On top of that, using a m-way Tree structure for feature propagation we propose Receptive Field Chain Network (RFC-Net) that learns high resolution global features on a compressed computational space. Our experiments demonstrates that RFC-Net achieves state-of-the-art performance on Kvasir and CVC-ClinicDB benchmarks for Polyp segmentation.
翻訳日:2023-02-14 16:24:25 公開日:2023-02-13
# マルチビュー学習のためのDeep Transfer Tensor Factorization

Deep Transfer Tensor Factorization for Multi-View Learning ( http://arxiv.org/abs/2302.06133v1 )

ライセンス: Link先を確認
Penghao Jiang, Ke Xin, Chunxi Li(参考訳) 本稿では,多視点学習におけるデータ空間問題について考察する。 本研究では,多視点評価におけるデータスパーシティ問題を解決するために,深層学習とクロスドメインテンソル分解を統合したdttf(deep transfer tensor factorization)の汎用アーキテクチャを提案する。 そこで,提案手法では,sdae (stacked denoising autoencoder) とcp (candecomp/ parafac) のテンソル因子分解を,ユーザとアイテムの側情報とスパースマルチビュー評価とを密結合したソース領域とターゲット領域の両方で組み合わせることで,アーキテクチャのインスタンス化を行い,協調最適化により潜在因子を学習する。 クロスドメインテンソル分解に基づくレコメンデーションを改善するために,マルチビュー評価とサイド情報とを密結合する。 実世界のデータセットを用いた実験結果から、DTTF方式はマルチビュー評価予測における最先端手法よりも優れていることが示された。

This paper studies the data sparsity problem in multi-view learning. To solve data sparsity problem in multiview ratings, we propose a generic architecture of deep transfer tensor factorization (DTTF) by integrating deep learning and cross-domain tensor factorization, where the side information is embedded to provide effective compensation for the tensor sparsity. Then we exhibit instantiation of our architecture by combining stacked denoising autoencoder (SDAE) and CANDECOMP/ PARAFAC (CP) tensor factorization in both source and target domains, where the side information of both users and items is tightly coupled with the sparse multi-view ratings and the latent factors are learned based on the joint optimization. We tightly couple the multi-view ratings and the side information to improve cross-domain tensor factorization based recommendations. Experimental results on real-world datasets demonstrate that our DTTF schemes outperform state-of-the-art methods on multi-view rating predictions.
翻訳日:2023-02-14 16:24:10 公開日:2023-02-13
# NNKGC:Node Neighborhoodsによる知識グラフ補完の改善

NNKGC: Improving Knowledge Graph Completion with Node Neighborhoods ( http://arxiv.org/abs/2302.06132v1 )

ライセンス: Link先を確認
Zihui Li, Boming Yang, Toyotaro Suzumura(参考訳) 知識グラフ補完(KGC)は、クエリエンティティの欠落した関係を見つけることを目的としている。 現在のテキストベースのモデルは、エンティティ名と記述を使用して、ヘッダエンティティと特定の関係が与えられたテールエンティティを推論する。 既存のアプローチでは、ヘッドエンティティの近傍も考慮している。 しかしながら、これらの手法は平坦な構造を用いて近隣をモデル化する傾向があり、1ホップの隣人に限られる。 本稿では,知識グラフ補完のためのノード近傍拡張フレームワークを提案する。 ニューラルネットワークを用いて複数のホップからヘッドエンティティ近傍をモデル化し、ヘッドノード情報を豊かにする。 さらに,kgcを改善するために追加のエッジリンク予測タスクを導入する。 2つの公開データセットの評価は、このフレームワークが単純かつ効果的であることを示している。 ケーススタディでは、モデルが説明可能な予測を予測できることも示されている。

Knowledge graph completion (KGC) aims to discover missing relations of query entities. Current text-based models utilize the entity name and description to infer the tail entity given the head entity and a certain relation. Existing approaches also consider the neighborhood of the head entity. However, these methods tend to model the neighborhood using a flat structure and are only restricted to 1-hop neighbors. In this work, we propose a node neighborhood-enhanced framework for knowledge graph completion. It models the head entity neighborhood from multiple hops using graph neural networks to enrich the head node information. Moreover, we introduce an additional edge link prediction task to improve KGC. Evaluation on two public datasets shows that this framework is simple yet effective. The case study also shows that the model is able to predict explainable predictions.
翻訳日:2023-02-14 16:23:51 公開日:2023-02-13
# イメージインペインティングのためのマスクセルフアテンションにおける温度スケール学習

Learning to Scale Temperature in Masked Self-Attention for Image Inpainting ( http://arxiv.org/abs/2302.06130v1 )

ライセンス: Link先を確認
Xiang Zhou, Yuan Zeng, Yi Gong(参考訳) 近年のGAN(Deep Generative Adversarial Network)と自己認識機構の進歩は,画像中の大きな欠損領域を塗布する課題において,大きな改善をもたらした。 これらの手法は、ニューラルネットワークに自己認識機構を統合し、その相関に基づいて周囲のニューラルネットワーク要素を利用する。 温度は自己注意に使用されるソフトマックス関数のパラメータであり、注意点の分布をいくつかの類似したパッチに偏らせることができる。 イメージインパインティングにおける既存の自己アテンション機構のほとんどは畳み込みベースであり、温度を一定に設定し、限られた特徴空間でパッチマッチングを行う。 本研究では,過去の自己認識機構のアーティファクトとトレーニング問題を解析し,温度学習ネットワークとそれに対応する自己認識機構を再設計する。 本稿では,多面体温度マスマスキング自己保持機構を組み,安定かつ効率的な温度学習を実現し,高品質な画像インペイントに複数のコンテキスト情報を利用する画像インパインティングフレームワークを提案する。 描画結果の画質の向上に加えて,新しいスケッチ生成手法を導入してユーザガイド画像編集に一般化する。 paris streetview、celeba-hq、places2といった様々なデータセットに関する広範囲な実験により、この方法は、イメージの知覚と定量的指標の両方において、以前の作品よりも自然なインペインティング結果を生成するだけでなく、スケッチガイダンスに関連するより柔軟な結果を生成することを可能にする。

Recent advances in deep generative adversarial networks (GAN) and self-attention mechanism have led to significant improvements in the challenging task of inpainting large missing regions in an image. These methods integrate self-attention mechanism in neural networks to utilize surrounding neural elements based on their correlation and help the networks capture long-range dependencies. Temperature is a parameter in the Softmax function used in the self-attention, and it enables biasing the distribution of attention scores towards a handful of similar patches. Most existing self-attention mechanisms in image inpainting are convolution-based and set the temperature as a constant, performing patch matching in a limited feature space. In this work, we analyze the artifacts and training problems in previous self-attention mechanisms, and redesign the temperature learning network as well as the self-attention mechanism to address them. We present an image inpainting framework with a multi-head temperature masked self-attention mechanism, which provides stable and efficient temperature learning and uses multiple distant contextual information for high quality image inpainting. In addition to improving image quality of inpainting results, we generalize the proposed model to user-guided image editing by introducing a new sketch generation method. Extensive experiments on various datasets such as Paris StreetView, CelebA-HQ and Places2 clearly demonstrate that our method not only generates more natural inpainting results than previous works both in terms of perception image quality and quantitative metrics, but also enables to help users to generate more flexible results that are related to their sketch guidance.
翻訳日:2023-02-14 16:23:41 公開日:2023-02-13
# 文脈内学習における識別性校正

Distinguishability Calibration to In-Context Learning ( http://arxiv.org/abs/2302.06198v1 )

ライセンス: Link先を確認
Hongjing Li, Hanqi Yan, Yanran Li, Li Qian, Yulan He, Lin Gui(参考訳) 近年、いくつかのアノテーション付きインスタンスでモデルをトレーニングできるプロンプトベースの学習への関心が高まっており、低リソース環境では適している。 テキスト分類にプロンプトベースの学習を使用する場合、事前学習された言語モデル(plm)を使用して、入力テキストが与えられた事前定義されたテンプレートで欠落したトークンを予測し、クラスラベルにマッピングする。 しかし、トランスアーキテクチャ上に構築されたPLMは、同様の出力埋め込みを生成する傾向があるため、異なるクラスラベルの区別が難しい。 この問題は、多くのきめ細かいクラスラベルを含む分類タスクを扱う際にさらに悪化する。 本研究では、この情報拡散問題、すなわち、複数の自己保持層をトランスフォーマーに積み重ねた後に、異なるトークンが同様の情報を共有することを緩和するために、回転とスケーリングを通じて特徴変換に基づいて構築されたキャリブレーション手法を提案し、その結果の埋め込みの識別性を保証するために、PLM符号化埋め込みを新しい距離空間にマッピングする。 さらに,ハイパーボリックな埋め込みの利点を生かし,粒度の細かいクラス関連トークンの階層的関係を粗いメトリック学習戦略によって捉え,学習した出力埋め込みの識別性を高める。 様々な環境下での3つのデータセットに対する大規模な実験は、我々のアプローチの有効性を示す。 私たちのコードはhttps://github.com/donttal/taraにあります。

Recent years have witnessed increasing interests in prompt-based learning in which models can be trained on only a few annotated instances, making them suitable in low-resource settings. When using prompt-based learning for text classification, the goal is to use a pre-trained language model (PLM) to predict a missing token in a pre-defined template given an input text, which can be mapped to a class label. However, PLMs built on the transformer architecture tend to generate similar output embeddings, making it difficult to discriminate between different class labels. The problem is further exacerbated when dealing with classification tasks involving many fine-grained class labels. In this work, we alleviate this information diffusion issue, i.e., different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer, by proposing a calibration method built on feature transformations through rotation and scaling to map a PLM-encoded embedding into a new metric space to guarantee the distinguishability of the resulting embeddings. Furthermore, we take the advantage of hyperbolic embeddings to capture the hierarchical relations among fine-grained class-associated token embedding by a coarse-to-fine metric learning strategy to enhance the distinguishability of the learned output embeddings. Extensive experiments on the three datasets under various settings demonstrate the effectiveness of our approach. Our code can be found at https://github.com/donttal/TARA.
翻訳日:2023-02-14 16:17:19 公開日:2023-02-13
# 学習に基づく動き予測のためのナビゲーションマップの探索

Exploring Navigation Maps for Learning-Based Motion Prediction ( http://arxiv.org/abs/2302.06195v1 )

ライセンス: Link先を確認
Julian Schmidt, Julian Jordan, Franz Gritschneder, Thomas Monninger, Klaus Dietmayer(参考訳) 周囲のエージェントの動きの予測は安全な自動運転の鍵となる。 本稿では,学習に基づく動き予測のためのハイ定義(HD)マップの代替として,ナビゲーションマップを探索する。 ナビゲーションマップは、道路レベルのトポロジカルおよび幾何学的な情報を提供する。 結果として、hdマップは費用がかかり、時間もかかるが、ほぼグローバル範囲のナビゲーションマップは無料で利用できる。 本稿では,ナビゲーションマップを学習に基づく動き予測モデルに統合するアプローチについて述べる。 また, 局所的に利用可能なhdマップを活用すべく, モデル非依存な知識蒸留法を提案する。 OpenStreetMapから取得したナビゲーションマップを用いた一般公開Argoverseデータセットの実験では,本手法は地図をまったく使用しないよりも大幅に改善されている。 知識蒸留法と組み合わせて,元のHDマップ・リライアントモデルに近い結果が得られる。 Argoverse用の公開ナビゲーションマップAPIにより,ナビゲーションマップを用いた独自のアプローチの開発と評価が可能となった。

The prediction of surrounding agents' motion is a key for safe autonomous driving. In this paper, we explore navigation maps as an alternative to the predominant High Definition (HD) maps for learning-based motion prediction. Navigation maps provide topological and geometrical information on road-level, HD maps additionally have centimeter-accurate lane-level information. As a result, HD maps are costly and time-consuming to obtain, while navigation maps with near-global coverage are freely available. We describe an approach to integrate navigation maps into learning-based motion prediction models. To exploit locally available HD maps during training, we additionally propose a model-agnostic method for knowledge distillation. In experiments on the publicly available Argoverse dataset with navigation maps obtained from OpenStreetMap, our approach shows a significant improvement over not using a map at all. Combined with our method for knowledge distillation, we achieve results that are close to the original HD map-reliant models. Our publicly available navigation map API for Argoverse enables researchers to develop and evaluate their own approaches using navigation maps.
翻訳日:2023-02-14 16:16:51 公開日:2023-02-13
# 人間ポーズ推定のための視点学習者としてのカプセル

Capsules as viewpoint learners for human pose estimation ( http://arxiv.org/abs/2302.06194v1 )

ライセンス: Link先を確認
Nicola Garau, Nicola Conci(参考訳) human pose estimation(hpe)のタスクは、画像やビデオから直接、人間の関節の3d位置を推定するという不適切な問題を扱う。 近年の文献では、ほとんどの著作が、ほとんどのデータセットで最先端の結果が得られる畳み込みニューラルネットワーク(cnns)を用いてこの問題に取り組んでいる。 カメラが重要な視点変化を受けると、ほとんどのニューラルネットワークがうまく一般化できないことを示す。 この振舞いは、CNNが視点不変性をモデル化する能力に欠けており、むしろ視点不変性に依存しており、結果としてデータ依存度が高いことから生じる。 近年,多クラス分類分野のカプセルネットワーク(CapsNets)が,視点等分散問題の解法として提案され,トレーニングデータセットとネットワーク自体のサイズと複雑さの両面で低減されている。 本稿では,人間のポーズ推定における視点均等性を達成するためにカプセルネットワークをどのように適用できるかを示す。 本稿では,高速な変分ベイズルーティングとマトリックスカプセルを用いた,エンドツーエンドの視点等価カプセルオートエンコーダを提案する。 視点変更時の一般化機能の向上,データ依存性の低減,高速推論など,他の望ましい特性を維持しつつ,複数のタスクやデータセットの最先端結果を実現する。 さらに、各関節をカプセルとしてモデル化することにより、全体ポーズの階層構造と幾何学構造は、視点から独立して特徴空間に保持される。 さらに,rgb領域と深度領域の両方において,視認および視認不能な視点から,視点転送タスクにおいて,複数のデータセット上でネットワークをテストした。

The task of human pose estimation (HPE) deals with the ill-posed problem of estimating the 3D position of human joints directly from images and videos. In recent literature, most of the works tackle the problem mostly by using convolutional neural networks (CNNs), which are capable of achieving state-of-the-art results in most datasets. We show how most neural networks are not able to generalize well when the camera is subject to significant viewpoint changes. This behaviour emerges because CNNs lack the capability of modelling viewpoint equivariance, while they rather rely on viewpoint invariance, resulting in high data dependency. Recently, capsule networks (CapsNets) have been proposed in the multi-class classification field as a solution to the viewpoint equivariance issue, reducing both the size and complexity of both the training datasets and the network itself. In this work, we show how capsule networks can be adopted to achieve viewpoint equivariance in human pose estimation. We propose a novel end-to-end viewpoint-equivariant capsule autoencoder that employs a fast Variational Bayes routing and matrix capsules. We achieve state-of-the-art results for multiple tasks and datasets while retaining other desirable properties, such as greater generalization capabilities when changing viewpoints, lower data dependency and fast inference. Additionally, by modelling each joint as a capsule, the hierarchical and geometrical structure of the overall pose is retained in the feature space, independently from the viewpoint. We further test our network on multiple datasets, both in the RGB and depth domain, from seen and unseen viewpoints and in the viewpoint transfer task.
翻訳日:2023-02-14 16:16:36 公開日:2023-02-13
# 量子軌道に対する極限定理

Limit theorems for Quantum Trajectories ( http://arxiv.org/abs/2302.06191v1 )

ライセンス: Link先を確認
Tristan Benoist, Jan-Luka Fatras, Cl\'ement Pellegrini(参考訳) 量子軌道 (quantum trajectories) は、繰り返し独立した測定を受ける量子系の進化をモデル化するマルコフ過程である。 精製と既約性の仮定の下で、これらのマルコフ過程は独自の不変測度を持つ。 プロバブ 理論関連。 2019年。 本稿では、大数法則(LLN)、関数中心極限定理、反復対数法則、偏微分原理などのより細かい極限定理を証明する。 LLNの証明はバーコフのエルゴード定理と調和函数の解析に基づいている。 他の定理は経験的和のマルティンゲール近似を用いて証明される。

Quantum trajectories are Markov processes modeling the evolution of a quantum system subjected to repeated independent measurements. Under purification and irreducibility assumptions, these Markov processes admit a unique invariant measure - see Benoist et al. Probab. Theory Relat. Fields 2019. In this article we prove, finer limit theorems such as Law of Large Number (LLN), Functional Central Limit Theorem, Law of Iterated Logarithm and Moderate Deviation Principle. The proof of the LLN is based on Birkhoff's ergodic theorem and an analysis of harmonic functions. The other theorems are proved using martingale approximation of empirical sums.
翻訳日:2023-02-14 16:16:08 公開日:2023-02-13
# 構造認識によるSMT重み付きモデル統合の強化

Enhancing SMT-based Weighted Model Integration by Structure Awareness ( http://arxiv.org/abs/2302.06188v1 )

ライセンス: Link先を確認
Giuseppe Spallitta, Gabriele Masina, Paolo Morettin, Andrea Passerini, Roberto Sebastiani(参考訳) 確率的推論のための効率的で正確な近似アルゴリズムの開発は、人工知能研究の長年の目標である。 純粋に離散的あるいは純粋に連続的なドメインを扱うことには大きな進展があるが、離散的および連続的な変数とその関係によって特徴づけられるハイブリッドなドメインに取り組むために開発されたソリューションを適用することは極めて非自明である。 重み付きモデル統合(WMI)は最近、ハイブリッドドメインにおける確率的推論の統一形式として登場した。 最近の膨大な作業にもかかわらず、ハイブリッド問題の複雑さを伴ってWMIアルゴリズムをスケール可能にすることは依然として課題である。 本稿では,既存の最先端ソリューションの限界を浮き彫りにして,形式検証における効率的な手法であるsmtに基づく列挙法と,問題構造の効果的なエンコーディングを組み合わせるアルゴリズムを開発した。 これにより,冗長モデルの生成を回避し,計算コストを大幅に削減できる。 さらに,SMTに基づくアプローチが,WMI技術によって取り組まれる問題の集合を,正確かつ近似的に,シームレスに扱うことができることを示す。 合成と実世界の両方のデータセットに対する広範な実験的評価は、既存の代替よりも提案されたソリューションのかなりの利点を裏付けるものである。 この技術の適用可能性はさらに、確率的プログラムの公正性を検証することを目的としたプロトタイプタスクで示される。

The development of efficient exact and approximate algorithms for probabilistic inference is a long-standing goal of artificial intelligence research. Whereas substantial progress has been made in dealing with purely discrete or purely continuous domains, adapting the developed solutions to tackle hybrid domains, characterised by discrete and continuous variables and their relationships, is highly non-trivial. Weighted Model Integration (WMI) recently emerged as a unifying formalism for probabilistic inference in hybrid domains. Despite a considerable amount of recent work, allowing WMI algorithms to scale with the complexity of the hybrid problem is still a challenge. In this paper we highlight some substantial limitations of existing state-of-the-art solutions, and develop an algorithm that combines SMT-based enumeration, an efficient technique in formal verification, with an effective encoding of the problem structure. This allows our algorithm to avoid generating redundant models, resulting in drastic computational savings. Additionally, we show how SMT-based approaches can seamlessly deal with different integration techniques, both exact and approximate, significantly expanding the set of problems that can be tackled by WMI technology. An extensive experimental evaluation on both synthetic and real-world datasets confirms the substantial advantage of the proposed solution over existing alternatives. The application potential of this technology is further showcased on a prototypical task aimed at verifying the fairness of probabilistic programs.
翻訳日:2023-02-14 16:15:55 公開日:2023-02-13
# 解釈可能な科学機械学習のためのマルチスケールグラフニューラルネットワークオートエンコーダ

Multiscale Graph Neural Network Autoencoders for Interpretable Scientific Machine Learning ( http://arxiv.org/abs/2302.06186v1 )

ライセンス: Link先を確認
Shivam Barwey, Varun Shankar, Romit Maulik(参考訳) この研究の目的は、オートエンコーダベースのモデルの2つの制限、潜在空間解釈可能性と非構造化メッシュとの互換性に対処することである。 これは、複雑な流体流れのアプリケーションのデモを含む、新しいグラフニューラルネットワーク(GNN)自動エンコーディングアーキテクチャの開発によって達成される。 解釈可能性の第1の目標に対処するため、gnnオートエンコーダは適応グラフ削減手順により符号化ステージにおける数ノードの削減を実現する。 この削減手法は基本的に、フローフィールド条件付きノードサンプリングとセンサ識別に相当し、フローフィールド再構成タスクに適した解釈可能な潜在グラフ表現を、いわゆるマスクフィールドの形で生成する。 これらのマスクされたフィールドは (a)ある潜在グラフが活発な物理空間のどこにあるかを視覚化し、 b) 領域内の非定常流れの特徴(再循環ゾーン、せん断層など)の時間的変化に応じて、潜在グラフ接続の時間的変化を解釈する。 非構造化メッシュ互換性の目標に対処するために、オートエンコーディングアーキテクチャは、様々な長さスケールでノード近傍間で情報交換をモデル化する一連のマルチスケールメッセージパッシング(MMP)層を利用する。 学習可能な粗い操作で標準の単一スケールメッセージパッシングを拡張するMMP層は、デコーダにより、マスクされたフィールド内の特定領域からのフローフィールドをより効率的に再構築することができる。 高レイノルズ数でのOpenFOAMフローソルバを用いた逆向きステップ(BFS)フロー構成において,大規模シミュレーションから得られた非構造化スナップショットデータを用いて,種々のモデル設定のためのオートエンコーダによって生成された潜時グラフの解析を行った。

The goal of this work is to address two limitations in autoencoder-based models: latent space interpretability and compatibility with unstructured meshes. This is accomplished here with the development of a novel graph neural network (GNN) autoencoding architecture with demonstrations on complex fluid flow applications. To address the first goal of interpretability, the GNN autoencoder achieves reduction in the number nodes in the encoding stage through an adaptive graph reduction procedure. This reduction procedure essentially amounts to flowfield-conditioned node sampling and sensor identification, and produces interpretable latent graph representations tailored to the flowfield reconstruction task in the form of so-called masked fields. These masked fields allow the user to (a) visualize where in physical space a given latent graph is active, and (b) interpret the time-evolution of the latent graph connectivity in accordance with the time-evolution of unsteady flow features (e.g. recirculation zones, shear layers) in the domain. To address the goal of unstructured mesh compatibility, the autoencoding architecture utilizes a series of multi-scale message passing (MMP) layers, each of which models information exchange among node neighborhoods at various lengthscales. The MMP layer, which augments standard single-scale message passing with learnable coarsening operations, allows the decoder to more efficiently reconstruct the flowfield from the identified regions in the masked fields. Analysis of latent graphs produced by the autoencoder for various model settings are conducted using using unstructured snapshot data sourced from large-eddy simulations in a backward-facing step (BFS) flow configuration with an OpenFOAM-based flow solver at high Reynolds numbers.
翻訳日:2023-02-14 16:15:34 公開日:2023-02-13
# PUPS: Point Cloud Unified Panoptic Segmentation

PUPS: Point Cloud Unified Panoptic Segmentation ( http://arxiv.org/abs/2302.06185v1 )

ライセンス: Link先を確認
Shihao Su, Jianyun Xu, Huanyu Wang, Zhenwei Miao, Xin Zhan, Dayang Hao, Xi Li(参考訳) ポイントクラウド パンオプティカルセグメンテーションは、コヒーレントなポイントのグループ化を予測するために、セマンティックセグメンテーションとインスタンスセグメンテーションの両方のための総合的なソリューションを求める挑戦的なタスクである。 従来のアプローチでは、セマンティクスとインスタンスセグメンテーションをサロゲートタスクとして扱い、クラスタ化メソッドかバウンディングボックスを使用して、高価な計算とインスタンスセグメンテーションタスクにおける手作り設計によるインスタンスグルーピングを収集する。 本稿では,一組の点レベル分類器を用いて,エンドツーエンドで意味とインスタンス群を直接予測する,シンプルで効果的な点群統合型パノプティックセグメンテーション(PUPS)フレームワークを提案する。 PUPSを実現するために、トレーニングパイプラインに二部マッチングを導入し、分類器は、例えばアンカーやNon-Maximum Suppression(NMS)といった手作りの設計を取り除き、インスタンスのグルーピングを排他的に予測できるようにします。 よりよいグループ化を実現するために, 変圧器デコーダを用いて点分類器を反復的に洗練し, クラス不均衡を克服するコンテキスト認識型カットミックス拡張法を開発した。 その結果、PUPSはSemanticKITTI Panoptic segmentation taskのリーダーボードで1位を獲得し、nuScenesの最先端の結果を得た。

Point cloud panoptic segmentation is a challenging task that seeks a holistic solution for both semantic and instance segmentation to predict groupings of coherent points. Previous approaches treat semantic and instance segmentation as surrogate tasks, and they either use clustering methods or bounding boxes to gather instance groupings with costly computation and hand-crafted designs in the instance segmentation task. In this paper, we propose a simple but effective point cloud unified panoptic segmentation (PUPS) framework, which use a set of point-level classifiers to directly predict semantic and instance groupings in an end-to-end manner. To realize PUPS, we introduce bipartite matching to our training pipeline so that our classifiers are able to exclusively predict groupings of instances, getting rid of hand-crafted designs, e.g. anchors and Non-Maximum Suppression (NMS). In order to achieve better grouping results, we utilize a transformer decoder to iteratively refine the point classifiers and develop a context-aware CutMix augmentation to overcome the class imbalance problem. As a result, PUPS achieves 1st place on the leader board of SemanticKITTI panoptic segmentation task and state-of-the-art results on nuScenes.
翻訳日:2023-02-14 16:15:08 公開日:2023-02-13
# 抗圧縮コントラスト顔面偽造検出

Anti-Compression Contrastive Facial Forgery Detection ( http://arxiv.org/abs/2302.06183v1 )

ライセンス: Link先を確認
Jiajun Huang, Xinqi Zhu, Chengbin Du, Siqi Ma, Surya Nepal, Chang Xu(参考訳) 偽の顔画像やビデオは、デジタルセキュリティの懸念を増している。 これは、最近偽データを検出する重要な発展につながっている。 しかし、データ、特にインターネット上で公開されたビデオは通常、H.264のような圧縮アルゴリズムで圧縮される。 圧縮されたデータは、最近の検出アルゴリズムの性能を著しく低下させる可能性がある。 既存の圧縮防止アルゴリズムは、重圧縮データの検出性能の向上に重点を置いているが、様々な圧縮レベルのデータへの圧縮適応を考慮しない。 未知のレベルで圧縮されたデータを処理できる偽造検出モデルを作成することが重要だと考えています。 このようなモデルの性能を高めるために、弱い圧縮および強い圧縮データを元のデータの2つのビューとみなし、他のサンプルと類似した表現と関係を持つべきである。 圧縮レベルが異なるデータ内の密接な関係を維持できる新しい圧縮偽造検出フレームワークを提案する。 具体的には、データ内の対方向の類似性を関係として測定し、弱圧縮データと強圧縮データの関係を互いに近くに押し付け、強圧縮データを検出するための判別能力を向上させる。 圧縮の少ない圧縮データによって導かれるより強力な圧縮データ関係を実現するために、圧縮の弱いデータに対して、ビデオレベルのコントラスト学習を適用し、同じビデオ内で、負のサンプルから遠く離れた、同様の表現を強制的に生成する。 実験結果から,提案アルゴリズムはクリーンデータ検出時の精度を向上しつつ,強い圧縮データの性能を向上させることができることがわかった。

Forgery facial images and videos have increased the concern of digital security. It leads to the significant development of detecting forgery data recently. However, the data, especially the videos published on the Internet, are usually compressed with lossy compression algorithms such as H.264. The compressed data could significantly degrade the performance of recent detection algorithms. The existing anti-compression algorithms focus on enhancing the performance in detecting heavily compressed data but less consider the compression adaption to the data from various compression levels. We believe creating a forgery detection model that can handle the data compressed with unknown levels is important. To enhance the performance for such models, we consider the weak compressed and strong compressed data as two views of the original data and they should have similar representation and relationships with other samples. We propose a novel anti-compression forgery detection framework by maintaining closer relations within data under different compression levels. Specifically, the algorithm measures the pair-wise similarity within data as the relations, and forcing the relations of weak and strong compressed data close to each other, thus improving the discriminate power for detecting strong compressed data. To achieve a better strong compressed data relation guided by the less compressed one, we apply video level contrastive learning for weak compressed data, which forces the model to produce similar representations within the same video and far from the negative samples. The experiment results show that the proposed algorithm could boost performance for strong compressed data while improving the accuracy rate when detecting the clean data.
翻訳日:2023-02-14 16:14:39 公開日:2023-02-13
# 都市自動走行のためのレーングラフの学習と集約

Learning and Aggregating Lane Graphs for Urban Automated Driving ( http://arxiv.org/abs/2302.06175v1 )

ライセンス: Link先を確認
Martin B\"uchner, Jannik Z\"urn, Ion-George Todoran, Abhinav Valada, Wolfram Burgard(参考訳) レーングラフ推定は、自動走行とHDマップ学習において不可欠で非常に困難な課題である。 既存の手法では、機内画像または空中画像は複雑な車線トポロジー、分散シナリオ、あるいは画像空間における著しい閉塞に苦しむ。 さらに、重なり合うレーングラフをマージして一貫した大規模グラフを得るのは難しい。 これらの課題を克服するために,複数の重なり合うグラフを単一の一貫したグラフに集約した空中画像からレーングラフを推定する新しいボトムアップ手法を提案する。 そのモジュラー設計により、グラフニューラルネットワークを用いて任意の車両位置からエゴ反射の後続車線グラフを予測し、これらの予測を一貫したグローバル車線グラフに集約する、2つの補完的なタスクに対処することができる。 大規模レーングラフデータセットにおける広範囲な実験により,本手法が高度に正確なレーングラフを生成することを証明した。 グラフアグリゲーションのアプローチは、全体的なグラフ品質を高めながら一貫性のない予測を排除することを証明している。 大規模な都市レーングラフデータセットとコードをhttp://urbanlanegraph.cs.uni-freiburg.deで公開しています。

Lane graph estimation is an essential and highly challenging task in automated driving and HD map learning. Existing methods using either onboard or aerial imagery struggle with complex lane topologies, out-of-distribution scenarios, or significant occlusions in the image space. Moreover, merging overlapping lane graphs to obtain consistent large-scale graphs remains difficult. To overcome these challenges, we propose a novel bottom-up approach to lane graph estimation from aerial imagery that aggregates multiple overlapping graphs into a single consistent graph. Due to its modular design, our method allows us to address two complementary tasks: predicting ego-respective successor lane graphs from arbitrary vehicle positions using a graph neural network and aggregating these predictions into a consistent global lane graph. Extensive experiments on a large-scale lane graph dataset demonstrate that our approach yields highly accurate lane graphs, even in regions with severe occlusions. The presented approach to graph aggregation proves to eliminate inconsistent predictions while increasing the overall graph quality. We make our large-scale urban lane graph dataset and code publicly available at http://urbanlanegraph.cs.uni-freiburg.de.
翻訳日:2023-02-14 16:14:15 公開日:2023-02-13
# 社会科学における単語埋め込みの評価

Evaluation of Word Embeddings for the Social Sciences ( http://arxiv.org/abs/2302.06174v1 )

ライセンス: Link先を確認
Ricardo Schiffers, Dagmar Kern, Daniel Hienert(参考訳) 単語埋め込みは多くのNLPタスクにおいて必須の道具である。 ほとんどの利用可能なリソースは、WebコーパスやWikipediaダンプから一般言語でトレーニングされている。 しかし、特に社会科学領域では、ドメイン固有の言語に対する単語の埋め込みはまれである。 そこで本研究では,37,604種類のオープンアクセス社会科学研究論文に基づく単語埋め込みモデルの作成と評価について述べる。 評価では、ドメイン固有言語モデルと一般言語モデルの比較を行う。 (i)言語の範囲。 (ii)多様性、及び (iii)意味関係。 作成したドメイン固有モデルは,比較的小さな語彙サイズであっても,社会科学の概念の大部分をカバーしているが,より一般的なモデルと比較して,その近傍は多様である。 すべての関係型において、意味関係をより広範囲に網羅している。

Word embeddings are an essential instrument in many NLP tasks. Most available resources are trained on general language from Web corpora or Wikipedia dumps. However, word embeddings for domain-specific language are rare, in particular for the social science domain. Therefore, in this work, we describe the creation and evaluation of word embedding models based on 37,604 open-access social science research papers. In the evaluation, we compare domain-specific and general language models for (i) language coverage, (ii) diversity, and (iii) semantic relationships. We found that the created domain-specific model, even with a relatively small vocabulary size, covers a large part of social science concepts, their neighborhoods are diverse in comparison to more general models. Across all relation types, we found a more extensive coverage of semantic relationships.
翻訳日:2023-02-14 16:13:55 公開日:2023-02-13
# テキスト画像モデルにおける簡単なゼロショットプロンプト重み付け手法

A Simple Zero-shot Prompt Weighting Technique to Improve Prompt Ensembling in Text-Image Models ( http://arxiv.org/abs/2302.06235v1 )

ライセンス: Link先を確認
James Urquhart Allingham, Jie Ren, Michael W Dusenberry, Jeremiah Zhe Liu, Xiuye Gu, Yin Cui, Dustin Tran, Balaji Lakshminarayanan(参考訳) 対照的に、訓練されたテキストイメージモデルは、ゼロショット分類を行うという驚くべき能力を持っている。 しかし、これらのゼロショット分類器は高い精度を達成するために迅速な工学を必要とする。 プロンプトエンジニアリングは通常、下流の個々のタスクに一連のプロンプトを手作りする必要がある。 本研究では,このプロンプトエンジニアリングの自動化と,プロンプトアンサンブルによるゼロショット精度の向上を目指す。 特に、"大きなプロンプトプールがあれば、ラベル付きバリデーションデータへのアクセスを必要とせずに、自動的にプロンプトをスコアし、特定の下流データセットに最も適したプロンプトをアンサンブルできますか? これが可能であることを実証する。 そこで本研究では,プレトレーニングおよびテストデータにおいて,バイアスによりスコアが過信し易いナイーブ・プロンプト・スコアリング法において,いくつかの病理を同定し,バイアスを補正する新しいプロンプト・スコアリング法を提案する。 提案したスコアリング手法を用いて平均アンサンブルを重み付けした平均アンサンブルを生成し,手作りのプロンプト,ImageNet,4つの変種,11のきめ細かい分類ベンチマークにおいて,ラベル付きバリデーションデータへのアクセスを必要とせず,完全自動,最適化不要,かつ,全精度で性能を向上する。

Contrastively trained text-image models have the remarkable ability to perform zero-shot classification, that is, classifying previously unseen images into categories that the model has never been explicitly trained to identify. However, these zero-shot classifiers need prompt engineering to achieve high accuracy. Prompt engineering typically requires hand-crafting a set of prompts for individual downstream tasks. In this work, we aim to automate this prompt engineering and improve zero-shot accuracy through prompt ensembling. In particular, we ask "Given a large pool of prompts, can we automatically score the prompts and ensemble those that are most suitable for a particular downstream dataset, without needing access to labeled validation data?". We demonstrate that this is possible. In doing so, we identify several pathologies in a naive prompt scoring method where the score can be easily overconfident due to biases in pre-training and test data, and we propose a novel prompt scoring method that corrects for the biases. Using our proposed scoring method to create a weighted average prompt ensemble, our method outperforms equal average ensemble, as well as hand-crafted prompts, on ImageNet, 4 of its variants, and 11 fine-grained classification benchmarks, all while being fully automatic, optimization-free, and not requiring access to labeled validation data.
翻訳日:2023-02-14 16:08:13 公開日:2023-02-13
# マルチモーダルコントラスト学習の理解と非ペアデータの導入

Understanding Multimodal Contrastive Learning and Incorporating Unpaired Data ( http://arxiv.org/abs/2302.06232v1 )

ライセンス: Link先を確認
Ryumei Nakada, Halil Ibrahim Gulluk, Zhun Deng, Wenlong Ji, James Zou, Linjun Zhang(参考訳) 言語による視覚モデルは最近コンピュータビジョンに大きな注目を集めている。 このようなモデルを構築するための一般的なアプローチは、Contrastive Language- Image Pre-Training (CLIP) の例のように、2つのモードをまたいだペアデータに対してコントラッシブ学習を使用することである。 本稿では,線形表現設定について述べる。 (i)CLIP損失を含むマルチモーダルコントラスト学習(MMCL)における非線形損失関数の一般クラスの調査を開始し,特異値分解(SVD)との関連を示す。 すなわち、勾配降下による損失最小化の各ステップは、対照的な相互共分散行列上でSVDを行うように見える。 この洞察に基づいて (2)MMCLの性能を解析する。 その結果,mmclの特徴学習能力は,不一致ペアの存在下でも各モダリティに適用された単調なコントラスト学習能力よりも優れていることが示された。 これはMMCLのノイズデータに対する堅牢性を特徴付ける。 さらに、追加の未ペアデータにアクセスできれば、 (iii)追加の未ペアデータセットを組み込んだ新しいMMCL損失を提案する。 提案アルゴリズムは,未使用のデータセットをフル活用することにより,地対検出と性能向上を実現する。 提案アルゴリズムの性能を数値実験により検証した。

Language-supervised vision models have recently attracted great attention in computer vision. A common approach to build such models is to use contrastive learning on paired data across the two modalities, as exemplified by Contrastive Language-Image Pre-Training (CLIP). In this paper, under linear representation settings, (i) we initiate the investigation of a general class of nonlinear loss functions for multimodal contrastive learning (MMCL) including CLIP loss and show its connection to singular value decomposition (SVD). Namely, we show that each step of loss minimization by gradient descent can be seen as performing SVD on a contrastive cross-covariance matrix. Based on this insight, (ii) we analyze the performance of MMCL. We quantitatively show that the feature learning ability of MMCL can be better than that of unimodal contrastive learning applied to each modality even under the presence of wrongly matched pairs. This characterizes the robustness of MMCL to noisy data. Furthermore, when we have access to additional unpaired data, (iii) we propose a new MMCL loss that incorporates additional unpaired datasets. We show that the algorithm can detect the ground-truth pairs and improve performance by fully exploiting unpaired datasets. The performance of the proposed algorithm was verified by numerical experiments.
翻訳日:2023-02-14 16:07:47 公開日:2023-02-13
# 複数の知識グラフ埋め込みモデルに適用した注意によるリンク予測

Link Prediction with Attention Applied on Multiple Knowledge Graph Embedding Models ( http://arxiv.org/abs/2302.06229v1 )

ライセンス: Link先を確認
Cosimo Gregucci and Mojtaba Nayyeri and Daniel Hern\'andez and Steffen Staab(参考訳) 知識グラフにおけるエンティティ間のリンク不足を予測することは、Web上のデータの不完全性を扱うための基本的なタスクである。 ナレッジグラフは、マップノードをベクトル空間に埋め込み、新しいリンクを予測し、幾何学的基準に従ってそれらをスコア付けする。 グラフ内の関係は学習可能なパターンに従うことができ、例えば、ある関係は対称であり、他の関係は階層的である。 しかし、異なる埋め込みモデルの学習能力はパターンごとに異なり、これまでのところ、すべてのパターンを平等に学習することはできない。 本稿では,複数のモデルからのクエリ表現を統一的に組み合わせ,各モデルによって独立にキャプチャされたパターンを組み込む。 我々の組み合わせは、各クエリに答える最も適切なモデルを選択するために注意を使う。 モデルは非ユークリッド多様体ポアンカー・ボール(Poincar\'e ball)に写像され、対称性のような関係パターン以外の階層のような構造パターンをキャプチャする。 私たちの組み合わせは、各モデル自体よりも表現力と推論能力が高まることを証明します。 その結果、結合モデルは関係や構造パターンを学習することができる。 各種リンク予測ベンチマークを用いて広範囲な実験解析を行い、組み合わせたモデルが最先端のアプローチを含む個々のモデルより優れていることを示す。

Predicting missing links between entities in a knowledge graph is a fundamental task to deal with the incompleteness of data on the Web. Knowledge graph embeddings map nodes into a vector space to predict new links, scoring them according to geometric criteria. Relations in the graph may follow patterns that can be learned, e.g., some relations might be symmetric and others might be hierarchical. However, the learning capability of different embedding models varies for each pattern and, so far, no single model can learn all patterns equally well. In this paper, we combine the query representations from several models in a unified one to incorporate patterns that are independently captured by each model. Our combination uses attention to select the most suitable model to answer each query. The models are also mapped onto a non-Euclidean manifold, the Poincar\'e ball, to capture structural patterns, such as hierarchies, besides relational patterns, such as symmetry. We prove that our combination provides a higher expressiveness and inference power than each model on its own. As a result, the combined model can learn relational and structural patterns. We conduct extensive experimental analysis with various link prediction benchmarks showing that the combined model outperforms individual models, including state-of-the-art approaches.
翻訳日:2023-02-14 16:07:27 公開日:2023-02-13
# 動的クラスタリングと軌道解析による挙動ドリフトの教師なし検出

Unsupervised Detection of Behavioural Drifts with Dynamic Clustering and Trajectory Analysis ( http://arxiv.org/abs/2302.06228v1 )

ライセンス: Link先を確認
Bardh Prenkaj, Paola Velardi(参考訳) 人間の行動のリアルタイムモニタリング、特にe-Healthアプリケーションでは、過去数十年にわたり活発な研究領域となっている。 IoTベースのセンシング環境の上に、異常の早期検出のための異常検出アルゴリズムが提案されている。 ドリフト異常と呼ばれる段階的な変化手順は、突然の一時的な変化(ポイント異常)よりも困難なシナリオを表しているため、文献にはあまり注目されていない。 本稿では,DynAmo という完全に教師なしのリアルタイムドリフト検出アルゴリズムを初めて提案する。 dynamoは、監視された振る舞いの全体的なトレンドをキャプチャする動的クラスタリングコンポーネントと、最も密集したクラスタ中心から特徴を抽出する軌道生成コンポーネントで構成されている。 最後に,スライディング参照窓と検出窓の発散テストのアンサンブルを適用し,行動系列のドリフト周期を検出する。

Real-time monitoring of human behaviours, especially in e-Health applications, has been an active area of research in the past decades. On top of IoT-based sensing environments, anomaly detection algorithms have been proposed for the early detection of abnormalities. Gradual change procedures, commonly referred to as drift anomalies, have received much less attention in the literature because they represent a much more challenging scenario than sudden temporary changes (point anomalies). In this paper, we propose, for the first time, a fully unsupervised real-time drift detection algorithm named DynAmo, which can identify drift periods as they are happening. DynAmo comprises a dynamic clustering component to capture the overall trends of monitored behaviours and a trajectory generation component, which extracts features from the densest cluster centroids. Finally, we apply an ensemble of divergence tests on sliding reference and detection windows to detect drift periods in the behavioural sequence.
翻訳日:2023-02-14 16:07:07 公開日:2023-02-13
# 関数上の学習分布のための変分混合ハイパージェネレータ

Variational Mixture of HyperGenerators for Learning Distributions Over Functions ( http://arxiv.org/abs/2302.06223v1 )

ライセンス: Link先を確認
Batuhan Koyuncu, Pablo Sanchez-Martin, Ignacio Peis, Pablo M. Olmos, Isabel Valera(参考訳) 近年のアプローチは、関数空間上の生成モデルを提案するために暗黙の神経表現(INR)に基づいている。 しかし、データ計算の欠如などの推論タスクを扱う場合や、直接処理できない場合、計算集約的である。 本研究では,VAMoHと呼ばれる新しい深層生成モデルを提案する。 VAMoHはINRを用いた連続関数のモデリング機能と変分オートエンコーダ(VAE)の推論機能を組み合わせたものである。 さらにVAMoHは、事前を定義するための正規化フローと、データログライクな状態をパラメータ化するハイパーネットワークの混合に依存している。 これによりVAMoHは高い表現能力と解釈可能性が得られる。 画像やボクセル,気候データなど,さまざまな種類のデータタイプの実験を通じて,VAMoHは連続関数上の豊富な分布を効果的に学習できることを示す。 さらに、条件付き超解像生成やインペインティングなどの推論関連タスクを、計算処理の要求を少なくしつつ、従来の手法よりも優れている。

Recent approaches build on implicit neural representations (INRs) to propose generative models over function spaces. However, they are computationally intensive when dealing with inference tasks, such as missing data imputation, or directly cannot tackle them. In this work, we propose a novel deep generative model, named VAMoH. VAMoH combines the capabilities of modeling continuous functions using INRs and the inference capabilities of Variational Autoencoders (VAEs). In addition, VAMoH relies on a normalizing flow to define the prior, and a mixture of hypernetworks to parametrize the data log-likelihood. This gives VAMoH a high expressive capability and interpretability. Through experiments on a diverse range of data types, such as images, voxels, and climate data, we show that VAMoH can effectively learn rich distributions over continuous functions. Furthermore, it can perform inference-related tasks, such as conditional super-resolution generation and in-painting, as well or better than previous approaches, while being less computationally demanding.
翻訳日:2023-02-14 16:06:50 公開日:2023-02-13
# 百万規模依存へのロングシーケンスモデルの統一的視点

A Unified View of Long-Sequence Models towards Million-Scale Dependencies ( http://arxiv.org/abs/2302.06218v1 )

ライセンス: Link先を確認
Hongyu H\`e, Marko Kabic(参考訳) その概念以来、トランスフォーマーは、高速トレーニングと優れたパフォーマンスのために、nlp、画像分類、ビデオ/オーディオ処理など、多くのタスクで伝統的なシーケンスモデルを引き継いでいます。 これらの利点の多くは、位置符号化と多面的注意によるものである。 しかし、Transformerは、時間と空間の両面で、コンテキスト長でスケールされた二次的な複雑さのために、長距離依存の学習に不足している。 その結果、過去5年間にトランスフォーマーをより効率的にするための無数の方法が提案されてきた。 本研究はまず, 従来の解法を, 完全数学的定式化の観点から, 時系列モデリングと比較するものである。 具体的には,トークン混合の共通性を考えると,統一テンプレートを用いてそれらを要約する。 ベンチマークを通じて、長いコンテキストの長さは、アプリケーションに依存しながらもパフォーマンスを向上し、従来のトランスフォーマーモデルは、長距離依存の利点を生かすために不足していることを実証する。 次に,大容量のスパースモデルに着想を得て,百万の依存関係を扱うための機械学習システムを提案する。 概念実証として,本システムの本質的構成要素である分散マルチヘッドアテンションの性能を評価する。 我々は,GeForce RTX 4090 GPUを4台使用して,40ドル近いアテンション計算を,バニラ型マルチヘッドアテンション機構と比較してスケールアップ可能であることを示す。 この研究は、百万規模の依存関係をモデリングするための重要なステップだと考えています。

Ever since their conception, Transformers have taken over traditional sequence models in many tasks, such as NLP, image classification, and video/audio processing, for their fast training and superior performance. Much of these merits result from positional encoding and multi-head attention. However, Transformers fall short in learning long-range dependencies mainly due to the quadratic complexity scaled with context length, in terms of both time and space. Consequently, over the past five years, a myriad of methods has been proposed to make Transformers more efficient. In this work, we first take a step back, study and compare existing solutions to long-sequence modeling in terms of their pure mathematical formulation. Specifically, we summarize them using a unified template, given their shared nature of token mixing. Through benchmarks, we then demonstrate that long context length does yield better performance, albeit application-dependent, and traditional Transformer models fall short in taking advantage of long-range dependencies. Next, inspired by emerging sparse models of huge capacity, we propose a machine learning system for handling million-scale dependencies. As a proof of concept, we evaluate the performance of one essential component of this system, namely, the distributed multi-head attention. We show that our algorithm can scale up attention computation by almost $40\times$ using four GeForce RTX 4090 GPUs, compared to vanilla multi-head attention mechanism. We believe this study is an instrumental step towards modeling million-scale dependencies.
翻訳日:2023-02-14 16:06:34 公開日:2023-02-13
# 六方晶窒化ホウ素における集積量子エミッタを用いた量子鍵分布

Quantum Key Distribution Using an Integrated Quantum Emitter in Hexagonal Boron Nitride ( http://arxiv.org/abs/2302.06212v1 )

ライセンス: Link先を確認
Ali Al-Juboori, Helen Zhi Jie Zeng, Minh Anh Phan Nguyen, Xiaoyu Ai, Arne Laucht, Alexander Solntsev, Milos Toth, Robert Malaney, and Igor Aharonovich(参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、様々な潜在的な量子技術で広く実装される最も直接的な応用と考えられている。 QKDは、フォトンを情報キャリアとして使用することで、遠隔ユーザー間で秘密鍵を共有することができる。 現在の課題は、現実の状況に対して、堅牢でコンパクトな方法で、これらのプロトコルを実践的に実装することである。 固体材料の単一光子源(sps)はこの点で素候補である。 本稿では,自由空間で動作する六方晶窒化ボロン中の明るい単一光子源を用いて,室温で離散可変な量子鍵分布系を示す。 統合された"プラグアンドプレイ"フォトンソースシステムを使用して、100万ビットの長さのキーを生成し、約70,000ビットの秘密鍵を量子ビットエラー率6%で実証し、$10^{-10}$の$\varepsilon$-securityで検証しました。 SPSが実現した最も信頼性の高いQKDシステムを示すために、派生したセキュリティレベルに影響を与える既知のすべての影響を包含することを強調した。 本結果は, 決定論的室温QKDシステムによる有意義な進展を実現するために重要である。

Quantum Key Distribution (QKD) is considered the most immediate application to be widely implemented amongst a variety of potential quantum technologies. QKD enables sharing secret keys between distant users, using photons as information carriers. The current challenge is to implement these protocols in practice, for real-world conditions, in a robust, and compact manner. Single Photon Sources (SPS) in solid-state materials are prime candidates in this respect. Here, we demonstrate a room temperature, discrete-variable quantum key distribution system using a bright single photon source in hexagonal-boron nitride, operating in free-space. Employing an integrated, "plug and play" photon source system, we have generated keys with one million bits length, and demonstrated a secret key of approximately 70,000 bits, at a quantum bit error rate of 6%, with $\varepsilon$-security of $10^{-10}$. Emphasis was put on the inclusion of all known effects impacting the derived security level, thereby demonstrating the most trustworthy QKD system realised with SPSs to date. Our results will be important to achieve meaningful progress with deterministic room-temperature QKD systems.
翻訳日:2023-02-14 16:06:09 公開日:2023-02-13
# 深部ランダム特徴モデルの高精度漸近解析

Precise Asymptotic Analysis of Deep Random Feature Models ( http://arxiv.org/abs/2302.06210v1 )

ライセンス: Link先を確認
David Bosch, Ashkan Panahi, Babak Hassibi(参考訳) 我々は,$l-$layer deep random feature (rf)モデルによる回帰性能の正確な漸近表現を提供し,入力は複数のランダム埋め込み関数と非線形活性化関数によってマッピングされる。 まず、rfモデルと決定論的データに対する新しい普遍性(universality results)を証明し、各層において、深いランダム特徴モデルが、第1および第2の瞬間に一致する深い線形ガウスモデルと等価であることを実証する。 第二に、深部RFモデルの正確な振る舞いを得るために、凸ガウスのMin-Max定理を複数回使います。 さらに、等価ガウスモデルの異なる層における固有分布の変動を特徴付け、モデルの最後の層のみが訓練されているにもかかわらず、モデルの性能に明らかな影響があることを実証する。

We provide exact asymptotic expressions for the performance of regression by an $L-$layer deep random feature (RF) model, where the input is mapped through multiple random embedding and non-linear activation functions. For this purpose, we establish two key steps: First, we prove a novel universality result for RF models and deterministic data, by which we demonstrate that a deep random feature model is equivalent to a deep linear Gaussian model that matches it in the first and second moments, at each layer. Second, we make use of the convex Gaussian Min-Max theorem multiple times to obtain the exact behavior of deep RF models. We further characterize the variation of the eigendistribution in different layers of the equivalent Gaussian model, demonstrating that depth has a tangible effect on model performance despite the fact that only the last layer of the model is being trained.
翻訳日:2023-02-14 16:05:48 公開日:2023-02-13
# 注文事項:エージェント・バイ・エージェント政策最適化

Order Matters: Agent-by-agent Policy Optimization ( http://arxiv.org/abs/2302.06205v1 )

ライセンス: Link先を確認
Xihuai Wang, Zheng Tian, Ziyu Wan, Ying Wen, Jun Wang, Weinan Zhang(参考訳) マルチエージェント信頼領域のアルゴリズムは協調作業の解決において経験的に大きな成功を収めてきたが、エージェントが同時にポリシーを更新したため、そのほとんどが非定常的な問題に悩まされている。 対照的に、ポリシーをエージェントバイエージェントに更新するシーケンシャルなスキームは、別の視点を提供し、高いパフォーマンスを示している。 しかしながら、各エージェントに対するサンプル非効率性と単調改善保証の欠如は、シーケンシャルスキームにおける2つの重要な課題である。 本稿では,サンプル効率を向上し,トレーニング中の各エージェントに対する単調改善の保証を維持するために,<textbf{A}gent-by-\textbf{a}gent \textbf{P}olicy \textbf{O}ptimization (A2PO)アルゴリズムを提案する。 我々は他の信頼領域アルゴリズムと比較して単調改善の厳密さを正当化する。 エージェントの逐次更新の観点からは,エージェント更新順序の影響をさらに考慮し,非定常性の理論を逐次更新方式に拡張する。 A2POを評価するために,StarCraftII,Multi-agent MuJoCo,Multi-agent Particle Environment,Google Research Footballの全試合シナリオの4つのベンチマークを総合的に検討した。 A2POは強いベースラインを一貫して上回る。

While multi-agent trust region algorithms have achieved great success empirically in solving coordination tasks, most of them, however, suffer from a non-stationarity problem since agents update their policies simultaneously. In contrast, a sequential scheme that updates policies agent-by-agent provides another perspective and shows strong performance. However, sample inefficiency and lack of monotonic improvement guarantees for each agent are still the two significant challenges for the sequential scheme. In this paper, we propose the \textbf{A}gent-by-\textbf{a}gent \textbf{P}olicy \textbf{O}ptimization (A2PO) algorithm to improve the sample efficiency and retain the guarantees of monotonic improvement for each agent during training. We justify the tightness of the monotonic improvement bound compared with other trust region algorithms. From the perspective of sequentially updating agents, we further consider the effect of agent updating order and extend the theory of non-stationarity into the sequential update scheme. To evaluate A2PO, we conduct a comprehensive empirical study on four benchmarks: StarCraftII, Multi-agent MuJoCo, Multi-agent Particle Environment, and Google Research Football full game scenarios. A2PO consistently outperforms strong baselines.
翻訳日:2023-02-14 16:05:33 公開日:2023-02-13
# 超伝導導波路QEDにおけるベル生成と長距離量子ビットの任意の多部$W$状態

Generating Bell and arbitrary multipartite $W$ states of long-distance qubits in superconducting waveguide QED ( http://arxiv.org/abs/2302.06204v1 )

ライセンス: Link先を確認
Guo-Qiang Zhang, Wei Feng, Wei Xiong, Da Xu, Qi-Ping Su, and Chui-Ping Yang(参考訳) 超伝導(SC)導波管QEDシステムにおいて、トランスモン量子ビットをオープンマイクロ波伝送線に結合する長距離量子ビットのベルおよび任意のマルチパーティライト$W$状態を生成する方法を示す。 2量子ビットの場合、2つの長距離量子ビットのベル状態は、適切なシステムパラメータを選択することでシステムのダーク状態となる。 1つのマイクロ波パルスが2つの量子ビットのうちの1つを駆動すると、2つの量子ビットは基底状態からベル状態へと進化する。 さらに、このスキームをマルチキュービットのケースに拡張し、長距離キュービットの任意のマルチパーティライト$W$状態を生成することもできる。 ベル状態と任意の多部状態の$W$状態は導波管(すなわち系の暗い状態)から切り離されるため、それらは安定であり、キュービットのデコヒーレンスを持たない理想的な場合において非常に長い寿命を持つ。 理想的な場合とは対照的に、キュービットのデコヒーレンスの存在はベルと任意の多部集合$W$状態の寿命を制限する。 本研究は、SC導波路QEDにおけるベルおよび任意の多部状態を生成するためのスキームを提供し、導波路量子ネットワークにおける長距離ノードの絡み合わせに使用できる。

We show how to generate the Bell and arbitrary multipartite $W$ states of long-distance qubits in a superconducting (SC) waveguide QED system, where the transmon qubits are coupled to an open microwave transmission line. In the two-qubit case, the Bell state of two long-distance qubits can be a dark state of the system by choosing appropriate system parameters. If one proper microwave pulse drives one of two qubits, the two qubits will evolve from the ground state to the Bell state. Further, we extend this scheme to the multi-qubit case, and the arbitrary multipartite $W$ state of long-distance qubits can also be generated. Because both the Bell and arbitrary multipartite $W$ states are decoupled from the waveguide (i.e., dark states of the system), they are steady and have very long lifetimes in the ideal case without decoherence of qubits. In contrast to the ideal case, the presence of decoherence of qubits limits the lifetimes of the Bell and arbitrary multipartite $W$ states. Our study provides a scheme for generating Bell and arbitrary multipartite $W$ states in SC waveguide QED, which can be used to entangle long-distance nodes in waveguide quantum networks.
翻訳日:2023-02-14 16:05:09 公開日:2023-02-13
# 因果戦略分類:二つの変遷の物語

Causal Strategic Classification: A Tale of Two Shifts ( http://arxiv.org/abs/2302.06280v1 )

ライセンス: Link先を確認
Guy Horowitz, Nir Rosenfeld(参考訳) 特定の予測結果の恩恵を受けることができる場合、ユーザーは、例えば、戦略的に機能を変更することで、それらの結果を達成するために行動する傾向がある。 戦略分類の目標は、そのような行動に対して堅牢な予測モデルを訓練することである。 しかし、従来のフレームワークでは、機能変更は実際の結果を変えないことを前提としており、ユーザがシステムを“ゲーム化”している。 ここでは、この仮定を取り除き、真の結果が変わる因果戦略的な環境で学習を研究する。 我々の主目的として正確性に注目して、戦略的行動と因果効果が2つの相補的な分布シフトをいかに生み出すかを示す。 これらの変化を特徴付け,これら2つの力と時間とともにバランスをとり,エンドツーエンドのトレーニングを可能にする学習アルゴリズムを提案する。 合成および半合成データ実験により,本手法の有用性が示された。

When users can benefit from certain predictive outcomes, they may be prone to act to achieve those outcome, e.g., by strategically modifying their features. The goal in strategic classification is therefore to train predictive models that are robust to such behavior. However, the conventional framework assumes that changing features does not change actual outcomes, which depicts users as "gaming" the system. Here we remove this assumption, and study learning in a causal strategic setting where true outcomes do change. Focusing on accuracy as our primary objective, we show how strategic behavior and causal effects underlie two complementing forms of distribution shift. We characterize these shifts, and propose a learning algorithm that balances between these two forces and over time, and permits end-to-end training. Experiments on synthetic and semi-synthetic data demonstrate the utility of our approach.
翻訳日:2023-02-14 15:58:41 公開日:2023-02-13
# Sneaky Spikes:ニューロモーフィックデータによるスパイクニューラルネットワークのバックドア攻撃を発見

Sneaky Spikes: Uncovering Stealthy Backdoor Attacks in Spiking Neural Networks with Neuromorphic Data ( http://arxiv.org/abs/2302.06279v1 )

ライセンス: Link先を確認
Gorka Abad, Oguzhan Ersoy, Stjepan Picek, Aitor Urbieta(参考訳) ディープニューラルネットワーク(DNN)は、画像や音声認識など、さまざまなタスクにおいて優れた成果を上げている。 しかし、DNNの性能を最適化するには、トレーニングを通じて複数のハイパーパラメータとネットワークパラメータを慎重にチューニングする必要がある。 高性能DNNは、訓練中の高エネルギー消費に対応する多数のパラメータを利用する。 これらの制限に対処するため、研究者はよりエネルギー効率が高く、生物学的に妥当な方法でデータを処理できるスパイキングニューラルネットワーク(SNN)を開発し、感覚データ処理、すなわちニューロモルフィックデータに関わるタスクに適している。 DNNと同様に、SNNは敵の例やバックドア攻撃など、さまざまな脅威に対して脆弱である。 しかし、SNNに対する攻撃と対策はほとんど検討されていない。 本稿では、ニューロモルフィックデータセットと異なるトリガーを用いたSNNにおけるバックドアアタックの適用について検討する。 より正確には、ニューロモルフィックデータのバックドアトリガーは、その位置と色を変えることができ、例えば画像領域における一般的なトリガーよりも広い範囲の可能性がある。 クリーンな精度の劣化を生じさせることなく,攻撃成功率100\%までの異なる攻撃を提案する。 また,構造的類似度指標による攻撃のステルス性を評価し,最も強力な攻撃もステルス性を示す。 最後に、画像領域から最先端の防御を適応させ、必ずしもニューロモルフィックなデータに対して効果がないことを示す。

Deep neural networks (DNNs) have achieved excellent results in various tasks, including image and speech recognition. However, optimizing the performance of DNNs requires careful tuning of multiple hyperparameters and network parameters via training. High-performance DNNs utilize a large number of parameters, corresponding to high energy consumption during training. To address these limitations, researchers have developed spiking neural networks (SNNs), which are more energy-efficient and can process data in a biologically plausible manner, making them well-suited for tasks involving sensory data processing, i.e., neuromorphic data. Like DNNs, SNNs are vulnerable to various threats, such as adversarial examples and backdoor attacks. Yet, the attacks and countermeasures for SNNs have been almost fully unexplored. This paper investigates the application of backdoor attacks in SNNs using neuromorphic datasets and different triggers. More precisely, backdoor triggers in neuromorphic data can change their position and color, allowing a larger range of possibilities than common triggers in, e.g., the image domain. We propose different attacks achieving up to 100\% attack success rate without noticeable clean accuracy degradation. We also evaluate the stealthiness of the attacks via the structural similarity metric, showing our most powerful attacks being also stealthy. Finally, we adapt the state-of-the-art defenses from the image domain, demonstrating they are not necessarily effective for neuromorphic data resulting in inaccurate performance.
翻訳日:2023-02-14 15:58:28 公開日:2023-02-13
# ELEA -- ブラウザで独自の進化的アルゴリズムを構築する

ELEA -- Build your own Evolutionary Algorithm in your Browser ( http://arxiv.org/abs/2302.06277v1 )

ライセンス: Link先を確認
Markus Wagner, Erik Kohlros, Gerome Quantmeyer, Timo K\"otzing(参考訳) 進化的アルゴリズム(ELEA)の実験および学習ツールキット(Experimenting and Learning Toolkit for Evolutionary Algorithms)と呼ぶ進化的アルゴリズムを実験するためのオープンソースのフレームワークを提供する。 ELEAはブラウザベースで、ドラッグ&ドロップを使って進化的アルゴリズムを組み立てることができる。 設計した例は実行でき、収集されたデータはグラフィカルに表示できる。 さらに、アルゴリズム設計のエクスポートや実験結果、マルチスレッドなどが含まれる。 非常に直感的なユーザーインターフェイスと、最初の実験を行うのに要する時間が短いので、このツールは特にアルゴリズムの探索分析や教室での使用に適している。

We provide an open source framework to experiment with evolutionary algorithms which we call "Experimenting and Learning toolkit for Evolutionary Algorithms (ELEA)". ELEA is browser-based and allows to assemble evolutionary algorithms using drag-and-drop, starting from a number of simple pre-designed examples, making the startup costs for employing the toolkit minimal. The designed examples can be executed and collected data can be displayed graphically. Further features include export of algorithm designs and experimental results as well as multi-threading. With the very intuitive user interface and the short time to get initial experiments going, this tool is especially suitable for explorative analyses of algorithms as well as for the use in classrooms.
翻訳日:2023-02-14 15:58:05 公開日:2023-02-13
# 敵対的模倣学習における不完全証明

Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning ( http://arxiv.org/abs/2302.06271v1 )

ライセンス: Link先を確認
Yunke Wang, Bo Du, Chang Xu(参考訳) 逆模倣学習は模倣学習フレームワークとして広く使われている。 判別器は、それぞれ2つのカテゴリ(正対負)から専門家の実証と政策の軌跡を例にして訓練され、その後、専門家の実証と区別できない軌跡を生み出すことが期待される。 しかし現実の世界では、収集された専門家によるデモは不完全になりがちだ。 不完全専門家のデモンストレーションを絶対的あるいは否定的に扱う代わりに、未完全専門家のデモをそのまま調査する。 常に最適化されたエージェントポリシーの軌跡とよく一致するような専門家によるデモンストレーションを動的にサンプリングするために,正のラベル付き対向模倣学習アルゴリズムを開発した。 初期エージェントポリシーの軌道は、これらの非最適専門家のデモンストレーションに近いかもしれないが、敵の模倣学習の枠組みでは、エージェントポリシーは、識別器を騙し、これらの最適な専門家のデモンストレーションと類似した軌道を生成するように最適化される。 理論解析により,本手法は不完全な実演から自己ペースで学習できることが示されている。 MuJoCo および RoboSuite プラットフォームにおける実験結果から,本手法の有効性が示された。

Adversarial imitation learning has become a widely used imitation learning framework. The discriminator is often trained by taking expert demonstrations and policy trajectories as examples respectively from two categories (positive vs. negative) and the policy is then expected to produce trajectories that are indistinguishable from the expert demonstrations. But in the real world, the collected expert demonstrations are more likely to be imperfect, where only an unknown fraction of the demonstrations are optimal. Instead of treating imperfect expert demonstrations as absolutely positive or negative, we investigate unlabeled imperfect expert demonstrations as they are. A positive-unlabeled adversarial imitation learning algorithm is developed to dynamically sample expert demonstrations that can well match the trajectories from the constantly optimized agent policy. The trajectories of an initial agent policy could be closer to those non-optimal expert demonstrations, but within the framework of adversarial imitation learning, agent policy will be optimized to cheat the discriminator and produce trajectories that are similar to those optimal expert demonstrations. Theoretical analysis shows that our method learns from the imperfect demonstrations via a self-paced way. Experimental results on MuJoCo and RoboSuite platforms demonstrate the effectiveness of our method from different aspects.
翻訳日:2023-02-14 15:57:54 公開日:2023-02-13
# パリティ適応U($D$)-スピンコヒーレント状態の局所化測度を$D$レベルリプキン-メシュコフ-グリックモデルの位相空間解析に適用する

Localization measures of parity adapted U($D$)-spin coherent states applied to the phase space analysis of the $D$-level Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2302.06254v1 )

ライセンス: Link先を確認
Alberto Mayorgas and Julio Guerrero and Manuel Calixto(参考訳) 臨界,パリティ対称,$N$-quDit系の熱力学$N\to\infty$極限における量子相転移(QPT)の位相空間特性について検討する。 D=3$レベル (qutrit) Lipkin-Meshkov-Glick (LMG) モデルは、最終的に特定の例として検討される。 この目的のために、U$(D)$-spin コヒーレント状態 (DSCS) を考え、標準$D=2$アトミックコヒーレント状態を一般化し、対称$N$-quDit状態 $|\psi>$ のコヒーレント状態表現 $Q_\psi$ (Husimi function) を位相空間 $\mathbb CP^{D-1}$ (複素射影多様体) で定義する。 DSCS は$N$-quDit 系の基底状態、特に$N\to\infty$極限において、離散パリティ対称性 $\mathbb{Z}_2^{D-1}$ が自発的に破れるような良い変分近似である。 有限$N$の場合、パリティはDSCS を 2^{D-1}$ の異なるパリティ不変部分空間に射影することで復元することができる。 QPTの前駆体は、臨界点近傍のフシミモーメントやヴェアルエントロピーとともに、位相空間においてこれらのパリティ射影DSCSのフシミ函数をプロットすることにより、有限$N$で視覚化される。 これらはQPTの優れたローカライズ対策とマーカーである。

We study phase-space properties of critical, parity symmetric, $N$-quDit systems undergoing a quantum phase transition (QPT) in the thermodynamic $N\to\infty$ limit. The $D=3$ level (qutrit) Lipkin-Meshkov-Glick (LMG) model is eventually examined as a particular example. For this purpose, we consider U$(D)$-spin coherent states (DSCS), generalizing the standard $D=2$ atomic coherent states, to define the coherent state representation $Q_\psi$ (Husimi function) of a symmetric $N$-quDit state $|\psi>$ in the phase space $\mathbb CP^{D-1}$ (complex projective manifold). DSCS are good variational aproximations to the ground state of a $N$-quDit system, specially in the $N\to\infty$ limit, where the discrete parity symmetry $\mathbb{Z}_2^{D-1}$ is spontaneously broken. For finite $N$, parity can be restored by projecting DSCS onto $2^{D-1}$ different parity invariant subspaces, which define generalized ``Schr\"odinger cat states'' reproducing quite faithfully low-lying Hamiltonian eigenstates obtained by numerical diagonalization. Precursors of the QPT are then visualized for finite $N$ by plotting the Husimi function of these parity projected DSCS in phase space, together with their Husimi moments and Wehrl entropy, in the neighborhood of the critical points. These are good localization measures and markers of the QPT.
翻訳日:2023-02-14 15:57:32 公開日:2023-02-13
# グラディエントを伴わないCTスキャンジオメトリの最適化

Optimizing CT Scan Geometries With and Without Gradients ( http://arxiv.org/abs/2302.06251v1 )

ライセンス: Link先を確認
Mareike Thies, Fabian Wagner, Noah Maul, Laura Pfaff, Linda-Sophie Schneider, Christopher Syben, Andreas Maier(参考訳) CT(Computerd tomography)では、データ取得に使用する投影形状を正確に把握し、明確な再構成画像を得る必要がある。 硬い患者の動きは、測定されたデータと使用済みの幾何学の間の不一致の原因である。 一般に、そのような動きは、例えば、投影幾何学に関する再構成画像の品質を最大化する最適化問題を解くことで補償される。 これまでのところ、勾配のない最適化アルゴリズムはこの問題の解を見つけるために利用されてきた。 本稿では,グラデーションに基づく最適化アルゴリズムが代替案となりうることを示し,ベンチマーク動作補償問題において,グラデーションフリーのアルゴリズムと比較する。 勾配に基づくアルゴリズムは、キャプチャ範囲やロバスト性から自由パラメータ数まで、勾配フリーアルゴリズムに匹敵する一方で、かなり高速に収束する。 したがって、勾配に基づく最適化は与えられた種類の問題に対して実行可能な代替となる。

In computed tomography (CT), the projection geometry used for data acquisition needs to be known precisely to obtain a clear reconstructed image. Rigid patient motion is a cause for misalignment between measured data and employed geometry. Commonly, such motion is compensated by solving an optimization problem that, e.g., maximizes the quality of the reconstructed image with respect to the projection geometry. So far, gradient-free optimization algorithms have been utilized to find the solution for this problem. Here, we show that gradient-based optimization algorithms are a possible alternative and compare the performance to their gradient-free counterparts on a benchmark motion compensation problem. Gradient-based algorithms converge substantially faster while being comparable to gradient-free algorithms in terms of capture range and robustness to the number of free parameters. Hence, gradient-based optimization is a viable alternative for the given type of problems.
翻訳日:2023-02-14 15:56:51 公開日:2023-02-13
# イベントシーケンスの連続時間畳み込みモデル

Continuous-time convolutions model of event sequences ( http://arxiv.org/abs/2302.06247v1 )

ライセンス: Link先を確認
Vladislav Zhuzhel, Vsevolod Grabar, Galina Boeva, Artem Zabolotnyi, Alexander Stepikin, Vladimir Zholobov, Maria Ivanova, Mikhail Orlov, Ivan Kireev, Evgeny Burnaev, Rodrigo Rivera-Castro and Alexey Zaytsev(参考訳) イベントシーケンスデータの大規模なサンプルは、eコマース、ヘルスケア、金融など、さまざまな領域で発生します。 このようなデータの推測には、計算と方法論の2つの主な課題がある。 利用可能なデータ量とクライアント毎のイベントシーケンスの長さは一般的に大きいため、長期的なモデリングが必要となる。 さらに、このデータはスパースで非均一であり、時系列処理の古典的なアプローチは適用できない。 既存のソリューションには、リカレントとトランスフォーマーアーキテクチャが含まれる。 連続時間を可能にするため、著者らは既存のモデルの上に各モーメントで定義された特定のパラメトリック強度関数を導入する。 パラメトリックな性質のため、これらの強度はイベントシーケンスの限られたクラスのみを表す。 本研究では,連続的畳み込みニューラルネットワークに基づくCOTIC手法を提案する。 COTICでは、ディレーションとマルチレイヤアーキテクチャがイベント間の依存関係を効率的に処理する。 さらに、このモデルは、実際に遭遇した自己説明を含む連続時間における一般的な強度ダイナミクスを提供する。 COTICモデルは、検討されたデータセットの大部分が既存のアプローチよりも優れており、下流タスク(次のイベントタイプとリターンタイムの予測など)の解決に使用できるイベントシーケンスの埋め込みを生成する。 提案するメソッドのコードはgithubリポジトリにある(https://github.com/vladislavzh/cotic)。

Massive samples of event sequences data occur in various domains, including e-commerce, healthcare, and finance. There are two main challenges regarding inference of such data: computational and methodological. The amount of available data and the length of event sequences per client are typically large, thus it requires long-term modelling. Moreover, this data is often sparse and non-uniform, making classic approaches for time series processing inapplicable. Existing solutions include recurrent and transformer architectures in such cases. To allow continuous time, the authors introduce specific parametric intensity functions defined at each moment on top of existing models. Due to the parametric nature, these intensities represent only a limited class of event sequences. We propose the COTIC method based on a continuous convolution neural network suitable for non-uniform occurrence of events in time. In COTIC, dilations and multi-layer architecture efficiently handle dependencies between events. Furthermore, the model provides general intensity dynamics in continuous time - including self-excitement encountered in practice. The COTIC model outperforms existing approaches on majority of the considered datasets, producing embeddings for an event sequence that can be used to solve downstream tasks - e.g. predicting next event type and return time. The code of the proposed method can be found in the GitHub repository (https://github.com/VladislavZh/COTIC).
翻訳日:2023-02-14 15:56:37 公開日:2023-02-13
# 前駆体を用いたディープニューラルネットワークの校正

Calibrating a Deep Neural Network with Its Predecessors ( http://arxiv.org/abs/2302.06245v1 )

ライセンス: Link先を確認
Linwei Tao, Minjing Dong, Daochang Liu, Changming Sun, Chang Xu(参考訳) 信頼度校正 - ニューラルネットワークの出力確率分布を校正するプロセス - は、そのようなネットワークの安全性クリティカルな応用には不可欠である。 最近の研究は誤校正と過度適合の関連を検証している。 しかし、オーバーフィッティングを緩和する有名な手法として、早期停止はネットワークの校正に失敗する。 本研究では,各ブロックを考慮したネットワークの早期停止の限界について検討し,そのオーバーフィッティング問題を包括的に解析する。 そこで我々は,ブロック前駆体が対応するネットワークブロックであり,初期訓練段階からの重みパラメータを持つような,最適なブロック前駆体の組み合わせを探索することでキャリブレーションを改善する,新しい正規化手法であるPCSを提案する。 PCSは、複数のデータセットとアーキテクチャ上で最先端のキャリブレーション性能を達成する。 さらに、PCSはデータセットの分散シフトの下でモデルの堅牢性を改善する。

Confidence calibration - the process to calibrate the output probability distribution of neural networks - is essential for safety-critical applications of such networks. Recent works verify the link between mis-calibration and overfitting. However, early stopping, as a well-known technique to mitigate overfitting, fails to calibrate networks. In this work, we study the limitions of early stopping and comprehensively analyze the overfitting problem of a network considering each individual block. We then propose a novel regularization method, predecessor combination search (PCS), to improve calibration by searching a combination of best-fitting block predecessors, where block predecessors are the corresponding network blocks with weight parameters from earlier training stages. PCS achieves the state-of-the-art calibration performance on multiple datasets and architectures. In addition, PCS improves model robustness under dataset distribution shift.
翻訳日:2023-02-14 15:56:21 公開日:2023-02-13
# 化学故障検出・診断のための秩序不変かつ解釈可能な階層型畳み込みニューラルネットワーク

An Order-Invariant and Interpretable Hierarchical Dilated Convolution Neural Network for Chemical Fault Detection and Diagnosis ( http://arxiv.org/abs/2302.06243v1 )

ライセンス: Link先を確認
Mengxuan Li, Peng Peng, Min Wang, Hongwei Wang(参考訳) 故障の検出と診断は、メンテナンスコストの削減と化学プロセスにおける健康と安全性の改善に重要である。 畳み込みニューラルネットワーク(CNN)は、化学故障検出および診断タスクにおける多くの成功例を持つ、人気のあるディープラーニングアルゴリズムである。 しかし、cnnの畳み込み層は特徴の順序に非常に敏感であり、表データの処理が不安定になる可能性がある。 特徴の最適順序はCNNモデルの優れた性能をもたらすが、そのような最適順序を求めるのは高価である。 加えて、特徴抽出のカプセル化機構のため、ほとんどのcnnモデルは不透明であり、解釈性に乏しいため、人間の監督なしに根本原因の特徴を識別できない。 これらの困難はCNN手法の性能と信頼性を必然的に制限する。 本稿では,特徴クラスタリング,拡張畳み込み,シェープな加法的説明(SHAP)法によって構成される,秩序不変かつ解釈可能な階層型畳み込みニューラルネットワーク(HDLCNN)を提案する。 HDLCNNの新規性は、特徴クラスタリングの相関した特徴と拡張畳み込みの大きな受容領域を集約する能力のため、最適な順序を求めることなく任意の順序で表データを処理する能力にある。 提案手法は,特徴量の定量化のためのSHAP値を含め,解釈可能性を提供する。 したがって、根本原因の特徴を最も貢献度の高い特徴と特定することができる。 計算実験はテネシー・イーストマン化学プロセスベンチマークデータセット上で実施される。 hdlcnn-shap法は他の手法と比較して任意の順序の特徴、故障の検出、根本原因の特徴の同定により、表データを処理する際の優れた性能を実現する。

Fault detection and diagnosis is significant for reducing maintenance costs and improving health and safety in chemical processes. Convolution neural network (CNN) is a popular deep learning algorithm with many successful applications in chemical fault detection and diagnosis tasks. However, convolution layers in CNN are very sensitive to the order of features, which can lead to instability in the processing of tabular data. Optimal order of features result in better performance of CNN models but it is expensive to seek such optimal order. In addition, because of the encapsulation mechanism of feature extraction, most CNN models are opaque and have poor interpretability, thus failing to identify root-cause features without human supervision. These difficulties inevitably limit the performance and credibility of CNN methods. In this paper, we propose an order-invariant and interpretable hierarchical dilated convolution neural network (HDLCNN), which is composed by feature clustering, dilated convolution and the shapley additive explanations (SHAP) method. The novelty of HDLCNN lies in its capability of processing tabular data with features of arbitrary order without seeking the optimal order, due to the ability to agglomerate correlated features of feature clustering and the large receptive field of dilated convolution. Then, the proposed method provides interpretability by including the SHAP values to quantify feature contribution. Therefore, the root-cause features can be identified as the features with the highest contribution. Computational experiments are conducted on the Tennessee Eastman chemical process benchmark dataset. Compared with the other methods, the proposed HDLCNN-SHAP method achieves better performance on processing tabular data with features of arbitrary order, detecting faults, and identifying the root-cause features.
翻訳日:2023-02-14 15:56:07 公開日:2023-02-13
# 自己学習ファジィ強化学習による燃料電池ハイブリッド電気自動車の寿命延長型エネルギー管理戦略

A Lifetime Extended Energy Management Strategy for Fuel Cell Hybrid Electric Vehicles via Self-Learning Fuzzy Reinforcement Learning ( http://arxiv.org/abs/2302.06236v1 )

ライセンス: Link先を確認
Liang Guo (PECASE, AMU), Zhongliang Li (FEMTO-ST, UTBM), Rachid Outbib (PECASE, AMU)(参考訳) 燃料電池ハイブリッド電気自動車のエネルギー管理において、モデリングの困難さ、時間変動モデル、不確定な外部入力が主な課題である。 本稿では, 燃料電池ハイブリッド電気自動車のファジィ強化学習に基づくエネルギー管理戦略を提案し, 燃料消費の低減, 電池の長期運転の維持, 燃料電池システムの寿命を延長した。 ファジィQラーニングは、環境と相互作用して学習できるモデルなし強化学習であり、燃料電池システムのモデル化は不要である。 さらに、燃料電池の頻繁な起動は、燃料電池システムの残りの有用な寿命を減少させる。 提案手法は,強化学習の報奨として,燃料電池起動時のペナルティを考慮し,頻繁な燃料電池起動を抑制する。 さらに,q-learningにおける値関数近似にファジィ論理を適用することで,連続状態や動作空間の問題を解くことができる。 最後に、pythonベースのトレーニングおよびテストプラットフォームは、初期状態変化、モデル変更、運転条件変化の条件下で、提案手法の有効性と自己学習の改善を検証する。

Modeling difficulty, time-varying model, and uncertain external inputs are the main challenges for energy management of fuel cell hybrid electric vehicles. In the paper, a fuzzy reinforcement learning-based energy management strategy for fuel cell hybrid electric vehicles is proposed to reduce fuel consumption, maintain the batteries' long-term operation, and extend the lifetime of the fuel cells system. Fuzzy Q-learning is a model-free reinforcement learning that can learn itself by interacting with the environment, so there is no need for modeling the fuel cells system. In addition, frequent startup of the fuel cells will reduce the remaining useful life of the fuel cells system. The proposed method suppresses frequent fuel cells startup by considering the penalty for the times of fuel cell startups in the reward of reinforcement learning. Moreover, applying fuzzy logic to approximate the value function in Q-Learning can solve continuous state and action space problems. Finally, a python-based training and testing platform verify the effectiveness and self-learning improvement of the proposed method under conditions of initial state change, model change and driving condition change.
翻訳日:2023-02-14 15:55:40 公開日:2023-02-13
# ホモフィリ指向不均一グラフリワイリング

Homophily-oriented Heterogeneous Graph Rewiring ( http://arxiv.org/abs/2302.06299v1 )

ライセンス: Link先を確認
Jiayan Guo and Lun Du and Wendong Bi and Qiang Fu and Xiaojun Ma and Xu Chen and Shi Han and Dongmei Zhang and Yan Zhang(参考訳) ワールドワイドウェブ(WWW)の急速な発展に伴い、ヘテロジニアスグラフ(HG)は爆発的な成長を遂げた。 近年、ヘテロジニアスグラフニューラルネットワーク(HGNN)は、HGで学習する大きな可能性を示している。 HGNNの現在の研究は、主に強いホモフィリー特性を持ついくつかのHG(メタパスで連結されたノードは同じラベルを持つ傾向がある)に焦点を当てている。 最近、不均質グラフに関する多くの研究がある。 しかし、不均一性のため、HGをヘテロフィリーで扱うアプローチを拡張することは自明ではない。 本研究では, 経験的観測に基づいて, HGのホモフィリエンス度を測定するメタパス誘導測定法を提案する。 また,現在のHGNNは,相同性に乏しいHGを扱う場合,性能が劣化していた可能性がある。 したがって、HGNNの非親和性HGへの一般化能力を高めることが不可欠である。 この目的のために,HGNNの性能を向上させるため,HG構造を修飾するホモフィリー指向の深部不均一グラフ再構成手法であるHDHGRを提案する。 理論的にはHDHGRを検証する。 さらに、実世界のHG実験はHDHGRの有効性を示し、これは10%以上の相対的な利得をもたらす。

With the rapid development of the World Wide Web (WWW), heterogeneous graphs (HG) have explosive growth. Recently, heterogeneous graph neural network (HGNN) has shown great potential in learning on HG. Current studies of HGNN mainly focus on some HGs with strong homophily properties (nodes connected by meta-path tend to have the same labels), while few discussions are made in those that are less homophilous. Recently, there have been many works on homogeneous graphs with heterophily. However, due to heterogeneity, it is non-trivial to extend their approach to deal with HGs with heterophily. In this work, based on empirical observations, we propose a meta-path-induced metric to measure the homophily degree of a HG. We also find that current HGNNs may have degenerated performance when handling HGs with less homophilous properties. Thus it is essential to increase the generalization ability of HGNNs on non-homophilous HGs. To this end, we propose HDHGR, a homophily-oriented deep heterogeneous graph rewiring approach that modifies the HG structure to increase the performance of HGNN. We theoretically verify HDHGR. In addition, experiments on real-world HGs demonstrate the effectiveness of HDHGR, which brings at most more than 10% relative gain.
翻訳日:2023-02-14 15:50:03 公開日:2023-02-13
# リアルアンアライメントrgb誘導によるハイパースペクトル画像の超解像

Hyperspectral Image Super Resolution with Real Unaligned RGB Guidance ( http://arxiv.org/abs/2302.06298v1 )

ライセンス: Link先を確認
Zeqiang Lai, Ying Fu, Jun Zhang(参考訳) 超高分解能高分解能画像(HSI)は高分解能高分解能RGB参照画像から高周波空間情報を統合できる能力としてますます普及している。 しかし、既存の手法のほとんどは低解像度(lr)のhsisとrgb画像の正確なアライメントに大きく依存するか、あるいは剛幾何変換によって生成された非アライメントなrgb画像をシミュレートするだけで、実際のシーンでの有効性を損なう。 本稿では,剛性と非剛性の両方の相違点を持つ実RGB参照画像を用いた核融合型HSI超解像について検討する。 非整合参照画像に対する既存手法の制約を適切に解決するために,異種特徴抽出,多段特徴アライメント,注意的特徴融合を備えたhsiフュージョンネットワークを提案する。 具体的には、入力されたHSIとRGBの画像をHSIエンコーダとRGBエンコーダの2種類のマルチスケール特徴に変換する。 RGB参照画像の特徴は多段アライメントモジュールによって処理され、RGB参照の特徴とLR HSIを明示的に整列する。 最後に、RGB参照のアライメント特徴をアダプティブアテンションモジュールによりさらに調整し、融合復号器に送って再構成されたHR HSIを生成する。 さらに,実シーンにおける提案モデルの評価を支援するために,ペア化されたHSIと非整合なRGB参照からなる実世界のHSI融合データセットを収集する。 シミュレーションと実世界の両方のデータセットに対して大規模な実験を行い,既存の単一画像と核融合に基づく超解像法を定量的に評価し,視覚的比較を行った。

Fusion-based hyperspectral image (HSI) super-resolution has become increasingly prevalent for its capability to integrate high-frequency spatial information from the paired high-resolution (HR) RGB reference image. However, most of the existing methods either heavily rely on the accurate alignment between low-resolution (LR) HSIs and RGB images, or can only deal with simulated unaligned RGB images generated by rigid geometric transformations, which weakens their effectiveness for real scenes. In this paper, we explore the fusion-based HSI super-resolution with real RGB reference images that have both rigid and non-rigid misalignments. To properly address the limitations of existing methods for unaligned reference images, we propose an HSI fusion network with heterogenous feature extractions, multi-stage feature alignments, and attentive feature fusion. Specifically, our network first transforms the input HSI and RGB images into two sets of multi-scale features with an HSI encoder and an RGB encoder, respectively. The features of RGB reference images are then processed by a multi-stage alignment module to explicitly align the features of RGB reference with the LR HSI. Finally, the aligned features of RGB reference are further adjusted by an adaptive attention module to focus more on discriminative regions before sending them to the fusion decoder to generate the reconstructed HR HSI. Additionally, we collect a real-world HSI fusion dataset, consisting of paired HSI and unaligned RGB reference, to support the evaluation of the proposed model for real scenes. Extensive experiments are conducted on both simulated and our real-world datasets, and it shows that our method obtains a clear improvement over existing single-image and fusion-based super-resolution methods on quantitative assessment as well as visual comparison.
翻訳日:2023-02-14 15:49:41 公開日:2023-02-13
# cholectriplet2022: ツールを見せて,トリプレット -- 手術用トリプレット検出のための内視鏡的ビジョンチャレンジ

CholecTriplet2022: Show me a tool and tell me the triplet -- an endoscopic vision challenge for surgical action triplet detection ( http://arxiv.org/abs/2302.06294v1 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Tong Yu, Saurav Sharma, Aditya Murali, Deepak Alapatt, Armine Vardazaryan, Kun Yuan, Jonas Hajek, Wolfgang Reiter, Amine Yamlahi, Finn-Henri Smidt, Xiaoyang Zou, Guoyan Zheng, Bruno Oliveira, Helena R. Torres, Satoshi Kondo, Satoshi Kasai, Felix Holm, Ege \"Ozsoy, Shuangchun Gui, Han Li, Sista Raviteja, Rachana Sathish, Pranav Poudel, Binod Bhattarai, Ziheng Wang, Guo Rui, Melanie Schellenberg, Jo\~ao L. Vila\c{c}a, Tobias Czempiel, Zhenkun Wang, Debdoot Sheet, Shrawan Kumar Thapa, Max Berniker, Patrick Godau, Pedro Morais, Sudarshan Regmi, Thuy Nuong Tran, Jaime Fonseca, Jan-Hinrich N\"olke, Estev\~ao Lima, Eduard Vazquez, Lena Maier-Hein, Nassir Navab, Pietro Mascagni, Barbara Seeliger, Cristians Gonzalez, Didier Mutter, Nicolas Padoy(参考訳) 使用器具のトリプレットとしての外科活動の定式化、動作の実行、標的解剖は、外科活動モデリングの黄金の標準的なアプローチになりつつある。 この形式化は、画像誘導手術のためのより良い人工知能支援を開発するために使用できるツールとタスクの相互作用をより詳細に理解するのに役立つ。 初期の取り組みと2021年に導入されたコレクトリプルトチャレンジでは、手術映像からこれらのトリプレットを認識する技術が組み合わされた。 三脚の空間的位置を推定すると、コンピュータによる介入に対するより正確な術中コンテキスト認識による決定支援が提供される。 本稿では,手術動作の三重項モデリングを認識から検出まで拡張したcholectriplet2022 challengeを提案する。 キーアクターとして、あらゆる可視的手術器具(または道具)の弱い教師付きバウンディングボックスローカライゼーション、および<instrument, verb, target> trit という形で、各ツールアクティビティのモデリングを含む。 本論文では,課題解決のためのベースライン手法と10種類の新しいディープラーニングアルゴリズムについて述べる。 また, 方法の方法論的比較, 得られた結果の詳細な分析, その意義, 今後の研究方向や手術応用に有用な知見も提供する。

Formalizing surgical activities as triplets of the used instruments, actions performed, and target anatomies is becoming a gold standard approach for surgical activity modeling. The benefit is that this formalization helps to obtain a more detailed understanding of tool-tissue interaction which can be used to develop better Artificial Intelligence assistance for image-guided surgery. Earlier efforts and the CholecTriplet challenge introduced in 2021 have put together techniques aimed at recognizing these triplets from surgical footage. Estimating also the spatial locations of the triplets would offer a more precise intraoperative context-aware decision support for computer-assisted intervention. This paper presents the CholecTriplet2022 challenge, which extends surgical action triplet modeling from recognition to detection. It includes weakly-supervised bounding box localization of every visible surgical instrument (or tool), as the key actors, and the modeling of each tool-activity in the form of <instrument, verb, target> triplet. The paper describes a baseline method and 10 new deep learning algorithms presented at the challenge to solve the task. It also provides thorough methodological comparisons of the methods, an in-depth analysis of the obtained results, their significance, and useful insights for future research directions and applications in surgery.
翻訳日:2023-02-14 15:49:11 公開日:2023-02-13
# 学習ビデオ圧縮のためのコンテンツ適応モーションレート適応

Content-Adaptive Motion Rate Adaption for Learned Video Compression ( http://arxiv.org/abs/2302.06293v1 )

ライセンス: Link先を確認
Chih-Hsuan Lin, Yi-Hsin Chen, Wen-Hsiao Peng(参考訳) 本稿では,学習ビデオ圧縮のためのオンラインモーションレート適応方式を提案する。学習データとテストデータ間の領域ギャップを軽減するために,個々のテストシーケンスに対するコンテンツ適応符号化を実現することを目的としている。 パッチレベルのビット割り当てマップは$\alpha$-mapと呼ばれ、動きのビットレートとフレーム間のコーディングを空間的に適応的にトレードオフする。 推論時にオンラインのバックプロパゲーションスキームを通じて$\alpha$-mapを最適化する。 さらに,今後のフレームへの影響を検討するために,ルックアヘッド機構を組み込んだ。 広範に実験した結果,条件付き学習ビデオコーデックに組み込むと,動作ビットレートを効果的に適応でき,特に複雑な動作特性を持つテストシーケンスにおいて,速度ゆらぎ性能が大幅に向上することを確認した。

This paper introduces an online motion rate adaptation scheme for learned video compression, with the aim of achieving content-adaptive coding on individual test sequences to mitigate the domain gap between training and test data. It features a patch-level bit allocation map, termed the $\alpha$-map, to trade off between the bit rates for motion and inter-frame coding in a spatially-adaptive manner. We optimize the $\alpha$-map through an online back-propagation scheme at inference time. Moreover, we incorporate a look-ahead mechanism to consider its impact on future frames. Extensive experimental results confirm that the proposed scheme, when integrated into a conditional learned video codec, is able to adapt motion bit rate effectively, showing much improved rate-distortion performance particularly on test sequences with complicated motion characteristics.
翻訳日:2023-02-14 15:48:47 公開日:2023-02-13
# 表面バイアスマルチレベルコンテキスト3次元物体検出

Surface-biased Multi-Level Context 3D Object Detection ( http://arxiv.org/abs/2302.06291v1 )

ライセンス: Link先を確認
Sultan Abu Ghazal, Jean Lahoud and Rao Anwer(参考訳) 3dポイントクラウドにおける物体検出は、ロボティクス、自動運転車、拡張現実など、さまざまなコンピュータビジョンアプリケーションにおいて重要なタスクである。 この研究は、高効率で表面バイアスのある特徴抽出法(wang2022rbgnet)を用いて、3Dポイントクラウドにおけるオブジェクト検出タスクに対処する。 本稿では,オブジェクト候補の正確な特徴表現を抽出し,点パッチやオブジェクト候補,グローバルシーンにおける自己注意を活用する3Dオブジェクト検出器を提案する。 xie2020mlcvnet) による3次元点雲の相関情報のエンコーディングに有効であることが証明されている。 他の3D検出器は、より意味のあるローカル特徴(wang2022rbgnet)を選択的に取得することで、点雲の特徴抽出の強化に焦点を当てている。 この目的のために提案されたアーキテクチャは、rayベースの表面バイアス特徴抽出とマルチレベルコンテキストエンコーディングを使用して、最先端の3dオブジェクト検出器を上回る。 本研究では,ScanNetデータセットのシーンで3次元検出実験を行い,各レベルにおける自己注意の影響を分離するために,自己注意モジュールを次々と導入する。

Object detection in 3D point clouds is a crucial task in a range of computer vision applications including robotics, autonomous cars, and augmented reality. This work addresses the object detection task in 3D point clouds using a highly efficient, surface-biased, feature extraction method (wang2022rbgnet), that also captures contextual cues on multiple levels. We propose a 3D object detector that extracts accurate feature representations of object candidates and leverages self-attention on point patches, object candidates, and on the global scene in 3D scene. Self-attention is proven to be effective in encoding correlation information in 3D point clouds by (xie2020mlcvnet). While other 3D detectors focus on enhancing point cloud feature extraction by selectively obtaining more meaningful local features (wang2022rbgnet) where contextual information is overlooked. To this end, the proposed architecture uses ray-based surface-biased feature extraction and multi-level context encoding to outperform the state-of-the-art 3D object detector. In this work, 3D detection experiments are performed on scenes from the ScanNet dataset whereby the self-attention modules are introduced one after the other to isolate the effect of self-attention at each level.
翻訳日:2023-02-14 15:48:33 公開日:2023-02-13
# 量子回路におけるソリトン閉じ込め

Soliton Confinement in a Quantum Circuit ( http://arxiv.org/abs/2302.06289v1 )

ライセンス: Link先を確認
Ananda Roy and Sergei Lukyanov(参考訳) 素粒子の理論と関連づけられる粒子状状態への位相励起の閉じ込めは、量子スピン鎖の磁壁閉じ込めとして生じる凝縮物系で起こることが知られている。 しかし、凝縮物の設定における閉じ込めの調査は、格子スピン系を超えることは滅多にない。 ここでは,1次元量子電子回路~(qec)アレイにおいて,ジョセフソン接合,コンデンサ,0-\pi$ qubits などの回路要素を用いて,正弦ゴロンソリトンをメソニック境界状態に閉じ込める解析を行う。 QECアレイで自然に発生する相互作用は、クーパーペアとクーパーペアのペアのトンネルによって、量子ローターの非可積分で相互作用する格子モデルを引き起こす。 スケーリング限界において、後者は異なる周期性を持つコサインポテンシャルによって摂動される量子サイン・ゴルドンモデルによって記述される。 本研究では,Sine-Gordonソリトン閉じ込めの弦張力と摂動モデルにおける低層スペクトルの変化を計算した。 スケーリング限界は従来のスピンチェーン正規化よりも早くQECアレイに到達し、この非可積分量子場理論の強い結合状態の高精度な数値的な研究を可能にする。 その結果, 密度行列再正規化グループ法を用いて, 最先端QEC技術を用いてクエンチ実験を行った。

Confinement of topological excitations into particle-like states - typically associated with theories of elementary particles - are known to occur in condensed matter systems, arising as domain-wall confinement in quantum spin chains. However, investigation of confinement in the condensed matter setting has rarely ventured beyond lattice spin systems. Here, we analyze the confinement of sine-Gordon solitons into mesonic bound states in a one-dimensional, quantum electronic circuit~(QEC) array, constructed using experimentally-demonstrated circuit elements: Josephson junctions, capacitors and $0-\pi$ qubits. The interactions occurring naturally in the QEC array, due to tunneling of Cooper-pairs and pairs of Cooper-pairs, give rise to a non-integrable, interacting, lattice model of quantum rotors. In the scaling limit, the latter is described by the quantum sine-Gordon model, perturbed by a cosine potential with a different periodicity. We compute the string tension of confinement of sine-Gordon solitons and the changes in the low-lying spectrum in the perturbed model. The scaling limit is reached faster for the QEC array compared to conventional spin chain regularizations, allowing high-precision numerical investigation of the strong-coupling regime of this non-integrable quantum field theory. Our results, obtained using the density matrix renormalization group method, could be verified in a quench experiment using state-of-the-art QEC technologies.
翻訳日:2023-02-14 15:48:11 公開日:2023-02-13
# 水素および水素様イオン結合状態と超微粒分裂:有限核サイズ効果

Hydrogen and hydrogen-like-ion bound states and hyperfine splittings: finite nuclear size effects} ( http://arxiv.org/abs/2302.06288v1 )

ライセンス: Link先を確認
Igor Kuzmenko, Tetyana Kuzmenko, Y. Avishai, Y. B. Band(参考訳) ディラック方程式を用いて, 有限核サイズ(FNS)効果, 相対論的QED放射補正, 核再コイル補正による水素および水素様イオンの電子結合エネルギーと超微細分裂の補正について検討した。 電荷分布と核内の磁気モーメント分布の3つのモデルを検討した。 計算は、光原子(H、He、K)と重原子(Rb、Cs、Pb、Bi、U)に対して行われる。 基底状態エネルギーに対するFNS補正は、電子核還元質量補正よりも小さく、光核に対する相対論的QED放射補正に匹敵するが、重核に対するどちらの補正よりもはるかに大きい。 水素の遷移周波数を1ドルから2ドルの実験で比較する。 基底状態超微細分裂に対するFNS補正はサイズに匹敵する

Using the Dirac equation, we study corrections to electron binding energies and hyperfine splittings of atomic hydrogen and hydrogen-like ions due to finite nuclear size (FNS) effects, relativistic QED radiative corrections and nuclear recoil corrections. Three models for the charge distribution and the magnetic moment distribution within the nucleus are considered. Calculations are carried for light atoms (H, He and K) and heavy atoms (Rb, Cs, Pb, Bi, U). The FNS corrections to the ground-state energy are shown to be smaller than the electron-nucleus reduced mass corrections, and comparable to the relativistic QED radiative corrections for the light nuclei, but much larger than both these corrections for heavy nuclei. Comparison is made with an experiment on the $1s$-$2s$ transition frequency for hydrogen. FNS corrections to the ground state hyperfine splitting are comparable in size
翻訳日:2023-02-14 15:47:45 公開日:2023-02-13
# Render-and-Compare:Cross-View 6 DoF Localization from Noisy Prior

Render-and-Compare: Cross-View 6 DoF Localization from Noisy Prior ( http://arxiv.org/abs/2302.06287v1 )

ライセンス: Link先を確認
Shen Yan, Xiaoya Cheng, Yuxiang Liu, Juelin Zhu, Rouwan Wu, Yu Liu, Maojun Zhang(参考訳) 6-DoFの視覚的ローカライゼーションの大幅な進歩にもかかわらず、研究者は主に地上レベルのベンチマークによって推進されている。 空中斜め撮影と比較すると、地上マップの収集にはスケーラビリティと完全なカバレッジが欠けている。 本研究では,従来の地上レベルの設定を越え,空中から地上へのクロスビュー・ローカライゼーションを活用することを提案する。 本研究では,反復的なレンダリング・アンド・コンプリートパイプラインとしてカメラポーズ推定を定式化し,ノイズ初期から種子を増進することでロバスト性を向上させる。 研究課題に対する公開データセットが存在しないため,スマートフォンやドローンから様々なクロスビュー画像を提供する新しいデータセットを収集し,クエリ画像のための接地ポーズを取得するための半自動システムを開発した。 我々は,本手法と最先端のベースラインをベンチマークし,他の手法を大差で上回っていることを示す。

Despite the significant progress in 6-DoF visual localization, researchers are mostly driven by ground-level benchmarks. Compared with aerial oblique photography, ground-level map collection lacks scalability and complete coverage. In this work, we propose to go beyond the traditional ground-level setting and exploit the cross-view localization from aerial to ground. We solve this problem by formulating camera pose estimation as an iterative render-and-compare pipeline and enhancing the robustness through augmenting seeds from noisy initial priors. As no public dataset exists for the studied problem, we collect a new dataset that provides a variety of cross-view images from smartphones and drones and develop a semi-automatic system to acquire ground-truth poses for query images. We benchmark our method as well as several state-of-the-art baselines and demonstrate that our method outperforms other approaches by a large margin.
翻訳日:2023-02-14 15:47:29 公開日:2023-02-13
# PAC-Learnerは配偶者の分布を学習しているか?

Do PAC-Learners Learn the Marginal Distribution? ( http://arxiv.org/abs/2302.06285v1 )

ライセンス: Link先を確認
Max Hopkins, Daniel M. Kane, Shachar Lovett, Gaurav Mahajan(参考訳) 本稿では,Valiant と Vapnik と Chervonenkis' Probably Aough Correct (PAC)-Learning の基本的な変種について検討する。 特に、3倍の $(\mathscr{p},x,h)$ のpac-learnability が、敵の$d \in \mathscr{p}$ の選択に関する \emph{distributional} 情報を推測する学習者能力とどのように関係しているかを考察する。 この目的のために、"unsupervised" の概念である \emph{tv-learning} を導入し、クラス $(\mathscr{p},x,h)$ が与えられたとき、学習者に、自然なクラス条件の全変動メトリックに関してラベルなしサンプルから$d$を近似するよう求める。 古典的な配布のない環境では、テレビラーニングはパックラーニングと同値であることを示す: つまり、どんな学習者も$d$の最大値に近い情報を推測しなければならない。 一方、この特徴は一般に$\mathscr{P}$に対して分解され、PAC-Learningは「Strong」と「Weak」テレビ学習と呼ばれる2つの近似変種に厳密に挟まれており、大まかに言えば、$D$の最も関連する距離を$H$に対して推定する教師なし学習者に対応するが、学習者 \emph{knows} がよく推定された事象の集合であるかどうかが異なる。 最後に,テレビ学習は古典的な概念である 'emph{uniform Estimation} と等価であり,教師付き学習における一様収束パラダイムの強い反感を与える。

We study a foundational variant of Valiant and Vapnik and Chervonenkis' Probably Approximately Correct (PAC)-Learning in which the adversary is restricted to a known family of marginal distributions $\mathscr{P}$. In particular, we study how the PAC-learnability of a triple $(\mathscr{P},X,H)$ relates to the learners ability to infer \emph{distributional} information about the adversary's choice of $D \in \mathscr{P}$. To this end, we introduce the `unsupervised' notion of \emph{TV-Learning}, which, given a class $(\mathscr{P},X,H)$, asks the learner to approximate $D$ from unlabeled samples with respect to a natural class-conditional total variation metric. In the classical distribution-free setting, we show that TV-learning is \emph{equivalent} to PAC-Learning: in other words, any learner must infer near-maximal information about $D$. On the other hand, we show this characterization breaks down for general $\mathscr{P}$, where PAC-Learning is strictly sandwiched between two approximate variants we call `Strong' and `Weak' TV-learning, roughly corresponding to unsupervised learners that estimate most relevant distances in $D$ with respect to $H$, but differ in whether the learner \emph{knows} the set of well-estimated events. Finally, we observe that TV-learning is in fact equivalent to the classical notion of \emph{uniform estimation}, and thereby give a strong refutation of the uniform convergence paradigm in supervised learning.
翻訳日:2023-02-14 15:47:15 公開日:2023-02-13
# プログラマブルシリコン窒化物集積回路を用いた決定論的光子源

Deterministic photon source interfaced with a programmable silicon-nitride integrated circuit ( http://arxiv.org/abs/2302.06282v1 )

ライセンス: Link先を確認
Ying Wang, Carlos F.D. Faurby, Fabian Ruf, Patrik I. Sund, Kasper H. Nielsen, Nicolas Volet, Martijn J.R. Heck, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Stefano Paesani, Peter Lodahl(参考訳) 我々は,高品質な量子ドット単一光子源と窒化ケイ素製の低損失フォトニック集積回路を接続する量子フォトニックプラットフォームを開発した。 このプラットフォームは、ボソニック抑制法やフォトニックエンタングルメント生成など、様々な多光子応用を特徴とし、プログラムされている。 その結果、フォトニック量子ハードウェアのスケールアップに向けた有望な技術経路が示された。

We develop a quantum photonic platform that interconnects a high-quality quantum dot single-photon source and a low-loss photonic integrated circuit made in silicon nitride. The platform is characterized and programmed to demonstrate various multiphoton applications, including bosonic suppression laws and photonic entanglement generation. The results show a promising technological route forward to scale-up photonic quantum hardware.
翻訳日:2023-02-14 15:46:39 公開日:2023-02-13
# データ拡張によるレコメンデーションフェアネスの改善

Improving Recommendation Fairness via Data Augmentation ( http://arxiv.org/abs/2302.06333v1 )

ライセンス: Link先を確認
Lei Chen, Le Wu, Kun Zhang, Richang Hong, Defu Lian, Zhiqiang Zhang, Jun Zhou, Meng Wang(参考訳) 協調フィルタリングに基づくレコメンデーションは、すべてのユーザの過去の行動データからユーザの好みを学習し、意思決定を容易にするために人気がある。 R 最近、推薦の公平性の問題がますます重要になっている。 レコメンダシステムは、ユーザの繊細な属性(例えば、性別、人種)に応じて異なるユーザグループに対して等しく機能しない場合、不公平とみなされる。 事前定義された公平性の目標を最適化したり、不均衡なトレーニングデータの分布を変更して不公平を緩和する手法が多数提案されている。 しかし、彼らは特定の公正度最適化のメトリクスに悩まされたり、現在のレコメンデーションアーキテクチャの再設計に頼っていた。 本稿では,データ拡張の観点からレコメンデーションフェアネスを改善する方法について検討する。 このレコメンデーションモデルは、不均衡なトレーニングデータの本質的不公平性を増幅する。 不均衡なトレーニングデータをバランスの取れたデータ分布に拡張し、公平性を向上する。 提案フレームワークは一般に埋め込みベースのレコメンデーションに適用でき、公平度メトリックを事前に定義する必要はない。 2つの実世界のデータセットに対する大規模な実験は、提案フレームワークの優位性を明確に示している。 ソースコードはhttps://github.com/newlei/FDAで公開しています。

Collaborative filtering based recommendation learns users' preferences from all users' historical behavior data, and has been popular to facilitate decision making. R Recently, the fairness issue of recommendation has become more and more essential. A recommender system is considered unfair when it does not perform equally well for different user groups according to users' sensitive attributes~(e.g., gender, race). Plenty of methods have been proposed to alleviate unfairness by optimizing a predefined fairness goal or changing the distribution of unbalanced training data. However, they either suffered from the specific fairness optimization metrics or relied on redesigning the current recommendation architecture. In this paper, we study how to improve recommendation fairness from the data augmentation perspective. The recommendation model amplifies the inherent unfairness of imbalanced training data. We augment imbalanced training data towards balanced data distribution to improve fairness. The proposed framework is generally applicable to any embedding-based recommendation, and does not need to pre-define a fairness metric. Extensive experiments on two real-world datasets clearly demonstrate the superiority of our proposed framework. We publish the source code at https://github.com/newlei/FDA.
翻訳日:2023-02-14 15:40:00 公開日:2023-02-13
# ワンショットフェデレーション型コンフォメーション予測

One-Shot Federated Conformal Prediction ( http://arxiv.org/abs/2302.06322v1 )

ライセンス: Link先を確認
Pierre Humbert (LMO, CELESTE), Batiste Le Bars (MAGNET, CRIStAL), Aur\'elien Bellet (MAGNET, CRIStAL), Sylvain Arlot (LMO, CELESTE)(参考訳) 本稿では,単発連立学習環境での予測セットを構築するための共形予測手法を提案する。 より具体的には、量子量推定器を定義し、任意の分布に対して、所望のカバレッジの予測セットを1ラウンドの通信でのみ出力できることを証明する。 プライバシー問題を緩和するために、我々の推定器の局所的に異なるプライベートバージョンも記述する。 最後に,本手法は多種多様な実験において,集中的に得られたものと非常によく似た範囲と長さの予測集合を返すことを示す。 全体として,本手法は一発フェデレーション学習環境でのコンフォーメーション予測に特に適していることを示す。

In this paper, we introduce a conformal prediction method to construct prediction sets in a oneshot federated learning setting. More specifically, we define a quantile-of-quantiles estimator and prove that for any distribution, it is possible to output prediction sets with desired coverage in only one round of communication. To mitigate privacy issues, we also describe a locally differentially private version of our estimator. Finally, over a wide range of experiments, we show that our method returns prediction sets with coverage and length very similar to those obtained in a centralized setting. Overall, these results demonstrate that our method is particularly well-suited to perform conformal predictions in a one-shot federated learning setting.
翻訳日:2023-02-14 15:39:42 公開日:2023-02-13
# アダプタフュージョンによるパラメータ効率変調バイアス低減

Parameter-efficient Modularised Bias Mitigation via AdapterFusion ( http://arxiv.org/abs/2302.06321v1 )

ライセンス: Link先を確認
Deepak Kumar, Oleg Lesota, George Zerveas, Daniel Cohen, Carsten Eickhoff, Markus Schedl, Navid Rekabsaz(参考訳) 大きな事前学習された言語モデルは社会バイアスを含み、これらのバイアスに沿って下流タスクに運ばれます。 現行のプロセス内バイアス緩和アプローチ(例えば逆行訓練)は、モデルのパラメータを更新することでデバイアスを課し、効果的にモデルを新しい、不可逆なデバイアス状態に移行する。 本研究では,モデルから分離したスタンドアロンのデバイアス機能を開発するための新しい手法を提案する。 dam(debiasing with adapter modules) - 任意のバイアス緩和機能を別々のアダプタにカプセル化し、それをオンデマンドでモデルに追加することで公平性を提供する。 我々は、性別、人種、年齢を保護属性とする3つの分類タスクに関する大規模な実験を行った。 以上の結果から, DAMはバイアス緩和の有効性を改善し, マルチ属性シナリオにおける破滅的な忘れを回避し, パラメータ効率を付与し, オリジナルモデルとデバイアスモデルとの切り替えが容易なタスク性能を維持した。

Large pre-trained language models contain societal biases and carry along these biases to downstream tasks. Current in-processing bias mitigation approaches (like adversarial training) impose debiasing by updating a model's parameters, effectively transferring the model to a new, irreversible debiased state. In this work, we propose a novel approach to develop stand-alone debiasing functionalities separate from the model, which can be integrated into the model on-demand, while keeping the core model untouched. Drawing from the concept of AdapterFusion in multi-task learning, we introduce DAM (Debiasing with Adapter Modules) - a debiasing approach to first encapsulate arbitrary bias mitigation functionalities into separate adapters, and then add them to the model on-demand in order to deliver fairness qualities. We conduct a large set of experiments on three classification tasks with gender, race, and age as protected attributes. Our results show that DAM improves or maintains the effectiveness of bias mitigation, avoids catastrophic forgetting in a multi-attribute scenario, and maintains on-par task performance, while granting parameter-efficiency and easy switching between the original and debiased models.
翻訳日:2023-02-14 15:39:28 公開日:2023-02-13
# CHSH Bellシナリオにおける局所集合の再検討

Revisited aspects of the local set in CHSH Bell scenario ( http://arxiv.org/abs/2302.06320v1 )

ライセンス: Link先を確認
Nicolas Gigena, Giovanni Scala, Antonio Mandarino(参考訳) ベルの不等式は、基礎面と応用面の両方における量子論の発展の基盤にある。 この議論は、現実の量子記述が完全かどうかをテストする方法として始まったが、量子情報と呼ばれる新しい研究領域がそれに由来するように発展した。 本稿では, 局所ポリトープとその面について, 構成的, 幾何学的に直感的に記述する。

The Bell inequalities stand at the cornerstone of the developments of quantum theory on both the foundational and applied side. The discussion started as a way to test whether the quantum description of reality is complete or not, but it developed in such a way that a new research area stemmed from it, namely quantum information. Far from being and exhausted topic, in the present paper we present a constructive and geometrically intuitive description of the local polytope and its facets in a bipartite Bell scenario with two dichotomic measurements per party.
翻訳日:2023-02-14 15:39:08 公開日:2023-02-13
# 手書き認識における書体適応に向けて

Towards Writing Style Adaptation in Handwriting Recognition ( http://arxiv.org/abs/2302.06318v1 )

ライセンス: Link先を確認
Jan Koh\'ut, Michal Hradi\v{s}, Martin Ki\v{s}\v{s}(参考訳) 手書き認識の課題の1つは、多種多様なスタイルを書写することである。 最先端のアプローチは、様々な曖昧さのために全体的な正確さを制限する可能性があるライターのスタイルに関する情報を明示的に使用しない。 我々は、ライターのアイデンティティを追加の入力として取り込む、ライター依存のパラメータを持つモデルについて検討する。 提案されたモデルは、単一の著者(例えば、シングルレター、ダイアリー、クロニクル)によって書かれたパーティションを持つデータセットでトレーニングすることができる。 本稿では,分割の学習埋め込みを前提とした適応型インスタンス正規化層であるWriter Style Block (WSB)を提案する。 我々はWSBの様々な配置と設定、および対照的に事前訓練された埋め込みを実験した。 著者に依存したシナリオでは,本手法はWSBのないベースラインよりも優れており,新たなライターへの埋め込みを推定できることを示す。 しかし、ライターに依存しない設定での単純な微調整によるドメイン適応は、同様の計算コストで優れた精度を提供する。 提案手法は, トレーニング安定度の観点からさらに検討し, 正規化を組み込んでベースラインを克服する。

One of the challenges of handwriting recognition is to transcribe a large number of vastly different writing styles. State-of-the-art approaches do not explicitly use information about the writer's style, which may be limiting overall accuracy due to various ambiguities. We explore models with writer-dependent parameters which take the writer's identity as an additional input. The proposed models can be trained on datasets with partitions likely written by a single author (e.g. single letter, diary, or chronicle). We propose a Writer Style Block (WSB), an adaptive instance normalization layer conditioned on learned embeddings of the partitions. We experimented with various placements and settings of WSB and contrastively pre-trained embeddings. We show that our approach outperforms a baseline with no WSB in a writer-dependent scenario and that it is possible to estimate embeddings for new writers. However, domain adaptation using simple finetuning in a writer-independent setting provides superior accuracy at a similar computational cost. The proposed approach should be further investigated in terms of training stability and embedding regularization to overcome such a baseline.
翻訳日:2023-02-14 15:39:01 公開日:2023-02-13
# ベイズ推定に基づく窒素空洞中心の効率的な実時間スピン読み出し

Efficient real-time spin readout of nitrogen-vacancy centers based on Bayesian estimation ( http://arxiv.org/abs/2302.06310v1 )

ライセンス: Link先を確認
Jixing Zhang, Tianzheng Liu, Sigang Xia, Guodong Bian, Pengcheng Fan, Mingxin Li, Sixian Wang, Xiangyun Li, Chen Zhang, Shaoda Zhang, and Heng Yuan(参考訳) 本研究では,窒素空孔(NV)中心のスピン読み出し効率を向上させるために,NV中心動力学モデルにより確立された先行確率分布と蛍光確率関数を併用した実時間ベイズ推定アルゴリズムを提案する。 理論上, 読み出し分散のクレーダ・ラオ下限を超過し, シミュレーションにおける読み出し効率の向上は, 従来の光子総和法に代わる魅力的な方法であることを示している。 ベイズ実時間推定読み出しは高性能取得・処理ハードウェアを組み合わせることで実験的に実現され,rabi振動実験では,提案手法の信号対雑音比が28.6%向上した。 したがって、ベイズ推定読み出しは、NVアンサンブルの優れた知覚能力を効果的に発揮し、コンパクトでスケーラブルな量子センサのさらなる開発を促進し、その結果、モノリシックなプラットフォーム上で新しい量子情報処理装置を開発することが期待されている。

In this work, to improve the spin readout efficiency of the nitrogen vacancy (NV) center, a real-time Bayesian estimation algorithm is proposed, which combines both the prior probability distribution and the fluorescence likelihood function established by the implementation of the NV center dynamics model. The theoretical surpass of the Cramer-Rao lower bound of the readout variance and the improvement of the readout efficiency in the simulation indicate that our approach is an appealing alternative to the conventional photon summation method. The Bayesian real-time estimation readout was experimentally realized by combining a high-performance acquisition and processing hardware, and the Rabi oscillation experiments divulged that the signal-to-noise ratio of our approach was improved by 28.6%. Therefore, it is anticipated that the employed Bayesian estimation readout will effectively present superior sensing capabilities of the NV ensemble, and foster the further development of compact and scalable quantum sensors and consequently novel quantum information processing devices on a monolithic platform.
翻訳日:2023-02-14 15:38:45 公開日:2023-02-13
# Finetuningは、手書き文字認識における驚くほど効果的なドメイン適応ベースライン

Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition ( http://arxiv.org/abs/2302.06308v1 )

ライセンス: Link先を確認
Jan Koh\'ut, Michal Hradi\v{s}(参考訳) 多くの機械学習タスクでは、大きな汎用データセットと小さな専門データセットが利用可能である。 このような状況では、ターゲットデータセットに汎用モデルを適用するために、さまざまなドメイン適応手法が使用できる。 ctcを使って手書き認識を訓練したニューラルネットワークの場合、このようなシナリオではデータ拡張による単純な微調整が驚くほどうまく機能し、非常に小さなターゲット領域のデータセットでも過剰に適合することが示されている。 著者に依存しない設定,著者に依存しない設定において,事前学習したネットワークの強化,データサイズ,品質に関する微調整の挙動を評価した。 大規模な実世界のデータセットでは、ファインタニングにより、平均的なCER改善が25パーセント、新しいライターが16行、256行が50%となった。

In many machine learning tasks, a large general dataset and a small specialized dataset are available. In such situations, various domain adaptation methods can be used to adapt a general model to the target dataset. We show that in the case of neural networks trained for handwriting recognition using CTC, simple finetuning with data augmentation works surprisingly well in such scenarios and that it is resistant to overfitting even for very small target domain datasets. We evaluated the behavior of finetuning with respect to augmentation, training data size, and quality of the pre-trained network, both in writer-dependent and writer-independent settings. On a large real-world dataset, finetuning provided an average relative CER improvement of 25 % with 16 text lines for new writers and 50 % for 256 text lines.
翻訳日:2023-02-14 15:38:25 公開日:2023-02-13
# 一次元格子モデルの複素性成長

Complexity growth for one-dimensional lattice models ( http://arxiv.org/abs/2302.06305v1 )

ライセンス: Link先を確認
S. Aravinda and Ranjan Modak(参考訳) 複雑性は量子コンピューティングやシミュレーションにおいて非常に重要な役割を担っており、ユニタリ回路を実装するのに必要な最小ゲート数の尺度として振る舞う。 非相互作用フェルミオンの1次元格子モデルのユニタリダイナミクスに対する複雑性 (eisert, phys. rev. lett. 127, 020501 (2021)) の下限の研究を行った。 準粒子形式を用いて解析し, 境界は線形に成長し, 短距離のタイト結合ハミルトニアンの飽和度を求める。 初期ネール状態から始まるユニタリダイナミクスは、熱力学的極限におけるそのようなハミルトニアンの境界を飽和させる。 長距離ホッピングモデルでも境界がネール状態に対して最大であることを示す数値的証拠を示す。 しかし、短距離モデルで観測される線形成長とは対照的に、境界の増大は時間的にサブ線形である。

The complexity plays a very important part in quantum computing and simulation where it acts as a measure of the minimal number of gates that are required to implement a unitary circuit. We study the lower bound of the complexity [Eisert, Phys. Rev. Lett. 127, 020501 (2021)] for the unitary dynamics of the one-dimensional lattice models of non-interacting fermions. We find analytically using quasiparticle formalism, the bound grows linearly in time and followed by a saturation for short-ranged tight-binding Hamiltonians. We prove the unitary dynamics starting from an initial Neel state saturates the bound for such Hamiltonians in the thermodynamic limit. We show numerical evidence that even for the long-range hopping models the bound is maximum for the Neel state. However, the increase of the bound is sub-linear in time, in contrast to the linear growth observed for short-range models.
翻訳日:2023-02-14 15:38:09 公開日:2023-02-13
# 汚れた誘電体環境における高インピーダンス共振器の性能

Performance of high impedance resonators in dirty dielectric environments ( http://arxiv.org/abs/2302.06303v1 )

ライセンス: Link先を確認
Jann H. Ungerer, Deepankar Sarmah, Artem Kononov, Joost Ridderbos, Roy Haller, Luk Yi Cheung, Christian Sch\"onenberger(参考訳) 高インピーダンス共振器はスピン量子ビット間の長距離エンタングゲートを実現するための有望な競合器である。 量子ビットの材料システムとして、スピン-軌道相互作用の強い半導体ナノワイヤがしばしば使われ、大規模なスピン-量子ビット量子プロセッサに向けた。 本質的には、ナノワイヤベースの量子ビットの製造は、共振器の品質を損なうゲート誘電体の使用に依存している。 本稿では,原子層堆積法により作製したSiO$_2$およびAl$_2$O$_3$付近の高インピーダンスNbTiN共振器の損失機構について検討する。 高磁場および高温における共振器性能のベンチマークを行い, 内部品質因子は, 共振器と使用酸化物の2レベル系との結合によって制限されていることを見出した。 いずれにせよ, 高インピーダンス共振器の内部品質係数は, 酸化膜構成のすべてにおいて10^3$を超えている。 これらの酸化物はナノワイヤデバイス製造に一般的に用いられるため,高インピーダンス共振器をナノワイヤベースの量子プロセッサに容易に統合することができる。 したがって、これらの実験は半導体ナノワイヤに基づく大規模量子コンピュータへの道を開いた。

High-impedance resonators are a promising contender for realizing long-distance entangling gates between spin qubits. As material system for the qubits, semiconductor nanowires with strong spin-orbit interaction are often employed, working towards a large-scale spin-qubit quantum processor. Inherently, the fabrication of nanowire based qubits relies on the use of gate dielectrics which are detrimental to the quality of the resonator. Here, we investigate loss mechanisms of high-impedance NbTiN resonators in the vicinity of thermally grown SiO$_2$ and of Al$_2$O$_3$ fabricated by atomic layer deposition. We benchmark the resonator performance in elevated magnetic fields and at elevated temperatures and find that the internal quality factors are limited by the coupling between the resonator and two-level systems of the employed oxides. Nonetheless, we measure the internal quality factors of high-impedance resonators to exceed $10^3$ in all investigated oxide configurations. Because these oxides are commonly used for nanowire-device fabrication, our results allow for straightforward integration of high-impedance resonators into a nanowire-based quantum processor. Hence, these experiments pave the way for large-scale quantum computers based on semiconductor nanowires.
翻訳日:2023-02-14 15:37:52 公開日:2023-02-13
# 室内クラッタ環境におけるオブジェクトセグメンテーションのためのニューロモルフィックデータセット

A Neuromorphic Dataset for Object Segmentation in Indoor Cluttered Environment ( http://arxiv.org/abs/2302.06301v1 )

ライセンス: Link先を確認
Xiaoqian Huang, Kachole Sanket, Abdulla Ayyad, Fariborz Baghaei Naeini, Dimitrios Makris, Yahya Zweir(参考訳) イベントベースのカメラを利用すると、動きのぼやけ、ダイナミックレンジの低さ、標準カメラの低時間サンプリングといった問題に対処できる。 しかし、セグメンテーションアルゴリズムのベンチマークに特化したイベントベースのデータセットが不足している。 本稿では,室内クラッタ環境におけるオブジェクトセグメンテーションのための高品質な3d空間および時間データセットであるイベントベースセグメンテーションデータセット(esd)を提案する。 提案するデータセットESDは,145のシーケンスと14,166のRGBフレームから構成される。 ステレオグラフィック構成の2つのイベントベースのカメラから、合計2188万と2080万のイベントがそれぞれ収集されている。 我々の知る限りでは、この高密度で3次元の時空間事象に基づくテーブルトップオブジェクトのセグメンテーションベンチマークは、その種の最初のものである。 ESDをリリースすることによって、私たちはコミュニティに高品質なセグメンテーションベンチマークを提供することを期待しています。

Taking advantage of an event-based camera, the issues of motion blur, low dynamic range and low time sampling of standard cameras can all be addressed. However, there is a lack of event-based datasets dedicated to the benchmarking of segmentation algorithms, especially those that provide depth information which is critical for segmentation in occluded scenes. This paper proposes a new Event-based Segmentation Dataset (ESD), a high-quality 3D spatial and temporal dataset for object segmentation in an indoor cluttered environment. Our proposed dataset ESD comprises 145 sequences with 14,166 RGB frames that are manually annotated with instance masks. Overall 21.88 million and 20.80 million events from two event-based cameras in a stereo-graphic configuration are collected, respectively. To the best of our knowledge, this densely annotated and 3D spatial-temporal event-based segmentation benchmark of tabletop objects is the first of its kind. By releasing ESD, we expect to provide the community with a challenging segmentation benchmark with high quality.
翻訳日:2023-02-14 15:37:33 公開日:2023-02-13
# 形態蛇と深層畳み込みニューラルネットワークを用いた膵臓の検出と分節化

Detection and Segmentation of Pancreas using Morphological Snakes and Deep Convolutional Neural Networks ( http://arxiv.org/abs/2302.06356v1 )

ライセンス: Link先を確認
Agapi Davradou(参考訳) 膵がんは最も致命的ながんの1つであり、診断された患者の25%は1年生存しており、6%は5年生存している。 CT検診は膵癌の早期発見において重要な役割を担っており, 生存率の大幅な改善が見られた。 しかし、これらの画像の高度な分析には、時間を要する作業である膵臓の手動セグメンテーションが必要となることが多い。 さらに, 膵臓の形状は変化が強く, 腹部CT検査の領域はごくわずかであり, 複雑さが増す。 ディープラーニングの急速な開発は、安価で正確でユーザに依存しないセグメンテーション結果を提供する堅牢なアルゴリズムを提供することに寄与する。 この論文は、膵臓の事前の粗い局在や検出を補助することにより、膵臓分画に対する2段階のアプローチを検討することにより、この課題に対処している。 この大まかな膵の局所化は推定確率マップによって提供され、YOLOv4ディープラーニングアルゴリズムを用いて検出処理を行う。 このセグメンテーションタスクは、クロッピングデータに適用される修正されたu-netモデルと形態素アクティブ輪郭アルゴリズムによって取り組まれる。 比較のために、U-NetモデルはフルCT画像にも適用され、粗い膵分画が参照として機能する。 NIH(National Institutes of Health)データセットの検知ネットワークと、メディカルセグメンテーション宣言における膵腫瘍タスクデータセットの実験結果は、平均精度50.67%を示している。 最高のセグメンテーションネットワークは、NIHデータセットで良いセグメンテーション結果を獲得し、67.67%のDiceスコアに達した。

Pancreatic cancer is one of the deadliest types of cancer, with 25% of the diagnosed patients surviving for only one year and 6% of them for five. Computed tomography (CT) screening trials have played a key role in improving early detection of pancreatic cancer, which has shown significant improvement in patient survival rates. However, advanced analysis of such images often requires manual segmentation of the pancreas, which is a time-consuming task. Moreover, pancreas presents high variability in shape, while occupying only a very small area of the entire abdominal CT scans, which increases the complexity of the problem. The rapid development of deep learning can contribute to offering robust algorithms that provide inexpensive, accurate, and user-independent segmentation results that can guide the domain experts. This dissertation addresses this task by investigating a two-step approach for pancreas segmentation, by assisting the task with a prior rough localization or detection of pancreas. This rough localization of the pancreas is provided by an estimated probability map and the detection task is achieved by using the YOLOv4 deep learning algorithm. The segmentation task is tackled by a modified U-Net model applied on cropped data, as well as by using a morphological active contours algorithm. For comparison, the U-Net model was also applied on the full CT images, which provide a coarse pancreas segmentation to serve as reference. Experimental results of the detection network on the National Institutes of Health (NIH) dataset and the pancreas tumour task dataset within the Medical Segmentation Decathlon show 50.67% mean Average Precision. The best segmentation network achieved good segmentation results on the NIH dataset, reaching 67.67% Dice score.
翻訳日:2023-02-14 15:32:20 公開日:2023-02-13
# SubTuning: マルチタスク学習のための効率的なファインタニング

SubTuning: Efficient Finetuning for Multi-Task Learning ( http://arxiv.org/abs/2302.06354v1 )

ライセンス: Link先を確認
Gal Kaplun, Andrey Gurevich, Tal Swisa, Mazor David, Shai Shalev-Shwartz and Eran Malach(参考訳) 事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。 そこで本研究では,ネットワークの全重みを微調整する代わりに,注意深く選択したレイヤのサブセットのみを訓練し,残りの重みを初期(事前訓練)の値で凍結させる方法を検討した。 我々は,モデルの完全微調整に匹敵する精度をしばしば達成し,訓練データ不足時の完全微調整性能を超過することを示した。 したがって、サブチューニングはモデル全体の微調整の利点を享受しながら、計算コストの最小化で新しいタスクのデプロイを可能にする。 これにより、異なるタスクが互いに干渉せず、推論時にほとんどのリソースを共有するマルチタスク学習のためのシンプルで効果的な方法が得られる。 複数のタスクにまたがるSubTuningの効率を、異なるネットワークアーキテクチャと事前学習手法を用いて実証する。

Finetuning a pretrained model has become a standard approach for training neural networks on novel tasks, resulting in fast convergence and improved performance. In this work, we study an alternative finetuning method, where instead of finetuning all the weights of the network, we only train a carefully chosen subset of layers, keeping the rest of the weights frozen at their initial (pretrained) values. We demonstrate that \emph{subset finetuning} (or SubTuning) often achieves accuracy comparable to full finetuning of the model, and even surpasses the performance of full finetuning when training data is scarce. Therefore, SubTuning allows deploying new tasks at minimal computational cost, while enjoying the benefits of finetuning the entire model. This yields a simple and effective method for multi-task learning, where different tasks do not interfere with one another, and yet share most of the resources at inference time. We demonstrate the efficiency of SubTuning across multiple tasks, using different network architectures and pretraining methods.
翻訳日:2023-02-14 15:31:49 公開日:2023-02-13
# 輪郭型インタラクティブセグメンテーション

Contour-based Interactive Segmentation ( http://arxiv.org/abs/2302.06353v1 )

ライセンス: Link先を確認
Danil Galeev, Polina Popenova, Anna Vorontsova and Anton Konushin(参考訳) インタラクティブセグメンテーション(IS)の最近の進歩により、画像編集とラベリングの高速化と簡素化が可能になった。 現代のisのアプローチの大部分は、クリックの形でユーザー入力を受け入れる。 しかし、クリックを使用することで、特に小さなオブジェクト、オブジェクトの小さな部分、または同じタイプのオブジェクトのグループを選択する場合、多くのユーザーインタラクションが必要になる可能性がある。 本稿では,このような自然なユーザインタラクションをゆるい輪郭とみなし,輪郭に基づくIS手法を提案する。 提案手法は,標準セグメンテーションベンチマーク,新規なusercontoursデータセット,および難セグメンテーションケースを含むサブセットusercontours-gを用いて評価する。 実験により,1つの輪郭が複数のクリックと同じ精度を提供し,必要なユーザインタラクション量を削減できることを実証した。

Recent advances in interactive segmentation (IS) allow speeding up and simplifying image editing and labeling greatly. The majority of modern IS approaches accept user input in the form of clicks. However, using clicks may require too many user interactions, especially when selecting small objects, minor parts of an object, or a group of objects of the same type. In this paper, we consider such a natural form of user interaction as a loose contour, and introduce a contour-based IS method. We evaluate the proposed method on the standard segmentation benchmarks, our novel UserContours dataset, and its subset UserContours-G containing difficult segmentation cases. Through experiments, we demonstrate that a single contour provides the same accuracy as multiple clicks, thus reducing the required amount of user interactions.
翻訳日:2023-02-14 15:31:32 公開日:2023-02-13
# Deep Anatomical Federated Network (Dafne): ディープラーニングに基づく医用画像セグメンテーションの継続的な協調的改善のためのオープンクライアント/サーバフレームワーク

Deep Anatomical Federated Network (Dafne): an open client/server framework for the continuous collaborative improvement of deep-learning-based medical image segmentation ( http://arxiv.org/abs/2302.06352v1 )

ライセンス: Link先を確認
Francesco Santini, Jakob Wasserthal, Abramo Agosti, Xeni Deligianni, Kevin R. Keene, Hermien E. Kan, Stefan Sommer, Christoph Stuprich, Fengdan Wang, Claudia Weidensteiner, Giulia Manco, Valentina Mazzoli, Arjun Desai, and Anna Pichiecchio(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、医学的(特に放射線学的)画像から定量的情報を抽出し、診断過程、臨床経過を補助する重要なステップである。 臨床研究用のバイオマーカーを作りました 近年,機械学習アルゴリズムがこのタスクの主要なツールとなっている。 しかし、実際のパフォーマンスはトレーニングデータの包括性に大きく依存している。 Dafneは、システムのユーザの集合的知識を活用する継続的に進化するディープラーニングモデルを実装する、最初の分散型協調ソリューションである。 Dafneワークフローでは、各自動セグメンテーションの結果が統合インターフェースを通じてユーザによって洗練され、新たな情報が統合インクリメンタル学習を通じてトレーニングプールを継続的に拡張するために使用される。 dafneを通じてデプロイされたモデルは、時間とともにパフォーマンスを向上し、トレーニングセットに見られないデータ型に一般化することができるため、実際の医療セグメント化タスクの実用的かつ実用的なソリューションになります。

Semantic segmentation is a crucial step to extract quantitative information from medical (and, specifically, radiological) images to aid the diagnostic process, clinical follow-up. and to generate biomarkers for clinical research. In recent years, machine learning algorithms have become the primary tool for this task. However, its real-world performance is heavily reliant on the comprehensiveness of training data. Dafne is the first decentralized, collaborative solution that implements continuously evolving deep learning models exploiting the collective knowledge of the users of the system. In the Dafne workflow, the result of each automated segmentation is refined by the user through an integrated interface, so that the new information is used to continuously expand the training pool via federated incremental learning. The models deployed through Dafne are able to improve their performance over time and to generalize to data types not seen in the training sets, thus becoming a viable and practical solution for real-life medical segmentation tasks.
翻訳日:2023-02-14 15:31:08 公開日:2023-02-13
# CLIP-RR:Relation-Focused Cross-Modal Information RetrievalのためのCLIPネットワークの改良

CLIP-RR: Improved CLIP Network for Relation-Focused Cross-Modal Information Retrieval ( http://arxiv.org/abs/2302.06350v1 )

ライセンス: Link先を確認
Yan Gong and Georgina Cosma(参考訳) リレーショナルなクロスモーダルな情報検索は,ユーザクエリで表現された関係に基づく情報検索に重点を置いており,情報検索アプリケーションや次世代検索エンジンでは特に重要である。 現在までに、CLIP(Contrastive Language- Image Pre-training)は、自然言語による視覚概念の効率的な学習により、モーダル間学習タスクにおける最先端のパフォーマンスを達成している。 しかし、CLIPは画像オブジェクトの関係に焦点を絞ることなく、自然言語から世界レベルで視覚表現を学ぶ。 本稿では,関係に着目したクロスモーダル情報検索を実現するCLIP-RRを提案する。 提案するネットワークはクリップを利用して事前学習した知識を活用し,(1)画像中の対象関係を抽出・推論するためのクリップの機能拡張,(2)画像と記述の類似度スコアを予測するための推論結果の集約,の2つの主成分を含む。 提案したネットワークをRefCOCOg, CLEVR, Flickr30Kデータセット上の相互モーダル情報検索タスクに適用して実験を行った。 その結果,提案ネットワークはclip,vse$\infty$,vsrn++など,画像間およびテキスト間クロスモーダル情報検索タスクにおいて,他の最先端ネットワークよりも優れていた。

Relation-focused cross-modal information retrieval focuses on retrieving information based on relations expressed in user queries, and it is particularly important in information retrieval applications and next-generation search engines. To date, CLIP (Contrastive Language-Image Pre-training) achieved state-of-the-art performance in cross-modal learning tasks due to its efficient learning of visual concepts from natural language supervision. However, CLIP learns visual representations from natural language at a global level without the capability of focusing on image-object relations. This paper proposes a novel CLIP-based network for Relation Reasoning, CLIP-RR, that tackles relation-focused cross-modal information retrieval. The proposed network utilises CLIP to leverage its pre-trained knowledge, and it additionally comprises two main parts: (1) extends the capabilities of CLIP to extract and reason with object relations in images; and (2) aggregates the reasoned results for predicting the similarity scores between images and descriptions. Experiments were carried out by applying the proposed network to relation-focused cross-modal information retrieval tasks on the RefCOCOg, CLEVR, and Flickr30K datasets. The results revealed that the proposed network outperformed various other state-of-the-art networks including CLIP, VSE$\infty$, and VSRN++ on both image-to-text and text-to-image cross-modal information retrieval tasks.
翻訳日:2023-02-14 15:30:37 公開日:2023-02-13
# フェアネスの可能性--実践における不可能理論の再考

The Possibility of Fairness: Revisiting the Impossibility Theorem in Practice ( http://arxiv.org/abs/2302.06347v1 )

ライセンス: Link先を確認
Andrew Bell, Lucius Bynum, Nazarii Drushchak, Tetiana Herasymova, Lucas Rosenblatt, Julia Stoyanovich(参考訳) アルゴリズムの公正性文学において基礎的なものとみなされる「即効性定理」は、予測される結果の確率がグループ間で等しくなる場合や完全に正確な予測器が使用される場合を除いて、統計モデルに適合する際のフェアネスの共通概念とパフォーマンスの間にトレードオフがある必要があると主張する。 しかし、理論は常に実践に通じるわけではない。 本研究では, 実用的設定において, 不可能定理の意義に挑戦する。 まず、分析学的に、不合理性定理を少し緩和することで(フェアネスの『textit{practitioner's}』の観点を適合させるために)、不整合性の制約を満たすようなモデルの大規模な集合を特定できることを示した。 第2に、これらのモデルの存在を5つの実世界のデータセットで広範な実験によって実証する。 結論として、複数の基準に沿った公平さがいつ(そしてどの程度まで)達成可能かを理解するためのツールとガイダンスを提供することで締めくくっています。 例えば、メトリクス間の誤差のマージンが小さい場合、集団間で中程度の有意な有意差がある場合でも、同時に \emph{false negative rate parity} と \emph{false positive rate parity} と \emph{ positive predict value parity} を同時に満たすモデル群が存在する。 複数のグループ(およびそれらの交差点)の複数のメトリクスに沿って公平性を達成することは、以前信じられていたよりもずっと可能です。

The ``impossibility theorem'' -- which is considered foundational in algorithmic fairness literature -- asserts that there must be trade-offs between common notions of fairness and performance when fitting statistical models, except in two special cases: when the prevalence of the outcome being predicted is equal across groups, or when a perfectly accurate predictor is used. However, theory does not always translate to practice. In this work, we challenge the implications of the impossibility theorem in practical settings. First, we show analytically that, by slightly relaxing the impossibility theorem (to accommodate a \textit{practitioner's} perspective of fairness), it becomes possible to identify a large set of models that satisfy seemingly incompatible fairness constraints. Second, we demonstrate the existence of these models through extensive experiments on five real-world datasets. We conclude by offering tools and guidance for practitioners to understand when -- and to what degree -- fairness along multiple criteria can be achieved. For example, if one allows only a small margin-of-error between metrics, there exists a large set of models simultaneously satisfying \emph{False Negative Rate Parity}, \emph{False Positive Rate Parity}, and \emph{Positive Predictive Value Parity}, even when there is a moderate prevalence difference between groups. This work has an important implication for the community: achieving fairness along multiple metrics for multiple groups (and their intersections) is much more possible than was previously believed.
翻訳日:2023-02-14 15:30:05 公開日:2023-02-13
# Text2shape Deep Retrieval Model: ケースベース推論による機械部品再設計の初期事例生成

Text2shape Deep Retrieval Model: Generating Initial Cases for Mechanical Part Redesign under the Context of Case-Based Reasoning ( http://arxiv.org/abs/2302.06341v1 )

ライセンス: Link先を確認
Tianshuo Zang, Maolin Yang, Wentao Yong and Pingyu Jiang(参考訳) 新しい設計要件の歴史的ケースベースから同様の解決策を見つけることは、ケースベース推論の文脈で機械部品の再設計の第一歩である。 しかし, ケースベースが大きい場合, 手動検索方式では低効率が問題となる。 さらに、単純な推論アルゴリズム(例えばルールベースの推論、決定木)が複雑な設計ソリューションで全ての特徴をカバーすることは困難である。 この場合、テキスト記述に基づく機械部品形状検索を支援するために、テキスト2形状深部検索モデルを構築し、対象の機械部品の構造的特徴を記述するためのテキストである。 より具体的には、対象の機械部品の重要な構造的特徴を特定するために特徴工学が適用される。 主要な構造的特徴を同定し,1000個のサンプルからなるトレーニングセットを構築し,各サンプルは,一群の構造的特徴と対応する構造的特徴の3次元形状のテキスト記述段落で構成された。 RNNと3D CNNアルゴリズムは、text2shapeのディープ検索モデルを構築するためにカスタマイズされた。 直交実験は回転のモデリングに用いられた。 最終的に、モデルの最高精度は0.98であり、機械部品の再設計のための初期ケースの回収に有効であった。

Retrieving the similar solutions from the historical case base for new design requirements is the first step in mechanical part redesign under the context of case-based reasoning. However, the manual retrieving method has the problem of low efficiency when the case base is large. Additionally, it is difficult for simple reasoning algorithms (e.g., rule-based reasoning, decision tree) to cover all the features in complicated design solutions. In this regard, a text2shape deep retrieval model is established in order to support text description-based mechanical part shapes retrieval, where the texts are for describing the structural features of the target mechanical parts. More specifically, feature engineering is applied to identify the key structural features of the target mechanical parts. Based on the identified key structural features, a training set of 1000 samples was constructed, where each sample consisted of a paragraph of text description of a group of structural features and the corresponding 3D shape of the structural features. RNN and 3D CNN algorithms were customized to build the text2shape deep retrieval model. Orthogonal experiments were used for modeling turning. Eventually, the highest accuracy of the model was 0.98; therefore, the model can be effective for retrieving initial cases for mechanical part redesign.
翻訳日:2023-02-14 15:29:34 公開日:2023-02-13
# 原子間物質を用いた超高輝度単一光子源

Ultra-bright single photon source based on an atomically thin material ( http://arxiv.org/abs/2302.06340v1 )

ライセンス: Link先を確認
Jens Christian Drawer, Victor Nikolaevich Mitryakhin, Hangyong Shan, Sven Stephan, Moritz Gittinger, Lukas Lackner, Bo Han, Gilbert Leibeling, Falk Eilenberger, Rounak Banerjee, Sefaattin Tongay, Kenji Watanabe, Takashi Taniguchi, Christoph Lienau, Martin Silies, Carlos Anton-Solanas, Martin Esmann, Christian Schneider(参考訳) 固体単一光子源は、量子通信ネットワークやオンチップ量子情報処理における中心的な構成要素である。 原子の薄い結晶は、非古典的な光を放出する候補として確立されたが、単層ベースの単一光子源の性能は、ボリューム結晶に基づく最先端のデバイスに後れを取っている。 本稿では,波長可変光学キャビティに結合したwse2の原子薄板を基に,単一光子源を実装した。 高い単光子純度で、$g^{(2)}(0)$が$4.7 \pm 0.7 \%$、記録的な高輝度の線形偏光子の第1レンズ輝度が$65 \pm 4 \%$であるのが特徴である。 興味深いことに、我々の装置の高性能はホン・ウー・マンデル実験で真の量子干渉現象を観測できる。 その結果, オープンキャビティと2次元材料は, このような2次元材料の特異な性質とオープンキャビティの汎用性により, 量子光電子デバイスへの着想の道が開かれた。

Solid-state single photon sources are central building blocks in quantum communication networks and on-chip quantum information processing. Atomically thin crystals were established as possible candidates to emit non-classical states of light, however, the performance of monolayer-based single photon sources has so far been lacking behind state-of-the-art devices based on volume crystals. Here, we implement a single photon source based on an atomically thin sheet of WSe2 coupled to a spectrally tunable optical cavity. It is characterized by a high single photon purity with a $g^{(2)}(0)$ value as low as $4.7 \pm 0.7 \%$ and a record-high first lens brightness of linearly polarized photons as large as $65 \pm 4 \%$. Interestingly, the high performance of our devices allows us to observe genuine quantum interference phenomena in a Hong-Ou-Mandel experiment. Our results demonstrate that open cavities and two-dimensional materials constitute an excellent platform for ultra-bright quantum light sources: the unique properties of such two-dimensional materials and the versatility of open cavities open an inspiring avenue for novel quantum optoelectronic devices.
翻訳日:2023-02-14 15:29:13 公開日:2023-02-13
# 論理を用いた騒がしい群衆ラベルからの学習

Learning from Noisy Crowd Labels with Logics ( http://arxiv.org/abs/2302.06337v1 )

ライセンス: Link先を確認
Zhijun Chen, Hailong Sun, Haoqian He, Pengpeng Chen(参考訳) 本稿では,雑音の多い群集ラベルから学習する深層ニューラルネットワークへの記号論理知識の統合について検討する。 ノイズラベル付きデータと論理規則の両方から学習するemライクな反復型論理知識蒸留フレームワークである,うるさい群衆ラベル(logic-lncl)からの論理誘導学習を導入する。 従来のEMメソッドとは異なり,我々のフレームワークには,論理ルールから新たなタイプの学習ターゲットを抽出する ``pseudo-E-step' が含まれており,それを '`pseudo-M-step' で分類器の訓練に使用する。 テキスト感情分類と名前付きエンティティ認識のための2つの実世界のデータセットに対する広範囲な評価は、提案フレームワークが最先端を改善し、騒々しい群衆ラベルから学習するための新しいソリューションを提供することを示す。

This paper explores the integration of symbolic logic knowledge into deep neural networks for learning from noisy crowd labels. We introduce Logic-guided Learning from Noisy Crowd Labels (Logic-LNCL), an EM-alike iterative logic knowledge distillation framework that learns from both noisy labeled data and logic rules of interest. Unlike traditional EM methods, our framework contains a ``pseudo-E-step'' that distills from the logic rules a new type of learning target, which is then used in the ``pseudo-M-step'' for training the classifier. Extensive evaluations on two real-world datasets for text sentiment classification and named entity recognition demonstrate that the proposed framework improves the state-of-the-art and provides a new solution to learning from noisy crowd labels.
翻訳日:2023-02-14 15:28:51 公開日:2023-02-13
# 相関ガウス関数によるオンライン任意型クラスタリング

Online Arbitrary Shaped Clustering through Correlated Gaussian Functions ( http://arxiv.org/abs/2302.06335v1 )

ライセンス: Link先を確認
Ole Christian Eidheim(参考訳) バックプロパゲーションが生物学的に妥当なメカニズムであることは確実な証拠はなく、代替学習方法のさらなる研究が必要である。 新規なオンラインクラスタリングアルゴリズムは、教師なしの方法で入力から任意の形状のクラスタを生成することができ、入力データ内のクラスタ数の事前知識を必要としない。 これは、一般的に発生する入力パターンをキャプチャする関数から相関した出力を見つけることで達成される。 このアルゴリズムは、バックプロパゲーションによるモデル最適化よりも生物学的に妥当であると見なすことができる。 しかし、この方法は注目すべきハイパーパラメータの範囲でいくつかのトイデータセットで十分な結果が得られる。

There is no convincing evidence that backpropagation is a biologically plausible mechanism, and further studies of alternative learning methods are needed. A novel online clustering algorithm is presented that can produce arbitrary shaped clusters from inputs in an unsupervised manner, and requires no prior knowledge of the number of clusters in the input data. This is achieved by finding correlated outputs from functions that capture commonly occurring input patterns. The algorithm can be deemed more biologically plausible than model optimization through backpropagation, although practical applicability may require additional research. However, the method yields satisfactory results on several toy datasets on a noteworthy range of hyperparameters.
翻訳日:2023-02-14 15:28:35 公開日:2023-02-13
# 名前付きエンティティ認識のためのタイプアウェア分解フレームワーク

Type-Aware Decomposed Framework for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2302.06397v1 )

ライセンス: Link先を確認
Yongqi Li, Tieyun Qian(参考訳) 少数ショット名付きエンティティ認識(NER)タスクにおける2段階のプロトタイプネットワークによる最近の成功にもかかわらず、スパン検出段階における過剰検出された偽スパンと型分類段階における不正確で不安定なプロトタイプは難しい問題である。 本稿では,これらの問題を解決するための新しいタイプアウェア分解フレームワーク,すなわちTadNERを提案する。 まず、型名から遠く離れたものを取り除き、偽スパンをフィルタリングする型認識スパンフィルタリング戦略を提案する。 そこで我々は,より正確で安定したプロトタイプを構築するための型認識型コントラスト学習戦略を提案する。 様々なベンチマーク実験により,提案したTadNERフレームワークが新たな最先端性能を実現することが示された。

Despite the recent success achieved by several two-stage prototypical networks in few-shot named entity recognition (NER) task, the over-detected false spans at span detection stage and the inaccurate and unstable prototypes at type classification stage remain to be challenging problems. In this paper, we propose a novel Type-Aware Decomposed framework, namely TadNER, to solve these problems. We first present a type-aware span filtering strategy to filter out false spans by removing those semantically far away from type names. We then present a type-aware contrastive learning strategy to construct more accurate and stable prototypes by jointly exploiting support samples and type names as references. Extensive experiments on various benchmarks prove that our proposed TadNER framework yields a new state-of-the-art performance.
翻訳日:2023-02-14 15:22:29 公開日:2023-02-13
# 非相互ディックモデル

The non-reciprocal Dicke model ( http://arxiv.org/abs/2302.06386v1 )

ライセンス: Link先を確認
Ezequiel I. Rodr\'iguez Chiacchio, Andreas Nunnenkamp, Matteo Brunelli(参考訳) 光場が2つのスピン種間の非相互相互作用を媒介する開放二成分ディックモデルの物理について検討する。 非相互ディックモデルをダブしたモデルが離散パリティ時間($\mathcal{PT}$)対称性を示し、非定常位相の出現を特徴付け、これまでは$\mathcal{PT}$対称性の自発的破壊として散逸誘起不安定性の観点から説明してきた。 さらに、そのような$\mathcal{PT}$対称性の破れは、Fruchart $et$$alによって最近導入された概念である非相互相転移のインスタンスを具現化することを示す。 $ [Nature ${\bf 592}$, 363 (2021)] 驚くべきことに、このモデルにおける相転移は、スペクトルの破れた対称性や例外的な点の存在を必要とせず、どちらも非相転移の必須要件であると信じられている。 本研究では,非相対的位相遷移を探索するための新しい方法として,非相対的集合現象の理論に寄与する,駆動散逸型光マターシステムを確立した。

We investigate the physics of an open two-component Dicke model, where the light field mediates non-reciprocal interactions between two spin species. We show that the model, which we dub non-reciprocal Dicke model, exhibits a discrete parity-time ($\mathcal{PT}$) symmetry and we characterize the emergence of a non-stationary phase, so far explained in terms of dissipation-induced instability, as spontaneous breaking of $\mathcal{PT}$ symmetry. We further show that such $\mathcal{PT}$ symmetry breaking embodies an instance of a non-reciprocal phase transition, a concept recently introduced by Fruchart $et$ $al.$ [Nature ${\bf 592}$, 363 (2021)]. Remarkably, the phase transition in our model does not necessitate the presence of any underlying broken symmetry or exceptional points in the spectrum, both believed to be essential requirements for non-reciprocal phase transitions. Our results establish driven-dissipative light-matter systems as a new avenue for exploring non-reciprocal phase transitions and contribute to the theory of non-reciprocal collective phenomena.
翻訳日:2023-02-14 15:21:48 公開日:2023-02-13
# フリンジ投影プロファイロメトリーにおける自己制御位相解離

Self-supervised phase unwrapping in fringe projection profilometry ( http://arxiv.org/abs/2302.06381v1 )

ライセンス: Link先を確認
Xiaomin Gao, Wanzhong Song, Chunqian Tan, Junzhe Lei(参考訳) 高速かつ高精度な3次元形状測定は、FPP (fringe projection profilometry) において常に目標となっている。 二周波時相解離法(DF-TPU)はこの目的を達成するための重要な技術の一つである。 しかしながら、既存のdf-tpuアプローチの高周波パターンの周期数は、通常避けられない位相誤差によって制限され、測定精度の限界となる。 シングルカメラFPPの深層学習に基づく位相解放法は通常、トレーニングのためにラベル付きデータを必要とする。 本稿では,単一カメラ用FPPシステムの自己監督型位相解放手法を提案する。 訓練されたネットワークは、64周期の1フェーズマップから絶対縁順を検索し、深さ精度でDF-TPUアプローチをオーバーパフォーマンスすることができる。 実験により, 提案手法が実際の動きのぼやけ, 孤立物体, 低反射率, 位相不連続の場面で有効であることを示す。

Fast-speed and high-accuracy three-dimensional (3D) shape measurement has been the goal all along in fringe projection profilometry (FPP). The dual-frequency temporal phase unwrapping method (DF-TPU) is one of the prominent technologies to achieve this goal. However, the period number of the high-frequency pattern of existing DF-TPU approaches is usually limited by the inevitable phase errors, setting a limit to measurement accuracy. Deep-learning-based phase unwrapping methods for single-camera FPP usually require labeled data for training. In this letter, a novel self-supervised phase unwrapping method for single-camera FPP systems is proposed. The trained network can retrieve the absolute fringe order from one phase map of 64-period and overperform DF-TPU approaches in terms of depth accuracy. Experimental results demonstrate the validation of the proposed method on real scenes of motion blur, isolated objects, low reflectivity, and phase discontinuity.
翻訳日:2023-02-14 15:21:28 公開日:2023-02-13
# セマンティック・イメージ・セグメンテーション:2年間の研究

Semantic Image Segmentation: Two Decades of Research ( http://arxiv.org/abs/2302.06378v1 )

ライセンス: Link先を確認
Gabriela Csurka, Riccardo Volpi and Boris Chidlovskii(参考訳) セマンティックイメージセグメンテーション(SiS)は様々なコンピュータビジョンアプリケーションにおいて基本的な役割を担い、画像のグローバルな理解のための重要な情報を提供する。 本調査は,SiS分野における20年間の研究成果を要約する試みであり,近年のトランスフォーマーの利用動向を含む,最近のディープラーニング手法の概要を概説した,初期の歴史的手法から始まるソリューションの文献的レビューを提案する。 我々は,カリキュラム,インクリメンタル,あるいは自己教師付き学習といった意味的セグメンテーションを改善するために使用できる,弱い監督とサイド機械学習技術の特定のケースについて議論することで,レビューを補完する。 最先端のSiSモデルは大量の注釈付きサンプルに依存しており、画像分類などのタスクのラベルよりも高額である。 ラベルのないデータは入手がかなり安価であるため、Unsupervised Domain Adaptation (UDA)がセマンティックセグメンテーションコミュニティで広く成功したことは驚くべきことではない。 したがって、本書の2つ目の中核的な貢献は、セグメンテーション自体の重要性を受け入れ、セグメンテーションモデルを新しい環境に適応させる重要な必要性を抱く、急速に成長する分野であるDASiS(Domain Adaptation for Semantic Image Segmentation)の5年間を要約することである。 dasis技術に関する包括的な調査に加えて,マルチドメイン学習,ドメイン一般化,ドメインインクリメンタル学習,テスト時間適応,ソースフリードメイン適応といった新たなトレンドも紹介する。 最後に,SiS や DASiS で広く使用されているデータセットとベンチマークを概説し,実例や汎視像のセグメンテーションなどの関連タスクや,医用画像のセグメンテーションなどの応用について概説した。

Semantic image segmentation (SiS) plays a fundamental role in a broad variety of computer vision applications, providing key information for the global understanding of an image. This survey is an effort to summarize two decades of research in the field of SiS, where we propose a literature review of solutions starting from early historical methods followed by an overview of more recent deep learning methods including the latest trend of using transformers. We complement the review by discussing particular cases of the weak supervision and side machine learning techniques that can be used to improve the semantic segmentation such as curriculum, incremental or self-supervised learning. State-of-the-art SiS models rely on a large amount of annotated samples, which are more expensive to obtain than labels for tasks such as image classification. Since unlabeled data is instead significantly cheaper to obtain, it is not surprising that Unsupervised Domain Adaptation (UDA) reached a broad success within the semantic segmentation community. Therefore, a second core contribution of this book is to summarize five years of a rapidly growing field, Domain Adaptation for Semantic Image Segmentation (DASiS) which embraces the importance of semantic segmentation itself and a critical need of adapting segmentation models to new environments. In addition to providing a comprehensive survey on DASiS techniques, we unveil also newer trends such as multi-domain learning, domain generalization, domain incremental learning, test-time adaptation and source-free domain adaptation. Finally, we conclude this survey by describing datasets and benchmarks most widely used in SiS and DASiS and briefly discuss related tasks such as instance and panoptic image segmentation, as well as applications such as medical image segmentation.
翻訳日:2023-02-14 15:21:15 公開日:2023-02-13
# 多制御単ビットゲートの分解

Decomposition of Multi-controlled Special Unitary Single-Qubit Gates ( http://arxiv.org/abs/2302.06377v1 )

ライセンス: Link先を確認
Rafaella Vale and Thiago Melo D. Azevedo and Ismael C. S. Ara\'ujo and Israel F. Araujo and Adenilton J. da Silva(参考訳) マルチコントロールユニタリゲートは、その誕生以来、量子コンピューティングへの関心の対象であり、量子アルゴリズムで広く使われている。 n量子ビットのマルチコントロールゲートを実装する現在の最先端のアプローチは、シングル量子ビットとcnotゲートの2次数の使用である。 しかし、制御ゲートが特殊ユニタリSU(2)である場合には線形解が可能である。 nビットの多重制御SU(2)ゲートの最も広く使われている分解には、CNOTゲートが28nに比例した回路が必要である。 本研究では,複数のcnotゲートが20nに比例し,su(2)ゲートが少なくとも1つの実値対角形を持つ場合,16nに比例する回路を必要とするn量子ビット多制御su(2)ゲートの新たな分解を提案する。 この新しいアプローチは、CNOTゲートの数と回路深さを減らし、既存のアルゴリズムを大幅に改善する。 応用として、この分解をスパース量子状態の準備に利用することを示す。 この結果は,量子クラウドサービスを通じてアクセスされる量子デバイス上での原理の証明によってさらに検証される。

Multi-controlled unitary gates have been a subject of interest in quantum computing since its inception, and are widely used in quantum algorithms. The current state-of-the-art approach to implementing n-qubit multi-controlled gates involves the use of a quadratic number of single-qubit and CNOT gates. However, linear solutions are possible for the case where the controlled gate is a special unitary SU(2). The most widely-used decomposition of an n-qubit multi-controlled SU(2) gate requires a circuit with a number of CNOT gates proportional to 28n. In this work, we present a new decomposition of n-qubit multi-controlled SU(2) gates that requires a circuit with a number of CNOT gates proportional to 20n, and proportional to 16n if the SU(2) gate has at least one real-valued diagonal. This new approach significantly improves the existing algorithm by reducing the number of CNOT gates and the overall circuit depth. As an application, we show the use of this decomposition for sparse quantum state preparation. Our results are further validated by demonstrating a proof of principle on a quantum device accessed through quantum cloud services.
翻訳日:2023-02-14 15:20:42 公開日:2023-02-13
# 全時系列用1変圧器:時間依存不均一表データによる表現とトレーニング

One Transformer for All Time Series: Representing and Training with Time-Dependent Heterogeneous Tabular Data ( http://arxiv.org/abs/2302.06375v1 )

ライセンス: Link先を確認
Simone Luetto, Fabrizio Garuti, Enver Sangineto, Lorenzo Forni, Rita Cucchiara(参考訳) 近年,この構造化領域における他の人工知能領域の成功を再現するために,グラフデータにディープラーニング技術を適用することへの関心が高まっている。 特に興味深いのは、例えば金融取引など、表データに時間依存がある場合である。 しかし、分類的要素と数値的要素を混合した表値の不均一性は、この適応を困難にしている。 本稿では,周波数関数の集合を用いて数値的な特徴を表現し,ネットワーク全体を一意な損失関数で一様に訓練する,不均質な時間依存表データを表すトランスフォーマアーキテクチャを提案する。

There is a recent growing interest in applying Deep Learning techniques to tabular data, in order to replicate the success of other Artificial Intelligence areas in this structured domain. Specifically interesting is the case in which tabular data have a time dependence, such as, for instance financial transactions. However, the heterogeneity of the tabular values, in which categorical elements are mixed with numerical items, makes this adaptation difficult. In this paper we propose a Transformer architecture to represent heterogeneous time-dependent tabular data, in which numerical features are represented using a set of frequency functions and the whole network is uniformly trained with a unique loss function.
翻訳日:2023-02-14 15:20:25 公開日:2023-02-13
# DASH: 算数粒度回路による分散プライベート機械学習推論の高速化

DASH: Accelerating Distributed Private Machine Learning Inference with Arithmetic Garbled Circuits ( http://arxiv.org/abs/2302.06361v1 )

ライセンス: Link先を確認
Jonas Sander, Sebastian Berndt, Ida Bruhns, Thomas Eisenbarth(参考訳) 機械学習ソリューションの採用は、社会のあらゆる部分で急速に増加している。 Amazon Web Services、Microsoft Azure、Google Cloud Platformなどのクラウドサービスプロバイダは、Machine-Learning-as-a-Serviceサービスを積極的に拡張している。 機械学習の普及は、研究と産業の両方にとって大きな可能性を秘めているが、信頼できないプラットフォーム上の機密データに対する大規模な評価には、固有のデータセキュリティとプライバシリスクが伴う。 計算時間は高価であるため、機械学習ではパフォーマンスが重要な要素である。 しかし、過去数年間に提案された一般的なセキュリティ対策には、大幅なパフォーマンス上のオーバーヘッドが伴う。 深層畳み込みニューラルネットワークに着目し,保護された分散機械学習システムの現状について検討する。 最も一般的で優れた混合MPCアプローチは、同型暗号化、秘密共有、ガーブロード回路に基づいている。 一般的には、ニューラルネットワークの深さで線形に成長する通信オーバーヘッドに苦しむ。 dashは、高速で分散したプライベートな機械学習推論スキームである。 dashは純粋にgarbled回路に基づいている。 ニューラルネットワークの深さや、非常に小さな一定の通信量に関係なく、推論ステップ毎の単一の通信ラウンドのみを必要とする。 これにより、Dashはパフォーマンス要件を大幅に削減し、以前のアプローチよりもスケールが向上する。 また,ラベルテンソルの概念についても紹介する。 これにより、ガーブラード回路を使用しながらGPUを効率的に使用することができ、ランタイムをさらに削減できる。 Dashは悪意のある攻撃者に対するセキュリティを提供する。

The adoption of machine learning solutions is rapidly increasing across all parts of society. Cloud service providers such as Amazon Web Services, Microsoft Azure and the Google Cloud Platform aggressively expand their Machine-Learning-as-a-Service offerings. While the widespread adoption of machine learning has huge potential for both research and industry, the large-scale evaluation of possibly sensitive data on untrusted platforms bears inherent data security and privacy risks. Since computation time is expensive, performance is a critical factor for machine learning. However, prevailing security measures proposed in the past years come with a significant performance overhead. We investigate the current state of protected distributed machine learning systems, focusing on deep convolutional neural networks. The most common and best-performing mixed MPC approaches are based on homomorphic encryption, secret sharing, and garbled circuits. They commonly suffer from communication overheads that grow linearly in the depth of the neural network. We present Dash, a fast and distributed private machine learning inference scheme. Dash is based purely on arithmetic garbled circuits. It requires only a single communication round per inference step, regardless of the depth of the neural network, and a very small constant communication volume. Dash thus significantly reduces performance requirements and scales better than previous approaches. In addition, we introduce the concept of LabelTensors. This allows us to efficiently use GPUs while using garbled circuits, which further reduces the runtime. Dash offers security against a malicious attacker and is up to 140 times faster than previous arithmetic garbling schemes.
翻訳日:2023-02-14 15:20:12 公開日:2023-02-13
# 動的ニューラルネットワークにおける過信の固定

Fixing Overconfidence in Dynamic Neural Networks ( http://arxiv.org/abs/2302.06359v1 )

ライセンス: Link先を確認
Lassi Meronen, Martin Trapp, Andrea Pilzer, Le Yang, Arno Solin(参考訳) 動的ニューラルネットワークは、入力サンプルの難易度に計算コストを動的に適応させることにより、現代のディープラーニングモデルのサイズを拡大する対策を約束する最近の技術である。 このように、モデルは限られた計算予算に調整することができる。 しかしながら、ディープラーニングモデルにおける不確実性推定の質が低ければ、難しいサンプルと簡単なサンプルの区別が困難になる。 この課題に対処するために,動的ニューラルネットワークにおけるポストホック不確実性定量化のための計算効率の高い手法を提案する。 本稿では,最終層を確率論的に処理することで,アレテータ的不確実性と認識的不確実性の両方を適切に定量化し計算し,計算予算を決定する際の意思決定を支援することを示す。 実験では,CIFAR-100 と ImageNet の精度,不確かさの把握,校正誤差について改善点を示す。

Dynamic neural networks are a recent technique that promises a remedy for the increasing size of modern deep learning models by dynamically adapting their computational cost to the difficulty of the input samples. In this way, the model can adjust to a limited computational budget. However, the poor quality of uncertainty estimates in deep learning models makes it difficult to distinguish between hard and easy samples. To address this challenge, we present a computationally efficient approach for post-hoc uncertainty quantification in dynamic neural networks. We show that adequately quantifying and accounting for both aleatoric and epistemic uncertainty through a probabilistic treatment of the last layers improves the predictive performance and aids decision-making when determining the computational budget. In the experiments, we show improvements on CIFAR-100 and ImageNet in terms of accuracy, capturing uncertainty, and calibration error.
翻訳日:2023-02-14 15:19:51 公開日:2023-02-13
# エゴセントリックビデオのための次のアクティブオブジェクトの予測

Anticipating Next Active Objects for Egocentric Videos ( http://arxiv.org/abs/2302.06358v1 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino and Alessio Del Bue(参考訳) 本稿では, アクションが発生する前に, 接触する可能性のある自発的映像クリップに対して, 今後, 次の活動対象位置を予測できる問題に対処する。 観察されたクリップとアクションセグメントがいわゆる「コンタクトする時間」(ttc)セグメントで分離されるシナリオにおいて、このようなオブジェクトの位置を推定することを目的としているため、この問題はかなり難しい。 過去の手の動きや周囲との相互作用に基づく行動を予測するために,多くの手法が提案されている。 しかし、ttcウィンドウの1人目の動きと視野ドリフトに関して、次の相互作用可能な物体と将来の位置について調査する試みは行われていない。 我々はこれを次の活動対象(ANACTO)を予測するタスクとして定義する。 そこで本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するトランスフォーマーベースの自己認識フレームワークを提案する。 EpicKitchens-100, EGTEA+, Ego4Dの3つのデータセットでベンチマークを行った。 最初の2つのデータセットに対するアノテーションも提供します。 我々のアプローチは、関連するベースライン手法と比較して最もうまく機能する。 また,提案法とベースライン法の有効性を理解するため,アブレーション実験を行った。 コードとANACTOタスクアノテーションは、論文の受理時に利用可能になる。

This paper addresses the problem of anticipating the next-active-object location in the future, for a given egocentric video clip where the contact might happen, before any action takes place. The problem is considerably hard, as we aim at estimating the position of such objects in a scenario where the observed clip and the action segment are separated by the so-called ``time to contact'' (TTC) segment. Many methods have been proposed to anticipate the action of a person based on previous hand movements and interactions with the surroundings. However, there have been no attempts to investigate the next possible interactable object, and its future location with respect to the first-person's motion and the field-of-view drift during the TTC window. We define this as the task of Anticipating the Next ACTive Object (ANACTO). To this end, we propose a transformer-based self-attention framework to identify and locate the next-active-object in an egocentric clip. We benchmark our method on three datasets: EpicKitchens-100, EGTEA+ and Ego4D. We also provide annotations for the first two datasets. Our approach performs best compared to relevant baseline methods. We also conduct ablation studies to understand the effectiveness of the proposed and baseline methods on varying conditions. Code and ANACTO task annotations will be made available upon paper acceptance.
翻訳日:2023-02-14 15:19:35 公開日:2023-02-13
# 近位ニュートン法による効率的なグラフラプラシアン推定

Efficient Graph Laplacian Estimation by a Proximal Newton Approach ( http://arxiv.org/abs/2302.06434v1 )

ライセンス: Link先を確認
Yakov Medvedovsky, Eran Treister, Tirza Routtenberg(参考訳) Laplacian-Constrained Gaussian Markov Random Field (LGMRF) は、与えられたデータから重み付きスパース依存グラフを学ぶための一般的な多変量統計モデルである。 このグラフ学習問題は、ラプラシア構造制約を受ける精度行列の最大極大推定(MLE)として、スパース性誘導ペナルティ項で定式化される。 本稿では,この学習問題を正確かつ効率的に解くことを目的とする。 まず、この設定で一般的に使われる$\ell_1$-normのペナルティは適切ではないため、推定バイアスの低いスパース解を促進する非凸ミニマックスペナルティ(MCP)を用いる。 第二に,本手法は既存の一階法と対照的に,第2次ニュートン法を基礎として大規模ネットワークの効率的な解法を得る。 このアプローチは、関連するグラフィカルラッソ問題に対して最も効率的であり、共役勾配の使用、事前条件付け、アクティブ/フリー集合への分割など、我々が活用するいくつかのアルゴリズム的特徴を可能にする。 数値実験により,従来の手法と比較して計算量およびグラフ学習精度の点で,提案手法の利点が示された。

The Laplacian-constrained Gaussian Markov Random Field (LGMRF) is a common multivariate statistical model for learning a weighted sparse dependency graph from given data. This graph learning problem is formulated as a maximum likelihood estimation (MLE) of the precision matrix, subject to Laplacian structural constraints, with a sparsity-inducing penalty term. This paper aims to solve this learning problem accurately and efficiently. First, since the commonly-used $\ell_1$-norm penalty is less appropriate in this setting, we employ the nonconvex minimax concave penalty (MCP), which promotes sparse solutions with lower estimation bias. Second, as opposed to most existing first-order methods for this problem, we base our method on the second-order proximal Newton approach to obtain an efficient solver for large-scale networks. This approach is considered the most efficient for the related graphical LASSO problem and allows for several algorithmic features we exploit, such as using Conjugate Gradients, preconditioning, and splitting to active/free sets. Numerical experiments demonstrate the advantages of the proposed method in terms of \emph{both} computational complexity and graph learning accuracy compared to existing methods.
翻訳日:2023-02-14 15:13:19 公開日:2023-02-13
# ラベル効率のよい時系列表現学習

Label-efficient Time Series Representation Learning: A Review ( http://arxiv.org/abs/2302.06433v1 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li(参考訳) ラベル付きデータの不足は,実世界の時系列データにディープラーニングモデルを適用する上で,大きな課題のひとつだ。 そのため,近年,移動学習,自己指導学習,半教師付き学習といったいくつかの手法が開発され,限られた時系列ラベルから深層学習モデルの学習能力の向上が図られている。 本研究では, 時系列データにおけるラベル付きデータの不足に対処する既存の手法を, 外部データソースへの依存に基づいて分類する新たな分類法を提案する。 さらに、各アプローチの最近の進歩を概観し、現在の作業の限界を結論付け、この分野の進歩をもたらすであろう今後の方向性について述べる。

The scarcity of labeled data is one of the main challenges of applying deep learning models on time series data in the real world. Therefore, several approaches, e.g., transfer learning, self-supervised learning, and semi-supervised learning, have been recently developed to promote the learning capability of deep learning models from the limited time series labels. In this survey, for the first time, we provide a novel taxonomy to categorize existing approaches that address the scarcity of labeled data problem in time series data based on their reliance on external data sources. Moreover, we present a review of the recent advances in each approach and conclude the limitations of the current works and provide future directions that could yield better progress in the field.
翻訳日:2023-02-14 15:12:57 公開日:2023-02-13
# 深層学習に基づくグローバル・セグメンテーションに基づくセマンティック特徴融合による屋内シーン分類

A Deep Learning-based Global and Segmentation-based Semantic Feature Fusion Approach for Indoor Scene Classification ( http://arxiv.org/abs/2302.06432v1 )

ライセンス: Link先を確認
Ricardo Pereira, Tiago Barros, Lu\'is Garrote, Ana Lopes, Urbano J. Nunes(参考訳) 屋内シーンの分類は知覚モジュールにおいて重要なタスクとなり、様々な用途で広く使われている。 しかし,カテゴリ内変動やカテゴリ間類似性といった問題は,モデルの性能を抑えているため,より意味のあるシーン表現を得るためには,新たなタイプの機能が必要である。 意味セグメンテーションマスクは、シーンで利用可能なオブジェクトに関するピクセルレベルの情報を提供するので、シーンをより有意義な局所表現を得るための有望な情報ソースとなる。 そこで本研究では,セグメンテーション・セグメンテーション・マスクを用いて,セグメンテーションに基づくセグメンテーション特徴(ssfs)によって指定されたシーン全体のオブジェクトカテゴリの2次元空間レイアウトを得る新しいアプローチを提案する。 これらの特徴は、対象のカテゴリごとに、ピクセル数、および2d平均位置およびそれぞれの標準偏差値を表す。 さらに,RGB画像から抽出したCNNによるグローバルな特徴と,提案したSSFから抽出したセグメンテーションに基づく特徴を活かした2分岐ネットワークGS2F2Appを提案する。 GS2F2Appは、SUN RGB-DとNYU Depth V2の2つの屋内シーンベンチマークデータセットで評価され、両方のデータセットで最先端の結果が得られた。

Indoor scene classification has become an important task in perception modules and has been widely used in various applications. However, problems such as intra-category variability and inter-category similarity have been holding back the models' performance, which leads to the need for new types of features to obtain a more meaningful scene representation. A semantic segmentation mask provides pixel-level information about the objects available in the scene, which makes it a promising source of information to obtain a more meaningful local representation of the scene. Therefore, in this work, a novel approach that uses a semantic segmentation mask to obtain a 2D spatial layout of the object categories across the scene, designated by segmentation-based semantic features (SSFs), is proposed. These features represent, per object category, the pixel count, as well as the 2D average position and respective standard deviation values. Moreover, a two-branch network, GS2F2App, that exploits CNN-based global features extracted from RGB images and the segmentation-based features extracted from the proposed SSFs, is also proposed. GS2F2App was evaluated in two indoor scene benchmark datasets: the SUN RGB-D and the NYU Depth V2, achieving state-of-the-art results on both datasets.
翻訳日:2023-02-14 15:12:45 公開日:2023-02-13
# 深部グラフレベル直交超球圧縮による異常検出

Deep Graph-Level Orthogonal Hypersphere Compression for Anomaly Detection ( http://arxiv.org/abs/2302.06430v1 )

ライセンス: Link先を確認
Yunhe Zhang, Yan Sun, Jinyu Cai, Jicong Fan(参考訳) グラフレベルの異常検出は、教師なしの方法でグラフの集合から異常グラフを識別することを目的としている。 異常検出の一般的な仮定は、合理的な決定境界は超球形であるが、高次元においていくつかの非コンフォーミング現象が現れるというものである。 まず,超球異常決定境界を探索しながら,下位構造と大域構造特徴の最大相互情報を含むグラフ表現を学習する,新しい深層グラフレベル異常検出モデルを提案する。 そのアイデアは、直交射影層を介して決定超球面と一致するトレーニングデータ分布を保証することである。 さらに, 正規グラフからの異常グラフの識別を強調するために, 双超球圧縮も行う。 本手法はグラフデータに限らず,画像などの他のデータの異常検出にも適用可能である。 ベンチマークデータセットの数値と可視化の結果は,多くのベースラインや最先端データと比較して,提案手法の有効性と優越性を示している。

Graph-level anomaly detection aims to identify anomalous graphs from a collection of graphs in an unsupervised manner. A common assumption of anomaly detection is that a reasonable decision boundary has a hypersphere shape, but may appear some non-conforming phenomena in high dimensions. Towards this end, we firstly propose a novel deep graph-level anomaly detection model, which learns the graph representation with maximum mutual information between substructure and global structure features while exploring a hypersphere anomaly decision boundary. The idea is to ensure the training data distribution consistent with the decision hypersphere via an orthogonal projection layer. Moreover, we further perform the bi-hypersphere compression to emphasize the discrimination of anomalous graphs from normal graphs. Note that our method is not confined to graph data and is applicable to anomaly detection of other data such as images. The numerical and visualization results on benchmark datasets demonstrate the effectiveness and superiority of our methods in comparison to many baselines and state-of-the-arts.
翻訳日:2023-02-14 15:12:19 公開日:2023-02-13
# 衝突型貯水池の熱処理と脱落

Thermalization and dephasing in collisional reservoirs ( http://arxiv.org/abs/2302.06429v1 )

ライセンス: Link先を確認
Jorge Tabanera-Bravo, Juan M.R. Parrondo, Massimiliano Esposito, Felipe Barra(参考訳) 衝突貯水池で発生する幅広い量子マップを導入し,追加のデファッショニング機構と連動して動作する場合,システムを熱分解することができる。 これらの地図は衝突の影響を記述し、詳細なバランスに従う集団間の遷移を誘導するだけでなく、システムの熱化を防ぐコヒーレンスも生成する。 これらの地図と、衝突の間のポアソニアン時間のランダムに作用するユニタリ進化を組み合わせることで、デファスメントを引き起こす。 衝突率が低ければ、この2つの効果の非自明な組み合わせが系の熱化を引き起こすことが分かる。 このシナリオは平衡での衝突貯水池のモデル化に適している。 このような写像が散乱理論のアプローチで生じる条件を特定してこの主張を正当化し、得られた熱化過程を徹底的に評価する。

We introduce a wide class of quantum maps that arise in collisional reservoirs and are able to thermalize a system if they operate in conjunction with an additional dephasing mechanism. These maps describe the effect of collisions and induce transitions between populations that obey detailed balance, but also create coherences that prevent the system from thermalizing. We combine these maps with a unitary evolution acting during random Poissonian times between collisions and causing dephasing. We find that, at a low collision rate, the nontrivial combination of these two effects causes thermalization in the system. This scenario is suitable for modeling collisional reservoirs at equilibrium. We justify this claim by identifying the conditions for such maps to arise within a scattering theory approach and provide a thorough characterization of the resulting thermalization process.
翻訳日:2023-02-14 15:12:00 公開日:2023-02-13
# ChatGPTにおける言語的曖昧性解析

Linguistic ambiguity analysis in ChatGPT ( http://arxiv.org/abs/2302.06426v1 )

ライセンス: Link先を確認
Miguel Ortega-Mart\'in, \'Oscar Garc\'ia-Sierra, Alfonso Ardoiz, Jorge \'Alvarez, Juan Carlos Armenteros and Adri\'an Alonso(参考訳) 言語的曖昧さは、自然言語処理(NLP)システムにおいて常に主要な課題の1つである。 BERTやT5、最近ではInstructGPTといったモダンなトランスフォーマーアーキテクチャは、多くのNLPフィールドでいくつかの目覚ましい改善を達成していますが、まだやるべきことはたくさんあります。 本稿では,ChatGPTによるアップロアに触発され,現代NLPにおける言語的あいまいさ,その多様性,その関連性について紹介し,広範な経験的分析を行う。 chatgptの強みと弱み、そしてこのモデルを最大限に活用するための戦略が明らかにされている。

Linguistic ambiguity is and has always been one of the main challenges in Natural Language Processing (NLP) systems. Modern Transformer architectures like BERT, T5 or more recently InstructGPT have achieved some impressive improvements in many NLP fields, but there is still plenty of work to do. Motivated by the uproar caused by ChatGPT, in this paper we provide an introduction to linguistic ambiguity, its varieties and their relevance in modern NLP, and perform an extensive empiric analysis. ChatGPT strengths and weaknesses are revealed, as well as strategies to get the most of this model.
翻訳日:2023-02-14 15:11:45 公開日:2023-02-13
# 異常意識状態の豊かさと非効率の源

Sources of Richness and Ineffability for Phenomenally Conscious States ( http://arxiv.org/abs/2302.06403v1 )

ライセンス: Link先を確認
Xu Ji, Eric Elmoznino, George Deane, Axel Constant, Guillaume Dumas, Guillaume Lajoie, Jonathan Simon, Yoshua Bengio(参考訳) 気まぐれな状態(入力したいものが存在するという状態)は、豊かで、詳細に満ちており、完全な記述やリコールが困難であるように見える。 特に非効率性の問題は、説明的ギャップを部分的に動機づける哲学における長年の問題である:意識は基礎となる物理的プロセスに還元できないという信念。 ここでは,意識の豊かさと非効率性に着目した情報理論力学システムについて述べる。 本枠組みでは,意識経験の豊かさは意識状態の情報量に対応し,不均衡は処理の異なる段階で失った情報量に対応する。 作業記憶におけるアトラクタダイナミクスが,我々の経験の貧弱な記憶を誘発する可能性,経験の豊かで高次元な構造を記述するために言語の離散的な象徴的性質が不十分なこと,そして2人の個人の認知機能の類似性が,経験のコミュニケーション性の向上にどのように関与しているかを述べる。 我々のモデルは、説明的ギャップに関連する全ての疑問を解決しないかもしれないが、意識的な経験の豊かさと非効率性について完全に物理主義的な説明へと進む。

Conscious states (states that there is something it is like to be in) seem both rich or full of detail, and ineffable or hard to fully describe or recall. The problem of ineffability, in particular, is a longstanding issue in philosophy that partly motivates the explanatory gap: the belief that consciousness cannot be reduced to underlying physical processes. Here, we provide an information theoretic dynamical systems perspective on the richness and ineffability of consciousness. In our framework, the richness of conscious experience corresponds to the amount of information in a conscious state and ineffability corresponds to the amount of information lost at different stages of processing. We describe how attractor dynamics in working memory would induce impoverished recollections of our original experiences, how the discrete symbolic nature of language is insufficient for describing the rich and high-dimensional structure of experiences, and how similarity in the cognitive function of two individuals relates to improved communicability of their experiences to each other. While our model may not settle all questions relating to the explanatory gap, it makes progress toward a fully physicalist explanation of the richness and ineffability of conscious experience: two important aspects that seem to be part of what makes qualitative character so puzzling.
翻訳日:2023-02-14 15:10:44 公開日:2023-02-13
# 量子アイシング鎖の測定誘起相転移における多粒子絡み合い

Multipartite Entanglement in the Measurement-Induced Phase Transition of the Quantum Ising Chain ( http://arxiv.org/abs/2302.06477v1 )

ライセンス: Link先を確認
Alessio Paviglianiti and Alessandro Silva(参考訳) 量子多体系の外部監視は、領域法則から非境界成長への絡み合いエントロピーの挙動の変化を特徴とする測定誘起相転移を引き起こす。 このレターでは、この遷移が二部間相関から多部間絡み合いにまで及んでいることを示す。 量子フィッシャー情報を用いて,連続的に観測される量子イジングチェーンの絡み合いダイナミクスを調べる。 多成分の絡み合いは、選択後無クリック軌道のエントロピーで観察されたのと同じ位相境界を示す。 その代わり、量子ジャンプは遷移を特徴付けるより複雑な振る舞いをもたらすが、対数エントロピーを持つが有界な多成分性を持つ第3段階を持つ可能性をもたらす。

External monitoring of quantum many-body systems can give rise to a measurement-induced phase transition characterized by a change in behavior of the entanglement entropy from an area law to an unbounded growth. In this Letter, we show that this transition extends beyond bipartite correlations to multipartite entanglement. Using the quantum Fisher information, we investigate the entanglement dynamics of a continuously monitored quantum Ising chain. Multipartite entanglement exhibits the same phase boundaries observed for the entropy in the post-selected no-click trajectory. Instead, quantum jumps give rise to a more complex behavior that still features the transition, but adds the possibility of having a third phase with logarithmic entropy but bounded multipartiteness.
翻訳日:2023-02-14 15:04:34 公開日:2023-02-13
# 変圧器のReLUとソフトマックスに関する研究

A Study on ReLU and Softmax in Transformer ( http://arxiv.org/abs/2302.06461v1 )

ライセンス: Link先を確認
Kai Shen, Junliang Guo, Xu Tan, Siliang Tang, Rui Wang, Jiang Bian(参考訳) Transformer アーキテクチャは自己アテンションとフィードフォワードネットワーク (FFN) で構成されており、前回の作業ではキーバリューメモリとみなすことができる。 しかし、FFNと従来のメモリは異なるアクティベーション関数(それぞれReLUとSoftmax)を利用しており、それらは等価ではない。 本稿では,まず,ffn とキー値メモリとの接続を,relu と softmax に関する広範囲な研究により再構築し,softmax に層正規化モジュールを追加する場合の等価性を見出す。 さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。 この理由を解析し, ソフトマックスのアクティベーションが長い入力シーケンスで不十分な自己アテンションネットワーク上でReLUの優れた特性を探索する。 次に、文書翻訳などの長いシーケンスタスクにおいて、ベースライントランスフォーマーよりも優れた性能を発揮するReLUFormerという完全なReLUアーキテクチャを提案する。 本稿は以下の点に光を当てる。 1) softmax と relu は、結果のばらつきの異なる要素に対する異なる正規化手法を使用し、relu は多数のキー値スロットを扱うのが得意である。 2)ffnとキー値メモリは等価であり、したがってトランスフォーマーはffnとセルフアテンションネットワークがどちらもキー値メモリであるメモリネットワークと見なすことができる。

The Transformer architecture consists of self-attention and feed-forward networks (FFNs) which can be viewed as key-value memories according to previous works. However, FFN and traditional memory utilize different activation functions (i.e., ReLU and Softmax respectively), which makes them not equivalent. In this paper, we first rebuild the connections between FFN and key-value memory by conducting extensive studies on ReLU and Softmax, and find they are equivalent when adding an additional layer normalization module on Softmax. In addition, ReLU outperforms Softmax on both FFN and key-value memory when the number of value slots is large. We analyze the reasons and then explore this good property of ReLU on the self-attention network where the original Softmax activation performs poorly on long input sequences. We then propose a full ReLU architecture named ReLUFormer which performs better than the baseline Transformer on long sequence tasks such as document translation. This paper sheds light on the following points: 1) Softmax and ReLU use different normalization methods over elements which lead to different variances of results, and ReLU is good at dealing with a large number of key-value slots; 2) FFN and key-value memory are equivalent, and thus the Transformer can be viewed as a memory network where FFNs and self-attention networks are both key-value memories.
翻訳日:2023-02-14 15:04:00 公開日:2023-02-13
# 結合を伴う文脈認識ニューラルマシン翻訳における文位置の符号化

Encoding Sentence Position in Context-Aware Neural Machine Translation with Concatenation ( http://arxiv.org/abs/2302.06459v1 )

ライセンス: Link先を確認
Lorenzo Lupo, Marco Dinarelli, Laurent Besacier(参考訳) 文脈対応翻訳は、連続文の結合を標準翻訳アプローチで処理することで実現できる。 本稿では,このタスクにセグメント埋め込みを導入するという直感的な考え方を考察し,コンカニネーションシーケンスにおける各文の位置をトランスフォーマーが識別するのを支援する。 様々なセグメント埋め込みを比較し,文位置をトークン表現にエンコードする新しい手法を提案する。

Context-aware translation can be achieved by processing a concatenation of consecutive sentences with the standard translation approach. This paper investigates the intuitive idea of adopting segment embeddings for this task to help the Transformer discern the position of each sentence in the concatenation sequence. We compare various segment embeddings and propose novel methods to encode sentence position into token representations, showing that they do not benefit the vanilla concatenation approach except in a specific setting.
翻訳日:2023-02-14 15:03:36 公開日:2023-02-13
# グラフに基づくナラティブ可視化のための混合多モデルセマンティクスインタラクション

Mixed Multi-Model Semantic Interaction for Graph-based Narrative Visualizations ( http://arxiv.org/abs/2302.06452v1 )

ライセンス: Link先を確認
Brian Keith Norambuena, Tanushree Mitra, Chris North(参考訳) ナラティブセンスメイキングは,シーケンシャルデータを理解する上で不可欠な部分である。 ナラティブマップは、アナリストが物語を理解するのを支援する視覚表現モデルである。 本研究では,ナラティブマップのためのセマンティックインタラクション(SI)フレームワークを提案する。 次元減少と射影空間の作業に依存する従来のSIシステムとは対照的に、我々のアプローチには、射影空間の上に構築され、物語を離散構造にエンコードする抽象層(構造空間)が追加されている。 この余分なレイヤは、siとナラティブ抽出パイプラインを統合する際に対処しなければならない追加の課題をもたらします。 これらの課題に対処するために、SIパイプラインであるMixed Multi-Model Semantic Interaction(3MSI)の一般的な概念を提示し、最高レベルモデルは抽象的な離散構造に対応し、下位レベルモデルは連続である。 物語地図における3MSIモデルの性能を評価するために,定量的シミュレーションに基づく評価とケーススタディと専門家のフィードバックによる質的評価を提案する。 我々のSIシステムは,分析者の意図をモデル化し,物語地図の漸進的な形式化を支援することができる。

Narrative sensemaking is an essential part of understanding sequential data. Narrative maps are a visual representation model that can assist analysts to understand narratives. In this work, we present a semantic interaction (SI) framework for narrative maps that can support analysts through their sensemaking process. In contrast to traditional SI systems which rely on dimensionality reduction and work on a projection space, our approach has an additional abstraction layer -- the structure space -- that builds upon the projection space and encodes the narrative in a discrete structure. This extra layer introduces additional challenges that must be addressed when integrating SI with the narrative extraction pipeline. We address these challenges by presenting the general concept of Mixed Multi-Model Semantic Interaction (3MSI) -- an SI pipeline, where the highest-level model corresponds to an abstract discrete structure and the lower-level models are continuous. To evaluate the performance of our 3MSI models for narrative maps, we present a quantitative simulation-based evaluation and a qualitative evaluation with case studies and expert feedback. We find that our SI system can model the analysts' intent and support incremental formalism for narrative maps.
翻訳日:2023-02-14 15:03:07 公開日:2023-02-13
# 法的文書に対するデータ拡張による関節スパン分割とレトリック・ロールラベリング

Joint Span Segmentation and Rhetorical Role Labeling with Data Augmentation for Legal Documents ( http://arxiv.org/abs/2302.06448v1 )

ライセンス: Link先を確認
T.Y.S.S. Santosh, Philipp Bock, Matthias Grabmair(参考訳) 判例要約,セマンティック検索,議論マイニングなど,法的判断のセグメンテーションと修辞的役割ラベル付けは,検索や隣接タスクにおいて重要な役割を担っている。 以前のアプローチでは、このタスクは文の独立分類またはシーケンスラベリングとして定式化されてきた。 本研究では,同一の修辞的役割ラベルを持つ複数の連続文のスパンを分類によって識別し,スパンレベルでのタスクを再構成する。 我々は半マルコフ条件ランダム場(CRF)を用いてスパンセグメンテーションとスパンラベル割り当てを共同で学習する。 さらに、個々の文書が非常に長く、注釈コストが高い専門分野におけるデータの不足を軽減する3つのデータ拡張戦略について検討する。 実験では, CRFベースライン上での半マルコフCRFモデルによるスパンレベル予測の精度向上を実証した。 この利点は、文書に複数文のスパンが存在することによる。

Segmentation and Rhetorical Role Labeling of legal judgements play a crucial role in retrieval and adjacent tasks, including case summarization, semantic search, argument mining etc. Previous approaches have formulated this task either as independent classification or sequence labeling of sentences. In this work, we reformulate the task at span level as identifying spans of multiple consecutive sentences that share the same rhetorical role label to be assigned via classification. We employ semi-Markov Conditional Random Fields (CRF) to jointly learn span segmentation and span label assignment. We further explore three data augmentation strategies to mitigate the data scarcity in the specialized domain of law where individual documents tend to be very long and annotation cost is high. Our experiments demonstrate improvement of span-level prediction metrics with a semi-Markov CRF model over a CRF baseline. This benefit is contingent on the presence of multi sentence spans in the document.
翻訳日:2023-02-14 15:02:48 公開日:2023-02-13
# 数ミリ秒のコヒーレンス時間を持つ超伝導量子メモリ

A superconducting quantum memory with tens of milliseconds coherence time ( http://arxiv.org/abs/2302.06442v1 )

ライセンス: Link先を確認
Ofir Milul, Barkay Guttel, Uri Goldblatt, Sergey Hazanov, Lalit M. Joshi, Daniel Chausovsky, Nitzan Kahn, Engin \c{C}ifty\"urek, Fabien Lafont, and Serge Rosenblum(参考訳) 量子情報を長期間保存することは、低い誤差で量子アルゴリズムを実行する上で必須である。 現在、超伝導量子メモリは数ミリ秒のコヒーレンス時間を持ち、この性能を超えることは大きな課題である。 本研究では,34msのコヒーレンス時間を有する新しい超伝導キャビティで符号化された量子ビットについて報告する。 我々は、この長寿命の量子メモリを用いて、1024光子という記録的な大きさのシュリンガー猫状態を保存し、空洞のボゾン量子誤差補正の可能性を示している。

Storing quantum information for an extended period of time is essential for running quantum algorithms with low errors. Currently, superconducting quantum memories have coherence times of a few milliseconds, and surpassing this performance has remained an outstanding challenge. In this work, we report a qubit encoded in a novel superconducting cavity with a coherence time of 34 ms, an improvement of over an order of magnitude compared to previous demonstrations. We use this long-lived quantum memory to store a Schr\"odinger cat state with a record size of 1024 photons, indicating the cavity's potential for bosonic quantum error correction.
翻訳日:2023-02-14 15:02:31 公開日:2023-02-13
# ContrasInver:地震インバージョンのためのVoxel-wise Contrastive Semi-supervised Learning

ContrasInver: Voxel-wise Contrastive Semi-supervised Learning for Seismic Inversion ( http://arxiv.org/abs/2302.06441v1 )

ライセンス: Link先を確認
Yimin Dou, Timing Li, Kewen Li, Hongjie Duan, Zhifeng Xu(参考訳) 近年の研究では、学習理論が炭化水素探査で非常に成功したことが示されている。 1次元ウェルログと3次元地震の関係による地震のインバージョンは貯水池の記述において重要なステップであり、その中では音響インピーダンスが最も重要な特性の1つであり、現在の深層学習に基づくインピーダンスインバージョンは有望な結果を得るが、多くのログ(典型的には30以上のウェルログはインバージョン毎に必要)に依存している。 本研究では,3次元ボリュームデータからスパース1dラベルを学習するための回帰タスクとして音響インピーダンスインバージョンを定義し,スパースラベル下の回帰タスクに対してvoxel-wise半教師付きコントラスト学習フレームワークcontrasinverを提案する。 制約法には,3次元地震データインバージョンのための新しい事前学習法,グローバルに well-log 情報を拡散するコントラスト的半教師付き戦略,コントラスト学習に基づく回帰タスクのための連続値ベクトル化特徴付け法,およびトレーニング効率を向上させるための距離トップサンプリング法などがある。 本研究はSEAM第I相合成データを用いた完全アブレーション実験を行い,各成分の有効性を検証し,本データにおける現在の主流手法との比較を行った。 このデータでは、0.92のSSIMと0.079のMSEを4つのウェルログで達成しました。 ConstraInverは、F3 Netherlands(4つのウェルログのみ)とDelft(3つのウェルログのみ)という2つの古典的なフィールドデータを逆転する、純粋にデータ駆動のアプローチである。

Recent studies have shown that learning theories have been very successful in hydrocarbon exploration. Inversion of seismic into various attributes through the relationship of 1D well-logs and 3D seismic is an essential step in reservoir description, among which, acoustic impedance is one of the most critical attributes, and although current deep learningbased impedance inversion obtains promising results, it relies on a large number of logs (1D labels, typically more than 30 well-logs are required per inversion), which is unacceptable in many practical explorations. In this work, we define acoustic impedance inversion as a regression task for learning sparse 1D labels from 3D volume data and propose a voxel-wise semisupervised contrastive learning framework, ContrasInver, for regression tasks under sparse labels. ConstraInver consists of several key components, including a novel pre-training method for 3D seismic data inversion, a contrastive semi-supervised strategy for diffusing well-log information to the global, and a continuous-value vectorized characterization method for a contrastive learning-based regression task, and also designed the distance TopK sampling method for improving the training efficiency. We performed a complete ablation study on SEAM Phase I synthetic data to verify the effectiveness of each component and compared our approach with the current mainstream methods on this data, and our approach demonstrated very significant advantages. In this data we achieved an SSIM of 0.92 and an MSE of 0.079 with only four well-logs. ConstraInver is the first purely data-driven approach to invert two classic field data, F3 Netherlands (only four well-logs) and Delft (only three well-logs) and achieves very reasonable and reliable results.
翻訳日:2023-02-14 15:02:19 公開日:2023-02-13
# Sparse-View Tomography における自己監督型Sinogram Inpaintingを可能にする幾何学的制約

Geometric Constraints Enable Self-Supervised Sinogram Inpainting in Sparse-View Tomography ( http://arxiv.org/abs/2302.06436v1 )

ライセンス: Link先を確認
Fabian Wagner, Mareike Thies, Noah Maul, Laura Pfaff, Oliver Aust, Sabrina Pechmann, Christopher Syben, Andreas Maier(参考訳) CTスキャンの診断精度は、通常、誘発された患者線量、スキャン速度、画像品質によって制限される。 偏角断層撮影は放射線被曝を減少させ、データ取得を加速するが、画像のアーティファクトやノイズに苦しむ。 既存の画像処理アルゴリズムはCT再構成の品質を復元することができるが、大きなトレーニングデータセットを必要とする場合が多い。 本研究は、勾配に基づく最適化による投影ビューの欠落を学習できる自己教師あり投影図作成手法を提案する。 投影データの独立したスタックを再構成することにより、ct画像領域で自己教師付き損失を算出し、投影幾何で制約された行方不明の断層画像ビューにマッチするように投影画像強度を直接最適化する。 実際のX線顕微鏡(XRM)を用いたX線トモグラフィマウスの骨スキャン実験により,PSNR/SSIMでは3.1-7.4%/7.7-17.6%の再現性を示した。 我々の手法は、トモグラフィー応用のためのフレキシブルな自己教師型プロジェクション塗装ツールとして適用できる。

The diagnostic quality of computed tomography (CT) scans is usually restricted by the induced patient dose, scan speed, and image quality. Sparse-angle tomographic scans reduce radiation exposure and accelerate data acquisition, but suffer from image artifacts and noise. Existing image processing algorithms can restore CT reconstruction quality but often require large training data sets or can not be used for truncated objects. This work presents a self-supervised projection inpainting method that allows learning missing projective views via gradient-based optimization. By reconstructing independent stacks of projection data, a self-supervised loss is calculated in the CT image domain and used to directly optimize projection image intensities to match the missing tomographic views constrained by the projection geometry. Our experiments on real X-ray microscope (XRM) tomographic mouse tibia bone scans show that our method improves reconstructions by 3.1-7.4%/7.7-17.6% in terms of PSNR/SSIM with respect to the interpolation baseline. Our approach is applicable as a flexible self-supervised projection inpainting tool for tomographic applications.
翻訳日:2023-02-14 15:01:42 公開日:2023-02-13
# 粒子散乱による2点計測エネルギー統計

Two-point measurement energy statistics from particle scattering ( http://arxiv.org/abs/2302.06516v1 )

ライセンス: Link先を確認
Samuel L. Jacob, Gabriel T. Landi, Massimiliano Esposito, Felipe Barra(参考訳) 我々は、時間依存駆動プロトコルに基づく孤立量子系の2点測定から得られるエネルギー統計を、同じ系を適宜準備された入射粒子と衝突させることで探究可能であることを示す。 これは、粒子が外部駆動と量子系のエネルギー測定装置の両方として作用し、エネルギーのゆらぎが完全に自律的に定義できることを意味する。

We show that the energy statistics resulting from a two-point measurement of an isolated quantum system subject to a time-dependent driving protocol can be probed by subjecting the same system to a collision with a suitably prepared incoming particle. This means that the particle acts both as an external drive and as an energy measurement device for the quantum system and that energy fluctuations can be defined within a fully autonomous setting.
翻訳日:2023-02-14 14:55:50 公開日:2023-02-13
# dyadicインタラクション設定における複数の顔反応生成:何、なぜ、どのように?

Multiple Facial Reaction Generation in Dyadic Interaction Settings: What, Why and How? ( http://arxiv.org/abs/2302.06514v1 )

ライセンス: Link先を確認
Siyang Song, Micol Spitale, Yiming Luo, Batuhan Bal, Hatice Gunes(参考訳) Stimulus Organism Response (SOR) 理論によれば、人間の行動反応はすべて、受信した刺激を処理し、適切な反応を生成するコンテキストによって刺激される。 これは、ある入力刺激の特定の文脈において、人は内部の状態や他の文脈要因に応じて異なる反応をすることができることを意味する。 同様に、ディヤド相互作用では、人間は言語的および非言語的手がかりを使ってコミュニケーションし、リスナーの非言語的反応の幅広いスペクトルが特定の話者の行動に反応するのに適切である。 すでに、与えられた入力に対して適切な反応を自動的に生成する問題を調査する作業体が存在する。 しかしながら、ダイアド相互作用の文脈で複数の適切な反応を自動生成し、客観的尺度を用いてそれらの反応の適切性を評価する試みは行われなかった。 本稿は, 論文の中で初めて顔多元反応生成(fMARG)タスクを定義し, 生成した反応の適切性を評価するための新たな客観的評価指標を提案する。 その後、複数の適切な顔反応を予測、生成、評価するための枠組みを導入する。

According to the Stimulus Organism Response (SOR) theory, all human behavioral reactions are stimulated by context, where people will process the received stimulus and produce an appropriate reaction. This implies that in a specific context for a given input stimulus, a person can react differently according to their internal state and other contextual factors. Analogously, in dyadic interactions, humans communicate using verbal and nonverbal cues, where a broad spectrum of listeners' non-verbal reactions might be appropriate for responding to a specific speaker behaviour. There already exists a body of work that investigated the problem of automatically generating an appropriate reaction for a given input. However, none attempted to automatically generate multiple appropriate reactions in the context of dyadic interactions and evaluate the appropriateness of those reactions using objective measures. This paper starts by defining the facial Multiple Appropriate Reaction Generation (fMARG) task for the first time in the literature and proposes a new set of objective evaluation metrics to evaluate the appropriateness of the generated reactions. The paper subsequently introduces a framework to predict, generate, and evaluate multiple appropriate facial reactions.
翻訳日:2023-02-14 14:55:43 公開日:2023-02-13
# DEPAS:生成モデルを用いたデノボ病的セマンティックマスク

DEPAS: De-novo Pathology Semantic Masks using a Generative Model ( http://arxiv.org/abs/2302.06513v1 )

ライセンス: Link先を確認
Ariel Larey, Nati Daniel, Eliel Aknin, Yael Fisher, Yonatan Savir(参考訳) 人工知能のデジタル病理への統合は、画像解析や診断決定などの様々なタスクを自動化し改善する可能性がある。 しかし、組織固有の多様性は、イメージラベリングの必要性とともに、トレーニングされたアルゴリズムの一般化性を制限するバイアス付きデータセットにつながります。 この課題の新たな解決策の1つは、合成組織像である。 しかし、実際のデータセットのデバイアスは、フォトリアリスティックな画像を生成するだけでなく、その中の特徴を制御する能力も必要である。 一般的なアプローチは、組織と組織像の事前の知識を反映したセマンティックマスク間の画像翻訳を行う生成方法を使用することである。 しかし、他の画像領域とは異なり、組織の複雑な構造は、画像翻訳モデルへの入力として必要とされる組織学的意味マスクの単純な作成を妨げ、実際の画像から抽出された意味的マスクはプロセスのスケーラビリティを低下させる。 本研究では,組織構造をキャプチャし,最先端品質の高分解能セマンティックマスクを生成するDEPASと呼ばれるスケーラブルな生成モデルを提案する。 皮膚,前立腺,肺の3種類の臓器に対して,dpaが現実的な組織意味地図を生成する能力を示す。 さらに,これらのマスクを生成的画像翻訳モデルを用いて処理し,2種類の染色技術を用いて2種類のがんのフォトリアリスティックな組織像を生成できることを示した。 最後に、DEPASを用いて、異なる細胞タイプの分布をキャプチャし、オンデマンドのセル特徴を持つ組織像を作成するマルチラベルセマンティックマスクを生成する。 全体として,本研究は,その意味情報をスケーラブルに制御しながら合成組織画像を生成するという課題に対して,最先端のソリューションを提供する。

The integration of artificial intelligence into digital pathology has the potential to automate and improve various tasks, such as image analysis and diagnostic decision-making. Yet, the inherent variability of tissues, together with the need for image labeling, lead to biased datasets that limit the generalizability of algorithms trained on them. One of the emerging solutions for this challenge is synthetic histological images. However, debiasing real datasets require not only generating photorealistic images but also the ability to control the features within them. A common approach is to use generative methods that perform image translation between semantic masks that reflect prior knowledge of the tissue and a histological image. However, unlike other image domains, the complex structure of the tissue prevents a simple creation of histology semantic masks that are required as input to the image translation model, while semantic masks extracted from real images reduce the process's scalability. In this work, we introduce a scalable generative model, coined as DEPAS, that captures tissue structure and generates high-resolution semantic masks with state-of-the-art quality. We demonstrate the ability of DEPAS to generate realistic semantic maps of tissue for three types of organs: skin, prostate, and lung. Moreover, we show that these masks can be processed using a generative image translation model to produce photorealistic histology images of two types of cancer with two different types of staining techniques. Finally, we harness DEPAS to generate multi-label semantic masks that capture different cell types distributions and use them to produce histological images with on-demand cellular features. Overall, our work provides a state-of-the-art solution for the challenging task of generating synthetic histological images while controlling their semantic information in a scalable way.
翻訳日:2023-02-14 14:55:23 公開日:2023-02-13
# ガウスマルジナルの半空間学習とReLU回帰の準最適暗号ハードネス

Near-Optimal Cryptographic Hardness of Agnostically Learning Halfspaces and ReLU Regression under Gaussian Marginals ( http://arxiv.org/abs/2302.06512v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Lisheng Ren(参考訳) ガウス分布の下で半空間を無知に学習するタスクについて検討する。 具体的には、ラベル付き例 $(\mathbf{x},y)$ が $\mathbb{R}^n \times \{ \pm 1\}$ 上の未知の分布から与えられたとき、$\mathbf{x}$ 上の限界分布は標準ガウス分布であり、ラベル $y$ は任意であり、その目標は 0-1 の損失を持つ仮説を $\mathrm{OPT}+\epsilon$ で出力することである。 この課題に対して,Learning with Errors (LWE) 問題において,広く信じられている部分指数時間硬度の下で,ほぼ最適計算硬度を証明した。 事前硬度結果は定性的に最適か、あるいは制限されたアルゴリズムの族に適用される。 提案手法は,relu回帰を含む関連する問題に対して,ほぼ最適下限を与えるように拡張する。

We study the task of agnostically learning halfspaces under the Gaussian distribution. Specifically, given labeled examples $(\mathbf{x},y)$ from an unknown distribution on $\mathbb{R}^n \times \{ \pm 1\}$, whose marginal distribution on $\mathbf{x}$ is the standard Gaussian and the labels $y$ can be arbitrary, the goal is to output a hypothesis with 0-1 loss $\mathrm{OPT}+\epsilon$, where $\mathrm{OPT}$ is the 0-1 loss of the best-fitting halfspace. We prove a near-optimal computational hardness result for this task, under the widely believed sub-exponential time hardness of the Learning with Errors (LWE) problem. Prior hardness results are either qualitatively suboptimal or apply to restricted families of algorithms. Our techniques extend to yield near-optimal lower bounds for related problems, including ReLU regression.
翻訳日:2023-02-14 14:54:53 公開日:2023-02-13
# 事前条件付きスコアベース生成モデル

Preconditioned Score-based Generative Models ( http://arxiv.org/abs/2302.06504v1 )

ライセンス: Link先を確認
Li Zhang, Hengyuan Ma, Xiatian Zhu, Jianfeng Feng(参考訳) スコアベース生成モデル(sgms)は最近、有望な生成モデルのクラスとして登場している。 しかし、基本的な制限は、一連の逐次計算の多くの($2000$の)反復が必要であるため、サンプリングプロセスが遅いことである。 直感的な加速度法はサンプリングの繰り返しを減らし,性能を著しく低下させる。 我々はこの問題をランゲヴィン力学の不条件問題とサンプリング過程における逆拡散に攻撃する。 そこで本研究では,行列プレコンディショニングを利用したモデル非依存型プレコンディショニング拡散サンプリング(PDS)手法を提案する。 PDSは、バニラSGMのサンプリングプロセスを限界余剰計算コストで変更し、モデルの再訓練を行わない。 理論的には、pdsはsgmの出力分布を保持しており、元のサンプリングプロセスに系統的バイアスを誘導するリスクはない。 さらに, pdsのパラメータとサンプリングイテレーションの関係を理論的に明らかにし, 様々なサンプリングイテレーションにおけるパラメータ推定を緩和する。 様々な解像度と多様性を持つ画像データセットに対する大規模な実験により、PSDは合成品質を維持しながら、常に市販のSGMを加速することを確認した。 特にPDSは、より難しい高解像度(1024$\times$1024)の画像生成で最大29ドルまで加速することができる。 最新の生成モデル (\eg, CLD-SGM, DDIM, Analytic-DDIM) と比較して, PDS は CIFAR-10 において FID スコア 1.99 で最高のサンプリング品質が得られる。 我々のコードは公開されており、さらなる研究を促進することができます。

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their sampling process is slow due to a need for many (\eg, $2000$) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We assault this problem to the ill-conditioned issues of the Langevin dynamics and reverse diffusion in the sampling process. Under this insight, we propose a model-agnostic {\bf\em preconditioned diffusion sampling} (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. PDS alters the sampling process of a vanilla SGM at marginal extra computation cost, and without model retraining. Theoretically, we prove that PDS preserves the output distribution of the SGM, no risk of inducing systematical bias to the original sampling process. We further theoretically reveal a relation between the parameter of PDS and the sampling iterations,easing the parameter estimation under varying sampling iterations. Extensive experiments on various image datasets with a variety of resolutions and diversity validate that our PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to $29\times$ on more challenging high resolution (1024$\times$1024) image generation. Compared with the latest generative models (\eg, CLD-SGM, DDIM, and Analytic-DDIM), PDS can achieve the best sampling quality on CIFAR-10 at a FID score of 1.99. Our code is made publicly available to foster any further research https://github.com/fudan-zvg/PDS.
翻訳日:2023-02-14 14:54:30 公開日:2023-02-13
# Ground(less) Truth:人間-アルゴリズム意思決定におけるプロキシラベルの因果的枠組み

Ground(less) Truth: A Causal Framework for Proxy Labels in Human-Algorithm Decision-Making ( http://arxiv.org/abs/2302.06503v1 )

ライセンス: Link先を確認
Luke Guerdan, Amanda Coston, Zhiwei Steven Wu, Kenneth Holstein(参考訳) 人間-AI意思決定に関する文献は、人間の判断と統計モデルを組み合わせて意思決定を改善する戦略を研究している。 この領域の研究は、"ground truth"ラベルでの予測性能の向上を実証することにより、モデル、インターフェイス、ワークフローの改善提案を評価することが多い。 しかし、このプラクティスは人間の判断とモデル予測の主な違いを見落としている。 人間は、病気の状態、オンラインコメントの「毒性」、将来の「ジョブパフォーマンス」など、直接観察できない潜在的構造を含む、決定に対するより広範な関心の現象を推論する一方で、予測モデルは、既存のデータセットで容易に利用できるプロキシラベルをターゲットにしている。 予測モデルの単純なプロキシへの依存は、様々な統計バイアス源に弱い。 本稿では,人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。 我々は,各バイアス間の関係を解消する因果枠組みを開発し,特定の人間-ai意思決定タスクにおいてどのような懸念があるかを明らかにする。 我々は,事前モデリング作業における暗黙の仮定を明確化するためにフレームワークをどのように利用できるかを実証し,これらの仮定が実際に有効であるかどうかを検証するための評価戦略を推奨する。 そして、我々の枠組みを利用して、人間とAIの意思決定を調査する事前の人体実験の設計を再検討し、少数の研究のみが対象の変数バイアスに関連する要因を調査することを発見した。 今後の研究において、ターゲット変数バイアスに対処する機会について論じる。

A growing literature on human-AI decision-making investigates strategies for combining human judgment with statistical models to improve decision-making. Research in this area often evaluates proposed improvements to models, interfaces, or workflows by demonstrating improved predictive performance on "ground truth" labels. However, this practice overlooks a key difference between human judgments and model predictions. Whereas humans reason about broader phenomena of interest in a decision - including latent constructs that are not directly observable, such as disease status, the "toxicity" of online comments, or future "job performance" - predictive models target proxy labels that are readily available in existing datasets. Predictive models' reliance on simplistic proxies makes them vulnerable to various sources of statistical bias. In this paper, we identify five sources of target variable bias that can impact the validity of proxy labels in human-AI decision-making tasks. We develop a causal framework to disentangle the relationship between each bias and clarify which are of concern in specific human-AI decision-making tasks. We demonstrate how our framework can be used to articulate implicit assumptions made in prior modeling work, and we recommend evaluation strategies for verifying whether these assumptions hold in practice. We then leverage our framework to re-examine the designs of prior human subjects experiments that investigate human-AI decision-making, finding that only a small fraction of studies examine factors related to target variable bias. We conclude by discussing opportunities to better address target variable bias in future research.
翻訳日:2023-02-14 14:54:05 公開日:2023-02-13
# density-softmax: 分布シフト下でのスケーラブルで距離認識の不確実性推定

Density-Softmax: Scalable and Distance-Aware Uncertainty Estimation under Distribution Shifts ( http://arxiv.org/abs/2302.06495v1 )

ライセンス: Link先を確認
Ha Manh Bui, Anqi Liu(参考訳) 一般的なディープラーニングモデルは、分散シフト下で大きな自信過剰に苦しむ。 本稿では,密度関数とソフトマックス層の組み合わせによる不確実性推定のための単一決定論的手法である密度-ソフトマックスを提案する。 潜在表現の確率値を用いて,テストサンプルがトレーニングサンプルから離れている場合,本手法はより不確実な予測を導出する。 理論的には、密度ソフトマックスは距離認識であり、それに関連する不確実性メトリクスは距離メトリクスの単調関数である。 これは、ニューラルネットワークが高品質の不確実性を推定するために必要な条件であることが示されている。 提案手法は,CIFAR-10, CIFAR-100, ImageNetデータセットに標準ソフトマックスと同様の計算効率を持つ。 特に、dentity-SoftmaxはDeep Ensemblesの4倍のパラメータとRanc-1 Bayesian Neural Networkの6倍のレイテンシを使用し、分散シフト時の競合予測性能と低いキャリブレーション誤差を得る。

Prevalent deep learning models suffer from significant over-confidence under distribution shifts. In this paper, we propose Density-Softmax, a single deterministic approach for uncertainty estimation via a combination of density function with the softmax layer. By using the latent representation's likelihood value, our approach produces more uncertain predictions when test samples are distant from the training samples. Theoretically, we prove that Density-Softmax is distance aware, which means its associated uncertainty metrics are monotonic functions of distance metrics. This has been shown to be a necessary condition for a neural network to produce high-quality uncertainty estimation. Empirically, our method enjoys similar computational efficiency as standard softmax on shifted CIFAR-10, CIFAR-100, and ImageNet dataset across modern deep learning architectures. Notably, Density-Softmax uses 4 times fewer parameters than Deep Ensembles and 6 times lower latency than Rank-1 Bayesian Neural Network, while obtaining competitive predictive performance and lower calibration errors under distribution shifts.
翻訳日:2023-02-14 14:53:40 公開日:2023-02-13
# explicit3d: 空間的推論によるグラフネットワーク : 単一画像3次元物体検出のために

Explicit3D: Graph Network with Spatial Inference \\for Single Image 3D Object Detection ( http://arxiv.org/abs/2302.06494v1 )

ライセンス: Link先を確認
Yanjun Liu, Yehu Shen, Qingmin Liao and Wenming Yang(参考訳) 屋内の3d物体検出は、単一の画像シーン理解において必須の課題であり、視覚推論において基本的に空間認知に影響を与える。 単一の画像からの3dオブジェクト検出に関する既存の作業は、各オブジェクトの独立した予測を通じてこの目標を追求するか、すべての可能なオブジェクトを暗黙的に推論し、オブジェクト間の関係幾何学的情報を活用できないかのどちらかである。 この問題に対処するために,オブジェクトの幾何学的特徴と意味論的特徴に基づくExplicit3Dという動的スパースグラフパイプラインを提案する。 効率を考慮し、関連性スコアを定義し、新しい動的プルーニングアルゴリズムを設計し、続いてスパースシーングラフの生成と更新のためのクラスタサンプリング手法を設計する。 さらに, 対象対間の空間差を明示的にモデル化するために, 均質行列を導入し, 新しい相対損失とコーナー損失を定義した。 接地トラスラベルを直接監督する代わりに、我々の相対損失とコーナー損失は、物体間の幾何的整合性を学ぶためのモデルである同質な変換から導かれる。 SUN RGB-Dデータセットの実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。

Indoor 3D object detection is an essential task in single image scene understanding, impacting spatial cognition fundamentally in visual reasoning. Existing works on 3D object detection from a single image either pursue this goal through independent predictions of each object or implicitly reason over all possible objects, failing to harness relational geometric information between objects. To address this problem, we propose a dynamic sparse graph pipeline named Explicit3D based on object geometry and semantics features. Taking the efficiency into consideration, we further define a relatedness score and design a novel dynamic pruning algorithm followed by a cluster sampling method for sparse scene graph generation and updating. Furthermore, our Explicit3D introduces homogeneous matrices and defines new relative loss and corner loss to model the spatial difference between target pairs explicitly. Instead of using ground-truth labels as direct supervision, our relative and corner loss are derived from the homogeneous transformation, which renders the model to learn the geometric consistency between objects. The experimental results on the SUN RGB-D dataset demonstrate that our Explicit3D achieves better performance balance than the-state-of-the-art.
翻訳日:2023-02-14 14:53:24 公開日:2023-02-13
# イベントベースカメラとスパイクニューラルネットワークによる光フロー推定

Optical Flow estimation with Event-based Cameras and Spiking Neural Networks ( http://arxiv.org/abs/2302.06492v1 )

ライセンス: Link先を確認
Javier Cuadrado, Ulysse Ran\c{c}on, Beno\^it Cottereau, Francisco Barranco and Timoth\'ee Masquelier(参考訳) イベントベースのカメラはコンピュータビジョンコミュニティ内で関心を集めている。 これらのセンサーは、前回のイベントからあるピクセルの輝度が一定の閾値を超えると、非同期ピクセル、イベントの出力、あるいは「スパイク」で動作する。 低消費電力、低レイテンシ、高ダイナミックレンジなど、それら固有の特性のおかげで、特に時間的制約や安全性要件の厳しいアプリケーションに適しているように思える。 非同期センサとニューロモルフィックハードウェアの結合により、最小限の電力要求でリアルタイムシステムが得られるため、イベントベースのセンサはスパイキングニューラルネットワーク(SNN)に適している。 本研究では,dsecデータセットからのイベントセンサデータとスパイクニューラルネットワークを用いて,運転シナリオの光学フローを推定するシステムを開発した。 教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。 そこで我々は,地絡と予測フローの間の誤差ベクトルの最小基準と最小角度の両方を奨励し,代用勾配を用いた後方伝播によるモデルの訓練を行う。 さらに, 3次元畳み込みを用いることで, 時間受容場を増大させることで, データの動的性質を捉えることができる。 各デコードステージの後のアップサンプリングは、各デコーダの出力が最終的な推定に寄与することを保証する。 分離可能な畳み込みのおかげで、私たちは(競合と比べて)かなり正確な光学フロー推定ができる軽量モデルの開発に成功しました。

Event-based cameras are raising interest within the computer vision community. These sensors operate with asynchronous pixels, emitting events, or "spikes", when the luminance change at a given pixel since the last event surpasses a certain threshold. Thanks to their inherent qualities, such as their low power consumption, low latency and high dynamic range, they seem particularly tailored to applications with challenging temporal constraints and safety requirements. Event-based sensors are an excellent fit for Spiking Neural Networks (SNNs), since the coupling of an asynchronous sensor with neuromorphic hardware can yield real-time systems with minimal power requirements. In this work, we seek to develop one such system, using both event sensor data from the DSEC dataset and spiking neural networks to estimate optical flow for driving scenarios. We propose a U-Net-like SNN which, after supervised training, is able to make dense optical flow estimations. To do so, we encourage both minimal norm for the error vector and minimal angle between ground-truth and predicted flow, training our model with back-propagation using a surrogate gradient. In addition, the use of 3d convolutions allows us to capture the dynamic nature of the data by increasing the temporal receptive fields. Upsampling after each decoding stage ensures that each decoder's output contributes to the final estimation. Thanks to separable convolutions, we have been able to develop a light model (when compared to competitors) that can nonetheless yield reasonably accurate optical flow estimates.
翻訳日:2023-02-14 14:52:59 公開日:2023-02-13
# なぜ談話解析が一般化できないのか? データ多様性の影響に関する徹底的な調査

Why Can't Discourse Parsing Generalize? A Thorough Investigation of the Impact of Data Diversity ( http://arxiv.org/abs/2302.06488v1 )

ライセンス: Link先を確認
Yang Janet Liu and Amir Zeldes(参考訳) 談話解析性能の最近の進歩は、他のNLPタスクと同様に、英語などの高リソース言語のパフォーマンスがようやく信頼性を持つようになったという印象を生み出している。 本稿では,rst解析の安定性に対するデータ多様性の影響を徹底的に検討する。 標準英語ニュースワイヤベンチマークでトレーニングされた最先端アーキテクチャは,ニュースドメイン内であっても,十分に一般化されていないことを示す。 複数のジャンルのテキストを含む2つの最大のrstコーパスを用いて、トレーニングデータにおけるジャンル多様性の影響を定量化し、トレーニング中のテキストタイプへの一般化を実現する。 この結果から,異種学習体制はパーサアーキテクチャ全体にわたって,安定かつ一般化可能なモデルに不可欠であることが示唆された。 また,モデル出力の誤差解析と領域外性能も提供する。 本研究は,完全木上でのクロスコーポレートなrst解析の一般化可能性を完全に評価し,rstコーパス内の遺伝子間分解を調べ,トレーニングデータ構成におけるジャンル多様性の影響について検討した。

Recent advances in discourse parsing performance create the impression that, as in other NLP tasks, performance for high-resource languages such as English is finally becoming reliable. In this paper we demonstrate that this is not the case, and thoroughly investigate the impact of data diversity on RST parsing stability. We show that state-of-the-art architectures trained on the standard English newswire benchmark do not generalize well, even within the news domain. Using the two largest RST corpora of English with text from multiple genres, we quantify the impact of genre diversity in training data for achieving generalization to text types unseen during training. Our results show that a heterogeneous training regime is critical for stable and generalizable models, across parser architectures. We also provide error analyses of model outputs and out-of-domain performance. To our knowledge, this study is the first to fully evaluate cross-corpus RST parsing generalizability on complete trees, examine between-genre degradation within an RST corpus, and investigate the impact of genre diversity in training data composition.
翻訳日:2023-02-14 14:52:32 公開日:2023-02-13
# 全員のためのアジャイルテキスト分類器を目指して

Towards Agile Text Classifiers for Everyone ( http://arxiv.org/abs/2302.06541v1 )

ライセンス: Link先を確認
Maximilian Mozes, Jessica Hoffmann, Katrin Tomanek, Muhamed Kouate, Nithum Thain, Ann Yuan, Tolga Bolukbasi, Lucas Dixon(参考訳) テキストベースの安全分類器はコンテンツのモデレーションに広く使われており、デジタルアシスタントやチャットボットの安全性に対する懸念が高まっている。 しかし、異なるポリシーは異なる分類器を必要とし、安全ポリシー自体はイテレーションと適応から改善される。 本稿では、アジャイルテキスト分類の手法を紹介し、特定のポリシーのために迅速に開発できる小さなターゲットデータセットを用いて分類器を訓練する。 安全関連の3つのドメインから7つのデータセットを15のアノテーションスキームで実験した結果、重要な発見が得られました。 これにより、特に安全なオンライン談話をサポートするモデルにおいて、テキスト分類のパラダイムシフトが可能になると論じている。 数百万のサンプルを収集して、数ヶ月や数年にわたって普遍的な安全分類器を作成しようとするのではなく、個人や小さな組織によって作成された小さなデータセットを使って分類器をチューニングし、特定のユースケースに合わせて調整し、一日のタイムスパンで繰り返し適用することができる。

Text-based safety classifiers are widely used for content moderation and increasingly to tune generative language model behavior - a topic of growing concern for the safety of digital assistants and chatbots. However, different policies require different classifiers, and safety policies themselves improve from iteration and adaptation. This paper introduces and evaluates methods for agile text classification, whereby classifiers are trained using small, targeted datasets that can be quickly developed for a particular policy. Experimenting with 7 datasets from three safety-related domains, comprising 15 annotation schemes, led to our key finding: prompt-tuning large language models, like PaLM 62B, with a labeled dataset of as few as 80 examples can achieve state-of-the-art performance. We argue that this enables a paradigm shift for text classification, especially for models supporting safer online discourse. Instead of collecting millions of examples to attempt to create universal safety classifiers over months or years, classifiers could be tuned using small datasets, created by individuals or small organizations, tailored for specific use cases, and iterated on and adapted in the time-span of a day.
翻訳日:2023-02-14 14:46:19 公開日:2023-02-13
# ブートストラップ型コントラスト学習による観察からの模倣

Imitation from Observation With Bootstrapped Contrastive Learning ( http://arxiv.org/abs/2302.06540v1 )

ライセンス: Link先を確認
Medric Sonwa, Johanna Hansen, Eugene Belilovsky(参考訳) 観察からの模倣(imitation from observation、ifo)は、マルコフ決定プロセス(mdp)で自律的なエージェントを訓練し、その行動にアクセスせずに専門家のデモンストレーションを観察する学習パラダイムである。 これらのデモンストレーションは環境状態のシーケンスや環境の生の視覚的な観察である。 IfOの最近の研究は、低次元環境状態の観測においてこの問題に焦点を合わせているが、実際にはこれらの高度に特異的な観測へのアクセスはありそうにない。 本稿では,タスクを完了させる専門家の視覚的な実演にのみアクセス可能な,学習可能な潜在空間で動作する,より挑戦的で現実的な問題定式化,学習制御ポリシを採用する。 本稿では,エージェントの行動と類似性や暗黙的な目標に基づいて報酬関数を学習し,それを専門家に比較することを目的としたIfOアルゴリズムBootIfOLを提案する。 我々は,この報酬関数をエージェント行動の軌跡間の距離指標と考え,コントラスト学習を通して学習する。 コントラスト学習の目的は、専門的軌跡を密に表現し、非専門的軌跡から距離を置くことである。 コントラスト学習に使用される非経験的軌跡の集合は、現在の報酬関数を用いてrlで学習したエージェントのロールアウトからブートストラップすることで徐々に複雑になる。 提案手法を様々な制御タスクで評価し,限られた数のデモンストリアルトラジェクタを用いて効果的なポリシーを訓練できることを示し,生の観察を考慮に入れた先行手法を格段に改善した。

Imitation from observation (IfO) is a learning paradigm that consists of training autonomous agents in a Markov Decision Process (MDP) by observing expert demonstrations without access to its actions. These demonstrations could be sequences of environment states or raw visual observations of the environment. Recent work in IfO has focused on this problem in the case of observations of low-dimensional environment states, however, access to these highly-specific observations is unlikely in practice. In this paper, we adopt a challenging, but more realistic problem formulation, learning control policies that operate on a learned latent space with access only to visual demonstrations of an expert completing a task. We present BootIfOL, an IfO algorithm that aims to learn a reward function that takes an agent trajectory and compares it to an expert, providing rewards based on similarity to agent behavior and implicit goal. We consider this reward function to be a distance metric between trajectories of agent behavior and learn it via contrastive learning. The contrastive learning objective aims to closely represent expert trajectories and to distance them from non-expert trajectories. The set of non-expert trajectories used in contrastive learning is made progressively more complex by bootstrapping from roll-outs of the agent learned through RL using the current reward function. We evaluate our approach on a variety of control tasks showing that we can train effective policies using a limited number of demonstrative trajectories, greatly improving on prior approaches that consider raw observations.
翻訳日:2023-02-14 14:46:00 公開日:2023-02-13
# 長線CAT状態を用いたクリフォード回路の改良

Improved Synthesis of Clifford Circuits using Long-Range CAT States ( http://arxiv.org/abs/2302.06537v1 )

ライセンス: Link先を確認
Willers Yang, Patrick Rall(参考訳) 超伝導アーキテクチャでは、量子回路の合成とコンパイルにおいて、限られた接続性は依然として重要な課題である。 我々は、絡み合ったCAT状態の注入により長距離演算を行う絡み込み支援計算のモデルを考える。 これらは「絡み合いバス」として機能し、マルチキュービットのパウリ回転やファンアウトゲートなどのグローバルな操作プリミティブをアンロックする。 cz回路、cx回路、clifford回路合成などのよく研究された問題に対して、回路サイズの境界を導出する。 特に、そのような絡み合いバスを使用するアーキテクチャでは、clifford操作は、エンタングル状態インジェクションの最大2n+1$層を必要とすることを示し、エンタングルゲート深さ7n-4$を達成する最もよく知られたスワップベースアプローチによって大幅に改善されている。 2つの絡み合いバスを持つ正方形格子アーキテクチャでは、CAT状態注入の少なくとも$\lceil \frac{1}{2}n\rceil +1$層を用いてグラフ状態を合成できることを示し、Clifford演算はCAT状態注入の$\lceil\frac{3}{2}n \rceil+O(\sqrt n)$層のみを必要とする。

In superconducting architectures, limited connectivity remains a significant challenge for the synthesis and compilation of quantum circuits. We consider models of entanglement-assisted computation where long-range operations are achieved through injections of entangled CAT states. These are prepared using ancillary qubits acting as an "entanglement bus," unlocking global operation primitives such as multi-qubit Pauli rotations and fan out gates. We derive bounds on the circuit size for several well-studied problems, such as CZ circuit, CX circuit, and Clifford circuit synthesis. In particular, in an architecture using one such entanglement bus, we show that Clifford operations require at most $2n+1$ layers of entangled-state-injections, significantly improving upon the best known SWAP-based approaches which achieve an entangling-gate-depth of $7n-4$. In a square-lattice architecture with two entanglement buses, we show that a graph state can be synthesized using at most $\lceil \frac{1}{2}n\rceil +1$ layers of CAT state injections, and Clifford operations require only $\lceil\frac{3}{2} n \rceil+ O(\sqrt n)$ layers of CAT state injections.
翻訳日:2023-02-14 14:45:35 公開日:2023-02-13
# ノイズ物理データのモデリングのためのフーリエRNN

Fourier-RNNs for Modelling Noisy Physics Data ( http://arxiv.org/abs/2302.06534v1 )

ライセンス: Link先を確認
Vignesh Gopakumar, Stanislas Pamela, Lorenzo Zanisi(参考訳) 時系列予測に使用される古典的なシーケンシャルモデルは、隠れた状態を通じて過去から将来のインスタンスへのマッピングを学ぶことに依存している。 隠れた状態は歴史的情報を特徴付け、必要な時間的依存関係をエンコードする。 しかし、既存のシーケンシャルモデルは有限次元ユークリッド空間内で動作し、物理関連データをモデル化する際に限られた機能を提供する。 あるいは、フーリエ空間におけるニューラル演算子学習に関する最近の研究は、部分微分方程式(PDE)をパラメータ化するための効率的な戦略を示している。 本研究では,従来のRNNアーキテクチャをフーリエニューラル演算子 (FNO) と組み合わせることで,物理関連データを扱うための新しいシーケンシャルモデルを提案する。 フーリエ-RNNは、入力から出力へのマッピングと、時間データに関連するフーリエ空間内の隠れ状態を学ぶことができる。 フーリエ-RNNはPDEデータを扱う際にFNOと同一動作するが、非マルコフデータのモデリングにおいてFNOと従来のRNNより優れている。

Classical sequential models employed in time-series prediction rely on learning the mappings from the past to the future instances by way of a hidden state. The Hidden states characterise the historical information and encode the required temporal dependencies. However, most existing sequential models operate within finite-dimensional Euclidean spaces which offer limited functionality when employed in modelling physics relevant data. Alternatively recent work with neural operator learning within the Fourier space has shown efficient strategies for parameterising Partial Differential Equations (PDE). In this work, we propose a novel sequential model, built to handle Physics relevant data by way of amalgamating the conventional RNN architecture with that of the Fourier Neural Operators (FNO). The Fourier-RNN allows for learning the mappings from the input to the output as well as to the hidden state within the Fourier space associated with the temporal data. While the Fourier-RNN performs identical to the FNO when handling PDE data, it outperforms the FNO and the conventional RNN when deployed in modelling noisy, non-Markovian data.
翻訳日:2023-02-14 14:45:10 公開日:2023-02-13
# 心電図のパワーを解き放つ : 心電図信号を用いた医療システムにおける新しい患者同定法

Unleashing the Power of Electrocardiograms: A novel approach for Patient Identification in Healthcare Systems with ECG Signals ( http://arxiv.org/abs/2302.06529v1 )

ライセンス: Link先を確認
Caterina Fuster-Barcel\'o, Carmen C\'amara, Pedro Peris-L\'opez(参考訳) 過去20年間に渡り、心臓のシグナルを生体計測のモダリティとして活用する可能性についてかなりの研究が続けられてきた。 本稿では心電図信号を用いた医療システムにおける患者識別のための新しいアプローチを提案する。 畳み込みニューラルネットワークは、ECG信号から抽出された画像に基づいてユーザを分類するために使用される。 提案する識別システムは複数のデータベースで評価され,実世界のシナリオにおけるその可能性の包括的理解を提供する。 心臓血管疾患の一般ユーザ識別への影響は、これまでの研究では概ね見過ごされてきた。 本手法は, 患者の心血管状態を考慮し, 得られた結果が偏りや制限がないことを保証する。 さらに、得られた結果は、広範囲な実験によって示されるように、低いエラー率と高い精度のメトリクスで、一貫性と信頼性がある。 これらの機能はすべて、医療システムにおける患者識別の分野において、提案手法が貴重な貢献となり、実用的応用の強力な候補となる。

Over the course of the past two decades, a substantial body of research has substantiated the viability of utilising cardiac signals as a biometric modality. This paper presents a novel approach for patient identification in healthcare systems using electrocardiogram signals. A convolutional neural network is used to classify users based on images extracted from ECG signals. The proposed identification system is evaluated in multiple databases, providing a comprehensive understanding of its potential in real-world scenarios. The impact of Cardiovascular Diseases on generic user identification has been largely overlooked in previous studies. The presented method takes into account the cardiovascular condition of the patients, ensuring that the results obtained are not biased or limited. Furthermore, the results obtained are consistent and reliable, with lower error rates and higher accuracy metrics, as demonstrated through extensive experimentation. All these features make the proposed method a valuable contribution to the field of patient identification in healthcare systems, and make it a strong contender for practical applications.
翻訳日:2023-02-14 14:44:54 公開日:2023-02-13
# 非侵襲的モデルオーダー削減に基づく連続機械筋骨格系の低次元データベースサロゲートモデル

Low-dimensional Data-based Surrogate Model of a Continuum-mechanical Musculoskeletal System Based on Non-intrusive Model Order Reduction ( http://arxiv.org/abs/2302.06528v1 )

ライセンス: Link先を確認
Jonas Kneifl, David Rosin, Oliver R\"ohrle, and J\"org Fehr(参考訳) 近年、コンピュータ・モデリングの主な焦点は工学的原型の設計と開発の支援であるが、現在では医療リハビリテーションのような非伝統的な分野に広く普及している。 有限要素~(FE)法のような従来のモデリング手法は、複雑なモデルを扱う場合、計算コストがかかるため、手元のモデルが有用な方法で単純化できない場合、リアルタイムシミュレーションやローエンドハードウェアへのデプロイのような目的のために限定的に使用される。 その結果、データ駆動モデルオーダーの削減を用いた代理モデルのような従来の手法は、複雑な高忠実度モデルをより広く利用するために用いられる。 これらはしばしば、高次元の系状態が低次元の部分空間や多様体に変換される次元還元ステップと、還元された系の振る舞いを捉える回帰アプローチを含む。 多くの出版物は、主成分分析~(PCA)やオートエンコーダ(非線形)のような1次元の削減に焦点を当てているが、我々はPCA、カーネルPCA、オートエンコーダ、および構造力学系の近似のための変分オートエンコーダを検討・比較する。 本稿では,人間の上腕部の複雑なFEモデルに対する代理モデルアプローチの利点を実証する。 モデル変形と内部応力の両方を、FEコンテキストにおける2つの主要な関心量であると考えている。 これにより、高い近似品質と高速な評価でシステムの振る舞いを捉える計算的に低コストなサロゲートモデルを作成することができる。

In recent decades, the main focus of computer modeling has been on supporting the design and development of engineering prototyes, but it is now ubiquitous in non-traditional areas such as medical rehabilitation. Conventional modeling approaches like the finite element~(FE) method are computationally costly when dealing with complex models, making them of limited use for purposes like real-time simulation or deployment on low-end hardware, if the model at hand cannot be simplified in a useful manner. Consequently, non-traditional approaches such as surrogate modeling using data-driven model order reduction are used to make complex high-fidelity models more widely available anyway. They often involve a dimensionality reduction step, in which the high-dimensional system state is transformed onto a low-dimensional subspace or manifold, and a regression approach to capture the reduced system behavior. While most publications focus on one dimensionality reduction, such as principal component analysis~(PCA) (linear) or autoencoder (nonlinear), we consider and compare PCA, kernel PCA, autoencoders, as well as variational autoencoders for the approximation of a structural dynamical system. In detail, we demonstrate the benefits of the surrogate modeling approach on a complex FE model of a human upper-arm. We consider both the models deformation and the internal stress as the two main quantities of interest in a FE context. By doing so we are able to create a computationally low cost surrogate model which captures the system behavior with high approximation quality and fast evaluations.
翻訳日:2023-02-14 14:44:38 公開日:2023-02-13
# 大規模言語モデルを用いた適応型テスト生成

Adaptive Test Generation Using a Large Language Model ( http://arxiv.org/abs/2302.06527v1 )

ライセンス: Link先を確認
Max Sch\"afer, Sarah Nadi, Aryaz Eghbali, Frank Tip(参考訳) ユニットテストはソフトウェアの正しさを保証する上で重要な役割を果たします。 しかし、手動でユニットテストを作成するのは面倒な作業であり、自動化の必要性を動機付けます。 本稿では,大規模言語モデル(LLM)を利用した適応型テスト生成手法であるTestPilotを提案する。 TestPilotは、既製のLLMであるCodexを使用して、既存のテスト例で追加のトレーニングや数発の学習を必要とせずに、プログラムのユニットテストを自動的に生成する。 このアプローチでは、Codexは、テスト中の関数の署名と実装を含むプロンプトと、ドキュメントから抽出された使用例を提供します。 生成されたテストが失敗した場合、testpilotのadaptive componentは、失敗したテストとエラーメッセージでモデルを再プロンプトすることで、問題を修正する新しいテストの生成を試みる。 私たちはTestPilot for JavaScriptの実装を作成し、テストを生成するために合計1,684のAPI関数で25 npmパッケージで評価しました。 その結果、生成したテストは93.1%のステートメントカバレッジ(中間68.2%)を達成した。 さらに、生成したテストの58.5%は、テスト中のパッケージから機能を実行する少なくとも1つのアサーションを含んでいる。 プロンプトに含まれる情報の一部を除外した実験は、すべてのコンポーネントが効果的なテストスイートの生成に寄与していることを示している。 生成したテストの92.7%は、既存のテストと(正規化された編集距離で測定されたように)50%の類似度を持ち、どれも正確なコピーではありません。

Unit tests play a key role in ensuring the correctness of software. However, manually creating unit tests is a laborious task, motivating the need for automation. This paper presents TestPilot, an adaptive test generation technique that leverages Large Language Models (LLMs). TestPilot uses Codex, an off-the-shelf LLM, to automatically generate unit tests for a given program without requiring additional training or few-shot learning on examples of existing tests. In our approach, Codex is provided with prompts that include the signature and implementation of a function under test, along with usage examples extracted from documentation. If a generated test fails, TestPilot's adaptive component attempts to generate a new test that fixes the problem by re-prompting the model with the failing test and error message. We created an implementation of TestPilot for JavaScript and evaluated it on 25 npm packages with a total of 1,684 API functions to generate tests for. Our results show that the generated tests achieve up to 93.1% statement coverage (median 68.2%). Moreover, on average, 58.5% of the generated tests contain at least one assertion that exercises functionality from the package under test. Our experiments with excluding parts of the information included in the prompts show that all components contribute towards the generation of effective test suites. Finally, we find that TestPilot does not generate memorized tests: 92.7% of our generated tests have $\leq$ 50% similarity with existing tests (as measured by normalized edit distance), with none of them being exact copies.
翻訳日:2023-02-14 14:44:10 公開日:2023-02-13
# クラスタリングのための転送可能なDeep Metric Learning

Transferable Deep Metric Learning for Clustering ( http://arxiv.org/abs/2302.06523v1 )

ライセンス: Link先を確認
Simo Alami.C, Rim Kaddah, Jesse Read(参考訳) 高次元空間におけるクラスタリングは難しい作業であり、通常の距離メトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。 実際、メートル法の選択は極めて重要であり、データセットの特徴に大きく依存している。 しかし、単一のメトリックを使用して、異なるドメインの複数のデータセットでクラスタリングを正しく実行することができる。 転送可能なメトリックを学習するためのフレームワークを提供することを提案する。 ラベル付きデータセットでメトリクスを学習し、それを異なるデータセットをクラスタ化するために適用できることを、一般的な意味で望ましいクラスタ化を特徴付ける埋め込み空間を使って示します。 変動複雑性のいくつかのデータセット(合成、MNIST、SVHN、omniglot)でそのようなメトリクスを学び、少数のラベル付きトレーニングデータセットと浅いネットワークを使用して最先端技術と競合する結果を得る。

Clustering in high dimension spaces is a difficult task; the usual distance metrics may no longer be appropriate under the curse of dimensionality. Indeed, the choice of the metric is crucial, and it is highly dependent on the dataset characteristics. However a single metric could be used to correctly perform clustering on multiple datasets of different domains. We propose to do so, providing a framework for learning a transferable metric. We show that we can learn a metric on a labelled dataset, then apply it to cluster a different dataset, using an embedding space that characterises a desired clustering in the generic sense. We learn and test such metrics on several datasets of variable complexity (synthetic, MNIST, SVHN, omniglot) and achieve results competitive with the state-of-the-art while using only a small number of labelled training datasets and shallow networks.
翻訳日:2023-02-14 14:43:46 公開日:2023-02-13
# 集積フォトニクスを用いた実時間ビンおよびエネルギー時間絡み合いの認定

Certification of genuine time-bin and energy-time entanglement with integrated photonics ( http://arxiv.org/abs/2302.06522v1 )

ライセンス: Link先を確認
Francesco B. L. Santagiustina, Costantino Agnesi, Alvaro Alarc\'on, Ad\'an Cabello, Guilherme B. Xavier, Paolo Villoresi, Giuseppe Vallone(参考訳) time-bin (tb) と energy-time (et) の絡み合いは長距離量子情報処理の重要な資源である。 近年,固体集積技術に基づくTB/ET絡み合った光子のコンパクトな高品質な光源の開発が試みられている。 しかし、これらの試みはいわゆる「ポスト選択の抜け穴」を閉じることに失敗した。 そこで,本研究では,真正(選択後の抜け穴のない)TBおよびETエンタングルメント認証のための統合フォトニック・ジェネラルベルテストチップを提案する。 本報告では,hug干渉法に基づく10以上の標準偏差によるベル不等式違反を報告する。 この実験は、以前にETエンタングルメントに利用されていたハグスキームが真のTBエンタングルメントにも使用できることを示した。

Time-bin (TB) and energy-time (ET) entanglement are crucial resources for long-distance quantum information processing. Recently, major efforts have been made to produce compact high-quality sources of TB/ET entangled photons based on solid-state integrated technologies. However, these attempts failed to close the so-called "post-selection loophole". Here, we present an integrated photonic general Bell-test chip for genuine (i.e., free of the post-selection loophole) TB and ET entanglement certification. We report a violation of a Bell inequality by more than 10 standard deviations using our device based on the "hug" interferometric scheme. The experiment also demonstrates that the hug scheme, previously exploited for ET entanglement, can also be used for genuine TB entanglement.
翻訳日:2023-02-14 14:43:32 公開日:2023-02-13
# 工学的散逸定常状態を用いた量子コンピュータのベンチマーク

Benchmarking a quantum computer using an engineered dissipative steady-state ( http://arxiv.org/abs/2302.06517v1 )

ライセンス: Link先を確認
Yigal Ilin and Itai Arad(参考訳) 本稿では,局所的な期待値に基づく量子コンピュータのスケーラブルなベンチマークのための新しいフレームワークを提案する。 このようなチャネルは、中回路計測やリセットゲートを用いて量子コンピュータ上で効率的に実装することができる。 その状態における局所パウリ作用素の期待値が局所的制約の集合を満たすことを示す。 (i)基盤となるチャンネルパラメータに依存し、 (ii)効率的にチェックできる。 これにより、任意のノイズモデルが実際のハードウェアをどれだけうまく記述しているかを、すべてのキュービットが無視できない時間にアクティブに使われているかを簡単に確認できる。 さらに,これらの期待値を古典的に計算する必要がないため,古典的に到達不能な状態にある量子コンピュータを評価する。 最後に、パラメータ化されたノイズモデルが与えられた場合、本手法を用いてシステム全体のノイズパラメータを学習することができる。 提案手法をIBMQマシン上で数値的,実験的に実証し,単一回路出力におけるパウリ測定から完全雑音モデルを検証および学習可能であることを示す。

We present a new framework for a scalable benchmarking of a quantum computer that is based on local expectation values, measured on the steady state of an engineered, non-unital and dissipative channel. Such channels can be efficiently implemented on the quantum computer using mid-circuit measurements or RESET gates. We show that the expectation values of local Pauli operators in that state satisfy a set of local constraints that (i) depend on the underlying channel parameters, and (ii) can be checked efficiently. This gives us a simple way to check how well a given noise model describes the actual hardware when all qubits are being actively used for non-negligible amount of time. Moreover, as we do not need to classically calculate these expectation values, our method evaluates a quantum computer in a regime that might be classically inaccessible. Finally, given a parameterized noise model, we can use our method to learn the underlying noise parameters for the entire system. We demonstrate our method numerically and experimentally on an IBMQ machine, and show that a full noise model can be verified and learned from Pauli measurements on a single circuit output.
翻訳日:2023-02-14 14:43:20 公開日:2023-02-13
# スポーツ競技における選手位置推定--限定観測によるマルチエージェント空間インプテーション

Inferring Player Location in Sports Matches: Multi-Agent Spatial Imputation from Limited Observations ( http://arxiv.org/abs/2302.06569v1 )

ライセンス: Link先を確認
Gregory Everett, Ryan J. Beal, Tim Matthews, Joseph Early, Timothy J. Norman, Sarvapali D. Ramchurn(参考訳) マルチエージェントシステム(MAS)におけるエージェントの動作を理解することは、自律運転、災害対応、スポーツ分析などの領域において重要な問題である。 既存のMAS問題は通常、すべてのエージェントに対する観測を伴う均一なタイムステップを使用する。 本研究では,不均一な時間ステップとエージェントの可観測性(約95%の欠落値)を有する環境において,エージェント位置インプテーションの問題を解析する。 このアプローチでは,時間的およびエージェント間パターンの学習にLong Short-Term Memory と Graph Neural Network コンポーネントを使用し,各タイミングでエージェントの位置を予測する。 試合中の選手全員の位置をスパースイベントデータ(ショットやパスなど)から入力することで,サッカー(サッカー)の領域に適用する。 我々のモデルは、プレーヤの位置を6.9m以内と推定し、最高のパフォーマンスベースラインからエラーを62%削減する。 このアプローチは、プレイヤー物理メトリクス、プレイヤーカバレッジ、チームピッチコントロールなどの下流分析タスクを促進する。 これらの課題に対する既存のソリューションは、しばしば光追跡データを必要とするが、これは入手に費用がかかり、エリートクラブのみが利用できる。 プレーヤの位置をイベントデータ取得の容易さから示唆することで,ダウンストリームタスクのアクセシビリティを向上させる。

Understanding agent behaviour in Multi-Agent Systems (MAS) is an important problem in domains such as autonomous driving, disaster response, and sports analytics. Existing MAS problems typically use uniform timesteps with observations for all agents. In this work, we analyse the problem of agent location imputation, specifically posed in environments with non-uniform timesteps and limited agent observability (~95% missing values). Our approach uses Long Short-Term Memory and Graph Neural Network components to learn temporal and inter-agent patterns to predict the location of all agents at every timestep. We apply this to the domain of football (soccer) by imputing the location of all players in a game from sparse event data (e.g., shots and passes). Our model estimates player locations to within ~6.9m; a ~62% reduction in error from the best performing baseline. This approach facilitates downstream analysis tasks such as player physical metrics, player coverage, and team pitch control. Existing solutions to these tasks often require optical tracking data, which is expensive to obtain and only available to elite clubs. By imputing player locations from easy to obtain event data, we increase the accessibility of downstream tasks.
翻訳日:2023-02-14 14:37:54 公開日:2023-02-13
# Comp2Comp:Computed Tomographyによるオープンソースのボディ組成評価

Comp2Comp: Open-Source Body Composition Assessment on Computed Tomography ( http://arxiv.org/abs/2302.06568v1 )

ライセンス: Link先を確認
Louis Blankemeier, Arjun Desai, Juan Manuel Zambrano Chaves, Andrew Wentland, Sally Yao, Eduardo Reis, Malte Jensen, Bhanushree Bahl, Khushboo Arora, Bhavik N. Patel, Leon Lenchik, Marc Willis, Robert D. Boutin, Akshay S. Chaudhari(参考訳) CT(Computed tomography)は、様々な医療状況を評価するために臨床で日常的に用いられる。 CTスキャンは診断を提供するが、組織体積と品質を分析するための定量的な体組成指標を抽出する機能も提供する。 CTスキャンから手動で定量的な体組成測定を抽出するのは面倒で時間を要する作業である。 このプロセスを自動化するために最近プロプライエタリソフトウェアが開発されたが、クローズドソースの性質は広く使われることを妨げている。 医療画像処理の専門家でない臨床医や研究者にとって、よりアクセスしやすく使いやすく、完全自動化されたボディコンポジションソフトウェアの必要性が高まっている。 この目的のために我々はComp2Compを開発した。これはオープンソースのPythonパッケージで、CTスキャンの迅速かつ自動化されたボディコンポジション分析を行う。 このパッケージはモデル、処理後のヒューリスティック、ボディ構成メトリクス、自動バッチ、多彩な視覚化を提供する。 Comp2Compは現在、腹部CTスキャンで骨、骨格筋、内臓脂肪組織、皮下脂肪組織に対する体組成測定を計算している。 この目的で2つのパイプラインを作成しました。 第1パイプラインは、腹部CTスキャンからT12からL5の脊椎レベルにおいて、脊椎の計測、および筋肉および脂肪組織の測定を計算する。 第2のパイプラインは、ユーザが特定した2d軸スライスの筋肉と脂肪組織の測定値を計算する。 本ガイドでは,Comp2Compパイプラインのアーキテクチャについて議論し,使用指示を提供し,内部および外部の検証結果を報告し,セグメンテーションとボディコンポジションの質を計測する。 Comp2Compはhttps://github.com/StanfordMIMI/Comp2Compにある。

Computed tomography (CT) is routinely used in clinical practice to evaluate a wide variety of medical conditions. While CT scans provide diagnoses, they also offer the ability to extract quantitative body composition metrics to analyze tissue volume and quality. Extracting quantitative body composition measures manually from CT scans is a cumbersome and time-consuming task. Proprietary software has been developed recently to automate this process, but the closed-source nature impedes widespread use. There is a growing need for fully automated body composition software that is more accessible and easier to use, especially for clinicians and researchers who are not experts in medical image processing. To this end, we have built Comp2Comp, an open-source Python package for rapid and automated body composition analysis of CT scans. This package offers models, post-processing heuristics, body composition metrics, automated batching, and polychromatic visualizations. Comp2Comp currently computes body composition measures for bone, skeletal muscle, visceral adipose tissue, and subcutaneous adipose tissue on CT scans of the abdomen. We have created two pipelines for this purpose. The first pipeline computes vertebral measures, as well as muscle and adipose tissue measures, at the T12 - L5 vertebral levels from abdominal CT scans. The second pipeline computes muscle and adipose tissue measures on user-specified 2D axial slices. In this guide, we discuss the architecture of the Comp2Comp pipelines, provide usage instructions, and report internal and external validation results to measure the quality of segmentations and body composition measures. Comp2Comp can be found at https://github.com/StanfordMIMI/Comp2Comp.
翻訳日:2023-02-14 14:37:33 公開日:2023-02-13
# 画像認識問題に対するモデル並列学習のためのドメイン分解に基づくCNN-DNNアーキテクチャ

A Domain Decomposition-Based CNN-DNN Architecture for Model Parallel Training Applied to Image Recognition Problems ( http://arxiv.org/abs/2302.06564v1 )

ライセンス: Link先を確認
Axel Klawonn, Martin Lanser, and Janine Weber(参考訳) ディープニューラルネットワーク(DNN)、特に畳み込みニューラルネットワーク(CNN)は、幅広い現代のコンピュータアプリケーション問題において大きな進歩をもたらした。 しかし、大量のデータセットの可用性の向上と、現代のコンピュータの計算能力の増大により、dnnとcnnモデルの複雑さとサイズが着実に向上し、トレーニング時間が長くなる。 そのため、複雑なネットワークアーキテクチャの訓練を加速し、並列化する様々な方法や試みが開発されている。 本稿では、モデル並列トレーニング戦略を自然にサポートし、2レベルドメイン分解法(ddm)にゆるやかにインスパイアされた新しいcnn-dnnアーキテクチャを提案する。 まず、ローカルCNNモデル、すなわちサブネットワークが、入力データの重なり部分や非重なり部分、例えばサブイメージを操作するように定義される。 サブネットワークは、完全に並列にトレーニングできる。 各サブネットワークは、各ローカル入力データのみに基づいて与えられた機械学習問題の局所決定を出力する。 その後、ローカルサブネットワークのローカルな決定を評価し、最終的なグローバルな決定を生成する追加のDNNモデルを訓練する。 ddmの類似性に関して、dnnは粗い問題として解釈することができ、したがって新しいアプローチは2段階のドメイン分解として解釈することができる。 本稿では,CNNを用いた画像分類問題について考察する。 異なる2次元画像分類問題に対する実験結果と顔認識問題と3次元コンピュータ断層撮影(CT)スキャンのための分類問題とが提供される。 その結果,提案手法はグローバルモデルと比較して学習時間を大幅に短縮することができ,また,基礎となる分類問題の精度向上にも有効であることがわかった。

Deep neural networks (DNNs) and, in particular, convolutional neural networks (CNNs) have brought significant advances in a wide range of modern computer application problems. However, the increasing availability of large amounts of datasets as well as the increasing available computational power of modern computers lead to a steady growth in the complexity and size of DNN and CNN models, and thus, to longer training times. Hence, various methods and attempts have been developed to accelerate and parallelize the training of complex network architectures. In this work, a novel CNN-DNN architecture is proposed that naturally supports a model parallel training strategy and that is loosely inspired by two-level domain decomposition methods (DDM). First, local CNN models, that is, subnetworks, are defined that operate on overlapping or nonoverlapping parts of the input data, for example, sub-images. The subnetworks can be trained completely in parallel. Each subnetwork outputs a local decision for the given machine learning problem which is exclusively based on the respective local input data. Subsequently, an additional DNN model is trained which evaluates the local decisions of the local subnetworks and generates a final, global decision. With respect to the analogy to DDM, the DNN can be interpreted as a coarse problem and hence, the new approach can be interpreted as a two-level domain decomposition. In this paper, solely image classification problems using CNNs are considered. Experimental results for different 2D image classification problems are provided as well as a face recognition problem, and a classification problem for 3D computer tomography (CT) scans. The results show that the proposed approach can significantly accelerate the required training time compared to the global model and, additionally, can also help to improve the accuracy of the underlying classification problem.
翻訳日:2023-02-14 14:37:08 公開日:2023-02-13
# 大規模マルチLingual Multi-Modal Summarization データセット

Large Scale Multi-Lingual Multi-Modal Summarization Dataset ( http://arxiv.org/abs/2302.06560v1 )

ライセンス: Link先を確認
Yash Verma, Anubhav Jangra, Raghvendra Kumar, Sriparna Saha(参考訳) エンコーダ・デコーダモデルなどの技術の発展により、複数のモダリティを含む情報を表現できるようになった。 この情報は情報検索や自然言語処理の分野で下流のタスクを更に強化することができるが、マルチモーダル技術の改善と性能評価には十分な多様性を持つ大規模マルチモーダルデータが必要である。 マルチモーダル要約、テキスト生成、翻訳など様々なタスクのためのマルチリンガルモデリングは、高品質のマルチリンガルアノテートデータからの情報を活用する。 本稿では,現在最大の多言語マルチモーダル要約データセット(M3LS)について述べる。 英放送協会(BBC)が10年以上にわたって発行したニュース記事から派生したもので、20言語にまたがる5言語にまたがる多様性を目標としており、13言語で最大の要約データセットであり、2言語の言語間要約データで構成されている。 本研究は,多言語における多言語多モーダル要約タスクを形式的に定義し,多言語環境での各種要約手法のベースラインスコアを報告する。 また、M3LSの特異性と難易度を分析するために、類似したデータセットと比較する。

Significant developments in techniques such as encoder-decoder models have enabled us to represent information comprising multiple modalities. This information can further enhance many downstream tasks in the field of information retrieval and natural language processing; however, improvements in multi-modal techniques and their performance evaluation require large-scale multi-modal data which offers sufficient diversity. Multi-lingual modeling for a variety of tasks like multi-modal summarization, text generation, and translation leverages information derived from high-quality multi-lingual annotated data. In this work, we present the current largest multi-lingual multi-modal summarization dataset (M3LS), and it consists of over a million instances of document-image pairs along with a professionally annotated multi-modal summary for each pair. It is derived from news articles published by British Broadcasting Corporation(BBC) over a decade and spans 20 languages, targeting diversity across five language roots, it is also the largest summarization dataset for 13 languages and consists of cross-lingual summarization data for 2 languages. We formally define the multi-lingual multi-modal summarization task utilizing our dataset and report baseline scores from various state-of-the-art summarization techniques in a multi-lingual setting. We also compare it with many similar datasets to analyze the uniqueness and difficulty of M3LS.
翻訳日:2023-02-14 14:36:40 公開日:2023-02-13
# 効率的なOctree-based Deep Learningモデルを用いた過渡血行動態予測

Transient Hemodynamics Prediction Using an Efficient Octree-Based Deep Learning Model ( http://arxiv.org/abs/2302.06557v1 )

ライセンス: Link先を確認
Noah Maul (1,2), Katharina Zinn (1,2), Fabian Wagner (1), Mareike Thies (1), Maximilian Rohleder (1,2), Laura Pfaff (1,2), Markus Kowarschik (2), Annette Birkhold (2), and Andreas Maier (1) ((1) Pattern Recognition Lab, FAU Erlangen-N\"urnberg, Germany, (2) Siemens Healthcare GmbH, Forchheim, Germany)(参考訳) 患者固有の血行動態評価は神経血管疾患の診断と治療を支援する可能性がある。 従来の画像診断法では,複雑な神経血管疾患の診断に必要となる高分解能の血行動態情報を正確に取得できない。 したがって, 計算流体力学(cfd)シミュレーションを断層画像再構成に応用し, 臨床的に関連のある情報を得ることができる。 しかし、3次元CFDシミュレーションは、通常臨床環境では利用できない膨大な計算資源とシミュレーション関連の専門知識を必要とする。 近年,計算効率を向上させるため,CFDサロゲートとしてディープラーニングに基づく手法が提案されている。 それにもかかわらず、複雑な血管形状の高分解能過渡CFDシミュレーションの予測は、従来のディープラーニングモデルに挑戦している。 本研究では,複雑な合成血管形状の高分解能(空間および時間)速度場を予測できるアーキテクチャを提案する。 このため、octreeベースの空間的離散化と暗黙の神経関数表現とを組み合わせることで、各時間ステップ毎に3次元速度場の予測を効率的に処理する。 内頸動脈(ICA)における造影剤の注入前後の脳循環動態予測の課題について検討した。 CFDシミュレーションと比較して、速度場は平均絶対誤差0.024m/sで推定できるのに対し、実行時間は高性能クラスタでは数時間からコンシューマグラフィカル処理ユニットでは数秒に短縮される。

Patient-specific hemodynamics assessment could support diagnosis and treatment of neurovascular diseases. Currently, conventional medical imaging modalities are not able to accurately acquire high-resolution hemodynamic information that would be required to assess complex neurovascular pathologies. Therefore, computational fluid dynamics (CFD) simulations can be applied to tomographic reconstructions to obtain clinically relevant information. However, three-dimensional (3D) CFD simulations require enormous computational resources and simulation-related expert knowledge that are usually not available in clinical environments. Recently, deep-learning-based methods have been proposed as CFD surrogates to improve computational efficiency. Nevertheless, the prediction of high-resolution transient CFD simulations for complex vascular geometries poses a challenge to conventional deep learning models. In this work, we present an architecture that is tailored to predict high-resolution (spatial and temporal) velocity fields for complex synthetic vascular geometries. For this, an octree-based spatial discretization is combined with an implicit neural function representation to efficiently handle the prediction of the 3D velocity field for each time step. The presented method is evaluated for the task of cerebral hemodynamics prediction before and during the injection of contrast agent in the internal carotid artery (ICA). Compared to CFD simulations, the velocity field can be estimated with a mean absolute error of 0.024 m/s, whereas the run time reduces from several hours on a high-performance cluster to a few seconds on a consumer graphical processing unit.
翻訳日:2023-02-14 14:36:16 公開日:2023-02-13
# VA-DepthNet: 単一画像深度予測への変分アプローチ

VA-DepthNet: A Variational Approach to Single Image Depth Prediction ( http://arxiv.org/abs/2302.06556v1 )

ライセンス: Link先を確認
Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool(参考訳) 本稿では,単一画像深度予測(SIDP)問題に対する,シンプルで効果的かつ正確なディープニューラルネットワークアプローチであるVA-DepthNetを紹介する。 提案手法は古典的な一階変分制約をこの問題に用いている。 SIDPのための最先端のディープニューラルネットワーク手法は、監督された設定で画像からシーンの深さを学習するが、多くの場合、シーンの規則性のような厳密なシーン空間における価値ある不変性や先行性を見落としている。 この論文の主な貢献は、SIDPタスクのためのニューラルネットワーク設計における古典的および十分に確立された変動制約の利点を明らかにすることである。 シーン空間における一階変動制約とエンコーダ-デコーダベースネットワークアーキテクチャの設計は、教師付きSIDPタスクに優れた結果をもたらすことを示す。 与えられた一階変動制約により、ネットワークはシーン空間の深さ勾配、すなわち正規性を認識する。 提案手法は,KITTI,NYU Depth V2,SUN RGB-Dなどのベンチマークデータセットに対して,広範囲な評価とアブレーション解析により有用性を示す。 テスト時のVA-DepthNetは,先行技術に比べて深度予測精度が大幅に向上し,シーン空間の高周波領域でも精度が向上した。 本論文の執筆時点では,kitti depth-prediction evaluation set benchmarks上でテストしたva-depthnetと呼ばれる手法が最先端の成果を示し,最もパフォーマンスの高い公開手法である。

We introduce VA-DepthNet, a simple, effective, and accurate deep neural network approach for the single-image depth prediction (SIDP) problem. The proposed approach advocates using classical first-order variational constraints for this problem. While state-of-the-art deep neural network methods for SIDP learn the scene depth from images in a supervised setting, they often overlook the invaluable invariances and priors in the rigid scene space, such as the regularity of the scene. The paper's main contribution is to reveal the benefit of classical and well-founded variational constraints in the neural network design for the SIDP task. It is shown that imposing first-order variational constraints in the scene space together with popular encoder-decoder-based network architecture design provides excellent results for the supervised SIDP task. The imposed first-order variational constraint makes the network aware of the depth gradient in the scene space, i.e., regularity. The paper demonstrates the usefulness of the proposed approach via extensive evaluation and ablation analysis over several benchmark datasets, such as KITTI, NYU Depth V2, and SUN RGB-D. The VA-DepthNet at test time shows considerable improvements in depth prediction accuracy compared to the prior art and is accurate also at high-frequency regions in the scene space. At the time of writing this paper, our method -- labeled as VA-DepthNet, when tested on the KITTI depth-prediction evaluation set benchmarks, shows state-of-the-art results, and is the top-performing published approach.
翻訳日:2023-02-14 14:35:55 公開日:2023-02-13
# 言語と視覚モデルジオメトリの収束の意義

Implications of the Convergence of Language and Vision Model Geometries ( http://arxiv.org/abs/2302.06555v1 )

ライセンス: Link先を確認
Jiaang Li, Yova Kementchedjhieva, Anders S{\o}gaard(参考訳) 大規模事前訓練言語モデル(LM)は「「世界への発話を接続する能力の欠如」と言われている(Bender and Koller, 2020)。 もしそうなら、lm表現はコンピュータビジョンモデルの表現とは無関係になることを期待する。 そこで本研究では,3つの異なるLM(BERT, GPT2, OPT)と3つのコンピュータビジョンモデル(ResNet, SegFormer, MAEを含むVM)を比較検討した。 実験により, LMはVMと部分的に同型な表現に収束し, 分散と多意味性の両方を視覚空間と言語空間の整合性に分解することを示した。 我々はこの発見の意義について議論する。

Large-scale pretrained language models (LMs) are said to ``lack the ability to connect [their] utterances to the world'' (Bender and Koller, 2020). If so, we would expect LM representations to be unrelated to representations in computer vision models. To investigate this, we present an empirical evaluation across three different LMs (BERT, GPT2, and OPT) and three computer vision models (VMs, including ResNet, SegFormer, and MAE). Our experiments show that LMs converge towards representations that are partially isomorphic to those of VMs, with dispersion, and polysemy both factoring into the alignability of vision and language spaces. We discuss the implications of this finding.
翻訳日:2023-02-14 14:35:29 公開日:2023-02-13
# ノイズ生成と画像生成--デジタル病理診断のための合成組織病理画像の品質向上-

Between Generating Noise and Generating Images: Noise in the Correct Frequency Improves the Quality of Synthetic Histopathology Images for Digital Pathology ( http://arxiv.org/abs/2302.06549v1 )

ライセンス: Link先を確認
Nati Daniel, Eliel Aknin, Ariel Larey, Yoni Peretz, Guy Sela, Yael Fisher, Yonatan Savir(参考訳) 人工知能と機械学習技術は、デジタル病理学の分野に革命をもたらすだろう。 しかし、これらのモデルはかなりの量のデータを要求するが、偏りのないトレーニングデータの可用性は限られている。 合成画像は既存のデータセットを拡張し、AIアルゴリズムを改善し、検証することができる。 しかし、細胞の特徴の正確な分布を制御することは依然として難しい。 解決策の1つは、ランダムノイズではなく、セマンティックマスクを入力として扱う条件付き生成敵ネットワークを利用することである。 他の領域とは異なり、組織の正確な細胞構造を概説することは難しく、入力マスクの多くは細胞タイプの領域を描写している。 しかし、ポリゴンマスクを使用すると、ポリゴンサイズと単細胞サイズとのミスマッチのため、合成画像に固有のアーティファクトが導入される。 本研究では,適切な空間周波数のランダムな単一画素ノイズをポリゴン意味マスクに導入することで,合成画像の品質が劇的に向上することを示す。 免疫組織化学処理肺生検の合成画像の作成に当院のプラットフォームを用いた。 画像の品質を3倍の検証手法を用いて検証する。 まず、適切な雑音周波数を付加することで、実際の単一セル機能の追加により得られる類似度指標の改善の87%が得られることを示す。 次に,合成画像がチューリング試験に合格することを示す。 最後に、これらの合成画像を列車に付加することで、PD-L1セマンティックセグメンテーション性能の点からAIの性能が向上することを示す。 私たちの研究は、アルゴリズムの正確性を改善し、ロバスト性を検証するために、限られたデータセットを偏ることなく、オンデマンドで合成データを生成するためのシンプルで強力なアプローチを提案しています。

Artificial intelligence and machine learning techniques have the promise to revolutionize the field of digital pathology. However, these models demand considerable amounts of data, while the availability of unbiased training data is limited. Synthetic images can augment existing datasets, to improve and validate AI algorithms. Yet, controlling the exact distribution of cellular features within them is still challenging. One of the solutions is harnessing conditional generative adversarial networks that take a semantic mask as an input rather than a random noise. Unlike other domains, outlining the exact cellular structure of tissues is hard, and most of the input masks depict regions of cell types. However, using polygon-based masks introduce inherent artifacts within the synthetic images - due to the mismatch between the polygon size and the single-cell size. In this work, we show that introducing random single-pixel noise with the appropriate spatial frequency into a polygon semantic mask can dramatically improve the quality of the synthetic images. We used our platform to generate synthetic images of immunohistochemistry-treated lung biopsies. We test the quality of the images using a three-fold validation procedure. First, we show that adding the appropriate noise frequency yields 87% of the similarity metrics improvement that is obtained by adding the actual single-cell features. Second, we show that the synthetic images pass the Turing test. Finally, we show that adding these synthetic images to the train set improves AI performance in terms of PD-L1 semantic segmentation performances. Our work suggests a simple and powerful approach for generating synthetic data on demand to unbias limited datasets to improve the algorithms' accuracy and validate their robustness.
翻訳日:2023-02-14 14:35:15 公開日:2023-02-13
# 深層強化学習における動的スパーストレーニングによる自動ノイズフィルタリング

Automatic Noise Filtering with Dynamic Sparse Training in Deep Reinforcement Learning ( http://arxiv.org/abs/2302.06548v1 )

ライセンス: Link先を確認
Bram Grooten, Ghada Sokar, Shibhansh Dohare, Elena Mocanu, Matthew E. Taylor, Mykola Pechenizkiy, Decebal Constantin Mocanu(参考訳) 明日のロボットは、ノイズから有用な情報を区別する必要がある。 例えば家庭用ロボットは、家に関する情報を連続的に受け取ることができるが、現在の雑用を成功させるためには、小さなサブセットだけに集中する必要がある。 強化学習文献では,無関係なデータを含む邪魔な入力がほとんど注目されていない。 これを解決するために、$\textit{extremely noisy environment}$ (ENE)と呼ばれる強化学習における問題設定を定式化します。 エージェントは、環境の状態に関するタスク関連情報を提供する機能を検出する必要がある。 そこで本研究では,様々な深層強化学習アルゴリズムと相乗的に動的スパーストレーニングの原理を用いる,$\textit{automatic noise filtering}$ (anf) という新しい手法を提案する。 スパース入力層は、ANF-SACとANF-TD3が標準SACとTD3を最大9,5\%の重量で上回るようなタスク関連機能に接続性を集中することを学ぶ。 さらに、環境の全ての特徴を1mの時間ステップで置換し、世界が発展するにつれて他の情報ソースが関連づけられるという事実をシミュレートすることにより、enesの転送学習設定を考案する。 ANFは、最終的なパフォーマンスとサンプルの複雑さにおいて、ベースラインを超える。 私たちのコードはhttps://github.com/bramgrooten/automatic-noise-filteringで利用可能です。

Tomorrow's robots will need to distinguish useful information from noise when performing different tasks. A household robot for instance may continuously receive a plethora of information about the home, but needs to focus on just a small subset to successfully execute its current chore. Filtering distracting inputs that contain irrelevant data has received little attention in the reinforcement learning literature. To start resolving this, we formulate a problem setting in reinforcement learning called the $\textit{extremely noisy environment}$ (ENE), where up to $99\%$ of the input features are pure noise. Agents need to detect which features provide task-relevant information about the state of the environment. Consequently, we propose a new method termed $\textit{Automatic Noise Filtering}$ (ANF), which uses the principles of dynamic sparse training in synergy with various deep reinforcement learning algorithms. The sparse input layer learns to focus its connectivity on task-relevant features, such that ANF-SAC and ANF-TD3 outperform standard SAC and TD3 by a large margin, while using up to $95\%$ fewer weights. Furthermore, we devise a transfer learning setting for ENEs, by permuting all features of the environment after 1M timesteps to simulate the fact that other information sources can become relevant as the world evolves. Again, ANF surpasses the baselines in final performance and sample complexity. Our code is available at https://github.com/bramgrooten/automatic-noise-filtering
翻訳日:2023-02-14 14:34:52 公開日:2023-02-13
# 自分が知らないことを 知っている確率的回路は

Probabilistic Circuits That Know What They Don't Know ( http://arxiv.org/abs/2302.06544v1 )

ライセンス: Link先を確認
Fabrizio Ventola and Steven Braun and Zhongjie Yu and Martin Mundt and Kristian Kersting(参考訳) 確率回路(probabilistic circuits, pcs)は、正確な確率的推論を可能にするモデルである。 ニューラルネットワークとは対照的に、それらはよく校正され、アウト・オブ・ディストリビューション(OOD)データに対して堅牢であると考えられている。 本稿では,PCがOODデータに対して堅牢ではないことを示す。 次に,この課題をモデル不確実性定量化によって克服する方法を示す。 そこで本研究では,モンテカルロ・ドロップアウト(mcd)の解析解を分散伝播によって導出することにより不確かさを推定する推定手法であるtdiを提案する。 複数のネットワーク評価のコストがかかるニューラルネットワークのmcdとは異なり、tdiは単一のフォワードパスでサンプリング不要の不確実性推定を提供する。 TDIは,PCの分散シフトやOODデータに対する堅牢性を改善し,実世界のデータに対する分類信頼性と不確実性評価を評価する一連の実験を通じて実証した。

Probabilistic circuits (PCs) are models that allow exact and tractable probabilistic inference. In contrast to neural networks, they are often assumed to be well-calibrated and robust to out-of-distribution (OOD) data. In this paper, we show that PCs are in fact not robust to OOD data, i.e., they don't know what they don't know. We then show how this challenge can be overcome by model uncertainty quantification. To this end, we propose tractable dropout inference (TDI), an inference procedure to estimate uncertainty by deriving an analytical solution to Monte Carlo dropout (MCD) through variance propagation. Unlike MCD in neural networks, which comes at the cost of multiple network evaluations, TDI provides tractable sampling-free uncertainty estimates in a single forward pass. TDI improves the robustness of PCs to distribution shift and OOD data, demonstrated through a series of experiments evaluating the classification confidence and uncertainty estimates on real-world data.
翻訳日:2023-02-14 14:34:24 公開日:2023-02-13
# 文脈的遅延相互作用によるニューラルリランカの分布外一般化の改善

Improving Out-of-Distribution Generalization of Neural Rerankers with Contextualized Late Interaction ( http://arxiv.org/abs/2302.06589v1 )

ライセンス: Link先を確認
Xinyu Zhang, Minghan Li, and Jimmy Lin(参考訳) 最近の情報検索の進歩により、クエリとドキュメントの表現をマルチベクトルに埋め込むことで、分散データセット上で堅牢なbiエンコーダ検索が可能になる。 本稿では,多ベクトルの最も単純な形式である遅延相互作用が,[CLS]ベクトルのみを用いて類似点を計算する神経リランカに有用かどうかを考察する。 直観的には、以前のレイヤのリランクのアテンションメカニズムがすでにトークンレベルの情報を集めているが、遅いインタラクションを追加することで、分散外データセットの平均が5%向上し、レイテンシが増加せず、ドメイン内の有効性が低下しないことがわかった。 広範囲な実験と分析により, モデルサイズ, 様々な性質の第一段階の検索者が一致し, より長いクエリにおいて改善が顕著であることを示す。

Recent progress in information retrieval finds that embedding query and document representation into multi-vector yields a robust bi-encoder retriever on out-of-distribution datasets. In this paper, we explore whether late interaction, the simplest form of multi-vector, is also helpful to neural rerankers that only use the [CLS] vector to compute the similarity score. Although intuitively, the attention mechanism of rerankers at the previous layers already gathers the token-level information, we find adding late interaction still brings an extra 5% improvement in average on out-of-distribution datasets, with little increase in latency and no degradation in in-domain effectiveness. Through extensive experiments and analysis, we show that the finding is consistent across different model sizes and first-stage retrievers of diverse natures and that the improvement is more prominent on longer queries.
翻訳日:2023-02-14 14:28:10 公開日:2023-02-13
# 悪意あるAIによる画像編集のコスト向上

Raising the Cost of Malicious AI-Powered Image Editing ( http://arxiv.org/abs/2302.06588v1 )

ライセンス: Link先を確認
Hadi Salman, Alaa Khaddaj, Guillaume Leclerc, Andrew Ilyas, Aleksander Madry(参考訳) 本稿では,大規模拡散モデルによる悪意のある画像編集のリスクを軽減する手法を提案する。 重要なアイデアは、これらのモデルによる操作に耐性を持たせるために画像に免疫を付与することだ。 この免疫は、ターゲットの拡散モデルの操作を阻害するように設計された非受容的な逆向性摂動を注入し、非現実的な画像を生成することに依存している。 このような摂動を創る2つの方法を提供し、その効果を実証する。 最後に、我々のアプローチを完全に効果的かつ実用的なものにするために必要となる政策コンポーネントについて論じる。それは、組織が個別のユーザではなく拡散モデルを開発し、免疫プロセスを実装し(そして支援する)ことを含む。

We present an approach to mitigating the risks of malicious image editing posed by large diffusion models. The key idea is to immunize images so as to make them resistant to manipulation by these models. This immunization relies on injection of imperceptible adversarial perturbations designed to disrupt the operation of the targeted diffusion models, forcing them to generate unrealistic images. We provide two methods for crafting such perturbations, and then demonstrate their efficacy. Finally, we discuss a policy component necessary to make our approach fully effective and practical -- one that involves the organizations developing diffusion models, rather than individual users, to implement (and support) the immunization process.
翻訳日:2023-02-14 14:27:53 公開日:2023-02-13
# スティッチブルニューラルネットワーク

Stitchable Neural Networks ( http://arxiv.org/abs/2302.06586v1 )

ライセンス: Link先を確認
Zizheng Pan, Jianfei Cai, Bohan Zhuang(参考訳) 巨大な事前訓練されたモデルファミリー(例:DeiT/Swin)を含むパブリックモデル動物園は、これまでになく前例のない範囲に達し、ディープラーニングの成功に大きく貢献している。 各モデルファミリは、様々なスケール(例えば、DeiT-Ti/S/B)で事前訓練されたモデルで構成されているため、実行時に動的精度と効率のトレードオフのために、これらの容易なモデルをファミリにどのように効果的に組み立てるかという根本的な問題が発生する。 本研究では,モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。 具体的には、SN-Netは事前訓練されたニューラルネットワークのファミリーを分割し、それをアンカーと呼び、ブロック/層にまたがってそれらを縫い合わせることで、アンカーから別のアンカーへのアクティベーションをマッピングする。 SN-Netはトレーニングのごく一部で、様々なスケールのアンカーのパフォーマンスを効果的に補間する。 実行時にSN-Netは、縫合位置を切り替えることで、動的リソース制約に即座に適応できる。 さらに, 縫合方法, 縫合方法, およびSN-Netを効果的かつ効率的に訓練するための簡単な戦略について, 総合的研究を行った。 ImageNet分類に関する大規模な実験では、SN-Netは、さまざまなデプロイメントシナリオをサポートしながら、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。 例えば、Swin Transformerを縫い合わせることで、単一のネットワークを持つTimモデル動物園の数百のモデルに挑戦する。 この新しい弾力性モデルフレームワークは、より広いコミュニティにおけるさらなる研究の強力なベースラインとなると信じています。

The public model zoo containing enormous powerful pretrained model families (e.g., DeiT/Swin) has reached an unprecedented scope than ever, which significantly contributes to the success of deep learning. As each model family consists of pretrained models with diverse scales (e.g., DeiT-Ti/S/B), it naturally arises a fundamental question of how to effectively assemble these readily available models in a family for dynamic accuracy-efficiency trade-offs at runtime. In this work, we present Stitchable Neural Networks (SN-Net), a novel scalable and efficient framework for model deployment which cheaply produces numerous networks with different complexity and performance trade-offs. Specifically, SN-Net splits a family of pretrained neural networks, which we call anchors, across the blocks/layers and then stitches them together with simple stitching layers to map the activations from one anchor to another. With only a few epochs of training, SN-Net effectively interpolates between the performance of anchors with varying scales. At runtime, SN-Net can instantly adapt to dynamic resource constraints by switching the stitching positions. Furthermore, we provide a comprehensive study on what, how and where to stitch as well as a simple strategy for effectively and efficiently training SN-Net. Extensive experiments on ImageNet classification demonstrate that SN-Net can obtain on-par or even better performance than many individually trained networks while supporting diverse deployment scenarios. For example, by stitching Swin Transformers, we challenge hundreds of models in Timm model zoo with a single network. We believe this new elastic model framework can serve as a strong baseline for further research in wider communities.
翻訳日:2023-02-14 14:27:42 公開日:2023-02-13
# AbLit: 英語文学の短縮版の分析と生成のためのリソース

AbLit: A Resource for Analyzing and Generating Abridged Versions of English Literature ( http://arxiv.org/abs/2302.06579v1 )

ライセンス: Link先を確認
Melissa Roemmele, Kyle Shaffer, Katrina Olsen, Yiyi Wang, Steve DeNeefe(参考訳) テキストの短縮版を作成するには、言語的品質を維持しながらそれを短縮する必要がある。 本稿では,この課題をNLPの観点から初めて考察する。 本稿では,英文学書の短縮版から派生した新たな資料AbLitを紹介する。 データセットは、元のテキストと橋渡しされたテキストの間の通路レベルのアライメントをキャプチャする。 我々はこれらのアライメントの言語関係を特徴付け、これらの関係を予測する自動モデルを作成し、新しいテキストの短縮を生成する。 今後の資源と研究のモチベーションとして,橋渡しを課題課題として定めている。 データセットはgithub.com/roemmele/AbLitで入手できる。

Creating an abridged version of a text involves shortening it while maintaining its linguistic qualities. In this paper, we examine this task from an NLP perspective for the first time. We present a new resource, AbLit, which is derived from abridged versions of English literature books. The dataset captures passage-level alignments between the original and abridged texts. We characterize the linguistic relations of these alignments, and create automated models to predict these relations as well as to generate abridgements for new texts. Our findings establish abridgement as a challenging task, motivating future resources and research. The dataset is available at github.com/roemmele/AbLit.
翻訳日:2023-02-14 14:26:48 公開日:2023-02-13
# カーネルリッジ回帰推論

Kernel Ridge Regression Inference ( http://arxiv.org/abs/2302.06578v1 )

ライセンス: Link先を確認
Rahul Singh and Suhas Vijaykumar(参考訳) 我々は、カーネルリッジ回帰(KRR)のための一様信頼バンドを有限サンプル保証で提供する。 この論文は、正規化パラメータ $\lambda$ が一般データ分布に対して 0 に収束する非パラメトリック環境において、krr に対する最初の完全で統一的な信頼バンドを提供する。 提案する均一信頼バンドは, 偏りを仮定せずに有効な不確実性定量化を可能にする, 閉形式解を用いた新しいシンメトリズド・マルチプライアブートストラップ法に基づいている。 この手順を正当化するために、再生成されたカーネルヒルベルト空間(RKHS)における部分和に対する非漸近的、一様ガウス的、ブートストラップ的結合を導出する。 この結果は,rkhs単位球によって指数化される経験的過程に対して,被覆数に鋭く対数的に依存する強い近似を示す。

We provide uniform confidence bands for kernel ridge regression (KRR), with finite sample guarantees. KRR is ubiquitous, yet--to our knowledge--this paper supplies the first exact, uniform confidence bands for KRR in the non-parametric regime where the regularization parameter $\lambda$ converges to 0, for general data distributions. Our proposed uniform confidence band is based on a new, symmetrized multiplier bootstrap procedure with a closed form solution, which allows for valid uncertainty quantification without assumptions on the bias. To justify the procedure, we derive non-asymptotic, uniform Gaussian and bootstrap couplings for partial sums in a reproducing kernel Hilbert space (RKHS) with bounded kernel. Our results imply strong approximation for empirical processes indexed by the RKHS unit ball, with sharp, logarithmic dependence on the covering number.
翻訳日:2023-02-14 14:26:37 公開日:2023-02-13
# 合成潜在変数モデル学習のためのGFlowNet-EM

GFlowNet-EM for learning compositional latent variable models ( http://arxiv.org/abs/2302.06576v1 )

ライセンス: Link先を確認
Edward Hu, Nikolay Malkin, Moksh Jain, Katie Everett, Alexandros Graikos, Yoshua Bengio(参考訳) ラテント変数モデル(LVM)は、独立な構成ラテントを持つが、ラテントの構成が組み合わさったため、重要だが困難な設定である。 ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化である。 期待最大化(em)に基づくアルゴリズムでは、eステップは後方への制限付き近似なしでは、しばしば難解である。 本稿では,非正規化密度からサンプリングするアルゴリズムであるgflownetsの利用を提案する。 gflownetsを後部の潜伏体からサンプルするために訓練することで、その強みを離散構造上の複素分布に対する償却変分推論アルゴリズムとして活用する。 提案手法であるGFlowNet-EMは,非文脈自由文法帰納法の実験や,エンコーダに強制される条件付き独立性のない離散変分オートエンコーダ (VAE) を用いた画像に対する表現的LVMの訓練を可能にする。

Latent variable models (LVMs) with discrete compositional latents are an important but challenging setting due to a combinatorially large number of possible configurations of the latents. A key tradeoff in modeling the posteriors over latents is between expressivity and tractable optimization. For algorithms based on expectation-maximization (EM), the E-step is often intractable without restrictive approximations to the posterior. We propose the use of GFlowNets, algorithms for sampling from an unnormalized density by learning a stochastic policy for sequential construction of samples, for this intractable E-step. By training GFlowNets to sample from the posterior over latents, we take advantage of their strengths as amortized variational inference algorithms for complex distributions over discrete structures. Our approach, GFlowNet-EM, enables the training of expressive LVMs with discrete compositional latents, as shown by experiments on non-context-free grammar induction and on images using discrete variational autoencoders (VAEs) without conditional independence enforced in the encoder.
翻訳日:2023-02-14 14:26:20 公開日:2023-02-13
# 量子ゲートの遺伝的多部包絡能力の階層性

Hierarchies among Genuine Multipartite Entangling Capabilities of Quantum Gates ( http://arxiv.org/abs/2302.06574v1 )

ライセンス: Link先を確認
Samir Kumar Hazra, Aditi Sen De(参考訳) 我々は、量子ゲートのエンタングルパワーをその能力に応じて分類し、マルチパーティント分離状態の階層に基づいて真のマルチパーティントエンタングルを生成する。 特に、固定ユニタリ作用素がk-分離状態の集合に作用するとき、その特定のユニタリ作用素を介して生成される最大(平均)真のマルチパートエンタングルメント(GME)は、すべてのk-分離状態の集合を最大化した後決定される。 入力状態が二分法で絡み合っているとき、高い gme を生成するのに役立つユニタリ作用素を識別するが、入力中の絡み合いがいかなる利点も得られないような逆もできる。 量子ゲート、対角、ハールの一様生成ユニタリ作用素の特殊クラスを含む様々なユニタリ作用素を考慮し、この結果を示す。 固定ユニタリ作用素のエンタングルパワーは、3つ以上のパーティを持つ入力として、異なる種類の分離可能な状態の集合を最大化することによって比較する。 具体的には、ランダムに選択されたユニタリ作用素の場合、分離可能な状態のクラスに存在する初期絡み合いは、完全分離可能な状態の集合と比較してGMEを作成するのに有益であることを示す。

We categorize the entangling power of quantum gates according to their capacity to generate genuine multipartite entanglement based on the hierarchy of multipartite separable states. In particular, when a fixed unitary operator acts on the set of k-separable states, the maximal (average) genuine multipartite entanglement (GME) produced via that particular unitary operator is determined after maximizing over the set of all k-separable states. We identify unitary operators that are beneficial for generating high GME when the input states are entangled in some bipartition, although the picture can also be reversed in which entanglement in inputs does not help to achieve any advantage. We demonstrate our results by considering a variety of unitary operators including special classes of quantum gates, diagonal, and Haar uniformly generated unitary operators. We compare the entangling power of a fixed unitary operator by maximizing the set of different kinds of separable states as inputs having three or more parties. Specifically, in the case of randomly chosen unitary operators, we manifest that initial entanglement present in the classes of separable states is beneficial to create GME compared to the set of fully separable states.
翻訳日:2023-02-14 14:26:01 公開日:2023-02-13
# EnergyShield: エネルギー効率のためのニューラルネットワークコントローラの安全なオフロード

EnergyShield: Provably-Safe Offloading of Neural Network Controllers for Energy Efficiency ( http://arxiv.org/abs/2302.06572v1 )

ライセンス: Link先を確認
Mohanad Odema, James Ferlez, Goli Vaisi, Yasser Shoukry, Mohammad Abdullah Al Faruque(参考訳) ニューラルネットワーク(NN)をベースとした自律運転システム(ADS)の高エネルギー需要を軽減するため,ADSから近くのエッジコンピューティングインフラへNNコントローラをオフロードする問題を考察する。 特に,ads車両の低消費電力実行時安全モニタとして,コントローラ 'shield' を再利用した energyshield フレームワークを提案する。 特に、エネルギシールドのシールドは、安全性の介入だけでなく、車両の安全性が損なわれる前に許容されるエッジ応答時間の公式な状態に基づく定量化も提供する。 energyshieldを使うと、広告は無線でnnの計算をエッジコンピュータにオフロードして省エネできるが、応答を受け取るまで安全の正式な保証を維持できる(車載ハードウェアはジャストインタイムのフェイルセーフを提供する)。 本研究では,EnergyShieldの利点を検証するため,Carlaシミュレーション環境で実装および試験を行った。 その結果,EnergyShieldは車載NNの24%から54%の省エネ化を実現しつつ,安全運転を維持していることがわかった。

To mitigate the high energy demand of Neural Network (NN) based Autonomous Driving Systems (ADSs), we consider the problem of offloading NN controllers from the ADS to nearby edge-computing infrastructure, but in such a way that formal vehicle safety properties are guaranteed. In particular, we propose the EnergyShield framework, which repurposes a controller ''shield'' as a low-power runtime safety monitor for the ADS vehicle. Specifically, the shield in EnergyShield provides not only safety interventions but also a formal, state-based quantification of the tolerable edge response time before vehicle safety is compromised. Using EnergyShield, an ADS can then save energy by wirelessly offloading NN computations to edge computers, while still maintaining a formal guarantee of safety until it receives a response (on-vehicle hardware provides a just-in-time fail safe). To validate the benefits of EnergyShield, we implemented and tested it in the Carla simulation environment. Our results show that EnergyShield maintains safe vehicle operation while providing significant energy savings compared to on-vehicle NN evaluation: from 24% to 54% less energy across a range of wireless conditions and edge delays.
翻訳日:2023-02-14 14:25:38 公開日:2023-02-13
# 均一な平滑性を超えて:適応型SGDの停止解析

Beyond Uniform Smoothness: A Stopped Analysis of Adaptive SGD ( http://arxiv.org/abs/2302.06570v1 )

ライセンス: Link先を確認
Matthew Faw, Litu Rout, Constantine Caramanis, Sanjay Shakkottai(参考訳) 本研究は、確率的勾配オラクルを用いて、非凸関数の非有界な滑らか性定数の1次定常点を求める問題を考察する。 Zhangらによって提案された$(L_0,L_1)$-smooth関数のクラス(ICLR'20)に焦点を当てる。 経験的な証拠から、これらの関数は、広く普及している$l_0$-smoothnessに比べて、実用的な機械学習問題をより密接に捉えていることが示唆される。 このクラスは、$(0,\mathcal{O}(L_1))$-smoothである$\exp(L_1 x)$のような非常に非滑らかな関数を含むのに十分リッチである。 リッチさにもかかわらず、新しい作品のラインは、確率勾配のノイズが決定論的に一様有界であるとき、収束率の$\widetilde{\mathcal{o}}(\frac{1}{\sqrt{t}})が得られる。 このノイズ制限は$l_0$-smooth設定では不要であり、多くの実用的な設定では満足できないか、あるいは収束率のノイズスケーリングに関してより弱い収束率となる。 我々は、ノイズサポートに一様境界を仮定することなく、$(L_0,L_1)$-smooth関数に対して$\mathcal{O}(\frac{\mathrm{poly}\log(T)}{\sqrt{T}})$収束率を証明できる技術を開発した。 結果の背後にある重要なイノベーションは、注意深く構築された停止時間$\tau$であり、これは平均で同時に「大きい」が、勾配から独立して$\tau$よりも適応的なステップサイズを処理できる。 一般的な$(L_0,L_1)$-smooth関数の場合、我々は乗法ノイズパラメータ $\sigma_1 < 1$ という穏やかな制限を必要とする。 l_0,l_1)$-smooth関数の幅広いサブクラスに対して、$\sigma_1 \geq 1$ の時点で収束率は継続する。 対照的に、$(L_0,L_1)$-smooth最適化に関する先行研究によって解析された多くのアルゴリズムは、$\sigma_1 > 1$ のとき、滑らかで強凸な関数であっても、一定の確率で分岐する。

This work considers the problem of finding a first-order stationary point of a non-convex function with potentially unbounded smoothness constant using a stochastic gradient oracle. We focus on the class of $(L_0,L_1)$-smooth functions proposed by Zhang et al. (ICLR'20). Empirical evidence suggests that these functions more closely captures practical machine learning problems as compared to the pervasive $L_0$-smoothness. This class is rich enough to include highly non-smooth functions, such as $\exp(L_1 x)$ which is $(0,\mathcal{O}(L_1))$-smooth. Despite the richness, an emerging line of works achieves the $\widetilde{\mathcal{O}}(\frac{1}{\sqrt{T}})$ rate of convergence when the noise of the stochastic gradients is deterministically and uniformly bounded. This noise restriction is not required in the $L_0$-smooth setting, and in many practical settings is either not satisfied, or results in weaker convergence rates with respect to the noise scaling of the convergence rate. We develop a technique that allows us to prove $\mathcal{O}(\frac{\mathrm{poly}\log(T)}{\sqrt{T}})$ convergence rates for $(L_0,L_1)$-smooth functions without assuming uniform bounds on the noise support. The key innovation behind our results is a carefully constructed stopping time $\tau$ which is simultaneously "large" on average, yet also allows us to treat the adaptive step sizes before $\tau$ as (roughly) independent of the gradients. For general $(L_0,L_1)$-smooth functions, our analysis requires the mild restriction that the multiplicative noise parameter $\sigma_1 < 1$. For a broad subclass of $(L_0,L_1)$-smooth functions, our convergence rate continues to hold when $\sigma_1 \geq 1$. By contrast, we prove that many algorithms analyzed by prior works on $(L_0,L_1)$-smooth optimization diverge with constant probability even for smooth and strongly-convex functions when $\sigma_1 > 1$.
翻訳日:2023-02-14 14:25:20 公開日:2023-02-13
# 生成型NeRFを用いた3次元ブレンディング

3D-aware Blending with Generative NeRFs ( http://arxiv.org/abs/2302.06608v1 )

ライセンス: Link先を確認
Hyunsu Kim, Gayoung Lee, Yunjey Choi, Jin-Hwa Kim, Jun-Yan Zhu(参考訳) 画像ブレンディングは、複数の画像をシームレスに組み合わせることを目的としている。 既存の2D方式では、特に3Dカメラのポーズとオブジェクト形状の違いにより入力画像が不一致である場合、依然として困難である。 そこで本研究では,3d-aware alignmentと3d-aware blendingの2つの主要コンポーネントを含む,生成的ニューラルネットワーク放射場(nerf)を用いた3d-aware blending法を提案する。 3d認識アライメントでは,まず基準画像のカメラポーズを生成型nerfに対して推定し,各部分に対して3d局所アライメントを行う。 生成したNeRFの3D情報をさらに活用するために,原画素空間ではなく,NeRFの潜在表現空間上で直接画像をブレンドする3D対応ブレンディングを提案する。 本手法は,FFHQとAFHQ-Catによる定量的,定性的な評価により,既存の2次元ベースラインよりも優れていた。

Image blending aims to combine multiple images seamlessly. It remains challenging for existing 2D-based methods, especially when input images are misaligned due to differences in 3D camera poses and object shapes. To tackle these issues, we propose a 3D-aware blending method using generative Neural Radiance Fields (NeRF), including two key components: 3D-aware alignment and 3D-aware blending. For 3D-aware alignment, we first estimate the camera pose of the reference image with respect to generative NeRFs and then perform 3D local alignment for each part. To further leverage 3D information of the generative NeRF, we propose 3D-aware blending that directly blends images on the NeRF's latent representation space, rather than raw pixel space. Collectively, our method outperforms existing 2D baselines, as validated by extensive quantitative and qualitative evaluations with FFHQ and AFHQ-Cat.
翻訳日:2023-02-14 14:19:21 公開日:2023-02-13
# マルチアジェンシーの呪いを破る: 関数近似を用いた効率的な分散マルチエージェントrl

Breaking the Curse of Multiagency: Provably Efficient Decentralized Multi-Agent RL with Function Approximation ( http://arxiv.org/abs/2302.06606v1 )

ライセンス: Link先を確認
Yuanhao Wang, Qinghua Liu, Yu Bai, Chi Jin(参考訳) マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)の独特な課題は、ゲームの記述長だけでなく、既存の学習アルゴリズムの複雑さがエージェントの数とともに指数関数的にスケールするという、マルチエージェントの呪いである。 最近の研究は、表型マルコフゲーム(英語版)のモデルの下でこの課題にうまく対処しているが、それらのメカニズムは有限かつ小さい状態の数に依存しており、関数近似が値関数やポリシーの近似に使われるような巨大な状態空間を持つ実用的なシナリオには拡張されない。 本稿では,関数近似の下でのマルチ緊急の呪いを確実に解消するMARLアルゴリズムの最初の行を示す。 我々は,マルコフゲームにおける線形関数近似の下での粗相関平衡(CCE)を学習するための最初の多項式サンプル計算結果を与える,ポリシ・リプレイによるVラーニング(V-Learning)を新たに設計する。 我々のアルゴリズムは常にMarkov CCEを出力し、$\epsilon$-optimal Solutionを見つけるために$\widetilde{\mathcal{O}}(\epsilon^{-2})$の最適なレートを達成する。 また、表のケースに制限された場合、マルコフ CCE を見つけるために現在の最良の分散結果 $\widetilde{\mathcal{O}}(\epsilon^{-3})$ よりも改善する。 さらに、多項式数のサンプルを用いてポリシークラス制限CCEを求める分散最適化政策ミラーDescentという別のアルゴリズムを提案する。 より弱いバージョンのCCEを学習する代わりに、このアルゴリズムは、線形二次ゲームや低次元の 'marginal' エルダー次元の MARL 問題など、一般的な関数近似の下での幅広い問題に適用する。

A unique challenge in Multi-Agent Reinforcement Learning (MARL) is the curse of multiagency, where the description length of the game as well as the complexity of many existing learning algorithms scale exponentially with the number of agents. While recent works successfully address this challenge under the model of tabular Markov Games, their mechanisms critically rely on the number of states being finite and small, and do not extend to practical scenarios with enormous state spaces where function approximation must be used to approximate value functions or policies. This paper presents the first line of MARL algorithms that provably resolve the curse of multiagency under function approximation. We design a new decentralized algorithm -- V-Learning with Policy Replay, which gives the first polynomial sample complexity results for learning approximate Coarse Correlated Equilibria (CCEs) of Markov Games under decentralized linear function approximation. Our algorithm always outputs Markov CCEs, and achieves an optimal rate of $\widetilde{\mathcal{O}}(\epsilon^{-2})$ for finding $\epsilon$-optimal solutions. Also, when restricted to the tabular case, our result improves over the current best decentralized result $\widetilde{\mathcal{O}}(\epsilon^{-3})$ for finding Markov CCEs. We further present an alternative algorithm -- Decentralized Optimistic Policy Mirror Descent, which finds policy-class-restricted CCEs using a polynomial number of samples. In exchange for learning a weaker version of CCEs, this algorithm applies to a wider range of problems under generic function approximation, such as linear quadratic games and MARL problems with low ''marginal'' Eluder dimension.
翻訳日:2023-02-14 14:19:03 公開日:2023-02-13
# UniAdapter: クロスモーダルモデリングのための統一パラメータ効率変換学習

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling ( http://arxiv.org/abs/2302.06605v1 )

ライセンス: Link先を確認
Haoyu Lu, Mingyu Ding, Yuqi Huo, Guoxing Yang, Zhiwu Lu, Masayoshi Tomizuka, Wei Zhan(参考訳) 大規模視覚言語事前学習モデルでは、様々な下流タスクに有望な転送性が示されている。 これらの基礎モデルのサイズと下流タスクの数が増えるにつれて、計算とストレージのコストが重いため、標準の完全な微調整パラダイムは持続不可能になる。 本論文では,事前学習された視覚言語モデルに対するパラメータ効率のクロスモーダル適応のためのユニモーダルおよびマルチモーダルアダプタを統一するUniAdapterを提案する。 具体的には、アダプタは異なるモダリティとそれらの相互作用に分散され、部分的な重量共有によって調整可能なパラメータの総数は減少する。 統一された知識共有設計は、様々な下流タスクに役立つ強力なクロスモーダル表現を可能にし、事前訓練されたモデルの1.0%-2.0%のパラメータしか必要としない。 6つのクロスモーダルな下流ベンチマーク(ビデオテキスト検索、画像テキスト検索、ビデオQA、VQAを含む)の大規模な実験は、ほとんどの場合、UniAdapterが最先端技術を上回るだけでなく、完全な微調整戦略に勝っていることを示している。 特にmsrvtt検索タスクでは、uniadapterは2.2%のモデルパラメータで49.7%のre recall@1を達成し、最新の競合相手を2.0%上回っている。 コードとモデルはhttps://github.com/rerv/uniadapterで入手できる。

Large-scale vision-language pre-trained models have shown promising transferability to various downstream tasks. As the size of these foundation models and the number of downstream tasks grow, the standard full fine-tuning paradigm becomes unsustainable due to heavy computational and storage costs. This paper proposes UniAdapter, which unifies unimodal and multimodal adapters for parameter-efficient cross-modal adaptation on pre-trained vision-language models. Specifically, adapters are distributed to different modalities and their interactions, with the total number of tunable parameters reduced by partial weight sharing. The unified and knowledge-sharing design enables powerful cross-modal representations that can benefit various downstream tasks, requiring only 1.0%-2.0% tunable parameters of the pre-trained model. Extensive experiments on 6 cross-modal downstream benchmarks (including video-text retrieval, image-text retrieval, VideoQA, and VQA) show that in most cases, UniAdapter not only outperforms the state-of-the-arts, but even beats the full fine-tuning strategy. Particularly, on the MSRVTT retrieval task, UniAdapter achieves 49.7% recall@1 with 2.2% model parameters, outperforming the latest competitors by 2.0%. The code and models are available at https://github.com/RERV/UniAdapter.
翻訳日:2023-02-14 14:18:33 公開日:2023-02-13
# ALAN:現実世界で自律的にロボットエージェントを探索

ALAN: Autonomously Exploring Robotic Agents in the Real World ( http://arxiv.org/abs/2302.06604v1 )

ライセンス: Link先を確認
Russell Mendonca, Shikhar Bahl, Deepak Pathak(参考訳) 現実世界で自律的に行動するロボットエージェントは、環境を継続的に探索し、収集したデータから学習する必要がある。 監督なしにそのような方法で学習できるエージェントを構築することは可能だが、現在の手法は現実世界にスケールするのに苦労している。 そこで本稿では,ロボットエージェントのalanを提案する。alanはロボットエージェントであり,訓練時間やインタラクション時間が少なく,現実世界でタスクを実行できる。 これは、物体の動きを反映し、ロボットの位置の変化を無視する環境変化を測定することで実現される。 我々は、この指標を直接環境中心の信号とし、エージェント中心の探索信号を提供する予測環境変化の不確かさを最大化する。 我々は,2つの実世界のプレイキッチン設定に対するアプローチを評価し,ロボットが操作スキルを効率的に探索し,発見し,目標画像を介して指定されたタスクを実行することを可能にする。 webサイトはhttps://robo-explorer.github.io/

Robotic agents that operate autonomously in the real world need to continuously explore their environment and learn from the data collected, with minimal human supervision. While it is possible to build agents that can learn in such a manner without supervision, current methods struggle to scale to the real world. Thus, we propose ALAN, an autonomously exploring robotic agent, that can perform tasks in the real world with little training and interaction time. This is enabled by measuring environment change, which reflects object movement and ignores changes in the robot position. We use this metric directly as an environment-centric signal, and also maximize the uncertainty of predicted environment change, which provides agent-centric exploration signal. We evaluate our approach on two different real-world play kitchen settings, enabling a robot to efficiently explore and discover manipulation skills, and perform tasks specified via goal images. Website at https://robo-explorer.github.io/
翻訳日:2023-02-14 14:18:05 公開日:2023-02-13
# 学習可能な決定木を用いた複数インスタンス学習

Multiple Instance Learning with Trainable Decision Tree Ensembles ( http://arxiv.org/abs/2302.06601v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) ソフトツリー・アンサンブル・MIL (Soft Tree Ensemble MIL, STE-MIL) と呼ばれる小さな表付きデータの下での多重インスタンス学習 (MIL) 問題の解法を提案する。 新しいタイプの軟度決定木が検討されており、よく知られた軟度傾斜木に似ているが、訓練可能なパラメータは少ない。 木を訓練するために、木関数を近似する特定の形のニューラルネットワークに変換することが提案されている。 また、アテンション機構を用いて、インスタンスとバッグ埋め込み(アウトプットベクトル)を集約することも提案されている。 ソフト決定木、ニューラルネットワーク、注意機構、分類器を含むSTE-MILモデル全体をエンドツーエンドでトレーニングする。 表付きデータセットによる数値実験はSTE-MILを例証する。 モデルを実装する対応するコードは公開されている。

A new random forest based model for solving the Multiple Instance Learning (MIL) problem under small tabular data, called Soft Tree Ensemble MIL (STE-MIL), is proposed. A new type of soft decision trees is considered, which is similar to the well-known soft oblique trees, but with a smaller number of trainable parameters. In order to train the trees, it is proposed to convert them into neural networks of a specific form, which approximate the tree functions. It is also proposed to aggregate the instance and bag embeddings (output vectors) by using the attention mechanism. The whole STE-MIL model, including soft decision trees, neural networks, the attention mechanism and a classifier, is trained in an end-to-end manner. Numerical experiments with tabular datasets illustrate STE-MIL. The corresponding code implementing the model is publicly available.
翻訳日:2023-02-14 14:17:48 公開日:2023-02-13
# 微調整言語モデルにおけるタスク特化スキルローカライゼーション

Task-Specific Skill Localization in Fine-tuned Language Models ( http://arxiv.org/abs/2302.06600v1 )

ライセンス: Link先を確認
Abhishek Panigrahi, Nikunj Saunshi, Haoyu Zhao, Sanjeev Arora(参考訳) 事前訓練された言語モデルは、数ショット設定を含む多様なNLPタスクを解決するために微調整できる。 このように微調整することで、モデルがタスク固有の `skills,'' を素早く拾うことができるが、これらの新しい学習スキルが巨大なモデル内に存在する場所についての研究は限られている。 本稿では,この問題に対するスキルローカライズという用語を紹介し,解決策を提案する。 ダウンストリームタスクと、そのタスクに微調整されたモデルが与えられた場合、モデルのパフォーマンスに責任を持つパラメータのごく小さなサブセット(モデルパラメータの\sim0.01$%)を特定するために、単純な最適化が使われます。 パラメータ効率の良い微調整に関する最近の研究を思い出す一方で、新しい側面は以下のとおりである。 (i)未成年者(宝くじなどを除く。)には再訓練は不要。 (ii)分布の予測のキャリブレーション(40〜90$%の誤差削減)と分布外の予測の質(ood)に関して、バニラの微調整よりも顕著な改善が見られる。 複数のタスクで訓練されたモデルでは、異なるタスクに対応するスパース領域がほぼ不整合であり、そのオーバーラップ(その場合)がタスク類似性のプロキシとなるような、スキルローカライゼーションの強い概念が観察される。 実験により、移植による局所化はある種の連続学習を支援することが示唆された。

Pre-trained language models can be fine-tuned to solve diverse NLP tasks, including in few-shot settings. Thus fine-tuning allows the model to quickly pick up task-specific ``skills,'' but there has been limited study of where these newly-learnt skills reside inside the massive model. This paper introduces the term skill localization for this problem and proposes a solution. Given the downstream task and a model fine-tuned on that task, a simple optimization is used to identify a very small subset of parameters ($\sim0.01$% of model parameters) responsible for ($>95$%) of the model's performance, in the sense that grafting the fine-tuned values for just this tiny subset onto the pre-trained model gives performance almost as well as the fine-tuned model. While reminiscent of recent works on parameter-efficient fine-tuning, the novel aspects here are that: (i) No further re-training is needed on the subset (unlike, say, with lottery tickets). (ii) Notable improvements are seen over vanilla fine-tuning with respect to calibration of predictions in-distribution ($40$-$90$% error reduction) as well as the quality of predictions out-of-distribution (OOD). In models trained on multiple tasks, a stronger notion of skill localization is observed, where the sparse regions corresponding to different tasks are almost disjoint, and their overlap (when it happens) is a proxy for task similarity. Experiments suggest that localization via grafting can assist certain forms of continual learning.
翻訳日:2023-02-14 14:17:33 公開日:2023-02-13
# filfl: クライアントフィルタリングによる連合学習の促進

FilFL: Accelerating Federated Learning via Client Filtering ( http://arxiv.org/abs/2302.06599v1 )

ライセンス: Link先を確認
Fares Fourati, Salma Kharrat, Vaneet Aggarwal, Mohamed-Slim Alouini, Marco Canini(参考訳) フェデレートラーニング(Federated Learning)は、デバイスがローカルデータを交換することなく協調的にトレーニングできる、新たな機械学習パラダイムである。 トレーニングプロセスに参加しているクライアントは、クライアントプールから選択されたランダムサブセットである。 上記の手順はクライアント選択と呼ばれ、収束率、学習効率、一般化に大きな影響を与えるため、連合学習において重要な領域である。 本研究では、クライアント選択とトレーニングを最適化する新しいアプローチであるFilFL(Federated Learning)のクライアントフィルタリングを紹介する。 filflはまず、特定の目的関数を最大化するサブセットを選択することでアクティブクライアントをフィルタリングする。 我々は,不均質な環境での収束を徹底的に解析する。 実験の結果,学習効率の向上,収束促進,2-$3\times$高速化,テスト精度の向上,約2-$10$%向上など,このアプローチに対するいくつかのメリットが示された。

Federated learning is an emerging machine learning paradigm that enables devices to train collaboratively without exchanging their local data. The clients participating in the training process are a random subset selected from the pool of clients. The above procedure is called client selection which is an important area in federated learning as it highly impacts the convergence rate, learning efficiency, and generalization. In this work, we introduce client filtering in federated learning (FilFL), a new approach to optimize client selection and training. FilFL first filters the active clients by choosing a subset of them that maximizes a specific objective function; then, a client selection method is applied to that subset. We provide a thorough analysis of its convergence in a heterogeneous setting. Empirical results demonstrate several benefits to our approach, including improved learning efficiency, accelerated convergence, $2$-$3\times$ faster, and higher test accuracy, around $2$-$10$ percentage points higher.
翻訳日:2023-02-14 14:17:09 公開日:2023-02-13
# パラメータ効率調整のための勾配に基づく自動反復回復

Gradient-Based Automated Iterative Recovery for Parameter-Efficient Tuning ( http://arxiv.org/abs/2302.06598v1 )

ライセンス: Link先を確認
Maximilian Mozes, Tolga Bolukbasi, Ann Yuan, Frederick Liu, Nithum Thain, Lucas Dixon(参考訳) 事前学習された大規模言語モデル(llm)は、転送学習を通じて幅広いタスクを解決できる。 意思決定過程を解明するための様々な説明可能性手法が開発されている。 TracIn (Pruthi et al., 2020) は、トレーニング例の影響に基づいてモデル推論を説明する勾配に基づく手法である。 本稿では,パラメータ効率調整(PET)設定におけるモデル性能向上のためのTracInの利用について検討する。 そこで本研究では,PET法を用いて対話型安全分類器を開発し,その特異な特徴がTracInのLCMによる誤分類の原因の特定に有効であることを示す。 本稿では,G-BAIRのモデル性能向上のための勾配に基づく説明可能性手法,G-BAIR:勾配に基づく自動反復回復手法を提案する。 G-BAIRは、手動でトレーニングラベルを破損させた後、ベンチマーク上でLLM性能を回復できることを示す。 これは、tracinのような影響メソッドが自動的にデータクリーニングを行うのに使えることを示唆し、petベースの転送学習メソッドのインタラクティブデバッグとrelabelingの可能性を紹介している。

Pretrained large language models (LLMs) are able to solve a wide variety of tasks through transfer learning. Various explainability methods have been developed to investigate their decision making process. TracIn (Pruthi et al., 2020) is one such gradient-based method which explains model inferences based on the influence of training examples. In this paper, we explore the use of TracIn to improve model performance in the parameter-efficient tuning (PET) setting. We develop conversational safety classifiers via the prompt-tuning PET method and show how the unique characteristics of the PET regime enable TracIn to identify the cause for certain misclassifications by LLMs. We develop a new methodology for using gradient-based explainability techniques to improve model performance, G-BAIR: gradient-based automated iterative recovery. We show that G-BAIR can recover LLM performance on benchmarks after manually corrupting training labels. This suggests that influence methods like TracIn can be used to automatically perform data cleaning, and introduces the potential for interactive debugging and relabeling for PET-based transfer learning methods.
翻訳日:2023-02-14 14:16:52 公開日:2023-02-13
# デュエルバンドにおける有意な選好変化をいつ追跡できるのか?

When Can We Track Significant Preference Shifts in Dueling Bandits? ( http://arxiv.org/abs/2302.06595v1 )

ライセンス: Link先を確認
Joe Suk and Arpit Agarwal(参考訳) k$-armed dueling bandits問題(英語版)は、フィードバックがうるさいペアワイズ選好の形式であり、情報検索やレコメンデーションシステムなどに応用されているため、広く研究されている。 ユーザの好みや味が時間とともに進化するのではないかという懸念から,分布シフトに伴う帯域幅の重複の問題を考える。 具体的には、最近の有意なシフトの概念(Suk and Kpotufe, 2022)を考察し、$O(\sqrt{K\tilde{L}T})$ dynamic regret, ここで$\tilde{L}$は(未知の)好みの重要なシフトの数である。 この質問に対する答えは、基礎となる選好分布の性質に依存することを示す。 まず、よく研究されたCondorcetとSSTの選好分布のクラスの下で、$O(\sqrt{K\tilde{L}T})$ dynamic regret で任意のアルゴリズムを規定する不可能な結果を与える。 第二に、$\text{SST} \cap \text{STI}$は、そのようなアルゴリズムを設計することが可能な、選好分布の一般的なクラスの中で最大であることを示す。 全体として、我々の結果は、分布クラス階層に対する上記の問題に対するほぼ完全な解決を提供する。

The $K$-armed dueling bandits problem, where the feedback is in the form of noisy pairwise preferences, has been widely studied due its applications in information retrieval, recommendation systems, etc. Motivated by concerns that user preferences/tastes can evolve over time, we consider the problem of dueling bandits with distribution shifts. Specifically, we study the recent notion of significant shifts (Suk and Kpotufe, 2022), and ask whether one can design an adaptive algorithm for the dueling problem with $O(\sqrt{K\tilde{L}T})$ dynamic regret, where $\tilde{L}$ is the (unknown) number of significant shifts in preferences. We show that the answer to this question depends on the properties of underlying preference distributions. Firstly, we give an impossibility result that rules out any algorithm with $O(\sqrt{K\tilde{L}T})$ dynamic regret under the well-studied Condorcet and SST classes of preference distributions. Secondly, we show that $\text{SST} \cap \text{STI}$ is the largest amongst popular classes of preference distributions where it is possible to design such an algorithm. Overall, our results provides an almost complete resolution of the above question for the hierarchy of distribution classes.
翻訳日:2023-02-14 14:16:32 公開日:2023-02-13
# 幾何学的クリフォード代数ネットワーク

Geometric Clifford Algebra Networks ( http://arxiv.org/abs/2302.06594v1 )

ライセンス: Link先を確認
David Ruhe, Jayesh K. Gupta, Steven de Keninck, Max Welling, Johannes Brandstetter(参考訳) 幾何学的(クリフォード)代数を用いた対称性群変換に基づく幾何学的クリフォード代数ネットワーク(GCAN)を提案する。 GCANは幾何学変換の表現や操作に特に適しており、しばしば力学系で見られる。 我々はまず、$\mathrm{Pin}(p,q,r)$群の要素としてエンコードされた等メトリーを基盤とする現代(平面ベース)幾何代数のクインテッセンスを概観する。 次に、あらかじめ特定されたグループアクションを用いてオブジェクト変換を線形に結合するグループアクション層の概念を提案する。 新しいアクティベーションと正規化スキームとともに、これらの層は勾配降下によって洗練されるような調整可能な幾何テンプレートとして機能する。 理論上の利点は、3次元剛体変換のモデル化と大規模流体力学シミュレーションに強く反映され、従来の方法よりも大幅に性能が向上した。

We propose Geometric Clifford Algebra Networks (GCANs) that are based on symmetry group transformations using geometric (Clifford) algebras. GCANs are particularly well-suited for representing and manipulating geometric transformations, often found in dynamical systems. We first review the quintessence of modern (plane-based) geometric algebra, which builds on isometries encoded as elements of the $\mathrm{Pin}(p,q,r)$ group. We then propose the concept of group action layers, which linearly combine object transformations using pre-specified group actions. Together with a new activation and normalization scheme, these layers serve as adjustable geometric templates that can be refined via gradient descent. Theoretical advantages are strongly reflected in the modeling of three-dimensional rigid body transformations as well as large-scale fluid dynamics simulations, showing significantly improved performance over traditional methods.
翻訳日:2023-02-14 14:16:10 公開日:2023-02-13
# データスパース領域における流れの注意に基づく領域適応予測

Attention-based Domain Adaptation Forecasting of Streamflow in Data Sparse Regions ( http://arxiv.org/abs/2302.05386v2 )

ライセンス: Link先を確認
Roland Oruche, Fearghal O'Donncha(参考訳) 流量予測は、水資源管理の指導、干ばつと洪水の影響の緩和、気候スマートなインフラと産業の発展に不可欠である。 しかし、多くのグローバルな地域では、証拠に基づく管理戦略を導くためのストリームフローの観測が限られている。 本稿では,データスパース領域に対する注目型領域適応ストリームフロー予測器を提案する。 提案手法は,データリッチソース領域の流体学的特性を利用して,限られた対象領域で24時間リードタイムストリームフロー予測を行う。 具体的には、ドメイン適応技術を活用したディープラーニングフレームワークを用いて、逆法を用いて、ストリームフローの予測と2つのドメイン間の識別を同時に訓練する。 ベースラインクロスドメイン予測モデルに対する実験では、24時間リードタイムストリームフロー予測のパフォーマンスが向上している。

Streamflow forecasts are critical to guide water resource management, mitigate drought and flood effects, and develop climate-smart infrastructure and industries. Many global regions, however, have limited streamflow observations to guide evidence-based management strategies. In this paper, we propose an attention-based domain adaptation streamflow forecaster for data-sparse regions. Our approach leverages the hydrological characteristics of a data-rich source domain to induce effective 24h lead-time streamflow prediction in a limited target domain. Specifically, we employ a deep-learning framework leveraging domain adaptation techniques to simultaneously train streamflow predictions and discern between both domains using an adversarial method. Experiments against baseline cross-domain forecasting models show improved performance for 24h lead-time streamflow forecasting.
翻訳日:2023-02-14 11:33:14 公開日:2023-02-13
# 断片的静止多目的多腕バンディットと関節通信・センシングへの応用

Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing ( http://arxiv.org/abs/2302.05257v2 )

ライセンス: Link先を確認
Amir Rezaei Balef and Setareh Maghsudi(参考訳) 動的環境における多目的マルチアームバンディット問題について検討する。 この問題は、所定のセットから腕を順次選択する意思決定者を表す。 選択された場合、各作用は報酬ベクトルを生成し、各要素は片側定常ベルヌーイ分布に従う。 エージェントは、後悔を最小限に抑えるために、パレートの最適な腕の中から腕を選択することを目指している。 本稿では,この問題を解決するために,変更検出を伴うpareto general upper confidence bound (ucb) に基づくアルゴリズムを提案する。 多次元空間に対する本質的不等式を開発することにより、この提案は、ブレークポイントの数が$\gamma_T$であるときに、$\gamma_T\log(T/{\gamma_T})$の順序で後悔境界が保証される。 この仮定がなければ、我々のアルゴリズムの後悔境界は$\gamma_T\log(T)$である。 最後に,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。 トイ例と合成および実世界のデータセットに関する数値実験は、現在の手法と比較して、我々のポリシーの効率性を示している。

We study a multi-objective multi-armed bandit problem in a dynamic environment. The problem portrays a decision-maker that sequentially selects an arm from a given set. If selected, each action produces a reward vector, where every element follows a piecewise-stationary Bernoulli distribution. The agent aims at choosing an arm among the Pareto optimal set of arms to minimize its regret. We propose a Pareto generic upper confidence bound (UCB)-based algorithm with change detection to solve this problem. By developing the essential inequalities for multi-dimensional spaces, we establish that our proposal guarantees a regret bound in the order of $\gamma_T\log(T/{\gamma_T})$ when the number of breakpoints $\gamma_T$ is known. Without this assumption, the regret bound of our algorithm is $\gamma_T\log(T)$. Finally, we formulate an energy-efficient waveform design problem in an integrated communication and sensing system as a toy example. Numerical experiments on the toy example and synthetic and real-world datasets demonstrate the efficiency of our policy compared to the current methods.
翻訳日:2023-02-14 11:33:03 公開日:2023-02-13
# 氷と火の歌:サイエンスワールドにおけるテクスチュアルオートテリックエージェントの分析

A Song of Ice and Fire: Analyzing Textual Autotelic Agents in ScienceWorld ( http://arxiv.org/abs/2302.05244v2 )

ライセンス: Link先を確認
Laetitia Teodorescu, Eric Yuan, Marc-Alexandre C\^ot\'e, Pierre-Yves Oudeyer(参考訳) 行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。 この課題は、自発的なrlエージェントの枠組み、すなわち、学習カリキュラムを自己組織化することで学習するエージェントの枠組みで研究することができる。 最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。 この観点で、我々は以下のオープンな科学的疑問を調査する: 社会的仲間(例えば、選択的対排他的)からの後視的フィードバックの影響は? エージェントは、経験的なリプレイで非常に稀な言語目標例からどのように学ぶことができるのか? 複数の形態の探査を組み合わせることで、より簡単な目標を、より難しいものに到達するための踏み台として活用できるだろうか? これらの問題に対処するために、私たちは、抽象的および組合せ的物理学の豊富なテキスト環境であるscienceworldを使っています。 我々は,ソーシャル・ピアのフィードバックから選択性を選択することの重要性,レア・ゴールの例をオーバーサンプリングする必要があること,エージェントの能力が中間的な自己生成目標シーケンスに従えば,最終的なパフォーマンスが大幅に向上することを示す。

Building open-ended agents that can autonomously discover a diversity of behaviours is one of the long-standing goals of artificial intelligence. This challenge can be studied in the framework of autotelic RL agents, i.e. agents that learn by selecting and pursuing their own goals, self-organizing a learning curriculum. Recent work identified language has a key dimension of autotelic learning, in particular because it enables abstract goal sampling and guidance from social peers for hindsight relabelling. Within this perspective, we study the following open scientific questions: What is the impact of hindsight feedback from a social peer (e.g. selective vs. exhaustive)? How can the agent learn from very rare language goal examples in its experience replay? How can multiple forms of exploration be combined, and take advantage of easier goals as stepping stones to reach harder ones? To address these questions, we use ScienceWorld, a textual environment with rich abstract and combinatorial physics. We show the importance of selectivity from the social peer's feedback; that experience replay needs to over-sample examples of rare goals; and that following self-generated goal sequences where the agent's competence is intermediate leads to significant improvements in final performance.
翻訳日:2023-02-14 11:32:43 公開日:2023-02-13
# 制御可能性を考慮した教師なしスキル発見

Controllability-Aware Unsupervised Skill Discovery ( http://arxiv.org/abs/2302.05103v2 )

ライセンス: Link先を確認
Seohong Park, Kimin Lee, Youngwoon Lee, Pieter Abbeel(参考訳) インテリジェントエージェントの重要な能力の1つは、外部の監督なしに有用なスキルを発見する能力である。 しかし、現在の教師なしのスキル発見手法は、より複雑で挑戦的な行動を発見するインセンティブがないため、単純で分かりやすいスキルを取得することに限定されることが多い。 そこで本研究では,制御不能な複雑なスキルを積極的に探究する,教師なしスキル発見法である制御可能性認識スキル発見法(csd)を提案する。 CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。 距離を最大化するスキル発見と組み合わせることで、csdはトレーニングの過程で徐々に挑戦的なスキルを習得します。 ロボット操作と移動環境の6つの実験結果から,CSDは物体操作や移動スキルを含む多様な複雑なスキルを,監督なしで発見できることを示した。 ビデオとコードはhttps://seohong.me/projects/csd/で入手できる。

One of the key capabilities of intelligent agents is the ability to discover useful skills without external supervision. However, the current unsupervised skill discovery methods are often limited to acquiring simple, easy-to-learn skills due to the lack of incentives to discover more complex, challenging behaviors. We introduce a novel unsupervised skill discovery method, Controllability-aware Skill Discovery (CSD), which actively seeks complex, hard-to-control skills without supervision. The key component of CSD is a controllability-aware distance function, which assigns larger values to state transitions that are harder to achieve with the current skills. Combined with distance-maximizing skill discovery, CSD progressively learns more challenging skills over the course of training as our jointly trained distance function reduces rewards for easy-to-achieve skills. Our experimental results in six robotic manipulation and locomotion environments demonstrate that CSD can discover diverse complex skills including object manipulation and locomotion skills with no supervision, significantly outperforming prior unsupervised skill discovery methods. Videos and code are available at https://seohong.me/projects/csd/
翻訳日:2023-02-14 11:32:23 公開日:2023-02-13
# BEST: Coupling Tokenizationによる手話認識のためのBERT事前学習

BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization ( http://arxiv.org/abs/2302.05075v2 )

ライセンス: Link先を確認
Weichao Zhao, Hezhen Hu, Wengang Zhou, Jiaxin Shi, Houqiang Li(参考訳) 本研究では,bertプリトレーニングの成功を活用し,手話認識モデル(slr)を成熟させるためにドメイン固有統計をモデル化する。 手と体が手話表現の優位性を考えると、それらを3重奏単位として整理し、フレームワイドでトランスフォーマーのバックボーンに供給する。 マスク付き三重項ユニットを破損した入力シーケンスから再構成し、内部および外部三重項ユニット間の階層的相関コンテキストキューを学習する。 特に、BERTの高度に意味のある単語トークンとは異なり、ポーズユニットはもともと連続空間に位置する低レベル信号であり、BERTのクロスエントロピー目的の直接適用を防止する。 この目的のために、三重項単位の結合トークン化により、この意味ギャップを橋渡しする。 意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。 事前学習後、下流SLRタスクの事前学習エンコーダを、新たに追加されたタスク固有層と共に微調整する。 提案手法の有効性を検証し,4つのベンチマークで新たな最先端性能を実現し,有意な評価を得た。

In this work, we are dedicated to leveraging the BERT pre-training success and modeling the domain-specific statistics to fertilize the sign language recognition~(SLR) model. Considering the dominance of hand and body in sign language expression, we organize them as pose triplet units and feed them into the Transformer backbone in a frame-wise manner. Pre-training is performed via reconstructing the masked triplet unit from the corrupted input sequence, which learns the hierarchical correlation context cues among internal and external triplet units. Notably, different from the highly semantic word token in BERT, the pose unit is a low-level signal originally located in continuous space, which prevents the direct adoption of the BERT cross-entropy objective. To this end, we bridge this semantic gap via coupling tokenization of the triplet unit. It adaptively extracts the discrete pseudo label from the pose triplet unit, which represents the semantic gesture/body state. After pre-training, we fine-tune the pre-trained encoder on the downstream SLR task, jointly with the newly added task-specific layer. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain.
翻訳日:2023-02-14 11:32:05 公開日:2023-02-13