このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230207となっている論文です。

PDF登録状況(公開日: 20230207)

TitleAuthorsAbstract論文公表日・翻訳日
# ハートリーフォックと密度汎関数論

Hartree-Fock & Density Functional Theory ( http://arxiv.org/abs/2010.10243v2 )

ライセンス: Link先を確認
K.J.H. Giesbertz(参考訳) 以下は、Vrije Universityversiteit Amsterdamでの1年目のマスター化学の量子化学のコースで使用された講義ノートである。 スケジュールはhfで2週間、dftで2週間であり、学生にとってかなり荒い乗車となる。 講義ノートには演習も含まれている。 2013年に書き始めましたが、毎年、改善する時間を見つけようとしています。

These are the lecture notes used in the course Understanding Quantum Chemistry for 1st year master chemistry at the Vrije Universiteit Amsterdam. The schedule is 2 weeks on HF and 2 weeks on DFT, which provides a quite rough ride for the the students. The lecture notes also include exercises. I have started to write them in 2013 and each year I try to find the time to improve them.
翻訳日:2023-04-28 05:40:36 公開日:2023-02-07
# 潜在対称性誘起退化

Latent symmetry induced degeneracies ( http://arxiv.org/abs/2011.13404v2 )

ライセンス: Link先を確認
M. R\"ontgen, M. Pyzh, C. V. Morfonios, N. E. Palaiodimopoulos, F. K. Diakonos, P. Schmelcher(参考訳) 物理系のエネルギースペクトルの縮退は一般に偶然の性格かハミルトニアンの対称性によって引き起こされると考えられている。 サブシステム分割によって導かれる等スペクトル有効ハミルトニアン対称性に追従することで退化を説明する手法を開発する。 我々は、そのような潜在対称性の直感的な解釈を、基礎となるハミルトニアン行列の力の対応する局所対称性に関連付けることで提供する。 応用として、実ハミルトニアンの回転対称性によって引き起こされる退化を非アーベル潜在対称性群に関連付ける。 回転対称性は、基礎となるより基本的な潜在対称性を維持しつつ、制御された方法で破れることが示されている。 このことは、潜在対称性の観点から、偶発的退化を調査する視点を開く。

Degeneracies in the energy spectra of physical systems are commonly considered to be either of accidental character or induced by symmetries of the Hamiltonian. We develop an approach to explain degeneracies by tracing them back to symmetries of an isospectral effective Hamiltonian derived by subsystem partitioning. We provide an intuitive interpretation of such latent symmetries by relating them to corresponding local symmetries in the powers of the underlying Hamiltonian matrix. As an application, we relate the degeneracies induced by the rotation symmetry of a real Hamiltonian to a non-abelian latent symmetry group. It is demonstrated that the rotational symmetries can be broken in a controlled manner while maintaining the underlying more fundamental latent symmetry. This opens up the perspective of investigating accidental degeneracies in terms of latent symmetries.
翻訳日:2023-04-22 22:33:48 公開日:2023-02-07
# 局所量子重なりトモグラフィ

Local quantum overlapping tomography ( http://arxiv.org/abs/2112.03924v3 )

ライセンス: Link先を確認
Bruna G. M. Ara\'ujo, M\'arcio M. Taddei, Daniel Cavalcanti, Antonio Ac\'in(参考訳) 多体系の完全な量子状態の再構築には、系の大きさで指数関数的に増加する多くのパラメータの推定が必要である。 しかしながら、これらのパラメータのサブセットのみに関心を持ち、完全な再構築を必要としない状況もある。 パラダイム的な例は、与えられたサイズまですべての還元状態を決定することを目的としたシナリオである。 重なり合うトモグラフィーは、各縮小状態の独立トモグラフィーを実行する際に得られるものよりもはるかに小さな積の測定値でこの問題に対処するための構成を提供する。 しかし、局所性という自然な概念を持つ関連する物理系は多く存在し、そこでは近傍の粒子の減少状態に主に関心がある。 本研究では,この形態の局所重複トモグラフィについて検討する。 まず, フルバージョンとは対照的に, 局所重畳トモグラフィに必要な製品計測設定の数は, システムサイズとともに増加しないことを示す。 次に、選択された格子幾何学における量子およびフェルミオン系の戦略を提案する。 提案手法は,現在の量子シミュレータや量子コンピューティングデバイスで作成された多体系の推定において,対話がしばしば局所的に行われるような自然な応用を見出す。

Reconstructing the full quantum state of a many-body system requires the estimation of a number of parameters that grows exponentially with system size. Nevertheless, there are situations in which one is only interested in a subset of these parameters and a full reconstruction is not needed. A paradigmatic example is a scenario where one aims at determining all the reduced states only up to a given size. Overlapping tomography provides constructions to address this problem with a number of product measurements much smaller than what is obtained when performing independent tomography of each reduced state. There are however many relevant physical systems with a natural notion of locality where one is mostly interested in the reduced states of neighboring particles. In this work, we study this form of local overlapping tomography. First of all, we show that, contrary to its full version, the number of product-measurement settings needed for local overlapping tomography does not grow with system size. Then, we present strategies for qubit and fermionic systems in selected lattice geometries. The developed methods find a natural application in the estimation of many-body systems prepared in current quantum simulators or quantum computing devices, where interactions are often local.
翻訳日:2023-03-05 07:42:44 公開日:2023-02-07
# 概念の量子モデルの公式化と学習

Formalising and Learning a Quantum Model of Concepts ( http://arxiv.org/abs/2302.14822v1 )

ライセンス: Link先を確認
Sean Tull, Razin A. Shaikh, Sara Sabrina Zemljic and Stephen Clark(参考訳) 本稿では,量子論に基づく概念モデリングフレームワークを提案するとともに,概念表現をデータから自動的に学習する方法を示す。 この研究の貢献は、我々のフレームワークの徹底したカテゴリ理論的形式化です。 我々は、圏論、特に量子過程を記述するための弦図の使用は、概念モデリングに対する我々の量子的アプローチの最も重要な特徴の解明に役立つと主張している。 我々のアプローチは、Gardenforsの古典的な概念空間の枠組みに基づいており、認識は凸空間を用いて幾何学的にモデル化される。 形状、色、大きさ、位置の領域の概念は、個々の画像が量子状態として表現され、概念が量子効果として表現される単純な形状の画像からどのように学習できるかを示す。 概念は、概念分類を行うように訓練されたハイブリッド古典量子ネットワークによって学習され、古典画像処理は畳み込みニューラルネットワークによって行われ、量子表現はパラメータ化された量子回路によって生成される。 また, 混合効果を生成するために捨て処理を使用し, ドメインのサブセットにのみ適用可能な概念を学習するために利用し, ドメイン間の興味深い相関関係を捉えるために, 絡み合い(破棄を伴う)がどのように使用できるかを示す。 最後に、我々の概念の量子モデルがGardenforsの意味で概念空間とみなすことができるかどうかを考察する。

In this report we present a new modelling framework for concepts based on quantum theory, and demonstrate how the conceptual representations can be learned automatically from data. A contribution of the work is a thorough category-theoretic formalisation of our framework. We claim that the use of category theory, and in particular the use of string diagrams to describe quantum processes, helps elucidate some of the most important features of our quantum approach to concept modelling. Our approach builds upon Gardenfors' classical framework of conceptual spaces, in which cognition is modelled geometrically through the use of convex spaces, which in turn factorise in terms of simpler spaces called domains. We show how concepts from the domains of shape, colour, size and position can be learned from images of simple shapes, where individual images are represented as quantum states and concepts as quantum effects. Concepts are learned by a hybrid classical-quantum network trained to perform concept classification, where the classical image processing is carried out by a convolutional neural network and the quantum representations are produced by a parameterised quantum circuit. We also use discarding to produce mixed effects, which can then be used to learn concepts which only apply to a subset of the domains, and show how entanglement (together with discarding) can be used to capture interesting correlations across domains. Finally, we consider the question of whether our quantum models of concepts can be considered conceptual spaces in the Gardenfors sense.
翻訳日:2023-03-05 05:33:23 公開日:2023-02-07
# 弱場光-物質相互作用の量子シミュレーション

Quantum simulation of weak-field light-matter interactions ( http://arxiv.org/abs/2112.07177v2 )

ライセンス: Link先を確認
Steve M. Young, Hartmut H\"affner, Mohan Sarovar(参考訳) 光と物質との相互作用のシミュレーションは、材料の光学的および光電子的性質を理解し、絡み合った光を使用する次世代の非線形分光学をモデル化するために重要である。 数光子レベルでは、電磁場の量子特性は場の量子化処理によって説明されなければならず、そのようなシミュレーションはすぐに難解となり、特に物質サブシステムが多くの自由度でモデル化されなければならず、多体効果や量子ノイズ源を正確に捉える必要がある。 そこで我々は,イオンプラットフォーム内の振動モードなどの制御可能なボソニック自由度を持つプラットフォーム上での光・物質相互作用をシミュレーションする量子シミュレーションフレームワークを開発した。 我々の研究における重要な革新は、グリーン関数(応答関数)形式によって実現されるいくつかの離散ボソニックモードのみを用いて連続体との相互作用をシミュレートするスキームである。 シミュレーション手法を開発し, 捕捉イオンを用いてシミュレーションを行う方法をスケッチし, 数値例を用いてその方法を説明する。 我々の研究は、量子シミュレーションの到達範囲を重要な光-物質相互作用モデルに拡大し、量子シミュレーションから応答関数などの動的量の抽出の利点を示す。

Simulation of the interaction of light with matter, including at the few-photon level, is important for understanding the optical and optoelectronic properties of materials, and for modeling next-generation non-linear spectroscopies that use entangled light. At the few-photon level the quantum properties of the electromagnetic field must be accounted for with a quantized treatment of the field, and then such simulations quickly become intractable, especially if the matter subsystem must be modeled with a large number of degrees of freedom, as can be required to accurately capture many-body effects and quantum noise sources. Motivated by this we develop a quantum simulation framework for simulating such light-matter interactions on platforms with controllable bosonic degrees of freedom, such as vibrational modes in the trapped ion platform. The key innovation in our work is a scheme for simulating interactions with a continuum field using only a few discrete bosonic modes, which is enabled by a Green's function (response function) formalism. We develop the simulation approach, sketch how the simulation can be performed using trapped ions, and then illustrate the method with numerical examples. Our work expands the reach of quantum simulation to important light-matter interaction models and illustrates the advantages of extracting dynamical quantities such as response functions from quantum simulations.
翻訳日:2023-03-04 14:31:37 公開日:2023-02-07
# 量子蒸発と^3$heliumのセンシングによる暗黒物質の単一フォノン検出

Single Phonon Detection for Dark Matter via Quantum Evaporation and Sensing of $^3$Helium ( http://arxiv.org/abs/2201.00738v3 )

ライセンス: Link先を確認
S. A. Lyon (1), Kyle Castoria (1), Ethan Kleinbaum (1), Zhihao Qin (2), Arun Persaud (2), Thomas Schenkel (2), Kathryn Zurek (3) ((1) Princeton University, (2) Lawrence Berkeley National Lab, (3) California Institute of Technology)(参考訳) 暗黒物質は宇宙の通常の可視物質より5倍豊富である。 暗黒物質の探索は伝統的に電弱スケールに焦点を合わせてきたが、低質量隠蔽セクターの理論は新たな検出手法を動機付けている。 これらの探索を1GeV/c$^2$以下にまで拡張すると、標準模型物質との稀な相互作用が検出器内の電子や核へのエネルギーを徐々に減少させるため、新たな課題が生じる。 本稿では,スピンコヒーレンス追跡による脱離現象の検出のために,フォノン支援量子蒸発法と量子センサを組み合わせた手法を提案する。 提案するダークマターセンサの意図は,希少相互作用におけるエネルギー移動のパラメータ空間を,kev/c$^2$質量領域におけるダークマター粒子検出のための数mevまで拡張することである。

Dark matter is five times more abundant than ordinary visible matter in our Universe. While laboratory searches hunting for dark matter have traditionally focused on the electroweak scale, theories of low mass hidden sectors motivate new detection techniques. Extending these searches to lower mass ranges, well below 1 GeV/c$^2$, poses new challenges as rare interactions with standard model matter transfer progressively less energy to electrons and nuclei in detectors. Here, we propose an approach based on phonon-assisted quantum evaporation combined with quantum sensors for detection of desorption events via tracking of spin coherence. The intent of our proposed dark matter sensors is to extend the parameter space to energy transfers in rare interactions to as low as a few meV for detection of dark matter particles in the keV/c$^2$ mass range.
翻訳日:2023-03-02 09:47:43 公開日:2023-02-07
# ランダム共効率な純状態と統計混合

Random-coefficient pure states versus statistical mixtures ( http://arxiv.org/abs/2201.03248v3 )

ライセンス: Link先を確認
Alain Deville, Yannick Deville(参考訳) 量子情報処理の分野において、ブラインド量子源分離とブラインド量子プロセストモグラフィーの開発は、ヒルベルト空間の形式化の中で、ランダム効率な純粋状態(rcps:random-co efficient pure state)の概念の導入へと導かれる。 本稿ではまず,導入に必要な実験状況を述べる。 rcps と統計演算子 \r{ho} の間のリンクが確立される。 r{ho}形式を導入する2つの一般的な方法が議論され、それらは両方とも、rcpsの操作では導入されない仮定の上で休むことが強調されている。 RCPSの概念の興味はスピン1/2の単純な場合において示される: 第一の例では、考慮されたRCPSの係数によって従うトランケートされたガウス法則の未知の係数は、その関連する密度演算子を使って実験またはシミュレーションデータから評価できることが示される。 第2のインスタンスは、2つのrcpsと同一の関連する密度演算子を数値的に比較し、密度演算子形式に使用されるモーメントよりも高いオーダーのモーメントを使用する場合に異なることが示される。

In the field of quantum information processing, the development of Blind Quantum Source Separation and Blind Quantum Process Tomography has led, within the formalism of the Hilbert space, to the introduction of the concept of a Random-Coefficient Pure State, or RCPS: the coefficients of its development in the chosen basis are random variables. This paper first describes an experimental situation necessitating its introduction. Links between an RCPS and a statistical operator \r{ho} are established. The two usual ways of introducing the \r{ho} formalism are discussed, and it is stressed that they both rest on a postulate, which is not introduced in the manipulation of an RCPS. The interest of the RCPS concept is presented in the simple case of a spin 1/2: in a first example, it is shown that the unknown coefficients of a truncated Gaussian law obeyed by a coefficient of the considered RCPS may be evaluated from experimental or simulated data, which would be impossible using its associated density operator. A second instance numerically compares two RCPS with the same associated density operator, and which are shown to be different when using also a moment with higher order than the one used by the density operator formalism.
翻訳日:2023-03-01 19:54:36 公開日:2023-02-07
# Fair Diffusion: 公平性に基づくテキスト・画像生成モデルの指導

Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness ( http://arxiv.org/abs/2302.10893v1 )

ライセンス: Link先を確認
Felix Friedrich, Patrick Schramowski, Manuel Brack, Lukas Struppek, Dominik Hintersdorf, Sasha Luccioni, Kristian Kersting(参考訳) 生成AIモデルは、最近、品質の驚くべき結果を達成し、結果として急速に成長するアプリケーションに採用されている。 しかし、それらは高度にデータ駆動であり、インターネットからランダムに取り除かれた数十億規模のデータセットに依存しているため、私たちが示すように、劣化と偏りのある人間の行動にも悩まされている。 実際、彼らはそのような偏見を補強するかもしれない。 これらの望ましくない効果を解明するだけでなく、fair diffusionと呼ばれる新しい戦略を提案し、生成的テキストから画像へのモデルの展開後のバイアスを軽減する。 具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えばアイデンティティグループに対して任意に新しい比率を得ることを示す。 実験的な評価が示すように、この制御により、データフィルタリングや追加の訓練を必要とせず、公平に生成画像モデルを指示することができる。

Generative AI models have recently achieved astonishing results in quality and are consequently employed in a fast-growing number of applications. However, since they are highly data-driven, relying on billion-sized datasets randomly scraped from the internet, they also suffer from degenerated and biased human behavior, as we demonstrate. In fact, they may even reinforce such biases. To not only uncover but also combat these undesired effects, we present a novel strategy, called Fair Diffusion, to attenuate biases after the deployment of generative text-to-image models. Specifically, we demonstrate shifting a bias, based on human instructions, in any direction yielding arbitrarily new proportions for, e.g., identity groups. As our empirical evaluation demonstrates, this introduced control enables instructing generative image models on fairness, with no data filtering and additional training required.
翻訳日:2023-02-26 13:49:48 公開日:2023-02-07
# 固有インフォームドニューラルネットワーク:ニューラルネットワークの安定性と収束問題に対処する

Eigen-informed NeuralODEs: Dealing with stability and convergence issues of NeuralODEs ( http://arxiv.org/abs/2302.10892v1 )

ライセンス: Link先を確認
Tobias Thummerer, Lars Mikelsons(参考訳) 大規模および/または複雑なシステムのモデル化にバニラニューラルオードを使用すると、安定性と収束性という2つの理由から失敗することが多い。 neuralodesは安定で不安定な動的システムを記述することができる。 ニューラルネットワーク特性がトレーニング中に変化するため、適切な数値解法を選択することは簡単ではない。 ニューラルネットワークがより硬くなると、準最適解法は、非常に小さな解法ステップを実行する必要があり、トレーニングプロセスが大幅に遅くなる。 もしneuralodeが不安定になったら、数値ソルバはそれを全く解決できないかもしれないので、トレーニングプロセスは終了する。 しばしばこれは、不安定で硬いODEに対して堅牢な計算コストの高い解法を選択することで取り組まれるが、訓練性能が大幅に低下する。 一方,本手法では,特定の解法やアプリケーション関連境界条件に適合するODE特性を強制することができる。 収束挙動に関して、ニューロデドは、特に学習対象のシステムが非常に動的で、あるいは複数の周期にわたって振動している場合に、局所的なミニマにぶつかる傾向がある。 局所的な最小限の勾配が消えるため、ニューロノドはしばしばそれを残さず、正しい解に収束することができない。 本稿では,ニューラルネットワークの学習目標に,(一部)安定性,振動能力,周波数,減衰および/または剛性などの固有値に基づくode特性の知識を加える手法を提案する。 提案手法を非線形システムモデルと同様に線形に例示し,提案手法が局所最小値,不安定性,スパースデータサンプルに対してはるかに堅牢であることを示し,トレーニング収束と性能を向上させる。

Using vanilla NeuralODEs to model large and/or complex systems often fails due two reasons: Stability and convergence. NeuralODEs are capable of describing stable as well as instable dynamic systems. Selecting an appropriate numerical solver is not trivial, because NeuralODE properties change during training. If the NeuralODE becomes more stiff, a suboptimal solver may need to perform very small solver steps, which significantly slows down the training process. If the NeuralODE becomes to instable, the numerical solver might not be able to solve it at all, which causes the training process to terminate. Often, this is tackled by choosing a computational expensive solver that is robust to instable and stiff ODEs, but at the cost of a significantly decreased training performance. Our method on the other hand, allows to enforce ODE properties that fit a specific solver or application-related boundary conditions. Concerning the convergence behavior, NeuralODEs often tend to run into local minima, especially if the system to be learned is highly dynamic and/or oscillating over multiple periods. Because of the vanishing gradient at a local minimum, the NeuralODE is often not capable of leaving it and converge to the right solution. We present a technique to add knowledge of ODE properties based on eigenvalues - like (partly) stability, oscillation capability, frequency, damping and/or stiffness - to the training objective of a NeuralODE. We exemplify our method at a linear as well as a nonlinear system model and show, that the presented training process is far more robust against local minima, instabilities and sparse data samples and improves training convergence and performance.
翻訳日:2023-02-26 13:49:33 公開日:2023-02-07
# 深層学習に基づく視覚的透かし除去

Visual Watermark Removal Based on Deep Learning ( http://arxiv.org/abs/2302.11338v1 )

ライセンス: Link先を確認
Rongfeng Wei(参考訳) 近年,インターネット時代が拡大するにつれて,ソーシャルメディア上で画像共有が盛んに行われている。 場合によっては、透かしは画像の所有権を保護するために使用されるが、多くの場合、これらの透かし画像を取り除いて元の画像を取得するようにしたい場合が多い。 本研究では,視覚的透かし除去のための深層学習手法を提案する。 U構造の強い画像翻訳性能に触発されて、AdvancedUnetと呼ばれるエンドツーエンドのディープニューラルネットワークモデルが提案され、同時に視覚的な透かしを抽出して除去する。 一方,UNet で使用される共通残差ブロックの代わりに,有効な RSU モジュールを組み込み,計算コストを大幅に増大させることなくアーキテクチャ全体の深さを増大させる。 深い教師付きハイブリッド損失は、入力画像と地上真実の間の変換をマルチスケールおよび3レベル階層で学習するためにネットワークを誘導する。 比較実験により本手法の有効性が示された。

In recent years as the internet age continues to grow, sharing images on social media has become a common occurrence. In certain cases, watermarks are used as protection for the ownership of the image, however, in more cases, one may wish to remove these watermark images to get the original image without obscuring. In this work, we proposed a deep learning method based technique for visual watermark removal. Inspired by the strong image translation performance of the U-structure, an end-to-end deep neural network model named AdvancedUnet is proposed to extract and remove the visual watermark simultaneously. On the other hand, we embed some effective RSU module instead of the common residual block used in UNet, which increases the depth of the whole architecture without significantly increasing the computational cost. The deep-supervised hybrid loss guides the network to learn the transformation between the input image and the ground truth in a multi-scale and three-level hierarchy. Comparison experiments demonstrate the effectiveness of our method.
翻訳日:2023-02-26 13:21:52 公開日:2023-02-07
# 拡散モデルによる効果的なデータ拡張

Effective Data Augmentation With Diffusion Models ( http://arxiv.org/abs/2302.07944v1 )

ライセンス: Link先を確認
Brandon Trabucco, Kyle Doherty, Max Gurinas, Ruslan Salakhutdinov(参考訳) データ強化はディープラーニングにおける最も一般的なツールの1つであり、分類、生成モデル、表現学習など、近年の多くの進歩を支えている。 データ拡張に対する標準的なアプローチは、回転やフリップのような単純な変換を組み合わせて、既存の画像から新しい画像を生成する。 しかし、これらの新しい画像は、データに存在するキーセマンティック軸に沿って多様性を欠いている。 異なる動物を認識することを考える。 現在の拡大は、動物の種のようなタスク関連の高い高レベルの意味的属性の多様性を生まない。 我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。 本手法は,市販の拡散モデルを用いて画像編集を行い,いくつかのラベル付き例から新たな視覚概念に一般化する。 本手法は,数回の撮影で画像分類を行い,実世界の雑草認識タスクで評価し,テスト領域における精度の向上を観察する。

Data augmentation is one of the most prevalent tools in deep learning, underpinning many recent advances, including those from classification, generative models, and representation learning. The standard approach to data augmentation combines simple transformations like rotations and flips to generate new images from existing ones. However, these new images lack diversity along key semantic axes present in the data. Consider the task of recognizing different animals. Current augmentations fail to produce diversity in task-relevant high-level semantic attributes like the species of the animal. We address the lack of diversity in data augmentation with image-to-image transformations parameterized by pre-trained text-to-image diffusion models. Our method edits images to change their semantics using an off-the-shelf diffusion model, and generalizes to novel visual concepts from a few labelled examples. We evaluate our approach on image classification tasks in a few-shot setting, and on a real-world weed recognition task, and observe an improvement in accuracy in tested domains.
翻訳日:2023-02-19 14:24:40 公開日:2023-02-07
# 放射線マッピングのためのニューラルネットワークを用いたテトリス誘発検出器

Tetris-inspired detector with neural network for radiation mapping ( http://arxiv.org/abs/2302.07099v1 )

ライセンス: Link先を確認
Ryotaro Okabe (1 and 2), Shangjie Xue (1 and 3 and 4), Jiankai Yu (3), Tongtong Liu (1 and 5), Benoit Forget (3), Stefanie Jegelka (4), Gordon Kohse (6), Lin-wen Hu (6), and Mingda Li (1 and 3) ((1) Quantum Measurement Group, Massachusetts Institute of Technology, Cambridge, MA, USA, (2) Department of Chemistry, Massachusetts Institute of Technology, Cambridge, MA, USA, (3) Department of Nuclear Science and Engineering, Massachusetts Institute of Technology, Cambridge, MA, USA, (4) Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, Cambridge, MA, USA, (5) Department of Physics, Massachusetts Institute of Technology, Cambridge, MA, USA, (6) Nuclear Reactor Laboratory, Massachusetts Institute of Technology, Cambridge, MA, USA)(参考訳) 近年,放射線マッピングの研究が盛んになり,環境モニタリングへの関心が高まっている。 材料とその構成の観点からは、放射源の方向と位置を特定するために放射線検出器が開発された。 この過程では、検出器信号から放射源情報への変換にはアルゴリズムが不可欠である。 しかし、放射物質相互作用の複雑なメカニズムとデータ収集の現在の制限のため、高性能で低コストな放射線マッピングは依然として困難である。 本稿では,テトリスに触発された検出器画素と放射能マッピングのための機械学習を用いた計算フレームワークを提案する。 ピクセル間のパディングを使用してピクセルとニューラルネットワーク間のコントラストを増加させ、検出器の読み取りを分析することで、4ピクセル未満の検出器は高分解能の方向マッピングを実現することができる。 さらに移動検出器でポストエリオーリ(MAP)を最大値にすることで、さらなる放射線位置の定位が達成される。 非正方形テトリス型検出器は、従来の格子型検出器よりも性能を向上することができる。 提案手法は,検出器画素数を最小にすることで,高品質な放射線マッピングを実現するための新たな手段を提供し,適度なバリデーションで実世界の放射線検出に展開できることが期待されている。

In recent years, radiation mapping has attracted widespread research attention and increased public concerns on environmental monitoring. In terms of both materials and their configurations, radiation detectors have been developed to locate the directions and positions of the radiation sources. In this process, algorithm is essential in converting detector signals to radiation source information. However, due to the complex mechanisms of radiation-matter interaction and the current limitation of data collection, high-performance, low-cost radiation mapping is still challenging. Here we present a computational framework using Tetris-inspired detector pixels and machine learning for radiation mapping. Using inter-pixel padding to increase the contrast between pixels and neural network to analyze the detector readings, a detector with as few as four pixels can achieve high-resolution directional mapping. By further imposing Maximum a Posteriori (MAP) with a moving detector, further radiation position localization is achieved. Non-square, Tetris-shaped detector can further improve performance beyond the conventional grid-shaped detector. Our framework offers a new avenue for high quality radiation mapping with least number of detector pixels possible, and is anticipated to be capable to deploy for real-world radiation detection with moderate validation.
翻訳日:2023-02-19 14:23:04 公開日:2023-02-07
# 科学文献におけるライム病の感情分析へのbertとchatgptの適用

Applying BERT and ChatGPT for Sentiment Analysis of Lyme Disease in Scientific Literature ( http://arxiv.org/abs/2302.06474v1 )

ライセンス: Link先を確認
Teo Susnjak(参考訳) 本章では, ニキビ病テキストの領域における自然言語処理(NLP)技術を用いた感性分析の実践的指導について述べる。 本研究の目的は, 本疾患の慢性症状を囲む談話におけるバイアスの存在を, どのように評価できるかを示すことである。 目標は、慢性Lyme病のトピックに関する科学ジャーナルから収集された5643の抽象化データセットを使用することで、Pythonの使用、事前訓練された言語モデルを用いた感情分析のステップ、両方の解釈可能な機械学習ツールを使用して予備結果を検証するプロセス、およびChatGPTのような最先端の大規模言語モデルを使用する新しい方法論を使用することである。 これは、医学領域における感情分析にNLP技術を使うことに関心のある研究者や実践者にとって有用なリソースである。

This chapter presents a practical guide for conducting Sentiment Analysis using Natural Language Processing (NLP) techniques in the domain of tick-borne disease text. The aim is to demonstrate the process of how the presence of bias in the discourse surrounding chronic manifestations of the disease can be evaluated. The goal is to use a dataset of 5643 abstracts collected from scientific journals on the topic of chronic Lyme disease to demonstrate using Python, the steps for conducting sentiment analysis using pre-trained language models and the process of validating the preliminary results using both interpretable machine learning tools, as well as a novel methodology of using emerging state-of-the-art large language models like ChatGPT. This serves as a useful resource for researchers and practitioners interested in using NLP techniques for sentiment analysis in the medical domain.
翻訳日:2023-02-19 14:21:30 公開日:2023-02-07
# オーストラリアにおける信頼できる自律システム規制

Regulating trusted autonomous systems in Australia ( http://arxiv.org/abs/2302.03778v1 )

ライセンス: Link先を確認
Rachel Horne, Tom Putland, Mark Brady(参考訳) オーストラリアは自律システム技術のリーダーであり、特に鉱業では地理的に分散した複雑な自然環境の必要性から成り立っている。 オーストラリアでは、特に安全性、環境、効率の利点がより理解され、技術の高度化によって能力と可用性が向上するにつれて、先進的な自律システムがより普及している。 海上ドメインや航空ドメインを含むこれらのシステムの利用の増加は、新しい技術の運用を可能にするために免除を必要とする従来の規制アプローチを引き続き適用するか、あるいは20世紀の急速な発展に適合したアジャイルで適応的なアプローチを導入する機会をつかむ必要がある、国家安全規制当局に圧力をかけています。 オーストラリアでは、主要な安全規制当局がイノベーションを促進するために業界と協力する欲求を示しているが、その限られた資源は進歩が遅いことを意味する。 信頼できる自律システムのための新しい保証と認定フレームワークを開発し、テストし、公開するために協力し、適応的でアジャイルな規制哲学に移行する上で、業界、政府、アカデミアの第三者が果たすべき重要な役割があります。 これは、安全を損なうことなく、自律システムの利点を実現するために必要である。 本稿は,オーストラリアの海上・航空・陸域における自律システムの増大するユースケースを特定し,現行の規制枠組みを評価し,オーストラリアの規制アプローチがより機敏で予測的になる必要があることを論じ,将来,サードパーティのプロジェクトが自律システムの保証・認定プロセスにどのような影響を与えるかを検討する。

Australia is a leader in autonomous systems technology, particularly in the mining industry, borne from necessity in a geographically dispersed and complex natural environment. Increasingly advanced autonomous systems are becoming more prevalent in Australia, particularly as the safety, environmental and efficiency benefits become better understood, and the increasing sophistication of technology improves capability and availability. Increasing use of these systems, including in the maritime domain and air domain, is placing pressure on the national safety regulators, who must either continue to apply their traditional regulatory approach requiring exemptions to enable operation of emerging technology, or seize the opportunity to put in place an agile and adaptive approach better suited to the rapid developments of the twenty first century. In Australia the key national safety regulators have demonstrated an appetite for working with industry to facilitate innovation, but their limited resources mean progress is slow. There is a critical role to be played by third parties from industry, government, and academia who can work together to develop, test and publish new assurance and accreditation frameworks for trusted autonomous systems, and assist in the transition to an adaptive and agile regulatory philosophy. This is necessary to ensure the benefits of autonomous systems can be realised, without compromising safety. This paper will identify the growing use cases for autonomous systems in Australia, in the maritime, air and land domains, assess the current regulatory framework, argue that Australia's regulatory approach needs to become more agile and anticipatory, and investigate how third party projects could positively impact the assurance and accreditation process for autonomous systems in the future.
翻訳日:2023-02-19 14:05:01 公開日:2023-02-07
# ソーシャルメディアにおける信頼について語るとき、私たちは何を意味するのか? 体系的レビュー

What Do We Mean When We Talk about Trust in Social Media? A Systematic Review ( http://arxiv.org/abs/2302.03671v1 )

ライセンス: Link先を確認
Yixuan Zhang, Joseph D Gaggiano, Nutchanon Yongsatianchot, Nurul M Suhaimi, Miso Kim, Yifan Sun, Jacqueline Griffin, Andrea G Parker(参考訳) 人はソーシャルメディアを信頼しているか? もしそうなら、なぜ、その信頼が彼らの生活にどんな影響を及ぼすのか? 研究者、企業、ジャーナリストも同様に、ソーシャルメディアの相互作用と社会への影響を理解するのに基本となるこれらの疑問を調査している。 しかし、ソーシャルメディアへの信頼は複雑な概念であり、ソーシャルメディアのコンテンツ、ユーザー、プラットフォームを信頼することの先例と意味について矛盾する証拠がある。 さらに問題なのは、ソーシャルメディアの文脈における信頼の意味に関する基本的な合意がないことです。 これらの課題に対処し,この分野のテーマと課題を体系的に検討した。 70の論文の分析を通じて,ソーシャルメディアにおける信頼の定義,概念化,測定,ソーシャルメディアにおける信頼先行者の要約,ソーシャルメディアにおける信頼が行動や態度に与える影響の理解,今後の仕事の方向性についてまとめる。

Do people trust social media? If so, why, in what contexts, and how does that trust impact their lives? Researchers, companies, and journalists alike have increasingly investigated these questions, which are fundamental to understanding social media interactions and their implications for society. However, trust in social media is a complex concept, and there is conflicting evidence about the antecedents and implications of trusting social media content, users, and platforms. More problematic is that we lack basic agreement as to what trust means in the context of social media. Addressing these challenges, we conducted a systematic review to identify themes and challenges in this field. Through our analysis of 70 papers, we contribute a synthesis of how trust in social media is defined, conceptualized, and measured, a summary of trust antecedents in social media, an understanding of how trust in social media impacts behaviors and attitudes, and directions for future work.
翻訳日:2023-02-19 14:04:32 公開日:2023-02-07
# 限定アノテーションによるアルゴリズムバイアスの緩和

Mitigating Algorithmic Bias with Limited Annotations ( http://arxiv.org/abs/2207.10018v2 )

ライセンス: Link先を確認
Guanchu Wang and Mengnan Du and Ninghao Liu and Na Zou and Xia Hu(参考訳) フェアネスモデリングに関する既存の研究は、すべてのインスタンスに対するセンシティブな属性が完全に利用可能であり、センシティブな情報を取得するコストが高いため、多くの現実世界のアプリケーションでは当てはまらないと一般的に仮定している。 機密属性が公開または利用可能でない場合、バイアスを軽減するためにトレーニングデータのごく一部に手動で注釈を付ける必要がある。 しかし、異なる感度群間の歪分布は、注釈付き部分集合における元のデータセットの歪性を保持し、非最適バイアス緩和につながる。 そこで本研究では,アルゴリズムバイアスの影響を最大限に排除するために,限定的なアノテーションを導くための対話型フレームワークであるactive penalization of discrimination (apod)を提案する。 提案するapodは,限定的なアノテーション予算を効率的に活用するために,識別ペナリゼーションとアクティブインスタンス選択を統合し,アルゴリズムバイアスのバウンドが可能であることが理論的に証明されている。 5つのベンチマークデータセットの評価によると、APODは制限されたアノテーション予算の下で最先端のベースラインメソッドよりも優れており、完全に注釈付きバイアス軽減と同等のパフォーマンスを示している。

Existing work on fairness modeling commonly assumes that sensitive attributes for all instances are fully available, which may not be true in many real-world applications due to the high cost of acquiring sensitive information. When sensitive attributes are not disclosed or available, it is needed to manually annotate a small part of the training data to mitigate bias. However, the skewed distribution across different sensitive groups preserves the skewness of the original dataset in the annotated subset, which leads to non-optimal bias mitigation. To tackle this challenge, we propose Active Penalization Of Discrimination (APOD), an interactive framework to guide the limited annotations towards maximally eliminating the effect of algorithmic bias. The proposed APOD integrates discrimination penalization with active instance selection to efficiently utilize the limited annotation budget, and it is theoretically proved to be capable of bounding the algorithmic bias. According to the evaluation on five benchmark datasets, APOD outperforms the state-of-the-arts baseline methods under the limited annotation budget, and shows comparable performance to fully annotated bias mitigation, which demonstrates that APOD could benefit real-world applications when sensitive information is limited.
翻訳日:2023-02-19 09:59:48 公開日:2023-02-07
# 局所反転による量子回路のデバッグと感度解析

Quantum circuit debugging and sensitivity analysis via local inversions ( http://arxiv.org/abs/2204.06056v3 )

ライセンス: Link先を確認
Fernando A. Calderon-Vargas, Timothy Proctor, Kenneth Rudinger, Mohan Sarovar(参考訳) 最先端の量子プロセッサによって実装される量子回路の幅と深さが急速に増加するにつれて、回路解析と古典シミュレーションによる評価は不可能になりつつある。 したがって、大規模かつ複雑な量子回路において重要なエラー源を特定する新しい方法を開発することが重要である。 本研究では,回路出力に最も影響を及ぼす量子回路の断面をピンポイントで特定する手法を提案する。 この技術は回路出力の古典的な検証を必要としないため、大規模な量子プログラムを回路形式でデバッグするためのスケーラブルなツールである。 我々は,IBM量子マシン上に実装されたアルゴリズム回路の例に応用して,提案手法の実用性と有効性を示す。

As the width and depth of quantum circuits implemented by state-of-the-art quantum processors rapidly increase, circuit analysis and assessment via classical simulation are becoming unfeasible. It is crucial, therefore, to develop new methods to identify significant error sources in large and complex quantum circuits. In this work, we present a technique that pinpoints the sections of a quantum circuit that affect the circuit output the most and thus helps to identify the most significant sources of error. The technique requires no classical verification of the circuit output and is thus a scalable tool for debugging large quantum programs in the form of circuits. We demonstrate the practicality and efficacy of the proposed technique by applying it to example algorithmic circuits implemented on IBM quantum machines.
翻訳日:2023-02-17 05:15:54 公開日:2023-02-07
# 投影されたアンサンブルからの動的清浄と量子状態設計の出現

Dynamical purification and the emergence of quantum state designs from the projected ensemble ( http://arxiv.org/abs/2204.13657v3 )

ライセンス: Link先を確認
Matteo Ippoliti, Wen Wei Ho(参考訳) 多体系における量子熱化は、局所サブシステムの普遍形式へのアプローチによって定義され、観測可能なものが熱的期待値を取得する量子状態のアンサンブルとして記述できる。 近年、これらの量子状態の分布は、各状態と相補的部分系の局所射影測定の結果とを関連付けることによって、普遍的な統計を示すことも実証された。 具体的には、投影されたアンサンブルと呼ばれるこの純粋な量子状態の集まりは、ある条件下では、最大エントロピー、一様ランダムアンサンブルの振る舞いを模倣することができる。 本研究では,この新しい創発的普遍性の基礎となる動的過程について考察する。 一次元量子回路の時空双対性マッピングを利用することで、観測された量子系の文脈で生じる動的浄化の物理学は、一様分布に対する射影アンサンブルのアプローチを制約していると論じる。 時空双対力学(適切な初期状態と最終的な測定ベースを持つ双単位量子回路で実現される条件)における動的浄化の欠如は、全てのモーメントに対して、同時に正確な状態設計を得られることを証明し、以前の厳密な結果(Ho, Choi, Phys)を延長する。 Rev. Lett. bf 128}, 060601 (2022)]。 逆に、これらの条件から離れて、力学的な浄化は、k=1 モーメント(正規熱化)と高モーメント(深熱化)の量子状態設計(英語版)の間の時間スケールの分離をもたらす。 以上の結果から,提案したアンサンブルは,量子情報スクランブルのような常温化に到達できない量子力学のニュアンス特性を探索できる可能性が示唆された。

Quantum thermalization in a many-body system is defined by the approach of local subsystems towards a universal form, describable as an ensemble of quantum states wherein observables acquire thermal expectation values. Recently, it was demonstrated that the distribution of these quantum states can also exhibit universal statistics, upon associating each state with the outcome of a local projective measurement of the complementary subsystem. Specifically, this collection of pure quantum states -- called the projected ensemble -- can under certain conditions mimic the behavior of a maximally entropic, uniformly random ensemble, i.e., form a {\it quantum state-design}, representing a ``deeper'' form of quantum thermalization. In this work, we investigate the dynamical process underlying this novel emergent universality. Leveraging a space-time duality mapping for one-dimensional quantum circuits, we argue that the physics of dynamical purification, which arises in the context of monitored quantum systems, constrains the the projected ensemble's approach towards the uniform distribution. We prove that absence of dynamical purification in the space-time dual dynamics (a condition realized in dual-unitary quantum circuits with appropriate initial states and final measurement bases) generically yields exact state-designs for all moments $k$ at the same time, extending previous rigorous results [Ho and Choi, Phys. Rev. Lett. {\bf 128}, 060601 (2022)]. Conversely, we show that, departing from these conditions, dynamical purification can lead to a separation of timescales between the formation of a quantum state-design for moment $k=1$ (regular thermalization) and for high moments $k\gg 1$ (deep thermalization). Our results suggest that the projected ensemble can probe nuanced features of quantum dynamics inaccessible to regular thermalization, such as quantum information scrambling.
翻訳日:2023-02-15 06:33:05 公開日:2023-02-07
# 開量子ラビ模型における量子熱化と熱絡み合い

Quantum thermalization and thermal entanglement in the open quantum Rabi model ( http://arxiv.org/abs/2205.02676v2 )

ライセンス: Link先を確認
Wang-Yan Liu, Li-Bao Fan, Ye-Xiong Zeng, Jin-Feng Huang, Jie-Qiao Liao(参考訳) オープン量子ラビモデル (qrm) において, 2レベル系と1モードボソニック場を2つの個別熱浴または共通の熱浴に結合した量子熱分解と熱絡みについて検討した。 実効的なマルチレベルシステムとしてQRMを扱い、QRMの固有状態表現におけるグローバル量子マスター方程式を導出することにより、オープンQRMの量子熱化の物理条件を研究する。 個別の熱浴の場合、QRMは2つの熱浴が同じ温度である場合または2つの熱浴のうちの1つにのみ結合する場合にのみ熱化することができる。 一般的な熱浴の場合、QRMは常に加熱することができる。 また,共振結合と非共振結合のいずれにおいてもQRMの熱的絡み合いについて検討した。 QRMの熱状態に対する対数ネガティリティは、低温から高温まで、弱強結合状態から深部結合状態まで幅広いパラメータ空間で得られる。 この研究は、非平衡超強結合光マター系における量子効果の研究への道を開く。

We study quantum thermalization and thermal entanglement in the open quantum Rabi model (QRM), in which a two-level system and a single-mode bosonic field are coupled to either two individual heat baths or a common heat bath. By treating the QRM as an effective multilevel system and deriving global quantum master equations in the eigenstate representation of the QRM, we study the physical conditions for quantum thermalization of the open QRM. It is found that, in the individual heat-bath case, the QRM can only be thermalized when either the two heat baths have the same temperature or the QRM is only coupled to one of the two baths. In the common heat-bath case, differently, the QRM can always be thermalized. We also study thermal entanglement of the QRM in both the resonant- and non-resonant coupling cases. The logarithmic negativity for the thermal state of the QRM is obtained in a wide parameter space, ranging from the low- to high-temperature limits, and from the weak- to deep-strong-coupling regimes. This work paves the way towards the study of quantum effects in nonequilibrium ultrastrongly-coupled light-matter systems.
翻訳日:2023-02-14 06:21:14 公開日:2023-02-07
# ハイブリッド量子コンピューティングを用いた病理組織学的癌検出

Histopathological Cancer Detection Using Hybrid Quantum Computing ( http://arxiv.org/abs/2302.04633v1 )

ライセンス: Link先を確認
Reek Majumdar, Biswaraj Baral, Bhavika Bhalgamiya, Taposh Dutta Roy(参考訳) 本稿では,医療分野における量子機械学習の効果的な応用について述べる。 この研究は、量子伝達学習を用いた病理組織学的癌検出の分類問題を強調する。 ここでは、単一転送学習モデルを用いるのではなく、resnet18、vgg-16、inception-v3、alexnet、および高表現率の複数の変分量子回路(vqc)で構成される。 その結果, 病理組織学的癌検出には約93%の予測aucを用いて, モデルと最良の伝達学習モデルの比較分析を行った。 また、Resnet18、Hybrid Quantum and Classical (HQC) の1000枚の画像では、88.0パーセントのクラシック画像よりもわずかに精度が88.5%向上した。

We present an effective application of quantum machine learning in the field of healthcare. The study here emphasizes on a classification problem of a histopathological cancer detection using quantum transfer learning. Rather than using single transfer learning model, the work model presented here consists of multiple transfer learning models especially ResNet18, VGG-16, Inception-v3, AlexNet and several variational quantum circuits (VQC) with high expressibility. As a result, we provide a comparative analysis of the models and the best performing transfer learning model with the prediction AUC of approximately 93 percent for histopathological cancer detection. We also observed that for 1000 images with Resnet18, Hybrid Quantum and Classical (HQC) provided a slightly better accuracy of 88.5 percent than classical of 88.0 percent.
翻訳日:2023-02-10 15:44:24 公開日:2023-02-07
# 格子ハミルトン法によるシュウィンガーモデルにおける離散キラル対称性と質量移動

Discrete Chiral Symmetry and Mass Shift in Lattice Hamiltonian Approach to Schwinger Model ( http://arxiv.org/abs/2206.05308v3 )

ライセンス: Link先を確認
Ross Dempsey, Igor R. Klebanov, Silviu S. Pufu, and Bernardo Zan(参考訳) 我々は、シュウィンガーモデルの格子定式化を、スタッガードフェルミオンを持つコグト・ススキンド・ハミルトンアプローチを用いて再検討する。 バンクスらによって導入されたこのモデルは、質量項 $m_{\rm lat} \sum_{n} (-1)^{n} \chi^\dagger_n \chi_n$ を含み、これをゼロにすると質量のないシュウィンガーモデルの格子正規化が得られると仮定される。 その代わり、格子と連続体質量パラメータの関係を$m_{\rm lat}=m- \frac 18 e^2 a$とするべきである。 m=0$ のモデルは、単位格子変換によって生成される離散的キラル対称性を持ち、それとともに $\theta$-angle を $\pi$ でシフトする。 質量シフトは、a$の格子間隔が0に近づくにつれて消えるが、このシフトを含むと、連続極限への収束率が大幅に向上する。 有限格子系の数値対角化と、格子強結合拡大の補間の両方を用いて、より高速な収束を示す。

We revisit the lattice formulation of the Schwinger model using the Kogut-Susskind Hamiltonian approach with staggered fermions. This model, introduced by Banks et al., contains the mass term $m_{\rm lat} \sum_{n} (-1)^{n} \chi^\dagger_n \chi_n$, and setting it to zero is often assumed to provide the lattice regularization of the massless Schwinger model. We instead argue that the relation between the lattice and continuum mass parameters should be taken as $m_{\rm lat}=m- \frac 18 e^2 a$. The model with $m=0$ is shown to possess a discrete chiral symmetry that is generated by the unit lattice translation accompanied by the shift of the $\theta$-angle by $\pi$. While the mass shift vanishes as the lattice spacing $a$ approaches zero, we find that including this shift greatly improves the rate of convergence to the continuum limit. We demonstrate the faster convergence using both numerical diagonalizations of finite lattice systems, as well as extrapolations of the lattice strong coupling expansions.
翻訳日:2023-02-09 22:54:34 公開日:2023-02-07
# wavetrain:tensor trainに基づくチェーンライクシステムの数値量子力学のためのpythonパッケージ

WaveTrain: A Python Package for Numerical Quantum Mechanics of Chain-Like Systems Based on Tensor Trains ( http://arxiv.org/abs/2302.03725v1 )

ライセンス: Link先を確認
Jerome Riedel, Patrick Gel{\ss}, Rupert Klein, and Burkhard Schmidt(参考訳) wavetrainは、neighbor (nn) 相互作用のみを持つチェーン状量子システムの数値シミュレーションのためのオープンソースソフトウェアである。 Pythonパッケージは、ハミルトン演算子と(静止または時間進化)状態ベクトルのテンソルトレイン(TT、マトリックス製品)フォーマット表現を中心にしている。 TTフォーマットの効率的な構築方法とストレージスキームを提供するPythonテンソルトレインツールボックスSikit-tt上に構築されている。 固有値問題に対する解法と線形微分方程式は、それぞれ時間に依存しない方程式と時間に依存しないシュレーディンガー方程式のウェーブトレインで用いられる。 低ランク表現を構築するために効率的な分解を用いると、状態ベクトルのテンソル-トレイン階数は鎖長 n にわずかにしか依存しないことがしばしば見出される。 完全な量子力学のクラスを補完するものとして、WaveTrain は二部体の古典的および混合量子古典的(エレンフェストまたは平均場)力学のクラスも含む。 グラフィカルな能力は、密度行列の縮小に基づく複数の異なる表現を選択することで、フライ上での量子力学の可視化を可能にする。 分子固体やフォノンとのカップリングを含む共役有機高分子における準一次元エキソトニックエネルギー輸送を処理するために開発されたにもかかわらず、周期境界条件の有無に関わらず、nn相互作用のみを用いて、任意の種類の鎖状量子系にウェーブトレインを用いることができる。

WaveTrain is an open-source software for numerical simulations of chain-like quantum systems with nearest-neighbor (NN) interactions only. The Python package is centered around tensor train (TT, or matrix product) format representations of Hamiltonian operators and (stationary or time-evolving) state vectors. It builds on the Python tensor train toolbox Scikit-tt, which provides efficient construction methods and storage schemes for the TT format. Its solvers for eigenvalue problems and linear differential equations are used in WaveTrain for the time-independent and time-dependent Schroedinger equations, respectively. Employing efficient decompositions to construct low-rank representations, the tensor-train ranks of state vectors are often found to depend only marginally on the chain length N. This results in the computational effort growing only slightly more than linearly with N, thus mitigating the curse of dimensionality. As a complement to the classes for full quantum mechanics, WaveTrain also contains classes for fully classical and mixed quantum-classical (Ehrenfest or mean field) dynamics of bipartite systems. The graphical capabilities allow visualization of quantum dynamics on the fly, with a choice of several different representations based on reduced density matrices. Even though developed for treating quasi one-dimensional excitonic energy transport in molecular solids or conjugated organic polymers, including coupling to phonons, WaveTrain can be used for any kind of chain-like quantum systems, with or without periodic boundary conditions, and with NN interactions only.
翻訳日:2023-02-09 18:19:11 公開日:2023-02-07
# 行動エージェントを説得する: ほぼ最良の反応と学習

Persuading a Behavioral Agent: Approximately Best Responding and Learning ( http://arxiv.org/abs/2302.03719v1 )

ライセンス: Link先を確認
Yiling Chen, Tao Lin(参考訳) 古典的なベイジアン説得モデルは、ベイジアンおよび最良応答受信機を仮定する。 本研究では,受信機が送信者の信号処理方式にほぼ最もよく対応できるベイズ説得モデルの緩和について検討する。 その結果,(1) 送信側は,(1) 送信側が従来のモデルにおいて,最も最適な応答戦略がどんなに最適であっても,期待する効用を保証できる信号方式を見つけることができ,(2) 送信側が従来のモデルで最適効用よりもはるかに有効であるような信号方式は,受信側が送信側にとって最善の応答戦略を用いていたとしても,存在しないことがわかった。 併せて、(1)および(2)は、受信者のほぼ最善応答挙動が、ベイズ説得問題において送信者の最大到達可能ユーティリティにはあまり影響しないことを示す。 両方の結果の証明はベイズ的説得スキームの強固化の考え方に依存している: 送信者の信号方式と受信者の戦略のペアが与えられた場合、受信者がその戦略を元のスキームよりも新しいスキームで使うことを好むような別のシグナリングスキームを構築することができ、2つのスキームは送信者の同様のユーティリティを提供する。 主な結果(1)の適用例として、受信者がいくつかのアルゴリズムで送信者への応答を学習するベイズ的説得モデルにおいて、送信側は従来のモデルとほぼ同じように行うことができることを示す。 興味深いことに、(2) とは異なり、学習受信機では、送信者は古典モデルよりもずっと良いことができる。

The classic Bayesian persuasion model assumes a Bayesian and best-responding receiver. We study a relaxation of the Bayesian persuasion model where the receiver can approximately best respond to the sender's signaling scheme. We show that, under natural assumptions, (1) the sender can find a signaling scheme that guarantees itself an expected utility almost as good as its optimal utility in the classic model, no matter what approximately best-responding strategy the receiver uses; (2) on the other hand, there is no signaling scheme that gives the sender much more utility than its optimal utility in the classic model, even if the receiver uses the approximately best-responding strategy that is best for the sender. Together, (1) and (2) imply that the approximately best-responding behavior of the receiver does not affect the sender's maximal achievable utility a lot in the Bayesian persuasion problem. The proofs of both results rely on the idea of robustification of a Bayesian persuasion scheme: given a pair of the sender's signaling scheme and the receiver's strategy, we can construct another signaling scheme such that the receiver prefers to use that strategy in the new scheme more than in the original scheme, and the two schemes give the sender similar utilities. As an application of our main result (1), we show that, in a repeated Bayesian persuasion model where the receiver learns to respond to the sender by some algorithms, the sender can do almost as well as in the classic model. Interestingly, unlike (2), with a learning receiver the sender can sometimes do much better than in the classic model.
翻訳日:2023-02-09 18:18:40 公開日:2023-02-07
# 量子エントロピーを用いたユーモア認識のためのマイニングの有効性

Mining Effective Features Using Quantum Entropy for Humor Recognition ( http://arxiv.org/abs/2302.03716v1 )

ライセンス: Link先を確認
Yang Liu and Yuexian Hou(参考訳) 過去数年間、ユーモア認識は様々な方法で広く研究されてきた。 しかし、既存のユーモア認識の研究はユーモアを生み出すメカニズムを理解していない。 本稿では,不整合理論に触発されたジョークを2つの構成要素(セットアップとパンチライン)に分けることができる。 どちらのコンポーネントも複数のセマンティクスを持ち、それらの間には不一致な関係があります。 密度行列を用いて,設定とパンチラインの意味的不確かさを表現し,量子エントロピーをユーモア認識の特徴として用いることにより,qe-uncertaintyとqe-incongruityを設計する。 SemEval2021 Task 7データセットの実験結果から,提案した特徴はユーモラスで非ハモラスなテキストを認識するベースラインよりも有効であることがわかった。

Humor recognition has been extensively studied with different methods in the past years. However, existing studies on humor recognition do not understand the mechanisms that generate humor. In this paper, inspired by the incongruity theory, any joke can be divided into two components (the setup and the punchline). Both components have multiple possible semantics, and there is an incongruous relationship between them. We use density matrices to represent the semantic uncertainty of the setup and the punchline, respectively, and design QE-Uncertainty and QE-Incongruity with the help of quantum entropy as features for humor recognition. The experimental results on the SemEval2021 Task 7 dataset show that the proposed features are more effective than the baselines for recognizing humorous and non-humorous texts.
翻訳日:2023-02-09 18:18:11 公開日:2023-02-07
# 量子計算のための符号化非依存最適化問題定式化

Encoding-Independent Optimization Problem Formulation for Quantum Computing ( http://arxiv.org/abs/2302.03711v1 )

ライセンス: Link先を確認
Federico Dominguez, Josua Unger, Matthias Traube, Barry Mant, Christian Ertler and Wolfgang Lechner(参考訳) 本稿では,量子コンピューティングにおける最適化問題の符号化とハードウェアに依存しない定式化について述べる。 本稿では,この一般化手法を用いて,最適化問題とその派生スピンエンコーディングの広範なライブラリを提案する。 これらのスピンハミルトニアンを構築するための建設キットとなる一般的なビルディングブロックが特定される。 これにより、任意の離散最適化問題に対するハミルトニアンの完全自動構成への道が開ける。 問題定式化における表現の自由は、異なるハードウェアプラットフォームに対して最適なスピンハミルトンを調整するための重要なステップである。

We present an encoding and hardware-independent formulation of optimization problems for quantum computing. Using this generalized approach, we present an extensive library of optimization problems and their various derived spin encodings. Common building blocks that serve as a construction kit for building these spin Hamiltonians are identified. This paves the way towards a fully automatic construction of Hamiltonians for arbitrary discrete optimization problems. The presented freedom in the problem formulation is a key step for tailoring optimal spin Hamiltonians for different hardware platforms.
翻訳日:2023-02-09 18:17:56 公開日:2023-02-07
# $U(1)$対称性強化トーリックコード

$U(1)$ symmetry-enriched toric code ( http://arxiv.org/abs/2302.03707v1 )

ライセンス: Link先を確認
Kai-Hsin Wu, Alexey Khudorozhkov, Guilherme Delfino, Dmitry Green, Claudio Chamon(参考訳) 我々は、さらに大域的な$U(1)$対称性を持つ正方格子上の北エフの$\mathbb Z_2$トーリック符号の一般化を提案し、研究する。 量子モンテカルロシミュレーションを用いて、この系はUV/IR混合の明確な兆候を持つトポロジカル秩序を示すこと、すなわち、基底状態のトポロジカル縮退はフラクトロニックなトポロジカル秩序を持つモデルに似た格子の微妙な詳細に依存することを発見した。 典型的なフラクトロニックモデルとは異なり、我々のモデルのトポロジ的縮退はトーラスサイクルの方向に対して格子傾斜の方向に依存する。 特に、正方格子の垂直/水平線に沿った通常のコンパクト化は2倍の縮退を示すが、格子を45^\circ$でコンパクト化すると3倍の位相縮退が起こる。 位相順序が非可換であることは否定できない。 特異な位相的性質に加えて、この系はヒルベルト空間の断片化を示す。 最後に, 超伝導量子線アレイにおける模型の実験的実現について提案する。

We propose and study a generalization of Kitaev's $\mathbb Z_2$ toric code on a square lattice with an additional global $U(1)$ symmetry. Using Quantum Monte Carlo simulation, we find that the system exhibits topological order with clear indications of UV/IR mixing, i.e., the topological degeneracy of the ground state depends on the microscopic details of the lattice akin to models with fractonic topological order. Unlike typical fractonic models, the topological degeneracy of our model depends on the direction of the lattice tilt relative to the directions of the torus cycles. In particular, we observe that while the usual compactification along the vertical/horizontal lines of the square lattice shows a two-fold degeneracy, compactifying the lattice at $45^\circ$ leads to a three-fold topological degeneracy. We cannot rule out that the topological order is non-Abelian. In addition to its unusual topological properties, this system also exhibits Hilbert space fragmentation. Finally, we propose a candidate experimental realization of the model in an array of superconducting quantum wires.
翻訳日:2023-02-09 18:17:49 公開日:2023-02-07
# 線形および4次相互作用を持つ非条件ウィグナー負の機械的絡み合い

Unconditional Wigner-negative mechanical entanglement with linear-and-quadratic optomechanical interactions ( http://arxiv.org/abs/2302.03702v1 )

ライセンス: Link先を確認
Peter McConnell, Oussama Houhou, Matteo Brunelli, Alessandro Ferraro(参考訳) 量子位相空間におけるウィグナー関数の負の値を表示するエンタングルド状態の生成は、特に機械共振器のような大規模で、おそらくはマクロ的なシステムに対して難しい課題である。 本研究では,無条件にウィグナー負の絡み合った状態を生成するための貯留層工学に基づく2つのスキームを提案する。 2つの非相互作用型メカニカル共振器は1つまたは2つの共通キャビティフィールドに放射圧結合しており、光学的結合はメカニカル変位の線形部分と二次部分の両方を特徴とし、キャビティは複数の周波数で駆動される。 二モード圧縮真空の絡み合いと立方非線形性を組み合わせたウィグナー負の絡み合い状態(cpe状態)を両スキームとも安定させることを解析的に示した。 次に, 熱デコヒーレンスの存在下で安定化された近似CPE状態によって得られたウィグナー負の絡み合いの強靭性をテストするため, 広範囲な数値シミュレーションを行った。

The generation of entangled states that display negative values of the Wigner function in the quantum phase space is a challenging task, particularly elusive for massive, and possibly macroscopic, systems such as mechanical resonators. In this work, we propose two schemes based on reservoir engineering for generating Wigner-negative entangled states unconditionally. We consider two non-interacting mechanical resonators that are radiation-pressure coupled to either one or two common cavity fields; the optomechanical coupling with the field(s) features both a linear and quadratic part in the mechanical displacement and the cavity is driven at multiple frequencies. We show analytically that both schemes stabilize a Wigner-negative entangled state that combines the entanglement of a two-mode squeezed vacuum with a cubic nonlinearity, which we dub cubic-phase entangled (CPE) state. We then perform extensive numerical simulations to test the robustness of Wigner-negative entanglement attained by approximate CPE states stabilized in the presence of thermal decoherence.
翻訳日:2023-02-09 18:17:30 公開日:2023-02-07
# 人工知能を用いた金融市場被覆の特徴付け

Characterizing Financial Market Coverage using Artificial Intelligence ( http://arxiv.org/abs/2302.03694v1 )

ライセンス: Link先を確認
Jean Marie Tshimula, D'Jeff K. Nkashama, Patrick Owusu, Marc Frappier, Pierre-Martin Tardif, Froduald Kabanza, Armelle Brun, Jean-Marc Patenaude, Shengrui Wang, Belkacem Chikhaoui(参考訳) 本稿は4900本以上のyoutubeビデオのデータベースを精査し、金融市場を特徴付ける。 金融市場は大量のビデオを生み出している。 したがって、これらのビデオを見て行動可能な洞察を導き出すのは困難で複雑だ。 本稿では,OpenAIの音声テキストモデルであるWhisperを利用して,Bloomberg と Yahoo Finance による市場報道ビデオのテキストコーパスを生成する。 我々は自然言語処理を用いて、市場カバレッジから言語使用に関する洞察を抽出する。 さらに、トレンドトピックの顕著な存在と、時間とともにその進化と、一部の個人や組織が金融市場に与える影響について検討する。 金融市場の状況や最近の金融イベントや世界経済に関する幅広い議論を反映した貴重な洞察を提供する。

This paper scrutinizes a database of over 4900 YouTube videos to characterize financial market coverage. Financial market coverage generates a large number of videos. Therefore, watching these videos to derive actionable insights could be challenging and complex. In this paper, we leverage Whisper, a speech-to-text model from OpenAI, to generate a text corpus of market coverage videos from Bloomberg and Yahoo Finance. We employ natural language processing to extract insights regarding language use from the market coverage. Moreover, we examine the prominent presence of trending topics and their evolution over time, and the impacts that some individuals and organizations have on the financial market. Our characterization highlights the dynamics of the financial market coverage and provides valuable insights reflecting broad discussions regarding recent financial events and the world economy.
翻訳日:2023-02-09 18:17:10 公開日:2023-02-07
# テキスト制御視覚モデルのための概念代数

Concept Algebra for Text-Controlled Vision Models ( http://arxiv.org/abs/2302.03693v1 )

ライセンス: Link先を確認
Zihao Wang, Lin Gui, Jeffrey Negrea, Victor Veitch(参考訳) 本稿では、ユーザが自然言語プロンプトを提供し、この入力に基づいてサンプルを生成するテキスト誘導生成モデルの制御について述べる。 プロンプトは直感的で、一般的で、柔軟です。 しかし、大きな制限がある: プロンプトは驚くべき方法で失敗する可能性がある。 これらの問題を克服するためのメソッドを開発する上での最大の難点は、障害がノウイットであることです -- モデルが何を行うべきかを正確に述べられなければ、バグを修正することは難しいのです! 本稿では,モデルがトレーニングしたデータ生成プロセスに暗黙的な潜在概念という観点から,ユーザが意図した"意図するもの"の形式化を提案する。 この形式化により、プロンプトの基本的な制限を特定できる。 次に、形式主義を用いてこれらの制限を克服する概念代数を開発する。 概念代数(concept algebra)は、入力プロンプトの適切に定義された表現上の代数演算を通して出力で表現された概念を直接操作する方法である。 本稿では,算術による概念伝達や射影による概念無効化など,プロンプトの限界を克服するために概念代数を用いた例を示す。 コードはhttps://github.com/zihao12/concept-algebra。

This paper concerns the control of text-guided generative models, where a user provides a natural language prompt and the model generates samples based on this input. Prompting is intuitive, general, and flexible. However, there are significant limitations: prompting can fail in surprising ways, and it is often unclear how to find a prompt that will elicit some desired target behavior. A core difficulty for developing methods to overcome these issues is that failures are know-it-when-you-see-it -- it's hard to fix bugs if you can't state precisely what the model should have done! In this paper, we introduce a formalization of "what the user intended" in terms of latent concepts implicit to the data generating process that the model was trained on. This formalization allows us to identify some fundamental limitations of prompting. We then use the formalism to develop concept algebra to overcome these limitations. Concept algebra is a way of directly manipulating the concepts expressed in the output through algebraic operations on a suitably defined representation of input prompts. We give examples using concept algebra to overcome limitations of prompting, including concept transfer through arithmetic, and concept nullification through projection. Code available at https://github.com/zihao12/concept-algebra.
翻訳日:2023-02-09 18:16:58 公開日:2023-02-07
# Sketchy: 頻繁な方向を持つメモリ効率の適応正規化

Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions ( http://arxiv.org/abs/2302.03764v1 )

ライセンス: Link先を確認
Vladimir Feinberg, Xinyi Chen, Y. Jennifer Sun, Rohan Anil, Elad Hazan(参考訳) 対角エントリ以上を利用する適応正規化法は、多くのタスクでアートパフォーマンスの状態を示すが、メモリと実行時間の観点からは禁止される。 深層学習(DL)訓練タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、トレーニングを通して変化する小さなリード固有空間に集中しており、ローランクスケッチのアプローチを動機付けている。 本稿では,FDスケッチを用いた行列プレコンディショナの維持に必要なメモリと計算量を削減できる汎用手法について述べる。 オンライン凸最適化 (OCO) 設定では、d-dtrix $d^2$ のメモリ後悔と、d-k$ のメモリ不足と、勾配共分散の下位の$d-k$ 固有値の加算誤差との補間を可能にする。 さらに,いくつかの大規模ベンチマークにおいて,メモリ品質の高いparetoフロンティアにメソッドを置くことで,sampooへの作業の拡張を示す。

Adaptive regularization methods that exploit more than the diagonal entries exhibit state of the art performance for many tasks, but can be prohibitive in terms of memory and running time. We find the spectra of the Kronecker-factored gradient covariance matrix in deep learning (DL) training tasks are concentrated on a small leading eigenspace that changes throughout training, motivating a low-rank sketching approach. We describe a generic method for reducing memory and compute requirements of maintaining a matrix preconditioner using the Frequent Directions (FD) sketch. Our technique allows interpolation between resource requirements and the degradation in regret guarantees with rank $k$: in the online convex optimization (OCO) setting over dimension $d$, we match full-matrix $d^2$ memory regret using only $dk$ memory up to additive error in the bottom $d-k$ eigenvalues of the gradient covariance. Further, we show extensions of our work to Shampoo, placing the method on the memory-quality Pareto frontier of several large scale benchmarks.
翻訳日:2023-02-09 18:10:19 公開日:2023-02-07
# 単一光子感光タイムスタンプカメラによる高次元空間絡み合いの定量化

Quantifying high-dimensional spatial entanglement with a single-photon-sensitive time-stamping camera ( http://arxiv.org/abs/2302.03756v1 )

ライセンス: Link先を確認
Baptiste Courme, Chlo\'e Verni\`ere, Peter Svihra, Sylvain Gigan, Andrei Nomerotski and Hugo Defienne(参考訳) 高次元絡み合いは量子技術にとって有望な資源である。 任意の量子状態に対して証明できることが不可欠である。 しかし、今のところ実験的な絡み合い認証法は不完全であり、いくつかの抜け穴が開いている。 単一光子感度タイムスタンプカメラを用いて,すべての出力モードを収集し,背景減算を行わずに高次元空間絡み合いを定量化する。 位置モメンタムEinstein-Podolsky-Rosen (EPR) 相関関係を示し, 両空間軸に沿って2.8以上の震源の形成の絡み合いを定量化し, 14以上の寸法を示す。 本研究は,光量子化における重要な課題を克服し,高次元エンタングルメントに基づく実用的な量子情報処理プロトコルの開発への道を開く。

High-dimensional entanglement is a promising resource for quantum technologies. Being able to certify it for any quantum state is essential. However, to date, experimental entanglement certification methods are imperfect and leave some loopholes open. Using a single-photon sensitive time-stamping camera, we quantify high-dimensional spatial entanglement by collecting all output modes and without background subtraction, two critical steps on the route towards assumptions-free entanglement certification. We show position-momentum Einstein-Podolsky-Rosen (EPR) correlations and quantify the entanglement of formation of our source to be larger than 2.8 along both transverse spatial axes, indicating a dimension higher than 14. Our work overcomes important challenges in photonic entanglement quantification and paves the way towards the development of practical quantum information processing protocols based on high-dimensional entanglement.
翻訳日:2023-02-09 18:09:55 公開日:2023-02-07
# プラグイン・ミックス・オブ・メモリによるゼロショット高密度レトリバーの強化

Augmenting Zero-Shot Dense Retrievers with Plug-in Mixture-of-Memories ( http://arxiv.org/abs/2302.03754v1 )

ライセンス: Link先を確認
Suyu Ge, Chenyan Xiong, Corby Rosset, Arnold Overwijk, Jiawei Han and Paul Bennett(参考訳) 本稿では,複数の情報コーパス(外部記憶)から拡張文書を取得する機構であるmixed-of-memory augmentation(moma)を用いて,言語モデルのゼロショット一般化能力を向上させる。 本研究では,記憶混合物からのハードネガティブと組み合わせて,最終検索タスクから派生した潜在ラベルで拡張成分を学習する合同学習機構を開発した。 強力なt5ベースのレトリバーをmomaで強化することにより,ゼロショットの密集した検索設定でモデルをインスタンス化する。 我々のモデルであるMoMAは、標準BEIRベンチマークに含まれる18のタスクに対して、強いゼロショット検索精度を得る。 モデルパラメータの増加と計算ステップから一般化を求めるシステムより優れている。 本解析ではさらに,強固な一般化のための混合メモリによる拡張の必要性,拡張学習の利点,パラメータ変更を伴わずに推定時にmomaがプラグインメモリをどのように利用するかを示す。 コードをオープンソース化する予定です。

In this paper we improve the zero-shot generalization ability of language models via Mixture-Of-Memory Augmentation (MoMA), a mechanism that retrieves augmentation documents from multiple information corpora ("external memories"), with the option to "plug in" new memory at inference time. We develop a joint learning mechanism that trains the augmentation component with latent labels derived from the end retrieval task, paired with hard negatives from the memory mixture. We instantiate the model in a zero-shot dense retrieval setting by augmenting a strong T5-based retriever with MoMA. Our model, MoMA, obtains strong zero-shot retrieval accuracy on the eighteen tasks included in the standard BEIR benchmark. It outperforms systems that seek generalization from increased model parameters and computation steps. Our analysis further illustrates the necessity of augmenting with mixture-of-memory for robust generalization, the benefits of augmentation learning, and how MoMA utilizes the plug-in memory at inference time without changing its parameters. We plan to open source our code.
翻訳日:2023-02-09 18:09:41 公開日:2023-02-07
# ViTが小さなデータセットに悪影響を及ぼす理由を理解する:直感的視点

Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective ( http://arxiv.org/abs/2302.03751v1 )

ライセンス: Link先を確認
Haoran Zhu, Boyuan Chen, Carter Yang(参考訳) vision transformer(ヴィジョントランスフォーマー、vit)は、コンピュータビジョンタスクに有効であることを示すニューラルネットワークアーキテクチャである。 しかし、同様の数のパラメータを持つResNet-18と比較して、ViTは小さなデータセットでトレーニングする際の評価精度が著しく低い。 関連分野の研究を容易にするために,その原因を理解するための視覚的直観を提供する。 まず、2つのモデルのパフォーマンスを比較し、小さなデータセットでトレーニングした場合、ViTがResNet-18よりも精度が低いことを確認した。 次に、ViTの注意マップ可視化とResNet-18の特徴マップ可視化によって結果を解釈する。 この差異は、表現類似性の観点からさらに分析される。 私たちは、小さなデータセットでトレーニングされたViTの表現は、大規模なデータセットでトレーニングされたViTと大きく異なると結論付けました。

Vision transformer (ViT) is an attention neural network architecture that is shown to be effective for computer vision tasks. However, compared to ResNet-18 with a similar number of parameters, ViT has a significantly lower evaluation accuracy when trained on small datasets. To facilitate studies in related fields, we provide a visual intuition to help understand why it is the case. We first compare the performance of the two models and confirm that ViT has less accuracy than ResNet-18 when trained on small datasets. We then interpret the results by showing attention map visualization for ViT and feature map visualization for ResNet-18. The difference is further analyzed through a representation similarity perspective. We conclude that the representation of ViT trained on small datasets is hugely different from ViT trained on large datasets, which may be the reason why the performance drops a lot on small datasets.
翻訳日:2023-02-09 18:09:24 公開日:2023-02-07
# ニューラルネットワークにおけるアーキテクチャパラメトリゼーションとアルゴリズムバイアスの因果関係

Towards causally linking architectural parametrizations to algorithmic bias in neural networks ( http://arxiv.org/abs/2302.03750v1 )

ライセンス: Link先を確認
Hao Liang, Josue Ortega Caro, Vikram Maheshri, Ankit B. Patel, Guha Balakrishnan(参考訳) トレーニングデータセットバイアスは、ニューラルネットワークのアルゴリズムバイアスを説明する際に最も精査された要因である。 対照的に、ニューラルネットワークアーキテクチャに関連するハイパーパラメータ(例えば、レイヤの数やアクティベーション関数の選択など)は、異なるネットワークパラメータ化が学習した特徴に対して異なる暗黙バイアスを引き起こすことが知られているにもかかわらず、ほとんど無視されている。 例えば、畳み込みカーネルのサイズはcnnを異なる周波数に偏らせることが示されている。 これらのハイパーパラメータの効果を研究するために,アーキテクチャハイパーパラメータをアルゴリズムバイアスにリンクするための因果的枠組みを設計した。 我々のフレームワークは実験的であり、ネットワークのいくつかのバージョンは特定のハイパーパラメーターに介入してトレーニングされ、この選択によるパフォーマンスバイアスに対する因果効果が測定される。 我々は,高頻度画像に対する感度と,異なるサブポピュレーション(レース/ジェンダー)における顔分析性能の因果関係に着目した。 本研究では,cnnの1層であっても,cnnハイパーパラメータ(畳み込みカーネルサイズ)を変更することで,学習された特徴(頻度コンテンツ)の基本特性を変化させるだけでなく,この変化がデータサブグループ(競合/生成者集団)間で著しく変化し,バランスの取れたデータセットが存在する場合でも偏りのある一般化性能をもたらすことを示す。

Training dataset biases are by far the most scrutinized factors when explaining algorithmic biases of neural networks. In contrast, hyperparameters related to the neural network architecture, e.g., the number of layers or choice of activation functions, have largely been ignored even though different network parameterizations are known to induce different implicit biases over learned features. For example, convolutional kernel size has been shown to bias CNNs towards different frequencies. In order to study the effect of these hyperparameters, we designed a causal framework for linking an architectural hyperparameter to algorithmic bias. Our framework is experimental, in that several versions of a network are trained with an intervention to a specific hyperparameter, and the resulting causal effect of this choice on performance bias is measured. We focused on the causal relationship between sensitivity to high-frequency image details and face analysis classification performance across different subpopulations (race/gender). In this work, we show that modifying a CNN hyperparameter (convolutional kernel size), even in one layer of a CNN, will not only change a fundamental characteristic of the learned features (frequency content) but that this change can vary significantly across data subgroups (race/gender populations) leading to biased generalization performance even in the presence of a balanced dataset.
翻訳日:2023-02-09 18:09:09 公開日:2023-02-07
# 逆グラフにおけるロバスト・シム・トゥ・リール転送のための3次元ニューラル埋め込み

3D Neural Embedding Likelihood for Robust Sim-to-Real Transfer in Inverse Graphics ( http://arxiv.org/abs/2302.03744v1 )

ライセンス: Link先を確認
Guangyao Zhou, Nishad Gothoskar, Lirui Wang, Joshua B. Tenenbaum, Dan Gutfreund, Miguel L\'azaro-Gredilla, Dileep George, Vikash K. Mansinghka(参考訳) 逆グラフィックスによる3Dシーン認識における中心的な課題は、3Dグラフィックと実世界のデータのギャップを強くモデル化することである。 本稿では,RGB-D画像に対する新しい3次元ニューラルネットワーク(3DNEL)を提案する。 3DNELは、ニューラルネットワークを用いてRGBから2D-3D対応を予測し、これを原則的に奥行きと組み合わせる。 3DNELは完全に合成画像から訓練され、実世界のデータに一般化される。 この能力を実証するために,実RGB-D画像から6次元オブジェクトのポーズ推定に3DNELを用いた多段逆グラフパイプラインを開発した。 提案手法は,YCB-Videoデータセット上での擬似ポーズ推定における先行技術よりも優れ,ロバスト性を向上し,大規模なエラー予測を著しく少なくする。 ポーズ推定に特化している既存のボトムアップと異なり、3DNELは多目的シーンを共同でモデル化する確率的生成定式化を採用する。 この生成的定式化は、3DNELをビデオからオブジェクトやカメラ追跡などの追加タスクに容易に拡張することができる。

A central challenge in 3D scene perception via inverse graphics is robustly modeling the gap between 3D graphics and real-world data. We propose a novel 3D Neural Embedding Likelihood (3DNEL) over RGB-D images to address this gap. 3DNEL uses neural embeddings to predict 2D-3D correspondences from RGB and combines this with depth in a principled manner. 3DNEL is trained entirely from synthetic images and generalizes to real-world data. To showcase this capability, we develop a multi-stage inverse graphics pipeline that uses 3DNEL for 6D object pose estimation from real RGB-D images. Our method outperforms the previous state-of-the-art in sim-to-real pose estimation on the YCB-Video dataset, and improves robustness, with significantly fewer large-error predictions. Unlike existing bottom-up, discriminative approaches that are specialized for pose estimation, 3DNEL adopts a probabilistic generative formulation that jointly models multi-object scenes. This generative formulation enables easy extension of 3DNEL to additional tasks like object and camera tracking from video, using principled inference in the same probabilistic model without task specific retraining.
翻訳日:2023-02-09 18:08:44 公開日:2023-02-07
# 2022年にノーベル物理学賞を受賞した。 個人的記憶

The Laureates of the Nobel Prize in Physics 2022. Some personal memories ( http://arxiv.org/abs/2302.03736v1 )

ライセンス: Link先を確認
Reinhold A. Bertlmann(参考訳) ノーベル賞受賞者2022年のアライン・アスペクト、ジョン・クロージャー、アントン・サイリンジャーの個人的記憶を要約し、それらの作品の意義を歴史学的に説明する。

Some personal memories of the Nobel Prize Winners 2022 Alain Aspect, John Clauser, and Anton Zeilinger are summarized and the significance of their works is described in a historical perspective.
翻訳日:2023-02-09 18:08:19 公開日:2023-02-07
# MMA-RNN:心房細動の識別と局在のためのマルチレベルマルチタスク注意に基づくリカレントニューラルネットワーク

MMA-RNN: A Multi-level Multi-task Attention-based Recurrent Neural Network for Discrimination and Localization of Atrial Fibrillation ( http://arxiv.org/abs/2302.03731v1 )

ライセンス: Link先を確認
Yifan Sun, Jingyan Shen, Yunfan Jiang, Zhaohui Huang, Minsheng Hao, Xuegong Zhang(参考訳) 心電図(ECG)信号による心房細動の自動検出は臨床的にも実用的にも広く注目されている。 ノイズや歪みにより、循環パターン、長さの変化、不安定な品質でECG信号を処理することは困難である。 さらに、発作性心房細動から持続性心房細動を分離する研究は不十分であり、AFエピソードの開始点と終了点の特定についてはほとんど議論されていない。 ステージバイステージのアプローチに固有の誤りを避けながら、これら2つの異なるが相互に関連するタスクをうまく実行するのはさらに難しい。 本稿では,多段階マルチタスク・アテンションに基づくリカレントニューラルネットワークを提案する。 本モデルでは,双方向長短記憶ネットワーク(Bi-LSTM)とアテンション層を用いた階層構造に基づく3段階の逐次的特徴を抽出し,マルチヘッド分類器を同時に実現している。 このモデルは、情報インタラクションを強化し、エラーの蓄積を減らすためのエンドツーエンドフレームワークとして設計されている。 最後に、CPSC 2021データセットを用いて実験を行い、本手法の優れた性能を示し、MMA-RNNのウェアラブルモバイルデバイスへの応用の可能性を示し、定期的なAFモニタリングと早期診断を行う。

The automatic detection of atrial fibrillation based on electrocardiograph (ECG) signals has received wide attention both clinically and practically. It is challenging to process ECG signals with cyclical pattern, varying length and unstable quality due to noise and distortion. Besides, there has been insufficient research on separating persistent atrial fibrillation from paroxysmal atrial fibrillation, and little discussion on locating the onsets and end points of AF episodes. It is even more arduous to perform well on these two distinct but interrelated tasks, while avoiding the mistakes inherent from stage-by-stage approaches. This paper proposes the Multi-level Multi-task Attention-based Recurrent Neural Network for three-class discrimination on patients and localization of the exact timing of AF episodes. Our model captures three-level sequential features based on a hierarchical architecture utilizing Bidirectional Long and Short-Term Memory Network (Bi-LSTM) and attention layers, and accomplishes the two tasks simultaneously with a multi-head classifier. The model is designed as an end-to-end framework to enhance information interaction and reduce error accumulation. Finally, we conduct experiments on CPSC 2021 dataset and the result demonstrates the superior performance of our method, indicating the potential application of MMA-RNN to wearable mobile devices for routine AF monitoring and early diagnosis.
翻訳日:2023-02-09 18:08:14 公開日:2023-02-07
# kengic: キーワード駆動とn-gramグラフに基づく画像キャプション

KENGIC: KEyword-driven and N-Gram Graph based Image Captioning ( http://arxiv.org/abs/2302.03729v1 )

ライセンス: Link先を確認
Brandon Birmingham and Adrian Muscat(参考訳) 本稿では,キーワード駆動およびn-gramグラフを用いた画像キャプション手法(kengic)を提案する。 現在の最先端の画像キャプションジェネレータのほとんどは、大規模なペア画像キャプチャデータセットでエンドツーエンドにトレーニングされています。 そのようなモデルは、説明可能性と異なる領域にまたがる適用性の観点から制限される。 これらの制約に対処するために,ペア画像キャプションのエンドツーエンドトレーニングを必要としないN-Gramグラフに基づくシンプルなモデルを提案する。 生成器は、ノードと見なされる一連の画像キーワードから始まり、与えられたテキストコーパスにあるn-gramを重ね合わせてこれらのノードを接続して有向グラフを形成するように設計されている。 モデルは、構築されたグラフから最も可能なn-gram列を最大化することでキャプションを推測する。 このアプローチの文脈でキーワードの使用と選択を分析するために,本研究は画像キャプションの生成を解析した。 (a)金本字幕から抽出したキーワード及び (b)自動検出されたキーワードから。 定量的および定性的分析はKENGICの有効性を示した。 達成されたパフォーマンスは、現在の最先端の画像キャプションジェネレータに非常に近い。 このアプローチの分析は、ペア設定で訓練された現在のトップ実行キャプションジェネレータの背後にある生成プロセスに光を当て、また、自動キャプションにおける現在の最も広く使われている評価指標の限界についての洞察を与えることもできる。

This paper presents a Keyword-driven and N-gram Graph based approach for Image Captioning (KENGIC). Most current state-of-the-art image caption generators are trained end-to-end on large scale paired image-caption datasets which are very laborious and expensive to collect. Such models are limited in terms of their explainability and their applicability across different domains. To address these limitations, a simple model based on N-Gram graphs which does not require any end-to-end training on paired image captions is proposed. Starting with a set of image keywords considered as nodes, the generator is designed to form a directed graph by connecting these nodes through overlapping n-grams as found in a given text corpus. The model then infers the caption by maximising the most probable n-gram sequences from the constructed graph. To analyse the use and choice of keywords in context of this approach, this study analysed the generation of image captions based on (a) keywords extracted from gold standard captions and (b) from automatically detected keywords. Both quantitative and qualitative analyses demonstrated the effectiveness of KENGIC. The performance achieved is very close to that of current state-of-the-art image caption generators that are trained in the unpaired setting. The analysis of this approach could also shed light on the generation process behind current top performing caption generators trained in the paired setting, and in addition, provide insights on the limitations of the current most widely used evaluation metrics in automatic image captioning.
翻訳日:2023-02-09 18:07:49 公開日:2023-02-07
# ニューラルコードモデル解釈のための因果理論に向けて

Toward a Theory of Causation for Interpreting Neural Code Models ( http://arxiv.org/abs/2302.03788v1 )

ライセンス: Link先を確認
David N. Palacio and Nathan Cooper and Alvaro Rodriguez and Kevin Moran and Denys Poshyvanyk(参考訳) コードのニューラル言語モデル(neural code model,ncms)は、研究プロトタイプから商用開発ツールへと急速に進歩している。 このように、そのようなモデルの能力と限界を理解することが重要になっている。 しかしながら、これらのモデルの能力は通常、実際のパフォーマンスの一部だけを明らかにする自動メトリクスを使用して測定される。 一般的には、NCMのパフォーマンスは有望であるように思われるが、現在、そのようなモデルがどのように決定に達するかは不明である。 そこで本研究では,モデル予測を記述可能なNCMに特有のポストホック解釈可能性手法である$do_{code}$を紹介する。 $do_{code}$は、言語指向の説明を可能にする因果推論に基づいている。 do_{code}$の理論的基盤は、異なるモデル特性を探索するために拡張可能であるが、プログラミング言語の性質におけるモデル挙動の説明を基礎として、突発的相関の影響を軽減することを目的とした具体的なインスタンス化を提供する。 do_{code}$の実際的な利点を示すために、2つの一般的なディープラーニングアーキテクチャと9つのncmをケーススタディすることで、フレームワークが提供できる洞察を説明します。 このケース・スタディの結果から,ntmはコード構文の変化に敏感であり,他のプログラミング言語の構文に比べて偏りが少なく,コードブロック(ブラケット,括弧,セミコロンなど)に関連するトークンを統計的に予測できることがわかった。 これらの洞察は、NCMのバイアスや制限を発見するのに役立つ有用なモデルデバッグメカニズムとして$do_{code}$の可能性を示している。

Neural Language Models of Code, or Neural Code Models (NCMs), are rapidly progressing from research prototypes to commercial developer tools. As such, understanding the capabilities and limitations of such models is becoming critical. However, the abilities of these models are typically measured using automated metrics that often only reveal a portion of their real-world performance. While, in general, the performance of NCMs appears promising, currently much is unknown about how such models arrive at decisions. To this end, this paper introduces $do_{code}$, a post-hoc interpretability methodology specific to NCMs that is capable of explaining model predictions. $do_{code}$ is based upon causal inference to enable programming language-oriented explanations. While the theoretical underpinnings of $do_{code}$ are extensible to exploring different model properties, we provide a concrete instantiation that aims to mitigate the impact of spurious correlations by grounding explanations of model behavior in properties of programming languages. To demonstrate the practical benefit of $do_{code}$, we illustrate the insights that our framework can provide by performing a case study on two popular deep learning architectures and nine NCMs. The results of this case study illustrate that our studied NCMs are sensitive to changes in code syntax and statistically learn to predict tokens related to blocks of code (e.g., brackets, parenthesis, semicolon) with less confounding bias as compared to other programming language constructs. These insights demonstrate the potential of $do_{code}$ as a useful model debugging mechanism that may aid in discovering biases and limitations in NCMs.
翻訳日:2023-02-09 18:01:22 公開日:2023-02-07
# 拡散方程式のサロゲートとしてのディープエンコーダデコーダネットワークの性能解析

Analyzing the Performance of Deep Encoder-Decoder Networks as Surrogates for a Diffusion Equation ( http://arxiv.org/abs/2302.03786v1 )

ライセンス: Link先を確認
J. Quetzalcoatl Toledo-Marin, James A. Glazier, Geoffrey Fox(参考訳) ニューラルネットワーク(NN)は、数桁の計算時間を高速化する可能性があり、従来の直接数値アルゴリズムの代替となることが証明されている。 本稿では,エンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)を定常拡散解法の代用として利用することを検討した。 このようなサロゲートの構築には、適切なタスク、ネットワークアーキテクチャ、トレーニングセットの構造とサイズ、損失関数、トレーニングアルゴリズムハイパーパラメータの選択が必要である。 これらの要因のそれぞれが、結果のモデルの性能に大きな影響を与えることはよく知られている。 提案手法はエンコーダ・デコーダCNNアーキテクチャを用いており, 単に圧縮するのではなく, 効率よくデータを変換できるため, この問題に特に適している。 我々は,損失関数,ハイパーパラメータ,トレーニングセットサイズを体系的に評価する。 その結果,トレーニングセットのサイズが大きくなると,性能変動や全体的な誤差の低減に大きく影響することが示唆された。 さらに、モデルの性能がトレーニングセットのサイズに対数依存していることが観察された。 さらに,異なる特徴を持つデータのサブセットを用いて,モデル性能への影響を検討する。 本結果は,モデルの性能と必要なトレーニング時間に大きな影響を与える可能性があるため,最適に構成空間をサンプリングすることの重要性を強調した。 結論として,境界よりも誤差が大きいエッジケースが存在しないことを保証できないため,事前決定された誤差パフォーマンス境界を持つモデルのトレーニングは有効なアプローチではないことを示唆する。 さらに、ほとんどの代理的なタスクは高次元のランドスケープを伴うため、トレーニングセットのサイズは原則として増加するが、実用的な解決策ではない。

Neural networks (NNs) have proven to be a viable alternative to traditional direct numerical algorithms, with the potential to accelerate computational time by several orders of magnitude. In the present paper we study the use of encoder-decoder convolutional neural network (CNN) as surrogates for steady-state diffusion solvers. The construction of such surrogates requires the selection of an appropriate task, network architecture, training set structure and size, loss function, and training algorithm hyperparameters. It is well known that each of these factors can have a significant impact on the performance of the resultant model. Our approach employs an encoder-decoder CNN architecture, which we posit is particularly well-suited for this task due to its ability to effectively transform data, as opposed to merely compressing it. We systematically evaluate a range of loss functions, hyperparameters, and training set sizes. Our results indicate that increasing the size of the training set has a substantial effect on reducing performance fluctuations and overall error. Additionally, we observe that the performance of the model exhibits a logarithmic dependence on the training set size. Furthermore, we investigate the effect on model performance by using different subsets of data with varying features. Our results highlight the importance of sampling the configurational space in an optimal manner, as this can have a significant impact on the performance of the model and the required training time. In conclusion, our results suggest that training a model with a pre-determined error performance bound is not a viable approach, as it does not guarantee that edge cases with errors larger than the bound do not exist. Furthermore, as most surrogate tasks involve a high dimensional landscape, an ever increasing training set size is, in principle, needed, however it is not a practical solution.
翻訳日:2023-02-09 18:00:57 公開日:2023-02-07
# コンテキスト・バンディットにおけるユーザトリガード・スーパーバイザリングの活用

Leveraging User-Triggered Supervision in Contextual Bandits ( http://arxiv.org/abs/2302.03784v1 )

ライセンス: Link先を確認
Alekh Agarwal, Claudio Gentile, Teodor V. Marinov(参考訳) コンテキストバンディット(cb)問題について検討し,与えられたコンテキストにおいて,ユーザが時として最善のアクションで応答できる場合について検討した。 このようなインタラクションは、例えばテキスト予測や自動補完設定で発生し、まずい提案が単に無視され、ユーザが代わりに所望のテキストを入力する。 重要なことに、この追加のフィードバックは、コンテキストのサブセットのみにユーザによってトリガーされる。 我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。 また、この信号を活用するために標準cbアルゴリズムを補強し、フィードバックに固有の有用性とバイアスに関する様々な条件下で結果のアルゴリズムに対する後悔の保証を改善した。

We study contextual bandit (CB) problems, where the user can sometimes respond with the best action in a given context. Such an interaction arises, for example, in text prediction or autocompletion settings, where a poor suggestion is simply ignored and the user enters the desired text instead. Crucially, this extra feedback is user-triggered on only a subset of the contexts. We develop a new framework to leverage such signals, while being robust to their biased nature. We also augment standard CB algorithms to leverage the signal, and show improved regret guarantees for the resulting algorithms under a variety of conditions on the helpfulness of and bias inherent in this feedback.
翻訳日:2023-02-09 18:00:30 公開日:2023-02-07
# 大規模言語モデルによる信頼性の高い自然言語理解と解答集合プログラミング

Reliable Natural Language Understanding with Large Language Models and Answer Set Programming ( http://arxiv.org/abs/2302.03780v1 )

ライセンス: Link先を確認
Abhiramon Rajasekharan, Yankai Zeng, Parth Padalkar, Gopal Gupta(参考訳) 人間は、文から情報(意味)を抽出し、既存の常識知識と組み合わせ、結論を引き出す推論を行うことで言語を理解する。 GPT-3やChatGPTのような大きな言語モデル(LLM)は、テキストのパターンを利用して様々なNLPタスクを解くことができるが、推論を必要とする問題では不足している。 また、与えられた質問に対する回答を確実に説明できない。 我々は,人間をよりよくエミュレートするために,llmと解集合プログラミング(asp)を組み合わせたフレームワークstarを提案する。 LLMが言語から知識(述語として表される)を効果的に抽出する方法を示す。 目標指向のaspは、この知識を確実に推論するために使用される。 定性推論,数学的推論,目標指向会話という3つのNLUタスクにSTARフレームワークを適用した。 我々の実験により、starはnluタスクにおける推論のギャップを埋めることができ、特により小さなllm、すなわちより少ないパラメータのllmにおいて、パフォーマンスが大幅に向上することが明らかとなった。 star frameworkを使って開発されたnluアプリケーションも説明可能である。 生成された述語とともに、与えられた出力のために証明ツリーの形式による正当化が作成できる。

Humans understand language by extracting information (meaning) from sentences, combining it with existing commonsense knowledge, and then performing reasoning to draw conclusions. While large language models (LLMs) such as GPT-3 and ChatGPT are able to leverage patterns in the text to solve a variety of NLP tasks, they fall short in problems that require reasoning. They also cannot reliably explain the answers generated for a given question. In order to emulate humans better, we propose STAR, a framework that combines LLMs with Answer Set Programming (ASP). We show how LLMs can be used to effectively extract knowledge -- represented as predicates -- from language. Goal-directed ASP is then employed to reliably reason over this knowledge. We apply the STAR framework to three different NLU tasks requiring reasoning: qualitative reasoning, mathematical reasoning, and goal-directed conversation. Our experiments reveal that STAR is able to bridge the gap of reasoning in NLU tasks, leading to significant performance improvements, especially for smaller LLMs, i.e., LLMs with a smaller number of parameters. NLU applications developed using the STAR framework are also explainable: along with the predicates generated, a justification in the form of a proof tree can be produced for a given output.
翻訳日:2023-02-09 18:00:19 公開日:2023-02-07
# オンライン対非凸変換による確率的非滑らかな最適化

Optimal Stochastic Non-smooth Non-convex Optimization through Online-to-Non-convex Conversion ( http://arxiv.org/abs/2302.03775v1 )

ライセンス: Link先を確認
Ashok Cutkosky, Harsh Mehta, Francesco Orabona(参考訳) 本稿では,新しい解析手法に基づき,非スムース,非凸確率目的を最適化する新しいアルゴリズムを提案する。 これにより、現在最もよく知られている、$(\delta,\epsilon)$-stationary point を$o(\epsilon^{-4}\delta^{-1})$ 確率的勾配クエリから$o(\epsilon^{-3}\delta^{-1})$ に求めるための複雑さが改善される。 我々の主要な手法は、非滑らかな非凸最適化からオンライン学習への還元であり、その結果はオンライン学習における標準的な後悔の限界から導かれる。 決定論的および二階スムーズな目的に対して、より先進的な楽観的なオンライン学習手法を適用することで、$O(\epsilon^{-1.5}\delta^{-0.5})$の新しい複雑さを実現することができる。 また, 確率的, 決定論的両設定において, 定常点$$\epsilon$のスムーズな2次スムーズな目標を求めるために, 最適あるいは最もよく知られたすべての結果を復元する。

We present new algorithms for optimizing non-smooth, non-convex stochastic objectives based on a novel analysis technique. This improves the current best-known complexity for finding a $(\delta,\epsilon)$-stationary point from $O(\epsilon^{-4}\delta^{-1})$ stochastic gradient queries to $O(\epsilon^{-3}\delta^{-1})$, which we also show to be optimal. Our primary technique is a reduction from non-smooth non-convex optimization to online learning, after which our results follow from standard regret bounds in online learning. For deterministic and second-order smooth objectives, applying more advanced optimistic online learning techniques enables a new complexity of $O(\epsilon^{-1.5}\delta^{-0.5})$. Our techniques also recover all optimal or best-known results for finding $\epsilon$ stationary points of smooth or second-order smooth objectives in both stochastic and deterministic settings.
翻訳日:2023-02-09 17:59:59 公開日:2023-02-07
# aiとコア選挙プロセス:地平線をマッピングする

AI and Core Electoral Processes: Mapping the Horizons ( http://arxiv.org/abs/2302.03774v1 )

ライセンス: Link先を確認
Deepak P, Stanley Simoes, Muiris MacCarthaigh(参考訳) aiの普及に関する大きな熱意は、世界中の社会で目撃されている。 民主国家内での選挙の時間、場所、方法といった選挙プロセスは、AIがあまり浸透していない非常に稀な分野のひとつだ。 多くの国の選挙管理機関は、選挙プロセスにおけるAIの使用について調査し、検討し始めている。 本稿では,AI活用の可能性を持つ中核選挙プロセスにおける5つの代表的な道について考察し,その内におけるAI利用に関わる課題をマップする。 投票者リストのメンテナンス、投票ブースの場所の決定、投票ブースの保護プロセス、投票者認証、選挙のビデオ監視である。 それぞれの道の中で、状況を説明し、AIの現在または潜在的使用について説明し、AI使用の現在または潜在的影響と、AI使用を考慮したリスク軽減のための潜在的方向について論じます。 私たちは、選挙プロセスにおけるAIの最新の使用が、リアルで広範なAIデプロイメントの前に、リスクと緩和可能性について慎重に考えることができる非常に稀な機会を提供すると信じています。 本稿では、選挙プロセスにおけるAIの利用におけるリスクと機会の地平をマッピングし、そのトピックに関する議論を形作る試みである。

Significant enthusiasm around AI uptake has been witnessed across societies globally. The electoral process -- the time, place and manner of elections within democratic nations -- has been among those very rare sectors in which AI has not penetrated much. Electoral management bodies in many countries have recently started exploring and deliberating over the use of AI in the electoral process. In this paper, we consider five representative avenues within the core electoral process which have potential for AI usage, and map the challenges involved in using AI within them. These five avenues are: voter list maintenance, determining polling booth locations, polling booth protection processes, voter authentication and video monitoring of elections. Within each of these avenues, we lay down the context, illustrate current or potential usage of AI, and discuss extant or potential ramifications of AI usage, and potential directions for mitigating risks while considering AI usage. We believe that the scant current usage of AI within electoral processes provides a very rare opportunity, that of being able to deliberate on the risks and mitigation possibilities, prior to real and widespread AI deployment. This paper is an attempt to map the horizons of risks and opportunities in using AI within the electoral processes and to help shape the debate around the topic.
翻訳日:2023-02-09 17:59:34 公開日:2023-02-07
# 生成言語モデルの構造化プルーニングで何が重要か?

What Matters In The Structured Pruning of Generative Language Models? ( http://arxiv.org/abs/2302.03773v1 )

ライセンス: Link先を確認
Michael Santacroce, Zixin Wen, Yelong Shen, Yuanzhi Li(参考訳) GPT-3のような自動回帰型大規模言語モデルは膨大な計算資源を必要とする。 伝統的に、構造的な刈り取りはリソースの使用を減らすために用いられる。 しかし、生成言語モデルに対するそれらの適用と有効性は、十分に検討されていない。 本稿では, GPT型モデルにおいて, フィードフォワード層上の大きさ, ランダム, 動きプルーニングを含む, 共通構造化プルーニング手法の包括的評価を行う。 予想外のランダムプルーニングは、複数の自然言語生成タスクにおいて、最高の確立されたメソッドに匹敵するパフォーマンスをもたらす。 これらの結果を理解するために, 異なる手法で刈り取られたモデルのニューロンレベルの冗長性を測定するための枠組みを提案し, 確立された構造的刈り取り法は, 神経細胞の識別性を考慮せず, 過剰な冗長性を残していることを見出した。 そこで我々はGUM (Globally Unique Movement) を導入し, プルーニングモデルにおけるニューロンの特異性を改善する。 次に、性能改善を説明するために、さまざまな冗長性指標に対する技術の影響について論じる。

Auto-regressive large language models such as GPT-3 require enormous computational resources to use. Traditionally, structured pruning methods are employed to reduce resource usage. However, their application to and efficacy for generative language models is heavily under-explored. In this paper we conduct an comprehensive evaluation of common structured pruning methods, including magnitude, random, and movement pruning on the feed-forward layers in GPT-type models. Unexpectedly, random pruning results in performance that is comparable to the best established methods, across multiple natural language generation tasks. To understand these results, we provide a framework for measuring neuron-level redundancy of models pruned by different methods, and discover that established structured pruning methods do not take into account the distinctiveness of neurons, leaving behind excess redundancies. In view of this, we introduce Globally Unique Movement (GUM) to improve the uniqueness of neurons in pruned models. We then discuss the effects of our techniques on different redundancy metrics to explain the improved performance.
翻訳日:2023-02-09 17:59:14 公開日:2023-02-07
# 汎用関数近似と単一ポリシー集中性を用いたオフライン目標条件強化学習

Provably Efficient Offline Goal-Conditioned Reinforcement Learning with General Function Approximation and Single-Policy Concentrability ( http://arxiv.org/abs/2302.03770v1 )

ライセンス: Link先を確認
Hanlin Zhu, Amy Zhang(参考訳) ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。 特にオフラインのGCRLは、環境と追加のインタラクションなしでトレーニングタスクを実行するために、純粋にコンパイル済みのデータセットのみを必要とする。 オフラインGCRLはますます普及し、多くの先行研究がその実証的な成功を示しているが、効率的なオフラインGCRLアルゴリズムの理論的理解は、特に状態空間が巨大でオフラインデータセットが私たちが学ぼうとしているポリシーのみをカバーする場合、十分に確立されていない。 本稿では,より効率的なアルゴリズムを提案する(サンプル複雑性は$\tilde{o}({\rm poly}(1/\epsilon))$であり,ここで$\epsilon$は学習方針の望ましい部分最適性である)。 我々のアルゴリズムは、データセット(single-policy concentrability)と関数クラス(realizability)の仮定をほとんど必要としない。 さらに,本アルゴリズムは2つの非インターリーブ最適化ステップで構成されており,このステップは$V$学習とポリシー学習と呼ばれ,ミニマックス最適化を伴わないため,計算的に安定である。 我々の知る限り、これは一般関数近似と単一政治集中性を持つ最初のアルゴリズムであり、統計的に効率的かつ計算的に安定である。

Goal-conditioned reinforcement learning (GCRL) refers to learning general-purpose skills which aim to reach diverse goals. In particular, offline GCRL only requires purely pre-collected datasets to perform training tasks without additional interactions with the environment. Although offline GCRL has become increasingly prevalent and many previous works have demonstrated its empirical success, the theoretical understanding of efficient offline GCRL algorithms is not well established, especially when the state space is huge and the offline dataset only covers the policy we aim to learn. In this paper, we propose a novel provably efficient algorithm (the sample complexity is $\tilde{O}({\rm poly}(1/\epsilon))$ where $\epsilon$ is the desired suboptimality of the learned policy) with general function approximation. Our algorithm only requires nearly minimal assumptions of the dataset (single-policy concentrability) and the function class (realizability). Moreover, our algorithm consists of two uninterleaved optimization steps, which we refer to as $V$-learning and policy learning, and is computationally stable since it does not involve minimax optimization. To the best of our knowledge, this is the first algorithm with general function approximation and single-policy concentrability that is both statistically efficient and computationally stable.
翻訳日:2023-02-09 17:58:57 公開日:2023-02-07
# Q-Learningアルゴリズムでサイバーセキュリティのアドバイザリーを改善する

Catch Me If You Can: Improving Adversaries in Cyber-Security With Q-Learning Algorithms ( http://arxiv.org/abs/2302.03768v1 )

ライセンス: Link先を確認
Arti Bandhana, Ond\v{r}ej Luk\'a\v{s}, Sebastian Garcia and Tom\'a\v{s} Kroupa(参考訳) サイバー攻撃の継続的な増加と、これらの攻撃に対抗するサイバーセキュリティ分野の熟練したプロフェッショナルの欠如は、優れたパフォーマンスで攻撃を検知できる自動化ツールの必要性を示している。 攻撃者は動作を偽装し、複数のアクションからなる攻撃を起動するが、検出は困難である。 したがって、防御ツールの改善には、訓練された攻撃者に対するキャリブレーションが必要である。 本研究では,攻撃エージェントと環境のモデルを提案し,その性能をQ-Learning,Naive Q-learning,DoubleQ-Learningを用いて評価する。 攻撃エージェントは、ネットワーク内のすべてのホストが非ゼロ検出確率を持つデータを流出させる目的で訓練される。 その結果、doubleq-learningエージェントは、70\%$のインタラクションで目標を達成することで、全体的なパフォーマンスが最も良いことがわかった。

The ongoing rise in cyberattacks and the lack of skilled professionals in the cybersecurity domain to combat these attacks show the need for automated tools capable of detecting an attack with good performance. Attackers disguise their actions and launch attacks that consist of multiple actions, which are difficult to detect. Therefore, improving defensive tools requires their calibration against a well-trained attacker. In this work, we propose a model of an attacking agent and environment and evaluate its performance using basic Q-Learning, Naive Q-learning, and DoubleQ-Learning, all of which are variants of Q-Learning. The attacking agent is trained with the goal of exfiltrating data whereby all the hosts in the network have a non-zero detection probability. Results show that the DoubleQ-Learning agent has the best overall performance rate by successfully achieving the goal in $70\%$ of the interactions.
翻訳日:2023-02-09 17:58:31 公開日:2023-02-07
# 長期文書マッチングのためのトランスフォーマーモデル:課題と実証分析

Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis ( http://arxiv.org/abs/2302.03765v1 )

ライセンス: Link先を確認
Akshita Jha, Adithya Samavedhi, Vineeth Rakesh, Jaideep Chandrashekar, Chandan K. Reddy(参考訳) 長い文書マッチングの分野における最近の進歩は、主に、長い文書の符号化とマッチングにトランスフォーマーベースのモデルを使うことに焦点が当てられている。 これらのモデルには2つの主要な課題がある。 第一に、トランスフォーマーモデルによるパフォーマンス向上は、必要なトレーニング時間とリソース(メモリとエネルギー)消費の両方において、大きなコストで達成される。 2つ目の大きな制限は、事前に定義された入力トークン長を一度に扱えないことである。 本研究では、文書マッチングタスクにおけるトランスフォーマーモデルに対する単純なニューラルネットワーク(フィードフォワードネットワークやCNNなど)と単純な埋め込み(GloVeやParagraph Vectorなど)の有効性を実証的に実証する。 単純なモデルは、トレーニング時間、エネルギー、メモリを大幅に削減しながら、bertベースのより複雑なモデルよりも優れています。 単純なモデルは、文書の長さやテキストの摂動の変化に対してより堅牢である。

Recent advances in the area of long document matching have primarily focused on using transformer-based models for long document encoding and matching. There are two primary challenges associated with these models. Firstly, the performance gain provided by transformer-based models comes at a steep cost - both in terms of the required training time and the resource (memory and energy) consumption. The second major limitation is their inability to handle more than a pre-defined input token length at a time. In this work, we empirically demonstrate the effectiveness of simple neural models (such as feed-forward networks, and CNNs) and simple embeddings (like GloVe, and Paragraph Vector) over transformer-based models on the task of document matching. We show that simple models outperform the more complex BERT-based models while taking significantly less training time, energy, and memory. The simple models are also more robust to variations in document length and text perturbations.
翻訳日:2023-02-09 17:58:17 公開日:2023-02-07
# 比較フィードバックによる個人化多目的意思決定のためのユーザの嗜好の緩和

Eliciting User Preferences for Personalized Multi-Objective Decision Making through Comparative Feedback ( http://arxiv.org/abs/2302.03805v1 )

ライセンス: Link先を確認
Han Shao, Lee Cohen, Avrim Blum, Yishay Mansour, Aadirupa Saha, Matthew R. Walter(参考訳) 古典的な強化学習(rl)と意思決定問題では、政策はスカラー報酬関数に関して評価され、すべての最適方針は期待されたリターンに関して同じである。 しかし、現実の多くの問題は、複数の、時には矛盾する、相対的な優先順位が各ユーザの好みによって異なる目的のバランスをとることである。 したがって、あるユーザにとって最適なポリシーは、別のユーザにとって最適であるかもしれない。 そこで本研究では,目的に対して異なるユーザ嗜好を許容する多目的意思決定フレームワークを提案する。 このモデルは,ベクトル値の報酬関数を持つマルコフ決定プロセスと,目的の相対的重要性を表す未知の選好ベクトルを持つユーザから構成される。 ゴールは、あるユーザーの最適に近いポリシーを効率的に計算することである。 ユーザフィードバックモデルを2つ検討する。 まず、ユーザが2つのポリシーを提供し、望ましいポリシーをフィードバックとして返す場合に対処します。 その後、異なるユーザーフィードバックモデルに移行し、ユーザは代わりに2つの小さな重み付けされた代表軌跡セットを提供し、望ましいものを選択する。 いずれの場合においても,少数の比較クエリを用いてユーザに対して,ほぼ最適なポリシを求めるアルゴリズムを提案する。

In classic reinforcement learning (RL) and decision making problems, policies are evaluated with respect to a scalar reward function, and all optimal policies are the same with regards to their expected return. However, many real-world problems involve balancing multiple, sometimes conflicting, objectives whose relative priority will vary according to the preferences of each user. Consequently, a policy that is optimal for one user might be sub-optimal for another. In this work, we propose a multi-objective decision making framework that accommodates different user preferences over objectives, where preferences are learned via policy comparisons. Our model consists of a Markov decision process with a vector-valued reward function, with each user having an unknown preference vector that expresses the relative importance of each objective. The goal is to efficiently compute a near-optimal policy for a given user. We consider two user feedback models. We first address the case where a user is provided with two policies and returns their preferred policy as feedback. We then move to a different user feedback model, where a user is instead provided with two small weighted sets of representative trajectories and selects the preferred one. In both cases, we suggest an algorithm that finds a nearly optimal policy for the user using a small number of comparison queries.
翻訳日:2023-02-09 17:51:46 公開日:2023-02-07
# 過去と未来 : マルチカメラ3dマルチオブジェクトトラッキングのための時空間モデリング

Standing Between Past and Future: Spatio-Temporal Modeling for Multi-Camera 3D Multi-Object Tracking ( http://arxiv.org/abs/2302.03802v1 )

ライセンス: Link先を確認
Ziqi Pang, Jie Li, Pavel Tokmakov, Dian Chen, Sergey Zagoruyko, Yu-Xiong Wang(参考訳) 本研究では,エンドツーエンドのマルチカメラ3Dマルチオブジェクトトラッキング(MOT)フレームワークを提案する。 時空間連続性を強調し、追跡対象の過去と将来の推論を統合する。 そこで我々はこれを"Past-and-Future reasoning for Tracking"(PF-Track)と呼ぶ。 具体的には、「注目による追跡」フレームワークに適応し、オブジェクトクエリと時間とともに追跡されたインスタンスを一貫性を持って表現する。 私たちの"Past Reasoning"モジュールは、過去のフレームや他のオブジェクトからのクエリにクロスアタッチすることで、トラックを洗練し、オブジェクトの機能を強化することを学びました。 future reasoning"モジュールは、履歴情報を取り込み、堅牢な将来の軌跡を予測する。 長期閉塞の場合,本手法は物体の位置を維持し,動き予測を統合することで再連想を可能にする。 nuScenes データセットでは,AMOTA のマージンが大きく向上し,従来の手法に比べて ID-Switch が90%削減された。 コードとモデルはhttps://github.com/tri-ml/pf-trackで入手できる。

This work proposes an end-to-end multi-camera 3D multi-object tracking (MOT) framework. It emphasizes spatio-temporal continuity and integrates both past and future reasoning for tracked objects. Thus, we name it "Past-and-Future reasoning for Tracking" (PF-Track). Specifically, our method adapts the "tracking by attention" framework and represents tracked instances coherently over time with object queries. To explicitly use historical cues, our "Past Reasoning" module learns to refine the tracks and enhance the object features by cross-attending to queries from previous frames and other objects. The "Future Reasoning" module digests historical information and predicts robust future trajectories. In the case of long-term occlusions, our method maintains the object positions and enables re-association by integrating motion predictions. On the nuScenes dataset, our method improves AMOTA by a large margin and remarkably reduces ID-Switches by 90% compared to prior approaches, which is an order of magnitude less. The code and models are made available at https://github.com/TRI-ML/PF-Track.
翻訳日:2023-02-09 17:51:25 公開日:2023-02-07
# MACOptions: 集中型コントローラとオプションフレームワークによるマルチエージェント学習

MACOptions: Multi-Agent Learning with Centralized Controller and Options Framework ( http://arxiv.org/abs/2302.03800v1 )

ライセンス: Link先を確認
Alakh Aggarwal, Rishita Bansal, Parth Padalkar, Sriraam Natarajan(参考訳) 最近の自動化はどこでも適用されています。 あらゆる環境において、エージェントによって取られるアクションの計画が重要な側面である。 本稿では,集中型コントローラを用いたマルチエージェントの計画実装を計画する。 ランダムポリシー、Qラーニング、オプションフレームワークによるQラーニングの3つのアプローチを比較した。 また,プランナーによるQ-Learningとプランナーによる性能比較を行い,プランナーを使わずにプランナーの有効性を示す。

These days automation is being applied everywhere. In every environment, planning for the actions to be taken by the agents is an important aspect. In this paper, we plan to implement planning for multi-agents with a centralized controller. We compare three approaches: random policy, Q-learning, and Q-learning with Options Framework. We also show the effectiveness of planners by showing performance comparison between Q-Learning with Planner and without Planner.
翻訳日:2023-02-09 17:51:09 公開日:2023-02-07
# 長期ロボットインタラクションによる自己教師なしオブジェクトインスタンスセグメンテーション

Self-Supervised Unseen Object Instance Segmentation via Long-Term Robot Interaction ( http://arxiv.org/abs/2302.03793v1 )

ライセンス: Link先を確認
Yangxiao Lu, Ninad Khargonkar, Zesheng Xu, Charles Averill, Kamalesh Palanisamy, Kaiyu Hang, Yunhui Guo, Nicholas Ruozzi, Yu Xiang(参考訳) 本研究では,オブジェクトとの長期的なインタラクションを活用することで,オブジェクトのインスタンス分割を現実の世界で改善するための新しいロボットシステムを提案する。 従来のアプローチでは、オブジェクトをつかむか、押すかのいずれかで、ひとつのアクションの後、つかむか押されるオブジェクトのセグメンテーションマスクを取得する。 我々のシステムは、ロボットのプッシュアクションの連続の後、オブジェクトをセグメント化する決定に反する。 ロボットプッシュで収集した画像に多目的追跡とビデオオブジェクトのセグメンテーションを適用することで,これらの画像中の全オブジェクトのセグメンテーションマスクを自己管理的に生成することができる。 これらは、オブジェクトが互いに非常に近い画像を含み、セグメンテーションエラーは通常、既存のオブジェクトセグメンテーションネットワークでこれらの画像に発生する。 本システムで収集した実世界データを用いた合成データに基づく微調整セグメンテーションネットワークにより,本システムの有用性を実証する。 その結果,ネットワークの分割精度は,同一領域と異なる領域の両方において著しく向上することがわかった。 さらに,ネットワークの微調整により,ロボットによる実世界の物体把握が改善されることを検証した。

We introduce a novel robotic system for improving unseen object instance segmentation in the real world by leveraging long-term robot interaction with objects. Previous approaches either grasp or push an object and then obtain the segmentation mask of the grasped or pushed object after one action. Instead, our system defers the decision on segmenting objects after a sequence of robot pushing actions. By applying multi-object tracking and video object segmentation on the images collected via robot pushing, our system can generate segmentation masks of all the objects in these images in a self-supervised way. These include images where objects are very close to each other, and segmentation errors usually occur on these images for existing object segmentation networks. We demonstrate the usefulness of our system by fine-tuning segmentation networks trained on synthetic data with real-world data collected by our system. We show that, after fine-tuning, the segmentation accuracy of the networks is significantly improved both in the same domain and across different domains. In addition, we verify that the fine-tuned networks improve top-down robotic grasping of unseen objects in the real world.
翻訳日:2023-02-09 17:51:03 公開日:2023-02-07
# 情報理論拡散

Information-Theoretic Diffusion ( http://arxiv.org/abs/2302.03792v1 )

ライセンス: Link先を確認
Xianghao Kong, Rob Brekelmans, Greg Ver Steeg(参考訳) 雑音拡散モデルによって密度モデリングと画像生成が大幅に向上し、テキスト誘導aiアート生成における産業革命がもたらされた。 本稿では,情報理論における古典的結果に触発された拡散モデルに対する新しい数学的基礎を導入し,情報と最小平均二乗誤差回帰(i-mmse関係)を結びつける。 我々は,i-mmse関係を一般化し,データ分布を最適な分別回帰問題に正確に関連付けることにより,既存の拡散境界を優雅に洗練する。 この新たな洞察は、拡散モデル変換の理論的正当化を含む、確率分布推定のいくつかの改善をもたらす。 驚くべきことに、このフレームワークは、連続的および離散的確率が同じ回帰目標でどのように学習できるかを示し、変分法で使われるドメイン固有生成モデルを避ける。 実験を再現するコードはhttp://github.com/kxh001/ITdiffusionで提供される。

Denoising diffusion models have spurred significant gains in density modeling and image generation, precipitating an industrial revolution in text-guided AI art generation. We introduce a new mathematical foundation for diffusion models inspired by classic results in information theory that connect Information with Minimum Mean Square Error regression, the so-called I-MMSE relations. We generalize the I-MMSE relations to exactly relate the data distribution to an optimal denoising regression problem, leading to an elegant refinement of existing diffusion bounds. This new insight leads to several improvements for probability distribution estimation, including theoretical justification for diffusion model ensembling. Remarkably, our framework shows how continuous and discrete probabilities can be learned with the same regression objective, avoiding domain-specific generative models used in variational methods. Code to reproduce experiments is provided at http://github.com/kxh001/ITdiffusion and simplified demonstration code is at http://github.com/gregversteeg/InfoDiffusionSimple.
翻訳日:2023-02-09 17:50:44 公開日:2023-02-07
# 拡散モデルをどのように信頼するか:共形リスク制御への凸最適化アプローチ

How to Trust Your Diffusion Model: A Convex Optimization Approach to Conformal Risk Control ( http://arxiv.org/abs/2302.03791v1 )

ライセンス: Link先を確認
Jacopo Teneggi, Matt Tivnan, J Webster Stayman, Jeremias Sulam(参考訳) スコアベースの生成モデリングは、非公式に拡散モデルと呼ばれ、いくつかの重要なドメインやタスクで人気を高め続けている。 実験的な分布から高品質で多様なサンプルを提供する一方で、重要なシナリオにおけるこれらのサンプリング手順の信頼性と信頼性について重要な疑問が残る。 コンフォーマル予測は、ブラックボックス予測器に対して有限サンプルで分布のない不確実性を保証するための現代的なツールである。 本研究では、画像から画像への回帰タスクに焦点をあて、リスク制御予測セット(RCPS)の手順を一般化し、$K$-RCPSと呼ぶ。 (i)$は、任意の拡散モデルの将来のサンプルについてエントリーワイドな調整間隔を提供し、$ (ii)最小平均間隔の基底真理像に対するリスクの特定の概念を$に制御する。 既存の共形リスク制御手法と異なり,提案手法は平均区間長を最小化しつつ,多次元リスク制御を可能にする新しい凸最適化手法に依存している。 本研究は, 顔の自然画像と腹部のctスキャンの2つの実世界の画像特徴量問題に対するアプローチについて紹介する。

Score-based generative modeling, informally referred to as diffusion models, continue to grow in popularity across several important domains and tasks. While they provide high-quality and diverse samples from empirical distributions, important questions remain on the reliability and trustworthiness of these sampling procedures for their responsible use in critical scenarios. Conformal prediction is a modern tool to construct finite-sample, distribution-free uncertainty guarantees for any black-box predictor. In this work, we focus on image-to-image regression tasks and we present a generalization of the Risk-Controlling Prediction Sets (RCPS) procedure, that we term $K$-RCPS, which allows to $(i)$ provide entrywise calibrated intervals for future samples of any diffusion model, and $(ii)$ control a certain notion of risk with respect to a ground truth image with minimal mean interval length. Differently from existing conformal risk control procedures, ours relies on a novel convex optimization approach that allows for multidimensional risk control while provably minimizing the mean interval length. We illustrate our approach on two real-world image denoising problems: on natural images of faces as well as on computed tomography (CT) scans of the abdomen, demonstrating state of the art performance.
翻訳日:2023-02-09 17:50:24 公開日:2023-02-07
# GraphGUIDE:離散ベルヌーイ拡散を用いた解釈可能かつ制御可能な条件グラフ生成

GraphGUIDE: interpretable and controllable conditional graph generation with discrete Bernoulli diffusion ( http://arxiv.org/abs/2302.03790v1 )

ライセンス: Link先を確認
Alex M. Tseng, Nathaniel Diamant, Tommaso Biancalani, Gabriele Scalia(参考訳) 拡散モデルは、現実的なオブジェクトを生成する際に最先端のパフォーマンスを達成し、画像、テキスト、ビデオにうまく適用されている。 近年の研究は、薬物様分子のグラフ表現を含むグラフ上で拡散も定義できることを示した。 残念ながら、解釈可能かつ制御可能な方法でグラフ上で条件生成を行うのは難しい。 本研究では,拡散モデルを用いたグラフ生成のための新しいフレームワークであるGraphGUIDEを提案する。 いくつかのグラフデータセット上でGraphGUIDEを実証し、事前に定義されたラベルに頼ることなく任意の構造特性の条件付き生成を完全に制御できることを示す。 グラフ拡散の枠組みは, 実験的な証拠から示唆されるような, 望ましい性質を持つ薬物様分子の生成を含む, グラフの解釈可能な条件生成に大きな影響を与える。

Diffusion models achieve state-of-the-art performance in generating realistic objects and have been successfully applied to images, text, and videos. Recent work has shown that diffusion can also be defined on graphs, including graph representations of drug-like molecules. Unfortunately, it remains difficult to perform conditional generation on graphs in a way which is interpretable and controllable. In this work, we propose GraphGUIDE, a novel framework for graph generation using diffusion models, where edges in the graph are flipped or set at each discrete time step. We demonstrate GraphGUIDE on several graph datasets, and show that it enables full control over the conditional generation of arbitrary structural properties without relying on predefined labels. Our framework for graph diffusion can have a large impact on the interpretable conditional generation of graphs, including the generation of drug-like molecules with desired properties in a way which is informed by experimental evidence.
翻訳日:2023-02-09 17:50:04 公開日:2023-02-07
# インクリメンタル自律探査のための層状状態発見

Layered State Discovery for Incremental Autonomous Exploration ( http://arxiv.org/abs/2302.03789v1 )

ライセンス: Link先を確認
Liyu Chen, Andrea Tirinzoni, Alessandro Lazaric, Matteo Pirotta(参考訳) lim & auer (2012) が提案した自律探査 (ax) 問題について検討した。 この設定では、$\epsilon$-Optimal Policy がセット $\mathcal{S}_L^{\rightarrow}$ に到達し、段階的に$L$-制御可能な状態を見つけることが目的である。 本稿では,状態拡張演算子の反復的適用に基づく,漸進的に$L$制御可能な状態集合の階層分解を導入する。 We leverage these results to design Layered Autonomous Exploration (LAE), a novel algorithm for AX that attains a sample complexity of $\tilde{\mathcal{O}}(LS^{\rightarrow}_{L(1+\epsilon)}\Gamma_{L(1+\epsilon)} A \ln^{12}(S^{\rightarrow}_{L(1+\epsilon)})/\epsilon^2)$, where $S^{\rightarrow}_{L(1+\epsilon)}$ is the number of states that are incrementally $L(1+\epsilon)$-controllable, $A$ is the number of actions, and $\Gamma_{L(1+\epsilon)}$ is the branching factor of the transitions over such states. LAEはTarbouriech et al. (2020a)のアルゴリズムを$L^2$の係数で改善し、数え切れない無限の状態空間で動作するAXの最初のアルゴリズムである。 さらに、ある識別可能性仮定の下で、LAE は $\tilde{\mathcal{O}}(LS^{\rightarrow}_{L}A\ln^{12}(S^{\rightarrow}_{L})/\epsilon^2)$ の最小値-最適サンプル複雑性を達成し、既存のアルゴリズムを上回り、Cai et al. (2022) によって証明された下界が対数因子まで初めて一致することを示す。

We study the autonomous exploration (AX) problem proposed by Lim & Auer (2012). In this setting, the objective is to discover a set of $\epsilon$-optimal policies reaching a set $\mathcal{S}_L^{\rightarrow}$ of incrementally $L$-controllable states. We introduce a novel layered decomposition of the set of incrementally $L$-controllable states that is based on the iterative application of a state-expansion operator. We leverage these results to design Layered Autonomous Exploration (LAE), a novel algorithm for AX that attains a sample complexity of $\tilde{\mathcal{O}}(LS^{\rightarrow}_{L(1+\epsilon)}\Gamma_{L(1+\epsilon)} A \ln^{12}(S^{\rightarrow}_{L(1+\epsilon)})/\epsilon^2)$, where $S^{\rightarrow}_{L(1+\epsilon)}$ is the number of states that are incrementally $L(1+\epsilon)$-controllable, $A$ is the number of actions, and $\Gamma_{L(1+\epsilon)}$ is the branching factor of the transitions over such states. LAE improves over the algorithm of Tarbouriech et al. (2020a) by a factor of $L^2$ and it is the first algorithm for AX that works in a countably-infinite state space. Moreover, we show that, under a certain identifiability assumption, LAE achieves minimax-optimal sample complexity of $\tilde{\mathcal{O}}(LS^{\rightarrow}_{L}A\ln^{12}(S^{\rightarrow}_{L})/\epsilon^2)$, outperforming existing algorithms and matching for the first time the lower bound proved by Cai et al. (2022) up to logarithmic factors.
翻訳日:2023-02-09 17:49:49 公開日:2023-02-07
# ZipLM: 言語モデルのハードウェア対応構造化プルーニング

ZipLM: Hardware-Aware Structured Pruning of Language Models ( http://arxiv.org/abs/2302.04089v1 )

ライセンス: Link先を確認
Eldar Kurtic, Elias Frantar, Dan Alistarh(参考訳) 大規模言語モデル(LLM)のブレークスルー性能には、大きな計算フットプリントと高いデプロイメントコストが伴う。 本稿では, ある対象ハードウェア上で(達成可能な)目標速度のセットに一致することを保証しつつ, 最先端の圧縮-vs-精度結果を提供するZipLMという, LLMの新たな構造化圧縮手法を提案することで,この問題を解決する。 具体的には、タスク、モデル、推論環境、およびスピードアップターゲットのセットが与えられた場合、ZipLMはモデルの重み行列の反復的構造的縮小を通じてモデルの冗長性を識別し、除去する。 重要なことに、ziplmはトレーニング後/ワンショットと段階的な圧縮設定の両方で動作し、単一の実行で正確なモデルセットを生成し、実際に高い効率を実現します。 提案手法は,新規な構造化プルーニング法と知識蒸留法に基づいており,BERTモデルとGPTモデルを用いた実験において,精度逆高速化の観点から先行構造化圧縮法を一貫して上回っている。 特に、GPT2モデルを圧縮する場合は、 DistilGPT2よりも60%小さく30%高速である。 さらに、ZipLMは、高度に最適化されたMobileBERTモデルの性能と一致し、ベースラインのBERT-largeアーキテクチャを刈り取るだけで、CoFi、MiniLM、TinyBERTといった従来のBERTベース圧縮技術よりも優れている。

The breakthrough performance of large language models (LLMs) comes with large computational footprints and high deployment costs. In this paper, we progress towards resolving this problem by proposing a new structured compression approach for LLMs, called ZipLM, which provides state-of-the-art compression-vs-accuracy results, while guaranteeing to match a set of (achievable) target speedups on any given target hardware. Specifically, given a task, a model, an inference environment, as well as a set of speedup targets, ZipLM identifies and removes redundancies in the model through iterative structured shrinking of the model's weight matrices. Importantly, ZipLM works in both, the post-training/one-shot and the gradual compression setting, where it produces a set of accurate models in a single run, making it highly-efficient in practice. Our approach is based on new structured pruning and knowledge distillation techniques, and consistently outperforms prior structured compression methods in terms of accuracy-versus-speedup in experiments on BERT- and GPT-family models. In particular, when compressing GPT2 model, it outperforms DistilGPT2 while being 60% smaller and 30% faster. Further, ZipLM matches performance of heavily optimized MobileBERT model, obtained via extensive architecture search, by simply pruning the baseline BERT-large architecture, and outperforms all prior BERT-base compression techniques like CoFi, MiniLM and TinyBERT.
翻訳日:2023-02-09 16:12:33 公開日:2023-02-07
# FFHR:知識グラフ補完のための完全かつ柔軟な双曲表現

FFHR: Fully and Flexible Hyperbolic Representation for Knowledge Graph Completion ( http://arxiv.org/abs/2302.04088v1 )

ライセンス: Link先を確認
Wentao Shi, Junkang Wu, Xuezhi Cao, Jiawei Chen, Wenqiang Lei, Wei Wu and Xiangnan He(参考訳) 知識グラフ(KG)に対する双曲的埋め込みの学習は,階層の獲得における優位性から注目されている。 しかし、双曲空間におけるいくつかの重要な操作はまだ良い定義が欠けているため、既存の手法では双曲空間の利点を十分に活用できない。 具体的には2つの大きな制限があります 1) 双曲空間における既存のグラフ畳み込みネットワーク(GCN)法は,表現学習において近似誤差が発生するような接空間近似に依存している。 2) 双曲空間における内積演算定義の欠如により, 既存の手法は, 複雑なデータパターンを捉えるのが難しい, 双曲距離を持つ事実(リンク)の妥当性を測ることしかできない。 この研究で、私たちは次のように貢献します。 1) 双曲空間におけるグラフ情報の伝播を近似を必要とせずに達成する完全ポアンカー\'{e} 多関係GCN 2) ユークリッド内積の双曲的一般化は、階層的パターンと複素パターンの両方を取り込むのに有用である。 そこで我々はさらに,最近のユークリッドベースの進歩を双曲空間に移すことのできる, \textbf{f}ully および \textbf{f}lexible \textbf{h}yperbolic \textbf{r}epresentation framework (\textbf{ffhr}) の開発を行った。 FFHRを4つの代表的KGC手法でインスタンス化する。 ベンチマークデータセットに関する広範な実験は、euclideanや最先端の双曲埋め込みメソッドよりもffhrが優れていることを検証します。

Learning hyperbolic embeddings for knowledge graph (KG) has gained increasing attention due to its superiority in capturing hierarchies. However, some important operations in hyperbolic space still lack good definitions, making existing methods unable to fully leverage the merits of hyperbolic space. Specifically, they suffer from two main limitations: 1) existing Graph Convolutional Network (GCN) methods in hyperbolic space rely on tangent space approximation, which would incur approximation error in representation learning, and 2) due to the lack of inner product operation definition in hyperbolic space, existing methods can only measure the plausibility of facts (links) with hyperbolic distance, which is difficult to capture complex data patterns. In this work, we contribute: 1) a Full Poincar\'{e} Multi-relational GCN that achieves graph information propagation in hyperbolic space without requiring any approximation, and 2) a hyperbolic generalization of Euclidean inner product that is beneficial to capture both hierarchical and complex patterns. On this basis, we further develop a \textbf{F}ully and \textbf{F}lexible \textbf{H}yperbolic \textbf{R}epresentation framework (\textbf{FFHR}) that is able to transfer recent Euclidean-based advances to hyperbolic space. We demonstrate it by instantiating FFHR with four representative KGC methods. Extensive experiments on benchmark datasets validate the superiority of our FFHRs over their Euclidean counterparts as well as state-of-the-art hyperbolic embedding methods.
翻訳日:2023-02-09 16:12:05 公開日:2023-02-07
# trigramsによる実単語誤り訂正:文中の複数の誤りの訂正

Real-Word Error Correction with Trigrams: Correcting Multiple Errors in a Sentence ( http://arxiv.org/abs/2302.04096v1 )

ライセンス: Link先を確認
Seyed MohammadSadegh Dashti(参考訳) スペル補正はテキストマイニングの基本課題である。 本研究では,mays,damerau,mercerが提案した実単語誤り訂正モデルを評価し,モデルの欠点について述べる。 本稿では,確率的文脈自由文法(PCFG)を演算することで,文中の複数単語の誤りを検出し,修正することに焦点を当てた新しいバリエーションを提案する。 我々はこのアプローチをwall street journalのコーパスでテストし、hirst と budanitsky の wordnet ベースのメソッドや wilcox-o'hearn, hirst, および budanitsky の固定ウィンドウサイズメソッドよりも優れていることを示した。 -o'hearn、hirst、budanitskyの固定ウィンドウサイズメソッド。

Spelling correction is a fundamental task in Text Mining. In this study, we assess the real-word error correction model proposed by Mays, Damerau and Mercer and describe several drawbacks of the model. We propose a new variation which focuses on detecting and correcting multiple real-word errors in a sentence, by manipulating a Probabilistic Context-Free Grammar (PCFG) to discriminate between items in the search space. We test our approach on the Wall Street Journal corpus and show that it outperforms Hirst and Budanitsky's WordNet-based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows size method.-O'Hearn, Hirst, and Budanitsky's fixed windows size method.
翻訳日:2023-02-09 16:00:37 公開日:2023-02-07
# 同時音楽生成と分離のためのマルチソース拡散モデル

Multi-Source Diffusion Models for Simultaneous Music Generation and Separation ( http://arxiv.org/abs/2302.02257v2 )

ライセンス: Link先を確認
Giorgio Mariani, Irene Tallini, Emilian Postolache, Michele Mancusi, Luca Cosmo, Emanuele Rodol\`a(参考訳) 本研究では、文脈を共有するソースの結合確率密度のスコアを学習することにより、音楽合成と音源分離の両方が可能な拡散ベース生成モデルを定義する。 古典的総推論タスク(例えば、混合を生成し、ソースを分離する)と並行して、ソースインプテーションの部分的推論タスクを紹介し、実験を行い、他のソースのサブセットを生成する(例えば、ドラムとうまく連携するピアノトラックを弾く)。 さらに,分離タスクに対する新たな推論手法を提案する。 我々は、音源分離のための標準データセットであるslakh2100でモデルをトレーニングし、生成環境における質的結果を提供し、分離設定における競争的定量的結果を示す。 本手法は,生成と分離の両方を処理可能な単一モデルの最初の例である。

In this work, we define a diffusion-based generative model capable of both music synthesis and source separation by learning the score of the joint probability density of sources sharing a context. Alongside the classic total inference tasks (i.e. generating a mixture, separating the sources), we also introduce and experiment on the partial inference task of source imputation, where we generate a subset of the sources given the others (e.g., play a piano track that goes well with the drums). Additionally, we introduce a novel inference method for the separation task. We train our model on Slakh2100, a standard dataset for musical source separation, provide qualitative results in the generation settings, and showcase competitive quantitative results in the separation setting. Our method is the first example of a single model that can handle both generation and separation tasks, thus representing a step toward general audio models.
翻訳日:2023-02-09 12:20:39 公開日:2023-02-07
# 創発的因果性と意識の基礎

Emergent Causality & the Foundation of Consciousness ( http://arxiv.org/abs/2302.03189v1 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) 対話的な環境で正確な推論を行うためには、エージェントはイベントの受動的観察とそれらのイベントの発生を混同してはならない。 doオペレータは、その効果を判断できるように介入を形式化します。 しかし、対話的な環境では、少なくとも2つのパレート最適数学的形式論(pareto optimal mathematical formalisms of general intelligence)が存在する。 我々はそのような形式主義を一つ検討する。 オペレーターがいなければ、介入は変数で表現できることを示す。 さらに、前もって介入を明示的に表現する必要性は、抽象化を前提とするためだけに生じます。 上記の形式主義は、これを避けるため、初期条件は、誘導を通じて関連する因果的介入の表現が現れる。 これらの創発的抽象化は、自己と他のオブジェクトの表現として機能し、それらのオブジェクトの介入が目標の満足度に影響を与えると判断される。 我々は(心の理論を参考に)、これはいかにして自分のアイデンティティや意図、他人のもの、他人が認識しているような自分自身について理にかなっているかを説明するものであると論じている。 狭義では、それは何を知るべきかを記述し、意識の側面の機械的な説明である。

To make accurate inferences in an interactive setting, an agent must not confuse passive observation of events with having participated in causing those events. The do operator formalises interventions so that we may reason about their effect. Yet there exist at least two pareto optimal mathematical formalisms of general intelligence in an interactive setting which, presupposing no explicit representation of intervention, make maximally accurate inferences. We examine one such formalism. We show that in the absence of an operator, an intervention can still be represented by a variable. Furthermore, the need to explicitly represent interventions in advance arises only because we presuppose abstractions. The aforementioned formalism avoids this and so, initial conditions permitting, representations of relevant causal interventions will emerge through induction. These emergent abstractions function as representations of one`s self and of any other object, inasmuch as the interventions of those objects impact the satisfaction of goals. We argue (with reference to theory of mind) that this explains how one might reason about one`s own identity and intent, those of others, of one's own as perceived by others and so on. In a narrow sense this describes what it is to be aware, and is a mechanistic explanation of aspects of consciousness.
翻訳日:2023-02-08 17:56:15 公開日:2023-02-07
# マスキング言語モデリングによるトピックフレーミングのキャプチャ

Capturing Topic Framing via Masked Language Modeling ( http://arxiv.org/abs/2302.03183v1 )

ライセンス: Link先を確認
Xiaobo Guo, Weicheng Ma, and Soroush Vosoughi(参考訳) 問題の微分フレーミングは、重要な問題に対する世界観の多様化につながる可能性がある。 これは、提示された情報が伝統的なソーシャルメディアなど、大勢の聴衆に届く領域において特に当てはまる。 このような微分フレーミングのスケーラブルで信頼性の高い測定は、それらに取り組むための重要な第一歩である。 本稿では,文字言語のトーンと単語選択にフラーミングが影響を及ぼすという直観に基づいて,lms (large-scale fine-tuned language model) によるマスキングトークン予測を通じて問題の微分フレーミングをモデル化する枠組みを提案する。 具体的には、フレームワークの3つの重要な要素について調べる。 1) マスク付きトークン予測の迅速な生成方法 2) 微調整されたlmsの出力を正規化する方法 3) 微調整に用いる事前学習したlmsの選択に対するロバスト性。 5つの多様で政治的に偏極化したトピックを包含する従来のメディアメディアの記事のデータセットの実験を通じて、我々のフレームワークは高い信頼性でこれらのトピックの異なるフレーミングを捉えることができることを示す。

Differential framing of issues can lead to divergent world views on important issues. This is especially true in domains where the information presented can reach a large audience, such as traditional and social media. Scalable and reliable measurement of such differential framing is an important first step in addressing them. In this work, based on the intuition that framing affects the tone and word choices in written language, we propose a framework for modeling the differential framing of issues through masked token prediction via large-scale fine-tuned language models (LMs). Specifically, we explore three key factors for our framework: 1) prompt generation methods for the masked token prediction; 2) methods for normalizing the output of fine-tuned LMs; 3) robustness to the choice of pre-trained LMs used for fine-tuning. Through experiments on a dataset of articles from traditional media outlets covering five diverse and politically polarized topics, we show that our framework can capture differential framing of these topics with high reliability.
翻訳日:2023-02-08 17:55:56 公開日:2023-02-07
# 情報幾何とボース・アインシュタイン凝縮

Information geometry and Bose-Einstein condensation ( http://arxiv.org/abs/2302.03182v1 )

ライセンス: Link先を確認
Pedro Pessoa(参考訳) 情報幾何学(IG)と熱力学の関連性において、IGによって与えられる曲率が相転移で分岐するという長い予想である。 ボース=アインシュタイン(BE)気体のIGに関する最近の研究は、BE凝縮が予想される不純物接近単位の極限において曲率が0に収束するよりは分岐しない、という予想に異議を唱えている。 しかし、凝縮を識別する不連続な挙動は熱力学極限でのみ観測されるため、有限個の粒子におけるIG曲率である$N$の研究は、熱力学極限(N\to \infty$)を後方に取ることによって熱力学的挙動を観察することができる。 本論では,近年の A 104,043318 (2021)] の進歩によって実現された研究について述べる。 閉じ込められた気体では、n$が増加すると曲率の値はn$の力に比例して減少し、曲率の最大値が発生する温度は通常定義された臨界温度に近づく。 これは、熱力学的極限において、曲率は位相遷移が観測される限られた値を持ち、分岐予想と矛盾することを意味する。

It is a long held conjecture in the connection between information geometry (IG) and thermodynamics that the curvature endowed by IG diverges at phase transitions. Recent work on the IG of Bose-Einstein (BE) gases challenged this conjecture by saying that in the limit of fugacity approaching unit -- where BE condensation is expected -- curvature does not diverge, rather it converges to zero. However, as the discontinuous behavior that identify condensation is only observed at the thermodynamic limit, a study of IG curvature at finite number of particles, $N$, is in order from which the thermodynamic behaviour can be observed by taking the thermodynamic limit ($N\to \infty$) posteriorly. This article presents such study, which was made possible by the recent advances presented in [Phys. Rev. A 104, 043318 (2021)]. We find that for a trapped gas, as $N$ increases, the values of curvature decrease proportionally to a power of $N$ while the temperature at which the maximum value of curvature occurs approaches the usually defined critical temperature. This means that, in the thermodynamic limit, curvature has a limited value where a phase transition is observed, contradicting the forementioned conjecture.
翻訳日:2023-02-08 17:55:38 公開日:2023-02-07
# 説明可能な人工知能のためのマッピング機能

Who wants what and how: a Mapping Function for Explainable Artificial Intelligence ( http://arxiv.org/abs/2302.03180v1 )

ライセンス: Link先を確認
Maryam Hashemi(参考訳) AIシステムの複雑さの増大は、AIアルゴリズムの出力に関する説明と正当化を提供することを目的とした、説明可能なAI(XAI)分野の成長につながった。 これらの手法は主に機能の重要性を重視し、望ましい結果を達成するためにできる変更を識別する。 研究者は、可視性、疎性、因果性、低実行時間など、XAIメソッドの望ましい特性を特定した。 本研究の目的は,既存のXAI研究のレビューを行い,XAI手法の分類を示すことである。 この研究は、XAIユーザを適切な方法で結びつけ、現在のXAIアプローチと望ましい特性を関連付けることを目的とする。 本研究の結果は,特定の目標とユーザに対して適切なXAIメソッドを選択し,ユーザに対してパーソナライズされた説明を提供するための,明確な戦略である。

The increasing complexity of AI systems has led to the growth of the field of explainable AI (XAI), which aims to provide explanations and justifications for the outputs of AI algorithms. These methods mainly focus on feature importance and identifying changes that can be made to achieve a desired outcome. Researchers have identified desired properties for XAI methods, such as plausibility, sparsity, causality, low run-time, etc. The objective of this study is to conduct a review of existing XAI research and present a classification of XAI methods. The study also aims to connect XAI users with the appropriate method and relate desired properties to current XAI approaches. The outcome of this study will be a clear strategy that outlines how to choose the right XAI method for a particular goal and user and provide a personalized explanation for users.
翻訳日:2023-02-08 17:55:13 公開日:2023-02-07
# 遺伝的プログラミングに基づく微分方程式の解析解のシンボリック回帰

Genetic Programming Based Symbolic Regression for Analytical Solutions to Differential Equations ( http://arxiv.org/abs/2302.03175v1 )

ライセンス: Link先を確認
Hongsup Oh, Roman Amici, Geoffrey Bomarito, Shandian Zhe, Robert Kirby, Jacob Hochhalter(参考訳) 本稿では,微分方程式に対する解析解の発見のための機械学習手法を提案する。 本手法は、本質的に解釈可能なアルゴリズム、遺伝的プログラミングに基づく記号回帰を用いる。 機械学習における従来の精度尺度とは異なり、数値近似とは対照的に真の解析解を復元する能力を示す。 この方法は、2つの微分方程式の既知の解析解を回復する能力を評価することによって検証される。 本手法は、従来の純粋にデータ駆動型遺伝的プログラミングに基づく記号回帰アルゴリズムと比較する。 真の解、あるいは代数的等価解の進化の成功の信頼性を実証する。

In this paper, we present a machine learning method for the discovery of analytic solutions to differential equations. The method utilizes an inherently interpretable algorithm, genetic programming based symbolic regression. Unlike conventional accuracy measures in machine learning we demonstrate the ability to recover true analytic solutions, as opposed to a numerical approximation. The method is verified by assessing its ability to recover known analytic solutions for two separate differential equations. The developed method is compared to a conventional, purely data-driven genetic programming based symbolic regression algorithm. The reliability of successful evolution of the true solution, or an algebraic equivalent, is demonstrated.
翻訳日:2023-02-08 17:54:57 公開日:2023-02-07
# 深層ニューラル演算子を用いた気候モデルの学習バイアス補正

Learning bias corrections for climate models using deep neural operators ( http://arxiv.org/abs/2302.03173v1 )

ライセンス: Link先を確認
Aniruddha Bora, Khemraj Shukla, Shixuan Zhang, Bryce Harrop, Ruby Leung, George Em Karniadakis(参考訳) すべての重要なスケールを解決する気候モデリングの数値シミュレーションは、計算課税のプロセスである。 そのため、この問題を回避するために低分解能シミュレーションを行い、その後、再解析データ(era5)を用いてバイアスを補正する。 既存のnudging correctionの実装では、低解像度データとera5データとの代数的差分の緩和に基づく方法を採用している。 本研究では,DeepONet(DeepOperator Network)に基づく代理モデルを用いてバイアス補正を行う。 DeepONet(Deep Operator Neural Network)は、ヌード前(関数)からヌード前(別の関数)までのマッピングを学習する。 ヌーディング傾向は低エネルギーモードが多いにもかかわらず非常に高次元のデータである。 したがって、DeepoNetは畳み込みに基づく自動エンコーダデコーダ(AED)アーキテクチャと組み合わせて、低次元潜在空間におけるヌード傾向を効率的に学習する。 また,e3smv2 (energy exascale earth system model) から得られたナジング傾向に対して,deeponetモデルの精度を検証し,良好な一致を示した。 この作業の包括的な目標は、オンライン設定でDeepONetモデルをデプロイし、E3SMループのヌーディングモジュールを置き換えることで、効率と正確性を向上させることである。

Numerical simulation for climate modeling resolving all important scales is a computationally taxing process. Therefore, to circumvent this issue a low resolution simulation is performed, which is subsequently corrected for bias using reanalyzed data (ERA5), known as nudging correction. The existing implementation for nudging correction uses a relaxation based method for the algebraic difference between low resolution and ERA5 data. In this study, we replace the bias correction process with a surrogate model based on the Deep Operator Network (DeepONet). DeepONet (Deep Operator Neural Network) learns the mapping from the state before nudging (a functional) to the nudging tendency (another functional). The nudging tendency is a very high dimensional data albeit having many low energy modes. Therefore, the DeepoNet is combined with a convolution based auto-encoder-decoder (AED) architecture in order to learn the nudging tendency in a lower dimensional latent space efficiently. The accuracy of the DeepONet model is tested against the nudging tendency obtained from the E3SMv2 (Energy Exascale Earth System Model) and shows good agreement. The overarching goal of this work is to deploy the DeepONet model in an online setting and replace the nudging module in the E3SM loop for better efficiency and accuracy.
翻訳日:2023-02-08 17:54:50 公開日:2023-02-07
# 現状を顧客に提供する: 顧客サービスサポートのためのニューラルネットワークアシスタントフレームワーク

Bringing the State-of-the-Art to Customers: A Neural Agent Assistant Framework for Customer Service Support ( http://arxiv.org/abs/2302.03222v1 )

ライセンス: Link先を確認
Stephen Obadinma, Faiza Khan Khattak, Shirley Wang, Tania Sidhom, Elaine Lau, Sean Robertson, Jingcheng Niu, Winnie Au, Alif Munim, Karthik Raja K. Bhaskar, Bencheng Wei, Iris Ren, Waqar Muhammad, Erin Li, Bukola Ishola, Michael Wang, Griffin Tanner, Yu-Jia Shiah, Sean X. Zhang, Kwesi P. Apponsah, Kanishk Patel, Jaswinder Narain, Deval Pandya, Xiaodan Zhu, Frank Rudzicz, Elham Dolatabadi(参考訳) カスタマーサービスサポートの改善を支援するエージェントアシスタントの構築には、業界ユーザとその顧客からのインプットと、最先端の自然言語処理(NLP)技術に関する知識が必要である。 我々は,(1)意図的識別,(2)文脈検索,(3)応答生成の3つの高レベルなコンポーネントと,そのギャップを埋め,タスク/ドメイン固有のニューラルエージェントアシスタント(NAA)を構築するために,学術と産業の専門知識を組み合わせる。 本稿では,NAAのコアシステムのパイプラインの概要を述べるとともに,3つの業界パートナが独自の課題に対する解決策を見つけるために,このフレームワークをうまく適用する3つのケーススタディを示す。 本研究は,産業における会話型aiタスクのための新たなnlpモデルの開発を促進する上で,協調プロセスが有効であることを示唆する。 完全なリファレンス実装コードと結果は \url{https://github.com/vectorinstitute/naa} で入手できる。

Building Agent Assistants that can help improve customer service support requires inputs from industry users and their customers, as well as knowledge about state-of-the-art Natural Language Processing (NLP) technology. We combine expertise from academia and industry to bridge the gap and build task/domain-specific Neural Agent Assistants (NAA) with three high-level components for: (1) Intent Identification, (2) Context Retrieval, and (3) Response Generation. In this paper, we outline the pipeline of the NAA's core system and also present three case studies in which three industry partners successfully adapt the framework to find solutions to their unique challenges. Our findings suggest that a collaborative process is instrumental in spurring the development of emerging NLP models for Conversational AI tasks in industry. The full reference implementation code and results are available at \url{https://github.com/VectorInstitute/NAA}
翻訳日:2023-02-08 17:48:51 公開日:2023-02-07
# 外部注意型グラフ畳み込みネットワークによる軽量クロスドメインシーケンスレコメンデーションに向けて

Towards Lightweight Cross-domain Sequential Recommendation via External Attention-enhanced Graph Convolution Network ( http://arxiv.org/abs/2302.03221v1 )

ライセンス: Link先を確認
Jinyu Zhang, Huichuan Duan, Lei Guo, Liancheng Xu and Xinhua Wang(参考訳) クロスドメインシークエンシャルレコメンデーション(CSR)は、複数のドメインからのインタラクションをモデル化することによって、重複するユーザの振る舞いパターンの進化を描いている。 CSRの既存の研究は主に、精度が大幅に向上するが、モデルの訓練に大きな負担をもたらす複合構造または深部構造の使用に焦点を当てている。 さらに、ユーザ固有のシーケンス表現を学習するために、既存の研究は通常、二次計算の複雑さを持つグローバルな関連重み付け戦略(自己アテンション機構など)を採用する。 本稿では,これらの課題,すなわちLEA-GCNを解決するために,軽量な外部注目型GCNベースのフレームワークを提案する。 具体的には、近傍の集約コンポーネントのみを保持し、Single-Layer Aggregating Protocol (SLAP)を使用することで、軽量GCNエンコーダはより効率的に、両方のドメインからアイテムの協調フィルタリング信号をキャプチャする。 フレームワーク構造をさらに緩和し、ユーザ固有のシーケンシャルパターンを集約するために、軽量な線形構造を介してすべての項目間の相関を計算する新しいデュアルチャネル外部注意(ea)コンポーネントを考案する。 2つの実世界のデータセットで大規模な実験が行われ、LEA-GCNはいくつかの最先端手法と比較して精度に影響を与えることなく、少ないボリュームと少ないトレーニング時間を必要とすることを示した。

Cross-domain Sequential Recommendation (CSR) is an emerging yet challenging task that depicts the evolution of behavior patterns for overlapped users by modeling their interactions from multiple domains. Existing studies on CSR mainly focus on using composite or in-depth structures that achieve significant improvement in accuracy but bring a huge burden to the model training. Moreover, to learn the user-specific sequence representations, existing works usually adopt the global relevance weighting strategy (e.g., self-attention mechanism), which has quadratic computational complexity. In this work, we introduce a lightweight external attention-enhanced GCN-based framework to solve the above challenges, namely LEA-GCN. Specifically, by only keeping the neighborhood aggregation component and using the Single-Layer Aggregating Protocol (SLAP), our lightweight GCN encoder performs more efficiently to capture the collaborative filtering signals of the items from both domains. To further alleviate the framework structure and aggregate the user-specific sequential pattern, we devise a novel dual-channel External Attention (EA) component, which calculates the correlation among all items via a lightweight linear structure. Extensive experiments are conducted on two real-world datasets, demonstrating that LEA-GCN requires a smaller volume and less training time without affecting the accuracy compared with several state-of-the-art methods.
翻訳日:2023-02-08 17:48:34 公開日:2023-02-07
# LUT-NN:テーブルルックアップによる統一ニューラルネットワーク推論を目指して

LUT-NN: Towards Unified Neural Network Inference by Table Lookup ( http://arxiv.org/abs/2302.03213v1 )

ライセンス: Link先を確認
Xiaohu Tang, Yang Wang, Ting Cao, Li Lyna Zhang, Qi Chen, Deng Cai, Yunxin Liu, Mao Yang(参考訳) DNN推論には、システム開発とリソースコストの膨大な労力が必要です。 これにより、テーブルルックアップによるディープニューラルネットワーク(DNN)推論の強化に向けた最初のトライアルであるLUT-NNを提案し、さまざまな計算カーネルを排除し、実行コストを削減できるようになります。 各層の特徴の類似性に基づいて、lut-nnはトレーニングデータから各層の典型的な特徴であるcentroidsを学習し、それらをモデルウェイトで事前計算し、結果をテーブルに保存することができる。 将来の入力では、入力特徴を持つ最も近いセントロイドの結果を、層出力の近似としてテーブルから直接読み取ることができる。 バックプロパゲーションによるセントロイド学習を可能にするDNNのための新しいセントロイド学習手法を提案し,モデルの損失を最小限に抑えるために3段階の近似を適用した。 この手法により、LUT-NNは、CIFAR、ImageNet、GLUEを含む実際の複雑なデータセット上で、オリジナルのモデルと同等の精度(5%の差)を達成する。 lut-nnは計算演算子を2つに単純化している。 Intel と ARM CPU 向けに実装しています。 モデルサイズはcnnモデルでは最大3.5倍、bertでは7倍削減される。 LUT-NNの実際の高速化はBERTの7倍、ResNetの2倍であり、現在のテーブルルックアップのハードウェア設計のため理論的結果よりもはるかに低い。 将来的には、LUT-NNの可能性を解き放つために、ファーストクラスのテーブルルックアップのサポートを期待しています。

DNN inference requires huge effort of system development and resource cost. This drives us to propose LUT-NN, the first trial towards empowering deep neural network (DNN) inference by table lookup, to eliminate the diverse computation kernels as well as save running cost. Based on the feature similarity of each layer, LUT-NN can learn the typical features, named centroids, of each layer from the training data, precompute them with model weights, and save the results in tables. For future input, the results of the closest centroids with the input features can be directly read from the table, as the approximation of layer output. We propose the novel centroid learning technique for DNN, which enables centroid learning through backpropagation, and adapts three levels of approximation to minimize the model loss. By this technique, LUT-NN achieves comparable accuracy (<5% difference) with original models on real complex dataset, including CIFAR, ImageNet, and GLUE. LUT-NN simplifies the computing operators to only two: closest centroid search and table lookup. We implement them for Intel and ARM CPUs. The model size is reduced by up to 3.5x for CNN models and 7x for BERT. Latency-wise, the real speedup of LUT-NN is up to 7x for BERT and 2x for ResNet, much lower than theoretical results because of the current unfriendly hardware design for table lookup. We expect firstclass table lookup support in the future to unleash the potential of LUT-NN.
翻訳日:2023-02-08 17:48:07 公開日:2023-02-07
# 位相的絡み合いに対する統計的アプローチ:高次既約相関のボルツマンマシン表現

A statistical approach to topological entanglement: Boltzmann machine representation of higher-order irreducible correlation ( http://arxiv.org/abs/2302.03212v1 )

ライセンス: Link先を確認
Shi Feng, Deqian Kong and Nandini Trivedi(参考訳) 高次相関は物理学や統計学の分野において興味深い現象である。 高次相関の量子アナログは、0温度の物質のトポロジカルな秩序状態におけるトポロジカルな絡み合いであり、通常はトポロジカルな絡み合いエントロピー(TEE)によって定量化される。 本研究では,この2つを同じ情報理論の枠組みで統一する統計的解釈を提案する。 非ゼロなTEEの存在は、統計学的な見解では、射影的に測定されたサンプルに反映される創発的な$n$th次相互情報$I_n$(任意の整数$n\ge 3$)として理解でき、また、その抽出のための既存の2つの方法、すなわちKokuev-Preskill と Levin-Wen の構成の等価性を明示する。 i_n$の統計的性質を利用するために、局所領域の絡み合いハミルトニアンを適切に表現することにより、投影標本の分布に符号化される高次相関および/または位相的絡み合いをキャプチャする制限ボルツマン機械(rbm)を構築する。 さらに、訓練されたRBMを問う方法を示す閉形式を導出し、ハミルトニアンの絡み合いの観点から、$I_n$に関連する任意の相関の任意の順序の分析形式を明示する。 多様な相互作用モデルに関連する多体相互作用を分離する補助場の構築にも,高次相関抽出のための問合せ手法が適用可能であることを指摘した。

Higher-order correlation is an interesting phenomena in many fields of physics and statistics. A quantum analogue of the higher-order correlation is the topological entanglement in topologically ordered states of matter at zero temperature, usually quantified by topological entanglement entropy (TEE). In this work we propose a statistical interpretation which unifies the two under the same information-theoretic framework. We demonstrate that the existence of a non-zero TEE can be understood in the statistical view as the emergent $n$th order mutual information $I_n$ (for arbitrary integer $n\ge 3$) reflected in projectively measured samples, which also makes explicit the equivalence between the two existing methods for its extraction -- the Kitaev-Preskill and the Levin-Wen construction. To exploit the statistical nature of $I_n$, we construct a restricted Boltzmann machine (RBM) which captures the higher-order correlation and/or topological entanglement that are encoded in the distribution of projected sample by representing the entanglement Hamiltonian of a local region under the proper basis. Furthermore, we derive a closed form which presents a method to interrogate the trained RBM, making explicit the analytical form of arbitrary order of correlation relevant for $I_n$ in terms of the entanglement Hamiltonian. We remark that the interrogation method for extracting higher-order correlation can also be applied in the construction of auxiliary fields which disentangle many-body interactions relevant for diverse interacting models.
翻訳日:2023-02-08 17:47:39 公開日:2023-02-07
# リレーショナルヘテロジニアスグラフニューラルネットワークを用いたエンティティ誘導テキスト要約フレームワーク

An entity-guided text summarization framework with relational heterogeneous graph neural network ( http://arxiv.org/abs/2302.03205v1 )

ライセンス: Link先を確認
Jingqiang Chen(参考訳) テキスト要約が忠実な要約を生成する上で重要な2つの課題は、テキスト以外の知識を利用し、テキストにおけるクロス文関係を利用することである。 2つの問題の直感的な方法は、それぞれ知識グラフ(KG)とグラフニューラルネットワーク(GNN)である。 エンティティはテキストおよびKGにおける意味単位である。 本稿では,GNN と KG を結合して要約を行うことにより,両問題に焦点をあてる。 まず,重み付き多型エッジを持つ文親和性グラフを構築して文関係をモデル化し,ノードエンコーディングを計算するための関係ヘテロジニアスGNNを提案する。 第二に、エンティティは知識を集めるためにグラフをKGにリンクするために利用される。 第3に、エンティティは、多タスクセレクタを定義する2段階の要約フレームワークをガイドし、有能な文とエンティティを選択し、エンティティ中心の抽象体を使用して文を圧縮する。 GNNは、KGに基づいてエンティティエンテントエッジを構築する文エンテントグラフを構築し、KG上にエンティティ埋め込みを初期化し、エンティティエンテントエッジを使用したエンティティ埋め込みをトレーニングすることで、KGと接続する。 リレーショナルヘテロジニアスGNNは、GNNのエッジ重みとエッジ型の両方を用いて、重み付きマルチタイプのエッジを持つグラフを計算する。 実験により,提案手法はHGNNベースのHGNNSumやCNN/DM上でのエンティティ駆動SENECAを含む抽象ベースラインよりも優れ,NYT50上でのほとんどのベースラインより優れていた。 サブデータセットを用いた実験により,文エンテントエッジの密度が提案手法の性能に大きく影響を及ぼすことが示された。 密度が大きいほど、性能が良くなる。 アブレーションは、その方法の有効性を示す。

Two crucial issues for text summarization to generate faithful summaries are to make use of knowledge beyond text and to make use of cross-sentence relations in text. Intuitive ways for the two issues are Knowledge Graph (KG) and Graph Neural Network (GNN) respectively. Entities are semantic units in text and in KG. This paper focuses on both issues by leveraging entities mentioned in text to connect GNN and KG for summarization. Firstly, entities are leveraged to construct a sentence-entity graph with weighted multi-type edges to model sentence relations, and a relational heterogeneous GNN for summarization is proposed to calculate node encodings. Secondly, entities are leveraged to link the graph to KG to collect knowledge. Thirdly, entities guide a two-step summarization framework defining a multi-task selector to select salient sentences and entities, and using an entity-focused abstractor to compress the sentences. GNN is connected with KG by constructing sentence-entity graphs where entity-entity edges are built based on KG, initializing entity embeddings on KG, and training entity embeddings using entity-entity edges. The relational heterogeneous GNN utilizes both edge weights and edge types in GNN to calculate graphs with weighted multi-type edges. Experiments show the proposed method outperforms extractive baselines including the HGNN-based HGNNSum and abstractive baselines including the entity-driven SENECA on CNN/DM, and outperforms most baselines on NYT50. Experiments on sub-datasets show the density of sentence-entity edges greatly influences the performance of the proposed method. The greater the density, the better the performance. Ablations show effectiveness of the method.
翻訳日:2023-02-08 17:46:50 公開日:2023-02-07
# 指導指導におけるエキスパート言語モデルの訓練効果を探る

Exploring the Benefits of Training Expert Language Models over Instruction Tuning ( http://arxiv.org/abs/2302.03202v1 )

ライセンス: Link先を確認
Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo(参考訳) 近年,言語モデル (LM) は,マルチタスク型ファインチューニング (MT) としても知られる複数のタスクに適応し,未知のタスクに一般化する能力を示している。 これまでの研究によると、トレーニングタスクの数を拡大することが、より強力なMT LMを作る上で重要な要素であった。 本研究では,1つのタスクのみに微調整された専門家LMが,11の異なる未知のデータセットで300以上のタスクを訓練したMT LMと,平均精度3.20%と1.29%でBIG-benchベンチマークの13のデータセットをそれぞれ上回り得ることを発見した。 この発見は、単にタスクの数を拡大するだけでMT LMがより強くなるという、これまで信じられていた信念に疑問を投げかけている。 さらに, ゼロショット推論のための単一のMT LMではなく, 個別の訓練タスクごとに個別の専門家LMを訓練する分散手法は, 1) 指導指導中に頻繁に発生する負のタスク伝達を回避すること, (2) 破滅的な忘れを抑えるために, (3) 個々の専門家をまとめて構成能力を示すことなく, 新たなタスクを継続的に学習できること, など多くの利点があることを示した。 コードはhttps://github.com/joeljang/elmで入手できる。

Recently, Language Models (LMs) instruction-tuned on multiple tasks, also known as multitask-prompted fine-tuning (MT), have shown the capability to generalize to unseen tasks. Previous work has shown that scaling the number of training tasks is the key component in making stronger MT LMs. In this work, we report an unexpected finding that an expert LM fine-tuned on just a single task can outperform an MT LM trained with 300+ different tasks on 11 different unseen datasets and on 13 datasets of the BIG-bench benchmark by a mean accuracy of 3.20% and 1.29%, respectively. This finding casts doubt on the previously held belief that simply scaling the number of tasks makes stronger MT LMs. Leveraging this finding, we further show that this distributed approach of training a separate expert LM per training task instead of a single MT LM for zero-shot inference possesses many benefits including (1) avoiding negative task transfer that often occurs during instruction tuning, (2) being able to continually learn new tasks without having to re-train on previous tasks to avoid catastrophic forgetting, and (3) showing compositional capabilities when merging individual experts together. The code is available at https://github.com/joeljang/ELM.
翻訳日:2023-02-08 17:46:08 公開日:2023-02-07
# CVaRを用いた極小最適リスク感性強化学習

Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR ( http://arxiv.org/abs/2302.03201v1 )

ライセンス: Link先を確認
Kaiwen Wang and Nathan Kallus and Wen Sun(参考訳) 本稿では,リスクに敏感な強化学習(RL)について検討し,リスク許容度が$\tau$の条件値(CVaR)の目的に着目した。 マルチアームバンディット(MAB)から、ミニマックスCVaR後悔率は$\Omega(\sqrt{\tau^{-1}AK})$で、$A$はアクションの数、$K$はエピソード数、そして新しいバーンスタインボーナスを持つアッパー信頼境界アルゴリズムによって達成されることを示す。 表型マルコフ決定過程(英語版)(mdps)におけるオンラインrlでは、最小の後悔値が$\omega(\sqrt{\tau^{-1}sak})$(正規化累積報酬付き)であり、ここで$s$は状態数であり、新しいボーナス駆動価値反復手順を提案する。 我々のアルゴリズムは連続性仮定の下で$\widetilde O(\sqrt{\tau^{-1}SAK})$の最適後悔を達成し、一般に、定数$\tau$に対して最小最適である$\widetilde O(\tau^{-1}\sqrt{SAK})$のほぼ最適後悔を実現する。 これにより、最善の限界が改善される。 報酬を適切に識別することで、アルゴリズムは計算効率が良い。

In this paper, we study risk-sensitive Reinforcement Learning (RL), focusing on the objective of Conditional Value at Risk (CVaR) with risk tolerance $\tau$. Starting with multi-arm bandits (MABs), we show the minimax CVaR regret rate is $\Omega(\sqrt{\tau^{-1}AK})$, where $A$ is the number of actions and $K$ is the number of episodes, and that it is achieved by an Upper Confidence Bound algorithm with a novel Bernstein bonus. For online RL in tabular Markov Decision Processes (MDPs), we show a minimax regret lower bound of $\Omega(\sqrt{\tau^{-1}SAK})$ (with normalized cumulative rewards), where $S$ is the number of states, and we propose a novel bonus-driven Value Iteration procedure. We show that our algorithm achieves the optimal regret of $\widetilde O(\sqrt{\tau^{-1}SAK})$ under a continuity assumption and in general attains a near-optimal regret of $\widetilde O(\tau^{-1}\sqrt{SAK})$, which is minimax-optimal for constant $\tau$. This improves on the best available bounds. By discretizing rewards appropriately, our algorithms are computationally efficient.
翻訳日:2023-02-08 17:45:37 公開日:2023-02-07
# マルチビュー注意学習によるエンドツーエンド運転のスケーリング

Scaling Self-Supervised End-to-End Driving with Multi-View Attention Learning ( http://arxiv.org/abs/2302.03198v1 )

ライセンス: Link先を確認
Yi Xiao, Felipe Codevilla, Diego Porres Bustamante, Antonio M. Lopez(参考訳) エンドツーエンドの運転では、制御動作を予測することによって専門家を模倣するエージェントを訓練するために、多数の専門家による運転デモが使用される。 このプロセスは車両信号(例えばステアリング角、加速度)で自己監督され、追加のコスト監督(人間のラベル付け)を必要としない。 しかし、既存の自己監督型エンドツーエンド駆動モデルの改善は、トレーニング期間中にセマンティックセグメンテーションのようなデータ集約的なフォーマットをラベル付けするモジュール型のエンドツーエンドモデルにほとんど余地を与えている。 しかし,低解像度画像と注意機構のない準最適条件下で,最新の自己監督型エンドツーエンドモデルを開発した。 さらに、これらのモデルは限られた視野で制限されており、人間の視覚認知から遠く離れており、その特徴は有用な帰納的バイアスをもたらす。 そこで本研究では,自己教師付き模倣学習によって訓練された新しいエンド・ツー・エンドモデルを提案する。 これらの設定は、運転シーンに対するエージェントの理解にさらに寄与し、人間のドライバーをより良く模倣する。 自己教師付きトレーニングデータのみを用いれば,carlaのnocrashメトリクスのエキスパートパフォーマンスがほぼ向上し,大量のラベル付きデータを必要とするsomaモデルに匹敵する可能性がある。 さらなる研究を容易にするため、私たちのコードはリリースされます。

On end-to-end driving, a large amount of expert driving demonstrations is used to train an agent that mimics the expert by predicting its control actions. This process is self-supervised on vehicle signals (e.g., steering angle, acceleration) and does not require extra costly supervision (human labeling). Yet, the improvement of existing self-supervised end-to-end driving models has mostly given room to modular end-to-end models where labeling data intensive format such as semantic segmentation are required during training time. However, we argue that the latest self-supervised end-to-end models were developed in sub-optimal conditions with low-resolution images and no attention mechanisms. Further, those models are confined with limited field of view and far from the human visual cognition which can quickly attend far-apart scene features, a trait that provides an useful inductive bias. In this context, we present a new end-to-end model, trained by self-supervised imitation learning, leveraging a large field of view and a self-attention mechanism. These settings are more contributing to the agent's understanding of the driving scene, which brings a better imitation of human drivers. With only self-supervised training data, our model yields almost expert performance in CARLA's Nocrash metrics and could be rival to the SOTA models requiring large amounts of human labeled data. To facilitate further research, our code will be released.
翻訳日:2023-02-08 17:45:06 公開日:2023-02-07
# udapter --アダプタを使った効率的なドメイン適応

UDApter -- Efficient Domain Adaptation Using Adapters ( http://arxiv.org/abs/2302.03194v1 )

ライセンス: Link先を確認
Bhavitvya Malik, Abhinav Ramesh Kashyap, Min-Yen Kan, Soujanya Poria(参考訳) 大規模事前学習言語モデル(PLM)のすべての層に分散した小さなボトルネック層を用いて,教師なしドメイン適応(UDA)をより効率的にするための2つの手法を提案する。 最初の方法はUDAを2段階のプロセスに分解する: まずドメイン不変情報を学ぶためのドメインアダプタを追加し、次にドメイン不変情報を使ってソースドメインのタスク表現を学ぶタスクアダプタを追加する。 第2の方法は、分岐測度を低減しつつ教師付き分類器を共同で学習する。 強力なベースラインと比較すると,自然言語推論(mnli)とクロスドメイン感情分類タスクにおいて,単純な手法が有効である。 我々は、DANNやDSNのような教師なしドメイン適応手法を感情分類において上回り、完全なモデルパラメータのごく一部を微調整することで、自然言語推論タスクにおいて0.85% F1以内である。 コードをhttps://github.com/declare-lab/UDAPTERでリリースします。

We propose two methods to make unsupervised domain adaptation (UDA) more parameter efficient using adapters, small bottleneck layers interspersed with every layer of the large-scale pre-trained language model (PLM). The first method deconstructs UDA into a two-step process: first by adding a domain adapter to learn domain-invariant information and then by adding a task adapter that uses domain-invariant information to learn task representations in the source domain. The second method jointly learns a supervised classifier while reducing the divergence measure. Compared to strong baselines, our simple methods perform well in natural language inference (MNLI) and the cross-domain sentiment classification task. We even outperform unsupervised domain adaptation methods such as DANN and DSN in sentiment classification, and we are within 0.85% F1 for natural language inference task, by fine-tuning only a fraction of the full model parameters. We release our code at https://github.com/declare-lab/UDAPTER
翻訳日:2023-02-08 17:44:39 公開日:2023-02-07
# 等尺勾配伝播のための群の理想数について

On the Ideal Number of Groups for Isometric Gradient Propagation ( http://arxiv.org/abs/2302.03193v1 )

ライセンス: Link先を確認
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim(参考訳) 近年,ディープニューラルネットワークのトレーニングを安定化するために,様々な正規化層が提案されている。 中でも群正規化は、それが使用する群数の自由度を許容することにより、層正規化とインスタンス正規化の一般化である。 しかし、最適なグループ数を決定するためには、試行錯誤に基づくハイパーパラメータチューニングが必要である。 本研究では,グループ数を設定する合理的な方法を提案する。 まず,群数が群正規化層の勾配挙動に影響を及ぼすことを見出した。 この観察に基づいて,勾配スケールを規定する群の理想数を導出し,勾配降下最適化を容易にする。 提案するグループ数は理論的に基礎があり、アーキテクチャを意識しており、すべての層に対して適切な値を提供することができる。 提案手法は,多数のニューラルネットワークアーキテクチャ,タスク,データセットにおいて,既存の手法よりも性能が向上した。

Recently, various normalization layers have been proposed to stabilize the training of deep neural networks. Among them, group normalization is a generalization of layer normalization and instance normalization by allowing a degree of freedom in the number of groups it uses. However, to determine the optimal number of groups, trial-and-error-based hyperparameter tuning is required, and such experiments are time-consuming. In this study, we discuss a reasonable method for setting the number of groups. First, we find that the number of groups influences the gradient behavior of the group normalization layer. Based on this observation, we derive the ideal number of groups, which calibrates the gradient scale to facilitate gradient descent optimization. Our proposed number of groups is theoretically grounded, architecture-aware, and can provide a proper value in a layer-wise manner for all layers. The proposed method exhibited improved performance over existing methods in numerous neural network architectures, tasks, and datasets.
翻訳日:2023-02-08 17:44:22 公開日:2023-02-07
# 言語モデルの継続的な学習

Continual Learning of Language Models ( http://arxiv.org/abs/2302.03241v1 )

ライセンス: Link先を確認
Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, and Bing Liu(参考訳) 言語モデル(LM)は、自然言語処理の急速な進歩に役立っている。 本稿では,LMの連続学習,特に連続的なドメイン適応型事前学習(あるいは連続DAP学習)について検討する。 既存の研究によると、ドメインコーパスを使ってドメインにlmを適応させるためにlmを事前トレーニングすることで、ドメインのエンドタスクパフォーマンスが向上する。 本稿では,未ラベルのドメインコーパスを連続してDAP訓練してこれらのドメインに適応させ,エンドタスク性能を向上させる手法を提案する。 本手法の重要な特徴は,LMの更新を直接制御するソフトマスキング機構である。 従来のLMにおける一般的な知識を維持するために、新しいプロキシも提案されている。 さらに、学習済みのドメイン知識(事前学習されたLMの一般的な知識を含む)の表現と、知識統合を達成するための現在の完全なネットワークからの知識とを対比する。 この方法は破滅的な忘れを克服するだけでなく、エンドタスクのパフォーマンスを改善するための知識伝達も達成する。 実験評価の結果,提案手法の有効性が示された。

Language models (LMs) have been instrumental for the rapid advance of natural language processing. This paper studies continual learning of LMs, in particular, continual domain-adaptive pre-training (or continual DAP-training). Existing research has shown that further pre-training an LM using a domain corpus to adapt the LM to the domain can improve the end-task performance in the domain. This paper proposes a novel method to continually DAP-train an LM with a sequence of unlabeled domain corpora to adapt the LM to these domains to improve their end-task performances. The key novelty of our method is a soft-masking mechanism that directly controls the update to the LM. A novel proxy is also proposed to preserve the general knowledge in the original LM. Additionally, it contrasts the representations of the previously learned domain knowledge (including the general knowledge in the pre-trained LM) and the knowledge from the current full network to achieve knowledge integration. The method not only overcomes catastrophic forgetting, but also achieves knowledge transfer to improve end-task performances. Empirical evaluation demonstrates the effectiveness of the proposed method.
翻訳日:2023-02-08 17:37:55 公開日:2023-02-07
# 非エルミート非相反系における輸送効果:一般アプローチ

Transport effects in non-Hermitian nonreciprocal systems: General approach ( http://arxiv.org/abs/2302.03240v1 )

ライセンス: Link先を確認
Hamed Ghaemi-Dizicheh(参考訳) 本稿では,非エルミート非相互系における反射・透明輸送,ラシング,コヒーレント完全吸収などの輸送効果の条件を一般化的伝達行列法を用いて同定するための統一解析フレームワークを提案する。 これは、高次元モデルや内部自由度を持つものを含む、密結合プラットフォームの輸送を研究するための普遍的なアプローチを提供する。 密結合モデルの特定のクラスでは、関連する輸送条件とその非エルミート的、非相反的、位相的挙動のシグネチャは、一般の観点から解析的に説明可能である。 システムパラメータをチューニングして輸送効果と位相位相位相を調整できるパラダイム的ラダーモデルにおいて、このクラスを調査し、形式性を説明する。

In this paper, we present a unifying analytical framework for identifying conditions for transport effects such as reflectionless and transparent transport, lasing, and coherent perfect absorption in non-Hermitian nonreciprocal systems using a generalized transfer matrix method. This provides a universal approach to studying the transport of tight-binding platforms, including higher-dimensional models and those with an internal degree of freedom going beyond the previously studied case of one-dimensional chains with nearest-neighbor couplings. For a specific class of tight-binding models, the relevant transport conditions and their signatures of non-Hermitian, nonreciprocal, and topological behavior are analytically tractable from a general perspective. We investigate this class and illustrate our formalism in a paradigmatic ladder model where the system's parameters can be tuned to adjust the transport effect and topological phases.
翻訳日:2023-02-08 17:37:38 公開日:2023-02-07
# 対流複合最適化のためのネットワーク非依存ステップを用いた非集中的近位勾配法

Decentralized Inexact Proximal Gradient Method With Network-Independent Stepsizes for Convex Composite Optimization ( http://arxiv.org/abs/2302.03238v1 )

ライセンス: Link先を確認
Luyao Guo, Xinli Shi, Jinde Cao, and Zihao Wang(参考訳) 本稿では, 局所損失関数がスムーズかつ非スムーズな項を含む非直交および連結ネットワーク上での分散凸複合最適化について考察する。 この問題に対して,ネットワーク非依存定数ステップ化により,新しいcta(combine-then-adapt)ベースの分散アルゴリズムを提案する。 特に、提案されたアルゴリズムは、非スムース損失関数の近位写像が解析解を持たない分散複合最適化の恩恵を受ける近位写像の列を概ね解くだけでよい。 一般凸の場合、与えられたアルゴリズムの o(1/k) 収束率を証明し、近距離写像が正確に解ければ o(1/k) に改善することができる。 さらに、計量準正則性により、線形収束率を確立する。 最後に,数値実験によりアルゴリズムの効率を示す。

This paper considers decentralized convex composite optimization over undirected and connected networks, where the local loss function contains both smooth and nonsmooth terms. For this problem, a novel CTA (Combine-Then-Adapt)-based decentralized algorithm is proposed under uncoordinated network-independent constant stepsizes. Particularly, the proposed algorithm only needs to approximately solve a sequence of proximal mappings, which benefits the decentralized composite optimization where the proximal mappings of the nonsmooth loss functions may not have analytic solutions. For the general convex case, we prove the O(1/k) convergence rate of the proposed algorithm, which can be improved to o(1/k) if the proximal mappings are solved exactly. Moreover, with metric subregularity, we establish the linear convergence rate. Finally, the numerical experiments demonstrate the efficiency of the algorithm.
翻訳日:2023-02-08 17:37:23 公開日:2023-02-07
# 高次構造予測における厳密な推論

Exact Inference in High-order Structured Prediction ( http://arxiv.org/abs/2302.03236v1 )

ライセンス: Link先を確認
Chuyang Ke, Jean Honorio(参考訳) 本稿では,高次構造予測タスクにおける推論問題について検討する。 マルコフ確率場の文脈において、高階推定タスクの目標はラベルの空間上のスコア関数を最大化することであり、スコア関数は一様ポテンシャルと高階ポテンシャルの合計に分解することができる。 高次推論の問題を研究するために生成モデルアプローチを適用し、正確なラベル復元のための2段階凸最適化アルゴリズムを提供する。 また,ハイパーエッジ展開に関連する新しいハイパーグラフ構造特性も提供し,一般的な高階推定問題の成功を促している。 最後に,新しいハイパーグラフCheeger型不等式を用いて,アルゴリズムの性能とハイパーエッジ拡張特性を結合する。

In this paper, we study the problem of inference in high-order structured prediction tasks. In the context of Markov random fields, the goal of a high-order inference task is to maximize a score function on the space of labels, and the score function can be decomposed into sum of unary and high-order potentials. We apply a generative model approach to study the problem of high-order inference, and provide a two-stage convex optimization algorithm for exact label recovery. We also provide a new class of hypergraph structural properties related to hyperedge expansion that drives the success in general high-order inference problems. Finally, we connect the performance of our algorithm and the hyperedge expansion property using a novel hypergraph Cheeger-type inequality.
翻訳日:2023-02-08 17:37:09 公開日:2023-02-07
# RNNにおけるロバストメモリと高速学習を実現するHebbian and Gradient-based Plasticity

Hebbian and Gradient-based Plasticity Enables Robust Memory and Rapid Learning in RNNs ( http://arxiv.org/abs/2302.03235v1 )

ライセンス: Link先を確認
Yu Duan, Zhongfan Jia, Qian Li, Yi Zhong, Kaisheng Ma(参考訳) 進行中の経験から素早く学び、柔軟な記憶システムで過去の出来事を記憶することは、生物学的知能の2つのコア能力である。 基礎となる神経機構は完全には理解されていないが、シナプスの可塑性が記憶の形成と学習において重要な役割を果たすという様々な証拠がある。 これらの結果にインスパイアされ、再生ニューラルネットワーク(RNN)に塑性規則を付与し、進行中の経験に応じてパラメータを適応させる。 従来の局所的なヘビアン可塑性に加えて, モデルが自己決定目標に向かって進化することを可能にする, 勾配に基づく大域的可塑性則を提案する。 本モデルでは, 逐次的, 連想的メモリタスクにおける有望な結果を示し, 記憶を堅牢に形成, 維持する能力を示す。 その間、これらのモデルは多くの難題の少ない学習問題に対処できる。 同じ枠組みの下で異なる可塑性規則を比較すると、ハビアン可塑性はいくつかの記憶と連想学習タスクに適しているが、基礎となるマッピングを推論するためにモデルを必要とする数発の回帰タスクにおいて勾配に基づく可塑性よりも優れていた。 コードはhttps://github.com/yuvenduan/PlasticRNNsで入手できる。

Rapidly learning from ongoing experiences and remembering past events with a flexible memory system are two core capacities of biological intelligence. While the underlying neural mechanisms are not fully understood, various evidence supports that synaptic plasticity plays a critical role in memory formation and fast learning. Inspired by these results, we equip Recurrent Neural Networks (RNNs) with plasticity rules to enable them to adapt their parameters according to ongoing experiences. In addition to the traditional local Hebbian plasticity, we propose a global, gradient-based plasticity rule, which allows the model to evolve towards its self-determined target. Our models show promising results on sequential and associative memory tasks, illustrating their ability to robustly form and retain memories. In the meantime, these models can cope with many challenging few-shot learning problems. Comparing different plasticity rules under the same framework shows that Hebbian plasticity is well-suited for several memory and associative learning tasks; however, it is outperformed by gradient-based plasticity on few-shot regression tasks which require the model to infer the underlying mapping. Code is available at https://github.com/yuvenduan/PlasticRNNs.
翻訳日:2023-02-08 17:36:59 公開日:2023-02-07
# 線形最適部分輸送埋め込み

Linear optimal partial transport embedding ( http://arxiv.org/abs/2302.03232v1 )

ライセンス: Link先を確認
Yikun Bai, Ivan Medri, Rocio Diaz Martin, Rana Muhammad Shahroz Khan, Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、統計学、信号処理といった分野における様々な応用により、人気を集めている。 しかし、バランスの取れた質量要求は実際の問題における性能を制限している。 これらの制限に対処するため、不均衡なOT、最適部分輸送(OPT)、Hellinger Kantorovich(HK)を含むOT問題の変種が提案されている。 本稿では,OTおよびHK上の(局所的な)線形化手法をOPT問題に拡張したリニア最適部分輸送(LOPT)埋め込みを提案する。 提案手法は,2組の正測度間のOPT距離の計算を高速化する。 理論的な貢献に加えて,ポイントクラウド補間およびPCA解析におけるLOPT埋め込み手法の実証を行った。

Optimal transport (OT) has gained popularity due to its various applications in fields such as machine learning, statistics, and signal processing. However, the balanced mass requirement limits its performance in practical problems. To address these limitations, variants of the OT problem, including unbalanced OT, Optimal partial transport (OPT), and Hellinger Kantorovich (HK), have been proposed. In this paper, we propose the Linear optimal partial transport (LOPT) embedding, which extends the (local) linearization technique on OT and HK to the OPT problem. The proposed embedding allows for faster computation of OPT distance between pairs of positive measures. Besides our theoretical contributions, we demonstrate the LOPT embedding technique in point-cloud interpolation and PCA analysis.
翻訳日:2023-02-08 17:36:36 公開日:2023-02-07
# Heterophily-Aware Graph Attention Network

Heterophily-Aware Graph Attention Network ( http://arxiv.org/abs/2302.03228v1 )

ライセンス: Link先を確認
Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。 残念ながら、ノード次数やペアワイズ表現に基づく計算のような標準GNNの現在の重み付けスキームは、接続ノードが通常異なるラベルや特徴を持つヘテロフィリーでネットワークを処理するのに効果的ではない。 既存のヘテロフィル性GNNは、各エッジのヘテロフィリのモデリングを無視する傾向にあり、これはヘテロフィリ問題に取り組む上でも不可欠である。 本稿では,まず,辺をヘテロフィリックにモデル化することの利点を明らかにする。すなわち,GNNが異なる辺に異なる重みをヘテロフィリックなタイプに応じて割り当てる場合,ノードが各辺から適切な情報を取得できるような,効果的な局所的注意パターンを学習することができる。 そこで我々は, 局所分布をヘテロフィリーとして完全に探索し, 利用することで, ヘテロフィリー対応グラフ注意ネットワーク(HA-GAT)を提案する。 提案するHA-GATの有効性を実証するために,提案するヘテロフィリ認識型アテンションスキームと局所分布探索を解析し,そのメカニズムから解釈を求める。 我々のHA-GATは,教師付きノード分類タスクと半教師付きノード分類タスクの両方において,ホモフィリー比の異なる8つのデータセットに対して,最先端のパフォーマンスを達成することを示す。

Graph Neural Networks (GNNs) have shown remarkable success in graph representation learning. Unfortunately, current weight assignment schemes in standard GNNs, such as the calculation based on node degrees or pair-wise representations, can hardly be effective in processing the networks with heterophily, in which the connected nodes usually possess different labels or features. Existing heterophilic GNNs tend to ignore the modeling of heterophily of each edge, which is also a vital part in tackling the heterophily problem. In this paper, we firstly propose a heterophily-aware attention scheme and reveal the benefits of modeling the edge heterophily, i.e., if a GNN assigns different weights to edges according to different heterophilic types, it can learn effective local attention patterns, which enable nodes to acquire appropriate information from distinct neighbors. Then, we propose a novel Heterophily-Aware Graph Attention Network (HA-GAT) by fully exploring and utilizing the local distribution as the underlying heterophily, to handle the networks with different homophily ratios. To demonstrate the effectiveness of the proposed HA-GAT, we analyze the proposed heterophily-aware attention scheme and local distribution exploration, by seeking for an interpretation from their mechanism. Extensive results demonstrate that our HA-GAT achieves state-of-the-art performances on eight datasets with different homophily ratios in both the supervised and semi-supervised node classification tasks.
翻訳日:2023-02-08 17:36:25 公開日:2023-02-07
# 深部脳信号を用いたクロスモーダル自己監督機能を用いた睡眠ステージの自動分類

Automatic Sleep Stage Classification with Cross-modal Self-supervised Features from Deep Brain Signals ( http://arxiv.org/abs/2302.03227v1 )

ライセンス: Link先を確認
Chen Gong, Yue Chen, Yanan Sui, Luming Li(参考訳) ヒトの睡眠段階の検出は、神経学的および精神疾患の診断と治療に広く用いられている。 深部脳刺激装置をインプラントした一部の患者は、深部脳から神経活動を記録することができた。 深部脳記録に基づく睡眠ステージ分類は、患者のより正確な治療を提供する大きな可能性を秘めている。 局所電位に基づく既存の睡眠ステージ分類器の精度と一般化性はまだ限られている。 インプラントデバイスを用いた睡眠段階分類のためのクロスモーダル・トランスファー学習手法を提案する。 このエンドツーエンドのディープラーニングモデルには、クロスモーダルな自己教師付き特徴表現、セルフアテンション、分類フレームワークが含まれている。 パーキンソン病12例の脳深部記録データを用いて実験を行った。 最高精度は睡眠ステージ分類で83.2%に達した。 その結果, 音声の自己指導的特徴が睡眠段階の変換パターンを効果的に捉えた。 音響信号から局所場電位への新しい学習法を提案する。 この方法は、臨床データの不十分なスケールに対する効果的なソリューションをサポートする。 この睡眠ステージ分類モデルは、パーキンソン病患者の日常生活における慢性および連続的な睡眠に適応することができ、クローズドループ深部脳刺激などの深部脳-機械界面のより正確な治療に利用できる可能性がある。

The detection of human sleep stages is widely used in the diagnosis and intervention of neurological and psychiatric diseases. Some patients with deep brain stimulator implanted could have their neural activities recorded from the deep brain. Sleep stage classification based on deep brain recording has great potential to provide more precise treatment for patients. The accuracy and generalizability of existing sleep stage classifiers based on local field potentials are still limited. We proposed an applicable cross-modal transfer learning method for sleep stage classification with implanted devices. This end-to-end deep learning model contained cross-modal self-supervised feature representation, self-attention, and classification framework. We tested the model with deep brain recording data from 12 patients with Parkinson's disease. The best total accuracy reached 83.2% for sleep stage classification. Results showed speech self-supervised features catch the conversion pattern of sleep stages effectively. We provide a new method on transfer learning from acoustic signals to local field potentials. This method supports an effective solution for the insufficient scale of clinical data. This sleep stage classification model could be adapted to chronic and continuous monitor sleep for Parkinson's patients in daily life, and potentially utilized for more precise treatment in deep brain-machine interfaces, such as closed-loop deep brain stimulation.
翻訳日:2023-02-08 17:35:55 公開日:2023-02-07
# 効率的なXAI技術:分類学的調査

Efficient XAI Techniques: A Taxonomic Survey ( http://arxiv.org/abs/2302.03225v1 )

ライセンス: Link先を確認
Yu-Neng Chuang, Guanchu Wang, Fan Yang, Zirui Liu, Xuanting Cai, Mengnan Du, and Xia Hu(参考訳) 近年、現実世界のアプリケーションに説明可能な人工知能(XAI)アルゴリズムを配置する必要性が高まっている。 しかし、従来のXAI手法は一般的に高い計算複雑性の問題に悩まされており、現実のシナリオの時間的要求を満たすためにリアルタイムシステムのデプロイを妨げている。 XAI手法の効率を改善するために多くのアプローチが提案されているが、その成果と課題の包括的理解はいまだに必要である。 この目的のために,本稿では,効率的なXAIのレビューを行う。 具体的には,xai加速度の既存手法を非償却法と効率的な償却法に分類する。 効率的な非amortizedメソッドは、個々のインスタンスに対してデータ中心またはモデル中心の加速度にフォーカスする。 対照的に、償却法は、予測的、生成的、または強化的なフレームワークに従って、モデル説明の統一的な分布を学ぶことに集中し、複数のモデル説明を迅速に導き出す。 また,効率的なxaiパイプラインの限界を,トレーニングフェーズ,デプロイメントフェーズ,利用シナリオの観点から分析した。 最後に,XAIアクセラレーション手法を現実のシナリオに展開する上での課題,忠実性と効率性のトレードオフを克服すること,異なるアクセラレーション手法の選択について要約する。

Recently, there has been a growing demand for the deployment of Explainable Artificial Intelligence (XAI) algorithms in real-world applications. However, traditional XAI methods typically suffer from a high computational complexity problem, which discourages the deployment of real-time systems to meet the time-demanding requirements of real-world scenarios. Although many approaches have been proposed to improve the efficiency of XAI methods, a comprehensive understanding of the achievements and challenges is still needed. To this end, in this paper we provide a review of efficient XAI. Specifically, we categorize existing techniques of XAI acceleration into efficient non-amortized and efficient amortized methods. The efficient non-amortized methods focus on data-centric or model-centric acceleration upon each individual instance. In contrast, amortized methods focus on learning a unified distribution of model explanations, following the predictive, generative, or reinforcement frameworks, to rapidly derive multiple model explanations. We also analyze the limitations of an efficient XAI pipeline from the perspectives of the training phase, the deployment phase, and the use scenarios. Finally, we summarize the challenges of deploying XAI acceleration methods to real-world scenarios, overcoming the trade-off between faithfulness and efficiency, and the selection of different acceleration methods.
翻訳日:2023-02-08 17:35:40 公開日:2023-02-07
# 認知症者の扇動検出を改善するためのアンダーサンプリングと累積クラス再決定法

Undersampling and Cumulative Class Re-decision Methods to Improve Detection of Agitation in People with Dementia ( http://arxiv.org/abs/2302.03224v1 )

ライセンス: Link先を確認
Zhidong Meng, Andrea Iaboni, Bing Ye, Kristine Newman, Alex Mihailidis, Zhihong Deng, and Shehroz S. Khan(参考訳) 鎮静は認知症(PwD)患者の最も多い症状の1つで、自分自身と介護者の安全を危険にさらすことができる。 住宅地に住むpwdの健康と安全を支援するためには, 客観的な扇動検出手法の開発が重要である。 前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を予測する機械学習モデルを開発した。 しかし、不均衡問題や潜在的な不正確なラベルといったデータセットには、通常の振る舞いに比べて動揺の発生がはるかに稀であるため、大きな制限がある。 本稿では,まず,不均衡問題を解消するために,異なるアンダーサンプリング手法を実装し,正常な行動データのうち20%のみが競争的動揺検出モデルの訓練に適していると結論づける。 そこで我々は,不明瞭な時間間隔(ATI)を仮定した手動ラベリング機構を評価するために,重み付きアンダーサンプリング法を設計した。 その後, 累積クラス再決定(CCR)の後処理法が, 動揺の歴史的逐次情報と連続性特性に基づいて提案され, 動揺検出システムの潜在的な応用のための意思決定性能が向上した。 その結果, アンダーサンプリングとCCRの組み合わせでF1スコアが26.6%向上し, トレーニング時間やデータが少なくなり, 臨床目的に最適なしきい値基準の潜在的な範囲を見出す方法が示唆された。

Agitation is one of the most prevalent symptoms in people with dementia (PwD) that can place themselves and the caregiver's safety at risk. Developing objective agitation detection approaches is important to support health and safety of PwD living in a residential setting. In a previous study, we collected multimodal wearable sensor data from 17 participants for 600 days and developed machine learning models for predicting agitation in one-minute windows. However, there are significant limitations in the dataset, such as imbalance problem and potential imprecise labels as the occurrence of agitation is much rarer in comparison to the normal behaviours. In this paper, we first implement different undersampling methods to eliminate the imbalance problem, and come to the conclusion that only 20% of normal behaviour data are adequate to train a competitive agitation detection model. Then, we design a weighted undersampling method to evaluate the manual labeling mechanism given the ambiguous time interval (ATI) assumption. After that, the postprocessing method of cumulative class re-decision (CCR) is proposed based on the historical sequential information and continuity characteristic of agitation, improving the decision-making performance for the potential application of agitation detection system. The results show that a combination of undersampling and CCR improves best F1-score by 26.6% and other metrics to varying degrees with less training time and data used, and inspires a way to find the potential range of optimal threshold reference for clinical purpose.
翻訳日:2023-02-08 17:35:22 公開日:2023-02-07
# 共同確率分布をもつ双局所性に対する操作的アプローチ

Operational approach to bilocality with joint probability distributions ( http://arxiv.org/abs/2302.03263v1 )

ライセンス: Link先を確認
Kelvin Onggadinata, Pawel Kurzynski, Dagomir Kaszlikowski(参考訳) 準確率分布と準確率過程を持つ双局所性に対する操作的アプローチを示す。 このアプローチは、負の確率が双局所性に反するために必要なことを明らかに示している。 また、局所的相関と局所的相関の微妙な相互作用を強調し、N-局所性を研究するために容易に拡張することができる。

We show an operational approach to bilocality with quasi-probability distributions and quasi-stochastic processes. This approach clearly demonstrates that negative probabilities are necessary to violate bilocality. It also highlights a subtle interplay between bilocal and local correlations and it can be easily extended to study N-locality.
翻訳日:2023-02-08 17:29:22 公開日:2023-02-07
# 拡散モデルに対する会員推測攻撃

Membership Inference Attacks against Diffusion Models ( http://arxiv.org/abs/2302.03262v1 )

ライセンス: Link先を確認
Tomoya Matsumoto and Takayuki Miura and Naoto Yanai(参考訳) 近年、拡散モデルが革新的生成モデルとして注目を集めている。 本稿では,機械学習モデルのプライバシー漏洩を評価するメンバシップ推論攻撃に対して,拡散モデルが耐性があるかどうかを検討する。 本稿では,従来の拡散モデルと拡散モデルに特有のハイパーパラメータ,すなわち時間ステップ,サンプリングステップ,サンプリング分散として,GANとの比較の観点から,拡散モデルについて論じる。 拡散モデルとしてDDIM, GANとしてDCGAN, CelebA, CIFAR-10データセットをホワイトボックスおよびブラックボックス設定で広範囲に実験し, GANとしての会員推論攻撃に対して拡散モデルが許容できるかどうかを確認する。 次に、時間ステップの影響が重要であり、ノイズスケジュールにおける中間ステップが攻撃に対して最も脆弱であることを示す。 さらに分析によって2つの重要な洞察を得た。 まず、DDIMは低いFIDを達成する代わりに、小さなサンプルサイズの攻撃に対して脆弱であることを示す。 第二に、ハイパーパラメータのサンプリングステップは攻撃に対する抵抗に重要であるが、サンプリングのばらつきの影響は極めて限られている。

Diffusion models have attracted attention in recent years as innovative generative models. In this paper, we investigate whether a diffusion model is resistant to a membership inference attack, which evaluates the privacy leakage of a machine learning model. We primarily discuss the diffusion model from the standpoints of comparison with a generative adversarial network (GAN) as conventional models and hyperparameters unique to the diffusion model, i.e., time steps, sampling steps, and sampling variances. We conduct extensive experiments with DDIM as a diffusion model and DCGAN as a GAN on the CelebA and CIFAR-10 datasets in both white-box and black-box settings and then confirm if the diffusion model is comparably resistant to a membership inference attack as GAN. Next, we demonstrate that the impact of time steps is significant and intermediate steps in a noise schedule are the most vulnerable to the attack. We also found two key insights through further analysis. First, we identify that DDIM is vulnerable to the attack for small sample sizes instead of achieving a lower FID. Second, sampling steps in hyperparameters are important for resistance to the attack, whereas the impact of sampling variances is quite limited.
翻訳日:2023-02-08 17:29:17 公開日:2023-02-07
# 時空重ね合わせの相対性とデコヒーレンス

Relativity and decoherence of spacetime superpositions ( http://arxiv.org/abs/2302.03259v1 )

ライセンス: Link先を確認
Joshua Foo, Robert B. Mann, Magdalena Zych(参考訳) 量子重力の理論では、時空幾何学の半古典状態の量子重ね合わせが存在することが一意的に予測されている。 そのような状態は、例えば空間配置の重ね合わせの源質量から生じる可能性がある。 本稿では,このような「時空状態の量子重ね合わせ」を記述するための枠組みを提案する。我々は,時空重ね合わせの相対性の概念を導入し,重ね合わせ振幅が座標変換によって異なる状態の場合,一つの固定された背景上でのダイナミクスの観点から,シナリオを常に再表現することができることを示す。 以上の結果から,超重項を真に量子重力的にラベル付けする本質的曖昧性が明らかになり,特に近年の重力による絡み合い試験に関する提案が注目されている。 この枠組みを, 重力誘起の絡み合い, 重力源の非干渉問題, 一般に見過ごされている仮定を明らかにした上で述べたシナリオに適用する。 重力源のデコヒーレンスという文脈では、結果のデコヒーレンスは基本ではなく、空間的重ね合わせの概念が物理的意味を持つ座標の相対的な集合を定義する外部系の存在に依存していることを示唆する。

It is univocally anticipated that in a theory of quantum gravity, there exist quantum superpositions of semiclassical states of spacetime geometry. Such states could arise for example, from a source mass in a superposition of spatial configurations. In this paper we introduce a framework for describing such ''quantum superpositions of spacetime states.'' We introduce the notion of the relativity of spacetime superpositions, demonstrating that for states in which the superposed amplitudes differ by a coordinate transformation, it is always possible to re-express the scenario in terms of dynamics on a single, fixed background. Our result unveils an inherent ambiguity in labelling such superpositions as genuinely quantum-gravitational, which has been done extensively in the literature, most notably with reference to recent proposals to test gravitationally-induced entanglement. We apply our framework to the the above mentioned scenarios looking at gravitationally-induced entanglement, the problem of decoherence of gravitational sources, and clarify commonly overlooked assumptions. In the context of decoherence of gravitational sources, our result implies that the resulting decoherence is not fundamental, but depends on the existence of external systems that define a relative set of coordinates through which the notion of spatial superposition obtains physical meaning.
翻訳日:2023-02-08 17:28:55 公開日:2023-02-07
# 統計的物理原理に基づくAIモデルによる気候干渉解析

Climate Intervention Analysis using AI Model Guided by Statistical Physics Principles ( http://arxiv.org/abs/2302.03258v1 )

ライセンス: Link先を確認
Soo Kyung Kim, Kalai Ramea, Salva R\"uhling Cachay, Haruki Hirasawa, Subhashis Hazarika, Dipti Hingmire, Peetak Mitra, Philip J. Rasch, Hansi A. Singh(参考訳) トレーニングデータの可用性は、科学的応用における機械学習の実装において、依然として大きな障害である。 特に、システムが外部の強制や摂動に対してどのように反応するかを推定するには、特別なラベル付きデータやターゲットのシミュレーションが必要である。 本研究では、変動散逸理論(FDT)と呼ばれる統計物理学の原理を利用して、異なる外部フォースのシナリオを迅速に生成できるAIモデルを用いて知識を発見することにより、この問題に対する新しい解決策を提案する。 FDTを利用することで、地球系モデルが生成する大規模なデータセットに符号化された情報を抽出することができる。 我々のモデルであるAiBEDOは、地球および地域表面の気候に対する放射摂動の複雑なマルチタイム効果を捉えることができ、空間的にヘテロジニアスな気候力の探索をかなり加速させることができる。 aibedoの有用性を実証するために,海洋雲の輝きと呼ばれる気候介入手法の例を用いて,雲の輝きの空間的パターンを最適化し,地域的気候目標を達成し,既知の気候の凝縮点を防止することを最終目標とする。 気候科学の文脈における我々のアプローチの有効性を示す一方で、ドメインシミュレーションモデルの広範な計算要求によって制限される他の科学分野にも適用可能である。 aibedoフレームワークのソースコードはhttps://github.com/kramea/kdd_aibedoで入手できる。 サンプルデータセットはhttps://doi.org/10.5281/zenodo.7597027で利用可能である。 リクエスト時に利用できる追加データ。

The availability of training data remains a significant obstacle for the implementation of machine learning in scientific applications. In particular, estimating how a system might respond to external forcings or perturbations requires specialized labeled data or targeted simulations, which may be computationally intensive to generate at scale. In this study, we propose a novel solution to this challenge by utilizing a principle from statistical physics known as the Fluctuation-Dissipation Theorem (FDT) to discover knowledge using an AI model that can rapidly produce scenarios for different external forcings. By leveraging FDT, we are able to extract information encoded in a large dataset produced by Earth System Models, which includes 8250 years of internal climate fluctuations, to estimate the climate system's response to forcings. Our model, AiBEDO, is capable of capturing the complex, multi-timescale effects of radiation perturbations on global and regional surface climate, allowing for a substantial acceleration of the exploration of the impacts of spatially-heterogenous climate forcers. To demonstrate the utility of AiBEDO, we use the example of a climate intervention technique called Marine Cloud Brightening, with the ultimate goal of optimizing the spatial pattern of cloud brightening to achieve regional climate targets and prevent known climate tipping points. While we showcase the effectiveness of our approach in the context of climate science, it is generally applicable to other scientific disciplines that are limited by the extensive computational demands of domain simulation models. Source code of AiBEDO framework is made available at https://github.com/kramea/kdd_aibedo. A sample dataset is made available at https://doi.org/10.5281/zenodo.7597027. Additional data available upon request.
翻訳日:2023-02-08 17:28:31 公開日:2023-02-07
# ダイヤモンド中の窒素空孔中心近傍における核スピンの脱コヒーレンス

Decoherence of Nuclear Spins in the Proximity of Nitrogen Vacancy Centers in Diamond ( http://arxiv.org/abs/2302.03257v1 )

ライセンス: Link先を確認
Mykyta Onizhuk and Giulia Galli(参考訳) 固体中の電子スピン欠陥に近い核スピンは、量子状態の保存能力が著しく長いため、量子情報処理のプラットフォームとして期待されている。 本稿では,ダイヤモンド中の窒素空孔(NV)中心付近における核脱コヒーレンス過程の包括的研究について報告する。 我々は、核スピンのダイナミクスの変化をNV中心の距離と状態の関数として第一原理からシミュレートし、実験データで結果を検証する。 シミュレーションにより、ハーンエコー信号の非自明な発振が明らかとなり、ダイナミックデカップリング分光の新たなセンシングモードが示され、電子状態のハイブリッド化が強い結合核スピンのコヒーレンス時間を抑制することを示す。 本研究で開発された計算フレームワークは一般論であり,核スピンの力学特性の予測に広く応用可能である。

Nuclear spins in the proximity of electronic spin defects in solids are promising platforms for quantum information processing due to their ability to preserve quantum states for a remarkably long time. Here we report a comprehensive study of the nuclear decoherence processes in the vicinity of the nitrogen-vacancy (NV) center in diamond. We simulate from first principles the change in the dynamics of nuclear spins as a function of distance and state of the NV center and validate our results with experimental data. Our simulations reveal nontrivial oscillations in the Hahn echo signal, pointing to a new sensing modality of dynamical-decoupling spectroscopy, and show how hybridization of the electronic states suppresses the coherence time of strongly coupled nuclear spins. The computational framework developed in our work is general and can be broadly applied to predict the dynamical properties of nuclear spins.
翻訳日:2023-02-08 17:28:03 公開日:2023-02-07
# Divbo: 多様性を意識した学習用CASH

DivBO: Diversity-aware CASH for Ensemble Learning ( http://arxiv.org/abs/2302.03255v1 )

ライセンス: Link先を確認
Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, Bin Cui(参考訳) アルゴリズム選択とハイパーパラメータ最適化(CASH)は、自動機械学習(AutoML)の基本的な問題の一つである。 アンサンブル学習の成功に動機づけられた最近のautomlシステムは、最高のシングルラーナーを使うのではなく、最終予測を出力するポストホックアンサンブルを構築した。 しかし,ほとんどのCASH手法は,単一学習者に対して最高の性能で検索することに重点を置いているが,基本学習者間での多様性(例えば,以前に評価されたものと類似した構成を提案する場合もある)は無視されている。 この問題に対処し,さらにアンサンブル性能を向上させるために,多様性を明示的に探索する多様性対応フレームワークであるDivBOを提案する。 本稿では,2つの未知の構成のペアワイドな多様性を予測するために,多様性サロゲートを提案する。 さらに,ベイズ最適化に基づく性能と多様性の探索を支援するために,一時プールと重み付き獲得関数を導入する。 15の公開データセットの実証結果は、最近のAutoMLシステムにおけるポストホック設計やCASH問題のアンサンブル学習のための最先端のベースラインを含む、10つの比較手法の検証とテストエラーの両方において、DivBOが最高の平均ランク(1.82と1.73)を達成したことを示している。

The Combined Algorithm Selection and Hyperparameters optimization (CASH) problem is one of the fundamental problems in Automated Machine Learning (AutoML). Motivated by the success of ensemble learning, recent AutoML systems build post-hoc ensembles to output the final predictions instead of using the best single learner. However, while most CASH methods focus on searching for a single learner with the best performance, they neglect the diversity among base learners (i.e., they may suggest similar configurations to previously evaluated ones), which is also a crucial consideration when building an ensemble. To tackle this issue and further enhance the ensemble performance, we propose DivBO, a diversity-aware framework to inject explicit search of diversity into the CASH problems. In the framework, we propose to use a diversity surrogate to predict the pair-wise diversity of two unseen configurations. Furthermore, we introduce a temporary pool and a weighted acquisition function to guide the search of both performance and diversity based on Bayesian optimization. Empirical results on 15 public datasets show that DivBO achieves the best average ranks (1.82 and 1.73) on both validation and test errors among 10 compared methods, including post-hoc designs in recent AutoML systems and state-of-the-art baselines for ensemble learning on CASH problems.
翻訳日:2023-02-08 17:27:46 公開日:2023-02-07
# 浅量子回路を用いた共鳴トンネルの定性的量子シミュレーションと局在化

Qualitative quantum simulation of resonant tunneling and localization with the shallow quantum circuits ( http://arxiv.org/abs/2302.03249v1 )

ライセンス: Link先を確認
P. Wang(参考訳) 回路ベースの量子コンピュータでは、量子ゲートによって駆動される離散時間発展を通じて計算を行う。 連続時間発展の正確なシミュレーションには多数の量子ゲートが必要であり、それゆえよりノイズが発生する。 本稿では, 共鳴トンネルや局所化現象などの連続時間進化限界における量子現象を定性的に観測するには, 浅い量子回路が十分であることを示す。 トロッター回路におけるスピン励起の伝播を大きなステップサイズで研究する。 回路は2種類の2量子ゲート、すなわちXYゲートと制御Rxゲートと1量子Rzゲートで構成されている。 Rzゲートの構成は、進化の終わりにおけるスピン励起の分布を決定する。 我々は、最大4ステップの共振トンネルと、トロッター回路における数十ステップの局所化現象を実証する。 その結果,いくつかの重要な量子現象の定性的観測に必要な回路深度は,定量計算に必要な回路深度よりもはるかに小さく,短期量子コンピュータに定性的観測を適用することが可能であることが示唆された。 また,量子回路における誤差伝播を理解するために物理法則を用いる方法を提案する。

In a circuit-based quantum computer, the computing is performed via the discrete-time evolution driven by quantum gates. Accurate simulation of continuoustime evolution requires a large number of quantum gates and therefore suffers from more noise. In this paper, we find that shallow quantum circuits are sufficient to qualitatively observe some typical quantum phenomena in the continuous-time evolution limit, such as resonant tunneling and localization phenomena. We study the propagation of a spin excitation in Trotter circuits with a large step size. The circuits are formed of two types of two-qubit gates, i.e. XY gates and controlled- Rx gates, and single-qubit Rz gates. The configuration of the Rz gates determines the distribution of the spin excitation at the end of evolution. We demonstrate the resonant tunneling with up to four steps and the localization phenomenon with dozens of steps in Trotter circuits. Our results show that the circuit depth required for qualitative observation of some significant quantum phenomena is much smaller than that required for quantitative computation, suggesting that it is feasible to apply qualitative observations to near-term quantum computers. We also provide a way to use the physics laws to understand the error propagation in quantum circuits.
翻訳日:2023-02-08 17:27:21 公開日:2023-02-07
# CDANs: 自己相関および非定常時系列データによる時間的因果発見

CDANs: Temporal Causal Discovery from Autocorrelated and Non-Stationary Time Series Data ( http://arxiv.org/abs/2302.03246v1 )

ライセンス: Link先を確認
Muhammad Hasan Ferdous, Uzma Hasan, Md Osman Gani(参考訳) 本研究では,自己相関および非定常時系列データ(cdans)に対する制約に基づく新しい因果発見手法を提案する。 提案手法は, 高次元性, タグ付き因果関係の特定不能, 変化モジュールの見落としなど, 自己相関・非定常時系列データに対する既存の因果発見手法のいくつかの制限に対処する。 当社のアプローチでは,時間とともに変化するモジュールとともに,ラグと即時/同時の因果関係を識別する。 本手法は, 制約に基づく探索において, 高次元性に対処する過去全体を条件付けする代わりに, タグ付けされた親を考慮し, 条件セットを最適化する。 変更モジュールは、同時性およびタグ付けされた両親の両方を考慮して検出される。 このアプローチはまず遅延した隣接を検知し、その後に変化するモジュールと同時の隣接を識別し、最終的に因果方向を決定する。 合成データセットと実世界の臨床データセットを用いて提案手法を広範に評価し,その性能をいくつかのベースラインアプローチと比較した。 提案手法は,自己相関および非定常時系列データにおける因果関係の検出とモジュールの変更に有効であることを示す。

This study presents a novel constraint-based causal discovery approach for autocorrelated and non-stationary time series data (CDANs). Our proposed method addresses several limitations of existing causal discovery methods for autocorrelated and non-stationary time series data, such as high dimensionality, the inability to identify lagged causal relationships, and the overlook of changing modules. Our approach identifies both lagged and instantaneous/contemporaneous causal relationships along with changing modules that vary over time. The method optimizes the conditioning sets in a constraint-based search by considering lagged parents instead of conditioning on the entire past that addresses high dimensionality. The changing modules are detected by considering both contemporaneous and lagged parents. The approach first detects the lagged adjacencies, then identifies the changing modules and contemporaneous adjacencies, and finally determines the causal direction. We extensively evaluated the proposed method using synthetic datasets and a real-world clinical dataset and compared its performance with several baseline approaches. The results demonstrate the effectiveness of the proposed method in detecting causal relationships and changing modules in autocorrelated and non-stationary time series data.
翻訳日:2023-02-08 17:27:02 公開日:2023-02-07
# 逐次学習のための量子リカレントニューラルネットワーク

Quantum Recurrent Neural Networks for Sequential Learning ( http://arxiv.org/abs/2302.03244v1 )

ライセンス: Link先を確認
Yanan Li, Zhimin Wang, Rongbing Han, Shangshang Shi, Jiaxin Li, Ruimin Shang, Haiyong Zheng, Guoqiang Zhong, Yongjian Gu(参考訳) 量子ニューラルネットワーク(qnn)は、ノイズの多い中間スケール量子(nisq)デバイスが、古典的リソースに対して有利な応用を見出す有望な方向の1つである。 リカレントニューラルネットワークは、シーケンシャル学習のための最も基本的なネットワークであるが、これまでは量子リカレントニューラルネットワーク(qrnn)の標準モデルが欠如しており、量子ディープラーニングの分野での研究は確実に制限されている。 本研究では,量子リカレントブロック(qrbs)をハードウェア効率のよい方法で構築し,量子デバイスのコヒーレント時間に対するアルゴリズムの要求を著しく低減できるように,qrbをスタッガー状に積み重ねることでqrnnを構築する,標準のqrnnモデルとして良い候補となる新しいタイプのqrnnを提案する。 つまり、NISQデバイスではQRNNの方がずっとアクセスしやすいのです。 さらに、現在のqrnnモデルの性能を3種類の古典的シーケンシャルデータ、すなわち気象指標、株価、テキスト分類を用いて具体的に検証する。 数値実験により,我々のQRNNは逐次学習のための古典的RNNおよび最先端QNNモデルに対する予測(分類)精度が向上し,時間的シーケンスデータの変化を予測できることがわかった。 実際の回路構造と優れた性能は、現在のQRNNが近い将来に量子上の有利な応用を見つけるための有望な学習モデルであることを示唆している。

Quantum neural network (QNN) is one of the promising directions where the near-term noisy intermediate-scale quantum (NISQ) devices could find advantageous applications against classical resources. Recurrent neural networks are the most fundamental networks for sequential learning, but up to now there is still a lack of canonical model of quantum recurrent neural network (QRNN), which certainly restricts the research in the field of quantum deep learning. In the present work, we propose a new kind of QRNN which would be a good candidate as the canonical QRNN model, where, the quantum recurrent blocks (QRBs) are constructed in the hardware-efficient way, and the QRNN is built by stacking the QRBs in a staggered way that can greatly reduce the algorithm's requirement with regard to the coherent time of quantum devices. That is, our QRNN is much more accessible on NISQ devices. Furthermore, the performance of the present QRNN model is verified concretely using three different kinds of classical sequential data, i.e., meteorological indicators, stock price, and text categorization. The numerical experiments show that our QRNN achieves much better performance in prediction (classification) accuracy against the classical RNN and state-of-the-art QNN models for sequential learning, and can predict the changing details of temporal sequence data. The practical circuit structure and superior performance indicate that the present QRNN is a promising learning model to find quantum advantageous applications in the near term.
翻訳日:2023-02-08 17:26:42 公開日:2023-02-07
# オンライン誤情報ビデオ検出:調査

Online Misinformation Video Detection: A Survey ( http://arxiv.org/abs/2302.03242v1 )

ライセンス: Link先を確認
Yuyan Bu, Qiang Sheng, Juan Cao, Peng Qi, Danding Wang, Jintao Li(参考訳) オンラインビデオストリーミングによる情報消費がますます高まる中、誤った情報ビデオはオンライン情報エコシステムの健康に新たな脅威をもたらす。 これまでの研究は、テキストと画像のフォーマットにおける誤情報の検出に多大な進歩を遂げてきたが、ビデオベースの誤情報は、自動検出システムに新しいユニークな課題をもたらす。 1) 各種モダリティがもたらす高情報不均一性 2)誤解を招く映像操作とユビキタスな芸術的映像編集の区別の曖昧化 3) オンラインビデオプラットフォームにおけるレコメンデーションシステムの役割により, 誤情報伝播の新たなパターンが出現した。 本研究は,この課題の研究を促進するために,誤報映像検出研究の進歩を示す。 まず、信号、意味、意図を含む3つのレベルから誤情報映像を分析し、特徴付ける。 特徴量に基づいて,様々なモダリティの特徴から手がかり統合の手法まで,既存の手法を体系的に検討する。 また、代表的なデータセットや広く使われているツールを含む既存のリソースも導入する。 既存の研究の要約に加えて、関連分野を議論し、オープンな課題と今後の方向性を概説し、誤情報検出に関するさらなる研究を奨励し、指導する。 対応するパブリックリポジトリはhttps://github.com/ICTMCG/Awesome-Misinfo-Video-Detectionで公開しています。

With information consumption via online video streaming becoming increasingly popular, misinformation video poses a new threat to the health of the online information ecosystem. Though previous studies have made much progress in detecting misinformation in text and image formats, video-based misinformation brings new and unique challenges to automatic detection systems: 1) high information heterogeneity brought by various modalities, 2) blurred distinction between misleading video manipulation and ubiquitous artistic video editing, and 3) new patterns of misinformation propagation due to the dominant role of recommendation systems on online video platforms. To facilitate research on this challenging task, we conduct this survey to present advances in misinformation video detection research. We first analyze and characterize the misinformation video from three levels including signals, semantics, and intents. Based on the characterization, we systematically review existing works for detection from features of various modalities to techniques for clue integration. We also introduce existing resources including representative datasets and widely used tools. Besides summarizing existing studies, we discuss related areas and outline open issues and future directions to encourage and guide more research on misinformation video detection. Our corresponding public repository is available at https://github.com/ICTMCG/Awesome-Misinfo-Video-Detection.
翻訳日:2023-02-08 17:26:18 公開日:2023-02-07
# アルゴリズム設計型ニューラルネットワーク(adanns) : パラメトリック偏微分方程式のための高階深層演算子学習

Algorithmically Designed Artificial Neural Networks (ADANNs): Higher order deep operator learning for parametric partial differential equations ( http://arxiv.org/abs/2302.03286v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Adrian Riekert, Philippe von Wurstemberger(参考訳) 本稿では,パラメトリック偏微分方程式(pdes)を近似解くための新しい深層学習手法を提案する。 特に、検討中の特定の科学計算近似問題に適した特定のANN初期化スキームとともに、特定の人工知能ニューラルネットワーク(ANN)アーキテクチャを設計する新しい戦略を導入する。 提案手法では,高次ランゲ・クッタスキームのような効率的な古典的数値近似手法と,最近導入されたフーリエニューラル演算子(FNO)のような高度な深層学習手法を組み合わせる。 具体的には、既存の標準ANNアーキテクチャのカスタマイズされた適応と、これらのANNアーキテクチャの特殊初期化を導入し、初期化において、ANNは、考慮された近似問題に対して選択された効率的な古典的数値アルゴリズムを忠実に模倣する。 得られたANNアーキテクチャとその初期化スキームは、数値アルゴリズムや文学からの一般的なディープラーニング手法に強く影響を受けており、その意味では、アルゴリズム設計されたニューラルネットワーク(ADANN)として、アルゴリズムで作成された初期化スキームとともに導入されたANNを参照する。 パラメトリックPDEの場合のADANN手法を数値的に検証する。 検証された数値例では、ADANNアプローチは既存の近似アルゴリズムと文献からの既存のディープラーニング手法を著しく上回っている。

In this article we propose a new deep learning approach to solve parametric partial differential equations (PDEs) approximately. In particular, we introduce a new strategy to design specific artificial neural network (ANN) architectures in conjunction with specific ANN initialization schemes which are tailor-made for the particular scientific computing approximation problem under consideration. In the proposed approach we combine efficient classical numerical approximation techniques such as higher-order Runge-Kutta schemes with sophisticated deep (operator) learning methodologies such as the recently introduced Fourier neural operators (FNOs). Specifically, we introduce customized adaptions of existing standard ANN architectures together with specialized initializations for these ANN architectures so that at initialization we have that the ANNs closely mimic a chosen efficient classical numerical algorithm for the considered approximation problem. The obtained ANN architectures and their initialization schemes are thus strongly inspired by numerical algorithms as well as by popular deep learning methodologies from the literature and in that sense we refer to the introduced ANNs in conjunction with their tailor-made initialization schemes as Algorithmically Designed Artificial Neural Networks (ADANNs). We numerically test the proposed ADANN approach in the case of some parametric PDEs. In the tested numerical examples the ADANN approach significantly outperforms existing traditional approximation algorithms as well as existing deep learning methodologies from the literature.
翻訳日:2023-02-08 17:20:10 公開日:2023-02-07
# スタイルGAN駆動型データ拡張によるCT画像分割精度の向上

Improving CT Image Segmentation Accuracy Using StyleGAN Driven Data Augmentation ( http://arxiv.org/abs/2302.03285v1 )

ライセンス: Link先を確認
Soham Bhosale, Arjun Krishna, Ge Wang, Klaus Mueller(参考訳) 医用画像セグメンテーションは、MRI、CTなどの画像モダリティにおける疾患や異常の検出を含む医用画像解析に有用である。 ディープラーニングは、このタスクに有望であることが証明されているが、一般的には、適切なアノテートやセグメント化された医療データセットがないため、精度が低い。 さらに、利用可能なデータセットは、セグメント化が必要な画像とは異なる量値やスキャナ特性のため、異なるテクスチャを持つことができる。 本稿では, 比較的小さな注釈付きデータセットを類似度で容易に利用することにより, 公開可能な大規模医療データセットをセグメント化するためのStyleGANによるアプローチを提案する。 このアプローチは、小さなセグメンテーションデータセットの強化と、2つのデータセット間のテクスチャの違いの排除を含む。 データセットは6つのStyleGANに渡され、セグメンテーションしたい大きな非アノテーションデータセットから得られる6つの異なるスタイルイメージに基づいてトレーニングされる。 具体的には、トレーニングデータセットの強化にスタイル転送が使用される。 トレーニングデータセットのアノテーションは、非アノテーションデータセットのテクスチャと組み合わせて、新しい解剖学的音声画像を生成する。 次に、拡張データセットを使用して、大きな非注釈データセットをセグメント化する際のセグメント精度が大幅に向上するu-netセグメンテーションネットワークを訓練する。

Medical Image Segmentation is a useful application for medical image analysis including detecting diseases and abnormalities in imaging modalities such as MRI, CT etc. Deep learning has proven to be promising for this task but usually has a low accuracy because of the lack of appropriate publicly available annotated or segmented medical datasets. In addition, the datasets that are available may have a different texture because of different dosage values or scanner properties than the images that need to be segmented. This paper presents a StyleGAN-driven approach for segmenting publicly available large medical datasets by using readily available extremely small annotated datasets in similar modalities. The approach involves augmenting the small segmented dataset and eliminating texture differences between the two datasets. The dataset is augmented by being passed through six different StyleGANs that are trained on six different style images taken from the large non-annotated dataset we want to segment. Specifically, style transfer is used to augment the training dataset. The annotations of the training dataset are hence combined with the textures of the non-annotated dataset to generate new anatomically sound images. The augmented dataset is then used to train a U-Net segmentation network which displays a significant improvement in the segmentation accuracy in segmenting the large non-annotated dataset.
翻訳日:2023-02-08 17:19:47 公開日:2023-02-07
# IoT時系列のための教師なしディープラーニング

Unsupervised Deep Learning for IoT Time Series ( http://arxiv.org/abs/2302.03284v1 )

ライセンス: Link先を確認
Ya Liu, Yingjie Zhou, Kai Yang, and Xin Wang(参考訳) IoT時系列分析では、健康情報からネットワークセキュリティまで、さまざまな領域で多くのアプリケーションが発見されている。 それにもかかわらず、複雑な空間的時間ダイナミクスとiot時系列の高次元は分析をますます困難にしている。 近年,ディープラーニング(DL)の強力な特徴抽出と表現学習能力は,IoT時系列解析に有効な手段となっている。 しかしながら、時系列上の既存の調査では、教師なしDLベースの手法を体系的に議論する例は少ない。 この空白を埋めるために、iot時系列、すなわち教師なし異常検出とクラスタリングのための教師なしディープラーニングを統一フレームワークで調査する。 また、この分野におけるアプリケーションシナリオ、公開データセット、既存の課題、今後の研究方向性についても論じる。

IoT time series analysis has found numerous applications in a wide variety of areas, ranging from health informatics to network security. Nevertheless, the complex spatial temporal dynamics and high dimensionality of IoT time series make the analysis increasingly challenging. In recent years, the powerful feature extraction and representation learning capabilities of deep learning (DL) have provided an effective means for IoT time series analysis. However, few existing surveys on time series have systematically discussed unsupervised DL-based methods. To fill this void, we investigate unsupervised deep learning for IoT time series, i.e., unsupervised anomaly detection and clustering, under a unified framework. We also discuss the application scenarios, public datasets, existing challenges, and future research directions in this area.
翻訳日:2023-02-08 17:19:28 公開日:2023-02-07
# 貯水池周辺で人工物を切り離すための2相深層学習ワークフロー

An End-to-End Two-Phase Deep Learning-Based workflow to Segment Man-made Objects Around Reservoirs ( http://arxiv.org/abs/2302.03282v1 )

ライセンス: Link先を確認
Nayereh Hamidishad and Roberto Marcondes Cesar Junior(参考訳) 貯水池は水資源管理の基盤となっている。 周囲の構造は品質に悪影響を及ぼす可能性がある。 このような無許可構造は、ランドカバーマッピング(LCM)リモートセンシング(RS)画像によって監視することができる。 本稿では,貯水池周辺の人工物セグメンテーションのためのDLと画像処理技術に基づく新しいアプローチを開発する。 エンド・ツー・エンドの手順で貯水池周辺の人工物を切り離すには,貯水池を分割し,その周辺領域(roi)を特定することが不可欠である。 提案した2相ワークフローでは,まず,DLモデルを用いて貯留層を分割する。 フローティング植生などのエラーを取り除くために, 後処理段階を提案する。 次に, 提案した画像処理技術を用いて, 貯水池周辺のRoI(RoIaR)を同定した。 最後に、RoIaRの人工オブジェクトはDLアーキテクチャを使ってセグメント化される。 ブラジルの8つの貯水池の収集したGoogle Earth(GE)画像を用いて、2年間にわたって提案されたワークフローを訓練した。 U-NetベースのアーキテクチャとSegNetベースのアーキテクチャは、貯水池を分割するように訓練されている。 RoIaRで人工オブジェクトをセグメント化するために、U-Net、FPN、LinkNet、PSPNetの4つの可能なアーキテクチャをトレーニングし、評価した。 収集したデータには高い多様性(例えば、異なる状態、季節、解像度など)がありますが、両方のフェーズで優れたパフォーマンスを達成しています。 さらに, 貯留層セグメンテーションの出力に後処理を適用することにより, 2例を除くすべての貯留層における精度が向上した。 トレーニング貯水池の外の貯水池データセットで準備されたワークフローを検証する。 その結果,ワークフローの一般化能力が向上した。

Reservoirs are fundamental infrastructures for the management of water resources. Constructions around them can negatively impact their quality. Such unauthorized constructions can be monitored by land cover mapping (LCM) remote sensing (RS) images. In this paper, we develop a new approach based on DL and image processing techniques for man-made object segmentation around the reservoirs. In order to segment man-made objects around the reservoirs in an end-to-end procedure, segmenting reservoirs and identifying the region of interest (RoI) around them are essential. In the proposed two-phase workflow, the reservoir is initially segmented using a DL model. A post-processing stage is proposed to remove errors such as floating vegetation. Next, the RoI around the reservoir (RoIaR) is identified using the proposed image processing techniques. Finally, the man-made objects in the RoIaR are segmented using a DL architecture. We trained the proposed workflow using collected Google Earth (GE) images of eight reservoirs in Brazil over two different years. The U-Net-based and SegNet-based architectures are trained to segment the reservoirs. To segment man-made objects in the RoIaR, we trained and evaluated four possible architectures, U-Net, FPN, LinkNet, and PSPNet. Although the collected data has a high diversity (for example, they belong to different states, seasons, resolutions, etc.), we achieved good performances in both phases. Furthermore, applying the proposed post-processing to the output of reservoir segmentation improves the precision in all studied reservoirs except two cases. We validated the prepared workflow with a reservoir dataset outside the training reservoirs. The results show high generalization ability of the prepared workflow.
翻訳日:2023-02-08 17:19:18 公開日:2023-02-07
# 効用に基づく摂動勾配降下:連続学習のための最適化器

Utility-based Perturbed Gradient Descent: An Optimizer for Continual Learning ( http://arxiv.org/abs/2302.03281v1 )

ライセンス: Link先を確認
Mohamed Elsayed, A. Rupam Mahmood(参考訳) 現代の表現学習法は、破壊的な忘れ方と破壊的可塑性の問題に苦しむため、非定常性下で素早く適応できない場合がある。 このような問題は、飽和した特徴の数が増え、新しい経験を提示する際に有用な特徴を忘れてしまうため、学習者が変化に素早く適応することを妨げる。 したがって、これらの手法は連続学習には効果がない。 本稿では,タスク境界に関する知識のない連続学習エージェントに適したオンライン表現学習アルゴリズムであるupgdを提案する。 upgdは、有用度や機能を、そのユーティリティに基づいて、あまり有用でないものを忘れることから保護する。 実験の結果,upgdは破壊的忘れ,破壊的可塑性を緩和し,現代的表現学習手法が継続的な学習環境の中で機能することを可能にした。

Modern representation learning methods may fail to adapt quickly under non-stationarity since they suffer from the problem of catastrophic forgetting and decaying plasticity. Such problems prevent learners from fast adaptation to changes since they result in increasing numbers of saturated features and forgetting useful features when presented with new experiences. Hence, these methods are rendered ineffective for continual learning. This paper proposes Utility-based Perturbed Gradient Descent (UPGD), an online representation-learning algorithm well-suited for continual learning agents with no knowledge about task boundaries. UPGD protects useful weights or features from forgetting and perturbs less useful ones based on their utilities. Our empirical results show that UPGD alleviates catastrophic forgetting and decaying plasticity, enabling modern representation learning methods to work in the continual learning setting.
翻訳日:2023-02-08 17:18:54 公開日:2023-02-07
# Rabi-errorとBlockade-error-Resilient All-Geometric Rydberg Quantum Gates

Rabi-error and Blockade-error-resilient All-Geometric Rydberg Quantum Gates ( http://arxiv.org/abs/2302.03276v1 )

ライセンス: Link先を確認
S.-L. Su, Li-Na Sun, B.-J. Liu, L-L. Yan, M.-H. Yung, Weibin Li and M. Feng(参考訳) 本稿では、Rydberg原子が幾何学的進化過程から生じる設計パルスを受ける非自明な2量子ゲートスキームを提案する。 制御原子とターゲット原子のハイブリッドロバストな非断熱的および断熱的幾何学的操作をそれぞれ利用することにより、従来の2量子ブロックゲートと比較して、ラビ制御誤差に対する2量子Rydbergゲートのロバスト性を向上させる。 現在の最先端実験パラメータによる数値結果は、上記のロバスト性を裏付けるものである。 また, 運動誘起脱感, 双極子-双極子相互作用および不完全励起による漏洩誤差の影響についても検討し, 両者ともゲート忠実度を低下させる可能性を示した。 提案手法は,中性原子系のブロックドエラー耐性量子計算と同様に,系統的制御誤差(Rabiエラー)への有望な経路を提供する。

We propose a nontrivial two-qubit gate scheme in which Rydberg atoms are subject to designed pulses resulting from geometric evolution processes. By utilizing a hybrid robust non-adiabatic and adiabatic geometric operations on the control atom and target atom, respectively, we improve the robustness of two-qubit Rydberg gate against Rabi control errors as well as blockade errors in comparison with the conventional two-qubit blockade gate. Numerical results with the current state-of-the-art experimental parameters corroborates the above mentioned robustness. We also evaluated the influence induced by the motion-induced dephasing and the dipole-dipole interaction and imperfection excitation induced leakage errors, which both could decrease the gate fidelity. Our scheme provides a promising route towards systematic control error (Rabi error) as well as blockade error tolerant geometric quantum computation on neutral atom system.
翻訳日:2023-02-08 17:18:40 公開日:2023-02-07
# IB-UQ:情報ボトルネックに基づく神経機能回帰と神経オペレータ学習のための不確実性定量化

IB-UQ: Information bottleneck based uncertainty quantification for neural function regression and neural operator learning ( http://arxiv.org/abs/2302.03271v1 )

ライセンス: Link先を確認
Ling Guo, Hao Wu, Wenwen Zhou, Tao Zhou(参考訳) 本稿では,ディープニューラルネットワーク(DNN)回帰とニューラル演算子学習(DeepONet)を含む,科学的機械学習タスクのための情報ボトルネック(IB-UQ)による不確実性定量化のための新しい枠組みを確立する。 具体的には, 一般非圧縮フローネットワーク(gin)モデルを用いて, 異常観測データから広帯域分布を学習した。 そして、情報ボトルネックの目的に従って、出力を予測するために使用できる潜在表現への入力から確率写像を学習する。 IB目標のトラクタブル変動境界は、正規化フロー再パラメータ化によって構成される。 したがって,確率勾配降下法を用いて目的を最適化することができる。 IB-UQは、表現変数を明示的にモデル化することにより、ラベル予測における平均値と分散値の両方を提供することができる。 多くのDNN回帰法や決定論的DeepONetと比較して、提案モデルはノイズの多いデータに基づいて訓練し、ノイズのないデータに基づいて確実な推定を行うことができる。 提案するib-uqフレームワークは,不連続関数回帰,実世界のデータセット回帰,拡散-反応偏微分方程式の非線形作用素の学習など,いくつかの代表的な例を通じて性能を示す。

In this paper, a novel framework is established for uncertainty quantification via information bottleneck (IB-UQ) for scientific machine learning tasks, including deep neural network (DNN) regression and neural operator learning (DeepONet). Specifically, we first employ the General Incompressible-Flow Networks (GIN) model to learn a "wide" distribution fromnoisy observation data. Then, following the information bottleneck objective, we learn a stochastic map from input to some latent representation that can be used to predict the output. A tractable variational bound on the IB objective is constructed with a normalizing flow reparameterization. Hence, we can optimize the objective using the stochastic gradient descent method. IB-UQ can provide both mean and variance in the label prediction by explicitly modeling the representation variables. Compared to most DNN regression methods and the deterministic DeepONet, the proposed model can be trained on noisy data and provide accurate predictions with reliable uncertainty estimates on unseen noisy data. We demonstrate the capability of the proposed IB-UQ framework via several representative examples, including discontinuous function regression, real-world dataset regression and learning nonlinear operators for diffusion-reaction partial differential equation.
翻訳日:2023-02-08 17:18:23 公開日:2023-02-07
# PLACES:社会会話合成のための言語モデルの提案

PLACES: Prompting Language Models for Social Conversation Synthesis ( http://arxiv.org/abs/2302.03269v1 )

ライセンス: Link先を確認
Maximillian Chen, Alexandros Papangelis, Chenyang Tao, Seokhwan Kim, Andy Rosenbaum, Yang Liu, Zhou Yu, Dilek Hakkani-Tur(参考訳) 高品質な会話データの収集は、ほとんどのアプリケーションにとって非常に高価であり、プライバシ、倫理的、または同様の懸念のために他のアプリケーションでは不可能である。 この問題に対処するための有望な方向は、大きな言語モデルによって合成対話を生成することである。 本研究では,専門家による会話をテキスト内例として用いて,プロンプトを用いて会話データセットを合成する。 人工会話の徹底的な評価を,人間による会話と比較して行った。 これには、合成された会話を直接評価する会話品質の様々な次元と、合成生成されたデータセットに基づいて微調整されたチャットボットの対話的人間評価が含まれる。 さらに、このプロンプトアプローチが多人数会話に一般化できることを実証し、多人数タスクのための新しい合成データを作成する可能性を示した。 人工多人数会話は、人間の収集した多人数データセットから抽出した会話の抜粋と比較して、すべての次元で好意的に評価された。

Collecting high quality conversational data can be very expensive for most applications and infeasible for others due to privacy, ethical, or similar concerns. A promising direction to tackle this problem is to generate synthetic dialogues by prompting large language models. In this work, we use a small set of expert-written conversations as in-context examples to synthesize a social conversation dataset using prompting. We perform several thorough evaluations of our synthetic conversations compared to human-collected conversations. This includes various dimensions of conversation quality with human evaluation directly on the synthesized conversations, and interactive human evaluation of chatbots fine-tuned on the synthetically generated dataset. We additionally demonstrate that this prompting approach is generalizable to multi-party conversations, providing potential to create new synthetic data for multi-party tasks. Our synthetic multi-party conversations were rated more favorably across all measured dimensions compared to conversation excerpts sampled from a human-collected multi-party dataset.
翻訳日:2023-02-08 17:18:03 公開日:2023-02-07
# グラフニューラルネットワークによる同型の数え方学習

Learning to Count Isomorphisms with Graph Neural Networks ( http://arxiv.org/abs/2302.03266v1 )

ライセンス: Link先を確認
Xingtong Yu, Zemin Liu, Yuan Fang, Xinming Zhang(参考訳) グラフに基づく多くのタスクが繰り返しグラフパターンを利用するため、グラフ上の部分グラフ同型カウントは重要な問題である。 古典的な手法は通常、計算コストを抑えながら巨大な検索スペースをナビゲートする必要があるバックトラックフレームワークに導かれる。 最近の研究では、グラフニューラルネットワーク(gnns)を使用して、クエリグラフと入力グラフの両方の低次元表現を学習し、入力グラフ上の部分グラフ同型の数を予測する。 しかし、典型的なGNNでは、ノード上のメッセージを受信して集約するノード中心のメッセージパッシング方式を採用しており、同型カウントの複雑な構造マッチングでは不十分である。 さらに、入力グラフ上では、可能なクエリグラフの空間は巨大であり、入力グラフの異なる部分が異なるクエリにマッチするようにトリガーされる。 したがって、多様な構造化クエリグラフにマッチする入力グラフの固定表現を期待することは現実的ではない。 本稿では,これらの課題に対処するため,サブグラフ同型カウントのための新しいGNNであるCount-GNNを提案する。 エッジレベルでは、エッジがグラフ構造を符号化するアトミック単位であることを考えると、エッジ上のメッセージはエッジ隣接に基づいて伝播・集約され、きめ細かい構造情報を保存できるエッジ中心のメッセージパッシングスキームを提案する。 グラフレベルでは、クエリに条件付けされた入力グラフ表現を変調し、入力グラフを各クエリに個別に適応させ、マッチングを改善する。 最後に,多数のベンチマークデータセットに対して,Count-GNNの優れた性能を示す広範囲な実験を行った。

Subgraph isomorphism counting is an important problem on graphs, as many graph-based tasks exploit recurring subgraph patterns. Classical methods usually boil down to a backtracking framework that needs to navigate a huge search space with prohibitive computational costs. Some recent studies resort to graph neural networks (GNNs) to learn a low-dimensional representation for both the query and input graphs, in order to predict the number of subgraph isomorphisms on the input graph. However, typical GNNs employ a node-centric message passing scheme that receives and aggregates messages on nodes, which is inadequate in complex structure matching for isomorphism counting. Moreover, on an input graph, the space of possible query graphs is enormous, and different parts of the input graph will be triggered to match different queries. Thus, expecting a fixed representation of the input graph to match diversely structured query graphs is unrealistic. In this paper, we propose a novel GNN called Count-GNN for subgraph isomorphism counting, to deal with the above challenges. At the edge level, given that an edge is an atomic unit of encoding graph structures, we propose an edge-centric message passing scheme, where messages on edges are propagated and aggregated based on the edge adjacency to preserve fine-grained structural information. At the graph level, we modulate the input graph representation conditioned on the query, so that the input graph can be adapted to each query individually to improve their matching. Finally, we conduct extensive experiments on a number of benchmark datasets to demonstrate the superior performance of Count-GNN.
翻訳日:2023-02-08 17:17:47 公開日:2023-02-07
# 画像認識のための単純度バイアスの深層化

Delving Deep into Simplicity Bias for Long-Tailed Image Recognition ( http://arxiv.org/abs/2302.03264v1 )

ライセンス: Link先を確認
Xiu-Shen Wei, Xuhao Sun, Yang Shen, Anqi Xu, Peng Wang, and Faen Zhang(参考訳) 単純性バイアス(Simplicity Bias, SB)は、深層ニューラルネットワークが単純な予測パターンに好意的に依存する傾向にある現象である。 本研究では,長尾画像認識におけるSBについて検討し,SBに苦しむ尾クラスがより重篤であることを示す。 本研究では, 自己教師あり学習(SSL)が, 尾部サンプルから抽出した特徴を豊かにすることにより, SBを緩和し, 教師あり学習と相補的に行うことができることを実証報告する。 しかし、標準sslメソッドはクラスの観点から固有のデータ分布を明示的に考慮せずに設計されており、ロングテールの分散データには最適ではない。 この制限に対処するため,不均衡データに適したSSL方式を提案する。 SSLを3つの多様なレベル(全体論的、部分的、拡張的レベル)で活用し、予測複雑なパターンの学習を強化し、テールデータ上で厳しいSBを克服する可能性を提供する。 5つの長尾ベンチマークデータセットにおける定量的・定性的な実験結果から,本手法はsbを効果的に軽減し,競合する最先端を著しく上回ることを示した。

Simplicity Bias (SB) is a phenomenon that deep neural networks tend to rely favorably on simpler predictive patterns but ignore some complex features when applied to supervised discriminative tasks. In this work, we investigate SB in long-tailed image recognition and find the tail classes suffer more severely from SB, which harms the generalization performance of such underrepresented classes. We empirically report that self-supervised learning (SSL) can mitigate SB and perform in complementary to the supervised counterpart by enriching the features extracted from tail samples and consequently taking better advantage of such rare samples. However, standard SSL methods are designed without explicitly considering the inherent data distribution in terms of classes and may not be optimal for long-tailed distributed data. To address this limitation, we propose a novel SSL method tailored to imbalanced data. It leverages SSL by triple diverse levels, i.e., holistic-, partial-, and augmented-level, to enhance the learning of predictive complex patterns, which provides the potential to overcome the severe SB on tail data. Both quantitative and qualitative experimental results on five long-tailed benchmark datasets show our method can effectively mitigate SB and significantly outperform the competing state-of-the-arts.
翻訳日:2023-02-08 17:17:19 公開日:2023-02-07
# 構造雑音による非対称ランク1行列のミスマッチ推定

Mismatched estimation of non-symmetric rank-one matrices corrupted by structured noise ( http://arxiv.org/abs/2302.03306v1 )

ライセンス: Link先を確認
Teng Fu, YuHao Liu, Jean Barbier, Marco Mondelli, ShanSuo Liang, TianQi Hou(参考訳) 特異値の一般分布を持つ非対称な回転不変雑音により破損したランク1信号を評価するベイズ統計学者の性能について検討した。 信号対雑音比とノイズ構造が未知であるため、ガウス系の設定を誤って仮定する。 我々は、ミスマッチしたベイズ推定器の誤差に対する正確な解析式を導出し、また、近似メッセージパッシング(AMP)アルゴリズムの解析を提供する。 第一の結果は長方形行列と低ランク行列摂動に対する球面積分の漸近挙動を利用し、第二の結果は補助的なAMPの設計と解析に依存する。 数値実験により、AMPとベイズ推定器の間には、信号ノルムの誤推定による性能ギャップがあることが示されている。

We study the performance of a Bayesian statistician who estimates a rank-one signal corrupted by non-symmetric rotationally invariant noise with a generic distribution of singular values. As the signal-to-noise ratio and the noise structure are unknown, a Gaussian setup is incorrectly assumed. We derive the exact analytic expression for the error of the mismatched Bayes estimator and also provide the analysis of an approximate message passing (AMP) algorithm. The first result exploits the asymptotic behavior of spherical integrals for rectangular matrices and of low-rank matrix perturbations; the second one relies on the design and analysis of an auxiliary AMP. The numerical experiments show that there is a performance gap between the AMP and Bayes estimators, which is due to the incorrect estimation of the signal norm.
翻訳日:2023-02-08 17:11:02 公開日:2023-02-07
# 有意義な異常検出に向けて:多変量時系列の異常調査における反事実的説明の影響

Towards Meaningful Anomaly Detection: The Effect of Counterfactual Explanations on the Investigation of Anomalies in Multivariate Time Series ( http://arxiv.org/abs/2302.03302v1 )

ライセンス: Link先を確認
Max Schemmer, Joshua Holstein, Niklas Bauer, Niklas K\"uhl, Gerhard Satzger(参考訳) まれな事象の検出は、サイバーセキュリティやメンテナンスなど、さまざまな分野において不可欠である。 しばしば、人間の専門家は異常検出システムによって支援され、データの継続的な監視はエラーを起こし、面倒な作業である。 しかし、検出された異常の中には、例えば、機械の計画的なシャットダウンのようなまれな出来事があるかもしれないが、実際の関心のある出来事、例えば機械の故障などではない。 したがって、人間の専門家は検出された異常が関連しているかどうかを検証する必要がある。 我々は,異常検出の説明を提供することにより,この異常検出を支援することを提案する。 関連する研究は、説明可能な異常検出の技術的実装のみに焦点を当て、その後の人間の異常調査を無視する。 この研究ギャップに対処するため、ニューヨーク市のタクシー乗りの記録をテストベッドとして利用して行動実験を行った。 参加者は、極端な気象イベントと、休日やスポーツイベントのような他の異常なイベントとの区別を求める。 以上の結果から, 反事実的説明の提供は異常の調査を改善させ, 一般に説明可能な異常検出の可能性を示した。

Detecting rare events is essential in various fields, e.g., in cyber security or maintenance. Often, human experts are supported by anomaly detection systems as continuously monitoring the data is an error-prone and tedious task. However, among the anomalies detected may be events that are rare, e.g., a planned shutdown of a machine, but are not the actual event of interest, e.g., breakdowns of a machine. Therefore, human experts are needed to validate whether the detected anomalies are relevant. We propose to support this anomaly investigation by providing explanations of anomaly detection. Related work only focuses on the technical implementation of explainable anomaly detection and neglects the subsequent human anomaly investigation. To address this research gap, we conduct a behavioral experiment using records of taxi rides in New York City as a testbed. Participants are asked to differentiate extreme weather events from other anomalous events such as holidays or sporting events. Our results show that providing counterfactual explanations do improve the investigation of anomalies, indicating potential for explainable anomaly detection in general.
翻訳日:2023-02-08 17:10:50 公開日:2023-02-07
# 2次元構造非依存容器アノテーションの限定誘導による3次元容器分割

3D Vessel Segmentation with Limited Guidance of 2D Structure-agnostic Vessel Annotations ( http://arxiv.org/abs/2302.03299v1 )

ライセンス: Link先を確認
Huai Chen, Xiuying Wang, Lisheng Wang(参考訳) 臨床診断や治療には3D血管の洗浄が不可欠であるが, 複雑な構造変化と画像条件の相違により困難である。 教師付き深層学習は, 自動3次元血管セグメンテーションにおいて, 優れた能力を示した。 しかし、高額な3Dマニュアルアノテーションへの依存とアノテーション再利用能力の制限は、教師付きモデルの臨床応用を妨げる。 本稿では,既存の血管アノテーションを多用した反復的かつ精巧なアノテーションを避けるために,公共の2次元血管アノテーションからの限られたガイダンスの下で,3次元血管分割のための3次元形状誘導局所識別モデルを提案する。 第一の仮説は、3Dの血管は意味論的に類似したボクセルで構成され、木の形の形態を示すことである。 Accordingly, the 3D region discrimination loss is firstly proposed to learn the discriminative representation measuring voxel-wise similarities and cluster semantically consistent voxels to form the candidate 3D vascular segmentation in unlabeled images; secondly, based on the similarity of the tree-shaped morphology between 2D and 3D vessels, the Crop-and-Overlap strategy is presented to generate reference masks from 2D structure-agnostic vessel annotations, which are fit for varied vascular structures, and the adversarial loss is introduced to guide the tree-shaped morphology of 3D vessels; thirdly, the temporal consistency loss is proposed to foster the training stability and keep the model updated smoothly. モデルの堅牢性と信頼性をさらに高めるため、指向不変CNNモジュールとReliability-Refinementアルゴリズムを提案する。 公立の3次元脳血管および3次元動脈木データセットによる実験結果から,本モデルが9つの教師付きモデルに対して同等の有効性を示した。

Delineating 3D blood vessels is essential for clinical diagnosis and treatment, however, is challenging due to complex structure variations and varied imaging conditions. Supervised deep learning has demonstrated its superior capacity in automatic 3D vessel segmentation. However, the reliance on expensive 3D manual annotations and limited capacity for annotation reuse hinder the clinical applications of supervised models. To avoid the repetitive and laborious annotating and make full use of existing vascular annotations, this paper proposes a novel 3D shape-guided local discrimination model for 3D vascular segmentation under limited guidance from public 2D vessel annotations. The primary hypothesis is that 3D vessels are composed of semantically similar voxels and exhibit tree-shaped morphology. Accordingly, the 3D region discrimination loss is firstly proposed to learn the discriminative representation measuring voxel-wise similarities and cluster semantically consistent voxels to form the candidate 3D vascular segmentation in unlabeled images; secondly, based on the similarity of the tree-shaped morphology between 2D and 3D vessels, the Crop-and-Overlap strategy is presented to generate reference masks from 2D structure-agnostic vessel annotations, which are fit for varied vascular structures, and the adversarial loss is introduced to guide the tree-shaped morphology of 3D vessels; thirdly, the temporal consistency loss is proposed to foster the training stability and keep the model updated smoothly. To further enhance the model's robustness and reliability, the orientation-invariant CNN module and Reliability-Refinement algorithm are presented. Experimental results from the public 3D cerebrovascular and 3D arterial tree datasets demonstrate that our model achieves comparable effectiveness against nine supervised models.
翻訳日:2023-02-08 17:10:34 公開日:2023-02-07
# 安定拡散による合成データ多様性によるゼロショット分類の促進

Boosting Zero-shot Classification with Synthetic Data Diversity via Stable Diffusion ( http://arxiv.org/abs/2302.03298v1 )

ライセンス: Link先を確認
Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes(参考訳) 近年の研究では、拡散モデルにより生成された合成データを用いて分類器を訓練することにより、ゼロショット分類タスクを実行できることが示されている。 しかし,この手法の性能は近年の視覚言語モデルよりも劣っている。 この理由は、合成データと実データの間にドメインギャップがあることが示唆されている。 我々の研究は、この領域ギャップが主な問題ではなく、合成データセットの多様性がより重要であることを示している。 我々は,多様性を向上させるための \textit{bag of tricks} を提案し,視覚言語モデルである clip と同等のパフォーマンスを実現する。 さらに重要なことは、この洞察により、任意の分類モデル上でゼロショット分類機能を実現することができます。

Recent research has shown it is possible to perform zero-shot classification tasks by training a classifier with synthetic data generated by a diffusion model. However, the performance of this approach is still inferior to that of recent vision-language models. It has been suggested that the reason for this is a domain gap between the synthetic and real data. In our work, we show that this domain gap is not the main issue, and that diversity in the synthetic dataset is more important. We propose a \textit{bag of tricks} to improve diversity and are able to achieve performance on par with one of the vision-language models, CLIP. More importantly, this insight allows us to endow zero-shot classification capabilities on any classification model.
翻訳日:2023-02-08 17:10:09 公開日:2023-02-07
# AutoWS:テキスト分類のための自動弱監視フレームワーク

AutoWS: Automated Weak Supervision Framework for Text Classification ( http://arxiv.org/abs/2302.03297v1 )

ライセンス: Link先を確認
Abhinav Bohra, Huy Nguyen, Devashish Khatwani(参考訳) 大規模で高品質なラベル付きデータを作成することは、機械学習アプリケーションを開発する上で大きなボトルネックとなっている。 ラベル付きデータ(ゼロショット学習、弱い監督)の依存を減らすか、ラベル付けプロセス(アクティブ学習)の効率を改善するために複数の技術が開発されている。 中でも、Weak Supervisionは、ドメインの専門家が設計した手作りのラベル付け機能を利用することで、ラベリングコストを削減することが示されている。 ドメインエキスパートへの依存を減らしながら、弱い監督プロセスの効率を高めるための新しいフレームワークであるAutoWSを提案する。 本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。 ノイズラベルは、下流の識別分類器が使用する確率ラベルに集約される。 私たちのフレームワークは完全に自動で、ユーザによるハイパーパラメータの仕様は不要です。 われわれのアプローチを、弱い監督と騒々しい訓練に関する最先端のさまざまな研究と比較する。 実験の結果,本手法は競合ベースラインよりも優れていた。

Creating large, good quality labeled data has become one of the major bottlenecks for developing machine learning applications. Multiple techniques have been developed to either decrease the dependence of labeled data (zero/few-shot learning, weak supervision) or to improve the efficiency of labeling process (active learning). Among those, Weak Supervision has been shown to reduce labeling costs by employing hand crafted labeling functions designed by domain experts. We propose AutoWS -- a novel framework for increasing the efficiency of weak supervision process while decreasing the dependency on domain experts. Our method requires a small set of labeled examples per label class and automatically creates a set of labeling functions to assign noisy labels to numerous unlabeled data. Noisy labels can then be aggregated into probabilistic labels used by a downstream discriminative classifier. Our framework is fully automatic and requires no hyper-parameter specification by users. We compare our approach with different state-of-the-art work on weak supervision and noisy training. Experimental results show that our method outperforms competitive baselines.
翻訳日:2023-02-08 17:09:56 公開日:2023-02-07
# マルチ組織セグメンテーション : 希少アノテーションによる学習パラダイムの進歩的探索

Multi-organ segmentation: a progressive exploration of learning paradigms under scarce annotation ( http://arxiv.org/abs/2302.03296v1 )

ライセンス: Link先を確認
Shiman Li, Haoran Wang, Yucong Meng, Chenxi Zhang, Zhijian Song(参考訳) 医療画像からの人体の複数の臓器や異常領域の正確な脱線は、コンピュータ支援診断、手術シミュレーション、画像誘導介入、特に放射線治療計画において重要な役割を果たす。 このように、深層学習に基づくアプローチが急速に発展し、マルチ組織セグメンテーションにおける顕著な進歩を目の当たりにした、自動セグメンテーションアプローチを検討することは極めて重要である。 しかし、複数の臓器の適切な大きさの微粒化アノテートデータセットを得ることは非常に困難で高価である。 このような希少なアノテーションは、高性能なマルチ組織セグメンテーションモデルの開発を制限するが、多くのアノテーション効率の学習パラダイムを促進する。 その中には、外部データセットを活用したトランスファーラーニング、無注釈データセットを用いた半教師付き学習、部分ラベル付きデータセットの統合などが含まれる。 まず, 従来の完全教師付き手法を概観し, 技術的, 方法論的両面から多組織セグメンテーションの文脈において, 上記の3つの学習パラダイムを包括的かつ体系的に検討し, 課題と今後の傾向をまとめる。

Precise delineation of multiple organs or abnormal regions in the human body from medical images plays an essential role in computer-aided diagnosis, surgical simulation, image-guided interventions, and especially in radiotherapy treatment planning. Thus, it is of great significance to explore automatic segmentation approaches, among which deep learning-based approaches have evolved rapidly and witnessed remarkable progress in multi-organ segmentation. However, obtaining an appropriately sized and fine-grained annotated dataset of multiple organs is extremely hard and expensive. Such scarce annotation limits the development of high-performance multi-organ segmentation models but promotes many annotation-efficient learning paradigms. Among these, studies on transfer learning leveraging external datasets, semi-supervised learning using unannotated datasets and partially-supervised learning integrating partially-labeled datasets have led the dominant way to break such dilemma in multi-organ segmentation. We first review the traditional fully supervised method, then present a comprehensive and systematic elaboration of the 3 abovementioned learning paradigms in the context of multi-organ segmentation from both technical and methodological perspectives, and finally summarize their challenges and future trends.
翻訳日:2023-02-08 17:09:39 公開日:2023-02-07
# 極小モデルを超えた位相位相の動的特徴付け

Dynamical characterization of topological phases beyond the minimal models ( http://arxiv.org/abs/2302.03295v1 )

ライセンス: Link先を確認
Xi Wu, Panpan Fang, Fuxiang Li(参考訳) 量子クエンチ力学の下での位相位相の動的特性は、強力で効率的なツールとして実証されている。 これまでの研究は、ハミルトニアンが互いに可換でクリフォード代数を満たす行列からなる系に焦点を当ててきた。 本研究では、最小モデルを超えているハミルトニアンの位相位相の特徴づけについて考察する。 具体的には、2種類の層状系の量子クエンチダイナミクスが研究され、その中のハミルトン行列はクリフォード代数を全て満足するわけではない。 他方との反共は、すべてのバンドのトポロジーを制御する共通のバンド反転曲面を持つことができるが、言い換えれば、普遍的な振る舞いはなく、ケースごとに扱う必要がある。

Dynamical characterization of topological phases under quantum quench dynamics has been demonstrated as a powerful and efficient tool. Previous studies have been focused on systems of which the Hamiltonian consists of matrices that commute with each other and satisfy Clifford algebra. In this work, we consider the characterization of topological phases with Hamiltonians that are beyond the minimal model. Specifically, the quantum quench dynamics of two types of layered systems is studied, of which the consisting matrices of Hamiltonians do not all satisfy Clifford algebra. We find that the terms which anti-commute with others can hold common band-inversion surfaces, which controls the topology of all the bands, but for other terms, there is no universal behavior and need to be treated case by case.
翻訳日:2023-02-08 17:09:15 公開日:2023-02-07
# スケーラブルなガウス過程回帰は不確実性量子化を伴うタンパク質および小分子の正確な予測を可能にする

Scalable Gaussian process regression enables accurate prediction of protein and small molecule properties with uncertainty quantitation ( http://arxiv.org/abs/2302.03294v1 )

ライセンス: Link先を確認
Jonathan Parkinson and Wei Wang(参考訳) ガウス過程(gaussian process, gp)は、不確実性の信頼できる定量化や解釈性の向上など、機械学習における回帰タスクにいくつかの利点を提供するベイズモデルである。 彼らの採用は、計算コストの過大さや、配列(アミノ酸やヌクレオチド配列など)やグラフ(小さな分子を表すものなど)の解析への適応の難しさによって先延ばしになっている。 本研究では,グラフやシーケンスサイズに線形にスケールする高速畳み込みカーネルと同様に,gpモデルに適合する効率的かつスケーラブルな手法を開発した。 xGPRと呼ばれるオープンソースのPythonライブラリを構築することで、これらの改善を実現しています。 本研究では,小分子,タンパク質配列,表データなど20種類のベンチマークにおいて,xgprの性能と各種ディープラーニングモデルの性能を比較した。 我々は,xGRPがより短いトレーニング時間で高い競争性能を発揮することを示す。 さらに、配列データとグラフデータのための新しいカーネルを開発し、xGPRがタンパク質や小分子のキー特性を予測するために畳み込みニューラルネットワークよりも一般的に優れていることを示す。 重要なことは、xGPRは典型的なディープラーニングモデルから入手できない不確実な情報を提供する。 さらにxGPRは、クラスタリングやデータの視覚化に使用できる入力データの表現を提供する。 これらの結果は、xGPRがタンパク質工学や薬物発見に広く役立つ強力で汎用的なツールを提供することを示した。

Gaussian process (GP) is a Bayesian model which provides several advantages for regression tasks in machine learning such as reliable quantitation of uncertainty and improved interpretability. Their adoption has been precluded by their excessive computational cost and by the difficulty in adapting them for analyzing sequences (e.g. amino acid and nucleotide sequences) and graphs (e.g. ones representing small molecules). In this study, we develop efficient and scalable approaches for fitting GP models as well as fast convolution kernels which scale linearly with graph or sequence size. We implement these improvements by building an open-source Python library called xGPR. We compare the performance of xGPR with the reported performance of various deep learning models on 20 benchmarks, including small molecule, protein sequence and tabular data. We show that xGRP achieves highly competitive performance with much shorter training time. Furthermore, we also develop new kernels for sequence and graph data and show that xGPR generally outperforms convolutional neural networks on predicting key properties of proteins and small molecules. Importantly, xGPR provides uncertainty information not available from typical deep learning models. Additionally, xGPR provides a representation of the input data that can be used for clustering and data visualization. These results demonstrate that xGPR provides a powerful and generic tool that can be broadly useful in protein engineering and drug discovery.
翻訳日:2023-02-08 17:09:04 公開日:2023-02-07
# Egocentric Hand-Object Interaction Videoの微粒化アノテーション

Fine-grained Affordance Annotation for Egocentric Hand-Object Interaction Videos ( http://arxiv.org/abs/2302.03292v1 )

ライセンス: Link先を確認
Zecheng Yu, Yifei Huang, Ryosuke Furuta, Takuma Yagi, Yusuke Goutsu, Yoichi Sato(参考訳) 物価は手動物体の相互作用において重要な概念であり、人間の運動能力と物体の物理的特性に基づく行動可能性の情報を提供し、行動予測やロボット模倣学習といったタスクに役立てる。 しかし、既存のデータセットにおける余裕の定義は、しばしばである。 1) 対象の機能性に合致すること 2 目標関連行動と余暇を混同すること、及び 3)人間の運動能力は無視する。 本稿では,目標非関係運動動作と把持型をラベルとして組み合わせ,2つの物体間の動作可能性を表現するための機械的動作の概念を導入することで,これらの問題に対処するための効率的なアノテーションスキームを提案する。 このスキームをepic-kitchensデータセットに適用し、アプライアンス認識、ハンドオブジェクトインタラクションホットスポット予測、アプライアンスのクロスドメイン評価といったタスクでアノテーションをテストすることにより、新しいアノテーションを提供する。 その結果、アノテーションで訓練されたモデルは、他の概念との距離を区別し、オブジェクト上のきめ細かい相互作用の可能性を予測し、異なるドメインを通して一般化できることがわかった。

Object affordance is an important concept in hand-object interaction, providing information on action possibilities based on human motor capacity and objects' physical property thus benefiting tasks such as action anticipation and robot imitation learning. However, the definition of affordance in existing datasets often: 1) mix up affordance with object functionality; 2) confuse affordance with goal-related action; and 3) ignore human motor capacity. This paper proposes an efficient annotation scheme to address these issues by combining goal-irrelevant motor actions and grasp types as affordance labels and introducing the concept of mechanical action to represent the action possibilities between two objects. We provide new annotations by applying this scheme to the EPIC-KITCHENS dataset and test our annotation with tasks such as affordance recognition, hand-object interaction hotspots prediction, and cross-domain evaluation of affordance. The results show that models trained with our annotation can distinguish affordance from other concepts, predict fine-grained interaction possibilities on objects, and generalize through different domains.
翻訳日:2023-02-08 17:08:39 公開日:2023-02-07
# アクティブ推論を用いたオブジェクト中心のシーン表現

Object-Centric Scene Representations using Active Inference ( http://arxiv.org/abs/2302.03288v1 )

ライセンス: Link先を確認
Toon Van de Maele, Tim Verbelen, Pietro Mazzaglia, Stefano Ferraro, Bart Dhoedt(参考訳) シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。 本稿では,行動と知覚のためのニューロインスパイアフレームワークであるactive inferenceを用いて,エージェントが対象のカテゴリを推論し,アロセントリックな参照フレームでポーズを取ることを可能にする階層的オブジェクト中心生成モデルを用いて,シーン理解のための新しいアプローチを提案する。 また,アクティブな視覚エージェントの動作を評価するために,特定の対象物に対する対象視点を考慮し,ランダムに位置付けられたオブジェクトを3次元に配置したワークスペースに対して最適な視点を求める必要がある。 我々は,我々の活動的推論エージェントが,食欲不振と目標駆動行動のバランスを保ち,教師付き学習ベースラインと強化学習ベースラインの両方を大きなマージンで上回ることを示す。

Representing a scene and its constituent objects from raw sensory data is a core ability for enabling robots to interact with their environment. In this paper, we propose a novel approach for scene understanding, leveraging a hierarchical object-centric generative model that enables an agent to infer object category and pose in an allocentric reference frame using active inference, a neuro-inspired framework for action and perception. For evaluating the behavior of an active vision agent, we also propose a new benchmark where, given a target viewpoint of a particular object, the agent needs to find the best matching viewpoint given a workspace with randomly positioned objects in 3D. We demonstrate that our active inference agent is able to balance epistemic foraging and goal-driven behavior, and outperforms both supervised and reinforcement learning baselines by a large margin.
翻訳日:2023-02-08 17:08:19 公開日:2023-02-07
# メタデータが科学文献タギングに及ぼす影響:クロスフィールドクロスモデルによる研究

The Effect of Metadata on Scientific Literature Tagging: A Cross-Field Cross-Model Study ( http://arxiv.org/abs/2302.03341v1 )

ライセンス: Link先を確認
Yu Zhang, Bowen Jin, Qi Zhu, Yu Meng, Jiawei Han(参考訳) Web上の科学出版物が急増しているため、各論文に詳細なトピックをタグ付けする必要があるため、研究者は文学全体に溺れ込むのではなく、研究分野を追跡できる。 科学文献のタグ付けは、Web上の論文には、場所、著者、参照といったメタデータ情報があり、関連するタグを推測するための追加の信号として機能するため、純粋なマルチラベルテキスト分類タスクを超えている。 学術論文の分類にメタデータを利用する研究があるが、その焦点は1つまたは2つの科学分野(例えば、コンピュータ科学とバイオメディシン)と1つの特定のモデルに限られている。 本研究では,19分野にわたる学術文献タグ付けにおけるメタデータの効果を体系的に研究する。 我々は,3つの代表的多言語分類器(back-of-wordsモデル,シーケンスベースモデル,事前学習言語モデル)を選択し,メタデータを分類器に供給する際の科学文献タグ付けにおける性能変化を付加的な特徴として検討する。 全ての分野にわたるメタデータの効果のユビキタスなパターン(例えば、会場は、ほぼすべてのケースにおいて、紙のタグ付けに一貫して有益である)や、コンピュータサイエンスやバイオメディシン以外の分野におけるユニークなパターンを観察した。

Due to the exponential growth of scientific publications on the Web, there is a pressing need to tag each paper with fine-grained topics so that researchers can track their interested fields of study rather than drowning in the whole literature. Scientific literature tagging is beyond a pure multi-label text classification task because papers on the Web are prevalently accompanied by metadata information such as venues, authors, and references, which may serve as additional signals to infer relevant tags. Although there have been studies making use of metadata in academic paper classification, their focus is often restricted to one or two scientific fields (e.g., computer science and biomedicine) and to one specific model. In this work, we systematically study the effect of metadata on scientific literature tagging across 19 fields. We select three representative multi-label classifiers (i.e., a bag-of-words model, a sequence-based model, and a pre-trained language model) and explore their performance change in scientific literature tagging when metadata are fed to the classifiers as additional features. We observe some ubiquitous patterns of metadata's effects across all fields (e.g., venues are consistently beneficial to paper tagging in almost all cases), as well as some unique patterns in fields other than computer science and biomedicine, which are not explored in previous studies.
翻訳日:2023-02-08 17:02:06 公開日:2023-02-07
# 部分的補正による実行マンナの学習

Learning Manner of Execution from Partial Corrections ( http://arxiv.org/abs/2302.03338v1 )

ライセンス: Link先を確認
Mattias Appelgren, Alex Lascarides(参考訳) いくつかのアクションは、コンテキストによって異なる方法で実行されなければならない。 例えば、マーカーを拭くには活力が必要ですが、アーモンドを拭くにはもっと穏やかな力が必要です。 本稿では, エージェントがどのような状況でどのような行動を実行するかを学習し, 試行錯誤による証拠を抽出し, 誤りを犯したときの言葉による訂正を行うモデルを提案する(例: ``no, gently'')。 学習者は、教師のフィードバックの言葉によって示される概念が欠けているドメインモデルから始める。 我々は,コヒーレンスのセマンティクスを通じて,教師のフィードバックを生かし,そのドメインレベルの計画問題の解決に必要なシンボルを,適切な方法で実行することができることを示す。

Some actions must be executed in different ways depending on the context. For example, wiping away marker requires vigorous force while wiping away almonds requires more gentle force. In this paper we provide a model where an agent learns which manner of action execution to use in which context, drawing on evidence from trial and error and verbal corrections when it makes a mistake (e.g., ``no, gently''). The learner starts out with a domain model that lacks the concepts denoted by the words in the teacher's feedback; both the words describing the context (e.g., marker) and the adverbs like ``gently''. We show that through the the semantics of coherence, our agent can perform the symbol grounding that's necessary for exploiting the teacher's feedback so as to solve its domain-level planning problem: to perform its actions in the current context in the right way.
翻訳日:2023-02-08 17:01:42 公開日:2023-02-07
# ユーザプライバシを意識したモバイルゲームアプリインストール予測モデルの実現に向けて

Towards a User Privacy-Aware Mobile Gaming App Installation Prediction Model ( http://arxiv.org/abs/2302.03332v1 )

ライセンス: Link先を確認
Ido Zehori, Nevo Itzhak, Yuval Shahar and Mia Dor Schiller(参考訳) 過去10年間、プログラム型広告はオンライン広告業界で大きな注目を集めてきた。 リアルタイム入札(RTB)システムは、オンライン広告インプレッションを売買する最も一般的な方法になりつつある。 RTBシステム内では、需要側プラットフォーム(DSP)は、広告主のキャンペーン予算を効率よく消費し、利益を最大化し、クリックやインストールのような高いユーザー反応をもたらすインプレッションを求める。 本研究では,モバイルゲームアプリのインストールを特定のDSPの観点から予測し,ユーザのプライバシに注意を払って,プライバシ保護とモデルパフォーマンスのトレードオフを探るプロセスについて検討する。 データ変換や匿名化など、データ共有プロセスに関連するプライバシリークに依存するため、ユーザプライバシに対する潜在的な脅威には、さまざまなレベルがあります。 これらの懸念に対処するため、プライバシーを意識した機械学習モデルをトレーニングするための暗号アプローチのようなプライバシー保護技術が提案された。 しかし、ユーザレベルのデータを使用しないモバイルゲームアプリのインストール予測モデルをトレーニングする能力は、予測能力に障害があったとしても、これらの脅威を防止し、ユーザのプライバシを保護することができる。 さらに、現在の法律では、企業はデータ収集を宣言し、ユーザーレベルのデータの収集と利用に依存するデジタル広告における企業のビジネスモデルを脅かすようなデータ収集からオプトアウトするオプションをユーザーに与えることさえあるかもしれない。 プライバシを意識したモデルは依然として重要な機能を保持しており、企業はそれぞれのケースのプライバシー効率のトレードオフユーティリティ機能に依存して、より良い意思決定をすることができる。

Over the past decade, programmatic advertising has received a great deal of attention in the online advertising industry. A real-time bidding (RTB) system is rapidly becoming the most popular method to buy and sell online advertising impressions. Within the RTB system, demand-side platforms (DSP) aim to spend advertisers' campaign budgets efficiently while maximizing profit, seeking impressions that result in high user responses, such as clicks or installs. In the current study, we investigate the process of predicting a mobile gaming app installation from the point of view of a particular DSP, while paying attention to user privacy, and exploring the trade-off between privacy preservation and model performance. There are multiple levels of potential threats to user privacy, depending on the privacy leaks associated with the data-sharing process, such as data transformation or de-anonymization. To address these concerns, privacy-preserving techniques were proposed, such as cryptographic approaches, for training privacy-aware machine-learning models. However, the ability to train a mobile gaming app installation prediction model without using user-level data, can prevent these threats and protect the users' privacy, even though the model's ability to predict may be impaired. Additionally, current laws might force companies to declare that they are collecting data, and might even give the user the option to opt out of such data collection, which might threaten companies' business models in digital advertising, which are dependent on the collection and use of user-level data. We conclude that privacy-aware models might still preserve significant capabilities, enabling companies to make better decisions, dependent on the privacy-efficacy trade-off utility function of each case.
翻訳日:2023-02-08 17:01:26 公開日:2023-02-07
# 量子クエンチ後の対称性回復の欠如:絡み合い非対称性の研究

Lack of symmetry restoration after a quantum quench: an entanglement asymmetry study ( http://arxiv.org/abs/2302.03330v1 )

ライセンス: Link先を確認
Filiberto Ares, Sara Murciano, Eric Vernier, Pasquale Calabrese(参考訳) 我々は、傾いた N'eel 状態から始まるXXスピン鎖の量子クエンチを、ポストクエンチハミルトニアンの$U(1)$対称性を明示的に破ると考える。 非常に驚くべきことに、u(1)$対称性は、すべての電荷が壊れる非可換な集合を活性化するため、大々的に復元されない。 対称性の破れは、最近導入された絡み合い非対称性によって効果的に定量的に特徴づけられる。 正確な計算と準粒子画像の議論を組み合わせることで、クエンチ後いつでも非対称性の挙動を正確に記述することができる。 さらに、定常挙動は非アーベル一般化ギブスアンサンブルによって完全に捕捉されることを示す。 我々の計算は相互作用しないスピン鎖に対して行われたが、この場合でも非アベル電荷が存在するため、相互作用の場合も同様の結果が期待できる。

We consider the quantum quench in the XX spin chain starting from a tilted N\'eel state which explicitly breaks the $U(1)$ symmetry of the post-quench Hamiltonian. Very surprisingly, the $U(1)$ symmetry is not restored at large time because of the activation of a non-abelian set of charges which all break it. The breaking of the symmetry can be effectively and quantitatively characterised by the recently introduced entanglement asymmetry. By a combination of exact calculations and quasi-particle picture arguments, we are able to exactly describe the behaviour of the asymmetry at any time after the quench. Furthermore we show that the stationary behaviour is completely captured by a non-abelian generalised Gibbs ensemble. While our computations have been performed for a non-interacting spin chain, we expect similar results to hold for the interacting case as well because of the presence of non-abelian charges also in that case.
翻訳日:2023-02-08 17:00:58 公開日:2023-02-07
# 強化学習によるマルチタスク勧告

Multi-Task Recommendations with Reinforcement Learning ( http://arxiv.org/abs/2302.03328v1 )

ライセンス: Link先を確認
Ziru Liu, Jiejie Tian, Qingpeng Cai, Xiangyu Zhao, Jingtong Gao, Shuchang Liu, Dayou Chen, Tonghao He, Dong Zheng, Peng Jiang, Kun Gai(参考訳) 近年,マルチタスク学習 (MTL) はRecommender System (RS) アプリケーションにおいて大きな成功を収めている。 しかしながら、現在のMTLベースのレコメンデーションモデルは、アイテム単位のデータセットに基づいて主に構築されるため、ユーザ-イテムインタラクションのセッションワイドパターンを無視する傾向にある。 さらに、この分野では、複数の目的のバランスをとることが常に課題であり、これは通常、既存の作業における線形推定によって避けられる。 これらの課題に対処するため,本稿では,動的重みを用いた推薦タスクの損失を組み合わせ,強化学習(Reinforcement Learning, RL)強化MTLフレームワーク,すなわちRMTLを提案する。 具体的には、RMTL構造は上記の2つの問題に対処することができる。 (i)セッション間相互作用からmtl環境を構築すること、及び (II)既存のMTLベースレコメンデーションモデルと互換性のあるマルチタスクアクター批判ネットワーク構造をトレーニングすること。 (iii)批評家ネットワークによる重み付けを用いたmtl損失関数の最適化と微調整 2つの実世界の公開データセットの実験は、最先端のMTLベースのレコメンデーションモデルに対する高いAUCによるRMTLの有効性を示す。 さらに, RMTL の互換性と, 様々な MTL モデル間の転送性を評価し, 評価する。

In recent years, Multi-task Learning (MTL) has yielded immense success in Recommender System (RS) applications. However, current MTL-based recommendation models tend to disregard the session-wise patterns of user-item interactions because they are predominantly constructed based on item-wise datasets. Moreover, balancing multiple objectives has always been a challenge in this field, which is typically avoided via linear estimations in existing works. To address these issues, in this paper, we propose a Reinforcement Learning (RL) enhanced MTL framework, namely RMTL, to combine the losses of different recommendation tasks using dynamic weights. To be specific, the RMTL structure can address the two aforementioned issues by (i) constructing an MTL environment from session-wise interactions and (ii) training multi-task actor-critic network structure, which is compatible with most existing MTL-based recommendation models, and (iii) optimizing and fine-tuning the MTL loss function using the weights generated by critic networks. Experiments on two real-world public datasets demonstrate the effectiveness of RMTL with a higher AUC against state-of-the-art MTL-based recommendation models. Additionally, we evaluate and validate RMTL's compatibility and transferability across various MTL models.
翻訳日:2023-02-08 17:00:43 公開日:2023-02-07
# 敵対的マイノリティ・インフルエンスによる協調型マルチエージェント強化学習

Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence ( http://arxiv.org/abs/2302.03322v1 )

ライセンス: Link先を確認
Simin Li, Jun Guo, Jingqiao Xiu, Pu Feng, Xin Yu, Jiakai Wang, Aishan Liu, Wenjun Wu, Xianglong Liu(参考訳) 協調型マルチエージェント強化学習(c-MARL)は、エージェント集団が個々の決定をすることで共通の目標を達成するための一般的なパラダイムを提供する。 有害だが、逆攻撃はc-marlアルゴリズムの頑健さを評価し、盲点を見つける上で重要な役割を果たす。 しかし、既存の攻撃は十分に強力で実用的なものではなく、主にc-MARLにおけるエージェント間の複雑な影響と被害者の協調的な性質の欠如によるものである。 本稿では,敵対的マイノリティ・インフルエンス (AMI) を提案する。 AMIは、上記の問題に対処するため、一方的に他の協力的被害者に最悪の協力を迫られる。 技術的には、複雑なエージェント的な影響の下で被害者の政策を最大限に逸脱させるために、我々の一方的な攻撃は敵から被害者への影響を特徴づけ、最大化する。 これは、被害者から敵への有害な影響を除去する、相互情報から導かれる一方的なエージェント・ワイド・リレーション・メトリックを適用することによって行われる。 被害者を欺くために、ターゲットとする攻撃は、被害者を特定のターゲットに遠ざけることによって、長期的な協力的かつ最悪のケースに被害者に影響を与える。 このようなターゲットは、強化学習エージェントによって試行錯誤のプロセスで学習される。 離散制御(SMAC)、連続制御(MAMujoco)、実世界のロボット群制御を含むシミュレーション環境における大規模な実験は、我々のAMIアプローチの優位性を示している。 私たちのコードはhttps://anonymous.4open.science/r/AMIで利用可能です。

Cooperative multi-agent reinforcement learning (c-MARL) offers a general paradigm for a group of agents to achieve a shared goal by taking individual decisions, yet is found to be vulnerable to adversarial attacks. Though harmful, adversarial attacks also play a critical role in evaluating the robustness and finding blind spots of c-MARL algorithms. However, existing attacks are not sufficiently strong and practical, which is mainly due to the ignorance of complex influence between agents and cooperative nature of victims in c-MARL. In this paper, we propose adversarial minority influence (AMI), the first practical attack against c-MARL by introducing an adversarial agent. AMI addresses the aforementioned problems by unilaterally influencing other cooperative victims to a targeted worst-case cooperation. Technically, to maximally deviate victim policy under complex agent-wise influence, our unilateral attack characterize and maximize the influence from adversary to victims. This is done by adapting a unilateral agent-wise relation metric derived from mutual information, which filters out the detrimental influence from victims to adversary. To fool victims into a jointly worst-case failure, our targeted attack influence victims to a long-term, cooperatively worst case by distracting each victim to a specific target. Such target is learned by a reinforcement learning agent in a trial-and-error process. Extensive experiments in simulation environments, including discrete control (SMAC), continuous control (MAMujoco) and real-world robot swarm control demonstrate the superiority of our AMI approach. Our codes are available in https://anonymous.4open.science/r/AMI.
翻訳日:2023-02-08 17:00:23 公開日:2023-02-07
# オンライン学習を改善するためのデモの活用 - 品質上の問題

Leveraging Demonstrations to Improve Online Learning: Quality Matters ( http://arxiv.org/abs/2302.03319v1 )

ライセンス: Link先を確認
Botao Hao, Rahul Jain, Tor Lattimore, Benjamin Van Roy, Zheng Wen(参考訳) オフラインデモデータがオンライン学習をいかに改善できるかを検討する。 改善を期待するのは当然ですが、問題なのは、どのように、そしてどの程度で? 改善の度合いは実演データの品質に左右されることが示されている。 ポータブルな洞察を生み出すために,多腕バンディットに適用したトンプソンサンプリング (ts) に着目し,オンライン学習アルゴリズムとモデルを開発した。 デモデータは、与えられた能力レベル、つまり導入する概念を持つ専門家によって生成される。 本稿では,ベイズの規則を通したコヒーレントな方法で実演データを活用し,事前依存ベイズ後悔境界を導出するインフォームドtsアルゴリズムを提案する。 これにより、事前トレーニングがオンラインパフォーマンスを大幅に向上させる方法と、専門家の能力レベルによって改善の度合いが向上する方法についての洞察が得られる。 また,実用的で近似的なtsアルゴリズムをベイズブートストラップを用いて開発し,実験による経験的後悔の軽減を示す。

We investigate the extent to which offline demonstration data can improve online learning. It is natural to expect some improvement, but the question is how, and by how much? We show that the degree of improvement must depend on the quality of the demonstration data. To generate portable insights, we focus on Thompson sampling (TS) applied to a multi-armed bandit as a prototypical online learning algorithm and model. The demonstration data is generated by an expert with a given competence level, a notion we introduce. We propose an informed TS algorithm that utilizes the demonstration data in a coherent way through Bayes' rule and derive a prior-dependent Bayesian regret bound. This offers insight into how pretraining can greatly improve online performance and how the degree of improvement increases with the expert's competence level. We also develop a practical, approximate informed TS algorithm through Bayesian bootstrapping and show substantial empirical regret reduction through experiments.
翻訳日:2023-02-08 16:59:53 公開日:2023-02-07
# PAMI: モデル解釈のための分割入力と集約出力

PAMI: partition input and aggregate outputs for model interpretation ( http://arxiv.org/abs/2302.03318v1 )

ライセンス: Link先を確認
Wei Shi, Wentao Zhang, Ruixuan Wang(参考訳) 特にリスクの高いアプリケーションでは,モデル予測の解釈に対する需要が高まっている。 特定のモデル予測に関連する入力の一部を推定するために,様々な可視化手法が提案されている。 しかし、ほとんどのアプローチは視覚化結果を得るためにモデル構造とパラメータの詳細を必要とし、一般に、モデルバックボーンと入力形式がタスクによって変化する場合、各アプローチを複数のタスクに適応させるのに多くの努力が必要である。 本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれる単純な視覚化フレームワークを提案する。 基本的な考え方は、入力の大部分をマスキングし、元のモデル予測に対する保存された入力部の相対的貢献として対応するモデル出力を使用することである。 各入力に対して、モデル出力の集合のみが収集され集約されるため、PAMIはモデルの詳細を一切必要とせず、異なるモデルバックボーンと入力形式で様々な予測タスクに適用できる。 複数のタスクに対する大規模な実験により,提案手法はクラス固有の入力領域をより正確に見つけることができ,異なるモデルバックボーンや入力形式に適用できる。 ソースコードは公開される予定だ。

There is an increasing demand for interpretation of model predictions especially in high-risk applications. Various visualization approaches have been proposed to estimate the part of input which is relevant to a specific model prediction. However, most approaches require model structure and parameter details in order to obtain the visualization results, and in general much effort is required to adapt each approach to multiple types of tasks particularly when model backbone and input format change over tasks. In this study, a simple yet effective visualization framework called PAMI is proposed based on the observation that deep learning models often aggregate features from local regions for model predictions. The basic idea is to mask majority of the input and use the corresponding model output as the relative contribution of the preserved input part to the original model prediction. For each input, since only a set of model outputs are collected and aggregated, PAMI does not require any model detail and can be applied to various prediction tasks with different model backbones and input formats. Extensive experiments on multiple tasks confirm the proposed method performs better than existing visualization approaches in more precisely finding class-specific input regions, and when applied to different model backbones and input formats. The source code will be released publicly.
翻訳日:2023-02-08 16:59:36 公開日:2023-02-07
# 構造化潜在変数モデルに対するフェデレーション変分推定法

Federated Variational Inference Methods for Structured Latent Variable Models ( http://arxiv.org/abs/2302.03314v1 )

ライセンス: Link先を確認
Conor Hassan, Robert Salomone, Kerrie Mengersen(参考訳) フェデレーション学習法(federated learning method)とは、異なるソースにまたがるデータを使用してモデルトレーニングを行う方法であり、同時にデータが元のソースを離れない方法である。 しかし、この関心にもかかわらず、容易に適用可能で十分に一般的なアプローチが利用できるモデルのクラスは、多くの構造化確率モデルを除いて限定的である。 我々は,上記の問題に対する一般論とエレガントな解決を提示する。 このアプローチは、ベイズ機械学習で広く使われている構造的変動推論をフェデレートされた設定に適用することに基づいている。 さらに、標準FedAvgアルゴリズムに類似した通信効率のよい変種を探索する。 提案アルゴリズムの有効性を実証し,ベイズ多項回帰,トピックモデリング,混合モデル例と比較した。

Federated learning methods, that is, methods that perform model training using data situated across different sources, whilst simultaneously not having the data leave their original source, are of increasing interest in a number of fields. However, despite this interest, the classes of models for which easily-applicable and sufficiently general approaches are available is limited, excluding many structured probabilistic models. We present a general yet elegant resolution to the aforementioned issue. The approach is based on adopting structured variational inference, an approach widely used in Bayesian machine learning, to the federated setting. Additionally, a communication-efficient variant analogous to the canonical FedAvg algorithm is explored. The effectiveness of the proposed algorithms are demonstrated, and their performance is compared on Bayesian multinomial regression, topic modelling, and mixed model examples.
翻訳日:2023-02-08 16:59:15 公開日:2023-02-07
# 高速駆動オットーサイクルのゆらぎと安定性

Fluctuations and stability of a fast driven Otto cycle ( http://arxiv.org/abs/2302.03309v1 )

ライセンス: Link先を確認
Ana Laura Gramajo, Elisabetta Paladino, Jukka Pekola, Rosario Fazio(参考訳) 高速駆動オットーサイクルによって実現される熱機械の確率力学について検討する。 確率的アプローチを用いることで,系のコヒーレンスが熱力学的電流に依存するゆらぎに強く影響することがわかった。 具体的には,冷浴と熱交換する場合のシステム不安定度の増加を観測する。 逆に、熱力学的変動が古典的熱力学不確実性関係の限界以下に減少する熱湯とシステムが結合すると、サイクル精度が向上する。 古典的境界の違反は、デファーズソースがシステムと結合するときにも成立する。 また,コヒーレンス抑制はサイクル冷却を回復するだけでなく,逆過程のエントロピー生成を増大させることで変動関係の収束を高めることも見出した。 さらなる分析により、適切な統計値を確保するのに必要な確率的サンプリングが冷却サイクルで増加し、他のプロトコルでは小さくなることが明らかになった。 モデルが単純であるにもかかわらず、この結果は確率レベルでの熱力学的関係についてさらなる洞察を与える。

We investigate the stochastic dynamics of a thermal machine realized by a fast-driven Otto cycle. By employing a stochastic approach, we find that system coherences strongly affect fluctuations depending on the thermodynamic current. Specifically, we observe an increment in the system instabilities when considering the heat exchanged with the cold bath. On the contrary, the cycle precision improves when the system couples with the hot bath, where thermodynamic fluctuations reduce below the classical Thermodynamic Uncertainty Relation bound. Violation of the classical bound holds even when a dephasing source couples with the system. We also find that coherence suppression not only restores the cycle cooling but also enhances the convergence of fluctuation relations by increasing the entropy production of the reversed process. An additional analysis unveiled that the stochastic sampling required to ensure good statistics increases for the cooling cycle while downsizes for the other protocols. Despite the simplicity of our model, our results provide further insight into thermodynamic relations at the stochastic level.
翻訳日:2023-02-08 16:59:01 公開日:2023-02-07
# 平均フィールドゲームにおける集団サイズ対応ポリシー最適化

Population-size-Aware Policy Optimization for Mean-Field Games ( http://arxiv.org/abs/2302.03364v1 )

ライセンス: Link先を確認
Pengdeng Li, Xinrun Wang, Shuxin Li, Hau Chan, Bo An(参考訳) 本研究では, エージェントの最適ポリシーが, 平均場ゲームにおけるエージェント数(集団サイズ)とともにどのように進化するかを研究することによって, 有限エージェントゲームと無限エージェントゲームの二分野を橋渡ししようとする。 この目的のために、人口の大きさの異なる有限エージェントゲームの集合の最適ポリシーを得ることが前提である。 しかし、各ゲームに対するクローズドフォームソリューションの導出は理論的に難解であり、各ゲームに対する個別のポリシーの訓練は計算集約的であり、ゲームで訓練されたポリシーを他のゲームに適用することは最適ではない。 本稿では,人口規模対応政策最適化(PAPO)を通じて,これらの課題に対処する。 私たちの貢献は3倍です。 まず,人口規模が異なるゲームに対する効率的なポリシーを効率的に作成するために,2つの自然なオプション(オーグメンテーションとハイパーネットワーク)を統一し,より優れたパフォーマンスを実現するpapoを提案する。 PAPOは3つのコンポーネントから構成される。 一 集団規模の本来の価値を、訓練の崩壊を避けるために等価なエンコーディングに変換する人口規模エンコーディング 二 人口規模を条件とした各ゲームごとに個別の方針を作成するためのハイパーネットワーク 三 発生した政策に対する追加の入力としての人口規模 次に,人口規模が異なる複数のゲームからデータをサンプリングすることにより,PAPOのニューラルネットワークを効率的にトレーニングするためのマルチタスクベースのトレーニング手順を構築する。 最後に、複数の環境における広範な実験により、PAPOがベースラインよりも優れていることが示され、生成されたポリシーの進化の分析により、有限エージェントゲームと無限エージェントゲームの2つの分野の理解がさらに深まる。

In this work, we attempt to bridge the two fields of finite-agent and infinite-agent games, by studying how the optimal policies of agents evolve with the number of agents (population size) in mean-field games, an agent-centric perspective in contrast to the existing works focusing typically on the convergence of the empirical distribution of the population. To this end, the premise is to obtain the optimal policies of a set of finite-agent games with different population sizes. However, either deriving the closed-form solution for each game is theoretically intractable, training a distinct policy for each game is computationally intensive, or directly applying the policy trained in a game to other games is sub-optimal. We address these challenges through the Population-size-Aware Policy Optimization (PAPO). Our contributions are three-fold. First, to efficiently generate efficient policies for games with different population sizes, we propose PAPO, which unifies two natural options (augmentation and hypernetwork) and achieves significantly better performance. PAPO consists of three components: i) the population-size encoding which transforms the original value of population size to an equivalent encoding to avoid training collapse, ii) a hypernetwork to generate a distinct policy for each game conditioned on the population size, and iii) the population size as an additional input to the generated policy. Next, we construct a multi-task-based training procedure to efficiently train the neural networks of PAPO by sampling data from multiple games with different population sizes. Finally, extensive experiments on multiple environments show the significant superiority of PAPO over baselines, and the analysis of the evolution of the generated policies further deepens our understanding of the two fields of finite-agent and infinite-agent games.
翻訳日:2023-02-08 16:53:21 公開日:2023-02-07
# 固体電気化学インピーダンススペクトルによる等価回路モデルの分類のための機械学習ベンチマーク

Machine learning benchmarks for the classification of equivalent circuit models from solid-state electrochemical impedance spectra ( http://arxiv.org/abs/2302.03362v1 )

ライセンス: Link先を確認
Joachim Schaeffer, Paul Gasper, Esteban Garcia-Tamayo, Raymond Gasper, Masaki Adachi, Juan Pablo Gaviria-Cardona, Simon Montoya-Bedoya, Anoushka Bhutani, Andrew Schiek, Rhys Goodall, Rolf Findeisen, Richard D. Braatz and Simon Engelke(参考訳) 電気化学系の電気化学インピーダンス分光(EIS)データの解析は、専門知識を用いて等価回路モデル(ECM)を定義し、モデルパラメータを最適化して様々な抵抗、容量、誘導、拡散応答を解離させる。 小さなデータセットでは、この手順を手動で行うことができるが、広範囲のEIS応答を持つデータセットに対して、手動で適切なECMを定義することは不可能である。 ECMの自動識別は、大規模なEISデータの解析を大幅に高速化する。 本稿では、batterydevハッカソンで開発された機械学習手法を紹介し、quantumscapeが提供する9,300のeis測定値のecmsを分類する。 最も優れたアプローチは、ライブラリーを利用した勾配木モデルを用いて特徴を自動的に生成し、続いて生スペクトルデータを用いたランダム森林モデルである。 ニキスト表現のブール画像を用いた畳み込みニューラルネットワークを代替として提示するが、精度は低い。 データを公開し、関連するコードをオープンソース化します。 この記事に記載されたアプローチは、さらなる研究のベンチマークとして役立ちます。 残る重要な課題は、ラベルには不確実性と人間のバイアスが含まれており、トレーニングされたモデルのパフォーマンスによって引き起こされる。

Analysis of Electrochemical Impedance Spectroscopy (EIS) data for electrochemical systems often consists of defining an Equivalent Circuit Model (ECM) using expert knowledge and then optimizing the model parameters to deconvolute various resistance, capacitive, inductive, or diffusion responses. For small data sets, this procedure can be conducted manually; however, it is not feasible to manually define a proper ECM for extensive data sets with a wide range of EIS responses. Automatic identification of an ECM would substantially accelerate the analysis of large sets of EIS data. Here, we showcase machine learning methods developed during the BatteryDEV hackathon to classify the ECMs of 9,300 EIS measurements provided by QuantumScape. The best-performing approach is a gradient-boosted tree model utilizing a library to automatically generate features, followed by a random forest model using the raw spectral data. A convolutional neural network using boolean images of Nyquist representations is presented as an alternative, although it achieves a lower accuracy. We publish the data and open source the associated code. The approaches described in this article can serve as benchmarks for further studies. A key remaining challenge is that the labels contain uncertainty and human bias, underlined by the performance of the trained models.
翻訳日:2023-02-08 16:52:53 公開日:2023-02-07
# 機械学習におけるデータ中心的アプローチのコンセプトモデル

A conceptual model for leaving the data-centric approach in machine learning ( http://arxiv.org/abs/2302.03361v1 )

ライセンス: Link先を確認
Sebastian Scher, Bernhard Geiger, Simone Kopeinik, Andreas Tr\"ugler, Dominik Kowald(参考訳) 機械学習(ML)は、長い間、周囲の設定に依存しないデータから関係を学習する抽象的な問題と見なされてきた。 これは最近問題視され、機械学習モデルに外部制約を含む方法が提案されている。 これらの手法は通常、MLの公平性の分野におけるデバイアスアルゴリズムや、物理学や工学の分野における物理的制約など、アプリケーション固有の分野から来る。 本稿では,これらのアプローチを共通言語で統一する概念的ハイレベルモデルを提案し,議論する。 これにより、異なるフィールドと異なるメソッド間の交換を可能にし、MLモデルに外部制約を含め、純粋にデータ中心のアプローチを残すことを期待しています。

For a long time, machine learning (ML) has been seen as the abstract problem of learning relationships from data independent of the surrounding settings. This has recently been challenged, and methods have been proposed to include external constraints in the machine learning models. These methods usually come from application-specific fields, such as de-biasing algorithms in the field of fairness in ML or physical constraints in the fields of physics and engineering. In this paper, we present and discuss a conceptual high-level model that unifies these approaches in a common language. We hope that this will enable and foster exchange between the different fields and their different methods for including external constraints into ML models, and thus leaving purely data-centric approaches.
翻訳日:2023-02-08 16:52:31 公開日:2023-02-07
# deep-osg:半群のオペレータの家族を近似して未知の自律系をモデル化するディープラーニングアプローチ

Deep-OSG: A deep learning approach for approximating a family of operators in semigroup to model unknown autonomous systems ( http://arxiv.org/abs/2302.03358v1 )

ライセンス: Link先を確認
Junfeng Chen, Kailiang Wu(参考訳) 本稿では,様々な時間ラグで収集された時系列データを用いて,進化演算子を近似し未知の自律力学系をモデル化する,新しいディープラーニング手法を提案する。 T. Qin, K. Wu, D. Xiu, J. Comput. Phys., 395:620--635, 2019], [K. Wu and D. Xiu, J. Comput. Phys., 408:109307, 2020], [Z. Chen, V. Churchill, K. Wu, and D. Xiu, J. Comput. Phys., 449:110782, 2022]の続編である。 本稿では,自律システムの半群を構成する可変時間ステップを持つ進化演算子のファミリーを学習することを目的とする。 半群の性質は非常に重要であり、システムの進化的挙動を様々な時間スケールで関連付けるが、以前の研究では考慮されなかった。 本稿では,新しいニューラルネットワークアーキテクチャと新たな損失関数を用いて,半群特性をデータ駆動学習プロセスに組み込むフレームワークを初めて提案する。 このフレームワークは非常に実現可能で、任意の適切なニューラルネットワークと組み合わせることができ、一般的な自律的ODEやPDEの学習に適用できる。 提案手法の予測精度と頑健性を理解するために, 厳密な誤差推定と分散分析を行い, 半群認識の利点を示した。 さらに,本手法では,予測のための時間ステップを任意に選択し,予測結果の自己整合性と一貫性を確保する。 大規模数値実験により, 半群特性の埋め込みは深層学習モデルのデータの依存性を顕著に低減し, 長期予測の精度, 堅牢性, 安定性を大幅に向上させることが示された。

This paper proposes a novel deep learning approach for approximating evolution operators and modeling unknown autonomous dynamical systems using time series data collected at varied time lags. It is a sequel to the previous works [T. Qin, K. Wu, and D. Xiu, J. Comput. Phys., 395:620--635, 2019], [K. Wu and D. Xiu, J. Comput. Phys., 408:109307, 2020], and [Z. Chen, V. Churchill, K. Wu, and D. Xiu, J. Comput. Phys., 449:110782, 2022], which focused on learning single evolution operator with a fixed time step. This paper aims to learn a family of evolution operators with variable time steps, which constitute a semigroup for an autonomous system. The semigroup property is very crucial and links the system's evolutionary behaviors across varying time scales, but it was not considered in the previous works. We propose for the first time a framework of embedding the semigroup property into the data-driven learning process, through a novel neural network architecture and new loss functions. The framework is very feasible, can be combined with any suitable neural networks, and is applicable to learning general autonomous ODEs and PDEs. We present the rigorous error estimates and variance analysis to understand the prediction accuracy and robustness of our approach, showing the remarkable advantages of semigroup awareness in our model. Moreover, our approach allows one to arbitrarily choose the time steps for prediction and ensures that the predicted results are well self-matched and consistent. Extensive numerical experiments demonstrate that embedding the semigroup property notably reduces the data dependency of deep learning models and greatly improves the accuracy, robustness, and stability for long-time prediction.
翻訳日:2023-02-08 16:52:19 公開日:2023-02-07
# 時系列コントラスト学習の改善に向けて:動的に悪いペアマイニングアプローチ

Towards Better Time Series Contrastive Learning: A Dynamic Bad Pair Mining Approach ( http://arxiv.org/abs/2302.03357v1 )

ライセンス: Link先を確認
Xiang Lan, Hanshu Yan, Shenda Hong, Mengling Feng(参考訳) すべての正のペアが時系列の対比学習に有益ではない。 本稿では,比較学習によって学習した時系列表現の質を損なう2種類の悪い正の対(すなわち,雑音の多い正の対と不良な正の対)について検討する。 ノイズの正のペアが存在すると、モデルが単にノイズのパターン(ノイズのアライメント)を学ぶ傾向があることが分かる。 一方、欠陥のある正のペアが発生すると、モデルは非表現パターン(デフォルトアライメント)の調整にかなりの労力を費やす。 この問題に対処するために,時系列コントラスト学習における悪い正のペアを確実に識別し,抑制する動的バッドペアマイニング(DBPM)アルゴリズムを提案する。 DBPMはメモリモジュールを使用して、トレーニングプロセスに沿って各正のペアのトレーニング動作を追跡する。 これにより,過去のトレーニング行動に基づいて,各時代における潜在的な悪質なペアを識別することが可能になります。 識別された悪いペアは変換モジュールを使用してダウンウェイトされる。 実験の結果,DBPMは悪いペアの負の影響を効果的に軽減し,最先端手法の性能向上のためのプラグインとして容易に利用できることがわかった。 コードは公開される予定だ。

Not all positive pairs are beneficial to time series contrastive learning. In this paper, we study two types of bad positive pairs that impair the quality of time series representation learned through contrastive learning ($i.e.$, noisy positive pair and faulty positive pair). We show that, with the presence of noisy positive pairs, the model tends to simply learn the pattern of noise (Noisy Alignment). Meanwhile, when faulty positive pairs arise, the model spends considerable efforts aligning non-representative patterns (Faulty Alignment). To address this problem, we propose a Dynamic Bad Pair Mining (DBPM) algorithm, which reliably identifies and suppresses bad positive pairs in time series contrastive learning. DBPM utilizes a memory module to track the training behavior of each positive pair along training process. This allows us to identify potential bad positive pairs at each epoch based on their historical training behaviors. The identified bad pairs are then down-weighted using a transformation module. Our experimental results show that DBPM effectively mitigates the negative impacts of bad pairs, and can be easily used as a plug-in to boost performance of state-of-the-art methods. Codes will be made publicly available.
翻訳日:2023-02-08 16:51:38 公開日:2023-02-07
# AMFPMC -- 既知の薬物・薬物相互作用のみを用いた薬物・薬物相互作用の多種間検出法の改良

AMFPMC -- An improved method of detecting multiple types of drug-drug interactions using only known drug-drug interactions ( http://arxiv.org/abs/2302.03355v1 )

ライセンス: Link先を確認
Bar Vered and Guy Shtar and Lior Rokach and Bracha Shapira(参考訳) 逆薬の相互作用は、主に医療事故の予防可能な原因であり、しばしば医師や救急室で遭遇する。 実験室における薬物の相互作用の検出は、薬物が医療に使用される前に必須であるが、費用がかかり、時間がかかる。 機械学習技術は、薬物-薬物相互作用の可能性を予測する効率的かつ正確な手段を提供し、有害薬物相互作用の増大問題に対処することができる。 相互作用を予測するための既存のモデルのほとんどは、薬物の化学的性質に依存する。 そのようなモデルは正確であるが、必要な特性が常に利用可能とは限らない。

Adverse drug interactions are largely preventable causes of medical accidents, which frequently result in physician and emergency room encounters. The detection of drug interactions in a lab, prior to a drug's use in medical practice, is essential, however it is costly and time-consuming. Machine learning techniques can provide an efficient and accurate means of predicting possible drug-drug interactions and combat the growing problem of adverse drug interactions. Most existing models for predicting interactions rely on the chemical properties of drugs. While such models can be accurate, the required properties are not always available.
翻訳日:2023-02-08 16:51:17 公開日:2023-02-07
# 単語感覚について言語モデルは何を知っているか? 言語モデルとドメインインベントリによるゼロショットWSD

What do Language Models know about word senses? Zero-Shot WSD with Language Models and Domain Inventories ( http://arxiv.org/abs/2302.03353v1 )

ライセンス: Link先を確認
Oscar Sainz, Oier Lopez de Lacalle, Eneko Agirre and German Rigau(参考訳) 言語モデルは、今日のほぼすべての自然言語処理システムの中核である。 彼らの特徴の1つは文脈化された表現であり、単語感覚間の曖昧さが必要なときにゲームチェンジャー機能である。 本稿では,言語モデルが推論時における感覚の識別能力について検討する。 本研究では, BERT や RoBERTa などの一般的な言語モデルにWord Sense Disambiguation (WSD) の実行を促すことで, この分析を行った。 我々は、単語感覚と領域の関係を活用し、wsdを単語感覚の領域を異なる仮説で参照するテクスト的包含問題としてキャストする。 以上の結果から,本手法は実効性があり,教師付きシステムに近いことが示唆された。

Language Models are the core for almost any Natural Language Processing system nowadays. One of their particularities is their contextualized representations, a game changer feature when a disambiguation between word senses is necessary. In this paper we aim to explore to what extent language models are capable of discerning among senses at inference time. We performed this analysis by prompting commonly used Languages Models such as BERT or RoBERTa to perform the task of Word Sense Disambiguation (WSD). We leverage the relation between word senses and domains, and cast WSD as a textual entailment problem, where the different hypothesis refer to the domains of the word senses. Our results show that this approach is indeed effective, close to supervised systems.
翻訳日:2023-02-08 16:51:09 公開日:2023-02-07
# MCTS UCT選択政策の展開効果の理解に向けて

Towards Understanding the Effects of Evolving the MCTS UCT Selection Policy ( http://arxiv.org/abs/2302.03352v1 )

ライセンス: Link先を確認
Fred Valdez Ameneyro and Edgar Galvan(参考訳) Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。 MCTSの成功は、MCTSの統計木がどのように構築され、選択ポリシーがこれに基本的な役割を果たすかに大きく依存する。 特によく機能し、mctsで広く採用されている特定の選択方針は、uctと呼ばれる木に対する高い信頼度境界である。 他のより洗練された境界は、特定の問題におけるMCTSのパフォーマンスを改善することを目的として、コミュニティによって提案されている。 したがって、MCTS UCTは一般的によく振る舞うが、いくつかの変種はよりよく振る舞う。 この結果、MCTSで使用される選択ポリシーを進化させるために複数の研究が提案されている。 これらの研究はすべて刺激的だが、MCTS UCTの進化的な代替品がMCTSにどのような利点をもたらすかという状況下で光を深く分析する実験は行われていない。 これとは対照的に、この研究では、単項函数(unimodal function)から単項函数(deceptive function)まで、異なる性質の5つの函数を用いる。 MCTS UCTの進化は, マルチモーダルシナリオ, 偽装シナリオにおいて有用であり, 一方, MCTS UCTは単調シナリオでは頑健であり, その他のシナリオでは競争力がある。

Monte Carlo Tree Search (MCTS) is a sampling best-first method to search for optimal decisions. The success of MCTS depends heavily on how the MCTS statistical tree is built and the selection policy plays a fundamental role in this. A particular selection policy that works particularly well, widely adopted in MCTS, is the Upper Confidence Bounds for Trees, referred to as UCT. Other more sophisticated bounds have been proposed by the community with the goal to improve MCTS performance on particular problems. Thus, it is evident that while the MCTS UCT behaves generally well, some variants might behave better. As a result of this, multiple works have been proposed to evolve a selection policy to be used in MCTS. Although all these works are inspiring, none of them have carried out an in-depth analysis shedding light under what circumstances an evolved alternative of MCTS UCT might be beneficial in MCTS due to focusing on a single type of problem. In sharp contrast to this, in this work we use five functions of different nature, going from a unimodal function, covering multimodal functions to deceptive functions. We demonstrate how the evolution of the MCTS UCT might be beneficial in multimodal and deceptive scenarios, whereas the MCTS UCT is robust in unimodal scenarios and competitive in the rest of the scenarios used in this study.
翻訳日:2023-02-08 16:50:57 公開日:2023-02-07
# 忘れられるか、公正になるか - 機械学習手法の公正さを暴露する

To Be Forgotten or To Be Fair: Unveiling Fairness Implications of Machine Unlearning Methods ( http://arxiv.org/abs/2302.03350v1 )

ライセンス: Link先を確認
Dawen Zhang, Shidong Pan, Thong Hoang, Zhenchang Xing, Mark Staples, Xiwei Xu, Lina Yao, Qinghua Lu, Liming Zhu(参考訳) 忘れられる権利(RTBF)は、過去の行為によって永久に不利になることのない人々の欲求によって動機付けられている。 そのためには、データの削除は深く永続的であり、マシンラーニングモデルから削除する必要がある。 研究者は、訓練されたモデルから特定のデータをより効率的に消去することを目的とした機械学習アルゴリズムを提案している。 しかしながら、これらの方法は、モデルへのデータの供給方法とトレーニングの実施方法を変更し、その後、公正性の観点からAI倫理を損なう可能性がある。 ソフトウェア技術者がこれらの未学習手法を採用する際に責任を負う決定を下すのを助けるために,機械学習手法に関する最初の研究を提示する。 我々は,3つのフェアネスデータセットを3つの削除戦略に基づいてベースラインとして,2つの典型的な機械学習手法(SISAとAmnesiacML)を設計,実施した。 実験結果から,SISAはORTRやAmnesiacMLよりも公平性が高いが,初期トレーニングや均一データ削除は3つの手法の公平性に必ずしも影響しないことがわかった。 これらの発見は、ソフトウェア工学における重要な研究課題を露呈し、rtbfのソリューションを検討する際の公平性に関する潜在的なトレードオフを理解するのに役立つ。

The right to be forgotten (RTBF) is motivated by the desire of people not to be perpetually disadvantaged by their past deeds. For this, data deletion needs to be deep and permanent, and should be removed from machine learning models. Researchers have proposed machine unlearning algorithms which aim to erase specific data from trained models more efficiently. However, these methods modify how data is fed into the model and how training is done, which may subsequently compromise AI ethics from the fairness perspective. To help software engineers make responsible decisions when adopting these unlearning methods, we present the first study on machine unlearning methods to reveal their fairness implications. We designed and conducted experiments on two typical machine unlearning methods (SISA and AmnesiacML) along with a retraining method (ORTR) as baseline using three fairness datasets under three different deletion strategies. Experimental results show that under non-uniform data deletion, SISA leads to better fairness compared with ORTR and AmnesiacML, while initial training and uniform data deletion do not necessarily affect the fairness of all three methods. These findings have exposed an important research problem in software engineering, and can help practitioners better understand the potential trade-offs on fairness when considering solutions for RTBF.
翻訳日:2023-02-08 16:50:34 公開日:2023-02-07
# UAVに基づくセマンティックマッピングにおける能動学習のためのインフォームティブパス計画フレームワーク

An Informative Path Planning Framework for Active Learning in UAV-based Semantic Mapping ( http://arxiv.org/abs/2302.03347v1 )

ライセンス: Link先を確認
Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) 無人航空機(UAV)は航空地図や一般的な監視作業に不可欠である。 近年のディープラーニングの進歩により、画像の自動セマンティックセグメンテーションが実現され、大規模な複雑な環境の解釈が容易になった。 一般に、セグメンテーションのための教師付きディープラーニングは、大量のピクセル単位でラベル付けされたデータに依存している。 航空環境のドメイン固有の視覚的外観は、静的データセットで事前トレーニングされたモデルの使用をしばしば妨げます。 そこで,本稿では,uavsがモデル再学習のための情報的訓練画像を自律的に取得するための,新しい汎用的計画フレームワークを提案する。 複数の取得関数を活用し、確率的地形マップに融合する。 我々のフレームワークは、地図化された取得関数情報をUAVの計画目標に組み込む。 このようにして、UAVは、モデル再訓練のために手動でラベル付けされる情報的空中画像を取得する。 実世界のデータとフォトリアリスティックシミュレーションによる実験結果から,本フレームワークはモデル性能を最大化し,ラベリング労力を劇的に削減することが示された。 地図ベースのプランナーは、最先端の地域計画より優れています。

Unmanned aerial vehicles (UAVs) are crucial for aerial mapping and general monitoring tasks. Recent progress in deep learning enabled automated semantic segmentation of imagery to facilitate the interpretation of large-scale complex environments. Commonly used supervised deep learning for segmentation relies on large amounts of pixel-wise labelled data, which is tedious and costly to annotate. The domain-specific visual appearance of aerial environments often prevents the usage of models pre-trained on a static dataset. To address this, we propose a novel general planning framework for UAVs to autonomously acquire informative training images for model re-training. We leverage multiple acquisition functions and fuse them into probabilistic terrain maps. Our framework combines the mapped acquisition function information into the UAV's planning objectives. In this way, the UAV adaptively acquires informative aerial images to be manually labelled for model re-training. Experimental results on real-world data and in a photorealistic simulation show that our framework maximises model performance and drastically reduces labelling efforts. Our map-based planners outperform state-of-the-art local planning.
翻訳日:2023-02-08 16:50:10 公開日:2023-02-07
# スパースランダムハミルトニアンは量子的に簡単です

Sparse random Hamiltonians are quantumly easy ( http://arxiv.org/abs/2302.03394v1 )

ライセンス: Link先を確認
Chi-Fang (Anthony) Chen, Alexander M. Dalzell, Mario Berta, Fernando G.S.L. Brand\~ao, and Joel A. Tropp(参考訳) 量子コンピュータの候補となる応用は、量子システムの低温特性をシミュレートすることである。 このタスクには、低エネルギー状態と無視できない重なりを持つ初期試行状態において量子位相推定を行うよく研究された量子アルゴリズムがある。 しかし、そのような試行状態が効率的に作成できることを理論的に保証することは、悪名高い。 また、現在利用可能となっている断熱的状態準備などのヒューリスティックな提案は、実際は不十分である。 多くのランダムなスパース・ハミルトニアンの場合、最大混合状態は十分良い試行状態であり、位相推定は任意に基底エネルギーに近いエネルギーを持つ状態を効率的に準備する。 さらに、任意の低エネルギー状態は非負の量子回路複雑性を持つ必要があり、低エネルギー状態は古典的には非自明であり、位相推定はそのような状態(多項式因子まで)を作成するのに最適な方法であることを示す。 これらのステートメントはランダムハミルトニアンの2つのモデルに対して成り立つ。 (i)無作為な符号付きパウリ文字列の和 (ii)ランダム署名の$d$-sparse hamiltonian。 主な技術的議論は、漸近的ランダム行列理論の新しい結果に基づいている。 特に、スペクトル密度に縛られた洗練された濃度は、これらのランダムハミルトニアンの複雑さを保証するために必要である。

A candidate application for quantum computers is to simulate the low-temperature properties of quantum systems. For this task, there is a well-studied quantum algorithm that performs quantum phase estimation on an initial trial state that has a nonnegligible overlap with a low-energy state. However, it is notoriously hard to give theoretical guarantees that such a trial state can be prepared efficiently. Moreover, the heuristic proposals that are currently available, such as with adiabatic state preparation, appear insufficient in practical cases. This paper shows that, for most random sparse Hamiltonians, the maximally mixed state is a sufficiently good trial state, and phase estimation efficiently prepares states with energy arbitrarily close to the ground energy. Furthermore, any low-energy state must have nonnegligible quantum circuit complexity, suggesting that low-energy states are classically nontrivial and phase estimation is the optimal method for preparing such states (up to polynomial factors). These statements hold for two models of random Hamiltonians: (i) a sum of random signed Pauli strings and (ii) a random signed $d$-sparse Hamiltonian. The main technical argument is based on some new results in nonasymptotic random matrix theory. In particular, a refined concentration bound for the spectral density is required to obtain complexity guarantees for these random Hamiltonians.
翻訳日:2023-02-08 16:44:07 公開日:2023-02-07
# 共同識別クラスタリングと特徴選択のためのスパースジェミニ

Sparse GEMINI for Joint Discriminative Clustering and Feature Selection ( http://arxiv.org/abs/2302.03391v1 )

ライセンス: Link先を確認
Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Micka\"el Leclercq, Arnaud Droit and Fr\'ed\'eric Precioso(参考訳) クラスタリングにおける特徴の選択は、関連するクラスタの発見と関連する変数の発見を同時に行う難しいタスクである。 特徴選択アルゴリズムは、最適化されたモデル選択や$p(\pmb{x})$の強い仮定を通じてモデルベースとなることが多いが、単純な$\ell_1$ペナルティで、GEMINIと呼ばれる相互情報の幾何学的一般化を最大化しようとする識別的クラスタリングモデルを導入する。 このアルゴリズムは、組合せ機能サブセットの探索の負担を回避し、クラスタリングモデル$p_\theta(y|\pmb{x})$のみを設計しながら、高次元データや大量のサンプルに容易に拡張できる。 Sparse GEMINIの合成データセットおよび大規模データセットにおける性能を示す。 その結果、スパース・ジェミニは競合アルゴリズムであり、妥当性基準や事前仮説を用いずにクラスタリングに関して変数の関連部分集合を選択できることを示した。

Feature selection in clustering is a hard task which involves simultaneously the discovery of relevant clusters as well as relevant variables with respect to these clusters. While feature selection algorithms are often model-based through optimised model selection or strong assumptions on $p(\pmb{x})$, we introduce a discriminative clustering model trying to maximise a geometry-aware generalisation of the mutual information called GEMINI with a simple $\ell_1$ penalty: the Sparse GEMINI. This algorithm avoids the burden of combinatorial feature subset exploration and is easily scalable to high-dimensional data and large amounts of samples while only designing a clustering model $p_\theta(y|\pmb{x})$. We demonstrate the performances of Sparse GEMINI on synthetic datasets as well as large-scale datasets. Our results show that Sparse GEMINI is a competitive algorithm and has the ability to select relevant subsets of variables with respect to the clustering without using relevance criteria or prior hypotheses.
翻訳日:2023-02-08 16:43:46 公開日:2023-02-07
# ricci流下における学習離散化ニューラルネットワーク

Learning Discretized Neural Networks under Ricci Flow ( http://arxiv.org/abs/2302.03390v1 )

ライセンス: Link先を確認
Jun Chen, Hanwen Chen, Mengmeng Wang, Yong Liu(参考訳) 本稿では,非微分的離散関数によって引き起こされる無限勾配あるいはゼロ勾配に苦しむ低精度重みとアクティベーションからなる離散化ニューラルネットワーク(dnn)について検討する。 この場合、ほとんどのトレーニングベースのDNNはSTE(Straight-Through Estimator)を使用して勾配w.r.t.離散値を近似する。 しかし、標準STEは勾配ミスマッチ問題、すなわち、近似された勾配方向を最も急降下方向から逸脱させる可能性がある。 言い換えれば、勾配ミスマッチは摂動を伴う近似勾配を意味する。 この問題に対処するために、近似勾配の摂動を線形に近似ユークリッド(lne)多様体における計量の摂動とみなすために双対性理論を導入する。 同時に、リッチ・デテュルク流の下では、LNE計量の動的安定性と収束を$L^2$-norm摂動で証明し、勾配ミスマッチ問題に対する理論的解を与えることができる。 実際には、情報幾何学とミラー降下の観点から、LNE多様体上のDNNの最も急勾配勾配流を提示する。 各種データセットに対する実験結果から,本手法はDNNに対して,他の代表的なトレーニングベース手法よりも優れた,より安定した性能を示すことが示された。

In this paper, we consider Discretized Neural Networks (DNNs) consisting of low-precision weights and activations, which suffer from either infinite or zero gradients caused by the non-differentiable discrete function in the training process. In this case, most training-based DNNs use the standard Straight-Through Estimator (STE) to approximate the gradient w.r.t. discrete value. However, the standard STE will cause the gradient mismatch problem, i.e., the approximated gradient direction may deviate from the steepest descent direction. In other words, the gradient mismatch implies the approximated gradient with perturbations. To address this problem, we introduce the duality theory to regard the perturbation of the approximated gradient as the perturbation of the metric in Linearly Nearly Euclidean (LNE) manifolds. Simultaneously, under the Ricci-DeTurck flow, we prove the dynamical stability and convergence of the LNE metric with the $L^2$-norm perturbation, which can provide a theoretical solution for the gradient mismatch problem. In practice, we also present the steepest descent gradient flow for DNNs on LNE manifolds from the viewpoints of the information geometry and mirror descent. The experimental results on various datasets demonstrate that our method achieves better and more stable performance for DNNs than other representative training-based methods.
翻訳日:2023-02-08 16:43:27 公開日:2023-02-07
# 量子回路を持つ多次元フーリエ級数

Multi-dimensional Fourier series with quantum circuits ( http://arxiv.org/abs/2302.03389v1 )

ライセンス: Link先を確認
Berta Casas, Alba Cervera-Lierta(参考訳) 量子機械学習は、機械学習を量子計算に統合することを目的とした分野である。 近年,教師付き量子機械学習モデルを用いて1次元フーリエ級数を自然に生成できることが示された。 しかし、多次元フーリエ級数に用いられるモデルは、同じ詳細レベルでは研究されていない。 本研究では、任意の多次元フーリエ級数に適合する異なる量子戦略について検討する。 異なる種類の回路アンサーゼを用いて、そのような関数の適合に必要な自由度が、回路が生成するヒルベルト空間の配置度よりも速く成長することを発見した。 これらの結果は、この種の問題に対して、モデルは任意のフーリエ級数を達成するのに十分な自由を持っていないことを示している。 我々の研究は、古典データを用いた多機能量子機械学習アルゴリズムの研究に寄与し、フーリエ級数形式以上の新しいエンコーディング戦略がより便利であると結論付けている。

Quantum Machine Learning is the field that aims to integrate Machine Learning into the quantum computation. Recently, some works have shown that we can naturally generate one-dimensional Fourier series with a supervised quantum machine learning model. However, models used for multi-dimensional Fourier series have not been explored with the same level of detail. In this work, we study different quantum strategies for fitting arbitrary multi-dimensional Fourier series. Using different types of circuit ansatzes, we found that the degrees of freedom required for fitting such functions grow faster than the degrees disposed of in the Hilbert space generated by the circuit. These results exhibit that, for these types of problems, the model does not have enough freedom to achieve any arbitrary Fourier series. Our work contributes to the study of multi-feature quantum machine learning algorithms with classical data and concludes that new encoding strategies beyond Fourier series formalism could be more convenient.
翻訳日:2023-02-08 16:43:05 公開日:2023-02-07
# 単離ダイヤモンド結晶における色中心アンサンブルのカソードルミネッセンスにおける準超ポアソン光子統計

Sub-to-super-Poissonian photon statistics in cathodoluminescence of color center ensembles in isolated diamond crystals ( http://arxiv.org/abs/2302.03386v1 )

ライセンス: Link先を確認
Saskia Fiedler, Sergii Morozov, Danylo Komisar, Evgeny A. Ekimov, Liudmila F. Kulikova, Valery A. Davydov, Viatcheslav N. Agafonov, Shailesh Kumar, Christian Wolff, Sergey I. Bozhevolnyi, N. Asger Mortensen(参考訳) ダイヤモンド中の不純物空白中心は、汎用的な量子特性を持つ新しいタイプのロバストな光子源を提供する。 個々の色中心は一般に単光子源として機能するが、理論上は光子放出の統計量を持つと予測されている。 重要な点は、特定の励起がダイヤモンド結晶内の色中心アンサンブルの放出特性に影響することである。 光励起はアンサンブル内の色中心の非同期励起を好むが、電子ビーム励起はエミッタを同期させ、2次相関関数 $g_2(0)$ を制御することができる。 本稿では,色中心のアンサンブルから得られる光子ストリームが,上面と下面の両方に$g_2(0)$を発現できることを実験的に実証する。 ダイヤモンド結晶内の色中心の少ないアンサンブルに基づく光子源は、室温で動作する情報技術のための高度に調整可能なプラットフォームを提供する。

Impurity-vacancy centers in diamond offer a new class of robust photon sources with versatile quantum properties. While individual color centers commonly act as single-photon sources, their ensembles have been theoretically predicted to have tunable photon-emission statistics. Importantly, the particular type of excitation affects the emission properties of a color center ensemble within a diamond crystal. While optical excitation favors non-synchronized excitation of color centers within an ensemble, electron-beam excitation can synchronize the emitters and thereby provides a control of the second-order correlation function $g_2(0)$. In this letter, we demonstrate experimentally that the photon stream from an ensemble of color centers can exhibit $g_2(0)$ both above and below unity. Such a photon source based on an ensemble of few color centers in a diamond crystal provides a highly tunable platform for informational technologies operating at room temperature.
翻訳日:2023-02-08 16:42:49 公開日:2023-02-07
# 義務に関する法律と権利の維持

Act for Your Duties but Maintain Your Rights ( http://arxiv.org/abs/2302.03384v1 )

ライセンス: Link先を確認
Shufang Zhu, Giuseppe De Giacomo(参考訳) 合成文献の多くは、タスクを達成するための戦略の合成方法の研究に重点を置いている。 この仕事はエージェントの義務です。 本稿では,知的なエージェントには,エージェント自身が満足できるタスク(例えば,電池を充電する権利)も備えるべきであると主張する。 代理人は職務遂行中にこれらの権利を維持できなければならない。 我々は、LTLf合成の文脈において、この問題について研究し、LTLf仕様の観点で義務と権利を与え、エージェントがそうすることを選択した場合、オンザフライで修正可能な義務を達成するための適切な戦略を合成する。 標準ltlf合成よりも高度な解の概念を必要とするが, 権利の取り扱いは合成を著しく困難にしないことを示す。 我々はまた、既に実行されている間、エージェントにさらなる義務と権利が与えられる場合にも結果を拡張します。

Most of the synthesis literature has focused on studying how to synthesize a strategy to fulfill a task. This task is a duty for the agent. In this paper, we argue that intelligent agents should also be equipped with rights, that is, tasks that the agent itself can choose to fulfill (e.g., the right of recharging the battery). The agent should be able to maintain these rights while acting for its duties. We study this issue in the context of LTLf synthesis: we give duties and rights in terms of LTLf specifications, and synthesize a suitable strategy to achieve the duties that can be modified on-the-fly to achieve also the rights, if the agent chooses to do so. We show that handling rights does not make synthesis substantially more difficult, although it requires a more sophisticated solution concept than standard LTLf synthesis. We also extend our results to the case in which further duties and rights are given to the agent while already executing.
翻訳日:2023-02-08 16:42:33 公開日:2023-02-07
# 相関データベース検出における位相遷移

Phase Transitions in the Detection of Correlated Databases ( http://arxiv.org/abs/2302.03380v1 )

ライセンス: Link先を確認
Dor Elimelech and Wasim Huleihel(参考訳) 2つのガウスデータベース間の相関を検知する問題について検討する。 $\mathsf{x}\in\mathbb{r}^{n\times d}$と$\mathsf{y}^{n\times d}$であり、それぞれが$d$の機能を持つ$n$ユーザで構成されている。 この問題は、ソーシャルメディア、計算生物学などの分析に関係している。 null仮説では、これらの2つのデータベースは統計的に独立しています。 しかし、この代替案の下では、$n$ ユーザ(または行の置換)の集合の上に、未知の置換 $\sigma$ が存在し、$\mathsf{x}$ は$\mathsf{y}^\sigma$、$\mathsf{y}$ の置換版である$\mathsf{y}^\sigma$ と関連している。 最適試験が相転移を示すシャープしきい値を決定する。 具体的には、$\rho^2d\to0$ を$d\to\infty$ とすると、弱い検出(ランダムな推測よりもわずかに良い)は統計的に不可能である。 これは、$\mathsf{X}^T\mathsf{Y}$の全てのエントリを閾値付けする単純なテストのパフォーマンスを補完する。 さらに、$d$を固定すると、$\rho<\rho^\star$は$d$の明示的な関数であり、$\rho^2d\to0$の弱い検出は$\rho^2d\to0$の限り再び不可能である。 これらの結果は最近の研究で大きなギャップを埋めている。

We study the problem of detecting the correlation between two Gaussian databases $\mathsf{X}\in\mathbb{R}^{n\times d}$ and $\mathsf{Y}^{n\times d}$, each composed of $n$ users with $d$ features. This problem is relevant in the analysis of social media, computational biology, etc. We formulate this as a hypothesis testing problem: under the null hypothesis, these two databases are statistically independent. Under the alternative, however, there exists an unknown permutation $\sigma$ over the set of $n$ users (or, row permutation), such that $\mathsf{X}$ is $\rho$-correlated with $\mathsf{Y}^\sigma$, a permuted version of $\mathsf{Y}$. We determine sharp thresholds at which optimal testing exhibits a phase transition, depending on the asymptotic regime of $n$ and $d$. Specifically, we prove that if $\rho^2d\to0$, as $d\to\infty$, then weak detection (performing slightly better than random guessing) is statistically impossible, irrespectively of the value of $n$. This compliments the performance of a simple test that thresholds the sum all entries of $\mathsf{X}^T\mathsf{Y}$. Furthermore, when $d$ is fixed, we prove that strong detection (vanishing error probability) is impossible for any $\rho<\rho^\star$, where $\rho^\star$ is an explicit function of $d$, while weak detection is again impossible as long as $\rho^2d\to0$. These results close significant gaps in current recent related studies.
翻訳日:2023-02-08 16:42:17 公開日:2023-02-07
# 化学プロセスフローシートの機械学習のためのデータ拡張

Data augmentation for machine learning of chemical process flowsheets ( http://arxiv.org/abs/2302.03379v1 )

ライセンス: Link先を確認
Lukas Schulze Balhorn, Edwin Hirtreiter, Lynn Luderer, Artur M. Schweidtmann(参考訳) 人工知能は化学プロセスの設計と工学を加速する大きな可能性を秘めている。 近年,transformer ベースの言語モデルが sfiles 2.0 文字列表記法を用いて化学プロセスフローシートの自動補完を学習できることが示されている。 また,プロセスフロー図(pfds)をプロセス・アンド・インスツルメンテーション図(p&ids)に変換するために,言語翻訳モデルが利用できることを示した。 しかし、人工知能の手法はビッグデータを必要とし、現在フローシートのデータは限られている。 制限データによるこの課題を軽減するため,SFILES 2.0表記法で表されるフローシートデータに対する新たなデータ拡張手法を提案する。 提案したデータ拡張により,人工知能に基づくプロセス設計モデルの性能が向上することを示す。 本研究では,フローシートデータの増大により,フローシート自動補完モデルの予測不確かさが14.7%向上した。 将来、我々のフローシートデータ拡張は、SFILES表記に基づく化学プロセスフローシート上の他の機械学習アルゴリズムに利用できる。

Artificial intelligence has great potential for accelerating the design and engineering of chemical processes. Recently, we have shown that transformer-based language models can learn to auto-complete chemical process flowsheets using the SFILES 2.0 string notation. Also, we showed that language translation models can be used to translate Process Flow Diagrams (PFDs) into Process and Instrumentation Diagrams (P&IDs). However, artificial intelligence methods require big data and flowsheet data is currently limited. To mitigate this challenge of limited data, we propose a new data augmentation methodology for flowsheet data that is represented in the SFILES 2.0 notation. We show that the proposed data augmentation improves the performance of artificial intelligence-based process design models. In our case study flowsheet data augmentation improved the prediction uncertainty of the flowsheet autocompletion model by 14.7%. In the future, our flowsheet data augmentation can be used for other machine learning algorithms on chemical process flowsheets that are based on SFILES notation.
翻訳日:2023-02-08 16:41:38 公開日:2023-02-07
# 強化学習によるプロセス設計のためのトランスファー学習

Transfer learning for process design with reinforcement learning ( http://arxiv.org/abs/2302.03375v1 )

ライセンス: Link先を確認
Qinghe Gao, Haoyu Yang, Shachi M. Shanbhag, Artur M. Schweidtmann(参考訳) プロセスデザインは、現在エンジニアが手動で実行している創造的なタスクです。 人工知能はプロセス設計を促進する新しい可能性を提供します。 特に、強化学習(rl)は、反復設計プロセスでプロセスシミュレーションを用いてプロセスフローシートを構築することを学ぶデータ駆動モデルを統合することで、プロセス設計の自動化に成功しています。 しかし、学習過程における大きな課題の1つは、RLエージェントが厳密なプロセスシミュレータで多くのプロセスシミュレーションを必要とするため、長いシミュレーション時間と高価な計算能力を必要とすることである。 そのため,学習過程の高速化には短命なシミュレーション手法が一般的である。 しかし、短いカットは不正確な結果をもたらす可能性がある。 そこで本研究では,RLと厳密なシミュレーション手法を組み合わせたプロセス設計にトランスファーラーニングを利用する。 トランスファー・ラーニングは機械学習から確立されたアプローチで、1つの問題を解決しながら得られた知識を格納し、異なるターゲット領域でこの情報を再利用する。 プロセス設計のための移動学習をRLフレームワークに統合し, 平衡反応, 気相分離, リサイクルを含む実例研究に適用することにより, DWSIMと安定な相互作用を持つ経済的に実現可能なフローシートを設計することができる。 その結果,移動学習により,DWSIMで実現可能なフローシートを経済的に設計することができ,収益率8%のフローシートが得られることがわかった。 また、学習時間を2倍に短縮できる。

Process design is a creative task that is currently performed manually by engineers. Artificial intelligence provides new potential to facilitate process design. Specifically, reinforcement learning (RL) has shown some success in automating process design by integrating data-driven models that learn to build process flowsheets with process simulation in an iterative design process. However, one major challenge in the learning process is that the RL agent demands numerous process simulations in rigorous process simulators, thereby requiring long simulation times and expensive computational power. Therefore, typically short-cut simulation methods are employed to accelerate the learning process. Short-cut methods can, however, lead to inaccurate results. We thus propose to utilize transfer learning for process design with RL in combination with rigorous simulation methods. Transfer learning is an established approach from machine learning that stores knowledge gained while solving one problem and reuses this information on a different target domain. We integrate transfer learning in our RL framework for process design and apply it to an illustrative case study comprising equilibrium reactions, azeotropic separation, and recycles, our method can design economically feasible flowsheets with stable interaction with DWSIM. Our results show that transfer learning enables RL to economically design feasible flowsheets with DWSIM, resulting in a flowsheet with an 8% higher revenue. And the learning time can be reduced by a factor of 2.
翻訳日:2023-02-08 16:41:25 公開日:2023-02-07
# 古典的通信を用いた最適ワイヤ切断

Optimal wire cutting with classical communication ( http://arxiv.org/abs/2302.03366v1 )

ライセンス: Link先を確認
Lukas Brenner, Christophe Piveteau, David Sutter(参考訳) 回路編み込み (Circuit knitting) は、大きな量子回路を小さなサブ回路に分割する過程であり、元の回路の結果はサブ回路のみを実行することで推論できる。 このような技術は、量子優位を示す主要なボトルネックとなる量子ビットの数が限られているため、短期および早期のフォールトトレラント量子コンピュータにとって重要である。 通常、回路を分割する際にゲートカットとワイヤカットを区別する。 任意の回路編みアプローチのコストはカット数で指数関数的にスケールする。 カットを実現する可能性の一つに準確率シミュレーション技術がある。 実際、我々は既存の厳密な回路編み技術は全てこの枠組みで理解できると主張している。 さらに,サブサーキットが古典的情報を交換できるかどうかに関わらず,ワイヤカットの最適オーバーヘッドを特徴付ける。 回路間の古典的な通信が不要な$n$ワイヤを切断するのに最適なコストは,それぞれ$O(16^n)$と$O(4^n)$である。

Circuit knitting is the process of partitioning large quantum circuits into smaller subcircuits such that the result of the original circuits can be deduced by only running the subcircuits. Such techniques will be crucial for near-term and early fault-tolerant quantum computers, as the limited number of qubits is likely to be a major bottleneck for demonstrating quantum advantage. One typically distinguishes between gate cuts and wire cuts when partitioning a circuit. The cost for any circuit knitting approach scales exponentially in the number of cuts. One possibility to realize a cut is via the quasiprobability simulation technique. In fact, we argue that all existing rigorous circuit knitting techniques can be understood in this framework. Furthermore, we characterize the optimal overhead for wire cuts where the subcircuits can exchange classical information or not. We show that the optimal cost for cutting $n$ wires without and with classical communication between the subcircuits scales as $O(16^n)$ and $O(4^n)$, respectively.
翻訳日:2023-02-08 16:41:01 公開日:2023-02-07
# マルチエージェント強化学習における効率的探索のためのアンサンブル値関数

Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.03439v1 )

ライセンス: Link先を確認
Lukas Sch\"afer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V. Albrecht, David Mguni(参考訳) 協調型マルチエージェント強化学習(MARL)は、エージェントが協力することを学ぶ必要がある。 既存の値ベースのMARLアルゴリズムは、例えば$\epsilon$-greedyのようなランダムな探索に依存している。 さらに、MARLの環境は他のエージェントの同時訓練により、個々のエージェントに非定常的に現れ、高度に変動し不安定な最適化信号をもたらす。 本稿では,任意の値に基づくmarlアルゴリズムを拡張する汎用フレームワークであるマルチエージェント探索(emax)のためのアンサンブル値関数を提案する。 EMAXは、各エージェントに対する価値関数のアンサンブルを訓練し、探索と非定常性の鍵となる課題に対処する: 1) アンサンブル全体における価値推定の不確実性は、エージェントの探索を協調を必要とする環境の一部に導くためのUCBポリシーで使用される。 2)アンサンブル全体の平均値の推定値がターゲット値となる。 これらのターゲットは,一般のターゲットネットワークに比べてばらつきが低く,最適化時により安定した勾配を示す。 EMAX,独立DQN,VDN,QMIXの3つの値ベースMARLアルゴリズムをインスタンス化し、4つの環境における21のタスクで評価する。 5つの値関数のアンサンブルを使用して、EMAXは、21タスクの平均で、これらのアルゴリズムのサンプル効率と最終的な評価リターンを54%、55%、844%改善する。

Cooperative multi-agent reinforcement learning (MARL) requires agents to explore to learn to cooperate. Existing value-based MARL algorithms commonly rely on random exploration, such as $\epsilon$-greedy, which is inefficient in discovering multi-agent cooperation. Additionally, the environment in MARL appears non-stationary to any individual agent due to the simultaneous training of other agents, leading to highly variant and thus unstable optimisation signals. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to extend any value-based MARL algorithm. EMAX trains ensembles of value functions for each agent to address the key challenges of exploration and non-stationarity: (1) The uncertainty of value estimates across the ensemble is used in a UCB policy to guide the exploration of agents to parts of the environment which require cooperation. (2) Average value estimates across the ensemble serve as target values. These targets exhibit lower variance compared to commonly applied target networks and we show that they lead to more stable gradients during the optimisation. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 54%, 55%, and 844%, respectively, averaged all 21 tasks.
翻訳日:2023-02-08 16:36:09 公開日:2023-02-07
# コミットメントを伴う微分stackelberg平衡の非結合学習

Uncoupled Learning of Differential Stackelberg Equilibria with Commitments ( http://arxiv.org/abs/2302.03438v1 )

ライセンス: Link先を確認
Robert Loftin, Mustafa Mert \c{C}elikok, Herke van Hoof, Samuel Kaski, Frans A. Oliehoek(参考訳) 多くのマルチエージェント設定に対する自然解の概念はスタックルバーグ均衡であり、「リーダー」エージェントが「フォロワー」がこの戦略に対する最良の反応を選択すると仮定して、自身の支払いを最大化する戦略を選択する。 近年の研究では、2人のプレイヤーによる微分可能ゲームの \textit{differential} stackelberg equilibria に収束する非対称学習のアップデートが示されている。 これらの更新は、リーダーがフォロワーのペイオフ機能について何らかの情報を必要としているという意味で ``coupled''' である。 このような結合学習ルールは、\textit{ad hoc}インタラクティブな学習設定には適用できない。 本研究では、各プレイヤーの学習更新が相手の行動の観察にのみ依存する「非結合」学習過程を示す。 この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することを示す。 最後に,人間-ai連携とマルチエージェント強化学習へのアプローチの応用可能性について考察した。

A natural solution concept for many multiagent settings is the Stackelberg equilibrium, under which a ``leader'' agent selects a strategy that maximizes its own payoff assuming the ``follower'' chooses their best response to this strategy. Recent work has presented asymmetric learning updates that can be shown to converge to the \textit{differential} Stackelberg equilibria of two-player differentiable games. These updates are ``coupled'' in the sense that the leader requires some information about the follower's payoff function. Such coupled learning rules cannot be applied to \textit{ad hoc} interactive learning settings, and can be computationally impractical even in centralized training settings where the follower's payoffs are known. In this work, we present an ``uncoupled'' learning process under which each player's learning update only depends on their observations of the other's behavior. We prove that this process converges to a local Stackelberg equilibrium under similar conditions as previous coupled methods. We conclude with a discussion of the potential applications of our approach to human--AI cooperation and multi-agent reinforcement learning.
翻訳日:2023-02-08 16:35:41 公開日:2023-02-07
# テキスト教師付き意味セグメンテーションのための複数ビューによるsimconロス

SimCon Loss with Multiple Views for Text Supervised Semantic Segmentation ( http://arxiv.org/abs/2302.03432v1 )

ライセンス: Link先を確認
Yash Patel, Yusheng Xie, Yi Zhu, Srikar Appalaraju, R. Manmatha(参考訳) Webデータから画像テキストのアライメントに頼ることによって、画像のセグメンテーションを純粋に行うことは、データのノイズによる準最適パフォーマンスにつながる可能性がある。 ノイズは、関連するテキストが画像の視覚的内容と相関しないサンプルから生じる。 本稿では,ノイズデータからのアライメントに純粋に依存するのではなく,モード内類似性を考慮した新しい損失関数simconを提案する。 さらに、画像の複数のビュー(合成された)をトレーニングに使用し、SimConの損失と組み合わせることで、トレーニングをより堅牢にする。 このバージョンはMV-SimConと呼ばれている。 実験の結果、提案された損失関数を使用することで、ゼロショット、テキスト教師ありセマンティックセグメンテーションの一貫性が向上し、それぞれ$+3.0\%$、$+3.3\%$、$+6.9\%$ on PASCAL VOC、PASCAL Context、MSCOCOを上回ります。 テスト時間の増大により、これらの結果をさらに改善し、PASCAL VOC、PASCAL Context、MSCOCOで58.7\%、26.6\%、33.3\%にそれぞれ改善した。 さらに、提案した損失関数を用いることで、堅牢なトレーニングとより高速な収束につながる。

Learning to segment images purely by relying on the image-text alignment from web data can lead to sub-optimal performance due to noise in the data. The noise comes from the samples where the associated text does not correlate with the image's visual content. Instead of purely relying on the alignment from the noisy data, this paper proposes a novel loss function termed SimCon, which accounts for intra-modal similarities to determine the appropriate set of positive samples to align. Further, using multiple views of the image (created synthetically) for training and combining the SimCon loss with it makes the training more robust. This version of the loss is termed MV-SimCon. The empirical results demonstrate that using the proposed loss function leads to consistent improvements on zero-shot, text supervised semantic segmentation and outperforms state-of-the-art by $+3.0\%$, $+3.3\%$ and $+6.9\%$ on PASCAL VOC, PASCAL Context and MSCOCO, respectively. With test time augmentations, we set a new record by improving these results further to $58.7\%$, $26.6\%$, and $33.3\%$ on PASCAL VOC, PASCAL Context, and MSCOCO, respectively. In addition, using the proposed loss function leads to robust training and faster convergence.
翻訳日:2023-02-08 16:35:20 公開日:2023-02-07
# マルチエージェント強化学習のための熟練人口カリキュラムを目指して

Towards Skilled Population Curriculum for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.03429v1 )

ライセンス: Link先を確認
Rundong Wang, Longtao Zheng, Wei Qiu, Bowei He, Bo An, Zinovi Rabinovich, Yujing Hu, Yingfeng Chen, Tangjie Lv, Changjie Fan(参考訳) マルチエージェント強化学習(MARL)の最近の進歩により、エージェントは複雑な環境での行動を調整することができる。 しかし、一般的なMARLアルゴリズムは、まだスケーラビリティと少ない報酬の問題に悩まされている。 それらを解決するための有望なアプローチは、自動カリキュラム学習(ACL)である。 aclは、教師によって制御される困難を増大させるタスクに関する学生(カリキュラム学習者)の訓練を含む。 その成功にもかかわらず、ACLの適用性は、(1)タスク間のエージェント数やスパース報酬問題に対処するための一般学生の枠組みが欠如していること、(2)学生戦略の変化による教師のタスクの非定常性に制限されている。 本稿では,aclのリメディエーションとして,カリキュラム学習をマルチエージェントコーディネーションに適応させる,新しい自動カリキュラム学習フレームワークであるspcを導入する。 具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。 さらに,教師を学生政策によって条件付けられた文脈的盗賊としてモデル化し,エージェントのチームが以前獲得したスキルを維持しながらそのサイズを変えられるようにした。 また,この多エージェント自動カリキュラム指導問題の本質的非定常性を分析し,それに対応する後悔の束縛を与える。 実験の結果,複数のmarl環境において性能,スケーラビリティ,サンプル効率が向上した。

Recent advances in multi-agent reinforcement learning (MARL) allow agents to coordinate their behaviors in complex environments. However, common MARL algorithms still suffer from scalability and sparse reward issues. One promising approach to resolving them is automatic curriculum learning (ACL). ACL involves a student (curriculum learner) training on tasks of increasing difficulty controlled by a teacher (curriculum generator). Despite its success, ACL's applicability is limited by (1) the lack of a general student framework for dealing with the varying number of agents across tasks and the sparse reward problem, and (2) the non-stationarity of the teacher's task due to ever-changing student strategies. As a remedy for ACL, we introduce a novel automatic curriculum learning framework, Skilled Population Curriculum (SPC), which adapts curriculum learning to multi-agent coordination. Specifically, we endow the student with population-invariant communication and a hierarchical skill set, allowing it to learn cooperation and behavior skills from distinct tasks with varying numbers of agents. In addition, we model the teacher as a contextual bandit conditioned by student policies, enabling a team of agents to change its size while still retaining previously acquired skills. We also analyze the inherent non-stationarity of this multi-agent automatic curriculum teaching problem and provide a corresponding regret bound. Empirical results show that our method improves the performance, scalability and sample efficiency in several MARL environments.
翻訳日:2023-02-08 16:34:48 公開日:2023-02-07
# PAC-Bayes境界の導出のための統一的レシピ

A unified recipe for deriving (time-uniform) PAC-Bayes bounds ( http://arxiv.org/abs/2302.03421v1 )

ライセンス: Link先を確認
Ben Chugg, Hongjian Wang, Aaditya Ramdas(参考訳) PAC-ベイジアン一般化境界を導出するための統一的枠組みを提案する。 この話題に関する他の文献とは異なり、我々の境界は任意の時効(すなわち、時間ユニフォーム)であり、固定されたサンプルサイズだけでなく、常に停止時間を保持することを意味する。 私たちのアプローチは以下の順に4つのツールを組み合わせています。 a)非負のスーパーマリンタレスまたは逆サブマリンタレス (b)混合物の方法 (c)Donsker-Varadhan式(または他の凸双対性原理) (d) ヴィルの不平等。 我々は、シーガー、マカレスター、マウラー、カトーニなどのよく知られたパック・ベイズ境界の時間的一様一般化と、最近の多くの境界を導出する。 我々はまた、いくつかの新しい境界と、さらに重要なことに、それらを構築するための一般的なテクニックも提示する。 有益であるにも拘わらず、我々の拡張は固定時間と同等に厳格なままだ。 さらに、従来の仮定を緩和することができ、特に非定常損失関数と非非定常データを考える。 つまり、過去の境界の導出を統一し、将来の境界の探索を容易にする: スーパーマーチンゲールまたはサブマーチンゲール条件が満たされているかどうかを単にチェックし、もしそうであれば(時間一様)pac-bayesバウンドを保証できる。

We present a unified framework for deriving PAC-Bayesian generalization bounds. Unlike most previous literature on this topic, our bounds are anytime-valid (i.e., time-uniform), meaning that they hold at all stopping times, not only for a fixed sample size. Our approach combines four tools in the following order: (a) nonnegative supermartingales or reverse submartingales, (b) the method of mixtures, (c) the Donsker-Varadhan formula (or other convex duality principles), and (d) Ville's inequality. We derive time-uniform generalizations of well-known classical PAC-Bayes bounds, such as those of Seeger, McAllester, Maurer, and Catoni, in addition to many recent bounds. We also present several novel bounds and, more importantly, general techniques for constructing them. Despite being anytime-valid, our extensions remain as tight as their fixed-time counterparts. Moreover, they enable us to relax traditional assumptions; in particular, we consider nonstationary loss functions and non-i.i.d. data. In sum, we unify the derivation of past bounds and ease the search for future bounds: one may simply check if our supermartingale or submartingale conditions are met and, if so, be guaranteed a (time-uniform) PAC-Bayes bound.
翻訳日:2023-02-08 16:34:09 公開日:2023-02-07
# 低レベル強い凸性のない二レベル最適化のための平均乗算器法

Averaged Method of Multipliers for Bi-Level Optimization without Lower-Level Strong Convexity ( http://arxiv.org/abs/2302.03407v1 )

ライセンス: Link先を確認
Risheng Liu, Yaohua Liu, Wei Yao, Shangzhi Zeng and Jin Zhang(参考訳) グラデーション手法は、学習分野におけるbi-level optimization (blo) の主流技術となっている。 既存の作業の妥当性は、制限的下層強凸性(LLSC)条件か、あるいは精度の高い一連の近似サブプロブレムの解決に大きく依存している。 本研究では,上層および下層の目的を平均化することにより,大規模BLOに対して単純かつ効率的かつ限定的なLLSC制約を排除した,BLOのための単一ループBiレベル乗算器(sl-BAMM)を提案する。 さらに,sl-bammのkkt定常点への非漸近収束解析を行い,この解析の利点は,常に他者が要求する強勾配有界性仮定が存在しないことにある。 したがって、この理論は、特に上層目的が下層変数の二次 w.r.t. である深層学習における幅広い応用を安全に捉えている。 実験の結果,本手法の優位性が示された。

Gradient methods have become mainstream techniques for Bi-Level Optimization (BLO) in learning fields. The validity of existing works heavily rely on either a restrictive Lower- Level Strong Convexity (LLSC) condition or on solving a series of approximation subproblems with high accuracy or both. In this work, by averaging the upper and lower level objectives, we propose a single loop Bi-level Averaged Method of Multipliers (sl-BAMM) for BLO that is simple yet efficient for large-scale BLO and gets rid of the limited LLSC restriction. We further provide non-asymptotic convergence analysis of sl-BAMM towards KKT stationary points, and the comparative advantage of our analysis lies in the absence of strong gradient boundedness assumption, which is always required by others. Thus our theory safely captures a wider variety of applications in deep learning, especially where the upper-level objective is quadratic w.r.t. the lower-level variable. Experimental results demonstrate the superiority of our method.
翻訳日:2023-02-08 16:33:32 公開日:2023-02-07
# 大規模ディバースデータセットにおける劣化画像に対する高分解能GANインバージョン

High-Resolution GAN Inversion for Degraded Images in Large Diverse Datasets ( http://arxiv.org/abs/2302.03406v1 )

ライセンス: Link先を確認
Yanbo Wang, Chuming Lin, Donghao Luo, Ying Tai, Zhizhong Zhang, Yuan Xie(参考訳) 過去数十年は、画像データが多様で多様であり、解像度とクオリティがますます高まっている。 しかし,いくつかの画像は劣化し,下流タスクの知覚や応用に影響を及ぼす可能性がある。 劣化した画像から高品質な画像を生成する汎用的な方法が要求される。 本稿では,StyleGAN-XLの強力な生成能力を利用した新しいGAN変換フレームワークを提案する。 StyleGAN-XLによる逆問題を軽減するために、Clustering \& Regularize Inversion (CRI)を提案する。 具体的には、潜在空間はクラスタリングによってまずよりきめ細かい部分空間に分割される。 平均潜時ベクトルで反転を初期化する代わりに、クラスタからの遠心潜時ベクトルを近似し、入力画像に近い画像を生成する。 そして、反転潜在ベクトルを一定の範囲内に保持するために正規化項付きオフセットを導入する。 複雑な自然画像の複数の復元タスク(インパインティング,カラー化,スーパーレゾリューション)におけるcriスキームを検証するとともに,定量的・定性的な結果を示す。 さらに、データと異なるGANモデルの観点から、我々の技術が堅牢であることを示す。 我々の知る限り、我々は様々な劣化した入力から高品質な自然画像を生成するために初めてStyleGAN-XLを採用した。 コードはhttps://github.com/Booooooooo/CRIで入手できる。

The last decades are marked by massive and diverse image data, which shows increasingly high resolution and quality. However, some images we obtained may be corrupted, affecting the perception and the application of downstream tasks. A generic method for generating a high-quality image from the degraded one is in demand. In this paper, we present a novel GAN inversion framework that utilizes the powerful generative ability of StyleGAN-XL for this problem. To ease the inversion challenge with StyleGAN-XL, Clustering \& Regularize Inversion (CRI) is proposed. Specifically, the latent space is firstly divided into finer-grained sub-spaces by clustering. Instead of initializing the inversion with the average latent vector, we approximate a centroid latent vector from the clusters, which generates an image close to the input image. Then, an offset with a regularization term is introduced to keep the inverted latent vector within a certain range. We validate our CRI scheme on multiple restoration tasks (i.e., inpainting, colorization, and super-resolution) of complex natural images, and show preferable quantitative and qualitative results. We further demonstrate our technique is robust in terms of data and different GAN models. To our best knowledge, we are the first to adopt StyleGAN-XL for generating high-quality natural images from diverse degraded inputs. Code is available at https://github.com/Booooooooooo/CRI.
翻訳日:2023-02-08 16:33:13 公開日:2023-02-07
# ディジタル量子シミュレーションのための合理的アンザッツ設計に向けたオンザフライタイラー

On-the-fly Tailoring towards a Rational Ansatz Design for Digital Quantum Simulations ( http://arxiv.org/abs/2302.03405v1 )

ライセンス: Link先を確認
Dibyendu Mondal, Sonaldeep Halder, Dipanjali Halder, Rahul Maitra(参考訳) 量子情報と量子技術の最近の進歩は、多くのフェルミオン系のエネルギーと特性のための量子アルゴリズムの開発に大きな関心を喚起した。 変分量子固有解法はノイズ中間スケール量子時代で最も最適なアルゴリズムであるが、量子デバイスで物理的に実現可能な低深さ量子回路を開発することが必須である。 ユニタリ結合クラスタフレームワーク内では、1 と 2 つのクラスタ演算子とランク 2 の散乱器の選択を使って、最適な ansatz を動的に調整できる、異方形の ansatz 構築プロトコルである compass を開発した。 ansatzの構成は、エネルギーのソートと演算子の可換前スクリーニングを通じて並列量子アーキテクチャで実行される可能性がある。 分子強度相関のシミュレーションに向けた回路深さの大幅な減少により、CompASSは短期量子ハードウェアのノイズ環境に対して非常に正確で弾力性があることが示されている。

Recent advancements in quantum information and quantum technology has stimulated a good deal of interest in the development of quantum algorithms for energetics and properties of many-fermionic systems. While the variational quantum eigensolver is the most optimal algorithm in the Noisy Intermediate Scale Quantum era, it is imperative to develop low depth quantum circuits that are physically realizable in quantum devices. Within the unitary coupled cluster framework, we develop COMPASS, a disentangled ansatz construction protocol that can dynamically tailor an optimal ansatz using the one and two-body cluster operators and a selection of rank-two scatterers. The construction of the ansatz may potentially be performed in parallel quantum architecture through energy sorting and operator commutativity prescreening. With significant reduction in the circuit depth towards the simulation of molecular strong correlation, COMPASS is shown to be highly accurate and resilient to the noisy circumstances of the near-term quantum hardware.
翻訳日:2023-02-08 16:32:51 公開日:2023-02-07
# AniPixel: Animatable Pixel対応アバターを目指して

AniPixel: Towards Animatable Pixel-Aligned Human Avatar ( http://arxiv.org/abs/2302.03397v1 )

ライセンス: Link先を確認
Jinlong Fan and Jing Zhang and Zhi Hou and Dacheng Tao(参考訳) ピクセルアライメント機能を用いたニューラルラミアンスフィールドは、フォトリアリスティックなノベルビューをレンダリングできる。 しかし、人間のアバターの再構築に直接ピクセルアライメント機能が導入された場合、このレンダリングはアニメーション可能なアバターではなく、静止した人間でしか実行できない。 本稿では,人体形状予測とrgbカラーブレンドに画素整合機能を利用する,新しいアニメーション可能で汎用的なアバター再構成手法であるanipixelを提案する。 技術的には、標準空間を目標空間と観測空間に整合させるため、骨格駆動型変形に基づく双方向ニューラルスキンフィールドを提案し、目標-標準および標準-観測対応を確立する。 次に,正準体形状を正規化中型体と主観特異残差に分解し,より一般化性を高める。 形状と外観が密接な関係にあるため,RGB色ブレンディングの強化のために,体形状予測や表面の詳細な正規化を容易にする画素アライメント機能を導入する。 さらに,局所照明のばらつきを表現するために,ポーズ依存および視野方向関連シェーディングモジュールを考案する。 実験の結果、AniPixelは最先端の手法よりも新しいポーズのアニメーション結果を提供しながら、同等の斬新なビューをレンダリングしています。 コードはリリースされます。

Neural radiance field using pixel-aligned features can render photo-realistic novel views. However, when pixel-aligned features are directly introduced to human avatar reconstruction, the rendering can only be conducted for still humans, rather than animatable avatars. In this paper, we propose AniPixel, a novel animatable and generalizable human avatar reconstruction method that leverages pixel-aligned features for body geometry prediction and RGB color blending. Technically, to align the canonical space with the target space and the observation space, we propose a bidirectional neural skinning field based on skeleton-driven deformation to establish the target-to-canonical and canonical-to-observation correspondences. Then, we disentangle the canonical body geometry into a normalized neutral-sized body and a subject-specific residual for better generalizability. As the geometry and appearance are closely related, we introduce pixel-aligned features to facilitate the body geometry prediction and detailed surface normals to reinforce the RGB color blending. Moreover, we devise a pose-dependent and view direction-related shading module to represent the local illumination variance. Experiments show that our AniPixel renders comparable novel views while delivering better novel pose animation results than state-of-the-art methods. The code will be released.
翻訳日:2023-02-08 16:32:36 公開日:2023-02-07
# 任意の初期状態に対するデチューニングによるJaynes-Cummingsモデルの量子速度限界

Quantum speed limit of Jaynes-Cummings model with detuning for arbitrary initial states ( http://arxiv.org/abs/2302.03395v1 )

ライセンス: Link先を確認
Yasin Shahri, Maryam Hadipour, Saeed Haddadi, Hazhir Dolatkhah and Soroush Haseli(参考訳) 任意の初期状態をデチューニングしたJaynes-Cummingsモデルの量子速度限界(QSL)について検討した。 我々は主に、開系における非マルコフ的スピードアップ進化に対するデチューニング、ローレンツスペクトル密度の幅、初期状態のコヒーレンスの影響に焦点を当てる。 マルコフ系においても、デチューニングパラメータの増大は量子スピードアップをもたらすことが判明した。 さらに,QSLは初期励起状態の個体数と逆関係にあることを明らかにした。 特に、QSLは系の初期状態の量子コヒーレンスに依存し、最大コヒーレント状態はその境界を飽和させることができることを示す。

The quantum speed limit (QSL) of the Jaynes-Cummings model with detuning for arbitrary initial states is investigated. We mainly focus on the influences of the detuning, width of Lorentzian spectral density, and coherence of the initial state on the non-Markovian speedup evolution in an open system. It is found that even in the Markovian regime, increasing the detuning parameter leads to quantum speedup. Moreover, we reveal that the QSL has an inverse relation with the population of the initial excited state. Notably, we show that the QSL depends on the quantum coherence of the system's initial state such that the maximal coherent state can saturate its bound.
翻訳日:2023-02-08 16:32:13 公開日:2023-02-07
# VertXNet: 脊椎X線の分割と同定のためのアンサンブル法

VertXNet: An Ensemble Method for Vertebrae Segmentation and Identification of Spinal X-Ray ( http://arxiv.org/abs/2302.03476v1 )

ライセンス: Link先を確認
Yao Chen, Yuanhan Mo, Aimee Readie, Gregory Ligozio, Indrajeet Mandal, Faiz Jabbar, Thibaud Coroller, Bartlomiej W. Papiez(参考訳) 信頼できる椎骨アノテーションは、脊椎x線画像の分析を行うための鍵である。 しかし、これらの画像から椎骨の注釈を得るのは通常、その複雑さ(形状の異なる小さな構造物)のため手作業で行われ、費用がかかり、退屈なプロセスとなる。 この過程を加速するために、私たちは2つの最先端(SOTA)セグメンテーションモデル(U-NetとMask R-CNN)を組み合わせてX線脊椎画像の椎骨の自動セグメンテーションとラベル付けを行うVertXNetというアンサンブルパイプラインを提案した。 さらに、VertXNetは、特定の脊椎X線画像に対して、(他のものと区別しやすい「参照」椎骨の位置を特定することによって)脊椎のラベルをしっかりと推論できるルールベースのアプローチを導入している。 3つの脊髄x線データセット(内部2つ、公開1つ)上で提案パイプラインを評価し,放射線科医が注釈した椎骨と比較した。 実験の結果,提案パイプラインはテストデータセット(MEASURE 1)上で平均Diceが0.90,Mask R-CNNが平均Diceが0.73,U-Netが0.72,の2つのSOTAセグメンテーションモデルより優れていた。 VertXNetの一般化能力をさらに評価するために、事前学習パイプラインを2つの追加データセット(PREVENTとNHANES II)で直接テストし、それぞれ平均Dice 0.89と0.88で一貫した性能を観察した。 全体として,VertXNetは脊椎のセグメンテーションとX線撮影におけるラベル付けの性能を著しく改善し,社内臨床試験データと公開データの両方で評価した。

Reliable vertebrae annotations are key to perform analysis of spinal X-ray images. However, obtaining annotation of vertebrae from those images is usually carried out manually due to its complexity (i.e. small structures with varying shape), making it a costly and tedious process. To accelerate this process, we proposed an ensemble pipeline, VertXNet, that combines two state-of-the-art (SOTA) segmentation models (respectively U-Net and Mask R-CNN) to automatically segment and label vertebrae in X-ray spinal images. Moreover, VertXNet introduces a rule-based approach that allows to robustly infer vertebrae labels (by locating the 'reference' vertebrae which are easier to segment than others) for a given spinal X-ray image. We evaluated the proposed pipeline on three spinal X-ray datasets (two internal and one publicly available), and compared against vertebrae annotated by radiologists. Our experimental results have shown that the proposed pipeline outperformed two SOTA segmentation models on our test dataset (MEASURE 1) with a mean Dice of 0.90, vs. a mean Dice of 0.73 for Mask R-CNN and 0.72 for U-Net. To further evaluate the generalization ability of VertXNet, the pre-trained pipeline was directly tested on two additional datasets (PREVENT and NHANES II) and consistent performance was observed with a mean Dice of 0.89 and 0.88, respectively. Overall, VertXNet demonstrated significantly improved performance for vertebra segmentation and labeling for spinal X-ray imaging, and evaluation on both in-house clinical trial data and publicly available data further proved its generalization.
翻訳日:2023-02-08 16:25:31 公開日:2023-02-07
# フェイクニュース検出のためのエンティティ対応デュアルコアテンションネットワーク

Entity-Aware Dual Co-Attention Network for Fake News Detection ( http://arxiv.org/abs/2302.03475v1 )

ライセンス: Link先を確認
Sin-Han Yang, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen(参考訳) 偽ニュースや誤報がインターネット上で急速に広まった。 識別方法と識別結果の解釈方法が重要な問題となっている。 本稿では,ニュースコンテンツ,ソーシャルメディア応答,外部知識を考慮した偽ニュース検出のためのデュアル・コアテンション・ネットワーク(dual-can)を提案する。 提案したDual-CANは2つのベンチマークデータセットで現在の代表モデルよりも優れていた。 さらに,両データセットにおけるモデル動作と注意重みの実証分析を比較し,詳細な議論を行う。

Fake news and misinformation spread rapidly on the Internet. How to identify it and how to interpret the identification results have become important issues. In this paper, we propose a Dual Co-Attention Network (Dual-CAN) for fake news detection, which takes news content, social media replies, and external knowledge into consideration. Our experimental results support that the proposed Dual-CAN outperforms current representative models in two benchmark datasets. We further make in-depth discussions by comparing how models work in both datasets with empirical analysis of attention weights.
翻訳日:2023-02-08 16:24:55 公開日:2023-02-07
# Med-NCA:ニューラルセルオートマタを用いたロバスト・軽量セグメンテーション

Med-NCA: Robust and Lightweight Segmentation with Neural Cellular Automata ( http://arxiv.org/abs/2302.03473v1 )

ライセンス: Link先を確認
John Kalkhof, Camila Gonz\'alez, Anirban Mukhopadhyay(参考訳) Deep Learningで医療画像セグメンテーションを行う場合には、適切なインフラストラクチャへのアクセスが重要である。 この要件は、農村部におけるプライマリケア施設や危機時のリソース制約のあるシナリオにおいて、最先端のセグメンテーションモデルの実行を困難にしている。 近年のニューラル・セル・オートマトン(nca)の分野では、局所的に相互作用する単細胞モデルが画像生成や低解像度入力でのセグメンテーションといったタスクにおいて競合的な結果が得られることが示されている。 しかし、高いVRAM要求と高解像度画像の収束の難しさに制約されている。 これらの制限に対応するために,高解像度画像分割のためのエンドツーエンドNCAトレーニングパイプラインであるMed-NCAを提案する。 我々の方法は2段階のプロセスに従う。 グローバル知識はまず、ダウンスケールされたイメージを通して細胞間で伝達される。 その後、パッチベースのセグメンテーションを行う。 提案するMed-NCAは,海馬と前立腺のセグメンテーションにおいて,古典的UNetを2%,Diceを3%で上回り,500倍も小さい。 また,Med-NCAは画像のスケール,形状,翻訳に対して不変であり,強い変化を伴ってもわずかな性能劣化しか経験せず,MRI取得アーチファクトに対して堅牢であることを示す。 Med-NCAはRaspberry Pi B+でも高解像度の医療画像セグメンテーションを可能にする。

Access to the proper infrastructure is critical when performing medical image segmentation with Deep Learning. This requirement makes it difficult to run state-of-the-art segmentation models in resource-constrained scenarios like primary care facilities in rural areas and during crises. The recently emerging field of Neural Cellular Automata (NCA) has shown that locally interacting one-cell models can achieve competitive results in tasks such as image generation or segmentations in low-resolution inputs. However, they are constrained by high VRAM requirements and the difficulty of reaching convergence for high-resolution images. To counteract these limitations we propose Med-NCA, an end-to-end NCA training pipeline for high-resolution image segmentation. Our method follows a two-step process. Global knowledge is first communicated between cells across the downscaled image. Following that, patch-based segmentation is performed. Our proposed Med-NCA outperforms the classic UNet by 2% and 3% Dice for hippocampus and prostate segmentation, respectively, while also being 500 times smaller. We also show that Med-NCA is by design invariant with respect to image scale, shape and translation, experiencing only slight performance degradation even with strong shifts; and is robust against MRI acquisition artefacts. Med-NCA enables high-resolution medical image segmentation even on a Raspberry Pi B+, arguably the smallest device able to run PyTorch and that can be powered by a standard power bank.
翻訳日:2023-02-08 16:24:45 公開日:2023-02-07
# 推奨のためのハードネガティブサンプリングの背後にある理論について

On the Theories Behind Hard Negative Sampling for Recommendation ( http://arxiv.org/abs/2302.03472v1 )

ライセンス: Link先を確認
Wentao Shi, Jiawei Chen, Fuli Feng, Jizhi Zhang, Junkang Wu, Chongming Gao and Xiangnan He(参考訳) 負のサンプリングは大規模データのレコメンデーターモデルのトレーニングに多く用いられており、サンプルサンプリングは通常、収束を加速するだけでなく、モデルの精度も向上する。 それでも、ハードネガティブサンプリング(HNS)の有効性は明らかにされていない。 本研究では,HNSに関する詳細な理論的解析を行うことにより,研究ギャップを埋める。 まず,ベイジアン・パーソナライズ・ランキング(BPR)学習者におけるHNSの利用は,一方通行部分AUC(OPAUC)の最適化と等価であることを示す。 具体的には、動的負サンプリング(DNS)を備えたBPRは正確な推定器であり、ソフトマックスに基づくサンプリングはソフトな推定器である。 第2に、OPAUCはAUCよりもTop-K評価指標と強い関係があることを証明し、シミュレーション実験で検証する。 これらの分析は、初めてトップKレコメンデーションパフォーマンスを最適化するHNSの理論的基盤を確立する。 これらの基盤から、HNSを効果的に活用するための2つの洞察に富んだガイドラインを提供する。 1) サンプリング硬度は、例えば、予め定義されたハイパーパラメータを介して制御可能であり、異なるTop-Kメトリクスやデータセットに適応する必要がある。 2)Top-K評価指標で強調するK$が小さいほど、負のサンプルを描くのが難しくなります。 3つの実世界のベンチマークに関する大規模な実験は、この2つのガイドラインを検証する。

Negative sampling has been heavily used to train recommender models on large-scale data, wherein sampling hard examples usually not only accelerates the convergence but also improves the model accuracy. Nevertheless, the reasons for the effectiveness of Hard Negative Sampling (HNS) have not been revealed yet. In this work, we fill the research gap by conducting thorough theoretical analyses on HNS. Firstly, we prove that employing HNS on the Bayesian Personalized Ranking (BPR) learner is equivalent to optimizing One-way Partial AUC (OPAUC). Concretely, the BPR equipped with Dynamic Negative Sampling (DNS) is an exact estimator, while with softmax-based sampling is a soft estimator. Secondly, we prove that OPAUC has a stronger connection with Top-K evaluation metrics than AUC and verify it with simulation experiments. These analyses establish the theoretical foundation of HNS in optimizing Top-K recommendation performance for the first time. On these bases, we offer two insightful guidelines for effective usage of HNS: 1) the sampling hardness should be controllable, e.g., via pre-defined hyper-parameters, to adapt to different Top-K metrics and datasets; 2) the smaller the $K$ we emphasize in Top-K evaluation metrics, the harder the negative samples we should draw. Extensive experiments on three real-world benchmarks verify the two guidelines.
翻訳日:2023-02-08 16:24:15 公開日:2023-02-07
# カジュアルアルゴリズムにおけるロバストネスの公正性

Robustness Implies Fairness in Casual Algorithmic Recourse ( http://arxiv.org/abs/2302.03465v1 )

ライセンス: Link先を確認
Ahmad-Reza Ehyaei, Amir-Hossein Karimi, Bernhard Sch\"olkopf, Setareh Maghsudi(参考訳) algorithmic recourseは、意思決定が重大な結果をもたらす状況において、ブラックボックス決定プロセスの内部動作を開示することを目的としている。 効果的な治療を確保するために、推奨される介入は低コストであるだけでなく、堅牢で公平でなければならない。 このゴールは、同様の説明を同一人物に提供することで達成される。 本研究は,因果的アルゴリズムの帰納法における個々人の公平性と敵意の強固さの概念を探求し,両者の達成の課題に対処する。 課題を解決するために,逆向きに頑健な会話を定義するための新しい枠組みを提案する。 この新しい設定は保護された特徴を擬メトリックと見ており、個々の公平性は敵対的強固さの特別な場合であることを示している。 最後に, 望ましい性質を両立するために, 公正なロバストなリコース問題を導入し, 理論上, 経験上, どのように満足できるかを示す。

Algorithmic recourse aims to disclose the inner workings of the black-box decision process in situations where decisions have significant consequences, by providing recommendations to empower beneficiaries to achieve a more favorable outcome. To ensure an effective remedy, suggested interventions must not only be low-cost but also robust and fair. This goal is accomplished by providing similar explanations to individuals who are alike. This study explores the concept of individual fairness and adversarial robustness in causal algorithmic recourse and addresses the challenge of achieving both. To resolve the challenges, we propose a new framework for defining adversarially robust recourse. The new setting views the protected feature as a pseudometric and demonstrates that individual fairness is a special case of adversarial robustness. Finally, we introduce the fair robust recourse problem to achieve both desirable properties and show how it can be satisfied both theoretically and empirically.
翻訳日:2023-02-08 16:23:51 公開日:2023-02-07
# 適応性制約付き多変量確率軌道予測

Diverse Probabilistic Trajectory Forecasting with Admissibility Constraints ( http://arxiv.org/abs/2302.03462v1 )

ライセンス: Link先を確認
Laura Calem, Hedi Ben-Younes, Patrick P\'erez, Nicolas Thome(参考訳) 道路利用者の複数の軌跡を予測することは自動走行システムにとって重要である。 しかしながら、多重軌道予測に使用される生成モデルは、提案の多様性の欠如に苦しむ。 このような崩壊を回避すべく,多種多様な軌跡の構造化予測手法を提案する。 この目的のために、決定点過程(DPP)に基づいて、基礎となる事前学習生成モデルを多様性成分で補完する。 この多様性と知識に基づく品質制約とのバランスと構造は、基礎となる生成モデルとは無関係です。 これら2つの新しいコンポーネントをゲーティング操作と組み合わせることで、予測が多様かつ乾燥可能な領域内にあることを保証する。 我々は, 複合アプローチの関連性を示す nuScenes 駆動データセットを実証し, 生成した軌道の多様性と品質を著しく改善した。

Predicting multiple trajectories for road users is important for automated driving systems: ego-vehicle motion planning indeed requires a clear view of the possible motions of the surrounding agents. However, the generative models used for multiple-trajectory forecasting suffer from a lack of diversity in their proposals. To avoid this form of collapse, we propose a novel method for structured prediction of diverse trajectories. To this end, we complement an underlying pretrained generative model with a diversity component, based on a determinantal point process (DPP). We balance and structure this diversity with the inclusion of knowledge-based quality constraints, independent from the underlying generative model. We combine these two novel components with a gating operation, ensuring that the predictions are both diverse and within the drivable area. We demonstrate on the nuScenes driving dataset the relevance of our compound approach, which yields significant improvements in the diversity and the quality of the generated trajectories.
翻訳日:2023-02-08 16:23:34 公開日:2023-02-07
# ギャップに気をつけろ! ルーマンの機能的コミュニケーション理論による説明可能な人工知能と人間の理解

Mind the Gap! Bridging Explainable Artificial Intelligence and Human Understanding with Luhmann's Functional Theory of Communication ( http://arxiv.org/abs/2302.03460v1 )

ライセンス: Link先を確認
Bernard Keenan and Kacper Sokol(参考訳) 過去10年間で、説明可能な人工知能は、主に技術的な分野から、社会科学と深く絡み合う分野へと進化してきた。 コントラスト(より正確には反事実的)な説明に対する人間の好みのような洞察は、コンピュータ科学の研究を刺激し指導するこの移行において重要な役割を担ってきた。 他の観測も同様に重要であるが、注意を引かなかった。 対話のような対話を通じて人工知能の説明者とコミュニケーションしたいという人間の欲求は、コミュニティによって無視されている。 このことは、事前定義された目的に従って最適化された1つの説明を提供することで、受信者に対する理解が得られず、人間の知識と意図の多様性を考慮に入れた独自のニーズを満たすことができず、そのような技術の有効性と普及に多くの課題をもたらす。 niklas luhmann氏とelena esposito氏が解説した洞察を使って、より最近では、社会システム理論を適用して、説明可能な人工知能における課題を強調し、この方向の技術的研究を復活させようと努力している。 本稿では,問題理解におけるシステム理論的アプローチの可能性と,説明可能な人工知能の限界を明らかにすることを目的とする。

Over the past decade explainable artificial intelligence has evolved from a predominantly technical discipline into a field that is deeply intertwined with social sciences. Insights such as human preference for contrastive -- more precisely, counterfactual -- explanations have played a major role in this transition, inspiring and guiding the research in computer science. Other observations, while equally important, have received much less attention. The desire of human explainees to communicate with artificial intelligence explainers through a dialogue-like interaction has been mostly neglected by the community. This poses many challenges for the effectiveness and widespread adoption of such technologies as delivering a single explanation optimised according to some predefined objectives may fail to engender understanding in its recipients and satisfy their unique needs given the diversity of human knowledge and intention. Using insights elaborated by Niklas Luhmann and, more recently, Elena Esposito we apply social systems theory to highlight challenges in explainable artificial intelligence and offer a path forward, striving to reinvigorate the technical research in this direction. This paper aims to demonstrate the potential of systems theoretical approaches to communication in understanding problems and limitations of explainable artificial intelligence.
翻訳日:2023-02-08 16:23:19 公開日:2023-02-07
# 多変量スプラインと無限大ニューラルネットワークの関係について

On the relationship between multivariate splines and infinitely-wide neural networks ( http://arxiv.org/abs/2302.03459v1 )

ライセンス: Link先を確認
Francis Bach (SIERRA)(参考訳) 我々は多変量スプラインを考察し、ランダムな特徴展開を1つの隠れた層を持つ無限に広いニューラルネットワークと、整列された線形ユニットのパワーである均質な活性化関数として示す。 関連する函数空間はユークリッド球面上のソボレフ空間であり、微分のノルムに明示的に有界であることを示す。 このリンクは、効率的なアルゴリズムを可能にする多変量スプラインに対して、新しいランダム機能拡張を提供する。 このランダムな特徴展開は、理論と実践の両方において、通常のランダムなフーリエ特徴よりも数値的に良く振る舞う。 特に次元1では、関連するレバレッジスコアを比較して、2つのランダム展開を比較し、ニューラルネットワーク拡張のスケーリングを改善する。

We consider multivariate splines and show that they have a random feature expansion as infinitely wide neural networks with one-hidden layer and a homogeneous activation function which is the power of the rectified linear unit. We show that the associated function space is a Sobolev space on a Euclidean ball, with an explicit bound on the norms of derivatives. This link provides a new random feature expansion for multivariate splines that allow efficient algorithms. This random feature expansion is numerically better behaved than usual random Fourier features, both in theory and practice. In particular, in dimension one, we compare the associated leverage scores to compare the two random expansions and show a better scaling for the neural network expansion.
翻訳日:2023-02-08 16:22:59 公開日:2023-02-07
# OSRT:歪み認識変換器を用いた全方位画像超解像

OSRT: Omnidirectional Image Super-Resolution with Distortion-aware Transformer ( http://arxiv.org/abs/2302.03453v1 )

ライセンス: Link先を確認
Fanghua Yu, Xintao Wang, Mingdeng Cao, Gen Li, Ying Shan, Chao Dong(参考訳) ODI(Omnidirectional Image)は没入感のある体験に多くの研究関心を集めている。 ODIはシーン全体の詳細を捉えるのに非常に高解像度を必要とするが、ほとんどのODIの解像度は不十分である。 従来の方法では、等方射影(ERP)画像上の画像超解像(SR)を用いてこの問題を解決する。 しかし、分解過程におけるERPの幾何学的性質を省略し、それらのモデルは実際のERP画像にはほとんど一般化できない。 本稿では,実世界の撮像過程を模倣し,より現実的な低解像度サンプルを合成する魚眼ダウンサンプリングを提案する。 次に、ERP歪みを連続的かつ自己適応的に変調する歪み対応変換器(OSRT)を設計する。 煩雑なプロセスがなければ、OSRTはPSNRで約0.2dBの従来の手法より性能が良い。 さらに,疑似ERP画像を平易な画像から合成する便利なデータ拡張戦略を提案する。 この単純な戦略は、大規模ネットワークの過度に適合する問題を緩和し、ODISRの性能を大幅に向上させることができる。 大規模な実験により,OSRTの最先端性能が実証された。 コードとモデルはhttps://github.com/Fanghua-Yu/OSRTで入手できる。

Omnidirectional images (ODIs) have obtained lots of research interest for immersive experiences. Although ODIs require extremely high resolution to capture details of the entire scene, the resolutions of most ODIs are insufficient. Previous methods attempt to solve this issue by image super-resolution (SR) on equirectangular projection (ERP) images. However, they omit geometric properties of ERP in the degradation process, and their models can hardly generalize to real ERP images. In this paper, we propose Fisheye downsampling, which mimics the real-world imaging process and synthesizes more realistic low-resolution samples. Then we design a distortion-aware Transformer (OSRT) to modulate ERP distortions continuously and self-adaptively. Without a cumbersome process, OSRT outperforms previous methods by about 0.2dB on PSNR. Moreover, we propose a convenient data augmentation strategy, which synthesizes pseudo ERP images from plain images. This simple strategy can alleviate the over-fitting problem of large networks and significantly boost the performance of ODISR. Extensive experiments have demonstrated the state-of-the-art performance of our OSRT. Codes and models will be available at https://github.com/Fanghua-Yu/OSRT.
翻訳日:2023-02-08 16:22:46 公開日:2023-02-07
# t分布確率的近傍埋め込みによる植物の3次元点雲の可視化とセグメンテーション

Using t-distributed stochastic neighbor embedding for visualization and segmentation of 3D point clouds of plants ( http://arxiv.org/abs/2302.03442v1 )

ライセンス: Link先を確認
Helin Dutagaci(参考訳) 本研究では,植物の3次元点雲を2次元空間に埋め込んで植物を特徴づけるためにt-SNEを用いることを提案する。 t-sneは2次元空間で完全な3d植物モデルを平坦化し可視化するための実用的なツールとして機能する。 t-sneのパープレキシティパラメータは、様々な組織レベルで植物構造の2次元レンダリングを可能にする。 t-sneは、植物科学者の視覚化ツールとして機能するだけでなく、植物の3dポイントクラウドを2dで処理するためのゲートウェイも提供する。 本稿では,組込み2d点をグループ化することで意味的セグメンテーションとインスタンスセグメンテーションを行うための単純な手法を提案する。 公共の3Dプラントデータセットにおけるこれらの手法の評価は、自動的な3D表現型パイプラインに関わる様々なステップの2D実装を可能にするため、t-SNEのポテンシャルを伝達する。

In this work, the use of t-SNE is proposed to embed 3D point clouds of plants into 2D space for plant characterization. It is demonstrated that t-SNE operates as a practical tool to flatten and visualize a complete 3D plant model in 2D space. The perplexity parameter of t-SNE allows 2D rendering of plant structures at various organizational levels. Aside from the promise of serving as a visualization tool for plant scientists, t-SNE also provides a gateway for processing 3D point clouds of plants using their embedded counterparts in 2D. In this paper, simple methods were proposed to perform semantic segmentation and instance segmentation via grouping the embedded 2D points. The evaluation of these methods on a public 3D plant data set conveys the potential of t-SNE for enabling of 2D implementation of various steps involved in automatic 3D phenotyping pipelines.
翻訳日:2023-02-08 16:22:30 公開日:2023-02-07
# 修正条件付きt-sne:最寄りの近傍を見渡す

Revised Conditional t-SNE: Looking Beyond the Nearest Neighbors ( http://arxiv.org/abs/2302.03493v1 )

ライセンス: Link先を確認
Edith Heiter, Bo Kang, Ruth Seurinck, Jefrey Lijffijt(参考訳) Conditional t-SNE (ct-SNE) は t-SNE の最近の拡張で、既知のクラスタ情報を埋め込みから取り除き、ラベル情報以外の可視化構造が得られる。 これは例えば、クラスのセット間の望ましくない違いを解決したい場合に便利である。 その結果、ct-sneは多くの現実的な設定、すなわちデータが元の高次元空間のラベル上によくクラスター化されている場合に失敗することが分かった。 我々は,低次元の類似性の代わりに高次元の類似性を条件付けし,近辺と近辺を別々に保存する改良手法を提案する。 これにより、最近提案されたt-SNEのスピードアップが利用可能になり、スケーラビリティが向上した。 合成データ実験から,提案手法は検討された課題を解決し,組込み品質を向上することがわかった。 バッチ効果を含む実データでは、期待される改善が常に存在するとは限らない。 スケーラビリティが向上していることから,ct-sneの改訂が全体として望ましいと論じる。 結果はまた、クラスタ間の距離変化を処理する方法など、新しいオープンな質問も強調している。

Conditional t-SNE (ct-SNE) is a recent extension to t-SNE that allows removal of known cluster information from the embedding, to obtain a visualization revealing structure beyond label information. This is useful, for example, when one wants to factor out unwanted differences between a set of classes. We show that ct-SNE fails in many realistic settings, namely if the data is well clustered over the labels in the original high-dimensional space. We introduce a revised method by conditioning the high-dimensional similarities instead of the low-dimensional similarities and storing within- and across-label nearest neighbors separately. This also enables the use of recently proposed speedups for t-SNE, improving the scalability. From experiments on synthetic data, we find that our proposed method resolves the considered problems and improves the embedding quality. On real data containing batch effects, the expected improvement is not always there. We argue revised ct-SNE is preferable overall, given its improved scalability. The results also highlight new open questions, such as how to handle distance variations between clusters.
翻訳日:2023-02-08 16:15:27 公開日:2023-02-07
# 大規模言語モデルを用いた低資源言語における翻訳品質の学習

Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models ( http://arxiv.org/abs/2302.03491v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Mauro Verzetti, Paul K. Rubenstein(参考訳) 近年、BLEURTのような学習メトリクスは機械翻訳システムの品質を評価するために広く使われている。 このようなメトリクスのトレーニングには、特に低リソース言語において、高価で取得が難しいデータが必要です。 既存のデータセットに混入可能な合成データセットを作成し,対象言語でテキストのコーパスのみを必要とすることで,人間のアノテータを必要とせずに,学習したメトリクスを改善するために,LLM(Large Language Models)から知識を抽出する方法を示す。 本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。

Learned metrics such as BLEURT have in recent years become widely employed to evaluate the quality of machine translation systems. Training such metrics requires data which can be expensive and difficult to acquire, particularly for lower-resource languages. We show how knowledge can be distilled from Large Language Models (LLMs) to improve upon such learned metrics without requiring human annotators, by creating synthetic datasets which can be mixed into existing datasets, requiring only a corpus of text in the target language. We show that the performance of a BLEURT-like model on lower resource languages can be improved in this way.
翻訳日:2023-02-08 16:15:09 公開日:2023-02-07
# 政策立案のための自然言語処理

Natural Language Processing for Policymaking ( http://arxiv.org/abs/2302.03490v1 )

ライセンス: Link先を確認
Zhijing Jin, Rada Mihalcea(参考訳) 言語は、選挙運動から報道まで、多くの政治活動の媒体である。 自然言語処理(NLP)は、テキストをポリシー作成に必要な重要な情報に解析するために計算ツールを使用する。 本章では,テキスト分類,トピックモデリング,イベント抽出,テキストスケーリングなど,NLPの一般的な手法を紹介する。 次に、証拠に基づく政策作成のためのデータ収集、政治決定の解釈、政策コミュニケーション、政策効果の調査を含む4つの主要な応用を通じて、これらの手法がどのように政策作成に利用できるかを概説する。 最後に、NLPを政策立案に使用する際の潜在的な制限と倫理的懸念を強調した。 本文は『政策計算社会科学ハンドブック』(2023年)の第7章(141-162)から引用されている。 springerのオープンアクセス: https://doi.org/10.1007/978-3-031-16624-2

Language is the medium for many political activities, from campaigns to news reports. Natural language processing (NLP) uses computational tools to parse text into key information that is needed for policymaking. In this chapter, we introduce common methods of NLP, including text classification, topic modeling, event extraction, and text scaling. We then overview how these methods can be used for policymaking through four major applications including data collection for evidence-based policymaking, interpretation of political decisions, policy communication, and investigation of policy effects. Finally, we highlight some potential limitations and ethical concerns when using NLP for policymaking. This text is from Chapter 7 (pages 141-162) of the Handbook of Computational Social Science for Policy (2023). Open Access on Springer: https://doi.org/10.1007/978-3-031-16624-2
翻訳日:2023-02-08 16:14:57 公開日:2023-02-07
# 大規模活動ベース輸送モデルの校正のためのベイズ最適化手法

A Bayesian Optimization approach for calibrating large-scale activity-based transport models ( http://arxiv.org/abs/2302.03480v1 )

ライセンス: Link先を確認
Serio Agriesti, Vladimir Kuzmanovski, Jaakko Hollm\'en, Claudio Roncoli and Bat-hen Nahmias-Biran(参考訳) 輸送におけるエージェントベースおよびアクティビティベースモデリングの利用は、破壊的傾向(リモートワークや自動化など)や分散管理戦略の設計や評価など、複雑なアプリケーションに対処する能力によって増加しつつある。 それでも、大規模非凝集モデルの普及は、本質的に高い複雑さと計算上のニーズのために実現されていない。 例えば行動理論に焦点をあてた活動ベースモデルは、あらゆるケーススタディにおいて、人口の詳細な社会経済的特性と一致するように調整する必要がある数百のパラメータを含む可能性がある。 本稿では,行動パラメータのキャリブレーションプロセスを自動化するために,改良されたランダムフォレスト(Random Forest)の形で代理モデルを組み込んだ新しいベイズ最適化手法を提案する。 提案手法はエストニアのタリン市のケーススタディにおいて,SimMobility MTソフトウェアを用いて,477の行動パラメータからなるキャリブレーションモデルを用いて検証した。 キャリブレーションプロセスで定義された主要な指標では、旅行の総数に対する誤差は4%、OD行列の平均誤差は1日15.92台である。

The use of Agent-Based and Activity-Based modeling in transportation is rising due to the capability of addressing complex applications such as disruptive trends (e.g., remote working and automation) or the design and assessment of disaggregated management strategies. Still, the broad adoption of large-scale disaggregate models is not materializing due to the inherently high complexity and computational needs. Activity-based models focused on behavioral theory, for example, may involve hundreds of parameters that need to be calibrated to match the detailed socio-economical characteristics of the population for any case study. This paper tackles this issue by proposing a novel Bayesian Optimization approach incorporating a surrogate model in the form of an improved Random Forest, designed to automate the calibration process of the behavioral parameters. The proposed method is tested on a case study for the city of Tallinn, Estonia, where the model to be calibrated consists of 477 behavioral parameters, using the SimMobility MT software. Satisfactory performance is achieved in the major indicators defined for the calibration process: the error for the overall number of trips is equal to 4% and the average error in the OD matrix is 15.92 vehicles per day.
翻訳日:2023-02-08 16:13:54 公開日:2023-02-07
# シーングラフの自己スーパービジョンによる説明可能な行動予測

Explainable Action Prediction through Self-Supervision on Scene Graphs ( http://arxiv.org/abs/2302.03477v1 )

ライセンス: Link先を確認
Pawit Kochakarn, Daniele De Martini, Daniel Omeiza, Lars Kunze(参考訳) 本研究では,自動運転のための高レベル情報の蒸留表現としてシーングラフを探索し,将来の運転行動予測に適用する。 データサンプルの不足と強い不均衡を考慮し、代表的およびよく分離された埋め込みを推測する自己超越パイプラインを提案する。 主な側面は解釈可能性と説明可能性であり、アーキテクチャの注意機構に埋め込まれ、シーングラフ上に空間的および時間的ヒートマップを作成することができる。 道路データセット上でのシステム評価は,訓練体制の優越性を示す完全な教師付きアプローチに対して行う。

This work explores scene graphs as a distilled representation of high-level information for autonomous driving, applied to future driver-action prediction. Given the scarcity and strong imbalance of data samples, we propose a self-supervision pipeline to infer representative and well-separated embeddings. Key aspects are interpretability and explainability; as such, we embed in our architecture attention mechanisms that can create spatial and temporal heatmaps on the scene graphs. We evaluate our system on the ROAD dataset against a fully-supervised approach, showing the superiority of our training regime.
翻訳日:2023-02-08 16:13:35 公開日:2023-02-07
# 超伝導量子回路におけるアルゴンミリング誘起デコヒーレンス機構

Argon milling induced decoherence mechanisms in superconducting quantum circuits ( http://arxiv.org/abs/2302.03518v1 )

ライセンス: Link先を確認
J. Van Damme, Ts. Ivanov, P. Favia, T. Conard, J. Verjauw, R. Acharya, D. Perez Lozano, B. Raes, J. Van de Vondel, A. M. Vadiraj, M. Mongillo, D. Wan, J. De Boeck, A. Poto\v{c}nik, K. De Greve(参考訳) 超伝導回路の製造には、複数の堆積、エッチング、クリーニングステップが必要であり、それぞれが材料特性の変化と微視的欠陥をもたらす可能性がある。 本研究では, ニオブとアルミニウムの超伝導共振器を用いたコヒーレンス制限ステップであるアルゴンミリングの過程を, 量子ビットの表面制限挙動の指標として検討した。 ニオブマイクロ波共振器は表面アルゴンミリング後の品質係数が大幅に低下するのに対して、アルミニウム共振器は同じ工程に耐性がある。 ニオブ表面の過度な分析では,アルゴンミリングによる亜酸化物組成の変化は見られず,また2トン分光法では2レベル系電気双極子モーメントの増加が示され,構造的に変化したニオブ酸化物がより大きな2レベル系欠陥を担っていることが示された。 しかし、短時間のドライエッチングは、ニオブのアルゴン精錬による損失を完全に回復し、ニオブ回路と重なるジョセフソン接合量子ビットへの潜在的経路を提供する。

The fabrication of superconducting circuits requires multiple deposition, etch and cleaning steps, each possibly introducing material property changes and microscopic defects. In this work, we specifically investigate the process of argon milling, a potentially coherence limiting step, using niobium and aluminum superconducting resonators as a proxy for surface-limited behavior of qubits. We find that niobium microwave resonators exhibit an order of magnitude decrease in quality-factors after surface argon milling, while aluminum resonators are resilient to the same process. Extensive analysis of the niobium surface shows no change in the suboxide composition due to argon milling, while two-tone spectroscopy measurements reveal an increase in two-level system electrical dipole moments, indicating a structurally altered niobium oxide hosting larger two-level system defects. However, a short dry etch can fully recover the argon milling induced losses on niobium, offering a potential route towards state-of-the-art overlap Josephson junction qubits with niobium circuitry.
翻訳日:2023-02-08 16:07:34 公開日:2023-02-07
# 全順序 WKB シリーズへのコメント

Comment on WKB series of all orders ( http://arxiv.org/abs/2302.03515v1 )

ライセンス: Link先を確認
C.V.Sukumar(参考訳) WKB近似における全順序に対する一次元二点固有値問題のダンラム展開について検討した。 拡張における全微分である任意の奇数項に対する明示的な形式が与えられる。

The Dunham expansion for the one-dimensional two-turning-point eigenvalue problem for all orders in the WKB approximation is examined. An explicit form for all the odd order terms in the expansion which are are total derivatives is given.
翻訳日:2023-02-08 16:06:52 公開日:2023-02-07
# アラビア語のエンティティ認識に関する調査:過去・最近の進歩・将来の動向

A Survey on Arabic Named Entity Recognition: Past, Recent Advances, and Future Trends ( http://arxiv.org/abs/2302.03512v1 )

ライセンス: Link先を確認
Xiaoye Qu, Yingjie Gu, Qingrong Xia, Zechang Li, Zhefeng Wang, Baoxing Huai(参考訳) アラビア語のテキストがインターネット上に出現するにつれ、これらのアラビア語のテキストから重要な情報を抽出することは特に有用である。 基本的な技術として、名前付きエンティティ認識(NER)は情報抽出技術のコアコンポーネントとして機能し、質問応答や知識グラフ構築など多くの自然言語処理(NLP)システムにおいて重要な役割を果たす。 本稿では,アラビア語nerの開発,特にディープラーニングと事前学習型言語モデルにおける最近の進歩について概観する。 具体的には、アラビア語 NER の背景として、アラビア語 NER の特徴や、アラビア語 NER の既存の資源について紹介する。 そこで我々はアラビアNER法の開発を体系的にレビューした。 伝統的なアラビア語のNERシステムは機能工学とドメイン固有のルールの設計に重点を置いている。 近年,テキストを連続ベクトル表現で表現することで,深層学習が大きな進歩を遂げている。 事前訓練された言語モデルの成長に伴い、アラビア語のNERはより良いパフォーマンスを得る。 最後に,他の言語からのアラビアNER法とNER法のギャップを解消し,アラビアNERの今後の方向性を概説する。

As more and more Arabic texts emerged on the Internet, extracting important information from these Arabic texts is especially useful. As a fundamental technology, Named entity recognition (NER) serves as the core component in information extraction technology, while also playing a critical role in many other Natural Language Processing (NLP) systems, such as question answering and knowledge graph building. In this paper, we provide a comprehensive review of the development of Arabic NER, especially the recent advances in deep learning and pre-trained language model. Specifically, we first introduce the background of Arabic NER, including the characteristics of Arabic and existing resources for Arabic NER. Then, we systematically review the development of Arabic NER methods. Traditional Arabic NER systems focus on feature engineering and designing domain-specific rules. In recent years, deep learning methods achieve significant progress by representing texts via continuous vector representations. With the growth of pre-trained language model, Arabic NER yields better performance. Finally, we conclude the method gap between Arabic NER and NER methods from other languages, which helps outline future directions for Arabic NER.
翻訳日:2023-02-08 16:06:50 公開日:2023-02-07
# 会話における感情認識のためのクラスタレベルコントラスト学習

Cluster-Level Contrastive Learning for Emotion Recognition in Conversations ( http://arxiv.org/abs/2302.03508v1 )

ライセンス: Link先を確認
Kailai Yang, Tianlin Zhang, Hassan Alhuzali, Sophia Ananiadou(参考訳) 会話における感情認識の鍵となる課題は、意味的に類似した感情を区別することである。 SCL(Supervised Contrastive Learning, Supervised Contrastive Learning)は、分類的感情ラベルを高次元意味空間における教師信号やコントラストとして利用する。 しかし、分類ラベルは感情間の定量的情報を提供しない。 ERCは意味空間に埋め込まれた全ての特徴にも等しく依存せず、これは高次元のSCLを非効率にする。 これらの問題に対処するために,まず高次元のSCL空間を3次元の感情表現空間に還元し,評価可能な感情プロトタイプを組み込むために,クラスタレベルのコントラスト学習を行う,新しい低次元クラスタレベルのコントラスト学習(SCCL)手法を提案する。 対話のモデル化と文脈の充実を支援するために,事前学習した知識アダプタを活用し,言語的および事実的知識を注入する。 実験の結果,IEMOCAPは69.81%,MELDは65.7%,DailyDialogデータセットは62.51%であった。 この分析は、VAD空間がERCに適合するだけでなく、解釈可能であることを示し、VADプロトタイプはその性能を高め、SCCLのトレーニングを安定化させた。 さらに、事前学習した知識アダプタは、発話エンコーダとSCCLの性能を向上する。 私たちのコードは、https://github.com/SteveKGYang/SCCLで利用可能です。

A key challenge for Emotion Recognition in Conversations (ERC) is to distinguish semantically similar emotions. Some works utilise Supervised Contrastive Learning (SCL) which uses categorical emotion labels as supervision signals and contrasts in high-dimensional semantic space. However, categorical labels fail to provide quantitative information between emotions. ERC is also not equally dependent on all embedded features in the semantic space, which makes the high-dimensional SCL inefficient. To address these issues, we propose a novel low-dimensional Supervised Cluster-level Contrastive Learning (SCCL) method, which first reduces the high-dimensional SCL space to a three-dimensional affect representation space Valence-Arousal-Dominance (VAD), then performs cluster-level contrastive learning to incorporate measurable emotion prototypes. To help modelling the dialogue and enriching the context, we leverage the pre-trained knowledge adapters to infuse linguistic and factual knowledge. Experiments show that our method achieves new state-of-the-art results with 69.81% on IEMOCAP, 65.7% on MELD, and 62.51% on DailyDialog datasets. The analysis also proves that the VAD space is not only suitable for ERC but also interpretable, with VAD prototypes enhancing its performance and stabilising the training of SCCL. In addition, the pre-trained knowledge adapters benefit the performance of the utterance encoder and SCCL. Our code is available at: https://github.com/SteveKGYang/SCCL
翻訳日:2023-02-08 16:06:32 公開日:2023-02-07
# OPORP: 1つの置換+1つのランダム投影

OPORP: One Permutation + One Random Projection ( http://arxiv.org/abs/2302.03505v1 )

ライセンス: Link先を確認
Ping Li and Xiaoyun Li(参考訳) 2つのD$次元のデータベクトル(例えば埋め込み)を考える:$u, v$。 ベクトルが訓練されたモデルから生成される多くの埋め込みベース検索(EBR)アプリケーションでは、$D=256\sim 1024$が一般的である。 本稿では, oporp (one permutation + one random projection) が ``count-sketch''' 型のデータ構造の変種を用いて,データの縮小圧縮を実現する。 OPORPでは、まずデータベクトルに置換を適用する。 乱ベクトル$r$が生成される:$E(r_i) = 0, E(r_i^2)=1, E(r_i^3) =0, E(r_i^4)=s$。 ドット積として)$r$をすべての置換データベクトルに乗算します。 次に$D$列を$k$等長のビンに分割し、各ビンの値(すなわち和)を集約し、各データベクトルから$k$サンプルを取得する。 1つの重要なステップは、$k$サンプルを$l_2$標準に正規化することである。 推定分散は基本的に: $(s-1)A + \frac{D-k}{D-1}\frac{1}{k}\left[ (1-\rho^2)^2 -2A\right]$, ここで$A\geq 0$はデータ(u,v$)の関数である。 この式はいくつかの重要な性質を明らかにしている: (1)$s=1$。 2) 因子 $\frac{D-k}{D-1}$ は分散の減少に非常に有益である。 (3) $\frac{1}{k}(1-\rho^2)^2$ という用語は、実際には古典的相関推定器の漸近分散である。 我々は、OPORPの$k$を$k=1$にし、プロシージャを$m$回繰り返すことで、 'very spars random projections' (VSRP)の作業を正確に回復する。 これはすぐにVSRPの正規化推定器につながり、VSRPの当初の推定器を大幅に改善した。 まとめると、OPORPでは、2つの重要なステップがあります。 (i)正規化及び (ii)固定長バイナリ化方式は,現代の埋め込み型検索 (ebr) アプリケーションにおいて日常的(かつ重要な)タスクであるコサイン類似度の推定精度を大幅に向上させた。

Consider two $D$-dimensional data vectors (e.g., embeddings): $u, v$. In many embedding-based retrieval (EBR) applications where the vectors are generated from trained models, $D=256\sim 1024$ are common. In this paper, OPORP (one permutation + one random projection) uses a variant of the ``count-sketch'' type of data structures for achieving data reduction/compression. With OPORP, we first apply a permutation on the data vectors. A random vector $r$ is generated i.i.d. with moments: $E(r_i) = 0, E(r_i^2)=1, E(r_i^3) =0, E(r_i^4)=s$. We multiply (as dot product) $r$ with all permuted data vectors. Then we break the $D$ columns into $k$ equal-length bins and aggregate (i.e., sum) the values in each bin to obtain $k$ samples from each data vector. One crucial step is to normalize the $k$ samples to the unit $l_2$ norm. We show that the estimation variance is essentially: $(s-1)A + \frac{D-k}{D-1}\frac{1}{k}\left[ (1-\rho^2)^2 -2A\right]$, where $A\geq 0$ is a function of the data ($u,v$). This formula reveals several key properties: (1) We need $s=1$. (2) The factor $\frac{D-k}{D-1}$ can be highly beneficial in reducing variances. (3) The term $\frac{1}{k}(1-\rho^2)^2$ is actually the asymptotic variance of the classical correlation estimator. We illustrate that by letting the $k$ in OPORP to be $k=1$ and repeat the procedure $m$ times, we exactly recover the work of ``very spars random projections'' (VSRP). This immediately leads to a normalized estimator for VSRP which substantially improves the original estimator of VSRP. In summary, with OPORP, the two key steps: (i) the normalization and (ii) the fixed-length binning scheme, have considerably improved the accuracy in estimating the cosine similarity, which is a routine (and crucial) task in modern embedding-based retrieval (EBR) applications.
翻訳日:2023-02-08 16:05:27 公開日:2023-02-07
# PhysFormer++:低速時間差変換器を用いた顔面映像に基づく生理的計測

PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer ( http://arxiv.org/abs/2302.03548v1 )

ライセンス: Link先を確認
Zitong Yu, Yuming Shen, Jingang Shi, Hengshuang Zhao, Yawen Cui, Jiehua Zhang, Philip Torr and Guoying Zhao(参考訳) RPPG(Remote Photoplethysmography)は、接触のない顔画像から心臓活動や生理的信号を測定することを目的としており、多くの応用(例えば、遠隔医療や情動コンピューティング)において大きな可能性を秘めている。 近年の深層学習手法は,rPPGモデリングにおける長距離時空間知覚と相互作用を無視した時空間受容場を限定した畳み込みニューラルネットワークを用いた微妙なrPPG手がかりのマイニングに重点を置いている。 本稿では,rppg表現エンハンスメントのために,ローカルとグローバルの両方の時空間的特徴を適応的に集約する2つのエンドツーエンドビデオトランスフォーマアーキテクチャ,physformerとphysformer++を提案する。 PhysFormerのキーモジュールとして、時間差変換器は、まず、時間差を導いた大域的注意を伴って準周期的なrPPG特性を高め、干渉に対する局所時空間表現を洗練させる。 時間的文脈および周期的なrPPGヒントをよりうまく活用するために、PhysFormerを2経路SlowFastベースのPhysFormer++に拡張し、時間的差分周期変換とクロスアテンション変換を行う。 さらに,周波数領域における動的制約に触発されたラベル分布学習とカリキュラム学習を提案し,physformer と physformer++ の綿密な監督を行い,オーバーフィッティングを緩和する。 4つのベンチマークデータセットで総合的な実験を行い、データ内テストとクロスデータセットテストの両方で優れたパフォーマンスを示す。 大規模なデータセットから事前トレーニングを必要とするほとんどのトランスフォーマーネットワークとは異なり、提案されたPhysFormerファミリーは、rPPGデータセットをスクラッチから簡単にトレーニングすることができる。

Remote photoplethysmography (rPPG), which aims at measuring heart activities and physiological signals from facial video without any contact, has great potential in many applications (e.g., remote healthcare and affective computing). Recent deep learning approaches focus on mining subtle rPPG clues using convolutional neural networks with limited spatio-temporal receptive fields, which neglect the long-range spatio-temporal perception and interaction for rPPG modeling. In this paper, we propose two end-to-end video transformer based architectures, namely PhysFormer and PhysFormer++, to adaptively aggregate both local and global spatio-temporal features for rPPG representation enhancement. As key modules in PhysFormer, the temporal difference transformers first enhance the quasi-periodic rPPG features with temporal difference guided global attention, and then refine the local spatio-temporal representation against interference. To better exploit the temporal contextual and periodic rPPG clues, we also extend the PhysFormer to the two-pathway SlowFast based PhysFormer++ with temporal difference periodic and cross-attention transformers. Furthermore, we propose the label distribution learning and a curriculum learning inspired dynamic constraint in frequency domain, which provide elaborate supervisions for PhysFormer and PhysFormer++ and alleviate overfitting. Comprehensive experiments are performed on four benchmark datasets to show our superior performance on both intra- and cross-dataset testings. Unlike most transformer networks needed pretraining from large-scale datasets, the proposed PhysFormer family can be easily trained from scratch on rPPG datasets, which makes it promising as a novel transformer baseline for the rPPG community.
翻訳日:2023-02-08 15:58:32 公開日:2023-02-07
# 2つの損失は1より優れている:チーパプロキシを使った最適化の高速化

Two Losses Are Better Than One: Faster Optimization Using a Cheaper Proxy ( http://arxiv.org/abs/2302.03542v1 )

ライセンス: Link先を確認
Blake Woodworth (SIERRA), Konstantin Mishchenko, Francis Bach (SIERRA, PSL)(参考訳) 本稿では,関連関数をプロキシとして利用することにより,目的物を計算困難勾配で最小化するアルゴリズムを提案する。 このアルゴリズムはプロキシ上の近似近近点反復と目的からの相対的勾配を組み合わせたものである。 目的物とプロキシの差が$\delta$-smoothである場合、我々のアルゴリズムは、$\delta$-smoothの目的物に対する確率勾配勾配に一致する速度で収束することを保証する。 我々のアルゴリズムは機械学習に多くの可能性があり、合成データ、物理シミュレータ、混合公開データ、プライベートデータなどを活用するための原則化された手段を提供する。

We present an algorithm for minimizing an objective with hard-to-compute gradients by using a related, easier-to-access function as a proxy. Our algorithm is based on approximate proximal point iterations on the proxy combined with relatively few stochastic gradients from the objective. When the difference between the objective and the proxy is $\delta$-smooth, our algorithm guarantees convergence at a rate matching stochastic gradient descent on a $\delta$-smooth objective, which can lead to substantially better sample efficiency. Our algorithm has many potential applications in machine learning, and provides a principled means of leveraging synthetic data, physics simulators, mixed public and private data, and more.
翻訳日:2023-02-08 15:57:56 公開日:2023-02-07
# 完全自動心筋病理セグメンテーションへのマルチシーケンスcmrの適応

Aligning Multi-Sequence CMR Towards Fully Automated Myocardial Pathology Segmentation ( http://arxiv.org/abs/2302.03537v1 )

ライセンス: Link先を確認
Wangbin Ding, Lei Li, Junyi Qiu, Sihan Wang, Liqin Huang, Yinyin Chen, Shan Yang, Xiahai Zhuang(参考訳) 心筋梗塞のリスク階層化と治療計画には心筋病理分画(myops)が重要である。 multi-sequence heart magnetic resonance (ms-cmr) 画像は貴重な情報を提供する。 例えば、バランスの取れた定常なフリーセシチン配列は、解剖学的境界が明確であり、後期ガドリニウム増強とT2強調CMR配列は、それぞれMIの心筋傷と浮腫を可視化する。 既存の方法は通常、MyoPSの異なるCMR配列から解剖学的および病理学的情報を融合するが、これらの画像は空間的に整列していると仮定する。 しかし、MS-CMR画像は通常、臨床実践における呼吸運動のために不整合であり、MyoPSにはさらなる課題が生じる。 非整合MS-CMR画像のためのMyoPSフレームワークを提案する。 具体的には,マルチシーケンス特徴を共通空間に集約して解剖学的構造(心筋)を抽出する,同時画像登録と情報融合のための複合計算モデルを設計する。 その結果, 心筋と心筋の空間的関係を考慮して, 抽出された心筋を介して, 共有空間内の情報的領域を強調し, マイオップス性能を向上させることができる。 MYOPS2020チャレンジのプライベートMS-CMRデータセットと公開データセットを用いた実験により、我々のフレームワークは完全自動MyoPSに対して有望な性能を達成できることを示した。

Myocardial pathology segmentation (MyoPS) is critical for the risk stratification and treatment planning of myocardial infarction (MI). Multi-sequence cardiac magnetic resonance (MS-CMR) images can provide valuable information. For instance, balanced steady-state free precession cine sequences present clear anatomical boundaries, while late gadolinium enhancement and T2-weighted CMR sequences visualize myocardial scar and edema of MI, respectively. Existing methods usually fuse anatomical and pathological information from different CMR sequences for MyoPS, but assume that these images have been spatially aligned. However, MS-CMR images are usually unaligned due to the respiratory motions in clinical practices, which poses additional challenges for MyoPS. This work presents an automatic MyoPS framework for unaligned MS-CMR images. Specifically, we design a combined computing model for simultaneous image registration and information fusion, which aggregates multi-sequence features into a common space to extract anatomical structures (i.e., myocardium). Consequently, we can highlight the informative regions in the common space via the extracted myocardium to improve MyoPS performance, considering the spatial relationship between myocardial pathologies and myocardium. Experiments on a private MS-CMR dataset and a public dataset from the MYOPS2020 challenge show that our framework could achieve promising performance for fully automatic MyoPS.
翻訳日:2023-02-08 15:57:43 公開日:2023-02-07
# 二次非拘束二項最適化による解法(Max) 3-SAT

Solving (Max) 3-SAT via Quadratic Unconstrained Binary Optimization ( http://arxiv.org/abs/2302.03536v1 )

ライセンス: Link先を確認
Jonas N\"u{\ss}lein, Sebastian Zielinski, Thomas Gabor, Claudia Linnhoff-Popien and Sebastian Feld(参考訳) 量子アニーリング(QA)や量子近似最適化アルゴリズム(QAOA)で用いられるように、任意の3SATインスタンスを擬似非拘束バイナリ最適化(QUBO)に変換する新しい手法を提案する。 当社のアプローチでは,現在の最先端技術よりもカップリングの削減と物理キュービットの削減が求められているため,ソリューションの品質が向上しています。 D-Wave量子アニールを用いて,本手法の実用性を検証する。

We introduce a novel approach to translate arbitrary 3-SAT instances to Quadratic Unconstrained Binary Optimization (QUBO) as they are used by quantum annealing (QA) or the quantum approximate optimization algorithm (QAOA). Our approach requires fewer couplings and fewer physical qubits than the current state-of-the-art, which results in higher solution quality. We verified the practical applicability of the approach by testing it on a D-Wave quantum annealer.
翻訳日:2023-02-08 15:57:19 公開日:2023-02-07
# 経験リプレイによるロバストインダクティブグラフインクリメンタル学習に向けて

Towards Robust Inductive Graph Incremental Learning via Experience Replay ( http://arxiv.org/abs/2302.03534v1 )

ライセンス: Link先を確認
Junwei Su, Chuan Wu(参考訳) 帰納的グラフインクリメンタル学習は、進化するグラフの動的性質とノード間の依存関係のため、難しい課題である。 本稿では,gnnのトポロジカルな認識と重要度重み付け技術を活用することで,これらの課題に対処する新しい経験リプレイフレームワークであるstructure-evolution-aware experience replay(sea-er)を提案する。 本フレームワークは,グラフの進化におけるノード予測問題のデータ依存性を,その有効性を支持する理論的保証とともに効果的に解決する。 実験的な評価により,提案手法はいくつかのベンチマークデータセット上での現在最先端のGNN体験再生手法よりも優れており,精度や忘れなどの指標によって測定される。

Inductive node-wise graph incremental learning is a challenging task due to the dynamic nature of evolving graphs and the dependencies between nodes. In this paper, we propose a novel experience replay framework, called Structure-Evolution-Aware Experience Replay (SEA-ER), that addresses these challenges by leveraging the topological awareness of GNNs and importance reweighting technique. Our framework effectively addresses the data dependency of node prediction problems in evolving graphs, with a theoretical guarantee that supports its effectiveness. Through empirical evaluation, we demonstrate that our proposed framework outperforms the current state-of-the-art GNN experience replay methods on several benchmark datasets, as measured by metrics such as accuracy and forgetting.
翻訳日:2023-02-08 15:57:10 公開日:2023-02-07
# 視聴覚学習における事前学習の再考

Revisiting Pre-training in Audio-Visual Learning ( http://arxiv.org/abs/2302.03533v1 )

ライセンス: Link先を確認
Ruoxuan Feng, Wenke Xia and Di Hu(参考訳) プリトレーニング技術は、様々なタスクにおけるモデルパフォーマンス向上に多大な成功を収めているが、いくつかのユニモーダルな状況において、スクラッチからトレーニングよりもパフォーマンスが悪かった。 トレーニング済みのモデルは、より複雑なマルチモーダルシナリオ、特にオーディオや視覚といった異質なモダリティにおいて、常に有効であるのでしょうか? 私たちは答えがNoであることに気付きました。 具体的には,事前学習モデルが2つのオーディオ視覚学習シナリオ(クロスモーダル初期化とマルチモーダル共同学習)に与える影響を検討する。 クロスモーダル初期化が適用されると、異常なバッチノルムパラメータによる"dead channel"現象はモデル容量の利用を妨げる。 そこで本稿では,対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。 マルチモーダルジョイントラーニングでは、強い事前訓練されたユニモーダルエンコーダが他のモーダルのエンコーダに負の効果をもたらす。 このような問題を緩和するため,一様エンコーダを適応マスキング手法と協調させつつ,事前学習した知識をより活用する2段階のフュージョンチューニング戦略を導入する。 実験結果から,本手法は事前学習モデルの有効性をさらに活用し,音声視覚学習の性能向上を図ることができることがわかった。

Pre-training technique has gained tremendous success in enhancing model performance on various tasks, but found to perform worse than training from scratch in some uni-modal situations. This inspires us to think: are the pre-trained models always effective in the more complex multi-modal scenario, especially for the heterogeneous modalities such as audio and visual ones? We find that the answer is No. Specifically, we explore the effects of pre-trained models on two audio-visual learning scenarios: cross-modal initialization and multi-modal joint learning. When cross-modal initialization is applied, the phenomena of "dead channel" caused by abnormal Batchnorm parameters hinders the utilization of model capacity. Thus, we propose Adaptive Batchnorm Re-initialization (ABRi) to better exploit the capacity of pre-trained models for target tasks. In multi-modal joint learning, we find a strong pre-trained uni-modal encoder would bring negative effects on the encoder of another modality. To alleviate such problem, we introduce a two-stage Fusion Tuning strategy, taking better advantage of the pre-trained knowledge while making the uni-modal encoders cooperate with an adaptive masking method. The experiment results show that our methods could further exploit pre-trained models' potential and boost performance in audio-visual learning.
翻訳日:2023-02-08 15:56:48 公開日:2023-02-07
# シーン理解のための構造化生成モデル

Structured Generative Models for Scene Understanding ( http://arxiv.org/abs/2302.03531v1 )

ライセンス: Link先を確認
Christopher K. I. Williams(参考訳) 本稿では,シーン理解に<emph{structured generative model} (SGM) を用いることを論じる。 これには入力画像からの3dシーンの再構築が必要であり、画像の内容は、それぞれが独自のタイプ、形状、外観、ポーズを持つインスタンス化されたオブジェクトのモデルと、シーンライティングやカメラパラメータなどのグローバル変数によって説明される。 このアプローチにはシーン内のオブジェクトの共起と相互関係を考慮したシーンモデルも必要となる。 SGMアプローチは、それが構成的で生成的であり、解釈可能性をもたらすという利点がある。 SGMアジェンダを追求するには、オブジェクトやシーンのモデルと、推論を実行するためのアプローチが必要です。 まず,<things' (よく定義された形状を持つ対象) と ``stuff'' (アモルファスな空間範囲を持つカテゴリー) を含む対象のモデルについて検討した。 次に、オブジェクトの相互関係を記述する 'emph{scene model} をレビューします。 おそらくSGMの最も難しい問題は、オブジェクトのemph{inference}、照明とカメラパラメータ、および1つまたは複数の画像からなる入力からのシーン相互関係である。 我々は、SGMアジェンダを進めるために対処する必要がある問題についての議論で締めくくります。

This position paper argues for the use of \emph{structured generative models} (SGMs) for scene understanding. This requires the reconstruction of a 3D scene from an input image, whereby the contents of the image are causally explained in terms of models of instantiated objects, each with their own type, shape, appearance and pose, along with global variables like scene lighting and camera parameters. This approach also requires scene models which account for the co-occurrences and inter-relationships of objects in a scene. The SGM approach has the merits that it is compositional and generative, which lead to interpretability. To pursue the SGM agenda, we need models for objects and scenes, and approaches to carry out inference. We first review models for objects, which include ``things'' (object categories that have a well defined shape), and ``stuff'' (categories which have amorphous spatial extent). We then move on to review \emph{scene models} which describe the inter-relationships of objects. Perhaps the most challenging problem for SGMs is \emph{inference} of the objects, lighting and camera parameters, and scene inter-relationships from input consisting of a single or multiple images. We conclude with a discussion of issues that need addressing to advance the SGM agenda.
翻訳日:2023-02-08 15:56:24 公開日:2023-02-07
# no-signaling faces 上の量子集合の幾何学的考察

Comment on "Geometry of the quantum set on no-signaling faces" ( http://arxiv.org/abs/2302.03529v1 )

ライセンス: Link先を確認
Mateus Ara\'ujo(参考訳) refで。 [1] 著者らは、ほぼ量子の相関の集合は、相関の量子集合の境界上の2つの点を再現できないと主張している。 この主張は誤りだ。 根本的な問題は、関連する sdp が厳密には実現できないため、数値解法は信頼できない答えを与える。 両点がほぼ量子によって実際に再現されるという解析的証明を与える。

In Ref. [1] the authors claim that the Almost Quantum set of correlations cannot reproduce two points on the boundary of the quantum set of correlations. This claim is incorrect. The underlying issue is that the associated SDP is not strictly feasible, which makes the numerical solvers give unreliable answers. We give analytical proofs that both points are indeed reproduced by Almost Quantum.
翻訳日:2023-02-08 15:56:03 公開日:2023-02-07
# 言語学習を支援する多言語機械翻訳モデルの改善

Efficiently Upgrading Multilingual Machine Translation Models to Support More Languages ( http://arxiv.org/abs/2302.03528v1 )

ライセンス: Link先を確認
Simeng Sun, Maha Elbayad, Anna Sun, James Cross(参考訳) 多言語機械翻訳(mmt)モデルは、サポート対象言語のサイズと数を増加させ続けているため、より多くの言語でデータが利用可能になると、既存のモデルを再利用しアップグレードして計算を節約することは自然である。 しかし、新しい言語を追加するには、埋め込みの再利用を複雑にする語彙を更新する必要がある。 既存のモデルを再利用し、また古い言語と新しい言語の両方に能力を提供するアーキテクチャの変更を行う方法についても、詳しく研究されていない。 本稿では,新しい言語の効果的な学習をスピードアップし,語彙やアーキテクチャのミスマッチにもかかわらず壊滅的な忘れを緩和する3つの手法を紹介する。 その結果,(1)ネットワークを慎重に初期化し,(2)学習率のスケーリングを適用し,(3)データのアップサンプリングを行うことで,30%の計算で同一サイズのベースラインモデルの性能を上回り,50%以上の計算でスクラッチからトレーニングした大モデルの性能を回復することができることがわかった。 さらに, 導入した手法は, 新たな方向性をより効果的に学習し, 破滅的な忘れを緩和するのに役立つことを明らかにした。 我々は、これらのMTモデルの言語成長に対するより効率的なアプローチの研究をガイドし、最終的に既存のモデルの再利用を最大化することを願っている。

With multilingual machine translation (MMT) models continuing to grow in size and number of supported languages, it is natural to reuse and upgrade existing models to save computation as data becomes available in more languages. However, adding new languages requires updating the vocabulary, which complicates the reuse of embeddings. The question of how to reuse existing models while also making architectural changes to provide capacity for both old and new languages has also not been closely studied. In this work, we introduce three techniques that help speed up effective learning of the new languages and alleviate catastrophic forgetting despite vocabulary and architecture mismatches. Our results show that by (1) carefully initializing the network, (2) applying learning rate scaling, and (3) performing data up-sampling, it is possible to exceed the performance of a same-sized baseline model with 30% computation and recover the performance of a larger model trained from scratch with over 50% reduction in computation. Furthermore, our analysis reveals that the introduced techniques help learn the new directions more effectively and alleviate catastrophic forgetting at the same time. We hope our work will guide research into more efficient approaches to growing languages for these MMT models and ultimately maximize the reuse of existing models.
翻訳日:2023-02-08 15:55:56 公開日:2023-02-07
# ニューラルネットワーク関数空間距離の効率的なパラメトリック近似

Efficient Parametric Approximations of Neural Network Function Space Distance ( http://arxiv.org/abs/2302.03519v1 )

ライセンス: Link先を確認
Nikita Dhawan, Sicong Huang, Juhan Bae, Roger Grosse(参考訳) モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体の保存と/または反復することなく、後で使用できるようにすることがしばしば有用である。 具体的には、トレーニングセット上の関数空間距離(fsd)、すなわち2つのニューラルネットワークの出力間の平均不一致を推定することを検討する。 本稿では,線形化アクティベーション関数トリック(laftr)を提案し,reluニューラルネットワークに対するfsdの効率的な近似を導出する。 鍵となるアイデアは、統計的ゲーティングを伴う線形ネットワークとしてアーキテクチャを近似することである。 ネットワーク単位あたりのパラメータは1つしかないが、より大きなメモリ要件を持つ他のパラメトリック近似よりも優れている。 連続学習に適用すると、パラメトリック近似は最先端の非パラメトリック近似と競合し、多くのトレーニング例を格納する必要がある。 さらに,影響関数を精度良く推定し,データセット全体にわたるコストのかかる反復を伴わない誤記例の検出に有効性を示す。

It is often useful to compactly summarize important properties of model parameters and training data so that they can be used later without storing and/or iterating over the entire dataset. As a specific case, we consider estimating the Function Space Distance (FSD) over a training set, i.e. the average discrepancy between the outputs of two neural networks. We propose a Linearized Activation Function TRick (LAFTR) and derive an efficient approximation to FSD for ReLU neural networks. The key idea is to approximate the architecture as a linear network with stochastic gating. Despite requiring only one parameter per unit of the network, our approach outcompetes other parametric approximations with larger memory requirements. Applied to continual learning, our parametric approximation is competitive with state-of-the-art nonparametric approximations, which require storing many training examples. Furthermore, we show its efficacy in estimating influence functions accurately and detecting mislabeled examples without expensive iterations over the entire dataset.
翻訳日:2023-02-08 15:55:32 公開日:2023-02-07
# 局所神経記述体:操作のための局所条件付きオブジェクト表現

Local Neural Descriptor Fields: Locally Conditioned Object Representations for Manipulation ( http://arxiv.org/abs/2302.03573v1 )

ライセンス: Link先を確認
Ethan Chun, Yilun Du, Anthony Simeonov, Tomas Lozano-Perez, Leslie Kaelbling(参考訳) 家庭の環境で動くロボットは、さまざまなユニークな不慣れな物体を見ることができる。 システムはこれらの多くを訓練できるが、ロボットが見るすべての物体を予測することは不可能だ。 本稿では,限られた数のデモンストレーションから得られた物体操作スキルを,見当たらない形状カテゴリの新しい物体に一般化する手法を提案する。 我々のアプローチであるLocal Neural Descriptor Fields (L-NDF) は、オブジェクトの局所的形状に定義されたニューラル記述子を用いて、試験時に新しいオブジェクトに操作デモを効果的に転送する。 そうすることで、オブジェクト間で共有される局所幾何学を利用して、より一般的な操作フレームワークを作成します。 シミュレーションと現実世界の両方において、新しいポーズで新しいオブジェクトを操作するためのアプローチの有効性について説明する。

A robot operating in a household environment will see a wide range of unique and unfamiliar objects. While a system could train on many of these, it is infeasible to predict all the objects a robot will see. In this paper, we present a method to generalize object manipulation skills acquired from a limited number of demonstrations, to novel objects from unseen shape categories. Our approach, Local Neural Descriptor Fields (L-NDF), utilizes neural descriptors defined on the local geometry of the object to effectively transfer manipulation demonstrations to novel objects at test time. In doing so, we leverage the local geometry shared between objects to produce a more general manipulation framework. We illustrate the efficacy of our approach in manipulating novel objects in novel poses -- both in simulation and in the real world.
翻訳日:2023-02-08 15:49:20 公開日:2023-02-07
# 網膜補綴刺激の最適化のための in silico framework による深層学習

A Deep Learning-based in silico Framework for Optimization on Retinal Prosthetic Stimulation ( http://arxiv.org/abs/2302.03570v1 )

ライセンス: Link先を確認
Yuli Wu, Ivan Karetic, Johannes Stegmaier, Peter Walter, Dorit Merhof(参考訳) 本稿では,in silico retinal implant model pulse2perceptでシミュレーションされた知覚を最適化するニューラルネットワークベースのフレームワークを提案する。 パイプライン全体は、トレーニング可能なエンコーダ、トレーニング済み網膜インプラントモデル、トレーニング済み評価器で構成される。 エンコーダはU-Netであり、元のイメージを取り、刺激を出力する。 プレトレーニングされた網膜インプラントモデルもまたU-Netであり、パルス2パーセプションで実装された生体模倣の知覚モデルを模倣するように訓練されている。 評価器は浅いVGG分類器であり、元の画像で訓練されている。 mnistデータセットから得られた10,000個のテスト画像に基づいて,畳み込みニューラルネットワークベースのエンコーダは自明なダウンサンプリング手法よりも著しく性能が向上し,プレトレーニングされた6x10電極の分類器では,重み付けされたf1-scoreが36.17%向上することを示した。 この完全なニューラルネットワークベースのエンコーダにより、下流の知覚の質は、エンドツーエンドで勾配降下を用いて微調整することができる。

We propose a neural network-based framework to optimize the perceptions simulated by the in silico retinal implant model pulse2percept. The overall pipeline consists of a trainable encoder, a pre-trained retinal implant model and a pre-trained evaluator. The encoder is a U-Net, which takes the original image and outputs the stimulus. The pre-trained retinal implant model is also a U-Net, which is trained to mimic the biomimetic perceptual model implemented in pulse2percept. The evaluator is a shallow VGG classifier, which is trained with original images. Based on 10,000 test images from the MNIST dataset, we show that the convolutional neural network-based encoder performs significantly better than the trivial downsampling approach, yielding a boost in the weighted F1-Score by 36.17% in the pre-trained classifier with 6x10 electrodes. With this fully neural network-based encoder, the quality of the downstream perceptions can be fine-tuned using gradient descent in an end-to-end fashion.
翻訳日:2023-02-08 15:49:07 公開日:2023-02-07
# 鎖状系における結合励起子とフォノンの量子力学:テンソルトレインアプローチと高次プロパゲータ

Quantum dynamics of coupled excitons and phonons in chain-like systems: tensor train approaches and higher-order propagators ( http://arxiv.org/abs/2302.03568v1 )

ライセンス: Link先を確認
Patrick Gel{\ss}, Rupert Klein, Sebastian Matera, and Burkhard Schmidt(参考訳) オンサイトおよび近距離相互作用のみを持つ鎖状量子系に対する時間依存schr\"{o}dinger方程式の解に対するテンソルトレイン法について検討する。 量子力学ハミルトニアンの低ランクテンソルトレイン表現に対する効率的なSLIM表現を用いて,メモリ消費と計算コストを削減し,次元性の呪いを極力軽減することを目指す。 例えば、Fr\"{o}hlich-Holstein型ハミルトニアンでモデル化された結合励起子とフォノンがここで研究される。 半解析結果と比較することにより、量子状態ベクトルに対するテンソルトレイン表現のランクの鍵となる役割を示す。 典型的には、解の優れた品質は、階数が特定の値を超え、励起子、フォノン、結合系とは大きく異なる場合にのみ見出される。 伝搬スキームの1つのクラスは、ハミルトニアンをインターリーブされた最も近い隣り合う相互作用の2つの群に分割することに基づいている。 第1次リートローターと第2次ストラングマルツク分割スキームに加えて,第4次吉田ネリと第8次カハンリシンプレクティックコンポジションも実装した。 特に後者の2つは、機械の精度に近い非常に正確な結果をもたらすことが示されている。 しかし、計算コストのため、現在ではその用途は短鎖に限られている。 別のプロパゲータのクラスは、高階法を実装した明示的で時相化されたオイラー積分器である。 特に4次変種は、分割スキームの高精度さに到達できないにもかかわらず、長い鎖の量子シミュレーションに推奨されている。 さらに、局所ヒルベルト空間の次元による計算努力のスケーリングは、分割スキームよりも微分に有利である。

We investigate tensor-train approaches to the solution of the time-dependent Schr\"{o}dinger equation for chain-like quantum systems with on-site and nearest-neighbor interactions only. Using the efficient SLIM representation for low-rank tensor train representations of quantum-mechanical Hamiltonians, we aim at reducing the memory consumption as well as the computation costs, in order to mitigate the curse of dimensionality as much as possible. As an example, coupled excitons and phonons modeled in terms of Fr\"{o}hlich-Holstein type Hamiltonians are studied here. By comparing with semi-analytical results, we demonstrate the key role of the ranks of tensor-train representations for quantum state vectors. Typically, an excellent quality of the solutions is found only when the ranks exceeds a certain value which can be very different for excitons, phonons, and coupled systems. One class of propagation schemes builds on splitting the Hamiltonian into two groups of interleaved nearest-neighbor interactions. In addition to the first order Lie-Trotter and the second order Strang-Marchuk splitting schemes, we have also implemented the 4-th order Yoshida-Neri and the 8-th order Kahan-Li symplectic compositions. Especially the latter two are demonstrated to yield very accurate results, close to machine precision. However, due to the computational costs, currently their use is restricted to rather short chains. Another class of propagators involves explicit, time-symmetrized Euler integrators for which we have also implemented higher order methods. Especially the 4-th order variant is recommended for quantum simulations of longer chains, even though the high precision of the splitting schemes cannot be reached. Moreover, the scaling of the computational effort with the dimensions of the local Hilbert spaces is much more favorable for the differencing than for the splitting schemes.
翻訳日:2023-02-08 15:48:46 公開日:2023-02-07
# アルゴリズムフェアネスのための実用性からRawlsianデザインへ

From Utilitarian to Rawlsian Designs for Algorithmic Fairness ( http://arxiv.org/abs/2302.03567v1 )

ライセンス: Link先を確認
Daniel E. Rigobon(参考訳) アルゴリズムシステムの“フェアネス(fairness)”を計測する方法については、文献内ではコンセンサスが欠如しており、異なるメトリクスが相反することが多い。 本稿では,実用主義とジョン・ロールズの倫理的枠組みを描くことにより,この課題にアプローチする。 非公式に、分配的正義のこの2つの理論は、それぞれ「良い」を集団の効用の合計または最悪の結果として測定する。 これら2つの(おそらく)矛盾する「良い」概念の間を補間する目的関数のパラメタライズされたクラスを示す。 このクラスは、rawlsian 'veil of ignorance' の緩和を表しており、その最適解の列は、実用性およびrawlsian optimalの両方に収束する。 このクラスの他のいくつかの特性について研究されている。 1)正規化最適化との関係 2)一貫した推定の実現可能性、及び 3)アルゴリズムコスト。 いくつかの実世界のデータセットでは、最適な解を計算し、効用論と「よい」の概念の間のトレードオフを構築する。 経験的に、モデルの複雑さの増大は両方の「良い」尺度に厳格な改善をもたらすことを実証する。 この研究は、「フェアネス」の適切な度合いが、誘導的実用主義とルーシアン「グッド」の空間に対するデザイナの好みによってもたらされることを示唆している。

There is a lack of consensus within the literature as to how `fairness' of algorithmic systems can be measured, and different metrics can often be at odds. In this paper, we approach this task by drawing on the ethical frameworks of utilitarianism and John Rawls. Informally, these two theories of distributive justice measure the `good' as either a population's sum of utility, or worst-off outcomes, respectively. We present a parameterized class of objective functions that interpolates between these two (possibly) conflicting notions of the `good'. This class is shown to represent a relaxation of the Rawlsian `veil of ignorance', and its sequence of optimal solutions converges to both a utilitarian and Rawlsian optimum. Several other properties of this class are studied, including: 1) a relationship to regularized optimization, 2) feasibility of consistent estimation, and 3) algorithmic cost. In several real-world datasets, we compute optimal solutions and construct the tradeoff between utilitarian and Rawlsian notions of the `good'. Empirically, we demonstrate that increasing model complexity can manifest strict improvements to both measures of the `good'. This work suggests that the proper degree of `fairness' can be informed by a designer's preferences over the space of induced utilitarian and Rawlsian `good'.
翻訳日:2023-02-08 15:47:57 公開日:2023-02-07
# 周りを見回して学ぶ:探査による自己改善物体検出

Look around and learn: self-improving object detection by exploration ( http://arxiv.org/abs/2302.03566v1 )

ライセンス: Link先を確認
ianluca Scarpellini, Stefano Rosa, Pietro Morerio, Lorenzo Natale, Alessio Del Bue(参考訳) 対象検出器は、トレーニングデータに新しい環境条件が不十分に表現されている場合、しばしば性能低下を経験する。 本稿では,人間の介入に頼らずに,新しい環境で画像を探索し,取得しながら,既存の物体検出器を自動的に微調整する方法について検討する。 私たちの設定では、エージェントはまず、事前訓練されたオフザシェルフ検出器を使って、オブジェクトを検出し、擬似ラベルを関連付けることで環境を探索することを学びます。 同じ対象に対する擬似ラベルが異なる視点で一貫性を持つ必要があると仮定することで、ハードサンプルをマイニングする探索方針を学び、観察者間のコンセンサスから洗練された予測を生成するための新しいメカニズムを考案する。 当社のアプローチは現在の最先端技術よりも優れており、地味なアノテーションに頼ることなく、完全に教師された設定に対するパフォーマンスギャップを埋めています。 また,エージェントがより情報的な観察を行うための様々な探索方針を比較した。 コードとデータセットが論文受理時に利用可能になる

Object detectors often experience a drop in performance when new environmental conditions are insufficiently represented in the training data. This paper studies how to automatically fine-tune a pre-existing object detector while exploring and acquiring images in a new environment without relying on human intervention, i.e., in an utterly self-supervised fashion. In our setting, an agent initially learns to explore the environment using a pre-trained off-the-shelf detector to locate objects and associate pseudo-labels. By assuming that pseudo-labels for the same object must be consistent across different views, we learn an exploration policy mining hard samples and we devise a novel mechanism for producing refined predictions from the consensus among observations. Our approach outperforms the current state-of-the-art, and it closes the performance gap against a fully supervised setting without relying on ground-truth annotations. We also compare various exploration policies for the agent to gather more informative observations. Code and dataset will be made available upon paper acceptance
翻訳日:2023-02-08 15:47:34 公開日:2023-02-07
# 長期音声推薦の最適化:強化学習の視点から

Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective ( http://arxiv.org/abs/2302.03561v1 )

ライセンス: Link先を確認
Lucas Maystre, Daniel Russo, Yu Zhao(参考訳) 本研究では,数週間から数ヶ月の成果に対してレコメンダシステムを最適化する問題について検討する。 まず,レコメンデーションシステムを用いて,ユーザの繰り返し関係の包括的モデルを定式化する強化学習について考察する。 計測、帰属、コーディネーションの課題はアルゴリズム設計を複雑にする。 我々は、これらの課題を克服し、シンプルでテスト可能なシステムプロトタイプにつながる、慎重にモデリングする(ユーザ状態とキー条件独立の仮定の表現を含む)。 我々は,数億のリスナーに対してパーソナライズされたレコメンデーションを行うポッドキャストレコメンデーションシステムにアプローチを適用した。 A/Bテストは、長期的結果を意図的に最適化することで、短期プロキシを最適化する従来のアプローチよりも大きなパフォーマンス向上をもたらすことを示した。

We study the problem of optimizing a recommender system for outcomes that occur over several weeks or months. We begin by drawing on reinforcement learning to formulate a comprehensive model of users' recurring relationships with a recommender system. Measurement, attribution, and coordination challenges complicate algorithm design. We describe careful modeling -- including a new representation of user state and key conditional independence assumptions -- which overcomes these challenges and leads to simple, testable recommender system prototypes. We apply our approach to a podcast recommender system that makes personalized recommendations to hundreds of millions of listeners. A/B tests demonstrate that purposefully optimizing for long-term outcomes leads to large performance gains over conventional approaches that optimize for short-term proxies.
翻訳日:2023-02-08 15:47:18 公開日:2023-02-07
# 路面摩擦を協調的に推定する学習

Learning to cooperatively estimate road surface friction ( http://arxiv.org/abs/2302.03560v1 )

ライセンス: Link先を確認
Jens-Patrick Langstand, Maben Rabi(参考訳) 本稿では、最近この区間を通過した車両のデータに基づいて、コンセンサス推定に到達して、カーブした道路区間における舗装面の摩擦を推定するシステムを提案する。 この推定は車両の追従に役立つ。 コストを下げるためには、IMUのような標準の自動車用センサーとステアリング角度とホイール速度のセンサーにのみ依存しています。 我々のシステムのワークフローは (i)既存の車両センサからの計測の処理、及び車両に対する低摩擦の影響を捉えた仮想センサを実装すること。 (ii)v2x通信を用いて車両から路側ユニット(rsu)へ短いキネマティックサマリーを送信すること。 (iii)rsuで機械学習レグレッシャを実行し,各車両の要約に基づいて摩擦係数を推定し,その推定値をいくつか組み合わせた。 道路ネットワーク上でのシステムの設計と実装において、私たちは2つの重要な疑問に直面します。 (i)各道路区間は局所的な摩擦係数レグレッシャを持つべきか、あるいは可能な全ての道路区間をカバーするグローバルレグレッシャを使用するべきか。 そして (ii)結果の回帰指標はどの程度正確か。 商用パッケージDyna4のシミュレーションを用いて,本ソリューションの設計バリエーションの性能を検証した。 タイヤの摩耗レベルや路面摩擦係数の異なる1車種について考察した。 私たちはそれを見つけました (a)局所回帰器と比較して、グローバル回帰器を使用する場合にのみ精度の限界損失が発生する。 (b)rsuのコンセンサス見積もりは、この組み合わせが少なくとも50台が最近通過した車両に基づいている場合、約10%の最悪のケースエラーである。 (c) 回帰器の根平均正方形(RMS)誤差は5%未満です。 本システムのrms誤差率は商用摩擦推定サービスの誤差の半分である。

We present a system for estimating the friction of the pavement surface at any curved road section, by arriving at a consensus estimate, based on data from vehicles that have recently passed through that section. This estimate can help following vehicles. To keep costs down, we depend only on standard automotive sensors, such as the IMU, and sensors for the steering angle and wheel speeds. Our system's workflow consists of: (i) processing of measurements from existing vehicular sensors, to implement a virtual sensor that captures the effect of low friction on the vehicle, (ii) transmitting short kinematic summaries from vehicles to a road side unit (RSU), using V2X communication, and (iii) estimating the friction coefficients, by running a machine learning regressor at the RSU, on summaries from individual vehicles, and then combining several such estimates. In designing and implementing our system over a road network, we face two key questions: (i) should each individual road section have a local friction coefficient regressor, or can we use a global regressor that covers all the possible road sections? and (ii) how accurate are the resulting regressor estimates? We test the performance of design variations of our solution, using simulations on the commercial package Dyna4. We consider a single vehicle type with varying levels of tyre wear, and a range of road friction coefficients. We find that: (a) only a marginal loss of accuracy is incurred in using a global regressor as compared to local regressors, (b) the consensus estimate at the RSU has a worst case error of about ten percent, if the combination is based on at least fifty recently passed vehicles, and (c) our regressors have root mean square (RMS) errors that are less than five percent. The RMS error rate of our system is half as that of a commercial friction estimation service.
翻訳日:2023-02-08 15:47:05 公開日:2023-02-07
# モビリティ移行における認知バイアスの影響のシミュレーション

Simulating the impact of cognitive biases on the mobility transition ( http://arxiv.org/abs/2302.03554v1 )

ライセンス: Link先を確認
Carole Adam(参考訳) 気候変動はより見えやすくなり、人間の適応は、より大きな被害を防ぐために緊急に必要とされている。 ある特定の適応領域は毎日の移動(通勤)に関係しており、これらの旅行の大部分は個々の車で行われている。 しかし、汚染や騒音、事故に対する影響はよく知られている。 本稿では,このような適応性の欠如を説明できる様々な認知バイアスについて考察する。 我々のアプローチは、ユーザがバイアスを理解するために遊べるシンプルなインタラクティブシミュレータを設計することである。 このような認知バイアスの認識は、物事がそんなに単純ではないにもかかわらず、より合理的な意思決定への第一歩であることが多い。 本稿では,3つのシミュレータについて報告する。 様々なシナリオをシミュレートして説明力を示す。 これらのシミュレーターはすでにオンラインでプレイでき、将来モビリティーがどのように進化するかを考えるために、ユーザーに食べ物を提供することが目標だ。 ユーザ調査をデザインして影響を評価する作業はまだ進行中である。

Climate change is becoming more visible, and human adaptation is required urgently to prevent greater damage. One particular domain of adaptation concerns daily mobility (work commute), with a significant portion of these trips being done in individual cars. Yet, their impact on pollution, noise, or accidents is well-known. This paper explores various cognitive biases that can explain such lack of adaptation. Our approach is to design simple interactive simulators that users can play with in order to understand biases. The idea is that awareness of such cognitive biases is often a first step towards more rational decision making, even though things are not that simple. This paper reports on three simulators, each focused on a particular factor of resistance. Various scenarios are simulated to demonstrate their explanatory power. These simulators are already available to play online, with the goal to provide users with food for thought about how mobility could evolve in the future. Work is still ongoing to design a user survey to evaluate their impact.
翻訳日:2023-02-08 15:46:38 公開日:2023-02-07
# Autler-Townes効果を用いたフォノン数状態の単発計測

Single-shot measurements of phonon number states using the Autler-Townes effect ( http://arxiv.org/abs/2302.03553v1 )

ライセンス: Link先を確認
Marion Mallweger, Murilo Henrique de Oliveira, Robin Thomm, Harry Parke, Natalia Kuk, Gerard Higgins, Romain Bachelard, Celso Jorge Villas-Boas and Markus Hennrich(参考訳) 数値ベースで運動状態を測定するための単発方式を提案する。 この手法は、閉じ込められたイオン実験のような線形量子調和振動子と結合できる少なくとも3つの非退化エネルギー準位を持つ系に適用することができる。 この方法は、2つのレベルがフォノン数変化遷移によって強く結合されたときに生じるオートラータウン分割の探索に依存している。 単一トラップイオンを用いた方法を示し,非変性法を用いてフォノン数状態を作成することができることを示した。 また, autler-townes 分割を用いてフォノン数分布を測定する方法を示す。

We present a single-shot method to measure motional states in the number basis. The technique can be applied to systems with at least three non-degenerate energy levels which can be coupled to a linear quantum harmonic oscillator, such as in trapped ion experiments. The method relies on probing an Autler-Townes splitting that arises when two levels are strongly coupled via a phonon-number changing transition. We demonstrate the method using a single trapped ion and show that it may be used in a non-demolition fashion to prepare phonon number states. We also show how the Autler-Townes splitting can be used to measure phonon number distributions.
翻訳日:2023-02-08 15:46:25 公開日:2023-02-07
# 機械学習型雑音を伴う運動量確率勾配降下の収束速度

Convergence rates for momentum stochastic gradient descent with noise of machine learning type ( http://arxiv.org/abs/2302.03550v1 )

ライセンス: Link先を確認
Benjamin Gess, Sebastian Kassing(参考訳) 我々は,非凸最適化の文脈において,運動量確率勾配降下スキーム(MSGD)とその連続時間対応について検討する。 リプシッツ連続であり、関連する領域上のポリアック・ロジャシェヴィチの不等式を満たす対象関数の目的関数の指数関数値の指数収束をほぼ確実に示し、過剰パラメータ付き教師付き学習アプリケーションによって動機づけられた確率的ノイズの仮定下で示す。 さらに, 摩擦パラメータの集合よりも収束率を最適化し, ほぼ確実にMSGDプロセスが収束することを示す。

We consider the momentum stochastic gradient descent scheme (MSGD) and its continuous-in-time counterpart in the context of non-convex optimization. We show almost sure exponential convergence of the objective function value for target functions that are Lipschitz continuous and satisfy the Polyak-Lojasiewicz inequality on the relevant domain, and under assumptions on the stochastic noise that are motivated by overparameterized supervised learning applications. Moreover, we optimize the convergence rate over the set of friction parameters and show that the MSGD process almost surely converges.
翻訳日:2023-02-08 15:46:14 公開日:2023-02-07
# 行き先駆動拡散混合を用いたグラフ生成

Graph Generation with Destination-Driven Diffusion Mixture ( http://arxiv.org/abs/2302.03596v1 )

ライセンス: Link先を確認
Jaehyeong Jo, Dongki Kim, Sung Ju Hwang(参考訳) グラフの生成は、非ユークリッド構造の複雑な性質を理解する必要がある実世界のタスクにとって大きな課題である。 拡散モデルは近年,グラフ生成において顕著な成功を収めているものの,ノイズのあるサンプルが明らかにグラフトポロジーを捉えないため,グラフの構造情報をモデル化するのに不適である。 そこで本研究では,その過程の目的地を予測し,グラフのトポロジーをモデル化する新しい生成過程を提案する。 具体的には, 生成過程をデータ分布の終端に条件付けられた拡散過程の混合として設計し, その過程を確率的目的地に向けて推進する。 さらに、目的地予測のための学習のための新しい学習目標を導入し、グラフトポロジーを明示的にモデル化し、データの帰納的バイアスを活用できる生成フレームワークの利点について論じる。 一般グラフと2D/3D分子グラフ生成タスクに関する広範囲な実験的検証により,本手法は従来の生成モデルよりも優れ,連続的および離散的な特徴を持つ正確なトポロジを持つグラフを生成する。

Generation of graphs is a major challenge for real-world tasks that require understanding the complex nature of their non-Euclidean structures. Although diffusion models have achieved notable success in graph generation recently, they are ill-suited for modeling the structural information of graphs since learning to denoise the noisy samples does not explicitly capture the graph topology. To tackle this limitation, we propose a novel generative process that models the topology of graphs by predicting the destination of the process. Specifically, we design the generative process as a mixture of diffusion processes conditioned on the endpoint in the data distribution, which drives the process toward the probable destination. Further, we introduce new training objectives for learning to predict the destination, and discuss the advantages of our generative framework that can explicitly model the graph topology and exploit the inductive bias of the data. Through extensive experimental validation on general graph and 2D/3D molecular graph generation tasks, we show that our method outperforms previous generative models, generating graphs with correct topology with both continuous and discrete features.
翻訳日:2023-02-08 15:39:00 公開日:2023-02-07
# 貯水池計算における量子力学的利点の探索

Exploring quantum mechanical advantage for reservoir computing ( http://arxiv.org/abs/2302.03595v1 )

ライセンス: Link先を確認
Niclas G\"otting, Frederik Lohof, Christopher Gies(参考訳) 量子貯水池コンピューティングは、量子システムを用いた機械学習の新たな分野である。 古典的リザーバコンピューティングは、多くの自由度を持つ現実の複雑な力学系で機械学習を可能にする有能な概念であることが証明されているが、量子アナログの利点はまだ十分に検討されていない。 そこで本研究では,量子リザーバの量子特性,すなわちエンタングルメントとその占有位相空間次元とのリンクと,その線形短期記憶性能を定式化する。 貯水池内の高次絡み合いは,指数関数的な位相空間を解き放ち,短期記憶容量を増大させる鍵となる,より複雑な貯水池力学の前提条件であることがわかった。 これらの関係を定量化し、物理量子貯水池の性能を低下させる効果について論じる。

Quantum reservoir computing is an emerging field in machine learning with quantum systems. While classical reservoir computing has proven to be a capable concept of enabling machine learning on real, complex dynamical systems with many degrees of freedom, the advantage of its quantum analogue is yet to be fully explored. Here, we establish a link between quantum properties of a quantum reservoir, namely entanglement and its occupied phase space dimension, and its linear short-term memory performance. We find that a high degree of entanglement in the reservoir is a prerequisite for a more complex reservoir dynamics that is key to unlocking the exponential phase space and higher short-term memory capacity. We quantify these relations and discuss the effect of dephasing in the performance of physical quantum reservoirs.
翻訳日:2023-02-08 15:38:41 公開日:2023-02-07
# NICER-SLAM:RGB SLAMのためのニューラルインシシトシーンエンコーディング

NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM ( http://arxiv.org/abs/2302.03594v1 )

ライセンス: Link先を確認
Zihan Zhu, Songyou Peng, Viktor Larsson, Zhaopeng Cui, Martin R. Oswald, Andreas Geiger, Marc Pollefeys(参考訳) ニューラル暗黙表現は、特に高密度視覚SLAMにおいて、同時局所化とマッピング(SLAM)において最近人気が高まっている。 しかし、この方向の以前の研究は、RGB-Dセンサーに依存するか、カメラトラッキングに個別の単眼SLAMアプローチを必要とするかのいずれかであり、高忠実度3Dシーンを再現することができない。 本稿では,カメラポーズを同時に最適化する高密度RGB SLAMシステムNICER-SLAMと,高品質な新規ビュー合成を可能にする階層型ニューラル暗黙マップ表現を提案する。 マッピングの最適化プロセスを容易にするため,単図形幾何学的キューや光学的フローなどの追加の監視信号を統合するとともに,幾何学的整合性をさらに強化するための単純な整合損失を導入する。 さらに,複雑な室内シーンの性能をさらに高めるために,音量レンダリング式における符号付き距離関数 (sdfs) から密度への局所適応変換を提案する。 近年のRGB-D SLAMシステムと競合する高密度マッピング、追跡、新しいビュー合成において、合成と実世界の両方のデータセットにおいて強い性能を示す。

Neural implicit representations have recently become popular in simultaneous localization and mapping (SLAM), especially in dense visual SLAM. However, previous works in this direction either rely on RGB-D sensors, or require a separate monocular SLAM approach for camera tracking and do not produce high-fidelity dense 3D scene reconstruction. In this paper, we present NICER-SLAM, a dense RGB SLAM system that simultaneously optimizes for camera poses and a hierarchical neural implicit map representation, which also allows for high-quality novel view synthesis. To facilitate the optimization process for mapping, we integrate additional supervision signals including easy-to-obtain monocular geometric cues and optical flow, and also introduce a simple warping loss to further enforce geometry consistency. Moreover, to further boost performance in complicated indoor scenes, we also propose a local adaptive transformation from signed distance functions (SDFs) to density in the volume rendering equation. On both synthetic and real-world datasets we demonstrate strong performance in dense mapping, tracking, and novel view synthesis, even competitive with recent RGB-D SLAM systems.
翻訳日:2023-02-08 15:38:28 公開日:2023-02-07
# CALaMo: 言語モデルの構築者評価

CALaMo: a Constructionist Assessment of Language Models ( http://arxiv.org/abs/2302.03589v1 )

ライセンス: Link先を確認
Ludovica Pannitto and Aur\'elie Herbelot(参考訳) 本稿では,構築者アプローチを用いたニューラル言語モデルの言語能力評価のための新しい枠組みを提案する。 使用法に基づくモデルは、ニューラルネットワークの基盤となる確率論的哲学に沿うだけでなく、言語学者が分析において決定要因として意味を維持することもできる。 フレームワークの概要と、アプリケーションに可能なシナリオを2つ提示する。

This paper presents a novel framework for evaluating Neural Language Models' linguistic abilities using a constructionist approach. Not only is the usage-based model in line with the underlying stochastic philosophy of neural architectures, but it also allows the linguist to keep meaning as a determinant factor in the analysis. We outline the framework and present two possible scenarios for its application.
翻訳日:2023-02-08 15:38:05 公開日:2023-02-07
# 安全臨界制御のための適応アグリゲーション

Adaptive Aggregation for Safety-Critical Control ( http://arxiv.org/abs/2302.03586v1 )

ライセンス: Link先を確認
Huiliang Zhang, Di Wu and Benoit Boulet(参考訳) 現実世界の応用において、強化学習(RL)の使用を防止するための中心的障害として安全が認識されている。 RLの安全性に対処する様々な方法が開発されている。 しかしながら、信頼できるRLベースのソリューションを学習するには、通常、環境との多数の相互作用が必要である。 同様に、安全な強化学習にトランスファーラーニングを利用する方法に関して、学習効率を改善する方法については、十分に研究されていない。 本研究では,安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。 我々の方法は2つの重要な技術から成り立っている。 1)複数のソースタスクと目標タスクをアグリゲートネットワークを介して集約することで,安全知識の伝達を学ぶ。 2)safeguardを利用することで,タスク性能の向上と制約違反の低減という目標を分離する。 実験結果から,本アルゴリズムは,複数のベースラインと比較してデータ効率を向上しつつ,安全性違反を低減できることが示された。

Safety has been recognized as the central obstacle to preventing the use of reinforcement learning (RL) for real-world applications. Different methods have been developed to deal with safety concerns in RL. However, learning reliable RL-based solutions usually require a large number of interactions with the environment. Likewise, how to improve the learning efficiency, specifically, how to utilize transfer learning for safe reinforcement learning, has not been well studied. In this work, we propose an adaptive aggregation framework for safety-critical control. Our method comprises two key techniques: 1) we learn to transfer the safety knowledge by aggregating the multiple source tasks and a target task through the attention network; 2) we separate the goal of improving task performance and reducing constraint violations by utilizing a safeguard. Experiment results demonstrate that our algorithm can achieve fewer safety violations while showing better data efficiency compared with several baselines.
翻訳日:2023-02-08 15:37:58 公開日:2023-02-07
# マルチスケールメッセージパッシングニューラルPDEソルバ

Multi-Scale Message Passing Neural PDE Solvers ( http://arxiv.org/abs/2302.03580v1 )

ライセンス: Link先を確認
L\'eonard Equer, T. Konstantin Rusch, Siddhartha Mishra(参考訳) 時間依存型PDEの解を学習するための,新しいマルチスケールメッセージパッシングニューラルネットワークアルゴリズムを提案する。 本アルゴリズムは,マルチスケールシーケンスモデルとグラフゲーティングモジュールをそれぞれエンコーダとプロセッサに組み込むことにより,時間的および空間的マルチスケール解像度特性を有する。 ベンチマーク数値実験により,提案アルゴリズムは,特に空間スケールと時間スケールの異なるPDEにおいて,ベースラインよりも優れていることを示す。

We propose a novel multi-scale message passing neural network algorithm for learning the solutions of time-dependent PDEs. Our algorithm possesses both temporal and spatial multi-scale resolution features by incorporating multi-scale sequence models and graph gating modules in the encoder and processor, respectively. Benchmark numerical experiments are presented to demonstrate that the proposed algorithm outperforms baselines, particularly on a PDE with a range of spatial and temporal scales.
翻訳日:2023-02-08 15:37:45 公開日:2023-02-07
# 終端記述による概念ボトルネックモデルのより深い理解に向けて

Towards a Deeper Understanding of Concept Bottleneck Models Through End-to-End Explanation ( http://arxiv.org/abs/2302.03578v1 )

ライセンス: Link先を確認
Jack Furby, Daniel Cunnington, Dave Braines, Alun Preece(参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) はまず、このベクトルを用いて最終分類を予測する前に、人間の定義した概念のベクトルに生の入力をマッピングする。 したがって、入力の異なる領域に基づいて概念を予測できるcbmが期待できるかもしれない。 そうすることで、モデルの出力の説明を生成し、概念に対応する入力特徴を可視化するときに、人間の解釈をサポートする。 まず、入力から概念ベクトルへの関連性に注目し、その関連性が入力特徴に分散していることを確認し、概念ベクトルから最終分類まで、ほとんどの場合、現在予測されている概念を用いて最終分類を行う。 次に,最大入力特徴量と基底真理位置との間の距離を定量的に測定する手法として,lrp (layer-wise associated propagation) ,ig (integrated gradients) およびベースライン勾配法 (baseline gradient approach) を用いた。 第3に,概念の重要性を説明する尺度として,関連度の割合を用いる。

Concept Bottleneck Models (CBMs) first map raw input(s) to a vector of human-defined concepts, before using this vector to predict a final classification. We might therefore expect CBMs capable of predicting concepts based on distinct regions of an input. In doing so, this would support human interpretation when generating explanations of the model's outputs to visualise input features corresponding to concepts. The contribution of this paper is threefold: Firstly, we expand on existing literature by looking at relevance both from the input to the concept vector, confirming that relevance is distributed among the input features, and from the concept vector to the final classification where, for the most part, the final classification is made using concepts predicted as present. Secondly, we report a quantitative evaluation to measure the distance between the maximum input feature relevance and the ground truth location; we perform this with the techniques, Layer-wise Relevance Propagation (LRP), Integrated Gradients (IG) and a baseline gradient approach, finding LRP has a lower average distance than IG. Thirdly, we propose using the proportion of relevance as a measurement for explaining concept importance.
翻訳日:2023-02-08 15:37:36 公開日:2023-02-07
# ディジタル量子コンピュータにおける核シェルモデルシミュレーション

Nuclear shell-model simulation in digital quantum computers ( http://arxiv.org/abs/2302.03641v1 )

ライセンス: Link先を確認
A. P\'erez-Obiol, A. M. Romero, J. Men\'endez and A. Rios, A. Garc\'ia-S\'aez, B. Juli\'a-D\'iaz(参考訳) 原子殻モデルは原子核の構造を研究するための素多体モデルの一つであるが、粒子の数が増えるにつれて基底の大きさの指数関数的スケーリングによって妨げられる。 本稿では、適応型変分量子固有解法アルゴリズムを用いて、この制限を回避する核基底状態を見つけるためのシェルモデル量子回路設計戦略を提案する。 我々の回路実装は、ネオンやカルシウム同位体を含む数十の光・中質量核の古典的なシェルモデルシミュレーションとよく一致している。 ゲートの回路深さ,幅,数を定量化し,現実的なシェルモデル波動関数を符号化する。 我々の戦略は、エネルギー測定とそれを実行するために必要な回路数にも対処する。 シミュレーション回路は、各核と構成空間の量子資源の多項式スケーリングで指数関数的にベンチマーク結果にアプローチする。 我々の研究は、核チャート全体にわたる量子コンピューティングシェルモデル研究の道を開いた。

The nuclear shell model is one of the prime many-body methods to study the structure of atomic nuclei, but it is hampered by an exponential scaling on the basis size as the number of particles increases. We present a shell-model quantum circuit design strategy to find nuclear ground states that circumvents this limitation by exploiting an adaptive variational quantum eigensolver algorithm. Our circuit implementation is in excellent agreement with classical shell-model simulations for a dozen of light and medium-mass nuclei, including neon and calcium isotopes. We quantify the circuit depth, width and number of gates to encode realistic shell-model wavefunctions. Our strategy also addresses explicitly energy measurements and the required number of circuits to perform them. Our simulated circuits approach the benchmark results exponentially with a polynomial scaling in quantum resources for each nucleus and configuration space. Our work paves the way for quantum computing shell-model studies across the nuclear chart.
翻訳日:2023-02-08 15:30:52 公開日:2023-02-07
# S4R:RGB-Dスキャンによる自己監督型セマンティックシーン再構築

S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans ( http://arxiv.org/abs/2302.03640v1 )

ライセンス: Link先を確認
Junwen Huang, Alexey Artemorv, Yujin Chen, Shuaifeng Zhi, Kai Xu, Matthias Niessner(参考訳) 3次元屋内空間の包括的セマンティックモデリングへの深層学習アプローチは、3次元領域における高コストなアノテーションを必要とする。 本研究は, セマンティックシーン再構築という中心的な3次元シーンモデリングタスクを, 完全自己教師型アプローチを用いて検討する。 この目的のために,不完全な3次元再構成と対応するRGB-D画像の両方を用いて,クロスドメイン特徴をボリューム埋め込みに融合させて,完全な3次元形状,色,意味を予測できるトレーニング可能なモデルを設計する。 我々の重要な技術革新は、観察されたRGB画像とジェネリックセマンティックセグメンテーションモデルを用いて、色と意味の異なるレンダリングを活用することである。 さらに,実際の実写を補完する拡張仮想学習ビューを合成する手法を開発し,意味論に対するより効率的な自己スーパービジョンを実現する。 本研究では,3次元および2次元の接地構造を伴わない,数枚のRGB-D画像からの幾何学的完備化,色化,意味マッピングを両立するエンドツーエンドのトレーニング可能なソリューションを提案する。 本手法は,実世界の3dスキャンの完了と意味セグメンテーションに対応する完全自己教師あり手法である。 3d教師付きベースラインと相性が良く、実際のデータセットの2d監督でベースラインを上回り、見えないシーンにうまく一般化する。

Most deep learning approaches to comprehensive semantic modeling of 3D indoor spaces require costly dense annotations in the 3D domain. In this work, we explore a central 3D scene modeling task, namely, semantic scene reconstruction, using a fully self-supervised approach. To this end, we design a trainable model that employs both incomplete 3D reconstructions and their corresponding source RGB-D images, fusing cross-domain features into volumetric embeddings to predict complete 3D geometry, color, and semantics. Our key technical innovation is to leverage differentiable rendering of color and semantics, using the observed RGB images and a generic semantic segmentation model as color and semantics supervision, respectively. We additionally develop a method to synthesize an augmented set of virtual training views complementing the original real captures, enabling more efficient self-supervision for semantics. In this work we propose an end-to-end trainable solution jointly addressing geometry completion, colorization, and semantic mapping from a few RGB-D images, without 3D or 2D ground-truth. Our method is the first, to our knowledge, fully self-supervised method addressing completion and semantic segmentation of real-world 3D scans. It performs comparably well with the 3D supervised baselines, surpasses baselines with 2D supervision on real datasets, and generalizes well to unseen scenes.
翻訳日:2023-02-08 15:30:39 公開日:2023-02-07
# copula統計に基づくブラインド音源分離を用いた電力系統発振モードの同定

Identification of Power System Oscillation Modes using Blind Source Separation based on Copula Statistic ( http://arxiv.org/abs/2302.03633v1 )

ライセンス: Link先を確認
Pooja Algikar, Lamine Mili, Mohsen Ben Hassine, Somayeh Yarahmadi, Almuatazbellah (Muataz) Boker(参考訳) 再生可能エネルギー資源を多用する電力システムのダイナミクスは、これらの資源の断続性と電力電子機器のスイッチングにより、より非線形になってきている。 したがって、適切な予防的・是正的制御行動を開始するために外乱を受ける場合に、当該電力系統の振動の動的モードを正確に特定することが重要である。 本稿では,コプラ統計に基づく高次ブラインドソース同定(hobi)アルゴリズムを提案する。 Hilbert変換(HOBI-HT)と反復手順(HOBMI)を組み合わせることで、チャネル数から得られる観測信号から、すべてのモードとモデル順序を1つに識別することができる。 従来の11バス4マシンテストシステムにおける時間領域解析のシミュレーションから,数値シミュレーション信号と記録データに対する提案手法の性能にアクセスした。 シミュレーションの結果は,最先端の手法を精度と有効性で上回っている。

The dynamics of a power system with large penetration of renewable energy resources are becoming more nonlinear due to the intermittence of these resources and the switching of their power electronic devices. Therefore, it is crucial to accurately identify the dynamical modes of oscillation of such a power system when it is subject to disturbances to initiate appropriate preventive or corrective control actions. In this paper, we propose a high-order blind source identification (HOBI) algorithm based on the copula statistic to address these non-linear dynamics in modal analysis. The method combined with Hilbert transform (HOBI-HT) and iteration procedure (HOBMI) can identify all the modes as well as the model order from the observation signals obtained from the number of channels as low as one. We access the performance of the proposed method on numerical simulation signals and recorded data from a simulation of time domain analysis on the classical 11-Bus 4-Machine test system. Our simulation results outperform the state-of-the-art method in accuracy and effectiveness.
翻訳日:2023-02-08 15:30:13 公開日:2023-02-07
# 人間中心画像データセット収集のための倫理的考察

Ethical Considerations for Collecting Human-Centric Image Datasets ( http://arxiv.org/abs/2302.03629v1 )

ライセンス: Link先を確認
Jerone T. A. Andrews and Dora Zhao and William Thong and Apostolos Modas and Orestis Papakyriakopoulos and Shruti Nagpal and Alice Xiang(参考訳) 人間中心の画像データセットはコンピュータビジョン技術の発展に不可欠である。 しかし、近年の研究では、プライバシとバイアスに関する重大な倫理上の問題が予見され、いくつかの著名なデータセットの完全な撤回、あるいは修正に繋がった。 例えば、データセットを倫理的に評価するための分析フレームワークの提案、データセットの文書化とキュレーションプラクティスの標準化、プライバシ保護方法論、表現バイアスを表面化し緩和するためのツールなどだ。 しかし、倫理データ収集の運用の現実にはほとんど注意が払われていない。 このギャップを埋めるために、より倫理的に重視された人間中心の画像データを集めるための重要な倫理的考察と実践的な勧告を提案する。 本研究は、倫理データ収集における研究コミュニティのベストプラクティスに貢献し、目的、プライバシ、同意、多様性をカバーし、プライバシーと偏見の問題を直接的に解決する。 私たちは、現在のプラクティス、データセットの離脱と監査、分析的倫理的枠組みから教訓を導き、各考慮事項にモチベーションを与えます。 我々の研究は、最近の奨学金を強化することを目的としており、より責任あるデータキュレーションの実践に向けた重要なステップである。

Human-centric image datasets are critical to the development of computer vision technologies. However, recent investigations have foregrounded significant ethical issues related to privacy and bias, which have resulted in the complete retraction, or modification, of several prominent datasets. Recent works have tried to reverse this trend, for example, by proposing analytical frameworks for ethically evaluating datasets, the standardization of dataset documentation and curation practices, privacy preservation methodologies, as well as tools for surfacing and mitigating representational biases. Little attention, however, has been paid to the realities of operationalizing ethical data collection. To fill this gap, we present a set of key ethical considerations and practical recommendations for collecting more ethically-minded human-centric image data. Our research directly addresses issues of privacy and bias by contributing to the research community best practices for ethical data collection, covering purpose, privacy and consent, as well as diversity. We motivate each consideration by drawing on lessons from current practices, dataset withdrawals and audits, and analytical ethical frameworks. Our research is intended to augment recent scholarship, representing an important step toward more responsible data curation practices.
翻訳日:2023-02-08 15:29:54 公開日:2023-02-07
# 脊髄疾患を診断する専門家システム

An Expert System to Diagnose Spinal Disorders ( http://arxiv.org/abs/2302.03625v1 )

ライセンス: Link先を確認
Seyed Mohammad Sadegh Dashti, Seyedeh Fatemeh Dashti(参考訳) 目的:これまでは、従来の侵襲的アプローチが脊髄疾患の診断に活用される唯一の手段であった。 従来の手動診断は高い作業負荷を必要としており、医師の長期の作業のために診断ミスが発生する可能性がある。 本研究では,脊髄疾患の迅速かつ高品質な診断を支援するために,ハイブリッド推論アルゴリズムと総合的な統合知識に基づくエキスパートシステムを開発した。 方法: まず, 各脊髄の異常に対して, 関連する専門家やリソースから, 正確で統合的な知識を得た。 第2に、各症状の確率分布と症状間の依存性に基づいて、各症状に確実性効果値と呼ばれるユニークな数値を割り当てた。 第3に、後方連鎖推論と不確実性理論を組み込んだ、優れた性能を得るために、新しいハイブリッド推論アルゴリズムが設計された。 結果: 提案した専門家システムは, 実地サンプルと医療記録評価の2つの異なる段階において評価された。 実世界のサンプル分析の点から評価すると,システムは精度に優れていた。 異常検体への本システムの適用により, 疾患の重症度と, 不健康, 健康な患者の異常発生リスクが明らかになった。 医療記録分析では, 専門家システムは有望な性能を示し, 専門家と非常に近い性能を示した。 結論: 提案した専門家システムは有望なパフォーマンスを提供し、専門家が診断の正確さと完全性を検証するのに役立つことを示唆する。 また、医学生が脊椎疾患の診断プロセスや関連する症状に親しむためのインテリジェントな教育ソフトウェアとしても機能する。

Objective: Until now, traditional invasive approaches have been the only means being leveraged to diagnose spinal disorders. Traditional manual diagnostics require a high workload, and diagnostic errors are likely to occur due to the prolonged work of physicians. In this research, we develop an expert system based on a hybrid inference algorithm and comprehensive integrated knowledge for assisting the experts in the fast and high-quality diagnosis of spinal disorders. Methods: First, for each spinal anomaly, the accurate and integrated knowledge was acquired from related experts and resources. Second, based on probability distributions and dependencies between symptoms of each anomaly, a unique numerical value known as certainty effect value was assigned to each symptom. Third, a new hybrid inference algorithm was designed to obtain excellent performance, which was an incorporation of the Backward Chaining Inference and Theory of Uncertainty. Results: The proposed expert system was evaluated in two different phases, real-world samples, and medical records evaluation. Evaluations show that in terms of real-world samples analysis, the system achieved excellent accuracy. Application of the system on the sample with anomalies revealed the degree of severity of disorders and the risk of development of abnormalities in unhealthy and healthy patients. In the case of medical records analysis, our expert system proved to have promising performance, which was very close to those of experts. Conclusion: Evaluations suggest that the proposed expert system provides promising performance, helping specialists to validate the accuracy and integrity of their diagnosis. It can also serve as an intelligent educational software for medical students to gain familiarity with spinal disorder diagnosis process, and related symptoms.
翻訳日:2023-02-08 15:29:34 公開日:2023-02-07
# 自己参照埋め込み文字列ライブラリ(SELFIES)の最近の進歩

Recent advances in the Self-Referencing Embedding Strings (SELFIES) library ( http://arxiv.org/abs/2302.03620v1 )

ライセンス: Link先を確認
Alston Lo, Robert Pollice, AkshatKumar Nigam, Andrew D. White, Mario Krenn and Al\'an Aspuru-Guzik(参考訳) 文字列ベースの分子表現は、化学情報学の応用において重要な役割を担い、化学における深層学習の成功により、機械学習パイプラインに容易に採用されている。 しかし、SMILESのような従来の文字列ベースの表現は、生成モデルによって生成される場合、しばしば構文的および意味的誤りを引き起こす。 これらの問題に対処するために、自己参照埋め込み文字列(selfies)という新しい表現が提案され、それに伴うオープンソース実装とともに、本質的に100%堅牢である。 それ以来、より広い範囲の分子と意味的制約をサポートするためにSELFIESを一般化し、その基礎となる文法を合理化してきた。 我々は、この更新された表現を、以降のバージョンの \selfieslib で実装し、設計、効率、サポート機能に関して大きな進歩を遂げました。 したがって、この写本では、selfieslib(バージョン2.1.1)の現況を示す。

String-based molecular representations play a crucial role in cheminformatics applications, and with the growing success of deep learning in chemistry, have been readily adopted into machine learning pipelines. However, traditional string-based representations such as SMILES are often prone to syntactic and semantic errors when produced by generative models. To address these problems, a novel representation, SELF-referencIng Embedded Strings (SELFIES), was proposed that is inherently 100% robust, alongside an accompanying open-source implementation. Since then, we have generalized SELFIES to support a wider range of molecules and semantic constraints and streamlined its underlying grammar. We have implemented this updated representation in subsequent versions of \selfieslib, where we have also made major advances with respect to design, efficiency, and supported features. Hence, we present the current status of \selfieslib (version 2.1.1) in this manuscript.
翻訳日:2023-02-08 15:29:12 公開日:2023-02-07
# 絡み合いのないセキュアな量子リモートセンシング

Secure Quantum Remote Sensing Without Entanglement ( http://arxiv.org/abs/2302.03617v1 )

ライセンス: Link先を確認
Sean William Moore, Jacob Andrew Dunningham(参考訳) 量子力学と量子通信は一般に、より広範な量子技術のポートフォリオにおいて異なる応用と見なされる。 しかし、この2つを組み合わせたいケースもあり、最近の提案では、絡み合いベースのシステムでどのように実現されるかを示している。 ここでは、単純さと実用性という点で有利な絡み合いのない代替案を提示し、個々の量子ビットのみを伝送する。 低データと高データの両方でこのスキームの性能を実証し、測定精度と攻撃範囲に対するセキュリティの両面で量子的な利点を示す。

Quantum metrology and quantum communications are typically considered as distinct applications in the broader portfolio of quantum technologies. However, there are cases where we might want to combine the two and recent proposals have shown how this might be achieved in entanglement-based systems. Here we present an entanglement-free alternative that has advantages in terms of simplicity and practicality, requiring only individual qubits to be transmitted. We demonstrate the performance of the scheme in both the low and high data limits, showing quantum advantages both in terms of measurement precision and security against a range of possible attacks.
翻訳日:2023-02-08 15:28:55 公開日:2023-02-07
# ゲーミフィケーションはmHealthアプリケーションにおける自己申告の負担を軽減するか? スマートウォッチデータからの機械学習による認知負荷推定の可能性検討

Can gamification reduce the burden of self-reporting in mHealth applications? Feasibility study using machine learning from smartwatch data to estimate cognitive load ( http://arxiv.org/abs/2302.03616v1 )

ライセンス: Link先を確認
Michal K. Grzeszczyk and Paulina Adamczyk and Sylwia Marek and Ryszard Pr\k{e}cikowski and Maciej Ku\'s and M. Patrycja Lelujko and Rosmary Blanco and Tomasz Trzci\'nski and Arkadiusz Sitek and Maciej Malawski and Aneta Lisowska(参考訳) デジタル治療の有効性は、患者の心身状態の自己報告をモバイルアプリケーションを通じて要求することで測定できる。 しかし、自己報告は圧倒的であり、患者が介入から離脱する可能性がある。 この問題に対処するため,本稿では,ゲーミフィケーションが自己報告の認知的負担に与える影響について検討する。 我々のアプローチは、スマートウォッチから得られる光胸腺造影(PPG)信号の分析を通じて、認知負荷を評価するシステムを作成することである。 このシステムは、認知的に要求されるタスクと休息期間の間にPSGデータを収集して構築される。 得られたデータを用いて機械学習モデルを訓練し、認知負荷(CL)を検出する。 その後、ゲーミフィケーション版と従来のバージョンという2つのバージョンのヘルスサーベイを作成します。 本研究の目的は,モバイル端末を用いた調査を完了しながら,参加者が経験した認知負荷を推定することである。 CL検出器の性能は,ストレス検出タスクの事前トレーニングによって向上し,PSG信号の取得に最低30秒の時間を要することが判明した。 13人中10人については、パーソナライズされた認知負荷検出器が0.7以上のF1スコアを達成できる。 ゲーム化と非ゲーム化の2つの調査で,認知的負荷が高い状況下での時間的な差は認められなかったが,参加者はゲーム化バージョンを好む。 各質問に費やされる平均時間はゲーミフィケーション調査で5.5であり、非ゲーミフィケーション版では6秒である。

The effectiveness of digital treatments can be measured by requiring patients to self-report their mental and physical state through mobile applications. However, self-reporting can be overwhelming and may cause patients to disengage from the intervention. In order to address this issue, we conduct a feasibility study to explore the impact of gamification on the cognitive burden of self-reporting. Our approach involves the creation of a system to assess cognitive burden through the analysis of photoplethysmography (PPG) signals obtained from a smartwatch. The system is built by collecting PPG data during both cognitively demanding tasks and periods of rest. The obtained data is utilized to train a machine learning model to detect cognitive load (CL). Subsequently, we create two versions of health surveys: a gamified version and a traditional version. Our aim is to estimate the cognitive load experienced by participants while completing these surveys using their mobile devices. We find that CL detector performance can be enhanced via pre-training on stress detection tasks and requires capturing of a minimum 30 seconds of PPG signal to work adequately. For 10 out of 13 participants, a personalized cognitive load detector can achieve an F1 score above 0.7. We find no difference between the gamified and non-gamified mobile surveys in terms of time spent in the state of high cognitive load but participants prefer the gamified version. The average time spent on each question is 5.5 for gamified survey vs 6 seconds for the non-gamified version.
翻訳日:2023-02-08 15:28:44 公開日:2023-02-07
# 緯度投影円を用いた極の推定と光航法

Pole Estimation and Optical Navigation using Circle of Latitude Projections ( http://arxiv.org/abs/2302.03609v1 )

ライセンス: Link先を確認
John A. Christian(参考訳) 回転する天体(小惑星など)と、帯状大気(木星など)を持つ球状惑星の両方の画像は、緯度(CoL)の円としてうまくモデル化された特徴を含むことができる。 これらのCoLの投影は、探査用宇宙船のカメラや望遠鏡によって収集された画像の楕円形に見える。 この研究は、スピン小惑星の極方向と共分散を決定するためにCoLプロジェクションがどのように用いられるかを示す。 固体球体としてモデル化された既知の惑星の場合、宇宙船のローカライゼーションに類似したCoLプロジェクションがどの程度用いられるかが示されている。 これらの手法は射影幾何学の原理を用いて開発されている。 数値的な結果は、小惑星ベンヌ(極方向)と木星(宇宙船のローカライゼーション)のシミュレーション画像に提供される。

Images of both rotating celestial bodies (e.g., asteroids) and spheroidal planets with banded atmospheres (e.g., Jupiter) can contain features that are well-modeled as a circle of latitude (CoL). The projections of these CoLs appear as ellipses in images collected by cameras or telescopes onboard exploration spacecraft. This work shows how CoL projections may be used to determine the pole orientation and covariance for a spinning asteroid. In the case of a known planet modeled as an oblate spheroid, it is shown how similar CoL projections may be used for spacecraft localization. These methods are developed using the principles of projective geometry. Numerical results are provided for simulated images of asteroid Bennu (for pole orientation) and of Jupiter (for spacecraft localization).
翻訳日:2023-02-08 15:28:22 公開日:2023-02-07
# 未確定エピソード長を用いたオンライン強化学習

Online Reinforcement Learning with Uncertain Episode Lengths ( http://arxiv.org/abs/2302.03608v1 )

ライセンス: Link先を確認
Debmalya Mandal, Goran Radanovic, Jiarui Gan, Adish Singla, Rupak Majumdar(参考訳) 既存のエピソディクス強化アルゴリズムでは、エピソードの長さは時間とともに固定され、優先順位が知られている。 本稿では,各エピソードの長さが分布から引き出される場合に,エピソディクス強化学習の一般的な枠組みを検討する。 まず、この問題はオンライン強化学習と同等であり、学習者は無限の地平線上で期待される割引報酬の和を最適化しようとするが、割引関数は必ずしも幾何学的ではない。 新たな一般割引による後悔の最小化は,不確定なエピソード長による後悔の最小化と等価であることを示す。 次に,一般割引による後悔を最小限に抑えた強化学習アルゴリズムを設計する。 幾何学的および多項式的ディスカウントを含む様々な種類のディスカウントについて、我々の一般的な境界をインスタンス化する。 また, 時間経過の未知分布を推定することにより, エピソード長の不確実性が未知であっても同様の後悔の限界が得られることを示す。 最後に,我々の学習アルゴリズムを,グリッド環境における既存の値イテレーションに基づくエピソードRLアルゴリズムと比較する。

Existing episodic reinforcement algorithms assume that the length of an episode is fixed across time and known a priori. In this paper, we consider a general framework of episodic reinforcement learning when the length of each episode is drawn from a distribution. We first establish that this problem is equivalent to online reinforcement learning with general discounting where the learner is trying to optimize the expected discounted sum of rewards over an infinite horizon, but where the discounting function is not necessarily geometric. We show that minimizing regret with this new general discounting is equivalent to minimizing regret with uncertain episode lengths. We then design a reinforcement learning algorithm that minimizes regret with general discounting but acts for the setting with uncertain episode lengths. We instantiate our general bound for different types of discounting, including geometric and polynomial discounting. We also show that we can obtain similar regret bounds even when the uncertainty over the episode lengths is unknown, by estimating the unknown distribution over time. Finally, we compare our learning algorithms with existing value-iteration based episodic RL algorithms in a grid-world environment.
翻訳日:2023-02-08 15:28:08 公開日:2023-02-07
# HumanMAC:人間の動作予測のための仮面運動補完

HumanMAC: Masked Motion Completion for Human Motion Prediction ( http://arxiv.org/abs/2302.03665v1 )

ライセンス: Link先を確認
Ling-Hao Chen, Jiawei Zhang, Yewen Li, Yiren Pang, Xiaobo Xia, Tongliang Liu(参考訳) 人間の動作予測はコンピュータビジョンとコンピュータグラフィックスにおいて古典的な問題であり、幅広い実用的応用がある。 先行効果は符号化復号法に基づく経験的性能を実現する。 この手法は、まず前の動きを潜在表現にエンコードし、次に潜在表現を予測された動きに復号する。 しかし、実際には、複雑な損失制約、面倒なトレーニングプロセス、予測における異なるカテゴリーの動作の切り替えなど、いくつかの問題により、まだ満足できない。 本稿では, 上記の課題に対処するため, 先進的なアプローチから脱却し, 新たな視点から新たな枠組みを提案する。 特に、私たちのフレームワークは、デノナイズド拡散スタイルで動作します。 トレーニング段階では、ランダムノイズから動きを生成する動き拡散モデルを学ぶ。 推論段階では, より連続かつ制御可能な予測を出力するために, 観測された動きに動き予測条件を付ける。 提案フレームワークは,最適化に1つの損失しか必要とせず,エンドツーエンドでトレーニングされる,有望なアルゴリズム特性を享受する。 さらに、アニメーションタスクである「textit{e.g.}」という現実的なタスクにおいて重要な動きのカテゴリを効果的に切り替える。 ベンチマークに関する包括的な実験により,提案フレームワークの優位性が確認された。 プロジェクトページは \url{https://lhchen.top/human-mac} で入手できる。

Human motion prediction is a classical problem in computer vision and computer graphics, which has a wide range of practical applications. Previous effects achieve great empirical performance based on an encoding-decoding fashion. The methods of this fashion work by first encoding previous motions to latent representations and then decoding the latent representations into predicted motions. However, in practice, they are still unsatisfactory due to several issues, including complicated loss constraints, cumbersome training processes, and scarce switch of different categories of motions in prediction. In this paper, to address the above issues, we jump out of the foregoing fashion and propose a novel framework from a new perspective. Specifically, our framework works in a denoising diffusion style. In the training stage, we learn a motion diffusion model that generates motions from random noise. In the inference stage, with a denoising procedure, we make motion prediction conditioning on observed motions to output more continuous and controllable predictions. The proposed framework enjoys promising algorithmic properties, which only needs one loss in optimization and is trained in an end-to-end manner. Additionally, it accomplishes the switch of different categories of motions effectively, which is significant in realistic tasks, \textit{e.g.}, the animation task. Comprehensive experiments on benchmarks confirm the superiority of the proposed framework. The project page is available at \url{https://lhchen.top/Human-MAC}.
翻訳日:2023-02-08 15:22:42 公開日:2023-02-07
# SDYN-GAN:汎用確率力学のための多段階生成モデルの逆学習法

SDYN-GANs: Adversarial Learning Methods for Multistep Generative Models for General Order Stochastic Dynamics ( http://arxiv.org/abs/2302.03663v1 )

ライセンス: Link先を確認
Panos Stinis, Constantinos Daskalakis, Paul J. Atzberger(参考訳) 我々は,$n^{th}$-order確率システムのダイナミクスをデータ駆動生成モデリングするための逆学習法を提案する。 提案手法はGAN(Generative Adversarial Networks)に基づいて,安定な$m$-step確率数値積分器に基づく生成モデルクラスを構築する。 軌道サンプルの観測に基づく確率力学のモデル学習のための異なる定式化と訓練手法を提案する。 本研究では,最大平均偏差(mmd)に基づく判別器,条件分布と限界分布を用いたトレーニングプロトコル,異なる時間スケールで動的応答を学習する手法を開発した。 提案手法は, 力則, 減衰係数, 騒音関連パラメータを学習するための物理システムのモデリングに利用できることを示す。 逆学習アプローチは、長期予測や確率システムのシミュレーションなどを含む動的タスクのための安定な生成モデルを得る方法を提供する。

We introduce adversarial learning methods for data-driven generative modeling of the dynamics of $n^{th}$-order stochastic systems. Our approach builds on Generative Adversarial Networks (GANs) with generative model classes based on stable $m$-step stochastic numerical integrators. We introduce different formulations and training methods for learning models of stochastic dynamics based on observation of trajectory samples. We develop approaches using discriminators based on Maximum Mean Discrepancy (MMD), training protocols using conditional and marginal distributions, and methods for learning dynamic responses over different time-scales. We show how our approaches can be used for modeling physical systems to learn force-laws, damping coefficients, and noise-related parameters. The adversarial learning approaches provide methods for obtaining stable generative models for dynamic tasks including long-time prediction and developing simulations for stochastic systems.
翻訳日:2023-02-08 15:22:20 公開日:2023-02-07
# 正規化顧客参加による連合学習

Federated Learning with Regularized Client Participation ( http://arxiv.org/abs/2302.03662v1 )

ライセンス: Link先を確認
Grigory Malinovsky, Samuel Horv\'ath, Konstantin Burlachenko, Peter Richt\'arik(参考訳) Federated Learning(FL)は、複数のクライアントが協力して機械学習タスクを解決する分散機械学習アプローチである。 flの重要な課題のひとつは、多数のクライアントがトレーニングプロセスに参加している場合に発生する、部分的な参加の問題である。 この問題に対処する従来の方法は、各通信ラウンドでクライアントのサブセットをランダムに選択することです。 本研究では,新しい手法を提案し,新しい正規化顧客参加方式を設計する。 このスキームの下では、各クライアントは、メタエポックと呼ばれる、R$の通信ラウンド毎に学習プロセスに参加します。 我々は,この参加方式がクライアントサンプリングによるばらつきの低減につながることを見出した。 一般的なFedAvgアルゴリズム(McMahan et al., 2017)と組み合わせると、標準仮定ではより優れたレートが得られる。 For instance, the optimization term in our main convergence bound decreases linearly with the product of the number of communication rounds and the size of the local dataset of each client, and the statistical term scales with step size quadratically instead of linearly (the case for client sampling with replacement), leading to better convergence rate $\mathcal{O}\left(\frac{1}{T^2}\right)$ compared to $\mathcal{O}\left(\frac{1}{T}\right)$, where $T$ is the total number of communication rounds. さらに,各クライアントがメタエポック毎に1回トレーニングできる限り,任意のクライアントを利用可能とする。

Federated Learning (FL) is a distributed machine learning approach where multiple clients work together to solve a machine learning task. One of the key challenges in FL is the issue of partial participation, which occurs when a large number of clients are involved in the training process. The traditional method to address this problem is randomly selecting a subset of clients at each communication round. In our research, we propose a new technique and design a novel regularized client participation scheme. Under this scheme, each client joins the learning process every $R$ communication rounds, which we refer to as a meta epoch. We have found that this participation scheme leads to a reduction in the variance caused by client sampling. Combined with the popular FedAvg algorithm (McMahan et al., 2017), it results in superior rates under standard assumptions. For instance, the optimization term in our main convergence bound decreases linearly with the product of the number of communication rounds and the size of the local dataset of each client, and the statistical term scales with step size quadratically instead of linearly (the case for client sampling with replacement), leading to better convergence rate $\mathcal{O}\left(\frac{1}{T^2}\right)$ compared to $\mathcal{O}\left(\frac{1}{T}\right)$, where $T$ is the total number of communication rounds. Furthermore, our results permit arbitrary client availability as long as each client is available for training once per each meta epoch.
翻訳日:2023-02-08 15:22:06 公開日:2023-02-07
# 一般測地上のリーマン流マッチング

Riemannian Flow Matching on General Geometries ( http://arxiv.org/abs/2302.03660v1 )

ライセンス: Link先を確認
Ricky T. Q. Chen, Yaron Lipman(参考訳) 本稿では,多様体上の連続正規化フローをトレーニングするための簡易かつ強力なフレームワークであるリーマンフローマッチング(RFM)を提案する。 多様体上の生成的モデリングの既存の方法は、高価なシミュレーションを必要とするか、本質的に高次元にスケールできないか、あるいは偏りのある目的をもたらす量を制限する近似を使う。 リーマンフローマッチングはこれらの不便さを回避し、従来のアプローチよりも多くの利点を示す: 単純な測地では完全にシミュレーション不要であり、発散計算は不要であり、その対象ベクトル場は一般測地でも閉形式で計算される。 RFMの背後にある重要な要素は、既存のユークリッドケースを仮定するサンプルごとのベクトル場を定義するための単純なカーネル関数の構築である。 一般測地にもとづいて、カーネル関数を効率的に計算するためにスペクトル分解を用いる。 本手法は, 実世界の非ユークリッドデータセット上での最先端性能を実現し, 境界を持つ三角形メッシュや迷路様多様体など, 一般測地におけるトラクタブルトレーニングを初めて実施する。

We propose Riemannian Flow Matching (RFM), a simple yet powerful framework for training continuous normalizing flows on manifolds. Existing methods for generative modeling on manifolds either require expensive simulation, inherently cannot scale to high dimensions, or use approximations to limiting quantities that result in biased objectives. Riemannian Flow Matching bypasses these inconveniences and exhibits multiple benefits over prior approaches: It is completely simulation-free on simple geometries, it does not require divergence computation, and its target vector field is computed in closed form even on general geometries. The key ingredient behind RFM is the construction of a simple kernel function for defining per-sample vector fields, which subsumes existing Euclidean cases. Extending to general geometries, we rely on the use of spectral decompositions to efficiently compute kernel functions. Our method achieves state-of-the-art performance on real-world non-Euclidean datasets, and we showcase, for the first time, tractable training on general geometries, including on triangular meshes and maze-like manifolds with boundaries.
翻訳日:2023-02-08 15:21:26 公開日:2023-02-07
# 植込み二部グラフ検出

Planted Bipartite Graph Detection ( http://arxiv.org/abs/2302.03658v1 )

ライセンス: Link先を確認
Asaf Rotenberg and Wasim Huleihel and Ofer Shayevitz(参考訳) ランダムグラフに隠れた二部グラフを検出するタスクについて検討する。 特にヌル仮説の下では、グラフは erd\h{o}s-r\'{e}nyi ランダムグラフを、エッジ密度 $q$ を持つ$n$ 頂点上で実現している。 代替として、k_{\mathsf{r}} \times k_{\mathsf{l}}$ bipartite subgraph with edge density $p>q$がある。 我々は、この検出問題に対して、$q,p = \Theta\left(1\right)$, and the sparse regime where $q,p = \Theta\left(n^{-\alpha}\right), \alpha \in \left(0,2\right]$の漸近的に強い上界と下界を導く。 さらに、上記の問題の変種を考えると、グラフの比較的小さな部分のみを、少なくとも$\mathsf{Q}$ edge queryを用いて観測することができる。 この問題に対して、我々は密度と疎結合の両方において上界と下界を導出する。

We consider the task of detecting a hidden bipartite subgraph in a given random graph. Specifically, under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi random graph over $n$ vertices with edge density $q$. Under the alternative, there exists a planted $k_{\mathsf{R}} \times k_{\mathsf{L}}$ bipartite subgraph with edge density $p>q$. We derive asymptotically tight upper and lower bounds for this detection problem in both the dense regime, where $q,p = \Theta\left(1\right)$, and the sparse regime where $q,p = \Theta\left(n^{-\alpha}\right), \alpha \in \left(0,2\right]$. Moreover, we consider a variant of the above problem, where one can only observe a relatively small part of the graph, by using at most $\mathsf{Q}$ edge queries. For this problem, we derive upper and lower bounds in both the dense and sparse regimes.
翻訳日:2023-02-08 15:21:05 公開日:2023-02-07
# 対向例を用いた顔の生体認証化に向けて

Toward Face Biometric De-identification using Adversarial Examples ( http://arxiv.org/abs/2302.03657v1 )

ライセンス: Link先を確認
Mahdi Ghafourian, Julian Fierrez, Luis Felipe Gomez, Ruben Vera-Rodriguez, Aythami Morales, Zohra Rezgui, Raymond Veldhuis(参考訳) 顔認識(FR)の成功は、特にソーシャルメディアにおけるインターネットユーザーのプライバシーを脅かしている。 近年、研究者は敵の例を対策として用いた。 本稿では,個人画像の識別に広く知られている2つの逆法(BIMとILLC)を用いることの有効性を評価する。 文献上, 従来の主張とは異なり, 人間の視覚系に対する対角的摂動による高い保護成功率(識別率の抑制)を得るのは容易ではないことがわかった。 最後に,攻撃例の転送性は,生成したネットワークのトレーニングパラメータに強く影響することが判明した。

The remarkable success of face recognition (FR) has endangered the privacy of internet users particularly in social media. Recently, researchers turned to use adversarial examples as a countermeasure. In this paper, we assess the effectiveness of using two widely known adversarial methods (BIM and ILLC) for de-identifying personal images. We discovered, unlike previous claims in the literature, that it is not easy to get a high protection success rate (suppressing identification rate) with imperceptible adversarial perturbation to the human visual system. Finally, we found out that the transferability of adversarial examples is highly affected by the training parameters of the network with which they are generated.
翻訳日:2023-02-08 15:20:44 公開日:2023-02-07
# 効率的な同変GNNのためのSO(3)のSO(2)への畳み込み

Reducing SO(3) Convolutions to SO(2) for Efficient Equivariant GNNs ( http://arxiv.org/abs/2302.03655v1 )

ライセンス: Link先を確認
Saro Passaro, C. Lawrence Zitnick(参考訳) 点雲や原子などの3Dデータをモデル化するグラフニューラルネットワークは、通常、$SO(3)$等式、すなわち3Dローテーションに同変することを望んでいる。 残念ながら、同変ネットワークの基本的な操作である同変畳み込みは、高次テンソルを使用すると計算複雑性が大幅に増加する。 本稿では、$SO(3)$畳み込みあるいはテンソル積を$SO(2)$ の数学的に等価な畳み込みに還元することでこの問題に対処する。 これは、ノード埋め込みの一次軸をエッジベクトルに合わせることで達成され、これはテンソル積を分散させ、計算複雑性を$O(L^6)$から$O(L^3)$に減らし、$L$は表現の次数である。 本稿では,大規模oc-20データセット上での最新結果を実現する等変畳み込み法を用いて,グラフニューラルネットワークである等変球状チャネルネットワーク(escn)を提案することで,この改善の可能性を示す。

Graph neural networks that model 3D data, such as point clouds or atoms, are typically desired to be $SO(3)$ equivariant, i.e., equivariant to 3D rotations. Unfortunately equivariant convolutions, which are a fundamental operation for equivariant networks, increase significantly in computational complexity as higher-order tensors are used. In this paper, we address this issue by reducing the $SO(3)$ convolutions or tensor products to mathematically equivalent convolutions in $SO(2)$ . This is accomplished by aligning the node embeddings' primary axis with the edge vectors, which sparsifies the tensor product and reduces the computational complexity from $O(L^6)$ to $O(L^3)$, where $L$ is the degree of the representation. We demonstrate the potential implications of this improvement by proposing the Equivariant Spherical Channel Network (eSCN), a graph neural network utilizing our novel approach to equivariant convolutions, which achieves state-of-the-art results on the large-scale OC-20 dataset.
翻訳日:2023-02-08 15:20:34 公開日:2023-02-07
# 金融犯罪検出のためのプライバシー保護型ハイブリッド学習フレームワーク

A Privacy-Preserving Hybrid Federated Learning Framework for Financial Crime Detection ( http://arxiv.org/abs/2302.03654v1 )

ライセンス: Link先を確認
Haobo Zhang, Junyuan Hong, Fan Dong, Steve Drew, Liangjie Xue, Jiayu Zhou(参考訳) この10年は、公的および民間セクターにおける金融犯罪の増加を目の当たりにしており、2022年の金融機関に対する詐欺の平均費用は102万ドルだった。 金融犯罪と戦うためのメカニズムの開発は、複数の機関からの深い協力を必要とする差し迫った課題であるが、このような協力は、分散金融データのプライバシーとセキュリティ要件のために、重大な技術的課題を課している。 例えば、世界銀行間金融通信協会(swift)システム(society for worldwide interbank financial telecommunications)を考えてみましょう。 不正取引の検出モデルを訓練するには、セキュアなSWIFT取引だけでなく、対応する銀行システムから各取引に関わる個人口座の活動も必要である。 サンプルと機能の両方の分散した性質は、既存の学習システムがデータマイニングタスクに直接採用されるのを防ぐ。 本稿では、金融犯罪検知のための安全でプライバシーに配慮した学習と推論を提供するハイブリッド・フェデレーション学習システムを提案する。 提案するフレームワークの検出性能とプライバシ保護能力を評価し,協調学習における一般的な悪意のある攻撃に対する頑健性を評価する。 ソースコードはhttps://github.com/illidanlab/HyFL で公開しています。

The recent decade witnessed a surge of increase in financial crimes across the public and private sectors, with an average cost of scams of \$102m to financial institutions in 2022. Developing a mechanism for battling financial crimes is an impending task that requires in-depth collaboration from multiple institutions, and yet such collaboration imposed significant technical challenges due to the privacy and security requirements of distributed financial data. For example, consider the Society for Worldwide Interbank Financial Telecommunications (SWIFT) system, which generates 42 million transactions per day across its 11,000 global institutions. Training a detection model of fraudulent transactions requires not only secured SWIFT transactions but also the private account activities of those involved in each transaction from corresponding bank systems. The distributed nature of both samples and features prevents most existing learning systems from being directly adopted to handle the data mining task. In this paper, we collectively address these challenges by proposing a hybrid federated learning system that offers secure and privacy-aware learning and inference for financial crime detection. We conduct extensive empirical studies to evaluate the proposed framework's detection performance and privacy-protection capability, evaluating its robustness against common malicious attacks of collaborative learning. We release our source code at https://github.com/illidanlab/HyFL .
翻訳日:2023-02-08 15:20:13 公開日:2023-02-07
# ディープ・クラス・インクリメンタル・ラーニング:調査

Deep Class-Incremental Learning: A Survey ( http://arxiv.org/abs/2302.03648v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Qi-Wei Wang, Zhi-Hong Qi, Han-Jia Ye, De-Chuan Zhan, Ziwei Liu(参考訳) 深層モデル、例えばcnnや視覚トランスフォーマーは、閉じた世界で多くの視覚タスクで素晴らしい成果を上げています。 しかし、常に変化する世界において、新しいクラスが時々出現し、学習システムが新しい知識を継続的に獲得する必要がある。 例えば、ロボットは新しい指示を理解する必要があり、意見監視システムは毎日新しいトピックを分析しなければならない。 CIL(Class-Incremental Learning)は、学習者が新しいクラスの知識を段階的に取り入れ、すべてのクラスに普遍的な分類器を構築することを可能にする。 それに対応して、モデルを新しいクラスのインスタンスで直接トレーニングする場合、致命的な問題が発生します。 機械学習コミュニティでは、破滅的な忘れようという取り組みが数多く行われている。 本稿では,深層学習の最近の進歩を包括的に調査し,これらの手法をデータ中心,モデル中心,アルゴリズム中心の3つの側面から要約する。 また,ベンチマーク画像分類タスクにおける16手法の厳密で統一的な評価を行い,異なるアルゴリズムの特性を実証的に把握した。 さらに,現在の比較プロトコルは,モデル記憶におけるメモリ予算の影響を無視しており,不公平な比較結果や偏りが生じる可能性がある。 したがって、評価におけるメモリ予算の調整と、メモリに依存しないいくつかのパフォーマンス指標による公正な比較を提唱する。 これらの評価を再現するソースコードはhttps://github.com/zhoudw-zdw/cil_survey/で入手できる。

Deep models, e.g., CNNs and Vision Transformers, have achieved impressive achievements in many vision tasks in the closed world. However, novel classes emerge from time to time in our ever-changing world, requiring a learning system to acquire new knowledge continually. For example, a robot needs to understand new instructions, and an opinion monitoring system should analyze emerging topics every day. Class-Incremental Learning (CIL) enables the learner to incorporate the knowledge of new classes incrementally and build a universal classifier among all seen classes. Correspondingly, when directly training the model with new class instances, a fatal problem occurs -- the model tends to catastrophically forget the characteristics of former ones, and its performance drastically degrades. There have been numerous efforts to tackle catastrophic forgetting in the machine learning community. In this paper, we survey comprehensively recent advances in deep class-incremental learning and summarize these methods from three aspects, i.e., data-centric, model-centric, and algorithm-centric. We also provide a rigorous and unified evaluation of 16 methods in benchmark image classification tasks to find out the characteristics of different algorithms empirically. Furthermore, we notice that the current comparison protocol ignores the influence of memory budget in model storage, which may result in unfair comparison and biased results. Hence, we advocate fair comparison by aligning the memory budget in evaluation, as well as several memory-agnostic performance measures. The source code to reproduce these evaluations is available at https://github.com/zhoudw-zdw/CIL_Survey/
翻訳日:2023-02-08 15:19:51 公開日:2023-02-07
# テキスト進化における活用と探索。 執筆時の計画と翻訳の流れの定量化

Exploitation and exploration in text evolution. Quantifying planning and translation flows during writing ( http://arxiv.org/abs/2302.03645v1 )

ライセンス: Link先を確認
Donald Ruggiero Lo Sardo, Pietro Gravino, Christine Cuskley and Vittorio Loreto(参考訳) 執筆は現代の人間の活動の中心にある複雑なプロセスである。 線形過程のように見えるが、書込みは多くの非線型過程を隠蔽している。 これまでの研究は、計画、翻訳、書き起こし、改訂という3つの段階に焦点を当ててきた。 研究はこれらが非線形であることを示したが、測定するとしばしば直線的に扱われる。 本稿では、執筆過程における計画(探索)と翻訳(探索)のサブサイクルの検出と定量化について紹介する。 これらを,テキスト作成のすべての段階を記録した新しいデータセットに適用し,初期試行から最終版への仕上げまでに適用する。 このデータセットは、革新的なバージョニングソフトウェアを通じて、テキスト構築のすべてのステップを記録することができる一連のライティングワークショップから来ています。 60人以上の若手研究者が一般読者のための科学的エッセイを書いた。 各エッセイを筆記クラウドとして記録し,エッセイの歴史を捉えた複雑な位相構造として定義した。 クラウドを書くというこのユニークなデータセットを通じて、その複雑さと、ドラフト全体および時間を通じて作者の努力を定量化する、書き込みプロセスの表現を公開します。 興味深いことに、この表現は、著者が既存のアイデアを改善する「翻訳フロー」のフェーズと、ライターが計画フェーズに戻ると創造的な偏差が現れる探索を強調する。 翻訳と探索の間の転換点は、執筆プロセスが進むにつれて稀になり、著者は最終版に近づいた。 本稿の結果と導入した新しい尺度は,執筆の非線形性に関する議論を促進させ,より創造的で影響力のある執筆プロセスを支援するツールの開発を支援する可能性を秘めている。

Writing is a complex process at the center of much of modern human activity. Despite it appears to be a linear process, writing conceals many highly non-linear processes. Previous research has focused on three phases of writing: planning, translation and transcription, and revision. While research has shown these are non-linear, they are often treated linearly when measured. Here, we introduce measures to detect and quantify subcycles of planning (exploration) and translation (exploitation) during the writing process. We apply these to a novel dataset that recorded the creation of a text in all its phases, from early attempts to the finishing touches on a final version. This dataset comes from a series of writing workshops in which, through innovative versioning software, we were able to record all the steps in the construction of a text. More than 60 junior researchers in science wrote a scientific essay intended for a general readership. We recorded each essay as a writing cloud, defined as a complex topological structure capturing the history of the essay itself. Through this unique dataset of writing clouds, we expose a representation of the writing process that quantifies its complexity and the writer's efforts throughout the draft and through time. Interestingly, this representation highlights the phases of "translation flow", where authors improve existing ideas, and exploration, where creative deviations appear as the writer returns to the planning phase. These turning points between translation and exploration become rarer as the writing process progresses and the author approaches the final version. Our results and the new measures introduced have the potential to foster the discussion about the non-linear nature of writing and support the development of tools that can support more creative and impactful writing processes.
翻訳日:2023-02-08 15:19:26 公開日:2023-02-07
# 長地平線温度スケーリング

Long Horizon Temperature Scaling ( http://arxiv.org/abs/2302.03686v1 )

ライセンス: Link先を確認
Andy Shih, Dorsa Sadigh, Stefano Ermon(参考訳) 温度スケーリングはモデル分布のシャープネスをチューニングするための一般的な手法である。 潜在的世代をサンプリングし、モデルの不確実性を校正するために広く使用され、デプロイ中の多くの大きな言語モデルに対する制御可能なパラメータとして機能する。 しかし、自己回帰モデルは次のトークンを鮮やかに最適化する心筋温度のスケーリングに依存している。 そこで本研究では, 温度スケールドジョイント分布からサンプリングする新しい手法であるlong horizon temperature scaling (lhts)を提案する。 LHTSは全ての可能性に基づくモデルと互換性があり、サンプルの長期可能性に最適化されている。 温度依存lhtsの目的を導出し, 温度範囲でモデルを微調整すると, 制御可能な長ホリゾン温度パラメータで生成可能な単一モデルが得られることを示した。 画像拡散モデルとキャラクタ/言語自己回帰モデルについてLHTSを用いて実験を行い、ミオピック温度スケーリングの確率とサンプル品質に対する利点を示し、複数選択類似タスクにおける精度を10\%$で向上させた。

Temperature scaling is a popular technique for tuning the sharpness of a model distribution. It is used extensively for sampling likely generations and calibrating model uncertainty, and even features as a controllable parameter to many large language models in deployment. However, autoregressive models rely on myopic temperature scaling that greedily optimizes the next token. To address this, we propose Long Horizon Temperature Scaling (LHTS), a novel approach for sampling from temperature-scaled joint distributions. LHTS is compatible with all likelihood-based models, and optimizes for the long-horizon likelihood of samples. We derive a temperature-dependent LHTS objective, and show that fine-tuning a model on a range of temperatures produces a single model capable of generation with a controllable long-horizon temperature parameter. We experiment with LHTS on image diffusion models and character/language autoregressive models, demonstrating advantages over myopic temperature scaling in likelihood and sample quality, and showing improvements in accuracy on a multiple choice analogy task by $10\%$.
翻訳日:2023-02-08 15:13:04 公開日:2023-02-07
# データ中毒に対する時間的ロバスト性

Temporal Robustness against Data Poisoning ( http://arxiv.org/abs/2302.03684v1 )

ライセンス: Link先を確認
Wenxiao Wang, Soheil Feizi(参考訳) データ中毒は、悪意のある敵が機械学習アルゴリズムの振る舞いを操作するためにトレーニングデータを挿入して削除する場合を考える。 データ中毒の伝統的な脅威モデルは、汚染されたサンプルの数を1つの指標で表している。 その結果、多くのサンプルを毒殺することが攻撃者にとって可能な選択肢である場合、既存の防御は本質的に脆弱である。 この問題に対処するために、私たちはデータの生年月日を示すタイムスタンプを活用しています。 これらのタイムスタンプの利点を生かして,データ中毒の時間的脅威モデルを提案し,攻撃開始日数と攻撃継続日数をそれぞれ測定した2つの新しい指標,アールネスと持続日数を導出する。 これらの指標を用いて,データ中毒に対する時間的ロバスト性の概念を定義し,有意な保護感を与える。 本稿では,更新モデルの連続データ収集と周期的展開をシミュレートした評価プロトコルを用いて,時間的ロバスト性の実証評価を行う。 最後に、時間的アグリゲーション(時間的アグリゲーション)というベースラインディフェンスを開発し、実証的に検証し、実証可能な時間的ロバスト性を提供し、データ中毒の時間的モデリングの可能性を強調した。

Data poisoning considers cases when an adversary maliciously inserts and removes training data to manipulate the behavior of machine learning algorithms. Traditional threat models of data poisoning center around a single metric, the number of poisoned samples. In consequence, existing defenses are essentially vulnerable in practice when poisoning more samples remains a feasible option for attackers. To address this issue, we leverage timestamps denoting the birth dates of data, which are often available but neglected in the past. Benefiting from these timestamps, we propose a temporal threat model of data poisoning and derive two novel metrics, earliness and duration, which respectively measure how long an attack started in advance and how long an attack lasted. With these metrics, we define the notions of temporal robustness against data poisoning, providing a meaningful sense of protection even with unbounded amounts of poisoned samples. We present a benchmark with an evaluation protocol simulating continuous data collection and periodic deployments of updated models, thus enabling empirical evaluation of temporal robustness. Lastly, we develop and also empirically verify a baseline defense, namely temporal aggregation, offering provable temporal robustness and highlighting the potential of our temporal modeling of data poisoning.
翻訳日:2023-02-08 15:12:45 公開日:2023-02-07
# 逐次決定過程の線形部分モニタリング:アルゴリズム,レグレト境界とその応用

Linear Partial Monitoring for Sequential Decision-Making: Algorithms, Regret Bounds and Applications ( http://arxiv.org/abs/2302.03683v1 )

ライセンス: Link先を確認
Johannes Kirschner, Tor Lattimore, Andreas Krause(参考訳) 部分監視は、グラフ構造やデュエルバンド、動的価格設定、トランスダクティブフィードバックモデルなど、多数のアプリケーションを備えた、シーケンシャルな意思決定のための表現力のあるフレームワークである。 線形帯域設定を自然に一般化する部分的モニタリングの線形定式化に関する最近の結果を調査し,拡張する。 主な結果は、1つのアルゴリズム、情報指向サンプリング(ids)が(ほぼ)すべての有限作用ゲームにおいて最適な最悪のケースレートであるということである。 本稿では,確率的部分モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的およびカーネル的設定に拡張する。

Partial monitoring is an expressive framework for sequential decision-making with an abundance of applications, including graph-structured and dueling bandits, dynamic pricing and transductive feedback models. We survey and extend recent results on the linear formulation of partial monitoring that naturally generalizes the standard linear bandit setting. The main result is that a single algorithm, information-directed sampling (IDS), is (nearly) worst-case rate optimal in all finite-action games. We present a simple and unified analysis of stochastic partial monitoring, and further extend the model to the contextual and kernelized setting.
翻訳日:2023-02-08 15:12:23 公開日:2023-02-07
# ランダム初期化からの近似メッセージパッシングと$\mathbb{Z}_{2}$同期への応用

Approximate message passing from random initialization with applications to $\mathbb{Z}_{2}$ synchronization ( http://arxiv.org/abs/2302.03682v1 )

ライセンス: Link先を確認
Gen Li, Wei Fan, Yuting Wei(参考訳) 本稿では,未知のランク1行列をノイズ観測による事前構造情報で再構成する問題について考察する。 ベイズ最適推定器の計算は、非凸性のため、一般には難解に思えるが、近似メッセージパッシング(AMP)はベイズ最適推定器を近似する効率的な一階法として現れる。 しかし、AMPの理論的基盤は、ランダムな初期化から始まり、重要な実用性のスキームにおいて、ほとんど利用できないままである。 原型モデルである $\mathbb{Z}_{2}$ 同期に着目し、乱数初期化からAMPの有限サンプル力学を特徴づけ、その急速な大域収束を明らかにする。 我々の理論は、情報的初期化(例えばスペクトル初期化)やサンプル分割を必要とすることなく、このモデルでAMPの非漸近的特徴を与える。

This paper is concerned with the problem of reconstructing an unknown rank-one matrix with prior structural information from noisy observations. While computing the Bayes-optimal estimator seems intractable in general due to its nonconvex nature, Approximate Message Passing (AMP) emerges as an efficient first-order method to approximate the Bayes-optimal estimator. However, the theoretical underpinnings of AMP remain largely unavailable when it starts from random initialization, a scheme of critical practical utility. Focusing on a prototypical model called $\mathbb{Z}_{2}$ synchronization, we characterize the finite-sample dynamics of AMP from random initialization, uncovering its rapid global convergence. Our theory provides the first non-asymptotic characterization of AMP in this model without requiring either an informative initialization (e.g., spectral initialization) or sample splitting.
翻訳日:2023-02-08 15:12:13 公開日:2023-02-07
# 実世界の分布シフト下での回帰モデルの不確実性はどの程度信頼できるのか?

How Reliable is Your Regression Model's Uncertainty Under Real-World Distribution Shifts? ( http://arxiv.org/abs/2302.03679v1 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) 多くの重要なコンピュータビジョンアプリケーションは回帰問題として自然に定式化されている。 医療画像内では、正確な回帰モデルは様々なタスクを自動化し、コストを下げ、患者の結果を改善する可能性がある。 しかし、このような安全クリティカルなデプロイメントでは、モデルの不確かさの信頼性の高い推定が必要となる。 そこで本研究では,実世界の分布変化を考慮した回帰不確かさ推定手法の信頼性について検討する。 そこで本研究では,分散シフトの異なる8種類の画像ベース回帰データセットの広範なベンチマークを提案する。 次に,本ベンチマークを用いて不確実性推定法を多数評価し,分散検出の課題から2つの不確実性評価結果を得た。 分散シフトがない場合、メソッドは十分に校正されているが、ベンチマークデータセットの多くに非常に自信が持たれる。 これにより、現在の不確実性推定手法の重要な限界が明らかとなり、提案したベンチマークが研究コミュニティにとっての課題となる。 我々は,本ベンチマークが真に信頼性の高い回帰不確実性推定手法の開発にさらなる取り組みを刺激することを期待する。 コードはhttps://github.com/fregu856/regression_uncertaintyで入手できる。

Many important computer vision applications are naturally formulated as regression problems. Within medical imaging, accurate regression models have the potential to automate various tasks, helping to lower costs and improve patient outcomes. Such safety-critical deployment does however require reliable estimation of model uncertainty, also under the wide variety of distribution shifts that might be encountered in practice. Motivated by this, we set out to investigate the reliability of regression uncertainty estimation methods under various real-world distribution shifts. To that end, we propose an extensive benchmark of 8 image-based regression datasets with different types of challenging distribution shifts. We then employ our benchmark to evaluate many of the most common uncertainty estimation methods, as well as two state-of-the-art uncertainty scores from the task of out-of-distribution detection. We find that while methods are well calibrated when there is no distribution shift, they all become highly overconfident on many of the benchmark datasets. This uncovers important limitations of current uncertainty estimation methods, and the proposed benchmark therefore serves as a challenge to the research community. We hope that our benchmark will spur more work on how to develop truly reliable regression uncertainty estimation methods. Code is available at https://github.com/fregu856/regression_uncertainty.
翻訳日:2023-02-08 15:11:55 公開日:2023-02-07
# テキスト・画像モデルにおけるジェンダー提示の違い

Auditing Gender Presentation Differences in Text-to-Image Models ( http://arxiv.org/abs/2302.03675v1 )

ライセンス: Link先を確認
Yanzhe Zhang, Lu Jiang, Greg Turk, Diyi Yang(参考訳) テキスト入力に基づいて高品質な画像を生成するtext-to-imageモデルが先日,さまざまなコンテンツ生成ツールの提供を開始した。 幅広いダウンストリームアプリケーションに大きな影響を与えるにもかかわらず、生成した画像の分布は、特に異なる性別の潜在的ステレオタイプ特性に関して、まだ完全には理解されていない。 本研究では,細粒度自己表現属性を用いて,テキスト対画像モデルにおける性別の表現方法を検討するパラダイム(生成表現の違い)を提案する。 入力テキスト(例:「女性」または「男性」)の性別指標を探索することにより、人間のアノテーションを通してプレゼンテーション中心属性(例:「シャツ」と「ドレス」)の頻度差を定量化し、新しい指標「GEP」を導入する。 さらに,このような差異を推定する自動手法を提案する。 提案手法に基づく自動gepメトリクスは,既存のクリップスコアよりも人間のアノテーションとの相関度が高く,3つの最先端テキスト対画像モデルに一貫性がある。 最後に,職業に関連するジェンダーステレオタイプの文脈において,指標の一般化能力を示す。

Text-to-image models, which can generate high-quality images based on textual input, have recently enabled various content-creation tools. Despite significantly affecting a wide range of downstream applications, the distributions of these generated images are still not fully understood, especially when it comes to the potential stereotypical attributes of different genders. In this work, we propose a paradigm (Gender Presentation Differences) that utilizes fine-grained self-presentation attributes to study how gender is presented differently in text-to-image models. By probing gender indicators in the input text (e.g., "a woman" or "a man"), we quantify the frequency differences of presentation-centric attributes (e.g., "a shirt" and "a dress") through human annotation and introduce a novel metric: GEP. Furthermore, we propose an automatic method to estimate such differences. The automatic GEP metric based on our approach yields a higher correlation with human annotations than that based on existing CLIP scores, consistently across three state-of-the-art text-to-image models. Finally, we demonstrate the generalization ability of our metrics in the context of gender stereotypes related to occupations.
翻訳日:2023-02-08 15:11:35 公開日:2023-02-07
# 大規模状態空間におけるマルチエージェントの呪いを破る:独立線型関数近似を持つマルコフゲームにおけるrl

Breaking the Curse of Multiagents in a Large State Space: RL in Markov Games with Independent Linear Function Approximation ( http://arxiv.org/abs/2302.03673v1 )

ライセンス: Link先を確認
Qiwen Cui, Kaiqing Zhang, Simon S. Du(参考訳) 本研究では,大規模状態空間と多数のエージェントを有するマルチエージェント強化学習のための独立線形マルコフゲームを提案する。 これは独立線型関数近似を持つマルコフゲームの一種であり、各エージェントは他のプレイヤーのポリシーによって疎外される状態-作用値関数に対して独自の関数近似を持つ。 マルコフ粗相関平衡(cce)とマルコフ相関平衡(ce)と、各エージェントの関数クラスの複雑性と多項式的にしかスケールしないサンプル複雑性境界を学習するための新しいアルゴリズムを設計し、マルチエージェントの呪いを破る。 対照的に、関数近似を持つマルコフゲームに対する既存の研究は、エージェント数で指数関数的に大きい正準タブ状マルコフゲームセッティングに特化する場合、サンプル複雑性は \emph{joint action space} のサイズと一致する。 我々のアルゴリズムは、2つの重要な技術革新に依存している: 1)複数のエージェントによって引き起こされる非定常性に取り組むポリシーリプレイと関数近似の使用。2)学習マルコフ平衡とマルコフゲームでの探索を分離することで、オラクルを学習するフル情報の非回帰を、より強固なバンディットフィードバックを学習するオラクルの代わりに使用できる。 さらに,独立線形マルコフポテンシャルゲームにおいて純粋マルコフナッシュ平衡を学習できる反復的最良応答型アルゴリズムを提案する。 図表の場合、独立線型マルコフゲームに対するポリシー再生機構を適応させることで、マルコフ CCE を学習するためのサンプル複雑性を$\widetilde{O}(\epsilon^{-2}) とするアルゴリズムを提案し、ダスカラキスらで $\widetilde{O}(\epsilon^{-3})$ と $\epsilon$ は所望の精度であり、他の問題パラメータも大幅に改善する。

We propose a new model, independent linear Markov game, for multi-agent reinforcement learning with a large state space and a large number of agents. This is a class of Markov games with independent linear function approximation, where each agent has its own function approximation for the state-action value functions that are marginalized by other players' policies. We design new algorithms for learning the Markov coarse correlated equilibria (CCE) and Markov correlated equilibria (CE) with sample complexity bounds that only scale polynomially with each agent's own function class complexity, thus breaking the curse of multiagents. In contrast, existing works for Markov games with function approximation have sample complexity bounds scale with the size of the \emph{joint action space} when specialized to the canonical tabular Markov game setting, which is exponentially large in the number of agents. Our algorithms rely on two key technical innovations: (1) utilizing policy replay to tackle non-stationarity incurred by multiple agents and the use of function approximation; (2) separating learning Markov equilibria and exploration in the Markov games, which allows us to use the full-information no-regret learning oracle instead of the stronger bandit-feedback no-regret learning oracle used in the tabular setting. Furthermore, we propose an iterative-best-response type algorithm that can learn pure Markov Nash equilibria in independent linear Markov potential games. In the tabular case, by adapting the policy replay mechanism for independent linear Markov games, we propose an algorithm with $\widetilde{O}(\epsilon^{-2})$ sample complexity to learn Markov CCE, which improves the state-of-the-art result $\widetilde{O}(\epsilon^{-3})$ in Daskalakis et al. 2022, where $\epsilon$ is the desired accuracy, and also significantly improves other problem parameters.
翻訳日:2023-02-08 15:11:15 公開日:2023-02-07
# ハードプロンプトが容易になった:プロンプトチューニングと発見のための勾配に基づく離散最適化

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery ( http://arxiv.org/abs/2302.03668v1 )

ライセンス: Link先を確認
Yuxin Wen, Neel Jain, John Kirchenbauer, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 現代の生成モデルの強みは、テキストベースのプロンプトによって制御できる能力にある。 典型的な「硬い」プロンプトは解釈可能な単語とトークンから作られ、人間が手作りしなければならない。 連続的な特徴ベクトルからなる"ソフト"プロンプトもある。 これらは強力な最適化手法で発見できるが、容易に解釈したり、モデル間で再使用したり、テキストベースのインターフェイスに差し込むことはできない。 本稿では,効率的な勾配に基づく最適化により,テキストプロンプトを頑健に最適化する手法について述べる。 本手法では,テキストから画像へのプロンプトとテキストからテキストへのプロンプトの両方に対して,テキストベースのプロンプトを自動的に生成する。 テキスト・トゥ・イメージ・セッティングでは、拡散モデルのハードプロンプトを生成し、モデルのプロンプトに関する事前知識なしに、APIユーザーが容易に画像概念を生成、発見、混合できる。 テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることを示す。

The strength of modern generative models lies in their ability to be controlled through text-based prompts. Typical "hard" prompts are made from interpretable words and tokens, and must be hand-crafted by humans. There are also "soft" prompts, which consist of continuous feature vectors. These can be discovered using powerful optimization methods, but they cannot be easily interpreted, re-used across models, or plugged into a text-based interface. We describe an approach to robustly optimize hard text prompts through efficient gradient-based optimization. Our approach automatically generates hard text-based prompts for both text-to-image and text-to-text applications. In the text-to-image setting, the method creates hard prompts for diffusion models, allowing API users to easily generate, discover, and mix and match image concepts without prior knowledge on how to prompt the model. In the text-to-text setting, we show that hard prompts can be automatically discovered that are effective in tuning LMs for classification.
翻訳日:2023-02-08 15:10:09 公開日:2023-02-07
# 10億規模のショートビデオレコメンデーションシステムにおけるユーザ保持の強化

Reinforcing User Retention in a Billion Scale Short Video Recommender System ( http://arxiv.org/abs/2302.01724v2 )

ライセンス: Link先を確認
Qingpeng Cai, Shuchang Liu, Xueliang Wang, Tianyou Zuo, Wentao Xie, Bin Yang, Dong Zheng, Peng Jiang, Kun Gai(参考訳) 近年,ショートビデオプラットフォームは,興味深いコンテンツをユーザに推薦することで,急速なユーザ増加を達成している。 この勧告の目的は、ユーザ保持の最適化であり、DAU(Daily Active Users)の成長を促進することである。 保持は、ユーザとシステムの複数インタラクション後の長期的なフィードバックであり、各アイテムまたはアイテムのリストに対する保持報酬を分解することは困難である。 したがって、従来のポイントワイズモデルとリストワイズモデルは保持を最適化できない。 本稿では,長期的性能を最大化するために,保持率を最適化する強化学習手法を選択する。 我々は,この問題を無限ホリゾン要求に基づくマルコフ決定プロセスとして定式化し,複数のセッションの蓄積時間間隔を最小化することを目的としている。 しかし、現在の強化学習アルゴリズムは、ユーザの保持特性によって生じる不確実性、バイアス、長い遅延時間のために、この設定では直接適用できない。 本稿では、上記の課題に対処するため、RLURと呼ばれる新しい手法を提案する。 オフラインとライブの両方の実験は、RLURがユーザの保持を大幅に改善できることを示している。 RLURは長い間、Kuaishouアプリで完全にローンチされており、ユーザ保持とDAUで一貫したパフォーマンス向上を実現している。

Recently, short video platforms have achieved rapid user growth by recommending interesting content to users. The objective of the recommendation is to optimize user retention, thereby driving the growth of DAU (Daily Active Users). Retention is a long-term feedback after multiple interactions of users and the system, and it is hard to decompose retention reward to each item or a list of items. Thus traditional point-wise and list-wise models are not able to optimize retention. In this paper, we choose reinforcement learning methods to optimize the retention as they are designed to maximize the long-term performance. We formulate the problem as an infinite-horizon request-based Markov Decision Process, and our objective is to minimize the accumulated time interval of multiple sessions, which is equal to improving the app open frequency and user retention. However, current reinforcement learning algorithms can not be directly applied in this setting due to uncertainty, bias, and long delay time incurred by the properties of user retention. We propose a novel method, dubbed RLUR, to address the aforementioned challenges. Both offline and live experiments show that RLUR can significantly improve user retention. RLUR has been fully launched in Kuaishou app for a long time, and achieves consistent performance improvement on user retention and DAU.
翻訳日:2023-02-08 12:34:38 公開日:2023-02-07
# FastPillars: デプロイフレンドリーなPillarベースの3D検出器

FastPillars: A Deployment-friendly Pillar-based 3D Detector ( http://arxiv.org/abs/2302.02367v2 )

ライセンス: Link先を確認
Sifan Zhou, Zhi Tian, Xiangxiang Chu, Xinyu Zhang, Bo Zhang, Xiaobo Lu, Chengjian Feng, Zequn Jie, Patrick Yin Chiang, Lin Ma(参考訳) 3D検出器の配備は、現実の自動運転シナリオにおける大きな課題の1つとなる。 既存のbevベースの検出器(バードアイビュー)は、トレーニングと推論をスピードアップするためにスパース畳み込み(spconvとして知られる)を好む。 本稿では,LiDAR点雲からの効率的な3次元物体検出の問題に,展開を念頭において取り組む。 計算負荷を低減するため,ファストパイラーと呼ばれる産業的観点から高い性能の柱型3D検出器を提案する。 従来の手法と比較して,より効果的なMAPE(Max-and-Attention column encoding)モジュールを導入し,CSP(Cross Stage partial network)を組み込んだ強力なバックボーンCRVNetを再設計し,コンパクトな特徴表現フレームワークを構築する。 私たちのFastPillarsは、デバイス上のスピードと性能の両方に関して、最先端の3D検出器を超えています。 具体的には、FastPillarsはTensorRTを通じて効果的にデプロイでき、nuScenesテストセット上で64.6 mAPの単一RTX3070TiGPU上でリアルタイムパフォーマンス(24FPS)を得ることができる。 私たちのコードは、https://github.com/StiphyJay/FastPillars.comで公開されています。

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolution (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment especially for on-device applications. In this paper, we tackle the problem of efficient 3D object detection from LiDAR point clouds with deployment in mind. To reduce computational burden, we propose a pillar-based 3D detector with high performance from an industry perspective, termed FastPillars. Compared with previous methods, we introduce a more effective Max-and-Attention pillar encoding (MAPE) module, and redesigning a powerful and lightweight backbone CRVNet imbued with Cross Stage Partial network (CSP) in a reparameterization style, forming a compact feature representation framework. Extensive experiments demonstrate that our FastPillars surpasses the state-of-the-art 3D detectors regarding both on-device speed and performance. Specifically, FastPillars can be effectively deployed through TensorRT, obtaining real-time performance (24FPS) on a single RTX3070Ti GPU with 64.6 mAP on the nuScenes test set. Our code is publicly available at: https://github.com/StiphyJay/FastPillars.
翻訳日:2023-02-08 12:26:48 公開日:2023-02-07
# LExecutor:学習ガイドによる実行

LExecutor: Learning-Guided Execution ( http://arxiv.org/abs/2302.02343v2 )

ライセンス: Link先を確認
Beatriz Souza and Michael Pradel(参考訳) コードの実行は、様々なプログラム解析タスク、例えば例外を通じて現れるバグの検出や、さらなる動的解析のために実行トレースを取得するために不可欠である。 しかし、変数定義の欠如、ユーザ入力の欠如、サードパーティの依存関係の欠如など、任意のコードを実行することは現実的には難しいことが多い。 本稿では,任意のコードスニペットを制約の少ない方法で実行するための学習誘導型LExecutorを提案する。 キーとなるアイデアは、プログラムが停止する原因となる欠落した値をニューラルモデルに予測させ、これらの値を実行に注入することです。 例えば、LExecutorは、そうでなければ未定義変数の可能性のある値を注入し、そうでない関数に呼び出しの値を返す。 人気のあるオープンソースプロジェクトのpythonコードとstack overflowから抽出したコードスニペットのアプローチを評価した。 神経モデルは80.1%から94.2%の精度で現実的な値を予測し、lexecutorは実際の実行を密接に模倣することができる。 その結果、このアプローチは、コードをas-isで単に実行するなど、利用可能なテクニックよりもはるかに多くのコードを実行することに成功した。 例えば、オープンソースのコードスニペットは早期にクラッシュするため、全行の4.1%しかカバーしていないが、LExecutorは50.1%のカバレッジを達成している。

Executing code is essential for various program analysis tasks, e.g., to detect bugs that manifest through exceptions or to obtain execution traces for further dynamic analysis. However, executing an arbitrary piece of code is often difficult in practice, e.g., because of missing variable definitions, missing user inputs, and missing third-party dependencies. This paper presents LExecutor, a learning-guided approach for executing arbitrary code snippets in an underconstrained way. The key idea is to let a neural model predict missing values that otherwise would cause the program to get stuck, and to inject these values into the execution. For example, LExecutor injects likely values for otherwise undefined variables and likely return values of calls to otherwise missing functions. We evaluate the approach on Python code from popular open-source projects and on code snippets extracted from Stack Overflow. The neural model predicts realistic values with an accuracy between 80.1% and 94.2%, allowing LExecutor to closely mimic real executions. As a result, the approach successfully executes significantly more code than any available technique, such as simply executing the code as-is. For example, executing the open-source code snippets as-is covers only 4.1% of all lines, because the code crashes early on, whereas LExecutor achieves a coverage of 50.1%.
翻訳日:2023-02-08 12:26:25 公開日:2023-02-07
# ChatGPTとその他の大規模生成AIモデルの制御

Regulating ChatGPT and other Large Generative AI Models ( http://arxiv.org/abs/2302.02337v2 )

ライセンス: Link先を確認
Philipp Hacker, Andreas Engel, Marco Mauer(参考訳) ChatGPTやStable Diffusionのような大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーション、図示、作成の方法に急速に変化しています。 しかし、EUなどでは、AI規制は主にLGAIMではなく、従来のAIモデルに焦点を当てている。 本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討し、その能力にどのように適合するかを問う。 技術基盤を整備した後は、(1)直接規制、(2)データ保護、(3)コンテンツモデレーション、(4)政策提案の4段階に進む。 これは、LGAIMの開発者、デプロイ者、プロフェッショナルおよび非プロフェッショナルのユーザ、およびLGAIMのアウトプットを区別することで、LGAIM設定でAIバリューチェーンをキャプチャする新しい用語を提案する。 我々は、これらの異なるアクターに対する規制業務をバリューチェーンに沿って調整し、LGAIMが社会全体の利益のために信頼でき、デプロイされることを保証するための4つの戦略を提案する。 ai法やその他の直接規制の規則は、事前訓練されたモデルの特異性に合致しなければならない。 特に、規制は事前訓練されたモデル自身ではなく、具体的なハイリスクなアプリケーションに焦点を当てるべきであり、含めるべきである。 一 透明性に関する義務及び義務 (ii)リスク管理。 非差別規定 しかし、(iii)LGAIM開発者には適用できる。 最後に (4) DSA コンテンツモデレーションルールの中核は LGAIM をカバーするように拡張されるべきである。 これには通知とアクションのメカニズム、信頼できるフラグガーが含まれる。 あらゆる分野において、規制当局や議員はチャットgptなどのダイナミクスを追跡するために迅速に行動する必要がある。

Large generative AI models (LGAIMs), such as ChatGPT or Stable Diffusion, are rapidly transforming the way we communicate, illustrate, and create. However, AI regulation, in the EU and beyond, has primarily focused on conventional AI models, not LGAIMs. This paper will situate these new generative models in the current debate on trustworthy AI regulation, and ask how the law can be tailored to their capabilities. After laying technical foundations, the legal part of the paper proceeds in four steps, covering (1) direct regulation, (2) data protection, (3) content moderation, and (4) policy proposals. It suggests a novel terminology to capture the AI value chain in LGAIM settings by differentiating between LGAIM developers, deployers, professional and non-professional users, as well as recipients of LGAIM output. We tailor regulatory duties to these different actors along the value chain and suggest four strategies to ensure that LGAIMs are trustworthy and deployed for the benefit of society at large. Rules in the AI Act and other direct regulation must match the specificities of pre-trained models. In particular, regulation should focus on concrete high-risk applications, and not the pre-trained model itself, and should include (i) obligations regarding transparency and (ii) risk management. Non-discrimination provisions (iii) may, however, apply to LGAIM developers. Lastly, (iv) the core of the DSA content moderation rules should be expanded to cover LGAIMs. This includes notice and action mechanisms, and trusted flaggers. In all areas, regulators and lawmakers need to act fast to keep track with the dynamics of ChatGPT et al.
翻訳日:2023-02-08 12:26:02 公開日:2023-02-07
# AIアドバイスに対する適切な信頼:概念化と説明の効果

Appropriate Reliance on AI Advice: Conceptualization and the Effect of Explanations ( http://arxiv.org/abs/2302.02187v2 )

ライセンス: Link先を確認
Max Schemmer, Niklas K\"uhl, Carina Benz, Andrea Bartos, Gerhard Satzger(参考訳) AIアドバイスは、例えば投資や治療決定において、ますます人気が高まっている。 このアドバイスは一般的に不完全であるため、意思決定者は、実際にそのアドバイスに従うかどうかを判断しなければならない。 しかし、現在の適切な信頼に関する研究には、まだ共通の定義と運用上の測定概念が欠けている。 さらに、この行動に影響を及ぼす要因を理解するのに役立つ深い行動実験は行われていない。 本稿では,AoR(Adropriateness of Reliance)を基礎となる,定量的な2次元計測概念として提案する。 我々は、aiアドバイスに説明を提供する効果を分析する研究モデルを開発した。 200人の参加者による実験では、これらの説明がAoRにどのように影響し、AIアドバイスの有効性を示す。 我々の研究は、依存行動の分析とAIアドバイザの目的設計のための基本的な概念に貢献する。

AI advice is becoming increasingly popular, e.g., in investment and medical treatment decisions. As this advice is typically imperfect, decision-makers have to exert discretion as to whether actually follow that advice: they have to "appropriately" rely on correct and turn down incorrect advice. However, current research on appropriate reliance still lacks a common definition as well as an operational measurement concept. Additionally, no in-depth behavioral experiments have been conducted that help understand the factors influencing this behavior. In this paper, we propose Appropriateness of Reliance (AoR) as an underlying, quantifiable two-dimensional measurement concept. We develop a research model that analyzes the effect of providing explanations for AI advice. In an experiment with 200 participants, we demonstrate how these explanations influence the AoR, and, thus, the effectiveness of AI advice. Our work contributes fundamental concepts for the analysis of reliance behavior and the purposeful design of AI advisors.
翻訳日:2023-02-08 12:25:35 公開日:2023-02-07
# この腸は存在しない:リアルな無線カプセル内視鏡画像生成のためのマルチスケール残差オートエンコーダ

This Intestine Does Not Exist: Multiscale Residual Variational Autoencoder for Realistic Wireless Capsule Endoscopy Image Generation ( http://arxiv.org/abs/2302.02150v2 )

ライセンス: Link先を確認
Dimitrios E. Diamantis, Panagiota Gatoula, Anastasios Koulaouzidis, and Dimitris K. Iakovidis(参考訳) 医用画像合成は、画像ベースの臨床決定支援(CDS)システムにおいて、機械学習アルゴリズムのトレーニングに必要な注釈付き医療データの限られた可用性に対応するための、有望なソリューションとして登場した。 この目的のために、GAN(Generative Adversarial Networks)は、データ拡張のための合成画像を生成するアルゴリズムトレーニングプロセスを支援するために主に適用されてきた。 しかし、Wireless Capsule Endoscopy (WCE)の分野では、既存の公開アノテーションデータセットの限られた内容の多様性とサイズは、GANのトレーニング安定性と合成性能の両方に悪影響を及ぼす。 WCE画像合成のための実行可能なソリューションとして,新しい変分オートエンコーダアーキテクチャ,すなわち "This Intestine Does Not Exist" (TIDE)を提案する。 提案するアーキテクチャは,多スケールな特徴抽出畳み込みブロックと残差接続を含み,限られた数のトレーニング画像でも高品質で多様なデータセットを生成できる。 利用可能なデータセットの増大を指向した現在のアプローチとは対照的に,本研究では,TIDEを用いて実WCEデータセットを人工的に生成したデータセットに置き換えることが,分類性能を損なうことなく可能であることを示す。 さらに、経験豊富なWCEスペシャリストによる質的およびユーザ評価研究は、TIDEによって合成された正常なWCE画像と異常なWCE画像の両方が十分に現実的であるという医学的観点から検証する。

Medical image synthesis has emerged as a promising solution to address the limited availability of annotated medical data needed for training machine learning algorithms in the context of image-based Clinical Decision Support (CDS) systems. To this end, Generative Adversarial Networks (GANs) have been mainly applied to support the algorithm training process by generating synthetic images for data augmentation. However, in the field of Wireless Capsule Endoscopy (WCE), the limited content diversity and size of existing publicly available annotated datasets, adversely affect both the training stability and synthesis performance of GANs. Aiming to a viable solution for WCE image synthesis, a novel Variational Autoencoder architecture is proposed, namely "This Intestine Does not Exist" (TIDE). The proposed architecture comprises multiscale feature extraction convolutional blocks and residual connections, which enable the generation of high-quality and diverse datasets even with a limited number of training images. Contrary to the current approaches, which are oriented towards the augmentation of the available datasets, this study demonstrates that using TIDE, real WCE datasets can be fully substituted by artificially generated ones, without compromising classification performance. Furthermore, qualitative and user evaluation studies by experienced WCE specialists, validate from a medical viewpoint that both the normal and abnormal WCE images synthesized by TIDE are sufficiently realistic.
翻訳日:2023-02-08 12:25:22 公開日:2023-02-07
# ナレッジエンハンスドニューラルマシン推論:レビュー

Knowledge-enhanced Neural Machine Reasoning: A Review ( http://arxiv.org/abs/2302.02093v2 )

ライセンス: Link先を確認
Tanmoy Chowdhury, Chen Ling, Xuchao Zhang, Xujiang Zhao, Guangji Bai, Jian Pei, Haifeng Chen, Liang Zhao(参考訳) 知識に富んだニューラルマシン推論は、最先端でありながら多くの実用的応用に挑戦する研究分野として大きな注目を集めている。 過去数年間、深層モデルの推論能力向上、効果的な知識統合、暗黙の知識マイニング、トラクタビリティと最適化の問題といった課題に取り組むために、さまざまな外部知識を活用してきた研究が数多くある。 しかし、様々なアプリケーションドメインにまたがる既存の知識に富んだ推論技術に関する包括的な技術的レビューがある。 本調査は, 既存の知識向上手法を2つの主要なカテゴリと4つのサブカテゴリに分類する新しい分類法を導入し, この分野の最近の進歩を詳細に検討する。 我々は,これらの手法を体系的に議論し,その相関性,強み,限界を強調する。 最後に、現在のアプリケーションドメインを解明し、将来の研究の展望に関する洞察を提供する。

Knowledge-enhanced neural machine reasoning has garnered significant attention as a cutting-edge yet challenging research area with numerous practical applications. Over the past few years, plenty of studies have leveraged various forms of external knowledge to augment the reasoning capabilities of deep models, tackling challenges such as effective knowledge integration, implicit knowledge mining, and problems of tractability and optimization. However, there is a dearth of a comprehensive technical review of the existing knowledge-enhanced reasoning techniques across the diverse range of application domains. This survey provides an in-depth examination of recent advancements in the field, introducing a novel taxonomy that categorizes existing knowledge-enhanced methods into two primary categories and four subcategories. We systematically discuss these methods and highlight their correlations, strengths, and limitations. Finally, we elucidate the current application domains and provide insight into promising prospects for future research.
翻訳日:2023-02-08 12:24:56 公開日:2023-02-07
# ロバスト学習のための補間:測地線データ拡張

Interpolation for Robust Learning: Data Augmentation on Geodesics ( http://arxiv.org/abs/2302.02092v2 )

ライセンス: Link先を確認
Jiacheng Zhu, Jielin Qiu, Aritra Guha, Zhuolin Yang, Xuanlong Nguyen, Bo Li, Ding Zhao(参考訳) 本稿では,トレーニングデータ分布の補間を通じて,モデルの性能に準ずるロバスト性を研究・促進することを提案する。 具体的には,(1)異なるカテゴリーの測地線接続部分集団分布について,ワーストケースのwasserstein barycenterを求めることで,データを強化した。 2) サブポピュレーション分布を接続する連続測地路上でのスムーズな性能のモデルを正規化する。 また,ロバスト性向上の理論的保証を提供し,測地線の位置とサンプルサイズがそれぞれどのように寄与するかを検討する。 CIFAR-100とImageNetを含む4つのデータセットに対する提案手法の実験的検証により,提案手法の有効性が確立された。例えば,提案手法は,CIFAR10のベースラインの証明可能なロバスト性を,CIFAR-100の実証的ロバスト性に対して$16.8\%で最大7.7\%まで改善する。 我々の研究は、ワッサーシュタイン測地学に基づく補間によるモデルロバスト性の新しい視点と、既存のロバストトレーニング手法と組み合わせることができる実用的なオフザシェルフ戦略を提供する。

We propose to study and promote the robustness of a model as per its performance through the interpolation of training data distributions. Specifically, (1) we augment the data by finding the worst-case Wasserstein barycenter on the geodesic connecting subpopulation distributions of different categories. (2) We regularize the model for smoother performance on the continuous geodesic path connecting subpopulation distributions. (3) Additionally, we provide a theoretical guarantee of robustness improvement and investigate how the geodesic location and the sample size contribute, respectively. Experimental validations of the proposed strategy on four datasets, including CIFAR-100 and ImageNet, establish the efficacy of our method, e.g., our method improves the baselines' certifiable robustness on CIFAR10 up to $7.7\%$, with $16.8\%$ on empirical robustness on CIFAR-100. Our work provides a new perspective of model robustness through the lens of Wasserstein geodesic-based interpolation with a practical off-the-shelf strategy that can be combined with existing robust training methods.
翻訳日:2023-02-08 12:24:42 公開日:2023-02-07
# AV-NeRF:リアルワールドオーディオ映像合成のためのニューラルネットワーク学習

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis ( http://arxiv.org/abs/2302.02088v2 )

ライセンス: Link先を確認
Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu(参考訳) 複雑な世界に対する人間の認識は、マルチモーダル信号の包括的な分析に依存しており、オーディオとビデオ信号の共起は、人間に豊かな手がかりを与える。 本稿では,実世界における新しい映像シーン合成について述べる。 オーディオ映像シーンの映像録画を前提として,その映像シーン内の任意のカメラ軌跡に沿って,空間的音声で新しい映像を合成する。 音声合成にNeRFモデルを直接用いることは、事前知識の欠如と音響監督のために不十分である。 この課題に対処するために,我々はまず,従来の音声伝搬の知識をNeRFに統合した音響認識型音声生成モジュールを提案し,そこで音声生成と視覚環境の3次元幾何を関連づける。 また,音源に対する視聴方向を表す座標変換モジュールを提案する。 このような方向変換は、モデルが音源中心の音響場を学ぶのに役立つ。 さらに,頭部関連インパルス応答関数を用いて擬似バイノーラル音声を合成し,トレーニングを強化するデータ拡張を行う。 実世界の映像シーンにおけるモデルの有用性を質的かつ定量的に実証する。 我々は興味のある読者に、説得力のある比較のためにビデオ結果を見るよう勧める。

Human perception of the complex world relies on a comprehensive analysis of multi-modal signals, and the co-occurrences of audio and video signals provide humans with rich cues. This paper focuses on novel audio-visual scene synthesis in the real world. Given a video recording of an audio-visual scene, the task is to synthesize new videos with spatial audios along arbitrary novel camera trajectories in that audio-visual scene. Directly using a NeRF-based model for audio synthesis is insufficient due to its lack of prior knowledge and acoustic supervision. To tackle the challenges, we first propose an acoustic-aware audio generation module that integrates our prior knowledge of audio propagation into NeRF, in which we associate audio generation with the 3D geometry of the visual environment. In addition, we propose a coordinate transformation module that expresses a viewing direction relative to the sound source. Such a direction transformation helps the model learn sound source-centric acoustic fields. Moreover, we utilize a head-related impulse response function to synthesize pseudo binaural audio for data augmentation that strengthens training. We qualitatively and quantitatively demonstrate the advantage of our model on real-world audio-visual scenes. We refer interested readers to view our video results for convincing comparisons.
翻訳日:2023-02-08 12:24:21 公開日:2023-02-07
# クープマン演算子学習:シャープスペクトル速度と純粋固有値

Koopman Operator Learning: Sharp Spectral Rates and Spurious Eigenvalues ( http://arxiv.org/abs/2302.02004v2 )

ライセンス: Link先を確認
Vladimir Kostic, Karim Lounici, Pietro Novelli, Massimiliano Pontil(参考訳) 非線形力学系は、関連するクープマン作用素(英語版)(koopman operator)によって手軽に記述され、その作用はシステムの全ての可観測性が経時的に進化する。 データからKoopman演算子を学ぶことは、多くのアルゴリズムによって実現されている。 本研究では,拡張動的モード分解 (edmd) と還元ランク回帰 (rrr) の2つのアルゴリズムにより推定されるkoopman固有値と固有関数の非漸近的学習境界を提案する。 我々は時間反転不変マルコフ連鎖に焦点を当て、クープマン作用素が自己共役であることを示唆する。 これには確率力学系の重要な例、特にランゲヴィン力学が含まれる。 我々のスペクトル学習境界は、推定器のオペレータノルムリスクと対応する固有関数に関連する計量歪みの同時制御によって駆動される。 分析の結果,両アルゴリズムの差は似ているが,EDMDは学習速度に有害な大きなバイアスに悩まされている。 さらに、大きな計量歪みは、経験的に観測された現象である突発的な固有値をもたらす可能性があり、計量歪みはデータから推定できることに留意する。 数値実験は理論的な結果を補完する。

Non-linear dynamical systems can be handily described by the associated Koopman operator, whose action evolves every observable of the system forward in time. Learning the Koopman operator from data is enabled by a number of algorithms. In this work we present nonasymptotic learning bounds for the Koopman eigenvalues and eigenfunctions estimated by two popular algorithms: Extended Dynamic Mode Decomposition (EDMD) and Reduced Rank Regression (RRR). We focus on time-reversal-invariant Markov chains, implying that the Koopman operator is self-adjoint. This includes important examples of stochastic dynamical systems, notably Langevin dynamics. Our spectral learning bounds are driven by the simultaneous control of the operator norm risk of the estimators and a metric distortion associated to the corresponding eigenfunctions. Our analysis indicates that both algorithms have similar variance, but EDMD suffers from a larger bias which might be detrimental to its learning rate. We further argue that a large metric distortion may lead to spurious eigenvalues, a phenomenon which has been empirically observed, and note that metric distortion can be estimated from data. Numerical experiments complement the theoretical findings.
翻訳日:2023-02-08 12:24:04 公開日:2023-02-07
# 半スーパービジョンの医用画像分割再考 : ばらつき低減の視点から

Rethinking Semi-Supervised Medical Image Segmentation: A Variance-Reduction Perspective ( http://arxiv.org/abs/2302.01735v2 )

ライセンス: Link先を確認
Chenyu You, Weicheng Dai, Yifei Min, Fenglin Liu, Xiaoran Zhang, Chen Feng, David A. Clifton, S Kevin Zhou, Lawrence Hamilton Staib, James S Duncan(参考訳) 医用画像のセグメンテーションにおいて, 比較学習は, 意味論的に類似した, 異種のサンプルを対比することにより, 視覚表現の質を向上させるための主流の実践である。 これは、真に異なる解剖学的特徴を持つ負の例が、もしサンプルを採取すれば、性能が著しく向上する、という観察によって可能となった。 しかし実際には、これらのサンプルは類似した解剖学的特徴から来ている可能性があり、モデルは少数派のテールクラスのサンプルを区別するのに苦労する可能性があり、テールクラスは誤分類されやすくなりやすい。 本稿では,医療画像分割における階層化グループサンプリング理論を用いた半教師付きコントラスト学習(cl)フレームワークarcoを提案する。 特に, 分散削減推定の概念を通したarcoの構築を最初に提案し, 極めて限定されたラベルを有する医用画像分割タスクにおいて, 分散還元手法が特に有用であることを示す。 さらに,これらのサンプリング手法が分散還元において普遍的であることを理論的に証明する。 最後に,ラベル設定の異なる3つのベンチマークデータセットに対して,我々の手法を実験的に検証した。 さらに、clフレームワークをこれらのサンプリング技術で強化し、以前の方法を大きく上回る結果を示す。 我々は, 医用画像解析課題を遂行するための現在の自己視目標の限界を定量化することにより, 半教師付き医用画像セグメンテーションに向けた重要な一歩であると考えている。

For medical image segmentation, contrastive learning is the dominant practice to improve the quality of visual representations by contrasting semantically similar and dissimilar pairs of samples. This is enabled by the observation that without accessing ground truth label, negative examples with truly dissimilar anatomical features, if sampled, can significantly improve the performance. In reality, however, these samples may come from similar anatomical features and the models may struggle to distinguish the minority tail-class samples, making the tail classes more prone to misclassification, both of which typically lead to model collapse. In this paper, we propose ARCO, a semi-supervised contrastive learning (CL) framework with stratified group sampling theory in medical image segmentation. In particular, we first propose building ARCO through the concept of variance-reduced estimation, and show that certain variance-reduction techniques are particularly beneficial in medical image segmentation tasks with extremely limited labels. Furthermore, we theoretically prove these sampling techniques are universal in variance reduction. Finally, we experimentally validate our approaches on three benchmark datasets with different label settings, and our methods consistently outperform state-of-the-art semi- and fully-supervised methods. Additionally, we augment the CL frameworks with these sampling techniques and demonstrate significant gains over previous methods. We believe our work is an important step towards semi-supervised medical image segmentation by quantifying the limitation of current self-supervision objectives for accomplishing medical image analysis tasks.
翻訳日:2023-02-08 12:23:44 公開日:2023-02-07
# OTRE: 最適なトランスポートガイドによる画像から画像への翻訳が正規化を促進

OTRE: Where Optimal Transport Guided Unpaired Image-to-Image Translation Meets Regularization by Enhancing ( http://arxiv.org/abs/2302.03003v2 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Oana M. Dumitrascu, Jacob Jacob, Mohammad Farazi, Zhangsihao Yang, Keshav Nandakumar, Yalin Wang(参考訳) 瞳孔拡張を必要とせず,術者,全身的不完全性,患者関連疾患などにより品質が低下する可能性があるため,非扁桃体網膜色眼底撮影(cfp)が広く利用可能である。 正確な診断と自動解析のために最適な網膜画像品質が義務付けられている。 そこで我々は,低品質の網膜CFPを高品質にマッピングするための画像と画像の非ペア変換方式を提案するために,OT(Optimal Transport)理論を利用した。 さらに, 臨床における画像強調パイプラインの柔軟性, ロバスト性, 適用性を向上させるため, ot誘導画像対画像翻訳ネットワークで学習した先行処理をプラグインすることで, 最先端のモデルベース画像再構成法を一般化した。 我々はそれを拡張(RE)により正規化した。 糖尿病性網膜症格付け,血管分画,糖尿病性病変分画などのダウンストリームタスクにおける改善後の品質と性能を評価することで,3つの網膜画像データセットで統合フレームワークotreを検証した。 実験の結果,提案手法は,最先端の競争相手や最先端の監視手法よりも優れていることが示された。

Non-mydriatic retinal color fundus photography (CFP) is widely available due to the advantage of not requiring pupillary dilation, however, is prone to poor quality due to operators, systemic imperfections, or patient-related causes. Optimal retinal image quality is mandated for accurate medical diagnoses and automated analyses. Herein, we leveraged the Optimal Transport (OT) theory to propose an unpaired image-to-image translation scheme for mapping low-quality retinal CFPs to high-quality counterparts. Furthermore, to improve the flexibility, robustness, and applicability of our image enhancement pipeline in the clinical practice, we generalized a state-of-the-art model-based image reconstruction method, regularization by denoising, by plugging in priors learned by our OT-guided image-to-image translation network. We named it as regularization by enhancing (RE). We validated the integrated framework, OTRE, on three publicly available retinal image datasets by assessing the quality after enhancement and their performance on various downstream tasks, including diabetic retinopathy grading, vessel segmentation, and diabetic lesion segmentation. The experimental results demonstrated the superiority of our proposed framework over some state-of-the-art unsupervised competitors and a state-of-the-art supervised method.
翻訳日:2023-02-08 12:17:32 公開日:2023-02-07
# PatchDCT: 高品質なインスタンスセグメンテーションのためのパッチリファインメント

PatchDCT: Patch Refinement for High Quality Instance Segmentation ( http://arxiv.org/abs/2302.02693v2 )

ライセンス: Link先を確認
Qinrou Wen, Jirui Yang, Xue Yang, Kewei Liang(参考訳) 高品質なインスタンスセグメンテーションはコンピュータビジョンにおいてますます重要になっている。 改良がなければ、DCT-マスクは圧縮ベクトルによって直接高解像度マスクを生成する。 圧縮ベクトルにより得られたマスクをさらに洗練するために, 圧縮ベクトルを用いた多段微細化フレームワークを初めて提案する。 しかし、DCTベクターのいくつかの要素の変化がマスク全体の予測に影響を及ぼすため、バニラの組み合わせは大きな利益をもたらすことはない。 そこで本研究では,DCTベクタからデコードされたマスクを複数のパッチに分割し,設計した分類器と回帰器によって各パッチを洗練する,PatchDCTというシンプルな手法を提案する。 特に、分類器は、すべてのパッチから混合パッチを区別し、以前に予測されたフォアグラウンドとバックグラウンドパッチを修正するために使用される。 対照的に、この回帰器は混合パッチのDCTベクトル予測に使われ、境界位置のセグメンテーション品質をさらに改善する。 COCOを用いた実験では,COCO,LVIS,CityscapesのMask-RCNNに対して,それぞれ2.0%,3.2%,4.5%AP,3.4%,5.3%,7.0%APの改善が得られた。 また、DCT-Maskを0.7%、.1%、.3%、.9%、.7%、.2%、COCO、LVIS、Cityscapesで上回る。 さらに、PatchDCTの性能は他の最先端の手法と競合する。

High-quality instance segmentation has shown emerging importance in computer vision. Without any refinement, DCT-Mask directly generates high-resolution masks by compressed vectors. To further refine masks obtained by compressed vectors, we propose for the first time a compressed vector based multi-stage refinement framework. However, the vanilla combination does not bring significant gains, because changes in some elements of the DCT vector will affect the prediction of the entire mask. Thus, we propose a simple and novel method named PatchDCT, which separates the mask decoded from a DCT vector into several patches and refines each patch by the designed classifier and regressor. Specifically, the classifier is used to distinguish mixed patches from all patches, and to correct previously mispredicted foreground and background patches. In contrast, the regressor is used for DCT vector prediction of mixed patches, further refining the segmentation quality at boundary locations. Experiments on COCO show that our method achieves 2.0%, 3.2%, 4.5% AP and 3.4%, 5.3%, 7.0% Boundary AP improvements over Mask-RCNN on COCO, LVIS, and Cityscapes, respectively. It also surpasses DCT-Mask by 0.7%, 1.1%, 1.3% AP and 0.9%, 1.7%, 4.2% Boundary AP on COCO, LVIS and Cityscapes. Besides, the performance of PatchDCT is also competitive with other state-of-the-art methods.
翻訳日:2023-02-08 12:17:08 公開日:2023-02-07
# スケーラブルで効率的な機械学習分類器の複製法

A Scalable and Efficient Iterative Method for Copying Machine Learning Classifiers ( http://arxiv.org/abs/2302.02667v2 )

ライセンス: Link先を確認
Nahuel Statuto, Irene Unceta, Jordi Nin and Oriol Pujol(参考訳) 複製による差分レプリケーションは、強化された特徴と属性を持つ別のモデルを使用して、機械学習モデルの決定行動を複製するプロセスを指す。 このプロセスは、外部制約が産業予測システムの性能を制限する場合に関係する。 このような状況下では、コピーは、新しい要求に適応しながら、元の予測能力を維持できる。 これまでの研究はコピーのためのシングルパス実装にフォーカスしてきた。 本稿では,複製の訓練や維持に要する計算資源の量を大幅に削減し,本番環境での機械学習モデルを使用する企業のメンテナンスコストを低減させる,新たな逐次的手法を提案する。 シーケンシャルアプローチの有効性は、合成データと実世界のデータセットを用いた実験を通じて実証され、正確性を維持しつつ、時間とリソースの大幅な削減を示す。

Differential replication through copying refers to the process of replicating the decision behavior of a machine learning model using another model that possesses enhanced features and attributes. This process is relevant when external constraints limit the performance of an industrial predictive system. Under such circumstances, copying enables the retention of original prediction capabilities while adapting to new demands. Previous research has focused on the single-pass implementation for copying. This paper introduces a novel sequential approach that significantly reduces the amount of computational resources needed to train or maintain a copy, leading to reduced maintenance costs for companies using machine learning models in production. The effectiveness of the sequential approach is demonstrated through experiments with synthetic and real-world datasets, showing significant reductions in time and resources, while maintaining or improving accuracy.
翻訳日:2023-02-08 12:16:39 公開日:2023-02-07
# 新しい「スパースランド」で学んだ10の教訓:スパースニューラルネットワーク研究者のための短いハンドブック

Ten Lessons We Have Learned in the New "Sparseland": A Short Handbook for Sparse Neural Network Researchers ( http://arxiv.org/abs/2302.02596v2 )

ライセンス: Link先を確認
Shiwei Liu and Zhangyang Wang(参考訳) 本稿では,新しいアルゴリズムや新しいハードウェアの提案はしない。 その代わり、SNN(Sparse Neural Network)研究コミュニティがますます繁栄する中で、"共通善(common good)"を提供することを目指している。 私たちはSNNでよく見られる混乱を要約しようと試みており、論文レビューや論評、講演など様々なシナリオで遭遇する可能性がある。 SNNリサーチの焦点は、従来型プルーニングから、トレーニング前、中、および後、より多様性があり、より深遠な形へとシフトしていることから、そうすることは有意義でタイムリーであると感じています。 彼らのスコープ、仮定、アプローチの間の複雑な関係は、非専門家やSNNの専門家にとって誤解を招く。 これに反応して、snsのsnsの10つのq\&aを要約し、例えば、sparse vs. sparse、非構造化sparse vs. structured sparse、pruning vs. sparse training、sparse-to-sparse training vs. sparse-to-sparse training、static sparsity vs. dynamic sparsity、pretraining/during-training vs. post-training sparsityなどについてまとめた。 我々は,これらの混乱を可能な限り明確化するために,適切かつ汎用的な回答を提供することに努める。 私たちの要約は、このエキサイティングなコミュニティに入り込みたい人々のために有用な一般的な知識を提供し、また、sn研究者が正しい文脈で自分の仕事を説明するための"簡単な考え方"を提供することを期待しています。 少なくとも(おそらくこの記事の最も重要でないターゲット機能として)、SNNの分野で論文を書いたり、あるいは論評を書いたりする場合、私たちの回答が役に立つことを願っています!

This article does not propose any novel algorithm or new hardware for sparsity. Instead, it aims to serve the "common good" for the increasingly prosperous Sparse Neural Network (SNN) research community. We attempt to summarize some most common confusions in SNNs, that one may come across in various scenarios such as paper review/rebuttal and talks - many drawn from the authors' own bittersweet experiences! We feel that doing so is meaningful and timely, since the focus of SNN research is notably shifting from traditional pruning to more diverse and profound forms of sparsity before, during, and after training. The intricate relationships between their scopes, assumptions, and approaches lead to misunderstandings, for non-experts or even experts in SNNs. In response, we summarize ten Q\&As of SNNs from many key aspects, including dense vs. sparse, unstructured sparse vs. structured sparse, pruning vs. sparse training, dense-to-sparse training vs. sparse-to-sparse training, static sparsity vs. dynamic sparsity, before-training/during-training vs. post-training sparsity, and many more. We strive to provide proper and generically applicable answers to clarify those confusions to the best extent possible. We hope our summary provides useful general knowledge for people who want to enter and engage with this exciting community; and also provides some "mind of ease" convenience for SNN researchers to explain their work in the right contexts. At the very least (and perhaps as this article's most insignificant target functionality), if you are writing/planning to write a paper or rebuttal in the field of SNNs, we hope some of our answers could help you!
翻訳日:2023-02-08 12:16:26 公開日:2023-02-07
# less is more: n-gram frequency descendによる単語レベルのテキスト会話攻撃の理解

Less is More: Understanding Word-level Textual Adversarial Attack via n-gram Frequency Descend ( http://arxiv.org/abs/2302.02568v2 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Zhirui Zhang, Qi Wang, Haifeng Liu, Ke Tang(参考訳) 単語レベルのテキスト対逆攻撃は、自然言語処理モデルを騙すことで顕著なパフォーマンスを達成した。 しかし、これらの攻撃がなぜ効果的かという根本的な疑問や、敵例(AE)の本質的な性質はいまだよく理解されていない。 この研究は、$n$-gramの周波数でテキスト攻撃を解釈しようとする。 具体的には、既存の単語レベルの攻撃は、n$-gram周波数降下 (n$-fd) の例を生成する傾向が強いことが明らかになった。 直感的にこの発見は、n$-fdの例でモデルをトレーニングすることで、モデルの堅牢性を改善する自然な方法を示している。 この概念を検証するために,n$-gram の周波数情報のみに依存するモデル非依存な ae 生成手法を考案し,最近提案された対向学習用凸包フレームワークにさらに統合する。 驚くべきことに、結果として得られる手法はモデルロバストネスの点で元の勾配法と非常によく似ている。 これらの知見は,単語レベルのテキストの敵対的攻撃を解釈するための人間の理解可能な視点と,モデルロバスト性を改善するための新たな方向性を提供する。

Word-level textual adversarial attacks have achieved striking performance in fooling natural language processing models. However, the fundamental questions of why these attacks are effective, and the intrinsic properties of the adversarial examples (AEs), are still not well understood. This work attempts to interpret textual attacks through the lens of $n$-gram frequency. Specifically, it is revealed that existing word-level attacks exhibit a strong tendency toward generation of examples with $n$-gram frequency descend ($n$-FD). Intuitively, this finding suggests a natural way to improve model robustness by training the model on the $n$-FD examples. To verify this idea, we devise a model-agnostic and gradient-free AE generation approach that relies solely on the $n$-gram frequency information, and further integrate it into the recently proposed convex hull framework for adversarial training. Surprisingly, the resultant method performs quite similarly to the original gradient-based method in terms of model robustness. These findings provide a human-understandable perspective for interpreting word-level textual adversarial attacks, and a new direction to improve model robustness.
翻訳日:2023-02-08 12:15:50 公開日:2023-02-07
# CHiLS:階層ラベル集合を用いたゼロショット画像分類

CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets ( http://arxiv.org/abs/2302.02551v2 )

ライセンス: Link先を確認
Zachary Novack, Saurabh Garg, Julian McAuley, Zachary C. Lipton(参考訳) オープン語彙モデル(例えばCLIP)は、ゼロショット分類において、各クラス(自然言語)の名前に基づいて埋め込みを生成する能力を通じて、強い性能を示している。 事前の作業は、プロンプトエンジニアリングや(微調整による)少量のラベル付きダウンストリームデータの導入による、これらのモデルの精度の向上に重点を置いている。 しかし、クラス名自体の豊かさの改善にはほとんど焦点が当てられていないため、クラスラベルが粗い定義で非形式的である場合に問題が発生する可能性がある。 暗黙的な意味階層を持つデータセット用に特別に設計されたゼロショット分類の代替戦略である階層ラベル集合(chils)を用いた分類を提案する。 CHiLSは3つのステップで進みます。 i) 各クラスに対して、既存のラベル階層またはGPT-3をクエリすることで、一連のサブクラスを生成する。 (ii)これらのサブクラスが関心のラベルであるかのように、標準のゼロショットCLIP手順を実行する。 (iii)予測サブクラスを親にマップして最終的な予測を生成する。 基盤となる階層構造を持つ多数のデータセットにわたって、chilsは階層情報の有無に関わらず、状況において精度が向上する。 CHiLSは既存のCLIPパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。 コードは、https://github.com/acmi-lab/CHILS.comで入手できる。

Open vocabulary models (e.g. CLIP) have shown strong performance on zero-shot classification through their ability generate embeddings for each class based on their (natural language) names. Prior work has focused on improving the accuracy of these models through prompt engineering or by incorporating a small amount of labeled downstream data (via finetuning). However, there has been little focus on improving the richness of the class names themselves, which can pose issues when class labels are coarsely-defined and uninformative. We propose Classification with Hierarchical Label Sets (or CHiLS), an alternative strategy for zero-shot classification specifically designed for datasets with implicit semantic hierarchies. CHiLS proceeds in three steps: (i) for each class, produce a set of subclasses, using either existing label hierarchies or by querying GPT-3; (ii) perform the standard zero-shot CLIP procedure as though these subclasses were the labels of interest; (iii) map the predicted subclass back to its parent to produce the final prediction. Across numerous datasets with underlying hierarchical structure, CHiLS leads to improved accuracy in situations both with and without ground-truth hierarchical information. CHiLS is simple to implement within existing CLIP pipelines and requires no additional training cost. Code is available at: https://github.com/acmi-lab/CHILS.
翻訳日:2023-02-08 12:15:32 公開日:2023-02-07
# ファウショット生成領域適応のためのドメイン再変調

Domain Re-Modulation for Few-Shot Generative Domain Adaptation ( http://arxiv.org/abs/2302.02550v2 )

ライセンス: Link先を確認
Yi Wu, Ziqiang Li, Chaoyue Wang, Heliang Zheng, Shanshan Zhao, Bin Li, Dacheng Tao(参考訳) 本研究では,学習済みジェネレータを1つ以上の参照画像を用いて1つのドメインから新しいドメインに転送する,数ショット生成ドメイン適応(GDA)の課題について検討する。 目標領域整合性、大ダイバーシティ、クロスドメイン整合性に着目した以前の研究に基づいて、GDAに望ましい2つの特性、メモリとドメインアソシエーションを結論付ける。 これらの特性を満たすために,我々は新しいメソッドドメイン再変調 (dorm) を提案する。 具体的には、DoRMはソースジェネレータを凍結し、マッピングとアフィンモジュール(M&Aモジュール)を追加してターゲットドメインの属性をキャプチャし、スタイル空間において線形に結合可能なドメインシフトをもたらす。 これにより、単一のジェネレータに複数のM&Aモジュールを統合することで、高忠実なマルチドメインとハイブリッドドメインの生成が可能になる。 DoRMは軽量で実装が容易です。 広汎な実験は、1ショットと10ショットのGDAにおいて、量的および定性的にDoRMの優れた性能を示した。 さらに、単一モデルを使用することで、初めて、マルチドメインとハイブリッドドメインの生成を最小限のストレージコストで達成できる。 コードはhttps://github.com/wuyi2020/DoRM.comから入手できる。

In this study, we investigate the task of few-shot Generative Domain Adaptation (GDA), which involves transferring a pre-trained generator from one domain to a new domain using one or a few reference images. Building upon previous research that has focused on Target-domain Consistency, Large Diversity, and Cross-domain Consistency, we conclude two additional desired properties for GDA: Memory and Domain Association. To meet these properties, we proposed a novel method Domain Re-Modulation (DoRM). Specifically, DoRM freezes the source generator and employs additional mapping and affine modules (M&A module) to capture the attributes of the target domain, resulting in a linearly combinable domain shift in style space. This allows for high-fidelity multi-domain and hybrid-domain generation by integrating multiple M&A modules in a single generator. DoRM is lightweight and easy to implement. Extensive experiments demonstrated the superior performance of DoRM on both one-shot and 10-shot GDA, both quantitatively and qualitatively. Additionally, for the first time, multi-domain and hybrid-domain generation can be achieved with a minimal storage cost by using a single model. The code will be available at https://github.com/wuyi2020/DoRM.
翻訳日:2023-02-08 12:15:13 公開日:2023-02-07
# 未熟児網膜症の深部学習分類を改善するための新しいretcam画像前処理法

Novel Fundus Image Preprocessing for Retcam Images to Improve Deep Learning Classification of Retinopathy of Prematurity ( http://arxiv.org/abs/2302.02524v2 )

ライセンス: Link先を確認
Sajid Rahim, Kourosh Sabri, Anna Ells, Alan Wassyng, Mark Lawford, Linyang Chu, Wenbo He(参考訳) 未熟児網膜症(英: retinopathy of prematurity, rop)は、未熟児に影響を及ぼす網膜の損傷による眼疾患である。 ROPのスクリーニングは早期発見と治療に不可欠である。 これは精力的で手作業による作業であり、臨床上重要な疾患の診断成功率を低下させる主観的な眼科検査を訓練された医師が行う必要がある。 自動診断法は、深層学習を用いて眼科医が診断精度を向上させるのに役立つ。 いくつかの研究グループが様々なアプローチを強調している。 本稿では,事前学習フレームワークを用いた新しい基礎前処理手法を用いてハイブリッドモデルを構築し,診断精度を高めることを提案する。 従来の画像処理と比較して,これらの手法がPlus病の分類,ROPの段階,ゾーンの分類において高い精度に寄与することを示す。 我々は、プラス病の97.65%、ステージの89.44%、トレーニングデータセットに制限のあるゾーンの90.24%の精度を達成する。

Retinopathy of Prematurity (ROP) is a potentially blinding eye disorder because of damage to the eye's retina which can affect babies born prematurely. Screening of ROP is essential for early detection and treatment. This is a laborious and manual process which requires trained physician performing dilated ophthalmological examination which can be subjective resulting in lower diagnosis success for clinically significant disease. Automated diagnostic methods can assist ophthalmologists increase diagnosis accuracy using deep learning. Several research groups have highlighted various approaches. This paper proposes the use of new novel fundus preprocessing methods using pretrained transfer learning frameworks to create hybrid models to give higher diagnosis accuracy. The evaluations show that these novel methods in comparison to traditional imaging processing contribute to higher accuracy in classifying Plus disease, Stages of ROP and Zones. We achieve accuracy of 97.65% for Plus disease, 89.44% for Stage, 90.24% for Zones with limited training dataset.
翻訳日:2023-02-08 12:14:53 公開日:2023-02-07
# Dual-Cycle Diffusionによる意味的画像編集のための事前バイアスの除去

Eliminating Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion ( http://arxiv.org/abs/2302.02394v2 )

ライセンス: Link先を確認
Zuopeng Yang, Tianshu Chu, Xin Lin, Erdun Gao, Daqing Liu, Jie Yang, Chaoyue Wang(参考訳) テキストから画像への拡散モデルの成功はセマンティック画像編集にも革命をもたらし、クエリ/ターゲットテキストに基づく画像操作を可能にした。 これらの進歩にもかかわらず、画像編集中に事前訓練されたモデルに事前バイアスを導入する可能性、例えば不適切な領域に予期せぬ修正を加えることが大きな課題である。 そこで本稿では,画像編集の指導として未バイアスマスクを生成し,先行バイアス問題に対処する2サイクル拡散モデルを提案する。 提案手法では,前方経路と逆経路の両方からなるバイアス除去サイクルを取り入れ,それぞれに構造的一貫性サイクルを特徴とし,編集過程における画像コンテンツの保存を保証する。 フォワードパスは事前学習されたモデルを使用して編集された画像を生成し、反転されたパスは結果をソース画像に戻す。 処理されたソース画像と編集された画像の差を比較して、両者が同じ分布に適合することを保証する。 提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。 コードはhttps://github.com/JohnDreamer/DualCycleDiffsion.comから入手できる。

The recent success of text-to-image generation diffusion models has also revolutionized semantic image editing, enabling the manipulation of images based on query/target texts. Despite these advancements, a significant challenge lies in the potential introduction of prior bias in pre-trained models during image editing, e.g., making unexpected modifications to inappropriate regions. To this point, we present a novel Dual-Cycle Diffusion model that addresses the issue of prior bias by generating an unbiased mask as the guidance of image editing. The proposed model incorporates a Bias Elimination Cycle that consists of both a forward path and an inverted path, each featuring a Structural Consistency Cycle to ensure the preservation of image content during the editing process. The forward path utilizes the pre-trained model to produce the edited image, while the inverted path converts the result back to the source image. The unbiased mask is generated by comparing differences between the processed source image and the edited image to ensure that both conform to the same distribution. Our experiments demonstrate the effectiveness of the proposed method, as it significantly improves the D-CLIP score from 0.272 to 0.283. The code will be available at https://github.com/JohnDreamer/DualCycleDiffsion.
翻訳日:2023-02-08 12:14:36 公開日:2023-02-07
# 深部強化学習を用いたモデルフリー量子ゲート設計と校正

Model-free Quantum Gate Design and Calibration using Deep Reinforcement Learning ( http://arxiv.org/abs/2302.02371v2 )

ライセンス: Link先を確認
Omar Shindi, Qi Yu, Parth Girdhar, and Daoyi Dong(参考訳) 量子ゲート設計は量子計算や量子通信といった様々な量子技術にとって重要である。 量子ゲート設計のための多くの制御ポリシーが提案され、量子システムの動的モデルが提案されている。 しかし、量子システムはしばしばノイズに敏感であり、その正確なモデリングを得ることは、多くの実用的な応用において困難である。 したがって、量子システムモデルに基づく制御ポリシーは、量子ゲート設計には実用的でないかもしれない。 また、量子測定では量子状態が崩壊し、制御プロセス中に測定によって情報を得るのが困難になる。 本稿では,モデルレス量子制御のための深層強化学習を用いた新しいトレーニングフレームワークを提案する。 提案するフレームワークは,制御プロセスの終了時の測定のみに依存し,学習プロセス中に量子システムにアクセスせずに最適な制御ポリシを見つける機能を提供する。 本手法の有効性は,オフポリシー強化学習アルゴリズムを用いたモデルフリー量子ゲート設計と量子ゲート校正に対して数値的に実証された。

High-fidelity quantum gate design is important for various quantum technologies, such as quantum computation and quantum communication. Numerous control policies for quantum gate design have been proposed given a dynamical model of the quantum system of interest. However, a quantum system is often highly sensitive to noise, and obtaining its accurate modeling can be difficult for many practical applications. Thus, the control policy based on a quantum system model may be unpractical for quantum gate design. Also, quantum measurements collapse quantum states, which makes it challenging to obtain information through measurements during the control process. In this paper, we propose a novel training framework using deep reinforcement learning for model-free quantum control. The proposed framework relies only on the measurement at the end of the control process and offers the ability to find the optimal control policy without access to quantum systems during the learning process. The effectiveness of the proposed technique is numerically demonstrated for model-free quantum gate design and quantum gate calibration using off-policy reinforcement learning algorithms.
翻訳日:2023-02-08 12:14:15 公開日:2023-02-07