このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221002となっている論文です。

PDF登録状況(公開日: 20221002)

TitleAuthorsAbstract論文公表日・翻訳日
# 4h炭化ケイ素中の窒素空孔中心の共鳴励起と単一放出子によるコヒーレント操作

Coherent Manipulation with Resonant Excitation and Single Emitter Creation of Nitrogen Vacancy Centers in 4H Silicon Carbide ( http://arxiv.org/abs/2002.02613v2 )

ライセンス: Link先を確認
Zhao Mu, S.A.Zargaleh, H. J. von Bardeleben, Johannes E. Fr\"och, Hongbing Cai, Xinge Yang, Jianqun Yang, Xingji Li, Igor Aharonovich, Weibo Gao(参考訳) ケイ素炭化ケイ素(SiC)は、光学的に対応可能なスピン量子ビットとウェハサイズのサンプルをホストできるため、スケーラブルな量子技術の実現において重要な役割を担っている。 ここでは,共振励起による光磁気共鳴(ODMR)を実証し,NV中心の基底状態エネルギーレベルを4H-SiCで明らかにした。 SiCにおけるNV中心のコヒーレントな操作は、RabiとRamseyの振動によって達成されている。 最後に, SiCをイオン注入した単一窒素空孔(NV)中心の生成と特性について述べる。 量子情報処理の候補候補として,SiCにおけるNV中心の役割を強調した。

Silicon carbide (SiC) has become a key player in realization of scalable quantum technologies due to its ability to host optically addressable spin qubits and wafer-size samples. Here, we have demonstrated optically detected magnetic resonance (ODMR) with resonant excitation, and clearly identified the ground state energy levels of the NV centers in 4H-SiC. Coherent manipulation of NV centers in SiC has been achieved with Rabi and Ramsey oscillations. Finally, we show the successful generation and characterization of single nitrogen vacancy (NV) center in SiC employing ion implantation. Our results are highlighting the key role of NV centers in SiC as a potential candidate for quantum information processing.
翻訳日:2023-06-04 07:36:49 公開日:2022-10-02
# 進化的ブラックボックス文脈におけるサロゲートモデルの景観解析

Landscape Analysis for Surrogate Models in the Evolutionary Black-Box Context ( http://arxiv.org/abs/2203.11315v2 )

ライセンス: Link先を確認
Zbyn\v{e}k Pitra, Jan Koza, Ji\v{r}\'i Tumpach, Martin Hole\v{n}a(参考訳) サーロゲートモデリングは、目的関数の高価な評価を伴うブラックボックス最適化タスクにおいて、貴重な手法となっている。 本稿では,代理モデルの予測精度とブラックボックス機能景観の特徴との関係について検討する。 また,異なる変換の文脈における景観分析の特徴と入力データの選択方法についても検討した。 本研究では,Covariance Matrix Adaptation Evolution Strategyのサロゲート支援版を用いて生成した大規模データのランドスケープ解析を行い,比較連続オプティマイザ型ベンチマーク関数テストベッドのノイズレス部分について検討した。

Surrogate modeling has become a valuable technique for black-box optimization tasks with expensive evaluation of the objective function. In this paper, we investigate the relationship between the predictive accuracy of surrogate models and features of the black-box function landscape. We also study properties of features for landscape analysis in the context of different transformations and ways of selecting the input data. We perform the landscape analysis of a large set of data generated using runs of a surrogate-assisted version of the Covariance Matrix Adaptation Evolution Strategy on the noiseless part of the Comparing Continuous Optimisers benchmark function testbed.
翻訳日:2023-02-26 02:33:02 公開日:2022-10-02
# 分子ボース-アインシュタイン凝縮体の非断熱解離 : 化学反応の競合

Nonadiabatic dissociation of molecular Bose-Einstein condensates: competition between chemical reactions ( http://arxiv.org/abs/2202.08468v3 )

ライセンス: Link先を確認
Rajesh K. Malla(参考訳) 複数の分子のボース・アインシュタイン凝縮の解離を記述する一般的なモデルを非断熱的状態下で解くための枠組みを提供する。 個々の化学反応の競合は経路干渉や対称性といった重要な成分に非自明な依存をもたらし、原子集団の最終的な分布に影響を与える。 4つの原子モードを含む例モデルの解析的な解を見つける。 c$がチャージ共役、$p$がパリティ、$t$が時間反転対称性であるcpt$対称性を満たすとき、この解は、システムパラメータに指数関数的に敏感な原子モード間の人口不均衡を予測する。 しかし、弱い対称性は各原子モードの個体数を変え、個体数不均衡を逆転させる。 我々の解はまた、原子モード間の強い量子相関を示し、マルチモード圧縮状態における原子の自発的な生成をもたらす。 さらに, この枠組みでは, 時間依存非エルミート量子力学が自然に現れ, フォトニック系で実験的に実現できる。

We provide a framework to solve generic models describing the dissociation of multiple molecular Bose-Einstein condensates in a nonadiabatic regime. The competition between individual chemical reactions can lead to non-trivial dependence on critical components such as path interference and symmetries, thus, affecting the final distribution of atomic population. We find an analytical solution for an illustrative example model involving four atomic modes. When the system parameters satisfy $CPT$ symmetry, where $C$ is charge conjugation, $P$ is parity, and $T$ is time-reversal symmetry, our solution predicts a population imbalance between atomic modes that is exponentially sensitive to system parameters. However, a weakly broken symmetry alters the population in each atomic mode and can reverse the population imbalance. Our solution also demonstrates a strong quantum correlation between atomic modes that leads to the spontaneous production of atoms in a multi-mode squeezed state. Moreover, in our framework, a time-dependent non-Hermitian quantum mechanics naturally manifests which can alternatively be realized experimentally in photonic systems.
翻訳日:2023-02-25 12:56:40 公開日:2022-10-02
# $b$-jetの電荷同定のための量子機械学習

Quantum Machine Learning for $b$-jet charge identification ( http://arxiv.org/abs/2202.13943v2 )

ライセンス: Link先を確認
Alessio Gianelle (1), Patrick Koppenburg (2), Donatella Lucchesi (1 and 3), Davide Nicotra (3 and 4), Eduardo Rodrigues (5), Lorenzo Sestini (1), Jacco de Vries (4), Davide Zuliani (1 and 3 and 6) ((1) INFN Sezione di Padova, Padova, Italy, (2) Nikhef National Institute for Subatomic Physics, Amsterdam, Netherlands, (3) Universit\`a degli Studi di Padova, Padova, Italy, (4) Universiteit Maastricht, Maastricht, Netherlands, (5) University of Liverpool, Liverpool, United Kingdom, (6) European Organization for Nuclear Research (CERN), Geneva, Switzerland)(参考訳) 機械学習アルゴリズムはハドロンジェットの分類問題において重要な役割を果たしてきた。 大型ハドロン衝突型加速器データに適用された多種多様なモデルは、まだ改善の余地があることを示した。 この文脈では、量子機械学習は、新しいほとんど探索されていない方法論であり、量子計算の本質的な性質を用いて、ジェット分類性能を改善するために粒子相関を利用することができる。 本稿では、lhcb実験のシミュレーションデータに適用された変分量子分類器に基づいて、ジェットが生成時点で b$ または $\bar{b}$ quark によって形成されたハドロンを含むかどうかを識別する、全く新しいアプローチを提案する。 LHCbシミュレーションを用いて量子モデルを訓練・評価する。 ジェット識別性能をディープニューラルネットワークモデルと比較し、どの手法がより良い性能を与えるかを評価する。

Machine Learning algorithms have played an important role in hadronic jet classification problems. The large variety of models applied to Large Hadron Collider data has demonstrated that there is still room for improvement. In this context Quantum Machine Learning is a new and almost unexplored methodology, where the intrinsic properties of quantum computation could be used to exploit particles correlations for improving the jet classification performance. In this paper, we present a brand new approach to identify if a jet contains a hadron formed by a $b$ or $\bar{b}$ quark at the moment of production, based on a Variational Quantum Classifier applied to simulated data of the LHCb experiment. Quantum models are trained and evaluated using LHCb simulation. The jet identification performance is compared with a Deep Neural Network model to assess which method gives the better performance.
翻訳日:2023-02-23 17:50:30 公開日:2022-10-02
# 信頼できる配列同定を可能にする脳誘発神経サイレンシング機構

Brain inspired neuronal silencing mechanism to enable reliable sequence identification ( http://arxiv.org/abs/2203.13028v2 )

ライセンス: Link先を確認
Shiri Hodassman, Yuval Meir, Karin Kisos, Itamar Ben-Noam, Yael Tugendhaft, Amir Goldental, Roni Vardi and Ido Kanter(参考訳) リアルタイムシーケンス識別は、時間的事象の認識から検証符号の識別まで、ニューラルネットワーク(anns)のコアユースケースである。 既存の手法では、トレーニングの困難に苦しむリカレントニューラルネットワークを適用するが、フィードバックループなしでこの関数を実行することは依然として課題である。 本稿では,入力対象が所定の順序とタイミングを有する高精度フィードフォワードシーケンス識別ネットワーク(id-nets)のための実験的なニューロン長期可塑性機構を提案する。 このメカニズムは、ニューロンが最近のスパイク活動の後、一時的に停止する。 したがって、遷移オブジェクトは異なる動的に生成されたフィードフォワードサブネットワークに作用する。 ID-netは10個の手書き桁列を確実に識別し、画像シーケンスに基づいて訓練された連続活性化ノードを持つ深部畳み込みANNに一般化される。 直観的には、その分類性能は、限られた数のトレーニング例であっても、シーケンスでは高いが、個々のオブジェクトでは低い。 ID-netはライター依存の認証にも実装されており、暗号化認証のための暗号化ツールとして提案されている。 提示されたメカニズムは、高度な ann アルゴリズムの新しい地平線を開く。

Real-time sequence identification is a core use-case of artificial neural networks (ANNs), ranging from recognizing temporal events to identifying verification codes. Existing methods apply recurrent neural networks, which suffer from training difficulties; however, performing this function without feedback loops remains a challenge. Here, we present an experimental neuronal long-term plasticity mechanism for high-precision feedforward sequence identification networks (ID-nets) without feedback loops, wherein input objects have a given order and timing. This mechanism temporarily silences neurons following their recent spiking activity. Therefore, transitory objects act on different dynamically created feedforward sub-networks. ID-nets are demonstrated to reliably identify 10 handwritten digit sequences, and are generalized to deep convolutional ANNs with continuous activation nodes trained on image sequences. Counterintuitively, their classification performance, even with a limited number of training examples, is high for sequences but low for individual objects. ID-nets are also implemented for writer-dependent recognition, and suggested as a cryptographic tool for encrypted authentication. The presented mechanism opens new horizons for advanced ANN algorithms.
翻訳日:2023-02-20 22:44:37 公開日:2022-10-02
# 格子ボソンの熱領域則

Thermal Area Law for Lattice Bosons ( http://arxiv.org/abs/2207.07760v2 )

ライセンス: Link先を確認
Marius Lemm and Oliver Siebert(参考訳) 物理系は、ギブス状態の2つの隣接領域間の相互情報がそれらの境界領域によって制御されている場合、熱領域の法則を満たすと言われる。 熱領域法則は量子スピン系のような局所的な相互作用を持つ系に対して導かれる。 しかし、格子ボーソンの場合、これらの議論は相互作用が非有界であるため崩壊する。 我々は,ボズ・ハバードモデルを含む任意の次元のボソニックハミルトンのクラスに対して,熱領域則を厳格に導出する。 有界相互作用を超える主なアイデアは、二重パイエルス・ボゴリューボフ推定による化学ポテンシャルを人工的に減少させた準自由参照状態を導入することである。

A physical system is said to satisfy a thermal area law if the mutual information between two adjacent regions in the Gibbs state is controlled by the area of their boundary. Thermal area laws have been derived for systems with bounded local interactions such as quantum spin systems. However, for lattice bosons these arguments break down because the interactions are unbounded. We rigorously derive a thermal area law for a class of bosonic Hamiltonians in any dimension which includes the paradigmatic Bose-Hubbard model. The main idea to go beyond bounded interactions is to introduce a quasi-free reference state with artificially decreased chemical potential by means of a double Peierls-Bogoliubov estimate.
翻訳日:2023-02-04 22:42:33 公開日:2022-10-02
# グラフェンの可解2次元スカラーポテンシャルの新しいクラス

A New Class of Solvable Two-dimensional Scalar Potentials for Graphene ( http://arxiv.org/abs/2209.12539v2 )

ライセンス: Link先を確認
M.V.Ioffe and D.N.Nishnianidze(参考訳) 本稿では,外部静電ポテンシャルを応用した2次元マスレスディラック方程式の解に対する体系的アプローチを提案する。 このアプローチは、SUSYのような新たな非対称な相互作用関係に基づいている。 様々な種類のSUSYパートナーの外部スカラーポテンシャルを構築することができる。 そのうちの1つが解けるほど単純であれば、そのパートナーも解けるが、両座標に非自明な依存があるかもしれない。 物理的には、このような問題はグラフェンやその他の外部ポテンシャルを持つ物質の記述と関係している。 非対称なSUSY交叉関係によって得られる可解性は、解析的に解ける2次元モデルのクラスを拡張することができる。

In the present paper, a systematic approach is presented for solution of two-dimensional massless Dirac equation with external electrostatic potential applied. This approach is based on the new - asymmetric - form of SUSY-like intertwining relations. It allows to build a wide variety of pairs of SUSY-partner external scalar potentials. If one of them is simple enough to be solvable, its partner is also solvable although it may have a non-trivial dependency on both coordinates. Physically, this kind of problems is related to the description of graphene and some other materials with external potential. Solvability obtained by means of asymmetric form of SUSY intertwining relations allows to extend the class of analytically solvable two-dimensional models.
翻訳日:2023-01-25 03:12:15 公開日:2022-10-02
# 正準変数の非共役とkoopman-von neumann理論

Deconjugation of canonical variables and the Koopman-von Neumann theory ( http://arxiv.org/abs/2210.00603v1 )

ライセンス: Link先を確認
Mustafa Amin and Mark A. Walton(参考訳) クープマン・フォン・ノイマン(英語版)(KvN)理論(英語版)は、運動量と位置、すなわち位置と運動量とが非共役でない理論である。 この観点から、KvN理論は量子力学から生じ、量子力学から古典的な運動方程式を抽出することを示した。 しかし、理論の正準構造を保つには、位置と運動量に ‘auxiliary'' 正準共役を導入する必要がある。 量子系と古典系の相互作用を研究するためにKvNの定式化を用いることで、補助変数が物理的役割を担わなければならないことを示す。 古典的行動を引き起こす一方で、KvN理論は古典的行動以上のものかもしれない。

The Koopman-von Neumann (KvN) theory is one where the dynamical momentum is not canonically conjugate to position, i.e., position and momentum are deconjugated. From this point of view, we show that the KvN theory arises from quantum mechanics, extracting classical equations of motion from quantum ones. However, preserving the canonical structure of the theory requires introducing ``auxiliary'' canonical conjugates to position and momentum. We show that using the KvN formulation to study the interaction between quantum and classical systems forces the auxiliary variables to take on a physical role. While giving rise to classical behaviour, the KvN theory might be more than classical.
翻訳日:2023-01-24 03:02:24 公開日:2022-10-02
# petzマップによるエンタングルメントウェッジの明示的再構成

Explicit reconstruction of the entanglement wedge via the Petz map ( http://arxiv.org/abs/2210.00602v1 )

ライセンス: Link先を確認
Eyoab Bahiru and Niloofar Vardian(参考訳) 我々は,petzリカバリチャネルを用いたads/cftにおける絡み合いウェッジ再構成について検討する。 境界上の球面領域の場合、petzマップがads-rindler hkllの再構成を再現していることを示す。 さらに、境界の一般部分領域に対して、モジュラーフローの特性を用いて[1, 2]で先に提案したように、絡み合うくぼみにある局所バルク場の同じ境界表現を得ることができる。

We revisit entanglement wedge reconstruction in AdS/CFT using the Petz recovery channel. In the case of a spherical region on the boundary, we show that the Petz map reproduces the AdS-Rindler HKLL reconstruction. Moreover, for a generic subregion of the boundary, we could obtain the same boundary representation of a local bulk field lies in the entanglement wedge as the one proposed earlier in [1, 2] using properties of the modular flow
翻訳日:2023-01-24 03:02:10 公開日:2022-10-02
# 光定在波を用いたスケーラブル原子量子プロセッサのためのロバスト位相制御ゲート

Robust phase-controlled gates for scalable atomic quantum processors using optical standing waves ( http://arxiv.org/abs/2210.00576v1 )

ライセンス: Link先を確認
Shannon Whitlock(参考訳) 光定常波で量子ビットを駆動することにより、スケーラブルな原子量子プロセッサのための堅牢な光制御量子ゲートを実現するための簡単なスキームが提示される。 定在波の反ノードに近接して局在した原子は、対応する進行波構成よりも局所的な光学的位相や原子運動に対する感度が低い可能性のある位相制御量子演算を実現することができる。 この方式は原子配列におけるロバストな最適制御技術や空間量子アドレスと互換性があり、制御レーザの集中と正確な位置決めを必要とせずに位相制御操作を実現する。 これは特にドップラー感度光周波数遷移を含む量子ゲートに有用であり、原子量子プロセッサをスケールアップするための完全な光学経路を提供する。

A simple scheme is presented for realizing robust optically controlled quantum gates for scalable atomic quantum processors by driving the qubits with optical standing waves. Atoms localized close to the antinodes of the standing wave can realize phase-controlled quantum operations that are potentially more than an order of magnitude less sensitive to the local optical phase and atomic motion than corresponding travelling wave configurations. The scheme is compatible with robust optimal control techniques and spatial qubit addressing in atomic arrays to realize phase controlled operations without the need for tight focusing and precise positioning of the control lasers. This will be particularly beneficial for quantum gates involving Doppler sensitive optical frequency transitions and provides an all optical route to scaling up atomic quantum processors.
翻訳日:2023-01-24 03:02:03 公開日:2022-10-02
# 導波路に結合した原子配列内の制御場のない複数の電磁誘導透過

Multiple electromagnetically induced transparency without a control field in an atomic array coupled to a waveguide ( http://arxiv.org/abs/2210.00547v1 )

ライセンス: Link先を確認
W. Z. Jia and Q. Y. Cai(参考訳) 原子配列を含む導波路量子電磁力学(wQED)系における多重電磁誘導透過(EIT)について検討する。 システムの効果的なハミルトニアンを分析することで、単一励起集合状態の観点から、適切に設計されたn$-原子配列を複数のeit型現象を発生できる駆動型(n+1$)レベルシステムにマッピングできることがわかった。 原子線wQED系の対応する散乱スペクトルは、単光子セクターと単光子限界を超えて議論される。 このタイプのEITスキームの最も重要な羽根は制御フィールドフリーであり、外部制御フィールドが利用できない場合、wQEDシステムでEITライクな現象を発生させる代替手段を提供する可能性がある。 本稿では,wQEDシステムにおける制御フィールドを使わずに,複数のEIT上での今後の実験について,優れたガイダンスを提供する。

We investigate multiple electromagnetically induced transparency (EIT) in a waveguide quantum electrodynamics (wQED) system containing an atom array. By analyzing the effective Hamiltonian of the system, we find that in terms of the single-excitation collective states, a properly designed $N$-atom array can be mapped into a driven ($N+1$)-level system that can produce multiple EIT-type phenomenon. The corresponding scattering spectra of the atom-array wQED system are discussed both in the single-photon sector and beyond the single-photon limit. The most significant feather of this type of EIT scheme is control-field-free, which may provide an alternative way to produce EIT-like phenomenon in wQED system when external control fields are not available. The results given in our paper may provide good guidance for future experiments on multiple EIT without a control field in wQED system.
翻訳日:2023-01-24 03:01:50 公開日:2022-10-02
# 二次結合光力学系におけるメカニカルスクイーズ

Mechanical Squeezing in Quadratically-coupled Optomechanical Systems ( http://arxiv.org/abs/2210.00510v1 )

ライセンス: Link先を確認
Priyankar Banerjee, Sampreet Kalita, and Amarendra K. Sarma(参考訳) 単調レーザーの振幅に周期的変調を導入することで、散逸光力学系における強い機械スクイーズの発生を実証する。 メカニカル発振器は光学モードに二次的に結合され、3dB標準量子限界を超える強いスクイーズに寄与する。 メカニカル発振器のボゴリューボフモードは、サイドバンド冷却による地上状態まで冷却される。 さらに,このサイドバンド強度の比率を最適化し,スクイージングの強化を図る。 また, 解析結果と解析値(断熱近似), 正確な数値解との比較を行った。 熱占有率10^4フォノンであっても、3dBを超えるメカニカルスキューズと強いオプトメカニカルエンタングルメントが観察された。

We demonstrate the generation of a strong mechanical squeezing in a dissipative optomechanical system by introducing a periodic modulation in the amplitude of a single-tone laser driving the system. The mechanical oscillator is quadratically coupled to the optical mode, which contributes to a strong squeezing exceeding the 3-dB standard quantum limit. The Bogoliubov mode of the mechanical oscillator also cools down to its ground state due to sideband cooling. We further optimize this ratio of sideband strengths to introduce enhanced squeezing. We also compare our results with the analytical (under adiabatic approximation) and the exact numerical solution. Even for a thermal occupancy of 10^4 phonons, mechanical squeezing beyond 3 dB and a strong optomechanical entanglement is observed.
翻訳日:2023-01-24 03:01:33 公開日:2022-10-02
# フィードバック型機械回路を用いた人工ホーキングブラックホール放射

Artificial Hawking black hole radiation using feedback-based mechanical circuits ( http://arxiv.org/abs/2210.00464v1 )

ライセンス: Link先を確認
Sayan Jana, Lea Sirota(参考訳) ブラックホールは、古典的な形式主義では、光でさえも、その近傍から逃げることができないため、宇宙に存在する最も魅力的な天体と考えられている。 しかし、ホーキングは、ホーキング放射と呼ばれる特定の条件下での相対論的粒子の脱出は依然として可能であると予測した。 ここでは、事象地平線を通るトンネルの類似の凝縮物質形式に基づいて、この高エネルギー現象を機械回路のネットワークで純粋に古典的に実現する。 基礎となるネットワーク結合は古典力学と互換性がなく、組み込みのアクティブフィードバック相互作用によって実装される。 ネットワークを介して機械的ウェーブレットを伝播させ,運動量特性とブラックホール内の質量損失を示すエネルギー伝達速度の両方において量子系に例外的な対応を達成し,トンネルを実証する。 我々のプラットフォームはテーブルトップで実験可能で再プログラム可能であり、到達不能な高エネルギー物理現象を実現するためのさらなる可能性を開く。

Black holes are considered among the most fascinating objects that exist in our universe, since in the classical formalism nothing, even no light, can escape from their vicinity. However, Hawking predicted that escape could still be possible for relativistic particles under certain conditions, known as Hawking radiation. Here we present a purely classical realization of this high energy phenomenon in a network of mechanical circuits, based on analogous condensed matter formalism of tunneling through the event horizon. The underlying network couplings turn out incompatible with classical dynamics and are implemented by embedded active feedback interactions. We demonstrate the tunneling by propagating mechanical wavepackets through the network, achieving an exceptional correspondence to the quantum system both in momentum properties, and in the energy transmission rate exhibiting mass loss within the black hole. Our platform is table-top experimental-ready and reprogrammable, which opens up further possibilities for realizing inaccessible high energy physical phenomena.
翻訳日:2023-01-24 03:01:03 公開日:2022-10-02
# 音響変調器を用いた量子技術用バイ周波数干渉計

An acousto-optic modulator based bi-frequency interferometer for quantum technology ( http://arxiv.org/abs/2210.00406v1 )

ライセンス: Link先を確認
Wenqi Li, Qiqi Deng, Xueshi Guo, Xiaoying Li(参考訳) 音響光学変調器(AOM)は量子光学技術で広く用いられているが、非理想回折効率は量子系における応用を制限する。 そこで本研究では,aomsをビームスプリッターとビームコンビナとして使用し,約99.5\pm0.2%$の2周波干渉計方式を実験的に実証した。 分割AOMに直接位相ディザリングを導入することにより、干渉計の任意の位相オフセットに対するチョップ位相ロックモードを実現する。 これらの特徴により、干渉計は量子技術の高効率光スイッチとして機能する。 さらに、干渉計は異なる周波数の量子状態のコヒーレント結合を達成でき、絡み合った量子状態の生成に有用であることを示す。

Acousto-optic modulators (AOMs) have been widely used in quantum optical technology, but the non-ideal diffraction efficiency limits its application in a quantum system. Here we experimentally demonstrate a bi-frequency interferometer scheme by using AOMs as the beam-splitter and the beam-combiner with a near prefect visibility of $(99.5\pm0.2)\%$. Chopped phase locking mode to arbitrary phase offset of the interferometer is achieved by directly introducing phase dithering to the splitting AOM. These features enable the interferometer functions as a high efficiency optical switch for quantum technology. Further discussion shows the interferometer can accomplish the coherent combination of quantum state with different optical frequency and is useful for the generation of entangled quantum state.
翻訳日:2023-01-24 03:00:44 公開日:2022-10-02
# XOR ゲームと XOR* ゲームを接続する

Connecting XOR and XOR* games ( http://arxiv.org/abs/2210.00397v1 )

ライセンス: Link先を確認
Lorenzo Catani, Ricardo Faleiro, Pierre-Emmanuel Emeriau, Shane Mansfield, Anna Pappa(参考訳) この研究では、XOR非局所ゲームとXOR*シーケンシャルゲームという、独占的なリソースを持つ2種類のゲームに焦点を当てる。 XORゲームは、非ローカルゲームにおいて広く研究されており、リソースシステムが制御された操作と最終的な測定の順序に従うゲームの種類の中で、XOR*ゲームが自然なものとして紹介されている。 XOR*のゲームには、$2\rightarrow 1$ quantum random access codes (QRAC) や[PRA 98,060302(2018)]でHenautらによって導入されたCHSH*ゲームがある。 プロセス理論のダイアグラム言語を用いて、ある仮定の下でこれらの2つのゲームのクラスは、それらの最適戦略とそれらの古典(ベル)と量子(トシレルソン)境界を結ぶ明示的な定理によって関連付けられることを証明する。 この定理の主な前提の一つは、XOR* ゲームにおける逐次変換は可逆であるということである。 しかし、これは最大量子-古典的優位性を評価するという観点からの定理の一般性には影響しない。 我々は、XOR/XOR*ゲーム対のいくつかの例と、XOR*ゲームにおける量子計算の利点を生かす可能性のあるリソースを詳細に議論することで結論付けた。

In this work we focus on two classes of games: XOR nonlocal games and XOR* sequential games with monopartite resources. XOR games have been widely studied in the literature of nonlocal games, and we introduce XOR* games as their natural counterpart within the class of games where a resource system is subjected to a sequence of controlled operations and a final measurement. Examples of XOR* games are $2\rightarrow 1$ quantum random access codes (QRAC) and the CHSH* game introduced by Henaut et al. in [PRA 98,060302(2018)]. We prove, using the diagrammatic language of process theories, that under certain assumptions these two classes of games can be related via an explicit theorem that connects their optimal strategies, and so their classical (Bell) and quantum (Tsirelson) bounds. One main assumption in the theorem is that the sequential transformations in the XOR* games are reversible. However, this does not affect the generality of the theorem in terms of assessing the maximum quantum-over-classical advantage, since we also show that the use of irreversible transformations cannot enhance such advantage. We conclude with several examples of pairs of XOR/XOR* games and by discussing in detail the possible resources that power the quantum computational advantages in XOR* games.
翻訳日:2023-01-24 03:00:29 公開日:2022-10-02
# インメモリアナログコンピューティングアーキテクチャにおけるdnnの信頼性を考慮した配置

Reliability-Aware Deployment of DNNs on In-Memory Analog Computing Architectures ( http://arxiv.org/abs/2211.00590v1 )

ライセンス: Link先を確認
Md Hasibul Amin, Mohammed Elbtity, Ramtin Zand(参考訳) 従来のインメモリ・コンピューティング(IMC)アーキテクチャは、行列ベクトル乗算(MVM)を加速するアナログメモリクロスバーと、ディープニューラルネットワーク(DNN)における非線形ベクトル(NLV)演算を実現するデジタル機能ユニットで構成されている。 しかし、これらの設計は、システム全体の電力の95%以上を放出できるエネルギー空調信号変換ユニットを必要とする。 一方、インメモリアナログコンピューティング(imac)回路は、アナログドメインにおけるmvmとnlvの両方の操作を実現することで、信号変換器の必要性をなくし、大幅な省エネルギーに繋がる。 しかしながら、相互接続寄生虫や騒音のような信頼性の問題に弱い。 本稿では,DNNの大規模行列を複数の小さなIMACサブアレイ上に展開し,アナログ領域に留まりながらノイズや寄生虫の影響を軽減するための実践的アプローチを提案する。

Conventional in-memory computing (IMC) architectures consist of analog memristive crossbars to accelerate matrix-vector multiplication (MVM), and digital functional units to realize nonlinear vector (NLV) operations in deep neural networks (DNNs). These designs, however, require energy-hungry signal conversion units which can dissipate more than 95% of the total power of the system. In-Memory Analog Computing (IMAC) circuits, on the other hand, remove the need for signal converters by realizing both MVM and NLV operations in the analog domain leading to significant energy savings. However, they are more susceptible to reliability challenges such as interconnect parasitic and noise. Here, we introduce a practical approach to deploy large matrices in DNNs onto multiple smaller IMAC subarrays to alleviate the impacts of noise and parasitics while keeping the computation in the analog domain.
翻訳日:2022-11-06 15:18:05 公開日:2022-10-02
# Help Me Help the AI": 説明責任が人間とAIのインタラクションをどのようにサポートするか

"Help Me Help the AI": Understanding How Explainability Can Support Human-AI Interaction ( http://arxiv.org/abs/2210.03735v1 )

ライセンス: Link先を確認
Sunnie S. Y. Kim and Elizabeth Anne Watkins and Olga Russakovsky and Ruth Fong and Andr\'es Monroy-Hern\'andez(参考訳) 説明可能なAI(XAI)メソッドの普及にもかかわらず、エンドユーザの説明可能性の必要性についてはほとんど理解されていない。 なぜなら、エンドユーザはXAIメソッドがサポートされてはいるが、まだサポートされていない必要があるからだ。 このギャップに対処し、説明可能性がどのように人間とAIの相互作用をサポートするかを理解するために、私たちは、鳥の識別アプリであるMerlinの20人のエンドユーザーへのインタビューを通して、現実世界のAIアプリケーションの研究を行った。 我々は、AIシステムとのコラボレーションを改善する実用的な情報の必要性を表現し、信頼の校正、タスクスキルの向上、AIシステムへのより良いインプットの提供、開発者への建設的なフィードバックの提供にXAIの説明を使うことを意図している。 また,既存のXAIアプローチに対するエンドユーザの認識を評価し,パートベースの説明を好んだ。 最後に,本研究の意義について考察し,XAIの今後の設計,特に人間とAIのコラボレーションにおけるXAIへの提言について述べる。

Despite the proliferation of explainable AI (XAI) methods, little is understood about end-users' explainability needs. This gap is critical, because end-users may have needs that XAI methods should but don't yet support. To address this gap and contribute to understanding how explainability can support human-AI interaction, we conducted a study of a real-world AI application via interviews with 20 end-users of Merlin, a bird-identification app. We found that people express a need for practically useful information that can improve their collaboration with the AI system, and intend to use XAI explanations for calibrating trust, improving their task skills, changing their behavior to supply better inputs to the AI system, and giving constructive feedback to developers. We also assessed end-users' perceptions of existing XAI approaches, finding that they prefer part-based explanations. Finally, we discuss implications of our findings and provide recommendations for future designs of XAI, specifically XAI for human-AI collaboration.
翻訳日:2022-10-16 16:21:51 公開日:2022-10-02
# 確率潜在表現を用いた画素からの安全強化学習

Safe Reinforcement Learning From Pixels Using a Stochastic Latent Representation ( http://arxiv.org/abs/2210.01801v1 )

ライセンス: Link先を確認
Yannick Hogewind, Thiago D. Simao, Tal Kachman, Nils Jansen(参考訳) 我々は,ピクセル観測からの安全強化学習の問題に対処する。 本研究の課題は,(1)報酬最適化と安全制約の遵守のトレードオフ,(2)部分観測可能性,(3)高次元観測である。 エージェントが個別の報酬と安全信号を取得する制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。 次元性の呪いに対処するために,確率的潜在的アクター批判(SLAC)アプローチを用いて,新しい安全評論家を採用する。 潜在変数モデルは報酬と安全違反を予測し、安全評論家を用いて安全政策を訓練する。 著名なベンチマーク環境を用いて,計算要求,最終報酬返却,安全性制約を満たすため,既存の手法よりも競争力の高い性能を示す。

We address the problem of safe reinforcement learning from pixel observations. Inherent challenges in such settings are (1) a trade-off between reward optimization and adhering to safety constraints, (2) partial observability, and (3) high-dimensional observations. We formalize the problem in a constrained, partially observable Markov decision process framework, where an agent obtains distinct reward and safety signals. To address the curse of dimensionality, we employ a novel safety critic using the stochastic latent actor-critic (SLAC) approach. The latent variable model predicts rewards and safety violations, and we use the safety critic to train safe policies. Using well-known benchmark environments, we demonstrate competitive performance over existing approaches with respects to computational requirements, final reward return, and satisfying the safety constraints.
翻訳日:2022-10-06 12:57:39 公開日:2022-10-02
# テンソル還元原子密度表現

Tensor-reduced atomic density representations ( http://arxiv.org/abs/2210.01705v1 )

ライセンス: Link先を確認
James P. Darby, D\'avid P. Kov\'acs, Ilyes Batatia, Miguel A. Caro, Gus L. W. Hart, Christoph Ortner and G\'abor Cs\'anyi(参考訳) ユークリッド対称性の下で不変な原子環境の密度に基づく表現は、原子間ポテンシャルの機械学習、より広いデータ駆動型原子論的モデリング、材料データセットの可視化と分析において広く用いられるツールとなっている。 これにより、要素の数が増加するにつれて、表現のサイズが急拡大する。 密度表現を明示的に使用しないグラフニューラルネットワークは、化学元素情報を学習可能な方法で一定の次元空間にマッピングすることで、このスケーリングを回避している。 我々は、この手法をテンソル分解として、標準近傍密度に基づく記述子のテンソル構造を利用する。 その際、サイズが化学元素の数に依存しないコンパクトテンソル還元表現を形成するが、体系的に収束可能であり、従って幅広いデータ分析や回帰タスクに適用できる。

Density based representations of atomic environments that are invariant under Euclidean symmetries have become a widely used tool in the machine learning of interatomic potentials, broader data-driven atomistic modelling and the visualisation and analysis of materials datasets.The standard mechanism used to incorporate chemical element information is to create separate densities for each element and form tensor products between them. This leads to a steep scaling in the size of the representation as the number of elements increases. Graph neural networks, which do not explicitly use density representations, escape this scaling by mapping the chemical element information into a fixed dimensional space in a learnable way. We recast this approach as tensor factorisation by exploiting the tensor structure of standard neighbour density based descriptors. In doing so, we form compact tensor-reduced representations whose size does not depend on the number of chemical elements, but remain systematically convergeable and are therefore applicable to a wide range of data analysis and regression tasks.
翻訳日:2022-10-05 15:52:32 公開日:2022-10-02
# Quark: タスク分類のためのグラディエントな量子学習フレームワーク

Quark: A Gradient-Free Quantum Learning Framework for Classification Tasks ( http://arxiv.org/abs/2210.01311v1 )

ライセンス: Link先を確認
Zhihao Zhang, Zhuoming Chen, Heyang Huang, Zhihao Jia(参考訳) より実用的でスケーラブルな量子コンピュータが出現するにつれて、機械学習における量子超越性の実現に多くの注目を集めている。 既存の量子ML法は、(1)古典的モデルをハミルトンに埋め込んで量子最適化を可能にするか、(2)変分量子回路を用いて量子モデルを表現し、古典的勾配に基づく最適化を適用する。 前者は量子最適化の力を利用するが、単純なMLモデルしかサポートしていないが、後者はモデル設計の柔軟性を提供するが、勾配計算に依存しており、バレンプラトー(勾配消滅)や古典量子相互作用が頻繁に発生する。 既存の量子ML手法の限界に対処するため、量子最適化を用いて量子MLモデルを最適化する勾配のない量子学習フレームワークQuarkを紹介した。 クォークは勾配計算に依存しないため、不毛高原やしばしば古典量子相互作用を避ける。 さらに、Quarkは従来の量子MLメソッドよりも一般的なMLモデルをサポートし、データセットサイズに依存しない最適化の複雑さを実現する。 理論的には、クォークは、非常に凸でない問題に対するモデルクエリの複雑さを減らすことによって、古典的な勾配に基づく方法よりも優れており、経験的に、エッジ検出と小さなmnistタスクの評価は、クォークは複雑なmlモデルをサポートし、これらのタスクの最適に近い重みを見つけるのに必要な測定回数を大幅に削減できることを示している。

As more practical and scalable quantum computers emerge, much attention has been focused on realizing quantum supremacy in machine learning. Existing quantum ML methods either (1) embed a classical model into a target Hamiltonian to enable quantum optimization or (2) represent a quantum model using variational quantum circuits and apply classical gradient-based optimization. The former method leverages the power of quantum optimization but only supports simple ML models, while the latter provides flexibility in model design but relies on gradient calculation, resulting in barren plateau (i.e., gradient vanishing) and frequent classical-quantum interactions. To address the limitations of existing quantum ML methods, we introduce Quark, a gradient-free quantum learning framework that optimizes quantum ML models using quantum optimization. Quark does not rely on gradient computation and therefore avoids barren plateau and frequent classical-quantum interactions. In addition, Quark can support more general ML models than prior quantum ML methods and achieves a dataset-size-independent optimization complexity. Theoretically, we prove that Quark can outperform classical gradient-based methods by reducing model query complexity for highly non-convex problems; empirically, evaluations on the Edge Detection and Tiny-MNIST tasks show that Quark can support complex ML models and significantly reduce the number of measurements needed for discovering near-optimal weights for these tasks.
翻訳日:2022-10-05 15:36:55 公開日:2022-10-02
# GANTouch: タッチベースの継続的認証システムのための攻撃耐性フレームワーク

GANTouch: An Attack-Resilient Framework for Touch-based Continuous Authentication System ( http://arxiv.org/abs/2210.01594v1 )

ライセンス: Link先を確認
Mohit Agrawal and Pragyan Mehrotra and Rajesh Kumar and Rajiv Ratn Shah(参考訳) 従来の研究では、タッチベースの連続認証システム(V-TCAS)の一般的な研究(バニラ)実装は、アクティブな敵意の試行に影響を受けやすいことが示されている。 本研究は,新規なG-TCASフレームワークについて提案し,V-TCASとV-TCASを3つのアクティブ環境下で比較した。 ゼロエフォート、人口、ランダムベクター。 Zero-effort環境は2つのバリエーションで実装された。 Zero-effort (Same-dataset) と Zero-effort (cross-dataset)。 1つはZero-effort攻撃で、もう1つは3つの異なるデータセットを使用した。 G-TCASはポピュレーションとランダムベクターの下ではV-TCASよりも弾力性があり、ゼロエフォートよりも敵のシナリオにダメージを与えた。 平均して、V-TCASに対する偽受け入れ率(FAR)の上昇は、G-TCAS (14%と12.5%) の集団攻撃やランダムベクター攻撃よりもはるかに高い(27.5%と21.5%)。 さらに, 性別別にTCASの公平性分析を行い, 性別ごとにTASが公平であることが判明した。 以上の結果から, 活発な対向環境下でのTCASの評価と, TCASパイプラインにおけるGANの有用性を確認した。

Previous studies have shown that commonly studied (vanilla) implementations of touch-based continuous authentication systems (V-TCAS) are susceptible to active adversarial attempts. This study presents a novel Generative Adversarial Network assisted TCAS (G-TCAS) framework and compares it to the V-TCAS under three active adversarial environments viz. Zero-effort, Population, and Random-vector. The Zero-effort environment was implemented in two variations viz. Zero-effort (same-dataset) and Zero-effort (cross-dataset). The first involved a Zero-effort attack from the same dataset, while the second used three different datasets. G-TCAS showed more resilience than V-TCAS under the Population and Random-vector, the more damaging adversarial scenarios than the Zero-effort. On average, the increase in the false accept rates (FARs) for V-TCAS was much higher (27.5% and 21.5%) than for G-TCAS (14% and 12.5%) for Population and Random-vector attacks, respectively. Moreover, we performed a fairness analysis of TCAS for different genders and found TCAS to be fair across genders. The findings suggest that we should evaluate TCAS under active adversarial environments and affirm the usefulness of GANs in the TCAS pipeline.
翻訳日:2022-10-05 15:18:56 公開日:2022-10-02
# ノイズカメラによるニューラルインシシデント表面の再構成

Neural Implicit Surface Reconstruction from Noisy Camera Observations ( http://arxiv.org/abs/2210.01548v1 )

ライセンス: Link先を確認
Sarthak Gupta, Patrik Huber(参考訳) 神経放射場を持つ3Dオブジェクトやシーンの表現は、ここ数年で非常に人気を博している。 近年,簡単な写真から3Dオブジェクトを再構成できる表面表現法が提案されている。 しかし、現在のほとんどの技術は正確なカメラキャリブレーション、すなわち各画像に対応するカメラパラメータを必要とする。 そこで本研究では,ノイズの多いカメラパラメータから3次元表面を学習する手法を提案する。 表面表現を学習することでカメラパラメータを学習でき、ノイズの多いカメラでも高品質な3d表面再構成を実現できることを示す。

Representing 3D objects and scenes with neural radiance fields has become very popular over the last years. Recently, surface-based representations have been proposed, that allow to reconstruct 3D objects from simple photographs. However, most current techniques require an accurate camera calibration, i.e. camera parameters corresponding to each image, which is often a difficult task to do in real-life situations. To this end, we propose a method for learning 3D surfaces from noisy camera parameters. We show that we can learn camera parameters together with learning the surface representation, and demonstrate good quality 3D surface reconstruction even with noisy camera observations.
翻訳日:2022-10-05 14:34:24 公開日:2022-10-02
# GaIA: 弱い監視ポイントクラウドセマンティックセグメンテーションのためのグラフィック情報ゲインに基づく注意ネットワーク

GaIA: Graphical Information Gain based Attention Network for Weakly Supervised Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2210.01558v1 )

ライセンス: Link先を確認
Min Seok Lee, Seok Woo Yang, and Sung Won Han(参考訳) ポイントクラウドセマンティックセグメンテーションは3Dシーン理解において重要なタスクであるが、このタスクはラベルを完全に注釈付けする時間を要する。 この問題に対処するために、近年の研究ではスパースアノテーションの下で弱教師付き学習アプローチを採用している。 本研究は, 従来の研究と異なり, エントロピーによって測定された, 正確なセマンティックセグメンテーションのための不確実性を低減することを目的としている。 信頼度の高い情報に基づいて各点のエントロピーを緩和するgaiaと呼ばれるグラフ情報ゲインベースの注意ネットワークを提案する。 図形情報ゲインは、目標点とその近傍の相対エントロピーを用いて信頼性のある点を識別する。 さらに、アンカーベースの付加的な角マージン損失ArcPointを導入する。 アークポイントは、超球面上のラベル付き点の意味的に類似したクラスに対して高いエントロピーを含むラベル付き点を最適化する。 s3disとscannet-v2データセットの実験結果は、既存の弱い教師付きメソッドよりも優れています。 GaIAはhttps://github.com/Karel911/GaIA.comでリリースしました。

While point cloud semantic segmentation is a significant task in 3D scene understanding, this task demands a time-consuming process of fully annotating labels. To address this problem, recent studies adopt a weakly supervised learning approach under the sparse annotation. Different from the existing studies, this study aims to reduce the epistemic uncertainty measured by the entropy for a precise semantic segmentation. We propose the graphical information gain based attention network called GaIA, which alleviates the entropy of each point based on the reliable information. The graphical information gain discriminates the reliable point by employing relative entropy between target point and its neighborhoods. We further introduce anchor-based additive angular margin loss, ArcPoint. The ArcPoint optimizes the unlabeled points containing high entropy towards semantically similar classes of the labeled points on hypersphere space. Experimental results on S3DIS and ScanNet-v2 datasets demonstrate our framework outperforms the existing weakly supervised methods. We have released GaIA at https://github.com/Karel911/GaIA.
翻訳日:2022-10-05 14:34:14 公開日:2022-10-02
# 連成変換と合成によるクロスアイデンティティビデオモーションレターゲティング

Cross-identity Video Motion Retargeting with Joint Transformation and Synthesis ( http://arxiv.org/abs/2210.01559v1 )

ライセンス: Link先を確認
Haomiao Ni, Yihao Liu, Sharon X. Huang, Yuan Xue(参考訳) 本稿では,ビデオモーションリターゲティングのための新しい二分岐変換合成ネットワーク(TS-Net)を提案する。 1つの被写体ビデオと1つの駆動ビデオが与えられると、ts-netは、被写体ビデオの被写体外観と駆動ビデオの運動パターンとを備えた新しい有望なビデオを生成することができる。 ts-net は warp-based transformation branch と warp-free synthesis branch から構成される。 両枝の新規な設計は、変形格子に基づく変換とワープフリー生成の強みを組み合わせて、合成ビデオにおけるアイデンティティの保存と閉塞に対する堅牢性を向上させる。 さらに、トランスフォーメーションブランチにマスク対応類似モジュールを導入し、計算オーバーヘッドを低減する。 顔とダンスのデータセットによる実験結果から、TS-Netは複数の最先端モデルや単一ブランチモデルよりも、ビデオモーションリターゲティングのパフォーマンスが向上していることが示された。 私たちのコードはhttps://github.com/nihaomiao/wacv23_tsnetで利用可能です。

In this paper, we propose a novel dual-branch Transformation-Synthesis network (TS-Net), for video motion retargeting. Given one subject video and one driving video, TS-Net can produce a new plausible video with the subject appearance of the subject video and motion pattern of the driving video. TS-Net consists of a warp-based transformation branch and a warp-free synthesis branch. The novel design of dual branches combines the strengths of deformation-grid-based transformation and warp-free generation for better identity preservation and robustness to occlusion in the synthesized videos. A mask-aware similarity module is further introduced to the transformation branch to reduce computational overhead. Experimental results on face and dance datasets show that TS-Net achieves better performance in video motion retargeting than several state-of-the-art models as well as its single-branch variants. Our code is available at https://github.com/nihaomiao/WACV23_TSNet.
翻訳日:2022-10-05 14:33:55 公開日:2022-10-02
# 細胞移動シミュレーションの学習に向けて

Towards Learned Simulators for Cell Migration ( http://arxiv.org/abs/2210.01123v1 )

ライセンス: Link先を確認
Koen Minartz, Yoeri Poels, Vlado Menkovski(参考訳) ディープラーニングによって駆動されるシミュレータは、正確だが高価な数値シミュレータを効率的にエミュレートするためのツールとして人気を集めている。 このような神経シミュレーターの成功例は、物理学、化学、構造生物学などの領域で見ることができる。 同様に、細胞力学のための神経シミュレーターは、実験室実験と従来の計算方法を拡張し、細胞と物理的環境との相互作用の理解を高めることができる。 本研究では,従来セルラポッツモデルでシミュレートされていた単一細胞移動の時空間ダイナミクスを再現できる自己回帰確率モデルを提案する。 標準の単段トレーニング手法はロールアウト安定性の一貫性を損なうだけでなく,ダイナミクスの確率的側面を正確に把握できないため,これらの問題を緩和するためのトレーニング戦略を提案する。 概念実証実験の2つのシナリオの評価から, ニューラルネットワークは, セルポッツモデルの最先端実装よりも少なくとも1桁早く, 確率的細胞力学を忠実にシミュレートできる可能性が示唆された。

Simulators driven by deep learning are gaining popularity as a tool for efficiently emulating accurate but expensive numerical simulators. Successful applications of such neural simulators can be found in the domains of physics, chemistry, and structural biology, amongst others. Likewise, a neural simulator for cellular dynamics can augment lab experiments and traditional computational methods to enhance our understanding of a cell's interaction with its physical environment. In this work, we propose an autoregressive probabilistic model that can reproduce spatiotemporal dynamics of single cell migration, traditionally simulated with the Cellular Potts model. We observe that standard single-step training methods do not only lead to inconsistent rollout stability, but also fail to accurately capture the stochastic aspects of the dynamics, and we propose training strategies to mitigate these issues. Our evaluation on two proof-of-concept experimental scenarios shows that neural methods have the potential to faithfully simulate stochastic cellular dynamics at least an order of magnitude faster than a state-of-the-art implementation of the Cellular Potts model.
翻訳日:2022-10-05 14:06:55 公開日:2022-10-02
# 行列の確率的最適化とgraphon mckean-vlasov極限

Stochastic optimization on matrices and a graphon McKean-Vlasov limit ( http://arxiv.org/abs/2210.00422v1 )

ライセンス: Link先を確認
Zaid Harchaoui, Sewoong Oh, Soumik Pal, Raghav Somani, Raghavendra Tripathi(参考訳) 同じ置換を用いて行と列の置換の下で不変である適当な関数の大きい対称行列の空間上の確率勾配降下を考える。 行列の次元が無限大になるにつれて、これらのランダム曲線の決定論的極限を確立する。 小さなノイズ」を仮定すると、この極限は arXiv:2111.09459 に成立するグラモン上の関数の勾配流であることが示される。 また, ブラウン雑音を適切に拡大した確率勾配降下の限界についても考察する。 グラフェンの極限曲線は、反射を持つ確率微分方程式の族によって特徴づけられ、相互作用拡散に対する古典的なマッケアン・ヴラソフ極限の拡張と考えることができる。 これらの証明は、反射拡散の無限次元交換可能な配列の族と、相互作用する拡散の大きな行列に対するカオスの伝播という新しい概念を導入する。

We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a ``small noise'' assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in arXiv:2111.09459. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of interacting diffusions.
翻訳日:2022-10-05 13:48:40 公開日:2022-10-02
# 複数事象からのニューロン集団の予測パラメータの推定

Supervised Parameter Estimation of Neuron Populations from Multiple Firing Events ( http://arxiv.org/abs/2210.01767v1 )

ライセンス: Link先を確認
Long Le, Yao Li(参考訳) 数学モデルにおける生体ニューロンの発火ダイナミクスは、しばしばモデルのパラメータによって決定され、ニューロンの基底特性を表す。 パラメータ推定問題は、単一ニューロンまたはニューロン集団のそれらのパラメータを、外的刺激に対する反応や相互の相互作用から回復しようとするものである。 文献でこの問題に取り組む最も一般的な方法は、シミュレーションベースまたは解ベースの最適化スキームと組み合わせていくつかの機械モデルを用いる。 本稿では,教師付き学習によるスパイキング系列とパラメータラベルのペアからなる学習セットから,ニューロン集団のパラメータを自動学習する手法について検討する。 従来の研究とは異なり、この自動学習は推論時の追加シミュレーションや、分析解の導出や近似モデルの構築に専門家の知識を必要としない。 確率ニューロンモデルを用いてパラメータ設定の異なる多くのニューロン集団をシミュレートする。 このデータを用いて、畳み込みニューラルネットワークや深層ニューラルネットワーク、ランダムフォレスト、ベクトル回帰のサポートなど、さまざまな教師付き機械学習モデルをトレーニングする。 次に, 遺伝的探索法, ベイズ列推定法, ランダムウォーク近似モデルなどの古典的手法との比較を行った。 教師付きモデルは,パラメータ推定やスパイク復元誤差,計算コストにおいて,古典的手法よりも常に優れていた。 特に畳み込みニューラルネットワークは、すべてのメトリクスにわたって最も優れたモデルです。 教師付きモデルは、配信外データにある程度一般化することもできる。

The firing dynamics of biological neurons in mathematical models is often determined by the model's parameters, representing the neurons' underlying properties. The parameter estimation problem seeks to recover those parameters of a single neuron or a neuron population from their responses to external stimuli and interactions between themselves. Most common methods for tackling this problem in the literature use some mechanistic models in conjunction with either a simulation-based or solution-based optimization scheme. In this paper, we study an automatic approach of learning the parameters of neuron populations from a training set consisting of pairs of spiking series and parameter labels via supervised learning. Unlike previous work, this automatic learning does not require additional simulations at inference time nor expert knowledge in deriving an analytical solution or in constructing some approximate models. We simulate many neuronal populations with different parameter settings using a stochastic neuron model. Using that data, we train a variety of supervised machine learning models, including convolutional and deep neural networks, random forest, and support vector regression. We then compare their performance against classical approaches including a genetic search, Bayesian sequential estimation, and a random walk approximate model. The supervised models almost always outperform the classical methods in parameter estimation and spike reconstruction errors, and computation expense. Convolutional neural network, in particular, is the best among all models across all metrics. The supervised models can also generalize to out-of-distribution data to a certain extent.
翻訳日:2022-10-05 13:24:06 公開日:2022-10-02
# 重要重量によるステイン変分勾配明度の改善

Improved Stein Variational Gradient Descent with Importance Weights ( http://arxiv.org/abs/2210.00462v1 )

ライセンス: Link先を確認
Lukang Sun and Peter Richt\'arik(参考訳) Stein Variational Gradient Descent~(\algname{SVGD})は、機械学習タスクで一般的なサンプリングアルゴリズムである。 \algname{SVGD} は Kullback-Leibler の発散の核化勾配フローの離散化$D_{KL}\left(\cdot\mid\pi\right)$から生じることが知られている。 そこで本研究では,<algname{$\beta$-SVGD} と命名する新たな手法である<algname{$\beta$-SVGD} を導入することにより,<algname{SVGD} を拡大することを提案する。 連続時間と無限粒子状態において、スタイン・フィッシャーの情報によって定量化された平衡分布 $\pi$ にこの流れが収束する時間は、$\rho_0$ と $\pi$ に非常に弱い。 これは、Kulback-Leibler分散の核化勾配フローとは大きく異なり、時間複雑性は$D_{KL}\left(\rho_0\mid\pi\right)$に依存する。 ある仮定の下では、人口制限 \algname{$\beta$-SVGD} に対する降下補題を提供し、$\beta\to 0$ のとき、人口制限 \algname{SVGD} に対する降下補題をカバーする。 また、簡単な実験により、\algname{$\beta$-svgd} に対する \algname{svgd} の利点を示す。

Stein Variational Gradient Descent~(\algname{SVGD}) is a popular sampling algorithm used in various machine learning tasks. It is well known that \algname{SVGD} arises from a discretization of the kernelized gradient flow of the Kullback-Leibler divergence $D_{KL}\left(\cdot\mid\pi\right)$, where $\pi$ is the target distribution. In this work, we propose to enhance \algname{SVGD} via the introduction of {\em importance weights}, which leads to a new method for which we coin the name \algname{$\beta$-SVGD}. In the continuous time and infinite particles regime, the time for this flow to converge to the equilibrium distribution $\pi$, quantified by the Stein Fisher information, depends on $\rho_0$ and $\pi$ very weakly. This is very different from the kernelized gradient flow of Kullback-Leibler divergence, whose time complexity depends on $D_{KL}\left(\rho_0\mid\pi\right)$. Under certain assumptions, we provide a descent lemma for the population limit \algname{$\beta$-SVGD}, which covers the descent lemma for the population limit \algname{SVGD} when $\beta\to 0$. We also illustrate the advantages of \algname{$\beta$-SVGD} over \algname{SVGD} by simple experiments.
翻訳日:2022-10-04 18:06:48 公開日:2022-10-02
# 物理インフォームドニューラルネットワークによる非線形PDEのデータ駆動解の高精度微分法

High Precision Differentiation Techniques for Data-Driven Solution of Nonlinear PDEs by Physics-Informed Neural Networks ( http://arxiv.org/abs/2210.00518v1 )

ライセンス: Link先を確認
Marat S. Mukhametzhanov(参考訳) 本稿では,初期条件が与えられた時間依存部分微分方程式について考察する。 時間変数に対する未知解の新しい微分手法を提案する。 提案手法は,空間点の集合に対して高精度な高次微分を同時に生成できることを示す。 計算された導関数は、異なる方法でデータ駆動ソリューションに使用できる。 テンソルフローバックグラウンドフレームワークのPythonにおけるよく知られたDeepXDEソフトウェアソリューションによる物理インフォームドニューラルネットワークの応用が、Burgers'、Allen-Cahn、Schrodingerの3つの実生活PDEに対して発表された。

Time-dependent Partial Differential Equations with given initial conditions are considered in this paper. New differentiation techniques of the unknown solution with respect to time variable are proposed. It is shown that the proposed techniques allow to generate accurate higher order derivatives simultaneously for a set of spatial points. The calculated derivatives can then be used for data-driven solution in different ways. An application for Physics Informed Neural Networks by the well-known DeepXDE software solution in Python under Tensorflow background framework has been presented for three real-life PDEs: Burgers', Allen-Cahn and Schrodinger equations.
翻訳日:2022-10-04 18:06:18 公開日:2022-10-02
# 人体をセンサとして用いた群集ナビゲーション

Occlusion-Aware Crowd Navigation Using People as Sensors ( http://arxiv.org/abs/2210.00552v1 )

ライセンス: Link先を確認
Ye-Ji Mun, Masha Itkina, Shuijing Liu, and Katherine Driggs-Campbell(参考訳) 混雑した空間における自律ナビゲーションは、非常にダイナミックで部分的に観察可能な環境のため、移動ロボットにとって課題となる。 このような環境下では、人間エージェントの視界や妨害が限定されているため、閉塞が顕著である。 従来の研究では、人間のエージェントの観察された対話的行動は、閉塞にもかかわらず潜在的障害を推定するために用いられることが示されている。 このような社会的推論手法を計画パイプラインに統合することを提案する。 我々は,オクルージョン推論に有意な表現を学ぶために,特別に設計された損失関数を備えた変分オートエンコーダを用いる。 この研究は、オクルージョン対応計画のための学習表現を組み込むために、深い強化学習アプローチを採用する。 シミュレーションでは,隠蔽空間内のエージェントを推定することにより,完全に観測可能なナビゲーションに匹敵する衝突回避性能を実現する。 シミュレーションから実世界のTurtlebot 2iへのポリシー転送に成功した。 私たちの知る限りでは、この研究は初めて、群衆ナビゲーションに社会的排他的推論を用いたものである。

Autonomous navigation in crowded spaces poses a challenge for mobile robots due to the highly dynamic, partially observable environment. Occlusions are highly prevalent in such settings due to a limited sensor field of view and obstructing human agents. Previous work has shown that observed interactive behaviors of human agents can be used to estimate potential obstacles despite occlusions. We propose integrating such social inference techniques into the planning pipeline. We use a variational autoencoder with a specially designed loss function to learn representations that are meaningful for occlusion inference. This work adopts a deep reinforcement learning approach to incorporate the learned representation for occlusion-aware planning. In simulation, our occlusion-aware policy achieves comparable collision avoidance performance to fully observable navigation by estimating agents in occluded spaces. We demonstrate successful policy transfer from simulation to the real-world Turtlebot 2i. To the best of our knowledge, this work is the first to use social occlusion inference for crowd navigation.
翻訳日:2022-10-04 18:06:08 公開日:2022-10-02
# 社会科学における定量的モデルと形式モデルの発見を支援するAI

AI-Assisted Discovery of Quantitative and Formal Models in Social Science ( http://arxiv.org/abs/2210.00563v1 )

ライセンス: Link先を確認
Julia Balla, Sihao Huang, Owen Dugan, Rumen Dangovski, Marin Soljacic(参考訳) 社会科学では、経済成長や集団行動を記述するような形式的かつ定量的なモデルは、機械的な説明、予測、観察された現象に関する疑問を明らかにするために用いられる。 本稿では,社会科学データセットにおける非線形および動的関係を捉えるシンボリックモデルの発見を支援する機械学習システムについて紹介する。 ニューロシンボリック法を拡張して, 雑音・長手データからコンパクト関数や微分方程式を求めることにより, 本システムは実世界データから, 経済学・社会学において解釈可能なモデルの発見に利用できることを示す。 既存のワークフローをシンボリック回帰で拡張することは、新しい関係を明らかにするのに役立ち、科学プロセス中に反事実モデルの探索に役立つ。 本稿では, 非線形モデルの空間を体系的に探索し, 表現性や解釈可能性のきめ細かい制御を可能にすることにより, 社会科学研究で一般的に用いられているパラメトリックモデルと非パラメトリックモデルとを橋渡しできるフレームワークを提案する。

In social science, formal and quantitative models, such as ones describing economic growth and collective action, are used to formulate mechanistic explanations, provide predictions, and uncover questions about observed phenomena. Here, we demonstrate the use of a machine learning system to aid the discovery of symbolic models that capture nonlinear and dynamical relationships in social science datasets. By extending neuro-symbolic methods to find compact functions and differential equations in noisy and longitudinal data, we show that our system can be used to discover interpretable models from real-world data in economics and sociology. Augmenting existing workflows with symbolic regression can help uncover novel relationships and explore counterfactual models during the scientific process. We propose that this AI-assisted framework can bridge parametric and non-parametric models commonly employed in social science research by systematically exploring the space of nonlinear models and enabling fine-grained control over expressivity and interpretability.
翻訳日:2022-10-04 18:05:54 公開日:2022-10-02
# 大規模機械学習による材料空間の探索

Large-scale machine-learning-assisted exploration of the whole materials space ( http://arxiv.org/abs/2210.00579v1 )

ライセンス: Link先を確認
Jonathan Schmidt (1), Noah Hoffmann (1), Hai-Chen Wang (1), Pedro Borlido (2), Pedro J. M. A. Carri\c{c}o (2), Tiago F. T. Cerqueira (2), Silvana Botti (3), Miguel A. L. Marques (1) ((1) Institut f\"ur Physik, Martin-Luther-Universit\"at Halle-Wittenberg, (2) Department of Physics, University of Coimbra, (3) Friedrich-Schiller-Universit\"at Jena)(参考訳) 結晶-グラフアテンションネットワークは、非緩和結晶構造から熱力学的安定性と材料特性を予測するための顕著なツールとして最近登場した。 しかし、200万の材料でトレーニングされた以前のネットワークは、表現不足の化学的要素と利用可能なデータの構造的プロトタイプから生じる強いバイアスが示されていた。 この問題に取り組み、化学および結晶対称性空間のバランスを改善するために追加データを計算した。 この新しいデータでトレーニングされた結晶グラフネットワークは、前例のない一般化の精度を示し、無機化合物の全空間の信頼性と迅速な探索を可能にする。 我々はこのユニバーサルネットワークを用いて,2500のバイナリおよび3元構造プロトタイプを含む,約10億の化合物を対象とした機械学習支援高スループット材料探索を行った。 密度汎関数理論を用いた検証の後、熱力学的安定性の凸包と、殻から50mev/原子以下の距離の約150000化合物の合計19512個の追加物質を明らかにする。 再び機械学習とab-initio法を組み合わせることで, 超伝導体, 超硬質材料として応用するための材料を最終的に評価し, ギャップ変形ポテンシャルが大きい候補を探し, これらの性質を極端に有する化合物を見いだした。

Crystal-graph attention networks have emerged recently as remarkable tools for the prediction of thermodynamic stability and materials properties from unrelaxed crystal structures. Previous networks trained on two million materials exhibited, however, strong biases originating from underrepresented chemical elements and structural prototypes in the available data. We tackled this issue computing additional data to provide better balance across both chemical and crystal-symmetry space. Crystal-graph networks trained with this new data show unprecedented generalization accuracy, and allow for reliable, accelerated exploration of the whole space of inorganic compounds. We applied this universal network to perform machine-learning assisted high-throughput materials searches including 2500 binary and ternary structure prototypes and spanning about 1 billion compounds. After validation using density-functional theory, we uncover in total 19512 additional materials on the convex hull of thermodynamic stability and ~150000 compounds with a distance of less than 50 meV/atom from the hull. Combining again machine learning and ab-initio methods, we finally evaluate the discovered materials for applications as superconductors, superhard materials, and we look for candidates with large gap deformation potentials, finding several compounds with extreme values of these properties.
翻訳日:2022-10-04 18:05:36 公開日:2022-10-02
# サブサンプリングによる差分プライバシー・プライバシー増幅の構成

Composition of Differential Privacy & Privacy Amplification by Subsampling ( http://arxiv.org/abs/2210.00597v1 )

ライセンス: Link先を確認
Thomas Steinke(参考訳) この章は '`Differential Privacy for Artificial Intelligence Applications' という本の一部になっている。 一連の人のデータに対して複数の独立した分析を実行することは、各分析が単独でプライベートである限り、相変わらず、またサブサンプリングによる関連するプライバシー増幅のトピックである。 この章では、基本的な概念を紹介し、これらのツールを実践するのに必要な重要な結果を示す。

This chapter is meant to be part of the book ``Differential Privacy for Artificial Intelligence Applications.'' We give an introduction to the most important property of differential privacy -- composition: running multiple independent analyses on the data of a set of people will still be differentially private as long as each of the analyses is private on its own -- as well as the related topic of privacy amplification by subsampling. This chapter introduces the basic concepts and gives proofs of the key results needed to apply these tools in practice.
翻訳日:2022-10-04 18:05:16 公開日:2022-10-02
# 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対

Understanding Adversarial Robustness Against On-manifold Adversarial Examples ( http://arxiv.org/abs/2210.00430v1 )

ライセンス: Link先を確認
Jiancong Xiao, Liusha Yang, Yanbo Fan, Jue Wang, Zhi-Quan Luo(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことが示されている。 トレーニングされたモデルは、元のデータに小さな摂動を加えることで、容易に攻撃することができる。 逆の例の存在の仮説の1つはオフ・マニフォールドの仮定である: 逆の例はデータ多様体から離れる。 しかし、近年の研究では、on-manifoldadversarial例も存在することが示されている。 本稿では,オフ・マニフォールドの仮定を再検討し,課題を考察する。オン・マニフォールドの例による敵の攻撃に対するニューラルネットワークのパフォーマンスの低さは,どのようなレベルにあるのか? 真のデータ多様体は実際は未知であるため、実データと合成データの両方について2つの近似逆数例を考える。 実データセットでは,on-manifold とadversarial の両方のモデルにおいて,on-manifold とadversarial のどちらよりも攻撃率が高いことを示す。 合成データセットでは、理論的には、on-manifold adversarial examplesは強力であるが、adversarial trainingはオフ-manifold directionsにフォーカスし、on-manifold adversarial examplesを無視している。 さらに, 理論的に導出される性質が実際に観測可能であることを示す解析を行う。 解析結果から,on-manifold adversarial exampleが重要であること,および,on-manifold adversarial examples for training robust modelsに注意を払うべきである。

Deep neural networks (DNNs) are shown to be vulnerable to adversarial examples. A well-trained model can be easily attacked by adding small perturbations to the original data. One of the hypotheses of the existence of the adversarial examples is the off-manifold assumption: adversarial examples lie off the data manifold. However, recent research showed that on-manifold adversarial examples also exist. In this paper, we revisit the off-manifold assumption and want to study a question: at what level is the poor performance of neural networks against adversarial attacks due to on-manifold adversarial examples? Since the true data manifold is unknown in practice, we consider two approximated on-manifold adversarial examples on both real and synthesis datasets. On real datasets, we show that on-manifold adversarial examples have greater attack rates than off-manifold adversarial examples on both standard-trained and adversarially-trained models. On synthetic datasets, theoretically, We prove that on-manifold adversarial examples are powerful, yet adversarial training focuses on off-manifold directions and ignores the on-manifold adversarial examples. Furthermore, we provide analysis to show that the properties derived theoretically can also be observed in practice. Our analysis suggests that on-manifold adversarial examples are important, and we should pay more attention to on-manifold adversarial examples for training robust models.
翻訳日:2022-10-04 17:30:58 公開日:2022-10-02
# 近似計算と機械学習の効率的な展開

Approximate Computing and the Efficient Machine Learning Expedition ( http://arxiv.org/abs/2210.00497v1 )

ライセンス: Link先を確認
J\"org Henkel, Hai Li, Anand Raghunathan, Mehdi B. Tahoori, Swagath Venkataramani, Xiaoxuan Yang, Georgios Zervakis(参考訳) 近似コンピューティング(AxC)は、緩和された精度要件を犠牲にして効率的なシステム実装の代替案として長い間受け入れられてきた。 さまざまなアプリケーション領域におけるAxCの研究活動にもかかわらず、AxCは機械学習(ML)に適用された過去10年間に成長した。 定義により、MLモデルの近似概念だけでなく、MLアプリケーションに関連する計算オーバーヘッドの増加も、完全なマッチングと実りある相乗効果に関連付けられた対応する近似によって効果的に緩和された。 AI/ML用のAxCは、学術的なプロトタイプを超えた。 本研究では,AxCとMLの相乗的性質を啓蒙し,効率的なMLシステムの設計におけるAxCの影響を明らかにする。 そこで我々は、AxC for MLの概要と分類を提示し、AxCがMLシステムの効率をいかに向上するかを示すために、2つの記述的なアプリケーションシナリオを使用する。

Approximate computing (AxC) has been long accepted as a design alternative for efficient system implementation at the cost of relaxed accuracy requirements. Despite the AxC research activities in various application domains, AxC thrived the past decade when it was applied in Machine Learning (ML). The by definition approximate notion of ML models but also the increased computational overheads associated with ML applications-that were effectively mitigated by corresponding approximations-led to a perfect matching and a fruitful synergy. AxC for AI/ML has transcended beyond academic prototypes. In this work, we enlighten the synergistic nature of AxC and ML and elucidate the impact of AxC in designing efficient ML systems. To that end, we present an overview and taxonomy of AxC for ML and use two descriptive application scenarios to demonstrate how AxC boosts the efficiency of ML systems.
翻訳日:2022-10-04 17:30:32 公開日:2022-10-02
# 低コストセンサキャリブレーションにおける教師なしデータと領域適応の深回帰への応用

Leveraging unsupervised data and domain adaptation for deep regression in low-cost sensor calibration ( http://arxiv.org/abs/2210.00521v1 )

ライセンス: Link先を確認
Swapnil Dey, Vipul Arora, Sachchida Nand Tripathi(参考訳) 大気質モニタリングは, 大気質に対する意識を高めるための重要な課題となっている。 低コストの空気質センサーは展開が容易であるが、高価でかさばる基準モニターほど信頼性は高くない。 低品質のセンサーは、ディープラーニングの助けを借りて基準モニターに対して校正することができる。 本稿では,センサキャリブレーションの課題を半教師あり領域適応問題に変換し,それに対する新しい解を提案する。 この問題は、共変量シフトとラベルギャップを伴う回帰問題であるため、難しい。 回帰によく用いられる平均二乗あるいは平均絶対誤差の代わりにヒストグラム損失を用い,共変量シフトに対して有用であることがわかった。 ラベルギャップに対処するために,逆エントロピー最適化のためのサンプル重み付けを提案する。 実験的な評価において,提案手法は,R2スコアと平均絶対誤差を用いて,半教師付きおよび教師付き領域適応に基づく多くの競争ベースラインより優れる。 アブレーション研究は、提案する各成分の全体的関連性を示している。

Air quality monitoring is becoming an essential task with rising awareness about air quality. Low cost air quality sensors are easy to deploy but are not as reliable as the costly and bulky reference monitors. The low quality sensors can be calibrated against the reference monitors with the help of deep learning. In this paper, we translate the task of sensor calibration into a semi-supervised domain adaptation problem and propose a novel solution for the same. The problem is challenging because it is a regression problem with covariate shift and label gap. We use histogram loss instead of mean squared or mean absolute error, which is commonly used for regression, and find it useful against covariate shift. To handle the label gap, we propose weighting of samples for adversarial entropy optimization. In experimental evaluations, the proposed scheme outperforms many competitive baselines, which are based on semi-supervised and supervised domain adaptation, in terms of R2 score and mean absolute error. Ablation studies show the relevance of each proposed component in the entire scheme.
翻訳日:2022-10-04 17:30:17 公開日:2022-10-02
# 任意動作系列におけるユーザ識別のためのデータ表現と機械学習アーキテクチャの比較

Comparison of Data Representations and Machine Learning Architectures for User Identification on Arbitrary Motion Sequences ( http://arxiv.org/abs/2210.00527v1 )

ライセンス: Link先を確認
Christian Schell, Andreas Hotho, Marc Erich Latoschik(参考訳) 信頼性が高く堅牢なユーザ識別と認証は、多くのデジタルサービスにとって重要かつ必要な要件である。 ソーシャルバーチャルリアリティ(VR)において最重要であり、特に現実的な現実的なアバターのようなリアルな人物の忠実な複製としてのデジタル出会いにおいて、信頼を確保する。 最近の研究は、拡張現実(XR)システムの同一性を検証する新しいソリューションを提供することに大きな関心を示している。 本稿では,現在のxrシステムの大部分が提供するデータストリームである頭と手の動きの任意のシーケンスに基づいて,ユーザを識別するためのさまざまな機械学習手法を比較する。 頭と手の動きデータ(シーン相対性,体相対性,体相対速度)の3つのポテンシャル表現を比較し,5つの機械学習アーキテクチャ(ランダムフォレスト,多層パーセプトロン,フルリカレントニューラルネットワーク,長時間記憶,ゲートリカレントユニット)のパフォーマンスを比較した。 公開データセット“Talking with Hands”を使用して、再現性を確保し、将来の作業のベースラインを提供するために、すべてのコードを公開しています。 ハイパーパラメータ最適化の後、長期記憶アーキテクチャと身体関連データの組み合わせは競合する組み合わせよりも優れており、モデルは150秒以内に精度100\%の34人のどれかを正確に識別する。 モデル、トレーニング、評価のコードは公開されています。 また,本手法は,研究者や実践者を支援するために,行動計測に基づく識別と認証のための効果的な基盤を提供する。

Reliable and robust user identification and authentication are important and often necessary requirements for many digital services. It becomes paramount in social virtual reality (VR) to ensure trust, specifically in digital encounters with lifelike realistic-looking avatars as faithful replications of real persons. Recent research has shown great interest in providing new solutions that verify the identity of extended reality (XR) systems. This paper compares different machine learning approaches to identify users based on arbitrary sequences of head and hand movements, a data stream provided by the majority of today's XR systems. We compare three different potential representations of the motion data from heads and hands (scene-relative, body-relative, and body-relative velocities), and by comparing the performances of five different machine learning architectures (random forest, multilayer perceptron, fully recurrent neural network, long-short term memory, gated recurrent unit). We use the publicly available dataset "Talking with Hands" and publish all our code to allow reproducibility and to provide baselines for future work. After hyperparameter optimization, the combination of a long-short term memory architecture and body-relative data outperformed competing combinations: the model correctly identifies any of the 34 subjects with an accuracy of 100\% within 150 seconds. The code for models, training and evaluation is made publicly available. Altogether, our approach provides an effective foundation for behaviometric-based identification and authentication to guide researchers and practitioners.
翻訳日:2022-10-04 17:30:02 公開日:2022-10-02
# プライバシ保護推奨のための異種グラフニューラルネットワーク

Heterogeneous Graph Neural Network for Privacy-Preserving Recommendation ( http://arxiv.org/abs/2210.00538v1 )

ライセンス: Link先を確認
Yuecen Wei, Xingcheng Fu, Qingyun Sun, Hao Peng, Jia Wu, Jinyan Wang, and Xianxian Li(参考訳) ソーシャルネットワークは、ディープラーニングの技術進歩を伴う異種グラフニューラルネットワーク(HGNN)であると考えられている。 HGNNは、均質なデータと比較して、トレーニング段階で個人に関する情報の様々な側面を吸収する。 つまり、多くの情報が学習結果、特に繊細な情報でカバーされているということだ。 しかしながら、均質グラフ上のプライバシ保存手法は、同じ種類のノード属性やリレーションのみを保持するため、複雑さのため、ヘテロジニアスグラフでは効果的に動作できない。 この問題に対処するために,hetedpと呼ばれる差分プライバシ機構に基づく,グラフの特徴とトポロジに関する二重保証を提供する,新たなヘテロジニアスグラフニューラルネットワークプライバシ保存手法を提案する。 特に、不均一グラフのプライバシー漏洩を明らかにする新たな攻撃手法を最初に定義する。 具体的には、プライバシ保護機能エンコーダと、データ多様性を許容し攻撃に抵抗する差分プライバシーに基づく勾配摂動を有する異種リンクコンストラクタを含む、2段階パイプラインフレームワークを設計する。 ノイズの制御とモデルパフォーマンスの向上のために,上記の2つのモジュールに対して適切なプライバシ予算を割り当てるために,バイレベル最適化パターンを利用する。 4つの公開ベンチマーク実験により,HeteDP法は不均一なグラフプライバシリークに対して優れたモデル一般化が可能であることが示された。

Social networks are considered to be heterogeneous graph neural networks (HGNNs) with deep learning technological advances. HGNNs, compared to homogeneous data, absorb various aspects of information about individuals in the training stage. That means more information has been covered in the learning result, especially sensitive information. However, the privacy-preserving methods on homogeneous graphs only preserve the same type of node attributes or relationships, which cannot effectively work on heterogeneous graphs due to the complexity. To address this issue, we propose a novel heterogeneous graph neural network privacy-preserving method based on a differential privacy mechanism named HeteDP, which provides a double guarantee on graph features and topology. In particular, we first define a new attack scheme to reveal privacy leakage in the heterogeneous graphs. Specifically, we design a two-stage pipeline framework, which includes the privacy-preserving feature encoder and the heterogeneous link reconstructor with gradients perturbation based on differential privacy to tolerate data diversity and against the attack. To better control the noise and promote model performance, we utilize a bi-level optimization pattern to allocate a suitable privacy budget for the above two modules. Our experiments on four public benchmarks show that the HeteDP method is equipped to resist heterogeneous graph privacy leakage with admirable model generalization.
翻訳日:2022-10-04 17:29:34 公開日:2022-10-02
# 多様体間の位相リッチ写像の深い可逆近似

Deep Invertible Approximation of Topologically Rich Maps between Manifolds ( http://arxiv.org/abs/2210.00577v1 )

ライセンス: Link先を確認
Michael Puthawala, Matti Lassas, Ivan Dokmanic, Pekka Pankka, Maarten de Hoop(参考訳) 位相的に興味深い多様体間の地図の安定な普遍近似を可能にするニューラルネットワークをどのように設計するか。 答えは座標射影である。 トポロジカルデータ分析(TDA)に基づくニューラルネットワークは、永続ホモロジーのようなツールを使用してデータのトポロジカルシグネチャを学習し、トレーニングを安定化するが、普遍的な近似子ではないかもしれない。 他のアーキテクチャでは、部分多様体上のデータ分布を普遍的に近似するが、後者が単一のチャートによって与えられるときのみ、トポロジーを変更するマップを学べなくなる。 By exploiting the topological parallels between locally bilipschitz maps, covering spaces, and local homeomorphisms, and by using universal approximation arguments from machine learning, we find that a novel network of the form $\mathcal{T} \circ p \circ \mathcal{E}$, where $\mathcal{E}$ is an injective network, $p$ a fixed coordinate projection, and $\mathcal{T}$ a bijective network, is a universal approximator of local diffeomorphisms between compact smooth submanifolds embedded in $\mathbb{R}^n$. ターゲットマップがトポロジを変える場合のケースを強調します。 さらに、プロジェクション$p$を制約することにより、ネットワークの多値反転を普遍性を犠牲にすることなく計算できることが分かる。 応用として、未知群作用を持つ群不変関数の学習は、有限群に対する局所微分同相を学習する問題に自然に還元されることを示す。 我々の理論は、群作用の軌道を回復することを許している。 また, 対称性を有する分子の分子イメージングへの拡張の可能性についても概説する。 最後に,本解析は,生成問題における位相表現開始空間の選択を知らせる。

How can we design neural networks that allow for stable universal approximation of maps between topologically interesting manifolds? The answer is with a coordinate projection. Neural networks based on topological data analysis (TDA) use tools such as persistent homology to learn topological signatures of data and stabilize training but may not be universal approximators or have stable inverses. Other architectures universally approximate data distributions on submanifolds but only when the latter are given by a single chart, making them unable to learn maps that change topology. By exploiting the topological parallels between locally bilipschitz maps, covering spaces, and local homeomorphisms, and by using universal approximation arguments from machine learning, we find that a novel network of the form $\mathcal{T} \circ p \circ \mathcal{E}$, where $\mathcal{E}$ is an injective network, $p$ a fixed coordinate projection, and $\mathcal{T}$ a bijective network, is a universal approximator of local diffeomorphisms between compact smooth submanifolds embedded in $\mathbb{R}^n$. We emphasize the case when the target map changes topology. Further, we find that by constraining the projection $p$, multivalued inversions of our networks can be computed without sacrificing universality. As an application, we show that learning a group invariant function with unknown group action naturally reduces to the question of learning local diffeomorphisms for finite groups. Our theory permits us to recover orbits of the group action. We also outline possible extensions of our architecture to address molecular imaging of molecules with symmetries. Finally, our analysis informs the choice of topologically expressive starting spaces in generative problems.
翻訳日:2022-10-04 17:29:12 公開日:2022-10-02
# MultiScale MeshGraphNets

MultiScale MeshGraphNets ( http://arxiv.org/abs/2210.00612v1 )

ライセンス: Link先を確認
Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, Peter Battaglia(参考訳) 近年、機械学習による数値シミュレーションの高コスト化への関心が高まっており、いくつかの学習モデルは精度を維持しながら古典的解法よりも優れたスピードアップを実現している。 しかし、これらの手法は通常、低解像度設定でテストされており、最終的に取り組むべき高解像度シミュレーションにスケールできるかどうかは不明だ。 本研究では,meshgraphnetsからフレームワークを改善するための2つの補完的アプローチを提案する。 MeshGraphNetsは、情報伝達のためにメッセージパッシンググラフニューラルネットワークに依存しており、この構造はグラフ空間において空間の等距離点がさらに離れてなるにつれて、高分解能シミュレーションの制限要因となる。 まず、より粗いメッシュ上での高解像度システムの正確なサロゲートダイナミクスを学習し、メッセージパッシングボトルネックを除去し、性能を向上させること、次に、2つの異なる解像度(微細で粗い)でメッセージを転送する階層的アプローチ(MultiScale MeshGraphNets)を導入し、計算リソースを少なくしながらMeshGraphNetsの精度を大幅に向上させることを実証する。

In recent years, there has been a growing interest in using machine learning to overcome the high cost of numerical simulation, with some learned models achieving impressive speed-ups over classical solvers whilst maintaining accuracy. However, these methods are usually tested at low-resolution settings, and it remains to be seen whether they can scale to the costly high-resolution simulations that we ultimately want to tackle. In this work, we propose two complementary approaches to improve the framework from MeshGraphNets, which demonstrated accurate predictions in a broad range of physical systems. MeshGraphNets relies on a message passing graph neural network to propagate information, and this structure becomes a limiting factor for high-resolution simulations, as equally distant points in space become further apart in graph space. First, we demonstrate that it is possible to learn accurate surrogate dynamics of a high-resolution system on a much coarser mesh, both removing the message passing bottleneck and improving performance; and second, we introduce a hierarchical approach (MultiScale MeshGraphNets) which passes messages on two different resolutions (fine and coarse), significantly improving the accuracy of MeshGraphNets while requiring less computational resources.
翻訳日:2022-10-04 17:28:44 公開日:2022-10-02
# 自己教師型学習の損失状況はどのようなものか?

What shapes the loss landscape of self-supervised learning? ( http://arxiv.org/abs/2210.00638v1 )

ライセンス: Link先を確認
Liu Ziyin, Ekdeep Singh Lubana, Masahito Ueda, Hidenori Tanaka(参考訳) 近年,表現の完全的・次元的崩壊防止は,自己教師型学習(SSL)の設計原則となっている。 しかし、理論的な理解には疑問が残っている: これらの崩壊はいつ起こるのか? メカニズムと原因は何ですか? 線形モデルに対するSSLロスランドスケープを徹底的に解析することにより,これらの質問に答える。 SSLランドスケープを解析的に抽出可能な理論を導出し,崩壊現象の配列を正確に把握し,その原因を明らかにする。 最後に, 解析理論によって得られる解釈可能性を活用し, 次元崩壊がいかに有用か, データ不均衡に対するSSLの堅牢性に影響を与えるかを理解する。

Prevention of complete and dimensional collapse of representations has recently become a design principle for self-supervised learning (SSL). However, questions remain in our theoretical understanding: When do those collapses occur? What are the mechanisms and causes? We provide answers to these questions by thoroughly analyzing SSL loss landscapes for a linear model. We derive an analytically tractable theory of SSL landscape and show that it accurately captures an array of collapse phenomena and identifies their causes. Finally, we leverage the interpretability afforded by the analytical theory to understand how dimensional collapse can be beneficial and what affects the robustness of SSL against data imbalance.
翻訳日:2022-10-04 17:28:20 公開日:2022-10-02
# AIのためのメタ意思決定の確立:関連性、表現、推論のオントロジー

Establishing Meta-Decision-Making for AI: An Ontology of Relevance, Representation and Reasoning ( http://arxiv.org/abs/2210.00608v1 )

ライセンス: Link先を確認
Cosmin Badea, Leilani Gilpin(参考訳) 本稿では,AI(Meta-Decision-Making for Artificial Intelligence)の確立,自律性の向上,メトリクスとベンチマークを構築するためのフレームワーク構築を目的とした意思決定システム構築のオントロジーを提案する。 そこで,本稿では,関連性,表現,推論の3つの部分を提案し,第3波認知システムにおける安全性の確保とリスク軽減におけるそれらの価値について考察する。 私たちの命名法は意思決定に関する文献を反映しており、私たちのオントロジーによって研究者は、これらの1つ以上の部分に関連して、自分たちの作品を枠組み化することができる。

We propose an ontology of building decision-making systems, with the aim of establishing Meta-Decision-Making for Artificial Intelligence (AI), improving autonomy, and creating a framework to build metrics and benchmarks upon. To this end, we propose the three parts of Relevance, Representation, and Reasoning, and discuss their value in ensuring safety and mitigating risk in the context of third wave cognitive systems. Our nomenclature reflects the literature on decision-making, and our ontology allows researchers that adopt it to frame their work in relation to one or more of these parts.
翻訳日:2022-10-04 17:01:26 公開日:2022-10-02
# 二元化画像復元ネットワーク用基本二元畳み込みユニット

Basic Binary Convolution Unit for Binarized Image Restoration Network ( http://arxiv.org/abs/2210.00405v1 )

ライセンス: Link先を確認
Bin Xia, Yulun Zhang, Yitong Wang, Yapeng Tian, Wenming Yang, Radu Timofte, and Luc Van Gool(参考訳) リソース制限されたデバイスへの展開には、より軽量で高速な画像復元(IR)モデルが不可欠である。 最も有望なモデル圧縮手法の1つであるバイナリニューラルネットワーク(BNN)は、完全精度畳み込みニューラルネットワーク(CNN)の計算とパラメータを劇的に削減することができる。 しかし、BNNと完全精度CNNには様々な特性があり、CNNを設計してBNNを開発する経験はほとんど利用できない。 本研究では,irタスクに対して残差接続,バッチノルム,アクティベーション関数,構造といったバイナリ畳み込みのコンポーネントを再考する。 我々は,バイナリ畳み込みにおける各コンポーネントの役割を体系的に分析し,落とし穴について議論する。 具体的には、残差接続は二項化による情報損失を低減し、BatchNormは残差接続と二項畳み込みの値範囲ギャップを解消し、活性化関数の位置がBNNの性能に劇的な影響を及ぼす。 本研究の結果と解析に基づき,単純かつ効率的な2元畳み込みユニット(bbcu)を設計した。 さらに、IRネットワークを4つの部分に分割し、それぞれにBBCUの変種を特別に設計し、これらの部品をバイナライズする利点を探る。 我々は、異なるIRタスクの実験を行い、BBCUは他のBNNや軽量モデルよりも大幅に優れており、BBCUがバイナライズされたIRネットワークの基本ユニットとして機能することを示す。 すべてのコードとモデルがリリースされる。

Lighter and faster image restoration (IR) models are crucial for the deployment on resource-limited devices. Binary neural network (BNN), one of the most promising model compression methods, can dramatically reduce the computations and parameters of full-precision convolutional neural networks (CNN). However, there are different properties between BNN and full-precision CNN, and we can hardly use the experience of designing CNN to develop BNN. In this study, we reconsider components in binary convolution, such as residual connection, BatchNorm, activation function, and structure, for IR tasks. We conduct systematic analyses to explain each component's role in binary convolution and discuss the pitfalls. Specifically, we find that residual connection can reduce the information loss caused by binarization; BatchNorm can solve the value range gap between residual connection and binary convolution; The position of the activation function dramatically affects the performance of BNN. Based on our findings and analyses, we design a simple yet efficient basic binary convolution unit (BBCU). Furthermore, we divide IR networks into four parts and specially design variants of BBCU for each part to explore the benefit of binarizing these parts. We conduct experiments on different IR tasks, and our BBCU significantly outperforms other BNNs and lightweight models, which shows that BBCU can serve as a basic unit for binarized IR networks. All codes and models will be released.
翻訳日:2022-10-04 16:54:35 公開日:2022-10-02
# Deep-OCTA: OCTA画像を用いた糖尿病網膜症解析のためのディープラーニングアプローチ

Deep-OCTA: Ensemble Deep Learning Approaches for Diabetic Retinopathy Analysis on OCTA Images ( http://arxiv.org/abs/2210.00515v1 )

ライセンス: Link先を確認
Junlin Hou, Fan Xiao, Jilan Xu, Yuejie Zhang, Haidong Zou, Rui Feng(参考訳) 糖尿病網膜症 (DR) の診断において, OCTA ( Ultra-wide optical coherence tomography angiography) が重要である。 しかし、超広帯域OCTAを用いた自動DR解析に焦点を当てた研究はほとんどない。 本稿では,糖尿病網膜症解析チャレンジ(DRAC)のための超広範OCTAに基づく新しい,実用的なディープラーニングソリューションを提案する。 dr損傷の分節化において,unetとunet++を用いて強いデータ拡張とモデルアンサンブルを有する3つの病変を分節する。 画像品質評価タスクでは、インセプションV3、SE-ResNeXt、Vision Transformerモデルのアンサンブルを作成する。 大規模データセットの事前トレーニングとハイブリッドmixupとcutmix戦略はどちらも,モデルの一般化能力を高めるために採用されています。 DRグレーディングタスクでは、視覚変換器(ViT)を構築し、カラーファンドス画像に事前トレーニングされたViTモデルがOCTA画像の有用な基板として機能することを確認する。 提案手法は,DRACの3つのリーダーボードにおいて,それぞれ4位,3位,5位にランクされた。 ソースコードはhttps://github.com/FDU-VTS/DRACで公開されている。

The ultra-wide optical coherence tomography angiography (OCTA) has become an important imaging modality in diabetic retinopathy (DR) diagnosis. However, there are few researches focusing on automatic DR analysis using ultra-wide OCTA. In this paper, we present novel and practical deep-learning solutions based on ultra-wide OCTA for the Diabetic Retinopathy Analysis Challenge (DRAC). In the segmentation of DR lesions task, we utilize UNet and UNet++ to segment three lesions with strong data augmentation and model ensemble. In the image quality assessment task, we create an ensemble of InceptionV3, SE-ResNeXt, and Vision Transformer models. Pre-training on the large dataset as well as the hybrid MixUp and CutMix strategy are both adopted to boost the generalization ability of our model. In the DR grading task, we build a Vision Transformer (ViT) and fnd that the ViT model pre-trained on color fundus images serves as a useful substrate for OCTA images. Our proposed methods ranked 4th, 3rd, and 5th on the three leaderboards of DRAC, respectively. The source code will be made available at https://github.com/FDU-VTS/DRAC.
翻訳日:2022-10-04 16:54:10 公開日:2022-10-02
# 最小深度情報と振動フィードバックを用いた半自律義手制御

Semi-autonomous Prosthesis Control Using Minimal Depth Information and Vibrotactile Feedback ( http://arxiv.org/abs/2210.00541v1 )

ライセンス: Link先を確認
Miguel Nobre Castro and Strahinja Dosen(参考訳) コンピュータビジョンに基づく半自律義肢制御は、認知的負担を軽減しつつ、特に複数の機能を持つ高度なシステムを使用する場合、パフォーマンスを向上させるために使用できる。 しかし、このアプローチの欠点は、大量のデータ(例えば深度センサーによって提供される点雲)の複雑な処理に依存しているため、そのようなシステムを組込み補綴器にデプロイする際の課題となる。 そこで本研究では,最小限のデータを用いて対象物の形状を再構築する手法を提案する。 具体的には、4つの同時レーザースキャナ線が対象断面の部分輪郭を提供する。 単純な幾何学は球形、円筒形、立方体の次元と向きを再構成するために用いられる。 プロトタイプシステムは,レーザーを目標対象物に向けて向ける際に,走査線をシミュレートするための深度センサと振動フィードバックを用いて実装された。 プロトタイプは、半自動義肢を使って異なる形状、大きさ、方向の10の物体のセットを把握した10名の有能なボランティアによってテストされた。 新型のプロトタイプは全深度データを用いたベンチマークシステムと比較された。 その結果、新しいシステムは全てのオブジェクトをうまく扱えるようになり、トレーニングによって性能が向上した。 そこで, 本研究は, 補綴把握に特化した埋め込み深度センシングシステムを構築するための重要なステップである。

A semi-autonomous prosthesis control based on computer vision can be used to improve performance while decreasing the cognitive burden, especially when using advanced systems with multiple functions. However, a drawback of this approach is that it relies on the complex processing of a significant amount of data (e.g., a point cloud provided by a depth sensor), which can be a challenge when deploying such a system onto an embedded prosthesis controller. In the present study, therefore, we propose a novel method to reconstruct the shape of the target object using minimal data. Specifically, four concurrent laser scanner lines provide partial contours of the object cross-section. Simple geometry is then used to reconstruct the dimensions and orientation of spherical, cylindrical and cuboid objects. The prototype system was implemented using depth sensor to simulate the scan lines and vibrotactile feedback to aid the user during aiming of the laser towards the target object. The prototype was tested on ten able-bodied volunteers who used the semi-autonomous prosthesis to grasp a set of ten objects of different shape, size and orientation. The novel prototype was compared against the benchmark system, which used the full depth data. The results showed that novel system could be used to successfully handle all the objects, and that the performance improved with training, although it was still somewhat worse compared to the benchmark. The present study is therefore an important step towards building a compact system for embedded depth sensing specialized for prosthesis grasping.
翻訳日:2022-10-04 16:53:53 公開日:2022-10-02
# iCTGAN--加速度計に基づく歩行認証システムにおけるランダムベクトル攻撃の攻撃軽減手法

iCTGAN--An Attack Mitigation Technique for Random-vector Attack on Accelerometer-based Gait Authentication Systems ( http://arxiv.org/abs/2210.00615v1 )

ライセンス: Link先を確認
Jun Hyung Mo and Rajesh Kumar(参考訳) 最近の研究では、加速度計に基づく歩行認証システム(v$ABGait)の実装がランダムベクター攻撃の影響を受けやすいことが知られている。 同じ研究は、攻撃を緩和するためのベータノイズアシスト実装($\beta$ABGait)を提案した。 本稿では,3つの加速度計に基づく歩行データセットを用いて,$v$ABGaitと$\beta$ABGaitのランダムベクトル攻撃の有効性を評価する。 さらに,条件付きタブラリ生成適応ネットワークを用いたABGaitの代替実装である$i$ABGaitを提案する。 次に,従来のゼロエフォート攻撃とランダムベクター攻撃に対する$i$ABGaitのレジリエンスを評価した。 その結果、$i$ABGaitはランダムベクター攻撃の影響をある程度軽減し、ほとんどの実験環境で$\beta$ABGaitを上回っていることがわかった。

A recent study showed that commonly (vanilla) studied implementations of accelerometer-based gait authentication systems ($v$ABGait) are susceptible to random-vector attack. The same study proposed a beta noise-assisted implementation ($\beta$ABGait) to mitigate the attack. In this paper, we assess the effectiveness of the random-vector attack on both $v$ABGait and $\beta$ABGait using three accelerometer-based gait datasets. In addition, we propose $i$ABGait, an alternative implementation of ABGait, which uses a Conditional Tabular Generative Adversarial Network. Then we evaluate $i$ABGait's resilience against the traditional zero-effort and random-vector attacks. The results show that $i$ABGait mitigates the impact of the random-vector attack to a reasonable extent and outperforms $\beta$ABGait in most experimental settings.
翻訳日:2022-10-04 16:53:30 公開日:2022-10-02
# naturenerf: 編集可能な新規ビュー合成のための内在的神経放射野の学習

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis ( http://arxiv.org/abs/2210.00647v1 )

ライセンス: Link先を確認
Weicai Ye, Shuo Chen, Chong Bao, Hujun Bao, Marc Pollefeys, Zhaopeng Cui, Guofeng Zhang(参考訳) IntrinsicNeRFと呼ばれる内在性神経放射場は、NeRFベース〜\cite{mildenhall2020nerf}ニューラルレンダリング法に固有の分解を導入し、既存の逆レンダリング法とニューラルレンダリング法を併用しながら、ルームスケールシーンで編集可能な新規ビュー合成を行うことができる。 そこで本研究では,従来の内在的分解制約を持つ内在的NeRFを教師なしで訓練し,時間的に一貫した内在的分解結果が得られるような,距離対応点サンプリングおよび適応的反射性反復クラスタリング最適化法を提案する。 シーン内の類似する反射率の異なる隣接インスタンスが混ざり合わされる問題に対処するため,より粗く細かな最適化を施した階層的クラスタリング手法を提案し,高速な階層的インデックス表現を得る。 シーンのリカラー化、マテリアル編集、照明のバリエーションなど、魅力的なリアルタイム拡張現実アプリケーションを可能にする。 Blender Object と Replica Scene の大規模な実験により,高品質で一貫した内在的分解結果と高忠実な新規ビュー合成が得られることを示した。 コードとデータはプロジェクトのWebページで公開されている。

We present intrinsic neural radiance fields, dubbed IntrinsicNeRF, that introduce intrinsic decomposition into the NeRF-based~\cite{mildenhall2020nerf} neural rendering method and can perform editable novel view synthesis in room-scale scenes while existing inverse rendering combined with neural rendering methods~\cite{zhang2021physg, zhang2022modeling} can only work on object-specific scenes. Given that intrinsic decomposition is a fundamentally ambiguous and under-constrained inverse problem, we propose a novel distance-aware point sampling and adaptive reflectance iterative clustering optimization method that enables IntrinsicNeRF with traditional intrinsic decomposition constraints to be trained in an unsupervised manner, resulting in temporally consistent intrinsic decomposition results. To cope with the problem of different adjacent instances of similar reflectance in a scene being incorrectly clustered together, we further propose a hierarchical clustering method with coarse-to-fine optimization to obtain a fast hierarchical indexing representation. It enables compelling real-time augmented reality applications such as scene recoloring, material editing, and illumination variation. Extensive experiments on Blender Object and Replica Scene demonstrate that we can obtain high-quality, consistent intrinsic decomposition results and high-fidelity novel view synthesis even for challenging sequences. Code and data are available on the project webpage: https://zju3dv.github.io/intrinsic_nerf/.
翻訳日:2022-10-04 16:53:16 公開日:2022-10-02
# 時間知識グラフを用いた出版影響表現による引用軌道予測

Citation Trajectory Prediction via Publication Influence Representation Using Temporal Knowledge Graph ( http://arxiv.org/abs/2210.00450v1 )

ライセンス: Link先を確認
Chang Zong, Yueting Zhuang, Weiming Lu, Jian Shao and Siliang Tang(参考訳) 科学技術における出版物の影響を予測することは重要な研究分野となり、技術投資、研究方向選択、技術政策決定など様々な現実のシナリオで有用である。 循環軌道予測はこの分野で最も一般的な課題の一つである。 既存のアプローチは主に学術論文からの時間的およびグラフデータのマイニングに依存している。 最近の手法では、新しい出版物のメタデータの特徴を集約することで、コールドスタート予測を処理できる。 しかし、引用の原因となる暗黙の要因と、時間的および属性的特徴を扱うことによるより豊かな情報はまだ検討される必要がある。 本稿では,すべての属性の履歴情報を用いて,新しい出版物や既存の出版物の影響(引用の勢い)を表現できる新たな引用軌跡予測フレームワークctpirを提案する。 本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。 より複雑な状況下でフレームワークの有効性をテストするために,AIatentという,人工知能分野のグローバル特許を起源とする,実世界から新たな時間的知識グラフデータセットを収集し,構築する。 APS学術データセットとAIPatentデータセットの両方を用いて実験を行った。 その結果,引用軌道予測タスクにおけるアプローチの強みが示された。

Predicting the impact of publications in science and technology has become an important research area, which is useful in various real world scenarios such as technology investment, research direction selection, and technology policymaking. Citation trajectory prediction is one of the most popular tasks in this area. Existing approaches mainly rely on mining temporal and graph data from academic articles. Some recent methods are capable of handling cold-start prediction by aggregating metadata features of new publications. However, the implicit factors causing citations and the richer information from handling temporal and attribute features still need to be explored. In this paper, we propose CTPIR, a new citation trajectory prediction framework that is able to represent the influence (the momentum of citation) of either new or existing publications using the history information of all their attributes. Our framework is composed of three modules: difference-preserved graph embedding, fine-grained influence representation, and learning-based trajectory calculation. To test the effectiveness of our framework in more situations, we collect and construct a new temporal knowledge graph dataset from the real world, named AIPatent, which stems from global patents in the field of artificial intelligence. Experiments are conducted on both the APS academic dataset and our contributed AIPatent dataset. The results demonstrate the strengths of our approach in the citation trajectory prediction task.
翻訳日:2022-10-04 16:46:03 公開日:2022-10-02
# RISC-Vツールチェーンとアジャイル開発ベースのオープンソースニューロモーフィックプロセッサ

RISC-V Toolchain and Agile Development based Open-source Neuromorphic Processor ( http://arxiv.org/abs/2210.00562v1 )

ライセンス: Link先を確認
Jiulong Wang, Ruopu Wu, Guokai Chen, Xuhao Chen, Zhijie Jia, Boran Liu, Jixiang Zong, Di Zhao(参考訳) 近年,脳の動作を模倣するニューロモルフィックコンピューティングがコンピュータ科学の様々な分野で開発されている。 ANN(Artificial Neural Network)は、人工知能(AI)において重要な概念である。 認識と分類に利用される。 ハードウェア上で、高速でエネルギー効率のよい脳の振る舞いをシミュレートするより良い方法を探るため、研究者はニューロモルフィックコンピューティングのような高度な手法が必要である。 この場合、スパイキングニューラルネットワーク(SNN)はハードウェア実装において最適な選択肢となる。 最近の研究はSNNコンピューティングの高速化に重点を置いている。 しかし、ほとんどのアクセラレーターソリューションは、この構造における複雑な制御フローのためにエネルギー非効率なCPU加速器アーキテクチャに基づいている。 本稿では、汎用CPU機能とSNNを組み合わせた低消費電力ニューロモルフィックプロセッサであるWenquxing 22Aを提案し、RISC-V SNN拡張命令で効率的に計算する。 Wenquxing 22Aの主なアイデアは、SNN計算ユニットを汎用CPUのパイプラインに統合して、カスタマイズされたRISC-V SNN命令バージョン1.0(RV-SNN V1.0)、Streamlined Leaky Integrate-and-Fire(LIF)モデル、およびバイナリ確率スパイク応答依存塑性(STDP)による低消費電力コンピューティングを実現することである。 wenquxing 22aのソースコードはgiteeとgithubからオンラインで公開されている。 Wenquxing 22AをMNISTデータセットの認識に適用し、他のSNNシステムと比較する。 Wenquxing 22Aは,3ビットODINオンライン学習では85.00%,1ビットODINでは91.91%,アクセラレータソリューションでは5.13倍のエネルギー消費を達成できた。

In recent decades, neuromorphic computing aiming to imitate brains' behaviors has been developed in various fields of computer science. The Artificial Neural Network (ANN) is an important concept in Artificial Intelligence (AI). It is utilized in recognition and classification. To explore a better way to simulate obtained brain behaviors, which is fast and energy-efficient, on hardware, researchers need an advanced method such as neuromorphic computing. In this case, Spiking Neural Network (SNN) becomes an optimal choice in hardware implementation. Recent works are focusing on accelerating SNN computing. However, most accelerator solutions are based on CPU-accelerator architecture which is energy-inefficient due to the complex control flows in this structure. This paper proposes Wenquxing 22A, a low-power neuromorphic processor that combines general-purpose CPU functions and SNN to efficiently compute it with RISC-V SNN extension instructions. The main idea of Wenquxing 22A is to integrate the SNN calculation unit into the pipeline of a general-purpose CPU to achieve low-power computing with customized RISC-V SNN instructions version 1.0 (RV-SNN V1.0), Streamlined Leaky Integrate-and-Fire (LIF) model, and the binary stochastic Spike-timing-dependent-plasticity (STDP). The source code of Wenquxing 22A is released online on Gitee and GitHub. We apply Wenquxing 22A to the recognition of the MNIST dataset to make a comparison with other SNN systems. Our experiment results show that Wenquxing 22A improves the energy expenses by 5.13 times over the accelerator solution, ODIN, with approximately classification accuracy, 85.00% for 3-bit ODIN online learning, and 91.91% for 1-bit Wenquxing 22A.
翻訳日:2022-10-04 16:45:47 公開日:2022-10-02
# OCD: 条件付き拡散モデルによるオーバーフィットの学習

OCD: Learning to Overfit with Conditional Diffusion Models ( http://arxiv.org/abs/2210.00471v1 )

ライセンス: Link先を確認
Shahar Shlomo Lutati and Lior Wolf(参考訳) 本稿では,入力サンプル x 上で重みを条件付けし,x 上の基底モデルとそのラベル y を微調整して得られる重みと一致するように学習する動的モデルを提案する。 この入力サンプルとネットワーク重みのマッピングは, 標本分布の線形変換によって近似されることが示され, 偏波拡散モデルがこの課題に適していることが示唆された。 そこで本研究では, ベースモデルの単一層の変更に焦点をあて, この層の入力, アクティベーション, 出力を条件とした拡散モデルを提案する。 実験では, 画像分類, 3次元再構成, 表層データ, 音声分離などに適用可能であることを示す。 私たちのコードはhttps://github.com/ShaharLutatiPersonal/OCDで利用可能です。

We present a dynamic model in which the weights are conditioned on an input sample x and are learned to match those that would be obtained by finetuning a base model on x and its label y. This mapping between an input sample and network weights is shown to be approximated by a linear transformation of the sample distribution, which suggests that a denoising diffusion model can be suitable for this task. The diffusion model we therefore employ focuses on modifying a single layer of the base model and is conditioned on the input, activations, and output of this layer. Our experiments demonstrate the wide applicability of the method for image classification, 3D reconstruction, tabular data, and speech separation. Our code is available at https://github.com/ShaharLutatiPersonal/OCD.
翻訳日:2022-10-04 16:29:01 公開日:2022-10-02
# 複数の摂動に対する適応的滑らか度重み付き対向訓練とその安定性解析

Adaptive Smoothness-weighted Adversarial Training for Multiple Perturbations with Its Stability Analysis ( http://arxiv.org/abs/2210.00557v1 )

ライセンス: Link先を確認
Jiancong Xiao, Zeyu Qin, Yanbo Fan, Baoyuan Wu, Jue Wang, Zhi-Quan Luo(参考訳) 対人訓練(AT)は、敵の事例に対して最も効果的な方法の1つとして実証されている。 既存のほとんどの作業は、1種類の摂動(例えば$\ell_\infty$攻撃)に焦点を当てているが、dnnは様々なタイプの敵からの脅威に直面している。 したがって、異なる摂動型($\ell_1$, $\ell_2$, $\ell_\infty$ノルム有界摂動)に対する対角的強靭性を一般化するために、多重摂動(ATMP)に対する対角的トレーニングを提案する。 しかし、結果として生じるモデルは異なる攻撃の間のトレードオフを示す。 一方、ATMPの理論的解析は行われておらず、さらなる発展を制限している。 本稿では、まずATMPの滑らかさ解析を行い、$\ell_1$, $\ell_2$, $\ell_\infty$がATMPの損失関数の滑らかさに異なる寄与を与えることを示す。 そこで我々は,安定性に基づく過剰リスク境界を開発し,複数の摂動に対する適応的滑らか度重み付き対向トレーニングを提案する。 理論的には、我々のアルゴリズムはより良い境界をもたらす。 CIFAR10とCIFAR100の実験は、複数の摂動攻撃の混合に対して最先端の性能を達成する。

Adversarial Training (AT) has been demonstrated as one of the most effective methods against adversarial examples. While most existing works focus on AT with a single type of perturbation e.g., the $\ell_\infty$ attacks), DNNs are facing threats from different types of adversarial examples. Therefore, adversarial training for multiple perturbations (ATMP) is proposed to generalize the adversarial robustness over different perturbation types (in $\ell_1$, $\ell_2$, and $\ell_\infty$ norm-bounded perturbations). However, the resulting model exhibits trade-off between different attacks. Meanwhile, there is no theoretical analysis of ATMP, limiting its further development. In this paper, we first provide the smoothness analysis of ATMP and show that $\ell_1$, $\ell_2$, and $\ell_\infty$ adversaries give different contributions to the smoothness of the loss function of ATMP. Based on this, we develop the stability-based excess risk bounds and propose adaptive smoothness-weighted adversarial training for multiple perturbations. Theoretically, our algorithm yields better bounds. Empirically, our experiments on CIFAR10 and CIFAR100 achieve the state-of-the-art performance against the mixture of multiple perturbations attacks.
翻訳日:2022-10-04 16:28:49 公開日:2022-10-02
# 臨床診断支援のための深層学習モデルの不確実性推定法-臨床医の視点から

Uncertainty estimations methods for a deep learning model to aid in clinical decision-making -- a clinician's perspective ( http://arxiv.org/abs/2210.00589v1 )

ライセンス: Link先を確認
Michael Dohopolski (1), Kai Wang (1), Biling Wang (1), Ti Bai (1), Dan Nguyen (1), David Sher (1), Steve Jiang (1), Jing Wang (1) ((1) Medical Artificial Intelligence and Automation Laboratory and Department of Radiation Oncology, UT Southwestern Medical Center, Dallas TX 75235, USA)(参考訳) 予測不確実性推定は、予測信頼性を定量化できる可能性があり、臨床的に重要である。 臨床医は、信頼できる情報が得られれば、より信頼性の高い「ブラックボックス」モデルを信頼することができる。 ディープラーニングに触発された不確実性推定技術はいくつか存在するが、医療データセットに実装されているものはほとんどない。 放射線治療を受けた271頭頸部癌患者の摂食チューブ配置予測を訓練したモデルを用いて,ドロップアウト変動推定(do),テスト時間加算(tta),コンフォメーション予測,不確かさ推定のための単一決定論的手法を比較した。 AUC, 感度, 特異性, 正の予測値 (PPV), 負の予測値 (NPV) の傾向を, 患者を「確実」なコホートと「不確実」なコホートに分類する様々なカットオフにおいて比較した。 これらのカットオフは、検証コホート内のパーセンタイル"不確かさ"を計算し、テストコホートに適用することで得られる。 AUC、感度、NPVは、予測がより「確実」であり、すなわち低い不確実性の推定値として増加した。 しかし, 多数決(DO, TTA, 適合予測)や厳格なアプローチ(3/3基準)が実施された場合, AUC, 感度, NPVは, 特異性やPVの顕著な損失を伴わずに改善した。 特に,小規模の単一施設データセットでは,モデルを臨床実践に取り入れる前に,複数の推定手法を評価することが重要である。

Prediction uncertainty estimation has clinical significance as it can potentially quantify prediction reliability. Clinicians may trust 'blackbox' models more if robust reliability information is available, which may lead to more models being adopted into clinical practice. There are several deep learning-inspired uncertainty estimation techniques, but few are implemented on medical datasets -- fewer on single institutional datasets/models. We sought to compare dropout variational inference (DO), test-time augmentation (TTA), conformal predictions, and single deterministic methods for estimating uncertainty using our model trained to predict feeding tube placement for 271 head and neck cancer patients treated with radiation. We compared the area under the curve (AUC), sensitivity, specificity, positive predictive value (PPV), and negative predictive value (NPV) trends for each method at various cutoffs that sought to stratify patients into 'certain' and 'uncertain' cohorts. These cutoffs were obtained by calculating the percentile "uncertainty" within the validation cohort and applied to the testing cohort. Broadly, the AUC, sensitivity, and NPV increased as the predictions were more 'certain' -- i.e., lower uncertainty estimates. However, when a majority vote (implementing 2/3 criteria: DO, TTA, conformal predictions) or a stricter approach (3/3 criteria) were used, AUC, sensitivity, and NPV improved without a notable loss in specificity or PPV. Especially for smaller, single institutional datasets, it may be important to evaluate multiple estimations techniques before incorporating a model into clinical practice.
翻訳日:2022-10-04 16:28:24 公開日:2022-10-02
# 確率的制約付き強化学習のための政策勾配

Policy Gradients for Probabilistic Constrained Reinforcement Learning ( http://arxiv.org/abs/2210.00596v1 )

ライセンス: Link先を確認
Weiqin Chen, Dharmashankar Subramanian and Santiago Paternain(参考訳) 本稿では、強化学習(RL)における安全な政策学習の問題について考察する。 特に、安全なポリシーまたはコントローラは、高い確率で与えられた安全集合におけるエージェントの軌道を維持するものである。 我々は,この安全性の概念を,その安全性と性能に関する理論的境界を提供することにより,文献でよく考慮される平均安全性の概念に関連付ける。 本研究で考慮される安全性の確率論的概念に取り組むことの課題は、それらの勾配に対する表現の欠如である。 実際、ポリシー最適化アルゴリズムは、目的関数と制約の勾配に依存する。 私たちの知る限りでは,この作業は,確率的制約に対して,そのような明示的な勾配表現を提供する最初の作業です。 このような確率勾配は自然にアルゴリズムに依存しており、様々なポリシーベースのアルゴリズムに適用できる可能性があることは注目に値する。 さらに,確率的制約を扱うことの利点(安全性と性能の観点から)を,平均的制約と比較して実証的に説明するための連続ナビゲーション問題を考える。

This paper considers the problem of learning safe policies in the context of reinforcement learning (RL). In particular, a safe policy or controller is one that, with high probability, maintains the trajectory of the agent in a given safe set. We relate this notion of safety to the notion of average safety often considered in the literature by providing theoretical bounds in terms of their safety and performance. The challenge of working with the probabilistic notion of safety considered in this work is the lack of expressions for their gradients. Indeed, policy optimization algorithms rely on gradients of the objective function and the constraints. To the best of our knowledge, this work is the first one providing such explicit gradient expressions for probabilistic constraints. It is worth noting that such probabilistic gradients are naturally algorithm independent, which provides possibilities for them to be applied to various policy-based algorithms. In addition, we consider a continuous navigation problem to empirically illustrate the advantages (in terms of safety and performance) of working with probabilistic constraints as compared to average constraints.
翻訳日:2022-10-04 16:27:51 公開日:2022-10-02
# 深層学習モデルにおける特徴選択の安定性とパワー向上

Ensembling improves stability and power of feature selection for deep learning models ( http://arxiv.org/abs/2210.00604v1 )

ライセンス: Link先を確認
Prashnna K Gyawali, Xiaoxia Liu, James Zou, Zihuai He(参考訳) 計算生物学を含む現実世界の異なる領域でディープラーニングモデルが採用されるにつれて、どのデータ特徴がモデルの決定に不可欠かを理解することがしばしば必要となる。 近年,深層学習モデルにおける特徴重要度指標の定義に力を入れているにも関わらず,深層学習モデルの設計と訓練に固有の確率性が特徴重要度スコアを不安定にしていることが判明した。 この結果、モデルのさまざまな実行にまたがる様々な特徴の説明や選択が生まれます。 特徴の信号強度と特徴間の相関が, この不安定性に直接寄与することを示す。 この不安定性に対処するため、我々は様々な時代にわたるモデルの重要度スコアをセンセンシングし、この単純なアプローチがこの問題に実質的に対処できることを見出します。 例えば、統計的保証のある特徴の選択を可能にするため、ノックオフ推論を考える。 深層学習訓練のさまざまな時代において,選択した特徴にかなりのばらつきが見られ,最も優れた特徴の選択は必ずしも最下位の検証損失で発生しない。 そこで,我々は,異なるハイパーパラメータ設定とエポックにまたがるトレーニングモデルの機能重要度を組み合わせるためのフレームワークを提案し,ベストモデルから機能を選択する代わりに,多数の優れたモデルから機能重要度スコアをアンサンブルする。 シミュレーションおよび様々な実世界のデータセットにおける実験の範囲をまたいで,提案フレームワークが機能選択のパワーを一貫して向上させることを示す。

With the growing adoption of deep learning models in different real-world domains, including computational biology, it is often necessary to understand which data features are essential for the model's decision. Despite extensive recent efforts to define different feature importance metrics for deep learning models, we identified that inherent stochasticity in the design and training of deep learning models makes commonly used feature importance scores unstable. This results in varied explanations or selections of different features across different runs of the model. We demonstrate how the signal strength of features and correlation among features directly contribute to this instability. To address this instability, we explore the ensembling of feature importance scores of models across different epochs and find that this simple approach can substantially address this issue. For example, we consider knockoff inference as they allow feature selection with statistical guarantees. We discover considerable variability in selected features in different epochs of deep learning training, and the best selection of features doesn't necessarily occur at the lowest validation loss, the conventional approach to determine the best model. As such, we present a framework to combine the feature importance of trained models across different hyperparameter settings and epochs, and instead of selecting features from one best model, we perform an ensemble of feature importance scores from numerous good models. Across the range of experiments in simulated and various real-world datasets, we demonstrate that the proposed framework consistently improves the power of feature selection.
翻訳日:2022-10-04 16:27:36 公開日:2022-10-02
# 変圧器を前方に向ける「ワイド・アテンション」

Wide Attention Is The Way Forward For Transformers ( http://arxiv.org/abs/2210.00640v1 )

ライセンス: Link先を確認
Jason Ross Brown, Yiren Zhao, Ilia Shumailov, Robert D Mullins(参考訳) Transformerは非常に強力で目立ったディープラーニングアーキテクチャである。 本研究では,深層学習がより良くなるという一般的な信念に挑戦し,より広い注意を惹きつけるトランスフォーマーを構築するための代替設計アプローチを示す。 我々は,多種多様な自然言語処理(nlp)タスクにおいて,幅広い単一層トランスフォーマーモデルが,スクラッチから学習した場合に,より深いものと競合するか,あるいは比較可能であることを実証する。 モデルアスペクト比の変化がトランスフォーマーに与える影響を系統的に研究する。 この比は、レイヤー数と1層当たりのアテンションヘッド数とをバランスさせながら、アテンションヘッドの総数と他のすべてのハイパーパラメータを一定に保つ。 4つのNLPタスクと10のアテンションタイプで、シングルレイヤワイドモデルでは、ディープモデルよりも0.3%パフォーマンスが向上している。 広範モデルではメモリフットプリントがはるかに小さく,コモディティハードウェア上で高速に動作可能であることに加えて,より広いモデルでも解釈可能であることを示す。 例えば、imdbのバイトレベルテキスト分類の単一層トランスフォーマは、cpu上での推論遅延が同じ精度の深いものよりも3.1倍高速であり、サイズは半分である。 以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。

The Transformer is an extremely powerful and prominent deep learning architecture. In this work, we challenge the commonly held belief in deep learning that going deeper is better, and show an alternative design approach that is building wider attention Transformers. We demonstrate that wide single layer Transformer models can compete with or outperform deeper ones in a variety of Natural Language Processing (NLP) tasks when both are trained from scratch. The impact of changing the model aspect ratio on Transformers is then studied systematically. This ratio balances the number of layers and the number of attention heads per layer while keeping the total number of attention heads and all other hyperparameters constant. On average, across 4 NLP tasks and 10 attention types, single layer wide models perform 0.3% better than their deep counterparts. We show an in-depth evaluation and demonstrate how wide models require a far smaller memory footprint and can run faster on commodity hardware, in addition, these wider models are also more interpretable. For example, a single layer Transformer on the IMDb byte level text classification has 3.1x faster inference latency on a CPU than its equally accurate deeper counterpart, and is half the size. Our results suggest that the critical direction for building better Transformers for NLP is their width, and that their depth is less relevant.
翻訳日:2022-10-04 16:27:13 公開日:2022-10-02
# DARTFormer:最高の注意力を見つける

DARTFormer: Finding The Best Type Of Attention ( http://arxiv.org/abs/2210.00641v1 )

ライセンス: Link先を確認
Jason Ross Brown, Yiren Zhao, Ilia Shumailov, Robert D Mullins(参考訳) 様々な効率的なトランスフォーマーアテンション機構が広範に広まっており、タスクを与えられたときにどのアテンションが最も効果的かを特定することが重要である。 本研究では,異種トランスフォーマーを構築するために,異なるアテンションタイプを組み合わせることにも興味がある。 DARTSのようなニューラルアーキテクチャサーチ(NAS)手法を最初に提案し、与えられたタスクに最適な注意を向け、この設定では、すべてのヘッドが同じ注意(均一モデル)を使用する。 この課題に対してNASは極めて有効であることが示唆され,IMDbバイトレベルのテキスト分類とListopsの最適注意機構を同定した。 次に、複数の異なるアテンションタイプを持つトランスフォーマーを検索し構築するためのフレームワークを拡張し、異種トランスフォーマーと呼ぶ。 これらの異種変圧器は, 平均等質モデルよりは優れているが, ベストを上回ることは出来ない。 我々は、異種注意が理に適っている理由と、それが最終的に失敗する理由を考察する。

Given the wide and ever growing range of different efficient Transformer attention mechanisms, it is important to identify which attention is most effective when given a task. In this work, we are also interested in combining different attention types to build heterogeneous Transformers. We first propose a DARTS-like Neural Architecture Search (NAS) method to find the best attention for a given task, in this setup, all heads use the same attention (homogeneous models). Our results suggest that NAS is highly effective on this task, and it identifies the best attention mechanisms for IMDb byte level text classification and Listops. We then extend our framework to search for and build Transformers with multiple different attention types, and call them heterogeneous Transformers. We show that whilst these heterogeneous Transformers are better than the average homogeneous models, they cannot outperform the best. We explore the reasons why heterogeneous attention makes sense, and why it ultimately fails.
翻訳日:2022-10-04 16:26:50 公開日:2022-10-02
# mononhr:モノクロニューラルヒューマンレンダラー

MonoNHR: Monocular Neural Human Renderer ( http://arxiv.org/abs/2210.00627v1 )

ライセンス: Link先を確認
Hongsuk Choi, Gyeongsik Moon, Matthieu Armando, Vincent Leroy, Kyoung Mu Lee, Gregory Rogez(参考訳) 既存のニューラルヒューマンレンダリング手法では、見えない領域における情報不足と、可視領域におけるピクセルの深さの曖昧さのため、単一の画像入力に苦労している。 そこで本研究では,任意の人間のロバストな自由視点画像を単一の画像のみにレンダリングする,単眼型ニューラル・ヒューマン・レンダラー(mononhr)を提案する。 MonoNHRは、最初のメソッドです (i)単眼での訓練中、ヒトの被写体が見えないようにし、 (ii) 幾何学的監督を伴わない弱い監督方法で訓練される。 まず,3次元形状特徴とテクスチャ特徴を分離し,テクスチャ推論を3次元形状特徴で条件付けることを提案する。 第2に,対称性などの人間の構造的先行性を生かした隠蔽部品を塗付したメッシュインパインターモジュールを導入する。 ZJU-MoCap,AIST,HUMBIデータセットを用いた実験により,本手法は分子ケースに適応した最近の手法よりも有意に優れていた。

Existing neural human rendering methods struggle with a single image input due to the lack of information in invisible areas and the depth ambiguity of pixels in visible areas. In this regard, we propose Monocular Neural Human Renderer (MonoNHR), a novel approach that renders robust free-viewpoint images of an arbitrary human given only a single image. MonoNHR is the first method that (i) renders human subjects never seen during training in a monocular setup, and (ii) is trained in a weakly-supervised manner without geometry supervision. First, we propose to disentangle 3D geometry and texture features and to condition the texture inference on the 3D geometry features. Second, we introduce a Mesh Inpainter module that inpaints the occluded parts exploiting human structural priors such as symmetry. Experiments on ZJU-MoCap, AIST, and HUMBI datasets show that our approach significantly outperforms the recent methods adapted to the monocular case.
翻訳日:2022-10-04 15:45:33 公開日:2022-10-02
# 屋内環境におけるポイントgoalナビゲーションのための教師なし視覚と視覚運動キャリブレーション戦略

Unsupervised Vision and Vision-motion Calibration Strategies for PointGoal Navigation in Indoor Environment ( http://arxiv.org/abs/2210.00413v1 )

ライセンス: Link先を確認
Yijun Cao, Xianshi Zhang, Fuya Luo, and Yongjie Li(参考訳) 屋内環境におけるポイントゴールナビゲーションは、個人ロボットが特定の地点に向かうための基本的なタスクである。 最近の研究は、ノイズのない動作とgpsとコンパスセンサによる完璧な位置決めの仮定の下で、フォトリアリスティックシミュレート環境でほぼ完璧に近い成功率でこのポイントゴーアナビゲーションタスクを解決した。 しかし、実際の屋内環境では正確なGPS信号が得られない。 実室内での視線ナビゲーション精度を向上させるために,視覚・運動経路統合を教師なしで訓練するための視覚・運動調整手法を提案する。 視覚的キャリブレーションは、2つの隣接するフレームの再投射誤差からエージェントの相対的なポーズを計算し、正確なGPS信号を経路積分に置き換える。 この疑似位置は、エージェントが位置を内部的に認識し、ナビゲーションの成功率を改善するのを助けるセルフモーション統合の調整にも使われる。 トレーニングと推論プロセスは、RGB、深さ、衝突、および自己行動情報のみを使用する。 実験の結果,提案システムは良好な結果が得られ,Gibsonデータセット上で部分的に教師付き学習アルゴリズムよりも優れていた。

PointGoal navigation in indoor environment is a fundamental task for personal robots to navigate to a specified point. Recent studies solved this PointGoal navigation task with near-perfect success rate in photo-realistically simulated environments, under the assumptions with noiseless actuation and most importantly, perfect localization with GPS and compass sensors. However, accurate GPS signal can not be obtained in real indoor environment. To improve the pointgoal navigation accuracy in real indoor, we proposed novel vision and vision-motion calibration strategies to train visual and motion path integration in unsupervised manner. Sepecifically, visual calibration computes the relative pose of the agent from the re-projection error of two adjacent frames, and then replaces the accurate GPS signal with the path integration. This pseudo position is also used to calibrate self-motion integration which assists agent to update their internal perception of location and helps improve the success rate of navigation. The training and inference process only use RGB, depth, collision as well as self-action information. The experiments show that the proposed system achieves satisfactory results and outperforms the partially supervised learning algorithms on the popular Gibson dataset.
翻訳日:2022-10-04 15:36:07 公開日:2022-10-02
# ROSIA:回転探索に基づく星識別アルゴリズム

ROSIA: Rotation-Search-Based Star Identification Algorithm ( http://arxiv.org/abs/2210.00429v1 )

ライセンス: Link先を確認
Chee-Kheng Chng, Alvaro Parra Bustos, Benjamin McCarthy, Tat-Jun Chin(参考訳) 星の同定(スターID)問題を回転探索に基づくアプローチで解くことで、確立されたパラダイムにおける従来のヒューリスティック、すなわちサブグラフ同型およびパターン認識に基づく手法を排除できる。 しかし、そのようなアプローチを効率的に実行するのは簡単ではない。 ここでは、各座標における入力星とカタログ星とを最大に一致する最適な回転アライメントを求めるROSIAを提案する。 ROSIAはブランチ・アンド・バウンド (BnB) 法を用いて回転空間を体系的に探索する。 ROSIAのランタイム実現可能性に重大な影響を与えるのは、検索空間を優先する上限関数である。 本稿では,既存の定式化に比べて400倍の高速化が可能な(証明可能な)上界関数を提案することで,理論的な貢献を行う。 境界関数とステレオ射影とr木データ構造を利用する効率的な評価スキームを結合したrosiaは,ノイズ発生源の異なる最先端性能とリアルタイム動作速度を実現する。

Solving the star identification (Star-ID) problem with a rotation-search-based approach eliminates the conventional heuristics in the established paradigms, i.e., the subgraph-isomorphic-based and pattern-recognition-based methods. However, it is not trivial to execute such an approach efficiently. Here, we present ROSIA, which seeks the optimal rotation alignment that maximally matches the input and catalog stars in their respective coordinates. ROSIA searches the rotation space systematically with the Branch-and-Bound (BnB) method. Crucially affecting the runtime feasibility of ROSIA is the upper bound function that prioritizes the search space. In this paper, we make a theoretical contribution by proposing a tight (provable) upper bound function that allows a 400x speed up compared to an existing formulation. Coupling the bounding function with an efficient evaluation scheme that leverages stereographic projection and the R-tree data structure, ROSIA achieves real-time operational speed with state-of-the-art performances under different sources of noise.
翻訳日:2022-10-04 15:35:47 公開日:2022-10-02
# ManiCLIP: テキストからの多属性顔操作

ManiCLIP: Multi-Attribute Face Manipulation from Text ( http://arxiv.org/abs/2210.00445v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Ana Garc\'ia del Molino, Anran Wang, Zehuan Yuan, Chunyan Miao, Jiashi Feng(参考訳) 本稿では,テキスト記述に基づく新しい多属性顔操作手法を提案する。 従来のテキストベースの画像編集方法は、個々の画像に対するテスト時間最適化を必要とするか、単一の属性編集に限定されている。 例えば、テキスト関連属性は過剰に操作され、テキスト関連属性も変更される。 これらの課題に対処し、複数の顔属性の自然な編集を実現するために、グループサンプリングを用いて、複雑な文全体ではなく、同じ属性カテゴリからテキストセグメントを取得する新しいデカップリングトレーニング方式を提案する。 さらに,既存の顔属性を保存するために,各属性の潜在コードをエントロピー制約で別々に編集することを推奨する。 推論フェーズでは、複雑なテキストプロンプトからでも、テスト時間最適化なしで新しい顔画像の編集が可能です。 本手法の有効性を示すために,テキスト関連属性を最小限に抑えた自然な顔を生成する実験と解析を行った。 コードと事前訓練されたモデルがリリースされる。

In this paper we present a novel multi-attribute face manipulation method based on textual descriptions. Previous text-based image editing methods either require test-time optimization for each individual image or are restricted to single attribute editing. Extending these methods to multi-attribute face image editing scenarios will introduce undesired excessive attribute change, e.g., text-relevant attributes are overly manipulated and text-irrelevant attributes are also changed. In order to address these challenges and achieve natural editing over multiple face attributes, we propose a new decoupling training scheme where we use group sampling to get text segments from same attribute categories, instead of whole complex sentences. Further, to preserve other existing face attributes, we encourage the model to edit the latent code of each attribute separately via a entropy constraint. During the inference phase, our model is able to edit new face images without any test-time optimization, even from complex textual prompts. We show extensive experiments and analysis to demonstrate the efficacy of our method, which generates natural manipulated faces with minimal text-irrelevant attribute editing. Code and pre-trained model will be released.
翻訳日:2022-10-04 15:35:30 公開日:2022-10-02
# 廃棄物画像分類をエッジに応用したスマートリサイクリングビン

A Smart Recycling Bin Using Waste Image Classification At The Edge ( http://arxiv.org/abs/2210.00448v1 )

ライセンス: Link先を確認
Xueying Li, Ryan Grammenos(参考訳) 急速な経済成長は、より効率的な廃棄物リサイクルシステムへの緊急需要をもたらす。 そこで, 都市ごみを自動的に分離してリサイクル率を高める, 革新的なリサイクルビンを開発した。 廃棄物画像1800枚を収集し,既存の公開データセットと組み合わせて,Jetson NanoとK210の2種類の組込みシステムの分類モデルを学習した。 このモデルはJetson Nanoで95.98%、K210で96.64%の精度に達した。 binプログラムはユーザからのフィードバックを集めるように設計されている。 jetson nanoでは、アプリケーションの全体的な消費電力は以前の作業から4.7wに削減され、2番目のシステムであるk210は動作に0.89wしか必要としなかった。 本研究は, 都市ごみのリサイクルを改善するために, 将来商用化できる省エネ・高精度スマートリサイクル箱の完全機能プロトタイプを実証した。

Rapid economic growth gives rise to the urgent demand for a more efficient waste recycling system. This work thereby developed an innovative recycling bin that automatically separates urban waste to increase the recycling rate. We collected 1800 recycling waste images and combined them with an existing public dataset to train classification models for two embedded systems, Jetson Nano and K210, targeting different markets. The model reached an accuracy of 95.98% on Jetson Nano and 96.64% on K210. A bin program was designed to collect feedback from users. On Jetson Nano, the overall power consumption of the application was reduced by 30% from the previous work to 4.7 W, while the second system, K210, only needed 0.89 W of power to operate. In summary, our work demonstrated a fully functional prototype of an energy-saving, high-accuracy smart recycling bin, which can be commercialized in the future to improve urban waste recycling.
翻訳日:2022-10-04 15:35:12 公開日:2022-10-02
# 放射電界伝搬を用いた教師なしマルチビューオブジェクトセグメンテーション

Unsupervised Multi-View Object Segmentation Using Radiance Field Propagation ( http://arxiv.org/abs/2210.00489v1 )

ライセンス: Link先を確認
Xinhang Liu, Jiaben Chen, Huai Yu, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本研究では,シーンのラベルなしマルチビュー画像のみを付加した3次元画像分割手法であるradiance field propagation (rfp)を提案する。 RFPは、出現する神経放射場に基づく技術から派生し、外観と幾何学のセマンティクスを共同でエンコードする。 本手法の核心は,双方向光量損失を伴う個々の物体の放射場に対する新しい伝播戦略であり,異なる物体インスタンスに対応する有意義な領域へのシーンの教師なし分割を可能にする。 さらに,複数のオブジェクトやオクルージョンを持つ複雑なシーンをよりよく扱うために,オブジェクトマスクを洗練するための反復予測最大化アルゴリズムを提案する。 我々の知る限り、RFPは3D境界ボックスやオブジェクトクラスの事前知識など、いかなる監督、アノテーション、その他の手がかりも使わずに、ニューラルレイディアンスフィールド(NeRF)のための3Dシーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。 実験により、rfpは、従来の教師なし画像/シーンセグメンテーションアプローチよりも正確で、既存の教師付きnrfベースの方法に匹敵する、実現可能なセグメンテーション結果が得られることが示されている。 分割されたオブジェクト表現は、個々の3dオブジェクト編集操作を可能にする。

We present radiance field propagation (RFP), a novel approach to segmenting objects in 3D during reconstruction given only unlabeled multi-view images of a scene. RFP is derived from emerging neural radiance field-based techniques, which jointly encodes semantics with appearance and geometry. The core of our method is a novel propagation strategy for individual objects' radiance fields with a bidirectional photometric loss, enabling an unsupervised partitioning of a scene into salient or meaningful regions corresponding to different object instances. To better handle complex scenes with multiple objects and occlusions, we further propose an iterative expectation-maximization algorithm to refine object masks. To the best of our knowledge, RFP is the first unsupervised approach for tackling 3D scene object segmentation for neural radiance field (NeRF) without any supervision, annotations, or other cues such as 3D bounding boxes and prior knowledge of object class. Experiments demonstrate that RFP achieves feasible segmentation results that are more accurate than previous unsupervised image/scene segmentation approaches, and are comparable to existing supervised NeRF-based methods. The segmented object representations enable individual 3D object editing operations.
翻訳日:2022-10-04 15:34:55 公開日:2022-10-02
# DARE:大規模手書き日付認識システム

DARE: A large-scale handwritten date recognition system ( http://arxiv.org/abs/2210.00503v1 )

ライセンス: Link先を確認
Christian M. Dahl, Torben S. D. Johansen, Emil N. S{\o}rensen, Christian E. Westermann, Simon F. Wittrock(参考訳) 史料に対する手書き文字認識は重要な課題であるが、書風の多様さと史料の劣化を兼ね備えた十分な訓練データが不足しているため、依然として困難である。 リカレントニューラルネットワークアーキテクチャは手書きのテキスト認識に一般的に使用されるが、トレーニングには計算コストがかかることが多く、タスクによって繰り返しの利点は大きく異なる。 これらの理由から、非リカレントアーキテクチャを考えることが重要である。 手書きの日付認識の文脈では,学習が速く,パラメータ選択に頑健で,複数のソースから手書きの日付を正確な書き起こしが可能な,効率の良いnetv2クラスのモデルに基づくアーキテクチャを提案する。 そこで,我々は,約1000万トークンを含むデータベースについて紹介する。このデータベースは220万以上の手書き日付を起源とし,異なる歴史文書から分割したものである。 日付は、歴史文書に関する最も一般的な情報であり、その数百万の文書を含む歴史資料とともに、日付の効率的かつ自動転写は、手動転写よりも大幅なコスト削減につながる可能性がある。 書字スタイルの多様性が高い手書きテキストの訓練は、一般的な手書きテキスト認識のための頑健なモデルとなり、DAREシステムからの転写学習は転写精度を大幅に向上させ、比較的小さなトレーニングサンプルを用いても高い精度が得られることを示す。

Handwritten text recognition for historical documents is an important task but it remains difficult due to a lack of sufficient training data in combination with a large variability of writing styles and degradation of historical documents. While recurrent neural network architectures are commonly used for handwritten text recognition, they are often computationally expensive to train and the benefit of recurrence drastically differs by task. For these reasons, it is important to consider non-recurrent architectures. In the context of handwritten date recognition, we propose an architecture based on the EfficientNetV2 class of models that is fast to train, robust to parameter choices, and accurately transcribes handwritten dates from a number of sources. For training, we introduce a database containing almost 10 million tokens, originating from more than 2.2 million handwritten dates which are segmented from different historical documents. As dates are some of the most common information on historical documents, and with historical archives containing millions of such documents, the efficient and automatic transcription of dates has the potential to lead to significant cost-savings over manual transcription. We show that training on handwritten text with high variability in writing styles result in robust models for general handwritten text recognition and that transfer learning from the DARE system increases transcription accuracy substantially, allowing one to obtain high accuracy even when using a relatively small training sample.
翻訳日:2022-10-04 15:34:32 公開日:2022-10-02
# 3次元物体追跡のためのスパースポイントクラウドでのさらなる情報公開

Exploiting More Information in Sparse Point Cloud for 3D Single Object Tracking ( http://arxiv.org/abs/2210.00519v1 )

ライセンス: Link先を確認
Yubo Cui, Jiayao Shan, Zuoxu Gu, Zhiheng Li, Zheng Fang(参考訳) 3dシングルオブジェクトトラッキングは、3dコンピュータビジョンの重要なタスクである。 しかし、点雲の広がりは類似性を計算し、オブジェクトを見つけるのを難しくし、3Dトラッカーに大きな課題を生じさせる。 以前の作業では、いくつかの一般的なシナリオでは、この問題の解決と追跡性能の改善が試みられたが、通常は、遠距離で物体を追跡する場合や、部分的に隠された場合など、極端にスパースなシナリオで失敗した。 上記の問題に対処するため,本稿では,sparse-to-denseとtransformerに基づく3次元物体追跡のためのフレームワークを提案する。 まず,3次元のスパース点を3次元の柱に変換し,それを2次元のBEV特徴に圧縮して密度の高い表現を行う。 そこで我々は,テンプレートと検索ブランチ間のグローバルな類似性計算を実現するために,注意に基づくエンコーダを提案する。 一方、エンコーダは、ポイントクラウドのスパース性と単一の機能のスケールによって引き起こされる情報の欠如を補うために、マルチスケール機能に注意を向ける。 最後に、set-predictionを用いて、2段階のデコーダを通してオブジェクトを追跡する。 大規模な実験により,本手法はKITTIとNuScenesのデータセット上で非常に有望な結果が得られることが示された。

3D single object tracking is a key task in 3D computer vision. However, the sparsity of point clouds makes it difficult to compute the similarity and locate the object, posing big challenges to the 3D tracker. Previous works tried to solve the problem and improved the tracking performance in some common scenarios, but they usually failed in some extreme sparse scenarios, such as for tracking objects at long distances or partially occluded. To address the above problems, in this letter, we propose a sparse-to-dense and transformer-based framework for 3D single object tracking. First, we transform the 3D sparse points into 3D pillars and then compress them into 2D BEV features to have a dense representation. Then, we propose an attention-based encoder to achieve global similarity computation between template and search branches, which could alleviate the influence of sparsity. Meanwhile, the encoder applies the attention on multi-scale features to compensate for the lack of information caused by the sparsity of point cloud and the single scale of features. Finally, we use set-prediction to track the object through a two-stage decoder which also utilizes attention. Extensive experiments show that our method achieves very promising results on the KITTI and NuScenes datasets.
翻訳日:2022-10-04 15:34:08 公開日:2022-10-02
# ノイズの多い暗闇を通す: 現実世界の低光度画像の強調と注目

Seeing Through The Noisy Dark: Toward Real-world Low-Light Image Enhancement and Denoising ( http://arxiv.org/abs/2210.00545v1 )

ライセンス: Link先を確認
Jiahuan Ren, Zhao Zhang, Richang Hong, Mingliang Xu, Yi Yang, Shuicheng Yan(参考訳) 現実世界の低照度環境で収集された画像は、視界が低く、光やハードウェアの限界が不足しているため、ノイズが重い。 既存の低照度画像強調法(LLIE)は基本的にノイズ干渉を無視し、ベンチマークされたノイズ無視データセットに基づく低照度画像の照度改善に重点を置いている。 このような操作は、現実世界のLLIE(RLLIE)に重いノイズを与え、結果としてスペックルノイズや強調画像のぼやけをもたらす。 いくつかのllie法は低光度画像のノイズを考慮したが、それらは生データに基づいて訓練されており、データ領域が異なるため、専門知識やプロトコルの欠如があるため、srgb画像には使用できない。 本稿では,SRGB色空間におけるノイズの多い暗さを網羅する作業について明らかに考察し,RLED-Net(Real-world Low-light Enhancement & Denoising Network)と呼ばれる新しいエンドツーエンド手法を提案する。 自然画像は,冗長な情報やノイズを除去できる低ランク部分空間に特徴付けられるため,特徴抽出やノイズ除去のために潜在部分空間再構成ブロック(lsrb)を設計する。 グローバル特徴(色/形状情報など)の損失を低減し、より正確な局所特徴(エッジ/テキスト情報など)を抽出するため、クロスチャネル/シフトウィンドウトランス(cst)と呼ばれる2つの分岐を持つ基本層も提示する。 cstに基づいて,深い機能回復のためのu-structure network (cstnet) 設計のための新たなバックボーンと,最終的な機能を洗練するための feature refine block (frb) の設計を提案する。 実雑音画像と公開データベースに対する大規模な実験により, RLLIEとdenoisingの両方において, RLED-Netの有効性が検証された。

Images collected in real-world low-light environment usually suffer from lower visibility and heavier noise, due to the insufficient light or hardware limitation. While existing low-light image enhancement (LLIE) methods basically ignored the noise interference and mainly focus on refining the illumination of the low-light images based on benchmarked noise-negligible datasets. Such operations will make them inept for the real-world LLIE (RLLIE) with heavy noise, and result in speckle noise and blur in the enhanced images. Although several LLIE methods considered the noise in low-light image, they are trained on the raw data and hence cannot be used for sRGB images, since the domains of data are different and lack of expertise or unknown protocols. In this paper, we clearly consider the task of seeing through the noisy dark in sRGB color space, and propose a novel end-to-end method termed Real-world Low-light Enhancement & Denoising Network (RLED-Net). Since natural images can usually be characterized by low-rank subspaces in which the redundant information and noise can be removed, we design a Latent Subspace Reconstruction Block (LSRB) for feature extraction and denoising. To reduce the loss of global feature (e.g., color/shape information) and extract more accurate local features (e.g., edge/texture information), we also present a basic layer with two branches, called Cross-channel & Shift-window Transformer (CST). Based on the CST, we further present a new backbone to design a U-structure Network (CSTNet) for deep feature recovery, and also design a Feature Refine Block (FRB) to refine the final features. Extensive experiments on real noisy images and public databases verified the effectiveness of our RLED-Net for both RLLIE and denoising.
翻訳日:2022-10-04 15:33:44 公開日:2022-10-02
# 野生における発生顔:安定拡散, ミッドジャーニーおよびDALL-E 2の定量的比較

Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2 ( http://arxiv.org/abs/2210.00586v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) 画像合成の分野では、ここ数年で大きな進歩を遂げています。 最近のモデルは驚くべき品質で画像を生成することができる。 顔などの興味深いカテゴリにおけるこれらのモデルのきめ細かい評価はいまだに欠けている。 ここでは, 安定拡散, ミッドジャーニー, DALL-E2 の3つの人気システムを, 野生の光現実的顔を生成する能力について定量的に比較する。 FIDスコアによると、安定拡散は他のシステムよりも優れた顔を生成する。 また,GFWと呼ばれる野生の顔のデータセットも導入し,総顔数は15,076面である。 さらに,本研究が生成モデルの評価と改善のフォローアップ研究を促進することを願っている。 データとコードは、それぞれデータとコードで利用可能である。

The field of image synthesis has made great strides in the last couple of years. Recent models are capable of generating images with astonishing quality. Fine-grained evaluation of these models on some interesting categories such as faces is still missing. Here, we conduct a quantitative comparison of three popular systems including Stable Diffusion, Midjourney, and DALL-E 2 in their ability to generate photorealistic faces in the wild. We find that Stable Diffusion generates better faces than the other systems, according to the FID score. We also introduce a dataset of generated faces in the wild dubbed GFW, including a total of 15,076 faces. Furthermore, we hope that our study spurs follow-up research in assessing the generative models and improving them. Data and code are available at data and code, respectively.
翻訳日:2022-10-04 15:33:09 公開日:2022-10-02
# DFA:効率的なビデオオブジェクト検出のための動的特徴集約

DFA: Dynamic Feature Aggregation for Efficient Video Object Detection ( http://arxiv.org/abs/2210.00588v1 )

ライセンス: Link先を確認
Yiming Cui(参考訳) ビデオオブジェクト検出はコンピュータビジョンの基本的な課題である。 実用的な解決策の1つは、ビデオからの時間的情報を活用し、各フレームのオブジェクト機能を強化するために特徴集約を適用することである。 有効ではあるが、既存のメソッドは入力フレームに関係なく特徴集約に一定数のフレームを使用するため、常に低い推論速度に苦しんでいる。 そこで本稿は,現在の特徴集約型映像物体検出器の性能を維持しつつ,その推定速度を向上させることを目的とする。 この目的を達成するために,機能拡張のためのフレームを適応的に選択するバニラ動的集約モジュールを提案する。 次に、バニラ動的集約モジュールをより効果的で再構成可能な変形可能なバージョンに拡張します。 最後に,少ないフレームで集約されたオブジェクトの表現を改善するために,インプレース蒸留損失を導入する。 imagenet vidベンチマークでは,提案手法と統合して,fgfa と selsa はそれぞれ31%,76% の推論速度を向上し,精度で同等の性能を得ることができた。

Video object detection is a fundamental yet challenging task in computer vision. One practical solution is to take advantage of temporal information from the video and apply feature aggregation to enhance the object features in each frame. Though effective, those existing methods always suffer from low inference speeds because they use a fixed number of frames for feature aggregation regardless of the input frame. Therefore, this paper aims to improve the inference speed of the current feature aggregation-based video object detectors while maintaining their performance. To achieve this goal, we propose a vanilla dynamic aggregation module that adaptively selects the frames for feature enhancement. Then, we extend the vanilla dynamic aggregation module to a more effective and reconfigurable deformable version. Finally, we introduce inplace distillation loss to improve the representations of objects aggregated with fewer frames. Extensive experimental results validate the effectiveness and efficiency of our proposed methods: On the ImageNet VID benchmark, integrated with our proposed methods, FGFA and SELSA can improve the inference speed by 31% and 76% respectively while getting comparable performance on accuracy.
翻訳日:2022-10-04 15:32:57 公開日:2022-10-02
# ヘイトスピーチ検出における文脈情報の影響評価

Assessing the impact of contextual information in hate speech detection ( http://arxiv.org/abs/2210.00465v1 )

ライセンス: Link先を確認
Juan Manuel P\'erez, Franco Luque, Demian Zayat, Mart\'in Kondratzky, Agust\'in Moro, Pablo Serrati, Joaqu\'in Zajac, Paula Miguel, Natalia Debandi, Agust\'in Gravano, Viviana Cotik(参考訳) 近年、ヘイトスピーチは、その強みと保護団体のメンバーに対する暴力行為との関係から、ソーシャルネットワークやその他のバーチャルメディアにおいて大きな関連性が高まっている。 利用者が生成する大量のコンテンツにより、少なくとも最も脅かされる形態において、この音声の分析・モデレーションを支援する自動ツールの研究・開発に多大な努力が払われている。 ヘイトスピーチの自動検出に対する現在のアプローチの制限の1つは、コンテキストの欠如である。 ほとんどの研究とリソースは、コンテキストのないデータ、すなわち、会話的なコンテキストや議論対象のトピックのない独立したメッセージで実行される。 これは、ソーシャルネットワーク上の投稿が憎悪であるかどうかを定義するために利用可能な情報を制限する。 本研究では,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。 このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。 最先端技術を用いた分類実験は、文脈情報を追加することで、2つのタスク(バイナリとマルチラベルの予測)におけるヘイトスピーチ検出性能が向上することを示す。 コード、モデル、コーパスをさらなる研究のために利用できます。

In recent years, hate speech has gained great relevance in social networks and other virtual media because of its intensity and its relationship with violent acts against members of protected groups. Due to the great amount of content generated by users, great effort has been made in the research and development of automatic tools to aid the analysis and moderation of this speech, at least in its most threatening forms. One of the limitations of current approaches to automatic hate speech detection is the lack of context. Most studies and resources are performed on data without context; that is, isolated messages without any type of conversational context or the topic being discussed. This restricts the available information to define if a post on a social network is hateful or not. In this work, we provide a novel corpus for contextualized hate speech detection based on user responses to news posts from media outlets on Twitter. This corpus was collected in the Rioplatense dialectal variety of Spanish and focuses on hate speech associated with the COVID-19 pandemic. Classification experiments using state-of-the-art techniques show evidence that adding contextual information improves hate speech detection performance for two proposed tasks (binary and multi-label prediction). We make our code, models, and corpus available for further research.
翻訳日:2022-10-04 15:09:08 公開日:2022-10-02
# 定義生成のための微粒なコントラスト学習

Fine-grained Contrastive Learning for Definition Generation ( http://arxiv.org/abs/2210.00543v1 )

ライセンス: Link先を確認
Hengyuan Zhang, Dawei Li, Shiping Yang, Yanran Li(参考訳) 近年、事前訓練されたトランスフォーマーベースモデルは、定義生成(DG)タスクにおいて大きな成功を収めている。 しかし、従来のエンコーダ・デコーダモデルでは、与えられた単語の完全な意味的要素を含む効果的な表現学習が欠如しており、不特定な定義が生成される。 この問題に対処するために,定義シーケンスエンコーディングからより詳細な意味表現を抽出することをモデルに推奨する,新しいコントラスト学習手法を提案する。 自動評価と手動評価の両方により、3つの主流ベンチマークの実験結果から,提案手法がいくつかの最先端モデルと比較して,より具体的で高品質な定義を生成可能であることが示された。

Recently, pre-trained transformer-based models have achieved great success in the task of definition generation (DG). However, previous encoder-decoder models lack effective representation learning to contain full semantic components of the given word, which leads to generating under-specific definitions. To address this problem, we propose a novel contrastive learning method, encouraging the model to capture more detailed semantic representations from the definition sequence encoding. According to both automatic and manual evaluation, the experimental results on three mainstream benchmarks demonstrate that the proposed method could generate more specific and high-quality definitions compared with several state-of-the-art models.
翻訳日:2022-10-04 15:08:48 公開日:2022-10-02
# ALT:ポルトガル語テキストの可読性解析のためのソフトウェア

ALT: A software for readability analysis of Portuguese-language texts ( http://arxiv.org/abs/2210.00553v1 )

ライセンス: Link先を確認
Gleice Carvalho de Lima Moreno, Marco P. M. de Souza, Nelson Hein, Adriana Kroenke Hein(参考訳) 人間の生活の初期において、コミュニケーションは社会的相互作用の過程と見なされ、常に当事者間の合意に達する最良の方法であった。 このプロセスにおける理解と信頼性は、相互合意の検証に不可欠である。 しかし、どのようにしてこのコミュニケーションが大質量に達するのか? これは、情報の普及とその承認が求められている場合の主な課題である。 本研究は,Web上で利用可能なポルトガル語に適応した可読性指標から開発したALTソフトウェアを用いて,通信の難易度を低減することを目的とする。 ソフトウェアの開発は、安全で健全な関係の構築と維持に使用されるコミュニケーションチャネルにおける談話の信頼性を測定するために、複数の学際的なスタイルを用いるハーバーマスのコミュニケーション行動の理論に動機づけられた。

In the initial stage of human life, communication, seen as a process of social interaction, was always the best way to reach consensus between the parties. Understanding and credibility in this process are essential for the mutual agreement to be validated. But, how to do it so that this communication reaches the great mass? This is the main challenge when what is sought is the dissemination of information and its approval. In this context, this study presents the ALT software, developed from original readability metrics adapted to the Portuguese language, available on the web, to reduce communication difficulties. The development of the software was motivated by the theory of communicative action of Habermas, which uses a multidisciplinary style to measure the credibility of the discourse in the communication channels used to build and maintain a safe and healthy relationship with the public.
翻訳日:2022-10-04 15:08:38 公開日:2022-10-02
# 会話型AIにおける医療用クエリ処理のリスクグレード安全性

Risk-graded Safety for Handling Medical Queries in Conversational AI ( http://arxiv.org/abs/2210.00572v1 )

ライセンス: Link先を確認
Gavin Abercrombie and Verena Rieser(参考訳) 会話型AIシステムは、深刻な結果をもたらし、死に至る可能性のあるユーザの医療クエリを扱う際に、安全でない振る舞いをすることができる。 したがって、システムは医療入力の重大さを認識し、適切なレベルのリスクで応答を生成できる必要がある。 我々は、人間の書いた英語の医学的問合せと、さまざまな種類のシステムの反応のコーパスを作成する。 これをクラウドソースとエキスパートアノテーションの両方でラベル付けします。 個々のクラウドワーカーは、プロンプトの重大さを評価できないかもしれないが、彼らの集約されたラベルは、医療質問を特定し、応答によって生じるリスクタイプを認識することで、専門家の意見と一致しがちである。 分類実験の結果、これらのタスクは自動化できるが、エラーは非常に深刻な可能性があるため注意すべきである。

Conversational AI systems can engage in unsafe behaviour when handling users' medical queries that can have severe consequences and could even lead to deaths. Systems therefore need to be capable of both recognising the seriousness of medical inputs and producing responses with appropriate levels of risk. We create a corpus of human written English language medical queries and the responses of different types of systems. We label these with both crowdsourced and expert annotations. While individual crowdworkers may be unreliable at grading the seriousness of the prompts, their aggregated labels tend to agree with professional opinion to a greater extent on identifying the medical queries and recognising the risk types posed by the responses. Results of classification experiments suggest that, while these tasks can be automated, caution should be exercised, as errors can potentially be very serious.
翻訳日:2022-10-04 15:08:25 公開日:2022-10-02
# コミュニティ学習: ポジティブインパクトのためのNLPによるコミュニティ理解

Community Learning: Understanding A Community Through NLP for Positive Impact ( http://arxiv.org/abs/2210.00590v1 )

ライセンス: Link先を確認
Md Towhidul Absar Chowdhury and Naveen Sharma(参考訳) パンデミック後の世界は、特に都市社会にとって経済の悪化をもたらした。 NLP4PIにおける重要な研究は、国内外のイベントに焦点を当てているが、そのような最先端の手法をコミュニティ開発分野に持ち込むにはギャップがある。 コミュニティ開発を支援するためには、開発するコミュニティについて学ぶ必要がある。 そこで我々は,コミュニティに関する自然言語データを抽出し,さらに下流のアプリケーションに適した知識グラフ構造に変換してロードする計算タスクとして,コミュニティ学習の課題を提案する。 ナレッジグラフの可視化能力を示す上で,ホームレスと教育の2つの特別な事例を調査し,モデルが提供する他の有用性について考察する。

A post-pandemic world resulted in economic upheaval, particularly for the cities' communities. While significant work in NLP4PI focuses on national and international events, there is a gap in bringing such state-of-the-art methods into the community development field. In order to help with community development, we must learn about the communities we develop. To that end, we propose the task of community learning as a computational task of extracting natural language data about the community, transforming and loading it into a suitable knowledge graph structure for further downstream applications. We study two particular cases of homelessness and education in showing the visualization capabilities of a knowledge graph, and also discuss other usefulness such a model can provide.
翻訳日:2022-10-04 15:08:11 公開日:2022-10-02
# loc-vae: コンテンツベース画像検索のための3次元脳mr画像からの構造的局所表現の学習

Loc-VAE: Learning Structurally Localized Representation from 3D Brain MR Images for Content-Based Image Retrieval ( http://arxiv.org/abs/2210.00506v1 )

ライセンス: Link先を確認
Kei Nishimaki, Kumpei Ikuta, Yuto Onga, Hitoshi Iyatomi, Kenichi Oishi(参考訳) CBIR(Content-based Image Search)は、医療画像の読み書きを支援する新興技術である。 3次元脳MR画像は高次元であるため,機械学習技術を用いてCBIRの次元化が必要である。 さらに、信頼性のあるCBIRシステムでは、結果として生じる低次元表現の各次元は神経学的に解釈可能な領域と関連付けられなければならない。 臨床用3次元脳MR画像から神経解剖学的に解釈可能な低次元表現を提供する局所的変分オートエンコーダ(Loc-VAE)を提案する。 Loc-VAEは$\beta$-VAEに基づいており、低次元表現の各次元が脳の局所領域に対応するという追加の制約がある。 提案するloc-vaeは, 高次元圧縮比 (4096:1) においても, 疾患の特徴を保存し, 高度に局所化することができる。 loc-vaeにより得られた低次元表現は、アルツハイマー病の診断に関する同等の脳再構成能力と情報を維持しつつ、naive $\beta$-vaeと比較して各次元の局所性尺度を4.61ポイント改善した。

Content-based image retrieval (CBIR) systems are an emerging technology that supports reading and interpreting medical images. Since 3D brain MR images are high dimensional, dimensionality reduction is necessary for CBIR using machine learning techniques. In addition, for a reliable CBIR system, each dimension in the resulting low-dimensional representation must be associated with a neurologically interpretable region. We propose a localized variational autoencoder (Loc-VAE) that provides neuroanatomically interpretable low-dimensional representation from 3D brain MR images for clinical CBIR. Loc-VAE is based on $\beta$-VAE with the additional constraint that each dimension of the low-dimensional representation corresponds to a local region of the brain. The proposed Loc-VAE is capable of acquiring representation that preserves disease features and is highly localized, even under high-dimensional compression ratios (4096:1). The low-dimensional representation obtained by Loc-VAE improved the locality measure of each dimension by 4.61 points compared to naive $\beta$-VAE, while maintaining comparable brain reconstruction capability and information about the diagnosis of Alzheimer's disease.
翻訳日:2022-10-04 15:00:13 公開日:2022-10-02
# PCONet: 卵巣超音波画像から多嚢胞性卵巣症候群(PCOS)を検出する畳み込みニューラルネットワークアーキテクチャ

PCONet: A Convolutional Neural Network Architecture to Detect Polycystic Ovary Syndrome (PCOS) from Ovarian Ultrasound Images ( http://arxiv.org/abs/2210.00407v1 )

ライセンス: Link先を確認
A.K.M. Salman Hosain, Md Humaion Kabir Mehedi, Irteza Enan Kabir(参考訳) 多嚢胞性卵巣症候群(Polycystic Ovary syndrome, PCOS)は、生殖年齢の女性に多い内分泌機能障害である。 PCOS(PCOS)は、女性におけるアンドロゲン(性ホルモン)過剰による症候群の組合せである。 acne、alopecia、hirsutism、hyperandrogenaemia、oligo-ovulationなどの症候群はPCOSによって引き起こされる。 雌性不妊の主要な原因でもある。 世界の生殖年齢女性の15%がPCOSの影響を受けている。 消毒効果の深刻さにより早期にPCOSを検出する必要性は過大評価されない。 本稿では,卵巣超音波画像から多彩な卵巣を検出するために,畳み込みニューラルネットワーク(CNN)PCONetを開発した。 また,45層からなる事前訓練された畳み込みニューラルネットワークであるInceptionV3をトランスファーラーニング法を用いて,嚢胞性卵巣超音波像の分類を行った。 様々な定量的性能評価パラメータを用いて,これら2つのモデルを比較し,pconetが98.12%,preceptionv3が96.56%の精度を示すのに対し,pconetは98.12%の精度で優れていることを示した。

Polycystic Ovary Syndrome (PCOS) is an endrocrinological dysfunction prevalent among women of reproductive age. PCOS is a combination of syndromes caused by an excess of androgens - a group of sex hormones - in women. Syndromes including acne, alopecia, hirsutism, hyperandrogenaemia, oligo-ovulation, etc. are caused by PCOS. It is also a major cause of female infertility. An estimated 15% of reproductive-aged women are affected by PCOS globally. The necessity of detecting PCOS early due to the severity of its deleterious effects cannot be overstated. In this paper, we have developed PCONet - a Convolutional Neural Network (CNN) - to detect polycistic ovary from ovarian ultrasound images. We have also fine tuned InceptionV3 - a pretrained convolutional neural network of 45 layers - by utilizing the transfer learning method to classify polcystic ovarian ultrasound images. We have compared these two models on various quantitative performance evaluation parameters and demonstrated that PCONet is the superior one among these two with an accuracy of 98.12%, whereas the fine tuned InceptionV3 showcased an accuracy of 96.56% on test images.
翻訳日:2022-10-04 14:51:23 公開日:2022-10-02
# $\ell_p$メトリックスを超えるロバストネス評価の最適化

Optimization for Robustness Evaluation beyond $\ell_p$ Metrics ( http://arxiv.org/abs/2210.00621v1 )

ライセンス: Link先を確認
Hengyue Liang, Buyun Liang, Ying Cui, Tim Mitchell, Ju Sun(参考訳) 敵対的攻撃に対するディープラーニングモデルの実証評価は、非自明な制約付き最適化問題の解決を必要とする。 これらの制約のある問題を解く一般的なアルゴリズムは、射影勾配降下 (pgd) に依存し、複数のハイパーパラメータの注意深いチューニングを必要とする。 さらに、PGDは分析プロジェクタを使用するため、$\ell_1$, $\ell_2$, $\ell_\infty$アタックモデルしか処理できない。 本稿では,汎用制約最適化解法pygransoと制約フォールディング(pwcf)を組み合わせたアルゴリズムフレームワークを提案する。 PWCF 1)繊細なハイパーパラメータチューニングを必要とせず、良質なソリューションを見つける。 一般的な攻撃モデル、例えば$\ell_p$$(p \geq 0$)やPGDベースのアルゴリズムにはアクセスできない知覚攻撃を扱うことができる。

Empirical evaluation of deep learning models against adversarial attacks entails solving nontrivial constrained optimization problems. Popular algorithms for solving these constrained problems rely on projected gradient descent (PGD) and require careful tuning of multiple hyperparameters. Moreover, PGD can only handle $\ell_1$, $\ell_2$, and $\ell_\infty$ attack models due to the use of analytical projectors. In this paper, we introduce a novel algorithmic framework that blends a general-purpose constrained-optimization solver PyGRANSO, With Constraint-Folding (PWCF), to add reliability and generality to robustness evaluation. PWCF 1) finds good-quality solutions without the need of delicate hyperparameter tuning, and 2) can handle general attack models, e.g., general $\ell_p$ ($p \geq 0$) and perceptual attacks, which are inaccessible to PGD-based algorithms.
翻訳日:2022-10-04 14:51:04 公開日:2022-10-02
# max-cut のような組合せ最適化問題の解法におけるグラフニューラルネットワークのヒューリスティック性

Inability of a graph neural network heuristic to outperform greedy algorithms in solving combinatorial optimization problems like Max-Cut ( http://arxiv.org/abs/2210.00623v1 )

ライセンス: Link先を確認
Stefan Boettcher (Emory University)(参考訳) Nature Machine Intelligence 4, 367 (2022) において、Schuetzらはグラフニューラルネットワーク(GNN)を様々な古典的なNPハード組合せ最適化問題を解くためのヒューリスティックなスキームを提供する。 ネットワークをサンプルインスタンスでトレーニングし、その結果のGNNヒューリスティックを評価し、広く使われているテクニックを適用して、その成功の能力を決定する。 明らかに、このようなネットワークの強力な能力を利用して、このようなハンズオフアプローチで複雑でマルチモーダルなエネルギーランドスケープの複雑さを ‘learn’' させるというアイデアは魅力的だ。 そして、観測されたパフォーマンスに基づいて、ヒューリスティックは高いスケーラビリティを約束しており、入力サイズで線形な計算コストは$n$である。 しかし、より綿密な検査では、GNNの報告結果が勾配降下の結果よりもわずかに優れており、例えばMax-Cutのgreedyアルゴリズムよりも優れていることが示されている。 この議論はまた、ヒューリスティックスの評価に共通する誤解があることも強調している。

In Nature Machine Intelligence 4, 367 (2022), Schuetz et al provide a scheme to employ graph neural networks (GNN) as a heuristic to solve a variety of classical, NP-hard combinatorial optimization problems. It describes how the network is trained on sample instances and the resulting GNN heuristic is evaluated applying widely used techniques to determine its ability to succeed. Clearly, the idea of harnessing the powerful abilities of such networks to ``learn'' the intricacies of complex, multimodal energy landscapes in such a hands-off approach seems enticing. And based on the observed performance, the heuristic promises to be highly scalable, with a computational cost linear in the input size $n$, although there is likely a significant overhead in the pre-factor due to the GNN itself. However, closer inspection shows that the reported results for this GNN are only minutely better than those for gradient descent and get outperformed by a greedy algorithm, for example, for Max-Cut. The discussion also highlights what I believe are some common misconceptions in the evaluations of heuristics.
翻訳日:2022-10-04 14:48:58 公開日:2022-10-02
# FLCert: テロ攻撃に対するフェデレーション学習はおそらく安全

FLCert: Provably Secure Federated Learning against Poisoning Attacks ( http://arxiv.org/abs/2210.00584v1 )

ライセンス: Link先を確認
Xiaoyu Cao, Zaixi Zhang, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) その分散した性質から、フェデレートされた学習は、悪質なクライアントがローカルなトレーニングデータや/またはローカルなモデルのアップデートをクラウドサーバーに送信することでトレーニングプロセスに悪影響を及ぼすような、有毒な攻撃に対して脆弱である。 既存の防御策は、主にビザンチン・ロバスト連合学習法を利用するか、悪意のあるクライアントを検出する。 しかし、これらの防御は有毒な攻撃に対して保証可能なセキュリティ保証を持たず、より高度な攻撃に対して脆弱である可能性がある。 本研究は,悪意のあるクライアントの限定された有毒な攻撃に対して確実に安全である,連帯学習フレームワークであるflcertを提案することで,このギャップを埋めることを目的とする。 我々のキーとなるアイデアは、クライアントをグループに分割し、既存のフェデレーション学習手法を用いて各クライアントのグローバルモデルを学び、テスト入力を分類するために、グローバルモデルに多数票を投じることです。 具体的には、クライアントをグループ化し、各グループのクライアントをランダムにサンプリングするFLCert-Pと、クライアントを分離したグループに分割するFLCert-Dの2つの変種を提案する。 複数のデータセットに関する広範な実験により、FLCertがテスト入力に対して予測したラベルは、どんな悪質な攻撃であっても、有界なクライアントによって影響を受けていないことが判明した。

Due to its distributed nature, federated learning is vulnerable to poisoning attacks, in which malicious clients poison the training process via manipulating their local training data and/or local model updates sent to the cloud server, such that the poisoned global model misclassifies many indiscriminate test inputs or attacker-chosen ones. Existing defenses mainly leverage Byzantine-robust federated learning methods or detect malicious clients. However, these defenses do not have provable security guarantees against poisoning attacks and may be vulnerable to more advanced attacks. In this work, we aim to bridge the gap by proposing FLCert, an ensemble federated learning framework, that is provably secure against poisoning attacks with a bounded number of malicious clients. Our key idea is to divide the clients into groups, learn a global model for each group of clients using any existing federated learning method, and take a majority vote among the global models to classify a test input. Specifically, we consider two methods to group the clients and propose two variants of FLCert correspondingly, i.e., FLCert-P that randomly samples clients in each group, and FLCert-D that divides clients to disjoint groups deterministically. Our extensive experiments on multiple datasets show that the label predicted by our FLCert for a test input is provably unaffected by a bounded number of malicious clients, no matter what poisoning attacks they use.
翻訳日:2022-10-04 14:34:59 公開日:2022-10-02
# 最適化に基づくグラフ粗粒化のための統一フレームワーク

A Unified Framework for Optimization-Based Graph Coarsening ( http://arxiv.org/abs/2210.00437v1 )

ライセンス: Link先を確認
Manoj Kumar, Anurag Sharma, Sandeep Kumar(参考訳) グラフ粗化(Graph coarsening)は、大規模グラフ機械学習問題にアプローチするために広く用いられている次元削減手法である。 大きなグラフが与えられると、グラフの粗さ化は、元々与えられたグラフの性質を維持しながら、より小さなグラフを学習することを目的としている。 グラフデータはノードの特徴とグラフ行列(例えば、隣接とラプラシアン)から構成される。 既存のグラフ粗い方法はノードの特徴を無視し、グラフを単純化するためにグラフマトリックスのみに依存する。 本稿では,グラフ次元削減のための新しい最適化フレームワークを提案する。 提案するフレームワークは,グラフ学習と次元減少の一体化にある。 グラフマトリクスとノードの特徴の両方を入力とし、望ましい特性を確保しながら粗いグラフマトリクスと粗い特徴マトリクスを共同で学習する。 提案手法は,ブロックの最大化最小化,$\log$決定式,ディリクレエネルギー,正規化フレームワークを活用することで効率よく解けるマルチブロック非凸最適化問題である。 提案手法は, 有理収束性があり, 実用上, 多数のタスクに適応可能である。 また、学習された粗いグラフは元のグラフに類似した$\epsilon\in(0,1)$であることが判明した。 大規模な実験により,提案フレームワークの有効性が解明された。

Graph coarsening is a widely used dimensionality reduction technique for approaching large-scale graph machine learning problems. Given a large graph, graph coarsening aims to learn a smaller-tractable graph while preserving the properties of the originally given graph. Graph data consist of node features and graph matrix (e.g., adjacency and Laplacian). The existing graph coarsening methods ignore the node features and rely solely on a graph matrix to simplify graphs. In this paper, we introduce a novel optimization-based framework for graph dimensionality reduction. The proposed framework lies in the unification of graph learning and dimensionality reduction. It takes both the graph matrix and the node features as the input and learns the coarsen graph matrix and the coarsen feature matrix jointly while ensuring desired properties. The proposed optimization formulation is a multi-block non-convex optimization problem, which is solved efficiently by leveraging block majorization-minimization, $\log$ determinant, Dirichlet energy, and regularization frameworks. The proposed algorithms are provably convergent and practically amenable to numerous tasks. It is also established that the learned coarsened graph is $\epsilon\in(0,1)$ similar to the original graph. Extensive experiments elucidate the efficacy of the proposed framework for real-world applications.
翻訳日:2022-10-04 14:31:55 公開日:2022-10-02
# 補助分布による学習アルゴリズム一般化誤差境界

Learning Algorithm Generalization Error Bounds via Auxiliary Distributions ( http://arxiv.org/abs/2210.00483v1 )

ライセンス: Link先を確認
Gholamali Aminian, Saeed Masiha, Laura Toni, Miguel R. D. Rodrigues(参考訳) 一般化エラー境界は、機械学習モデルがどのように機能するかを理解するのに不可欠である。 本研究では,教師あり学習シナリオに適した一般化誤差の新しい上限を導出する,Auxiliary Distribution Methodという創造的手法を提案する。 一般化された $\alpha$-Jensen-Shannon, $\alpha$-R\'enyi$0< \alpha < 1$) を含む新しい境界に対して、トレーニングサンプルの集合をランダムにモデル化する確率変数と、仮説の集合をモデル化する他のランダム変数との間を、いくつかの条件下で一般の上界が特殊化できることが示される。 一般化された$\alpha$-jensen-shannon情報に基づく上限も有限である。 さらに,教師付き学習アルゴリズムにおける分布ミスマッチシナリオにおける一般化誤差の上限値の導出に補助分布法を応用し,分布ミスマッチをテストデータとトレーニングデータサンプルの分布値の間で$\alpha$-jensen-shannon または $\alpha$-r\'enyi (0< \alpha < 1$) とモデル化した。 また,提案した上界が,他の上界よりも厳密である可能性についても概説する。

Generalization error boundaries are essential for comprehending how well machine learning models work. In this work, we suggest a creative method, i.e., the Auxiliary Distribution Method, that derives new upper bounds on generalization errors that are appropriate for supervised learning scenarios. We show that our general upper bounds can be specialized under some conditions to new bounds involving the generalized $\alpha$-Jensen-Shannon, $\alpha$-R\'enyi ($0< \alpha < 1$) information between random variable modeling the set of training samples and another random variable modeling the set of hypotheses. Our upper bounds based on generalized $\alpha$-Jensen-Shannon information are also finite. Additionally, we demonstrate how our auxiliary distribution method can be used to derive the upper bounds on generalization error under the distribution mismatch scenario in supervised learning algorithms, where the distributional mismatch is modeled as $\alpha$-Jensen-Shannon or $\alpha$-R\'enyi ($0< \alpha < 1$) between the distribution of test and training data samples. We also outline the circumstances in which our proposed upper bounds might be tighter than other earlier upper bounds.
翻訳日:2022-10-04 14:31:36 公開日:2022-10-02
# 強化学習獲得関数を用いたロバストベイズ最適化

Robust Bayesian optimization with reinforcement learned acquisition functions ( http://arxiv.org/abs/2210.00476v1 )

ライセンス: Link先を確認
Zijing Liu, Xiyao Qu, Xuejun Liu, and Hongqiang Lyu(参考訳) 高価なブラックボックス最適化タスクに対するベイズ最適化(BO)では、取得関数(AF)がシーケンシャルサンプリングをガイドし、効率的な収束のために重要な役割を果たす。 一般的なAFは、探索や搾取の好みの観点から人工的な経験に依存しており、局所的な最適化と結果の再最適化において計算的廃棄物や罠のリスクを負う。 この危機に対処するため、データ駆動型AF選択の概念が提案され、逐次型AF選択タスクはマルコフ決定プロセス(MDP)としてさらに形式化され、強力な強化学習(RL)技術を利用する。 AFsの適切な選択ポリシーは、改良学習支援ベイズ最適化(RLABO)と呼ばれる探索と搾取のバランスをとるために、優れたBO軌道から学習される。 5つのベンチマーク問題に対する競合的かつ堅牢なBO評価は、RLが暗黙のAF選択パターンを認識していることを示し、高コストのブラックボックス問題における効率的な最適化と同様に、知的AF選択のための潜在的実用性を示唆している。

In Bayesian optimization (BO) for expensive black-box optimization tasks, acquisition function (AF) guides sequential sampling and plays a pivotal role for efficient convergence to better optima. Prevailing AFs usually rely on artificial experiences in terms of preferences for exploration or exploitation, which runs a risk of a computational waste or traps in local optima and resultant re-optimization. To address the crux, the idea of data-driven AF selection is proposed, and the sequential AF selection task is further formalized as a Markov decision process (MDP) and resort to powerful reinforcement learning (RL) technologies. Appropriate selection policy for AFs is learned from superior BO trajectories to balance between exploration and exploitation in real time, which is called reinforcement-learning-assisted Bayesian optimization (RLABO). Competitive and robust BO evaluations on five benchmark problems demonstrate RL's recognition of the implicit AF selection pattern and imply the proposal's potential practicality for intelligent AF selection as well as efficient optimization in expensive black-box problems.
翻訳日:2022-10-04 14:22:40 公開日:2022-10-02
# EUCLID:マルチ選択ダイナミクスモデルによる効率的な教師なし強化学習を目指して

EUCLID: Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model ( http://arxiv.org/abs/2210.00498v1 )

ライセンス: Link先を確認
Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Jinyi Liu, Yingfeng Chen, Changjie Fan(参考訳) 教師なし強化学習(unsupervised reinforcement learning:url)は、タスクに依存しない環境で有用な振る舞いを学習するための、さまざまな下流タスクの迅速な適応を促進するための、有望なパラダイムである。 従来の研究は、モデルなしの事前学習に重点を置いていたが、下流タスクにおけるサンプル効率を改善するための大きな空間を残した遷移力学モデリングの研究は欠如していた。 本研究では,事前学習段階におけるダイナミクスモデルと非教師付き探索方針を共同で事前学習する新しいモデル融合パラダイムを導入し,環境サンプルの活用と下流タスクサンプリング効率の向上を両立させた,非教師付き強化学習フレームワークを提案する。 しかし、異なる行動下で局所的なダイナミクスを捉える一般化モデルの構築は、依然として難しい課題である。 本研究では,異なる動作下で異なる局所ダイナミクスを同時にカバーするマルチチョイスダイナミクスモデルを導入し,教師なし事前学習中に異なる動作下での状態遷移を学習し,下流タスクにおいて最も適切な予測ヘッドを選択する。 操作とロコモーションドメインの実験的結果は、euclidが高いサンプル効率で最先端のパフォーマンスを達成し、基本的には状態ベースのurlbベンチマークを解決し、平均正規化スコアが104.0$\pm$1.2$$$$$$で100kの微調整ステップで達成されたことを示している。

Unsupervised reinforcement learning (URL) poses a promising paradigm to learn useful behaviors in a task-agnostic environment without the guidance of extrinsic rewards to facilitate the fast adaptation of various downstream tasks. Previous works focused on the pre-training in a model-free manner while lacking the study of transition dynamics modeling that leaves a large space for the improvement of sample efficiency in downstream tasks. To this end, we propose an Efficient Unsupervised Reinforcement Learning Framework with Multi-choice Dynamics model (EUCLID), which introduces a novel model-fused paradigm to jointly pre-train the dynamics model and unsupervised exploration policy in the pre-training phase, thus better leveraging the environmental samples and improving the downstream task sampling efficiency. However, constructing a generalizable model which captures the local dynamics under different behaviors remains a challenging problem. We introduce the multi-choice dynamics model that covers different local dynamics under different behaviors concurrently, which uses different heads to learn the state transition under different behaviors during unsupervised pre-training and selects the most appropriate head for prediction in the downstream task. Experimental results in the manipulation and locomotion domains demonstrate that EUCLID achieves state-of-the-art performance with high sample efficiency, basically solving the state-based URLB benchmark and reaching a mean normalized score of 104.0$\pm$1.2$\%$ in downstream tasks with 100k fine-tuning steps, which is equivalent to DDPG's performance at 2M interactive steps with 20x more data.
翻訳日:2022-10-04 14:22:17 公開日:2022-10-02
# 潜在ドメイン適応のための高速OT

Fast OT for Latent Domain Adaptation ( http://arxiv.org/abs/2210.00479v1 )

ライセンス: Link先を確認
Siddharth Roheda, Ashkan Panahi, Hamid Krim(参考訳) 本稿では,教師なしドメイン適応の問題に対処する。 このような適応の必要性は、モデルを開発するのに使用されるデータと対象データの分布が異なり、対象データの基底的真理情報が不明な場合に生じる。 本稿では,最適輸送理論を検証可能かつ実装可能な解を用いて,最適な潜在特徴表現を学習するアルゴリズムを提案する。 これは、対象ドメインからソースドメインの分布へサンプルを転送するコストを最小化することで実現される。

In this paper, we address the problem of unsupervised Domain Adaptation. The need for such an adaptation arises when the distribution of the target data differs from that which is used to develop the model and the ground truth information of the target data is unknown. We propose an algorithm that uses optimal transport theory with a verifiably efficient and implementable solution to learn the best latent feature representation. This is achieved by minimizing the cost of transporting the samples from the target domain to the distribution of the source domain.
翻訳日:2022-10-04 14:15:04 公開日:2022-10-02
# 身体ポーズ追跡とスケーラブルな多変量時系列分類による高速でロバストな運動分類

Fast and Robust Video-Based Exercise Classification via Body Pose Tracking and Scalable Multivariate Time Series Classifiers ( http://arxiv.org/abs/2210.00507v1 )

ライセンス: Link先を確認
Ashish Singh, Antonio Bevilacqua, Thach Le Nguyen, Feiyan Hu, Kevin McGuinness, Martin OReilly, Darragh Whelan, Brian Caulfield, Georgiana Ifrim(参考訳) 技術進歩は、スポーツ科学における機械学習ベースの応用を加速させた。 理学療法士、スポーツコーチ、アスリートは、パフォーマンスをさらに改善し、怪我を避けるために最新の技術を積極的に取り入れようとしている。 ウェアラブルセンサーは非常に人気があるが、バッテリ電力とセンサーのキャリブレーションに制約があるため、特に体に複数のセンサーを置く必要のあるユースケースでは使用が妨げられている。 したがって、スポーツ科学のためのビデオベースのデータキャプチャと分析への新たな関心がある。 本稿では,ビデオを用いたS&C演習の分類の応用について述べる。 我々は,携帯電話等のモバイルデバイスを用いたビデオカメラを用いて実行をキャプチャし,その実行を異なるタイプに分類することを目的とした,人気のある軍事報道活動に焦点を当てた。 ビデオ録画は大量のストレージと計算を必要とするため、このユースケースでは、分類精度を維持しつつ、高速な予測を可能にしながら、データ削減が必要となる。 そこで本研究では,BodyMTSという手法を用いて,映像を時系列に変換する手法を提案し,その後,多変量時系列分類器を用いたトレーニングと予測を行う。 そこで本研究では,BodyMTSの精度とロバスト性を分析し,映像品質やポーズ推定の要因によって生じるノイズの種類に頑健であることを示す。 そこで本研究では,BodyMTSと,映像から直接人間の活動を分類する最先端のディープラーニング手法を比較し,BodyMTSが同様の精度を達成できることを示す。 最後に,この応用におけるBodyMTSの実践的側面について,データ品質とサイズを低減した精度とロバスト性の観点から論じる。 その結果,BodyMTSの平均精度は87 %であり,これは人的領域の専門家の精度よりも有意に高いことがわかった。

Technological advancements have spurred the usage of machine learning based applications in sports science. Physiotherapists, sports coaches and athletes actively look to incorporate the latest technologies in order to further improve performance and avoid injuries. While wearable sensors are very popular, their use is hindered by constraints on battery power and sensor calibration, especially for use cases which require multiple sensors to be placed on the body. Hence, there is renewed interest in video-based data capture and analysis for sports science. In this paper, we present the application of classifying S\&C exercises using video. We focus on the popular Military Press exercise, where the execution is captured with a video-camera using a mobile device, such as a mobile phone, and the goal is to classify the execution into different types. Since video recordings need a lot of storage and computation, this use case requires data reduction, while preserving the classification accuracy and enabling fast prediction. To this end, we propose an approach named BodyMTS to turn video into time series by employing body pose tracking, followed by training and prediction using multivariate time series classifiers. We analyze the accuracy and robustness of BodyMTS and show that it is robust to different types of noise caused by either video quality or pose estimation factors. We compare BodyMTS to state-of-the-art deep learning methods which classify human activity directly from videos and show that BodyMTS achieves similar accuracy, but with reduced running time and model engineering effort. Finally, we discuss some of the practical aspects of employing BodyMTS in this application in terms of accuracy and robustness under reduced data quality and size. We show that BodyMTS achieves an average accuracy of 87\%, which is significantly higher than the accuracy of human domain experts.
翻訳日:2022-10-04 14:14:56 公開日:2022-10-02
# Siamese-NAS: 事前知識による軽量ニューラルネットワーク発見に有効なトレーニングサンプルの利用

Siamese-NAS: Using Trained Samples Efficiently to Find Lightweight Neural Architecture by Prior Knowledge ( http://arxiv.org/abs/2210.00546v1 )

ライセンス: Link先を確認
Yu-Ming Zhang, Jun-Wei Hsieh, Chun-Chieh Lee, Kuo-Chin Fan(参考訳) 過去10年間、畳み込みニューラルネットワークの多くのアーキテクチャは、vgg16、resnet、drknetなど、ハンドクラフトによって設計された。 彼らはそれぞれ、異なるタスクにおける最先端のレベルを達成する。 しかし、それでも人間の直感と経験に依存しており、試行錯誤には多くの時間を要する。 neural architecture search (nas)はこの問題に焦点を当てた。 最近の研究で、Neural Predictorはトレーニングサンプルとしてトレーニングアーキテクチャがほとんどなく、大幅に改善されている。 しかし、サンプリング効率はすでにかなり高い。 本稿では,予測器を用いたNASの過去の研究から着想を得た。 トレーニング手順に関する事前知識である推定符号を用いて構築される。 提案されたシームズ・プレクタはこのアイデアから大きな恩恵を受ける。 このアイデアは、NASBench-201上の現在のSOTA予測器を超える。 推定コードの影響を調べるために,推定コードと精度の関係を分析する。 また,軽量CNNアーキテクチャのための検索空間Tiny-NanoBenchを提案する。 このよく設計された検索空間は、nasbench-201よりも少ないフロップでより良いアーキテクチャを見つけるのが容易である。 要約すると、提案されているシームズ予測器は予測器に基づくNASである。 SOTAレベル、特に計算予算が限られている。 提案されているTiny-NanoBenchに適用すると、いくつかのトレーニング済みサンプルを使用して、非常に軽量なCNNアーキテクチャを見つけることができる。

In the past decade, many architectures of convolution neural networks were designed by handcraft, such as Vgg16, ResNet, DenseNet, etc. They all achieve state-of-the-art level on different tasks in their time. However, it still relies on human intuition and experience, and it also takes so much time consumption for trial and error. Neural Architecture Search (NAS) focused on this issue. In recent works, the Neural Predictor has significantly improved with few training architectures as training samples. However, the sampling efficiency is already considerable. In this paper, our proposed Siamese-Predictor is inspired by past works of predictor-based NAS. It is constructed with the proposed Estimation Code, which is the prior knowledge about the training procedure. The proposed Siamese-Predictor gets significant benefits from this idea. This idea causes it to surpass the current SOTA predictor on NASBench-201. In order to explore the impact of the Estimation Code, we analyze the relationship between it and accuracy. We also propose the search space Tiny-NanoBench for lightweight CNN architecture. This well-designed search space is easier to find better architecture with few FLOPs than NASBench-201. In summary, the proposed Siamese-Predictor is a predictor-based NAS. It achieves the SOTA level, especially with limited computation budgets. It applied to the proposed Tiny-NanoBench can just use a few trained samples to find extremely lightweight CNN architecture.
翻訳日:2022-10-04 14:14:27 公開日:2022-10-02
# 寛容さを伴うロバストな経験的リスク最小化

Robust Empirical Risk Minimization with Tolerance ( http://arxiv.org/abs/2210.00635v1 )

ライセンス: Link先を確認
Robi Bhattacharjee, Max Hopkins, Akash Kumar, Hantao Yu, Kamalika Chaudhuri(参考訳) 堅牢な分類のための単純でサンプル効率のよい学習アルゴリズムを開発することは、今日の技術支配の世界では重要な問題であり、現在の理論では、指数的なサンプルの複雑さと複雑な不適切な学習規則を必要とする。 本研究では,学習者が学習誤差を最小化する仮説を出力する単純なプロセスである, (robust) $\textit{empirical risk minimization}$ (rerm) の基本パラダイムについて検討する。 RERMはVCクラス(Montasser et al., 2019a)をしっかり学習できないことで有名です。 そこで本研究では,比較的大きな摂動集合に対して,出力分類器が達成可能な最良誤差と比較される,$\textit{ tolerance}$ robust learning (ashtiani et al., 2022) と呼ばれるロバストモデルの最近の緩和について検討する。 幾何学的優良性条件下では、RERMの自然寛容変種は、$\gamma$-tolerant robust learning VC class over $\mathbb{R}^d$に対して確かに十分であり、$\tilde{O}\left( \frac{VC(H)d\log \frac{D}{\gamma\delta}}{\epsilon^2}\right)$D$の頑健性領域のサンプルのみを必要とする。

Developing simple, sample-efficient learning algorithms for robust classification is a pressing issue in today's tech-dominated world, and current theoretical techniques requiring exponential sample complexity and complicated improper learning rules fall far from answering the need. In this work we study the fundamental paradigm of (robust) $\textit{empirical risk minimization}$ (RERM), a simple process in which the learner outputs any hypothesis minimizing its training error. RERM famously fails to robustly learn VC classes (Montasser et al., 2019a), a bound we show extends even to `nice' settings such as (bounded) halfspaces. As such, we study a recent relaxation of the robust model called $\textit{tolerant}$ robust learning (Ashtiani et al., 2022) where the output classifier is compared to the best achievable error over slightly larger perturbation sets. We show that under geometric niceness conditions, a natural tolerant variant of RERM is indeed sufficient for $\gamma$-tolerant robust learning VC classes over $\mathbb{R}^d$, and requires only $\tilde{O}\left( \frac{VC(H)d\log \frac{D}{\gamma\delta}}{\epsilon^2}\right)$ samples for robustness regions of (maximum) diameter $D$.
翻訳日:2022-10-04 14:07:30 公開日:2022-10-02
# Music-to-Text Synathesia: 音楽録音から記述テキストを生成する

Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings ( http://arxiv.org/abs/2210.00434v1 )

ライセンス: Link先を確認
Zhihuan Kuang, Shi Zong, Jianbing Zhang, Jiajun Chen, Hongfu Liu(参考訳) 本稿では,音楽とテキストの共感覚という新しい研究課題について考察する。 music-to-text synaesthesiaは、音楽録音を予め定義されたカテゴリに分類する古典的な音楽タグ問題とは異なり、音楽録音から記述テキストを生成することを目的としている。 これは、機械学習コミュニティに新しくて興味深い応用であるが、私たちの知る限り、既存の音楽関連データセットは、音楽録音のセマンティック記述を含まないため、音楽とテキストの合成に役立てることができない。 これを踏まえて、1,955組のクラシック音楽記録とテキスト記述を含む新しいデータセットを収集する。 そこで我々は,音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。 非判別的クラシック音楽に取り組むために,より多くのサンプルをグループ参照とみなし,異なるサンプル間の相対トポロジを保存した計算モデルにおいて,グループトポロジ保存損失をデザインする。 5つのヒューリスティックまたは事前学習した競争法とその変種に対する提案モデルの有効性を定量的に定量的に検証した。

In this paper, we consider a novel research problem, music-to-text synaesthesia. Different from the classical music tagging problem that classifies a music recording into pre-defined categories, the music-to-text synaesthesia aims to generate descriptive texts from music recordings for further understanding. Although this is a new and interesting application to the machine learning community, to our best knowledge, the existing music-related datasets do not contain the semantic descriptions on music recordings and cannot serve the music-to-text synaesthesia task. In light of this, we collect a new dataset that contains 1,955 aligned pairs of classical music recordings and text descriptions. Based on this, we build a computational model to generate sentences that can describe the content of the music recording. To tackle the highly non-discriminative classical music, we design a group topology-preservation loss in our computational model, which considers more samples as a group reference and preserves the relative topology among different samples. Extensive experimental results qualitatively and quantitatively demonstrate the effectiveness of our proposed model over five heuristics or pre-trained competitive methods and their variants on our collected dataset.
翻訳日:2022-10-04 14:05:34 公開日:2022-10-02
# 多層ネットワークを用いた認知モデリング:洞察,進歩,今後の課題

Cognitive modelling with multilayer networks: Insights, advancements and future challenges ( http://arxiv.org/abs/2210.00500v1 )

ライセンス: Link先を確認
Massimo Stella, Salvatore Citraro, Giulio Rossetti, Daniele Marinazzo, Yoed N. Kenett and Michael S. Vitevitch(参考訳) メンタルレキシコンは、自分が知っている単語や概念に関する情報を表す複雑な認知システムである。 心理学実験は、複数の対話的認知レベルにおける概念的関連が単語の獲得、記憶、処理に大きな影響を及ぼすことを示した。 セマンティクス、音韻学的、構文的、その他の概念的関連は、どのようにしてコヒーレントな数学的枠組みの中でマッピングされ、メンタルレキシコンがどのように機能するかを研究することができるか? 本稿では,認知的多層ネットワークを有望な定量的・解釈的枠組みとして検討する。 認知多層ネットワークは、複数の種類の情報を同時にマッピングできるため、様々な関連性の層がメンタルレキシコン内に共存し、認知処理に影響を与える可能性がある。 このレビューは、多層ネットワークの構造と形式について、緩やかに紹介することから始まる。 次に,単層ネットワークでは観測できず,レキシコンの複数の層を組み合わせることでのみ明らかにされる心理現象の定量的メカニズムについて論じる。 (i)多重化可能性は、健康・臨床集団における言語核と知識処理の促進効果を強調する。 (二)多層コミュニティ検出は、心理言語学的特徴により文脈的意味再構築を可能にする。 (iii)層分析は、語彙アクセスの仲介、抑制、促進の潜在的な相互作用を仲介することができる。 次世代脳/思考モデルにおいても,多層ネットワークが認知的知識表現に光を当てる新たな定量的視点を概説することで,最先端研究の鍵となる限界と期待できる方向性について考察する。

The mental lexicon is a complex cognitive system representing information about the words/concepts that one knows. Decades of psychological experiments have shown that conceptual associations across multiple, interactive cognitive levels can greatly influence word acquisition, storage, and processing. How can semantic, phonological, syntactic, and other types of conceptual associations be mapped within a coherent mathematical framework to study how the mental lexicon works? We here review cognitive multilayer networks as a promising quantitative and interpretative framework for investigating the mental lexicon. Cognitive multilayer networks can map multiple types of information at once, thus capturing how different layers of associations might co-exist within the mental lexicon and influence cognitive processing. This review starts with a gentle introduction to the structure and formalism of multilayer networks. We then discuss quantitative mechanisms of psychological phenomena that could not be observed in single-layer networks and were only unveiled by combining multiple layers of the lexicon: (i) multiplex viability highlights language kernels and facilitative effects of knowledge processing in healthy and clinical populations; (ii) multilayer community detection enables contextual meaning reconstruction depending on psycholinguistic features; (iii) layer analysis can mediate latent interactions of mediation, suppression and facilitation for lexical access. By outlining novel quantitative perspectives where multilayer networks can shed light on cognitive knowledge representations, also in next-generation brain/mind models, we discuss key limitations and promising directions for cutting-edge future research.
翻訳日:2022-10-04 14:05:14 公開日:2022-10-02
# ニューラルアクティブ学習のための改良アルゴリズム

Improved Algorithms for Neural Active Learning ( http://arxiv.org/abs/2210.00423v1 )

ライセンス: Link先を確認
Yikun Ban, Yuheng Zhang, Hanghang Tong, Arindam Banerjee, Jingrui He(参考訳) 非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。 特に,現状関連研究(sota)で用いられるものよりも,アクティブ学習に適した人口減少を最小限に抑えることで,後悔の指標を2つ紹介する。 次に,提案アルゴリズムは,NNの強力な表現を活用および探索の両方に活用し,性能保証付き$k$クラス分類問題に適したクエリ決定器を備え,完全なフィードバックを利用し,パラメータをより実用的で効率的な方法で更新する。 これらの注意深い設計は、より深い後悔を生じさせ、乗算係数$o(\log t)$によって改善され、入力次元と学習すべき関数の複雑さの両方の呪いを取り除く。 さらに, このアルゴリズムは, 分類問題におけるハードマージン設定の下で, 長期のベイズ最適分類器と同じ性能が得られることを示す。 最後に,提案アルゴリズムとSOTAベースラインの評価実験を行い,改良された経験的性能を示す。

We improve the theoretical and empirical performance of neural-network(NN)-based active learning algorithms for the non-parametric streaming setting. In particular, we introduce two regret metrics by minimizing the population loss that are more suitable in active learning than the one used in state-of-the-art (SOTA) related work. Then, the proposed algorithm leverages the powerful representation of NNs for both exploitation and exploration, has the query decision-maker tailored for $k$-class classification problems with the performance guarantee, utilizes the full feedback, and updates parameters in a more practical and efficient manner. These careful designs lead to a better regret upper bound, improving by a multiplicative factor $O(\log T)$ and removing the curse of both input dimensionality and the complexity of the function to be learned. Furthermore, we show that the algorithm can achieve the same performance as the Bayes-optimal classifier in the long run under the hard-margin setting in classification problems. In the end, we use extensive experiments to evaluate the proposed algorithm and SOTA baselines, to show the improved empirical performance.
翻訳日:2022-10-04 13:55:47 公開日:2022-10-02
# グラフによる深層学習のためのグラディエントゲーティング

Gradient Gating for Deep Multi-Rate Learning on Graphs ( http://arxiv.org/abs/2210.00513v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Benjamin P. Chamberlain, Michael W. Mahoney, Michael M. Bronstein, Siddhartha Mishra(参考訳) 本稿では,グラフニューラルネットワーク(gnns)の性能向上のための新しい枠組みである勾配ゲーティング(g$^2$)を提案する。 我々のフレームワークは,GNN層の出力を,基盤となるグラフのノード間でのメッセージパッシング情報のマルチレートフローのメカニズムでゲーティングすることに基づいている。 ローカル勾配はメッセージパッシング更新をさらに変調するために利用される。 当社のフレームワークでは,マルチレート勾配ゲーティング機構を構築するラッパーとして,任意の基本gnnレイヤを柔軟に使用することが可能です。 我々は、G$^2$が過度に平滑な問題を緩和し、深いGNNの設計を可能にすることを厳密に証明する。 提案するフレームワークは,大規模ヘテロ親和性グラフを含む,さまざまなグラフ学習タスクにおいて,最先端のパフォーマンスを実現する。

We present Gradient Gating (G$^2$), a novel framework for improving the performance of Graph Neural Networks (GNNs). Our framework is based on gating the output of GNN layers with a mechanism for multi-rate flow of message passing information across nodes of the underlying graph. Local gradients are harnessed to further modulate message passing updates. Our framework flexibly allows one to use any basic GNN layer as a wrapper around which the multi-rate gradient gating mechanism is built. We rigorously prove that G$^2$ alleviates the oversmoothing problem and allows the design of deep GNNs. Empirical results are presented to demonstrate that the proposed framework achieves state-of-the-art performance on a variety of graph learning tasks, including on large-scale heterophilic graphs.
翻訳日:2022-10-04 13:55:30 公開日:2022-10-02
# GFlowNetsと変分推論

GFlowNets and variational inference ( http://arxiv.org/abs/2210.00580v1 )

ライセンス: Link先を確認
Nikolay Malkin, Salem Lahlou, Tristan Deleu, Xu Ji, Edward Hu, Katie Everett, Dinghuai Zhang, Yoshua Bengio(参考訳) 本稿では,連続空間上の分布をモデル化する (階層的) 変動推論 (VI) と,グラフなどの離散構造上の分布に使用される生成フローネットワーク (GFlowNets) という,確率論的アルゴリズムの2つのファミリ間のブリッジを構築する。 また, ある場合において, VIアルゴリズムは, 学習目標の期待勾配の等しさという意味で, GFlowNetsの特別な場合と等価であることを示した。 次に,両家系の違いを指摘し,これらの差異が実験的に現れることを示す。 特に、強化学習からアイデアを借用したGFlowNetsは、重要サンプリングによる高勾配分散のコストを伴わずに、VIよりも非政治訓練に適している。 我々は、GFlowNetsのこの特性が、マルチモーダルターゲット分布の多様性を捉える利点をもたらすと論じている。

This paper builds bridges between two families of probabilistic algorithms: (hierarchical) variational inference (VI), which is typically used to model distributions over continuous spaces, and generative flow networks (GFlowNets), which have been used for distributions over discrete structures such as graphs. We demonstrate that, in certain cases, VI algorithms are equivalent to special cases of GFlowNets in the sense of equality of expected gradients of their learning objectives. We then point out the differences between the two families and show how these differences emerge experimentally. Notably, GFlowNets, which borrow ideas from reinforcement learning, are more amenable than VI to off-policy training without the cost of high gradient variance induced by importance sampling. We argue that this property of GFlowNets can provide advantages for capturing diversity in multimodal target distributions.
翻訳日:2022-10-04 13:55:18 公開日:2022-10-02
# ニューラルグラフモデル

Neural Graphical Models ( http://arxiv.org/abs/2210.00453v1 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska(参考訳) グラフはユビキタスであり、システムのダイナミクスを理解するためによく使われる。 ベイジアンとマルコフのネットワークと条件付き独立グラフからなる確率的グラフモデルは、人気のあるグラフ表現技法の1つである。 機能(ノード)と基盤となるディストリビューションの関係をモデル化することができる。 理論的にはこれらのモデルは、非常に複雑な依存関数を表現できるが、実際にはグラフ演算に関連する計算上の制限により、仮定を単純化することが多い。 この研究は、複雑な機能依存を合理的な計算コストで表現しようとするニューラルネットワークグラフィカルモデル(NGM)を導入している。 具体的には、特徴関係と対応するサンプルのグラフから、ニューラルネットワークをマルチタスク学習フレームワークとして使用することにより、特徴間の依存関係構造とそれらの複雑な関数表現をキャプチャする。 NGMのための効率的な学習、推論、サンプリングアルゴリズムを提供する。 さらに、NGMは、有向グラフ、無向グラフ、混合エッジグラフを含む一般的なグラフ構造を適合させることができる。 我々は,NGMがガウス図形モデルを表現し,肺がんデータの推測分析を行い,CDCが提供した実世界の乳幼児死亡データから知見を抽出する能力を示す実証的研究を行った。

Graphs are ubiquitous and are often used to understand the dynamics of a system. Probabilistic Graphical Models comprising Bayesian and Markov networks, and Conditional Independence graphs are some of the popular graph representation techniques. They can model relationships between features (nodes) together with the underlying distribution. Although theoretically these models can represent very complex dependency functions, in practice often simplifying assumptions are made due to computational limitations associated with graph operations. This work introduces Neural Graphical Models (NGMs) which attempt to represent complex feature dependencies with reasonable computational costs. Specifically, given a graph of feature relationships and corresponding samples, we capture the dependency structure between the features along with their complex function representations by using neural networks as a multi-task learning framework. We provide efficient learning, inference and sampling algorithms for NGMs. Moreover, NGMs can fit generic graph structures including directed, undirected and mixed-edge graphs as well as support mixed input data types. We present empirical studies that show NGMs' capability to represent Gaussian graphical models, inference analysis of a lung cancer data and extract insights from a real world infant mortality data provided by CDC.
翻訳日:2022-10-04 13:49:07 公開日:2022-10-02
# ディープネットワークにおけるコンセンサスのダイナミクスとノイズラベルの同定

The Dynamic of Consensus in Deep Networks and the Identification of Noisy Labels ( http://arxiv.org/abs/2210.00583v1 )

ライセンス: Link先を確認
Daniel Shwartz and Uri Stern and Daphna Weinshall(参考訳) ディープニューラルネットワークは驚くほどの能力と表現力を持ち、トレーニングセットを記憶することができる。 これは、ノイズのあるラベルの存在下でのトレーニングにおいて、ノイズの多い例がトレーニングの終了までにクリーンな例と区別できないという問題を引き起こす。 最近の研究では、ディープネットワークがノイズの多い例よりもずっと早くクリーンな例を記憶しているように見えることから、この問題に対処している。 ここでは、新しい経験的結果について報告する:各例において、各モデルがネットワークのアンサンブルで記憶した時刻を見ると、ノイズの多い例に見られる多様性はクリーンな例よりもはるかに大きい。 この観察を用いて雑音ラベル濾過法を開発した。 この方法はデータの統計に基づいており、クリーンデータとノイズデータの間のアンサンブル学習ダイナミクスの違いを捉えている。 私たちは3つのタスクでメソッドをテストする。 (i)騒音量の推定 (ii)ノイズろ過 (iii)監督分類。 提案手法は,様々なデータセット,ノイズモデル,ノイズレベルを用いて,既存の3つのタスクのベースラインを改良する。 性能の改善とは別に、我々の手法には2つの利点がある。 (i)単純で、追加のハイパーパラメーターは導入されない。 (ii)本手法はモジュール化されており,エンドツーエンドで動作しないため,将来的な使用のためにデータセットのクリーニングに使用することができる。

Deep neural networks have incredible capacity and expressibility, and can seemingly memorize any training set. This introduces a problem when training in the presence of noisy labels, as the noisy examples cannot be distinguished from clean examples by the end of training. Recent research has dealt with this challenge by utilizing the fact that deep networks seem to memorize clean examples much earlier than noisy examples. Here we report a new empirical result: for each example, when looking at the time it has been memorized by each model in an ensemble of networks, the diversity seen in noisy examples is much larger than the clean examples. We use this observation to develop a new method for noisy labels filtration. The method is based on a statistics of the data, which captures the differences in ensemble learning dynamics between clean and noisy data. We test our method on three tasks: (i) noise amount estimation; (ii) noise filtration; (iii) supervised classification. We show that our method improves over existing baselines in all three tasks using a variety of datasets, noise models, and noise levels. Aside from its improved performance, our method has two other advantages. (i) Simplicity, which implies that no additional hyperparameters are introduced. (ii) Our method is modular: it does not work in an end-to-end fashion, and can therefore be used to clean a dataset for any other future usage.
翻訳日:2022-10-04 13:48:51 公開日:2022-10-02
# sagda:federated min-max learningにおける$\mathcal{o}(\epsilon^{-2})$通信複雑性を達成する

SAGDA: Achieving $\mathcal{O}(\epsilon^{-2})$ Communication Complexity in Federated Min-Max Learning ( http://arxiv.org/abs/2210.00611v1 )

ライセンス: Link先を確認
Haibo Yang, Zhuqing Liu, Xin Zhang, Jia Liu(参考訳) フェデレートされたmin-max学習のコミュニケーションの複雑さを低減するために、従来のフェデレーションドラーニングと同様の(複数の局所的な更新を通じて)頻繁なコミュニケーションのアイデアを活用することが自然なアプローチである。 しかしながら、フェデレーション・ミニマックス学習におけるより複雑な外部間問題構造のため、低頻度通信を用いたフェデレーション・ミニマックス学習のコミュニケーション複雑性の理論的な理解は文献に非常に限定されている。 これは非i.d.データセットと部分的なクライアント参加の設定に特に当てはまる。 この課題に対処するため,本論文では,SAGDA (Stochastic sample a averageaging gradient Ascent) と呼ばれる新しいアルゴリズムフレームワークを提案する。 一 ランダムにサンプリングされたクライアントの確率勾配推定器を制御変数として組み立て、 ii) サーバ側とクライアント側の両方で2つの学習率を利用する。 sagdaは、クライアント数とローカル更新ステップの両方で線形なスピードアップを達成しており、これはアートの状態よりも桁違いに低い$\mathcal{o}(\epsilon^{-2})$の通信複雑性をもたらす。 興味深いことに、標準の連邦確率勾配勾配勾配上昇(FSGDA)が実際には制御変数のないSAGDAの特殊バージョンであることに注意して、FSGDAの通信複雑性結果が$\mathcal{O}(\epsilon^{-2})$になる。 そこで,本研究では,sagdaのレンズを通して,fsgdaの標準手法であるfederated min-max学習の通信複雑性の理解を深める。

To lower the communication complexity of federated min-max learning, a natural approach is to utilize the idea of infrequent communications (through multiple local updates) same as in conventional federated learning. However, due to the more complicated inter-outer problem structure in federated min-max learning, theoretical understandings of communication complexity for federated min-max learning with infrequent communications remain very limited in the literature. This is particularly true for settings with non-i.i.d. datasets and partial client participation. To address this challenge, in this paper, we propose a new algorithmic framework called stochastic sampling averaging gradient descent ascent (SAGDA), which i) assembles stochastic gradient estimators from randomly sampled clients as control variates and ii) leverages two learning rates on both server and client sides. We show that SAGDA achieves a linear speedup in terms of both the number of clients and local update steps, which yields an $\mathcal{O}(\epsilon^{-2})$ communication complexity that is orders of magnitude lower than the state of the art. Interestingly, by noting that the standard federated stochastic gradient descent ascent (FSGDA) is in fact a control-variate-free special version of SAGDA, we immediately arrive at an $\mathcal{O}(\epsilon^{-2})$ communication complexity result for FSGDA. Therefore, through the lens of SAGDA, we also advance the current understanding on communication complexity of the standard FSGDA method for federated min-max learning.
翻訳日:2022-10-04 13:48:30 公開日:2022-10-02
# 良性オートエンコーダ

Benign Autoencoders ( http://arxiv.org/abs/2210.00637v1 )

ライセンス: Link先を確認
Semyon Malamud, Andreas Schrimpf, Andrea Xu, Giuseppe Matera and Antoine Didisheim(参考訳) 現代の機械学習アルゴリズムの成功は、次元還元による効率的なデータ表現と圧縮に大きく依存する。 この慣習は、データ処理が常に情報損失につながるという従来の直観と矛盾している。 私たちはこの直観が間違っていることを証明します。 任意の非凸問題に対して、モデル入力の圧縮によりモデル性能が向上する、より低い次元のデータ表現を抽出する最適な良性オートエンコーダ(bae)が存在する。 我々はBAEが学習モデルの圧縮性次元である多様体にデータを投影していることを証明する。 我々は、BAEの効率的な計算アルゴリズムを開発し、実装し、BAEが検討するデータセットのモデル性能を改善することを示す。 さらに、"悪性"データ次元を圧縮することで、BAEは学習をより安定して堅牢にする。

The success of modern machine learning algorithms depends crucially on efficient data representation and compression through dimensionality reduction. This practice seemingly contradicts the conventional intuition suggesting that data processing always leads to information loss. We prove that this intuition is wrong. For any non-convex problem, there exists an optimal, benign auto-encoder (BAE) extracting a lower-dimensional data representation that is strictly beneficial: Compressing model inputs improves model performance. We prove that BAE projects data onto a manifold whose dimension is the compressibility dimension of the learning model. We develop and implement an efficient algorithm for computing BAE and show that BAE improves model performance in every dataset we consider. Furthermore, by compressing "malignant" data dimensions, BAE makes learning more stable and robust.
翻訳日:2022-10-04 13:48:01 公開日:2022-10-02
# グラフ上の自己教師あり学習のためのスペクトル拡張

Spectral Augmentation for Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2210.00643v1 )

ライセンス: Link先を確認
Lu Lin, Jinghui Chen, Hongning Wang(参考訳) グラフの自己教師型学習技術であるグラフコントラスト学習(GCL)は、インスタンス識別を通じて表現を学習することを目的としている。 その性能は、小さな摂動に頑健な不変パターンを反映するためにグラフ拡張に大きく依存しているが、グラフ不変性 GCL が何を捉えるべきかはまだ不明である。 近年の研究では、スペクトル領域に埋め込まれた固有構造特性への影響を無視して、空間領域において一様ランダムにトポロジー拡張を行う。 本研究では,スペクトルの観点からのグラフの不変性を探究し,トポロジ拡張の原理的方法を見つけることを目的とする。 スペクトル変化を最大化することでトポロジー拡張を導くスペクトル拡張法を開発した。 グラフおよびノード分類タスクの広範な実験により,自己教師付き表現学習における本手法の有効性が示された。 提案手法は,移動学習における有望な一般化能力ももたらし,敵攻撃下での強靭性も備えている。 本研究は,グラフトポロジー拡張の一般原理に光を当てる。

Graph contrastive learning (GCL), as an emerging self-supervised learning technique on graphs, aims to learn representations via instance discrimination. Its performance heavily relies on graph augmentation to reflect invariant patterns that are robust to small perturbations; yet it still remains unclear about what graph invariance GCL should capture. Recent studies mainly perform topology augmentations in a uniformly random manner in the spatial domain, ignoring its influence on the intrinsic structural properties embedded in the spectral domain. In this work, we aim to find a principled way for topology augmentations by exploring the invariance of graphs from the spectral perspective. We develop spectral augmentation which guides topology augmentations by maximizing the spectral change. Extensive experiments on both graph and node classification tasks demonstrate the effectiveness of our method in self-supervised representation learning. The proposed method also brings promising generalization capability in transfer learning, and is equipped with intriguing robustness property under adversarial attacks. Our study sheds light on a general principle for graph topology augmentation.
翻訳日:2022-10-04 13:47:51 公開日:2022-10-02
# react: アクション可能性(その他)のためのレビューコメントデータセット

ReAct: A Review Comment Dataset for Actionability (and more) ( http://arxiv.org/abs/2210.00443v1 )

ライセンス: Link先を確認
Gautam Choudhary, Natwar Modani, Nitish Maurya(参考訳) レビューコメントはドキュメントの進化において重要な役割を果たす。 大きなドキュメントでは、レビューコメントの数が大きくなり、著者がコメントが何であるかを素早く把握することが難しくなる。 コメントのタイプを特定するとともに、どのコメントが文書作成者に対して何らかのアクションを必要とするかを特定することが重要である。 本稿では,注釈付きレビューコメントデータセットReActを紹介する。 レビューコメントはOpenReviewサイトから引用されている。 これらのレビューに対するコメントをクラウドソースで公開しています。 データセットの特性を分析し、アノテーションの品質を検証する。 我々は、主要な貢献としてデータセット(https://github.com/gtmdotme/ReAct)を研究コミュニティにリリースします。 また、分類タスクの標準ベースラインでデータをベンチマークし、パフォーマンスを分析します。

Review comments play an important role in the evolution of documents. For a large document, the number of review comments may become large, making it difficult for the authors to quickly grasp what the comments are about. It is important to identify the nature of the comments to identify which comments require some action on the part of document authors, along with identifying the types of these comments. In this paper, we introduce an annotated review comment dataset ReAct. The review comments are sourced from OpenReview site. We crowd-source annotations for these reviews for actionability and type of comments. We analyze the properties of the dataset and validate the quality of annotations. We release the dataset (https://github.com/gtmdotme/ReAct) to the research community as a major contribution. We also benchmark our data with standard baselines for classification tasks and analyze their performance.
翻訳日:2022-10-04 13:39:34 公開日:2022-10-02
# 不確実性認識型文脈安定化器を用いたピクセル・グローバル自己教師付き学習

Pixel-global Self-supervised Learning with Uncertainty-aware Context Stabilizer ( http://arxiv.org/abs/2210.00646v1 )

ライセンス: Link先を確認
Zhuangzhuang Zhang, Weixiong Zhang(参考訳) 我々は,同一画像の異なる拡張ビュー間のグローバル一貫性とピクセルレベルの局所的構成を捉え,下流の判別および密集した予測タスクに対応する新しいssl手法を開発した。 我々は従来の対照的なSSL手法で使用される教師学生アーキテクチャを採用した。 本手法では,同一画像の拡張ビューの圧縮表現を集約することにより,グローバル一貫性を実現する。 ピクセルレベルの一貫性は、異なる拡張ビューで同じピクセルの類似表現を追求することで実現される。 重要となるのは,異なる拡張による2つのビューによって生成されたコンテキストギャップを適応的に保存する,不確実性を認識するコンテキストスタビライザの導入である。 さらに,安定化器内のモンテカルロドロップアウトを用いて不確かさを計測し,異なるビューにおける同一画素の表現間の不一致を適応的にバランスさせた。

We developed a novel SSL approach to capture global consistency and pixel-level local consistencies between differently augmented views of the same images to accommodate downstream discriminative and dense predictive tasks. We adopted the teacher-student architecture used in previous contrastive SSL methods. In our method, the global consistency is enforced by aggregating the compressed representations of augmented views of the same image. The pixel-level consistency is enforced by pursuing similar representations for the same pixel in differently augmented views. Importantly, we introduced an uncertainty-aware context stabilizer to adaptively preserve the context gap created by the two views from different augmentations. Moreover, we used Monte Carlo dropout in the stabilizer to measure uncertainty and adaptively balance the discrepancy between the representations of the same pixels in different views.
翻訳日:2022-10-04 13:39:23 公開日:2022-10-02
# 構造化タスクによる変圧器の系統的一般化と創発的構造

Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks ( http://arxiv.org/abs/2210.00400v1 )

ライセンス: Link先を確認
Yuxuan Li and James L. McClelland(参考訳) トランスフォーマーネットワークは自然言語処理やマシンビジョンにおいて大きな成功を収めており、次の単語予測や画像分類といったタスク目的は、高次元入力に対するニュアンス付きコンテキスト感度から恩恵を受けている。 しかし、トランスフォーマーが高度に構造化された振る舞いを獲得し、体系的な一般化を実現する方法と時期について議論が続いている。 ここでは, 因果変換器が, それらの操作のコピー, ソート, 階層的構成など, アルゴリズム的な一連のタスクをいかにうまく実行するかを検討する。 トランスフォーマーに典型的に使用される標準位置符号化を、配列内の項目と任意にペアリングされたラベルに置き換えることで、トレーニングで使用されるものよりも長いシーケンスへの強い一般化を示す。 課題を解くのに十分な層と頭の設定を見つけ、アブレーション実験と表現解析を行うことで、2層トランスフォーマーが多層問題に対する一般化可能な解を学習し、系統的なタスク分解の兆候を示す。 また、関連するタスク間で共有計算を利用する。 これらの結果は、構造化された振る舞いを必要とするタスクにおいて、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法に関する重要な洞察を提供する。

Transformer networks have seen great success in natural language processing and machine vision, where task objectives such as next word prediction and image classification benefit from nuanced context sensitivity across high-dimensional inputs. However, there is an ongoing debate about how and when transformers can acquire highly structured behavior and achieve systematic generalization. Here, we explore how well a causal transformer can perform a set of algorithmic tasks, including copying, sorting, and hierarchical compositions of these operations. We demonstrate strong generalization to sequences longer than those used in training by replacing the standard positional encoding typically used in transformers with labels arbitrarily paired with items in the sequence. By finding the layer and head configuration sufficient to solve the task, then performing ablation experiments and representation analysis, we show that two-layer transformers learn generalizable solutions to multi-level problems and develop signs of systematic task decomposition. They also exploit shared computation across related tasks. These results provide key insights into how transformer models may be capable of decomposing complex decisions into reusable, multi-level policies in tasks requiring structured behavior.
翻訳日:2022-10-04 13:37:57 公開日:2022-10-02
# メモリ効率変換器の群自己保持機構

Grouped self-attention mechanism for a memory-efficient Transformer ( http://arxiv.org/abs/2210.00440v1 )

ライセンス: Link先を確認
Bumjun Jung, Yusuke Mukuta, Tatsuya Harada(参考訳) 時系列データ分析は、天気予報、電力消費、株式市場といった現実世界の多くのタスクが、時間とともに変化するデータの予測に関わるため重要である。 時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。 したがって、時系列データ予測において、長距離依存性を捉えることが重要な要素である。 これらの問題を解決するために,GSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)という2つの新しいモジュールを提案した。 どちらのモジュールも計算空間と時間複雑性を達成し、小さなハイパーパラメータの制限下でのシーケンス長$l$ のオーダー $o(l)$ を達成し、グローバル情報を考慮しながら局所性をキャプチャできる。 時系列データセットを用いた実験の結果,提案モデルでは,既存の手法に匹敵する計算複雑性と性能の低減が効果的に示された。

Time-series data analysis is important because numerous real-world tasks such as forecasting weather, electricity consumption, and stock market involve predicting data that vary over time. Time-series data are generally recorded over a long period of observation with long sequences owing to their periodic characteristics and long-range dependencies over time. Thus, capturing long-range dependency is an important factor in time-series data forecasting. To solve these problems, we proposed two novel modules, Grouped Self-Attention (GSA) and Compressed Cross-Attention (CCA). With both modules, we achieved a computational space and time complexity of order $O(l)$ with a sequence length $l$ under small hyperparameter limitations, and can capture locality while considering global information. The results of experiments conducted on time-series datasets show that our proposed model efficiently exhibited reduced computational complexity and performance comparable to or better than existing methods.
翻訳日:2022-10-04 13:37:36 公開日:2022-10-02
# ランクRevealing QR Factorizationによる特徴選択のためのサブスペース学習:非負行列因子化と進化的アルゴリズムによる教師なしハイブリッドアプローチ

Subspace Learning for Feature Selection via Rank Revealing QR Factorization: Unsupervised and Hybrid Approaches with Non-negative Matrix Factorization and Evolutionary Algorithm ( http://arxiv.org/abs/2210.00418v1 )

ライセンス: Link先を確認
Amir Moslemi, Arash Ahmadian(参考訳) 高次元データからの最も有益で識別的な特徴の選択は、機械学習とデータエンジニアリングにおいて重要なトピックとして注目されている。 特徴選択のための非負行列分解のような行列分解に基づく手法が特徴選択のホットトピックとして登場した。 行列分解を用いた特徴選択の主な目標は、元の空間を近似する部分空間を低次元で抽出することである。 本研究では,特異値分解 (SVD) よりも計算的に安価であるQR (RRQR) 係数化を,新しい教師なし特徴選択手法として,最も情報性の高い特徴の獲得に活用する。 本手法は,この因子分解法に特有の特徴である特徴選択にqrの置換行列を用いる。 さらに、新しい教師なし特徴選択法として、QR因子化を非負行列分解(NMF)目的関数に組み込む。 最後に,フィルタベース手法としてrrqr,ラッパーベース手法として遺伝的アルゴリズムを結合したハイブリッド特徴選択アルゴリズムを提案する。 本手法では、RRQR因子化を用いて冗長な特徴を除去し、遺伝的アルゴリズムを用いて最も識別性の高い特徴サブセットを選択する。 提案アルゴリズムは、教師付き、教師なし、および半教師付き設定における最先端の特徴選択アルゴリズムと比較した場合、信頼性と堅牢性を示す。 すべてのメソッドは、KNN、SVM、C4.5分類器を使用して利用可能な7つのマイクロアレイデータセットでテストされる。 評価指標の観点からは,提案手法が最先端の機能選択に匹敵することを示す。

The selection of most informative and discriminative features from high-dimensional data has been noticed as an important topic in machine learning and data engineering. Using matrix factorization-based techniques such as nonnegative matrix factorization for feature selection has emerged as a hot topic in feature selection. The main goal of feature selection using matrix factorization is to extract a subspace which approximates the original space but in a lower dimension. In this study, rank revealing QR (RRQR) factorization, which is computationally cheaper than singular value decomposition (SVD), is leveraged in obtaining the most informative features as a novel unsupervised feature selection technique. This technique uses the permutation matrix of QR for feature selection which is a unique property to this factorization method. Moreover, QR factorization is embedded into non-negative matrix factorization (NMF) objective function as a new unsupervised feature selection method. Lastly, a hybrid feature selection algorithm is proposed by coupling RRQR, as a filter-based technique, and a Genetic algorithm as a wrapper-based technique. In this method, redundant features are removed using RRQR factorization and the most discriminative subset of features are selected using the Genetic algorithm. The proposed algorithm shows to be dependable and robust when compared against state-of-the-art feature selection algorithms in supervised, unsupervised, and semi-supervised settings. All methods are tested on seven available microarray datasets using KNN, SVM and C4.5 classifiers. In terms of evaluation metrics, the experimental results shows that the proposed method is comparable with the state-of-the-art feature selection.
翻訳日:2022-10-04 13:30:00 公開日:2022-10-02
# 意味の境界 : ニューラルマシン翻訳における事例研究

The boundaries of meaning: a case study in neural machine translation ( http://arxiv.org/abs/2210.00613v1 )

ライセンス: Link先を確認
Yuri Balashov(参考訳) 自然言語処理におけるディープラーニングの成功は、言語的意味の性質や、自然言語や人工システムによって処理できる方法に関する興味深い疑問を提起する。 そのような質問のひとつは、2016年以来、言語モデリング、機械翻訳、その他のタスクに広く使われているサブワードセグメンテーションアルゴリズムである。 これらのアルゴリズムは、しばしば「周期|on|t|ist」で「周期」「オン」「t」「イスト」といった意味的に不透明な部分に分割する。 この系は、それらの間の文法的関係をモデル化することが期待される密度ベクトル空間における結果のセグメントを表す。 この表現は' period|on|t|ist' (英語) を 'par|od|ont|iste' (フランス語) にマッピングするのに使われる。 したがって、語彙レベルでモデル化される代わりに、翻訳はより一般的に、2つの言語のサブワードセグメントの列の間の最良のバイリンガルマッピングを学ぶタスクとして再編成される。 このようなサブワードのセグメンテーションとアライメントは、その不透明な性質にもかかわらず、非常に効率的なエンドツーエンド機械翻訳システムで動作している。 そのようなプロセスの計算値は不必要である。 しかし、それらには言語的あるいは哲学的な可能性がありますか? 私は、サブワードセグメンテーションアルゴリズムの関連する詳細をレビューし、それらを重要な哲学的および言語的議論に関連付けることで、人工知能をより透明かつ説明しやすいものにするため、この問題に光を当てようとしている。

The success of deep learning in natural language processing raises intriguing questions about the nature of linguistic meaning and ways in which it can be processed by natural and artificial systems. One such question has to do with subword segmentation algorithms widely employed in language modeling, machine translation, and other tasks since 2016. These algorithms often cut words into semantically opaque pieces, such as 'period', 'on', 't', and 'ist' in 'period|on|t|ist'. The system then represents the resulting segments in a dense vector space, which is expected to model grammatical relations among them. This representation may in turn be used to map 'period|on|t|ist' (English) to 'par|od|ont|iste' (French). Thus, instead of being modeled at the lexical level, translation is reformulated more generally as the task of learning the best bilingual mapping between the sequences of subword segments of two languages; and sometimes even between pure character sequences: 'p|e|r|i|o|d|o|n|t|i|s|t' $\rightarrow$ 'p|a|r|o|d|o|n|t|i|s|t|e'. Such subword segmentations and alignments are at work in highly efficient end-to-end machine translation systems, despite their allegedly opaque nature. The computational value of such processes is unquestionable. But do they have any linguistic or philosophical plausibility? I attempt to cast light on this question by reviewing the relevant details of the subword segmentation algorithms and by relating them to important philosophical and linguistic debates, in the spirit of making artificial intelligence more transparent and explainable.
翻訳日:2022-10-04 13:29:05 公開日:2022-10-02
# Wikidataはアナロジ的推論をサポートするか?

Does Wikidata Support Analogical Reasoning? ( http://arxiv.org/abs/2210.00620v1 )

ライセンス: Link先を確認
Filip Ilievski, Jay Pujara and Kartik Shenoy(参考訳) アナロジー推論手法は、常識知識ベース、語彙資源、言語モデル、あるいはそれらの組み合わせなど、様々なリソース上に構築されている。 エンティティやイベントに関する知識の広範なカバーは、Wikidataを状況やドメイン間の類似的な推論のための有望なリソースとしますが、Wikidataはまだこのタスクに使われていません。 本稿では,Wikidataの知識が類推的推論をサポートするかどうかを検討する。 具体的には、関係知識がwikidataで一貫してモデル化されているか、あるいは一貫性のない方法でモデル化されているかを調査した。 さらなる実験から、wikidataはアナロジー分類のためのデータを作成するのに使えることが分かりました。 アナロジーを支援するための今後の作業を容易にするため,キーデシダラタについて論じ,Wikidataからアナロジーを抽出する自動手法を導出する指標のセットを考案する。

Analogical reasoning methods have been built over various resources, including commonsense knowledge bases, lexical resources, language models, or their combination. While the wide coverage of knowledge about entities and events make Wikidata a promising resource for analogical reasoning across situations and domains, Wikidata has not been employed for this task yet. In this paper, we investigate whether the knowledge in Wikidata supports analogical reasoning. Specifically, we study whether relational knowledge is modeled consistently in Wikidata, observing that relevant relational information is typically missing or modeled in an inconsistent way. Our further experiments show that Wikidata can be used to create data for analogy classification, but this requires much manual effort. To facilitate future work that can support analogies, we discuss key desiderata, and devise a set of metrics to guide an automatic method for extracting analogies from Wikidata.
翻訳日:2022-10-04 13:28:31 公開日:2022-10-02
# 自己教師付き単眼深度推定:エッジファイティング問題を解く

Self-Supervised Monocular Depth Estimation: Solving the Edge-Fattening Problem ( http://arxiv.org/abs/2210.00411v1 )

ライセンス: Link先を確認
Xingyu Chen, Ruonan Zhang, Ji Jiang, Yan Wang, Ge Li, Thomas H. Li(参考訳) 自己教師付き単分子深度推定(MDE)モデルは、悪名高いエッジフェッテリング問題に普遍的に苦しむ。 計量学習に人気があるトリプルト損失は多くのコンピュータビジョンタスクで大きな成功を収めた。 本稿では,MDEにおけるパッチベースのトリプルト損失を再考し,ユビキタスエッジフェッテリング問題を緩和する。 MDEにおける生三重項損失の2つの欠点を示し、問題駆動型再設計を実証する。 まず,全ての負のサンプルに適用した最小演算子に基づく手法を提案する。 第2に、アンカー正距離とアンカー負距離を元の三重項内から分割し、負との相互効果なしに直接正を最適化する。 私たちの強力で汎用性のある三重項損失は、私たちのモデルがこれまでのsataをはるかに上回るだけでなく、多くの既存モデルに大幅なパフォーマンス向上をもたらすと同時に、余分な推論計算も導入していません。

Self-supervised monocular depth estimation (MDE) models universally suffer from the notorious edge-fattening issue. Triplet loss, popular for metric learning, has made a great success in many computer vision tasks. In this paper, we redesign the patch-based triplet loss in MDE to alleviate the ubiquitous edge-fattening issue. We show two drawbacks of the raw triplet loss in MDE and demonstrate our problem-driven redesigns. First, we present a min. operator based strategy applied to all negative samples, to prevent well-performing negatives sheltering the error of edge-fattening negatives. Second, we split the anchor-positive distance and anchor-negative distance from within the original triplet, which directly optimizes the positives without any mutual effect with the negatives. Extensive experiments show the combination of these two small redesigns can achieve unprecedented results: Our powerful and versatile triplet loss not only makes our model outperform all previous SoTA by a large margin, but also provides substantial performance boosts to a large number of existing models, while introducing no extra inference computation at all.
翻訳日:2022-10-04 13:21:23 公開日:2022-10-02
# 教師なし構成表現学習における構成一般化 : 絡み合いと創発言語に関する研究

Compositional Generalization in Unsupervised Compositional Representation Learning: A Study on Disentanglement and Emergent Language ( http://arxiv.org/abs/2210.00482v1 )

ライセンス: Link先を確認
Zhenlin Xu, Marc Niethamme, Colin Raffel(参考訳) 深層学習モデルは構成的一般化、すなわち観察された基本概念の新たな組み合わせを認識または生成する能力に苦慮する。 構成一般化を可能にするために、学習表現における構成構造を誘導する帰納的バイアス(例えば、非絡み合い表現や創発的言語学習)を用いて、様々な教師なし学習アルゴリズムが提案されている。 本研究では,これらの教師なし学習アルゴリズムを,構成一般化の有効性の観点から評価する。 具体的には,合成因子の新たな組み合わせに一般化する学習表現の上に,簡単なモデルを訓練することが容易かどうかに焦点をあてる。 合成一般化を直接テストできる2つのデータセット上で、教師なし表現学習アルゴリズム($\beta$-VAE、$\beta$-TCVAE、および創発言語(EL)オートエンコーダ)を体系的に研究する。 単純なモデルと少ないラベルでボトルネック表現を直接使用すると、学習された表現そのものの前後のレイヤからの表現よりも、より悪い一般化につながる可能性がある。 また,これまでに提案した構成性評価指標は,本フレームワークの実際の構成一般化と相関しないことがわかった。 驚くべきことに、不整合表現を生成する圧力の増加は、より悪い一般化を伴う表現を生成するのに対し、ELモデルからの表現は強い構成一般化を示す。 本研究の結果は, 異なる教師なし学習アルゴリズムの合成一般化行動に新たな光を当て, より一般化可能な表現のために, EL学習アルゴリズムを高度に活用することの潜在的メリットを示唆するものである。

Deep learning models struggle with compositional generalization, i.e. the ability to recognize or generate novel combinations of observed elementary concepts. In hopes of enabling compositional generalization, various unsupervised learning algorithms have been proposed with inductive biases that aim to induce compositional structure in learned representations (e.g. disentangled representation and emergent language learning). In this work, we evaluate these unsupervised learning algorithms in terms of how well they enable compositional generalization. Specifically, our evaluation protocol focuses on whether or not it is easy to train a simple model on top of the learned representation that generalizes to new combinations of compositional factors. We systematically study three unsupervised representation learning algorithms -- $\beta$-VAE, $\beta$-TCVAE, and emergent language (EL) autoencoders -- on two datasets that allow directly testing compositional generalization. We find that directly using the bottleneck representation with simple models and few labels may lead to worse generalization than using representations from layers before or after the learned representation itself. In addition, we find that the previously proposed metrics for evaluating the levels of compositionality are not correlated with actual compositional generalization in our framework. Surprisingly, we find that increasing pressure to produce a disentangled representation produces representations with worse generalization, while representations from EL models show strong compositional generalization. Taken together, our results shed new light on the compositional generalization behavior of different unsupervised learning algorithms with a new setting to rigorously test this behavior, and suggest the potential benefits of delevoping EL learning algorithms for more generalizable representations.
翻訳日:2022-10-04 13:21:03 公開日:2022-10-02
# ベクトルへの距離分布:広範差分によるデータ表現の構築

Metric Distribution to Vector: Constructing Data Representation via Broad-Scale Discrepancies ( http://arxiv.org/abs/2210.00415v1 )

ライセンス: Link先を確認
Xue Liu, Dan Sun, Xiaobo Cao, Hao Ye, Wei Wei(参考訳) グラフ埋め込みは、各データをベクトル空間にマッピングすることにより、グラフ構造化データのパターン分類を行うための実現可能な方法論を提供する。 様々な先駆的な研究は、本質的には、トポロジカルな構成、ノード属性、リンク関係などの観点からグラフの内部特性に関するベクトル表現に集中するコーディング方法である。 しかし、各対象データの分類は、データセットスケールにおける全体的な相違点の理解に基づく質的な問題である。 統計学的観点からは、距離計量がペアの類似性や相似性を測定するために採用された場合、これらの相違はデータセットスケール上の計量分布を示す。 そこで,このような分布特性を各データに対してベクトル表現に抽出する,$\mathbf{metricdistribution2vec}$という新しい埋め込み戦略を提案する。 大規模実世界の構造グラフデータセットにおける教師付き予測タスクにおける表現法の適用と有効性を示す。 たとえ軽量モデルを分類器として利用しても、すべてのデータセットにおけるベースラインの急増と比較すると、結果は予期しないほど増加しています。 さらに,本手法はFew-Shot分類のシナリオにおいても実験を行い,希少なトレーニングサンプルを用いた推論では魅力的な差別性を示した。

Graph embedding provides a feasible methodology to conduct pattern classification for graph-structured data by mapping each data into the vectorial space. Various pioneering works are essentially coding method that concentrates on a vectorial representation about the inner properties of a graph in terms of the topological constitution, node attributions, link relations, etc. However, the classification for each targeted data is a qualitative issue based on understanding the overall discrepancies within the dataset scale. From the statistical point of view, these discrepancies manifest a metric distribution over the dataset scale if the distance metric is adopted to measure the pairwise similarity or dissimilarity. Therefore, we present a novel embedding strategy named $\mathbf{MetricDistribution2vec}$ to extract such distribution characteristics into the vectorial representation for each data. We demonstrate the application and effectiveness of our representation method in the supervised prediction tasks on extensive real-world structural graph datasets. The results have gained some unexpected increases compared with a surge of baselines on all the datasets, even if we take the lightweight models as classifiers. Moreover, the proposed methods also conducted experiments in Few-Shot classification scenarios, and the results still show attractive discrimination in rare training samples based inference.
翻訳日:2022-10-04 13:13:36 公開日:2022-10-02
# 信念伝達はバックプロパゲーションを一般化する

Belief propagation generalizes backpropagation ( http://arxiv.org/abs/2210.00610v1 )

ライセンス: Link先を確認
Frederik Eaton(参考訳) 人工知能における最も重要な2つのアルゴリズムは、バックプロパゲーションと信念伝播である。 その重要性にもかかわらず、両者のつながりは著しく特徴づけられている。 本研究では, バックプロパゲーションに対する入力が, 信仰伝播への入力に変換されて(ループ) 信念伝播が実行可能である場合, 信念伝播の結果がバックプロパゲーションの結果を符号化し, バックプロパゲーションは信仰伝播の特別な場合として回復することを示す。 言い換えれば、信念の伝播がバックプロパゲーションを一般化するのは、明らかに初めてである。 私たちの分析は理論的な貢献であり、これらのアルゴリズムのそれぞれの理解を整理し、どちらか一方を使うシステムの振る舞いを改善するための工学研究者のガイドとなることを期待しています。

The two most important algorithms in artificial intelligence are backpropagation and belief propagation. In spite of their importance, the connection between them is poorly characterized. We show that when an input to backpropagation is converted into an input to belief propagation so that (loopy) belief propagation can be run on it, then the result of belief propagation encodes the result of backpropagation; thus backpropagation is recovered as a special case of belief propagation. In other words, we prove for apparently the first time that belief propagation generalizes backpropagation. Our analysis is a theoretical contribution, which we motivate with the expectation that it might reconcile our understandings of each of these algorithms, and serve as a guide to engineering researchers seeking to improve the behavior of systems that use one or the other.
翻訳日:2022-10-04 13:13:15 公開日:2022-10-02
# 識別的特徴抑圧によるニューラルネットワークトレーニングの規則化

Regularizing Neural Network Training via Identity-wise Discriminative Feature Suppression ( http://arxiv.org/abs/2209.14553v2 )

ライセンス: Link先を確認
Avraham Chapman, Lingqiao Liu(参考訳) ディープニューラルネットワークは、強い適合能力を有し、ランダムに割り当てられたクラスラベルであっても、トレーニングエラーの少ないことがよく知られている。 トレーニングサンプルの数が少ない場合やクラスラベルが騒がしい場合、ネットワークはトレーニングエラーを最小限にするために個々のインスタンス特有のパターンを記憶する傾向がある。 これは過剰適合と一般化性能の低下につながる。 本稿では,ネットワークが経験的エラー最小化のためにインスタンス固有のパターンに依存する傾向を抑制することで,対処方法を検討する。 提案手法は, 敵対的学習枠組みに基づいている。 各クラス内のサンプル内の個々のインスタンスを識別するために使用できる機能を抑制する。 これにより、クラス間で識別され、各クラス内で共通する機能のみを使用する分類器が生成される。 我々は,この手法をadversarial suppression of identity features (asif)と呼び,小型データセットやノイズラベルに直面する場合の一般化精度の向上に有用性を示す。 私たちのソースコードは利用可能です。

It is well-known that a deep neural network has a strong fitting capability and can easily achieve a low training error even with randomly assigned class labels. When the number of training samples is small, or the class labels are noisy, networks tend to memorize patterns specific to individual instances to minimize the training error. This leads to the issue of overfitting and poor generalisation performance. This paper explores a remedy by suppressing the network's tendency to rely on instance-specific patterns for empirical error minimisation. The proposed method is based on an adversarial training framework. It suppresses features that can be utilized to identify individual instances among samples within each class. This leads to classifiers only using features that are both discriminative across classes and common within each class. We call our method Adversarial Suppression of Identity Features (ASIF), and demonstrate the usefulness of this technique in boosting generalisation accuracy when faced with small datasets or noisy labels. Our source code is available.
翻訳日:2022-10-04 10:53:08 公開日:2022-10-02