このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230214となっている論文です。

PDF登録状況(公開日: 20230214)

TitleAuthorsAbstract論文公表日・翻訳日
# 乱れ補正を伴う遺伝的関連のためのスパースグラフ構造ラッソ混合モデル

A Sparse Graph-Structured Lasso Mixed Model for Genetic Association with Confounding Correction ( http://arxiv.org/abs/1711.04162v2 )

ライセンス: Link先を確認
Wenting Ye, Xiang Liu, Tianwei Yue, Wenping Wang(参考訳) 線形混合モデル (LMM) は人口階層化や家族構造, 暗号的関連性によって引き起こされる急激な関連を補正する上で, 競争力のある性能を示す一方で, 遺伝子型および表現型データの複雑な構造に関して, さらなる課題が解決されている。 例えば、遺伝学者は一部の表現型が他のものよりも共発現されていることを発見した。 したがって、不均質なデータセットでそのような関連情報を活用できる共同分析は、遺伝的モデリングに不可欠である。 本研究では,特徴量からの関連性情報をデータセットに組み込んだグラフ構造化線形混合モデル(sGLMM)を提案する。 本手法は,これらの表現型の関連性を考慮しつつ,多数の表現型の遺伝的関連を明らかにすることができる。 シミュレーション実験により,提案モデルは他の既存手法よりも優れており,人口構造と共有信号の相関関係をモデル化できることを示した。 さらに,植物とヒトの2種に対する実世界のゲノムデータセットにおけるsGLMMの有効性を検証した。 シロイヌナズナのデータでは、sGLMMは63.4%の形質を持つ他の全てのベースラインモデルよりも振舞う。 また、本モデルで発見されたヒトアルツハイマー病の因果遺伝子変異について検討し、最も重要な遺伝子座のいくつかを正当化する。

While linear mixed model (LMM) has shown a competitive performance in correcting spurious associations raised by population stratification, family structures, and cryptic relatedness, more challenges are still to be addressed regarding the complex structure of genotypic and phenotypic data. For example, geneticists have discovered that some clusters of phenotypes are more co-expressed than others. Hence, a joint analysis that can utilize such relatedness information in a heterogeneous data set is crucial for genetic modeling. We proposed the sparse graph-structured linear mixed model (sGLMM) that can incorporate the relatedness information from traits in a dataset with confounding correction. Our method is capable of uncovering the genetic associations of a large number of phenotypes together while considering the relatedness of these phenotypes. Through extensive simulation experiments, we show that the proposed model outperforms other existing approaches and can model correlation from both population structure and shared signals. Further, we validate the effectiveness of sGLMM in the real-world genomic dataset on two different species from plants and humans. In Arabidopsis thaliana data, sGLMM behaves better than all other baseline models for 63.4% traits. We also discuss the potential causal genetic variation of Human Alzheimer's disease discovered by our model and justify some of the most important genetic loci.
翻訳日:2023-03-25 04:59:31 公開日:2023-02-14
# マルチモーダル潜在トピックの指導によるビデオキャプション

Video Captioning with Guidance of Multimodal Latent Topics ( http://arxiv.org/abs/1708.09667v3 )

ライセンス: Link先を確認
Shizhe Chen, Jia Chen, Qin Jin, Alexander Hauptmann(参考訳) オープンドメインビデオのトピックの多様性は、ビデオ内容を記述する際に様々な語彙や言語表現をもたらすため、ビデオキャプションタスクをさらに困難にする。 本稿では、データから教師なしの方法でマルチモーダルトピックをマイニングし、これらのトピックでキャプションデコーダをガイドする統合キャプションフレームワークM&M TGMを提案する。 事前定義されたトピックと比較して、マイニングされたマルチモーダルなトピックは、より意味的かつ視覚的に一貫性があり、ビデオのトピック分布をより反映することができる。 トピック対応キャプション生成をマルチタスク学習問題として定式化し,キャプションタスクに加えて並列タスク,トピック予測を付加する。 トピック予測タスクでは,ビデオのマルチモーダルコンテンツから潜在トピックを予測する学生トピック予測モデルを学習するために,マイニングされたトピックを教師として使用する。 トピック予測は、学習プロセスの中間的な監視を提供する。 キャプションタスクでは、潜在トピックからのガイダンスにより、より正確で詳細なビデオ記述を生成するための、新しいトピック認識デコーダを提案する。 学習手順全体がエンドツーエンドであり、両方のタスクを同時に最適化する。 msr-vttおよびyoutube2textデータセットを用いた広範な実験の結果,提案モデルの有効性が示された。 M&M TGMは、複数の評価指標と両方のベンチマークデータセットで先行した最先端の手法よりも優れており、より優れた一般化能力も達成している。

The topic diversity of open-domain videos leads to various vocabularies and linguistic expressions in describing video contents, and therefore, makes the video captioning task even more challenging. In this paper, we propose an unified caption framework, M&M TGM, which mines multimodal topics in unsupervised fashion from data and guides the caption decoder with these topics. Compared to pre-defined topics, the mined multimodal topics are more semantically and visually coherent and can reflect the topic distribution of videos better. We formulate the topic-aware caption generation as a multi-task learning problem, in which we add a parallel task, topic prediction, in addition to the caption task. For the topic prediction task, we use the mined topics as the teacher to train a student topic prediction model, which learns to predict the latent topics from multimodal contents of videos. The topic prediction provides intermediate supervision to the learning process. As for the caption task, we propose a novel topic-aware decoder to generate more accurate and detailed video descriptions with the guidance from latent topics. The entire learning procedure is end-to-end and it optimizes both tasks simultaneously. The results from extensive experiments conducted on the MSR-VTT and Youtube2Text datasets demonstrate the effectiveness of our proposed model. M&M TGM not only outperforms prior state-of-the-art methods on multiple evaluation metrics and on both benchmark datasets, but also achieves better generalization ability.
翻訳日:2023-03-25 04:59:06 公開日:2023-02-14
# SWITCHによる量子進化の判別

The SWITCH test for discriminating quantum evolutions ( http://arxiv.org/abs/1706.06564v2 )

ライセンス: Link先を確認
Pedro Chamorro-Posada and Juan Carlos Garcia-Escartin(参考訳) 任意の2つの量子進化作用素を判別する量子回路を提案する。 2つの量子作用素の等価性をテストし、それらの忠実度を推定することができる。 2つの量子状態を識別するためのSWAPテストと提案の関係を解析した。 また、量子通信チャネルの識別および光を用いた実験室実装の可能性についても、光子の異なる自由度を生かした因果順序の量子重ね合わせの実験的な実現について論じる。 また,ハードウェア効率のよい中間スケール量子コンピュータの実現について考察する。

We propose a quantum circuit to discriminate between two arbitrary quantum evolution operators. It permits to test the equality of two quantum operators and to estimate a fidelity measure of them. The relation of the proposal to the SWAP test for discriminating two quantum states is analyzed. We also discuss potential applications for the discrimination of quantum communication channels and possible laboratory implementations with light along the same lines of recent experimental realizations of quantum superpositions of causal orders exploiting the different degrees of freedom of photons. We also discuss hardware efficient realizations for noisy intermediate scale quantum computers.
翻訳日:2023-03-25 04:58:42 公開日:2023-02-14
# 衛星システムを用いた重力赤方偏移の光学干渉計測法の提案

Proposal for an optical interferometric measurement of the gravitational red-shift with satellite systems ( http://arxiv.org/abs/1811.04835v4 )

ライセンス: Link先を確認
Daniel R. Terno, Francesco Vedovato, Matteo Schiavon, Alexander R. H. Smith, Piergiovanni Magnani, Giuseppe Vallone, Paolo Villoresi(参考訳) アインシュタイン同値原理(eep)は、重力の計量理論の全ての基礎となる。 その重要な側面の1つは、重力赤偏移によって捉えられる非重力実験の局所的な位置不変性(LPI)である。 典型的な重力赤方偏移実験では、時計として使われる2つのフェルミオン系を異なる重力ポテンシャルで配置し、電磁場を用いて比較する。 しかし、電磁場自体は、異なる重力ポテンシャルを伝播する2つの光パルスによって得られる位相を比較することで時計として使うことができる。 衛星大距離光干渉測定実験の実装における基本的な点は、EEPをテストするのに必要な弱い重力信号を支配する1次ドップラー効果の抑制である。 本稿では,地上局と衛星間の一方向および二方向配置で測定された位相シフトを減算し,それを抑制する新しい手法を提案する。 本稿では,この手法をニュートン後のフレームワークで詳細に解析し,実測衛星軌道と1550nmのテレコム波長における最先端繊維技術を用いてその性能をシミュレーションする。

The Einstein Equivalence Principle (EEP) underpins all metric theories of gravity. One of its key aspects is the local position invariance (LPI) of non-gravitational experiments, which is captured by the gravitational red-shift. The iconic gravitational red-shift experiment places two fermionic systems, used as clocks, in different gravitational potentials and compares them using the electromagnetic field. However, the electromagnetic field itself can be used as a clock, by comparing the phases acquired by two optical pulses propagating through different gravitational potentials. A fundamental point in the implementation of a satellite large-distance optical interferometric experiment is the suppression of the first-order Doppler effect, which dominates the weak gravitational signal necessary to test the EEP. Here, we propose a novel scheme to suppress it, by subtracting the phase-shifts measured in the one-way and in the two-way configuration between a ground station and a satellite. We present a detailed analysis of this technique within the post-Newtonian framework and perform some simulations of its performance using realistic satellite orbits and the state-of-the-art fiber technology at the telecom wavelength of 1550 nm.
翻訳日:2023-03-25 04:51:35 公開日:2023-02-14
# 部分空間変動量子シミュレータ

Subspace Variational Quantum Simulator ( http://arxiv.org/abs/1904.08566v2 )

ライセンス: Link先を確認
Kentaro Heya, Ken M Nakanishi, Kosuke Mitarai, Zhiguang Yan, Kun Zuo, Yasunari Suzuki, Takanori Sugiyama, Shuhei Tamate, Yutaka Tabuchi, Keisuke Fujii, Yasunobu Nakamura(参考訳) 量子シミュレーションは、化学や物質科学などの分野における研究開発を加速する量子コンピューティングの重要な応用の一つである。 最近のノイズ型中間スケール量子(nisq)デバイスの開発は、量子誤差補正を必要とせず、アプリケーションの探索を促す。 本稿では,NISQデバイス上での静的ハミルトニアンによって駆動される量子力学をシミュレーションする,サブスペース変動量子シミュレータ(SVQS)を提案する。 SVQSは、SSVQE(subspace-search variational quantum eigensolver)を用いて、低階の固有部分空間を探し出し、既存のスキームよりも低いオーバーヘッドで部分空間内の力学をシミュレートするように拡張する。 水素分子の低次固有部分空間における時間発展作用素を実験的にシミュレートする。 部分空間過程の忠実性は、部分空間内の2つの量子過程の間の測度として定義する。 SVQSによって模倣された部分空間時間進化は、部分空間プロセスの忠実度が0.88$-$0.98$であることを示している。

Quantum simulation is one of the key applications of quantum computing, which accelerates research and development in the fields such as chemistry and material science. The recent development of noisy intermediate-scale quantum (NISQ) devices urges the exploration of applications without the necessity of quantum error correction. In this paper, we propose an efficient method to simulate quantum dynamics driven by a static Hamiltonian on NISQ devices, named subspace variational quantum simulator (SVQS). SVQS employs the subspace-search variational quantum eigensolver (SSVQE) to find a low-lying eigensubspace and extends it to simulate dynamics within the subspace with lower overhead compared to the existing schemes. We experimentally simulate the time-evolution operator in a low-lying eigensubspace of a hydrogen molecule. We also define the subspace process fidelity as a measure between two quantum processes in a subspace. The subspace time evolution mimicked by SVQS shows the subspace process fidelity of $0.88$-$0.98$.
翻訳日:2023-03-25 04:42:34 公開日:2023-02-14
# blimp: 英語のための言語最小ペアのベンチマーク

BLiMP: The Benchmark of Linguistic Minimal Pairs for English ( http://arxiv.org/abs/1912.00582v4 )

ライセンス: Link先を確認
Alex Warstadt, Alicia Parrish, Haokun Liu, Anhad Mohananey, Wei Peng, Sheng-Fu Wang, Samuel R. Bowman(参考訳) 言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである言語最小ペアのベンチマーク(BLiMPに短縮)を紹介する。 BLiMPは67のサブデータセットで構成され、それぞれが1000の最小のペアを含む。 データは専門家が作成した文法に従って自動的に生成され、ラベルとの人間の合意は96.4%である。 我々は,n-gram, LSTM, Transformer (GPT-2, Transformer-XL) のLMを評価する。 現状のモデルは, 形態的コントラストを確実に同定するが, 定量化器の分布や負極性成分, 抽出島などの微妙な統語現象のセマンティックな制約に苦慮している。

We introduce The Benchmark of Linguistic Minimal Pairs (shortened to BLiMP), a challenge set for evaluating what language models (LMs) know about major grammatical phenomena in English. BLiMP consists of 67 sub-datasets, each containing 1000 minimal pairs isolating specific contrasts in syntax, morphology, or semantics. The data is automatically generated according to expert-crafted grammars, and aggregate human agreement with the labels is 96.4%. We use it to evaluate n-gram, LSTM, and Transformer (GPT-2 and Transformer-XL) LMs. We find that state-of-the-art models identify morphological contrasts reliably, but they struggle with semantic restrictions on the distribution of quantifiers and negative polarity items and subtle syntactic phenomena such as extraction islands.
翻訳日:2023-03-25 04:13:34 公開日:2023-02-14
# サンプリングバランスとコンパクト再資源化計画のための逐次モンテカルロ

Sequential Monte Carlo for Sampling Balanced and Compact Redistricting Plans ( http://arxiv.org/abs/2008.06131v5 )

ライセンス: Link先を確認
Cory McCartan and Kosuke Imai(参考訳) 制約下でのグラフ分割のランダムサンプリングは、規制緩和計画を評価する一般的なツールとなっている。 アナリストは、提案された再限定計画とサンプル化された代替計画のアンサンブルを比較することで、パルチザンジェリーマンディングを検出する。 適用を成功させるためには、サンプリング手法は適度または多数の地区の地図にスケールし、現実的な法的制約を取り入れ、選択された対象分布から正確に効率的にサンプリングする必要がある。 残念ながら、既存の手法のほとんどは、これらの領域の少なくとも1つで苦労しています。 本稿では,現実的目標分布に収束する再帰計画のサンプルを生成する新しい逐次モンテカルロ(smc)アルゴリズムを提案する。 多くの計画が並列に描画されるため、SMCアルゴリズムは、計画を逐次生成する既存のマルコフ連鎖モンテカルロ(MCMC)アルゴリズムよりも効率的に計画の再分割の空間を探索することができる。 提案アルゴリズムは, 人口平等, コンパクト性, 行政境界の保全など, 現実世界の再制限問題に共通するいくつかの制約を同時に組み込むことができる。 提案アルゴリズムの精度を,すべての再分割計画を列挙可能な小さなマップを用いて検証する。 次に,smcアルゴリズムを用いて,ペンシルバニア州における近年の高名な再帰事件において,関連当事者が提出した地図のパルチザン的意義を評価する。 提案アルゴリズムはMCMCアルゴリズムよりも高速かつ少ないサンプルで収束することがわかった。 提案手法の実装にはオープンソースソフトウェアが利用できる。

Random sampling of graph partitions under constraints has become a popular tool for evaluating legislative redistricting plans. Analysts detect partisan gerrymandering by comparing a proposed redistricting plan with an ensemble of sampled alternative plans. For successful application, sampling methods must scale to maps with a moderate or large number of districts, incorporate realistic legal constraints, and accurately and efficiently sample from a selected target distribution. Unfortunately, most existing methods struggle in at least one of these areas. We present a new Sequential Monte Carlo (SMC) algorithm that generates a sample of redistricting plans converging to a realistic target distribution. Because it draws many plans in parallel, the SMC algorithm can efficiently explore the relevant space of redistricting plans better than the existing Markov chain Monte Carlo (MCMC) algorithms that generate plans sequentially. Our algorithm can simultaneously incorporate several constraints commonly imposed in real-world redistricting problems, including equal population, compactness, and preservation of administrative boundaries. We validate the accuracy of the proposed algorithm by using a small map where all redistricting plans can be enumerated. We then apply the SMC algorithm to evaluate the partisan implications of several maps submitted by relevant parties in a recent high-profile redistricting case in the state of Pennsylvania. We find that the proposed algorithm converges faster and with fewer samples than a comparable MCMC algorithm. Open-source software is available for implementing the proposed methodology.
翻訳日:2023-03-25 04:04:31 公開日:2023-02-14
# 早期警戒メールが学生のパフォーマンスに及ぼす影響

Effects of Early Warning Emails on Student Performance ( http://arxiv.org/abs/2102.08803v4 )

ライセンス: Link先を確認
Jens Klenke, Till Massing, Natalie Reckmann, Janine Langerbein, Benjamin Otto, Michael Goedicke, Christoph Hanck(参考訳) 初等数学統計コースにおいて,e-assessment platformの学習データを用いて,各学生の最終試験に合格する確率を予測する。 その後、予測確率の低い生徒に警告メールを送り、試験に合格する。 本治療の効果は,より集中的に投与した場合にのみ有効であることが示唆された。

We use learning data of an e-assessment platform for an introductory mathematical statistics course to predict the probability of passing the final exam for each student. Subsequently, we send warning emails to students with a low predicted probability to pass the exam. We detect a positive but imprecisely estimated effect of this treatment, suggesting the effectiveness of such interventions only when administered more intensively.
翻訳日:2023-03-25 03:53:47 公開日:2023-02-14
# リモートGaAs量子ドットからのIdentical Photonの量子干渉

Quantum Interference of Identical Photons from Remote GaAs Quantum Dots ( http://arxiv.org/abs/2106.03871v2 )

ライセンス: Link先を確認
Liang Zhai, Giang N. Nguyen, Clemens Spinnler, Julian Ritzmann, Matthias C.L\"obl, Andreas D. Wieck, Arne Ludwig, Alisa Javadi, and Richard J. Warburton(参考訳) フォトニック量子技術は、量子通信、量子シミュレーション、量子情報処理に有効な経路を提供する。 近年、20個の単一光子と数百kmの量子鍵分布を用いたボソンサンプリングが実現されている。 複雑さのスケーリングには、複数の光子源、光子計数器、および多くの識別不可能な単一光子を含むアーキテクチャが必要である。 半導体量子ドットは、コヒーレント単光子の明るく高速な源である。 アプリケーションにとって重要な障害は、独立した量子ドットによって生成される単一光子を干渉する量子コヒーレンスが貧弱である。 ここでは、2つの完全に分離されたGaAs量子ドットの光子を用いて、近ユニティ可視性(93.0\pm0.8$);%の2光子干渉を示す。 実験では、ゼロフォノンラインへの放出は、弱いフォノンサイドバンドのみが拒否され、一時的なポストセレクションは採用されない。 量子干渉を利用して、フォトニック制御しない回路と、異なる起源の光子間の忠実性(85.0\pm 1.0$)\%)の絡み合いを示す。 2光子干渉視認性は、エンタングルメント忠実度が古典的な閾値を大きく上回るほど高い。 光子の高い相互コヒーレンスは、高品質な材料、ダイオード構造、および比較的大きな量子ドットサイズに由来する。 本研究は,一貫した単一光子をスケーラブルに生成するプラットフォームであるGaAs QDsを構築した。

Photonic quantum technology provides a viable route to quantum communication, quantum simulation, and quantum information processing. Recent progress has seen the realisation of boson sampling using 20 single-photons and quantum key distribution over hundreds of kilometres. Scaling the complexity requires architectures containing multiple photon-sources, photon-counters, and a large number of indistinguishable single photons. Semiconductor quantum dots are bright and fast sources of coherent single-photons. For applications, a significant roadblock is the poor quantum coherence upon interfering single photons created by independent quantum dots. Here, we demonstrate two-photon interference with near-unity visibility ($93.0\pm0.8$)\% using photons from two completely separate GaAs quantum dots. The experiment retains all the emission into the zero-phonon-line -- only the weak phonon-sideband is rejected -- and temporal post-selection is not employed. Exploiting the quantum interference, we demonstrate a photonic controlled-not circuit and an entanglement with fidelity ($85.0\pm 1.0$)\% between photons of different origins. The two-photon interference visibility is high enough that the entanglement fidelity is well above the classical threshold. The high mutual-coherence of the photons stems from high-quality materials, a diode-structure, and the relatively large quantum dot size. Our results establish a platform, GaAs QDs, for creating coherent single photons in a scalable way.
翻訳日:2023-03-25 03:45:18 公開日:2023-02-14
# 量子コンピュータにおける識別性尺度の推定

Estimating distinguishability measures on quantum computers ( http://arxiv.org/abs/2108.08406v3 )

ライセンス: Link先を確認
Soorya Rethinasamy, Rochisha Agarwal, Kunal Sharma, Mark M. Wilde(参考訳) 量子情報処理プロトコルの性能は最終的に、プロトコルの実際の結果が理想の場合とどの程度区別できるかを定量化する識別可能性尺度によって判断される。 最も顕著な識別性尺度は、物理的解釈のために忠実さとトレース距離に基づくものである。 本稿では,トレース距離と忠実度に基づいて識別性尺度を推定するアルゴリズムをいくつか提案・検討する。 このアルゴリズムは量子状態、チャネル、戦略の区別に使うことができる(最後のものは「量子コム」としても知られている)。 忠実度に基づくアルゴリズムは、一つの証明者(または競合する証明者)が検証者に対して、関連する計算結果を受け入れるように説得できる最大確率の観点から、これらの区別可能性尺度の新たな物理的解釈を提供する。 パラメータ化量子回路を用いた変分法を用いて,これらのアルゴリズムの多くをシミュレートする。 シミュレーションはノイズのないシナリオとノイズの多いシナリオの両方によく収束する。 さらに,ノイズシミュレーションはパラメータ雑音のレジリエンスを示す。 最後に、様々な量子計算複雑性クラスと距離推定問題の強い関係を確立する。

The performance of a quantum information processing protocol is ultimately judged by distinguishability measures that quantify how distinguishable the actual result of the protocol is from the ideal case. The most prominent distinguishability measures are those based on the fidelity and trace distance, due to their physical interpretations. In this paper, we propose and review several algorithms for estimating distinguishability measures based on trace distance and fidelity. The algorithms can be used for distinguishing quantum states, channels, and strategies (the last also known in the literature as ``quantum combs''). The fidelity-based algorithms offer novel physical interpretations of these distinguishability measures in terms of the maximum probability with which a single prover (or competing provers) can convince a verifier to accept the outcome of an associated computation. We simulate many of these algorithms by using a variational approach with parameterized quantum circuits. We find that the simulations converge well in both the noiseless and noisy scenarios, for all examples considered. Furthermore, the noisy simulations exhibit a parameter noise resilience. Finally, we establish a strong relationship between various quantum computational complexity classes and distance estimation problems.
翻訳日:2023-03-18 03:09:50 公開日:2023-02-14
# 有限次元状態空間を持つ系の量子計測理論

Quantum Measurement Theory for Systems with Finite Dimensional State Spaces ( http://arxiv.org/abs/2110.03219v2 )

ライセンス: Link先を確認
Masanao Ozawa(参考訳) 本稿では,測度系の状態空間が有限次元ヒルベルト空間であり,測度の結果が実数の有限集合であると仮定する,有限量子測度に関する一般理論を提案する。 我々は、量子力学の基本的な仮定と一般の量子測定のためのいくつかの妥当な公理から推論的に理論を発展させる。 物理的に実現可能な全ての有限量子測定の公理的特性を導出する。 POVMや量子機器などの測定統計を記述するのに必要な数学的ツールは、当初想定されていないが、我々の公理の自然な結果として紹介する。 我々の目的は、これらの数学的ツールが当然の理論的要求から自然に派生できることを示すことである。

In this paper, we present a general theory of finite quantum measurements, for which we assume that the state space of the measured system is a finite dimensional Hilbert space and that the possible outcomes of a measurement is a finite set of real numbers. We develop the theory in a deductive manner from the basic postulates for quantum mechanics and a few plausible axioms for general quantum measurements. We derive an axiomatic characterization of all the physically realizable finite quantum measurements. Mathematical tools necessary to describe measurement statistics, such as POVMs and quantum instruments, are not assumed at the outset, but we introduce them as natural consequences of our axioms. Our objective is to show that those mathematical tools can be naturally derived from obvious theoretical requirements.
翻訳日:2023-03-12 05:59:32 公開日:2023-02-14
# フィールドの共変誘導則

Covariant Guiding Laws for Fields ( http://arxiv.org/abs/2110.09683v3 )

ライセンス: Link先を確認
Maaneli Derakhshani, Michael K.-H. Kiessling, and A. Shadi Tahvildar-Zadeh(参考訳) 古典的ハミルトン-ヤコビの非相対論的点粒子力学の経路から、運動がシュリンガー方程式やパウリ方程式を満たす波動関数によって導かれる点粒子の非相対論的量子力学への公式化をレビューした後、時空の空間的スライス上の場のローレンツ-共変ダイナミクスに関する同様の問題を研究する。 古典的場発展のための共変ハミルトン-ヤコビ方程式のDeDonder--Weyl--Christodoulou方程式の定式化と、カナッチコフによって提案されたローレンツ-共変ディラック型波動方程式との相関性を確立する。 カナチコフの方程式はよく考えられ、一般に解くことができ、カナチコフの方程式の平面波解とデディンダー-ワイル-クリストドゥルーの共変ハミルトン-ヤコビ方程式の解との対応を確立する。 時空の定数時間スライス上で定義される場の時間的発展に関する共変導出法則を提案し、各時空点において、それが平面-波解である限り、実際の場を導くカナッチコフ方程式の解によって誘導される流れに対して同変である点における場値の空間上の有限測度の存在を示す。 アインシュタインの特殊相対性理論の意味では、我々の誘導法則は局所的であるため、ベル型実験の解析には使用できない。 今後の研究で検討すべき方向性を示唆することで結論づける。

After reviewing what is known about the passage from the classical Hamilton--Jacobi formulation of non-relativistic point-particle dynamics to the non-relativistic quantum dynamics of point particles whose motion is guided by a wave function that satisfies Schr\"odinger's or Pauli's equation, we study the analogous question for the Lorentz-covariant dynamics of fields on spacelike slices of spacetime. We establish a relationship, between the DeDonder--Weyl--Christodoulou formulation of covariant Hamilton--Jacobi equations for the classical field evolution, and the Lorentz-covariant Dirac-type wave equation proposed by Kanatchikov amended by our proposed guiding equation for such fields. We show that Kanatchikov's equation is well-posed and generally solvable, and we establish the correspondence between plane-wave solutions of Kanatchikov's equation and solutions of the covariant Hamilton--Jacobi equations of DeDonder--Weyl--Christodoulou. We propose a covariant guiding law for the temporal evolution of fields defined on constant time slices of spacetime, and show that it yields, at each spacetime point, the existence of a finite measure on the space of field values at that point that is equivariant with respect to the flow induced by the solution of Kanatchikov's equation that is guiding the actual field, so long as it is a plane-wave solution. We show that our guiding law is local in the sense of Einstein's special relativity, and therefore it cannot be used to analyze Bell-type experiments. We conclude by suggesting directions to be explored in future research.
翻訳日:2023-03-11 02:13:56 公開日:2023-02-14
# CDPMSR:単一画像超解法における条件拡散確率モデル

CDPMSR: Conditional Diffusion Probabilistic Models for Single Image Super-Resolution ( http://arxiv.org/abs/2302.12831v1 )

ライセンス: Link先を確認
Axi Niu, Kang Zhang, Trung X. Pham, Jinqiu Sun, Yu Zhu, In So Kweon, Yanning Zhang(参考訳) 拡散確率モデル(DPM)は画像から画像への変換において高品質な画像を生成するために広く採用されている。 画像スーパーレゾリューション(sr)にdpmを適用する試みは、様々なレベルのノイズのデノベーションを訓練したu-netを用いて、条件付き画像で純粋なガウスノイズを反復的に精錬することで、低レゾリューション画像の満足度の高い画像を得るのに役立つことを示した。 さらに,現在のdpmベースの超解像法を簡素化するために,簡易かつ非自明なdpmベースの超解像後処理フレームワーク,すなわちcdpmsrを提案する。 to-be-test LR画像に事前訓練されたSRモデルを適用し、条件付き入力を与えると、標準DPMに適応して条件付き画像生成を行い、決定論的反復分解過程を通じて超解像を行う。 提案手法は,定性的および定量的な結果の両面での事前試行を超越し,Set5,Set14,Urban100,BSD100,Manga109などのベンチマークデータセットを用いて,低解像度画像に対してよりリアルな画像を生成する。 コードは受理後公開される。

Diffusion probabilistic models (DPM) have been widely adopted in image-to-image translation to generate high-quality images. Prior attempts at applying the DPM to image super-resolution (SR) have shown that iteratively refining a pure Gaussian noise with a conditional image using a U-Net trained on denoising at various-level noises can help obtain a satisfied high-resolution image for the low-resolution one. To further improve the performance and simplify current DPM-based super-resolution methods, we propose a simple but non-trivial DPM-based super-resolution post-process framework,i.e., cDPMSR. After applying a pre-trained SR model on the to-be-test LR image to provide the conditional input, we adapt the standard DPM to conduct conditional image generation and perform super-resolution through a deterministic iterative denoising process. Our method surpasses prior attempts on both qualitative and quantitative results and can generate more photo-realistic counterparts for the low-resolution images with various benchmark datasets including Set5, Set14, Urban100, BSD100, and Manga109. Code will be published after accepted.
翻訳日:2023-03-05 05:41:54 公開日:2023-02-14
# 古典・古典量子チャネルの容量に関する解析計算式

Analytical calculation formulas for capacities of classical and classical-quantum channels ( http://arxiv.org/abs/2201.02450v2 )

ライセンス: Link先を確認
Masahito Hayashi(参考訳) 既存のアルゴリズムでは繰り返しが必要であり、繰り返しの回数は必要な精度レベルに依存するが、従来のチャネルのチャネル容量に対する解析的な計算式を導出する。 したがって、我々の公式は、反復のない最初の解析公式である。 得られた式を例に適用し、得られた式がどのように動作するかを確認する。 次に、これを古典量子(cq-)チャネルのチャネル容量に拡張する。 既存の多くの研究がcqチャネルのアルゴリズムを提案し、それら全ては反復を必要とする。 拡張解析アルゴリズムもイテレーションがなく、正確な最適値が出力される。

We derive an analytical calculation formula for the channel capacity of a classical channel without any iteration while its existing algorithms require iterations and the number of iteration depends on the required precision level. Hence, our formula is its first analytical formula without any iteration. We apply the obtained formula to examples and see how the obtained formula works in these examples. Then, we extend it to the channel capacity of a classical-quantum (cq-) channel. Many existing studies proposed algorithms for a cq-channel and all of them require iterations. Our extended analytical algorithm have also no iteration and output the exactly optimum values.
翻訳日:2023-03-02 01:28:28 公開日:2023-02-14
# 分割不変同値表現の自己教師あり学習

Self-supervised learning of Split Invariant Equivariant representations ( http://arxiv.org/abs/2302.10283v1 )

ライセンス: Link先を確認
Quentin Garrido (FAIR, LIGM), Laurent Najman (LIGM), Yann Lecun (FAIR, CIMS)(参考訳) 近年,自己教師付き学習による不変表現や同変表現の学習が進められている。 大規模なデータセットで不変性を評価する一方で、同変性はより小さく、より制御された設定で評価される。 我々は,幅広いタスクに適した,より多様な表現を学習するために,両者のギャップを埋めることを目指している。 まず最初に、3DIEBenchというデータセットを導入し、55のクラスに3Dモデルからレンダリングし、250万以上の画像からオブジェクトに適用される変換を完全にコントロールします。 さらに,ハイパーネットワークに基づく予測器アーキテクチャを導入し,不変性に崩壊することのない同変表現を学習する。 我々は,ハイパーネットワークに基づく予測器と2つの部分に分割された表現を結合した sie (split invariant-equivariant) を導入し,よりリッチな表現を学ぶ。 質的および定量的な観点から,既存の等分散関連課題に対する性能向上効果を示す。 さらに,導入した予測器を解析し,学習した潜在空間の制御方法を示す。 導入したデータセットとアプローチの両方が、より複雑なシナリオを監督することなく、よりリッチな表現を学習可能にすることを願っています。

Recent progress has been made towards learning invariant or equivariant representations with self-supervised learning. While invariant methods are evaluated on large scale datasets, equivariant ones are evaluated in smaller, more controlled, settings. We aim at bridging the gap between the two in order to learn more diverse representations that are suitable for a wide range of tasks. We start by introducing a dataset called 3DIEBench, consisting of renderings from 3D models over 55 classes and more than 2.5 million images where we have full control on the transformations applied to the objects. We further introduce a predictor architecture based on hypernetworks to learn equivariant representations with no possible collapse to invariance. We introduce SIE (Split Invariant-Equivariant) which combines the hypernetwork-based predictor with representations split in two parts, one invariant, the other equivariant, to learn richer representations. We demonstrate significant performance gains over existing methods on equivariance related tasks from both a qualitative and quantitative point of view. We further analyze our introduced predictor and show how it steers the learned latent space. We hope that both our introduced dataset and approach will enable learning richer representations without supervision in more complex scenarios.
翻訳日:2023-02-26 14:27:40 公開日:2023-02-14
# 視覚刺激の定量的評価のコヒーレンスについて

On The Coherence of Quantitative Evaluation of Visual Expalantion ( http://arxiv.org/abs/2302.10764v1 )

ライセンス: Link先を確認
Benjamin Vandersmissen, Jose Oramas(参考訳) 近年,視覚的説明を通じてニューラルネットワークの予測を正当化する手法の開発が進んでいる。 これらの説明は、通常、入力画像の各画素にサリエンシー(または関連)値を割り当てるヒートマップの形式をとり、そのピクセルがラベルの予測にどの程度関係しているかを表現する。 この開発を補完し、このような説明の「良さ」を評価する評価手法が提案されている。 一方、これらの手法のいくつかは合成データセットに依存している。 しかし、これはより現実的な設定で適用性に制限があるという弱点をもたらす。 一方で、客観的評価のためのメトリクスに依存する手法もある。 しかし,これらの評価手法のいくつかが相互に作用する程度は定かではない。 このことを考慮し、imagenet-1kバリデーションセットのサブセットを包括的に研究し、一連の評価方法に従って、複数の異なるよく使われる説明方法を評価する。 本研究は,評価手法の信頼性と特徴が評価方法に与える影響を調査する手段として,評価手法の健全性チェックを補完するものである。 本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。 さらに,性能に有意な影響を及ぼす可能性のある空間性など,説明のいくつかの特徴を明らかにした。

Recent years have shown an increased development of methods for justifying the predictions of neural networks through visual explanations. These explanations usually take the form of heatmaps which assign a saliency (or relevance) value to each pixel of the input image that expresses how relevant the pixel is for the prediction of a label. Complementing this development, evaluation methods have been proposed to assess the "goodness" of such explanations. On the one hand, some of these methods rely on synthetic datasets. However, this introduces the weakness of having limited guarantees regarding their applicability on more realistic settings. On the other hand, some methods rely on metrics for objective evaluation. However the level to which some of these evaluation methods perform with respect to each other is uncertain. Taking this into account, we conduct a comprehensive study on a subset of the ImageNet-1k validation set where we evaluate a number of different commonly-used explanation methods following a set of evaluation methods. We complement our study with sanity checks on the studied evaluation methods as a means to investigate their reliability and the impact of characteristics of the explanations on the evaluation methods. Results of our study suggest that there is a lack of coherency on the grading provided by some of the considered evaluation methods. Moreover, we have identified some characteristics of the explanations, e.g. sparsity, which can have a significant effect on the performance.
翻訳日:2023-02-26 14:07:50 公開日:2023-02-14
# ペイントブラシからピクセルへ:AI生成アートにおけるディープニューラルネットワークのレビュー

From paintbrush to pixel: A review of deep neural networks in AI-generated art ( http://arxiv.org/abs/2302.10913v1 )

ライセンス: Link先を確認
Anne-Sofie Maerten and Derya Soydaner(参考訳) 本稿では、AI生成芸術の魅力的な分野を掘り下げ、それを作成するために利用された様々なディープニューラルネットワークアーキテクチャとモデルについて考察する。 古典的な畳み込みネットワークから最先端拡散モデルまで,この分野の主要なプレイヤーについて検討する。 これらのニューラルネットワークの一般的な構造と動作原理を説明する。 次に、DeepDreamの夢のような風景から始まり、Stable DiffusionやDALL-E 2といった最新の開発へと移行したマイルストーンの例を紹介します。 これらのモデルを詳細に比較し、その強みと限界を強調する。 このようにして、深層ニューラルネットワークが短期間で達成した顕著な進歩について検討する。 この論文は、AI生成技術の現状に関する技術的な説明と洞察を交えて、アートとコンピュータ科学の相互作用を実証する。

This paper delves into the fascinating field of AI-generated art and explores the various deep neural network architectures and models that have been utilized to create it. From the classic convolutional networks to the cutting-edge diffusion models, we examine the key players in the field. We explain the general structures and working principles of these neural networks. Then, we showcase examples of milestones, starting with the dreamy landscapes of DeepDream and moving on to the most recent developments, including Stable Diffusion and DALL-E 2, which produce mesmerizing images. A detailed comparison of these models is provided, highlighting their strengths and limitations. Thus, we examine the remarkable progress that deep neural networks have made so far in a short period of time. With a unique blend of technical explanations and insights into the current state of AI-generated art, this paper exemplifies how art and computer science interact.
翻訳日:2023-02-26 13:31:38 公開日:2023-02-14
# 不均衡解析のためのバランス付き視聴覚データセット

Balanced Audiovisual Dataset for Imbalance Analysis ( http://arxiv.org/abs/2302.10912v1 )

ライセンス: Link先を確認
Wenke Xia, Xu Zhao, Xincheng Pang, Changqing Zhang, Di Hu(参考訳) 不均衡問題は機械学習の分野でも広く発生しており、サンプルのモダリティ間の内在的不一致に起因するマルチモーダル学習領域にも存在している。 近年,アルゴリズムの観点からのモダリティ不均衡問題を解こうとしているが,データセットにおけるモダリティバイアスの影響を完全には解析していない。 具体的には、既存のマルチモーダルデータセットは通常、特定のタスクの下で収集される。 本研究は,モーダリティバイアスの影響を包括的に調査するため,サンプルワイド・モーダリティの差を推定することにより,既存のデータセットを異なるサブセットに分割する。 既存の不均衡アルゴリズムを持つマルチモーダルモデルは、モダリティバイアスに従って、特定の部分集合上のユニモーダルモデルよりも一貫して性能が劣る。 モダリティバイアスの影響をさらに探究し、既存の不均衡アルゴリズムの有効性を分析するために、データセット全体にわたって均一に分散されたモダリティ不一致を持つ、バランスのとれた視聴覚データセットを構築する。 既存のアルゴリズムは、モダリティ間の妥協を提供し、サンプルの大きなモダリティの相違に苦しむのみである。 これらの発見が、モダリティの不均衡問題の将来の研究を促進することを願っている。

The imbalance problem is widespread in the field of machine learning, which also exists in multimodal learning areas caused by the intrinsic discrepancy between modalities of samples. Recent works have attempted to solve the modality imbalance problem from algorithm perspective, however, they do not fully analyze the influence of modality bias in datasets. Concretely, existing multimodal datasets are usually collected under specific tasks, where one modality tends to perform better than other ones in most conditions. In this work, to comprehensively explore the influence of modality bias, we first split existing datasets into different subsets by estimating sample-wise modality discrepancy. We surprisingly find that: the multimodal models with existing imbalance algorithms consistently perform worse than the unimodal one on specific subsets, in accordance with the modality bias. To further explore the influence of modality bias and analyze the effectiveness of existing imbalance algorithms, we build a balanced audiovisual dataset, with uniformly distributed modality discrepancy over the whole dataset. We then conduct extensive experiments to re-evaluate existing imbalance algorithms and draw some interesting findings: existing algorithms only provide a compromise between modalities and suffer from the large modality discrepancy of samples. We hope that these findings could facilitate future research on the modality imbalance problem.
翻訳日:2023-02-26 13:31:23 公開日:2023-02-14
# ニューラルネットワークを用いた連合学習における重み付きアグリゲーションの再検討

Revisiting Weighted Aggregation in Federated Learning with Neural Networks ( http://arxiv.org/abs/2302.10911v1 )

ライセンス: Link先を確認
Zexi Li, Tao Lin, Xinyi Shang, Chao Wu(参考訳) 連合学習(fl)では、局所モデルの重み付き集計を行い、大域モデルを生成し、重み付け重みを正規化し(重みの和は1である)、局所データサイズに比例する。 本稿では,重み付け集約プロセスを再検討し,flのトレーニングダイナミクスに関する新たな知見を得る。 まず,重みの総和が1より小さくなり,大域的な重み縮小効果(重み減少と類似)が生じ,一般化が改善されることが判明した。 クライアントのデータ不均一性と局所的エポックに最適な縮小係数がどう影響するかを検討する。 次に、クライアント間の相対的な集約重みを掘り下げて、クライアントの重要性を説明します。 学習のダイナミクスを研究するためにクライアントコヒーレンスを開発し,その重要な点を見出す。 臨界点に入る前に、よりコヒーレントなクライアントは一般化においてより重要な役割を果たす。 以上の知見に基づいて,FedLAWと命名された学習可能な集約重み付きフェデレート学習の効果的な方法を提案する。 広範な実験により,本手法が異なるデータセットとモデルに対して大きなマージンでグローバルモデルの一般化を改善できることが確かめられた。

In federated learning (FL), weighted aggregation of local models is conducted to generate a global model, and the aggregation weights are normalized (the sum of weights is 1) and proportional to the local data sizes. In this paper, we revisit the weighted aggregation process and gain new insights into the training dynamics of FL. First, we find that the sum of weights can be smaller than 1, causing global weight shrinking effect (analogous to weight decay) and improving generalization. We explore how the optimal shrinking factor is affected by clients' data heterogeneity and local epochs. Second, we dive into the relative aggregation weights among clients to depict the clients' importance. We develop client coherence to study the learning dynamics and find a critical point that exists. Before entering the critical point, more coherent clients play more essential roles in generalization. Based on the above insights, we propose an effective method for Federated Learning with Learnable Aggregation Weights, named as FedLAW. Extensive experiments verify that our method can improve the generalization of the global model by a large margin on different datasets and models.
翻訳日:2023-02-26 13:31:00 公開日:2023-02-14
# 多数誘導vaeによる不均衡データの生成オーバーサンプリング

Generative Oversampling for Imbalanced Data via Majority-Guided VAE ( http://arxiv.org/abs/2302.10910v1 )

ライセンス: Link先を確認
Qingzhong Ai, Pengyun Wang, Lirong He, Liangjian Wen, Lujia Pan, Zenglin Xu(参考訳) 不均衡なデータによる学習は、ディープラーニングにおいて難しい問題である。 オーバーサンプリングはトレーニングデータのサンプリング分布を再バランスさせる手法として広く用いられている。 しかし、既存のオーバーサンプリング手法の多くは、マイノリティクラスのクラス内情報のみを使用してデータを増強するが、多数派とのクラス間関係を無視し、特に不均衡比が大きい場合、過度に適合する傾向にある。 この問題に対処するため,多数派の指導の下で新たなマイノリティサンプルを生成する,Majority-Guided VAE~(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。 このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。 さらに,限定データ下でのモデル崩壊を防止するために,まず十分な多数サンプルでmgvaeを事前訓練し,その後,弾性重み和(ewc)正規化を伴う少数サンプルに基づいて微調整を行った。 ベンチマーク画像データセットと実世界の表データによる実験結果から,mgvaeは下流分類タスクにおける他のオーバーサンプリング手法よりも競争力が向上し,本手法の有効性が示された。

Learning with imbalanced data is a challenging problem in deep learning. Over-sampling is a widely used technique to re-balance the sampling distribution of training data. However, most existing over-sampling methods only use intra-class information of minority classes to augment the data but ignore the inter-class relationships with the majority ones, which is prone to overfitting, especially when the imbalance ratio is large. To address this issue, we propose a novel over-sampling model, called Majority-Guided VAE~(MGVAE), which generates new minority samples under the guidance of a majority-based prior. In this way, the newly generated minority samples can inherit the diversity and richness of the majority ones, thus mitigating overfitting in downstream tasks. Furthermore, to prevent model collapse under limited data, we first pre-train MGVAE on sufficient majority samples and then fine-tune based on minority samples with Elastic Weight Consolidation(EWC) regularization. Experimental results on benchmark image datasets and real-world tabular data show that MGVAE achieves competitive improvements over other over-sampling methods in downstream classification tasks, demonstrating the effectiveness of our method.
翻訳日:2023-02-26 13:30:40 公開日:2023-02-14
# エンジニアリング設計におけるマルチモーダル機械学習 : レビューと今後の方向性

Multi-modal Machine Learning in Engineering Design: A Review and Future Directions ( http://arxiv.org/abs/2302.10909v1 )

ライセンス: Link先を確認
Binyang Song, Rui Zhou, Faez Ahmed(参考訳) マルチモーダル機械学習(mmml、multi-modal machine learning)は、データの複数のモーダル性とそれに対応する処理方法を統合することで、テキストから画像への翻訳など、さまざまな実用的な応用において有望な結果をもたらす。 本稿では,工学設計タスクにおけるMMMLの最近の進歩と課題について概説する。 まず,テキストや2Dピクセルデータ(画像やスケッチなど),3D形状データ(ボクセル,点雲,メッシュなど)など,設計表現として一般的に使用されるさまざまなデータモダリティを紹介する。 次に、MMMLの5つの基本概念として、マルチモーダルデータの表現、融合、整合、合成、コラーニングに使用される様々な手法の概要を示す。 次に,設計知識検索,設計評価,設計合成などの工学的設計タスクに適用可能なMMMLの最先端機能について概説する。 また、これらの文脈でMMMLを使用することの潜在的な利点と限界を強調します。 最後に,大規模ラベル付きマルチモーダル設計データセットの必要性,堅牢でスケーラブルなアルゴリズム,ドメイン知識の統合,データの不均一性とノイズ処理など,エンジニアリング設計にMMMLを使用する上での課題と今後の方向性について論じる。 総括的に,本論文は工学設計アプリケーションにおけるmmmlの現状と展望について概観する。

Multi-modal machine learning (MMML), which involves integrating multiple modalities of data and their corresponding processing methods, has demonstrated promising results in various practical applications, such as text-to-image translation. This review paper summarizes the recent progress and challenges in using MMML for engineering design tasks. First, we introduce the different data modalities commonly used as design representations and involved in MMML, including text, 2D pixel data (e.g., images and sketches), and 3D shape data (e.g., voxels, point clouds, and meshes). We then provide an overview of the various approaches and techniques used for representing, fusing, aligning, synthesizing, and co-learning multi-modal data as five fundamental concepts of MMML. Next, we review the state-of-the-art capabilities of MMML that potentially apply to engineering design tasks, including design knowledge retrieval, design evaluation, and design synthesis. We also highlight the potential benefits and limitations of using MMML in these contexts. Finally, we discuss the challenges and future directions in using MMML for engineering design, such as the need for large labeled multi-modal design datasets, robust and scalable algorithms, integrating domain knowledge, and handling data heterogeneity and noise. Overall, this review paper provides a comprehensive overview of the current state and prospects of MMML for engineering design applications.
翻訳日:2023-02-26 13:30:17 公開日:2023-02-14
# ハイパーパラメータ最適化による機械学習モデルの性能向上:比較研究

Enhancing Machine Learning Model Performance with Hyper Parameter Optimization: A Comparative Study ( http://arxiv.org/abs/2302.11406v1 )

ライセンス: Link先を確認
Caner Erden, Halil Ibrahim Demir, Abdullah Hulusi K\"ok\c{c}am(参考訳) 機械学習における最も重要な問題のひとつは、トレーニングモデルに適したハイパーパラメータの選択である。 機械学習モデルは最高のトレーニングパフォーマンスに達することができ、ハイパーパラメータ最適化(HPO)技術を用いて一般化する能力を高めることができる。 HPOは、人工知能研究が最近焦点を当てた人気トピックであり、関心を集めている。 HPOで開発された従来の手法には、網羅的探索、グリッド探索、ランダム探索、ベイズ最適化などがあるが、メタヒューリスティックアルゴリズムはより高度な手法としても使われている。 メタヒューリスティックアルゴリズムは、解が最適な組み合わせに収束して特定の問題を解決する解空間を探索する。 これらのアルゴリズムは様々なシナリオをテストし、最適な組み合わせを選択するために結果を評価する。 本研究では, 格子法, ランダム探索法, ベイズ最適化法などの古典的手法と, 遺伝的アルゴリズムや粒子群最適化などの集団ベースアルゴリズムについて, hpoの観点から考察した。 関連する検索アルゴリズムの使用は、scikit-learn, sklearn genetic, optunaなどのパッケージで開発されたpythonプログラミングコードとともに説明される。 探索アルゴリズムの性能はサンプルデータセットで比較され,結果によると,粒子群最適化アルゴリズムは他のアルゴリズムよりも優れていた。

One of the most critical issues in machine learning is the selection of appropriate hyper parameters for training models. Machine learning models may be able to reach the best training performance and may increase the ability to generalize using hyper parameter optimization (HPO) techniques. HPO is a popular topic that artificial intelligence studies have focused on recently and has attracted increasing interest. While the traditional methods developed for HPO include exhaustive search, grid search, random search, and Bayesian optimization; meta-heuristic algorithms are also employed as more advanced methods. Meta-heuristic algorithms search for the solution space where the solutions converge to the best combination to solve a specific problem. These algorithms test various scenarios and evaluate the results to select the best-performing combinations. In this study, classical methods, such as grid, random search and Bayesian optimization, and population-based algorithms, such as genetic algorithms and particle swarm optimization, are discussed in terms of the HPO. The use of related search algorithms is explained together with Python programming codes developed on packages such as Scikit-learn, Sklearn Genetic, and Optuna. The performance of the search algorithms is compared on a sample data set, and according to the results, the particle swarm optimization algorithm has outperformed the other algorithms.
翻訳日:2023-02-26 13:23:28 公開日:2023-02-14
# MLIRのためのML駆動ハードウェアコストモデル

ML-driven Hardware Cost Model for MLIR ( http://arxiv.org/abs/2302.11405v1 )

ライセンス: Link先を確認
Dibyendu Das and Sandya Mannarswamy(参考訳) 早期最適化パスの間、コンパイラは、より良いコードを生成するために、実行単位の利用、レジスタの流出数、レイテンシ、スループットなど、マシン依存の特性を予測しなければならない。 しばしば手書きの静的/分析ハードウェアコストモデルがコンパイラに組み込まれる。 しかし、より洗練された様々な予測の必要性は、データフローグラフの最適化を必要とするディープラーニングコンパイラの開発によってより顕著になってきている。 このようなコンパイラは通常、従来のLLVM-IRに下降する前に、より高レベルなMLIR形式をIR表現として使用する。 このようなシナリオにおける静的/解析的コストモデルは、非常に高いレベルの代数的/アリスメティックな演算を表現するため、面倒でエラーになりがちである。 そこで我々は,CPU/GPU/xPU利用,実行命令,レジスタ使用率などの異なる対象変数を予測可能な高レベルMLIRのための機械学習ベースのコストモデルを開発した。 入力するMLIRをLA NLPモデルのテキスト入力として考慮することにより、ハードウェア特性をより正確に予測するために、現代のNLP研究からよく知られた技術を適用することができる。 演算子融合、ローカルメモリ割り当て、カーネルスケジューリングなどのグラフレベルの最適化や、ループインターチェンジ、licM、アンロールといったカーネルレベルの最適化では、このような正確なML駆動ハードウェアコストモデルがディープラーニングコンパイラを導くことを期待しています。 我々は、Pytorch/Tensorflowのようなフレームワークが出力するデータフローグラフと、アフィンのような低レベル方言を表す高レベルMLIR上で、そのようなモデルを開発した初期の成果を報告する。 これらのモデルは,様々なハードウェア特性に対する低エラーバウンダリで合理的に優れた推定値を提供することができ,将来,ハードウェアコストモデリングのためのゴーツー機構となる可能性があることを示す。

During early optimization passes, compilers must make predictions for machine-dependent characteristics such as execution unit utilization, number of register spills, latency, throughput etc. to generate better code. Often a hand-written static/analytical hardware cost model is built into the compiler. However, the need for more sophisticated and varied predictions has become more pronounced with the development of deep learning compilers which need to optimize dataflow graphs. Such compilers usually employ a much higher level MLIR form as an IR representation before lowering to traditional LLVM-IR. A static/analytical cost model in such a scenario is cumbersome and error prone as the opcodes represent very high level algebraic/arithmetic operations. Hence, we develop a machine learning-based cost model for high-level MLIR which can predict different target variables of interest such as CPU/GPU/xPU utilization, instructions executed, register usage etc. By considering the incoming MLIR as a text input a la NLP models we can apply well-known techniques from modern NLP research to help predict hardware characteristics more accurately. We expect such precise ML-driven hardware cost models to guide our deep learning compiler in graph level optimizations around operator fusion, local memory allocation, kernel scheduling etc. as well as in many kernel-level optimizations such as loop interchange, LICM and unroll. We report early work-in -progress results of developing such models on high-level MLIR representing dataflow graphs emitted by Pytorch/Tensorflow-like frameworks as well as lower-level dialects like affine. We show that these models can provide reasonably good estimates with low error bounds for various hardware characteristics of interest and can be a go-to mechanism for hardware cost modelling in the future.
翻訳日:2023-02-26 13:23:07 公開日:2023-02-14
# 生涯学習における共通表現空間からのタスク認識情報ルーティング

Task-Aware Information Routing from Common Representation Space in Lifelong Learning ( http://arxiv.org/abs/2302.11346v1 )

ライセンス: Link先を確認
Prashant Bhat, Bahram Zonooz and Elahe Arani(参考訳) 現実世界に展開されるインテリジェントなシステムは、一連のタスクに晒されると破滅的な忘れがちです。 一方、人間は統合された知識にほとんど干渉しないタスク間で知識を取得し、統合し、伝達する。 自己制御神経新生を伴い、脳内の連続的な学習は、様々な種類の知識を持つ豊富な神経生理学的プロセスによって制御され、意識的な処理によって統合される。 そこで,脳における意識情報アクセスのグローバルワークスペース理論に触発されて,タスクアテンションモジュールを伴い,共通表現空間からタスク固有情報を取り込む連続学習手法であるtamilを提案する。 我々は、共通表現空間とグローバルワークスペースの間の通信ボトルネックを作成するために、単純で不完全なオートエンコーダを使用し、グローバルワークスペースへのタスク関連情報のみを可能にする。 実験の結果,本手法は最先端リハーサルベースおよび動的スパースアプローチよりも優れており,スケーラブルでありながら,固定容量とパラメータ分離アプローチのギャップを橋渡ししていることがわかった。 また,本手法はタスク・レジリエンスバイアスの低減とよく対応しつつ,壊滅的な忘れを効果的に緩和することを示す。

Intelligent systems deployed in the real world suffer from catastrophic forgetting when exposed to a sequence of tasks. Humans, on the other hand, acquire, consolidate, and transfer knowledge between tasks that rarely interfere with the consolidated knowledge. Accompanied by self-regulated neurogenesis, continual learning in the brain is governed by a rich set of neurophysiological processes that harbor different types of knowledge, which are then integrated by conscious processing. Thus, inspired by the Global Workspace Theory of conscious information access in the brain, we propose TAMiL, a continual learning method that entails task-attention modules to capture task-specific information from the common representation space. We employ simple, undercomplete autoencoders to create a communication bottleneck between the common representation space and the global workspace, allowing only the task-relevant information to the global workspace, thus greatly reducing task interference. Experimental results show that our method outperforms state-of-the-art rehearsal-based and dynamic sparse approaches and bridges the gap between fixed capacity and parameter isolation approaches while being scalable. We also show that our method effectively mitigates catastrophic forgetting while being well-calibrated with reduced task-recency bias.
翻訳日:2023-02-26 13:22:40 公開日:2023-02-14
# 誤り感性変調に基づく体験リプレイ:連続学習における急激な表現ドリフトの緩和

Error Sensitivity Modulation based Experience Replay: Mitigating Abrupt Representation Drift in Continual Learning ( http://arxiv.org/abs/2302.11344v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani and Bahram Zonooz(参考訳) 人間は生涯学習に長けており、脳は変化し続ける環境の中での分布の変化やノイズに対して頑丈に進化してきた。 しかし、ディープニューラルネットワーク(DNN)は破滅的な忘れ込みを示し、学習された表現は新しいタスクに遭遇するにつれて劇的に流れていく。 これは、脳内の異なるエラーベースの学習メカニズムを暗示する。 学習が誤差の大きさと線形にスケールするDNNとは異なり、脳内のエラーに対する感度はその大きさの関数として減少する。 そこで本研究では,デュアルメモリリハーサル系システムにおいて,誤り感度を変調する原理的機構を応用した \textit{esmer} を提案する。 具体的には、過去のエラーのメモリを保持し、それを使って学習ダイナミクスを変更することで、モデルが大きな突然のエラーよりも小さな一貫性のあるエラーから多くを学ぶ。 また,エラー履歴を利用してバッファの候補として低損失サンプルを事前選択し,情報保持に適したエピソディックメモリを維持するために, \textit{error-sensitive reservoir sampling}を提案する。 実験の結果,ESMERは知識を集約しながら,タスク境界における表現の誤りや突然のドリフトを,徐々に新しいタスクに適応させることによって効果的に低減することが示された。 注目すべきは、実世界のデータストリームでユビキタスなラベルノイズの下でモデルを学習することを可能にすることだ。

Humans excel at lifelong learning, as the brain has evolved to be robust to distribution shifts and noise in our ever-changing environment. Deep neural networks (DNNs), however, exhibit catastrophic forgetting and the learned representations drift drastically as they encounter a new task. This alludes to a different error-based learning mechanism in the brain. Unlike DNNs, where learning scales linearly with the magnitude of the error, the sensitivity to errors in the brain decreases as a function of their magnitude. To this end, we propose \textit{ESMER} which employs a principled mechanism to modulate error sensitivity in a dual-memory rehearsal-based system. Concretely, it maintains a memory of past errors and uses it to modify the learning dynamics so that the model learns more from small consistent errors compared to large sudden errors. We also propose \textit{Error-Sensitive Reservoir Sampling} to maintain episodic memory, which leverages the error history to pre-select low-loss samples as candidates for the buffer, which are better suited for retaining information. Empirical results show that ESMER effectively reduces forgetting and abrupt drift in representations at the task boundary by gradually adapting to the new task while consolidating knowledge. Remarkably, it also enables the model to learn under high levels of label noise, which is ubiquitous in real-world data streams.
翻訳日:2023-02-26 13:22:17 公開日:2023-02-14
# モードエンコードパラメータに対するガウス量子メトロロジー

Gaussian quantum metrology for mode-encoded parameters ( http://arxiv.org/abs/2202.10355v2 )

ライセンス: Link先を確認
Giacomo Sorelli, Manuel Gessner, Nicolas Treps, and Mattia Walschaers(参考訳) 量子光学計測は、電磁場の量子状態に符号化されたパラメータを推定するための究極の感度境界を特定することを目的としている。 イメージング、顕微鏡、リモートセンシングを含む多くの実用的な応用において、興味のあるパラメータは場の量子状態だけでなく、時空間分布、すなわちそのモード構造においても符号化される。 このモード符号化パラメータ推定設定では、任意の多モードガウス場に有効な量子フィッシャー情報の解析式を導出する。 このアプローチのパワーを説明するために,ビームの横変位の推定と2つのパルス間の時間的分離に本手法を適用した。 これらの例では,特定のモードにスクイーズを追加することで,推定感度を向上できることを示す。

Quantum optical metrology aims to identify ultimate sensitivity bounds for the estimation of parameters encoded into quantum states of the electromagnetic field. In many practical applications, including imaging, microscopy, and remote sensing, the parameter of interest is not only encoded in the quantum state of the field, but also in its spatio-temporal distribution, i.e. in its mode structure. In this mode-encoded parameter estimation setting, we derive an analytical expression for the quantum Fisher information valid for arbitrary multimode Gaussian fields. To illustrate the power of our approach, we apply our results to the estimation of the transverse displacement of a beam and to the temporal separation between two pulses. For these examples, we show how the estimation sensitivity can be enhanced by adding squeezing into specific modes.
翻訳日:2023-02-24 08:05:25 公開日:2023-02-14
# Moir\'e 材料の量子量誘起相

Quantum Metric Induced Phases in Moir\'e Materials ( http://arxiv.org/abs/2202.10467v2 )

ライセンス: Link先を確認
Ahmed Abouelkomsan, Kang Yang, Emil J. Bergholtz(参考訳) 一般に量子幾何は、分数帯充填の強相関格子モデルにおける低エネルギー物理学を決定する上で重要な役割を担っている。 フービニ・スタディ(Fubini Study)測度が基底状態を決定する限界を特定し、これは対称性の破れとフェルミ液体の相互作用につながるモイアの物質に非常に関係していることを示す。 この現象学は、量子幾何学とランダウ準位に欠落する相互作用の間の顕著な相互作用に由来するが、これらの項が例えば分数チャーン絶縁体を不安定化する傾向にある格子モデルに一般的に存在する。 これは、バンド投影正規秩序相互作用に対する電子とホールの基本的な非対称性の結果であり、自己整合的なハーツリー・フォック計算の観点からも説明できる。 これらの量子メトリックの役割に関する基本的な洞察は、支配的な場合、非常に強い結合問題から効果的に弱結合問題へと転向し、物質配置を設計するための指針となるかもしれない。

We show that, quite generally, quantum geometry plays a major role in determining the low-energy physics in strongly correlated lattice models at fractional band fillings. We identify limits in which the Fubini Study metric dictates the ground states and show that this is highly relevant for Moir\'e materials leading to symmetry breaking and interaction driven Fermi liquids. This phenomenology stems from a remarkable interplay between the quantum geometry and interactions which is absent in continuum Landau levels but generically present in lattice models where these terms tend to destabilize e.g. fractional Chern insulators. We explain this as a consequence of the fundamental asymmetry between electrons and holes for band projected normal ordered interactions, as well as from the perspective of a self-consistent Hartree-Fock calculation. These basic insights about the role of the quantum metric turn, when dominant, an extremely strongly coupled problem into an effectively weakly coupled one, and may also serve as a guiding principle for designing material setups.
翻訳日:2023-02-24 07:55:28 公開日:2023-02-14
# 行列積状態を用いた行列積作用素対称性で保護される分類位相

Classifying phases protected by matrix product operator symmetries using matrix product states ( http://arxiv.org/abs/2203.12563v3 )

ライセンス: Link先を確認
Jos\'e Garre-Rubio, Laurens Lootens, Andr\'as Moln\'ar(参考訳) 行列積状態 (MPSs) が行列積作用素 (MPO) 対称性の作用の下で不変であり続ける様々な方法の分類を行う。 これは、基底空間を生成する mps が大域的 mpo 対称性の下で不変であることの局所的特徴付けによって達成される。 この特徴づけは、MPO対称性を記述する融合圏上の加群圏に付随する結合した五角形方程式を満たす量の集合を与える。 これらの量の同値類は、mpsテンソルの連続的な変形の下で頑健であり、同じ同値類を持つ2つの相は対称なガッピングパスで接続できる。 本手法は既知の再正規化不動点分類に適合し拡張し,これらのシステムの数値研究を容易にする。 群によって記述されたmpo対称性に対して,特異かつ縮退した基底状態に対する位相次数分類の対称性を回復する。 さらに、時間反転対称性とMPO対称性の相互作用について検討し、グループに基づく明示的な構成とともに、分類の例を示す。 最後に,MPO対称性が重要な役割を果たす2次元トポロジカルシステムのセットアップとギャップ境界の関連について詳述する。

We classify the different ways in which matrix product states (MPSs) can stay invariant under the action of matrix product operator (MPO) symmetries. This is achieved through a local characterization of how the MPSs, that generate a ground space, remain invariant under a global MPO symmetry. This characterization yields a set of quantities satisfying the coupled pentagon equations, associated with a module category over the fusion category that describes the MPO symmetry. Equivalence classes of these quantities provide complete invariants for an MPO symmetry protected phase: they are robust under continuous deformations of the MPS tensor, and two phases with the same equivalence class can be connected by a symmetric gapped path. Our techniques match and extend the known renormalization fixed point classifications and facilitate the numerical study of these systems. For MPO symmetries described by a group, we recover the symmetry protected topological order classification for unique and degenerate ground states. Moreover, we study the interplay between time reversal symmetry and an MPO symmetry and we also provide examples of our classification, together with explicit constructions based on groups. Finally, we elaborate on the connection between our setup and gapped boundaries of two-dimensional topological systems, where MPO symmetries also play a key role.
翻訳日:2023-02-21 02:30:51 公開日:2023-02-14
# ねじれ光の幾何学的位相

Geometric phase for twisted light ( http://arxiv.org/abs/2203.14580v7 )

ライセンス: Link先を確認
Li-Ping Yang(参考訳) コイル状光ファイバを走行する光の偏光ベクトルは、複屈折がなくても伝播軸の周りを回転する。 この回転はスピン-1光子のパンカラトナムベリー相によって説明される。 ここでは、この回転を理解するために純粋に幾何学的手法を用いる。 また、軌道角運動量(OAM)を持つねじれ光に対して、同様の幾何回転が存在することを示す。 対応する幾何位相は、フォトニックOAM状態に基づく量子計算と量子センシングに応用できる。

Polarization vectors of light traveling in a coiled optical fiber rotate around its propagating axis even in the absence of birefringence. This rotation was usually explained due to the Pancharatnam-Berry phase of spin-1 photons. Here, we use a purely geometric method to understand this rotation. We show that similar geometric rotations also exist for twisted light carrying orbital angular momentum (OAM). The corresponding geometric phase can be applied in photonic OAM-state-based quantum computation and quantum sensing.
翻訳日:2023-02-20 12:07:37 公開日:2023-02-14
# GFlowNetsによるロバストスケジューリング

Robust Scheduling with GFlowNets ( http://arxiv.org/abs/2302.05446v2 )

ライセンス: Link先を確認
David W. Zhang, Corrado Rainone, Markus Peschl, Roberto Bondesan(参考訳) 計算グラフで演算をスケジュールする最良の方法を見つけることは、コンパイラの最適化の中心となる古典的なNPハード問題である。 しかし、ターゲットハードウェア上でスケジュールの良さを評価するのは非常に時間がかかる。 従来のアプローチと従来のマシンラーニングでは、評価が早いが、ターゲットのハードウェアでテストした場合、スケジュールが悪い可能性があるプロキシメトリクスを最適化することが多い。 本稿では,新しいGFlowNet手法を用いて,プロキシメトリックに比例してサンプリングすることでスケジューリングを行う手法を提案する。 提案するスケジュールの多様性と良し悪しのトレードオフを推論時に制御する手法を導入し、対象モデル上でテストした場合のアプローチに関して、純粋に最適化されたベースラインがサブパーパフォーマンスにつながることを実証的に示す。 さらに、GFlowNetを計算グラフに条件付けすることで、合成および実世界のコンパイラデータセットのスケジューリング問題を一般化できることを示す。

Finding the best way to schedule operations in a computation graph is a classical NP-hard problem which is central to compiler optimization. However, evaluating the goodness of a schedule on the target hardware can be very time-consuming. Traditional approaches as well as previous machine learning ones typically optimize proxy metrics, which are fast to evaluate but can lead to bad schedules when tested on the target hardware. In this work, we propose a new approach to scheduling by sampling proportionally to the proxy metric using a novel GFlowNet method. We introduce a technique to control the trade-off between diversity and goodness of the proposed schedules at inference time and demonstrate empirically that the pure optimization baselines can lead to subpar performance with respect to our approach when tested on a target model. Furthermore, we show that conditioning the GFlowNet on the computation graph enables generalization to unseen scheduling problems for both synthetic and real-world compiler datasets.
翻訳日:2023-02-19 14:18:15 公開日:2023-02-14
# 政策関連政治広告の発見--2022年フランス大統領選におけるメタ広告の探索分析

On Detecting Policy-Related Political Ads: An Exploratory Analysis of Meta Ads in 2022 French Election ( http://arxiv.org/abs/2302.06917v1 )

ライセンス: Link先を確認
Vera Sosnovik, Romaissa Kessi, Maximin Coavoux, Oana Goga(参考訳) オンライン政治広告は政治キャンペーンの基盤となっている。 米国内の政治広告にのみ費やされた予算は、2017-2018年のアメリカ合衆国大統領選挙の7億ドルから、2020年のアメリカ合衆国大統領選挙の16億ドルに100%以上増加した。 Naturally, the capacity offered by online platforms to micro-target ads with political content has been worrying lawmakers, journalists, and online platforms, especially after the 2016 U.S. presidential election, where Cambridge Analytica has targeted voters with political ads congruent with their personality To curb such risks, both online platforms and regulators (through the DSA act proposed by the European Commission) have agreed that researchers, journalists, and civil society need to be able to scrutinize the political ads running on large online platforms. その結果、MetaやGoogleのようなオンラインプラットフォームは、彼らのプラットフォーム上で動作するすべての政治広告に関する情報を含むAd Librariesを実装した。 これは長い道の最初のステップです。 利用可能なデータ量のため、手動でこれらの広告を通すことは不可能であり、政治広告の精査を支援する自動化された方法とツールが必要です。 本稿では,政策に関連する政治広告に焦点をあてる。 政治家や組織がどの政策を推進し、誰が不正直な表現を決定するかを理解する。 本稿では,比較アジェンダ計画 (CAP) で特定された14の政策グループに広告を分類するための事前学習モデルに基づく自動手法を提案する。 いくつかの固有の課題について論じる。 最後に,2022年フランス大統領選挙におけるmetaプラットフォーム上のポリシー関連広告の分析を行った。

Online political advertising has become the cornerstone of political campaigns. The budget spent solely on political advertising in the U.S. has increased by more than 100% from \$700 million during the 2017-2018 U.S. election cycle to \$1.6 billion during the 2020 U.S. presidential elections. Naturally, the capacity offered by online platforms to micro-target ads with political content has been worrying lawmakers, journalists, and online platforms, especially after the 2016 U.S. presidential election, where Cambridge Analytica has targeted voters with political ads congruent with their personality To curb such risks, both online platforms and regulators (through the DSA act proposed by the European Commission) have agreed that researchers, journalists, and civil society need to be able to scrutinize the political ads running on large online platforms. Consequently, online platforms such as Meta and Google have implemented Ad Libraries that contain information about all political ads running on their platforms. This is the first step on a long path. Due to the volume of available data, it is impossible to go through these ads manually, and we now need automated methods and tools to assist in the scrutiny of political ads. In this paper, we focus on political ads that are related to policy. Understanding which policies politicians or organizations promote and to whom is essential in determining dishonest representations. This paper proposes automated methods based on pre-trained models to classify ads in 14 main policy groups identified by the Comparative Agenda Project (CAP). We discuss several inherent challenges that arise. Finally, we analyze policy-related ads featured on Meta platforms during the 2022 French presidential elections period.
翻訳日:2023-02-19 14:09:45 公開日:2023-02-14
# グラフに基づく村レベルの貧困識別

Graph-based Village Level Poverty Identification ( http://arxiv.org/abs/2302.06862v1 )

ライセンス: Link先を確認
Jing Ma, Liangwei Yang, Qiong Feng, Weizhi Zhang, Philip S. Yu(参考訳) 貧困状態の特定は、貧困を根絶する最初の障害である。 厳しいフィールド調査と不十分な情報のため、村レベルの貧困識別は非常に困難である。 Webインフラストラクチャとそのモデリングツールの開発は、貧しい村を識別するための新しいアプローチを提供する。 これらの手法に基づき,村の貧困状況識別のための村のグラフを構築する。 村間関係を地理的距離をグラフとしてモデル化することにより,村の貧困状況とその地形的位置の相関関係を示し,村落を識別するための2つの重要な要因(中央性,均質的減衰効果)を同定した。 さらに,貧しい村を識別する最初のグラフベース手法を提案する。 これには、村の中心性を密度ベクトルに埋め込むグローバル中央性2Vecモジュールと、崩壊効果を捉える局所グラフ距離畳み込みモジュールが含まれる。 本稿では,村レベルの貧困をグラフの観点から解釈し,識別する最初の試みを行う。

Poverty status identification is the first obstacle to eradicating poverty. Village-level poverty identification is very challenging due to the arduous field investigation and insufficient information. The development of the Web infrastructure and its modeling tools provides fresh approaches to identifying poor villages. Upon those techniques, we build a village graph for village poverty status identification. By modeling the village connections as a graph through the geographic distance, we show the correlation between village poverty status and its graph topological position and identify two key factors (Centrality, Homophily Decaying effect) for identifying villages. We further propose the first graph-based method to identify poor villages. It includes a global Centrality2Vec module to embed village centrality into the dense vector and a local graph distance convolution module that captures the decaying effect. In this paper, we make the first attempt to interpret and identify village-level poverty from a graph perspective.
翻訳日:2023-02-19 14:09:23 公開日:2023-02-14
# 高分解能パンクロマティック画像による現代中国の産業成長の追跡--逐次畳み込みアプローチ

Tracking the industrial growth of modern China with high-resolution panchromatic imagery: A sequential convolutional approach ( http://arxiv.org/abs/2301.09620v2 )

ライセンス: Link先を確認
Ethan Brewer, Zhonghui Lv, and Dan Runfola(参考訳) アクセシブルな地域での開発データを得るのが不十分、あるいは困難であるため、リモートセンシングデータは、利害関係者が経済成長に関する情報を集める上で重要なツールである。 現在まで、深層学習を利用して個別のサイトレベルでの工業的成長を推定する研究は行われていない。 本研究では,高分解能パンクロマティック画像を用いて,多層コンピュータビジョンフレームワークを用いて,中華人民共和国の419の工業施設における開発経過を推定する。 本稿では,(1)Mask R-CNNセグメンテーションアルゴリズムを用いて推定した構造面積カバレッジと,(2)可視・赤外線放射率を直接計算するVIIRS(Visible Infrared Imaging Radiometer Suite)の手法を提案する。 これらの手法から生成されたラベルは比較的評価されテストされる。 19年にわたる2,078cmの解像度画像のデータセットにおいて,産業発展の2次元を,高分解能の昼間画像を用いて推定可能であることを示唆する。 (a)産業開発総平方メートル(平均誤差0.021$\textrm{km}^2$)及び (b)光の放射率(平均誤差 9.8$\mathrm {\frac{nW}{cm^{2}sr}}$) この手法のトレンド分析により,Mask R-CNN標識CNN-LSTM軌道真理測定から得られた推定値が最もよく明らかになった。 Mask R-CNNは、最も古い画像から最新の画像までの全てのサイトにおいて、平均的な変化は4,084ドル\textrm{m}^2$と見積もっている。

Due to insufficient or difficult to obtain data on development in inaccessible regions, remote sensing data is an important tool for interested stakeholders to collect information on economic growth. To date, no studies have utilized deep learning to estimate industrial growth at the level of individual sites. In this study, we harness high-resolution panchromatic imagery to estimate development over time at 419 industrial sites in the People's Republic of China using a multi-tier computer vision framework. We present two methods for approximating development: (1) structural area coverage estimated through a Mask R-CNN segmentation algorithm, and (2) imputing development directly with visible & infrared radiance from the Visible Infrared Imaging Radiometer Suite (VIIRS). Labels generated from these methods are comparatively evaluated and tested. On a dataset of 2,078 50 cm resolution images spanning 19 years, the results indicate that two dimensions of industrial development can be estimated using high-resolution daytime imagery, including (a) the total square meters of industrial development (average error of 0.021 $\textrm{km}^2$), and (b) the radiance of lights (average error of 9.8 $\mathrm{\frac{nW}{cm^{2}sr}}$). Trend analysis of the techniques reveal estimates from a Mask R-CNN-labeled CNN-LSTM track ground truth measurements most closely. The Mask R-CNN estimates positive growth at every site from the oldest image to the most recent, with an average change of 4,084 $\textrm{m}^2$.
翻訳日:2023-02-19 13:43:16 公開日:2023-02-14
# 学習直交表現による多感性属性を用いた医用画像分類の公平性について

On Fairness of Medical Image Classification with Multiple Sensitive Attributes via Learning Orthogonal Representations ( http://arxiv.org/abs/2301.01481v2 )

ライセンス: Link先を確認
Wenlong Deng, Yuan Zhong, Qi Dou, Xiaoxiao Li(参考訳) 医療画像解析において,機械学習モデルの識別の緩和が注目されている。 しかし、稀な研究は、複数のセンシティブな人口動態を持つ患者に対する公平な治療に焦点を当てており、これは現実の臨床応用にとって非常に難しい問題である。 本稿では,マルチセンシティブ属性に対する公平表現学習のための新しい手法を提案する。 表現空間における直交性を達成することにより,対象表現と多感表現の独立性を追求する。 具体的には,コラム空間の直交性は,低ランク感性空間の補数に対する目標情報を保持することによって行う。 さらに、行空間では、ターゲットと感度表現の間の特徴次元が直交することを奨励する。 提案手法の有効性は,CheXpertデータセット上での実験により実証された。 我々の知る限り、医療画像の分野では、複数の感度特性に関して不公平を緩和する最初の試みである。

Mitigating the discrimination of machine learning models has gained increasing attention in medical image analysis. However, rare works focus on fair treatments for patients with multiple sensitive demographic ones, which is a crucial yet challenging problem for real-world clinical applications. In this paper, we propose a novel method for fair representation learning with respect to multi-sensitive attributes. We pursue the independence between target and multi-sensitive representations by achieving orthogonality in the representation space. Concretely, we enforce the column space orthogonality by keeping target information on the complement of a low-rank sensitive space. Furthermore, in the row space, we encourage feature dimensions between target and sensitive representations to be orthogonal. The effectiveness of the proposed method is demonstrated with extensive experiments on the CheXpert dataset. To our best knowledge, this is the first work to mitigate unfairness with respect to multiple sensitive attributes in the field of medical imaging.
翻訳日:2023-02-19 13:26:23 公開日:2023-02-14
# fact-saboteurs: 事実検証システムに対する証拠操作の分類法

Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems ( http://arxiv.org/abs/2209.03755v3 )

ライセンス: Link先を確認
Sahar Abdelnabi and Mario Fritz(参考訳) 誤報と誤報は、我々の安全と安全にとって重大な世界的脅威である。 オンラインの誤情報の規模に対処するために、研究者は関連する証拠を検索し検証することで事実チェックの自動化に取り組んでいる。 しかし、多くの進歩にもかかわらず、そのようなシステムに対する攻撃ベクトルの包括的評価はまだ不十分である。 特に、自動事実検証プロセスは、彼らが戦おうとしている正確な偽情報キャンペーンに弱い可能性がある。 本研究では,オンライン証拠を自動的に改ざんし,関連する証拠をカモフラージュしたり,誤解を招く証拠を植え付けることによって事実確認モデルを混乱させる敵を想定する。 まず,これら2つの目標と異なる脅威モデル次元にまたがる探索的分類法を提案する。 これを踏まえ,いくつかの攻撃手法を設計,提案する。 証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。 したがって, 分類学の次元の多種多様な順列において, 事実チェック性能を格段に低下させる。 攻撃は、ポストホックなクレームの修正に対しても堅牢である。 我々の分析は、矛盾する証拠に直面したモデル推論の潜在的な限界をさらに示唆している。 我々は,これらの攻撃が,そのようなモデルの検査およびループ内利用シナリオに有害な影響を及ぼしうることを強調し,今後の防衛の課題と方向性について議論することで結論づける。

Mis- and disinformation are a substantial global threat to our security and safety. To cope with the scale of online misinformation, researchers have been working on automating fact-checking by retrieving and verifying against relevant evidence. However, despite many advances, a comprehensive evaluation of the possible attack vectors against such systems is still lacking. Particularly, the automated fact-verification process might be vulnerable to the exact disinformation campaigns it is trying to combat. In this work, we assume an adversary that automatically tampers with the online evidence in order to disrupt the fact-checking model via camouflaging the relevant evidence or planting a misleading one. We first propose an exploratory taxonomy that spans these two targets and the different threat model dimensions. Guided by this, we design and propose several potential attack methods. We show that it is possible to subtly modify claim-salient snippets in the evidence and generate diverse and claim-aligned evidence. Thus, we highly degrade the fact-checking performance under many different permutations of the taxonomy's dimensions. The attacks are also robust against post-hoc modifications of the claim. Our analysis further hints at potential limitations in models' inference when faced with contradicting evidence. We emphasize that these attacks can have harmful implications on the inspectable and human-in-the-loop usage scenarios of such models, and conclude by discussing challenges and directions for future defenses.
翻訳日:2023-02-19 11:01:52 公開日:2023-02-14
# コンピュータサイエンス教育における組込み値分析モジュールの有効性 : 実証的研究

The Effectiveness of Embedded Values Analysis Modules in Computer Science Education: An Empirical Study ( http://arxiv.org/abs/2208.05453v3 )

ライセンス: Link先を確認
Matthew Kopec, Meica Magnani, Vance Ricks, Roben Torosyan, John Basl, Nicholas Miklaucic, Felix Muzny, Ronald Sandler, Christo Wilson, Adam Wisniewski-Jensen, Cora Lundgren, Kevin Mills, Mark Wells(参考訳) コンピュータサイエンスコースに倫理モジュールを組み込むことは、CSプログラムがAI、機械学習、ビッグデータ分析といったコンピューティング技術の倫理的側面をナビゲートするために学生により良い装備をする必要があるという認識の高まりに対する一般的な反応となっている。 しかし、このアプローチの人気は、そのポジティブな結果の証拠を上回っている。 このギャップを埋めるために、この実験的な研究は、値解析モジュールをCSコースに組み込むノースイースタンのプログラムの肯定的な結果を報告した。 その結果、これらのモジュールは学生の道徳的態度に肯定的な影響を与えることが示唆され、学生は最終的に直面するであろう倫理的側面をナビゲートする準備が整っていると信じている。 重要なことは、これらの成果は哲学博士課程のない機関で達成され、多くの人が考えていたよりも広い範囲の機関で効果的に活用できることを示唆している。

Embedding ethics modules within computer science courses has become a popular response to the growing recognition that CS programs need to better equip their students to navigate the ethical dimensions of computing technologies like AI, machine learning, and big data analytics. However, the popularity of this approach has outpaced the evidence of its positive outcomes. To help close that gap, this empirical study reports positive results from Northeastern's program that embeds values analysis modules into CS courses. The resulting data suggest that such modules have a positive effect on students' moral attitudes and that students leave the modules believing they are more prepared to navigate the ethical dimensions they will likely face in their eventual careers. Importantly, these gains were accomplished at an institution without a philosophy doctoral program, suggesting this strategy can be effectively employed by a wider range of institutions than many have thought.
翻訳日:2023-02-19 10:30:49 公開日:2023-02-14
# FOCUS:異種データのフェデレーション学習のためのエージェント認識によるフェアネス

FOCUS: Fairness via Agent-Awareness for Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2207.10265v3 )

ライセンス: Link先を確認
Wenda Chu, Chulin Xie, Boxin Wang, Linyi Li, Lang Yin, Han Zhao, Bo Li(参考訳) フェデレートラーニング(FL)は、エージェントがローカルデータを共有せずにグローバルモデルを共同でトレーニングすることを可能にする。 しかし、局所データの異種性のため、エージェントの訓練されたグローバルモデルの公平性を最適化したり定義したりすることは困難である。 例えば、既存の研究は、精度の公平さをFLにおける異なるエージェントの公正さとみなすが、これは特に不均一な条件下では、エージェントに高品質なデータを強制し、低品質なデータに貢献するエージェントと同様の正確さを達成するのは直感的に「不公平」である。 本研究では,異種エージェントの寄与を考慮に入れた,FLフェアネスの正式な定義,エージェント認識によるフェアネス(fairness)を提案する。 FAAの下では、高品質なデータを持つエージェントのパフォーマンスは、低品質のデータを持つ大量のエージェントの存在のためだけに犠牲にはならない。 さらに,エージェントクラスタリング(FOCUS)に基づく公正なFLトレーニングアルゴリズムを提案し,FAAが測定したFLの公平性を実現する。 理論的には、線形および一般凸損失関数の平坦な条件下での FOCUS の収束と最適性を証明する。 また, 一般凸損失関数と一般凸損失関数の両面において, FOCUS が標準FedAvg と比較して常に高い公正性を達成することを示す。 実験では,合成データ,画像,テキストを含む4つのflデータセットにおいて,fedavgや最先端のfair flアルゴリズムと比較して,faaのフェア性が著しく向上することを示す。

Federated learning (FL) allows agents to jointly train a global model without sharing their local data. However, due to the heterogeneous nature of local data, it is challenging to optimize or even define fairness of the trained global model for the agents. For instance, existing work usually considers accuracy equity as fairness for different agents in FL, which is limited, especially under the heterogeneous setting, since it is intuitively "unfair" to enforce agents with high-quality data to achieve similar accuracy to those who contribute low-quality data, which may discourage the agents from participating in FL. In this work, we propose a formal FL fairness definition, fairness via agent-awareness (FAA), which takes different contributions of heterogeneous agents into account. Under FAA, the performance of agents with high-quality data will not be sacrificed just due to the existence of large amounts of agents with low-quality data. In addition, we propose a fair FL training algorithm based on agent clustering (FOCUS) to achieve fairness in FL measured by FAA. Theoretically, we prove the convergence and optimality of FOCUS under mild conditions for linear and general convex loss functions with bounded smoothness. We also prove that FOCUS always achieves higher fairness in terms of FAA compared with standard FedAvg under both linear and general convex loss functions. Empirically, we show that on four FL datasets, including synthetic data, images, and texts, FOCUS achieves significantly higher fairness in terms of FAA while maintaining competitive prediction accuracy compared with FedAvg and state-of-the-art fair FL algorithms.
翻訳日:2023-02-19 10:00:55 公開日:2023-02-14
# データ駆動決定アルゴリズムの正当性評価のための妥当性の検討

A Validity Perspective on Evaluating the Justified Use of Data-driven Decision-making Algorithms ( http://arxiv.org/abs/2206.14983v2 )

ライセンス: Link先を確認
Amanda Coston, Anna Kawakami, Haiyi Zhu, Ken Holstein, and Hoda Heidari(参考訳) 最近の研究は、複雑な現実世界のタスクで予測ツールを使うことの適切性に疑問を呈している。 これらのツールのバリューアライメントを改善する方法を模索する作業が増えている一方で、比較的少ない作業が、これらのツールを使用することの根本的な正当性に関する懸念の中心となっている。 この研究は、ハイテイクなドメインでデータ駆動アルゴリズムを構築する方法に関する議論において、妥当性を検討することを目的としている。 この目的に向けて,有効性理論から予測アルゴリズムへ重要な概念を翻訳する。 本稿では,問題定式化とデータ問題における共通課題の再検討に有効性レンズを適用し,これらの課題を妥当性に関する社会科学談話に結びつける。 我々はこれらの概念をアルゴリズムによる意思決定の文脈に適用する方法を明らかにした。 これらの妥当性の考察を,予測課題の正当性とデータの適合性に関する反省の促進と文書化を目的とした,一連の高レベルの質問にどのように埋め込むことができるかを実証する。

Recent research increasingly brings to question the appropriateness of using predictive tools in complex, real-world tasks. While a growing body of work has explored ways to improve value alignment in these tools, comparatively less work has centered concerns around the fundamental justifiability of using these tools. This work seeks to center validity considerations in deliberations around whether and how to build data-driven algorithms in high-stakes domains. Toward this end, we translate key concepts from validity theory to predictive algorithms. We apply the lens of validity to re-examine common challenges in problem formulation and data issues that jeopardize the justifiability of using predictive algorithms and connect these challenges to the social science discourse around validity. Our interdisciplinary exposition clarifies how these concepts apply to algorithmic decision making contexts. We demonstrate how these validity considerations could distill into a series of high-level questions intended to promote and document reflections on the legitimacy of the predictive task and the suitability of the data.
翻訳日:2023-02-19 09:32:38 公開日:2023-02-14
# データ中心ガバナンス

Data-Centric Governance ( http://arxiv.org/abs/2302.07872v1 )

ライセンス: Link先を確認
Sean McGregor and Jesse Hostetler(参考訳) 人工知能(AI)ガバナンスは、AIシステムが責任を持ってデプロイされることを保証するために使用される標準とプラクティスの体系である。 現在のaiガバナンスのアプローチは、主に手動レビューとドキュメントプロセスで構成されている。 このようなレビューは、多くのシステムに必要だが、厳密で再現可能な評価を促進する方法で、システムエンジニアリング、行動、成果に対するガバナンス要件を運用しないため、潜在的なすべての害に体系的に対処するには十分ではない。 現代のaiシステムはデータ中心であり、データに作用し、データを生成し、データエンジニアリングによって構築される。 ガバナンス要件の保証もデータの観点から行う必要があります。 本研究は,データセットとアルゴリズムによる評価を通じて,ガバナンス要件の体系化を探求する。 製品ライフサイクル全体に適用されると、データ中心のガバナンスはデプロイメントまでの時間を短縮し、ソリューションの品質を向上し、デプロイメントのリスクを低減し、システムがガバナンス要件に準拠することを保証する継続的状態になる。

Artificial intelligence (AI) governance is the body of standards and practices used to ensure that AI systems are deployed responsibly. Current AI governance approaches consist mainly of manual review and documentation processes. While such reviews are necessary for many systems, they are not sufficient to systematically address all potential harms, as they do not operationalize governance requirements for system engineering, behavior, and outcomes in a way that facilitates rigorous and reproducible evaluation. Modern AI systems are data-centric: they act on data, produce data, and are built through data engineering. The assurance of governance requirements must also be carried out in terms of data. This work explores the systematization of governance requirements via datasets and algorithmic evaluations. When applied throughout the product lifecycle, data-centric governance decreases time to deployment, increases solution quality, decreases deployment risks, and places the system in a continuous state of assured compliance with governance requirements.
翻訳日:2023-02-17 16:04:25 公開日:2023-02-14
# 補助タスクによる深い知識追跡の強化

Enhancing Deep Knowledge Tracing with Auxiliary Tasks ( http://arxiv.org/abs/2302.07942v1 )

ライセンス: Link先を確認
Zitao Liu, Qiongqiong Liu, Jiahao Chen, Shuyan Huang, Boyu Gao, Weiqi Luo, Jian Weng(参考訳) 知識追跡(KT)は、知的学習システムとの歴史的相互作用に基づいて、学生の将来のパフォーマンスを予測する問題である。 最近の研究は、KT問題を解決するために複数のタイプのディープニューラルネットワークを適用している。 しかし、実世界の教育データには、よく表現されていない2つの重要な要素がある。 第一に、既存の作品のほとんどが、質問と知識の共起行列で入力表現を補強する:footnote{\label{ft:kc}a kcは概念、原理、事実、技能といった日常用語の一般化である。 しかし、そのような内在的な関係を最終応答予測タスクに明示的に統合しない。 第二に、学生の個々人格的歴史業績はよく捉えられていない。 本稿では,2つの補助学習タスク,すなわち,emph{question tagging (qt) prediction task} と \emph{individualized prior knowledge (ik) prediction task} を用いて,元のdeep knowledge tracingモデルの予測性能を向上させるために, \emph{at-dkt} を提案する。 具体的には、QTタスクは、質問に特定のKCが含まれているかどうかを予測することによって、より良い質問表現を学ぶのに役立つ。 IKタスクは、学生の歴史的学習相互作用に隠された学生レベルの事前知識を段階的に予測することで、学生のグローバルな歴史的パフォーマンスを捉える。 実世界の3つの教育データセットに関する総合的な実験を行い、提案手法を深部逐次KTモデルと非逐次モデルの両方と比較する。 実験結果から、emph{AT-DKT} は全てのデータセットに対して 0.9\% 以上の改善を施したシーケンシャルモデルよりも優れており、非シーケンシャルモデルと比較しても2番目に良い。 さらに, 補助作業の有効性とemph{at-dkt}の優れた予測結果を示すため, アブレーション研究と定量的解析を行った。

Knowledge tracing (KT) is the problem of predicting students' future performance based on their historical interactions with intelligent tutoring systems. Recent studies have applied multiple types of deep neural networks to solve the KT problem. However, there are two important factors in real-world educational data that are not well represented. First, most existing works augment input representations with the co-occurrence matrix of questions and knowledge components\footnote{\label{ft:kc}A KC is a generalization of everyday terms like concept, principle, fact, or skill.} (KCs) but fail to explicitly integrate such intrinsic relations into the final response prediction task. Second, the individualized historical performance of students has not been well captured. In this paper, we proposed \emph{AT-DKT} to improve the prediction performance of the original deep knowledge tracing model with two auxiliary learning tasks, i.e., \emph{question tagging (QT) prediction task} and \emph{individualized prior knowledge (IK) prediction task}. Specifically, the QT task helps learn better question representations by predicting whether questions contain specific KCs. The IK task captures students' global historical performance by progressively predicting student-level prior knowledge that is hidden in students' historical learning interactions. We conduct comprehensive experiments on three real-world educational datasets and compare the proposed approach to both deep sequential KT models and non-sequential models. Experimental results show that \emph{AT-DKT} outperforms all sequential models with more than 0.9\% improvements of AUC for all datasets, and is almost the second best compared to non-sequential models. Furthermore, we conduct both ablation studies and quantitative analysis to show the effectiveness of auxiliary tasks and the superior prediction outcomes of \emph{AT-DKT}.
翻訳日:2023-02-17 15:46:56 公開日:2023-02-14
# 構造健康モニタリングアプリケーションにおける空間解再構成のための条件付き深部生成モデル

Conditional deep generative models as surrogates for spatial field solution reconstruction with quantified uncertainty in Structural Health Monitoring applications ( http://arxiv.org/abs/2302.08329v1 )

ライセンス: Link先を確認
Nicholas E. Silionis and Theodora Liangou and Konstantinos N. Anyfantis(参考訳) 近年、物理システムを記述するために複雑な計算モデルが作られており、計算コストを削減するためにサロゲートモデルの利用が増加している。 構造健康モニタリング(SHM)に関わる問題では,高次元データの処理と不確実性の定量化の両方が可能なモデルが必要である。 本研究の目的は,そのような応用と高次元確率構造シミュレーションを主目的とした条件付き深部生成モデルを提案することである。 この目的のために、畳み込みニューラルネットワーク(CNN)を用いた条件変分オートエンコーダ(CVAE)を用いて、確率的負荷を受ける構造要素に対する空間的に順序付けられた構造応答量の再構成を行う。 SHMの潜在的な応用にインスパイアされた2つの数値例を用いて、サロゲートの性能を実証する。 このモデルは、参照有限要素(FE)ソリューションと比較して高い再構成精度を達成でき、同時に負荷不確実性を符号化することに成功した。

In recent years, increasingly complex computational models are being built to describe physical systems which has led to increased use of surrogate models to reduce computational cost. In problems related to Structural Health Monitoring (SHM), models capable of both handling high-dimensional data and quantifying uncertainty are required. In this work, our goal is to propose a conditional deep generative model as a surrogate aimed at such applications and high-dimensional stochastic structural simulations in general. To that end, a conditional variational autoencoder (CVAE) utilizing convolutional neural networks (CNNs) is employed to obtain reconstructions of spatially ordered structural response quantities for structural elements that are subjected to stochastic loading. Two numerical examples, inspired by potential SHM applications, are utilized to demonstrate the performance of the surrogate. The model is able to achieve high reconstruction accuracy compared to the reference Finite Element (FE) solutions, while at the same time successfully encoding the load uncertainty.
翻訳日:2023-02-17 13:39:32 公開日:2023-02-14
# ビット並列決定論的確率乗算器

A Bit-Parallel Deterministic Stochastic Multiplier ( http://arxiv.org/abs/2302.08324v1 )

ライセンス: Link先を確認
Sairam Sri Vatsavai and Ishan Thakkar(参考訳) 本稿では, 従来の3つの確率乗算器と比較して, 計算誤差を32.2倍に改善しつつ, 10.6$\times$10$^4$まで向上する新しいビット並列決定確率乗算器を提案する。

This paper presents a novel bit-parallel deterministic stochastic multiplier, which improves the area-energy-latency product by up to 10.6$\times$10$^4$, while improving the computational error by 32.2\%, compared to three prior stochastic multipliers.
翻訳日:2023-02-17 13:38:57 公開日:2023-02-14
# 1,1-ジフルオロエチレンの励起状態ダイナミクスに非局在化波動関数は必要か?

Do we need delocalised wavefunctions for the excited state dynamics of 1,1-difluoroethylene? ( http://arxiv.org/abs/2302.08445v1 )

ライセンス: Link先を確認
Sandra G\'omez, Nadja Singer, Leticia Gonz\'alez and Graham Worth(参考訳) この研究において、ハミルトニアンは1,1-ジフルオロエチレンの励起状態量子力学を研究するモデルを構築した。 最小エネルギー幾何が一意でない多くの自由度を持つ系では、基底状態波動関数は複数のミニマの間で非局在化される。 この小さなテストシステムでは、局所化(最小値)と非局在化(複数最小値)の波動関数を考慮した励起状態ダイナミクスを探索し、この選択が量子力学計算の最終結果に影響を及ぼすかどうかを確認する。 我々の分子ハミルトニアンは、原子価とリドベルク状態を含む7つの電子状態から構成され、MS-CASPT2法で計算され、振動基底状態にある1,1-ジフルオロエチレンの12の常態モードの振動座標に投影される。 このハミルトニアンはねじれの自由度に沿って対称性を持ち、両方のミニマを完全に等価にし、模型は実験吸収スペクトルとの優れた一致によって支持されている。 量子力学の結果、デルタパルス励起を仮定すると、励起状態の集団や吸収スペクトルに異なる初期条件が有意に影響を与えないことが示されている。

In this work we set up a model Hamiltonian to study the excited state quantum dynamics of 1,1-difluoroethylene, a molecule that has equivalent atoms exchanged by a torsional symmetry operation leading to equivalent minima on the potential energy surface. In systems with many degrees of freedom where the minimum energy geometry is not unique, the ground state wavefunction will be delocalised among multiple minima. In this small test system, we probe the excited state dynamics considering localised (in a single minimum) and delocalised (spread over among multiple minima) wavefunctions and check whether this choice would influence the final outcome of the quantum dynamics calculations. Our molecular Hamiltonian comprises seven electronic states, including valence and Rydberg states, computed with the MS-CASPT2 method and projected onto the vibrational coordinates of the twelve normal modes of 1,1-difluoroethylene in its vibrational ground state. This Hamiltonian has been symmetrised along the torsional degree of freedom to make both minima completely equivalent and the model is supported by the excellent agreement with the experimental absorption spectrum. Quantum dynamics results show that the different initial conditions studied do not appreciably affect the excited state populations or the absorption spectrum when the dynamics is simulated assuming a delta pulse excitation.
翻訳日:2023-02-17 13:12:30 公開日:2023-02-14
# 強相関量子系の有限温度における境界誘起特異性

Boundary-induced singularity in strongly-correlated quantum systems at finite temperature ( http://arxiv.org/abs/2204.06817v2 )

ライセンス: Link先を確認
Ding-Zu Wang, Guo-Feng Zhang, Maciej Lewenstein, Shi-Ju Ran(参考訳) 強相関量子系におけるバルク境界対応と境界誘起現象の探索は、凝縮物質物理学の最も基本的なトピックに属する。 本研究では, 量子スピン鎖のバルク内におけるエンタングルメント・バス・ハミルトニアン(EBH)が, 熱浴に類似した境界からエキゾチックな熱力学特性を誘導できることを示す。 EBHは有限サイズの系の境界に位置する局所ハミルトニアンとして定義され、熱力学的極限(すなわち無限境界条件)における翻訳不変系のバルク絡みハミルトニアンをほぼ生成する。 BQP(boundary quench point')は、EBHの係数と有効境界温度に対するバルクエントロピーの不連続性によって同定される。 bqpの物理的意味は、熱的効果が無意味になりバルク特性が基底状態によって支配される点を区別することである。 特異点は、通常ランダウ・ギンズバーグパラダイムに該当する従来の熱力学的相転移点のものと異なる。 また、ハミルトニアンとbqpの対称性と、エンタングルメント・バス次元からの衝撃との関係についても考察した。 我々の研究は、バルクとバウンダリの競争によって引き起こされるエキゾチックな現象を探求する機会を示す。

Exploring the bulk-boundary correspondences and the boundary-induced phenomena in the strongly-correlated quantum systems belongs to the most fundamental topics of condensed matter physics. In this work, we show that the entanglement-bath Hamiltonian (EBH) can induce exotic thermodynamic properties in the bulk of a quantum spin chain from the boundaries, analogous to heat bath. The EBH is defined as the local Hamiltonian located on the boundary of a finite-size system, which approximately generates the bulk entanglement Hamiltonian of the translational-invariant system in the thermodynamic limit (i.e., the infinite boundary condition). The ``boundary quench point'' (BQP) is identified by the discontinuity in the coefficients of the EBH and in the bulk entropy versus the effective boundary temperature. The physical implication of BQP is to distinguish the point, below which the thermal effects become insignificant and the bulk properties are dominated by the ground state. It singularity differs from those in the conventional thermodynamic phase transition points that normally fall into the Landau-Ginzburg paradigm. The relations between the symmetry of Hamiltonian and BQP, and the impacts from the entanglement-bath dimension are also explored. Our work shows the opportunities on exploring the exotic phenomena induced by the competition between the bulk and boundaries.
翻訳日:2023-02-17 00:16:20 公開日:2023-02-14
# 等角形E値を用いたFDR制御によるデランダム化ノベルティ検出

Derandomized Novelty Detection with FDR Control via Conformal E-values ( http://arxiv.org/abs/2302.07294v1 )

ライセンス: Link先を確認
Meshi Bashari, Amir Epstein, Yaniv Romano, Matteo Sesia(参考訳) 異常検出のための任意の機械学習アルゴリズムの出力を厳格に校正する一般的なソリューションとして、等角予測やその他のランダム化モデルフリー推論技術が注目されている。 本稿では,そのアルゴリズム的ランダム性を緩和する新しい手法を考案し,偽発見率制御下での強力な新奇性検出のためのより解釈可能で信頼性の高い枠組みを提案する。 このアイデアは、p値の代わりに適切な共形e値を利用して各発見の意義を定量化することで、同じデータの複数の相互依存分析から得られた証拠をシームレスに集約する。 さらに, 提案手法は, 共形e値の重み付けを行う革新的な手法により, 電力損失を伴わずに, ランダム性を低減できる。 合成および実データによるシミュレーションにより、この解は最先端の代替技術で得られた推論におけるランダムノイズの除去に有効であり、時には高出力につながる。

Conformal prediction and other randomized model-free inference techniques are gaining increasing attention as general solutions to rigorously calibrate the output of any machine learning algorithm for novelty detection. This paper contributes to the field by developing a novel method for mitigating their algorithmic randomness, leading to an even more interpretable and reliable framework for powerful novelty detection under false discovery rate control. The idea is to leverage suitable conformal e-values instead of p-values to quantify the significance of each finding, which allows the evidence gathered from multiple mutually dependent analyses of the same data to be seamlessly aggregated. Further, the proposed method can reduce randomness without much loss of power, partly thanks to an innovative way of weighting conformal e-values based on additional side information carefully extracted from the same data. Simulations with synthetic and real data confirm this solution can be effective at eliminating random noise in the inferences obtained with state-of-the-art alternative techniques, sometimes also leading to higher power.
翻訳日:2023-02-16 16:48:04 公開日:2023-02-14
# ワイル磁石Mn$_3$Snにおけるヘリシティ依存性超高速光電流

Helicity-dependent Ultrafast Photocurrents in Weyl Magnet Mn$_3$Sn ( http://arxiv.org/abs/2302.07286v1 )

ライセンス: Link先を確認
Dominik Hamara, Gunnar F. Lange, Farhan Nur Kholid, Anastasios Markou, Claudia Felser, Robert-Jan Slager, Chiara Ciccarelli(参考訳) 非線形反強磁性Mn$_3$Snの光ポンプ-THz放射の研究を行った。 フェムト秒レーザーパルスを照射するとMn$_3$SnがTHz放射源として働くことを示す。 放射された THz 場の極性と振幅は、光励起の偏光によって完全に制御できる。 本研究では, ポンプ偏光, 磁場, 試料配向の様々な実験値と応答テンソルの完全な対称性解析を組み合わせることで, 光抵抗効果によって発生する光電流とthz放射を説明する。

We present an optical pump-THz emission study on non-collinear antiferromagnet Mn$_3$Sn. We show that Mn$_3$Sn acts as a source of THz radiation when irradiated by femtosecond laser pulses. The polarity and amplitude of the emitted THz fields can be fully controlled by the polarisation of optical excitation. We explain the THz emission with the photocurrents generated via the photon drag effect by combining various experimental measurements as a function of pump polarisation, magnetic field, and sample orientation with thorough symmetry analysis of response tensors.
翻訳日:2023-02-16 16:47:45 公開日:2023-02-14
# 古典時空上の量子場のバックリアクションに対する共変経路積分

Covariant path integrals for quantum fields back-reacting on classical space-time ( http://arxiv.org/abs/2302.07283v1 )

ライセンス: Link先を確認
Jonathan Oppenheim and Zachary Weller-Davies(参考訳) 古典場と相互作用する量子場の構成空間パス積分を導入する。 これは、マスター方程式法を使わずに、ダイナミクスが直接的に完全に正であることを証明することによって、一貫してできることを示した。 これらの経路積分はローレンツ不変性や微分同相不変性を含む時空対称性を容易に課すことができる。 開量子系のファインマン・ヴァーノン経路積分と古典確率力学の確率経路積分を一般化し結合し、対称性の原理を尊重する。 我々は、時空計量が古典的に扱われる一般相対性理論の経路積分定式化と、アインシュタインの方程式のトレースに基づく微分同相不変理論を導入する。 この理論は、一般相対性理論と量子力学を調和させる基礎理論の候補である。

We introduce configuration space path integrals for quantum fields interacting with classical fields. We show that this can be done consistently by proving that the dynamics are completely positive directly, without resorting to master equation methods. These path integrals allow one to readily impose space-time symmetries, including Lorentz invariance or diffeomorphism invariance. They generalize and combine the Feynman-Vernon path integral of open quantum systems and the stochastic path integral of classical stochastic dynamics while respecting symmetry principles. We introduce a path integral formulation of general relativity where the space-time metric is treated classically, as well as a diffeomorphism invariant theory based on the trace of Einstein's equations. The theory is a candidate for a fundamental theory that reconciles general relativity with quantum mechanics.
翻訳日:2023-02-16 16:47:36 公開日:2023-02-14
# 一般化された非文脈性に対する共通の異論に対処する

Addressing some common objections to generalized noncontextuality ( http://arxiv.org/abs/2302.07282v1 )

ライセンス: Link先を確認
David Schmid, John H. Selby, Robert W. Spekkens(参考訳) 与えられた操作現象学は、いつ古典的説明を許すべきか? 一般化された非文脈的存在論的モデルで実現できるとき。 この方法でこの問題に答えるケースは、多くの先行研究で行われ、一般化された非文脈性の概念の研究を動機付けている。 しかし、この概念の定義や実験的なテストの可能性に関して、多くの批判や懸念が提起されている。 この研究では、これらの最も一般的な論点のいくつかに答える。 そのような反論の1つは、実験の各実行で実際に実験手順が実行された古典的記録の存在は、非文脈性の失敗の証明の必要な要素である操作的同値関係が成立せず、その結果、これらの同値に基づく非古典性の結論が誤っていることを意味する。 この懸念が根拠がない理由を説明します。 我々の反応は、複合システムのサブシステム構造を考慮し、その失敗を証明できる可能性など、一般化された非コンテキスト性に関する特定の事実を明らかにする機会を与える。 同様に、互いに反対する反応を通じて、一般化された非コンテキスト性の概念とその実験的テストに関する未承認事実を解明する。

When should a given operational phenomenology be deemed to admit of a classical explanation? When it can be realized in a generalized-noncontextual ontological model. The case for answering the question in this fashion has been made in many previous works, and motivates research on the notion of generalized noncontextuality. Many criticisms and concerns have been raised, however, regarding the definition of this notion and of the possibility of testing it experimentally. In this work, we respond to some of the most common of these objections. One such objection is that the existence of a classical record of which laboratory procedure was actually performed in each run of an experiment implies that the operational equivalence relations that are a necessary ingredient of any proof of the failure of noncontextuality do not hold, and consequently that conclusions of nonclassicality based on these equivalences are mistaken. We explain why this concern in unfounded. Our response affords the opportunity for us to clarify certain facts about generalized noncontextuality, such as the possibility of having proofs of its failure based on a consideration of the subsystem structure of composite systems. Similarly, through our responses to each of the other objections, we elucidate some under-appreciated facts about the notion of generalized noncontextuality and experimental tests thereof.
翻訳日:2023-02-16 16:47:23 公開日:2023-02-14
# 二元単位から二元単位へ:正確に解ける多体量子力学の2カテゴリーモデル

From dual-unitary to biunitary: a 2-categorical model for exactly-solvable many-body quantum dynamics ( http://arxiv.org/abs/2302.07280v1 )

ライセンス: Link先を確認
Pieter W. Claeys, Austen Lamacraft, Jamie Vicary(参考訳) デュアルユニタリブリックワーク回路は、時間と空間の方向の両方でユニタリである2サイトゲートに基づく、多体カオス量子システムのための正確に解くことができるモデルである。 prosen氏は先日、非ブロック構造で構成された2つの制御された1サイトユニタリに基づいて、ここでは"クロックワーク"と呼んでいる、"デュアル・ユニタリインタラクション・ラウンド・ア・フェイス"と呼ばれる代替モデルについて説明した。 我々は,これら2つの既存モデルを同時に一般化する2つのカテゴリの枠組みを提案し,ブリックワークとクロックワークの回路が豊かに相互作用できることを示す。 これらの相互作用は量子組合せデータによって制御され、正確に特徴付けられることを示す。 これらの一般化回路は未解決のままであり、因果光円錐以外の至る所で消滅する単点相関関数のような原モデルの魅力的な特徴を保っていることを示す。 提案するフレームワークにより, 可解初期状態の概念を2元回路に直接拡張することが可能となり, 2元回路ダイナミクス下での有限個の時間ステップを経て, 最大絡み合い成長と完全熱化を生じさせることが示された。

Dual-unitary brickwork circuits are an exactly-solvable model for many-body chaotic quantum systems, based on 2-site gates which are unitary in both the time and space directions. Prosen has recently described an alternative model called 'dual-unitary interactions round-a-face', which we here call 'clockwork', based on 2-controlled 1-site unitaries composed in a non-brickwork structure, yet with many of the same attractive global properties. We present a 2-categorical framework that simultaneously generalizes these two existing models, and use it to show that brickwork and clockwork circuits can interact richly, yielding new types of generalized heterogeneous circuits. We show that these interactions are governed by quantum combinatorial data, which we precisely characterize. These generalized circuits remain exactly-solvable and we show that they retain the attractive features of the original models such as single-site correlation functions vanishing everywhere except on the causal light-cone. Our presented framework allows us to directly extend the notion of solvable initial states to these biunitary circuits, which are shown to result in maximal entanglement growth and exact thermalization after finitely many time steps under biunitary circuit dynamics.
翻訳日:2023-02-16 16:47:03 公開日:2023-02-14
# AIチャットアシスタントは、さまざまなトピックに関する会話を改善する

AI Chat Assistants can Improve Conversations about Divisive Topics ( http://arxiv.org/abs/2302.07268v1 )

ライセンス: Link先を確認
Lisa P. Argyle, Ethan Busby, Joshua Gubler, Chris Bail, Thomas Howe, Christopher Rytting, and David Wingate(参考訳) 人的会話の急増はオンラインで起きている。 しかし、ディバイシブネスとコンフリクトは、ソーシャルメディアプラットフォーム、メッセージングアプリ、および他のデジタルフォーラム上のテキストベースのインタラクションで悪化する可能性がある。 このような毒性は分極性を高め、重要なことは、すべての人に影響を及ぼす複雑な社会問題に対する効率的な解決策を開発するための多様な社会の能力に相関する。 学者や市民社会団体は、オフライン環境での対人会話の分断や生産性を低下させる介入を促進するが、これらの取り組みをオンラインで発生する会話の量に拡大することは極めて困難である。 本稿では,人工知能ツールを用いて,個別の話題に関するオンライン会話がどのように改善されるかを実証する大規模実験の結果を示す。 具体的には,会話で理解される感情の知覚を改善するために,リアルタイムのエビデンスに基づくレコメンデーションを作成するために,大きな言語モデルを用いる。 これらの介入は、会話の内容の体系的変更や人々の政策姿勢の移動を伴わずに、報告された会話の質を改善し、政治的分裂を減らし、トーンを改善する。 これらの発見は、将来のソーシャルメディア研究、政治審議、計算社会科学における人工知能の位置づけに関心を持つ研究者のコミュニティに重要な意味を持つ。

A rapidly increasing amount of human conversation occurs online. But divisiveness and conflict can fester in text-based interactions on social media platforms, in messaging apps, and on other digital forums. Such toxicity increases polarization and, importantly, corrodes the capacity of diverse societies to develop efficient solutions to complex social problems that impact everyone. Scholars and civil society groups promote interventions that can make interpersonal conversations less divisive or more productive in offline settings, but scaling these efforts to the amount of discourse that occurs online is extremely challenging. We present results of a large-scale experiment that demonstrates how online conversations about divisive topics can be improved with artificial intelligence tools. Specifically, we employ a large language model to make real-time, evidence-based recommendations intended to improve participants' perception of feeling understood in conversations. We find that these interventions improve the reported quality of the conversation, reduce political divisiveness, and improve the tone, without systematically changing the content of the conversation or moving people's policy attitudes. These findings have important implications for future research on social media, political deliberation, and the growing community of scholars interested in the place of artificial intelligence within computational social science.
翻訳日:2023-02-16 16:46:40 公開日:2023-02-14
# シュワルツシルトブラックホール地平線の真空状態のフェルミイオンの絡み合いエントロピー

The Fermionic Entanglement Entropy of the Vacuum State of a Schwarzschild Black Hole Horizon ( http://arxiv.org/abs/2302.07212v1 )

ライセンス: Link先を確認
Felix Finster and Magdalena Lottner(参考訳) 我々は、シュワルツシルトブラックホール水平線のフェルミオンエンタングルメントエントロピーを、無限遠における観測者の真空状態に対して定義し、解析する。 変数の分離とdiracプロパゲータの積分表現を用いて、エンタングルメントエントロピーは事象地平線の占有状態の数の倍の数値因子として計算される。

We define and analyze the fermionic entanglement entropy of a Schwarzschild black hole horizon for the vacuum state of an observer at infinity. Using separation of variables and an integral representation of the Dirac propagator, the entanglement entropy is computed to be a numerical factor times the number of occupied states on the event horizon.
翻訳日:2023-02-16 16:45:53 公開日:2023-02-14
# ディープラーニング手法は分子情報生成に優れているか?

Do Deep Learning Methods Really Perform Better in Molecular Conformation Generation? ( http://arxiv.org/abs/2302.07061v1 )

ライセンス: Link先を確認
Gengmo Zhou, Zhifeng Gao, Zhewei Wei, Hang Zheng, Guolin Ke(参考訳) 分子コンフォメーション生成(mcg)は、創薬において基本的かつ重要な問題である。 体系的探索、モデル構築、ランダム探索、距離幾何学、分子動力学、モンテカルロ法など、多くの伝統的な手法がmcg問題を解決するために開発されている。 しかし、分子構造によってはいくつかの制限がある。 近年,深層学習に基づくMDG手法が数多く存在しており,従来の手法よりも優れていると主張している。 しかし、意外なことに、従来の手法に基づく単純で安価なアルゴリズム(パラメータフリー)を設計し、広く使われているGEOM-QM9およびGEOM-Drugsベンチマークにおいて、ディープラーニングベースのMDG手法に匹敵する、あるいは性能に優れていることを発見した。 特に,設計アルゴリズムはRDKIT生成コンフォメーションのクラスタリングである。 コミュニティがmcgのディープラーニング手法を改訂する上で,私たちの調査結果が役立つことを願っています。 提案アルゴリズムのコードはhttps://gist.github.com/zhougengmo/5b565f51adafcd911c0bc115b2ef027cにある。

Molecular conformation generation (MCG) is a fundamental and important problem in drug discovery. Many traditional methods have been developed to solve the MCG problem, such as systematic searching, model-building, random searching, distance geometry, molecular dynamics, Monte Carlo methods, etc. However, they have some limitations depending on the molecular structures. Recently, there are plenty of deep learning based MCG methods, which claim they largely outperform the traditional methods. However, to our surprise, we design a simple and cheap algorithm (parameter-free) based on the traditional methods and find it is comparable to or even outperforms deep learning based MCG methods in the widely used GEOM-QM9 and GEOM-Drugs benchmarks. In particular, our design algorithm is simply the clustering of the RDKIT-generated conformations. We hope our findings can help the community to revise the deep learning methods for MCG. The code of the proposed algorithm could be found at https://gist.github.com/ZhouGengmo/5b565f51adafcd911c0bc115b2ef027c.
翻訳日:2023-02-16 16:45:45 公開日:2023-02-14
# Gamma-Phi損失の分類校正について

On Classification-Calibration of Gamma-Phi Losses ( http://arxiv.org/abs/2302.07321v1 )

ライセンス: Link先を確認
Yutong Wang and Clayton D. Scott(参考訳) Gamma-Phi の損失は、ロジスティックやその他の一般的な損失を一般化する多クラス分類損失関数の族であり、加速文学に応用されている。 このような損失を分類・校正するための最初の一般条件を確立する。 さらに,従来提案されていた十分条件が十分でないことを示す。

Gamma-Phi losses constitute a family of multiclass classification loss functions that generalize the logistic and other common losses, and have found application in the boosting literature. We establish the first general sufficient condition for the classification-calibration of such losses. In addition, we show that a previously proposed sufficient condition is in fact not sufficient.
翻訳日:2023-02-16 16:41:07 公開日:2023-02-14
# フラストレーション的単純だが効果的なゼロショット検出とセグメンテーション:解析と強固なベースライン

Frustratingly Simple but Effective Zero-shot Detection and Segmentation: Analysis and a Strong Baseline ( http://arxiv.org/abs/2302.07319v1 )

ライセンス: Link先を確認
Siddhesh Khandelwal, Anirudth Nambirajan, Behjat Siddiquie, Jayan Eledath, Leonid Sigal(参考訳) オブジェクト検出とセグメンテーションのためのメソッドは、トレーニングのための豊富なインスタンスレベルのアノテーションを必要とすることが多い。 これに対処するため、ゼロショットオブジェクト検出(またはセグメンテーション)のタスクは、監視できないカテゴリのオブジェクトインスタンスを識別し、ローカライズするための効果的な方法を学ぶことを目的としている。 これらのタスクのためにアーキテクチャを構築するには、視覚から見えないカテゴリへの情報伝達に使われるクラスエンコーディングの形式から、学習に最適化された関数の性質まで、数多くの設計オプションから選択する必要がある。 本研究では,これらの設計選択を幅広く研究し,単純かつ極めて効果的なゼロショット認識手法を慎重に構築する。 オブジェクト検出とセグメンテーションに関するMSCOCOデータセットに関する広範な実験を通じて、提案手法が既存のより複雑なアーキテクチャよりも優れていることを強調した。 提案する提案手法は,ゼロショット検出/セグメンテーションにおける最近のデザイン動向を再考する必要性を示唆するものである。

Methods for object detection and segmentation often require abundant instance-level annotations for training, which are time-consuming and expensive to collect. To address this, the task of zero-shot object detection (or segmentation) aims at learning effective methods for identifying and localizing object instances for the categories that have no supervision available. Constructing architectures for these tasks requires choosing from a myriad of design options, ranging from the form of the class encoding used to transfer information from seen to unseen categories, to the nature of the function being optimized for learning. In this work, we extensively study these design choices, and carefully construct a simple yet extremely effective zero-shot recognition method. Through extensive experiments on the MSCOCO dataset on object detection and segmentation, we highlight that our proposed method outperforms existing, considerably more complex, architectures. Our findings and method, which we propose as a competitive future baseline, point towards the need to revisit some of the recent design trends in zero-shot detection / segmentation.
翻訳日:2023-02-16 16:40:59 公開日:2023-02-14
# 不均衡データセットを用いた深層能動学習のためのアルゴリズム選択

Algorithm Selection for Deep Active Learning with Imbalanced Datasets ( http://arxiv.org/abs/2302.07317v1 )

ライセンス: Link先を確認
Jifan Zhang, Shuai Shao, Saurabh Verma, Robert Nowak(参考訳) ラベル効率は、ディープラーニングアプリケーションにおいてますます重要な目標となっている。 アクティブラーニングは、ディープネットワークのトレーニングに必要なラベル付きサンプルの数を減らすことを目的としているが、アクティブラーニングアルゴリズムの実証的パフォーマンスは、データセットやアプリケーションによって劇的に変化する可能性がある。 アクティブな学習戦略が与えられたアプリケーションでうまく機能するか、どれが最善であるかを事前に知るのは難しい。 そこで本研究では,深層アクティブ学習のための適応アルゴリズム選択戦略を提案する。 どんなラベルのないデータセットに対しても、私たちの(メタ)アルゴリズムテーラー(thompson active learning algorithm selection)は、一連の候補アクティブラーニングアルゴリズムの中から反復的かつ適応的に選択します。 tailorはクラスバランスの取れたサンプルの収集を目的とした新しい報酬関数を使用する。 マルチクラスおよびマルチラベルアプリケーションにおける広範囲な実験は、TAILORが最適なアルゴリズムよりも精度が優れていることを示す。

Label efficiency has become an increasingly important objective in deep learning applications. Active learning aims to reduce the number of labeled examples needed to train deep networks, but the empirical performance of active learning algorithms can vary dramatically across datasets and applications. It is difficult to know in advance which active learning strategy will perform well or best in a given application. To address this, we propose the first adaptive algorithm selection strategy for deep active learning. For any unlabeled dataset, our (meta) algorithm TAILOR (Thompson ActIve Learning algORithm selection) iteratively and adaptively chooses among a set of candidate active learning algorithms. TAILOR uses novel reward functions aimed at gathering class-balanced examples. Extensive experiments in multi-class and multi-label applications demonstrate TAILOR's effectiveness in achieving accuracy comparable or better than that of the best of the candidate algorithms.
翻訳日:2023-02-16 16:40:39 公開日:2023-02-14
# 時空間多重リドバーグ受信機

Spatiotemporal Multiplexed Rydberg Receiver ( http://arxiv.org/abs/2302.07316v1 )

ライセンス: Link先を確認
Samuel H. Knarr, Victor G. Bucklew, Jerrod Langston, Kevin C. Cox, Joshua C. Hill, David H. Meyer, James A. Drakes(参考訳) 外原子価電子が高主量子数に励起されるアルカリ原子のリドバーグ状態は、大きな電気双極子モーメントを持ち、感度が高く広帯域の電場センサーとして使用できる。 これらのセンサーは電磁誘導透過(EIT)を使用して入射電界を測定する。 EITを確立するために必要な特性時間スケールは、原子が時変RF放射に反応する有効な速度を決定する。 従来の研究では、このEIT緩和速度が10MHz未満のRFデータシンボルレートからEITベースのセンサーの性能のロールオフを引き起こすと予測されていた。 本稿では,プローブレーザの時空間多重化(STM)により,Rydbergセンサの応答速度を100MHz以上に向上するアーキテクチャを提案する。 パルスレーザーを用いて,建築の時間多重化成分を検証する実験結果を示す。 我々は、この実験データにセンサの数値モデルをベンチマークし、STMセンサの性能をRF通信受信機として予測する。 オンオフキード(OOK)波形に対して,STMライドバーグセンサを用いた100Mbpsまでの誤りのない通信の実現可能性を示すRF電力とデータレートの関数として,ビットエラー比(BER)を予測する数値モデルを用いる。

Rydberg states of alkali atoms, where the outer valence electron is excited to high principal quantum numbers, have large electric dipole moments allowing them to be used as sensitive, wideband, electric field sensors. These sensors use electromagnetically induced transparency (EIT) to measure incident electric fields. The characteristic timescale necessary to establish EIT determines the effective speed at which the atoms respond to time-varying RF radiation. Previous studies have predicted that this EIT relaxation rate causes a performance roll-off in EIT-based sensors beginning at a less than 10 MHz RF data symbol rate. Here, we propose an architecture for increasing the response speed of Rydberg sensors to greater than 100 MHz, through spatio-temporal multiplexing (STM) of the probe laser. We present experimental results validating the architecture's temporal multiplexing component using a pulsed laser. We benchmark a numerical model of the sensor to this experimental data and use the model to predict the STM sensor's performance as an RF communications receiver. For an on-off keyed (OOK) waveform, we use the numerical model to predict bit-error-ratios (BERs) as a function of RF power and data rates demonstrating feasibility of error free communications up to 100 Mbps with an STM Rydberg sensor.
翻訳日:2023-02-16 16:40:24 公開日:2023-02-14
# 映画における視聴覚イベント検出のためのデータセット

A dataset for Audio-Visual Sound Event Detection in Movies ( http://arxiv.org/abs/2302.07315v1 )

ライセンス: Link先を確認
Rajat Hebbar, Digbalay Bose, Krishna Somandepalli, Veena Vijai, Shrikanth Narayanan(参考訳) オーディオイベント検出は、自動運転車から医療まで、広く研究されているオーディオ処理タスクである。 audiosetのようなwildデータセットは、この分野の研究を促進している。 しかし、多くの取り組みは一般的に手動のアノテーションと検証を伴い、これは大規模に実行するのにコストがかかる。 映画は様々な現実や架空のシナリオを描いており、幅広いオーディオイベントを発掘するための豊富な資源となっている。 本稿では,サブタイトルアライメント映画音(sam-s)と呼ばれる音声イベントのデータセットを提案する。 430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。 音声イベントを分類するためには,音,ソース,品質の3次元を識別し,245音の最終分類法を作成するためのステップを提示する。 分類学の生成に関わる選択について論じ、また、私たちのデータセットにおける音の人間中心の性質を強調する。 音声のみの音響分類におけるベースライン性能を34.76%の平均的精度で確立し,視覚情報の導入により,約5%の性能向上が期待できることを示す。 データとコードはhttps://github.com/usc-sail/mica-subtitle-aligned-movie-soundsで研究されている。

Audio event detection is a widely studied audio processing task, with applications ranging from self-driving cars to healthcare. In-the-wild datasets such as Audioset have propelled research in this field. However, many efforts typically involve manual annotation and verification, which is expensive to perform at scale. Movies depict various real-life and fictional scenarios which makes them a rich resource for mining a wide-range of audio events. In this work, we present a dataset of audio events called Subtitle-Aligned Movie Sounds (SAM-S). We use publicly-available closed-caption transcripts to automatically mine over 110K audio events from 430 movies. We identify three dimensions to categorize audio events: sound, source, quality, and present the steps involved to produce a final taxonomy of 245 sounds. We discuss the choices involved in generating the taxonomy, and also highlight the human-centered nature of sounds in our dataset. We establish a baseline performance for audio-only sound classification of 34.76% mean average precision and show that incorporating visual information can further improve the performance by about 5%. Data and code are made available for research at https://github.com/usc-sail/mica-subtitle-aligned-movie-sounds
翻訳日:2023-02-16 16:40:05 公開日:2023-02-14
# fedle: エッジiotネットワークのためのlifespan拡張によるフェデレーション学習クライアント選択

FedLE: Federated Learning Client Selection with Lifespan Extension for Edge IoT Networks ( http://arxiv.org/abs/2302.07305v1 )

ライセンス: Link先を確認
Jiajun Wu, Steve Drew, Jiayu Zhou(参考訳) Federated Learning(FL)は、IoT(Internet of Things)デバイスによってエッジで生成された巨大なデータによる予測モデリングのための分散およびプライバシ保護学習フレームワークである。 IoTにFLが広く採用されるのを防ぐ大きな課題の1つは、ローカルトレーニングとモデル更新のためのバッテリ駆動クライアントの集中的なエネルギー消費によるIoTデバイスの広範な電源制限である。 クライアントのバッテリレベルが低いと、エッジネットワークから早期にドロップアウトし、FLの性能を損なうトレーニングデータの損失と、他の指定されたタスクの実行が可能になった。 本稿では,エッジIoTネットワークのライフスパン拡張を可能にするエネルギー効率の高いクライアント選択フレームワークであるFedLEを提案する。 FedLEでは、クライアントがまず最低限のエポックを実行して、ローカルモデルの更新を生成する。 モデルの一部はサーバにアップロードされ、各クライアント間の類似性を計算する。 これらのクライアントペアに対してクラスタリングを行い、同様のモデル分布を持つクライアントを特定する。 各ラウンドにおいて、低電力クライアントは選択される確率が低く、電池の排水が遅れる。 実証的な研究によると、FedLEはベンチマークデータセットのベースラインを上回り、バッテリーの電力制約でFedAvgよりも多くのトレーニングラウンドを継続している。

Federated learning (FL) is a distributed and privacy-preserving learning framework for predictive modeling with massive data generated at the edge by Internet of Things (IoT) devices. One major challenge preventing the wide adoption of FL in IoT is the pervasive power supply constraints of IoT devices due to the intensive energy consumption of battery-powered clients for local training and model updates. Low battery levels of clients eventually lead to their early dropouts from edge networks, loss of training data jeopardizing the performance of FL, and their availability to perform other designated tasks. In this paper, we propose FedLE, an energy-efficient client selection framework that enables lifespan extension of edge IoT networks. In FedLE, the clients first run for a minimum epoch to generate their local model update. The models are partially uploaded to the server for calculating similarities between each pair of clients. Clustering is performed against these client pairs to identify those with similar model distributions. In each round, low-powered clients have a lower probability of being selected, delaying the draining of their batteries. Empirical studies show that FedLE outperforms baselines on benchmark datasets and lasts more training rounds than FedAvg with battery power constraints.
翻訳日:2023-02-16 16:39:47 公開日:2023-02-14
# MSDA:6次元オブジェクトポス推定のための単眼自己教師型ドメイン適応

MSDA: Monocular Self-supervised Domain Adaptation for 6D Object Pose Estimation ( http://arxiv.org/abs/2302.07300v1 )

ライセンス: Link先を確認
Dingding Cai, Janne Heikkil\"a, Esa Rahtu(参考訳) 実画像からラベル付き6Dポーズを取得するのは、高価で時間を要する作業だ。 合成RGB画像の大量取得は容易であるが,合成ドメイン間ギャップによりトレーニングされたモデルは顕著な性能劣化に悩まされる。 この劣化を軽減するために,実際のrgb(-d)データを利用した実用的な自己教師付きドメイン適応手法を提案する。 まず,合成rgb画像を用いてモデルを事前学習し,実rgb(-d)画像を用いて事前学習したモデルを微調整する。 微調整プロセスは、rgbベースのポーズ認識一貫性と、時間を要するオンライン微分可能レンダリングを必要としない深度誘導オブジェクト距離擬似ラベルによって自己管理される。 提案手法は最近のポーズ推定器SC6Dに基づいて構築し,YCB-Videoデータセット上で評価する。 提案手法は,既存の最先端手法に勝るものの,完全教師付き手法と同等の性能を示した。

Acquiring labeled 6D poses from real images is an expensive and time-consuming task. Though massive amounts of synthetic RGB images are easy to obtain, the models trained on them suffer from noticeable performance degradation due to the synthetic-to-real domain gap. To mitigate this degradation, we propose a practical self-supervised domain adaptation approach that takes advantage of real RGB(-D) data without needing real pose labels. We first pre-train the model with synthetic RGB images and then utilize real RGB(-D) images to fine-tune the pre-trained model. The fine-tuning process is self-supervised by the RGB-based pose-aware consistency and the depth-guided object distance pseudo-label, which does not require the time-consuming online differentiable rendering. We build our domain adaptation method based on the recent pose estimator SC6D and evaluate it on the YCB-Video dataset. We experimentally demonstrate that our method achieves comparable performance against its fully-supervised counterpart while outperforming existing state-of-the-art approaches.
翻訳日:2023-02-16 16:39:28 公開日:2023-02-14
# readin: リアルで多様な入力ノイズを持つ中国のマルチタスクベンチマーク

READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises ( http://arxiv.org/abs/2302.07324v1 )

ライセンス: Link先を確認
Chenglei Si, Zhengyan Zhang, Yingfa Chen, Xiaozhi Wang, Zhiyuan Liu, Maosong Sun(参考訳) 多くの実世界のアプリケーションでは、利用者が生成する入力は、通常、言語的変異1またはタイポグラフィー的誤り(typos)によって引き起こされる音声認識エラーによる様々なノイズを含む。 したがって、堅牢性と公平性を確保するために、現実的な入力ノイズを持つデータでモデル性能をテストすることが不可欠である。 しかし、言語固有の入力ノイズが現実世界で発生する中国語のベンチマークを構築するための研究はほとんど行われていない。 この重要なギャップを埋めるために、Realistic And Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。 READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力する。 例えば、キーボードノイズに多様な入力方法エディタ(IME)を使用するようにアノテータに指示し、音声ノイズに様々な方言グループから話者を募集することで、多様性を最大化するアノテーションパイプラインを設計した。 強固な事前学習された言語モデルとロバストなトレーニング手法を実験した結果、データ拡張のような堅牢性のある方法であっても、これらのモデルはしばしばリードインの大幅なパフォーマンス低下に苦しむことが分かりました。 ユーザ生成入力を指向したノイズのあるベンチマークを作成するための最初の大規模な試みとして、READINが既存の中国のNLPベンチマークの重要な補完となると信じている。 ソースコードとデータセットはhttps://github.com/thunlp/READINから取得できる。

For many real-world applications, the user-generated inputs usually contain various noises due to speech recognition errors caused by linguistic variations1 or typographical errors (typos). Thus, it is crucial to test model performance on data with realistic input noises to ensure robustness and fairness. However, little study has been done to construct such benchmarks for Chinese, where various language-specific input noises happen in the real world. In order to fill this important gap, we construct READIN: a Chinese multi-task benchmark with REalistic And Diverse Input Noises. READIN contains four diverse tasks and requests annotators to re-enter the original test data with two commonly used Chinese input methods: Pinyin input and speech input. We designed our annotation pipeline to maximize diversity, for example by instructing the annotators to use diverse input method editors (IMEs) for keyboard noises and recruiting speakers from diverse dialectical groups for speech noises. We experiment with a series of strong pretrained language models as well as robust training methods, we find that these models often suffer significant performance drops on READIN even with robustness methods like data augmentation. As the first large-scale attempt in creating a benchmark with noises geared towards user-generated inputs, we believe that READIN serves as an important complement to existing Chinese NLP benchmarks. The source code and dataset can be obtained from https://github.com/thunlp/READIN.
翻訳日:2023-02-16 16:37:20 公開日:2023-02-14
# 間接的サーバクライアント通信によるフェデレーション学習

Federated Learning via Indirect Server-Client Communications ( http://arxiv.org/abs/2302.07323v1 )

ライセンス: Link先を確認
Jieming Bian, Cong Shen, Jie Xu(参考訳) Federated Learning(FL)は、通信効率が高く、プライバシ保護の分散機械学習フレームワークである。 FLアルゴリズムの様々な形式(例えば、同期FL、非同期FL)と基礎となる最適化手法にもかかわらず、ほとんど全ての既存の作業は、モデルデータ交換のためのサーバとクライアント間の直接通信を容易にする通信インフラの存在を暗黙的に仮定した。 しかし、この仮定は、分散学習の恩恵を受けることができる多くの現実世界のアプリケーションには当てはまらないが、適切な通信インフラ(例えば遠隔地でのスマートセンシング)がない。 本稿では,モバイルトランスポーター(例えば,無人航空機)を利用してサーバとクライアント間の間接的通信チャネルを確立する,fedex(モデル急行配送によるflの略)という新しいflフレームワークを提案する。 FedEx-SyncとFedEx-Asyncと呼ばれる2つのアルゴリズムは、トランスポーターが同期または非同期スケジュールを採用するかどうかによって開発される。 間接通信は,グローバルモデルの普及とローカルモデル収集の両方においてクライアントに不均一な遅延をもたらすが,両バージョンのFedExの収束性を証明する。 コンバージェンス解析はその後、異なるトランスポーターにクライアントを割り当て、クライアント間の経路を設計する方法に光を当てる。 FedExの性能は、2つの公開データセット上のシミュレーションネットワークの実験を通して評価される。

Federated Learning (FL) is a communication-efficient and privacy-preserving distributed machine learning framework that has gained a significant amount of research attention recently. Despite the different forms of FL algorithms (e.g., synchronous FL, asynchronous FL) and the underlying optimization methods, nearly all existing works implicitly assumed the existence of a communication infrastructure that facilitates the direct communication between the server and the clients for the model data exchange. This assumption, however, does not hold in many real-world applications that can benefit from distributed learning but lack a proper communication infrastructure (e.g., smart sensing in remote areas). In this paper, we propose a novel FL framework, named FedEx (short for FL via Model Express Delivery), that utilizes mobile transporters (e.g., Unmanned Aerial Vehicles) to establish indirect communication channels between the server and the clients. Two algorithms, called FedEx-Sync and FedEx-Async, are developed depending on whether the transporters adopt a synchronized or an asynchronized schedule. Even though the indirect communications introduce heterogeneous delays to clients for both the global model dissemination and the local model collection, we prove the convergence of both versions of FedEx. The convergence analysis subsequently sheds lights on how to assign clients to different transporters and design the routes among the clients. The performance of FedEx is evaluated through experiments in a simulated network on two public datasets.
翻訳日:2023-02-16 16:36:57 公開日:2023-02-14
# TRESTLE: 音声・テキスト・言語実験の再現可能な実行のためのツールキット

TRESTLE: Toolkit for Reproducible Execution of Speech, Text and Language Experiments ( http://arxiv.org/abs/2302.07322v1 )

ライセンス: Link先を確認
Changye Li, Trevor Cohen, Martin Michalowski, and Serguei Pakhomov(参考訳) 機械学習と深層学習の手法は、認知障害などの認知障害のある人々や、認知的な健康な個人によって生み出される言語間の微妙な違いを学習することができる。 TalkBankのような有意義な公開データリポジトリは、計算コミュニティの研究者が力を合わせて互いに学び、この分野で大きな進歩を遂げることを可能にする。 しかし,様々な研究者が用いるアプローチの多様性やデータ選択戦略により,異なるグループによる結果を直接比較することは困難であった。 本稿では,TRESTLE (\textbf{T}oolkit for \textbf{R}eproducible \textbf{E}xecution of \textbf{S}peech \textbf{T}ext and \textbf{L}anguage \textbf{E}xperiments)を提案する。 AAAI 2022のInternational Workshop on Health Intelligenceのハッカレンジュ(Hackathon/Challenge)にデプロイされたTRESTLEは、TRESTLEを通じて再利用可能なデータ前処理と選択戦略の正確なデジタル青写真を提供する。

The evidence is growing that machine and deep learning methods can learn the subtle differences between the language produced by people with various forms of cognitive impairment such as dementia and cognitively healthy individuals. Valuable public data repositories such as TalkBank have made it possible for researchers in the computational community to join forces and learn from each other to make significant advances in this area. However, due to variability in approaches and data selection strategies used by various researchers, results obtained by different groups have been difficult to compare directly. In this paper, we present TRESTLE (\textbf{T}oolkit for \textbf{R}eproducible \textbf{E}xecution of \textbf{S}peech \textbf{T}ext and \textbf{L}anguage \textbf{E}xperiments), an open source platform that focuses on two datasets from the TalkBank repository with dementia detection as an illustrative domain. Successfully deployed in the hackallenge (Hackathon/Challenge) of the International Workshop on Health Intelligence at AAAI 2022, TRESTLE provides a precise digital blueprint of the data pre-processing and selection strategies that can be reused via TRESTLE by other researchers seeking comparable results with their peers and current state-of-the-art (SOTA) approaches.
翻訳日:2023-02-16 16:36:33 公開日:2023-02-14
# フォトニック量子コンピューティングのための効率的なquditベーススキーム

Efficient qudit based scheme for photonic quantum computing ( http://arxiv.org/abs/2302.07357v1 )

ライセンス: Link先を確認
M\'arton Kar\'acsony and L\'aszl\'o Oroszl\'any and Zolt\'an Zimbor\'as(参考訳) 線形光学は、集積フォトニック技術の最近の進歩により、量子計算プロトコルの実現に有望な代替手段である。 この文脈では通常量子ビットベースの量子回路が考慮されるが、フォトニック系は自然にd-ary、すなわちquditベースのアルゴリズムに対しても適用できる。 本研究は、d > 2光モードにおける単一光子の可能な光子数状態によって定義されるquditの研究である。 線形光学および光子数分解検出器を用いた局所最適非決定性多量子ゲートの構築方法を示し,d-ary最適化問題におけるquditクラスター状態の利用について検討する。 我々は、quditクラスタ状態が光学モードを少なくし、類似の計算能力を持つqubitクラスタ状態よりも、絡み合った光子が少なく符号化されていることを発見した。 k-彩色問題に適用することで、quditスキームの利点を説明します。

Linear optics is a promising alternative for the realization of quantum computation protocols due to the recent advancements in integrated photonic technology. In this context usually qubit based quantum circuits are considered, however, photonic systems naturally allow also for d-ary, i.e., qudit based, algorithms. This work investigates qudits defined by the possible photon number states of a single photon in d > 2 optical modes. We demonstrate how to construct locally optimal non-deterministic many-qudit gates using linear optics and photon number resolving detectors, and explore the use of qudit cluster states in the context of a d-ary optimization problem. We find that the qudit cluster states require less optical modes and are encoded by a fewer number of entangled photons than the qubit cluster states with similar computational capabilities. We illustrate the benefit of our qudit scheme by applying it to the k-coloring problem.
翻訳日:2023-02-16 16:30:43 公開日:2023-02-14
# タグベースのアノテーションは、より良いアバターを作る

Tag-based annotation creates better avatars ( http://arxiv.org/abs/2302.07354v1 )

ライセンス: Link先を確認
Minghao Liu, Zeyu Cheng, Shen Sang, Jing Liu, James Davis(参考訳) 人間の画像からアバターを作成すれば、ユーザーはデジタル図形を異なるスタイルでカスタマイズできる。 Bitmoji、MetaHuman、Google Cartoonsetといった既存のレンダリングシステムは、ユーザーに優れたデザインツールを提供する表現力のあるレンダリングシステムを提供する。 しかし、理想的な結果を得るためには、数百のオプションを含む20以上のパラメータをチューニングする必要がある。 したがって、ユーザーが完璧なアバターを作るのは難しい。 機械学習モデルは、画像からアバターを予測するように訓練することができるが、ペアでトレーニングデータをラベル付けする注釈家は、ユーザーと同じ難易度を持ち、高いラベルノイズを引き起こす。 さらに、新しいレンダリングシステムやバージョンアップデートには、何千ものトレーニングペアが必要になる。 本稿では,アバター生成のためのタグベースのアノテーション手法を提案する。 ラベルの直接アノテーションと比較して、提案手法は、より高いアノテーションアグリーメントを生成し、機械学習によりより一貫した予測を生成し、新しいレンダリングシステムを追加するための限界コストだけを必要とする。

Avatar creation from human images allows users to customize their digital figures in different styles. Existing rendering systems like Bitmoji, MetaHuman, and Google Cartoonset provide expressive rendering systems that serve as excellent design tools for users. However, twenty-plus parameters, some including hundreds of options, must be tuned to achieve ideal results. Thus it is challenging for users to create the perfect avatar. A machine learning model could be trained to predict avatars from images, however the annotators who label pairwise training data have the same difficulty as users, causing high label noise. In addition, each new rendering system or version update requires thousands of new training pairs. In this paper, we propose a Tag-based annotation method for avatar creation. Compared to direct annotation of labels, the proposed method: produces higher annotator agreements, causes machine learning to generates more consistent predictions, and only requires a marginal cost to add new rendering systems.
翻訳日:2023-02-16 16:30:29 公開日:2023-02-14
# オフライン安全強化学習のための制約付き決定変換器

Constrained Decision Transformer for Offline Safe Reinforcement Learning ( http://arxiv.org/abs/2302.07351v1 )

ライセンス: Link先を確認
Zuxin Liu, Zijian Guo, Yihang Yao, Zhepeng Cen, Wenhao Yu, Tingnan Zhang, Ding Zhao(参考訳) 安全強化学習(RL)は環境との相互作用によって制約満足度政策を訓練する。 我々は、オフラインデータセットから安全なポリシーを学ぶという、より困難な問題に取り組むことを目指している。 我々は,新しい多目的最適化の観点からオフラインセーフなrl問題を考察し,問題障害を特徴付けるために$\epsilon$-reducibleの概念を提案する。 安全性とタスクパフォーマンスの本質的にのトレードオフは、デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案するきっかけになります。 広範な実験により,適応性,安全性,ロバスト性,高跳躍性ポリシの学習において,提案手法の利点が示された。 CDTは、その変種と強いオフライン安全なRLベースラインを、すべてのタスクで同じハイパーパラメータで大きなマージンで上回り、ゼロショット適応能力を異なる制約しきい値に保ち、我々のアプローチは実世界のRLにより適している。

Safe reinforcement learning (RL) trains a constraint satisfaction policy by interacting with the environment. We aim to tackle a more challenging problem: learning a safe policy from an offline dataset. We study the offline safe RL problem from a novel multi-objective optimization perspective and propose the $\epsilon$-reducible concept to characterize problem difficulties. The inherent trade-offs between safety and task performance inspire us to propose the constrained decision transformer (CDT) approach, which can dynamically adjust the trade-offs during deployment. Extensive experiments show the advantages of the proposed method in learning an adaptive, safe, robust, and high-reward policy. CDT outperforms its variants and strong offline safe RL baselines by a large margin with the same hyperparameters across all tasks, while keeping the zero-shot adaptation capability to different constraint thresholds, making our approach more suitable for real-world RL under constraints.
翻訳日:2023-02-16 16:30:12 公開日:2023-02-14
# 伝達学習、推論、計画のための抽象化としてのグラフスキーマ

Graph schemas as abstractions for transfer learning, inference, and planning ( http://arxiv.org/abs/2302.07350v1 )

ライセンス: Link先を確認
J. Swaroop Guntupalli, Rajkumar Vasudeva Raju, Shrinu Kushagra, Carter Wendelken, Danny Sawyer, Ishan Deshpande, Guangyao Zhou, Miguel L\'azaro-Gredilla, Dileep George(参考訳) 本稿では,素早い伝達学習,推論,計画に使用できる抽象モデルのモデルとしてスキーマを提案する。 概念と振る舞いの一般的な構造化表現 -- スキーマ -- は、抽象化をエンコードする強力な方法として提案されている。 海馬の新しい計算モデルとして潜在グラフ学習が登場し、地図学習と推移的推論を説明する。 これらのモデルで学習した潜在グラフがスロット構造 -- スキーマ -- を持ち、環境間での知識伝達を素早く行うことができることを示すために、この作業を構築します。 新しい環境では、エージェントは複数の潜在スキーマに対する感覚ストリーム間の新しい結合を迅速に学習し、行動誘導に最適なものを選択することができる。 これらのグラフスキーマを評価するために、以前公開された2つの課題であるメモリ&プランニングゲームと、新しい環境での迅速なタスク解決をテストするために設計されたワンショットストリートレアーンを使用しています。 グラフスキーマは、以前のベースラインよりもはるかに少ないエピソードで学習でき、これらのタスクの新しいバリエーションを数ステップでモデル化し、計画することができる。 さらに,ナビゲーションタスクにおけるグラフスキーマの学習,マッチング,再利用について,より困難な環境での観察とサイズの変化を実証し,より大きな2Dおよび3D環境をモデル化するための異なるスキーマの構成方法を示す。

We propose schemas as a model for abstractions that can be used for rapid transfer learning, inference, and planning. Common structured representations of concepts and behaviors -- schemas -- have been proposed as a powerful way to encode abstractions. Latent graph learning is emerging as a new computational model of the hippocampus to explain map learning and transitive inference. We build on this work to show that learned latent graphs in these models have a slot structure -- schemas -- that allow for quick knowledge transfer across environments. In a new environment, an agent can rapidly learn new bindings between the sensory stream to multiple latent schemas and select the best fitting one to guide behavior. To evaluate these graph schemas, we use two previously published challenging tasks: the memory & planning game and one-shot StreetLearn, that are designed to test rapid task solving in novel environments. Graph schemas can be learned in far fewer episodes than previous baselines, and can model and plan in a few steps in novel variations of these tasks. We further demonstrate learning, matching, and reusing graph schemas in navigation tasks in more challenging environments with aliased observations and size variations, and show how different schemas can be composed to model larger 2D and 3D environments.
翻訳日:2023-02-16 16:29:55 公開日:2023-02-14
# クリフラーニング

Cliff-Learning ( http://arxiv.org/abs/2302.07348v1 )

ライセンス: Link先を確認
Tony T. Wang, Igor Zablotchi, Nir Shavit, Jonathan S. Rosenfeld(参考訳) 下流データ体制における基礎モデルからの移動学習のデータスケーリングについて検討する。 崖の学習と呼ばれる興味深い現象を観察する。 クリフラーニング(cliff-learning)とは、電力法よりも速い速度で性能が向上するデータスケーリング法(すなわちログログスケーリングプロット上の凹凸領域)の領域を指す。 基礎モデルクリフラーニングの詳細な調査を行い,この現象の玩具モデルについて検討した。 我々は,崖の学習の程度が,学習アルゴリズムの先行と学習中の課題との互換性の度合いを反映していることを観察する。

We study the data-scaling of transfer learning from foundation models in the low-downstream-data regime. We observe an intriguing phenomenon which we call cliff-learning. Cliff-learning refers to regions of data-scaling laws where performance improves at a faster than power law rate (i.e. regions of concavity on a log-log scaling plot). We conduct an in-depth investigation of foundation-model cliff-learning and study toy models of the phenomenon. We observe that the degree of cliff-learning reflects the degree of compatibility between the priors of a learning algorithm and the task being learned.
翻訳日:2023-02-16 16:29:34 公開日:2023-02-14
# scattershot: テキスト変換のためのインタラクティブなインコンテキストサンプルキュレーション

ScatterShot: Interactive In-context Example Curation for Text Transformation ( http://arxiv.org/abs/2302.07346v1 )

ライセンス: Link先を確認
Tongshuang Wu, Hua Shen, Daniel S. Weld, Jeffrey Heer, Marco Tulio Ribeiro(参考訳) GPT-3のようなLLMのコンテキスト内学習機能により、アノテータはLLMを特定のタスクに少数の例でカスタマイズできる。 しかし、ユーザーは例を作る際に最も明白なパターンしか含まない傾向にあり、その結果、不明瞭なケースで不足するコンテキスト内関数が不足する。 さらに、既知のパターンにおいても、"豊富な"例がいつ含まれたかを知ることは困難である。 本研究では,コンテキスト内学習のための高品質な実演セットを構築するための対話型システムであるscattershotを提案する。 ScatterShotは、未ラベルデータをタスク固有のパターンに反復的にスライスし、未探索または未飽和スライスからの情報入力をアクティブに学習し、LCMと現在の例セットの助けを借りてより効率的にラベル付けする。 2つのテキスト摂動シナリオのシミュレーション研究において、散乱ショットサンプリングは、ランダムサンプリングよりも4-5ポイント向上し、より多くの例が追加されるにつれてばらつきが小さくなる。 ユーザ調査において、scattershotは、入力空間におけるさまざまなパターンをカバーし、コンテキスト内サンプルをより効率的にラベル付けする上で、ユーザを支援する。

The in-context learning capabilities of LLMs like GPT-3 allow annotators to customize an LLM to their specific tasks with a small number of examples. However, users tend to include only the most obvious patterns when crafting examples, resulting in underspecified in-context functions that fall short on unseen cases. Further, it is hard to know when "enough" examples have been included even for known patterns. In this work, we present ScatterShot, an interactive system for building high-quality demonstration sets for in-context learning. ScatterShot iteratively slices unlabeled data into task-specific patterns, samples informative inputs from underexplored or not-yet-saturated slices in an active learning manner, and helps users label more efficiently with the help of an LLM and the current example set. In simulation studies on two text perturbation scenarios, ScatterShot sampling improves the resulting few-shot functions by 4-5 percentage points over random sampling, with less variance as more examples are added. In a user study, ScatterShot greatly helps users in covering different patterns in the input space and labeling in-context examples more efficiently, resulting in better in-context learning and less user effort.
翻訳日:2023-02-16 16:29:24 公開日:2023-02-14
# 自律型水中車両を用いた海洋生物の半監督視覚追跡

Semi-Supervised Visual Tracking of Marine Animals using Autonomous Underwater Vehicles ( http://arxiv.org/abs/2302.07344v1 )

ライセンス: Link先を確認
Levi Cai and Nathan E. McGuire and Roger Hanlon and T. Aran Mooney and Yogesh Girdhar(参考訳) 海洋生物のその場での視覚観察は、行動的理解と周囲の生態系との関係の発達に不可欠である。 通常、これらの観測はダイバー、タグ、遠隔操作または人間の操縦で収集される。 しかし、近年、カメラとGPU機能を備えた組み込みコンピュータを備えた自律型水中車両が様々なアプリケーション向けに開発されており、特に人間の操作やタグがより困難であるこれらの既存のデータ収集メカニズムを補うために利用することができる。 既存のアプローチでは、完全に監視された追跡手法を使うことに焦点が当てられているが、多くの水中種のラベル付きデータは非常に不足している。 半教師付きトラッカーは、完全な教師付きトラッカーよりも少ないデータを必要とするため、代替の追跡ソリューションを提供する。 しかし,海中追跡データセットが存在しないため,海中領域における半教師付き追跡アルゴリズムの性能はよく分かっていない。 本論文は,(1)海洋生物に特異的な新しいデータセットであるhttp://warp.whoi.edu/vmat/,(2)水中動物追跡の文脈における最先端の半教師付きアルゴリズムの評価,(3)野生動物追跡のための半教師付きアルゴリズムを用いた実世界の性能評価について述べる。

In-situ visual observations of marine organisms is crucial to developing behavioural understandings and their relations to their surrounding ecosystem. Typically, these observations are collected via divers, tags, and remotely-operated or human-piloted vehicles. Recently, however, autonomous underwater vehicles equipped with cameras and embedded computers with GPU capabilities are being developed for a variety of applications, and in particular, can be used to supplement these existing data collection mechanisms where human operation or tags are more difficult. Existing approaches have focused on using fully-supervised tracking methods, but labelled data for many underwater species are severely lacking. Semi-supervised trackers may offer alternative tracking solutions because they require less data than fully-supervised counterparts. However, because there are not existing realistic underwater tracking datasets, the performance of semi-supervised tracking algorithms in the marine domain is not well understood. To better evaluate their performance and utility, in this paper we provide (1) a novel dataset specific to marine animals located at http://warp.whoi.edu/vmat/, (2) an evaluation of state-of-the-art semi-supervised algorithms in the context of underwater animal tracking, and (3) an evaluation of real-world performance through demonstrations using a semi-supervised algorithm on-board an autonomous underwater vehicle to track marine animals in the wild.
翻訳日:2023-02-16 16:28:57 公開日:2023-02-14
# 高度空気移動のためのグラフ注意マルチエージェントフリートオートノミー

Graph Attention Multi-Agent Fleet Autonomy for Advanced Air Mobility ( http://arxiv.org/abs/2302.07337v1 )

ライセンス: Link先を確認
Malintha Fernando, Ransalu Senanayake, Heeyoul Choi, Martin Swany(参考訳) 移動貨物や乗客のための新しい交通手段として、自動運転モビリティが出現している。 しかしながら、このような艦隊調整方式は、運用範囲、容量、通信能力に異なる、急成長する艦隊規模に対応するためにスケーリングにおいて大きな課題に直面している。 本稿では,商用機動車両に固有の不均一性と自己関心を考慮に入れた航空車両エージェントの艦隊を調整するための,部分的に観測可能な高度空力ゲームの概念を紹介する。 本稿では,移動システム内のエージェント間関係から生じる一般化可能な確率的ポリシを構築するために,新しい異種グラフ注目型エンコーダデコーダ(HetGAT Enc-Dec)ニューラルネットワークを提案する。 我々は、深層多エージェント強化学習を活用して政策を訓練し、その局地的な観察によるエージェントの分散意思決定を可能にする。 大規模な実験を通じて,HetGAT Enc-Dec ポリシの下で運用されている艦隊は,オンデマンドモビリティネットワークにおいて,最も高い艦隊報酬と充足率を達成することにより,他の最先端のグラフニューラルネットワークポリシよりも優れていることを示す。

Autonomous mobility is emerging as a new mode of urban transportation for moving cargo and passengers. However, such fleet coordination schemes face significant challenges in scaling to accommodate fast-growing fleet sizes that vary in their operational range, capacity, and communication capabilities. We introduce the concept of partially observable advanced air mobility games to coordinate a fleet of aerial vehicle agents accounting for their heterogeneity and self-interest inherent to commercial mobility fleets. We propose a novel heterogeneous graph attention-based encoder-decoder (HetGAT Enc-Dec) neural network to construct a generalizable stochastic policy stemming from the inter- and intra-agent relations within the mobility system. We train our policy by leveraging deep multi-agent reinforcement learning, allowing decentralized decision-making for the agents using their local observations. Through extensive experimentation, we show that the fleets operating under the HetGAT Enc-Dec policy outperform other state-of-the-art graph neural network-based policies by achieving the highest fleet reward and fulfillment ratios in an on-demand mobility network.
翻訳日:2023-02-16 16:28:33 公開日:2023-02-14
# IDEAL:高効率デバイスクラウドコラボレーションと動的レコメンデーションシステムを目指して

IDEAL: Toward High-efficiency Device-Cloud Collaborative and Dynamic Recommendation System ( http://arxiv.org/abs/2302.07335v1 )

ライセンス: Link先を確認
Zheqi Lv, Zhengyu Chen, Shengyu Zhang, Kun Kuang, Wenqiao Zhang, Mengze Li, Beng Chin Ooi, Fei Wu(参考訳) 情報爆発問題を解決するためのレコメンデーションシステムは、様々なオンラインアプリケーションのユーザエクスペリエンスを向上させる大きな可能性を秘めている。 (i)コラボレーテーション: デバイスクラウドコラボレーティブレコメンデーション(コラボレーティブレコメンデーション)に対して,オンクラウド(分離学習)でトレーニングされたシングルサイドモデル。 (ii)リアルタイム動的:ネットワークパラメータは全てのインスタンス(静的モデル)で同じであり、リアルタイムインスタンス(動的モデル)で条件付けられた適応型ネットワークパラメータを生成する。 前述の2つのトレンドは、デバイスとクラウドのコラボレーティブとダイナミックなレコメンデーションを可能にする。これは、クラウドデバイスデータ間のレコメンデーションパターンを深く活用し、デバイスとクラウドの頻繁な通信のコストに基づいて、異なる下位ディストリビューションのインスタンスを効率的にキャラクタリングする。 将来性はあるものの,デバイス上のデータ分布が常に変化しているとは限らないため,クラウド上でのレコメンデーションシステムの新たなパラメータ要求は不要である,と我々は主張する。 この問題を軽減するため、我々は、高収入で適応的なデバイス-クラウド通信を保証するため、デバイスに展開可能なIntelligent Device-Cloud PArameter Request ModeL(IDEAL)を設計した。 ドメイン外のデータを検出してIDEALを実装するための新しいデバイスインテリジェンス学習タスクを構想する。 さらに、ユーザのリアルタイム動作を正規分布にマッピングし、その不確実性をマルチサンプリング出力によって計算し、デバイスモデルの一般化能力を現在のユーザ動作に測定する。 実験により,IDEALの4つの公開ベンチマークにおける有効性と一般化性を示すとともに,より効率的なデバイスクラウド協調型動的レコメンデーションパラダイムが得られた。

Recommendation systems have shown great potential to solve the information explosion problem and enhance user experience in various online applications, which recently present two emerging trends: (i) Collaboration: single-sided model trained on-cloud (separate learning) to the device-cloud collaborative recommendation (collaborative learning). (ii) Real-time Dynamic: the network parameters are the same across all the instances (static model) to adaptive network parameters generation conditioned on the real-time instances (dynamic model). The aforementioned two trends enable the device-cloud collaborative and dynamic recommendation, which deeply exploits the recommendation pattern among cloud-device data and efficiently characterizes different instances with different underlying distributions based on the cost of frequent device-cloud communication. Despite promising, we argue that most of the communications are unnecessary to request the new parameters of the recommendation system on the cloud since the on-device data distribution are not always changing. To alleviate this issue, we designed a Intelligent DEvice-Cloud PArameter Request ModeL (IDEAL) that can be deployed on the device to calculate the request revenue with low resource consumption, so as to ensure the adaptive device-cloud communication with high revenue. We envision a new device intelligence learning task to implement IDEAL by detecting the data out-of-domain. Moreover, we map the user's real-time behavior to a normal distribution, the uncertainty is calculated by the multi-sampling outputs to measure the generalization ability of the device model to the current user behavior. Our experimental study demonstrates IDEAL's effectiveness and generalizability on four public benchmarks, which yield a higher efficient device-cloud collaborative and dynamic recommendation paradigm.
翻訳日:2023-02-16 16:28:10 公開日:2023-02-14
# 海馬セグメンテーションのためのハイブリッドスパイクニューラルネットワーク微細チューニング

Hybrid Spiking Neural Network Fine-tuning for Hippocampus Segmentation ( http://arxiv.org/abs/2302.07328v1 )

ライセンス: Link先を確認
Ye Yue, Marc Baltes, Nidal Abujahar, Tao Sun, Charles D. Smith, Trevor Bihl, Jundong Liu(参考訳) 過去10年間で、人工知能(ann)は、注釈付きデータの可用性の高まりによって、大きな進歩を遂げてきた。 しかし、ANNは大きな電力とメモリ消費を必要とする。 スパイキングニューラルネットワーク(SNN)は、最近、その疎性の性質から、ANNの低消費電力代替品として登場した。 しかし、SNNはANNほど訓練が簡単ではない。 本研究では,ハイブリッドsn訓練方式を提案し,磁気共鳴画像からヒト海馬の分節化に応用する。 提案手法は、ANN-SNN変換を初期化ステップとし、スパイクベースのバックプロパゲーションを利用してネットワークを微調整する。 本手法は,変換および直接トレーニングソリューションと比較して,セグメンテーション精度とトレーニング効率に優れる。 実験では,設計目標達成におけるモデルの有効性を実証する。

Over the past decade, artificial neural networks (ANNs) have made tremendous advances, in part due to the increased availability of annotated data. However, ANNs typically require significant power and memory consumptions to reach their full potential. Spiking neural networks (SNNs) have recently emerged as a low-power alternative to ANNs due to their sparsity nature. SNN, however, are not as easy to train as ANNs. In this work, we propose a hybrid SNN training scheme and apply it to segment human hippocampi from magnetic resonance images. Our approach takes ANN-SNN conversion as an initialization step and relies on spike-based backpropagation to fine-tune the network. Compared with the conversion and direct training solutions, our method has advantages in both segmentation accuracy and training efficiency. Experiments demonstrate the effectiveness of our model in achieving the design goals.
翻訳日:2023-02-16 16:27:38 公開日:2023-02-14
# 畳み込みユニタリまたは直交リカレントニューラルネットワーク

Convolutional unitary or orthogonal recurrent neural networks ( http://arxiv.org/abs/2302.07396v1 )

ライセンス: Link先を確認
Marcelo O. Magnasco(参考訳) リカレントニューラルネットワークは非常に強力だが、トレーニングは難しい。 彼らの問題の1つは、消失する勾配問題であり、トレーニング信号の伝播が指数関数的に減衰し、凍結訓練される可能性がある。 直交行列やユニタリ行列の使用は、力は爆発も崩壊もせず、この問題を軽減するために提案されているが、その計算費用はそれらの使用を妨げている。 ここでは、畳み込みRNNの特定の場合において、畳み込み指数を定義することができ、この演算が反対称または反エルミート畳み込み核を直交またはユニタリ畳み込み核に変換することを示す。 カーネルとそのデリバティブを計算するために、FFTベースのアルゴリズムを明示的に導出する。 したがって、直交変換のこの部分空間をパラメータ化する計算複雑性は、ネットワークの繰り返しと同じである。

Recurrent neural networks are extremely powerful yet hard to train. One of their issues is the vanishing gradient problem, whereby propagation of training signals may be exponentially attenuated, freezing training. Use of orthogonal or unitary matrices, whose powers neither explode nor decay, has been proposed to mitigate this issue, but their computational expense has hindered their use. Here we show that in the specific case of convolutional RNNs, we can define a convolutional exponential and that this operation transforms antisymmetric or anti-Hermitian convolution kernels into orthogonal or unitary convolution kernels. We explicitly derive FFT-based algorithms to compute the kernels and their derivatives. The computational complexity of parametrizing this subspace of orthogonal transformations is thus the same as the networks' iteration.
翻訳日:2023-02-16 16:20:53 公開日:2023-02-14
# Surface Code Y Basisへのインプレースアクセス

Inplace Access to the Surface Code Y Basis ( http://arxiv.org/abs/2302.07395v1 )

ライセンス: Link先を確認
Craig Gidney(参考訳) 本稿では,表面コードにおけるY塩基測定および初期化のコストを,ほぼ1桁削減する。 表面コードパッチを斜めに横切るねじれ欠陥は、パッチのバウンディングボックスを離れることなく、コード距離を減らすことなく、$\lfloor d/2 \rfloor + 2$ roundsでYベースに達する。 私はモンテカルロサンプリングを用いて回路雑音下での構成性能をベンチマークし、論理的誤差の分布を解析する。 Y塩基測定はSゲートとマジックステートファクトリーのコストを低減し、空間制限ハードウェア上の表面コード量子ビットのパウリ計測トモグラフィーをアンロックする。

In this paper, I cut the cost of Y basis measurement and initialization in the surface code by nearly an order of magnitude. Fusing twist defects diagonally across the surface code patch reaches the Y basis in $\lfloor d/2 \rfloor + 2$ rounds, without leaving the bounding box of the patch and without reducing the code distance. I use Monte Carlo sampling to benchmark the performance of the construction under circuit noise, and to analyze the distribution of logical errors. Cheap inplace Y basis measurement reduces the cost of S gates and magic state factories, and unlocks Pauli measurement tomography of surface code qubits on space-limited hardware.
翻訳日:2023-02-16 16:20:39 公開日:2023-02-14
# 難易度と容易性を考慮したクラウドソーシングアルゴリズム

A Provably Improved Algorithm for Crowdsourcing with Hard and Easy Tasks ( http://arxiv.org/abs/2302.07393v1 )

ライセンス: Link先を確認
Seo Taek Kong, Saptarshi Mandal, Dimitrios Katselis, R. Srikant(参考訳) クラウドソーシング(Crowdsourcing)は、労働者からノイズの多いラベルを収集することで、地道ラベルを推定する一般的な方法である。 本研究は,各作業者がタスクの種類に応じて2段階の精度を発揮できるクラウドソーシングアプリケーションによって動機付けられている。 従来のDawid-Skeneモデル用に設計されたアルゴリズムをこのようなシナリオに適用すると、ハードタスクによって制限されたパフォーマンスが得られる。 そこで我々はまず,タスクの未知のタイプによって作業者の精度が変化するようにモデルを拡張した。 次に,タスクをタイプ別に分割するスペクトル法を提案する。 タスクをタイプ別に分離した後、任意のダウィド・スキーアルゴリズム(すなわちダウィド・スキーモデル用に設計されたアルゴリズム)はそれぞれのタイプに独立して真理値を推測することができる。 クラウドソースされたデータに様々な難易度を持つタスクが含まれている場合、このアルゴリズムはダウィド・スキーンアルゴリズムよりも高い精度で真のラベルを推定する。 実験の結果,本手法は実用的応用に有効であることがわかった。

Crowdsourcing is a popular method used to estimate ground-truth labels by collecting noisy labels from workers. In this work, we are motivated by crowdsourcing applications where each worker can exhibit two levels of accuracy depending on a task's type. Applying algorithms designed for the traditional Dawid-Skene model to such a scenario results in performance which is limited by the hard tasks. Therefore, we first extend the model to allow worker accuracy to vary depending on a task's unknown type. Then we propose a spectral method to partition tasks by type. After separating tasks by type, any Dawid-Skene algorithm (i.e., any algorithm designed for the Dawid-Skene model) can be applied independently to each type to infer the truth values. We theoretically prove that when crowdsourced data contain tasks with varying levels of difficulty, our algorithm infers the true labels with higher accuracy than any Dawid-Skene algorithm. Experiments show that our method is effective in practical applications.
翻訳日:2023-02-16 16:20:25 公開日:2023-02-14
# 事前学習中に指示を加える:言語モデルにおける毒性の効果的な制御法

Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models ( http://arxiv.org/abs/2302.07388v1 )

ライセンス: Link先を確認
Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 様々な自然言語処理(NLP)タスクの解決には,事前訓練された大規模言語モデルが必要である。 しかし、現実世界のアプリケーションに安全にデプロイすることは、有害なコンテンツを生成するため困難である。 そこで本研究では,モデル毒性を損なうことなく大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。 この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。 以上の結果から,5つのベンチマークNLPタスクの精度を保ちつつ,4つのバイアス検出タスクのAUCスコアを1.3%向上させながら,最も優れたパフォーマンス戦略(INST)により毒性の確率は61%まで大幅に低下することが示唆された。 また,トレーニングサンプル数とモデルパラメータ数を拡大することにより,本手法の一般化可能性を示す。

Pretrained large language models have become indispensable for solving various natural language processing (NLP) tasks. However, safely deploying them in real world applications is challenging because they generate toxic content. To address this challenge, we propose two novel pretraining data augmentation strategies that significantly reduce model toxicity without compromising its utility. Our two strategies are: (1) MEDA: adds raw toxicity score as meta-data to the pretraining samples, and (2) INST: adds instructions to those samples indicating their toxicity. Our results indicate that our best performing strategy (INST) substantially reduces the toxicity probability up to 61% while preserving the accuracy on five benchmark NLP tasks as well as improving AUC scores on four bias detection tasks by 1.3%. We also demonstrate the generalizability of our techniques by scaling the number of training samples and the number of model parameters.
翻訳日:2023-02-16 16:20:06 公開日:2023-02-14
# PolyFormer: 逐次ポリゴン生成としてイメージセグメンテーションを参照

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation ( http://arxiv.org/abs/2302.07387v1 )

ライセンス: Link先を確認
Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha(参考訳) 本研究では,画素レベルのセグメンテーションマスクを直接予測するのではなく,画像セグメンテーションを参照する問題を逐次ポリゴン生成として定式化し,予測ポリゴンを後にセグメンテーションマスクに変換する。 これは新しいシーケンスからシーケンスへのフレームワークPolygon Transformer(PolyFormer)によって実現され、画像パッチとテキストクエリトークンのシーケンスを入力として取り、ポリゴン頂点のシーケンスを自動回帰的に出力する。 より正確な幾何学的局所化のために,座標量子化誤差を伴わずに正確な浮動小数点座標を直接予測する回帰型デコーダを提案する。 実験では、ポリフォーマーは、挑戦的なrefcoco+とrefcocogデータセットの絶対的な改善である5.40%と4.52%といった明確なマージンで先行技術を上回る。 また、ref-davis17データセットで61.5%のj&fを達成するなど、微調整せずに参照ビデオセグメンテーションタスクで評価した場合、強力な一般化能力を示す。

In this work, instead of directly predicting the pixel-level segmentation masks, the problem of referring image segmentation is formulated as sequential polygon generation, and the predicted polygons can be later converted into segmentation masks. This is enabled by a new sequence-to-sequence framework, Polygon Transformer (PolyFormer), which takes a sequence of image patches and text query tokens as input, and outputs a sequence of polygon vertices autoregressively. For more accurate geometric localization, we propose a regression-based decoder, which predicts the precise floating-point coordinates directly, without any coordinate quantization error. In the experiments, PolyFormer outperforms the prior art by a clear margin, e.g., 5.40% and 4.52% absolute improvements on the challenging RefCOCO+ and RefCOCOg datasets. It also shows strong generalization ability when evaluated on the referring video segmentation task without fine-tuning, e.g., achieving competitive 61.5% J&F on the Ref-DAVIS17 dataset.
翻訳日:2023-02-16 16:19:46 公開日:2023-02-14
# リパラメトリゼーションによるニューラルネットのパラメータ空間の幾何学

The Geometry of Neural Nets' Parameter Spaces Under Reparametrization ( http://arxiv.org/abs/2302.07384v1 )

ライセンス: Link先を確認
Agustinus Kristiadi and Felix Dangel and Philipp Hennig(参考訳) モデル再パラメータ化 -- 単射微分可能マップを介してパラメータ空間を変換する -- は、ニューラルネットワークのトレーニングを改善する一般的な方法である。 しかし、レパラメトリゼーションはヘッセン系平坦度測度、最適化軌道、確率密度関数のモードなどの不整合を誘導するため、問題にもなっている。 これは下流解析を複雑にし、例えば平坦性と一般化の関係について決定的な記述をすることはできない。 本研究では,再パラメータ化下でのニューラルネットの不変量について,リーマン幾何学の観点から検討する。 この不変性の概念は、しばしば暗黙的に存在する計量についての仮定を認め、再パラメータ化の下で正しい変換規則を使用する限り、どんなニューラルネットにも固有の性質であることを示している。 本稿では,ミニマムの平坦性,最適化,確率密度の最大化について,最適化器のバイアスやベイズ推定への応用について述べる。

Model reparametrization -- transforming the parameter space via a bijective differentiable map -- is a popular way to improve the training of neural networks. But reparametrizations have also been problematic since they induce inconsistencies in, e.g., Hessian-based flatness measures, optimization trajectories, and modes of probability density functions. This complicates downstream analyses, e.g. one cannot make a definitive statement about the connection between flatness and generalization. In this work, we study the invariance quantities of neural nets under reparametrization from the perspective of Riemannian geometry. We show that this notion of invariance is an inherent property of any neural net, as long as one acknowledges the assumptions about the metric that is always present, albeit often implicitly, and uses the correct transformation rules under reparametrization. We present discussions on measuring the flatness of minima, in optimization, and in probability-density maximization, along with applications in studying the biases of optimizers and in Bayesian inference.
翻訳日:2023-02-16 16:19:25 公開日:2023-02-14
# 近似保証付き線形化ワッサーシュタイン次元減少

Linearized Wasserstein dimensionality reduction with approximation guarantees ( http://arxiv.org/abs/2302.07373v1 )

ライセンス: Link先を確認
Alexander Cloninger, Keaton Hamm, Varun Khurana, Caroline Moosm\"uller(参考訳) ワッサースタイン空間の低次元構造を明らかにする計算可能なアルゴリズムである lot wassmap を導入する。 このアルゴリズムは、多くのデータセットが$\mathbb{r}^n$の点よりも自然に確率測度として解釈され、そのようなデータセットの低次元記述を見つけるには、ワッサースタイン空間における多様体学習アルゴリズムが必要であるという観察によって動機付けられたものである。 ほとんどのアルゴリズムはペアワイズ・ワッサースタイン距離行列の計算に基づいており、これは高次元の大規模データセットに対して計算的に困難である。 我々のアルゴリズムはシンクホーン距離や線形化された最適輸送といった近似スキームを利用して高速化計算を行い、特にペア距離行列の計算を避ける。 このような近似の下では、確率測度の明示的な記述が得られず、代わりに有限なサンプルを扱う必要がある場合など、埋め込み品質の保証を提供する。 実験では、LOT Wassmapが正しい埋め込みを実現し、サンプルサイズの増加とともに品質が向上することを示した。 また,対数距離計算に依存するアルゴリズムと比較して,wassmapが計算コストを大幅に削減することを示す。

We introduce LOT Wassmap, a computationally feasible algorithm to uncover low-dimensional structures in the Wasserstein space. The algorithm is motivated by the observation that many datasets are naturally interpreted as probability measures rather than points in $\mathbb{R}^n$, and that finding low-dimensional descriptions of such datasets requires manifold learning algorithms in the Wasserstein space. Most available algorithms are based on computing the pairwise Wasserstein distance matrix, which can be computationally challenging for large datasets in high dimensions. Our algorithm leverages approximation schemes such as Sinkhorn distances and linearized optimal transport to speed-up computations, and in particular, avoids computing a pairwise distance matrix. We provide guarantees on the embedding quality under such approximations, including when explicit descriptions of the probability measures are not available and one must deal with finite samples instead. Experiments demonstrate that LOT Wassmap attains correct embeddings and that the quality improves with increased sample size. We also show how LOT Wassmap significantly reduces the computational cost when compared to algorithms that depend on pairwise distance computations.
翻訳日:2023-02-16 16:19:09 公開日:2023-02-14
# 同じだが違う: 集団特異的毒性検出のための条件付きマルチタスク学習

Same Same, But Different: Conditional Multi-Task Learning for Demographic-Specific Toxicity Detection ( http://arxiv.org/abs/2302.07372v1 )

ライセンス: Link先を確認
Soumyajit Gupta, Sooyong Lee, Maria De-Arteaga and Matthew Lease(参考訳) アルゴリズムバイアスは、しばしばグループ間で予測関係が変化する微分部分群の有効性の結果生じる。 例えば、有害な言語検出では、異なる人口層を対象とするコメントはグループによって著しく異なる。 このような設定では、トレーニングされたモデルは、多数派に最も適した関係によって支配され、異なるパフォーマンスをもたらす。 本稿では,マルチタスク学習 (MTL) としてフレーミング毒性の検出を提案する。 毒性検出では、各タスクは特定の人口集団に対する毒性を識別する。 しかし、従来のMTLでは、すべてのタスクがすべてのデータポイントに存在するためにラベルが必要である。 そこで本研究では,与えられた人口集団に関連するトレーニング例のみを損失関数として考慮した条件付きMTL(CondMTL)を提案する。 これにより、無関係なラベルによってクロス汚染されない各ブランチでグループ固有の表現を学ぶことができる。 合成データと実データを用いた結果から,CondMTLは概して様々なベースライン,特に少数民族集団に対する予測的リコールを改善するが,全体的な精度は類似していることがわかった。

Algorithmic bias often arises as a result of differential subgroup validity, in which predictive relationships vary across groups. For example, in toxic language detection, comments targeting different demographic groups can vary markedly across groups. In such settings, trained models can be dominated by the relationships that best fit the majority group, leading to disparate performance. We propose framing toxicity detection as multi-task learning (MTL), allowing a model to specialize on the relationships that are relevant to each demographic group while also leveraging shared properties across groups. With toxicity detection, each task corresponds to identifying toxicity against a particular demographic group. However, traditional MTL requires labels for all tasks to be present for every data point. To address this, we propose Conditional MTL (CondMTL), wherein only training examples relevant to the given demographic group are considered by the loss function. This lets us learn group specific representations in each branch which are not cross contaminated by irrelevant labels. Results on synthetic and real data show that using CondMTL improves predictive recall over various baselines in general and for the minority demographic group in particular, while having similar overall accuracy.
翻訳日:2023-02-16 16:18:48 公開日:2023-02-14
# AutoBiasTest: 言語モデルにおける自動かつオープンなソーシャルバイアステストのための制御可能な文生成

AutoBiasTest: Controllable Sentence Generation for Automated and Open-Ended Social Bias Testing in Language Models ( http://arxiv.org/abs/2302.07371v1 )

ライセンス: Link先を確認
Rafal Kocielnik, Shrimai Prabhumoye, Vivian Zhang, R. Michael Alvarez, Anima Anandkumar(参考訳) プレトレーニング言語モデル(PLM)における社会的バイアスは、テキスト生成やその他の下流NLPタスクに影響を与える。 既存のバイアステスト手法は主に手動のテンプレートや高価なクラウドソースデータに依存している。 本稿では, PLM のバイアステストのための文を自動的に生成する AutoBiasTest 手法を提案する。 本手法では,別のplmを生成に用い,社会的グループと属性項の条件付けによって文の生成を制御する。 単語の長さや多様性の観点から,生成文は自然であり,人間の生成内容と類似していることを示す。 生成に使用されるより大きなモデルが、より低い分散を伴う社会的偏見の推定を生成することを示す。 バイアススコアは手動のテンプレートとよく関連していますが、autobiastestはより多様で現実的なテスト文のため、これらのテンプレートでは捉えられていないバイアスを強調しています。 大規模テスト文の自動生成により、基礎となるバイアス分布のより良い推定を可能にする

Social bias in Pretrained Language Models (PLMs) affects text generation and other downstream NLP tasks. Existing bias testing methods rely predominantly on manual templates or on expensive crowd-sourced data. We propose a novel AutoBiasTest method that automatically generates sentences for testing bias in PLMs, hence providing a flexible and low-cost alternative. Our approach uses another PLM for generation and controls the generation of sentences by conditioning on social group and attribute terms. We show that generated sentences are natural and similar to human-produced content in terms of word length and diversity. We illustrate that larger models used for generation produce estimates of social bias with lower variance. We find that our bias scores are well correlated with manual templates, but AutoBiasTest highlights biases not captured by these templates due to more diverse and realistic test sentences. By automating large-scale test sentence generation, we enable better estimation of underlying bias distributions
翻訳日:2023-02-16 16:18:30 公開日:2023-02-14
# キーポイント予測を用いたオブジェクトポーズ推定の自己教師付き学習

Self-supervised learning of object pose estimation using keypoint prediction ( http://arxiv.org/abs/2302.07360v1 )

ライセンス: Link先を確認
Zahra Gharaee and Felix J\"arem\"o Lawin and Per-Erik Forss\'en(参考訳) 本稿では,物体のポーズと形状予測の最近の進歩について述べる。 主な貢献は、カテゴリ固有の変形可能な形状上の位置に対応するキーポイントの自己教師付き学習によるカメラポーズ予測への新しいアプローチである。 我々は,カテゴリ別平均形状全体に分布するキーポイントの集合から,それぞれがラベル付きテクスチャ上のユニークな色で表される,プロキシ基底ヒートマップを生成するネットワークを設計した。 proxy ground-truth heatmapは、オンライン推論で使用可能な、深いキーポイント予測ネットワークのトレーニングに使用される。 カメラポーズ予測に対する提案手法は,最先端手法と比較して大幅に改善されている。 提案手法は,オンラインビデオシーケンスの2次元画像フレームから3次元物体を推定するために用いられる。 レコンストラクションモデルを訓練するには、トレーニングステップ毎にビデオシーケンスの1フレームからシルエットマスクのみを受信し、カテゴリ固有の平均オブジェクト形状を受信する。 CUB[51]イメージデータセット,YouTubeVos,Davisビデオデータセットの3つの異なるデータセットを用いて実験を行った。 ネットワークはCUBデータセットでトレーニングされ、3つのデータセットすべてでテストされる。 オンライン実験は、CUBトレーニングセットでトレーニングされたネットワークを使用して、YouTubeVosとDavis [56]ビデオシーケンスで実証されている。

This paper describes recent developments in object specific pose and shape prediction from single images. The main contribution is a new approach to camera pose prediction by self-supervised learning of keypoints corresponding to locations on a category specific deformable shape. We designed a network to generate a proxy ground-truth heatmap from a set of keypoints distributed all over the category-specific mean shape, where each is represented by a unique color on a labeled texture. The proxy ground-truth heatmap is used to train a deep keypoint prediction network, which can be used in online inference. The proposed approach to camera pose prediction show significant improvements when compared with state-of-the-art methods. Our approach to camera pose prediction is used to infer 3D objects from 2D image frames of video sequences online. To train the reconstruction model, it receives only a silhouette mask from a single frame of a video sequence in every training step and a category-specific mean object shape. We conducted experiments using three different datasets representing the bird category: the CUB [51] image dataset, YouTubeVos and the Davis video datasets. The network is trained on the CUB dataset and tested on all three datasets. The online experiments are demonstrated on YouTubeVos and Davis [56] video sequences using a network trained on the CUB training set.
翻訳日:2023-02-16 16:18:17 公開日:2023-02-14
# 関数空間におけるスコアベース拡散モデル

Score-based Diffusion Models in Function Space ( http://arxiv.org/abs/2302.07400v1 )

ライセンス: Link先を確認
Jae Hyun Lim, Nikola B. Kovachki, Ricardo Baptista, Christopher Beckham, Kamyar Azizzadenesheli, Jean Kossaifi, Vikram Voleti, Jiaming Song, Karsten Kreis, Jan Kautz, Christopher Pal, Arash Vahdat, Anima Anandkumar(参考訳) 拡散モデルは最近、生成的モデリングの強力なフレームワークとして登場した。 これらはガウスホワイトノイズで入力データを摂動する前処理と、スコア関数を学習してサンプルを生成する逆処理から構成される。 その大きな成功にもかかわらず、ユークリッドのような有限次元空間で定式化され、科学計算や3次元幾何データ解析のような機能的な形式を持つ多くの領域にその応用を制限している。 本研究では,関数空間における拡散モデルを訓練するための数理的厳密なフレームワークであるdenoising diffusion operators (ddos)を提案する。 DDOでは、フォワードプロセスはガウス過程を用いて徐々に入力関数を摂動する。 生成過程は、関数値ランゲヴィンダイナミクスを統合することによって定式化される。 この手法には摂動データ分布に対するスコアの適切な概念が必要であり、無限次元の関数空間に一致する denoising score を一般化することで得られる。 データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。 我々は,ガウスランダム場(GRF)から強制力のプッシュフォワード分布と見なされるNavier-Stokes方程式に対する解の生成を含む,一連の問題に対する我々のアプローチの適用性について理論的に数値的に検証する。

Diffusion models have recently emerged as a powerful framework for generative modeling. They consist of a forward process that perturbs input data with Gaussian white noise and a reverse process that learns a score function to generate samples by denoising. Despite their tremendous success, they are mostly formulated on finite-dimensional spaces, e.g. Euclidean, limiting their applications to many domains where the data has a functional form such as in scientific computing and 3D geometric data analysis. In this work, we introduce a mathematically rigorous framework called Denoising Diffusion Operators (DDOs) for training diffusion models in function space. In DDOs, the forward process perturbs input functions gradually using a Gaussian process. The generative process is formulated by integrating a function-valued Langevin dynamic. Our approach requires an appropriate notion of the score for the perturbed data distribution, which we obtain by generalizing denoising score matching to function spaces that can be infinite-dimensional. We show that the corresponding discretized algorithm generates accurate samples at a fixed cost that is independent of the data resolution. We theoretically and numerically verify the applicability of our approach on a set of problems, including generating solutions to the Navier-Stokes equation viewed as the push-forward distribution of forcings from a Gaussian Random Field (GRF).
翻訳日:2023-02-16 16:09:28 公開日:2023-02-14
# リスクかリスクか - uavにおけるiotタスクオフロードのリスク定量化による学習

To Risk or Not to Risk: Learning with Risk Quantification for IoT Task Offloading in UAVs ( http://arxiv.org/abs/2302.07399v1 )

ライセンス: Link先を確認
Anne Catherine Nguyen, Turgay Pamuklu, Aisha Syed, W. Sean Kennedy, Melike Erol-Kantarci(参考訳) スマートファームモノのインターネット(IoT)環境におけるマルチアクセスエッジコンピューティング(MEC)支援無人航空機(UAV)ネットワークのためのタスクオフロード決定アルゴリズムについて,深層強化学習手法を提案する。 タスクオフロード技術は、コスト関数や条件変数のリスク(CVaR)といった金融的概念を用いて、リスクアクション毎に発生するダメージを定量化する。 このアプローチは、強化学習エージェントを訓練する潜在的なリスクを定量化し、農場にとって不可逆的な結果をもたらす危険行動を避けることができた。 その結果、検出されていない火災、害虫の寄生、UAVが使用不能となる。 提案手法は他の深層強化学習手法と2つの固定ルールベース手法と比較した。 シミュレーションの結果,CVaRに基づくリスク定量化手法は,火災検知タスクの期限を超過した最も危険なリスクを排除した。 その結果、エネルギー消費の無視できる増加に伴い、期限違反の総数を削減した。

A deep reinforcement learning technique is presented for task offloading decision-making algorithms for a multi-access edge computing (MEC) assisted unmanned aerial vehicle (UAV) network in a smart farm Internet of Things (IoT) environment. The task offloading technique uses financial concepts such as cost functions and conditional variable at risk (CVaR) in order to quantify the damage that may be caused by each risky action. The approach was able to quantify potential risks to train the reinforcement learning agent to avoid risky behaviors that will lead to irreversible consequences for the farm. Such consequences include an undetected fire, pest infestation, or a UAV being unusable. The proposed CVaR-based technique was compared to other deep reinforcement learning techniques and two fixed rule-based techniques. The simulation results show that the CVaR-based risk quantifying method eliminated the most dangerous risk, which was exceeding the deadline for a fire detection task. As a result, it reduced the total number of deadline violations with a negligible increase in energy consumption.
翻訳日:2023-02-16 16:09:07 公開日:2023-02-14
# 多世界理論の複雑化

A Complication for the Many Worlds Theory ( http://arxiv.org/abs/2302.07649v1 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 多世界理論と独立命題は、多数の電子のスピンを測定する有限実験の存在を通して示されるように、対立している。 実験の後、独立性の仮定を破る禁止配列を含む正の確率の分岐が存在する。

The Many Worlds Theory and the Independence Postulate are in conflict, as shown through the existence of a finite experiment that measures the spin of a large number of electrons. After the experiment there are branches of positive probability which contain forbidden sequences that break the Independence Postulate.
翻訳日:2023-02-16 15:08:02 公開日:2023-02-14
# 大きなパスカバレッジを持つ自動ソフトウェアテストのための遺伝的マイクロプログラム

Genetic Micro-Programs for Automated Software Testing with Large Path Coverage ( http://arxiv.org/abs/2302.07646v1 )

ライセンス: Link先を確認
Jarrod Goschen, Anna Sergeevna Bosman, Stefan Gruner(参考訳) コンピュータインテリジェンス(CI)の進歩により、ソフトウェアエンジニアリングプロセス、特にソフトウェアテストを改善するためにCI技術を適用したいという願望が高まっている。 既存の最先端の自動ソフトウェアテスト技術は、高い実行パスカバレッジを達成する入力値を見つけるために検索アルゴリズムを活用することに重点を置いている。 これらのアルゴリズムは、彼らがテストしようとしているのと同じコードでトレーニングされ、各ソフトウェアコンポーネントをテストするのに計器と長い検索時間を必要とする。 本稿では、進化したソリューションが入力値ではなく、繰り返し入力値を生成し、ソフトウェアコンポーネントの入力パラメータ領域を効率的に探索するマイクロプログラムについて概説する。 また、我々のアプローチは多くの異なるソフトウェアシステムに適用できるような一般化が可能であり、そのため、トレーニングされた特定のソフトウェアコンポーネントのみに特有ではない、と論じる。

Ongoing progress in computational intelligence (CI) has led to an increased desire to apply CI techniques for the purpose of improving software engineering processes, particularly software testing. Existing state-of-the-art automated software testing techniques focus on utilising search algorithms to discover input values that achieve high execution path coverage. These algorithms are trained on the same code that they intend to test, requiring instrumentation and lengthy search times to test each software component. This paper outlines a novel genetic programming framework, where the evolved solutions are not input values, but micro-programs that can repeatedly generate input values to efficiently explore a software component's input parameter domain. We also argue that our approach can be generalised such as to be applied to many different software systems, and is thus not specific to merely the particular software component on which it was trained.
翻訳日:2023-02-16 15:07:10 公開日:2023-02-14
# 大規模録音における人声・非人声生成の検出

Detecting human and non-human vocal productions in large scale audio recordings ( http://arxiv.org/abs/2302.07640v1 )

ライセンス: Link先を確認
Guillem Bonafos, Pierre Pudlo, Jean-Marc Freyermuth, Thierry Legou, Jo\"el Fagot, Samuel Tron\c{c}on, Arnaud Rey(参考訳) 大規模自然音声録音から発声音声を抽出する自動データ処理パイプラインを提案する。 一連の計算ステップ(ウィンドウ、ノイズクラスの作成、データ拡張、再サンプリング、転送学習、ベイズ最適化)を通じて、ラベル付きデータの大規模なサンプルを必要とせずに、ノイズデータストリーム内のさまざまな自然声生成を検出するニューラルネットワークを自動トレーニングする。 1つは霊長類研究センターで記録されたモルモットバブーンのグループ、もう1つは自宅で記録されたヒトの赤ちゃんです。 このパイプラインは72分間と77分間のラベル付き録音のモデルを訓練しており、精度は94.58%と99.76%である。 その後、443時間と174時間の連続録音を処理し、それぞれ38.8時間と35.2時間の2つの新しいデータベースを作成する。 大規模オーディオ録音に適用可能なこのアプローチの長所と短所について論じる。

We propose an automatic data processing pipeline to extract vocal productions from large-scale natural audio recordings. Through a series of computational steps (windowing, creation of a noise class, data augmentation, re-sampling, transfer learning, Bayesian optimisation), it automatically trains a neural network for detecting various types of natural vocal productions in a noisy data stream without requiring a large sample of labeled data. We test it on two different data sets, one from a group of Guinea baboons recorded from a primate research center and one from human babies recorded at home. The pipeline trains a model on 72 and 77 minutes of labeled audio recordings, with an accuracy of 94.58% and 99.76%. It is then used to process 443 and 174 hours of natural continuous recordings and it creates two new databases of 38.8 and 35.2 hours, respectively. We discuss the strengths and limitations of this approach that can be applied to any massive audio recording.
翻訳日:2023-02-16 15:06:41 公開日:2023-02-14
# 非一様動作劣化に対する自己監督型イベント誘導マルチパッチネットワーク

Event-guided Multi-patch Network with Self-supervision for Non-uniform Motion Deblurring ( http://arxiv.org/abs/2302.07689v1 )

ライセンス: Link先を確認
Hongguang Zhang, Limeng Zhang, Yuchao Dai, Hongdong Li, Piotr Koniusz(参考訳) 現代のディープラーニングマルチスケールデブロワーリングモデルは、多くの問題に悩まされている。 1)不均一にぼやけた画像や映像では性能が悪い。 2) モデル深度を細粒度で増大させるだけでは、劣化を改善できない。 3 個々のRGBフレームは、消臭のための限られた動き情報を含む。 4) 前モデルでは空間変換や雑音に対する頑健性に限界がある。 Below, we extend the DMPHN model by several mechanisms to address the above issues: I) We present a novel self-supervised event-guided deep hierarchical Multi-patch Network (MPN) to deal with blurry images and videos via fine-to-coarse hierarchical localized representations; II) We propose a novel stacked pipeline, StackMPN, to improve the deblurring performance under the increased network depth; III) We propose an event-guided architecture to exploit motion cues contained in videos to tackle complex blur in videos; IV) We propose a novel self-supervised step to expose the model to random transformations (rotations, scale changes), and make it robust to Gaussian noises. 我々のMPNは、現在のマルチスケール手法に比べて40倍高速なランタイムで、GoProとVideoDeblurデータセットの最先端を達成しています。 30ミリ秒で1280x720の解像度で画像を処理し、720pの画像の30fpsでのリアルタイムのディープモーションデブラリングモデルだ。 StackMPNでは、ネットワーク深度を増大させることで、GoProデータセットの1.2dBを大幅に改善する。 イベント情報と自己スーパービジョンを利用することで、33.83dbにさらに向上する。

Contemporary deep learning multi-scale deblurring models suffer from many issues: 1) They perform poorly on non-uniformly blurred images/videos; 2) Simply increasing the model depth with finer-scale levels cannot improve deblurring; 3) Individual RGB frames contain a limited motion information for deblurring; 4) Previous models have a limited robustness to spatial transformations and noise. Below, we extend the DMPHN model by several mechanisms to address the above issues: I) We present a novel self-supervised event-guided deep hierarchical Multi-patch Network (MPN) to deal with blurry images and videos via fine-to-coarse hierarchical localized representations; II) We propose a novel stacked pipeline, StackMPN, to improve the deblurring performance under the increased network depth; III) We propose an event-guided architecture to exploit motion cues contained in videos to tackle complex blur in videos; IV) We propose a novel self-supervised step to expose the model to random transformations (rotations, scale changes), and make it robust to Gaussian noises. Our MPN achieves the state of the art on the GoPro and VideoDeblur datasets with a 40x faster runtime compared to current multi-scale methods. With 30ms to process an image at 1280x720 resolution, it is the first real-time deep motion deblurring model for 720p images at 30fps. For StackMPN, we obtain significant improvements over 1.2dB on the GoPro dataset by increasing the network depth. Utilizing the event information and self-supervision further boost results to 33.83dB.
翻訳日:2023-02-16 14:48:27 公開日:2023-02-14
# 信頼できないノードの存在下でQKDネットワークのエンドツーエンドキー配信を実現する方法

How to Achieve End-to-end Key Distribution for QKD Networks in the Presence of Untrusted Nodes ( http://arxiv.org/abs/2302.07688v1 )

ライセンス: Link先を確認
Yi Luo, Qiong Li, Hao-Kun Mao and Nan Chen(参考訳) 量子鍵分布(QKD)ネットワークは,大規模ネットワーク上でのITS通信を可能にすることが期待されている。 リレーベースのQKDネットワークに関するほとんどの研究は、すべてのリレーが完全に信頼できると仮定するが、複雑なネットワークではその仮定は非現実的である。 現在の研究では、信頼できないリレー(eavesdroppingなど)による受動的攻撃のケースを分析するのみである。 しかし、信頼できないリレーによるアクティブアタック(例えば、正直なノード間の協調によるスプーフィングや干渉)は、より深刻な脅威であり、無視すべきではない。 受動的攻撃と能動的攻撃の両方を考慮して、信頼できないノードに対して防御し、エンドツーエンドの鍵分配を実現するためのITSBFT-QKDネットワークを提案する。 エンドツーエンドのキー配信では、複数のノードが信頼関係を確立し、互いに協力する必要がある。 攻撃者が信頼関係を破って不当な利点を得るのを防止するため,我々は,信頼関係をグローバルqkdネットワークの観点から確立・伝達するためのビザンチンコンセンサススキームを組み込んだ。 さらに,従来のコンセンサスのセキュリティはQKDネットワークのセキュリティ要件よりも低いため,コンセンサスの情報理論的セキュリティを確保するために,ビザンチンフォールトトレランス(BFT)シグネチャスキームを考案する。 信頼できないリレーやノードの存在下で、ポイントツーポイントQKDキーでシグネチャスキームを構築する新しい方法を提供する。 我々の計画のセキュリティは、複数の側面から徹底的に分析される。 このスキームは最大$ min\left(c-1,\lfloor \frac{n-1}{3} \rfloor \right) $ untrustedノードを満たすことができ、ここで$c$はネットワークのノード接続、$n$はネットワーク内のノード数である。 提案方式は,現在のリレーベースQKDネットワークにおけるセキュリティの最高レベルを提供し,QKDネットワークの適用を著しく促進する。

Quantum key distribution (QKD) networks are expected to enable information-theoretical secure (ITS) communication over a large-scale network. Most researches on relay-based QKD network assume that all relays are completely trustworthy, but the assumption is unrealistic in a complex network. The current study only analyzes the case of passive attacks by untrusted relays (e.g. eavesdropping). However, active attacks by untrusted relays (e.g. spoofing or interfering with the cooperation between honest nodes) are more serious threats and should not be ignored. Taking both passive and active attacks into account, we propose the ITSBFT-QKD networks to defend against untrusted nodes and achieve end-to-end key distribution. In end-to-end key distribution, multiple participating nodes are required to establish trust relationships and cooperate with each other. To prevent attackers from breaking trust relationship and gaining an unreasonable advantage, we incorporate a byzantine consensus scheme to establish and transmit trust relationships in a global QKD network perspective. Moreover, since the security of traditional consensus schemes is lower than the security requirement of QKD networks, we devise a byzantine fault tolerance (BFT) signature scheme to ensure the information-theoretic security of consensus. It provides a new way to construct signature schemes with point-to-point QKD keys in the presence of untrusted relays or nodes. The security of our scheme is analyzed thoroughly from multiple aspects. Our scheme can accommodate up to $ MIN\left( C-1,\lfloor \frac{N-1}{3} \rfloor \right) $ untrusted nodes, where $C$ is the node connectivity of the network and $N$ is the number of nodes in the network. Our scheme provides the highest level of security in currently relay-based QKD networks and will significantly promote the application of QKD networks.
翻訳日:2023-02-16 14:48:09 公開日:2023-02-14
# ポインタジェネレータネットワークとSciBERT埋め込みを用いた研究論文からのハイライト生成

Generation of Highlights from Research Papers Using Pointer-Generator Networks and SciBERT Embeddings ( http://arxiv.org/abs/2302.07729v1 )

ライセンス: Link先を確認
Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban Kumar Bhowmick, Partha Pratim Das(参考訳) 近年,本論文の主な知見を要約する研究論文が多数発表されている。 ハイライトは、研究者が論文のコントリビューションを正確かつ迅速に特定するのに役立つだけでなく、検索エンジンによる発見可能性を高める。 研究論文の特定の部分について,研究ハイライトを自動的に作成することを目的としている。 我々は,入力トークンをSciBERT埋め込みにエンコードする入力に,カバレッジ機構を備えたポインタジェネレータネットワークとコンテキスト埋め込み層を使用する。 我々は、ベンチマークデータセットCSPubSumと、自動研究ハイライト生成のための新しい論文の多分野コーパスMixSubでモデルを検証した。 CSPubSum と MixSub の両モデルにおいて,提案モデルが関連する変種や文献で提案する他のモデルと比較して,最高の性能を達成できることを示した。 CSPubSumデータセットでは,入力が紙の抽象的な部分のみである場合に,紙の他の部分に対して最高の性能を達成する。 ROUGE-1、ROUGE-2、ROUGE-L F1スコアは38.26、14.26、35.51、METEOR F1スコアは32.62、BERTScore F1は86.65である。 新しいMixSubデータセットでは,提案したモデル(対象カテゴリを区別せずにトレーニングコーパス全体をトレーニングした場合)が,それぞれ31.78,9.76,29.3のROUGE-1,ROUGE-2,ROUGE-L F1スコア,24.00のMETEOR F1スコア,85.25のBERTScore F1スコアを達成した。

Nowadays many research articles are prefaced with research highlights to summarize the main findings of the paper. Highlights not only help researchers precisely and quickly identify the contributions of a paper, they also enhance the discoverability of the article via search engines. We aim to automatically construct research highlights given certain segments of the research paper. We use a pointer-generator network with coverage mechanism and a contextual embedding layer at the input that encodes the input tokens into SciBERT embeddings. We test our model on a benchmark dataset, CSPubSum and also present MixSub, a new multi-disciplinary corpus of papers for automatic research highlight generation. For both CSPubSum and MixSub, we have observed that the proposed model achieves the best performance compared to related variants and other models proposed in the literature. On the CSPubSum data set, our model achieves the best performance when the input is only the abstract of a paper as opposed to other segments of the paper. It produces ROUGE-1, ROUGE-2 and ROUGE-L F1-scores of 38.26, 14.26 and 35.51, respectively, METEOR F1-score of 32.62, and BERTScore F1 of 86.65 which outperform all other baselines. On the new MixSub data set, where only the abstract is the input, our proposed model (when trained on the whole training corpus without distinguishing between the subject categories) achieves ROUGE-1, ROUGE-2 and ROUGE-L F1-scores of 31.78, 9.76 and 29.3, respectively, METEOR F1-score of 24.00, and BERTScore F1 of 85.25, outperforming other models.
翻訳日:2023-02-16 14:40:13 公開日:2023-02-14
# 適応マージンを有するメタラーニング三重項ネットワークによる固有表現認識

Meta-Learning Triplet Network with Adaptive Margins for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2302.07739v1 )

ライセンス: Link先を確認
Chengcheng Han, Renyu Zhu, Jun Kuang, FengJiao Chen, Xiang Li, Ming Gao, Xuezhi Cao, Wei Wu(参考訳) メタラーニングの手法は、特にプロトタイプベースの手法であるnpo(non-shot named entity recognition)で広く使われている。 しかし、Other(O) クラスは、一般に、雑多な意味論を持つクラスの中に多くのサンプルが存在するため、プロトタイプベクトルで表すのは難しい。 そこで本研究では,Oクラスではなく,エンティティ型のプロトタイプベクトルを生成するMeTNetを提案する。 我々は,サンプルとプロトタイプベクトルを分類し易い低次元空間にマッピングする改良された三重項ネットワークを設計し,各エンティティタイプに対して適応マージンを提案する。 マージンは半径として働き、低次元空間における適応サイズの領域を制御する。 この領域に基づいて,クエリーインスタンスのラベルを予測するための新しい推論手順を提案する。 ドメイン内とクロスドメインの両方で広範な実験を行い、metnetが他の最先端メソッドよりも優れていることを示す。 特に、有名なeコマースプラットフォームから抽出した、中国の数発のNERデータセットFEW-COMMをリリースする。 私たちの知る限りでは、これは中国初のマイナリティデータセットです。 すべてのデータセットとコードはhttps://github.com/hccngu/MeTNetで提供されている。

Meta-learning methods have been widely used in few-shot named entity recognition (NER), especially prototype-based methods. However, the Other(O) class is difficult to be represented by a prototype vector because there are generally a large number of samples in the class that have miscellaneous semantics. To solve the problem, we propose MeTNet, which generates prototype vectors for entity types only but not O-class. We design an improved triplet network to map samples and prototype vectors into a low-dimensional space that is easier to be classified and propose an adaptive margin for each entity type. The margin plays as a radius and controls a region with adaptive size in the low-dimensional space. Based on the regions, we propose a new inference procedure to predict the label of a query instance. We conduct extensive experiments in both in-domain and cross-domain settings to show the superiority of MeTNet over other state-of-the-art methods. In particular, we release a Chinese few-shot NER dataset FEW-COMM extracted from a well-known e-commerce platform. To the best of our knowledge, this is the first Chinese few-shot NER dataset. All the datasets and codes are provided at https://github.com/hccngu/MeTNet.
翻訳日:2023-02-16 14:29:09 公開日:2023-02-14
# MALDI-MSIデータにおける成分の空間分布解析による同位体包絡の同定

Isotopic envelope identification by analysis of the spatial distribution of components in MALDI-MSI data ( http://arxiv.org/abs/2302.06051v2 )

ライセンス: Link先を確認
Anna Glodek, Joanna Pola\'nska, Marta Gawin(参考訳) タンパク質の同定につながるプロセスの重要なステップの1つは質量分析であり、タンパク質の構造に関する情報を得ることができる。 質量スペクトルから同位体ピークを除去することは不可欠であり、脱同位体化と呼ばれるプロセスで行われる。 脱同位体化には異なるアルゴリズムがあるが、それらの制限があり、質量分析の異なる方法に特化している。 MALDI-ToF法による実験から得られたデータは高次元性によって特徴づけられる。 本稿では,マンダニ-アシランファジィ系に基づくMALDI-ToF分子イメージングデータ中の同位体包有物同定法と,同位体包有物に含まれるピークの分子分布の空間マップを提案する。 空間分子分布マップを評価するためにいくつかの画像テクスチャ計測法が用いられた。 MALDI-ToF実験から得られた8つのデータセットを用いて,頭頸部癌患者からGliwiceの国立腫瘍学研究所のサンプルを用いて実験を行った。 データは前処理と特徴抽出の対象となった。 結果は既存の3つの非等方性アルゴリズムと比較された。 その結果,本論文で提案する同位体包絡膜を同定する方法は,ピーク対の研究を指向したアプローチを用いて重なり合う包絡膜を検出できることがわかった。 さらに,提案アルゴリズムは大規模データセットの解析を可能にする。

One of the significant steps in the process leading to the identification of proteins is mass spectrometry, which allows for obtaining information about the structure of proteins. Removing isotope peaks from the mass spectrum is vital and it is done in a process called deisotoping. There are different algorithms for deisotoping, but they have their limitations, they are dedicated to different methods of mass spectrometry. Data from experiments performed with the MALDI-ToF technique are characterized by high dimensionality. This paper presents a method for identifying isotope envelopes in MALDI-ToF molecular imaging data based on the Mamdani-Assilan fuzzy system and spatial maps of the molecular distribution of peaks included in the isotopic envelope. Several image texture measures were used to evaluate spatial molecular distribution maps. The algorithm was tested on eight datasets obtained from the MALDI-ToF experiment on samples from the National Institute of Oncology in Gliwice from patients with cancer of the head and neck region. The data were subjected to pre-processing and feature extraction. The results were collected and compared with three existing deisotoping algorithms. The analysis of the obtained results showed that the method for identifying isotopic envelopes proposed in this paper enables the detection of overlapping envelopes by using the approach oriented to study peak pairs. Moreover, the proposed algorithm enables the analysis of large data sets.
翻訳日:2023-02-16 11:34:52 公開日:2023-02-14
# 検索拡張大言語モデルにおける属性と周波数トレードオフの特徴付け

Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2302.05578v2 )

ライセンス: Link先を確認
Renat Aksitov, Chung-Ching Chang, David Reitter, Siamak Shakeri, Yunhsuan Sung(参考訳) 近年の進歩にもかかわらず、生成型大規模言語モデルにおける意味幻覚の予防は困難である。 これに対する一般的な解決策の1つは、LLMを検索システムで拡張し、生成した出力が検索された情報に起因することを確かめることである。 この新たな制約が加わったことを考えると、アウトプットの全体的な品質が、例えばフルーエンシ(fluency)に関して影響を受けると期待できる。 言語モデルのスケーリングは有効か? 本稿では,LLMにおけるフラレンシと帰属の関係について検討し,知識重大なダイアログ設定における証拠を抽出した。 提案実験は,人間の嗜好に合わせた一連の自動測定値を用いて実施した。 これらは、様々なパラメータのllmと供給されたコンテキストの下で生成される、大きな世代の集合を評価するために使用された。 より大規模なモデルでは,流布度と帰属度の両方が向上する傾向にあり,(特に)トップk検索とトップ1検索では帰属率が向上するが,流布度は低下することを示した。 次に,大型モデルとのギャップを縮小し,その欠点を回避しつつ,トップk検索のメリットを保ちながら,より小型モデルを可能にする手法を提案する。

Despite recent progress, it has been difficult to prevent semantic hallucinations in generative Large Language Models. One common solution to this is augmenting LLMs with a retrieval system and making sure that the generated output is attributable to the retrieved information. Given this new added constraint, it is plausible to expect that the overall quality of the output will be affected, for example, in terms of fluency. Can scaling language models help? Here we examine the relationship between fluency and attribution in LLMs prompted with retrieved evidence in knowledge-heavy dialog settings. Our experiments were implemented with a set of auto-metrics that are aligned with human preferences. They were used to evaluate a large set of generations, produced under varying parameters of LLMs and supplied context. We show that larger models tend to do much better in both fluency and attribution, and that (naively) using top-k retrieval versus top-1 retrieval improves attribution but hurts fluency. We next propose a recipe that could allow smaller models to both close the gap with larger models and preserve the benefits of top-k retrieval while avoiding its drawbacks.
翻訳日:2023-02-16 11:34:20 公開日:2023-02-14
# ランダム多数意見拡散:安定化時間、吸収状態、影響力のあるノード

Random Majority Opinion Diffusion: Stabilization Time, Absorbing States, and Influential Nodes ( http://arxiv.org/abs/2302.06760v1 )

ライセンス: Link先を確認
Ahad N. Zehmakan(参考訳) n 個のノードと m 個のエッジを持つグラフ g を考えると、それはソーシャルネットワークを表し、最初に各ノードが青か白であることを仮定する。 各ラウンドでは、すべてのノードが同時に、近隣で最も頻繁に色を更新する。 これは、ノードがネクタイの場合の色を保ち、確率1/2とホワイトで青を選ぶ場合、ランダム多数派モデル(rmm)を保った場合、多数派モデル(mm)と呼ぶ。 我々は、RMMが期待されるような安定な構成に達するために指数関数的に多くのラウンドを必要とするグラフがあることを証明し、そのような構成は指数関数的に多くの状態(つまり着色)を持つことができる。 MMとは対照的に、1または2つの状態が$O(m)$ラウンドで常に安定な状態に達することが知られている。 サイクルグラフ C_n の特別の場合、それぞれ MM と RMM において $\lceil n/2\rceil-1$ と $O(n^2)$ の強い境界と強い境界を証明する。 さらに、C_n 上の MM の安定な着色数は $\Theta(\Phi^n)$ で、$\Phi = (1+\sqrt{5})/2$ は黄金比であり、RMM は 2 である。 また,初期色付けにおける色に同意するノードの集合である勝利集合の最小サイズについて検討し,すべてのノードがその色を共有する色付けを終了させるプロセスについて検討する。 本稿では,MM と RMM の双方に対して,勝利集合の最小サイズに関する厳密な境界を示す。 さらに、ランダムな初期色付けのためにモデルを解析し、各ノードが独立に1つの確率$p$と白色で色付けされる。 いくつかのマーチンゲール解析と数え上げ引数を用いて、サイクルグラフ C_n 上の MM における青ノードの最終数は、それぞれ $(2p^2-p^3)n/(1-p+p^2)$ と pn であることを示す。 最後に, 理論的な知見を補完する実験を行い, 今後の研究で取り組むべき興味をそそるオープン問題や予想の提案にも繋がる。

Consider a graph G with n nodes and m edges, which represents a social network, and assume that initially each node is blue or white. In each round, all nodes simultaneously update their color to the most frequent color in their neighborhood. This is called the Majority Model (MM) if a node keeps its color in case of a tie and the Random Majority Model (RMM) if it chooses blue with probability 1/2 and white otherwise. We prove that there are graphs for which RMM needs exponentially many rounds to reach a stable configuration in expectation, and such a configuration can have exponentially many states (i.e., colorings). This is in contrast to MM, which is known to always reach a stable configuration with one or two states in $O(m)$ rounds. For the special case of a cycle graph C_n, we prove the stronger and tight bounds of $\lceil n/2\rceil-1$ and $O(n^2)$ in MM and RMM, respectively. Furthermore, we show that the number of stable colorings in MM on C_n is equal to $\Theta(\Phi^n)$, where $\Phi = (1+\sqrt{5})/2$ is the golden ratio, while it is equal to 2 for RMM. We also study the minimum size of a winning set, which is a set of nodes whose agreement on a color in the initial coloring enforces the process to end in a coloring where all nodes share that color. We present tight bounds on the minimum size of a winning set for both MM and RMM. Furthermore, we analyze our models for a random initial coloring, where each node is colored blue independently with some probability $p$ and white otherwise. Using some martingale analysis and counting arguments, we prove that the expected final number of blue nodes is respectively equal to $(2p^2-p^3)n/(1-p+p^2)$ and pn in MM and RMM on a cycle graph C_n. Finally, we conduct some experiments which complement our theoretical findings and also lead to the proposal of some intriguing open problems and conjectures to be tackled in future work.
翻訳日:2023-02-15 16:49:26 公開日:2023-02-14
# EspalomaCharge: 機械学習対応超高速部分電荷割り当て

EspalomaCharge: Machine learning-enabled ultra-fast partial charge assignment ( http://arxiv.org/abs/2302.06758v1 )

ライセンス: Link先を確認
Yuanqing Wang, Iv\'an Pulido, Kenichiro Takaba, Benjamin Kaminow, Jenke Scheen, Lily Wang, John D. Chodera(参考訳) 原子部分電荷は分子動力学(MD)シミュレーションにおいて重要なパラメータであり、分子間エネルギーへの静電気的寄与を予測し、ポテンシャルエネルギーの展望を予測している。 伝統的に、部分電荷の割り当ては、AM1-BCCのような半経験的量子化学手法のサロゲートに依存しており、大きな系や多数の分子にとって高価である。 本稿では、AM1-BCC実装の違いに匹敵する精度を維持しつつ、桁違いに高速なAM1-BCC電荷モデルに対するハイブリッド物理/グラフニューラルネットワークに基づく近似を提案する。 我々のハイブリッドアプローチは、分子固有の原子電子陰性度と硬度パラメータを予測するために、グラフニューラルネットワークと、全分子電荷を保存する最適な電荷平衡パラメータを解析的に決定する。 このハイブリッドアプローチは、原子数と線形にスケールし、初めて、次世代の自己整合型生体分子力場を構築するために、小さな分子や生体高分子に対して完全に一貫した電荷モデルを使用することを可能にした。 このアプローチは、フリーでオープンソースのパッケージである \texttt{espaloma\_charge} に実装されており、スタンドアローンの充電インターフェースに加えて、AmberTools \texttt{antechamber} と Open Force Field Toolkit の充電ワークフローをドロップインで置き換える。 ソースコードは \url{https://github.com/choderalab/espaloma_charge} で入手できる。

Atomic partial charges are crucial parameters in molecular dynamics (MD) simulation, dictating the electrostatic contributions to intermolecular energies, and thereby the potential energy landscape. Traditionally, the assignment of partial charges has relied on surrogates of \textit{ab initio} semiempirical quantum chemical methods such as AM1-BCC, and is expensive for large systems or large numbers of molecules. We propose a hybrid physical / graph neural network-based approximation to the widely popular AM1-BCC charge model that is orders of magnitude faster while maintaining accuracy comparable to differences in AM1-BCC implementations. Our hybrid approach couples a graph neural network to a streamlined charge equilibration approach in order to predict molecule-specific atomic electronegativity and hardness parameters, followed by analytical determination of optimal charge-equilibrated parameters that preserves total molecular charge. This hybrid approach scales linearly with the number of atoms, enabling, for the first time, the use of fully consistent charge models for small molecules and biopolymers for the construction of next-generation self-consistent biomolecular force fields. Implemented in the free and open source package \texttt{espaloma\_charge}, this approach provides drop-in replacements for both AmberTools \texttt{antechamber} and the Open Force Field Toolkit charging workflows, in addition to stand-alone charge generation interfaces. Source code is available at \url{https://github.com/choderalab/espaloma_charge}.
翻訳日:2023-02-15 16:48:43 公開日:2023-02-14
# 自己教師型雑音マスキングによる雑音ラベルの学習

Learning with Noisy labels via Self-supervised Adversarial Noisy Masking ( http://arxiv.org/abs/2302.06805v1 )

ライセンス: Link先を確認
Yuanpeng Tu, Boshen Zhang, Yuxi Li, Liang Liu, Jian Li, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao(参考訳) 大規模なデータセットの収集は、深層モデルのトレーニングに不可欠であり、データを注釈付けすることは必然的にノイズのラベルを生み出し、ディープラーニングアルゴリズムに課題をもたらす。 以前の取り組みでは、ノイズのあるサンプルを特定し除去したり、トレーニングサンプル内の統計的特性(損失値など)に従ってラベルを修正したりすることでこの問題を軽減する傾向がある。 本稿では,新しい視点からこの問題に取り組み,深い特徴マップを考察し,クリーンで誤ったラベル付きサンプルで訓練されたモデルが識別可能なアクティベーション特徴分布を示すことを実証的に発見する。 この観察から,敵対的ノイズマスキングと呼ばれる新しいロバストなトレーニング手法を提案する。 そのアイデアは、入力データとラベルを同時に適応的に変調するラベル品質ガイドマスクスキームで深い機能を調整し、ノイズの多いサンプルを過度に適合させることである。 さらに、入力データを再構成する補助タスクを設計し、自然にノイズのない自己教師付き信号を提供し、深層モデルの一般化能力を補強する。 提案手法は単純でフレキシブルであり,従来の最先端手法よりも大幅に改善された合成および実世界のノイズデータセットで検証される。

Collecting large-scale datasets is crucial for training deep models, annotating the data, however, inevitably yields noisy labels, which poses challenges to deep learning algorithms. Previous efforts tend to mitigate this problem via identifying and removing noisy samples or correcting their labels according to the statistical properties (e.g., loss values) among training samples. In this paper, we aim to tackle this problem from a new perspective, delving into the deep feature maps, we empirically find that models trained with clean and mislabeled samples manifest distinguishable activation feature distributions. From this observation, a novel robust training approach termed adversarial noisy masking is proposed. The idea is to regularize deep features with a label quality guided masking scheme, which adaptively modulates the input data and label simultaneously, preventing the model to overfit noisy samples. Further, an auxiliary task is designed to reconstruct input data, it naturally provides noise-free self-supervised signals to reinforce the generalization ability of deep models. The proposed method is simple and flexible, it is tested on both synthetic and real-world noisy datasets, where significant improvements are achieved over previous state-of-the-art methods.
翻訳日:2023-02-15 16:40:18 公開日:2023-02-14
# 因果戦略予測における最適得点機構の発見

Discovering Optimal Scoring Mechanisms in Causal Strategic Prediction ( http://arxiv.org/abs/2302.06804v1 )

ライセンス: Link先を確認
Tom Yan, Shantanu Gupta, Zachary Lipton(参考訳) データ駆動のポリシーに直面した個人は、自分の機能を操作し、望ましい決定を下す。 初期の作品ではこれらの操作を望ましくないゲームと位置づけていたが、最近の作品では、操作が興味のある結果を改善するためによりニュアンス的な因果フレーミングを採用しており、コヒーレントなメカニズムを設定するには予測精度と結果の改善の両方を考慮しなければならない。 一般的にこれらの研究は、結果とその親のみからなる既知の因果グラフに焦点を当てている。 本稿では,任意の未知のグラフによって結果と観測された特徴nが関連し,操作が固定予算とコスト構造によって制限される汎用フレームワークを提案する。 戦略応答を利用して因果グラフを有限ステップで発見するアルゴリズムを開発した。 このグラフ構造を考えると、精度と改善を切り替えるメカニズムを導出することができます。 さらに、我々の研究は因果発見とインセンティブデザインの関係を深め、因果戦略予測の下での学習のより微妙な見方を提供する。

Faced with data-driven policies, individuals will manipulate their features to obtain favorable decisions. While earlier works cast these manipulations as undesirable gaming, recent works have adopted a more nuanced causal framing in which manipulations can improve outcomes of interest, and setting coherent mechanisms requires accounting for both predictive accuracy and improvement of the outcome. Typically, these works focus on known causal graphs, consisting only of an outcome and its parents. In this paper, we introduce a general framework in which an outcome and n observed features are related by an arbitrary unknown graph and manipulations are restricted by a fixed budget and cost structure. We develop algorithms that leverage strategic responses to discover the causal graph in a finite number of steps. Given this graph structure, we can then derive mechanisms that trade off between accuracy and improvement. Altogether, our work deepens links between causal discovery and incentive design and provides a more nuanced view of learning under causal strategic prediction.
翻訳日:2023-02-15 16:39:56 公開日:2023-02-14
# キャビティオプティオプティカル・マグネト・メカニクスを用いたゼプタメータ変位センシング

Zeptometer displacement sensing using cavity opto-magneto-mechanics ( http://arxiv.org/abs/2302.06795v1 )

ライセンス: Link先を確認
Tatiana Iakovleva, Bijita Sarma and Jason Twamley(参考訳) 光学系は様々な力や効果の精密検出に非常に有用であることが証明されている。 本研究では, 永久磁石2層からなる不均質磁場中において, 光共振器の1つの鏡を磁気力により真空中で浮揚する空間変位検出のための光磁気機構を提案する。 その結果, 浮上ミラーの機械的周波数は, 磁気層分離が変化するにつれて変化するため, 磁気層間の分離の小さな変化を光学力学系が感知できることがわかった。 qfi(quantum fisher information)を変位センシング精度のメリットの数値として用い,セットアップで到達可能な基本的な精度境界について検討した。 光力学的ハミルトニアンに本質的に存在する非線形相互作用は精度を向上し、光学キャビティの純粋な状態の場合、非常に小さな変位検出精度である$\delta d\sim36\times10^{-21}\text{m}$が得られる。 さらに, 本システムにデコヒーレンスを組み込んで, 光学キャビティからの光子漏れがQFIに与える影響について検討した。

Optomechanical systems have been proven to be very useful for precision sensing of a variety of forces and effects. In this work, we propose an opto-magno-mechanical setup for spatial displacement sensing where one mirror of the optical cavity is levitated in vacuum via diamagnetic forces in an inhomogenous magnetic field produced by two layers of permanent magnets. We show that the optomechanical system can sense small changes in separation between the magnet layers, as the mechanical frequency of the levitated mirror shifts with changing magnet layer separation $d$. We use Quantum Fisher Information (QFI) as a figure of merit of the displacement sensing precision, and study the fundamental precision bound that can be reached in our setup. Nonlinear interaction inherently present in the optomechanical Hamiltonian improves the precision, and we show that in the case of a pure state of the optical cavity, one can achieve extremely small displacement sensing precision of $\Delta d\sim36\times10^{-21}\text{m}$. Further, we incorporate decoherence into our system to study the effect of leaking photons from the optical cavity on the QFI.
翻訳日:2023-02-15 16:39:40 公開日:2023-02-14
# HR-NeuS:ニューラルネットワークによる高周波表面形状の復元

HR-NeuS: Recovering High-Frequency Surface Geometry via Neural Implicit Surfaces ( http://arxiv.org/abs/2302.06793v1 )

ライセンス: Link先を確認
Erich Liang, Kenan Deng, Xi Zhang, Chun-Kai Wang(参考訳) マルチビュー3次元再構成のためのニューラル暗黙表面の最近の進歩は、主に大規模な表面再構成の精度向上に焦点を当てているが、細かな表面の詳細を欠く過度に平滑なジオメトリーをしばしば生み出す。 そこで本研究では,大規模再構成精度を維持しつつ高周波表面形状を復元する新しい神経暗黙的表面再構成法であるhr-neus(high- resolution neus)を提案する。 私たちはこれを活用し (i)高周波の位置符号化ではなくマルチレゾリューションのハッシュグリッド符号化は,我々のモデルの局所幾何学的詳細の表現性を高める。 (II)細部を滑らかにすることなく、表面正則化を粗い幾何学に選択的に適用する粗いアルゴリズムの枠組み (iii)ネットワークを訓練するための細かなグリッドアニーリング戦略。 我々は,DTUおよびBlendedMVSデータセットを用いた実験により,従来の手法と同等の精度で定性的に詳細かつ定量的に3次元測地を生成することを示した。

Recent advances in neural implicit surfaces for multi-view 3D reconstruction primarily focus on improving large-scale surface reconstruction accuracy, but often produce over-smoothed geometries that lack fine surface details. To address this, we present High-Resolution NeuS (HR-NeuS), a novel neural implicit surface reconstruction method that recovers high-frequency surface geometry while maintaining large-scale reconstruction accuracy. We achieve this by utilizing (i) multi-resolution hash grid encoding rather than positional encoding at high frequencies, which boosts our model's expressiveness of local geometry details; (ii) a coarse-to-fine algorithmic framework that selectively applies surface regularization to coarse geometry without smoothing away fine details; (iii) a coarse-to-fine grid annealing strategy to train the network. We demonstrate through experiments on DTU and BlendedMVS datasets that our approach produces 3D geometries that are qualitatively more detailed and quantitatively of similar accuracy compared to previous approaches.
翻訳日:2023-02-15 16:39:19 公開日:2023-02-14
# コンテキスト情報に基づくジョイント・コミュニケーション・レーダ(JCR)システムの干渉・ノイズキャンセリング

Interference and noise cancellation for joint communication radar (JCR) system based on contextual information ( http://arxiv.org/abs/2302.06786v1 )

ライセンス: Link先を確認
Christantus O. Nnamani and Mathini Sellathurai(参考訳) 本稿では,無線通信とレーダ信号の分離について検討し,同居を保証し,パナセアとして機能し,スペクトルセンシングを行う。 まず,受信機(通信およびレーダ)がチャネルインパルス応答を把握していることから,ビームフォーミング重みの最適化が信号による干渉を緩和し,システムの物理層セキュリティ(pls)を向上させることを示した。 さらに、チャネル応答が不明な場合、低コンプレックスノイズおよび干渉キャンセルオートエンコーダとして干渉フィルタを設計した。 正当なユーザーに対する干渉を緩和することで、plsは保証された。 その結果,低信号対雑音比においても,低ルート平均二乗誤差(RMSE)が得られた。

This paper examines the separation of wireless communication and radar signals, thereby guaranteeing cohabitation and acting as a panacea to spectrum sensing. First, considering that the channel impulse response was known by the receivers (communication and radar), we showed that the optimizing beamforming weights mitigate the interference caused by signals and improve the physical layer security (PLS) of the system. Furthermore, when the channel responses were unknown, we designed an interference filter as a low-complex noise and interference cancellation autoencoder. By mitigating the interference on the legitimate users, the PLS was guaranteed. Results showed that even for a low signal-to-noise ratio, the autoencoder produces low root-mean-square error (RMSE) values.
翻訳日:2023-02-15 16:38:58 公開日:2023-02-14
# 安定エントロピー仮説とエントロピー認識復号:頑健な自然言語生成のための解析とアルゴリズム

The Stable Entropy Hypothesis and Entropy-Aware Decoding: An Analysis and Algorithm for Robust Natural Language Generation ( http://arxiv.org/abs/2302.06784v1 )

ライセンス: Link先を確認
Kushal Arora, Timothy J. O'Donnell, Doina Precup, Jason Weston, Jackie C.K.Cheung(参考訳) 最先端の言語生成モデルは、テキスト補完、ストーリー生成、ダイアログモデリングといったオープンエンド世代問題に適用されると退化できる。 この退化は通常、不整合、語彙の多様性の欠如、文脈からの自己反復または複製の形で現れる。 本稿では,「人間のような」世代は通常,狭くほぼ平らなエントロピー帯域に存在し,これらのエントロピー境界の違反は退化挙動と相関することを示した。 実験の結果、この安定な狭くエントロピーゾーンはモデル、タスク、ドメインにまたがって存在し、この領域の違反が退化と相関しているという仮説が実証された。 次に、この知見を用いてエントロピー認識復号アルゴリズムを提案する。エントロピー境界を尊重することで、オープンエンドテキスト生成設定において、より縮退し、より文脈的かつ「人間ライク」な言語生成をもたらす。

State-of-the-art language generation models can degenerate when applied to open-ended generation problems such as text completion, story generation, or dialog modeling. This degeneration usually shows up in the form of incoherence, lack of vocabulary diversity, and self-repetition or copying from the context. In this paper, we postulate that ``human-like'' generations usually lie in a narrow and nearly flat entropy band, and violation of these entropy bounds correlates with degenerate behavior. Our experiments show that this stable narrow entropy zone exists across models, tasks, and domains and confirm the hypothesis that violations of this zone correlate with degeneration. We then use this insight to propose an entropy-aware decoding algorithm that respects these entropy bounds resulting in less degenerate, more contextual, and "human-like" language generation in open-ended text generation settings.
翻訳日:2023-02-15 16:38:44 公開日:2023-02-14
# 量子推理

Quantum guesswork ( http://arxiv.org/abs/2302.06783v1 )

ライセンス: Link先を確認
Michele Dall'Arno(参考訳) 推定作業は、一度に1つの状態のみをクエリできる場合、量子アンサンブルの状態を予測する際に発生する最小コストを定量化する。 ここでは、幅広い種類のアンサンブルとコスト関数の推測を導出する。

The guesswork quantifies the minimum cost incurred in guessing the state of a quantum ensemble, when only one state can be queried at a time. Here, we derive the guesswork for a broad class of ensembles and cost functions.
翻訳日:2023-02-15 16:38:26 公開日:2023-02-14
# 2原子崩壊を伴うアンサンブル量子ビットの提案

Proposal of ensemble qubits with two-atom decay ( http://arxiv.org/abs/2302.06781v1 )

ライセンス: Link先を確認
Wei Qin, Adam Miranowicz, and Franco Nori(参考訳) 我々は,アンサンブル量子ビットを実装するための新しい手法を提案し,解析する。 必要な無調和性は、2つの原子(すなわち2原子崩壊)の同時崩壊によって与えられるが、これは完全に量子縮退したパラメトリック増幅によって達成される。 原子アンサンブルでは、二原子崩壊は2次元量子多様体を生成・安定化し、基底状態と単励起超ラジアント状態にまたがる。 さらに、この非線形崩壊過程は、高励起超ラジアント状態への遷移を強く抑制することができ、残差遷移を単一励起超ラジアント状態から基底状態へ有効崩壊に変換することができる。 本手法は, ライドバーグ双極子ブロックを必要とせず, 従来の研究に比べて強い原子-原子間相互作用を示す。 これは、単純な実験的な設定で典型的な原子またはスピンアンサンブルに適用できることを示している。 また,空洞保護機構と互換性があり,不均一な拡張によるスピン脱落を強く抑制することができる。 提示されたアンサンブル量子ビットは、量子情報処理のための新しいプラットフォームを提供し、原子またはスピンアンサンブルの応用範囲を広げる。

We propose and analyze a novel approach to implement ensemble qubits. The required anharmonicity is provided by a simultaneous decay of two atoms (i.e., two-atom decay), which is achieved by fully quantum degenerate parametric amplification. For an atomic ensemble, the two-atom decay generates and stabilizes a 2D quantum manifold, which is spanned by the ground and single-excited superradiant states. Moreover, this nonlinear decay process can strongly suppress transitions to higher-excited superradiant states, and convert residual transitions into an effective decay from the single-excitation superradiant state to the ground state. Our method does not require Rydberg dipole blockade and, thus, strong atom-atom interactions, compared to previous work. This indicates that it can be applied to typical atomic or spin ensembles in simple experimental setups. Remarkably, our idea is compatible with the cavity protection mechanism, and therefore spin dephasing due to inhomogeneous broadening can be strongly suppressed. The presented ensemble qubit provides a new platform for quantum information processing, and also extends the range of applications of atomic or spin ensembles.
翻訳日:2023-02-15 16:38:22 公開日:2023-02-14
# 小さい)構造で下界を破る:重み付き雑音による非凸確率最適化の高速化

Breaking the Lower Bound with (Little) Structure: Acceleration in Non-Convex Stochastic Optimization with Heavy-Tailed Noise ( http://arxiv.org/abs/2302.06763v1 )

ライセンス: Link先を確認
Zijian Liu, Jiawei Zhang, Zhengyuan Zhou(参考訳) 確率勾配の雑音が有界なp$thモーメント(p\in(1,2]$)と仮定される重み付き雑音系において、滑らかだが必ずしも凸な目的を持つ確率最適化問題を考察する。 Zhang et al. (2020) は$\Omega(T^{\frac{1-p}{3p-2}})$ lower bound for convergence (in expectation) を初めて証明し、この最適な速度に一致する単純なクリッピングアルゴリズムを提供する。 cutkosky と mehta (2021) は、ほぼ最適な高確率収束保証 $o(\log(t/\delta)t^{\frac{1-p}{3p-2}})$ を達成する別のアルゴリズムを提案している。 しかし、この望ましい保証は、確率的勾配自体が p$th モーメントに有界であるという追加の仮定の下でのみ確立され、二次目的や中心ガウスノイズに対しても保持されない。 本研究では,Cutkosky と Mehta (2021) におけるアルゴリズムの解析を改善し,上記の制限的仮定なしに,ほぼ最適に近い高確率収束率$O(\log(T/\delta)T^{\frac{1-p}{3p-2}})$を得る。 次に、興味深いことに、目的関数 $f(x)$ が $\mathbb{e}_{\xi\sim\mathcal{d}}[f(x,\xi)]$ の形であると仮定された場合、最小のビット構造だけで、下限の$\omega(t^{\frac{1-p}{3p-2}})$ によって指示されるよりも速い速度が得られる。 このクラスの問題に対して、最初の分散還元促進アルゴリズムを提案し、その確率収束率を$O(\log(T/\delta)T^{\frac{1-p}{2p-1}})$で保証し、$Omega(T^{\frac{1-p}{3p-2}})$より高速である。 特に、有限分散の場合に特化しても、我々の結果は(準)最適高確率率$O(\log(T/\delta)T^{-1/3})$となる。

We consider the stochastic optimization problem with smooth but not necessarily convex objectives in the heavy-tailed noise regime, where the stochastic gradient's noise is assumed to have bounded $p$th moment ($p\in(1,2]$). Zhang et al. (2020) is the first to prove the $\Omega(T^{\frac{1-p}{3p-2}})$ lower bound for convergence (in expectation) and provides a simple clipping algorithm that matches this optimal rate. Cutkosky and Mehta (2021) proposes another algorithm, which is shown to achieve the nearly optimal high-probability convergence guarantee $O(\log(T/\delta)T^{\frac{1-p}{3p-2}})$, where $\delta$ is the probability of failure. However, this desirable guarantee is only established under the additional assumption that the stochastic gradient itself is bounded in $p$th moment, which fails to hold even for quadratic objectives and centered Gaussian noise. In this work, we first improve the analysis of the algorithm in Cutkosky and Mehta (2021) to obtain the same nearly optimal high-probability convergence rate $O(\log(T/\delta)T^{\frac{1-p}{3p-2}})$, without the above-mentioned restrictive assumption. Next, and curiously, we show that one can achieve a faster rate than that dictated by the lower bound $\Omega(T^{\frac{1-p}{3p-2}})$ with only a tiny bit of structure, i.e., when the objective function $F(x)$ is assumed to be in the form of $\mathbb{E}_{\Xi\sim\mathcal{D}}[f(x,\Xi)]$, arguably the most widely applicable class of stochastic optimization problems. For this class of problems, we propose the first variance-reduced accelerated algorithm and establish that it guarantees a high-probability convergence rate of $O(\log(T/\delta)T^{\frac{1-p}{2p-1}})$ under a mild condition, which is faster than $\Omega(T^{\frac{1-p}{3p-2}})$. Notably, even when specialized to the finite-variance case, our result yields the (near-)optimal high-probability rate $O(\log(T/\delta)T^{-1/3})$.
翻訳日:2023-02-15 16:38:02 公開日:2023-02-14
# オントロジー推定のための言語モデル解析

Language Model Analysis for Ontology Subsumption Inference ( http://arxiv.org/abs/2302.06761v1 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Ernesto Jim\'enez-Ruiz, Hang Dong, Ian Horrocks(参考訳) 事前学習された言語モデル(LM)は、様々な自然言語処理(NLP)ドメインにおいて大きな進歩を遂げてきたが、概念知識の表現やデータグラフのスキーマとして用いられるオントロジーにおける形式的意味論の推測がどの程度可能かは定かではない。 LMのオントロジーに関する知識を調べるために,原子と複雑な概念の両方を含むオントロジーの仮定に基づく探索タスクとデータセットのセットであるOntoLAMAを提案する。 我々は,異なる領域やスケールのオントロジーに関する広範な実験を行い,本研究の結果は,従来の自然言語推論 (NLI) よりも,仮定推論 (SI) の背景知識が比較的少ないが,少数のサンプルが与えられた場合に,SIを著しく改善できることを示した。 コードとデータセットをオープンソースにします。

Pre-trained language models (LMs) have made significant advances in various Natural Language Processing (NLP) domains, but it is unclear to what extent they can infer formal semantics in ontologies, which are often used to represent conceptual knowledge and serve as the schema of data graphs. To investigate an LM's knowledge of ontologies, we propose OntoLAMA, a set of inference-based probing tasks and datasets from ontology subsumption axioms involving both atomic and complex concepts. We conduct extensive experiments on ontologies of different domains and scales, and our results demonstrate that LMs encode relatively less background knowledge of Subsumption Inference (SI) than traditional Natural Language Inference (NLI) but can improve on SI significantly when a small number of samples are given. We will open-source our code and datasets.
翻訳日:2023-02-15 16:37:09 公開日:2023-02-14
# 手続き文理解における意味的構文解析の役割

The Role of Semantic Parsing in Understanding Procedural Text ( http://arxiv.org/abs/2302.06829v1 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Parisa Kordjamshidi, Choh Man Teng, and James Allen(参考訳) 本稿では,深い意味解析から抽出された記号的意味表現が,手続き的テキストにおける関連エンティティの状態の推論に有効かどうかを考察する。 我々は,意味解析知識の2つの源として,深い意味解析~(TRIPS)と意味的役割ラベルを考える。 まず,記号解析に基づく手続き推論フレームワーク PROPOLIS を提案する。 第2に,意味解析情報を最先端のニューラルモデルに統合し,手続き的推論を行う。 このような意味的知識を明示的に取り入れることで手続き的理解が向上することを示す。 本稿では,課題を明確にし,ニューラルモデル,シンボリックモデル,統合モデルの違いを識別する手続き的推論タスクを評価するための新しい指標を提案する。

In this paper, we investigate whether symbolic semantic representations, extracted from deep semantic parsers, can help reasoning over the states of involved entities in a procedural text. We consider a deep semantic parser~(TRIPS) and semantic role labeling as two sources of semantic parsing knowledge. First, we propose PROPOLIS, a symbolic parsing-based procedural reasoning framework. Second, we integrate semantic parsing information into state-of-the-art neural models to conduct procedural reasoning. Our experiments indicate that explicitly incorporating such semantic knowledge improves procedural understanding. This paper presents new metrics for evaluating procedural reasoning tasks that clarify the challenges and identify differences among neural, symbolic, and integrated models.
翻訳日:2023-02-15 16:31:09 公開日:2023-02-14
# B-BACN:欠陥評価のためのベイズ境界対応畳み込みネットワーク

B-BACN: Bayesian Boundary-Aware Convolutional Network for Defect Characterization ( http://arxiv.org/abs/2302.06827v1 )

ライセンス: Link先を確認
Rahul Rathnakumar, Yutian Pang, Yongming Liu(参考訳) 正確なき裂境界の検出は、状態監視、診断、メンテナンススケジューリングにおいて重要である。 本研究では, この問題を解決するためにベイズ境界対応畳み込みネットワーク(B-BACN)を提案する。 マルチタスク学習を用いて検査モデルを定式化する。 認識的不確実性はモンテカルロのドロップアウトを用いて学習され、モデルはまた各サンプルのアレエータ的不確実性を予測することを学ぶ。 欠陥境界の決定を改善するために境界精細損失を追加する。 実験の結果, き裂境界の同定, 誤分類, モデル校正の精度向上に有効性が示された。

Detecting accurate crack boundaries is important for condition monitoring, prognostics, and maintenance scheduling. In this work, we propose a Bayesian Boundary-Aware Convolutional Network (B-BACN) to tackle this problem, that emphasizes the importance of both uncertainty quantification and boundary refinement for producing accurate and trustworthy detections of defect boundaries. We formulate the inspection model using multi-task learning. The epistemic uncertainty is learned using Monte Carlo Dropout, and the model also learns to predict each samples aleatoric uncertainty. A boundary refinement loss is added to improve the determination of defect boundaries. Experimental results demonstrate the effectiveness of the proposed method in accurately identifying crack boundaries, reducing misclassification and enhancing model calibration.
翻訳日:2023-02-15 16:30:59 公開日:2023-02-14
# DiffFashion:拡散モデルによる構造認識を用いた参照型ファッション設計

DiffFashion: Reference-based Fashion Design with Structure-aware Transfer by Diffusion Models ( http://arxiv.org/abs/2302.06826v1 )

ライセンス: Link先を確認
Shidong Cao, Wenhao Chai, Shengyu Hao, Yanting Zhang, Hangyue Chen, and Gaoang Wang(参考訳) 近年,AI技術を用いたイメージベースファッションデザインが注目されている。 着衣画像の構造を保ちながら,参照外観画像を着衣画像に転送することを目的とした,新しいファッションデザイン課題に着目する。 新しく設計された出力ファッション画像には参照画像がないため、これは難しい課題である。 拡散型画像変換やニューラルスタイル転送(NST)はフレキシブルなスタイル転送を実現しているが、特に参照された外観画像が一般的な衣服の外観と大きく異なる場合、逆拡散中に画像の本来の構造を現実的に維持することはしばしば困難である。 この問題に対処するために,提案した衣服画像と参照外観画像から,新たな衣服を意味的に生成する,新しい拡散モデルに基づく非教師付き構造認識トランスファー手法を提案する。 具体的には、条件付きラベルで自動的に生成されるセマンティックマスクで前景の服を分離する。 そして、このマスクは、構造情報を保存するためのノイズ処理のガイダンスとして、さらに使用される。 さらに,事前学習型視覚変換器(ViT)を外観と構造誘導の両方に使用する。 実験の結果,提案手法は最先端のベースラインモデルより優れ,ファッションデザインタスクにおいてよりリアルな画像を生成することがわかった。 コードとデモはhttps://github.com/rem105-210/difffashionで見ることができる。

Image-based fashion design with AI techniques has attracted increasing attention in recent years. We focus on a new fashion design task, where we aim to transfer a reference appearance image onto a clothing image while preserving the structure of the clothing image. It is a challenging task since there are no reference images available for the newly designed output fashion images. Although diffusion-based image translation or neural style transfer (NST) has enabled flexible style transfer, it is often difficult to maintain the original structure of the image realistically during the reverse diffusion, especially when the referenced appearance image greatly differs from the common clothing appearance. To tackle this issue, we present a novel diffusion model-based unsupervised structure-aware transfer method to semantically generate new clothes from a given clothing image and a reference appearance image. In specific, we decouple the foreground clothing with automatically generated semantic masks by conditioned labels. And the mask is further used as guidance in the denoising process to preserve the structure information. Moreover, we use the pre-trained vision Transformer (ViT) for both appearance and structure guidance. Our experimental results show that the proposed method outperforms state-of-the-art baseline models, generating more realistic images in the fashion design task. Code and demo can be found at https://github.com/Rem105-210/DiffFashion.
翻訳日:2023-02-15 16:30:46 公開日:2023-02-14
# RGBによるモデルベース水中6次元位置推定

Model-Based Underwater 6D Pose Estimation from RGB ( http://arxiv.org/abs/2302.06821v1 )

ライセンス: Link先を確認
Davide Sapienza, Elena Govi, Sara Aldhaheri, Giorgia Franchini, Marko Bertognaz, Eloy Roura, \`Eric Pairet, Micaela Verucchi, Paola Ard\'on(参考訳) 水中でのオブジェクトのポーズ推定により、自律システムは追跡と介入のタスクを実行できる。 それにもかかわらず、水中のターゲットのポーズ推定は、可視性、光散乱、乱雑な環境、絶えず変化する水環境など、多くの要因の中で著しく困難である。 ソナーやレーザーセンシングを駆使して3dデータを取得するアプローチだが、コストがかかるだけでなく、通常はノイズが発生する。 そのため、コミュニティはRGB入力からポーズ推定を抽出することに重点を置いている。 しかし、文献は乏しく、検出精度も低い。 本研究では,2次元物体検出と6次元ポーズ推定からなるアプローチを提案し,異なる水中シナリオにおける物体のポーズを確実に取得する。 パイプラインをテストするために、オブジェクト検出とポーズ推定のためのアノテーションを備えた10の異なる実シーンで4つのオブジェクトのデータセットを収集し、利用可能にします。 提案手法を実環境および合成環境でテストし,その性能を6次元物体ポーズ推定のエンド・ツー・エンド手法と比較した。 私たちのデータセットには、対称な形状と質感の悪いいくつかの挑戦的なオブジェクトが含まれています。 提案手法は, 対象物の特徴にかかわらず, 精度を約8%向上させる。 着地作業において水中操作による実験を行うことで,ポーズ推定パイプラインの信頼性を実証した。

Object pose estimation underwater allows an autonomous system to perform tracking and intervention tasks. Nonetheless, underwater target pose estimation is remarkably challenging due to, among many factors, limited visibility, light scattering, cluttered environments, and constantly varying water conditions. An approach is to employ sonar or laser sensing to acquire 3D data, but besides being costly, the resulting data is normally noisy. For this reason, the community has focused on extracting pose estimates from RGB input. However, the literature is scarce and exhibits low detection accuracy. In this work, we propose an approach consisting of a 2D object detection and a 6D pose estimation that reliably obtains object poses in different underwater scenarios. To test our pipeline, we collect and make available a dataset of 4 objects in 10 different real scenes with annotations for object detection and pose estimation. We test our proposal in real and synthetic settings and compare its performance with similar end-to-end methodologies for 6D object pose estimation. Our dataset contains some challenging objects with symmetrical shapes and poor texture. Regardless of such object characteristics, our proposed method outperforms stat-of-the-art pose accuracy by ~8%. We finally demonstrate the reliability of our pose estimation pipeline by doing experiments with an underwater manipulation in a reaching task.
翻訳日:2023-02-15 16:30:23 公開日:2023-02-14
# 短期電力需要に対するマスク付きマルチステップ確率予測

Masked Multi-Step Probabilistic Forecasting for Short-to-Mid-Term Electricity Demand ( http://arxiv.org/abs/2302.06818v1 )

ライセンス: Link先を確認
Yiwei Fu, Nurali Virani, Honggang Wang(参考訳) 不確実性を伴う電力需要の予測は、電力供給を消費者に提供するためのグリッドの計画と運用に役立つ。 機械学習(ml)ベースの需要予測アプローチは、(1)各予測を独立に行うサンプルベースアプローチ、(2)過去の負荷やその他の特徴情報を使用する時系列回帰アプローチに分類できる。 短期的な電力需要予測を行う場合には、天気予報やカレンダー変数など、将来の情報が提供される。 しかし、既存の予測モデルでは、この将来の情報は完全には組み込まれていない。 このような既存手法の限界を克服するために,過去からの時間的情報と未来に関する既知の情報を組み合わせて確率的予測を行う,一連の出力を生成するニューラルネットワークモデルをトレーニングするための,新しい一般フレームワークであるMasked Multi-Step Multi-Step Probabilistic Forecasting (MMMPF)を提案する。 複数の地域での短期的な電力需要予測のための実世界のデータセット上で実験を行い、様々なML手法と比較した。 提案したMMMPFフレームワークは,サンプルベース手法だけでなく,全く同じベースモデルを持つ既存の時系列予測モデルよりも優れていることを示す。 MMMPFでトレーニングされたモデルは、不確実性を捉え、将来のグリッドの確率的計画を可能にするために、望ましい量子化を生成することもできる。

Predicting the demand for electricity with uncertainty helps in planning and operation of the grid to provide reliable supply of power to the consumers. Machine learning (ML)-based demand forecasting approaches can be categorized into (1) sample-based approaches, where each forecast is made independently, and (2) time series regression approaches, where some historical load and other feature information is used. When making a short-to-mid-term electricity demand forecast, some future information is available, such as the weather forecast and calendar variables. However, in existing forecasting models this future information is not fully incorporated. To overcome this limitation of existing approaches, we propose Masked Multi-Step Multivariate Probabilistic Forecasting (MMMPF), a novel and general framework to train any neural network model capable of generating a sequence of outputs, that combines both the temporal information from the past and the known information about the future to make probabilistic predictions. Experiments are performed on a real-world dataset for short-to-mid-term electricity demand forecasting for multiple regions and compared with various ML methods. They show that the proposed MMMPF framework outperforms not only sample-based methods but also existing time-series forecasting models with the exact same base models. Models trainded with MMMPF can also generate desired quantiles to capture uncertainty and enable probabilistic planning for grid of the future.
翻訳日:2023-02-15 16:30:05 公開日:2023-02-14
# 都市景観における異常セグメンテーションのためのエネルギー誘導による自己監督的嗜好推定

Self-supervised Likelihood Estimation with Energy Guidance for Anomaly Segmentation in Urban Scenes ( http://arxiv.org/abs/2302.06815v1 )

ライセンス: Link先を確認
Yuanpeng Tu, Yuxi Li, Boshen Zhang, Liang Liu, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao(参考訳) ロバストな自動運転は、都市部における予期せぬエリアを正確に識別するエージェントを必要とする。 この目的のために、いくつかの重要な問題が開かれている: 適応可能なメトリクスを設計して異常を計測する方法と、異常データのトレーニングサンプルを適切に生成する方法? 以前の作業では、通常、分類タスクからの不確実性推定とサンプル合成に頼り、コンテキスト情報を無視し、細かなアノテーションを持つ補助データセットを必要とする。 一方,本論文では,セグメンテーションタスクの強い文脈依存性を活用し,自己生成した異常画素の可能性を最大化して異常ヘッドを最適化する,エネルギー誘導型異常セグメンテーションのための自己組織化フレームワークを設計する。 この目的のために,単純なタスク非依存な二分推定器とタスク指向エネルギーモデルの残差として異常推定を表現した2つの推定器を設計する。 提案手法に基づき,提案手法を精度の高いマスクリファインメントプロセスと統合し,モデルの学習に有用なアノマリー画素を抽出する。 魚の風景や道路異常のベンチマークを徹底的に実験し、補助データや合成モデルがなければ、他のsoma方式と競合する性能が得られることを示した。

Robust autonomous driving requires agents to accurately identify unexpected areas in urban scenes. To this end, some critical issues remain open: how to design advisable metric to measure anomalies, and how to properly generate training samples of anomaly data? Previous effort usually resorts to uncertainty estimation and sample synthesis from classification tasks, which ignore the context information and sometimes requires auxiliary datasets with fine-grained annotations. On the contrary, in this paper, we exploit the strong context-dependent nature of segmentation task and design an energy-guided self-supervised frameworks for anomaly segmentation, which optimizes an anomaly head by maximizing the likelihood of self-generated anomaly pixels. To this end, we design two estimators for anomaly likelihood estimation, one is a simple task-agnostic binary estimator and the other depicts anomaly likelihood as residual of task-oriented energy model. Based on proposed estimators, we further incorporate our framework with likelihood-guided mask refinement process to extract informative anomaly pixels for model training. We conduct extensive experiments on challenging Fishyscapes and Road Anomaly benchmarks, demonstrating that without any auxiliary data or synthetic models, our method can still achieves competitive performance to other SOTA schemes.
翻訳日:2023-02-15 16:29:41 公開日:2023-02-14
# 非局所Rydberg媒体における最適光フェライトホイールソリトン

Optimal optical Ferris wheel solitons in a nonlocal Rydberg medium ( http://arxiv.org/abs/2302.06813v1 )

ライセンス: Link先を確認
Jia-Bin Qiu, Lu Qin, Xing-Dong Zhao, Jing Qian(参考訳) 本稿では,非局所Rydberg電磁誘導透過(EIT)媒体における安定な光フェライトホイール(OFW)ソリトンの生成手法を提案する。 原子密度と1光子デチューニングの両方に対する慎重な最適化により、ライドバーグ状態における強い原子間相互作用によって得られる適切な非局所ポテンシャルを得ることができ、プローブofw場の回折を完全に補うことができる。 数値計算の結果, 拡散距離が160以上の場合, 忠実度は0.96以上であることがわかった。 任意の巻数を持つ高次 OFWソリトンについても論じる。 本研究では,寒冷リドベルクガスの非局所応答領域において,空間光学ソリトンを生成するための簡単な経路を提供する。

We propose a scheme for the creation of stable optical Ferris wheel(OFW) solitons in a nonlocal Rydberg electromagnetically induced transparency(EIT) medium. Depending on a careful optimization to both the atomic density and the one-photon detuning, we obtain an appropriate nonlocal potential provided by the strong interatomic interaction in Rydberg states which can perfectly compensate for the diffraction of the probe OFW field. Numerical results show that the fidelity keeps larger than 0.96 while the propagation distance has exceeded 160 diffraction lengths. Higher-order OFW solitons with arbitrary winding numbers are also discussed. Our study provides a straightforward route to generate spatial optical solitons in the nonlocal response region of cold Rydberg gases.
翻訳日:2023-02-15 16:29:19 公開日:2023-02-14
# 制約付きスケーラブルな最適マルチウェイ分割決定木

Scalable Optimal Multiway-Split Decision Trees with Constraints ( http://arxiv.org/abs/2302.06812v1 )

ライセンス: Link先を確認
Shivaram Subramanian, Wei Sun(参考訳) 近年、ヒューリスティックな手法は最適性を保証せず、多くの実用アプリケーションにとって重要な制約を組み込むことが難しいため、MIP(Mix-integer Program)を用いた最適決定木学習への関心が高まっている。 しかし、arcベースの定式化に基づいて構築された既存のmipメソッドは、二進変数の数が$\mathcal{o}(2^dn)$の順であり、ここでは$d$と$n$は木の深さとデータセットのサイズを参照する。 さらに、サンプルレベルの制約と線形メトリクスのみを処理できる。 本稿では,決定変数の数が$N$に依存しない経路に基づく新しいMIP定式化を提案する。 MIPを最適に解くために,スケーラブルな列生成フレームワークを提案する。 本フレームワークは, 規則が短いため, 通常の二分木よりも解釈しやすいマルチウェイスプリットツリーを生成する。 提案手法はF1スコアなどの非線形メトリクスを処理でき,より広範な制約を組み込むことができる。 我々はその効果を広範な実験で実証した。 既存のmipベースの決定木モデルでは数千ポイントを超えるデータではスケールしないが,最大1,008,372 個のサンプルを含むデータセットについて結果を示す。 現状のMIPベースの手法と比較して,実行時の最大24倍の削減率を示す。

There has been a surge of interest in learning optimal decision trees using mixed-integer programs (MIP) in recent years, as heuristic-based methods do not guarantee optimality and find it challenging to incorporate constraints that are critical for many practical applications. However, existing MIP methods that build on an arc-based formulation do not scale well as the number of binary variables is in the order of $\mathcal{O}(2^dN)$, where $d$ and $N$ refer to the depth of the tree and the size of the dataset. Moreover, they can only handle sample-level constraints and linear metrics. In this paper, we propose a novel path-based MIP formulation where the number of decision variables is independent of $N$. We present a scalable column generation framework to solve the MIP optimally. Our framework produces a multiway-split tree which is more interpretable than the typical binary-split trees due to its shorter rules. Our method can handle nonlinear metrics such as F1 score and incorporate a broader class of constraints. We demonstrate its efficacy with extensive experiments. We present results on datasets containing up to 1,008,372 samples while existing MIP-based decision tree models do not scale well on data beyond a few thousand points. We report superior or competitive results compared to the state-of-art MIP-based methods with up to a 24X reduction in runtime.
翻訳日:2023-02-15 16:29:06 公開日:2023-02-14
# 分離メタラベル除去器を用いた雑音ラベルからの学習

Learning from Noisy Labels with Decoupled Meta Label Purifier ( http://arxiv.org/abs/2302.06810v1 )

ライセンス: Link先を確認
Yuanpeng Tu, Boshen Zhang, Yuxi Li, Liang Liu, Jian Li, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao(参考訳) ディープニューラルネットワーク(DNN)をノイズラベルでトレーニングすることは、DNNが不正確なラベルを記憶しやすく、一般化能力の低下につながるため、難しい。 近年,メタラーニングに基づくラベル修正戦略が広く採用され,潜在的なノイズラベルの識別と修正を,少数のクリーンな検証データの助けを借りて行っている。 純粋ラベルを用いたトレーニングはパフォーマンスを効果的に向上させることができるが、メタラーニングの問題を解決するには、必然的にモデルウェイトとハイパーパラメータ(ラベル分布)の間の二段階最適化のネストループが伴う。 妥協点として、以前の方法では、交互更新を伴う結合学習プロセスを採用している。 本稿では,モデル重みとラベル分布の両方に対する同時最適化が最適ルーチンを達成することができないことを実証的に見出し,バックボーンの表現能力と補正ラベルの精度を制限した。 本報告では, DMLPと呼ばれる多段ラベルの新規精製法を提案する。 DMLPはラベル訂正プロセスをラベルなし表現学習と単純なメタラベル精製器に分離する。 このようにして、DMLPは2つの異なる段階において識別的特徴とラベル補正を抽出することに集中することができる。 DMLPはプラグ・アンド・プレイ・ラベル・パーファイアであり、この精製されたラベルは、直感的なエンドツーエンドのネットワークリトレーニングや他の堅牢な学習手法で直接再利用することができる。

Training deep neural networks(DNN) with noisy labels is challenging since DNN can easily memorize inaccurate labels, leading to poor generalization ability. Recently, the meta-learning based label correction strategy is widely adopted to tackle this problem via identifying and correcting potential noisy labels with the help of a small set of clean validation data. Although training with purified labels can effectively improve performance, solving the meta-learning problem inevitably involves a nested loop of bi-level optimization between model weights and hyper-parameters (i.e., label distribution). As compromise, previous methods resort to a coupled learning process with alternating update. In this paper, we empirically find such simultaneous optimization over both model weights and label distribution can not achieve an optimal routine, consequently limiting the representation ability of backbone and accuracy of corrected labels. From this observation, a novel multi-stage label purifier named DMLP is proposed. DMLP decouples the label correction process into label-free representation learning and a simple meta label purifier. In this way, DMLP can focus on extracting discriminative feature and label correction in two distinctive stages. DMLP is a plug-and-play label purifier, the purified labels can be directly reused in naive end-to-end network retraining or other robust learning methods, where state-of-the-art results are obtained on several synthetic and real-world noisy datasets, especially under high noise levels.
翻訳日:2023-02-15 16:28:44 公開日:2023-02-14
# 双曲空間における大マージン分類のためのhorocycle decision boundary

Horocycle Decision Boundaries for Large Margin Classification in Hyperbolic Space ( http://arxiv.org/abs/2302.06807v1 )

ライセンス: Link先を確認
Xiran Fan, Chun-Hao Yang, Baba C. Vemuri(参考訳) 双曲空間は階層的に整理されたデータを表現するために近年非常に人気がある。 さらに,これらの空間におけるデータの分類アルゴリズムも提案されている。 これらのアルゴリズムは主に、非凸最適化問題に繋がる大きなマージン分類器において、決定境界に超平面または測地線を使用する。 本稿では,大域的最適解を保証した任意のリーマン勾配降下法を用いて最適化可能な測地線凸最適化問題につながる,horocycle (horosphere) 決定境界に基づく新しい大域マージン分類器を提案する。 分類器の性能を示す実験をいくつか紹介する。

Hyperbolic spaces have been quite popular in the recent past for representing hierarchically organized data. Further, several classification algorithms for data in these spaces have been proposed in the literature. These algorithms mainly use either hyperplanes or geodesics for decision boundaries in a large margin classifiers setting leading to a non-convex optimization problem. In this paper, we propose a novel large margin classifier based on horocycle (horosphere) decision boundaries that leads to a geodesically convex optimization problem that can be optimized using any Riemannian gradient descent technique guaranteeing a globally optimal solution. We present several experiments depicting the performance of our classifier.
翻訳日:2023-02-15 16:28:19 公開日:2023-02-14
# バイオメディカル文書からの大規模知識合成と複雑な情報検索

Large-Scale Knowledge Synthesis and Complex Information Retrieval from Biomedical Documents ( http://arxiv.org/abs/2302.06854v1 )

ライセンス: Link先を確認
Shreya Saxena, Raj Sangani, Siva Prasad, Shubham Kumar, Mihir Athale, Rohan Awhad, Vishal Vaddina(参考訳) 医療産業の最近の進歩は、構造化されていないデータが多くなり、大規模な情報検索の効率化や高精度化が困難になっている。 私たちの研究は、大規模研究文書から複雑な情報を抽出し、探索するためのオールインワンのスケーラブルなソリューションを提供しています。 まず,研究資料の構造化されていないテキストデータから有用な情報を取り出すための知識合成プロセスについて概説する。 そして,文書から抽出した知識に加えて,3つの主要成分であるParagraph Retrieval,Triplet Retrieval from Knowledge Graphs,複雑質問回答(QA)を用いて複雑な情報検索を行う。 これらのコンポーネントは語彙と意味に基づく手法を組み合わせて段落と三つ子を検索し、これらの検索結果をフィルタリングするための顔の精製を行う。 バイオメディカルクエリとドキュメントの複雑さは、ファクトイドクエリよりも複雑なクエリを処理できるQAシステムを用いて必要であり、その妥当性と付加価値を実証するために、COVID-19 Open Research Dataset (CORD-19)で定性的に評価する。

Recent advances in the healthcare industry have led to an abundance of unstructured data, making it challenging to perform tasks such as efficient and accurate information retrieval at scale. Our work offers an all-in-one scalable solution for extracting and exploring complex information from large-scale research documents, which would otherwise be tedious. First, we briefly explain our knowledge synthesis process to extract helpful information from unstructured text data of research documents. Then, on top of the knowledge extracted from the documents, we perform complex information retrieval using three major components- Paragraph Retrieval, Triplet Retrieval from Knowledge Graphs, and Complex Question Answering (QA). These components combine lexical and semantic-based methods to retrieve paragraphs and triplets and perform faceted refinement for filtering these search results. The complexity of biomedical queries and documents necessitates using a QA system capable of handling queries more complex than factoid queries, which we evaluate qualitatively on the COVID-19 Open Research Dataset (CORD-19) to demonstrate the effectiveness and value-add.
翻訳日:2023-02-15 16:21:40 公開日:2023-02-14
# 人工知能を使って気候変化点の科学的発見を支援する

Using Artificial Intelligence to aid Scientific Discovery of Climate Tipping Points ( http://arxiv.org/abs/2302.06852v1 )

ライセンス: Link先を確認
Jennifer Sleeman, David Chung, Chace Ashcraft, Jay Brett, Anand Gnanadesikan, Yannis Kevrekidis, Marisa Hughes, Thomas Haine, Marie-Aude Pradal, Renske Gelderloos, Caroline Tang, Anshu Saksena, Larry White(参考訳) 本稿では,深層ニューラルネットワークと動的システムモデリングの数学的手法を組み合わせた,気候目標シミュレーション手法を用いて,科学的発見における気候モデル作成を可能にするハイブリッド人工知能(AI)気候モデリング手法を提案する。 シミュレーションは、どちらもAIメソッドで学んだことに対する質問応答を可能にし、説明可能性を提供するニューロシンボリック言語によって基礎付けられている。 本稿では,この手法が気候の転換点の発見,特にアトランティック・メリディショナル・オーバーターン・サーキュレーション(AMOC)の崩壊にどのように応用できるかを説明する。 この手法が,海洋相互作用のための代理気候モデルを用いて,高い精度でAMOC崩壊を予測することができることを示す。 また,自然言語質問と記号的学習表現の翻訳におけるニューロシンボリックな手法性能の予備的結果を示す。 我々のAI手法は、将来有望な早期結果を示し、それ以外は計算不可能な、より早い気候の転換点に関する研究を可能にする可能性がある。

We propose a hybrid Artificial Intelligence (AI) climate modeling approach that enables climate modelers in scientific discovery using a climate-targeted simulation methodology based on a novel combination of deep neural networks and mathematical methods for modeling dynamical systems. The simulations are grounded by a neuro-symbolic language that both enables question answering of what is learned by the AI methods and provides a means of explainability. We describe how this methodology can be applied to the discovery of climate tipping points and, in particular, the collapse of the Atlantic Meridional Overturning Circulation (AMOC). We show how this methodology is able to predict AMOC collapse with a high degree of accuracy using a surrogate climate model for ocean interaction. We also show preliminary results of neuro-symbolic method performance when translating between natural language questions and symbolically learned representations. Our AI methodology shows promising early results, potentially enabling faster climate tipping point related research that would otherwise be computationally infeasible.
翻訳日:2023-02-15 16:21:20 公開日:2023-02-14
# YOWOv2: リアルタイム時空間行動検出のためのより強力で効率的なマルチレベル検出フレームワーク

YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection ( http://arxiv.org/abs/2302.06848v1 )

ライセンス: Link先を確認
Jianhua Yang and Kun Dai(参考訳) 時空間行動検出タスクのためのリアルタイムフレームワークの設計は依然として課題である。 本稿では,新しいリアルタイム行動検出フレームワークであるyowov2を提案する。 この新しいフレームワークでは、YOWOv2は3Dバックボーンと2Dバックボーンの両方を利用して正確なアクション検出を行う。 マルチレベル検出パイプラインは、異なるスケールのアクションインスタンスを検出するように設計されている。 この目的を達成するために、我々は特徴ピラミッドネットワークを用いたシンプルで効率的な2Dバックボーンを慎重に構築し、異なるレベルの分類特徴と回帰特徴を抽出する。 3Dバックボーンには、開発時間を節約するために既存の効率的な3D CNNを採用しています。 異なるサイズの3Dバックボーンと2Dバックボーンを組み合わせることで、YOWOv2-Tiny、YOWOv2-Medium、YOWOv2-Largeを含むYOWOv2ファミリーを設計する。 また、YOWOv2を高度なモデルアーキテクチャ設計と整合させるため、人気のある動的ラベル割り当て戦略とアンカーフリー機構を導入する。 改良により、YOWOv2はYOWOよりも大幅に優れ、リアルタイム検出を継続できる。 ベルとホイッスルがなければ、YOWOv2 は UCF101-24 で 87.0 % のフレーム mAP と 52.8 % のビデオ mAP を達成する。 AVAでは、YOWOv2は21.7%のフレームmAPを獲得し、20FPSを超える。 私たちのコードはhttps://github.com/yjh0410/YOWOv2で利用可能です。

Designing a real-time framework for the spatio-temporal action detection task is still a challenge. In this paper, we propose a novel real-time action detection framework, YOWOv2. In this new framework, YOWOv2 takes advantage of both the 3D backbone and 2D backbone for accurate action detection. A multi-level detection pipeline is designed to detect action instances of different scales. To achieve this goal, we carefully build a simple and efficient 2D backbone with a feature pyramid network to extract different levels of classification features and regression features. For the 3D backbone, we adopt the existing efficient 3D CNN to save development time. By combining 3D backbones and 2D backbones of different sizes, we design a YOWOv2 family including YOWOv2-Tiny, YOWOv2-Medium, and YOWOv2-Large. We also introduce the popular dynamic label assignment strategy and anchor-free mechanism to make the YOWOv2 consistent with the advanced model architecture design. With our improvement, YOWOv2 is significantly superior to YOWO, and can still keep real-time detection. Without any bells and whistles, YOWOv2 achieves 87.0 % frame mAP and 52.8 % video mAP with over 20 FPS on the UCF101-24. On the AVA, YOWOv2 achieves 21.7 % frame mAP with over 20 FPS. Our code is available on https://github.com/yjh0410/YOWOv2.
翻訳日:2023-02-15 16:21:04 公開日:2023-02-14
# 大マージン正則化による検索転送可能な混合精度量子化政策

Searching Transferable Mixed-Precision Quantization Policy through Large Margin Regularization ( http://arxiv.org/abs/2302.06845v1 )

ライセンス: Link先を確認
Chen Tang, Kai Ouyang, Zenghao Chai, Yunpeng Bai, Zhi Wang(参考訳) 混合精度量子化(MPQ)は、大規模なデータセット(例えばISLVRC-2012)上の時間を要するポリシー探索プロセス(すなわち各レイヤのビット幅割当)に悩まされ、現実のデプロイメントシナリオにおける実行可能性を大幅に制限する。 本稿では,大規模モデルで訓練されたモデルに対して,小さなプロキシデータセットを用いてMPQポリシーを探索することを提案する。 モデルトレーニングとMPQポリシー検索時間において一貫したデータセットを必要とするルーチンを破り、MPQ検索効率を大幅に改善する。 しかし、データ分散の相違は、そのような転送可能なMPQポリシーを探すのに困難をもたらす。 量子化がクラスマージンを狭め、決定境界を曖昧にするという観察に動機付けられ、一般性およびデータセット非依存性を保証するポリシーを探索する:特徴表現の識別可能性。 すなわち,クラス内コンパクト性とクラス間分離を堅牢に維持する政策を模索する。 提案手法は,高プロキシデータ利用,高パラメータチューニングを不要にすることで,完全精度と量子化モデルの関係を近似し,探索効率を向上する。 我々は,大規模ターゲットデータセットと比較してデータスケールのわずか4%のプロキシデータセットを用いて高品質mpqポリシを検索し,後者の検索と同等の精度を実現し,mpq検索効率を最大300倍向上させる。

Mixed-precision quantization (MPQ) suffers from time-consuming policy search process (i.e., the bit-width assignment for each layer) on large-scale datasets (e.g., ISLVRC-2012), which heavily limits its practicability in real-world deployment scenarios. In this paper, we propose to search the effective MPQ policy by using a small proxy dataset for the model trained on a large-scale one. It breaks the routine that requires a consistent dataset at model training and MPQ policy search time, which can improve the MPQ searching efficiency significantly. However, the discrepant data distributions bring difficulties in searching for such a transferable MPQ policy. Motivated by the observation that quantization narrows the class margin and blurs the decision boundary, we search the policy that guarantees a general and dataset-independent property: discriminability of feature representations. Namely, we seek the policy that can robustly keep the intra-class compactness and inter-class separation. Our method offers several advantages, i.e., high proxy data utilization, no extra hyper-parameter tuning for approximating the relationship between full-precision and quantized model and high searching efficiency. We search high-quality MPQ policies with the proxy dataset that has only 4% of the data scale compared to the large-scale target dataset, achieving the same accuracy as searching directly on the latter, and improving the MPQ searching efficiency by up to 300 times.
翻訳日:2023-02-15 16:20:39 公開日:2023-02-14
# 深層学習による長期的集団動物行動予測

Predicting long-term collective animal behavior with deep learning ( http://arxiv.org/abs/2302.06839v1 )

ライセンス: Link先を確認
Vaios Papaspyros, Ram\'on Escobedo, Alexandre Alahi, Guy Theraulaz, Cl\'ement Sire, Francesco Mondada(参考訳) 動物社会における集団行動を管理する社会的相互作用の解読は、現代コンピューティングの進歩から大きな恩恵を受けている。 計算モデルは分析モデルと機械学習モデルという2つのアプローチにまたがる。 本研究は,魚種Hemigrammus rhodostomusにおける社会的相互作用の深層学習モデルを導入し,実験結果と最先端の分析モデルの結果を比較した。 そこで本研究では,厳密な観測値の集合の導入に基づいて,モデルの忠実度を評価するための体系的手法を提案する。 我々は,ソーシャルインタラクションの機械学習モデルが,その分析モデルと直接競合できることを実証した。 さらに、この研究は異なる時間スケールにまたがって一貫した検証の必要性を示し、デザインの側面が私たちのディープラーニングアプローチを短期的および長期的両方のダイナミクスを捉える上で決定的に有効であるかを強調します。 このアプローチは他の魚種にも拡張可能であることも示しています。

Deciphering the social interactions that govern collective behavior in animal societies has greatly benefited from advancements in modern computing. Computational models diverge into two kinds of approaches: analytical models and machine learning models. This work introduces a deep learning model for social interactions in the fish species Hemigrammus rhodostomus, and compares its results to experiments and to the results of a state-of-the-art analytical model. To that end, we propose a systematic methodology to assess the faithfulness of a model, based on the introduction of a set of stringent observables. We demonstrate that machine learning models of social interactions can directly compete against their analytical counterparts. Moreover, this work demonstrates the need for consistent validation across different timescales and highlights which design aspects critically enables our deep learning approach to capture both short- and long-term dynamics. We also show that this approach is scalable to other fish species.
翻訳日:2023-02-15 16:20:13 公開日:2023-02-14
# CoMEt: x86コストモデル説明フレームワーク

CoMEt: x86 Cost Model Explanation Framework ( http://arxiv.org/abs/2302.06836v1 )

ライセンス: Link先を確認
Isha Chaudhary, Alex Renda, Charith Mendis, Gagandeep Singh(参考訳) MLベースのプログラムコストモデルは、非常に正確な予測をもたらすことが示されている。 彼らはメインストリームのコンパイラーで、高度に設計された分析プログラムコストモデルを置き換える能力を持っているが、ブラックボックスの性質は採用を妨げている。 本研究では,MLに基づくコストモデルによるスループット予測について,忠実で直感的な説明を得るための最初の手法を提案する。 我々は最先端のMLベースのコストモデルであるIthemalについて説明する。 我々はIthemalの説明と手作りの正確な分析モデルuiCAの説明を比較した。 実験の結果,ithemal と uica の説明の類似度が高く,予測値の類似度が高いことがわかった。

ML-based program cost models have been shown to yield highly accurate predictions. They have the capability to replace heavily-engineered analytical program cost models in mainstream compilers, but their black-box nature discourages their adoption. In this work, we propose the first method for obtaining faithful and intuitive explanations for the throughput predictions made by ML-based cost models. We demonstrate our explanations for the state-of-the-art ML-based cost model, Ithemal. We compare the explanations for Ithemal with the explanations for a hand-crafted, accurate analytical model, uiCA. Our empirical findings show that high similarity between explanations for Ithemal and uiCA usually corresponds to high similarity between their predictions.
翻訳日:2023-02-15 16:19:57 公開日:2023-02-14
# 効果的な抵抗レンズによるgnnの過剰探索の理解

Understanding Oversquashing in GNNs through the Lens of Effective Resistance ( http://arxiv.org/abs/2302.06835v1 )

ライセンス: Link先を確認
Mitchell Black and Amir Nayyeri and Zhengchao Wan and Yusu Wang(参考訳) メッセージパッシンググラフニューラルネットワークは、グラフ構造化データのための一般的な学習アーキテクチャである。 しかし、グラフ内の長い範囲の相互作用をキャプチャすることは困難である。 考えられる理由の1つは,[alon and yahav, 2020]で最初に言及された,いわゆるオーバースクワッシング問題である。 本稿では,入力グラフのノード間の有効抵抗のレンズを通して,過度な探索問題を解析する。 有効抵抗の概念は、グラフ内の経路によって2つのノード間の接続の「強度」を直感的に捉え、スペクトルグラフ理論と回路ネットワーク理論を結合する豊富な文献を持つ。 本稿では,グラフにおけるオーバーカッシングの総量を定量化するための尺度として,全有効抵抗の概念を提案し,その使用を理論的に正当化する。 さらに,入力グラフに付加されるエッジを識別し,全有効抵抗を最小限に抑えるアルゴリズムを開発し,GNNを用いた場合のオーバーカッシング問題を緩和する。 我々は, 完全有効抵抗法の有効性を示す実証的証拠を提供する。

Message passing graph neural networks are popular learning architectures for graph-structured data. However, it can be challenging for them to capture long range interactions in graphs. One of the potential reasons is the so-called oversquashing problem, first termed in [Alon and Yahav, 2020], that has recently received significant attention. In this paper, we analyze the oversquashing problem through the lens of effective resistance between nodes in the input graphs. The concept of effective resistance intuitively captures the "strength" of connection between two nodes by paths in the graph, and has a rich literature connecting spectral graph theory and circuit networks theory. We propose the use the concept of total effective resistance as a measure to quantify the total amount of oversquashing in a graph, and provide theoretical justification of its use. We further develop algorithms to identify edges to be added to an input graph so as to minimize the total effective resistance, thereby alleviating the oversquashing problem when using GNNs. We provide empirical evidence of the effectiveness of our total effective resistance based rewiring strategies.
翻訳日:2023-02-15 16:19:46 公開日:2023-02-14
# リニア最適化による線形逆MDPのレギュレット境界の改善

Improved Regret Bounds for Linear Adversarial MDPs via Linear Optimization ( http://arxiv.org/abs/2302.06834v1 )

ライセンス: Link先を確認
Fang Kong, Xiangcheng Zhang, Baoxiang Wang, Shuai Li(参考訳) 対戦環境におけるマルコフ決定過程(MDP)の学習は困難である。 この問題は、損失関数と遷移核の基底構造は、様々な環境では特に推定が難しいため、関数近似によりさらに困難になる。 実際、線形敵対的MDPの最先端の結果は、$\tilde{O}(K^{6/7})$$(K$はエピソード数を表す)を後悔する結果となり、改善の余地は大きい。 本稿では,線形最適化のバンディットアームの特徴マップを部分的に設定することにより,線形mdpを線形最適化に還元する新しい視点で問題を検討する。 この新しい手法は、探索的な仮定のもと、遷移シミュレーターにアクセスせずに、線形逆mdpに対して$\tilde{o}(k^{4/5})$の上限を改善する。 新しい見解は、線形構造を持つ他のMDP問題の解決に独立した関心を持つかもしれない。

Learning Markov decision processes (MDP) in an adversarial environment has been a challenging problem. The problem becomes even more challenging with function approximation, since the underlying structure of the loss function and transition kernel are especially hard to estimate in a varying environment. In fact, the state-of-the-art results for linear adversarial MDP achieve a regret of $\tilde{O}(K^{6/7})$ ($K$ denotes the number of episodes), which admits a large room for improvement. In this paper, we investigate the problem with a new view, which reduces linear MDP into linear optimization by subtly setting the feature maps of the bandit arms of linear optimization. This new technique, under an exploratory assumption, yields an improved bound of $\tilde{O}(K^{4/5})$ for linear adversarial MDP without access to a transition simulator. The new view could be of independent interest for solving other MDP problems that possess a linear structure.
翻訳日:2023-02-15 16:19:30 公開日:2023-02-14
# VQ3D: ImageNetによる3D認識生成モデル学習

VQ3D: Learning a 3D-Aware Generative Model on ImageNet ( http://arxiv.org/abs/2302.06833v1 )

ライセンス: Link先を確認
Kyle Sargent, Jing Yu Koh, Han Zhang, Huiwen Chang, Charles Herrmann, Pratul Srinivasan, Jiajun Wu, Deqing Sun(参考訳) 最近の研究は、人間の顔、動物の顔、車など、単一のオブジェクトクラスに対応する小さなデータセット上の2次元画像コレクションから3Dコンテンツの生成モデルを訓練する可能性を示している。 しかし、これらのモデルは大規模で複雑なデータセットに苦しむ。 imagenet のような多様で制約のない画像コレクションをモデル化するために,二段階ベクトル量子化オートエンコーダに nerf ベースのデコーダを導入する vq3d を提案する。 我々のステージ1は、入力画像の再構成と画像の周囲のカメラ位置の変更を可能にし、ステージ2は新たな3Dシーンの生成を可能にします。 VQ3Dは、120万のトレーニング画像からなる1000クラスのImageNetデータセットから3D対応画像を生成し、再構築することができる。 ImageNet 生成 FID スコアは 16.8 であり、次の最良ベースライン法では 69.8 である。

Recent work has shown the possibility of training generative models of 3D content from 2D image collections on small datasets corresponding to a single object class, such as human faces, animal faces, or cars. However, these models struggle on larger, more complex datasets. To model diverse and unconstrained image collections such as ImageNet, we present VQ3D, which introduces a NeRF-based decoder into a two-stage vector-quantized autoencoder. Our Stage 1 allows for the reconstruction of an input image and the ability to change the camera position around the image, and our Stage 2 allows for the generation of new 3D scenes. VQ3D is capable of generating and reconstructing 3D-aware images from the 1000-class ImageNet dataset of 1.2 million training images. We achieve an ImageNet generation FID score of 16.8, compared to 69.8 for the next best baseline method.
翻訳日:2023-02-15 16:19:12 公開日:2023-02-14
# 最適競合解析によるマルチオプションスキーレンタル問題の学習提示アルゴリズムの改善

Improved Learning-Augmented Algorithms for the Multi-Option Ski Rental Problem via Best-Possible Competitive Analysis ( http://arxiv.org/abs/2302.06832v1 )

ライセンス: Link先を確認
Yongho Shin, Changyeol Lee, Gukryeol Lee, Hyung-Chan An(参考訳) 本稿では,マルチオプションスキーレンタル問題に対する学習向上アルゴリズムを提案する。 学習強化アルゴリズムは、ML予測を入力の付加部分として取り、これらの予測を与えられた問題を解決するために組み込む。 ML予測のパワーと厳格な性能保証を組み合わせた独自の強みにより、オンライン最適化問題の文脈で広く研究されている。 スキーレンタル問題は、オンライン最適化の分野における標準的な問題の1つであるが、以前はマルチオプションスキーレンタルで知られていたのは決定論的アルゴリズムのみであり、拡張学習の有無であった。 本稿では、決定論的アルゴリズムによる従来の性能保証を上回って、この問題に対する最初のランダム化学習型アルゴリズムを提案する。 学習提示型アルゴリズムは,問題に対する新しい予測可能な最善のランダム化アルゴリズムに基づいている。 さらに, 決定論的およびランダム化アルゴリズムの下位境界と, アルゴリズムの性能改善を評価する計算実験により, 結果をさらに補完する。

In this paper, we present improved learning-augmented algorithms for the multi-option ski rental problem. Learning-augmented algorithms take ML predictions as an added part of the input and incorporates these predictions in solving the given problem. Due to their unique strength that combines the power of ML predictions with rigorous performance guarantees, they have been extensively studied in the context of online optimization problems. Even though ski rental problems are one of the canonical problems in the field of online optimization, only deterministic algorithms were previously known for multi-option ski rental, with or without learning augmentation. We present the first randomized learning-augmented algorithm for this problem, surpassing previous performance guarantees given by deterministic algorithms. Our learning-augmented algorithm is based on a new, provably best-possible randomized competitive algorithm for the problem. Our results are further complemented by lower bounds for deterministic and randomized algorithms, and computational experiments evaluating our algorithms' performance improvements.
翻訳日:2023-02-15 16:18:57 公開日:2023-02-14
# ドメイン一般化のための自己蒸留によるロバスト表現学習

Robust Representation Learning with Self-Distillation for Domain Generalization ( http://arxiv.org/abs/2302.06874v1 )

ライセンス: Link先を確認
Ankur Singh, Senthilnath Jayavelu(参考訳) ドメインの一般化は、機械学習において難しい問題であり、その目標は、これらのドメインを事前に知ることなく、未確認のターゲットドメインに適切に一般化できるモデルを訓練することである。 近年のディープニューラルネットワークの成功にもかかわらず、視覚トランスフォーマーを用いたドメイン一般化の効果的な方法が欠如している。 本稿では, 自己蒸留によるロバスト表現学習(rrld)と呼ばれる新しい領域一般化手法を提案する。 一 中間ブロック自己蒸留及び 二 未埋蔵領域における変圧器型モデルの一般化能力を向上させるための増倍誘導自己蒸留 このアプローチにより、異なる拡張やドメインシフトに不変な堅牢で一般的な特徴を学習し、ソースドメインへのオーバーフィットを効果的に軽減することができる。 提案手法の有効性を評価するため,PACS [1]およびOfficeHome [2]ベンチマークデータセット,および実世界のウエハ半導体欠陥データセット[3]について広範な実験を行った。 その結果,RRLDはロバストかつ高精度な一般化性能を実現することが示された。 我々は,3つのデータセットの最先端データに対する0.3%から2.3%の範囲の改善を観察した。

Domain generalization is a challenging problem in machine learning, where the goal is to train a model that can generalize well to unseen target domains without prior knowledge of these domains. Despite the recent success of deep neural networks, there remains a lack of effective methods for domain generalization using vision transformers. In this paper, we propose a novel domain generalization technique called Robust Representation Learning with Self-Distillation (RRLD) that utilizes a combination of i) intermediate-block self-distillation and ii) augmentation-guided self-distillation to improve the generalization capabilities of transformer-based models on unseen domains. This approach enables the network to learn robust and general features that are invariant to different augmentations and domain shifts while effectively mitigating overfitting to source domains. To evaluate the effectiveness of our proposed method, we perform extensive experiments on PACS [1] and OfficeHome [2] benchmark datasets, as well as a real-world wafer semiconductor defect dataset [3]. Our results demonstrate that RRLD achieves robust and accurate generalization performance. We observe an improvement in the range of 0.3% to 2.3% over the state-of-the-art on the three datasets.
翻訳日:2023-02-15 16:13:09 公開日:2023-02-14
# lero: 学習からランクへのクエリオプティマイザ

Lero: A Learning-to-Rank Query Optimizer ( http://arxiv.org/abs/2302.06873v1 )

ライセンス: Link先を確認
Rong Zhu, Wei Chen, Bolin Ding, Xingguang Chen, Andreas Pfadler, Ziniu Wu, Jingren Zhou(参考訳) 最近の一連の研究は、DBMSのコストベースのクエリオプティマイザを補助または再構築するために機械学習技術を適用している。 いくつかのベンチマークで優位性を示す一方で、不安定なパフォーマンス、高いトレーニングコスト、遅いモデル更新などの欠陥は、機械学習モデルを使用して実行計画の実行コストや遅延を予測するという固有の困難さに起因する。 本稿では、ネイティブクエリオプティマイザ上に構築され、クエリ最適化を改善するために継続的に学習するLeroという、クエリオプティマイザのランク付け学習を紹介する。 キーとなる観察は、正確なコストや遅延ではなく、相対的な順序やプランのランクがクエリ最適化に十分であるということである。 lero氏は、分類器をトレーニングするためにペアワイズアプローチを採用し、任意の2つのプランを比較し、どちらが優れているかを判断する。 このようなバイナリ分類タスクは、モデル効率と有効性の観点から、コストやレイテンシを予測する回帰タスクよりもはるかに簡単である。 Leroは学習したオプティマイザをゼロから構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブオプティマイザを改善するように設計されている。 侵入的でない設計で、Leroは最小限の統合作業で既存のDBMS上に実装できる。 Leroを実装し、PostgreSQLを使った優れたパフォーマンスを示します。 我々の実験では、Leroはいくつかのベンチマークでほぼ最適な性能を達成した。 ネイティブPostgreSQLオプティマイザの実行時間を最大70%削減し、他の学習クエリオプティマイザを最大37%削減する。 一方、Leroは継続的に学習し、クエリワークロードやデータの変更に自動的に適応する。

A recent line of works apply machine learning techniques to assist or rebuild cost based query optimizers in DBMS. While exhibiting superiority in some benchmarks, their deficiencies, e.g., unstable performance, high training cost, and slow model updating, stem from the inherent hardness of predicting the cost or latency of execution plans using machine learning models. In this paper, we introduce a learning to rank query optimizer, called Lero, which builds on top of the native query optimizer and continuously learns to improve query optimization. The key observation is that the relative order or rank of plans, rather than the exact cost or latency, is sufficient for query optimization. Lero employs a pairwise approach to train a classifier to compare any two plans and tell which one is better. Such a binary classification task is much easier than the regression task to predict the cost or latency, in terms of model efficiency and effectiveness. Rather than building a learned optimizer from scratch, Lero is designed to leverage decades of wisdom of databases and improve the native optimizer. With its non intrusive design, Lero can be implemented on top of any existing DBMS with minimum integration efforts. We implement Lero and demonstrate its outstanding performance using PostgreSQL. In our experiments, Lero achieves near optimal performance on several benchmarks. It reduces the execution time of the native PostgreSQL optimizer by up to 70% and other learned query optimizers by up to 37%. Meanwhile, Lero continuously learns and automatically adapts to query workloads and changes in data.
翻訳日:2023-02-15 16:12:51 公開日:2023-02-14
# 協調型マルチエージェント強化学習におけるグレディマージナルコントリビューション計算を用いた適応値分解

Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.06872v1 )

ライセンス: Link先を確認
Shanqi Liu, Yujing Hu, Runze Wu, Dong Xing, Yu Xiong, Changjie Fan, Kun Kuang, Yong Liu(参考訳) 現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。 この課題は, 協調型マルチエージェント強化学習(MARL)の枠組みにおいて広く研究されており, 値分解法もその1つである。 しかしながら、単調な効用を単調混合として値関数を学習する従来の手法では、非単調な戻り値でタスクを解くことはできない。 これは汎用的なシナリオでアプリケーションを妨げる。 近年の手法では、完全な表現力を持つ値関数の学習や、協調性を改善するために追加構造を用いることで、暗黙の信用代入の観点からこの問題に対処している。 しかし、大きな共同行動空間のために学ぶのが難しいか、非単調な回帰でタスクを解決するのに不可欠なエージェント間の複雑な相互作用を捉えるのに不十分である。 そこで本研究では,非単調問題に対処するための明示的な信用割当手法を提案する。 本手法は,動的に変化するエージェント群の協調価値を学習する適応値分解に基づいて,適応値分解(adaptive Value decomposition with Greedy Marginal contribute,AVGM)を行う。 まず,提案する値分解はエージェント間の複雑な相互作用を考慮し,大規模シナリオで学ぶことができることを示す。 そこで本手法では, 個別クレジットとして値分解から算出した欲求余剰貢献を用いて, 最適な協調政策を学習する。 我々はさらに、モジュールをアクションエンコーダで拡張し、グリーディな限界寄与を計算するための線形時間複雑性を保証する。 実験の結果,いくつかの非単調領域において有意な性能改善が得られた。

Real-world cooperation often requires intensive coordination among agents simultaneously. This task has been extensively studied within the framework of cooperative multi-agent reinforcement learning (MARL), and value decomposition methods are among those cutting-edge solutions. However, traditional methods that learn the value function as a monotonic mixing of per-agent utilities cannot solve the tasks with non-monotonic returns. This hinders their application in generic scenarios. Recent methods tackle this problem from the perspective of implicit credit assignment by learning value functions with complete expressiveness or using additional structures to improve cooperation. However, they are either difficult to learn due to large joint action spaces or insufficient to capture the complicated interactions among agents which are essential to solving tasks with non-monotonic returns. To address these problems, we propose a novel explicit credit assignment method to address the non-monotonic problem. Our method, Adaptive Value decomposition with Greedy Marginal contribution (AVGM), is based on an adaptive value decomposition that learns the cooperative value of a group of dynamically changing agents. We first illustrate that the proposed value decomposition can consider the complicated interactions among agents and is feasible to learn in large-scale scenarios. Then, our method uses a greedy marginal contribution computed from the value decomposition as an individual credit to incentivize agents to learn the optimal cooperative policy. We further extend the module with an action encoder to guarantee the linear time complexity for computing the greedy marginal contribution. Experimental results demonstrate that our method achieves significant performance improvements in several non-monotonic domains.
翻訳日:2023-02-15 16:12:27 公開日:2023-02-14
# chatgptと学習者生成代数学ヒントの学習利得差

Learning gain differences between ChatGPT and human tutor generated algebra hints ( http://arxiv.org/abs/2302.06871v1 )

ライセンス: Link先を確認
Zachary A. Pardos, Shreya Bhandari(参考訳) ChatGPTのような大規模言語モデル(LLM)は、AIを実用的消費者利用のフロンティアへと急速に前進させ、業界をリードして、コンテンツ生産のためのリソースの割り当て方法を再評価している。 適応型学習システムにおいて、オープンな教育資源のオーサリングとヒントコンテンツは労働集約的である。 ChatGPTのようなLLMが、人間が書いたコンテンツと同等の教育コンテンツを制作すれば、コンピュータ・チュータリング・システム・アプローチのさらなる拡大に重要な意味を持つだろう。 本稿では,ChatGPTの学習ゲイン評価を行い,そのヒントの有効性を,2つの代数的話題領域(初等代数代数と中間代数)にまたがる77人の教師によるヒントと比較する。 その結果,ChatGPTが生成したヒントの70%が手作業による品質チェックに合格し,人間とChatGPTの条件が正の学習効果をもたらすことがわかった。 しかし、人間の教師がヒントを作成した場合、利得は統計的に有意であった。 中間代数学実験におけるchatgptの参加者は,事前テストで制御されてさえいなかったが,人間の作成したヒントから得られる学習成果は,どちらのトピック領域でもchatgptのヒントよりも大きく,統計的に有意に高かった。 本研究の限界を議論し,今後の方向性を示唆する。 実験で使用される問題とヒントは複製性のために提供される。

Large Language Models (LLMs), such as ChatGPT, are quickly advancing AI to the frontiers of practical consumer use and leading industries to re-evaluate how they allocate resources for content production. Authoring of open educational resources and hint content within adaptive tutoring systems is labor intensive. Should LLMs like ChatGPT produce educational content on par with human-authored content, the implications would be significant for further scaling of computer tutoring system approaches. In this paper, we conduct the first learning gain evaluation of ChatGPT by comparing the efficacy of its hints with hints authored by human tutors with 77 participants across two algebra topic areas, Elementary Algebra and Intermediate Algebra. We find that 70% of hints produced by ChatGPT passed our manual quality checks and that both human and ChatGPT conditions produced positive learning gains. However, gains were only statistically significant for human tutor created hints. Learning gains from human-created hints were substantially and statistically significantly higher than ChatGPT hints in both topic areas, though ChatGPT participants in the Intermediate Algebra experiment were near ceiling and not even with the control at pre-test. We discuss the limitations of our study and suggest several future directions for the field. Problem and hint content used in the experiment is provided for replicability.
翻訳日:2023-02-15 16:11:59 公開日:2023-02-14
# IBM量子コンピュータにおける誤差推定

Error estimation in IBM Quantum Computers ( http://arxiv.org/abs/2302.06870v1 )

ライセンス: Link先を確認
Unai Aseguinolaza, Nahual Sobrino, Gabriel Sobrino, Joaquim Jornet-Somoza and Juan Borge(参考訳) ノイズの多い中間スケール量子(nisq)時代の最も重要な特徴の1つは、エラーの正しい評価と考慮である。 本稿では、現在の(IBM)量子コンピュータにおけるエラーの主な原因を分析し、任意の量子回路で期待される総エラー確率を容易にするために有用なツール(TED-qc)を提案する。 我々は、この総誤差確率を、NISQ時代の忠実度を推定する最良の方法として提案する。 ツールの頑健さを対照的にするために、3つの異なる量子モデルで起こりうる総誤差確率を計算する。 1)四電子イジングモデル 2)量子位相推定(QPE)と 3)Groverのアルゴリズム。 各モデルについて,関連する可観測値と忠実度の両方について統計的に有意なサンプルサイズを算出し,誤差確率の関数としてシミュレータで計算した値と比較した。 この分析は99.5%以上のケースで十分である。 また, 測定時に発生するノイズを除去する手法についても検討した。

One of the main important features of the noisy intermediate-scale quantum (NISQ) era is the correct evaluation and consideration of errors. In this paper, we analyze the main sources of errors in current (IBM) quantum computers and we present a useful tool (TED-qc) designed to facilitate the total error probability expected for any quantum circuit. We propose this total error probability as the best way to estimate the fidelity in the NISQ era, mainly because we do not have to compare our quantum calculations with any classical one. In order to contrast the robustness of our tool we compute the total error probability that may occur in three different quantum models: 1) the four-electron Ising model, 2) the Quantum-Phase Estimation (QPE) and 3) the Grover's algorithm. For each model, we compute a statistically significant sample size for both the expectation value of the related observable and the fidelity, comparing them with the value calculated in the simulator as a function of the error probability. The analysis is satisfactory in more than the $99\%$ of the cases. In addition, we study how the error mitigation techniques are able to eliminate the noise induced during the measurement.
翻訳日:2023-02-15 16:11:33 公開日:2023-02-14
# KLディバージェンスにおける離散分布推定のための濃度境界

Concentration Bounds for Discrete Distribution Estimation in KL Divergence ( http://arxiv.org/abs/2302.06869v1 )

ライセンス: Link先を確認
Cl\'ement L. Canonne and Ziteng Sun and Ananda Theertha Suresh(参考訳) 我々はKL分散における離散分布推定の問題について検討し、ラプラス推定器に濃度境界を与える。 平均スケールからの偏差が$\sqrt{k}/n$とすると、$n \ge k$は$k/n$の最良の事前結果を改善する。 我々はまた、我々の境界が多対数因子に密接であることを示す一致する下限を確立する。

We study the problem of discrete distribution estimation in KL divergence and provide concentration bounds for the Laplace estimator. We show that the deviation from mean scales as $\sqrt{k}/n$ when $n \ge k$, improving upon the best prior result of $k/n$. We also establish a matching lower bound that shows that our bounds are tight up to polylogarithmic factors.
翻訳日:2023-02-15 16:11:16 公開日:2023-02-14
# SwitchPrompt: 低リソースドメインの分類のためのドメイン特化型ソフトプロンプトの学習

SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for Classification in Low-Resource Domains ( http://arxiv.org/abs/2302.06868v1 )

ライセンス: Link先を確認
Koustava Goswami, Lukas Lange, Jun Araki, Heike Adel(参考訳) 事前学習された言語モデルのプロンプティングは、自然言語処理タスクにまたがる有望な結果をもたらすが、事前学習データと下流タスクの間のドメインギャップのため、低リソース領域に適用する場合には効果が低い。 本研究では,このギャップをSwitchPromptと呼ばれる,汎用ドメインから多種多様な低リソースドメインへのデータセットで訓練された言語モデルの適応のための,斬新で軽量なプロンプト手法で埋める。 トレーニング可能なゲートプロンプトを備えたドメイン固有のキーワードを使用して、SwitchPromptはドメイン指向のプロンプト、すなわち、汎用ドメイン言語モデルのターゲットドメインに対する効果的なガイダンスを提供する。 3つのテキスト分類ベンチマークを用いた少数の実験により,switchpromptを用いた一般ドメイン事前学習言語モデルの有効性が示された。 彼らはしばしば、ベースライン・オブ・ザ・アートでトレーニングされたドメイン固有のプロンプトを10.7%の精度向上で上回ることさえある。 この結果は、switchpromptがドメイン固有言語モデル事前トレーニングの必要性を効果的に減らすことを示している。

Prompting pre-trained language models leads to promising results across natural language processing tasks but is less effective when applied in low-resource domains, due to the domain gap between the pre-training data and the downstream task. In this work, we bridge this gap with a novel and lightweight prompting methodology called SwitchPrompt for the adaptation of language models trained on datasets from the general domain to diverse low-resource domains. Using domain-specific keywords with a trainable gated prompt, SwitchPrompt offers domain-oriented prompting, that is, effective guidance on the target domains for general-domain language models. Our few-shot experiments on three text classification benchmarks demonstrate the efficacy of the general-domain pre-trained language models when used with SwitchPrompt. They often even outperform their domain-specific counterparts trained with baseline state-of-the-art prompting methods by up to 10.7% performance increase in accuracy. This result indicates that SwitchPrompt effectively reduces the need for domain-specific language model pre-training.
翻訳日:2023-02-15 16:11:07 公開日:2023-02-14
# BLIAM:Synergistic Drug Combination Predictionのための文献データ合成

BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination Prediction ( http://arxiv.org/abs/2302.06860v1 )

ライセンス: Link先を確認
Cai Yang, Addie Woicik, Hoifung Poon, Sheng Wang(参考訳) 科学文献コーパスで事前訓練された言語モデルは、下流のアプリケーションに高品質な特徴表現を提供することによって、科学的発見を大幅に進歩させた。 しかしながら、これらの機能は解釈できないことが多いため、ドメインの専門家に限られた洞察を与えることができる。 言語モデルから特徴を得る代わりに、文献に基づくデータ合成アプローチであるBLIAMを提案し、下流アプリケーションに対して解釈可能でモデルに依存しないトレーニングデータポイントを直接生成する。 BLIAMのキーとなるアイデアは、既存のトレーニングデータを使用してプロンプトを作成し、これらのプロンプトを使用して新しいデータポイントを合成することだ。 BLIAMはこれらの2つのステップを反復的に実行し、新しいデータポイントはより情報的なプロンプトを定義し、新しいプロンプトはより正確なデータポイントを合成する。 特に、下流アプリケーションでテストデータポイントのラベルがすでに言語モデルコーパスで言及されているため、文献ベースのデータ拡張はデータ漏洩をもたらす可能性がある。 バイオメディカル言語モデルが訓練された後に公開された大規模薬物組み合わせ探索データセットであるGDSC-comboを紹介する。 bliamは,この厳密なデータ分割設定において,非提供アプローチやマニュアルプロンプトを大きく上回っていることがわかった。 BLIAMはさらに、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントの合成に使用できる。 予測性能の期待に加えて、BLIAMによって合成されたデータポイントは解釈可能で、モデルに依存しないため、in vitro実験でのシリコ増強が可能となる。

Language models pre-trained on scientific literature corpora have substantially advanced scientific discovery by offering high-quality feature representations for downstream applications. However, these features are often not interpretable, and thus can reveal limited insights to domain experts. Instead of obtaining features from language models, we propose BLIAM, a literature-based data synthesis approach to directly generate training data points that are interpretable and model-agnostic to downstream applications. The key idea of BLIAM is to create prompts using existing training data and then use these prompts to synthesize new data points. BLIAM performs these two steps iteratively as new data points will define more informative prompts and new prompts will in turn synthesize more accurate data points. Notably, literature-based data augmentation might introduce data leakage since labels of test data points in downstream applications might have already been mentioned in the language model corpus. To prevent such leakage, we introduce GDSC-combo, a large-scale drug combination discovery dataset that was published after the biomedical language model was trained. We found that BLIAM substantially outperforms a non-augmented approach and manual prompting in this rigorous data split setting. BLIAM can be further used to synthesize data points for novel drugs and cell lines that were not even measured in biomedical experiments. In addition to the promising prediction performance, the data points synthesized by BLIAM are interpretable and model-agnostic, enabling in silico augmentation for in vitro experiments.
翻訳日:2023-02-15 16:10:52 公開日:2023-02-14
# 縮小領域パラメータ初期化によるパラメータ化量子回路のトレーサビリティ向上

Trainability Enhancement of Parameterized Quantum Circuits via Reduced-Domain Parameter Initialization ( http://arxiv.org/abs/2302.06858v1 )

ライセンス: Link先を確認
Yabo Wang, Bo Qi, Chris Ferrie, Daoyi Dong(参考訳) パラメータ化量子回路(PQC)は、様々なタスクにおいて量子アドバンテージを達成する可能性を探るため、機械学習モデルとして広く利用されている。 しかしながら、PQCsの訓練は、高原現象や(指数的に)多くの刺激的な局所性ミニマの存在のため、非常に難しい。 本研究では,理論的保証を伴う効率的なパラメータ初期化戦略を提案する。 各パラメータの初期領域が回路深度の平方根に逆比例して減少すると、コスト勾配の大きさは深さの関数として最も多項式的に減衰する。 本理論は,変分量子固有解法タスクの数値シミュレーションによって検証する。 さらに, 縮小領域の初期化戦略は, 指数関数的に多くの局所的ミニマから特定の量子ニューラルネットワークを保護できることを実証する。 本結果は,パラメータの初期化戦略の重要性を強調し,変分量子アルゴリズムにおけるPQCのトレーニング性を高めるために利用できる。

Parameterized quantum circuits (PQCs) have been widely used as a machine learning model to explore the potential of achieving quantum advantages for various tasks. However, the training of PQCs is notoriously challenging owing to the phenomenon of plateaus and/or the existence of (exponentially) many spurious local minima. In this work, we propose an efficient parameter initialization strategy with theoretical guarantees. It is proved that if the initial domain of each parameter is reduced inversely proportional to the square root of circuit depth, then the magnitude of the cost gradient decays at most polynomially as a function of the depth. Our theoretical results are verified by numerical simulations of variational quantum eigensolver tasks. Moreover, we demonstrate that the reduced-domain initialization strategy can protect specific quantum neural networks from exponentially many spurious local minima. Our results highlight the significance of an appropriate parameter initialization strategy and can be used to enhance the trainability of PQCs in variational quantum algorithms.
翻訳日:2023-02-15 16:10:25 公開日:2023-02-14
# 短いストロークをリアルかつ立体的に - 肖像画生成のための3d認識による簡易スケッチ

Make Your Brief Stroke Real and Stereoscopic: 3D-Aware Simplified Sketch to Portrait Generation ( http://arxiv.org/abs/2302.06857v1 )

ライセンス: Link先を確認
Yasheng Sun, Qianyi Wu, Hang Zhou, Kaisiyuan Wang, Tianshu Hu, Chen-Chieh Liao, Dongliang He, Jingtuo Liu, Errui Ding, Jingdong Wang, Shio Miyafuji, Ziwei Liu, Hideki Koike(参考訳) 写実的な人物の肖像画を作成することは、様々なエンターテイメントの目的に有用である。 既存の研究は2次元平面の像のみを固定ビューで生成し、その結果を鮮明にしない。 本稿では,3次元生成モデルを用いて,簡易な輪郭スケッチから立体的3次元認識ポートレートを作成する可能性について検討する。 我々の重要な洞察は、三面体ベースの3D認識生成モデルの事前知識を十分に活用できるスケッチ認識制約を設計することである。 具体的には、設計した地域対応ボリュームレンダリング戦略とグローバル一貫性制約により、スケッチエンコーディング時の詳細対応をさらに強化する。 さらに,レイマンユーザの利用を容易にするために,ベクトル量子化表現を備えたContour-to-Sketchモジュールを提案する。 広範な比較の結果,提案手法はスケッチにマッチする高品質な結果を生成することがわかった。 ユーザビリティスタディは,システムがユーザにより非常に好まれていることを検証する。

Creating the photo-realistic version of people sketched portraits is useful to various entertainment purposes. Existing studies only generate portraits in the 2D plane with fixed views, making the results less vivid. In this paper, we present Stereoscopic Simplified Sketch-to-Portrait (SSSP), which explores the possibility of creating Stereoscopic 3D-aware portraits from simple contour sketches by involving 3D generative models. Our key insight is to design sketch-aware constraints that can fully exploit the prior knowledge of a tri-plane-based 3D-aware generative model. Specifically, our designed region-aware volume rendering strategy and global consistency constraint further enhance detail correspondences during sketch encoding. Moreover, in order to facilitate the usage of layman users, we propose a Contour-to-Sketch module with vector quantized representations, so that easily drawn contours can directly guide the generation of 3D portraits. Extensive comparisons show that our method generates high-quality results that match the sketch. Our usability study verifies that our system is greatly preferred by user.
翻訳日:2023-02-15 16:10:08 公開日:2023-02-14
# グラフニューラルネットワークによるメッセージパッシング - 大規模MIMOシステムのための新しいパラダイム

Message Passing Meets Graph Neural Networks: A New Paradigm for Massive MIMO Systems ( http://arxiv.org/abs/2302.06896v1 )

ライセンス: Link先を確認
Hengtao He, Xianghao Yu, Jun Zhang, Shenghui Song, Khaled B. Letaief(参考訳) 5Gシステムの中核技術として、MIMO(Multiple-Input multiple-output)は、非常に高いビームフォーミングと空間多重化ゲインとともに、劇的な容量向上をもたらす。 大規模MIMOシステムのための効率的な物理層アルゴリズムを開発する場合、メッセージパッシングは優れた性能のために有望な候補である。 しかし、その計算の複雑さは問題の規模によって劇的に増大するので、最先端のメッセージパッシングアルゴリズムは将来の6gシステムに直接適用することはできない。 この問題に対処するために、AMPアルゴリズムの複雑さとGNNの適応性を考慮したモデル駆動型ディープラーニング(DL)フレームワーク、すなわち大規模なMIMOトランシーバ設計のためのAMP-GNNを提案する。 具体的には、AMP-GNNネットワークの構造を、近似メッセージパッシング(AMP)アルゴリズムの展開とグラフニューラルネットワーク(GNN)モジュールの導入によってカスタマイズする。 AMP-GNNの置換同値性が証明され、AMP-GNNはより効率的に学習し、異なる数のユーザに対応することができる。 また、予測伝搬の観点から、GNNがAMPアルゴリズムを改善する理由を明らかにし、異なるメッセージパッシングアルゴリズムで様々なGNNを融合させる動機となる。 シミュレーションでは,提案したAMP-GNNがAMP検出器の性能を大幅に向上し,最先端のDLベースMIMO検出器と同等の性能を示し,様々なミスマッチに対して強い堅牢性を示すことを示す。

As one of the core technologies for 5G systems, massive multiple-input multiple-output (MIMO) introduces dramatic capacity improvements along with very high beamforming and spatial multiplexing gains. When developing efficient physical layer algorithms for massive MIMO systems, message passing is one promising candidate owing to the superior performance. However, as their computational complexity increases dramatically with the problem size, the state-of-the-art message passing algorithms cannot be directly applied to future 6G systems, where an exceedingly large number of antennas are expected to be deployed. To address this issue, we propose a model-driven deep learning (DL) framework, namely the AMP-GNN for massive MIMO transceiver design, by considering the low complexity of the AMP algorithm and adaptability of GNNs. Specifically, the structure of the AMP-GNN network is customized by unfolding the approximate message passing (AMP) algorithm and introducing a graph neural network (GNN) module into it. The permutation equivariance property of AMP-GNN is proved, which enables the AMP-GNN to learn more efficiently and to adapt to different numbers of users. We also reveal the underlying reason why GNNs improve the AMP algorithm from the perspective of expectation propagation, which motivates us to amalgamate various GNNs with different message passing algorithms. In the simulation, we take the massive MIMO detection to exemplify that the proposed AMP-GNN significantly improves the performance of the AMP detector, achieves comparable performance as the state-of-the-art DL-based MIMO detectors, and presents strong robustness to various mismatches.
翻訳日:2023-02-15 16:04:11 公開日:2023-02-14
# SpeckleNN: X線単一粒子イメージングにおける実時間スペックルパターン分類のための統一埋め込み

SpeckleNN: A unified embedding for real-time speckle pattern classification in X-ray single-particle imaging with limited labeled examples ( http://arxiv.org/abs/2302.06895v1 )

ライセンス: Link先を確認
Cong Wang, Eric Florin, Hsing-Yin Chang, Jana Thayer, Chun Hong Yoon(参考訳) X線自由電子レーザー(XFEL)により、室温でのX線単一粒子イメージング(SPI)技術を用いて、非結晶ナノスケール粒子の三次元構造を決定することができる。 SPI散乱パターンの分類、すなわち「スペックル」は、リアルタイムな拒否行動や3次元再構成に必要な単一ヒットを抽出することであり、欧州のXFELやLCLS-II-HEのような高速なデータ処理施設の課題となっている。 本稿では,データセットサイズに線形にスケール可能なラベル付き例を限定した,リアルタイムスペックルパターン分類のための統合埋め込みモデルであるSpeckleNNを紹介する。 ツインニューラルネットワークでトレーニングされたSpeckleNNは、スペックルパターンをユークリッド距離によって類似度を測定する統合埋め込みベクトル空間にマッピングする。 我々は, 検出領域が不足している場合であっても, 分類カテゴリー毎のラベル数が少ないにもかかわらず, 新規のnever-seenサンプルにおける少数ショットの分類能力と頑健な性能を強調する。 過度な手動ラベリングやフル検出器画像の必要なしに、我々の分類法はリアルタイムな高スループットSPI実験に優れた解を提供する。

With X-ray free-electron lasers (XFELs), it is possible to determine the three-dimensional structure of noncrystalline nanoscale particles using X-ray single-particle imaging (SPI) techniques at room temperature. Classifying SPI scattering patterns, or "speckles", to extract single hits that are needed for real-time vetoing and three-dimensional reconstruction poses a challenge for high data rate facilities like European XFEL and LCLS-II-HE. Here, we introduce SpeckleNN, a unified embedding model for real-time speckle pattern classification with limited labeled examples that can scale linearly with dataset size. Trained with twin neural networks, SpeckleNN maps speckle patterns to a unified embedding vector space, where similarity is measured by Euclidean distance. We highlight its few-shot classification capability on new never-seen samples and its robust performance despite only tens of labels per classification category even in the presence of substantial missing detector areas. Without the need for excessive manual labeling or even a full detector image, our classification method offers a great solution for real-time high-throughput SPI experiments.
翻訳日:2023-02-15 16:03:43 公開日:2023-02-14
# uknow: 常識推論と視覚言語事前学習のための統一知識プロトコル

UKnow: A Unified Knowledge Protocol for Common-Sense Reasoning and Vision-Language Pre-training ( http://arxiv.org/abs/2302.06891v1 )

ライセンス: Link先を確認
Biao Gong, Xiaoying Xie, Yutong Feng, Yiliang Lv, Yujun Shen, Deli Zhao(参考訳) この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。 特に視覚的および言語的モダリティに着目し,データ知識を画像内,テキスト内,画像間,テキスト間,テキスト間という5つの単位型に分類した。 このプロトコルに従うと、公開国際ニュースから、1,388,568ノード(571,791ビジョン関連)と3,673,817トリプルからなる大規模マルチモーダル知識グラフデータセットを収集する。 データセットには96の粗いラベルと9,185の細かいラベルを含むリッチなイベントタグがアノテートされている。 UKnowが標準プロトコルとして機能することを確認するため、UKnowフォーマットで既存のデータセットを再編成するための効率的なパイプラインを構築しました。 最後に,共通意味推論や視覚言語事前学習のタスクにおいて,広く使用されているベースラインのパフォーマンスをベンチマークする。 我々の新しいデータセットと改定された公開データセットの結果は、知識組織におけるUKnowの有効性と手法評価を示している。 コード、データセット、変換ツール、ベースラインモデルは公開されます。

This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text. Following this protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 96 coarse labels and 9,185 fine labels, expanding its potential usage. To further verify that UKnow can serve as a standard protocol, we set up an efficient pipeline to help reorganize existing datasets under UKnow format. Finally, we benchmark the performance of some widely-used baselines on the tasks of common-sense reasoning and vision-language pre-training. Results on both our new dataset and the reformatted public datasets demonstrate the effectiveness of UKnow in knowledge organization and method evaluation. Code, dataset, conversion tool, and baseline models will be made public.
翻訳日:2023-02-15 16:03:20 公開日:2023-02-14
# 電磁誘導透過による周波数領域Hong-Ou-Mandel干渉の制御

Controlling Frequency-Domain Hong-Ou-Mandel Interference via Electromagnetically Induced Transparency ( http://arxiv.org/abs/2302.06888v1 )

ライセンス: Link先を確認
Zi-Yu Liu, Jiun-Shiuan Shiu, Chin-Yao Cheng, Yong-Fan Chen(参考訳) ホン・ウー・マンデル(hom)干渉は、単一光子の非古典的性質を示す説得力のある量子現象である。 本稿では,電磁誘導型透過型ダブルランバダ4波混合システムについて,量子化光場の観点から検討する。 このシステムは周波数領域における効率的なHOM干渉を実現するために使用できる。 還元密度演算子理論を用いて、二重ランビダ媒質は2つの入射単光子の閉ループの場合の位相依存性を示さないが、周波数領域HOM二光子干渉が発生することを示した。 実験的に達成可能な光深度条件では、この二重ランバダ方式は周波数符号化された単一光子量子ビット上で高忠実なアダマールゲート演算を行え、その結果、0.99以上の忠実度を持つHOM2光子NOON状態を生成することができる。 さらに,レーザーデチューニングと位相制御を単純に行い,多機能性を示し,スケーラブルな光学量子コンピューティングへの新たな経路を提供することにより,任意の単一量子ゲートと2量子スワップゲートを実現することができることを示す。

Hong-Ou-Mandel (HOM) interference is a compelling quantum phenomenon that demonstrates the nonclassical nature of single photons. Herein, we investigate an electromagnetically induced transparency-based double-Lambda four-wave mixing system from the perspective of quantized light fields. The system can be used to realize efficient HOM interference in the frequency domain. By using the reduced density operator theory, we demonstrate that, although the double-Lambda medium does not exhibit phase-dependent properties for the closed-loop case of two incident single photons, frequency-domain HOM two-photon interference occurs. For experimentally achievable optical depth conditions, our theory indicates that this double-Lambda scheme can perform high-fidelity Hadamard gate operations on frequency-encoded single-photon qubits, and thereby generate HOM two-photon NOON states with a fidelity greater than 0.99. Furthermore, we demonstrate that this scheme can be used to realize arbitrary single-qubit gates and two-qubit SWAP gates by simply controlling the laser detuning and phase, exhibiting its multifunctional properties and providing a new route to scalable optical quantum computing.
翻訳日:2023-02-15 16:02:58 公開日:2023-02-14
# 時系列スペクトルを用いたグラフARMAプロセスの学習

Learning Graph ARMA Processes from Time-Vertex Spectra ( http://arxiv.org/abs/2302.06887v1 )

ライセンス: Link先を確認
Eylem Tugce Guneyi, Berkay Yaldiz, Abdullah Canbolat, Elif Vural(参考訳) 静止時間頂点確率過程としての時間変化グラフ信号のモデリングにより、異なるグラフノードと時刻瞬間間のプロセスの相関パターンを効率的に利用することにより、行方不明信号値の推測が可能となる。 本研究ではまず,その不完全な実現からプロセスの結合時間-頂点パワースペクトル密度を学習したグラフ自己回帰移動平均(グラフARMA)プロセスの計算アルゴリズムを提案する。 我々の解は、まず部分的に観測された実現からプロセスのジョイントスペクトルを大まかに推定し、次にARMAプロセスのスペクトル多様体に投影することでこの推定を精算する。 次に、学習グラフARMAプロセスのサンプル複雑性に関する理論的解析を行う。 実験の結果,本手法は文献の参照手法と比較して,時間-頂点信号推定性能の向上を実現した。

The modeling of time-varying graph signals as stationary time-vertex stochastic processes permits the inference of missing signal values by efficiently employing the correlation patterns of the process across different graph nodes and time instants. In this study, we first propose an algorithm for computing graph autoregressive moving average (graph ARMA) processes based on learning the joint time-vertex power spectral density of the process from its incomplete realizations. Our solution relies on first roughly estimating the joint spectrum of the process from partially observed realizations and then refining this estimate by projecting it onto the spectrum manifold of the ARMA process. We then present a theoretical analysis of the sample complexity of learning graph ARMA processes. Experimental results show that the proposed approach achieves improvement in the time-vertex signal estimation performance in comparison with reference approaches in the literature.
翻訳日:2023-02-15 16:02:38 公開日:2023-02-14
# 質問中心認知表現を用いた深層逐次知識トレースモデルの解釈性の向上

Improving Interpretability of Deep Sequential Knowledge Tracing Models with Question-centric Cognitive Representations ( http://arxiv.org/abs/2302.06885v1 )

ライセンス: Link先を確認
Jiahao Chen, Zitao Liu, Shuyan Huang, Qiongqiong Liu, Weiqi Luo(参考訳) 知識追跡(KT)は,過去の学習過程を観察することによって,学生の今後のパフォーマンスを予測する重要な手法である。 ディープニューラルネットワークの強力な表現能力のため、KT問題を解決するためにディープラーニング技術を用いて顕著な進歩を遂げた。 既存のアプローチの大部分は、同じ知識要素のセットを共有する場合、質問には同等の貢献があるという \emph{homogeneous question} の仮定に依存している。 残念ながら、この仮定は現実世界の教育シナリオでは不正確である。 さらに,既存のディープラーニングベースのKTモデルから予測結果を解釈することは極めて困難である。 そこで本稿では,上記の課題に対処する質問中心の解釈可能なKTモデルQIKTを提案する。 提案したQIKTアプローチは,質問中心の知識獲得モジュールと質問中心の問題解決モジュールから共同で学習した質問依存認知表現を用いて,学生の知識状態の変化をきめ細かなレベルで明示的にモデル化する。 一方、QIKTはアイテム応答理論に基づく予測層を用いて解釈可能な予測結果を生成する。 提案したQIKTモデルは,3つの公開実世界の教育データセットで評価される。 その結果,提案手法はKT予測タスクよりも優れており,より優れたモデル解釈性を備えた予測精度において,幅広い深層学習に基づくKTモデルよりも優れていた。 再現可能な結果を促進するため、私たちはすべてのデータセットとコードを \url{https://pykt.org/} で提供しました。

Knowledge tracing (KT) is a crucial technique to predict students' future performance by observing their historical learning processes. Due to the powerful representation ability of deep neural networks, remarkable progress has been made by using deep learning techniques to solve the KT problem. The majority of existing approaches rely on the \emph{homogeneous question} assumption that questions have equivalent contributions if they share the same set of knowledge components. Unfortunately, this assumption is inaccurate in real-world educational scenarios. Furthermore, it is very challenging to interpret the prediction results from the existing deep learning based KT models. Therefore, in this paper, we present QIKT, a question-centric interpretable KT model to address the above challenges. The proposed QIKT approach explicitly models students' knowledge state variations at a fine-grained level with question-sensitive cognitive representations that are jointly learned from a question-centric knowledge acquisition module and a question-centric problem solving module. Meanwhile, the QIKT utilizes an item response theory based prediction layer to generate interpretable prediction results. The proposed QIKT model is evaluated on three public real-world educational datasets. The results demonstrate that our approach is superior on the KT prediction task, and it outperforms a wide range of deep learning based KT models in terms of prediction accuracy with better model interpretability. To encourage reproducible results, we have provided all the datasets and code at \url{https://pykt.org/}.
翻訳日:2023-02-15 16:02:25 公開日:2023-02-14
# オフライン強化学習のための保守的状態値推定

Conservative State Value Estimation for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.06884v1 )

ライセンス: Link先を確認
Liting Chen, Jie Yan, Zhengdao Shao, Lu Wang, Qingwei Lin and Dongmei Zhang(参考訳) オフライン強化学習は、データセットと現在の学習方針の分散的なドリフトによって、価値の過大評価という大きな課題に直面している。 一般的なアプローチは、報酬または価値推定にペナルティ項をベルマン反復に組み込むことである。 一方、out-of-distribution(ood)状態とアクションの補間を避けるために、既存の手法では保守的なq関数推定に焦点を当てている。 本稿では,OOD状態に直接ペナルティを課すことによって,保守的V関数を学習する新しいアプローチである保存的状態値推定(CSVE)を提案する。 従来の作業と比較すると、CSVEはより効果的なデータポリシー最適化と保守的な値保証を実現している。 さらに, csveを応用し, 批判者がデータ集合 \emph{around} の状態のサンプリングとペナルティを付加することにより, 保守的価値推定を行う実用的なアクタ-批判的アルゴリズムを開発し, 状態探索によって拡張された重み付き更新を活用し, ポリシーを改善する。 我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。

Offline reinforcement learning faces a significant challenge of value over-estimation due to the distributional drift between the dataset and the current learned policy, leading to learning failure in practice. The common approach is to incorporate a penalty term to reward or value estimation in the Bellman iterations. Meanwhile, to avoid extrapolation on out-of-distribution (OOD) states and actions, existing methods focus on conservative Q-function estimation. In this paper, we propose Conservative State Value Estimation (CSVE), a new approach that learns conservative V-function via directly imposing penalty on OOD states. Compared to prior work, CSVE allows more effective in-data policy optimization with conservative value guarantees. Further, we apply CSVE and develop a practical actor-critic algorithm in which the critic does the conservative value estimation by additionally sampling and penalizing the states \emph{around} the dataset, and the actor applies advantage weighted updates extended with state exploration to improve the policy. We evaluate in classic continual control tasks of D4RL, showing that our method performs better than the conservative Q-function learning methods and is strongly competitive among recent SOTA methods.
翻訳日:2023-02-15 16:01:59 公開日:2023-02-14
# テキストガイドによるスケッチから写真への合成

Text-Guided Scene Sketch-to-Photo Synthesis ( http://arxiv.org/abs/2302.06883v1 )

ライセンス: Link先を確認
AprilPyone MaungMaung, Makoto Shing, Kentaro Mitsui, Kei Sawada, Fumio Okura(参考訳) テキストガイドを用いたシーンレベルのスケッチから写真への合成手法を提案する。 オブジェクトレベルのスケッチから写真への合成は広く研究されているが、対象のスタイルを適切に反映する参照写真なしでは、全シーン合成は依然として困難である。 そこで本研究では,最近の大規模事前学習生成モデルの知識を活用し,参照画像の必要なしにテキスト誘導によるスケッチ・ツー・フォト合成を実現する。 モデルのトレーニングには,写真の集合から自己教師付き学習を用いる。 具体的には,カラー画像とスケッチ画像の両方を標準エッジ領域にマッピングする事前学習エッジ検出器を用いて,写真ベースエッジ画像(トレーニング中)と手描きスケッチ画像(推論中)とのギャップを低減する。 スケッチやテキスト条件で遅延拡散モデル(安定拡散)を微調整することで,本手法を実装した。 実験により,カラー画像から抽出されていないオリジナルスケッチ画像を視覚的品質の高い写真に変換することを確認した。

We propose a method for scene-level sketch-to-photo synthesis with text guidance. Although object-level sketch-to-photo synthesis has been widely studied, whole-scene synthesis is still challenging without reference photos that adequately reflect the target style. To this end, we leverage knowledge from recent large-scale pre-trained generative models, resulting in text-guided sketch-to-photo synthesis without the need for reference images. To train our model, we use self-supervised learning from a set of photographs. Specifically, we use a pre-trained edge detector that maps both color and sketch images into a standardized edge domain, which reduces the gap between photograph-based edge images (during training) and hand-drawn sketch images (during inference). We implement our method by fine-tuning a latent diffusion model (i.e., Stable Diffusion) with sketch and text conditions. Experiments show that the proposed method translates original sketch images that are not extracted from color images into photos with compelling visual quality.
翻訳日:2023-02-15 16:01:36 公開日:2023-02-14
# SimpleKT:知識追跡のためのシンプルだがタフなベースライン

simpleKT: A Simple But Tough-to-Beat Baseline for Knowledge Tracing ( http://arxiv.org/abs/2302.06881v1 )

ライセンス: Link先を確認
Zitao Liu, Qiongqiong Liu, Jiahao Chen, Shuyan Huang, Weiqi Luo(参考訳) 知識追跡(KT)は、知的学習システムとの歴史的相互作用に基づいて、学生の将来のパフォーマンスを予測する問題である。 近年、モデルアーキテクチャや逆拡張など、さまざまな視点からktにディープニューラルネットワークを適用するための特別な手法が数多く提案されており、アルゴリズムやシステムがますます複雑になっている。 さらに、標準化された評価プロトコル \citep{liu2022pykt} の欠如により、広く合意されたKT基底線は存在せず、実験的な比較が矛盾し自己矛盾となり、すなわち、APSISTments 2009 上で報告された DKT の AUC スコアは 0.721 から 0.821 の範囲である。 そこで本稿では, textsc{simpleKT} と呼ばれる KT タスクを扱うための, 強で単純なベースライン手法を提案する。 心理学におけるRaschモデルに着想を得て,学習者が課題や課題のステップを達成するために必要な概念やスキルを一般化した知識成分の集合を包含する質問の個人差を抽出するために,質問特化変異を明示的にモデル化した。 さらに,学生の学習行動の把握に洗練された表現を用いる代わりに,通常のドット製品アテンション関数を用いて,学生学習インタラクションに埋め込まれた時間認識情報を抽出する。 このような単純なベースラインは、aucスコアの点で常にトップ3にランク付けでき、異なるドメインの7つのパブリックデータセットで12のdlktベースラインメソッドに対して57勝3敗16敗を達成した。 我々は、この研究が将来のKT研究の強力な基盤となると信じている。 コードは \url{https://github.com/pykt-team/pykt-toolkit}\footnote{ we merged our model to the \textsc{pyKT} benchmark at \url{https://pykt.org/} で利用可能である。 }.

Knowledge tracing (KT) is the problem of predicting students' future performance based on their historical interactions with intelligent tutoring systems. Recently, many works present lots of special methods for applying deep neural networks to KT from different perspectives like model architecture, adversarial augmentation and etc., which make the overall algorithm and system become more and more complex. Furthermore, due to the lack of standardized evaluation protocol \citep{liu2022pykt}, there is no widely agreed KT baselines and published experimental comparisons become inconsistent and self-contradictory, i.e., the reported AUC scores of DKT on ASSISTments2009 range from 0.721 to 0.821 \citep{minn2018deep,yeung2018addressing}. Therefore, in this paper, we provide a strong but simple baseline method to deal with the KT task named \textsc{simpleKT}. Inspired by the Rasch model in psychometrics, we explicitly model question-specific variations to capture the individual differences among questions covering the same set of knowledge components that are a generalization of terms of concepts or skills needed for learners to accomplish steps in a task or a problem. Furthermore, instead of using sophisticated representations to capture student forgetting behaviors, we use the ordinary dot-product attention function to extract the time-aware information embedded in the student learning interactions. Extensive experiments show that such a simple baseline is able to always rank top 3 in terms of AUC scores and achieve 57 wins, 3 ties and 16 loss against 12 DLKT baseline methods on 7 public datasets of different domains. We believe this work serves as a strong baseline for future KT research. Code is available at \url{https://github.com/pykt-team/pykt-toolkit}\footnote{We merged our model to the \textsc{pyKT} benchmark at \url{https://pykt.org/}.}.
翻訳日:2023-02-15 16:01:20 公開日:2023-02-14
# 絡み合いは最も多くの測定を生き残る

Entanglement Survives Most Measurements ( http://arxiv.org/abs/2302.06880v1 )

ライセンス: Link先を確認
Alvin Gonzales and Daniel Dilley and Mark Byrd(参考訳) 量子状態を作成し情報を抽出するために、完全な射影計測を行うことができると仮定されることが多い。 このような測定は、無相関なシステムと環境を達成することができる。 しかし、完全な射影計測は困難または不可能である。 弱測定の系列を用いて, 1 つの測定演算子が極限極限過程を通じて完全射影化されない限り,絡み合いは除去できないことを示した。 初期相関の除去と測定結果が追跡されないシナリオについても論じる。

To prepare quantum states and extract information, it is often assumed that one can perform a perfectly projective measurement. Such measurements can achieve an uncorrelated system and environment. However, perfectly projective measurements can be difficult or impossible to perform. Using a sequence of weak measurements, we show that entanglement cannot be removed unless one of the measurement operators becomes perfectly projective through an extreme limiting process. Removing initial correlations and the scenario where measurement outcomes are not tracked are also discussed.
翻訳日:2023-02-15 16:00:44 公開日:2023-02-14
# ニューラルネットワークは適応ブースティングと同じ方法で自己平均サブクラス化器から一般化されるか?

Do Neural Networks Generalize from Self-Averaging Sub-classifiers in the Same Way As Adaptive Boosting? ( http://arxiv.org/abs/2302.06923v1 )

ライセンス: Link先を確認
Michael Sun and Peter Chatain(参考訳) 近年、ニューラルネットワーク(nns)は、さまざまな領域で大きな飛躍を遂げている。 NNは、経験的成功をほとんど説明できないため、ブラックボックスアルゴリズムと呼ばれることが多い。 我々の基礎研究は、なぜニューラルネットワークが一般化するのかを説明することを目指している。 最近の進歩は、ますます複雑な関数列を通じてディープNNの性能を説明するための相互情報測度を導出した。 深層nnは,補間サブ分類器の数が増大するにつれて,自己平均化が一般化した一連のブースト分類器を学習する。 我々の知る限り、我々は、強化された分類器の一般化とディープNNの一般化の関連性を確立する最初の著者である。 実験結果と理論的解析から, ドロップアウトで訓練されたnnは, ブースティングにおける補間一般化現象の一般的な説明で引用されるように, 補間サブ分類器に対して類似した自己平均挙動を示すことが示唆された。

In recent years, neural networks (NNs) have made giant leaps in a wide variety of domains. NNs are often referred to as black box algorithms due to how little we can explain their empirical success. Our foundational research seeks to explain why neural networks generalize. A recent advancement derived a mutual information measure for explaining the performance of deep NNs through a sequence of increasingly complex functions. We show deep NNs learn a series of boosted classifiers whose generalization is popularly attributed to self-averaging over an increasing number of interpolating sub-classifiers. To our knowledge, we are the first authors to establish the connection between generalization in boosted classifiers and generalization in deep NNs. Our experimental evidence and theoretical analysis suggest NNs trained with dropout exhibit similar self-averaging behavior over interpolating sub-classifiers as cited in popular explanations for the post-interpolation generalization phenomenon in boosting.
翻訳日:2023-02-15 15:55:03 公開日:2023-02-14
# 拘束された量子粒子のエネルギースペクトルと拘束面のウィルモアエネルギー

Energy Spectrum of a constrained Quantum Particle and the Willmore Energy of the constraining Surface ( http://arxiv.org/abs/2302.06920v1 )

ライセンス: Link先を確認
Vicent Gimeno i Garcia and Steen Markvorsen(参考訳) 幾何学的および位相的境界は、3空間でコンパクトな表面上を移動することを制約された粒子の最初のエネルギーレベルギャップに対して得られる。 さらに幾何学的性質も見出され、表面上に定常かつ一様に分布する波動関数が存在する。

Geometric and topological bounds are obtained for the first energy level gap of a particle constrained to move on a compact surface in 3-space. Moreover, geometric properties are found which allows for stationary and uniformly distributed wave functions to exist on the surface.
翻訳日:2023-02-15 15:54:48 公開日:2023-02-14
# 自律深部光航法のための画像処理パイプライン

An Image Processing Pipeline for Autonomous Deep-Space Optical Navigation ( http://arxiv.org/abs/2302.06918v1 )

ライセンス: Link先を確認
Eleonora Andreis, Paolo Panicucci, Francesco Topputo(参考訳) 宇宙探査と利用の新しい時代が近づいている。 今後数十年のうちに、新しい宇宙経済の推進力の下で多数の宇宙船が流れるだろう。 しかし、深宇宙資産の隆盛により、地上から標準の放射能追跡でそれらを操縦することは不可能となる。 これらの制限を克服するためには、自律ナビゲーションの代替手段の採用が不可欠だ。 その中でも、光学ナビゲーションは安価で完全に地上に依存しないアプローチである。 探査機は、惑星や小惑星などの可視ビーコンを観測することで、深宇宙での視線を取得することで位置を三角測量することができる。 そのためには、ナビゲーションフィルタに情報を提供する効率的でロバストな画像処理アルゴリズムの開発が必要となる。 本稿では,未解決のビーコン認識と,惑星間自律ナビゲーションのための画像からの視線抽出のための革新的なパイプラインを提案する。 開発したアルゴリズムは、kベクター法を用いて、恒星以外の物体の識別と統計的確率を利用して、画像中にビーコン射影が見えるかどうかを検出する。 統計的には、惑星の位置推定の精度は、宇宙船の位置の不確かさとは無関係である。 一方、探査機の位置が3シグマの精度で10^5kmに達すると、惑星検出成功率は95%以上である。

A new era of space exploration and exploitation is fast approaching. A multitude of spacecraft will flow in the future decades under the propulsive momentum of the new space economy. Yet, the flourishing proliferation of deep-space assets will make it unsustainable to pilot them from ground with standard radiometric tracking. The adoption of autonomous navigation alternatives is crucial to overcoming these limitations. Among these, optical navigation is an affordable and fully ground-independent approach. Probes can triangulate their position by observing visible beacons, e.g., planets or asteroids, by acquiring their line-of-sight in deep space. To do so, developing efficient and robust image processing algorithms providing information to navigation filters is a necessary action. This paper proposes an innovative pipeline for unresolved beacon recognition and line-of-sight extraction from images for autonomous interplanetary navigation. The developed algorithm exploits the k-vector method for the non-stellar object identification and statistical likelihood to detect whether any beacon projection is visible in the image. Statistical results show that the accuracy in detecting the planet position projection is independent of the spacecraft position uncertainty. Whereas, the planet detection success rate is higher than 95% when the spacecraft position is known with a 3sigma accuracy up to 10^5 km.
翻訳日:2023-02-15 15:54:43 公開日:2023-02-14
# 検閲下のバンディット問題における有効次元

Effective Dimension in Bandit Problems under Censorship ( http://arxiv.org/abs/2302.06916v1 )

ライセンス: Link先を確認
Gauthier Guinet, Saurabh Amin, Patrick Jaillet(参考訳) 本稿では,検閲環境におけるマルチアームとコンテキスト的バンディットの問題について検討する。 我々の目標は、非検閲環境向けに設計された古典的アルゴリズムの文脈における検閲による性能損失を推定することである。 我々の主な貢献は、広範囲にわたる検閲モデルの導入と、問題の有効次元(その基礎となる統計的複雑さの自然な尺度と、後悔の限界の主要因)の観点からの分析である。 特に、有効次元は、より広い空間に埋め込んだまま、最初の問題の構造を一階に維持することができ、したがって自然に無検閲の設定に類似した結果をもたらす。 我々の分析は楕円ポテンシャル不等式を連続的に一般化することを含み、これは独立な関心事であると考えている。 また,検閲下での意思決定の興味深い性質を見出した。検閲の初回的誤特定を余分なコストで自己修正する過渡相と,有効次元に支配される学習の固有の緩慢さを反映した定常相である。 得られたフィードバックが戦略的不確実性(例えば、エージェントの推薦に従う意思)とランダム不確実性(例えば、情報の到着の損失や遅延)に依存するような逐次的意思決定モデルの応用に有用である。

In this paper, we study both multi-armed and contextual bandit problems in censored environments. Our goal is to estimate the performance loss due to censorship in the context of classical algorithms designed for uncensored environments. Our main contributions include the introduction of a broad class of censorship models and their analysis in terms of the effective dimension of the problem -- a natural measure of its underlying statistical complexity and main driver of the regret bound. In particular, the effective dimension allows us to maintain the structure of the original problem at first order, while embedding it in a bigger space, and thus naturally leads to results analogous to uncensored settings. Our analysis involves a continuous generalization of the Elliptical Potential Inequality, which we believe is of independent interest. We also discover an interesting property of decision-making under censorship: a transient phase during which initial misspecification of censorship is self-corrected at an extra cost, followed by a stationary phase that reflects the inherent slowdown of learning governed by the effective dimension. Our results are useful for applications of sequential decision-making models where the feedback received depends on strategic uncertainty (e.g., agents' willingness to follow a recommendation) and/or random uncertainty (e.g., loss or delay in arrival of information).
翻訳日:2023-02-15 15:54:25 公開日:2023-02-14
# 半教師付きクロスモーダル注意によるソフトウェアシステムの異種異常検出

Heterogeneous Anomaly Detection for Software Systems via Semi-supervised Cross-modal Attention ( http://arxiv.org/abs/2302.06914v1 )

ライセンス: Link先を確認
Cheryl Lee, Tianyi Yang, Zhuangbin Chen, Yuxin Su, Yongqiang Yang, Michael R. Lyu(参考訳) ソフトウェアシステムの信頼性を確保するには,システム異常の迅速かつ正確な検出が不可欠である。 利用可能なすべての実行時情報を利用する手作業とは異なり、既存のアプローチは通常、単一のタイプの監視データ(しばしばログやメトリクス)のみを利用するか、異なるタイプのデータ間でジョイント情報を効果的に利用しない。 その結果、多くの誤った予測が生じる。 システム異常の顕現をよりよく理解するために,大量の異種データ,すなわちログやメトリクスを体系的に研究する。 本研究は,ログとメトリクスが協調的かつ補完的にシステム異常を発現できることを示し,どちらも十分ではないことを示した。 これにより、異種データの統合は、システムの健康状態の全体像を回復するのに役立つ。 本稿では,ヘテロジニアスデータに基づくシステムの異常を効果的に識別する最初のエンドツーエンド半教師付きアプローチであるhadesを提案する。 このアプローチでは,ログセマンティクスとメトリックパターンを融合することにより,システム状態のグローバル表現を学ぶために階層的アーキテクチャを用いる。 半教師付き方法で訓練されたクロスモーダルアテンションモジュールを通じて、異種データからの識別的特徴と有意義な相互作用をキャプチャする。 我々はHuawei Cloudの大規模シミュレーションデータとデータセットに基づいてHadesを広範囲に評価する。 実験結果は,本モデルがシステム異常の検出に有効であることを示す。 また、複製と将来の研究のためのコードと注釈付きデータセットもリリースしています。

Prompt and accurate detection of system anomalies is essential to ensure the reliability of software systems. Unlike manual efforts that exploit all available run-time information, existing approaches usually leverage only a single type of monitoring data (often logs or metrics) or fail to make effective use of the joint information among different types of data. Consequently, many false predictions occur. To better understand the manifestations of system anomalies, we conduct a systematical study on a large amount of heterogeneous data, i.e., logs and metrics. Our study demonstrates that logs and metrics can manifest system anomalies collaboratively and complementarily, and neither of them only is sufficient. Thus, integrating heterogeneous data can help recover the complete picture of a system's health status. In this context, we propose Hades, the first end-to-end semi-supervised approach to effectively identify system anomalies based on heterogeneous data. Our approach employs a hierarchical architecture to learn a global representation of the system status by fusing log semantics and metric patterns. It captures discriminative features and meaningful interactions from heterogeneous data via a cross-modal attention module, trained in a semi-supervised manner. We evaluate Hades extensively on large-scale simulated data and datasets from Huawei Cloud. The experimental results present the effectiveness of our model in detecting system anomalies. We also release the code and the annotated dataset for replication and future research.
翻訳日:2023-02-15 15:53:47 公開日:2023-02-14
# 後悔地区における強固な深層強化学習

Robust Deep Reinforcement Learning through Regret Neighborhoods ( http://arxiv.org/abs/2302.06912v1 )

ライセンス: Link先を確認
Roman Belaire, Pradeep Varakantham, David Lo(参考訳) 深層強化学習(DRL)の政策は、観測において小さな敵対的雑音に弱いことが示されている。 このような敵対的ノイズは、安全クリティカルな環境において破滅的な結果をもたらす可能性がある。 例えば、近くの標識(例えば、速度制限標識として知覚されるように物理的に変化した停止標識)や物体(例えば、木として認識されるように変更された車)に関する逆向きに乱れた感覚観察を受ける自動運転車は致命的である。 既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、各イテレーションで生成された敵の例に対して反復的に改善するリアクティブアプローチに焦点を当てている。 このような手法は、通常のRL法よりも改善されていることが示されているが、それらは反応性が高く、訓練中に特定のカテゴリの逆例が生成されない場合、著しく悪化する可能性がある。 そのために私たちは,期待値ではなく,十分に検討されたロバストネス尺度を直接最適化する,より積極的なアプローチを追求します。 我々は、受信した「観測」に対する観察の「近隣」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。 我々の後悔の基準は、既存の値およびポリシーベースのDeep RLメソッドの変更に利用できる。 当社のアプローチは,より堅牢なDeep RLに対する主要なアプローチに対して,さまざまなベンチマークで大幅なパフォーマンス向上を実現しています。

Deep Reinforcement Learning (DRL) policies have been shown to be vulnerable to small adversarial noise in observations. Such adversarial noise can have disastrous consequences in safety-critical environments. For instance, a self-driving car receiving adversarially perturbed sensory observations about nearby signs (e.g., a stop sign physically altered to be perceived as a speed limit sign) or objects (e.g., cars altered to be recognized as trees) can be fatal. Existing approaches for making RL algorithms robust to an observation-perturbing adversary have focused on reactive approaches that iteratively improve against adversarial examples generated at each iteration. While such approaches have been shown to provide improvements over regular RL methods, they are reactive and can fare significantly worse if certain categories of adversarial examples are not generated during training. To that end, we pursue a more proactive approach that relies on directly optimizing a well-studied robustness measure, regret instead of expected value. We provide a principled approach that minimizes maximum regret over a "neighborhood" of observations to the received "observation". Our regret criterion can be used to modify existing value- and policy-based Deep RL methods. We demonstrate that our approaches provide a significant improvement in performance across a wide variety of benchmarks against leading approaches for robust Deep RL.
翻訳日:2023-02-15 15:53:20 公開日:2023-02-14
# DiffFaceSketch:Sketch-Guided Latent Diffusion Modelを用いた高忠実顔画像合成

DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model ( http://arxiv.org/abs/2302.06908v1 )

ライセンス: Link先を確認
Yichen Peng, Chunqi Zhao, Haoran Xie, Tsukasa Fukusato, and Kazunori Miyata(参考訳) モノクロスケッチからの顔画像の合成は、画像から画像への変換の分野で最も基本的なタスクの1つである。 しかし,(1) -メイクモデルでは幾何や色などの高次元の顔の特徴を学習し,(2) - 入力スケッチの特徴を考慮することは依然として困難である。 既存の手法では、スケッチを間接的な入力(または補助入力)として使用してモデルをガイドし、スケッチの特徴の喪失や幾何情報の変更をもたらす。 本稿では,Sketch-Guided Latent Diffusion Model (SGLDM)を提案する。 マルチオートエンコーダ(AE)を用いて画素空間の異なる領域から潜在空間の特徴マップに異なる入力スケッチを符号化し、局所的な顔の詳細の幾何学的情報を保持しながらスケッチ入力の寸法を小さくすることができる。 画像からエッジマップを抽出する既存の手法に基づいて,スケッチ面対のデータセットを構築する。 次にSRA(Stochastic Region Abstraction)を導入し、データセットを拡張してSGLDMの堅牢性を改善し、任意の抽象化でスケッチ入力を処理する。 評価実験により,SGLDMは,表現の異なる高品質な顔画像,顔のアクセサリ,ヘアスタイルを,抽象レベルの異なるスケッチから合成できることがわかった。

Synthesizing face images from monochrome sketches is one of the most fundamental tasks in the field of image-to-image translation. However, it is still challenging to (1)~make models learn the high-dimensional face features such as geometry and color, and (2)~take into account the characteristics of input sketches. Existing methods often use sketches as indirect inputs (or as auxiliary inputs) to guide the models, resulting in the loss of sketch features or the alteration of geometry information. In this paper, we introduce a Sketch-Guided Latent Diffusion Model (SGLDM), an LDM-based network architect trained on the paired sketch-face dataset. We apply a Multi-Auto-Encoder (AE) to encode the different input sketches from different regions of a face from pixel space to a feature map in latent space, which enables us to reduce the dimension of the sketch input while preserving the geometry-related information of local face details. We build a sketch-face paired dataset based on the existing method that extracts the edge map from an image. We then introduce a Stochastic Region Abstraction (SRA), an approach to augment our dataset to improve the robustness of SGLDM to handle sketch input with arbitrary abstraction. The evaluation study shows that SGLDM can synthesize high-quality face images with different expressions, facial accessories, and hairstyles from various sketches with different abstraction levels.
翻訳日:2023-02-15 15:52:57 公開日:2023-02-14
# グラフに基づくクラス不均衡ボット検出のための特徴空間のオーバーサンプリング戦略

Over-Sampling Strategy in Feature Space for Graphs based Class-imbalanced Bot Detection ( http://arxiv.org/abs/2302.06900v1 )

ライセンス: Link先を確認
Shuhao Shi, Kai Qiao, Jie Yang, Baojie Song, Jian Chen and Bin Yan(参考訳) オンラインソーシャルネットワーク(OSN)に多数のボットが存在することは、望ましくない社会的影響をもたらす。 グラフニューラルネットワーク(GNN)は、ユーザインタラクションを効果的に活用できるため、ボット検出において最先端のパフォーマンスを実現している。 ほとんどのシナリオでは、ボットと人間の分布は不均衡であり、少数派集団のサンプルや準最適性能をもたらす。 しかし、従来のGNNベースのボット検出手法では、クラス不均衡の問題の影響をほとんど考慮していない。 本稿では,ボット検出におけるクラス不均衡の影響を軽減するため,GNN(OS-GNN)のオーバーサンプリング戦略を提案する。 GNNの従来のオーバーサンプリング手法と比較して、OS-GNNはエッジ合成を要求せず、エッジ構築時に必然的に導入されるノイズを排除している。 具体的には、ノード機能はまず近傍の集約を通じて特徴空間にマッピングされ、その後、特徴空間内の少数クラスのサンプルを生成する。 最後に、拡張機能は、分類器をトレーニングするためにGNNに入力される。 このフレームワークは汎用的で、簡単に異なるGNNアーキテクチャに拡張できる。 提案するフレームワークは,3つの実世界のボット検出ベンチマークデータセットを用いて評価し,ベースラインよりも常に優位性を示す。

The presence of a large number of bots in Online Social Networks (OSN) leads to undesirable social effects. Graph neural networks (GNNs) have achieved state-of-the-art performance in bot detection since they can effectively utilize user interaction. In most scenarios, the distribution of bots and humans is imbalanced, resulting in under-represent minority class samples and sub-optimal performance. However, previous GNN-based methods for bot detection seldom consider the impact of class-imbalanced issues. In this paper, we propose an over-sampling strategy for GNN (OS-GNN) that can mitigate the effect of class imbalance in bot detection. Compared with previous over-sampling methods for GNNs, OS-GNN does not call for edge synthesis, eliminating the noise inevitably introduced during the edge construction. Specifically, node features are first mapped to a feature space through neighborhood aggregation and then generated samples for the minority class in the feature space. Finally, the augmented features are fed into GNNs to train the classifiers. This framework is general and can be easily extended into different GNN architectures. The proposed framework is evaluated using three real-world bot detection benchmark datasets, and it consistently exhibits superiority over the baselines.
翻訳日:2023-02-15 15:52:31 公開日:2023-02-14
# 量子位相推定における特殊関数

Special functions in quantum phase estimation ( http://arxiv.org/abs/2302.06899v1 )

ライセンス: Link先を確認
Masahito Hayashi(参考訳) 本稿では、量子情報の基本的話題である位相推定への特殊関数の適用に関する既存の結果を説明する。 2つの特殊機能に焦点を当てる。 1つはプロレートスフェロイド波動関数であり、これは、真のパラメータと推定との差が一定の閾値よりも小さいという最大確率を与える。 もう1つはマチュー関数であり、エネルギー制約の下での最適推定を正確に行う。 また、周期関数の位置と運動量に関する不確実性関係を特徴づける。

This paper explains existing results for the application of special functions to phase estimation, which is a fundamental topic in quantum information. We focus on two special functions. One is prolate spheroidal wave function, which approximately gives the maximum probability that the difference between the true parameter and the estimate is smaller than a certain threshold. The other is Mathieu function, which exactly gives the optimum estimation under the energy constraint. It also characterizes the uncertainty relation for the position and the momentum for periodic functions.
翻訳日:2023-02-15 15:52:14 公開日:2023-02-14
# 重度のぼやけ除去のために他のタスクから先取りする

Take a Prior from Other Tasks for Severe Blur Removal ( http://arxiv.org/abs/2302.06898v1 )

ライセンス: Link先を確認
Pei Wang, Danna Xue, Yu Zhu, Jinqiu Sun, Qingsen Yan, Sung-eui Yoon, Yanning Zhang(参考訳) ひどくぼやけた入力から明確な構造を回復することは、カメラとシーンの間の大きな動きのために難しい問題である。 人間の顔画像のセグメンテーションマップをデブロアリングに応用する研究もあるが、オブジェクトや劣化がより複雑であり、不正確なセグメンテーションマップが詳細を損なうため、自然なシーンは扱えない。 一般的には, 高次視覚課題におけるぼやけた画像の特徴空間とそれに対応するシャープな画像が近づき, 深刻なぼやけた除去事例の包括的事前学習のために, 他のタスク(分類など)に頼らざるを得ない。 そこで本研究では,グローバルコンテキストと鋭い局所構造を含む事前学習のための知識蒸留に基づくクロスレベル特徴学習戦略を提案する。 さらに,マルチレベルアグリゲーションとセマンティックアテンション変換を併用したセマンティック先行埋め込み層を提案する。 提案した先行モデルには,UNetや他の主流の劣化ベースラインなど,さまざまなモデルが導入されている。 goproやrealblur datasetsのような、自然画像デブラリングベンチマークや実世界の画像に関する広範な実験は、この手法の有効性と一般化能力を示している。

Recovering clear structures from severely blurry inputs is a challenging problem due to the large movements between the camera and the scene. Although some works apply segmentation maps on human face images for deblurring, they cannot handle natural scenes because objects and degradation are more complex, and inaccurate segmentation maps lead to a loss of details. For general scene deblurring, the feature space of the blurry image and corresponding sharp image under the high-level vision task is closer, which inspires us to rely on other tasks (e.g. classification) to learn a comprehensive prior in severe blur removal cases. We propose a cross-level feature learning strategy based on knowledge distillation to learn the priors, which include global contexts and sharp local structures for recovering potential details. In addition, we propose a semantic prior embedding layer with multi-level aggregation and semantic attention transformation to integrate the priors effectively. We introduce the proposed priors to various models, including the UNet and other mainstream deblurring baselines, leading to better performance on severe blur removal. Extensive experiments on natural image deblurring benchmarks and real-world images, such as GoPro and RealBlur datasets, demonstrate our method's effectiveness and generalization ability.
翻訳日:2023-02-15 15:52:06 公開日:2023-02-14
# 不均一エッジリソース割り当てのためのオンライン価格のバンドアプローチ

A Bandit Approach to Online Pricing for Heterogeneous Edge Resource Allocation ( http://arxiv.org/abs/2302.06953v1 )

ライセンス: Link先を確認
Jiaming Cheng, Duong Thuy Anh Nguyen, Lele Wang, Duong Tung Nguyen, Vijay K. Bhargava(参考訳) Edge Computing(EC)は、エンドユーザに近いクラウドリソースを配置することで、優れたユーザエクスペリエンスを提供します。 ECプラットフォームの利益を最大化しながらエッジリソースを効率的に割り当てることの課題は、特にリソース要求のオンライン到着の複雑さが増すことによって、高度な問題である。 そこで本研究では,マルチアームバンディット問題としてこの問題を提起し,kl-ucbアルゴリズムとmin-max最適アルゴリズムという2つの新しいオンライン価格体系を考案し,異種エッジリソース割り当てを実現することを提案する。 これらのメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。 提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。 Epsilon-Greedy, Basic UCB, Thompson Samplingなど, 従来のバンディットアルゴリズムから派生したベンチマーク手法と比較して, 提案手法の利点を示す。

Edge Computing (EC) offers a superior user experience by positioning cloud resources in close proximity to end users. The challenge of allocating edge resources efficiently while maximizing profit for the EC platform remains a sophisticated problem, especially with the added complexity of the online arrival of resource requests. To address this challenge, we propose to cast the problem as a multi-armed bandit problem and develop two novel online pricing mechanisms, the Kullback-Leibler Upper Confidence Bound (KL-UCB) algorithm and the Min-Max Optimal algorithm, for heterogeneous edge resource allocation. These mechanisms operate in real-time and do not require prior knowledge of demand distribution, which can be difficult to obtain in practice. The proposed posted pricing schemes allow users to select and pay for their preferred resources, with the platform dynamically adjusting resource prices based on observed historical data. Numerical results show the advantages of the proposed mechanisms compared to several benchmark schemes derived from traditional bandit algorithms, including the Epsilon-Greedy, basic UCB, and Thompson Sampling algorithms.
翻訳日:2023-02-15 15:45:28 公開日:2023-02-14
# 低リソース領域固有のソフトウェア要件を分類するための数ショット学習アプローチ

Few-shot learning approaches for classifying low resource domain specific software requirements ( http://arxiv.org/abs/2302.06951v1 )

ライセンス: Link先を確認
Anmol Nayak, Hari Prasad Timmapathini, Vidhya Murali, Atul Anil Gohad(参考訳) BERT、DeBERTa、MiniLM、T5といった、トレーニング済みの強力な自然言語処理モデルの出現により、業界がこれらのモデルをニッチなユースケースに微調整するために必要なデータ量は大幅に削減された(典型的には、合理的なパフォーマンスを達成するための数百の注釈付きサンプルに限る)。 しかし、数百の注釈付きサンプルでさえ、自動車のような低リソース領域では必ずしも保証されないため、産業環境ではこのようなディープラーニングモデルの使用が制限されることが多い。 本稿では,事前学習モデルにおいて,少数のアノテーション付きサンプルのみを用いて微調整するという課題に対処することを目的としている。 本実験は,ボッシュ自動車ドメインのテキスト要件を3つのカテゴリに分類し,カテゴリ毎に15の注釈付きサンプルのみを用いて微調整を行うための多種多様なアルゴリズムと方法論の性能評価に焦点をあてた。 SciBERT と DeBERTa をベースとしたモデルは15のトレーニングサンプルが最も正確である傾向にあるが,注記サンプルの数が Siamese と T5 ベースのモデルと比較して 50 に増加するにつれて,その性能向上は最小限に抑えられる。

With the advent of strong pre-trained natural language processing models like BERT, DeBERTa, MiniLM, T5, the data requirement for industries to fine-tune these models to their niche use cases has drastically reduced (typically to a few hundred annotated samples for achieving a reasonable performance). However, the availability of even a few hundred annotated samples may not always be guaranteed in low resource domains like automotive, which often limits the usage of such deep learning models in an industrial setting. In this paper we aim to address the challenge of fine-tuning such pre-trained models with only a few annotated samples, also known as Few-shot learning. Our experiments focus on evaluating the performance of a diverse set of algorithms and methodologies to achieve the task of classifying BOSCH automotive domain textual software requirements into 3 categories, while utilizing only 15 annotated samples per category for fine-tuning. We find that while SciBERT and DeBERTa based models tend to be the most accurate at 15 training samples, their performance improvement scales minimally as the number of annotated samples is increased to 50 in comparison to Siamese and T5 based models.
翻訳日:2023-02-15 15:45:07 公開日:2023-02-14
# カメラアクセスのないカメラキャリブレーション-拡張PnP法のロバスト検証手法

Camera Calibration without Camera Access -- A Robust Validation Technique for Extended PnP Methods ( http://arxiv.org/abs/2302.06949v1 )

ライセンス: Link先を確認
Emil Brissman and Per-Erik Forss\'en and Johan Edstedt(参考訳) 画像ベースメロジと法医学における課題は、使用済みカメラが利用できない場合に固有のカメラキャリブレーションである。 利用不可能は2つの疑問を引き起こす。 第1の問題は、カメラを記述する投影モデルをどのように見つけるか、第2の問題は、間違ったモデルを検出することである。 本研究では,2D-3D対応からモデルを見つけるために市販のPnP-methodを用いて,モデル検証手法を提案する。 射影モデルを評価する最も一般的な戦略は、異なるモデルの残留分散を比較することである。 この目的のために、各対応の残差をモデル化し、予測分散を用いて各残差を個別にスケールし、新しい残差が標準正規分布から引き出されるかどうかをテストする。 2次元検出とライダー計測をシミュレートした合成データ実験において,提案手法の有効性を実証する。 また,実際のシーンのデータを用いて実験を行い,非カメラアクセスとカメラアクセスキャリブレーションを比較した。 最後に、私たちのメソッドを使ってMegaDepthのアノテーションを検証する。

A challenge in image based metrology and forensics is intrinsic camera calibration when the used camera is unavailable. The unavailability raises two questions. The first question is how to find the projection model that describes the camera, and the second is to detect incorrect models. In this work, we use off-the-shelf extended PnP-methods to find the model from 2D-3D correspondences, and propose a method for model validation. The most common strategy for evaluating a projection model is comparing different models' residual variances - however, this naive strategy cannot distinguish whether the projection model is potentially underfitted or overfitted. To this end, we model the residual errors for each correspondence, individually scale all residuals using a predicted variance and test if the new residuals are drawn from a standard normal distribution. We demonstrate the effectiveness of our proposed validation in experiments on synthetic data, simulating 2D detection and Lidar measurements. Additionally, we provide experiments using data from an actual scene and compare non-camera access and camera access calibrations. Last, we use our method to validate annotations in MegaDepth.
翻訳日:2023-02-15 15:44:36 公開日:2023-02-14
# 多くの量子の民間統計的推定

Private Statistical Estimation of Many Quantiles ( http://arxiv.org/abs/2302.06943v1 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS Lyon, DANTE), Aur\'elien Garivier (UMPA-ENSL, MC2), R\'emi Gribonval (DANTE)(参考訳) 本研究は、微分プライバシー下での多くの統計量体の推定を考察する。 より正確には、その分布とi.d.サンプルへのアクセスが与えられたとき、特定の点における累積分布関数(量子関数)の逆関数の推定について検討する。 例えば、このタスクはプライベートデータ生成において重要なものです。 我々は2つの異なるアプローチを示す。 1つ目は、サンプルの経験的量子化をプライベートに推定し、この結果を用いて分布の量子化を推定することである。 特に,Kaplanらによって導入された最近発表されたアルゴリズムの統計的性質について検討する。 第二のアプローチは、ある間隔における量子関数を均一に推定するために密度推定の手法を使用することである。 特に、2つのメソッドの間にトレードオフがあることを示します。 多くの分位関数を推定したい場合、特定の点における分位関数を推定するよりも密度を推定する方がよい。

This work studies the estimation of many statistical quantiles under differential privacy. More precisely, given a distribution and access to i.i.d. samples from it, we study the estimation of the inverse of its cumulative distribution function (the quantile function) at specific points. For instance, this task is of key importance in private data generation. We present two different approaches. The first one consists in privately estimating the empirical quantiles of the samples and using this result as an estimator of the quantiles of the distribution. In particular, we study the statistical properties of the recently published algorithm introduced by Kaplan et al. 2022 that privately estimates the quantiles recursively. The second approach is to use techniques of density estimation in order to uniformly estimate the quantile function on an interval. In particular, we show that there is a tradeoff between the two methods. When we want to estimate many quantiles, it is better to estimate the density rather than estimating the quantile function at specific points.
翻訳日:2023-02-15 15:44:18 公開日:2023-02-14
# 文脈言語モデルと語彙意味ネットワークを用いたカテゴリー構造探索

Exploring Category Structure with Contextual Language Models and Lexical Semantic Networks ( http://arxiv.org/abs/2302.06942v1 )

ライセンス: Link先を確認
Joseph Renner (MAGNET), Pascal Denis (MAGNET), R\'emi Gilleron, Ang\`ele Brunelli\`ere (SCALab)(参考訳) 静的な単語埋め込み(heyman and heyman, 2019)または文脈化言語モデル(clms, misra et al., 2021)を使用して、分布モデルによるカテゴリ構造を予測する最近の研究は、人間の格付けとの相関が低いことを報告し、人間の意味記憶のモデルとしてその可能性に疑問を投げかけている。 本研究では,CLMを探索し,典型値の予測を行う手法について検討する。 BERT (Devlin et al., 2018) を用いた本実験では, CLMプローブの適切なタイプを用いることの重要性が示唆された。 第2に, この課題における多義性の重要性を強調し, 曖昧化機構を用いた場合の最良の結果を得た。 最後に、情報コンテンツベースのWordNet (Miller, 1995) も曖昧さを伴い、最高のBERTベースの手法の性能と一致し、実際、BERTと組み合わせてより洗練された典型予測を実現するための補完的な情報を取得する。

Recent work on predicting category structure with distributional models, using either static word embeddings (Heyman and Heyman, 2019) or contextualized language models (CLMs) (Misra et al., 2021), report low correlations with human ratings, thus calling into question their plausibility as models of human semantic memory. In this work, we revisit this question testing a wider array of methods for probing CLMs for predicting typicality scores. Our experiments, using BERT (Devlin et al., 2018), show the importance of using the right type of CLM probes, as our best BERT-based typicality prediction methods substantially improve over previous works. Second, our results highlight the importance of polysemy in this task: our best results are obtained when using a disambiguation mechanism. Finally, additional experiments reveal that Information Contentbased WordNet (Miller, 1995), also endowed with disambiguation, match the performance of the best BERT-based method, and in fact capture complementary information, which can be combined with BERT to achieve enhanced typicality predictions.
翻訳日:2023-02-15 15:44:03 公開日:2023-02-14
# 時間周波数量子状態のテレポーテーションに基づく誤り訂正プロトコル

Teleportation-based error correction protocol of time-frequency qubits states ( http://arxiv.org/abs/2302.06940v1 )

ライセンス: Link先を確認
Nicolas Fabre(参考訳) 本稿では,2つの時間周波数キュービット状態における時間的および周波数的誤差を伝送・補正するための線形光学プロトコルを提案する。 第1の状態は周波数(または時間)の猫キュービットであり、2つの周波数(または時間)の重畳における1つの光子であり、第2状態は周波数コム構造を持つ1つの光子である時間周波数のゴッテマン・キタエフ・プレスキル状態である。 提案した光学的スキームは、これらの量子ビットの1つを含む量子通信プロトコルにおける誤り率の低減に有用である。

We present a linear optical protocol for teleporting and correcting both temporal and frequency errors in two time-frequency qubit states. The first state is the frequency (or time-of-arrival) cat qubit, which is a single photon in a superposition of two frequencies (or time-of-arrival), while the second is the time-frequency Gottesman-Kitaev-Preskill (GKP) state, which is a single photon with a frequency comb structure. The proposed optical scheme could be valuable for reducing error rate in quantum communication protocols involving one of these qubits.
翻訳日:2023-02-15 15:43:40 公開日:2023-02-14
# 改良型YOLOv7による水中目標検出

Underwater target detection based on improved YOLOv7 ( http://arxiv.org/abs/2302.06939v1 )

ライセンス: Link先を確認
Kaiyue Liu, Qi Sun, Daming Sun, Mengduo Yang, Nizhuan Wang(参考訳) 水中ターゲット検出は海洋探査の重要な側面である。 しかし、従来の水中目標検出手法では、不正確な特徴抽出、遅い検出速度、複雑な水中環境における堅牢性の欠如など、いくつかの課題に直面している。 そこで本研究では,水中ターゲット検出のためのyolov7ネットワーク(yolov7-ac)の改良を提案する。 提案するネットワークは,ACmixBlockモジュールを用いてE-ELAN構造の3x3畳み込みブロックを置き換え,ACmixBlockモジュール間のジャンプ接続と1x1畳み込みアーキテクチャを組み込んで特徴抽出とネットワーク推論の高速化を図る。 さらに、resnet-acmixモジュールは特徴情報の損失を回避し、計算量を削減するように設計され、一方、モデルのバックボーンとヘッド部分にグローバルアテンション機構(gam)を挿入して特徴抽出を改善する。 さらに、K-means++アルゴリズムは、K-meansの代わりに使われ、アンカーボックスを取得し、モデルの精度を高める。 実験の結果,改良されたYOLOv7ネットワークは,本来のYOLOv7モデルおよび他の一般的な水中目標検出方法よりも優れていた。 提案したネットワークは,URPCデータセットとBrackishデータセットの平均平均精度(mAP)を89.6%,97.4%で達成し,従来のYOLOv7モデルと比較して,FPSよりも高いフレームレートを示した。 この研究のソースコードはhttps://github.com/NZWANG/YOLOV7-ACで公開されている。 本研究で提案する改良型YOLOv7ネットワークは, 水中目標検出のための有望な解であり, 様々な水中タスクの実用化に大きな可能性を秘めている。

Underwater target detection is a crucial aspect of ocean exploration. However, conventional underwater target detection methods face several challenges such as inaccurate feature extraction, slow detection speed and lack of robustness in complex underwater environments. To address these limitations, this study proposes an improved YOLOv7 network (YOLOv7-AC) for underwater target detection. The proposed network utilizes an ACmixBlock module to replace the 3x3 convolution block in the E-ELAN structure, and incorporates jump connections and 1x1 convolution architecture between ACmixBlock modules to improve feature extraction and network reasoning speed. Additionally, a ResNet-ACmix module is designed to avoid feature information loss and reduce computation, while a Global Attention Mechanism (GAM) is inserted in the backbone and head parts of the model to improve feature extraction. Furthermore, the K-means++ algorithm is used instead of K-means to obtain anchor boxes and enhance model accuracy. Experimental results show that the improved YOLOv7 network outperforms the original YOLOv7 model and other popular underwater target detection methods. The proposed network achieved a mean average precision (mAP) value of 89.6% and 97.4% on the URPC dataset and Brackish dataset, respectively, and demonstrated a higher frame per second (FPS) compared to the original YOLOv7 model. The source code for this study is publicly available at https://github.com/NZWANG/YOLOV7-AC. In conclusion, the improved YOLOv7 network proposed in this study represents a promising solution for underwater target detection and holds great potential for practical applications in various underwater tasks.
翻訳日:2023-02-15 15:43:26 公開日:2023-02-14
# 固定周波数トランスモンカプラを用いた超伝導量子ビットの全マイクロ波操作

All-microwave manipulation of superconducting qubits with a fixed-frequency transmon coupler ( http://arxiv.org/abs/2302.06930v1 )

ライセンス: Link先を確認
Shotaro Shirai, Yuta Okubo, Kohei Matsuura, Alto Osada, Yasunobu Nakamura, Atsushi Noguchi(参考訳) 固定周波数超伝導量子コンピューティング回路の全マイクロ波制御は、ノイズチャネルと配線コストを最小化するのに有利である。 本稿では,マイクロ波駆動下での2つのデータトランスモン間のスワップ相互作用について紹介する。 相互作用を解析的および数値的にモデル化し、全マイクロ波制御Zゲートの実装に使用する。 カプラアシストスワップ遷移に基づくゲートは、データトランスモン間の広範囲なデチューニングにおいて、高い駆動効率と小さな残差相互作用を維持する。

All-microwave control of fixed-frequency superconducting quantum computing circuits is advantageous for minimizing the noise channels and wiring costs. Here we introduce a swap interaction between two data transmons assisted by the third-order nonlinearity of a coupler transmon under a microwave drive. We model the interaction analytically and numerically and use it to implement an all-microwave controlled-Z gate. The gate based on the coupler-assisted swap transition maintains high drive efficiency and small residual interaction over a wide range of detuning between the data transmons.
翻訳日:2023-02-15 15:42:54 公開日:2023-02-14
# lightsolverは、max-2-sat問題の指導的ディープラーニングソルバに挑戦する

Lightsolver challenges a leading deep learning solver for Max-2-SAT problems ( http://arxiv.org/abs/2302.06926v1 )

ライセンス: Link先を確認
Hod Wirzberger, Assaf Kalinski, Idan Meirzada, Harel Primack, Yaniv Romano, Chene Tradonsky, Ruti Ben Shlomi(参考訳) 最大2充足可能性 (MAX-2-SAT) は、NPハードであることが知られている組合せ決定問題の一種である。 本稿では,lightsolverの量子インスパイアされたアルゴリズムを,max-2-sat問題の指導的ディープラーニングソルバと比較する。 ベンチマークデータセットの実験から、LightSolverは、最先端のディープラーニングアルゴリズムに比べて、問題の大きさによってパフォーマンスが向上する傾向にあるため、時間と最適の解法が大幅に小さいことが示されている。

Maximum 2-satisfiability (MAX-2-SAT) is a type of combinatorial decision problem that is known to be NP-hard. In this paper, we compare LightSolver's quantum-inspired algorithm to a leading deep-learning solver for the MAX-2-SAT problem. Experiments on benchmark data sets show that LightSolver achieves significantly smaller time-to-optimal-solution compared to a state-of-the-art deep-learning algorithm, where the gain in performance tends to increase with the problem size.
翻訳日:2023-02-15 15:42:47 公開日:2023-02-14
# 行方不明のマルジン:ANNの国境からの距離にどんな影響があるか

The Missing Margin: How Sample Corruption Affects Distance to the Boundary in ANNs ( http://arxiv.org/abs/2302.06925v1 )

ライセンス: Link先を確認
Marthinus W. Theunissen and Coenraad Mouton and Marelie H. Davel(参考訳) 分類マージンは、機械学習モデルの一般化能力を推定するために一般的に用いられる。 本稿では,これらのマージンをニューラルネットワークで実験的に研究する。 グローバルなマージンサイズの推定は通常、文献で使用される。 本稿では,分類マージンに関するニュアンスをほとんど考慮しない点を指摘する。 特に,いくつかのトレーニングサンプルが連続的に小さなマージンでモデル化され,異なる方法での一般化に影響を及ぼすことを示す。 異なるターゲットのサンプルに最小距離のリンクとサンプルの遠隔性を示すことによって、この観察のもっともらしい説明を提供する。 我々は、ノイズ崩壊MNISTデータに基づいて訓練された完全接続ネットワークと、ノイズ崩壊CIFAR10データに基づいて訓練された畳み込みネットワークの分析を支援した。

Classification margins are commonly used to estimate the generalization ability of machine learning models. We present an empirical study of these margins in artificial neural networks. A global estimate of margin size is usually used in the literature. In this work, we point out seldom considered nuances regarding classification margins. Notably, we demonstrate that some types of training samples are modelled with consistently small margins while affecting generalization in different ways. By showing a link with the minimum distance to a different-target sample and the remoteness of samples from one another, we provide a plausible explanation for this observation. We support our findings with an analysis of fully-connected networks trained on noise-corrupted MNIST data, as well as convolutional networks trained on noise-corrupted CIFAR10 data.
翻訳日:2023-02-15 15:42:38 公開日:2023-02-14
# 包括的データ工学手法による多言語情報検索におけるモデル性能の向上

Enhancing Model Performance in Multilingual Information Retrieval with Comprehensive Data Engineering Techniques ( http://arxiv.org/abs/2302.07010v1 )

ライセンス: Link先を確認
Qi Zhang, Zijian Yang, Yilun Huang, Ze Chen, Zijian Cai, Kangxu Wang, Jiewen Zheng, Jiarong He, Jin Gao(参考訳) 本稿では,WSDM CUP 2023\footnote{https://project-miracl.github.io/}におけるMIRACL(Multilingual Information Retrieval Across a Continuum of Languages)問題に対する解決策を提案する。 我々のソリューションは、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整するランキングステージの向上に焦点を当てている。 我々のモデル改善は主に、関連するトレーニングデータの収集、データ拡張、ネガティブサンプリングなど、多様なデータエンジニアリング技術によって達成されている。 本モデルは,クエリと文書間の意味的関連性を効果的に決定し,多言語情報検索プロセスの効率を大幅に向上させる。 最後に、私たちのチームは、この挑戦的なコンペティションで素晴らしい結果を得たことを喜んでいます。サプライズ言語トラックで2位、既知の言語トラックでは0.835位と3位、最終リーダーボードでは16の既知の言語で平均 ndcg@10 スコア 0.716 のスコアで、サプライズ言語トラックで2位を確保しています。

In this paper, we present our solution to the Multilingual Information Retrieval Across a Continuum of Languages (MIRACL) challenge of WSDM CUP 2023\footnote{https://project-miracl.github.io/}. Our solution focuses on enhancing the ranking stage, where we fine-tune pre-trained multilingual transformer-based models with MIRACL dataset. Our model improvement is mainly achieved through diverse data engineering techniques, including the collection of additional relevant training data, data augmentation, and negative sampling. Our fine-tuned model effectively determines the semantic relevance between queries and documents, resulting in a significant improvement in the efficiency of the multilingual information retrieval process. Finally, Our team is pleased to achieve remarkable results in this challenging competition, securing 2nd place in the Surprise-Languages track with a score of 0.835 and 3rd place in the Known-Languages track with an average nDCG@10 score of 0.716 across the 16 known languages on the final leaderboard.
翻訳日:2023-02-15 15:36:29 公開日:2023-02-14
# 自由発展による量子熱エンジンの性能向上

Improving Performance of Quantum Heat Engines by Free Evolution ( http://arxiv.org/abs/2302.07003v1 )

ライセンス: Link先を確認
Revathy B. S, Harsh Sharma, Uma Divakaran(参考訳) 量子熱エンジンの効率は、ユニタリストロークが断熱的であるときに最大である。 一方、システム内のエネルギーギャップが小さいため、特にギャップが消える臨界点において、これは常に可能であるとは限らない。 この断熱性を達成するために、システムを特定のハミルトニアンと自由に発展させることで、サイクルのユニタリストロークの1つを修正し、システムがより励起の少ない状態に到達できるようにする。 これにより、熱湯から吸収される熱の大きさを増大させ、エンジンの出力と効率を高めることができる。 本手法は, 可積分モデルと非可積分モデルを用いて実働媒体として示す。 2つのスピン系の場合、システムが自由に進化するまでの時間に対する最適値は、断熱極限で解析的に計算される。 その結果、この修正ストロークを実装することで、特に臨界点を越えると、エンジンの作業出力と効率が大幅に向上することが示された。

The efficiency of a quantum heat engine is maximum when the unitary strokes are adiabatic. On the other hand, this may not be always possible due to small energy gaps in the system, especially at the critical point where the gap vanishes. With the aim to achieve this adiabaticity, we modify one of the unitary strokes of the cycle by allowing the system to evolve freely with a particular Hamiltonian till a time so that the system reaches a less excited state. This will help in increasing the magnitude of the heat absorbed from the hot bath so that the work output and efficiency of the engine can be increased. We demonstrate this method using an integrable model and a non- integrable model as the working medium. In the case of a two spin system, the optimal value for the time till which the system needs to be freely evolved is calculated analytically in the adiabatic limit. The results show that implementing this modified stroke significantly improves the work output and efficiency of the engine, especially when it crosses the critical point.
翻訳日:2023-02-15 15:36:08 公開日:2023-02-14
# 3億以上のgaia星のパラメータ - bayesian inference vs. machine learning

Parameters for > 300 million Gaia stars: Bayesian inference vs. machine learning ( http://arxiv.org/abs/2302.06995v1 )

ライセンス: Link先を確認
F. Anders, A. Khalatyan, A. B. A. Queiroz, S. Nepal, C. Chiappini(参考訳) 2022年6月に発表された gaia data release 3 (dr3) は、10億以上の恒星に対して様々な天体計測、測光、分光測定を行う。 データの豊かさと複雑さは、gaiaデータセット全体の恒星パラメータをほぼ禁止する従来のアプローチである。 我々は、新しいガイアXPスペクトルを含む分光-光天文データから、基本星パラメータと距離と視線絶滅を抽出するための異なる教師付き学習手法を探索した。 トレーニングには、gaia dr3からコンパイルされた改良された高品質データセットと、全天と全銀河成分をカバーする地上分光調査データを使用します。 単純なニューラルネットアーキテクチャやツリーベースのアルゴリズム(そしてガイアXPスペクトルが存在しない場合)でさえ、競争結果(ベイズアイソクロンフィッティングと比較)を微妙な大きさまで予測することに成功していることを示す。 近いうちに,表型データのための機械学習アルゴリズムであるXGBoostを用いて,Gaia DR3 stellar-parameterカタログを新たに提案する。

The Gaia Data Release 3 (DR3), published in June 2022, delivers a diverse set of astrometric, photometric, and spectroscopic measurements for more than a billion stars. The wealth and complexity of the data makes traditional approaches for estimating stellar parameters for the full Gaia dataset almost prohibitive. We have explored different supervised learning methods for extracting basic stellar parameters as well as distances and line-of-sight extinctions, given spectro-photo-astrometric data (including also the new Gaia XP spectra). For training we use an enhanced high-quality dataset compiled from Gaia DR3 and ground-based spectroscopic survey data covering the whole sky and all Galactic components. We show that even with a simple neural-network architecture or tree-based algorithm (and in the absence of Gaia XP spectra), we succeed in predicting competitive results (compared to Bayesian isochrone fitting) down to faint magnitudes. We will present a new Gaia DR3 stellar-parameter catalogue obtained using the currently best-performing machine-learning algorithm for tabular data, XGBoost, in the near future.
翻訳日:2023-02-15 15:35:53 公開日:2023-02-14
# 教師なしクロスドメインセマンティクスセグメンテーションのためのハードアウェアインスタンス適応型自己学習

Hard-aware Instance Adaptive Self-training for Unsupervised Cross-domain Semantic Segmentation ( http://arxiv.org/abs/2302.06992v1 )

ライセンス: Link先を確認
Chuang Zhu, Kebin Liu, Wenqi Tang, Ke Mei, Jiaqi Zou, Tiejun Huang(参考訳) ラベル付きトレーニングデータとラベル付きテストデータとの相違は、最近のディープラーニングモデルにとって大きな課題である。 unsupervised domain adaptation (uda) はこの問題を解決しようとする。 最近の研究は、自己学習がUDAに対する強力なアプローチであることを示している。 しかし、既存の手法ではスケーラビリティと性能のバランスが難しい。 本稿では, セマンティックセグメンテーションの課題に対して, UDAのための適応型自己学習フレームワークを提案する。 擬似ラベルの品質と多様性を効果的に改善するため,インスタンス適応セレクタを用いた新しい擬似ラベル生成戦略を開発した。 さらに,ハードアウェアな擬似ラベル拡張により,画像間情報を含むハードクラス擬似ラベルをさらに充実させる。 また,疑似ラベル領域を平滑化し,非pseudo-label領域をシャープ化する領域適応正規化を提案する。 非擬似ラベル領域に対しては、モデル最適化時により強い監視信号を導入するために一貫性制約も構築される。 我々の手法は簡潔で効率的であり、他のUDA法にも容易に適用できる。 GTA5からCityscapes、SynTHIAからCityscapes、そしてCityscapesからOxford RobotCarへの実験は、最先端の手法と比較して、我々のアプローチの優れた性能を実証している。

The divergence between labeled training data and unlabeled testing data is a significant challenge for recent deep learning models. Unsupervised domain adaptation (UDA) attempts to solve such problem. Recent works show that self-training is a powerful approach to UDA. However, existing methods have difficulty in balancing the scalability and performance. In this paper, we propose a hard-aware instance adaptive self-training framework for UDA on the task of semantic segmentation. To effectively improve the quality and diversity of pseudo-labels, we develop a novel pseudo-label generation strategy with an instance adaptive selector. We further enrich the hard class pseudo-labels with inter-image information through a skillfully designed hard-aware pseudo-label augmentation. Besides, we propose the region-adaptive regularization to smooth the pseudo-label region and sharpen the non-pseudo-label region. For the non-pseudo-label region, consistency constraint is also constructed to introduce stronger supervision signals during model optimization. Our method is so concise and efficient that it is easy to be generalized to other UDA methods. Experiments on GTA5 to Cityscapes, SYNTHIA to Cityscapes, and Cityscapes to Oxford RobotCar demonstrate the superior performance of our approach compared with the state-of-the-art methods.
翻訳日:2023-02-15 15:35:34 公開日:2023-02-14
# 自然言語推論のためのマルチソースアクティブラーニングの検討

Investigating Multi-source Active Learning for Natural Language Inference ( http://arxiv.org/abs/2302.06976v1 )

ライセンス: Link先を確認
Ard Snijders, Douwe Kiela, Katerina Margatina(参考訳) 近年,NLPタスクの配列に対して能動的学習が成功している。 しかしながら、事前の作業では、トレーニングとテストデータが同じディストリビューションから引き出されると仮定されることが多い。 実際の設定データには、さまざまな関連性や品質のソースがあるため、これは問題である。 自然言語推論のタスクにおいて,複数のデータソースからなるラベルなしプールに適用した場合,4つの一般的なアクティブ学習方式はランダム選択を上回らないことを示す。 本研究では,学習や一般化を阻害する難解な学習事例をまとめて獲得することで,不確実性に基づく戦略が不十分であることを明らかにする。 外れ値を取り除いた場合、戦略はランダムなベースラインを回復し、改善する。 さらなる分析では、集団アウトリーチはソース間で形態が異なり、ハード・トゥ・ラーンデータが必ずしも分類的に有害であるとは限らないことを示す。 最後に,難易度階層化テストの導入にデータセット地図を活用することで,学習可能性や難易度によって異なる戦略が影響を受けることを見出します。

In recent years, active learning has been successfully applied to an array of NLP tasks. However, prior work often assumes that training and test data are drawn from the same distribution. This is problematic, as in real-life settings data may stem from several sources of varying relevance and quality. We show that four popular active learning schemes fail to outperform random selection when applied to unlabelled pools comprised of multiple data sources on the task of natural language inference. We reveal that uncertainty-based strategies perform poorly due to the acquisition of collective outliers, i.e., hard-to-learn instances that hamper learning and generalization. When outliers are removed, strategies are found to recover and outperform random baselines. In further analysis, we find that collective outliers vary in form between sources, and show that hard-to-learn data is not always categorically harmful. Lastly, we leverage dataset cartography to introduce difficulty-stratified testing and find that different strategies are affected differently by example learnability and difficulty.
翻訳日:2023-02-15 15:35:17 公開日:2023-02-14
# 信頼できるaiシステムの開発における因果関係の役割

A Review of the Role of Causality in Developing Trustworthy AI Systems ( http://arxiv.org/abs/2302.06975v1 )

ライセンス: Link先を確認
Niloy Ganguly, Dren Fazlija, Maryam Badar, Marco Fisichella, Sandipan Sikdar, Johanna Schrader, Jonas Wallat, Koustav Rudra, Manolis Koubarakis, Gourab K. Patro, Wadhah Zai El Amri, Wolfgang Nejdl(参考訳) 最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。 したがって、これらのモデルは、見当たらないデータに一般化せず、しばしば不公平な結果をもたらし、解釈が難しい。 これにより、AIモデルの信頼性面の改善が図られている。 近年,因果モデリングや推論手法が強力なツールとして登場している。 このレビューは、AIモデルの信頼性を改善するために開発された因果的手法の概要を読者に提供することを目的としている。 当社の貢献が、信頼できるaiのための因果関係に基づくソリューションに関する今後の研究の動機となることを願っています。

State-of-the-art AI models largely lack an understanding of the cause-effect relationship that governs human understanding of the real world. Consequently, these models do not generalize to unseen data, often produce unfair results, and are difficult to interpret. This has led to efforts to improve the trustworthiness aspects of AI models. Recently, causal modeling and inference methods have emerged as powerful tools. This review aims to provide the reader with an overview of causal methods that have been developed to improve the trustworthiness of AI models. We hope that our contribution will motivate future research on causality-based solutions for trustworthy AI.
翻訳日:2023-02-15 15:34:59 公開日:2023-02-14
# ハイパーメディアマルチエージェントシステムにおける一級抽象化としてのシグニケータ

Signifiers as a First-class Abstraction in Hypermedia Multi-Agent Systems ( http://arxiv.org/abs/2302.06970v1 )

ライセンス: Link先を確認
Danai Vachtsevanou, Andrei Ciortea, Simon Mayer, J\'er\'emy Lem\'ee(参考訳) ハイパーメディアAPIは、Web上の余裕を発見し、活用する再利用可能なハイパーメディアクライアントの設計を可能にする。 しかし、そのようなクライアントの再利用性は、相互行為の計画や推論ができないため、まだ限られている。 本稿では,マルチエージェントシステム (mas) や,より広い人工知能に対して広く研究されてきた行動の表現と推論の手法と,web 上でのハイパーメディアによるアプライアンス活用の概念的橋渡しについて述べる。 我々は,オープンな環境と進化可能な環境におけるインタラクション効率を支援する,アクセシエータをWebベースのMASの第一級抽象化として導入する,アクセシエータ理論とヒューマン・コンピュータインタラクションの概念と手法に基づいて構築する:シグニケータは,その使用のエージェント環境の文脈に配慮して設計され,異種能力を持つエージェントが行動し,行動について推論することを可能にする。 我々は,情報利用の促進を目的とした,ハイパーメディア環境におけるシグニチャの文脈曝露に関する形式モデルを定義した。 異なる推論能力を持つ2つのエージェントが,その能力に適合する署名者のみを認識して,自らの環境とのインタラクション方法を積極的に発見する,先駆的なwebベースのmasを用いて,我々のアプローチを実証する。 我々は,Web上での効果的かつ効率的なインタラクションを促進するために,動的エージェント環境コンテキストに基づいて,シグニチャの露光を本質的に管理可能であることを示す。

Hypermedia APIs enable the design of reusable hypermedia clients that discover and exploit affordances on the Web. However, the reusability of such clients remains limited since they cannot plan and reason about interaction. This paper provides a conceptual bridge between hypermedia-driven affordance exploitation on the Web and methods for representing and reasoning about actions that have been extensively explored for Multi-Agent Systems (MAS) and, more broadly, Artificial Intelligence. We build on concepts and methods from Affordance Theory and Human-Computer Interaction that support interaction efficiency in open and evolvable environments to introduce signifiers as a first-class abstraction in Web-based MAS: Signifiers are designed with respect to the agent-environment context of their usage and enable agents with heterogeneous abilities to act and to reason about action. We define a formal model for the contextual exposure of signifiers in hypermedia environments that aims to drive affordance exploitation. We demonstrate our approach with a prototypical Web-based MAS where two agents with different reasoning abilities proactively discover how to interact with their environment by perceiving only the signifiers that fit their abilities. We show that signifier exposure can be inherently managed based on the dynamic agent-environment context towards facilitating effective and efficient interactions on the Web.
翻訳日:2023-02-15 15:34:51 公開日:2023-02-14
# 知識グラフ埋め込みの説明に対する局所性と規則言語の影響

Effects of Locality and Rule Language on Explanations for Knowledge Graph Embeddings ( http://arxiv.org/abs/2302.06967v1 )

ライセンス: Link先を確認
Luis Gal\'arraga(参考訳) 知識グラフ(KG)は、推論や質問応答など、AI関連の多くのタスクにおいて重要なツールである。 これは、KGsにおけるリンク予測の研究を推進し、利用可能な知識から不足した関係を予測するタスクである。 kg埋め込みに基づくソリューションは、この問題において有望な結果を示している。 欠点として、これらのアプローチは通常、予測を説明することができない。 埋め込みベースのリンク予測器のポストホックなルール説明を計算するためにいくつかの研究が提案されているが、これらの取り組みは主に、KG全体、すなわちグローバルな範囲で学習したbornIn(x,y) => residence(x,y)のような、非有界な原子の規則に頼っている。 これらの研究のどれも、国籍(x,England) => 話者(x, English)のような有界原子による規則の影響や、KGの領域、すなわち局所的な範囲からの学習の影響を考慮していない。 そこで本研究では,埋め込み型リンク予測器におけるルールベース説明の質に及ぼす因子の影響について検討した。 以上の結果から,より具体的なルールや局所範囲が説明の精度を向上させることが示唆された。 さらに、これらのルールはリンク予測のためのKG埋め込みの内部作業に関するさらなる洞察を与えることができる。

Knowledge graphs (KGs) are key tools in many AI-related tasks such as reasoning or question answering. This has, in turn, propelled research in link prediction in KGs, the task of predicting missing relationships from the available knowledge. Solutions based on KG embeddings have shown promising results in this matter. On the downside, these approaches are usually unable to explain their predictions. While some works have proposed to compute post-hoc rule explanations for embedding-based link predictors, these efforts have mostly resorted to rules with unbounded atoms, e.g., bornIn(x,y) => residence(x,y), learned on a global scope, i.e., the entire KG. None of these works has considered the impact of rules with bounded atoms such as nationality(x,England) => speaks(x, English), or the impact of learning from regions of the KG, i.e., local scopes. We therefore study the effects of these factors on the quality of rule-based explanations for embedding-based link predictors. Our results suggest that more specific rules and local scopes can improve the accuracy of the explanations. Moreover, these rules can provide further insights about the inner-workings of KG embeddings for link prediction.
翻訳日:2023-02-15 15:34:29 公開日:2023-02-14
# Bilateral-Fuser: 骨盤局所化のための解剖学的トークンを用いた新しいマルチキューフュージョンアーキテクチャ

Bilateral-Fuser: A Novel Multi-cue Fusion Architecture with Anatomical-aware Tokens for Fovea Localization ( http://arxiv.org/abs/2302.06961v1 )

ライセンス: Link先を確認
Sifan Song, Jinfeng Wang, Zilong Wang, Jionglong Su, Xiaowei Ding, Kang Dang(参考訳) foveaの正確な局在は、可逆的な視力喪失を防ぐため、網膜疾患の分析における主要なステップの1つである。 現在のディープラーニングベースの手法は従来の方法よりも優れたパフォーマンスを実現するが、解剖学的ランドマークの活用が不十分なこと、病気の網膜画像に対する感受性、様々な画像条件など、依然として課題が残っている。 本稿では,マルチキュー融合のためのトランスフォーマーベースアーキテクチャ(バイラテラルフィルタ)を提案する。 このアーキテクチャは、ロバストなfoveaローカライゼーションのために、網膜と血管分布を用いた長距離接続とグローバルな特徴を明示的に組み込んでいる。 本稿では,自己学習型解剖情報を抽出・融合するための二重ストリームエンコーダに空間的注意機構を導入する。 この設計は血管に沿って分布する特徴をより重視し、トークン数を減らして計算コストを大幅に削減する。 包括的実験により,提案アーキテクチャは2つの公開データセットと1つの大規模プライベートデータセット上で最先端のパフォーマンスを実現することが示された。 また, 正常網膜画像と疾患網膜画像の両方において, バイラテラルフレザはより頑健であり, クロスデータセット実験における一般化能力も向上した。

Accurate localization of fovea is one of the primary steps in analyzing retinal diseases since it helps prevent irreversible vision loss. Although current deep learning-based methods achieve better performance than traditional methods, there still remain challenges such as utilizing anatomical landmarks insufficiently, sensitivity to diseased retinal images and various image conditions. In this paper, we propose a novel transformer-based architecture (Bilateral-Fuser) for multi-cue fusion. This architecture explicitly incorporates long-range connections and global features using retina and vessel distributions for robust fovea localization. We introduce a spatial attention mechanism in the dual-stream encoder for extracting and fusing self-learned anatomical information. This design focuses more on features distributed along blood vessels and significantly decreases computational costs by reducing token numbers. Our comprehensive experiments show that the proposed architecture achieves state-of-the-art performance on two public and one large-scale private datasets. We also present that the Bilateral-Fuser is more robust on both normal and diseased retina images and has better generalization capacity in cross-dataset experiments.
翻訳日:2023-02-15 15:34:08 公開日:2023-02-14
# データプルーニングとニューラルスケーリング法則--スコアベースアルゴリズムの基本的限界

Data pruning and neural scaling laws: fundamental limitations of score-based algorithms ( http://arxiv.org/abs/2302.06960v1 )

ライセンス: Link先を確認
Fadhel Ayed and Soufiane Hayou(参考訳) データプルーニングアルゴリズムは、最適化プロセスのメモリと計算コストを減らすために一般的に使用される。 近年の実証実験により、ランダムなデータの刈り取りは依然として強力なベースラインであり、高い圧縮領域において既存のデータ刈り出し手法、すなわちデータのわずか30〜%未満が保持されている方法よりも優れていることが判明した。 この制度は最近、いわゆるニューラルスケーリングの法則の改善におけるデータプルーニングの役割によって、多くの関心を集めている。 [sorscher et al.] では、サンプルパワーの法則を破るために、高品質なデータプルーニングアルゴリズムが必要であることを示した。 本研究では,スコアベースのデータプルーニングアルゴリズムに着目し,そのようなアルゴリズムが高圧縮方式で失敗する理由を理論的,実証的に示す。 本稿では,データプルーニングのための'No Free Lunch'定理と,この高圧縮方式における既存のプルーニングアルゴリズムの性能向上を目的としたキャリブレーションプロトコルについて述べる。

Data pruning algorithms are commonly used to reduce the memory and computational cost of the optimization process. Recent empirical results reveal that random data pruning remains a strong baseline and outperforms most existing data pruning methods in the high compression regime, i.e., where a fraction of $30\%$ or less of the data is kept. This regime has recently attracted a lot of interest as a result of the role of data pruning in improving the so-called neural scaling laws; in [Sorscher et al.], the authors showed the need for high-quality data pruning algorithms in order to beat the sample power law. In this work, we focus on score-based data pruning algorithms and show theoretically and empirically why such algorithms fail in the high compression regime. We demonstrate ``No Free Lunch" theorems for data pruning and present calibration protocols that enhance the performance of existing pruning algorithms in this high compression regime using randomization.
翻訳日:2023-02-15 15:33:51 公開日:2023-02-14
# ニューラルネットワーク学習への多レベル目的関数フリー最適化の適用

Multilevel Objective-Function-Free Optimization with an Application to Neural Networks Training ( http://arxiv.org/abs/2302.07049v1 )

ライセンス: Link先を確認
S. Gratton, A. Kopanicakova, Ph. L. Toint(参考訳) 目的関数の評価を必要としない非制約非線形最適化のためのマルチレベルアルゴリズムのクラスを示す。 このクラスは運動量のない AdaGrad メソッドを特定の (単一レベルの) インスタンスとして含む。 目的関数の評価を避けるという選択は、クラスのアルゴリズムをノイズに敏感にすることを目的としており、マルチレベル機能は計算コストの削減を目的としている。 これらのアルゴリズムの評価複雑性を分析し、ノイズの存在下での振る舞いを教師付き学習アプリケーションのためのディープニューラルネットワークのトレーニングのコンテキストで示す。

A class of multi-level algorithms for unconstrained nonlinear optimization is presented which does not require the evaluation of the objective function. The class contains the momentum-less AdaGrad method as a particular (single-level) instance. The choice of avoiding the evaluation of the objective function is intended to make the algorithms of the class less sensitive to noise, while the multi-level feature aims at reducing their computational cost. The evaluation complexity of these algorithms is analyzed and their behaviour in the presence of noise is then illustrated in the context of training deep neural networks for supervised learning applications.
翻訳日:2023-02-15 15:27:56 公開日:2023-02-14
# マルチプロトタイプコンベックスマージに基づくK平均クラスタリングアルゴリズム

Multi-Prototypes Convex Merging Based K-Means Clustering Algorithm ( http://arxiv.org/abs/2302.07045v1 )

ライセンス: Link先を確認
Dong Li, Shuisheng Zhou, Tieyong Zeng, and Raymond H. Chan(参考訳) K-Meansアルゴリズムは一般的なクラスタリング手法である。 しかし、2つの制限がある。 1)スプリアス・ローカル・ミニマ(sprious local minima)に容易に定着し, 2) クラスター k の個数は事前に与えなければならない。 これらの問題を解決するために,マルチプロトタイプ凸結合型k-meansクラスタリングアルゴリズム(mckm)を提案する。 まず,k-means問題におけるスプリアス局所的ミニマの構造に基づき,任意の形状のデータに対して適切な数のマルチプロトタイプを選択できるマルチプロトタイプサンプリング(mps)を考案した。 mps によって選択されたマルチプロトタイプが k-平均問題の最適コストに対する定数因子近似を実現できることを保証するために理論的証明が与えられる。 次に、コンベックスマージ(cm)と呼ばれるマージテクニックがマルチプロトタイプをマージし、kを前もって与えずにより良い局所ミニマを得る。 具体的には、cmは最適なマージと正しいkを推定することができる。 これら2つの手法をK-Meansアルゴリズムと統合することにより、提案したMCKMはK-Means問題の望ましくない局所最小化をkを優先せずに回避するための効率的かつ説明可能なクラスタリングアルゴリズムである。 合成データと実世界のデータを用いた実験により,提案アルゴリズムの有効性が検証された。

K-Means algorithm is a popular clustering method. However, it has two limitations: 1) it gets stuck easily in spurious local minima, and 2) the number of clusters k has to be given a priori. To solve these two issues, a multi-prototypes convex merging based K-Means clustering algorithm (MCKM) is presented. First, based on the structure of the spurious local minima of the K-Means problem, a multi-prototypes sampling (MPS) is designed to select the appropriate number of multi-prototypes for data with arbitrary shapes. A theoretical proof is given to guarantee that the multi-prototypes selected by MPS can achieve a constant factor approximation to the optimal cost of the K-Means problem. Then, a merging technique, called convex merging (CM), merges the multi-prototypes to get a better local minima without k being given a priori. Specifically, CM can obtain the optimal merging and estimate the correct k. By integrating these two techniques with K-Means algorithm, the proposed MCKM is an efficient and explainable clustering algorithm for escaping the undesirable local minima of K-Means problem without given k first. Experimental results performed on synthetic and real-world data sets have verified the effectiveness of the proposed algorithm.
翻訳日:2023-02-15 15:27:46 公開日:2023-02-14
# パウリ回転配列のクリフォード$+t$合成における最適アダマールゲート数

Optimal Hadamard gate count for Clifford$+T$ synthesis of Pauli rotations sequences ( http://arxiv.org/abs/2302.07040v1 )

ライセンス: Link先を確認
Vivien Vandaele, Simon Martiel, Simon Perdrix, Christophe Vuillot(参考訳) クリフォード$+T$ゲート集合は一般に普遍量子計算を行うために用いられる。 このような設定では、$t$ゲートは通常、cliffordゲートよりもフォールトトレラントな方法で実装する方がずっと高価である。 フォールトトレラント量子コンピューティングの実現可能性を改善するために、$T$ゲートの数を最小化することが不可欠である。 多くのアルゴリズムがこの問題を解決するために設計されている。 回路内のアダマールゲートの数を減らして前処理を行うと、これらのアルゴリズムの潜在能力を最大限に活用でき、結果として相当な$T$カウントの削減につながることが示されている。 さらに、アダマールゲートの数を最小化することで、アダマールゲートのガジェット化による追加のキュービット数や演算も抑制される。 本研究では,アダマールゲート低減問題に取り組み,最小数のアダマールゲートを持つパウリ回転列を合成するアルゴリズムを提案する。 この結果に基づき、回路の第1と最後の$t$ゲートの間にあるアダマールゲートの数を最適に最小化するアルゴリズムを提案する。

The Clifford$+T$ gate set is commonly used to perform universal quantum computation. In such setup the $T$ gate is typically much more expensive to implement in a fault-tolerant way than Clifford gates. To improve the feasibility of fault-tolerant quantum computing it is then crucial to minimize the number of $T$ gates. Many algorithms, yielding effective results, have been designed to address this problem. It has been demonstrated that performing a pre-processing step consisting of reducing the number of Hadamard gates in the circuit can help to exploit the full potential of these algorithms and thereby lead to a substantial $T$-count reduction. Moreover, minimizing the number of Hadamard gates also restrains the number of additional qubits and operations resulting from the gadgetization of Hadamard gates, a procedure used by some compilers to further reduce the number of $T$ gates. In this work we tackle the Hadamard gate reduction problem, and propose an algorithm for synthesizing a sequence of Pauli rotations with a minimal number of Hadamard gates. Based on this result, we present an algorithm which optimally minimizes the number of Hadamard gates lying between the first and the last $T$ gate of the circuit.
翻訳日:2023-02-15 15:27:25 公開日:2023-02-14
# SCONNA: Integer-Quantized CNNの超高速エネルギー効率推論のための確率計算に基づく光加速器

SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs ( http://arxiv.org/abs/2302.07036v1 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Ishan Thakkar, Ahmad Salehi, and Todd Hastings(参考訳) CNN推論タスクの加速は、通常ベクトルドット積(VDP)演算に変換される畳み込み演算を使用する。 いくつかのフォトニックマイクロリング共振器 (MRR) ベースのハードウェアアーキテクチャは、整数量子化CNNを電子回路に比べて非常に高いスループットとエネルギー効率で高速化するために提案されている。 しかし、既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP演算サイズとの間に非常に強いトレードオフを示し、4ビット以上の量子化された入力/重み付け精度に対して、達成可能なVDP演算サイズを著しく制限する。 制限されたVDP操作サイズは、最終的に計算スループットを抑え、達成可能なパフォーマンスのメリットを著しく低下させる。 この欠点に対処するため、我々は初めて確率計算とMRRベースのCNNアクセラレーターの融合を提示する。 確率計算の固有精度の柔軟性を活用するために,MRRベースの光確率乗算器(OSM)を開発した。 我々は、SCONNA(Stochastic Computing based Optical Neural Network Accelerator)を新たに構築するために、高密度波長分割多重化を用いて複数のOSMを用いる。 SCONNAは、高精度量子化されたCNNの推論を高速化するために、非常に高いスループットとエネルギー効率を達成する。 8ビットの入力/重みの精度で4つの現代のcnnを推定した結果、sconnaはフレーム毎秒(fps)、fps/w、fps/w/mm2で最大66.5x、90x、91xの改善を提供し、以前の作業では2つのフォトニックmrベースのアナログcnnアクセラレーターで、top-1の精度低下は最大0.4%、小型cnnでは1.5%であった。 我々は、SCONNAや他のアクセラレーター(https://github.com/uky-UCAT/SC_ONN_SIM.git)の評価のためのトランザクションレベル、イベント駆動型ピソンベースシミュレータを開発した。

The acceleration of a CNN inference task uses convolution operations that are typically transformed into vector-dot-product (VDP) operations. Several photonic microring resonators (MRRs) based hardware architectures have been proposed to accelerate integer-quantized CNNs with remarkably higher throughput and energy efficiency compared to their electronic counterparts. However, the existing photonic MRR-based analog accelerators exhibit a very strong trade-off between the achievable input/weight precision and VDP operation size, which severely restricts their achievable VDP operation size for the quantized input/weight precision of 4 bits and higher. The restricted VDP operation size ultimately suppresses computing throughput to severely diminish the achievable performance benefits. To address this shortcoming, we for the first time present a merger of stochastic computing and MRR-based CNN accelerators. To leverage the innate precision flexibility of stochastic computing, we invent an MRR-based optical stochastic multiplier (OSM). We employ multiple OSMs in a cascaded manner using dense wavelength division multiplexing, to forge a novel Stochastic Computing based Optical Neural Network Accelerator (SCONNA). SCONNA achieves significantly high throughput and energy efficiency for accelerating inferences of high-precision quantized CNNs. Our evaluation for the inference of four modern CNNs at 8-bit input/weight precision indicates that SCONNA provides improvements of up to 66.5x, 90x, and 91x in frames-per-second (FPS), FPS/W and FPS/W/mm2, respectively, on average over two photonic MRR-based analog CNN accelerators from prior work, with Top-1 accuracy drop of only up to 0.4% for large CNNs and up to 1.5% for small CNNs. We developed a transaction-level, event-driven python-based simulator for the evaluation of SCONNA and other accelerators (https://github.com/uky-UCAT/SC_ONN_SIM.git).
翻訳日:2023-02-15 15:27:06 公開日:2023-02-14
# 自律走行車の車両制御のための残留ポリシー学習

Residual Policy Learning for Vehicle Control of Autonomous Racing Cars ( http://arxiv.org/abs/2302.07035v1 )

ライセンス: Link先を確認
Raphael Trumpp, Denis Hoornaert, Marco Caccamo(参考訳) 自動走行のための車両制御装置の開発は、レーシングカーが物理的な運転制限で作動するため、困難である。 パフォーマンス向上の需要により、自律レース研究は機械学習ベースのコントローラが急増している。 これらのアプローチは競争性能を示すが、実用性はしばしば制限される。 残留ポリシー学習は、古典的なコントローラと学習された残留コントローラを組み合わせることでこれを緩和することを約束する。 残留コントローラの重要な利点は、古典的なコントローラの安定な動作と平行な高い適応性である。 レースラインの経路追従のための古典的制御系を改良する自律走行車用残留車両制御装置を提案する。 本研究では,F1TENTH自動レースシリーズのシミュレートカーとして,提案手法の性能評価を行った。 実世界のレーストラック12台の評価により、残差コントローラは従来のコントローラと比較して平均4.55パーセントのラップ時間を短縮し、ゼロショットが新しいレーストラックに一般化することを示した。

The development of vehicle controllers for autonomous racing is challenging because racing cars operate at their physical driving limit. Prompted by the demand for improved performance, autonomous racing research has seen the proliferation of machine learning-based controllers. While these approaches show competitive performance, their practical applicability is often limited. Residual policy learning promises to mitigate this by combining classical controllers with learned residual controllers. The critical advantage of residual controllers is their high adaptability parallel to the classical controller's stable behavior. We propose a residual vehicle controller for autonomous racing cars that learns to amend a classical controller for the path-following of racing lines. In an extensive study, performance gains of our approach are evaluated for a simulated car of the F1TENTH autonomous racing series. The evaluation for twelve replicated real-world racetracks shows that the residual controller reduces lap times by an average of 4.55 % compared to a classical controller and zero-shot generalizes to new racetracks.
翻訳日:2023-02-15 15:26:25 公開日:2023-02-14
# adaptersoup: 事前学習された言語モデルの一般化を改善するための重量平均化

AdapterSoup: Weight Averaging to Improve Generalization of Pretrained Language Models ( http://arxiv.org/abs/2302.07027v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Matthew E. Peters, Alexander Fraser, Jesse Dodge(参考訳) 事前訓練された言語モデル(PLM)は大量のコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。 パラメータ効率の良い適応方法は、言語モデリングのタスクで各ドメインのアダプタをトレーニングすることを提案する。 ドメイン内スコアは良好だが、ドメイン内設定やリソース制限設定では実用的ではない。 解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。 本稿では,異なるドメインでトレーニングされたアダプタの重み空間平均化を行う手法であるadaptersoupを提案する。 まず、ドメイン固有のアダプタのセットをトレーニングします。次に、新しいドメイン毎に、テスト時にどのアダプタを平均化すべきかを決定します。 本稿では、AdapterSoupが追加トレーニングなしで新しいドメインのパフォーマンスを継続的に改善することを示す広範な実験を示す。 また、異なるハイパーパラメータを持つ同じドメインでトレーニングされたアダプタの重量平均化についても検討し、新しいドメインでのplmのパフォーマンスを保ちつつ、強いドメイン内結果を得ることができることを示した。 テキストクラスタリングや意味的類似性など,どのアダプタを組み合わせるかを選択するためのさまざまなアプローチを検討する。 クラスタリングを使うことで、新しいドメイン上で最も競争力のある結果が得られます。

Pretrained language models (PLMs) are trained on massive corpora, but often need to specialize to specific domains. A parameter-efficient adaptation method suggests training an adapter for each domain on the task of language modeling. This leads to good in-domain scores but can be impractical for domain- or resource-restricted settings. A solution is to use a related-domain adapter for the novel domain at test time. In this paper, we introduce AdapterSoup, an approach that performs weight-space averaging of adapters trained on different domains. Our approach is embarrassingly parallel: first, we train a set of domain-specific adapters; then, for each novel domain, we determine which adapters should be averaged at test time. We present extensive experiments showing that AdapterSoup consistently improves performance to new domains without extra training. We also explore weight averaging of adapters trained on the same domain with different hyper-parameters, and show that it preserves the performance of a PLM on new domains while obtaining strong in-domain results. We explore various approaches for choosing which adapters to combine, such as text clustering and semantic similarity. We find that using clustering leads to the most competitive results on novel domains.
翻訳日:2023-02-15 15:26:09 公開日:2023-02-14
# LiDAR点雲における変化検出のための最適輸送

Optimal Transport for Change Detection on LiDAR Point Clouds ( http://arxiv.org/abs/2302.07025v1 )

ライセンス: Link先を確認
Marco Fiorucci, Peter Naylor, Makoto Yamada(参考訳) 多時期リモートセンシングデータにおける変化の検出は、災害、森林破壊、都市計画といった実際の生活の様々な側面を監視する上で重要な役割を果たす。 後者の文脈では、景観や市マネジャーが持続可能な開発を促進するためには、新しく建設された建物と取り壊された建物の両方を特定することが不可欠である。 大気中のLiDAR点雲の使用は都市の変化検出において広く行われているが、最も一般的なアプローチは、点雲を補間された高さ測定の正規格子、すなわちデジタル標高モデル(DEM)に変換することである。 しかし、DEMの補間ステップは、オブジェクトの高さに関連する情報損失を引き起こし、3次元のLiDAR点雲の高分解能が最も有益となるような建物変更の検出能力に影響を与える。 距離ベース計算法とセマンティックセグメンテーション前処理法のいずれかを用いて点雲上で直接変化を検出する最近の試みにもかかわらず、都市計画において最重要となる正と負の両方の変化を識別できるのはM3C2距離計算法のみである。 先行する議論に動機づけられ, 最適な輸送に基づく変更検出パイプラインを導入し, 新しく建設された建物(ポジティブな変化)と解体された建物(ネガティブな変化)を区別する。 本研究では,リダ点雲の双時間対で発生する建物変化に関連する質量の生成と破壊に対処するために,不均衡な最適輸送の利用を提案する。 我々は,M3C2とNicolas CourtyらによるこれまでのIGARSS 2016で提示した最適輸送方式よりも優れた性能を示すことで,変更検出のために利用可能な唯一のLiDARデータセットに対するアプローチの有効性を実証した。

The detection of changes occurring in multi-temporal remote sensing data plays a crucial role in monitoring several aspects of real life, such as disasters, deforestation, and urban planning. In the latter context, identifying both newly built and demolished buildings is essential to help landscape and city managers to promote sustainable development. While the use of airborne LiDAR point clouds has become widespread in urban change detection, the most common approaches require the transformation of a point cloud into a regular grid of interpolated height measurements, i.e. Digital Elevation Model (DEM). However, the DEM's interpolation step causes an information loss related to the height of the objects, affecting the detection capability of building changes, where the high resolution of LiDAR point clouds in the third dimension would be the most beneficial. Notwithstanding recent attempts to detect changes directly on point clouds using either a distance-based computation method or a semantic segmentation pre-processing step, only the M3C2 distance computation-based approach can identify both positive and negative changes, which is of paramount importance in urban planning. Motivated by the previous arguments, we introduce a principled change detection pipeline, based on optimal transport, capable of distinguishing between newly built buildings (positive changes) and demolished ones (negative changes). In this work, we propose to use unbalanced optimal transport to cope with the creation and destruction of mass related to building changes occurring in a bi-temporal pair of LiDAR point clouds. We demonstrate the efficacy of our approach on the only publicly available airborne LiDAR dataset for change detection by showing superior performance over the M3C2 and the previous optimal transport-based method presented by Nicolas Courty et al.at IGARSS 2016.
翻訳日:2023-02-15 15:25:50 公開日:2023-02-14
# 2つの相関系間の異常粒子流の解析

An analysis of anomalous particle flow between two correlated systems ( http://arxiv.org/abs/2302.07023v1 )

ライセンス: Link先を確認
Sirawit Kajonsombat, Isara Chantesana, and Tanapat Deesuwan(参考訳) 本研究では,全系が孤立した局所熱系間の粒子交換方向に対する相関の影響について検討した。 我々の焦点は、両方のサブシステムが同じ温度であるが異なる化学的ポテンシャルを持ち、温度差によるエネルギー移動の影響を排除することである。 この分析は、各サブシステムの最終状態が初期熱状態に近い短い時間スケールと、各サブシステムの最終状態が任意にできるより長い時間スケールの2つの制限で行われる。 その結果, 相互情報によって定量された相関関係が大きくなると, 従来の化学ポテンシャルから低い粒子の流れが生じることがわかった。 対照的に、逆方向の粒子の異常な流れは、相関関係が下がったときに起こる確率を持つ。 その結果, 粒子交換の方向は, 相関の存在下での化学的ポテンシャル差によって決定できないことがわかった。

We study the effect of correlation on the direction of particle exchange between local thermal sub-systems where the total system is isolated. Our focus is the situation where both sub-systems have the same temperature but different chemical potentials to eliminate the effect of energy transfer due to the temperature difference. The analysis is done in two limits; in the short time scale where the final state of each sub-system is close to its initial thermal state and in a longer time scale where each sub-system's final state can be arbitrary. The results indicate that the conventional flow of particles from a higher chemical potential to a lower one occurs when the correlation which is quantified by mutual information increases. In contrast, an anomalous flow of particles in the reverse direction has a chance to happen when the correlation goes down. Our findings show that the direction of the particle exchange cannot be predetermined by the chemical potential difference in the presence of correlation.
翻訳日:2023-02-15 15:25:19 公開日:2023-02-14
# 未取得オンライン試験における結束検出のためのデータマイニング手法

A Data Mining Approach for Detecting Collusion in Unproctored Online Exams ( http://arxiv.org/abs/2302.07014v1 )

ライセンス: Link先を確認
Janine Langerbein, Till Massing, Jens Klenke, Natalie Reckmann, Michael Striewe, Michael Goedicke, and Christoph Hanck(参考訳) 新型コロナウイルスのパンデミックで予防措置が講じられたため、多くの大学が未熟な在宅試験を提供した。 パンデミック時の家庭内受験のイベントログデータに対して,学生間の潜在的な結束を検知し,そのアプローチを適用する手法を提案する。 疑わしいほどよく似た試験を受けた学生のグループを見つけます。 また,本研究の結果をプロクター制御群と比較した。 これにより、どのケースが「明らかに類似している」か、すなわち疑わしいケースを評価するための親指の規則を確立する。

Due to the precautionary measures during the COVID-19 pandemic many universities offered unproctored take-home exams. We propose methods to detect potential collusion between students and apply our approach on event log data from take-home exams during the pandemic. We find groups of students with suspiciously similar exams. In addition, we compare our findings to a proctored control group. By this, we establish a rule of thumb for evaluating which cases are "outstandingly similar", i.e., suspicious cases.
翻訳日:2023-02-15 15:25:06 公開日:2023-02-14
# シャープネスと一般化の関係に関する現代的考察

A modern look at the relationship between sharpness and generalization ( http://arxiv.org/abs/2302.07011v1 )

ライセンス: Link先を確認
Maksym Andriushchenko, Francesco Croce, Maximilian M\"uller, Matthias Hein, Nicolas Flammarion(参考訳) minimaのシャープさは、ディープネットワークの一般化と相関のある有望な量であり、トレーニング中に最適化された場合、一般化を改善することができる。 しかし、標準シャープネスはニューラルネットワークの再パラメータ化の下では不変ではなく、これを修正するために再パラメトリゼーション-不変シャープネス定義が提案されており、最も顕著に適応シャープネス(Kwon et al., 2021)が提案されている。 しかし、現代の実用環境での一般化を実際に捉えているのだろうか? 我々は,imagenetのスクラッチからcifar-10のトレーニングからimagenetのファインチューニングクリップ,mnliのbertまで,様々な設定における適応シャープネスの定義を詳細に研究した。 我々は主に変圧器に焦点をあてるが、その普及にもかかわらず鋭さについてはほとんど知られていない。 全体として、シャープネスは一般化とよく相関せず、むしろ、設定に応じて一般化と正あるいは負の相関を持つ学習率などの訓練パラメータと相関する。 興味深いことに、複数のケースにおいて、よりシャープなミニマがより一般化できることを示す、分散誤差とのシャープネスの一貫した負の相関が観察されている。 最後に,正しいシャープネス尺度がデータ依存度が高いという単純なモデルを示し,現実のデータ分布に対するこの側面を十分に理解していないことを示す。 私たちの実験のコードはhttps://github.com/tml-epfl/sharpness-vs-generalizationで利用可能です。

Sharpness of minima is a promising quantity that can correlate with generalization in deep networks and, when optimized during training, can improve generalization. However, standard sharpness is not invariant under reparametrizations of neural networks, and, to fix this, reparametrization-invariant sharpness definitions have been proposed, most prominently adaptive sharpness (Kwon et al., 2021). But does it really capture generalization in modern practical settings? We comprehensively explore this question in a detailed study of various definitions of adaptive sharpness in settings ranging from training from scratch on ImageNet and CIFAR-10 to fine-tuning CLIP on ImageNet and BERT on MNLI. We focus mostly on transformers for which little is known in terms of sharpness despite their widespread usage. Overall, we observe that sharpness does not correlate well with generalization but rather with some training parameters like the learning rate that can be positively or negatively correlated with generalization depending on the setup. Interestingly, in multiple cases, we observe a consistent negative correlation of sharpness with out-of-distribution error implying that sharper minima can generalize better. Finally, we illustrate on a simple model that the right sharpness measure is highly data-dependent, and that we do not understand well this aspect for realistic data distributions. The code of our experiments is available at https://github.com/tml-epfl/sharpness-vs-generalization.
翻訳日:2023-02-15 15:24:58 公開日:2023-02-14
# 拡散モデルのためのユニバーサルガイダンス

Universal Guidance for Diffusion Models ( http://arxiv.org/abs/2302.07121v1 )

ライセンス: Link先を確認
Arpit Bansal, Hong-Min Chu, Avi Schwarzschild, Soumyadip Sengupta, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 典型的な拡散モデルは、特定の形式の条件付けを受け付けるように訓練され、最も一般的なテキストは、再訓練なしに他のモダリティで条件付けできない。 本研究では,任意の誘導法により拡散モデルを制御できる汎用誘導アルゴリズムを提案する。 提案アルゴリズムは,セグメンテーション,顔認識,オブジェクト検出,分類器信号などのガイダンス機能を備えた高品質な画像を生成する。 コードはhttps://github.com/arpitbansal297/Universal-Guided-Diffusionで入手できる。

Typical diffusion models are trained to accept a particular form of conditioning, most commonly text, and cannot be conditioned on other modalities without retraining. In this work, we propose a universal guidance algorithm that enables diffusion models to be controlled by arbitrary guidance modalities without the need to retrain any use-specific components. We show that our algorithm successfully generates quality images with guidance functions including segmentation, face recognition, object detection, and classifier signals. Code is available at https://github.com/arpitbansal297/Universal-Guided-Diffusion.
翻訳日:2023-02-15 15:18:50 公開日:2023-02-14
# PrefixMol:プレフィックス埋め込みによるターゲットおよび化学対応分子設計

PrefixMol: Target- and Chemistry-aware Molecule Design via Prefix Embedding ( http://arxiv.org/abs/2302.07120v1 )

ライセンス: Link先を確認
Zhangyang Gao, Yuqi Hu, Cheng Tan, Stan Z. Li(参考訳) 結合ポケットや化学的性質など、異なる条件で分子を生成する統一モデルが存在するだろうか? ターゲット認識生成モデルは薬物設計において著しい進歩を遂げているが、化学条件を考慮せず、所望の化学的性質を保証できない。 残念なことに、ターゲット認識モデルと化学認識モデルを統合モデルにマージして、カスタマイズされた要求を満たすことは、負の転送の問題を引き起こす可能性がある。 nlp領域でのマルチタスク学習の成功に触発されて、我々はプレフィックス埋め込みを用いて、ターゲットのポケットの状況と様々な化学的特性の両方を考慮した新しい生成モデルを提供する。 すべての条件情報は学習可能な特徴として表現され、生成モデルはその後文脈的プロンプトとして使用される。 実験により, 本モデルが単一および多条件分子生成において良好な制御性を示すことが示された。 制御性は、従来の構造に基づく薬物設計方法よりも優れる。 より興味深いことに、注意機構を開放し、条件間の結合関係を明らかにし、多条件分子生成のためのガイダンスを提供する。

Is there a unified model for generating molecules considering different conditions, such as binding pockets and chemical properties? Although target-aware generative models have made significant advances in drug design, they do not consider chemistry conditions and cannot guarantee the desired chemical properties. Unfortunately, merging the target-aware and chemical-aware models into a unified model to meet customized requirements may lead to the problem of negative transfer. Inspired by the success of multi-task learning in the NLP area, we use prefix embeddings to provide a novel generative model that considers both the targeted pocket's circumstances and a variety of chemical properties. All conditional information is represented as learnable features, which the generative model subsequently employs as a contextual prompt. Experiments show that our model exhibits good controllability in both single and multi-conditional molecular generation. The controllability enables us to outperform previous structure-based drug design methods. More interestingly, we open up the attention mechanism and reveal coupling relationships between conditions, providing guidance for multi-conditional molecule generation.
翻訳日:2023-02-15 15:18:40 公開日:2023-02-14
# team-detr: 検出トランスフォーマーのプロフェッショナルチームとしてのクエリガイド

Team-DETR: Guide Queries as a Professional Team in Detection Transformers ( http://arxiv.org/abs/2302.07116v1 )

ライセンス: Link先を確認
Tian Qiu, Linyun Zhou, Wenxiang Xu, Lechao Cheng, Zunlei Feng, Mingli Song(参考訳) 近年提案された DETR 変種は,プロセスの合理化や性能の向上により,様々なシナリオにおいて大きな進歩を遂げている。 しかしながら、学習されたクエリは通常、最終セットの予測を生成するためにグローバルコンテキストを探索し、冗長な負担と不適切な結果をもたらす。 より具体的に言うと、クエリは一般的に、異なるスケールと位置のオブジェクトに責任を持ち、クエリ自体の課題であり、クエリ間の空間的リソース競合を引き起こす。 この問題を軽減するため,我々は,クエリのコラボレーションと位置制約を利用してより正確に対象を取り込むteam detrを提案する。 また,各問合せメンバの予測嗜好にも動的に対応し,クエリのスケールと空間優先性が向上した。 さらに、提案されたTeam DETRは、パラメータや計算量を増やすことなく既存のDETRに適応できるほど柔軟である。 cocoデータセットに関する広範囲な実験により、team detrは特に小さなオブジェクトと大きなオブジェクトで顕著な成果を上げている。 コードは \url{https://github.com/horrible-dong/TeamDETR} で公開されている。

Recent proposed DETR variants have made tremendous progress in various scenarios due to their streamlined processes and remarkable performance. However, the learned queries usually explore the global context to generate the final set prediction, resulting in redundant burdens and unfaithful results. More specifically, a query is commonly responsible for objects of different scales and positions, which is a challenge for the query itself, and will cause spatial resource competition among queries. To alleviate this issue, we propose Team DETR, which leverages query collaboration and position constraints to embrace objects of interest more precisely. We also dynamically cater to each query member's prediction preference, offering the query better scale and spatial priors. In addition, the proposed Team DETR is flexible enough to be adapted to other existing DETR variants without increasing parameters and calculations. Extensive experiments on the COCO dataset show that Team DETR achieves remarkable gains, especially for small and large objects. Code is available at \url{https://github.com/horrible-dong/TeamDETR}.
翻訳日:2023-02-15 15:18:22 公開日:2023-02-14
# ロボットナビゲーションのための最小障害物変位計画における計算トレードオフ

Computational Tradeoff in Minimum Obstacle Displacement Planning for Robot Navigation ( http://arxiv.org/abs/2302.07114v1 )

ライセンス: Link先を確認
Antony Thomas and Giulio Ferro and Fulvio Mastrogiovanni and Michela Robba(参考訳) 本稿では,移動ロボットの運動計画の観点から,最小障害物変位(MOD)計画問題について考察する。 この問題は、障害物との衝突によって経路が存在しない場合に可動障害物を変位させることでゴールへの最適経路を見つける。 しかし、この問題は計算コストが高く、可動障害物の数で指数関数的に増加する。 この研究は、計算量が少なく最適な解とは最適なコストの要因によって異なる近似解を考察する。

In this paper, we look into the minimum obstacle displacement (MOD) planning problem from a mobile robot motion planning perspective. This problem finds an optimal path to goal by displacing movable obstacles when no path exists due to collision with obstacles. However this problem is computationally expensive and grows exponentially in the size of number of movable obstacles. This work looks into approximate solutions that are computationally less intensive and differ from the optimal solution by a factor of the optimal cost.
翻訳日:2023-02-15 15:18:04 公開日:2023-02-14
# X線パルス駆動開殻分子の単一電子イオン化

Streaking single-electron ionization in open-shell molecules driven by X-ray pulses ( http://arxiv.org/abs/2302.07095v1 )

ライセンス: Link先を確認
M. E. Mountney, T. C. Driver, A. Marinelli, M. F. Kling, J. P. Cryan, A. Emmanouilidou(参考訳) 開殻分子に対する連続分子波動関数をhartree-fockフレームワークで求める。 我々は、分子イオン、すなわち開殻軌道と電子がイオン化する初期軌道の一重項または三重項の全スピン対称性を計算しながらそうする。 これらの連続波動関数を用いて、線形偏光X線パルスによる単光子吸収によりイオン化するコア電子の双極子行列要素を得る。 x線パルスからのイオン化後、円偏光赤外(ir)パルスを用いて電子のダイナミクスを制御または引き裂く。 1{\sigma}$または2{\sigma}$軌道のイオン化しきい値に近いx線パルスの高出力irパルスと光子エネルギーのために、x線とirパルスの位相遅延を変化させて、イオン化電子の脱離角度を制御する。 低強度のIRパルスに対して、IRパルスの平面上の最終的な電子モーメント分布を求め、これらの分布の多くの特徴がX線パルスのみによる電子逃避の角パターンに対応していることがわかった。

We obtain continuum molecular wavefunctions for open-shell molecules in the Hartree-Fock framework. We do so while accounting for the singlet or triplet total spin symmetry of the molecular ion, that is, of the open-shell orbital and the initial orbital where the electron ionizes from. Using these continuum wavefunctions, we obtain the dipole matrix elements for a core electron that ionizes due to single-photon absorption by a linearly polarized X-ray pulse. After ionization from the X-ray pulse, we control or streak the electron dynamics using a circularly polarized infrared (IR) pulse. For a high intensity IR pulse and photon energies of the X-ray pulse close to the ionization threshold of the $1{\sigma}$ or $2{\sigma}$ orbitals, we achieve control of the angle of escape of the ionizing electron by varying the phase delay between the X-ray and IR pulses. For a low intensity IR pulse, we obtain final electron momenta distributions on the plane of the IR pulse and we find that many features of these distributions correspond to the angular patterns of electron escape solely due to the X-ray pulse.
翻訳日:2023-02-15 15:17:57 公開日:2023-02-14
# Weisfeiler-Lehmanテストによる部分グラフGNNの完全表現性階層

A Complete Expressiveness Hierarchy for Subgraph GNNs via Subgraph Weisfeiler-Lehman Tests ( http://arxiv.org/abs/2302.07090v1 )

ライセンス: Link先を確認
Bohang Zhang, Guhao Feng, Yiheng Du, Di He, Liwei Wang(参考訳) 近年,GNNは表現型グラフニューラルネットワーク(GNN)を開発する上で重要な方向として現れている。 多数のアーキテクチャが提案されているが、これまでのところ、様々な設計パラダイムが表現力の観点からどのように異なるかは限定的であり、アーキテクチャの複雑さを最小限に抑えながら、設計原理が最大限表現性を達成するかは明確ではない。 本論文は,これらの基本的課題を対象とし,SWL (Subgraph Weisfeiler-Lehman Tests) のレンズによる一般ノードベースサブグラフGNNの体系的研究を行う。 我々の中心的な成果は、厳密に表現性を高めたSWLの完全な階層を構築することである。 具体的には、任意のノードベースの部分グラフ GNN が6つのSWL同値類のうちの1つに該当することを証明し、その中で$\mathsf{SSWL}$ が最大表現力を達成する。 また、グラフ距離の符号化や双連結性といった実用的表現性の観点から、これらの同値類がどのように異なるかについても検討する。 さらに,folklore wl test (fwl) の局所化バージョンとの密接な関係を確立することにより,全swlアルゴリズムの密接な表現率上限を与える。 その結果,既存のサブグラフGNNのパワーを把握し,新しいアーキテクチャの設計を導くとともに,2-FWLテストに固有のギャップを明らかにすることで,その限界を指摘することができた。 最後に、ZINCベンチマークの実験により、$\mathsf{SSWL}$-inspired subgraph GNNsは、非常に単純であるにもかかわらず、以前のアーキテクチャよりも大幅に優れていることを示した。

Recently, subgraph GNNs have emerged as an important direction for developing expressive graph neural networks (GNNs). While numerous architectures have been proposed, so far there is still a limited understanding of how various design paradigms differ in terms of expressive power, nor is it clear what design principle achieves maximal expressiveness with minimal architectural complexity. Targeting these fundamental questions, this paper conducts a systematic study of general node-based subgraph GNNs through the lens of Subgraph Weisfeiler-Lehman Tests (SWL). Our central result is to build a complete hierarchy of SWL with strictly growing expressivity. Concretely, we prove that any node-based subgraph GNN falls into one of the six SWL equivalence classes, among which $\mathsf{SSWL}$ achieves the maximal expressive power. We also study how these equivalence classes differ in terms of their practical expressiveness such as encoding graph distance and biconnectivity. In addition, we give a tight expressivity upper bound of all SWL algorithms by establishing a close relation with localized versions of Folklore WL tests (FWL). Overall, our results provide insights into the power of existing subgraph GNNs, guide the design of new architectures, and point out their limitations by revealing an inherent gap with the 2-FWL test. Finally, experiments on the ZINC benchmark demonstrate that $\mathsf{SSWL}$-inspired subgraph GNNs can significantly outperform prior architectures despite great simplicity.
翻訳日:2023-02-15 15:17:37 公開日:2023-02-14
# 粗粒分子動力学のための統計的最適力凝集

Statistically Optimal Force Aggregation for Coarse-Graining Molecular Dynamics ( http://arxiv.org/abs/2302.07071v1 )

ライセンス: Link先を確認
Andreas Kr\"amer, Aleksander P. Durumeric, Nicholas E. Charron, Yaoyi Chen, Cecilia Clementi and Frank No\'e(参考訳) 機械学習粗粒モデル(CG)は、原子論的な分子動力学で可能な以上の大きな分子複合体をシミュレートする可能性がある。 しかし、正確なCGモデルのトレーニングは依然として課題である。 CG力場を学習するための広く使われている手法は、全原子分子動力学からCG表現への力のマッピングと、平均してCG力場とのマッチングである。 我々は、全原子力のCG表現へのマッピングには柔軟性があり、最もよく使われるマッピング手法は統計的に非効率的であり、全原子シミュレーションにおける制約の存在においても、潜在的に誤りであることを示した。 我々は、力マッピングのための最適化文を定義し、最適化力マップを用いて、同じシミュレーションデータからCG力場を大幅に改善できることを実証する。 この方法はチグノリンおよびトリプトファンケージのミニタンパク質上で実証され、オープンソースコードとして公開された。

Machine-learned coarse-grained (CG) models have the potential for simulating large molecular complexes beyond what is possible with atomistic molecular dynamics. However, training accurate CG models remains a challenge. A widely used methodology for learning CG force-fields maps forces from all-atom molecular dynamics to the CG representation and matches them with a CG force-field on average. We show that there is flexibility in how to map all-atom forces to the CG representation, and that the most commonly used mapping methods are statistically inefficient and potentially even incorrect in the presence of constraints in the all-atom simulation. We define an optimization statement for force mappings and demonstrate that substantially improved CG force-fields can be learned from the same simulation data when using optimized force maps. The method is demonstrated on the miniproteins Chignolin and Tryptophan Cage and published as open-source code.
翻訳日:2023-02-15 15:17:05 公開日:2023-02-14
# 熱量子ラビ系における埋め込み量子相関

Embedded Quantum Correlations in thermalized quantum Rabi systems ( http://arxiv.org/abs/2302.07068v1 )

ライセンス: Link先を確認
M. Ahumada, F. A. C\'ardenas-L\'opez, G. Alvarado Barrios, F. Albarr\'an-Arriagada and J. C. Retamal(参考訳) オープン量子ラビ系に埋め込まれた量子相関の研究を行う。 具体的には,量子相関が結合強度,量子ビット数,貯水池温度に依存するかを検討する。 単一フィールドモードと相互作用する最大3量子ビットの量子相関を数値計算する。 その結果, 組込み量子相関は与えられた結合強度に対して最大値を示し, サブの数と貯水池温度に依存することがわかった。 この特徴が多くのキュービット熱機関の性能にどのように影響するかを考察し、抽出可能作業の最小値と量子キャビティ二分割における埋め込み量子相関の最大値との直接対応の数値的な証拠を求める。 さらに、量子ビット数が増加するにつれて、結合強度の小さい値で最大抽出可能な作業が達成される。 この研究は、多くのボディシステムに依存するより洗練された量子熱エンジンの設計に役立つだろう。

We study the quantum correlations embedded in open quantum Rabi systems. Specifically, we study how the quantum correlation depends on the coupling strength, number of qubits, and reservoir temperatures. We numerically calculate the quantum correlations of up to three qubits interacting with a single field mode. We find that the embedded quantum correlations exhibit a maximum for a given coupling strength, which depends inversely on the number of subsystems and the reservoir temperature. We explore how this feature affects the performance of a many-qubit Otto heat engine, finding numerical evidence of a direct correspondence between the minimum of the extractable work and the maximum of the embedded quantum correlations in the qubit-cavity bi-partition. Furthermore, as we increase the number of qubits, the maximum extractable work is reached at smaller values of the coupling strength. This work could help design more sophisticated quantum heat engines that rely on many-body systems with embedded correlations as working substances.
翻訳日:2023-02-15 15:16:49 公開日:2023-02-14
# 新しい親和性フィルタリングとメンバーシップスケーリングに基づくファジィC平均クラスタリングの高速化

Accelerated Fuzzy C-Means Clustering Based on New Affinity Filtering and Membership Scaling ( http://arxiv.org/abs/2302.07060v1 )

ライセンス: Link先を確認
Dong Li, Shuisheng Zhou, and Witold Pedrycz(参考訳) Fuzzy C-Means (FCM) は広く使われているクラスタリング手法である。 しかし、FCMとその多くの加速変種はクラスタリング過程の中期から後期の段階では効率が低い。 この段階では、全てのサンプルが非親和性中心の更新に関与しており、割り当てが変化しないほとんどのサンプルのファジィメンバーシップグレードは、標本中心距離を計算することによって更新される。 これらすべてがアルゴリズムの収束を遅くする。 本稿では,各試料に対する非親和性中心の完全集合を低計算で認識するための新しい親和性フィルタリング手法を開発した。 次に,各試料とその非親和性中心間の会員格付けを0に設定し,ファジィ会員格付けを他の人に維持する新しい会員格付け手法を提案する。 これら2つの手法を統合することにより、FCMの収束過程全体を高速化するために、新しい親和性フィルタリングと会員拡大(AMFCM)に基づくFCMを提案する。 合成および実世界のデータセット上で行った多くの実験結果は、提案アルゴリズムの有効性と効率を示している。 最先端のアルゴリズムと比較すると、AMFCMは大幅に高速で効果的である。 例えば、AMFCMはFCMの繰り返し回数を平均80%削減する。

Fuzzy C-Means (FCM) is a widely used clustering method. However, FCM and its many accelerated variants have low efficiency in the mid-to-late stage of the clustering process. In this stage, all samples are involved in the update of their non-affinity centers, and the fuzzy membership grades of the most of samples, whose assignment is unchanged, are still updated by calculating the samples-centers distances. All those lead to the algorithms converging slowly. In this paper, a new affinity filtering technique is developed to recognize a complete set of the non-affinity centers for each sample with low computations. Then, a new membership scaling technique is suggested to set the membership grades between each sample and its non-affinity centers to 0 and maintain the fuzzy membership grades for others. By integrating those two techniques, FCM based on new affinity filtering and membership scaling (AMFCM) is proposed to accelerate the whole convergence process of FCM. Many experimental results performed on synthetic and real-world data sets have shown the feasibility and efficiency of the proposed algorithm. Compared with the state-of-the-art algorithms, AMFCM is significantly faster and more effective. For example, AMFCM reduces the number of the iteration of FCM by 80% on average.
翻訳日:2023-02-15 15:16:33 公開日:2023-02-14
# GeoFault: 地質モデリングにおける相互運用性のためのよく確立された断層オントロジー

GeoFault: A well-founded fault ontology for interoperability in geological modeling ( http://arxiv.org/abs/2302.07059v1 )

ライセンス: Link先を確認
Yuanwei Qu, Michel Perrin, Anita Torabi, Mara Abel, Martin Giese(参考訳) 地質モデリングは現在、様々なコンピュータベースのアプリケーションを使っている。 オントロジーによるセマンティックレベルでのデータ調和は、これらのアプリケーションを相互運用可能にする上で不可欠である。 ジオモデリングは現在、多分野プロジェクトの一部であるため、意味調和は地質知識だけでなく、一般レベルでの他のドメイン知識の統合も必要である。 そのため、地質知識を記述するために用いられる領域オントロジーは、地質知識が統合可能であることを保証するために、音オントロジーの背景に基づいていなければならない。 本稿では,GeoFault, resting on the Basic Formal Ontology BFO (Arp et al., 2015) and the GeoCore ontology (Garcia et al., 2020)について述べる。 地質断層に関する知識をモデル化する。 断層は様々な産業に必須であるが、モデル化には複雑である。 これらは、薄い変形した岩石の体積、または地質ブロックの異なる変位による空間配置と説明できる。 より広いスケールでは、断層は現在、複雑な断層アレイの構成要素である単なる表面として記述されている。 BFOおよびGeoCoreパッケージへの参照により、これらのさまざまな障害要素をオントロジークラスと、一貫性のあるオントロジーフレームワーク内の論理的リンケージを定義することができる。 geofaultオントロジーは、延性せん断変形を除く断層のコア知識であるstrico sensuをカバーしている。 この語彙は本質的に記述的であり、ミクロ、オージェネティック、テクトニックプレート構造を除いて、地域からアウトクロップスケールに関係している。 このオントロジーはOWL 2で形成され、2つのユースケースで有能な質問によって検証され、社内のオントロジー駆動データ入力アプリケーションを用いてテストされる。 GeoFaultの作業は、障害知識の曖昧化のための確かなフレームワークと、アプリケーションとユーザのためのフォールトデータ統合の基礎を提供する。

Geological modeling currently uses various computer-based applications. Data harmonization at the semantic level by means of ontologies is essential for making these applications interoperable. Since geo-modeling is currently part of multidisciplinary projects, semantic harmonization is required to model not only geological knowledge but also to integrate other domain knowledge at a general level. For this reason, the domain ontologies used for describing geological knowledge must be based on a sound ontology background to ensure the described geological knowledge is integratable. This paper presents a domain ontology: GeoFault, resting on the Basic Formal Ontology BFO (Arp et al., 2015) and the GeoCore ontology (Garcia et al., 2020). It models the knowledge related to geological faults. Faults are essential to various industries but are complex to model. They can be described as thin deformed rock volumes or as spatial arrangements resulting from the different displacements of geological blocks. At a broader scale, faults are currently described as mere surfaces, which are the components of complex fault arrays. The reference to the BFO and GeoCore package allows assigning these various fault elements to define ontology classes and their logical linkage within a consistent ontology framework. The GeoFault ontology covers the core knowledge of faults 'strico sensu,' excluding ductile shear deformations. This considered vocabulary is essentially descriptive and related to regional to outcrop scales, excluding microscopic, orogenic, and tectonic plate structures. The ontology is molded in OWL 2, validated by competency questions with two use cases, and tested using an in-house ontology-driven data entry application. The work of GeoFault provides a solid framework for disambiguating fault knowledge and a foundation of fault data integration for the applications and the users.
翻訳日:2023-02-15 15:16:14 公開日:2023-02-14
# EPISODE:不均一データを用いたフェデレート学習のための周期的再サンプリング補正を用いたエピソード勾配クリッピング

EPISODE: Episodic Gradient Clipping with Periodic Resampled Corrections for Federated Learning with Heterogeneous Data ( http://arxiv.org/abs/2302.07155v1 )

ライセンス: Link先を確認
Michael Crawshaw, Yajie Bao, Mingrui Liu(参考訳) 勾配クリッピングは、リカレントニューラルネットワークなどの勾配が爆発するディープニューラルネットワークにとって重要な技術である。 近年の研究では、これらのネットワークの損失関数は従来の滑らかさ条件を満たさないが、代わりに緩和された滑らかさ条件、すなわち勾配のリプシッツ定数が勾配ノルムの観点から線形にスケールすることを示した。 この観測により、非凸関数と緩和スムース関数に対していくつかの勾配クリッピングアルゴリズムが開発された。 しかし、既存のアルゴリズムはマシン間で均質なデータを持つ単一マシンや複数マシンの設定にのみ適用される。 不均一なデータと限られた通信ラウンドによる一般フェデレーション学習(FL)設定において、証明可能な効率の良い勾配クリッピングアルゴリズムを設計する方法は、まだ不明である。 本稿では,非凸および緩和平滑性設定における不均質データを用いたfl問題を解く最初のアルゴリズムであるエピソードを設計した。 このアルゴリズムの重要な要素は、 \textit{episodic gradient clipping} と \textit{ periodic resampled corrections} と呼ばれる2つの新しい技法である。 各ラウンドの開始時にEPISODEは各クライアントから確率勾配を再サンプリングし,(1)ラウンド全体に対して勾配クリッピングを適用するか,(2)各クライアントに対して局所勾配補正を構築するかを決定するグローバル平均勾配を求める。 特に, このアルゴリズムと解析は, 確率勾配の任意のノイズレベルにおいて, 均質データと異質データの両方に対する統一的なフレームワークを提供し, 最先端の複雑性を実現できる。 特に, EPISODEは, マシン数で線形高速化が可能であり, 通信ラウンドが大幅に少なくなることを証明する。 複数のヘテロジニアスデータセットにおける実験により、flにおける複数の強いベースラインに対するエピソードの優れた性能が示された。

Gradient clipping is an important technique for deep neural networks with exploding gradients, such as recurrent neural networks. Recent studies have shown that the loss functions of these networks do not satisfy the conventional smoothness condition, but instead satisfy a relaxed smoothness condition, i.e., the Lipschitz constant of the gradient scales linearly in terms of the gradient norm. Due to this observation, several gradient clipping algorithms have been developed for nonconvex and relaxed-smooth functions. However, the existing algorithms only apply to the single-machine or multiple-machine setting with homogeneous data across machines. It remains unclear how to design provably efficient gradient clipping algorithms in the general Federated Learning (FL) setting with heterogeneous data and limited communication rounds. In this paper, we design EPISODE, the very first algorithm to solve FL problems with heterogeneous data in the nonconvex and relaxed smoothness setting. The key ingredients of the algorithm are two new techniques called \textit{episodic gradient clipping} and \textit{periodic resampled corrections}. At the beginning of each round, EPISODE resamples stochastic gradients from each client and obtains the global averaged gradient, which is used to (1) determine whether to apply gradient clipping for the entire round and (2) construct local gradient corrections for each client. Notably, our algorithm and analysis provide a unified framework for both homogeneous and heterogeneous data under any noise level of the stochastic gradient, and it achieves state-of-the-art complexity results. In particular, we prove that EPISODE can achieve linear speedup in the number of machines, and it requires significantly fewer communication rounds. Experiments on several heterogeneous datasets show the superior performance of EPISODE over several strong baselines in FL.
翻訳日:2023-02-15 15:09:25 公開日:2023-02-14
# 散乱理論による非エルミートバルク境界対応

Non-Hermitian bulk-boundary correspondence via scattering theory ( http://arxiv.org/abs/2302.07148v1 )

ライセンス: Link先を確認
Haoshu Li and Qian Niu(参考訳) 従来のバルク境界対応は非エルミート系で分解される。 本稿では, 様々な対称性クラスにおける系統的手法である散乱理論を適用し, 1次元非エルミート系におけるバルク境界対応を再確立する。 散乱理論に基づき、一般化されたブリルアンゾーンを計算せずに一般化された固有プロブレムを解くことで位相不変量が得られることが判明した。 その結果、典型的なバルク・エンエンジーギャップの閉鎖を伴わない新しい位相相遷移と、臨界位相相と呼ばれる位相境界状態を持つ不安定相が明らかにされる。

The conventional bulk-boundary correspondence breaks down in non-Hermitian systems. In this paper, we reestablish the bulk-boundary correspondence in one-dimensional non-Hermitian systems by applying the scattering theory, which is a systematical way in various symmetry classes. Based on the scattering theory, it is discovered that the topological invariant can be obtained by solving a generalized eigenproblem without calculating the generalized Brillouin zone. As a direct consequence, we unveil a new type of topological phase transition without typical bulk enengy gap closing and an unstable phase with topological boundary states, dubbed the critical topological phase.
翻訳日:2023-02-15 15:08:36 公開日:2023-02-14
# データアクセスに制限のある実用的なクロスシステムシリング攻撃

Practical Cross-system Shilling Attacks with Limited Access to Data ( http://arxiv.org/abs/2302.07145v1 )

ライセンス: Link先を確認
Meifang Zeng, Ke Li, Bingchuan Jiang, Liujuan Cao, Hui Li(参考訳) シリング攻撃では、敵側がいくつかの偽ユーザプロファイルをRecommender System(RS)に注入し、ターゲットアイテムのプロモーションや削除を行う。 攻撃手法の開発に多くの努力が注がれているが、既存のアプローチはまだ実用的ではない。 本稿では,実用的なシリング攻撃手法が持つべき特性を分析し,システム間攻撃の新たな概念を提案する。 システム間攻撃の考え方により,被害者のrsモデルや攻撃対象のrsデータに関する情報をほとんど必要としない,実用的なシステム間シリング攻撃(pc-attack)フレームワークを設計した。 pc-attackは、公開rsデータからグラフトポロジの知識を自己監視的に捉えるように訓練されている。 次に、フェイクプロファイルの構築に容易にアクセス可能なターゲットデータのごく一部を微調整する。 大規模な実験は、最先端のベースラインよりもPC-Attackの方が優れていることを示した。 PC-Attackの実装はhttps://github.com/KDEGroup/PC-Attack.comで公開しています。

In shilling attacks, an adversarial party injects a few fake user profiles into a Recommender System (RS) so that the target item can be promoted or demoted. Although much effort has been devoted to developing shilling attack methods, we find that existing approaches are still far from practical. In this paper, we analyze the properties a practical shilling attack method should have and propose a new concept of Cross-system Attack. With the idea of Cross-system Attack, we design a Practical Cross-system Shilling Attack (PC-Attack) framework that requires little information about the victim RS model and the target RS data for conducting attacks. PC-Attack is trained to capture graph topology knowledge from public RS data in a self-supervised manner. Then, it is fine-tuned on a small portion of target data that is easy to access to construct fake profiles. Extensive experiments have demonstrated the superiority of PC-Attack over state-of-the-art baselines. Our implementation of PC-Attack is available at https://github.com/KDEGroup/PC-Attack.
翻訳日:2023-02-15 15:08:24 公開日:2023-02-14
# 単純なエンティティ指向の質問による複雑なイベントシナリオのモデリング

Modeling Complex Event Scenarios via Simple Entity-focused Questions ( http://arxiv.org/abs/2302.07139v1 )

ライセンス: Link先を確認
Mahnaz Koupaee, Greg Durrett, Nathanael Chambers, Niranjan Balasubramanian(参考訳) イベントシナリオは複雑で、複数のイベントシーケンスが異なるエンティティ参加者を介して接続されることが多い。 このような複雑なシナリオを探索するには、標準的なイベント言語モデリングでは達成が難しい、さまざまなシーケンスを分岐する必要がある。 そこで我々は,複雑なシナリオにおけるイベントを参加者に関する質問に対する回答としてモデル化する質問誘導生成フレームワークを提案する。 生成プロセスの任意のステップにおいて、フレームワークは、以前に生成されたイベントをコンテキストとして使用するが、次のイベントは、3つの質問のうちの1つとして生成される。 参加者と質問自体をサンプルしたり、ユーザからのインプットとして提供したりすることで、コントロール可能な探索が可能になる。 私たちの経験的評価では、この質問に基づく生成は、参加者のカバー範囲、ドメイン内の多様なイベント、イベントシーケンスのモデリングにおける同等のパープレキシティ、対話型スキーマ生成のより効果的な制御を提供する。

Event scenarios are often complex and involve multiple event sequences connected through different entity participants. Exploring such complex scenarios requires an ability to branch through different sequences, something that is difficult to achieve with standard event language modeling. To address this, we propose a question-guided generation framework that models events in complex scenarios as answers to questions about participants. At any step in the generation process, the framework uses the previously generated events as context, but generates the next event as an answer to one of three questions: what else a participant did, what else happened to a participant, or what else happened. The participants and the questions themselves can be sampled or be provided as input from a user, allowing for controllable exploration. Our empirical evaluation shows that this question-guided generation provides better coverage of participants, diverse events within a domain, comparable perplexities for modeling event sequences, and more effective control for interactive schema generation.
翻訳日:2023-02-15 15:07:34 公開日:2023-02-14
# Fast-MC-PET: 加速PETのための新しい深層学習支援運動補正・再構成フレームワーク

Fast-MC-PET: A Novel Deep Learning-aided Motion Correction and Reconstruction Framework for Accelerated PET ( http://arxiv.org/abs/2302.07135v1 )

ライセンス: Link先を確認
Bo Zhou, Yu-Jung Tsai, Jiazhen Zhang, Xueqi Guo, Huidong Xie, Xiongchao Chen, Tianshun Miao, Yihuan Lu, James S. Duncan, Chi Liu(参考訳) PET中の患者の動きは避けられない。 長い取得時間は運動と関連するアーティファクトを増加させるだけでなく、患者の不快感も増すので、PET加速が望ましい。 しかし, PET の獲得が加速すると, SNR の低い画像が再構成され, 画像の画質が低下する。 従来のPETモーション補正法のほとんどは、モーションモデリングを必要とするモーションタイプ固有であり、複数のタイプのモーションが一緒に存在すると失敗する可能性がある。 また、これらの手法は標準的な長期取得用にカスタマイズされており、加速PETに直接適用することはできない。 この目的のために、加速petのモデリングフリーなユニバーサルモーション補正再構成は未検討のままである。 本研究では,Fast-MC-PETと呼ばれる加速PETのための新しいディープラーニング支援運動補正・再構成フレームワークを提案する。 本フレームワークは,ユニバーサルモーション補正 (UMC) と短時間取得再構成 (SL-Reon) モジュールから構成される。 UMCは、超短フレーム再構成から準連続運動を推定し、この情報を用いて動き補償再構成を行う。 そして, SL-Recon は, 高速化された UMC 画像を低い値の高画質画像に変換する。 人体実験の結果,Fast-MC-PETは7倍加速が可能であり,2分間の取得しか行わず,標準的な15分間の取得データを用いた従来の動作補正再構成法よりも優れた画質の再現画像を生成することができた。

Patient motion during PET is inevitable. Its long acquisition time not only increases the motion and the associated artifacts but also the patient's discomfort, thus PET acceleration is desirable. However, accelerating PET acquisition will result in reconstructed images with low SNR, and the image quality will still be degraded by motion-induced artifacts. Most of the previous PET motion correction methods are motion type specific that require motion modeling, thus may fail when multiple types of motion present together. Also, those methods are customized for standard long acquisition and could not be directly applied to accelerated PET. To this end, modeling-free universal motion correction reconstruction for accelerated PET is still highly under-explored. In this work, we propose a novel deep learning-aided motion correction and reconstruction framework for accelerated PET, called Fast-MC-PET. Our framework consists of a universal motion correction (UMC) and a short-to-long acquisition reconstruction (SL-Reon) module. The UMC enables modeling-free motion correction by estimating quasi-continuous motion from ultra-short frame reconstructions and using this information for motion-compensated reconstruction. Then, the SL-Recon converts the accelerated UMC image with low counts to a high-quality image with high counts for our final reconstruction output. Our experimental results on human studies show that our Fast-MC-PET can enable 7-fold acceleration and use only 2 minutes acquisition to generate high-quality reconstruction images that outperform/match previous motion correction reconstruction methods using standard 15 minutes long acquisition data.
翻訳日:2023-02-15 15:07:18 公開日:2023-02-14
# 効率的な市場横断勧告のための市場対応モデル

Market-Aware Models for Efficient Cross-Market Recommendation ( http://arxiv.org/abs/2302.07130v1 )

ライセンス: Link先を確認
Samarth Bhargav, Mohammad Aliannejadi, Evangelos Kanoulas(参考訳) 我々は、よりリッチで補助的なソース市場のデータを用いて、低リソースのターゲット市場におけるレコメンデーションを含む、クロスマーケットレコメンデーション(CMR)タスクについて検討する。 CMRにおける以前の作業では、メタラーニングを利用して、ターゲット市場における推奨性能を改善した。 本稿では,市場を横断するメタ学習ではなく,市場埋め込みを通じて市場を直接モデル化する市場認識モデルを提案する。 これらの埋め込みはアイテム表現を市場固有の表現に変換する。 実験では,MAモデルの有効性と効率性を,単一のターゲット・ソース・マーケットとのペア・セッティングと,単一市場におけるグローバル・モデルの両方で評価した。 従来のペアワイズモデルでは、MAモデルはnDCG@10のケースの85%において、平均的な市場対応モデルよりも優れているが、メタラーニングモデルと比較すると、MAモデルはトレーニング時間の15%しか必要としない。 グローバル環境では、MAモデルは一部の市場において一貫して市場無知モデルより優れ、一方、メタラーニングベースの手法は1つの市場以外では優れています。 maモデルは、特にグローバル環境では、メタラーニングの効率的かつ効果的な代替手段である、と結論づけた。

We consider the cross-market recommendation (CMR) task, which involves recommendation in a low-resource target market using data from a richer, auxiliary source market. Prior work in CMR utilised meta-learning to improve recommendation performance in target markets; meta-learning however can be complex and resource intensive. In this paper, we propose market-aware (MA) models, which directly model a market via market embeddings instead of meta-learning across markets. These embeddings transform item representations into market-specific representations. Our experiments highlight the effectiveness and efficiency of MA models both in a pairwise setting with a single target-source market, as well as a global model trained on all markets in unison. In the former pairwise setting, MA models on average outperform market-unaware models in 85% of cases on nDCG@10, while being time-efficient - compared to meta-learning models, MA models require only 15% of the training time. In the global setting, MA models outperform market-unaware models consistently for some markets, while outperforming meta-learning-based methods for all but one market. We conclude that MA models are an efficient and effective alternative to meta-learning, especially in the global setting.
翻訳日:2023-02-15 15:06:55 公開日:2023-02-14
# 確率的変形流、平均場限界、確率的勾配降下のダイナミクス

Stochastic Modified Flows, Mean-Field Limits and Dynamics of Stochastic Gradient Descent ( http://arxiv.org/abs/2302.07125v1 )

ライセンス: Link先を確認
Benjamin Gess, Sebastian Kassing, Vitalii Konarovskyi(参考訳) 確率的修正フローと呼ばれる小規模学習率モデルにおいて,確率的勾配降下のための新しい制限ダイナミクスを提案する。 これらのSDEは円筒状ブラウン運動によって駆動され、正規拡散係数を持ち、多点統計と一致することによっていわゆる確率修正方程式を改善する。 第2の貢献として,小規模学習率不定幅スケーリング方式において,確率勾配降下の変動制限ダイナミクスを記述するために,分布依存確率修正フローを導入する。

We propose new limiting dynamics for stochastic gradient descent in the small learning rate regime called stochastic modified flows. These SDEs are driven by a cylindrical Brownian motion and improve the so-called stochastic modified equations by having regular diffusion coefficients and by matching the multi-point statistics. As a second contribution, we introduce distribution dependent stochastic modified flows which we prove to describe the fluctuating limiting dynamics of stochastic gradient descent in the small learning rate - infinite width scaling regime.
翻訳日:2023-02-15 15:06:32 公開日:2023-02-14
# テキストの簡易化を支援する要約データのエクスプロイト

Exploiting Summarization Data to Help Text Simplification ( http://arxiv.org/abs/2302.07124v1 )

ライセンス: Link先を確認
Renliang Sun, Zhixian Yang, Xiaojun Wan(参考訳) テキスト単純化の大きな問題の1つは、高品質なデータの欠如である。 単純化データセットのソースはWikipediaとNewselaに限られており、この分野のさらなる発展を制限する。 本稿では,テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化する。 まず,要約データセットから文対を抽出するアライメントアルゴリズムを提案する。 そこで, 単純化度を特徴付ける4つの属性を考案し, 適切な対をフィルタする方法を提案した。 我々はこれらのペアをSum4Simp (S4S)と名付けた。 次に,S4Sが高品質であることを示すため,人間による評価を行い,実際の単純化データセットと比較した。 最後に、s4sがいくつかの主流の単純化モデル、特に低リソースシナリオのパフォーマンスを向上させることができることを示す実験を行った。

One of the major problems with text simplification is the lack of high-quality data. The sources of simplification datasets are limited to Wikipedia and Newsela, restricting further development of this field. In this paper, we analyzed the similarity between text summarization and text simplification and exploited summarization data to help simplify. First, we proposed an alignment algorithm to extract sentence pairs from summarization datasets. Then, we designed four attributes to characterize the degree of simplification and proposed a method to filter suitable pairs. We named these pairs Sum4Simp (S4S). Next, we conducted human evaluations to show that S4S is high-quality and compared it with a real simplification dataset. Finally, we conducted experiments to illustrate that the S4S can improve the performance of several mainstream simplification models, especially in low-resource scenarios.
翻訳日:2023-02-15 15:06:23 公開日:2023-02-14
# 地球観測のための衛星ミッション計画への量子アルゴリズムの適用

Quantum algorithms applied to satellite mission planning for Earth observation ( http://arxiv.org/abs/2302.07181v1 )

ライセンス: Link先を確認
Serge Rainjonneau, Igor Tokarev, Sergei Iudin, Saaketh Rayaprolu, Karan Pinto, Daria Lemtiuzhnikova, Miras Koblan, Egor Barashov, Mohammad Kordzanganeh, Markus Pflitsch, Alexey Melnikov(参考訳) 地球イメージング衛星は、産業活動のグローバルな追跡を可能にする日常生活の重要な部分である。 ユースケースは、天気予報からデジタル地図、炭素の足跡追跡、植生モニタリングまで、多くのアプリケーションに及ぶ。 しかし、衛星の製造が困難で、メンテナンスが高価で、軌道への打ち上げが難しいという制限もある。 そのため、衛星を効率的に利用することが重要である。 これは、大規模な解決を計算的に禁止できる衛星ミッション計画問題として知られる課題である。 しかし、近対最適アルゴリズムは、欲深い強化学習や最適化アルゴリズムなど、満足のいく解像度を提供することが多い。 本稿では、ミッション計画問題の解決と、これまでに実装された古典的アルゴリズムに対する利点を示すために、量子アルゴリズムのセットを紹介する。 この問題は、何千ものタスクと複数の衛星を含む実際のデータセットで完了した高優先度タスクの数を最大化するものとして定式化されている。 この研究は、ソリューションチェーンとクラスタリング、最適化、機械学習アルゴリズムが最適なソリューションの最大の可能性を提供することを示した。 最も注目すべきは、ハイブリダライズ量子強化学習エージェントが高優先度タスクに対して98.5%の完成率を達成可能であることを示し、これは63.6%の完成率でベースラインの欲望法よりも大幅に改善されている。 この研究の結果は、宇宙産業における量子可能ソリューションへの道のり、そしてより一般的には、産業全体にわたる将来のミッションプランニング問題への道を開いた。

Earth imaging satellites are a crucial part of our everyday lives that enable global tracking of industrial activities. Use cases span many applications, from weather forecasting to digital maps, carbon footprint tracking, and vegetation monitoring. However, there are also limitations; satellites are difficult to manufacture, expensive to maintain, and tricky to launch into orbit. Therefore, it is critical that satellites are employed efficiently. This poses a challenge known as the satellite mission planning problem, which could be computationally prohibitive to solve on large scales. However, close-to-optimal algorithms can often provide satisfactory resolutions, such as greedy reinforcement learning, and optimization algorithms. This paper introduces a set of quantum algorithms to solve the mission planning problem and demonstrate an advantage over the classical algorithms implemented thus far. The problem is formulated as maximizing the number of high-priority tasks completed on real datasets containing thousands of tasks and multiple satellites. This work demonstrates that through solution-chaining and clustering, optimization and machine learning algorithms offer the greatest potential for optimal solutions. Most notably, this paper illustrates that a hybridized quantum-enhanced reinforcement learning agent can achieve a completion percentage of 98.5% over high-priority tasks, which is a significant improvement over the baseline greedy methods with a completion rate of 63.6%. The results presented in this work pave the way to quantum-enabled solutions in the space industry and, more generally, future mission planning problems across industries.
翻訳日:2023-02-15 15:00:29 公開日:2023-02-14
# 連合学習におけるビザンチン-ロバスト集約方式の実験的研究

An Experimental Study of Byzantine-Robust Aggregation Schemes in Federated Learning ( http://arxiv.org/abs/2302.07173v1 )

ライセンス: Link先を確認
Shenghui Li, Edith C.-H. Ngai, Thiemo Voigt(参考訳) Byzantine-robustのフェデレーション学習は、フェデレーショントレーニングプロセス中にビザンチンの障害を軽減し、悪意のある参加者が任意のローカルアップデートを中央サーバにアップロードして、グローバルモデルのパフォーマンスを低下させることを目的としている。 近年、ビザンチンのクライアントからの悪質な更新を防御し、連合学習の堅牢性を改善するため、いくつかの強固な集約スキームが提案されている。 これらの解は特定の仮定の下でビザンティン・ロブストであると主張した。 それ以外は、新たな攻撃戦略が出現し、防衛計画を回避しようとしている。 しかし、体系的な比較や実証的な研究が欠如している。 本研究では,federated learning と fedavg の2つのアルゴリズムを用いて,異なる攻撃下でのビザンチン・ロバスト集約方式の実験的検討を行った。 まず,既存のビザンチン攻撃戦略とビザンチン攻撃に対する防御を目的としたビザンチン・ロバスト集約スキームを調査した。 また,更新を自動的にクリップすることで,クラスタリングベースのスキームのロバスト性を高めるための新しいスキームである clippedclustering を提案する。 次に,5種類のビザンツ攻撃のシナリオにおける8つのアグリゲーションスキームの実験的評価を行った。 以上の結果から,これらのアグリゲーション方式は比較的高い精度を保っているが,有効でない場合もある。 特に,我々の提案するクリップ型クラスタ化は,独立型およびiid型ローカルデータセットによる攻撃の多くをうまく防御する。 しかし, 局所データセットが非IIDである場合, 全てのアグリゲーション方式の性能は著しく低下する。 非iidデータでは、これらの集約スキームのいくつかは、ビザンチンクライアントが完全に存在しない場合にも失敗する。 集約方式の堅牢性は限られており,特に非IIDデータセットにおいて,新たな防衛戦略の必要性が強調されている。

Byzantine-robust federated learning aims at mitigating Byzantine failures during the federated training process, where malicious participants may upload arbitrary local updates to the central server to degrade the performance of the global model. In recent years, several robust aggregation schemes have been proposed to defend against malicious updates from Byzantine clients and improve the robustness of federated learning. These solutions were claimed to be Byzantine-robust, under certain assumptions. Other than that, new attack strategies are emerging, striving to circumvent the defense schemes. However, there is a lack of systematic comparison and empirical study thereof. In this paper, we conduct an experimental study of Byzantine-robust aggregation schemes under different attacks using two popular algorithms in federated learning, FedSGD and FedAvg . We first survey existing Byzantine attack strategies and Byzantine-robust aggregation schemes that aim to defend against Byzantine attacks. We also propose a new scheme, ClippedClustering , to enhance the robustness of a clustering-based scheme by automatically clipping the updates. Then we provide an experimental evaluation of eight aggregation schemes in the scenario of five different Byzantine attacks. Our results show that these aggregation schemes sustain relatively high accuracy in some cases but are ineffective in others. In particular, our proposed ClippedClustering successfully defends against most attacks under independent and IID local datasets. However, when the local datasets are Non-IID, the performance of all the aggregation schemes significantly decreases. With Non-IID data, some of these aggregation schemes fail even in the complete absence of Byzantine clients. We conclude that the robustness of all the aggregation schemes is limited, highlighting the need for new defense strategies, in particular for Non-IID datasets.
翻訳日:2023-02-15 15:00:03 公開日:2023-02-14
# 連立確率木

Joint Probability Trees ( http://arxiv.org/abs/2302.07167v1 )

ライセンス: Link先を確認
Daniel Nyga, Mareike Picklum, Tom Schierenbeck, Michael Beetz(参考訳) 本稿では,JPT(Joint Probability Trees)を導入し,共同確率分布の学習と推論を実践的に行う手法を提案する。 JPTはシンボリック変数とサブシンボリック変数の両方を単一のハイブリッドモデルでサポートしており、変数依存や分布のファミリーに関する事前知識に依存していない。 jpt表現は、問題空間を学習前に厳格な依存関係モデルを仮定するのではなく、トレーニングデータから導かれる関連するサブリージョンに分割するツリー構造上に構築されている。 学習と推論はJPTにおいて線形にスケールし、ツリー構造は任意の後続確率$P(Q|E)$についてのホワイトボックス推論を可能にし、任意の推論結果に対して解釈可能な説明を与えることができる。 実験では、数百万のトレーニングサンプルを持つ高次元不均一確率空間におけるJPTの実用性を示し、古典的確率的グラフィカルモデルに代わる有望な代替となる。

We introduce Joint Probability Trees (JPT), a novel approach that makes learning of and reasoning about joint probability distributions tractable for practical applications. JPTs support both symbolic and subsymbolic variables in a single hybrid model, and they do not rely on prior knowledge about variable dependencies or families of distributions. JPT representations build on tree structures that partition the problem space into relevant subregions that are elicited from the training data instead of postulating a rigid dependency model prior to learning. Learning and reasoning scale linearly in JPTs, and the tree structure allows white-box reasoning about any posterior probability $P(Q|E)$, such that interpretable explanations can be provided for any inference result. Our experiments showcase the practical applicability of JPTs in high-dimensional heterogeneous probability spaces with millions of training samples, making it a promising alternative to classic probabilistic graphical models.
翻訳日:2023-02-15 14:59:36 公開日:2023-02-14
# ノイズ量子電池

Noisy quantum batteries ( http://arxiv.org/abs/2302.07166v1 )

ライセンス: Link先を確認
Kornikar Sen, Ujjwal Sen(参考訳) 現実の状況では、物理的システムは環境から完全に隔離することはできない。 環境との不可避な相互作用は、デバイスの作業プロセスに影響を与える可能性がある。 本稿では, 周辺環境におけるスピンと電池の1量子ビットが連続的に相互作用する2量子ビット量子電池について考察する。 本稿では, 電池から単体で抽出できる最大エネルギー量に対する相互作用の影響について検討する。 この文脈では、局所受動的状態の概念を用いる。 特に, 局所的なパッシブあるいは通常の純状態において, キュービットが通過した相互作用の数と固定された初期絡み合いを持つ, ノイズの多いバッテリから抽出可能な作業量の挙動について検討する。 また,ノイズバッテリから局所的に抽出可能な作業量についても検討した。 抽出可能なエネルギーの量は大域的または局所的であり、それが相互作用する環境のスピンの数によって全体として減少するが、各スピンとの相互作用の時間間隔を増加させると、区間のカットオフ値の後、小さな時間的挙動は特異性を示し、すなわち1つの相互作用内の抽出可能エネルギーは時間とともに増大し始める。 カットオフ時間は相互作用のマルコフ-非マルコフ遷移を示す。 また、マルコフ的シナリオから抽出可能なエネルギーの非マルコフ的増加も観測する。

In realistic situations, physical systems can not be completely isolated from its environment. Its inevitable interaction with the environment can influence the working process of the device. In this paper, we consider two-qubit quantum batteries where one qubit of the battery is successively interacting with the spins present in the surrounding environment. We examine the effect of the interaction on the maximum amount of energy that can be extracted from the battery using unitaries. In this context, we use the notion of locally passive states. In particular, we examine the behavior of the amount of extractable work from the noisy battery, initially prepared in a locally passive or ordinary pure state, having a fixed initial entanglement, with the number of interactions the qubit has gone through. We also examine the amount of locally extractable work from the noisy battery. We realize though the amount of extractable energy, be it global or local, as a whole will decrease with the number of spins of environment it interacted with, but if we increase the time interval of the interaction with each spin, after a cut off value of the interval, the small time behavior shows a peculiarity, i.e., the extractable energy within a single interaction starts to increase with time. The cut-off time indicates the Markovian-to-non-Markovian transition of the interaction. We also observe a non-Markovian increase in extractable energy from the Markovian scenario.
翻訳日:2023-02-15 14:59:20 公開日:2023-02-14
# 量子貯留層計算における粒子統計の役割のベンチマーク

Benchmarking the role of particle statistics in Quantum Reservoir Computing ( http://arxiv.org/abs/2302.07164v1 )

ライセンス: Link先を確認
Guillem Llodr\`a, Christos Charalambous, Gian Luca Giorgi, Roberta Zambrini(参考訳) 量子リザーバコンピューティング(quantum reservoir computing)は、時間的タスクを解決するために量子システムの豊富なダイナミクスを活用する、神経インスパイアされた機械学習アプローチである。 NISQデバイスへの適合性、容易で高速なトレーニング性、潜在的な量子的優位性に注目が集まっている。 数種類の系が量子貯水池として提案されているが、素粒子統計から生じる差はまだ確立されていない。 本研究では,線形および非線形メモリ容量を測定することで,過去の入力からの情報を保存するボソン,フェルミオン,および量子ビットの能力を評価し,比較する。 一般に、システムの性能はヒルベルト空間サイズで向上するが、情報拡散能力も重要な要因であることを示す。 最も単純な貯水池ハミルトニアンの選択と、少なくとも1つの励起に制限された各ボーソンに対して、フェルミオンは固有の非局所的性質のために最適な貯水池を提供する。 一方、調整された入力注入戦略により、ヒルベルト空間の自由度をボソニック量子貯水池計算に活用することができ、量子ビットとフェルミオンの双方と比較して計算能力を高めることができる。

Quantum reservoir computing is a neuro-inspired machine learning approach harnessing the rich dynamics of quantum systems to solve temporal tasks. It has gathered attention for its suitability for NISQ devices, for easy and fast trainability, and for potential quantum advantage. Although several types of systems have been proposed as quantum reservoirs, differences arising from particle statistics have not been established yet. In this work, we assess and compare the ability of bosons, fermions, and qubits to store information from past inputs by measuring linear and nonlinear memory capacity. While, in general, the performance of the system improves with the Hilbert space size, we show that also the information spreading capability is a key factor. For the simplest reservoir Hamiltonian choice, and for each boson limited to at most one excitation, fermions provide the best reservoir due to their intrinsic nonlocal properties. On the other hand, a tailored input injection strategy allows the exploitation of the abundance of degrees of freedom of the Hilbert space for bosonic quantum reservoir computing and enhances the computational power compared to both qubits and fermions.
翻訳日:2023-02-15 14:58:59 公開日:2023-02-14
# カーマグノンによるスイッチブル超放射相転移

Switchable Superradiant Phase Transition with Kerr Magnons ( http://arxiv.org/abs/2302.07163v1 )

ライセンス: Link先を確認
Gang Liu, Wei Xiong and Zu-Jian Ying(参考訳) 超ラジカル相転移(SPT)はキャビティ量子電磁力学(CQED)において広く研究されている。 しかしながら、この SPT は、いわゆる ${\bf A}^2$ 項 (AT) によって誘導される no-go 定理により、現在も進行中の議論の対象となっている。 カー非線形性を持つマグノンをサポートする二段系とイットリウム-鉄-ガーネット球とを同時に結合した単一モード空洞からなるハイブリッド量子系を提案し,ATに対してSPTを復元する。 ここでのカー・マグノンは、マグノンの自由度を減らして本質的なATに対抗するために、強力で調整可能なATを効果的に導入することができる。 カーマグノン誘発性SPTは, 内在性ATを無視し, 内在性ATを含むいずれの症例にも存在することができる。 固有のATがなければ、カーマグノンの導入により臨界結合強度が劇的に低下し、SPTを観察するための実験条件が大幅に緩和される。 固有のATでは、禁止されたSPTはカーマグノンで逆方向に回収することができる。 我々の研究は、cqedと非線形マグノニクスを組み合わせたat inハイブリッドシステムに対してsptを操作する潜在的な方法を示している。

The superradiant phase transition (SPT) has been widely studied in cavity quantum electrodynamics (CQED). However, this SPT is still subject of ongoing debates due to the no-go theorem induced by the so-called ${\bf A}^2$ term (AT). We propose a hybrid quantum system, consisting of a single-mode cavity simultaneously coupled to both a two-level system and yttrium-iron-garnet sphere supporting magnons with Kerr nonlinearity, to restore the SPT against the AT. The Kerr magnons here can effectively introduce an additional strong and tunable AT to counteract the intrinsic AT, via adiabatically eliminating the degrees of freedom of the magnons. We show that the Kerr magnons induced SPT can exist in both cases of ignoring and including the intrinsic AT. Without the intrinsic AT, the critical coupling strength can be dramatically reduced by introducing the Kerr magnons, which greatly relaxes the experimental conditions for observing the SPT. With the intrinsic AT, the forbidden SPT can be recovered with the Kerr magnons in a reversed way. Our work paves a potential way to manipulate the SPT against the AT in hybrid systems combining CQED and nonlinear magnonics.
翻訳日:2023-02-15 14:58:38 公開日:2023-02-14
# 自己監督型強化学習による半導体ファブリックスケジューリング

Semiconductor Fab Scheduling with Self-Supervised and Reinforcement Learning ( http://arxiv.org/abs/2302.07162v1 )

ライセンス: Link先を確認
Pierre Tassel, Benjamin Kov\'acs, Martin Gebser, Konstantin Schekotihin, Patrick St\"ockermann, Georg Seidel(参考訳) 半導体製造は複雑でコストのかかる多段階プロセスであり、高価で量に制限のある機器の長い操作を含む。 最近のチップ不足とその影響は、グローバルサプライチェーンにおける半導体の重要性と、私たちの日常生活への依存度を強調している。 新規工場建設に必要な投資コスト、環境影響、時間スケールのため、需要が急増するにつれて生産量を増やすことは困難である。 本研究は,深層補強と自己教師付き学習を用いて半導体製造設備のスケジューリングをより効率的に行う手法を提案する。 複雑な,連続的,確率的,動的,現代的な半導体製造モデルを扱うための,最初の適応スケジューリング手法を提案する。 本手法は,半導体製造プラントにおける従来の階層的ディスパッチ手法よりも優れ,各オーダーの難易度と完了までの時間を大幅に低減する。 その結果,半導体製造プロセスにおける資源配分の精度が向上した。

Semiconductor manufacturing is a notoriously complex and costly multi-step process involving a long sequence of operations on expensive and quantity-limited equipment. Recent chip shortages and their impacts have highlighted the importance of semiconductors in the global supply chains and how reliant on those our daily lives are. Due to the investment cost, environmental impact, and time scale needed to build new factories, it is difficult to ramp up production when demand spikes. This work introduces a method to successfully learn to schedule a semiconductor manufacturing facility more efficiently using deep reinforcement and self-supervised learning. We propose the first adaptive scheduling approach to handle complex, continuous, stochastic, dynamic, modern semiconductor manufacturing models. Our method outperforms the traditional hierarchical dispatching strategies typically used in semiconductor manufacturing plants, substantially reducing each order's tardiness and time until completion. As a result, our method yields a better allocation of resources in the semiconductor manufacturing process.
翻訳日:2023-02-15 14:58:17 公開日:2023-02-14
# キャビティと導波路qedの遷移における光・物質相互作用

Light-matter interaction at the transition between cavity and waveguide QED ( http://arxiv.org/abs/2302.07161v1 )

ライセンス: Link先を確認
Daniel Lechner, Riccardo Pennetta, Martin Blaha, Philipp Schneeweiss, Arno Rauschenbeutel, J\"urgen Volz(参考訳) キャビティ量子電磁力学(qed)に基づく実験は、離散周波数スペクトルとエミッターとの相互作用を研究するために広く用いられている。 近年では、周波数モードの連続体が許容されるナノフォトニック導波路で得られる伝搬光子とエミッタとの強い相互作用により、導波路qedの分野が注目されている。 キャビティと導波路QEDは、光物質結合の理解を深める共通の目標を共有している。 しかし、それらはしばしば全く異なる実験的な集合と理論的記述に依存する。 本研究では,ナノファイバー部を含むファイバーリング共振器に結合した寒冷原子のアンサンブルを用いてキャビティから導波路qedへの遷移を実験的に検討する。 共振器の長さを数メートルから数十メートルに変化させることで、強い結合性を維持しながら共振器のモードのスペクトル密度を調整できる。 より長い共振器では、共振器QEDのパラダイム的ラビ振動が徐々に消え、非マルコフ的特徴は導波路QEDを連想させる。

Experiments based on cavity quantum electrodynamics (QED) are widely used to study the interaction of a light field with a discrete frequency spectrum and emitters. More recently, the field of waveguide QED has attracted interest due to the strong interaction between propagating photons and emitters that can be obtained in nanophotonic waveguides, where a continuum of frequency modes is allowed. Both cavity and waveguide QED share the common goal of harnessing and deepening the understanding of light-matter coupling. However, they often rely on very different experimental set-ups and theoretical descriptions. Here, we experimentally investigate the transition from cavity to waveguide QED with an ensemble of cold atoms that is coupled to a fiber-ring resonator, which contains a nanofiber section. By varying the length of the resonator from a few meters to several tens of meters, we tailor the spectral density of modes of the resonator while remaining in the strong coupling regime. We demonstrate that for progressively longer resonators, the paradigmatic Rabi oscillations of cavity QED gradually vanish, while non-Markovian features reminiscent of waveguide QED appear.
翻訳日:2023-02-15 14:58:03 公開日:2023-02-14
# PDEの強化学習制御におけるモデル学習はサンプル効率にとって最重要である

Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs ( http://arxiv.org/abs/2302.07160v1 )

ライセンス: Link先を確認
Stefan Werner and Sebastian Peitz(参考訳) 本研究の目的は, 偏微分方程式(PDE)による動的システムのフィードバック制御に強化学習(RL)を用いる場合, 動的モデルの利用を強くすることである。 私たちがrlで見てきた驚くべき約束と複雑なエンジニアリングシステムへの適用性のギャップを破るために、主な課題はトレーニングデータの観点からの膨大な要件と、パフォーマンス保証の欠如です。 本稿では,アクチュエーションを伴う畳み込み型lstmを用いて,データ駆動型サロゲートモデルを用いた最初の課題に対する解法を提案する。 RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを実証する。 さらに,RLトレーニングにおけるバイアスを回避するために,反復的にモデルを更新することが重要であることを示す。 詳細なアブレーション研究は、モデリングプロセスの最も重要な要素を明らかにする。 カオス的な倉本-シヴァシンスキー方程式は、我々の発見を実証する。

The goal of this paper is to make a strong point for the usage of dynamical models when using reinforcement learning (RL) for feedback control of dynamical systems governed by partial differential equations (PDEs). To breach the gap between the immense promises we see in RL and the applicability in complex engineering systems, the main challenges are the massive requirements in terms of the training data, as well as the lack of performance guarantees. We present a solution for the first issue using a data-driven surrogate model in the form of a convolutional LSTM with actuation. We demonstrate that learning an actuated model in parallel to training the RL agent significantly reduces the total amount of required data sampled from the real system. Furthermore, we show that iteratively updating the model is of major importance to avoid biases in the RL training. Detailed ablation studies reveal the most important ingredients of the modeling process. We use the chaotic Kuramoto-Sivashinsky equation do demonstarte our findings.
翻訳日:2023-02-15 14:57:41 公開日:2023-02-14
# 親しみやすい顔:入力が不特定のときステレオタイプをベースとしたテキスト・ツー・イメージシステム

A Friendly Face: Do Text-to-Image Systems Rely on Stereotypes when the Input is Under-Specified? ( http://arxiv.org/abs/2302.07159v1 )

ライセンス: Link先を確認
Kathleen C. Fraser, Svetlana Kiritchenko, and Isar Nejadgholi(参考訳) テキストと画像のシステムは一般大衆の間で人気が高まっているため、生成された画像のバイアスや多様性について疑問が持ち上がっている。 本稿では,視覚的に不特定であるが,社会的属性(例えば「脅威人物の肖像」と「友好人物の肖像」)を含むプロンプトに応答して生成した画像の特性について検討する。 社会認知理論における我々の研究に基づいて、多くの場合、画像にはステレオタイプ文学で報告されたものと類似した人口統計バイアスが含まれていることが判明した。 しかし、傾向は異なるモデル間で矛盾しており、さらなる調査が保証されている。

As text-to-image systems continue to grow in popularity with the general public, questions have arisen about bias and diversity in the generated images. Here, we investigate properties of images generated in response to prompts which are visually under-specified, but contain salient social attributes (e.g., 'a portrait of a threatening person' versus 'a portrait of a friendly person'). Grounding our work in social cognition theory, we find that in many cases, images contain similar demographic biases to those reported in the stereotype literature. However, trends are inconsistent across different models and further investigation is warranted.
翻訳日:2023-02-15 14:57:29 公開日:2023-02-14
# グラフ構造の推論のためのニューロシンボリックAI:サーベイ

Neurosymbolic AI for Reasoning on Graph Structures: A Survey ( http://arxiv.org/abs/2302.07200v1 )

ライセンス: Link先を確認
Lauren Nicole DeLong, Ramon Fern\'andez Mir, Matthew Whyte, Zonglin Ji, Jacques D. Fleuriot (The University of Edinburgh School of Informatics, Artificial Intelligence and its Applications Institute)(参考訳) ニューロシンボリックAIは、象徴的推論手法とディープラーニングを組み合わせることで、高い予測性能とある程度の人間レベルの理解性の両方を持つモデルを生成することを目的とした、ますます活発な研究分野である。 知識グラフは異種・多関係的なデータを表現するための一般的な方法になりつつあるため、グラフ構造を推論する手法はこのニューロシンボリックパラダイムに従おうとしている。 従来、そのようなアプローチは規則に基づく推論か、パターンを抽出できる代表的な数値埋め込みのいずれかを使用してきた。 しかし、近年のいくつかの研究は、この二分法を解釈しやすくし、性能を維持し、専門家の知識を統合する方法で橋渡ししようと試みている。 本稿では,神経シンボリック推論タスクをグラフ構造上で実行する手法について検討する。 様々な方法をよく比較するために,分類可能な新しい分類法を提案する。 具体的には,(1)論理的に変形した組込みアプローチ,(2)論理制約付き組込みアプローチ,(3)ルール学習アプローチの3つのカテゴリを提案する。 分類と並行して,より直接的な比較のために,アプローチの概要とソースコードへのリンクを提供する。 最後に,これらの手法が主に用いられたアプリケーションについて議論し,この新たな研究分野が発展するであろういくつかの展望的方向性を提案する。

Neurosymbolic AI is an increasingly active area of research which aims to combine symbolic reasoning methods with deep learning to generate models with both high predictive performance and some degree of human-level comprehensibility. As knowledge graphs are becoming a popular way to represent heterogeneous and multi-relational data, methods for reasoning on graph structures have attempted to follow this neurosymbolic paradigm. Traditionally, such approaches have utilized either rule-based inference or generated representative numerical embeddings from which patterns could be extracted. However, several recent studies have attempted to bridge this dichotomy in ways that facilitate interpretability, maintain performance, and integrate expert knowledge. Within this article, we survey a breadth of methods that perform neurosymbolic reasoning tasks on graph structures. To better compare the various methods, we propose a novel taxonomy by which we can classify them. Specifically, we propose three major categories: (1) logically-informed embedding approaches, (2) embedding approaches with logical constraints, and (3) rule-learning approaches. Alongside the taxonomy, we provide a tabular overview of the approaches and links to their source code, if available, for more direct comparison. Finally, we discuss the applications on which these methods were primarily used and propose several prospective directions toward which this new field of research could evolve.
翻訳日:2023-02-15 14:51:35 公開日:2023-02-14
# モーメント・ベース・プロジェクションの変化のオンライン検出:深層学習者の再訓練かポートフォリオ更新か?

Online Detection of Changes in Moment-Based Projections: When to Retrain Deep Learners or Update Portfolios? ( http://arxiv.org/abs/2302.07198v1 )

ライセンス: Link先を確認
Ansgar Steland(参考訳) 高次元非線形時系列の時系列モニタリングを第2モーメント行列の投影法として検討した。 オープンエンドおよびクローズドエンドモニタリングは,トレーニングサンプルとモニタリング期間の観察について軽度な仮定で検討した。 漸近性は、推定射影ベクトルを許容する部分和のガウス近似に基づいている。 推定は古典的な非$$\ell_0$-sparsityと空間性の両方について研究される。 最適射影が未知の共分散行列に依存する場合、ハードおよびソフト閾値推定器が研究される。 ディープニューラルネットワークのファイナンスとトレーニングへの応用について論じる。 提案する検出器は一般に、合成データの監視によって示されるように、必要な計算コストを劇的に削減することができる。

Sequential monitoring of high-dimensional nonlinear time series is studied for a projection of the second-moment matrix, a problem interesting in its own right and specifically arising in finance and deep learning. Open-end as well as closed-end monitoring is studied under mild assumptions on the training sample and the observations of the monitoring period. Asymptotics is based on Gaussian approximations of projected partial sums allowing for an estimated projection vector. Estimation is studied both for classical non-$\ell_0$-sparsity as well as under sparsity. For the case that the optimal projection depends on the unknown covariance matrix, hard- and soft-thresholded estimators are studied. Applications in finance and training of deep neural networks are discussed. The proposed detectors typically allow to reduce dramatically the required computational costs as illustrated by monitoring synthetic data.
翻訳日:2023-02-15 14:51:12 公開日:2023-02-14
# 低次元データに基づく拡散モデルのスコア近似・推定・分布復元

Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data ( http://arxiv.org/abs/2302.07194v1 )

ライセンス: Link先を確認
Minshuo Chen, Kaixuan Huang, Tuo Zhao, Mengdi Wang(参考訳) 拡散モデルは様々な世代のタスクで最先端のパフォーマンスを達成する。 しかし、理論上の根拠ははるかに遅れている。 本研究では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルの近似,推定,分布回復について述べる。 この結果は拡散モデルを用いた分布推定のためのサンプル複雑性境界を提供する。 適切に選択されたニューラルネットワークアーキテクチャを用いて,スコア関数を高精度に近似し,効率的に推定できることを示す。 さらに、推定スコア関数に基づいて生成された分布は、データ幾何学的構造を捕捉し、データ分布の近傍に収束する。 収束速度は部分空間次元に依存し、拡散モデルがデータ環境次元の呪いを回避できることを示している。

Diffusion models achieve state-of-the-art performance in various generation tasks. However, their theoretical foundations fall far behind. This paper studies score approximation, estimation, and distribution recovery of diffusion models, when data are supported on an unknown low-dimensional linear subspace. Our result provides sample complexity bounds for distribution estimation using diffusion models. We show that with a properly chosen neural network architecture, the score function can be both accurately approximated and efficiently estimated. Furthermore, the generated distribution based on the estimated score function captures the data geometric structures and converges to a close vicinity of the data distribution. The convergence rate depends on the subspace dimension, indicating that diffusion models can circumvent the curse of data ambient dimensionality.
翻訳日:2023-02-15 14:50:58 公開日:2023-02-14
# Reveal the Unknown: エンティティリンクによるアウトオブ知識ベースメンションディスカバリ

Reveal the Unknown: Out-of-Knowledge-Base Mention Discovery with Entity Linking ( http://arxiv.org/abs/2302.07189v1 )

ライセンス: Link先を確認
Hang Dong, Jiaoyan Chen, Yuan He, Yinan Liu, Ian Horrocks(参考訳) テキストから知識ベース(kb)外にあるエンティティ参照を見つけることは、kbのメンテナンスにおいて重要な役割を果たすが、まだ完全には検討されていない。 現在の手法は主に単純なしきい値に基づくアプローチと特徴に基づく分類に限られており、評価のためのデータセットは比較的稀である。 本稿では、対応するkbエンティティを持たない参照を特殊なnilエンティティにマッチさせることで識別可能な、bertベースの新しいエンティティリンク(el)メソッドであるblinkoutを提案する。 この目的のために、NIL表現、NIL分類、同義語拡張を含む新しい技術を統合する。 また、オントロジーのプルーニングとバージョニング戦略を提案し、通常のelデータセットからkb外言及を構築する。 臨床ノートと出版物の4つのデータセットの結果から,BLINKout は医療オントロジー UMLS と SNOMED CT のアウト・オブ・KB の言及を検出する既存の手法より優れていることが示された。

Discovering entity mentions that are out of a Knowledge Base (KB) from texts plays a critical role in KB maintenance, but has not yet been fully explored. The current methods are mostly limited to the simple threshold-based approach and feature-based classification; the datasets for evaluation are relatively rare. In this work, we propose BLINKout, a new BERT-based Entity Linking (EL) method which can identify mentions that do not have a corresponding KB entity by matching them to a special NIL entity. To this end, we integrate novel techniques including NIL representation, NIL classification, and synonym enhancement. We also propose Ontology Pruning and Versioning strategies to construct out-of-KB mentions from normal, in-KB EL datasets. Results on four datasets of clinical notes and publications show that BLINKout outperforms existing methods to detect out-of-KB mentions for medical ontologies UMLS and SNOMED CT.
翻訳日:2023-02-15 14:50:47 公開日:2023-02-14
# ISHMAPフレームワークを用いた火星潜伏ローバーの異常検出インタフェース開発からの教訓

Lessons from the Development of an Anomaly Detection Interface on the Mars Perseverance Rover using the ISHMAP Framework ( http://arxiv.org/abs/2302.07187v1 )

ライセンス: Link先を確認
Austin P. Wright, Peter Nemere, Adrian Galvin, Duen Horng Chau, Scott Davidoff(参考訳) 異常検出は、多くの科学領域でもっとも重要かつ価値のある問題の一つであるが、異常検出研究は、しばしば科学的調査を行う上で非常に重要なニュアンスと解釈可能性に欠けるai手法に焦点を当てている。 本稿では,機械学習に基づく異常検出の数学的フレーミングを,参加型設計フレームワーク内で実現するための代替手法を提案する。 我々は、地球外生命探査の一環として、火星の惑星地球化学を研究するpixlインスツルメンツと協力して、nasaの科学者がスペクトル異常を検出し、解釈しようとする際に直面する重要な問題を定義するために、コンテキスト内ユーザリサーチと共同設計の18ヶ月以上にわたって実施していることを報告した。 我々は,これらの問題に対処し,科学的解釈に対する強い透明性を維持しつつ,高精度なスペクトル異常検出ツールキットを開発した。 また,アルゴリズムと関連するインタフェースの1年間のフィールド展開の結果についても述べる。 最後に, 異常検出アルゴリズムの協調開発を通じて, 研究者や研究者が自然に解釈可能な異常検出モデルを作成するプロセスを提供する, 異常現象の反復的セマンティックヒューリスティックモデリング(ISHMAP)を提案する。 この研究は、科学領域におけるaiとhciからの手法の橋渡しに成功した例を示しており、より効果的で解釈可能な異常検出ツールを通じてより良い科学を達成するために、他の研究者や実践者が他の科学チームと協力することを目的とした、ishmapのリソースを提供する。

While anomaly detection stands among the most important and valuable problems across many scientific domains, anomaly detection research often focuses on AI methods that can lack the nuance and interpretability so critical to conducting scientific inquiry. In this application paper we present the results of utilizing an alternative approach that situates the mathematical framing of machine learning based anomaly detection within a participatory design framework. In a collaboration with NASA scientists working with the PIXL instrument studying Martian planetary geochemistry as a part of the search for extra-terrestrial life; we report on over 18 months of in-context user research and co-design to define the key problems NASA scientists face when looking to detect and interpret spectral anomalies. We address these problems and develop a novel spectral anomaly detection toolkit for PIXL scientists that is highly accurate while maintaining strong transparency to scientific interpretation. We also describe outcomes from a yearlong field deployment of the algorithm and associated interface. Finally we introduce a new design framework which we developed through the course of this collaboration for co-creating anomaly detection algorithms: Iterative Semantic Heuristic Modeling of Anomalous Phenomena (ISHMAP), which provides a process for scientists and researchers to produce natively interpretable anomaly detection models. This work showcases an example of successfully bridging methodologies from AI and HCI within a scientific domain, and provides a resource in ISHMAP which may be used by other researchers and practitioners looking to partner with other scientific teams to achieve better science through more effective and interpretable anomaly detection tools.
翻訳日:2023-02-15 14:50:28 公開日:2023-02-14
# 非定常文脈バンディットとユニバーサルラーニング

Non-stationary Contextual Bandits and Universal Learning ( http://arxiv.org/abs/2302.07186v1 )

ライセンス: Link先を確認
Moise Blanchard, Steve Hanneke and Patrick Jaillet(参考訳) 本研究では,学習者の報酬が行動や既知の文脈に依存する文脈バンディットにおける学習の基本的な限界について検討する。 我々は、関数クラス制限なしに、任意の測定可能な固定ポリシーと比較してsublinear regretを実現する、普遍的に一貫性のあるアルゴリズムに興味を持っている。 定常的な文脈的包帯に対して、基礎となる報酬機構が時間不変であるとき、[Blanchard et al.]は普遍的一貫性が達成可能な学習可能な文脈過程を特徴付ける。 しかし、報酬メカニズムは、おそらく学習者の行動によって、時間とともに進化する可能性があることはよく理解されている。 我々は,非定常的文脈的バンディットに対する楽観的な普遍的学習は一般に不可能であることを示す。 また,オンラインおよび広告報酬機構を含む様々な非定常モデルの下での普遍学習に必要十分条件を与える。 特に、非定常報酬の学習可能な過程の集合は、いまだに非常に一般的なものであり、すなわち、定常的あるいはエルゴード的なものであるが、一般には、教師付き学習や定常的文脈的包帯よりも厳密に小さく、新しい非定常現象に光を当てる。

We study the fundamental limits of learning in contextual bandits, where a learner's rewards depend on their actions and a known context, which extends the canonical multi-armed bandit to the case where side-information is available. We are interested in universally consistent algorithms, which achieve sublinear regret compared to any measurable fixed policy, without any function class restriction. For stationary contextual bandits, when the underlying reward mechanism is time-invariant, [Blanchard et al.] characterized learnable context processes for which universal consistency is achievable; and further gave algorithms ensuring universal consistency whenever this is achievable, a property known as optimistic universal consistency. It is well understood, however, that reward mechanisms can evolve over time, possibly depending on the learner's actions. We show that optimistic universal learning for non-stationary contextual bandits is impossible in general, contrary to all previously studied settings in online learning -- including standard supervised learning. We also give necessary and sufficient conditions for universal learning under various non-stationarity models, including online and adversarial reward mechanisms. In particular, the set of learnable processes for non-stationary rewards is still extremely general -- larger than i.i.d., stationary or ergodic -- but in general strictly smaller than that for supervised learning or stationary contextual bandits, shedding light on new non-stationary phenomena.
翻訳日:2023-02-15 14:50:00 公開日:2023-02-14
# バイアスの緩和が不適切である場合--バイアス除去アルゴリズムの影響に関する総合的研究

When Mitigating Bias is Unfair: A Comprehensive Study on the Impact of Bias Mitigation Algorithms ( http://arxiv.org/abs/2302.07185v1 )

ライセンス: Link先を確認
Natasa Krco, Thibault Laugel, Jean-Michel Loubes, Marcin Detyniecki(参考訳) 機械学習システムの公正性に関するほとんどの研究は、Demographic ParityやEqualized Oddsといった一般的な公正度メトリクスの盲点最適化に焦点を当てている。 本稿では,いくつかのバイアス緩和法を比較検討し,微粒粒化時の挙動,予測値について検討する。 我々の目的は、異なるアプローチで得られた公正なモデルの違いを特徴づけることである。 公平性と正確性において同等のパフォーマンスを持つ場合、異なるバイアス緩和アプローチは、同じような数の個人に影響を与えるか? バイアスも同じように軽減されますか? モデルを嫌悪する場合、同じ個人に影響を与えますか? 以上の結果から, バイアス緩和アプローチは, 影響を受ける個体数と対象個体数の両方において, 戦略によって大きく異なることが明らかとなった。 より驚くべきことに、これらの結果は同じ緩和アプローチのいくつかの実行にも適用できる。 これらの知見は、現在のグループフェアネス指標の限界と、偏見の過程全体の偏見性、すなわち不公平性に関する疑問を提起する。

Most works on the fairness of machine learning systems focus on the blind optimization of common fairness metrics, such as Demographic Parity and Equalized Odds. In this paper, we conduct a comparative study of several bias mitigation approaches to investigate their behaviors at a fine grain, the prediction level. Our objective is to characterize the differences between fair models obtained with different approaches. With comparable performances in fairness and accuracy, are the different bias mitigation approaches impacting a similar number of individuals? Do they mitigate bias in a similar way? Do they affect the same individuals when debiasing a model? Our findings show that bias mitigation approaches differ a lot in their strategies, both in the number of impacted individuals and the populations targeted. More surprisingly, we show these results even apply for several runs of the same mitigation approach. These findings raise questions about the limitations of the current group fairness metrics, as well as the arbitrariness, hence unfairness, of the whole debiasing process.
翻訳日:2023-02-15 14:49:33 公開日:2023-02-14
# lidarおよびフォトグラムデータのためのポイントクラウド登録:古典・深層学習アルゴリズムの臨界合成と性能解析

Point Cloud Registration for LiDAR and Photogrammetric Data: a Critical Synthesis and Performance Analysis on Classic and Deep Learning Algorithms ( http://arxiv.org/abs/2302.07184v1 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, Shuang Song(参考訳) 最近のコンピュータビジョンとディープラーニングの進歩は、複雑なオブジェクトとシーンの未登録の点雲間の剛性/類似性変換を推定する有望な性能を示している。 しかしながら、それらの性能は、主に単一のセンサー(KinectやRealSenseカメラなど)からの限られた数のデータセットを使用して評価され、フォトグラムの3Dマッピングシナリオにおける適用性に関する包括的な概要が欠如している。 本研究では,SOTA(State-of-the-art)ポイントクラウド登録手法の総合的なレビューを行い,室内から衛星まで多様なポイントクラウドデータを用いて,これらの手法を解析・評価する。 定量的解析は,これらの手法の強み,適用性,課題,今後の傾向を探求する。 クラウド間(C2C)最適化による特徴/キーポイントベースの初期粗い登録や密集した微細な登録など,これらのアプローチをよりよく理解するための2段階のプロセスに基づく。 古典的な手作り、ディープラーニングに基づく特徴対応、堅牢なC2C手法を含む10以上の手法が試験された。 テストしたデータセットよりも、ほとんどのアルゴリズムの成功率は40%未満であり、既存の3次元スパース相関探索や複雑な幾何学とオクルージョンを持つ点雲を登録する能力に関して、改善の余地は大きい。 評価された3つのデータセットの統計値を用いて、各ステップのベストパフォーマンス手法を結論し、推奨事項を提供し、今後の取り組みを展望する。

Recent advances in computer vision and deep learning have shown promising performance in estimating rigid/similarity transformation between unregistered point clouds of complex objects and scenes. However, their performances are mostly evaluated using a limited number of datasets from a single sensor (e.g. Kinect or RealSense cameras), lacking a comprehensive overview of their applicability in photogrammetric 3D mapping scenarios. In this work, we provide a comprehensive review of the state-of-the-art (SOTA) point cloud registration methods, where we analyze and evaluate these methods using a diverse set of point cloud data from indoor to satellite sources. The quantitative analysis allows for exploring the strengths, applicability, challenges, and future trends of these methods. In contrast to existing analysis works that introduce point cloud registration as a holistic process, our experimental analysis is based on its inherent two-step process to better comprehend these approaches including feature/keypoint-based initial coarse registration and dense fine registration through cloud-to-cloud (C2C) optimization. More than ten methods, including classic hand-crafted, deep-learning-based feature correspondence, and robust C2C methods were tested. We observed that the success rate of most of the algorithms are fewer than 40% over the datasets we tested and there are still are large margin of improvement upon existing algorithms concerning 3D sparse corresopondence search, and the ability to register point clouds with complex geometry and occlusions. With the evaluated statistics on three datasets, we conclude the best-performing methods for each step and provide our recommendations, and outlook future efforts.
翻訳日:2023-02-15 14:49:09 公開日:2023-02-14
# ダイオード励起1GHzTi:サファイアレーザーによるHong-Ou-Mandel干渉

Hong-Ou-Mandel interference with a diode-pumped 1-GHz Ti:sapphire laser ( http://arxiv.org/abs/2302.07183v1 )

ライセンス: Link先を確認
Imogen Morland, Hanna Ostapenko, Feng Zhu, Derryck T. Reid and Jonathan Leach(参考訳) 自然パラメトリックダウン変換(SPDC)によって生成される相関光子対は量子光学において重要な資源である。 衛星量子鍵分布(QKD)のような多くの量子光学応用では、コンパクトで高繰り返しのポンプレーザーが必要である。 ここでは790nmで相関光子対を生成するために、小型のGHzレート3素子Kerr-lens-modelocked Ti:sapphireレーザーを用いる。 ホン・ウー・マンデル干渉計(HOM)を用いてSPDCで生成した不明瞭な光子の存在を検証し,81.8\%の視認率で偶然数での減少を観測した。

Correlated photon pairs generated through spontaneous parametric down-conversion (SPDC) are a key resource in quantum optics. In many quantum optics applications, such as satellite quantum key distribution (QKD), a compact, high repetition rate pump laser is required. Here we demonstrate the use of a compact, GHz-rate diode-pumped three-element Kerr-lens-modelocked Ti:sapphire laser for the generation of correlated photon pairs at 790 nm. We verify the presence of indistinguishable photons produced via SPDC using Hong-Ou-Mandel (HOM) interferometry and observe a dip in coincidence counts with a visibility of 81.8\%.
翻訳日:2023-02-15 14:48:38 公開日:2023-02-14
# 多視点ステレオマッチングのための視認性を考慮したピクセルワイズビュー選択

Visibility-Aware Pixelwise View Selection for Multi-View Stereo Matching ( http://arxiv.org/abs/2302.07182v1 )

ライセンス: Link先を確認
Zhentao Huang, Yukun Shi, Minglun Gong(参考訳) PatchMatchベースのマルチビューステレオアルゴリズムの性能は、マッチングコストの計算に選択されたソースビューに大きく依存する。 異なるビューの可視性をモデル化する代わりに、既存のアプローチのほとんどは、アドホックな方法でオクルージョンを扱う。 この問題に対処するため,本稿では,新しい視認性誘導型ピクセルワイズビュー選択スキームを提案する。 すでに検証済みのソリューションが提供する可視性情報に基づいて、参照ビューの各ピクセルで使用されるソースビューのセットを段階的に洗練する。 さらに、異なる画素の最適解を並列に探索するために、人工マルチビーコロニー(ambc)アルゴリズムが用いられる。 同一画像内および異なる画像間で、コニー間通信を行う。 適度な報酬は、検証および伝播されたソリューションに追加され、隣接するピクセルの滑らかさを効果的に強化し、テクスチャのない領域をよりうまく扱うことができる。 DTUデータセットによる実験結果から,本手法は非学習手法間の最先端性能を実現し,非学習領域と低テクスチャ領域の詳細な情報を取得する。

The performance of PatchMatch-based multi-view stereo algorithms depends heavily on the source views selected for computing matching costs. Instead of modeling the visibility of different views, most existing approaches handle occlusions in an ad-hoc manner. To address this issue, we propose a novel visibility-guided pixelwise view selection scheme in this paper. It progressively refines the set of source views to be used for each pixel in the reference view based on visibility information provided by already validated solutions. In addition, the Artificial Multi-Bee Colony (AMBC) algorithm is employed to search for optimal solutions for different pixels in parallel. Inter-colony communication is performed both within the same image and among different images. Fitness rewards are added to validated and propagated solutions, effectively enforcing the smoothness of neighboring pixels and allowing better handling of textureless areas. Experimental results on the DTU dataset show our method achieves state-of-the-art performance among non-learning-based methods and retrieves more details in occluded and low-textured regions.
翻訳日:2023-02-15 14:48:25 公開日:2023-02-14
# ConceptFusion:オープンセットマルチモーダル3Dマッピング

ConceptFusion: Open-set Multimodal 3D Mapping ( http://arxiv.org/abs/2302.07241v1 )

ライセンス: Link先を確認
Krishna Murthy Jatavallabhula and Alihusein Kuwajerwala and Qiao Gu and Mohd Omama and Tao Chen and Shuang Li and Ganesh Iyer and Soroush Saryazdi and Nikhil Keetha and Ayush Tewari and Joshua B. Tenenbaum and Celso Miguel de Melo and Madhava Krishna and Liam Paull and Florian Shkurti and Antonio Torralba(参考訳) 環境の3Dマップの構築は、ロボットナビゲーション、計画、シーン内のオブジェクトとのインタラクションの中心である。 意味論的概念を3Dマップと統合する既存のアプローチは、ほとんどクローズドセットの設定に限られており、訓練時に事前に定義された有限な概念の集合についてしか推論できない。 さらに、これらのマップは、クラスラベルまたは最近の作業でのみ、テキストプロンプトを使用してクエリすることができる。 この2つの課題は,(1)基本的オープンセットのシーン表現であるConceptFusionによって解決され,概念の閉じた集合を超えて推論が可能となり,(ii)本質的にマルチモーダルであり,言語,画像,オーディオ,3次元幾何学など,様々な3Dマップへのクエリが可能となる。 conceptfusionは、インターネットスケールデータで事前トレーニングされた今日の基盤モデルのオープンセット機能を活用して、自然言語、画像、音声といったモダリティにまたがる概念を推論する。 従来のslamとマルチビュー融合による3dマップにピクセル指向のオープンセット機能を融合できることを実証した。 これにより、追加のトレーニングや微調整を必要とせず、効果的なゼロショット空間推論が可能となり、3D IoUでは40%以上のマージンを達成できる。 実世界のデータセット,シミュレートされたホーム環境,実世界のテーブルトップ操作タスク,自律運転プラットフォーム上でのコンセプトフュージョンを広範囲に評価した。 基礎モデルと3次元オープンセットマルチモーダルマッピングをブレンドする新しい方法を紹介する。 詳しくは、プロジェクトページ https://concept-fusion.github.io または、5分間の解説ビデオ https://www.youtube.com/watch? v=rkXgws8fiDs

Building 3D maps of the environment is central to robot navigation, planning, and interaction with objects in a scene. Most existing approaches that integrate semantic concepts with 3D maps largely remain confined to the closed-set setting: they can only reason about a finite set of concepts, pre-defined at training time. Further, these maps can only be queried using class labels, or in recent work, using text prompts. We address both these issues with ConceptFusion, a scene representation that is (1) fundamentally open-set, enabling reasoning beyond a closed set of concepts and (ii) inherently multimodal, enabling a diverse range of possible queries to the 3D map, from language, to images, to audio, to 3D geometry, all working in concert. ConceptFusion leverages the open-set capabilities of today's foundation models pre-trained on internet-scale data to reason about concepts across modalities such as natural language, images, and audio. We demonstrate that pixel-aligned open-set features can be fused into 3D maps via traditional SLAM and multi-view fusion approaches. This enables effective zero-shot spatial reasoning, not needing any additional training or finetuning, and retains long-tailed concepts better than supervised approaches, outperforming them by more than 40% margin on 3D IoU. We extensively evaluate ConceptFusion on a number of real-world datasets, simulated home environments, a real-world tabletop manipulation task, and an autonomous driving platform. We showcase new avenues for blending foundation models with 3D open-set multimodal mapping. For more information, visit our project page https://concept-fusion.github.io or watch our 5-minute explainer video https://www.youtube.com/watch?v=rkXgws8fiDs
翻訳日:2023-02-15 14:43:00 公開日:2023-02-14
# Cauchy Loss関数:GaussianおよびCauchyノイズ下でのロバスト性

Cauchy Loss Function: Robustness Under Gaussian and Cauchy Noise ( http://arxiv.org/abs/2302.07238v1 )

ライセンス: Link先を確認
Thamsanqa Mlotshwa and Heinrich van Deventer and Anna Sergeevna Bosman(参考訳) 教師付き機械学習では、損失関数の選択はデータ上の特定のノイズ分布を暗黙的に仮定する。 例えば、頻繁に使用される平均二乗誤差(MSE)損失はガウス雑音分布を仮定する。 トレーニングとテスト中の損失関数の選択は、人工知能ニューラルネットワーク(ANN)の性能に影響する。 MSEは外れ値の存在下で準標準性能が得られることが知られている。 コーシー損失関数 (CLF) はコーシーノイズ分布を仮定するので、オフ値を持つデータに適している可能性がある。 本論文は, CLFのロバスト性および一般性について, MSEと比較して検討することを目的とする。 clfとmseは、アントレーニングの文脈において、いくつかの手作りの回帰問題と、人工的にシミュレートされた異常値による実世界の回帰問題で評価される。 CLFはMSEの結果に匹敵する結果を得たが、例外はいくつかあった。

In supervised machine learning, the choice of loss function implicitly assumes a particular noise distribution over the data. For example, the frequently used mean squared error (MSE) loss assumes a Gaussian noise distribution. The choice of loss function during training and testing affects the performance of artificial neural networks (ANNs). It is known that MSE may yield substandard performance in the presence of outliers. The Cauchy loss function (CLF) assumes a Cauchy noise distribution, and is therefore potentially better suited for data with outliers. This papers aims to determine the extent of robustness and generalisability of the CLF as compared to MSE. CLF and MSE are assessed on a few handcrafted regression problems, and a real-world regression problem with artificially simulated outliers, in the context of ANN training. CLF yielded results that were either comparable to or better than the results yielded by MSE, with a few notable exceptions.
翻訳日:2023-02-15 14:42:30 公開日:2023-02-14
# BERTの化合物表現に関する心理学的分析

A Psycholinguistic Analysis of BERT's Representations of Compounds ( http://arxiv.org/abs/2302.07232v1 )

ライセンス: Link先を確認
Lars Buijtelaar, Sandro Pezzelle(参考訳) 本研究は、バートが化合物、すなわち日光やボディーガードといった表現について学んだ意味表現を研究する。 我々は,トランスフォーマーの語レベルでの意味情報を探究する最近の研究に基づいて,BERTが人間の意味的直感(例えば,日光)と一致しているかどうかを,構成語(音,光)の意味論に基づいて検討した。 複合意味分析の2つの心理言語学的尺度(lexeme meaning dominant,lmd;各構成要素の重みを複合意味に向かって定量化する)と意味透過性(st;複合意味が構成要素の意味から回復できる程度を評価する)に関する人間の判断を含むデータセットを活用する。 BERTに基づく尺度は、特に文脈表現を用いた場合において、人間の直感と適度に一致していることを示し、LMDはSTよりも総合的に予測可能であることを示し、標準語で報告された結果とは対照的に、より高次、より文脈化されたレイヤは複合意味を表現するのに最適である。 これらの知見は、細粒なセマンティック現象に対処するBERTの能力に新たな光を当てた。 さらに、スピーカーが化合物をどう表現するかについての洞察を提供することもできる。

This work studies the semantic representations learned by BERT for compounds, that is, expressions such as sunlight or bodyguard. We build on recent studies that explore semantic information in Transformers at the word level and test whether BERT aligns with human semantic intuitions when dealing with expressions (e.g., sunlight) whose overall meaning depends -- to a various extent -- on the semantics of the constituent words (sun, light). We leverage a dataset that includes human judgments on two psycholinguistic measures of compound semantic analysis: lexeme meaning dominance (LMD; quantifying the weight of each constituent toward the compound meaning) and semantic transparency (ST; evaluating the extent to which the compound meaning is recoverable from the constituents' semantics). We show that BERT-based measures moderately align with human intuitions, especially when using contextualized representations, and that LMD is overall more predictable than ST. Contrary to the results reported for 'standard' words, higher, more contextualized layers are the best at representing compound meaning. These findings shed new light on the abilities of BERT in dealing with fine-grained semantic phenomena. Moreover, they can provide insights into how speakers represent compounds.
翻訳日:2023-02-15 14:42:16 公開日:2023-02-14
# 断熱ゲージポテンシャルに対するlanczosアプローチ

A Lanczos approach to the Adiabatic Gauge Potential ( http://arxiv.org/abs/2302.07228v1 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee(参考訳) 断熱ゲージポテンシャル(AGP)は、断熱変形の下でハミルトンの固有系が変化する速度を測定する。 AGP演算子を構築し、AGPノルムを評価するには、多くの方法がある。 近年, グラムシュミット型アルゴリズムを用いて agp の表現を明示的に評価できることが提案されている。 このアプローチのバージョンは、Lanczosアルゴリズムを用いて、KrylovベクトルとAGPノルムでAGP演算子を評価することで、Lanczos係数でAGPノルムを評価する。 このアルゴリズムは、いくつかの単純なシステムの AGP 演算子を明示的に構築するために用いられる。 AGPノルムと変形作用素の自己相関関数の関係を導出する。 本稿では、最小数の計算ステップで規制されたAGPノルムを導出するための変分アプローチの修正を提案する。 これを用いて、AGPを様々な成功度に近似する。 最後に、演算子成長仮説の観点から、AGPとK-複雑性の量子カオス探索能力を比較し、対比する。

The Adiabatic Gauge Potential (AGP) measures the rate at which the eigensystem of Hamiltonian changes under adiabatic deformations. There are many ways of constructing the AGP operator and evaluating the AGP norm. Recently, it was proposed that a Gram-Schmidt-type algorithm can be used to explicitly evaluate the expression of the AGP. We employ a version of this approach by using the Lanczos algorithm to evaluate the AGP operator in terms of Krylov vectors and the AGP norm in terms of the Lanczos coefficients. The algorithm is used to explicitly construct the AGP operator for some simple systems. We derive a relation between the AGP norm and the autocorrelation function of the deformation operator. We present a modification of the variational approach to derive the regulated AGP norm with the least number of computational steps. Using this, we approximate the AGP to varying degrees of success. Finally, we compare and contrast the quantum chaos probing capacities of the AGP and K-complexity, in view of the Operator Growth Hypothesis.
翻訳日:2023-02-15 14:41:54 公開日:2023-02-14
# トランスポートマップ非調整ランジュバンアルゴリズム

Transport map unadjusted Langevin algorithms ( http://arxiv.org/abs/2302.07227v1 )

ライセンス: Link先を確認
Benjamin J. Zhang, Youssef M. Marzouk, Konstantinos Spiliopoulos(参考訳) ランゲヴィン力学は、密度が正規化定数まで知られている高次元非ガウス分布のサンプリングに広く用いられている。 特に、未調整のランゲヴィンアルゴリズム(ULA)には強い関心があり、これはランゲヴィン力学を直接離散化し、目標分布に対する期待を推定する。 本研究では,ランジュバンダイナミクスの収束を前提条件として,目標分布を概ね正規化する輸送写像の利用について検討する。 特に、連続時間において、輸送写像がランゲヴィン力学に適用されたとき、結果は輸送写像によって定義される計量を持つリーマン多様体ランゲヴィン力学(RMLD)であることを示す。 この関係は、より体系的なメトリクスの学習方法を示し、また、我々が研究した地図で記述されたRMLDの別の離散化をもたらす。 さらに、ある条件下では、輸送マップが ULA と併用されている場合、出力過程の幾何的収束率を 2$-Wasserstein 距離で向上させることができることを示す。 図解的な数値結果は我々の理論的な主張を補完する。

Langevin dynamics are widely used in sampling high-dimensional, non-Gaussian distributions whose densities are known up to a normalizing constant. In particular, there is strong interest in unadjusted Langevin algorithms (ULA), which directly discretize Langevin dynamics to estimate expectations over the target distribution. We study the use of transport maps that approximately normalize a target distribution as a way to precondition and accelerate the convergence of Langevin dynamics. In particular, we show that in continuous time, when a transport map is applied to Langevin dynamics, the result is a Riemannian manifold Langevin dynamics (RMLD) with metric defined by the transport map. This connection suggests more systematic ways of learning metrics, and also yields alternative discretizations of the RMLD described by the map, which we study. Moreover, we show that under certain conditions, when the transport map is used in conjunction with ULA, we can improve the geometric rate of convergence of the output process in the $2$--Wasserstein distance. Illustrative numerical results complement our theoretical claims.
翻訳日:2023-02-15 14:41:28 公開日:2023-02-14
# DP-SGDにおける境界学習データ再構成

Bounding Training Data Reconstruction in DP-SGD ( http://arxiv.org/abs/2302.07225v1 )

ライセンス: Link先を確認
Jamie Hayes, Saeed Mahloujifar, Borja Balle(参考訳) 異なるプライベートトレーニングは、通常はメンバーシップ推論攻撃に対する保証として解釈される保護を提供する。 この保証はプロキシによって、完全なトレーニング例を抽出しようとするレコンストラクション攻撃など、他の脅威にも拡張される。 最近の研究は、もしメンバーシップ攻撃から保護する必要がなく、訓練データ再構成から保護したいというなら、これらのより野心的な攻撃から保護するためにノイズが少ないため、プライベートモデルの有用性を改善することができるという証拠を提供している。 さらに,私的深層学習の標準アルゴリズムであるDP-SGDの文脈でこれを検証し,DP-SGDに対する再構築攻撃の成功と,我々の限界の予測に実証的に一致する攻撃に上限を与える。 これら2つの結果は,dp-sgdのプライバシパラメータの設定方法について,レコンストラクション攻撃から保護するための詳細な調査の扉を開くものだ。 最後に, DP-SGDパラメータの異なる設定を同一のDP保証に導いた場合, 復元における成功率が著しく異なることを示すために, DP保証だけでは再建攻撃に対する保護を制御できない可能性が示唆された。

Differentially private training offers a protection which is usually interpreted as a guarantee against membership inference attacks. By proxy, this guarantee extends to other threats like reconstruction attacks attempting to extract complete training examples. Recent works provide evidence that if one does not need to protect against membership attacks but instead only wants to protect against training data reconstruction, then utility of private models can be improved because less noise is required to protect against these more ambitious attacks. We investigate this further in the context of DP-SGD, a standard algorithm for private deep learning, and provide an upper bound on the success of any reconstruction attack against DP-SGD together with an attack that empirically matches the predictions of our bound. Together, these two results open the door to fine-grained investigations on how to set the privacy parameters of DP-SGD in practice to protect against reconstruction attacks. Finally, we use our methods to demonstrate that different settings of the DP-SGD parameters leading to the same DP guarantees can result in significantly different success rates for reconstruction, indicating that the DP guarantee alone might not be a good proxy for controlling the protection against reconstruction attacks.
翻訳日:2023-02-15 14:41:06 公開日:2023-02-14
# 2dで描く3dの自然:1つの意味的マスクから自然のシーンを合成する

Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single Semantic Mask ( http://arxiv.org/abs/2302.07224v1 )

ライセンス: Link先を確認
Shangzhan Zhang, Sida Peng, Tianrun Chen, Linzhan Mou, Haotong Lin, Kaicheng Yu, Yiyi Liao, Xiaowei Zhou(参考訳) 本稿では,自然シーンの多視点に一貫性のあるカラー画像の合成を行うために,セマンティックマスクを入力として,インターネットからの単一画像の収集を訓練した新しい手法を提案する。 従来の3D認識画像合成では、特定のオブジェクトのクラスに対して、マルチビューの監督やカテゴリレベルの学習が必要になる。 この課題を解決するための鍵となるアイデアは、セマンティックフィールドを中間表現として使用することであり、これは入力セマンティックマスクから再構成し、オフザシェルフセマンティックイメージ合成モデルの助けを借りてラディアンスフィールドに変換することが容易である。 実験により,本手法はベースライン手法より優れ,様々な自然シーンのフォトリアリスティックで多視点一貫したビデオを生成することがわかった。

We introduce a novel approach that takes a single semantic mask as input to synthesize multi-view consistent color images of natural scenes, trained with a collection of single images from the Internet. Prior works on 3D-aware image synthesis either require multi-view supervision or learning category-level prior for specific classes of objects, which can hardly work for natural scenes. Our key idea to solve this challenging problem is to use a semantic field as the intermediate representation, which is easier to reconstruct from an input semantic mask and then translate to a radiance field with the assistance of off-the-shelf semantic image synthesis models. Experiments show that our method outperforms baseline methods and produces photorealistic, multi-view consistent videos of a variety of natural scenes.
翻訳日:2023-02-15 14:40:33 公開日:2023-02-14
# 敵対的ロバスト性に対するランダム化 : 善、悪、悪

Randomization for adversarial robustness: the Good, the Bad and the Ugly ( http://arxiv.org/abs/2302.07221v1 )

ライセンス: Link先を確認
Lucas Gnecco-Heredia, Yann Chevaleyre, Benjamin Negrevergne, Laurent Meunier(参考訳) 深いニューラルネットワークは、敵の攻撃に弱いことが知られている。人間には認識できない小さな摂動は、よく訓練されたディープニューラルネットワークを誤って分類する。 敵対的攻撃から守るため、ランダム化分類器は決定論的攻撃の頑健な代替として提案されている。 この研究で、任意のランダム化分類器に対して、二項分類設定において、より良い対角リスクを持つ決定論的分類器が存在することを示す。 言い換えれば、ロバスト性にはランダム化は必要ない。 多くの一般的なランダム化スキームでは、より優れたリスクを持つ決定論的分類器が明確に説明されている: 例えば、分類器のアンサンブルは分類器の混合物よりも堅牢であり、ランダム化スムーシングは入力ノイズ注入よりも堅牢である。 最後に, 解析した2種類のランダム分類器を用いて実験を行い, 理論的結果を確認した。

Deep neural networks are known to be vulnerable to adversarial attacks: A small perturbation that is imperceptible to a human can easily make a well-trained deep neural network misclassify. To defend against adversarial attacks, randomized classifiers have been proposed as a robust alternative to deterministic ones. In this work we show that in the binary classification setting, for any randomized classifier, there is always a deterministic classifier with better adversarial risk. In other words, randomization is not necessary for robustness. In many common randomization schemes, the deterministic classifiers with better risk are explicitly described: For example, we show that ensembles of classifiers are more robust than mixtures of classifiers, and randomized smoothing is more robust than input noise injection. Finally, experiments confirm our theoretical results with the two families of randomized classifiers we analyze.
翻訳日:2023-02-15 14:40:16 公開日:2023-02-14
# ニューラルネットワークのアンサンブルを圧縮する効果的な方法としてのマルチ教師知識蒸留

Multi-teacher knowledge distillation as an effective method for compressing ensembles of neural networks ( http://arxiv.org/abs/2302.07215v1 )

ライセンス: Link先を確認
Konrad Zuchniak(参考訳) 近年、ディープラーニングは人工知能の多くの成功に大きく貢献している。 今日では、数千のレイヤーと数十億のパラメータを持つモデルをトレーニングすることが可能である。 大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、それをリアルタイムアプリケーションで実装するのは極めて困難である。 一方、データセットのサイズは、多くのドメインにおいて依然として本当の問題です。 データは、しばしば欠落している、高価すぎる、あるいは他の理由で入手できない。 アンサンブル学習は、小さなデータセットと過度に適合する問題の解決策である。 しかし、基本バージョンでのアンサンブル学習は計算複雑性の線形増加と関連している。 我々は,アンサンブル決定融合機構の影響を解析し,投票アルゴリズムを含む様々な意思決定方法を確認した。 我々は, 知識蒸留フレームワークを, 単一モデルの重み空間への全アンサンブルモデルの圧縮を可能にする, 決定融合機構として使用した。 知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で標準手法で学習したモデルと比較して,優れた性能のモデルが得られることを示した。 我々は,教師全員の反応を同時に模倣する独自の手法を開発した。 これらのソリューションをいくつかのベンチマークデータセットでテストしました。 最後に,効率的な多教師知識蒸留フレームワークの応用について紹介した。 最初の例では,航空機の胴体腐食検出を自動化するモデルの開発に知識蒸留を用いた。 第2の例は、森林での山火事に対処するために観測カメラで煙を検出することである。

Deep learning has contributed greatly to many successes in artificial intelligence in recent years. Today, it is possible to train models that have thousands of layers and hundreds of billions of parameters. Large-scale deep models have achieved great success, but the enormous computational complexity and gigantic storage requirements make it extremely difficult to implement them in real-time applications. On the other hand, the size of the dataset is still a real problem in many domains. Data are often missing, too expensive, or impossible to obtain for other reasons. Ensemble learning is partially a solution to the problem of small datasets and overfitting. However, ensemble learning in its basic version is associated with a linear increase in computational complexity. We analyzed the impact of the ensemble decision-fusion mechanism and checked various methods of sharing the decisions including voting algorithms. We used the modified knowledge distillation framework as a decision-fusion mechanism which allows in addition compressing of the entire ensemble model into a weight space of a single model. We showed that knowledge distillation can aggregate knowledge from multiple teachers in only one student model and, with the same computational complexity, obtain a better-performing model compared to a model trained in the standard manner. We have developed our own method for mimicking the responses of all teachers at the same time, simultaneously. We tested these solutions on several benchmark datasets. In the end, we presented a wide application use of the efficient multi-teacher knowledge distillation framework. In the first example, we used knowledge distillation to develop models that could automate corrosion detection on aircraft fuselage. The second example describes detection of smoke on observation cameras in order to counteract wildfires in forests.
翻訳日:2023-02-15 14:40:00 公開日:2023-02-14
# タグ付きMRIを用いた音声中の舌運動からの音声合成

Synthesizing audio from tongue motion during speech using tagged MRI via transformer ( http://arxiv.org/abs/2302.07203v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Maureen Stone, Georges El Fakhri, Jonghye Woo(参考訳) 舌の内部組織点運動とタグ付きmriおよび知性音声から測定した咽頭筋変形との関連性の検討は、音声運動制御理論の進展と、音声関連障害に対する新しい治療法の開発に寄与する。 しかし、時空間運動場(例えば4次元運動場)と1次元音声波形の間のデータ構造の相違により、これらの2つの情報源間の関係の解明は困難である。 本研究では,音声データのサロゲートとして2次元スペクトログラムを用いて,4次元運動場に固有の予測情報を探索する効率的なエンコーダ・デコーダ変換ネットワークを提案する。 具体的には、3次元畳み込み空間モデルとトランスフォーマーに基づく時間モデルに基づく。 抽出された特徴を非対称な2次元畳み込みデコーダで処理し、4次元運動場に対応するスペクトログラムを生成する。 さらに, 生成したスペクトログラムの合成品質をさらに向上させるために, 生成的逆訓練手法をフレームワークに組み込んだ。 本研究では,63組の動場系列と音声波形を実験し,動き場列から明瞭な音声波形を生成できることを実証した。 この枠組みは,これらの2つの様相の関係の理解を深め,言語障害に対する治療の発展を知らせる可能性を秘めている。

Investigating the relationship between internal tissue point motion of the tongue and oropharyngeal muscle deformation measured from tagged MRI and intelligible speech can aid in advancing speech motor control theories and developing novel treatment methods for speech related-disorders. However, elucidating the relationship between these two sources of information is challenging, due in part to the disparity in data structure between spatiotemporal motion fields (i.e., 4D motion fields) and one-dimensional audio waveforms. In this work, we present an efficient encoder-decoder translation network for exploring the predictive information inherent in 4D motion fields via 2D spectrograms as a surrogate of the audio data. Specifically, our encoder is based on 3D convolutional spatial modeling and transformer-based temporal modeling. The extracted features are processed by an asymmetric 2D convolution decoder to generate spectrograms that correspond to 4D motion fields. Furthermore, we incorporate a generative adversarial training approach into our framework to further improve synthesis quality on our generated spectrograms. We experiment on 63 paired motion field sequences and speech waveforms, demonstrating that our framework enables the generation of clear audio waveforms from a sequence of motion fields. Thus, our framework has the potential to improve our understanding of the relationship between these two modalities and inform the development of treatments for speech disorders.
翻訳日:2023-02-15 14:39:38 公開日:2023-02-14
# 説明可能なAIにおけるメタ評価問題:MetaQuantusを用いた信頼度推定器の同定

The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus ( http://arxiv.org/abs/2302.07265v1 )

ライセンス: Link先を確認
Anna Hedstr\"om, Philine Bommer, Kristoffer K. Wickstr{\o}m, Wojciech Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne(参考訳) 説明可能なAI(XAI)は、AIシステムの透明性と信頼性を改善することを目的とした、急速に進化する分野である。 xaiの未解決の課題の1つは、ニューラルネットワークに対するこれらの説明方法のパフォーマンスを推定することである。 本稿では,与えられた説明可能性コンテキストにおいて最も信頼性の高い評価手法を明らかにするために,評価手法の2つの相補的性能特性をメタ評価するシンプルかつ強力なフレームワークであるmetaquantusを提案する。 提案手法は,説明方法の選択や測定値のハイパーパラメータの最適化など,xaiのさまざまなオープン質問を対象とする一連の実験を通じて,フレームワークの有効性を実証する。 我々は、XAI研究者や機械学習(ML)実践者が新しく構築されたメトリクス(例えば、説明品質の‘推定値’)を検証し、ベンチマークするための開発ツールとして、オープンソースライセンス下で作業をリリースします。 本研究は,信頼性評価手法を構築するための明確かつ理論的なガイダンスを提供し,XAI分野における標準化と再現性を促進する。

Explainable AI (XAI) is a rapidly evolving field that aims to improve transparency and trustworthiness of AI systems to humans. One of the unsolved challenges in XAI is estimating the performance of these explanation methods for neural networks, which has resulted in numerous competing metrics with little to no indication of which one is to be preferred. In this paper, to identify the most reliable evaluation method in a given explainability context, we propose MetaQuantus -- a simple yet powerful framework that meta-evaluates two complementary performance characteristics of an evaluation method: its resilience to noise and reactivity to randomness. We demonstrate the effectiveness of our framework through a series of experiments, targeting various open questions in XAI, such as the selection of explanation methods and optimisation of hyperparameters of a given metric. We release our work under an open-source license to serve as a development tool for XAI researchers and Machine Learning (ML) practitioners to verify and benchmark newly constructed metrics (i.e., ``estimators'' of explanation quality). With this work, we provide clear and theoretically-grounded guidance for building reliable evaluation methods, thus facilitating standardisation and reproducibility in the field of XAI.
翻訳日:2023-02-15 14:33:42 公開日:2023-02-14
# 最小記述長による補間学習

Interpolation Learning With Minimum Description Length ( http://arxiv.org/abs/2302.07263v1 )

ライセンス: Link先を確認
Naren Sarayu Manoj, Nathan Srebro(参考訳) 我々は,最小記述長の学習規則が過度に適合していることを証明する。 我々は,無作為なラベル雑音の存在下での漸近的振る舞いを特徴付ける,無作為な有限標本学習保証を得る。

We prove that the Minimum Description Length learning rule exhibits tempered overfitting. We obtain tempered agnostic finite sample learning guarantees and characterize the asymptotic behavior in the presence of random label noise.
翻訳日:2023-02-15 14:33:16 公開日:2023-02-14
# 拡散する場所、拡散する方法、そして戻る方法: 多変量拡散のための自動学習

Where to Diffuse, How to Diffuse, and How to Get Back: Automated Learning for Multivariate Diffusions ( http://arxiv.org/abs/2302.07261v1 )

ライセンス: Link先を確認
Raghav Singhal, Mark Goldstein, Rajesh Ranganath(参考訳) 拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。 推論拡散の選択は、可能性とサンプル品質の両方に影響する。 例えば、推論プロセスを補助変数で拡張すると、サンプルの品質が向上する。 探索にはこのような多変量拡散が多数存在するが、それぞれに重要なモデル固有の分析が必要であり、迅速なプロトタイピングと評価を妨げる。 本研究では,多変量拡散モデル(MDM)について検討する。 任意の補助変数に対して,モデル固有の解析を必要とせず,mdmの確率を最大化するためのレシピを提供する。 次に、特定対象雑音分布の拡散をパラメータ化する方法を示し、これら2つの点を合わせて推論拡散過程を最適化する。 拡散の最適化は、いくつかのよく知られたプロセスから全ての線形拡散に対する自動探索まで容易に実験できる。 これらのアイデアを実証するために、MNIST、CIFAR10、ImageNet32データセット上で拡散過程を学ぶために、2つの新しい拡散法を導入する。 与えられたデータセットとモデルアーキテクチャに対する拡散の固定的な選択に対して、学習されたMDMが一致しているか、ビット当たりのビット数(BPD)を超えるかを示す。

Diffusion-based generative models (DBGMs) perturb data to a target noise distribution and reverse this inference diffusion process to generate samples. The choice of inference diffusion affects both likelihoods and sample quality. For example, extending the inference process with auxiliary variables leads to improved sample quality. While there are many such multivariate diffusions to explore, each new one requires significant model-specific analysis, hindering rapid prototyping and evaluation. In this work, we study Multivariate Diffusion Models (MDMs). For any number of auxiliary variables, we provide a recipe for maximizing a lower-bound on the MDMs likelihood without requiring any model-specific analysis. We then demonstrate how to parameterize the diffusion for a specified target noise distribution; these two points together enable optimizing the inference diffusion process. Optimizing the diffusion expands easy experimentation from just a few well-known processes to an automatic search over all linear diffusions. To demonstrate these ideas, we introduce two new specific diffusions as well as learn a diffusion process on the MNIST, CIFAR10, and ImageNet32 datasets. We show learned MDMs match or surpass bits-per-dims (BPDs) relative to fixed choices of diffusions for a given dataset and model architecture.
翻訳日:2023-02-15 14:33:13 公開日:2023-02-14
# ランダム事前ネットワークを用いた高次元出力によるスケーラブルベイズ最適化

Scalable Bayesian optimization with high-dimensional outputs using randomized prior networks ( http://arxiv.org/abs/2302.07260v1 )

ライセンス: Link先を確認
Mohamed Aziz Bhouri and Michael Joly and Robert Yu and Soumalya Sarkar and Paris Perdikaris(参考訳) 科学と工学におけるいくつかの基本的な問題は、制御可能な変数の集合を高価な実験の結果にマッピングする未知の高次元(ブラックボックス)関数を含む大域的な最適化タスクである。 ベイズ最適化(BO)技術は、相対的に少数の目的関数評価を用いて大域的最適化問題に取り組むのに有効であることが知られているが、その性能は高次元出力を扱う際に損なわれる。 本稿では、次元性の大きな課題を克服するために、BOのためのディープラーニングフレームワークと、ランダム化前のニューラルネットワークの自己ストラップ型アンサンブルに基づくシーケンシャル意思決定を提案する。 適切なアーキテクチャの選択を用いて,提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合であっても,設計変数と関心量の関数関係を近似できることを示した。 BOの文脈では,マルチポイント(並列)取得関数の再パラメータ化モンテカルロ近似と,ブラックボックス制約やマルチファイダリティ情報ソースを調節するための方法論拡張を用いて,確率的サロゲートを提案する。 提案手法をBOの最先端手法に対して検証し,ターボ機械におけるローターブレードの形状最適化を伴う制約付き最適化タスクを含む,高次元出力の課題に対して優れた性能を示す。

Several fundamental problems in science and engineering consist of global optimization tasks involving unknown high-dimensional (black-box) functions that map a set of controllable variables to the outcomes of an expensive experiment. Bayesian Optimization (BO) techniques are known to be effective in tackling global optimization problems using a relatively small number objective function evaluations, but their performance suffers when dealing with high-dimensional outputs. To overcome the major challenge of dimensionality, here we propose a deep learning framework for BO and sequential decision making based on bootstrapped ensembles of neural architectures with randomized priors. Using appropriate architecture choices, we show that the proposed framework can approximate functional relationships between design variables and quantities of interest, even in cases where the latter take values in high-dimensional vector spaces or even infinite-dimensional function spaces. In the context of BO, we augmented the proposed probabilistic surrogates with re-parameterized Monte Carlo approximations of multiple-point (parallel) acquisition functions, as well as methodological extensions for accommodating black-box constraints and multi-fidelity information sources. We test the proposed framework against state-of-the-art methods for BO and demonstrate superior performance across several challenging tasks with high-dimensional outputs, including a constrained optimization task involving shape optimization of rotor blades in turbo-machinery.
翻訳日:2023-02-15 14:32:52 公開日:2023-02-14
# ChatCAD:大規模言語モデルを用いた医用画像の対話型コンピュータ支援診断

ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models ( http://arxiv.org/abs/2302.07257v1 )

ライセンス: Link先を確認
Sheng Wang, Zihao Zhao, Xi Ouyang, Qian Wang, Dinggang Shen(参考訳) 大規模言語モデル(LLM)は、最近臨床応用の可能性を示し、貴重な医療知識とアドバイスを提供している。 例えば、ChatGPTのような大きなダイアログLLMは、米国の医療ライセンス試験の一部に合格した。 しかし、LLMは画像の処理が難しいため、臨床診断を支援する情報に富んだ医療画像から情報を解釈することは困難である。 一方,医用画像のコンピュータ支援診断(CAD)ネットワークは,高度な深層学習アルゴリズムを用いて臨床診断を支援することで医療分野で大きな成功を収めている。 本稿では,LLMを医療画像CADネットワークに統合する手法を提案する。 提案フレームワークは,自然言語テキスト形式で提示された情報を要約し再編成することにより,診断ネットワーク,病変分割ネットワーク,レポート生成ネットワークなどの複数のCADネットワークの出力を向上させるためにLCMを使用する。 llmsの医療領域知識と論理推論の強みと、既存の医療画像cadモデルの視覚理解能力とを融合させることにより、従来のcadシステムに比べてよりユーザフレンドリーで理解しやすいシステムを構築することが目的である。 将来、LLMの医療知識は、ビジョンベースの医療画像CADモデルの性能向上にも有効である。

Large language models (LLMs) have recently demonstrated their potential in clinical applications, providing valuable medical knowledge and advice. For example, a large dialog LLM like ChatGPT has successfully passed part of the US medical licensing exam. However, LLMs currently have difficulty processing images, making it challenging to interpret information from medical images, which are rich in information that supports clinical decisions. On the other hand, computer-aided diagnosis (CAD) networks for medical images have seen significant success in the medical field by using advanced deep-learning algorithms to support clinical decision-making. This paper presents a method for integrating LLMs into medical-image CAD networks. The proposed framework uses LLMs to enhance the output of multiple CAD networks, such as diagnosis networks, lesion segmentation networks, and report generation networks, by summarizing and reorganizing the information presented in natural language text format. The goal is to merge the strengths of LLMs' medical domain knowledge and logical reasoning with the vision understanding capability of existing medical-image CAD models to create a more user-friendly and understandable system for patients compared to conventional CAD systems. In the future, LLM's medical knowledge can be also used to improve the performance of vision-based medical-image CAD models.
翻訳日:2023-02-15 14:32:28 公開日:2023-02-14
# エネルギー変換器

Energy Transformer ( http://arxiv.org/abs/2302.07253v1 )

ライセンス: Link先を確認
Benjamin Hoover, Yuchen Liang, Bao Pham, Rameswar Panda, Hendrik Strobelt, Duen Horng Chau, Mohammed J. Zaki, Dmitry Krotov(参考訳) トランスフォーマーは機械学習のデファクトモデルとなり、多くのアプリケーションにおいて印象的なパフォーマンスをもたらす。 同時に、トランスフォーマーの世界におけるアーキテクチャ開発は、主に経験的な発見によって推進され、そのアーキテクチャ構築ブロックの理論的理解は、かなり限られている。 対照的に、Dense Associative Memory ModelやModern Hopfield Networksは確立された理論基盤を持っているが、実際的な成果は示されていない。 本稿では,フィードフォワード変換ブロックのシーケンスを1つの大きな連想記憶モデルに置き換えるトランスフォーマーアーキテクチャを提案する。 私たちの新しいアーキテクチャは、エネルギートランスフォーマー(略してet)と呼ばれ、現在の世代のトランスフォーマーでよく使われるアーキテクチャプリミティブを数多く備えています。 しかし、既存の建築とは同一ではない。 ETの変圧器層の配列は、トークン間の関係を表現する責任を負う特別に設計されたエネルギー関数を最小化するように設計されている。 この計算原理の結果として、ETにおける注意は従来の注意機構とは異なる。 本稿では,ETの理論的基礎を紹介し,画像補完タスクを用いた経験的能力を探究し,グラフ異常検出タスクにおける強力な定量的結果を得る。

Transformers have become the de facto models of choice in machine learning, typically leading to impressive performance on many applications. At the same time, the architectural development in the transformer world is mostly driven by empirical findings, and the theoretical understanding of their architectural building blocks is rather limited. In contrast, Dense Associative Memory models or Modern Hopfield Networks have a well-established theoretical foundation, but have not yet demonstrated truly impressive practical results. We propose a transformer architecture that replaces the sequence of feedforward transformer blocks with a single large Associative Memory model. Our novel architecture, called Energy Transformer (or ET for short), has many of the familiar architectural primitives that are often used in the current generation of transformers. However, it is not identical to the existing architectures. The sequence of transformer layers in ET is purposely designed to minimize a specifically engineered energy function, which is responsible for representing the relationships between the tokens. As a consequence of this computational principle, the attention in ET is different from the conventional attention mechanism. In this work, we introduce the theoretical foundations of ET, explore it's empirical capabilities using the image completion task, and obtain strong quantitative results on the graph anomaly detection task.
翻訳日:2023-02-15 14:32:06 公開日:2023-02-14
# AIによるコード補完における不確実性ハイライトの有効性を探る

Generation Probabilities Are Not Enough: Exploring the Effectiveness of Uncertainty Highlighting in AI-Powered Code Completions ( http://arxiv.org/abs/2302.07248v1 )

ライセンス: Link先を確認
Helena Vasconcelos, Gagan Bansal, Adam Fourney, Q. Vera Liao, and Jennifer Wortman Vaughan(参考訳) 大規模な生成モデルにより、AIを使ったコード補完ツールの開発が可能になった。 しかし、他のaiツールと同様に、aiによるコード補完は常に正確ではなく、人間のプログラマが正しく検出して修正しなければ、コードにバグやセキュリティ上の脆弱性をもたらす可能性がある。 プログラマが潜在的なエラーを特定するために提案され実装されたテクニックのひとつは、不確実なトークンを強調することである。 しかし、この手法の有効性を探求する実証的研究は行われておらず、また、生成モデルの文脈における不確実性の概念の相違について調査もされていない。 我々は、不確実性に関する情報を伝えることで、AIによるコード補完ツールとの共同作業において、プログラマがより迅速かつ正確にコードを生成することができるかどうか、そしてもしそうであれば、プログラマのニーズに最も適した不確実性の測定方法を検討する。 30人のプログラマによる混合メソッドスタディを通じて、AIシステムのコード補完のみを提供すること、基礎となる生成モデルによって生成される可能性が最も低いトークンの強調、プログラマが編集される可能性が最も高いトークンの強調の3つの条件を比較した。 その結果,トークンの強調表示はより高速なタスク完了とよりターゲット的な編集につながることが判明し,研究参加者が主観的に好んでいる。 対照的に、生成される確率に応じてトークンをハイライトすることは、ハイライトなしでベースラインに何の利益も与えない。 AIによるコード補完ツールにおける不確実性を伝えるための設計空間をさらに探求し、プログラマは粒度、情報、解釈可能、そして圧倒的ではないハイライトを好む。

Large-scale generative models enabled the development of AI-powered code completion tools to assist programmers in writing code. However, much like other AI-powered tools, AI-powered code completions are not always accurate, potentially introducing bugs or even security vulnerabilities into code if not properly detected and corrected by a human programmer. One technique that has been proposed and implemented to help programmers identify potential errors is to highlight uncertain tokens. However, there have been no empirical studies exploring the effectiveness of this technique-- nor investigating the different and not-yet-agreed-upon notions of uncertainty in the context of generative models. We explore the question of whether conveying information about uncertainty enables programmers to more quickly and accurately produce code when collaborating with an AI-powered code completion tool, and if so, what measure of uncertainty best fits programmers' needs. Through a mixed-methods study with 30 programmers, we compare three conditions: providing the AI system's code completion alone, highlighting tokens with the lowest likelihood of being generated by the underlying generative model, and highlighting tokens with the highest predicted likelihood of being edited by a programmer. We find that highlighting tokens with the highest predicted likelihood of being edited leads to faster task completion and more targeted edits, and is subjectively preferred by study participants. In contrast, highlighting tokens according to their probability of being generated does not provide any benefit over the baseline with no highlighting. We further explore the design space of how to convey uncertainty in AI-powered code completion tools, and find that programmers prefer highlights that are granular, informative, interpretable, and not overwhelming.
翻訳日:2023-02-15 14:31:46 公開日:2023-02-14
# WSD:自撮り画像の顔認識のための野生の自撮りデータセット

WSD: Wild Selfie Dataset for Face Recognition in Selfie Images ( http://arxiv.org/abs/2302.07245v1 )

ライセンス: Link先を確認
Laxman Kumarapu, Shiv Ram Dubey, Snehasis Mukherjee, Parkhi Mohan, Sree Pragna Vinnakoti, Subhash Karthikeya(参考訳) 近年,携帯端末の普及に伴い,自撮り画像の撮影傾向が注目されている。 したがって、セルフィー画像中の顔を認識するための効率的なアプローチを開発する必要がある。 セルフィー画像のカメラと顔の距離が短いことと、セルフィーアプリの視覚効果が異なるため、既存のアプローチでは顔認識がより困難になる。 自撮り画像の顔を認識するためにデータセットを開発する必要がある。 この問題を緩和し,自撮り顔画像の研究を容易にするために,携帯電話の自撮りカメラから画像を取り出す「野生自撮りデータセット(WSD)」を開発した。 wsdデータセットには42人(女性24人、男性18人)の45,424枚の画像が含まれており、それぞれ40,862個のトレーニングと4,562個のテスト画像に分割されている。 各被験者の平均画像数は1,082で、各被験者の最大画像数は518と2,634である。 提案したデータセットは,拡張現実フィルタリング,ミラー画像,オクルージョン,照明,スケール,表現,視点,アスペクト比,ぼやけた顔,回転,アライメントなど,いくつかの課題で構成されている。 提案するデータセットと既存のベンチマークデータセットを異なる特性で比較する。 WSDデータセットの複雑さも実験的に観察され、既存の最先端の顔認識手法の性能は、既存のデータセットと比較してWSDデータセットでは劣っている。 したがって、提案されたwsdデータセットは、顔認識の分野で新たな課題を提起し、自撮り画像に関する特定の課題を調査し、自撮り画像における顔認識の改善方法を開発するコミュニティにとって有益である。

With the rise of handy smart phones in the recent years, the trend of capturing selfie images is observed. Hence efficient approaches are required to be developed for recognising faces in selfie images. Due to the short distance between the camera and face in selfie images, and the different visual effects offered by the selfie apps, face recognition becomes more challenging with existing approaches. A dataset is needed to be developed to encourage the study to recognize faces in selfie images. In order to alleviate this problem and to facilitate the research on selfie face images, we develop a challenging Wild Selfie Dataset (WSD) where the images are captured from the selfie cameras of different smart phones, unlike existing datasets where most of the images are captured in controlled environment. The WSD dataset contains 45,424 images from 42 individuals (i.e., 24 female and 18 male subjects), which are divided into 40,862 training and 4,562 test images. The average number of images per subject is 1,082 with minimum and maximum number of images for any subject are 518 and 2,634, respectively. The proposed dataset consists of several challenges, including but not limited to augmented reality filtering, mirrored images, occlusion, illumination, scale, expressions, view-point, aspect ratio, blur, partial faces, rotation, and alignment. We compare the proposed dataset with existing benchmark datasets in terms of different characteristics. The complexity of WSD dataset is also observed experimentally, where the performance of the existing state-of-the-art face recognition methods is poor on WSD dataset, compared to the existing datasets. Hence, the proposed WSD dataset opens up new challenges in the area of face recognition and can be beneficial to the community to study the specific challenges related to selfie images and develop improved methods for face recognition in selfie images.
翻訳日:2023-02-15 14:31:17 公開日:2023-02-14
# twitterの感情が株式市場のトレンドに与える影響

The Impact of Twitter Sentiments on Stock Market Trends ( http://arxiv.org/abs/2302.07244v1 )

ライセンス: Link先を確認
Melvin Mokhtari, Ali Seraj, Niloufar Saeedi, Adel Karshenas(参考訳) Webは、人々が意見を共有し、人生のあらゆる側面に影響を与え、マーケティングとコミュニケーションに影響を及ぼす、広大な仮想空間である。 最も最新かつ包括的な情報は、メッセージの投稿がいかに広く簡単であるかから、ソーシャルメディアで見ることができる。 市場を正確に予測するための貴重な資源であると考えられている。 特にTwitterは、ユーザー感情を理解する強力なツールを開発した。 この記事では、ツイートがストックシンボルのトレンドにどの程度影響するかを検討する。 S&P500種株価指数(S&P500種株価指数)の上位5銘柄の3ヶ月間の総数、感情、言及を分析した。 このプロセスで実装された3つのアルゴリズムは、long short-term memory、bernolli na\"ive bayes、random forestである。 われわれの調査では、株価とTwitterの感情の間に大きな相関関係があることが判明した。

The Web is a vast virtual space where people can share their opinions, impacting all aspects of life and having implications for marketing and communication. The most up-to-date and comprehensive information can be found on social media because of how widespread and straightforward it is to post a message. Proportionately, they are regarded as a valuable resource for making precise market predictions. In particular, Twitter has developed into a potent tool for understanding user sentiment. This article examines how well tweets can influence stock symbol trends. We analyze the volume, sentiment, and mentions of the top five stock symbols in the S&P 500 index on Twitter over three months. Long Short-Term Memory, Bernoulli Na\"ive Bayes, and Random Forest were the three algorithms implemented in this process. Our study revealed a significant correlation between stock prices and Twitter sentiment.
翻訳日:2023-02-15 14:30:44 公開日:2023-02-14
# 動的グラフ表現学習のための深い確率的時空間フレームワークと脳障害同定への応用

A Deep Probabilistic Spatiotemporal Framework for Dynamic Graph Representation Learning with Application to Brain Disorder Identification ( http://arxiv.org/abs/2302.07243v1 )

ライセンス: Link先を確認
Junn Yong Loo, Sin-Yee Yap, Fuad Noman, Raphael CW Phan, Chee-Ming Ting(参考訳) 機能的接続(FC)を用いた脳コネクトーム分類におけるパターン認識手法の最近の応用は,脳コネクトームの非ユークリッドトポロジーや因果ダイナミクスを無視している。 本稿では,自閉症スペクトラム障害(asd)に対する動的脳fcネットワークの時間変化トポロジー構造を学習するために,変分ベイズ(dsvb)に基づく深部確率的時空間的枠組みを提案する。 提案手法では,空間認識型リカレントニューラルネットワークを用いて,動的fcネットワークにまたがるリッチな時空間パターンをキャプチャし,その学習パターンを主題レベルの分類に活用する。 限られたトレーニングデータセットに対するモデル過適合を克服するために、未知の脳ネットワークにうまく一般化するグラフ埋め込みモデルを学ぶために、敵のトレーニング戦略を導入する。 ABIDE静止状態機能型磁気共鳴画像データセットの評価により,提案手法はASDの同定における最先端手法よりも優れていた。 dsvbを用いた動的fc解析により、ネットワークプロファイルと脳状態のスイッチングダイナミクスにおけるasdと健全な制御との明らかなグループ差が明らかになった。

Recent applications of pattern recognition techniques on brain connectome classification using functional connectivity (FC) neglect the non-Euclidean topology and causal dynamics of brain connectivity across time. In this paper, a deep probabilistic spatiotemporal framework developed based on variational Bayes (DSVB) is proposed to learn time-varying topological structures in dynamic brain FC networks for autism spectrum disorder (ASD) identification. The proposed framework incorporates a spatial-aware recurrent neural network to capture rich spatiotemporal patterns across dynamic FC networks, followed by a fully-connected neural network to exploit these learned patterns for subject-level classification. To overcome model overfitting on limited training datasets, an adversarial training strategy is introduced to learn graph embedding models that generalize well to unseen brain networks. Evaluation on the ABIDE resting-state functional magnetic resonance imaging dataset shows that our proposed framework significantly outperformed state-of-the-art methods in identifying ASD. Dynamic FC analyses with DSVB learned embeddings reveal apparent group difference between ASD and healthy controls in network profiles and switching dynamics of brain states.
翻訳日:2023-02-15 14:30:33 公開日:2023-02-14
# liplearner: モバイルデバイス上のサイレント音声インタラクションをカスタマイズする

LipLearner: Customizable Silent Speech Interactions on Mobile Devices ( http://arxiv.org/abs/2302.05907v2 )

ライセンス: Link先を確認
Zixiong Su, Shitao Fang, Jun Rekimoto(参考訳) silent speech interfaceは、自然言語でプライベートなコミュニケーションを可能にする有望な技術である。 しかし、以前のアプローチでは、小さく柔軟性のない語彙しかサポートしておらず、表現力に制限がある。 コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。 本モデルでは, 照明, 姿勢, ジェスチャー条件の異なるデータセットに対して高いロバスト性を示す。 25コマンドの分類では、f1-score 0.8947は1ショットのみを使用して達成可能であり、より多くのデータから適応的に学習することで性能をさらに向上させることができる。 この一般化により、デバイス上での微調整と視覚的キーワードスポッティングによるモバイルサイレント音声インタフェースの開発が可能となった。 ユーザ調査によれば、liplearnerを使えば、オンラインのインクリメンタルな学習方式によって、信頼性の高い独自のコマンドを定義することができる。 主観的フィードバックは,高いユーザビリティと学習性を備えた音声対話をカスタマイズする上で,本システムは必須の機能であることを示した。

Silent speech interface is a promising technology that enables private communications in natural language. However, previous approaches only support a small and inflexible vocabulary, which leads to limited expressiveness. We leverage contrastive learning to learn efficient lipreading representations, enabling few-shot command customization with minimal user effort. Our model exhibits high robustness to different lighting, posture, and gesture conditions on an in-the-wild dataset. For 25-command classification, an F1-score of 0.8947 is achievable only using one shot, and its performance can be further boosted by adaptively learning from more data. This generalizability allowed us to develop a mobile silent speech interface empowered with on-device fine-tuning and visual keyword spotting. A user study demonstrated that with LipLearner, users could define their own commands with high reliability guaranteed by an online incremental learning scheme. Subjective feedback indicated that our system provides essential functionalities for customizable silent speech interactions with high usability and learnability.
翻訳日:2023-02-15 11:47:40 公開日:2023-02-14
# スクラッチレンズプロテクターから画像アーティファクトを除去する

Removing Image Artifacts From Scratched Lens Protectors ( http://arxiv.org/abs/2302.05746v2 )

ライセンス: Link先を確認
Yufei Wang, Renjie Wan, Wenhan Yang, Bihan Wen, Lap-Pui Chau, Alex C. Kot(参考訳) モバイルデバイス用カメラレンズの前にプロテクターを配置して損傷を防止し、特にプラスチック用ではプロテクター自体を誤って傷つけることができる。 アーティファクトはさまざまなパターンに現れており、それらをはっきりと見ることは困難である。 スクラッチされたレンズプロテクターから画像アーティファクトを除去することは、時折フレアアーティファクトと混合アーティファクト内の共起干渉により本質的に困難である。 特定の歪みに対して異なる方法が提案されているが、それら固有の課題を考えることは滅多にない。 本研究では,協調モジュールを2つ備えた統一フレームワークにおける本質的な課題について考察する。 また、トレーニングや評価の目的で、現実世界から新しいデータセットを収集します。 実験の結果,本手法は質的,定量的にベースラインを上回った。 コードとデータセットは受け入れた後にリリースされる。

A protector is placed in front of the camera lens for mobile devices to avoid damage, while the protector itself can be easily scratched accidentally, especially for plastic ones. The artifacts appear in a wide variety of patterns, making it difficult to see through them clearly. Removing image artifacts from the scratched lens protector is inherently challenging due to the occasional flare artifacts and the co-occurring interference within mixed artifacts. Though different methods have been proposed for some specific distortions, they seldom consider such inherent challenges. In our work, we consider the inherent challenges in a unified framework with two cooperative modules, which facilitate the performance boost of each other. We also collect a new dataset from the real world to facilitate training and evaluation purposes. The experimental results demonstrate that our method outperforms the baselines qualitatively and quantitatively. The code and datasets will be released after acceptance.
翻訳日:2023-02-15 11:47:21 公開日:2023-02-14
# LawGPT 1.0: GPT-3に基づく仮想法的アシスタント

A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3 ( http://arxiv.org/abs/2302.05729v2 )

ライセンス: Link先を確認
Ha-Thanh Nguyen(参考訳) LawGPT 1.0は、最先端の言語モデルであるGPT-3上に構築された仮想法定アシスタントである。 このシステムは、ユーザーに対して法的支援を行い、法的質問への回答、法的文書の作成、法的アドバイスの提供などのタスクを支援するように設計されている。 本稿では,lawgpt 1.0の概要,そのアーキテクチャ,および一連の法的なベンチマークタスクにおける性能について述べる。 モデルの詳細情報は、非開示契約(NDA)で保護されており、この報告では開示できないことに留意してください。

LawGPT 1.0 is a virtual legal assistant built on the state-of-the-art language model GPT-3, fine-tuned for the legal domain. The system is designed to provide legal assistance to users in a conversational manner, helping them with tasks such as answering legal questions, generating legal documents, and providing legal advice. In this paper, we provide a brief overview of LawGPT 1.0, its architecture, and its performance on a set of legal benchmark tasks. Please note that the detailed information about the model is protected by a non-disclosure agreement (NDA) and cannot be disclosed in this report.
翻訳日:2023-02-15 11:47:05 公開日:2023-02-14
# 氷と火の歌:サイエンスワールドにおけるテクスチュアルオートテリックエージェントの分析

A Song of Ice and Fire: Analyzing Textual Autotelic Agents in ScienceWorld ( http://arxiv.org/abs/2302.05244v3 )

ライセンス: Link先を確認
Laetitia Teodorescu, Eric Yuan, Marc-Alexandre C\^ot\'e, Pierre-Yves Oudeyer(参考訳) 行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。 この課題は、自発的なrlエージェントの枠組み、すなわち、学習カリキュラムを自己組織化することで学習するエージェントの枠組みで研究することができる。 最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。 この観点で、我々は以下のオープンな科学的疑問を調査する: 社会的仲間(例えば、選択的対排他的)からの後視的フィードバックの影響は? エージェントは、経験的なリプレイで非常に稀な言語目標例からどのように学ぶことができるのか? 複数の形態の探査を組み合わせることで、より簡単な目標を、より難しいものに到達するための踏み台として活用できるだろうか? これらの問題に対処するために、私たちは、抽象的および組合せ的物理学の豊富なテキスト環境であるscienceworldを使っています。 我々は,ソーシャル・ピアのフィードバックから選択性を選択することの重要性,レア・ゴールの例をオーバーサンプリングする必要があること,エージェントの能力が中間的な自己生成目標シーケンスに従えば,最終的なパフォーマンスが大幅に向上することを示す。

Building open-ended agents that can autonomously discover a diversity of behaviours is one of the long-standing goals of artificial intelligence. This challenge can be studied in the framework of autotelic RL agents, i.e. agents that learn by selecting and pursuing their own goals, self-organizing a learning curriculum. Recent work identified language has a key dimension of autotelic learning, in particular because it enables abstract goal sampling and guidance from social peers for hindsight relabelling. Within this perspective, we study the following open scientific questions: What is the impact of hindsight feedback from a social peer (e.g. selective vs. exhaustive)? How can the agent learn from very rare language goal examples in its experience replay? How can multiple forms of exploration be combined, and take advantage of easier goals as stepping stones to reach harder ones? To address these questions, we use ScienceWorld, a textual environment with rich abstract and combinatorial physics. We show the importance of selectivity from the social peer's feedback; that experience replay needs to over-sample examples of rare goals; and that following self-generated goal sequences where the agent's competence is intermediate leads to significant improvements in final performance.
翻訳日:2023-02-15 11:46:54 公開日:2023-02-14
# dyadicインタラクション設定における複数の適切な顔反応生成:何、なぜ、どのように?

Multiple Appropriate Facial Reaction Generation in Dyadic Interaction Settings: What, Why and How? ( http://arxiv.org/abs/2302.06514v2 )

ライセンス: Link先を確認
Siyang Song, Micol Spitale, Yiming Luo, Batuhan Bal, Hatice Gunes(参考訳) Stimulus Organism Response (SOR) 理論によれば、人間の行動反応はすべて、受信した刺激を処理し、適切な反応を生成するコンテキストによって刺激される。 これは、ある入力刺激の特定の文脈において、人は内部の状態や他の文脈要因に応じて異なる反応をすることができることを意味する。 同様に、ディヤド相互作用では、人間は言語的および非言語的手がかりを使ってコミュニケーションし、リスナーの非言語的反応の幅広いスペクトルが特定の話者の行動に反応するのに適切である。 すでに、与えられた入力に対して適切な反応を自動的に生成する問題を調査する作業体が存在する。 しかしながら、ダイアド相互作用の文脈で複数の適切な反応を自動生成し、客観的尺度を用いてそれらの反応の適切性を評価する試みは行われなかった。 本稿は, 論文の中で初めて顔多元反応生成(fMARG)タスクを定義し, 生成した反応の適切性を評価するための新たな客観的評価指標を提案する。 その後、複数の適切な顔反応を予測、生成、評価するための枠組みを導入する。

According to the Stimulus Organism Response (SOR) theory, all human behavioral reactions are stimulated by context, where people will process the received stimulus and produce an appropriate reaction. This implies that in a specific context for a given input stimulus, a person can react differently according to their internal state and other contextual factors. Analogously, in dyadic interactions, humans communicate using verbal and nonverbal cues, where a broad spectrum of listeners' non-verbal reactions might be appropriate for responding to a specific speaker behaviour. There already exists a body of work that investigated the problem of automatically generating an appropriate reaction for a given input. However, none attempted to automatically generate multiple appropriate reactions in the context of dyadic interactions and evaluate the appropriateness of those reactions using objective measures. This paper starts by defining the facial Multiple Appropriate Reaction Generation (fMARG) task for the first time in the literature and proposes a new set of objective evaluation metrics to evaluate the appropriateness of the generated reactions. The paper subsequently introduces a framework to predict, generate, and evaluate multiple appropriate facial reactions.
翻訳日:2023-02-15 11:39:51 公開日:2023-02-14
# ContrasInver:地震インバージョンのためのVoxel-wise Contrastive Semi-supervised Learning

ContrasInver: Voxel-wise Contrastive Semi-supervised Learning for Seismic Inversion ( http://arxiv.org/abs/2302.06441v2 )

ライセンス: Link先を確認
Yimin Dou, Timing Li, Kewen Li, Hongjie Duan, Zhifeng Xu(参考訳) 近年の研究では、学習理論が炭化水素探査で非常に成功したことが示されている。 1次元ウェルログと3次元地震の関係による地震のインバージョンは貯水池の記述において重要なステップであり、その中では音響インピーダンスが最も重要な特性の1つであり、現在の深層学習に基づくインピーダンスインバージョンは有望な結果を得るが、多くのログ(典型的には30以上のウェルログはインバージョン毎に必要)に依存している。 本研究では,3次元ボリュームデータからスパース1dラベルを学習するための回帰タスクとして音響インピーダンスインバージョンを定義し,スパースラベル下の回帰タスクに対してvoxel-wise半教師付きコントラスト学習フレームワークcontrasinverを提案する。 制約法には,3次元地震データインバージョンのための新しい事前学習法,グローバルに well-log 情報を拡散するコントラスト的半教師付き戦略,コントラスト学習に基づく回帰タスクのための連続値ベクトル化特徴付け法,およびトレーニング効率を向上させるための距離トップサンプリング法などがある。 本研究はSEAM第I相合成データを用いた完全アブレーション実験を行い,各成分の有効性を検証し,本データにおける現在の主流手法との比較を行った。 このデータでは、0.92のSSIMと0.079のMSEを4つのウェルログで達成しました。 ConstraInverは、F3 Netherlands(4つのウェルログのみ)とDelft(3つのウェルログのみ)という2つの古典的なフィールドデータを逆転する、純粋にデータ駆動のアプローチである。

Recent studies have shown that learning theories have been very successful in hydrocarbon exploration. Inversion of seismic into various attributes through the relationship of 1D well-logs and 3D seismic is an essential step in reservoir description, among which, acoustic impedance is one of the most critical attributes, and although current deep learningbased impedance inversion obtains promising results, it relies on a large number of logs (1D labels, typically more than 30 well-logs are required per inversion), which is unacceptable in many practical explorations. In this work, we define acoustic impedance inversion as a regression task for learning sparse 1D labels from 3D volume data and propose a voxel-wise semisupervised contrastive learning framework, ContrasInver, for regression tasks under sparse labels. ConstraInver consists of several key components, including a novel pre-training method for 3D seismic data inversion, a contrastive semi-supervised strategy for diffusing well-log information to the global, and a continuous-value vectorized characterization method for a contrastive learning-based regression task, and also designed the distance TopK sampling method for improving the training efficiency. We performed a complete ablation study on SEAM Phase I synthetic data to verify the effectiveness of each component and compared our approach with the current mainstream methods on this data, and our approach demonstrated very significant advantages. In this data we achieved an SSIM of 0.92 and an MSE of 0.079 with only four well-logs. ConstraInver is the first purely data-driven approach to invert two classic field data, F3 Netherlands (only four well-logs) and Delft (only three well-logs) and achieves very reasonable and reliable results.
翻訳日:2023-02-15 11:39:30 公開日:2023-02-14
# エゴセントリックビデオのための次のアクティブオブジェクトの予測

Anticipating Next Active Objects for Egocentric Videos ( http://arxiv.org/abs/2302.06358v2 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino and Alessio Del Bue(参考訳) 本稿では, アクションが発生する前に, 接触する可能性のある自発的映像クリップに対して, 今後, 次の活動対象位置を予測できる問題に対処する。 観察されたクリップとアクションセグメントがいわゆる「コンタクトする時間」(ttc)セグメントで分離されるシナリオにおいて、このようなオブジェクトの位置を推定することを目的としているため、この問題はかなり難しい。 過去の手の動きや周囲との相互作用に基づく行動を予測するために,多くの手法が提案されている。 しかし、ttcウィンドウの1人目の動きと視野ドリフトに関して、次の相互作用可能な物体と将来の位置について調査する試みは行われていない。 我々はこれを次の活動対象(ANACTO)を予測するタスクとして定義する。 そこで本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するトランスフォーマーベースの自己認識フレームワークを提案する。 EpicKitchens-100, EGTEA+, Ego4Dの3つのデータセットでベンチマークを行った。 最初の2つのデータセットに対するアノテーションも提供します。 我々のアプローチは、関連するベースライン手法と比較して最もうまく機能する。 また,提案法とベースライン法の有効性を理解するため,アブレーション実験を行った。 コードとANACTOタスクアノテーションは、論文の受理時に利用可能になる。

This paper addresses the problem of anticipating the next-active-object location in the future, for a given egocentric video clip where the contact might happen, before any action takes place. The problem is considerably hard, as we aim at estimating the position of such objects in a scenario where the observed clip and the action segment are separated by the so-called ``time to contact'' (TTC) segment. Many methods have been proposed to anticipate the action of a person based on previous hand movements and interactions with the surroundings. However, there have been no attempts to investigate the next possible interactable object, and its future location with respect to the first-person's motion and the field-of-view drift during the TTC window. We define this as the task of Anticipating the Next ACTive Object (ANACTO). To this end, we propose a transformer-based self-attention framework to identify and locate the next-active-object in an egocentric clip. We benchmark our method on three datasets: EpicKitchens-100, EGTEA+ and Ego4D. We also provide annotations for the first two datasets. Our approach performs best compared to relevant baseline methods. We also conduct ablation studies to understand the effectiveness of the proposed and baseline methods on varying conditions. Code and ANACTO task annotations will be made available upon paper acceptance.
翻訳日:2023-02-15 11:38:54 公開日:2023-02-14
# SubTuning: マルチタスク学習のための効率的なファインタニング

SubTuning: Efficient Finetuning for Multi-Task Learning ( http://arxiv.org/abs/2302.06354v2 )

ライセンス: Link先を確認
Gal Kaplun, Andrey Gurevich, Tal Swisa, Mazor David, Shai Shalev-Shwartz and Eran Malach(参考訳) 事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。 そこで本研究では,ネットワークの全重みを微調整する代わりに,注意深く選択したレイヤのサブセットのみを訓練し,残りの重みを初期(事前訓練)の値で凍結させる方法を検討した。 我々は,モデルの完全微調整に匹敵する精度をしばしば達成し,訓練データ不足時の完全微調整性能を超過することを示した。 したがって、サブチューニングはモデル全体の微調整の利点を享受しながら、計算コストの最小化で新しいタスクのデプロイを可能にする。 これにより、異なるタスクが互いに干渉せず、推論時にほとんどのリソースを共有するマルチタスク学習のためのシンプルで効果的な方法が得られる。 複数のタスクにまたがるSubTuningの効率を、異なるネットワークアーキテクチャと事前学習手法を用いて実証する。

Finetuning a pretrained model has become a standard approach for training neural networks on novel tasks, resulting in fast convergence and improved performance. In this work, we study an alternative finetuning method, where instead of finetuning all the weights of the network, we only train a carefully chosen subset of layers, keeping the rest of the weights frozen at their initial (pretrained) values. We demonstrate that \emph{subset finetuning} (or SubTuning) often achieves accuracy comparable to full finetuning of the model, and even surpasses the performance of full finetuning when training data is scarce. Therefore, SubTuning allows deploying new tasks at minimal computational cost, while enjoying the benefits of finetuning the entire model. This yields a simple and effective method for multi-task learning, where different tasks do not interfere with one another, and yet share most of the resources at inference time. We demonstrate the efficiency of SubTuning across multiple tasks, using different network architectures and pretraining methods.
翻訳日:2023-02-15 11:38:34 公開日:2023-02-14
# Deep Anatomical Federated Network (Dafne): ディープラーニングに基づく医用画像セグメンテーションの継続的な協調的改善のためのオープンクライアント/サーバフレームワーク

Deep Anatomical Federated Network (Dafne): an open client/server framework for the continuous collaborative improvement of deep-learning-based medical image segmentation ( http://arxiv.org/abs/2302.06352v2 )

ライセンス: Link先を確認
Francesco Santini, Jakob Wasserthal, Abramo Agosti, Xeni Deligianni, Kevin R. Keene, Hermien E. Kan, Stefan Sommer, Christoph Stuprich, Fengdan Wang, Claudia Weidensteiner, Giulia Manco, Matteo Paoletti, Valentina Mazzoli, Arjun Desai, and Anna Pichiecchio(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、医学的(特に放射線学的)画像から定量的情報を抽出し、診断過程、臨床経過を補助する重要なステップである。 臨床研究用のバイオマーカーを作りました 近年,機械学習アルゴリズムがこのタスクの主要なツールとなっている。 しかし、実際のパフォーマンスはトレーニングデータの包括性に大きく依存している。 Dafneは、システムのユーザの集合的知識を活用する継続的に進化するディープラーニングモデルを実装する、最初の分散型協調ソリューションである。 Dafneワークフローでは、各自動セグメンテーションの結果が統合インターフェースを通じてユーザによって洗練され、新たな情報が統合インクリメンタル学習を通じてトレーニングプールを継続的に拡張するために使用される。 dafneを通じてデプロイされたモデルは、時間とともにパフォーマンスを向上し、トレーニングセットに見られないデータ型に一般化することができるため、実際の医療セグメント化タスクの実用的かつ実用的なソリューションになります。

Semantic segmentation is a crucial step to extract quantitative information from medical (and, specifically, radiological) images to aid the diagnostic process, clinical follow-up. and to generate biomarkers for clinical research. In recent years, machine learning algorithms have become the primary tool for this task. However, its real-world performance is heavily reliant on the comprehensiveness of training data. Dafne is the first decentralized, collaborative solution that implements continuously evolving deep learning models exploiting the collective knowledge of the users of the system. In the Dafne workflow, the result of each automated segmentation is refined by the user through an integrated interface, so that the new information is used to continuously expand the training pool via federated incremental learning. The models deployed through Dafne are able to improve their performance over time and to generalize to data types not seen in the training sets, thus becoming a viable and practical solution for real-life medical segmentation tasks.
翻訳日:2023-02-15 11:38:16 公開日:2023-02-14
# 論理を用いた騒がしい群衆ラベルからの学習

Learning from Noisy Crowd Labels with Logics ( http://arxiv.org/abs/2302.06337v2 )

ライセンス: Link先を確認
Zhijun Chen, Hailong Sun, Haoqian He, Pengpeng Chen(参考訳) 本稿では,雑音の多い群集ラベルから学習する深層ニューラルネットワークへの記号論理知識の統合について検討する。 ノイズラベル付きデータと論理規則の両方から学習するemライクな反復型論理知識蒸留フレームワークである,うるさい群衆ラベル(logic-lncl)からの論理誘導学習を導入する。 従来のEMメソッドとは異なり,我々のフレームワークには,論理ルールから新たなタイプの学習ターゲットを抽出する ``pseudo-E-step' が含まれており,それを '`pseudo-M-step' で分類器の訓練に使用する。 テキスト感情分類と名前付きエンティティ認識のための2つの実世界のデータセットに対する広範囲な評価は、提案フレームワークが最先端を改善し、騒々しい群衆ラベルから学習するための新しいソリューションを提供することを示す。

This paper explores the integration of symbolic logic knowledge into deep neural networks for learning from noisy crowd labels. We introduce Logic-guided Learning from Noisy Crowd Labels (Logic-LNCL), an EM-alike iterative logic knowledge distillation framework that learns from both noisy labeled data and logic rules of interest. Unlike traditional EM methods, our framework contains a ``pseudo-E-step'' that distills from the logic rules a new type of learning target, which is then used in the ``pseudo-M-step'' for training the classifier. Extensive evaluations on two real-world datasets for text sentiment classification and named entity recognition demonstrate that the proposed framework improves the state-of-the-art and provides a new solution to learning from noisy crowd labels.
翻訳日:2023-02-15 11:37:57 公開日:2023-02-14
# 量子回路におけるソリトン閉じ込め

Soliton Confinement in a Quantum Circuit ( http://arxiv.org/abs/2302.06289v2 )

ライセンス: Link先を確認
Ananda Roy and Sergei L. Lukyanov(参考訳) 素粒子の理論と関連づけられる粒子状状態への位相励起の閉じ込めは、量子スピン鎖の磁壁閉じ込めとして生じる凝縮物系で起こることが知られている。 しかし、凝縮物の設定における閉じ込めの調査は、格子スピン系を超えることは滅多にない。 ここでは,1次元量子電子回路~(qec)アレイにおいて,ジョセフソン接合,コンデンサ,0-\pi$ qubits などの回路要素を用いて,正弦ゴロンソリトンをメソニック境界状態に閉じ込める解析を行う。 QECアレイで自然に発生する相互作用は、クーパーペアとクーパーペアのペアのトンネルによって、量子ローターの非可積分で相互作用する格子モデルを引き起こす。 スケーリング限界において、後者は異なる周期性を持つコサインポテンシャルによって摂動される量子サイン・ゴルドンモデルによって記述される。 本研究では,Sine-Gordonソリトン閉じ込めの弦張力と摂動モデルにおける低層スペクトルの変化を計算した。 スケーリング限界は従来のスピンチェーン正規化よりも早くQECアレイに到達し、この非可積分量子場理論の強い結合状態の高精度な数値的な研究を可能にする。 その結果, 密度行列再正規化グループ法を用いて, 最先端QEC技術を用いてクエンチ実験を行った。

Confinement of topological excitations into particle-like states - typically associated with theories of elementary particles - are known to occur in condensed matter systems, arising as domain-wall confinement in quantum spin chains. However, investigation of confinement in the condensed matter setting has rarely ventured beyond lattice spin systems. Here, we analyze the confinement of sine-Gordon solitons into mesonic bound states in a one-dimensional, quantum electronic circuit~(QEC) array, constructed using experimentally-demonstrated circuit elements: Josephson junctions, capacitors and $0-\pi$ qubits. The interactions occurring naturally in the QEC array, due to tunneling of Cooper-pairs and pairs of Cooper-pairs, give rise to a non-integrable, interacting, lattice model of quantum rotors. In the scaling limit, the latter is described by the quantum sine-Gordon model, perturbed by a cosine potential with a different periodicity. We compute the string tension of confinement of sine-Gordon solitons and the changes in the low-lying spectrum in the perturbed model. The scaling limit is reached faster for the QEC array compared to conventional spin chain regularizations, allowing high-precision numerical investigation of the strong-coupling regime of this non-integrable quantum field theory. Our results, obtained using the density matrix renormalization group method, could be verified in a quench experiment using state-of-the-art QEC technologies.
翻訳日:2023-02-15 11:37:41 公開日:2023-02-14
# 百万単位の依存をモデル化する時系列モデルの統一的視点

A Unified View of Long-Sequence Models towards Modeling Million-Scale Dependencies ( http://arxiv.org/abs/2302.06218v2 )

ライセンス: Link先を確認
Hongyu H\`e, Marko Kabic(参考訳) その概念以来、トランスフォーマーは、高速トレーニングと優れたパフォーマンスのために、nlp、画像分類、ビデオ/オーディオ処理など、多くのタスクで伝統的なシーケンスモデルを引き継いでいます。 利点の多くは、位置エンコーディングとマルチヘッドアテンションに起因する。 しかし、Transformerは、時間と空間の両面で、コンテキスト長でスケールされた二次的な複雑さのために、長距離依存の学習に不足している。 その結果、過去5年間にトランスフォーマーをより効率的にするための無数の方法が提案されてきた。 本研究はまず, 従来の解法を, 完全数学的定式化の観点から, 時系列モデリングと比較するものである。 具体的には,トークン混合の共通性を考えると,統一テンプレートを用いてそれらを要約する。 ベンチマークを通じて、長いコンテキストの長さは、アプリケーションに依存しながらもパフォーマンスを向上し、従来のトランスフォーマーモデルは、長距離依存の利点を生かすために不足していることを実証する。 次に,大容量のスパースモデルに着想を得て,百万の依存関係を扱うための機械学習システムを提案する。 概念実証として,本システムの本質的構成要素である分散マルチヘッドアテンションの性能を評価する。 我々は,GeForce RTX 4090 GPUを4台使用して,40ドル近いアテンション計算を,バニラ型マルチヘッドアテンション機構と比較してスケールアップ可能であることを示す。 この研究は、百万規模の依存関係をモデリングするための重要なステップだと考えています。

Ever since their conception, Transformers have taken over traditional sequence models in many tasks, such as NLP, image classification, and video/audio processing, for their fast training and superior performance. Much of the merit is attributable to positional encoding and multi-head attention. However, Transformers fall short in learning long-range dependencies mainly due to the quadratic complexity scaled with context length, in terms of both time and space. Consequently, over the past five years, a myriad of methods has been proposed to make Transformers more efficient. In this work, we first take a step back, study and compare existing solutions to long-sequence modeling in terms of their pure mathematical formulation. Specifically, we summarize them using a unified template, given their shared nature of token mixing. Through benchmarks, we then demonstrate that long context length does yield better performance, albeit application-dependent, and traditional Transformer models fall short in taking advantage of long-range dependencies. Next, inspired by emerging sparse models of huge capacity, we propose a machine learning system for handling million-scale dependencies. As a proof of concept, we evaluate the performance of one essential component of this system, namely, the distributed multi-head attention. We show that our algorithm can scale up attention computation by almost $40\times$ using four GeForce RTX 4090 GPUs, compared to vanilla multi-head attention mechanism. We believe this study is an instrumental step towards modeling million-scale dependencies.
翻訳日:2023-02-15 11:37:16 公開日:2023-02-14
# ACE-EMを用いたAb initio Cryo-EM 3D再構成

Boosted ab initio Cryo-EM 3D Reconstruction with ACE-EM ( http://arxiv.org/abs/2302.06091v2 )

ライセンス: Link先を確認
Lin Yao, Ruihan Xu, Zhifeng Gao, Guolin Ke, Yuhang Wang(参考訳) 低温電子顕微鏡(cryo-EM)の中心的な問題は、3次元構造をノイズの多い2次元投影画像から復元することである。 近年, 遅延ベクトル空間サンプリング問題に苦しむオートエンコーダアーキテクチャを用いて, 3次元再構成問題を解く手法が提案されている。 本稿では、ACE-EM法を設計したACE(Asymmetric Complementary AutoEncoder)と呼ばれる改良されたオートエンコーダアーキテクチャを提案する。 従来の手法と比較して、ACE-EMはトレーニング時間内で高いポーズ空間をカバーし、デコーダの選択にかかわらず再構成性能を向上した。 この方法により、シミュレーションおよび実験用Cryo-EMデータセットの3次元再構成において、Nyquist分解能(最も高い分解能)が到達した。 さらに、ace-emはnyquist分解能に達した唯一の償却推論方法である。

The central problem in cryo-electron microscopy (cryo-EM) is to recover the 3D structure from noisy 2D projection images which requires estimating the missing projection angles (poses). Recent methods attempted to solve the 3D reconstruction problem with the autoencoder architecture, which suffers from the latent vector space sampling problem and frequently produces suboptimal pose inferences and inferior 3D reconstructions. Here we present an improved autoencoder architecture called ACE (Asymmetric Complementary autoEncoder), based on which we designed the ACE-EM method for cryo-EM 3D reconstructions. Compared to previous methods, ACE-EM reached higher pose space coverage within the same training time and boosted the reconstruction performance regardless of the choice of decoders. With this method, the Nyquist resolution (highest possible resolution) was reached for 3D reconstructions of both simulated and experimental cryo-EM datasets. Furthermore, ACE-EM is the only amortized inference method that reached the Nyquist resolution.
翻訳日:2023-02-15 11:36:50 公開日:2023-02-14
# NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, You's Good Meme Analysis

NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, then you have Good Meme Analysis ( http://arxiv.org/abs/2302.06078v2 )

ライセンス: Link先を確認
Yu-Chien Tang, Kuang-Da Wang, Ting-Yun Ou, Wen-Chih Peng(参考訳) 本稿では,Memotion 3.0共有タスクに対する堅牢なソリューションを提案する。 この課題の目的は、通常ソーシャルメディア上で短い字幕を持つ画像の形で、ミームによって表現される感情と対応する強度を分類することである。 与えられたミームのマルチモーダル機能を理解することが、タスクの解決の鍵となるでしょう。 本稿では,CLIPを用いて画像テキストの特徴を抽出し,タスクAの協調指導モデル(CTM)とタスクB&Cのカスケード感情分類器(CEC)からなる新たな感情分析フレームワークを提案する。 CTMは、知識蒸留の考え方に基づいて、タスクAにおける与えられたミームの感情をより正確に予測できる; CECはタスクCの予測から感情をより正確に分類するために、タスクBの感情強度提案を活用できる;実験により、タスクAとタスクBの2位、タスクCの4位、重み付きF1スコアが0.342、0.784、0.535の2位にランクされた。 その結果,フレームワークの堅牢性と有効性を示した。 私たちのコードはgithubでリリースされています。

This paper presents a robust solution to the Memotion 3.0 Shared Task. The goal of this task is to classify the emotion and the corresponding intensity expressed by memes, which are usually in the form of images with short captions on social media. Understanding the multi-modal features of the given memes will be the key to solving the task. In this work, we use CLIP to extract aligned image-text features and propose a novel meme sentiment analysis framework, consisting of a Cooperative Teaching Model (CTM) for Task A and a Cascaded Emotion Classifier (CEC) for Tasks B&C. CTM is based on the idea of knowledge distillation, and can better predict the sentiment of a given meme in Task A; CEC can leverage the emotion intensity suggestion from the prediction of Task C to classify the emotion more precisely in Task B. Experiments show that we achieved the 2nd place ranking for both Task A and Task B and the 4th place ranking for Task C, with weighted F1-scores of 0.342, 0.784, and 0.535 respectively. The results show the robustness and effectiveness of our framework. Our code is released at github.
翻訳日:2023-02-15 11:36:33 公開日:2023-02-14