このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230306となっている論文です。

PDF登録状況(公開日: 20230306)

TitleAuthorsAbstract論文公表日・翻訳日
# 身体視覚ナビゲーションにおけるフィードバックのロバスト性

Robustness of Utilizing Feedback in Embodied Visual Navigation ( http://arxiv.org/abs/2303.15453v1 )

ライセンス: Link先を確認
Jenny Zhang, Samson Yu, Jiafei Duan, Cheston Tan(参考訳) 本稿では,対象物の位置を視点として,目的物ナビゲーションタスクにおいて積極的に支援を求めるエージェントを訓練するためのフレームワークを提案する。 教師が常に利用できるとは限らないシナリオにおいて、エージェントをより堅牢にするために、提案するトレーニングカリキュラムは、フィードバックなしでのエピソードの混合を含む。 その結果,フィードバックがない場合でも,エージェントの性能が向上することがわかった。

This paper presents a framework for training an agent to actively request help in object-goal navigation tasks, with feedback indicating the location of the target object in its field of view. To make the agent more robust in scenarios where a teacher may not always be available, the proposed training curriculum includes a mix of episodes with and without feedback. The results show that this approach improves the agent's performance, even in the absence of feedback.
翻訳日:2023-03-31 16:07:41 公開日:2023-03-06
# 一般離散対数計算のためのshorの量子アルゴリズムの再検討

Revisiting Shor's quantum algorithm for computing general discrete logarithms ( http://arxiv.org/abs/1905.09084v3 )

ライセンス: Link先を確認
Martin Eker{\aa}(参考訳) 一般離散対数を計算するためのshorのアルゴリズムは、半古典フーリエ変換による効率的な実装を可能にするように修正された場合、1回の実行で約60%から82%の期待成功確率を達成することをヒューリスティックに示す。 量子的に評価されたグループ操作の数をわずかに増加させ、古典的な後処理において1回の限定探索を行うか、あるいは後処理で2回の限定探索を行うことで、アルゴリズムをさらに改良して1回の実行で99%を超える成功確率を達成できることを示す。 我々は,修正アルゴリズムの成功確率の具体的なヒューリスティックな推定を,群順序 $r$ の関数,古典的後処理における探索空間の大きさ,量子的に評価される群演算の追加数として提供する。 r \rightarrow \infty$ の極限において、成功確率が 1 になる傾向があることをヒューリスティックに示す。 初期の研究と類似して、修正された量子アルゴリズムが、対数 $d$ と $r$ の両方が知られているとき、古典的にヒューリスティックにシミュレーションされることを示す。 さらに私たちは、もし$r$が$d$を計算した場合に知っていれば、以前の仕事と比べて少し良いトレードオフが達成できるかをヒューリスティックに示します。 我々は、初期の作品のいくつかをカバーするようにヒューリスティックを一般化し、それらの作品における非ヒューリスティック分析と比較する。

We heuristically show that Shor's algorithm for computing general discrete logarithms achieves an expected success probability of approximately 60% to 82% in a single run when modified to enable efficient implementation with the semi-classical Fourier transform. By slightly increasing the number of group operations that are evaluated quantumly and performing a single limited search in the classical post-processing, or by performing two limited searches in the post-processing, we show how the algorithm can be further modified to achieve a success probability that heuristically exceeds 99% in a single run. We provide concrete heuristic estimates of the success probability of the modified algorithm, as a function of the group order $r$, the size of the search space in the classical post-processing, and the additional number of group operations evaluated quantumly. In the limit as $r \rightarrow \infty$, we heuristically show that the success probability tends to one. In analogy with our earlier works, we show how the modified quantum algorithm may be heuristically simulated classically when the logarithm $d$ and $r$ are both known. Furthermore, we heuristically show how slightly better tradeoffs may be achieved, compared to our earlier works, if $r$ is known when computing $d$. We generalize our heuristic to cover some of our earlier works, and compare it to the non-heuristic analyses in those works.
翻訳日:2023-03-25 04:31:00 公開日:2023-03-06
# 量子流体力学におけるホロノミーと渦構造

Holonomy and vortex structures in quantum hydrodynamics ( http://arxiv.org/abs/2003.08664v3 )

ライセンス: Link先を確認
Michael S. Foskett, Cesare Tronci(参考訳) マデラングの量子流体力学(QHD)に対する新しい幾何学的アプローチをゲージ接続の理論に基づいて検討する。 特に本治療は,QHDに内在性非ゼロホロノミーを付与する一定の曲率を含む。 流体力学の文脈では、これはもはや不整合に制約されない流体速度をもたらし、代わりに渦フィラメント解を許容する。 rasetti-regge法を用いてシュル=オディンガー方程式を渦フィラメントダイナミクスに結合した後、後者はボルン-オッペンハイマー分子動力学の文脈において幾何学的位相の源と考えられている。 同様に、電磁場におけるスピン粒子の運動に対するパウリ方程式を考察し、その基礎となる流体力学図を用いて渦動学を含む。

We consider a new geometric approach to Madelung's quantum hydrodynamics (QHD) based on the theory of gauge connections. In particular, our treatment comprises a constant curvature thereby endowing QHD with intrinsic non-zero holonomy. In the hydrodynamic context, this leads to a fluid velocity which no longer is constrained to be irrotational and allows instead for vortex filaments solutions. After exploiting the Rasetti-Regge method to couple the Schr\"odinger equation to vortex filament dynamics, the latter is then considered as a source of geometric phase in the context of Born-Oppenheimer molecular dynamics. Similarly, we consider the Pauli equation for the motion of spin particles in electromagnetic fields and we exploit its underlying hydrodynamic picture to include vortex dynamics.
翻訳日:2023-03-25 04:15:46 公開日:2023-03-06
# 量子多解BernoulliサーチとBitcoinのポスト量子セキュリティへの応用

Quantum Multi-Solution Bernoulli Search with Applications to Bitcoin's Post-Quantum Security ( http://arxiv.org/abs/2012.15254v4 )

ライセンス: Link先を確認
Alexandru Cojocaru, Juan Garay, Aggelos Kiayias, Fang Song, Petros Wallden(参考訳) 作業の証明(英: proof of work、PoW)は、当事者が計算タスクの解決にいくらかの労力を費やしたことを他人に納得させることができる重要な暗号構造である。 おそらく、その主な影響はBitcoinやその基盤となるブロックチェーンプロトコルといった暗号通貨の設定であり、これは近年、様々なアプリケーションの可能性や、新しい脅威モデルにおける基本的な分散コンピューティング問題の解決によって大きな注目を集めている。 PoWはブロックチェーンデータ構造におけるブロックのリンクを可能にするため、興味のある問題は、そのような証明のシーケンス(チェーン)を取得することの可能なことだ。 本研究では, 量子戦略に対する穴の連鎖を見つけることの難しさについて検討する。 我々は、ポーズ問題の連鎖が多重解ベルヌーイ探索(multi-solution bernoulli search)と呼ばれる問題に還元されることを証明する。 効果的に、これは閾値直積定理から平均ケース非構造化探索問題への拡張である。 近年の活発な取り組みに加え、Zhandry (Crypto'19) の録音技法の簡素化と一般化を図っている。 アプリケーションとして、bitcoinコンセンサスプロトコルのコアであるビットコインバックボーン(eurocrypt'15)の量子敵に対するセキュリティの形式的な扱いを再検討します。 我々の分析は、各量子クエリが$O(p^{-1/2})$classicalで、プロトコルの基盤となるハッシュ関数に対する単一の古典的クエリの成功確率が$p$であるように、Bitcoinバックボーンのセキュリティが保証されていることを示唆している。 やや意外なことに、量子敵の場合の安全な解決の待ち時間は、古典的な場合の安全な解決時間と一致する。

A proof of work (PoW) is an important cryptographic construct enabling a party to convince others that they invested some effort in solving a computational task. Arguably, its main impact has been in the setting of cryptocurrencies such as Bitcoin and its underlying blockchain protocol, which received significant attention in recent years due to its potential for various applications as well as for solving fundamental distributed computing questions in novel threat models. PoWs enable the linking of blocks in the blockchain data structure and thus the problem of interest is the feasibility of obtaining a sequence (chain) of such proofs. In this work, we examine the hardness of finding such chain of PoWs against quantum strategies. We prove that the chain of PoWs problem reduces to a problem we call multi-solution Bernoulli search, for which we establish its quantum query complexity. Effectively, this is an extension of a threshold direct product theorem to an average-case unstructured search problem. Our proof, adding to active recent efforts, simplifies and generalizes the recording technique of Zhandry (Crypto'19). As an application, we revisit the formal treatment of security of the core of the Bitcoin consensus protocol, the Bitcoin backbone (Eurocrypt'15), against quantum adversaries, while honest parties are classical and show that protocol's security holds under a quantum analogue of the classical ``honest majority'' assumption. Our analysis indicates that the security of Bitcoin backbone is guaranteed provided the number of adversarial quantum queries is bounded so that each quantum query is worth $O(p^{-1/2})$ classical ones, where $p$ is the success probability of a single classical query to the protocol's underlying hash function. Somewhat surprisingly, the wait time for safe settlement in the case of quantum adversaries matches the safe settlement time in the classical case.
翻訳日:2023-03-25 04:06:17 公開日:2023-03-06
# 古典的前処理による変換不変系の変分ハミルトンシミュレーション

Variational Hamiltonian simulation for translational invariant systems via classical pre-processing ( http://arxiv.org/abs/2106.03680v5 )

ライセンス: Link先を確認
Refik Mansuroglu, Timo Eckstein, Ludwig N\"utzel, Samuel A. Wilkinson, and Michael J. Hartmann(参考訳) 大規模量子システムの時間発展のシミュレーションは、古典的に困難で一般に難解なタスクであり、量子計算に有望な応用である。 トロッタースズキ近似はその実装となり、ゲート数の増加に対して高い近似精度を取引できる。 本研究では,古典最適化の解を用いて,翻訳不変量子システムの時間発展のための効率的な量子回路を予測する変分アルゴリズムを提案する。 我々の戦略は、トロッタースズキの精度を数桁改善することができる。 これはゲート数の減少につながり、同じアルゴリズムの精度で全体の忠実度が向上する。 これは、出力状態の忠実度がゲート数で指数関数的に減少するnisqアプリケーションにおいて重要である。 古典的補助戦略の性能優位性は、バルク内の翻訳対称性を持つ開放境界にまで拡張することができる。 我々の手法を古典的にシミュレート可能なシステムサイズを超えて外挿することができ、トロッタースズキ近似に対する全忠実性優位性を維持し、古典的時間進化を超えて興味深い候補となる。

The simulation of time evolution of large quantum systems is a classically challenging and in general intractable task, making it a promising application for quantum computation. A Trotter-Suzuki approximation yields an implementation thereof, where a higher approximation accuracy can be traded for an increased gate count. In this work, we introduce a variational algorithm which uses solutions of classical optimizations to predict efficient quantum circuits for time evolution of translationally invariant quantum systems. Our strategy can improve upon the Trotter-Suzuki accuracy by several orders of magnitude. It translates into a reduction in gate count and hence gain in overall fidelity at the same algorithmic accuracy. This is important in NISQ-applications where the fidelity of the output state decays exponentially with the number of gates. The performance advantage of our classical assisted strategy can be extended to open boundaries with translational symmetry in the bulk. We can extrapolate our method to beyond classically simulatable system sizes, maintaining its total fidelity advantage over a Trotter-Suzuki approximation making it an interesting candidate for beyond classical time evolution.
翻訳日:2023-03-25 03:44:53 公開日:2023-03-06
# 暗号通貨ウォレット:評価とセキュリティ

Cryptocurrency wallets: assessment and security ( http://arxiv.org/abs/2303.12940v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Seyedsadra Seyedshoari, Yassine Mekdad, Erkay Savas, Mauro Conti(参考訳) ソフトウェアプログラムまたはデジタルデバイスとしてのデジタルウォレットは、ユーザーが様々な取引を行うことができる。 ホットとコールドのデジタルウォレットはこの財布の2種類と考えられている。 デジタルウォレットは第1グループにオンラインで接続する必要があるが、デジタルウォレットは第2グループに属するインターネット接続なしで動作することができる。 デジタルウォレットを買う前に、どのような目的に利用されるかを定義することが重要である。 携帯電話のトランザクションが数秒で完了することの容易さと、トランザクションの実行速度は効率の反映である。 デジタルウォレットの最も重要な要素の1つは、データ組織である。 デジタルウォレットは、さまざまな手数料と手数料を伴う従来の取引方法よりもはるかに安価である。 スピードやセキュリティ、サードパーティを必要とせずに2つのユーザ間でトランザクションを行う機能などによって、その使用に対する需要は一貫して増加しています。 デジタル通貨ウォレットの人気が高まるにつれて、それらに影響を与えるセキュリティ上の懸念が大幅に増加している。 デジタルウォレットの市場における現状と、デジタルウォレットの入手と利用のための効率的なソリューションの選択肢。 最後に,デジタルウォレットのセキュリティと今後の改善について考察する。

Digital wallet as a software program or a digital device allows users to conduct various transactions. Hot and cold digital wallets are considered as two types of this wallet. Digital wallets need an online connection fall into the first group, whereas digital wallets can operate without internet connection belong to the second group. Prior to buying a digital wallet, it is important to define for what purpose it will be utilized. The ease with which a mobile phone transaction may be completed in a couple of seconds and the speed with which transactions are executed are reflection of efficiency. One of the most important elements of digital wallets is data organization. Digital wallets are significantly less expensive than classic methods of transaction, which entails various charges and fees. Constantly, demand for their usage is growing due to speed, security, and the ability to conduct transactions between two users without the need of a third party. As the popularity of digital currency wallets grows, the number of security concerns impacting them increases significantly. The current status of digital wallets on the market, as well as the options for an efficient solution for obtaining and utilizing digital wallets. Finally, the digital wallets' security and future improvement prospects are discussed in this chapter.
翻訳日:2023-03-25 02:30:37 公開日:2023-03-06
# wav2vecとそのデジタルヒストリーにおけるドイツ語の自動音声認識の可能性:文化遺産の文脈における使用可能なASR技術の比較評価

wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts ( http://arxiv.org/abs/2303.06026v1 )

ライセンス: Link先を確認
Michael Fleck and Wolfgang G\"oderle(参考訳) 本研究では,デジタル・ヒューマニティーと文化遺産インデックス化のより大きな文脈において,この技術の現在の可能性を評価するために,ドイツにおける最先端のASR(Automatic Speech Recognition)のオープンソースモデルを訓練し,公開した。 本稿では,当社が収集した記録コーパスの性能を,商用クラウドおよびプロプライエタリサービスと比較して評価しながら,wav2vec2ベースの音声をテキストモデルに公開する。 私たちのモデルでは適度な結果が得られますが、プロプライエタリなクラウドサービスの方がはるかに優れています。 結果からわかるように、現在90%以上の認識率は達成できるが、録音された音声の品質が制限されたり、日々の日外言語の使用が制限されたりすると、これらの数字は急速に減少する。 大きな問題は、ドイツ語の方言やアクセントが多種多様であることです。 しかし,本稿では,現在入手可能な認識品質が,デジタルヒューマニズムのさまざまなユースケースに対応するのに十分な水準にあることを強調する。 我々は、asrは、オーディオビジュアルソースのドキュメンテーションと分析のための重要な技術となり、dhコミュニティと文化遺産の利害関係者が近い将来取り組まなければならない一連の重要な質問を特定することになると論じている。

In this case study we trained and published a state-of-the-art open-source model for Automatic Speech Recognition (ASR) for German to evaluate the current potential of this technology for the use in the larger context of Digital Humanities and cultural heritage indexation. Along with this paper we publish our wav2vec2 based speech to text model while we evaluate its performance on a corpus of historical recordings we assembled compared against commercial cloud-based and proprietary services. While our model achieves moderate results, we see that proprietary cloud services fare significantly better. As our results show, recognition rates over 90 percent can currently be achieved, however, these numbers drop quickly once the recordings feature limited audio quality or use of non-every day or outworn language. A big issue is the high variety of different dialects and accents in the German language. Nevertheless, this paper highlights that the currently available quality of recognition is high enough to address various use cases in the Digital Humanities. We argue that ASR will become a key technology for the documentation and analysis of audio-visual sources and identify an array of important questions that the DH community and cultural heritage stakeholders will have to address in the near future.
翻訳日:2023-03-19 12:06:44 公開日:2023-03-06
# HARDC : 拡張CNNを用いた階層的注意に基づく二重構造RNNを用いた心電図による不整脈検出法

HARDC : A novel ECG-based heartbeat classification method to detect arrhythmia using hierarchical attention based dual structured RNN with dilated CNN ( http://arxiv.org/abs/2303.06020v1 )

ライセンス: Link先を確認
Md Shofiqul Islam, Khondokar Fida Hasan, Sunjida Sultana, Shahadat Uddin, Pietro Lio, Julian M.W. Quinn and Mohammad Ali Moni(参考訳) 本稿では,不整脈分類のための拡張CNN(HARDC)法を用いたハイブリッド階層型双方向リカレントニューラルネットワークを開発した。 これは、従来の拡張畳み込みニューラルネットワーク(CNN)モデルがコンテキストと勾配分散の相関を無視すると生じる問題を解決する。 提案したHARDCは、拡張CNNと双方向リカレントニューラルネットワークユニット(BiGRU-BiLSTM)アーキテクチャをフル活用して、融合機能を生成する。 局所的およびグローバル的特徴情報とアテンション機構の両方を組み込んだ結果、モデルの予測性能が向上し、融合特徴と拡張されたcnnと階層的アテンション機構を組み合わせることで、訓練されたhardcモデルは分類結果とphysionet 2017 challengeデータセットにおける特徴抽出の解釈性が著しく向上した。 分析用の生データを作成するために、逐次Zスコア正規化、フィルタリング、デノイング、セグメンテーションを用いる。 CGAN(Conditional Generative Adversarial Network)は、処理されたデータから合成信号を生成する。 実験の結果,提案モデルが既存モデルの99.60\%,f1スコア98.21\%,精度97.66\%,およびmit-bih生成心電図を用いた99.60\%のリコールにおいて有意な性能を示した。 さらに、このアプローチは通常の畳み込みと比較して拡張CNNを使用する際の実行時間を著しく削減する。 全体として、このハイブリッドモデルは、ECG信号圧縮と高性能ECG認識のための革新的で費用効果の高い戦略を示す。 以上の結果から,複数種類の不整脈信号を分類する自動的かつ高度に計算された手法が有望であることが示唆された。

In this paper have developed a novel hybrid hierarchical attention-based bidirectional recurrent neural network with dilated CNN (HARDC) method for arrhythmia classification. This solves problems that arise when traditional dilated convolutional neural network (CNN) models disregard the correlation between contexts and gradient dispersion. The proposed HARDC fully exploits the dilated CNN and bidirectional recurrent neural network unit (BiGRU-BiLSTM) architecture to generate fusion features. As a result of incorporating both local and global feature information and an attention mechanism, the model's performance for prediction is improved.By combining the fusion features with a dilated CNN and a hierarchical attention mechanism, the trained HARDC model showed significantly improved classification results and interpretability of feature extraction on the PhysioNet 2017 challenge dataset. Sequential Z-Score normalization, filtering, denoising, and segmentation are used to prepare the raw data for analysis. CGAN (Conditional Generative Adversarial Network) is then used to generate synthetic signals from the processed data. The experimental results demonstrate that the proposed HARDC model significantly outperforms other existing models, achieving an accuracy of 99.60\%, F1 score of 98.21\%, a precision of 97.66\%, and recall of 99.60\% using MIT-BIH generated ECG. In addition, this approach substantially reduces run time when using dilated CNN compared to normal convolution. Overall, this hybrid model demonstrates an innovative and cost-effective strategy for ECG signal compression and high-performance ECG recognition. Our results indicate that an automated and highly computed method to classify multiple types of arrhythmia signals holds considerable promise.
翻訳日:2023-03-19 12:06:23 公開日:2023-03-06
# 確率拡散モデルを用いた脳波合成データ生成

EEG Synthetic Data Generation Using Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.06068v1 )

ライセンス: Link先を確認
Giulio Tosato, Cesare M. Dalbagno, Francesco Fumagalli(参考訳) 脳波検査(EEG)は、非侵襲性、低コスト、使いやすさのために脳コンピュータインタフェース(BCI)領域において重要な役割を担っており、一般大衆に広く普及するのに非常に望ましい選択肢である。 この技術は、ディープラーニング技術と共に一般的に使われ、その成功はトレーニングに使用されるデータの質と量に大きく依存する。 利用者の努力を最小化し精度を保ちながら、個々の参加者から十分な脳波データを得るという課題に対処するため、拡散確率モデルを用いて合成脳波データを生成するための高度な手法を提案する。 脳波記録の電極周波数分布マップ(EFDM)から合成データを生成する。 生成した合成データの妥当性を評価するため,実脳波データと定性的,定量的な比較を行った。 この研究は、関連するチャネルの数に関係なく、時間と周波数の双方でデータを処理および生成できるopen\textendashソースアクセス可能で汎用的なツールボックスの可能性を開く。 最後に、提案手法は、プライバシーの懸念なく、大規模で一般公開された合成脳波データセットの作成を可能にすることにより、神経科学研究の幅広い分野に潜在的に影響を及ぼす可能性がある。

Electroencephalography (EEG) plays a significant role in the Brain Computer Interface (BCI) domain, due to its non-invasive nature, low cost, and ease of use, making it a highly desirable option for widespread adoption by the general public. This technology is commonly used in conjunction with deep learning techniques, the success of which is largely dependent on the quality and quantity of data used for training. To address the challenge of obtaining sufficient EEG data from individual participants while minimizing user effort and maintaining accuracy, this study proposes an advanced methodology for data augmentation: generating synthetic EEG data using denoising diffusion probabilistic models. The synthetic data are generated from electrode-frequency distribution maps (EFDMs) of emotionally labeled EEG recordings. To assess the validity of the synthetic data generated, both a qualitative and a quantitative comparison with real EEG data were successfully conducted. This study opens up the possibility for an open\textendash source accessible and versatile toolbox that can process and generate data in both time and frequency dimensions, regardless of the number of channels involved. Finally, the proposed methodology has potential implications for the broader field of neuroscience research by enabling the creation of large, publicly available synthetic EEG datasets without privacy concerns.
翻訳日:2023-03-19 11:58:08 公開日:2023-03-06
# 原始重力波回路の複雑さ

Primordial Gravitational Wave Circuit Complexity ( http://arxiv.org/abs/2108.10334v3 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury, Hardey N. Pandya, Rohan Srivastava(参考訳) 本稿では,Primordial Gravitational Waves (PGW) の圧縮状態フォーマリズムを用いた量子回路複雑性の物理的意義について検討する。 近年、エントロピーの絡み合いや複雑性といった量子情報理論の概念は、高エネルギー物理学や宇宙論といった様々な分野においても量子システムのダイナミクスを理解する上で重要な役割を担っている。 本稿では,デシッター,インフレーション,放射,再加熱,物質,バウンシング,サイクリックおよびブラックホールガスモデルなど,様々な宇宙モデルに対するPGWの量子回路複雑性について検討する。 我々は、量子初期空孔の3つの異なる選択(Motta-Allen, $\alpha$, Bunch-Davies)に対して、Covariance と Nielsen の波動関数法の両方を用いた複雑性測定を計算する。 計算回路の複雑さに加えて、Von-Neumannエンタングルメントエントロピーも計算した。 複雑性と絡み合いエントロピーを比較することで、異なる宇宙論的モデルの進化のダイナミクスに関する様々な特徴を探索することができる。 絡み合いエントロピーはスクイーズ角とは独立であるため、スクイーズパラメータと角度の両方に依存するニールセンの複雑さの測度を用いて、システムのより詳細を理解することができる。 これは、量子複雑性が宇宙論的なスケールで量子的特徴を研究するのに有用なプローブであることを示している。 量子複雑性はまた、量子場のカオス的振る舞いとランダムな揺らぎを理解する強力な技術になりつつある。 複雑性の増大を利用して、様々な宇宙モデルに対する量子リアプノフ指数を計算し、カオスの性質についてコメントすることができる。

In this article, we investigate various physical implications of quantum circuit complexity using squeezed state formalism of Primordial Gravitational Waves (PGW). Recently quantum information theoretic concepts, such as entanglement entropy, and complexity are playing a pivotal role to understand the dynamics of quantum system even in the diverse fields such as, high energy physics and cosmology. This paper is devoted in studying quantum circuit complexity of PGW for various cosmological models, such as de Sitter, inflation, radiation, reheating, matter, bouncing, cyclic and black hole gas model etc. We compute complexity measure using both Covariance and Nielsen's wave function method for three different choices of quantum initial vacua: Motta-Allen, $\alpha$ and Bunch-Davies. Besides computing circuit complexity, we have also computed Von-Neumann entanglement entropy. By making the comparison of complexity with entanglement entropy, we are able to probe various features regarding the dynamics of evolution for different cosmological models. Because entanglement entropy is independent of the squeezing angle, we are able to understand more details of the system using Nielsen's measure of complexity which is dependent on both squeezing parameter and angle. This implies that quantum complexity could indeed be a useful probe to study quantum features in cosmological scale. Quantum complexity is also becoming a powerful technique to understand the chaotic behaviour and random fluctuations of quantum fields. Using the growth of complexity, we are able to compute quantum Lyapunov exponent for various cosmological models and comment on it's chaotic nature.
翻訳日:2023-03-17 11:50:55 公開日:2023-03-06
# ケースベース意思決定支援のための人間互換表現の学習

Learning Human-Compatible Representations for Case-Based Decision Support ( http://arxiv.org/abs/2303.04809v1 )

ライセンス: Link先を確認
Han Liu, Yizhou Tian, Chacha Chen, Shi Feng, Yuxin Chen, Chenhao Tan(参考訳) アルゴリズムによるケースベースの意思決定サポートは、予測ラベルの理解を助け、意思決定タスクにおいて人間を助けるサンプルを提供する。 教師付き学習の有望な性能にもかかわらず、教師付きモデルによって学習された表現は人間の直観とうまく一致しないかもしれない。 その結果、ケースベースの意思決定サポートでは効果が限られている。 本研究では,メトリクス学習のアイデアを教師付き学習に取り入れ,効果的な意思決定支援のためのアライメントの重要性を検討する。 事例レベルラベルに加えて、人間が提供する三重項判定を用いて、人間互換の意思決定中心の表現を学習する。 複数の分類タスクにおいて、合成データと人体実験の両方を用いて、そのような表現は、分類にのみ最適化された表現よりも、人間の知覚と整合していることを示す。 人間と互換性のある表現は、人間により類似していると認識され、より正確な予測を可能にする最も近い隣人を識別し、ヒトの意思決定能力が大幅に向上した(蝶の分類では17.8%、モト分類では13.2%、肺炎の分類では13.2%)。

Algorithmic case-based decision support provides examples to help human make sense of predicted labels and aid human in decision-making tasks. Despite the promising performance of supervised learning, representations learned by supervised models may not align well with human intuitions: what models consider as similar examples can be perceived as distinct by humans. As a result, they have limited effectiveness in case-based decision support. In this work, we incorporate ideas from metric learning with supervised learning to examine the importance of alignment for effective decision support. In addition to instance-level labels, we use human-provided triplet judgments to learn human-compatible decision-focused representations. Using both synthetic data and human subject experiments in multiple classification tasks, we demonstrate that such representation is better aligned with human perception than representation solely optimized for classification. Human-compatible representations identify nearest neighbors that are perceived as more similar by humans and allow humans to make more accurate predictions, leading to substantial improvements in human decision accuracies (17.8% in butterfly vs. moth classification and 13.2% in pneumonia classification).
翻訳日:2023-03-10 17:26:40 公開日:2023-03-06
# ソーシャルメディア上のデジタルトレースを用いた抑うつ検出 : 知識を考慮した深層学習アプローチ

Depression Detection Using Digital Traces on Social Media: A Knowledge-aware Deep Learning Approach ( http://arxiv.org/abs/2303.05389v1 )

ライセンス: Link先を確認
Wenli Zhang, Jiaheng Xie, Xiang Liu, Zhu Zhang(参考訳) うつ病は世界中で一般的な病気です。 診断は困難であり、診断下にある。 うつ病患者は、常に症状、主要なライフイベント、治療をソーシャルメディアで共有しているため、研究者はうつ病検出のためにソーシャルメディア上でユーザー生成のデジタルトレースに目を向けている。 このような手法は、うつ病と戦う革新的なアプローチを促進し、社会的・経済的負担を軽減することができるため、うつ病と戦う上で明確な利点がある。 しかし、既存の研究の多くは、確立された医学領域の知識をうつ病の検出に組み込む効果的な手段を欠いている。 デザイン科学研究パラダイムに従って,ソーシャルメディア利用者の抑うつリスクを正確に検出し,その検出に寄与する重要な要因を説明するための,dkdd(deep knowledge-aware depression detection)フレームワークを提案する。 実世界のデータを用いた広範囲な実証研究により、ドメイン知識を組み込むことで、この手法が既存の最先端の手法を上回ることを証明します。 本研究は,知識を考慮した機械学習,デジタルトレース利用,およびISにおけるNLP研究において,IS研究に大きな影響を及ぼす。 実際、dkddは早期発見と重要な要因を説明することによって、臨床的うつ病スクリーニングを補完し、人口の精神状態の大規模評価を可能にする。

Depression is a common disease worldwide. It is difficult to diagnose and continues to be underdiagnosed. Because depressed patients constantly share their symptoms, major life events, and treatments on social media, researchers are turning to user-generated digital traces on social media for depression detection. Such methods have distinct advantages in combating depression because they can facilitate innovative approaches to fight depression and alleviate its social and economic burden. However, most existing studies lack effective means to incorporate established medical domain knowledge in depression detection or suffer from feature extraction difficulties that impede greater performance. Following the design science research paradigm, we propose a Deep Knowledge-aware Depression Detection (DKDD) framework to accurately detect social media users at risk of depression and explain the critical factors that contribute to such detection. Extensive empirical studies with real-world data demonstrate that, by incorporating domain knowledge, our method outperforms existing state-of-the-art methods. Our work has significant implications for IS research in knowledge-aware machine learning, digital traces utilization, and NLP research in IS. Practically, by providing early detection and explaining the critical factors, DKDD can supplement clinical depression screening and enable large-scale evaluations of a population's mental health status.
翻訳日:2023-03-10 14:05:04 公開日:2023-03-06
# 大規模な言語モデルは、インテリジェントな輸送に必要なものだけなのか?

ChatGPT is on the horizon: Could a large language model be all we need for Intelligent Transportation? ( http://arxiv.org/abs/2303.05382v1 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Dongdong Wang, Zijin Wang, Shengxuan Ding(参考訳) OpenAIが開発したChatGPTは、1750億以上のパラメータを持つ最大の大規模言語モデル(LLM)の1つである。 ChatGPTは、特に自然言語処理(NLP)の分野で、LLMの印象的な能力を実証している。 様々な研究分野や工学分野におけるLLMの議論や応用の出現に伴い、LLMが知的輸送システムへのアプローチ方法にどのように革命をもたらすかを考える時が来た。 本稿では,重要な輸送問題に対するLCMの今後の応用について考察する。 LLMとクロスモーダルエンコーダを利用することで、インテリジェントシステムは様々なモダリティからのトラフィックデータを処理し、単一のLLMを介して輸送操作を実行することができる。 NLPとクロスモーダル処理を併用したNLPの輸送への応用について検討した。 この可能性を示すために、スマートフォンベースのクラッシュレポート自動生成分析フレームワークをユースケースとして提示する。 潜在的なメリットにもかかわらず、データのプライバシ、データ品質、モデルバイアスに関する課題を考慮する必要がある。 全体として、インテリジェント輸送システムにおけるllmの使用は、世界中の人々の生活を改善する、より効率的でインテリジェントで持続可能な輸送システムを約束している。

ChatGPT, developed by OpenAI, is one of the largest Large Language Models (LLM) with over 175 billion parameters. ChatGPT has demonstrated the impressive capabilities of LLM, particularly in the field of natural language processing (NLP). With the emergence of the discussion and application of LLM in various research or engineering domains, it is time to envision how LLM may revolutionize the way we approach intelligent transportation systems. This paper explores the future applications of LLM in addressing key transportation problems. By leveraging LLM and a cross-modal encoder, an intelligent system can handle traffic data from various modalities and execute transportation operations through a single LLM. NLP, combined with cross-modal processing, is investigated with its potential applications in transportation. To demonstrate this potential, a smartphone-based crash report auto-generation and analysis framework is presented as a use case. Despite the potential benefits, challenges related to data privacy, data quality, and model bias must be considered. Overall, the use of LLM in intelligent transport systems holds promise for more efficient, intelligent, and sustainable transportation systems that improve the lives of people around the world.
翻訳日:2023-03-10 14:03:45 公開日:2023-03-06
# 自然グラディエント法:展望,効率的なスケーラブル近似,解析

Natural Gradient Methods: Perspectives, Efficient-Scalable Approximations, and Analysis ( http://arxiv.org/abs/2303.05473v1 )

ライセンス: Link先を確認
Rajesh Shrestha(参考訳) 情報幾何に動機づけられた2次最適化手法である自然勾配降下は、一般的に用いられるヘッシアンの代わりにフィッシャー情報行列を利用する。 しかし、多くの場合、フィッシャー情報行列は一般化されたガウス・ニュートン法と同値であり、どちらもヘッセンの近似である。 これは確率勾配降下の代替として用いられる魅力的な方法であり、より高速な収束につながる可能性がある。 しかし、二階法であるため、膨大な数のパラメータやデータを扱う問題で直接使用することは不可能である。 これは、初めから確率的勾配降下法に固執する深層学習のコミュニティから明らかである。 本稿では,自然勾配法に関する異なる視点を考察し,その効率・スケーリング可能な経験的近似の現況を考察し,その性能を実験的に検証する。

Natural Gradient Descent, a second-degree optimization method motivated by the information geometry, makes use of the Fisher Information Matrix instead of the Hessian which is typically used. However, in many cases, the Fisher Information Matrix is equivalent to the Generalized Gauss-Newton Method, that both approximate the Hessian. It is an appealing method to be used as an alternative to stochastic gradient descent, potentially leading to faster convergence. However, being a second-order method makes it infeasible to be used directly in problems with a huge number of parameters and data. This is evident from the community of deep learning sticking with the stochastic gradient descent method since the beginning. In this paper, we look at the different perspectives on the natural gradient method, study the current developments on its efficient-scalable empirical approximations, and finally examine their performance with extensive experiments.
翻訳日:2023-03-10 13:35:50 公開日:2023-03-06
# マヨラナ境界状態は重力的に中立な系か?

Is the Majorana bound state a gravitationally neutral system? ( http://arxiv.org/abs/2303.03430v1 )

ライセンス: Link先を確認
Miguel A. Martin-Delgado(参考訳) 一般相対性理論の強い同値原理(SEP)と量子力学の重ね合わせ原理(SP)に対立する議論が与えられる。 この結果は、1D系におけるマヨラナ境界状態の合成の可能性や、量子効果による強い同値原理の違反の可能性にも影響する。 この議論は、1次元位相超伝導体を表すキタエフハミルトニアンにおける結合定数の非常に特別な微調整を誘導することで定式化されている。

An argument is provided that confronts the strong equivalence principle (SEP) of general relativity with the superposition principle (SP) of quantum mechanics. The result has implications on the possibility of synthesizing Majorana bound states in 1D systems or the possible violation of the strong equivalence principle by quantum effects. The argument is formulated by inducing a very special fine tuning of coupling constants in the Kitaev Hamiltonian representing 1D topological superconductors.
翻訳日:2023-03-09 16:31:27 公開日:2023-03-06
# 顕微鏡2体電位の散乱長と有効範囲

Scattering length and effective range of microscopic two-body potentials ( http://arxiv.org/abs/2303.04591v1 )

ライセンス: Link先を確認
Mathias M. Lima and Lucas Madeira(参考訳) 散乱過程は、物理学のいくつかの分野における系の分布と性質を実験的に探索する基礎的な方法である。 低エネルギーでの2体散乱を考えると、ド・ブロイ波長が電位の範囲よりも大きい場合、高い角運動量を持つ部分波は通常重要でない。 支配的な貢献は、一般に$s$-wave scatteringとして知られる$l=0$偏波によるものである。 この状況は原子物理学、例えば冷原子ガスや核物理学、例えば核構造や物質において非常に関係がある。 この写本は、所望の量を計算する数値的アプローチをカバーしながら、トピックへの教育的導入を目的としている。 散乱長と有効範囲の概念に特に注意を払って低エネルギー散乱を導入する。 これらの2つの量は、低エネルギー過程を普遍的に記述する有効範囲近似に現れる。 球対称二体ポテンシャルの散乱長と有効範囲を計算する数値計算法について概説する。 例えば、この方法を球面井戸、修正された P\"oschl-Teller, Gaussian, Lennard-Jones ポテンシャルに適用する。 学生が同様の計算を実行し、他の潜在能力に拡張できるように、このツールを提供したいと思っています。

Scattering processes are a fundamental way of experimentally probing distributions and properties of systems in several areas of physics. Considering two-body scattering at low energies, when the de Broglie wavelength is larger than the range of the potential, partial waves with high angular momentum are typically unimportant. The dominant contribution comes from $l=0$ partial waves, commonly known as $s$-wave scattering. This situation is very relevant in atomic physics, e.g. cold atomic gases, and nuclear physics, e.g. nuclear structure and matter. This manuscript is intended as a pedagogical introduction to the topic while covering a numerical approach to compute the desired quantities. We introduce low-energy scattering with particular attention to the concepts of scattering length and effective range. These two quantities appear in the effective-range approximation, which universally describes low-energy processes. We outline a numerical procedure for calculating the scattering length and effective range of spherically symmetric two-body potentials. As examples, we apply the method to the spherical well, modified P\"oschl-Teller, Gaussian, and Lennard-Jones potentials. We hope to provide the tools so students can implement similar calculations and extend them to other potentials.
翻訳日:2023-03-09 13:56:31 公開日:2023-03-06
# 米国におけるがん死亡率:信頼と予測は可能か?

Cancer Mortality Rates for US Counties: Are they Reliable and Predictable? ( http://arxiv.org/abs/2303.03343v1 )

ライセンス: Link先を確認
Robert L. Obenchain and S. Stanley Young(参考訳) 我々は、がん死亡率に関する米国郡レベルの観測データと、我々が公開してきた2年間(2012年と2016年)の連邦や州の情報源による「トップ10」の可能性について検討する。 この2つのがん死亡率は,各年において極めて少ないことが判明し,いくつかの利点を有するがん死亡率の簡易な複合測定法を提案する。 新しい発見の大部分は、グラフィカルに示す単純な意味を持っている。

We examine US County-level observational data on Cancer Mortality and it's "Top Ten" potential causes from Federal or State sources for the two individual years (2012 and 2016) that we have made publicly available. We find that these two Cancer Mortality rates for individual years have remarkably little in common, and we propose using a simple composite measure of cancer mortality that has several advantages. The vast majority of our new findings have simple implications that we illustrate graphically.
翻訳日:2023-03-08 17:48:57 公開日:2023-03-06
# 学生が教師を養育する : モデル蒸留に関する会員推定

Students Parrot Their Teachers: Membership Inference on Model Distillation ( http://arxiv.org/abs/2303.03446v1 )

ライセンス: Link先を確認
Matthew Jagielski, Milad Nasr, Christopher Choquette-Choo, Katherine Lee, Nicholas Carlini(参考訳) モデル蒸留は機械学習のプライバシー漏洩を低減する手法としてしばしば提案される。 これらの経験的なプライバシの防御は、 ‘`student'モデルを蒸留した直観に依存し、‘`teacher'モデルを通じて間接的にのみこのデータと対話するため、トレーニングデータのプライバシを保護する。 本研究では,知識蒸留によるプライバシを教師と学生のトレーニングセットの両方に体系的に研究するために,会員推論攻撃を設計する。 われわれの新しい攻撃は、蒸留だけで複数のドメインにまたがる限定的なプライバシーしか提供できないことを示している。 本研究は, 実際の訓練点において, 目標モデルが*never*の問合せであっても, 個人データセットに対するメンバシップ推論攻撃が成功することを示すことによって, 蒸留に対する攻撃の成功を説明する。 最後に, 生徒セットと教師セットが類似している場合, あるいは攻撃者が教師セットに毒を盛る場合, 攻撃が最強であることを示す。

Model distillation is frequently proposed as a technique to reduce the privacy leakage of machine learning. These empirical privacy defenses rely on the intuition that distilled ``student'' models protect the privacy of training data, as they only interact with this data indirectly through a ``teacher'' model. In this work, we design membership inference attacks to systematically study the privacy provided by knowledge distillation to both the teacher and student training sets. Our new attacks show that distillation alone provides only limited privacy across a number of domains. We explain the success of our attacks on distillation by showing that membership inference attacks on a private dataset can succeed even if the target model is *never* queried on any actual training points, but only on inputs whose predictions are highly influenced by training data. Finally, we show that our attacks are strongest when student and teacher sets are similar, or when the attacker can poison the teacher set.
翻訳日:2023-03-08 17:42:16 公開日:2023-03-06
# 自然映像の極性予測

Polar Prediction of Natural Videos ( http://arxiv.org/abs/2303.03432v1 )

ライセンス: Link先を確認
Pierre-\'Etienne H. Fiquet, Eero P. Simoncelli(参考訳) 物体や表面のオブザーバ運動と連続的な変形は、異なる時間構造を持つ自然映像を生かし、過去のフレームを部分的に予測することができる。 従来の手法では、まず局所的な動き(光の流れ)を推定し、次にコンテンツのウォーピングやコピーによって将来のフレームを予測する。 本稿では、各フレームを時間的進化の構造が容易にアクセス可能な学習された表現空間にマッピングする、より直接的な方法論を検討する。 フーリエシフト定理の幾何学と群理論の一般化により、学習された局所極座標におけるビデオフレームを表す単純なアーキテクチャを定式化する。 具体的には、畳み込みチャネル係数のペアを複素値として扱うネットワークを構築し、ゆっくりと変化する振幅と線形進行位相で進化するように最適化する。 これらのモデルを自然ビデオの次のフレーム予測で訓練し,その性能を従来の光学フロー法や予測ニューラルネットワーク法と比較した。 極性予測器は、解釈可能かつ高速でありながら優れた性能を達成し、自然な映像コンテンツを予測するためにエンドツーエンドに訓練されたフローフリーなビデオ処理手法の可能性を示す。

Observer motion and continuous deformations of objects and surfaces imbue natural videos with distinct temporal structures, enabling partial prediction of future frames from past ones. Conventional methods first estimate local motion, or optic flow, and then use it to predict future frames by warping or copying content. Here, we explore a more direct methodology, in which each frame is mapped into a learned representation space where the structure of temporal evolution is more readily accessible. Motivated by the geometry of the Fourier shift theorem and its group-theoretic generalization, we formulate a simple architecture that represents video frames in learned local polar coordinates. Specifically, we construct networks in which pairs of convolutional channel coefficients are treated as complex-valued, and are optimized to evolve with slowly varying amplitudes and linearly advancing phases. We train these models on next-frame prediction in natural videos, and compare their performance with that of conventional methods using optic flow as well as predictive neural networks. We find that the polar predictor achieves better performance while remaining interpretable and fast, thereby demonstrating the potential of a flow-free video processing methodology that is trained end-to-end to predict natural video content.
翻訳日:2023-03-08 17:41:59 公開日:2023-03-06
# 大規模機械学習モデルのための証明可能な量子アルゴリズムを目指して

Towards provably efficient quantum algorithms for large-scale machine-learning models ( http://arxiv.org/abs/2303.03428v1 )

ライセンス: Link先を確認
Junyu Liu, Minzhao Liu, Jin-Peng Liu, Ziyu Ye, Yuri Alexeev, Jens Eisert, Liang Jiang(参考訳) 大規模な機械学習モデルは人工知能の革命的な技術であり、そのボトルネックには、事前学習と微調整の両方で使用される膨大な計算コスト、パワー、時間が含まれる。 この研究では、フォールトトレラント量子コンピューティングは、モデルのサイズがn$であり、モデルが十分に散逸的でスパースである限りは、モデルの反復数である$o(t^2 \times \text{polylog}(n))$としてスケールし、一般的な(確率的な)勾配降下アルゴリズムに対して、確実に効率的な解決を提供する可能性があることを示します。 散逸微分方程式に対するより効率的な量子アルゴリズムに基づいて、類似のアルゴリズムが機械学習の主要なアルゴリズムである(確率的な)勾配降下のために機能することを発見し、証明する。 実際には、700万から1億300万のパラメータを持つ大規模機械学習モデルのインスタンスをベンチマークします。 スパーストレーニングの文脈では、モデルプルーニング後の学習の初期段階で量子拡張が可能であり、スパースパラメータのダウンロードと再アップロードのスキームを動機付けている。 我々の研究は、フォールトトレラントな量子アルゴリズムが、最先端の大規模機械学習問題の多くに寄与する可能性を確証している。

Large machine learning models are revolutionary technologies of artificial intelligence whose bottlenecks include huge computational expenses, power, and time used both in the pre-training and fine-tuning process. In this work, we show that fault-tolerant quantum computing could possibly provide provably efficient resolutions for generic (stochastic) gradient descent algorithms, scaling as $O(T^2 \times \text{polylog}(n))$, where $n$ is the size of the models and $T$ is the number of iterations in the training, as long as the models are both sufficiently dissipative and sparse. Based on earlier efficient quantum algorithms for dissipative differential equations, we find and prove that similar algorithms work for (stochastic) gradient descent, the primary algorithm for machine learning. In practice, we benchmark instances of large machine learning models from 7 million to 103 million parameters. We find that, in the context of sparse training, a quantum enhancement is possible at the early stage of learning after model pruning, motivating a sparse parameter download and re-upload scheme. Our work shows solidly that fault-tolerant quantum algorithms could potentially contribute to most state-of-the-art, large-scale machine-learning problems.
翻訳日:2023-03-08 17:41:39 公開日:2023-03-06
# ベクトルグラフィックスのためのニューラルスタイル転送

Neural Style Transfer for Vector Graphics ( http://arxiv.org/abs/2303.03405v1 )

ライセンス: Link先を確認
Valeria Efimova, Artyom Chebykin, Ivan Jarsky, Evgenii Prosvirnin, Andrey Filchenkov(参考訳) ニューラルスタイルの転送は研究者の注意を引くが、関心はビットマップ画像に焦点を当てている。 任意のスタイルと事前学習スタイルのビットマップ画像生成のための様々なモデルが開発されている。 しかし,ベクトル画像間のスタイル転送はほとんど検討されていない。 本研究は,ベクトルプリミティブの構造が画素と大きく異なるため,標準的な内容やスタイルの損失がベクトル画像の描画スタイルを大きく変えることを示す。 この問題に対処するために,新しい損失関数を導入する。 また,これらの損失関数を用いて,スタイル画像の描画に対応するコンテンツ画像の色や形状パラメータを変化させる,微分ラスタライズに基づく新しい手法を開発した。 ビットマップ画像に対する最先端のニューラルスタイル転送手法と、ベクトル画像のスタイリングのための唯一の既存手法であるDiffVGと比較して、提案したVectorNST法の有効性を定性的な実験により実証した。 提案モデルではビットマップ画像間のスタイル転送の質やスムーズさは得られないが,本研究はこの分野において重要なステップであると考えている。 VectorNSTのコードとデモサービスはhttps://github.com/IzhanVarsky/VectorNSTで公開されている。

Neural style transfer draws researchers' attention, but the interest focuses on bitmap images. Various models have been developed for bitmap image generation both online and offline with arbitrary and pre-trained styles. However, the style transfer between vector images has not almost been considered. Our research shows that applying standard content and style losses insignificantly changes the vector image drawing style because the structure of vector primitives differs a lot from pixels. To handle this problem, we introduce new loss functions. We also develop a new method based on differentiable rasterization that uses these loss functions and can change the color and shape parameters of the content image corresponding to the drawing of the style image. Qualitative experiments demonstrate the effectiveness of the proposed VectorNST method compared with the state-of-the-art neural style transfer approaches for bitmap images and the only existing approach for stylizing vector images, DiffVG. Although the proposed model does not achieve the quality and smoothness of style transfer between bitmap images, we consider our work an important early step in this area. VectorNST code and demo service are available at https://github.com/IzhanVarsky/VectorNST.
翻訳日:2023-03-08 17:41:13 公開日:2023-03-06
# 畳み込みニューラルネットワークのチャネルをテストする

Testing the Channels of Convolutional Neural Networks ( http://arxiv.org/abs/2303.03400v1 )

ライセンス: Link先を確認
Kang Choi, Donghyun Son, Younghoon Kim, Jiwon Seo(参考訳) ニューラルネットワークは複雑な構造を持ち、内部の動作を理解して正確性を確保することは困難である。 畳み込みニューラルネットワーク(CNN)を理解しデバッグするために,CNNのチャネルをテストする手法を提案する。 我々は、ターゲットCNNのチャネルの強度(ニューロンの総和)を変化させてテストデータを生成するGANの拡張であるFtGANを設計する。 また,テストのための代表的なチャネルを見つけるためのチャネル選択アルゴリズムも提案した。 対象のCNNの推論計算を効率的に検査するために,テストデータの推論計算がトレーニングデータとどの程度類似しているかを推定する予測性スコアを定義した。 我々はFtGANを5つの公開データセットで評価し、5つのCNNモデルにおける欠陥チャネルの同定に成功したことを示す。

Neural networks have complex structures, and thus it is hard to understand their inner workings and ensure correctness. To understand and debug convolutional neural networks (CNNs) we propose techniques for testing the channels of CNNs. We design FtGAN, an extension to GAN, that can generate test data with varying the intensity (i.e., sum of the neurons) of a channel of a target CNN. We also proposed a channel selection algorithm to find representative channels for testing. To efficiently inspect the target CNN's inference computations, we define unexpectedness score, which estimates how similar the inference computation of the test data is to that of the training data. We evaluated FtGAN with five public datasets and showed that our techniques successfully identify defective channels in five different CNN models.
翻訳日:2023-03-08 17:40:54 公開日:2023-03-06
# 未知需要曲線とサービス分布をもつキューのオンライン学習と最適化

Online Learning and Optimization for Queues with Unknown Demand Curve and Service Distribution ( http://arxiv.org/abs/2303.03399v1 )

ライセンス: Link先を確認
Xinyun Chen, Yunan Liu, Guiyu Hong(参考訳) サービス提供者が最適なサービス料金 p とサービス容量 \mu を選択して累積利益を最大化する待ち行列システムにおける最適化問題について検討する(サービス収益はキャパシティコストと遅延ペナルティを抑える)。 従来の予測列最適化(PTO)アプローチでは、まずデータからモデルパラメータ(到着率やサービス時間分布など)を推定し、次に、推定パラメータに基づいてモデルを最適化する。 PTOの大きな欠点は、PTOがこれらの誤差を最適化された解の品質に適切にリンクできないため、その解の精度がパラメータ推定誤差に非常に敏感であることである(ステップ1)。 この問題を解決するために,我々は,上記のパラメータ推定誤差を自動的にソリューション処方プロセスに組み込むオンライン学習フレームワークを開発した。ptoのようにパラメータ推定を別ステップとして設定する必要なしに,最適な解を「学習」できる統合手法である。 オンライン学習手法の有効性は (i)後悔のアルゴリズム収束と分析を含む理論的結果(アルゴリズムが最適方針を学ぶために時間をかけて支払うコスト) (ii)代表例のシミュレーション実験による工学的確認 また,PTOとオンライン学習手法を慎重に比較する。

We investigate an optimization problem in a queueing system where the service provider selects the optimal service fee p and service capacity \mu to maximize the cumulative expected profit (the service revenue minus the capacity cost and delay penalty). The conventional predict-then-optimize (PTO) approach takes two steps: first, it estimates the model parameters (e.g., arrival rate and service-time distribution) from data; second, it optimizes a model based on the estimated parameters. A major drawback of PTO is that its solution accuracy can often be highly sensitive to the parameter estimation errors because PTO is unable to properly link these errors (step 1) to the quality of the optimized solutions (step 2). To remedy this issue, we develop an online learning framework that automatically incorporates the aforementioned parameter estimation errors in the solution prescription process; it is an integrated method that can "learn" the optimal solution without needing to set up the parameter estimation as a separate step as in PTO. Effectiveness of our online learning approach is substantiated by (i) theoretical results including the algorithm convergence and analysis of the regret ("cost" to pay over time for the algorithm to learn the optimal policy), and (ii) engineering confirmation via simulation experiments of a variety of representative examples. We also provide careful comparisons for PTO and the online learning method.
翻訳日:2023-03-08 17:40:40 公開日:2023-03-06
# 潜在空間拡張の合成可能分布へ向けて

Towards Composable Distributions of Latent Space Augmentations ( http://arxiv.org/abs/2303.03462v1 )

ライセンス: Link先を確認
Omead Pooladzandi, Jeffrey Jiang, Sunay Bhat, Gregory Pottie(参考訳) 本研究では,複数の画像の組合せを容易に行える潜在空間画像拡張のための合成フレームワークを提案する。 画像拡張は、様々な画像分類および生成タスクの性能を向上させる効果的な技術であることが示されている。 我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。 我々は、変換を合成可能かつ不随意に強制するために、損失と拡張潜在幾何を探索し、変換を容易に結合または反転できるようにする。 最後に、これらの特性が特定の拡張子でより優れた性能を示すが、潜在空間を他の拡張子集合に移して性能を変化させることができ、vaeのボトルネックを効果的に制限し、我々が関心を持つ画像の特定の拡張子と特徴のばらつきを保ち続けることができる。 我々は,MNISTデータセットの初期結果を用いて,標準VAEと条件VAEの両方に対するアプローチの有効性を示す。 この潜在的な拡張法により、潜在空間の制御と幾何学的解釈性が大幅に向上し、この分野の研究者や実践者にとって貴重なツールとなる。

We propose a composable framework for latent space image augmentation that allows for easy combination of multiple augmentations. Image augmentation has been shown to be an effective technique for improving the performance of a wide variety of image classification and generation tasks. Our framework is based on the Variational Autoencoder architecture and uses a novel approach for augmentation via linear transformation within the latent space itself. We explore losses and augmentation latent geometry to enforce the transformations to be composable and involuntary, thus allowing the transformations to be readily combined or inverted. Finally, we show these properties are better performing with certain pairs of augmentations, but we can transfer the latent space to other sets of augmentations to modify performance, effectively constraining the VAE's bottleneck to preserve the variance of specific augmentations and features of the image which we care about. We demonstrate the effectiveness of our approach with initial results on the MNIST dataset against both a standard VAE and a Conditional VAE. This latent augmentation method allows for much greater control and geometric interpretability of the latent space, making it a valuable tool for researchers and practitioners in the field.
翻訳日:2023-03-08 17:31:50 公開日:2023-03-06
# 量子コンピュータ上のフェルミオン系のより最適化されたシミュレーション

Ever more optimized simulations of fermionic systems on a quantum computer ( http://arxiv.org/abs/2303.03460v1 )

ライセンス: Link先を確認
Qingfeng Wang, Ze-Pei Cian, Ming Li, Igor L. Markov, Yunseong Nam(参考訳) 計算の新しいモデルを用いたにもかかわらず、量子コンピュータはプログラムを基本ゲートに分解する。 これらの門のうち、密閉ゲートが最も高価である。 フェルミオンシミュレーションの文脈では,エンタングリングゲート数を大幅に削減する一連のコンパイルおよび最適化手法を開発した。 提案手法は,いくつかの小分子シミュレーションにおいて,精度の低下や隠れコストを伴わず,最先端の非量子最適化アルゴリズムを用いて最大24倍の削減を実現している。 提案手法は,フェルミオン系の基底状態のより広範な短期シミュレーションや,フェルミオン系の動的特性を推定するリアルタイムシミュレーションに一般化される。

Despite using a novel model of computation, quantum computers break down programs into elementary gates. Among such gates, entangling gates are the most expensive. In the context of fermionic simulations, we develop a suite of compilation and optimization techniques that massively reduce the entangling-gate counts. We exploit the well-studied non-quantum optimization algorithms to achieve up to 24\% savings over the state of the art for several small-molecule simulations, with no loss of accuracy or hidden costs. Our methodologies straightforwardly generalize to wider classes of near-term simulations of the ground state of a fermionic system or real-time simulations probing dynamical properties of a fermionic system.
翻訳日:2023-03-08 17:31:32 公開日:2023-03-06
# 平面曲線の学習微分不変量

Learning Differential Invariants of Planar Curves ( http://arxiv.org/abs/2303.03458v1 )

ライセンス: Link先を確認
Roy Velich and Ron Kimmel(参考訳) 平面曲線の微分不変量の数値近似のための学習パラダイムを提案する。 深層ニューラルネットワーク(DNN)の普遍近似特性を用いて幾何学的測度を推定する。 提案するフレームワークは, 公理的構成の代替として好適であることが示されている。 具体的には、DNNが不安定性を克服し、アーティファクトをサンプリングし、平面上の所定の変換群に従う曲線に対して一貫したシグネチャを生成することができることを示す。 提案したスキームを微分不変量の別の状態の公理構成と比較する。 モデルは定性的かつ定量的に評価し,平面曲線の微分不変量の近似モデルを評価するベンチマークデータセットを提案する。

We propose a learning paradigm for the numerical approximation of differential invariants of planar curves. Deep neural-networks' (DNNs) universal approximation properties are utilized to estimate geometric measures. The proposed framework is shown to be a preferable alternative to axiomatic constructions. Specifically, we show that DNNs can learn to overcome instabilities and sampling artifacts and produce consistent signatures for curves subject to a given group of transformations in the plane. We compare the proposed schemes to alternative state-of-the-art axiomatic constructions of differential invariants. We evaluate our models qualitatively and quantitatively and propose a benchmark dataset to evaluate approximation models of differential invariants of planar curves.
翻訳日:2023-03-08 17:31:22 公開日:2023-03-06
# ニューラルネットワークモデルにおけるスペリング規則の感度

Spelling convention sensitivity in neural language models ( http://arxiv.org/abs/2303.03457v1 )

ライセンス: Link先を確認
Elizabeth Nielsen, Christo Kirov, Brian Roark(参考訳) 様々な英語テキストの膨大なコレクションに基づいて訓練された大規模ニューラルネットワークモデルが、英語対アメリカの綴り規約の潜在的長距離依存性、すなわちモデル生成文字列における綴りの一貫性について学習するかどうかについて検討する。 非基底構造(例えば構文)における長距離依存とは対照的に、スペルの一貫性はLMとそれらのトレーニングに使用されるテキストコーパスの両方で測定しやすく、観測されたモデルの振る舞いに関するさらなる洞察を与えることができる。 英国英語またはアメリカ英語に固有のプローブ単語のセットを使用して、トレーニングコーパスが実質的(完全ではないが)一貫性を示すことを最初に確立した。 大きなt5言語モデルは、この一貫性を内部化しているように見えるが、観察された語彙項目(英米の綴りパターンを持つ単語ではない)のみについてである。 さらに,変形した合成データに対してt5を微調整することで,トレーニングデータのバイアスの補正を行い,微調整されたt5は綴りの一貫性に多少敏感なままであることを確認した。 さらなる実験では、GPT2も同様に制限されている。

We examine whether large neural language models, trained on very large collections of varied English text, learn the potentially long-distance dependency of British versus American spelling conventions, i.e., whether spelling is consistently one or the other within model-generated strings. In contrast to long-distance dependencies in non-surface underlying structure (e.g., syntax), spelling consistency is easier to measure both in LMs and the text corpora used to train them, which can provide additional insight into certain observed model behaviors. Using a set of probe words unique to either British or American English, we first establish that training corpora exhibit substantial (though not total) consistency. A large T5 language model does appear to internalize this consistency, though only with respect to observed lexical items (not nonce words with British/American spelling patterns). We further experiment with correcting for biases in the training data by fine-tuning T5 on synthetic data that has been debiased, and find that finetuned T5 remains only somewhat sensitive to spelling consistency. Further experiments show GPT2 to be similarly limited.
翻訳日:2023-03-08 17:31:13 公開日:2023-03-06
# 量子真空の偏りによるマクロ確率分布の制御

Biasing the quantum vacuum to control macroscopic probability distributions ( http://arxiv.org/abs/2303.03455v1 )

ライセンス: Link先を確認
Charles Roques-Carmes, Yannick Salamin, Jamison Sloan, Seou Choi, Gustavo Velez, Ethan Koskas, Nicholas Rivera, Steven E. Kooi, John D. Joannopoulos, Marin Soljacic(参考訳) 量子場理論の最も重要な洞察の1つは、電磁場は変動しなければならないということである。 真空状態においても、電場と磁場は非零分散を持ち、自発的放出、ラムシフト、カシミール効果などのユビキタスな効果をもたらす。 これらの「真空ゆらぎ」は完全なランダムネスの源としても利用され、例えば完全なランダムなフォトニックビットを生成する。 これらの成果にもかかわらず、確率計算のような分野における量子ランダム性は、フォトニックプラットフォームではまだ実現されていない制御可能な確率分布に依存する。 本研究では、真空レベルの「バイアス」場を多安定光学系に注入することで「バイアス」量子ランダム性の制御可能な源が得られることを示す。 我々はこの概念を光パラメトリック発振器(OPO)で実証する。 通常、基底状態から開始されるOPOは、同じ確率で2つの退化相状態 (0 と $\pi$) の1つの信号場を開発する。 平均的に1光子未満のバイアスパルスを注入することにより、2つの出力状態に関連する確率を制御し、初めて制御可能なフォトニック確率ビット(p-bit)を得る。 我々は、この過程の背後にある物理学に光を当て、理論と実験の間の定量的な一致を示した。 最後に,本システムは単一光子レベルよりはるかに低いバイアス場パルスの時間的形状に敏感であることを示すことにより,サブ光子レベル場を検知する手法の可能性を示す。 非線形駆動散逸系における確率的量子力学の研究のための新しいプラットフォームが提案され、超高速フォトニック確率計算への応用や、非常に弱い場の検出が期待できる。

One of the most important insights of quantum field theory is that electromagnetic fields must fluctuate. Even in the vacuum state, the electric and magnetic fields have a nonzero variance, leading to ubiquitous effects such as spontaneous emission, the Lamb shift, the Casimir effect, and more. These "vacuum fluctuations" have also been harnessed as a source of perfect randomness, for example to generate perfectly random photonic bits. Despite these achievements, many potential applications of quantum randomness in fields such as probabilistic computing rely on controllable probability distributions, which have not yet been realized on photonic platforms. In this work, we show that the injection of vacuum-level "bias" fields into a multi-stable optical system enables a controllable source of "biased" quantum randomness. We demonstrate this concept in an optical parametric oscillator (OPO). Ordinarily, an OPO initiated from the ground state develops a signal field in one of two degenerate phase states (0 and $\pi$) with equal probability. By injecting bias pulses which contain less than one photon on average, we control the probabilities associated with the two output states, leading to the first controllable photonic probabilistic bit (p-bit). We shed light on the physics behind this process, showing quantitative agreement between theory and experiment. Finally, we demonstrate the potential of our approach for sensing sub-photon level fields by showing that our system is sensitive to the temporal shape of bias field pulses far below the single photon level. Our results suggest a new platform for the study of stochastic quantum dynamics in nonlinear driven-dissipative systems, and point toward possible applications in ultrafast photonic probabilistic computing, as well as the sensing of extremely weak fields.
翻訳日:2023-03-08 17:30:54 公開日:2023-03-06
# 確率的単一光子源を用いたコヒーレントスイッチのないフォトニック量子コンピューティング

Photonic quantum computing with probabilistic single photon sources but without coherent switches ( http://arxiv.org/abs/2303.03454v1 )

ライセンス: Link先を確認
Terry Rudolph(参考訳) 我々は、コヒーレントスイッチングを使わずに、単一光子の確率(固有)生成と確率ゲートの両方を扱うことができるフォトニック量子コンピューティングアーキテクチャを提案する。 唯一必要とされる動的要素は、所定のモードにおける全ての光子の可制御吸収である。 理論上のアーキテクチャは、普遍量子計算に必要なリソースに多項式的にスケールするが、そのオーバーヘッドは大きいため、誰でも真剣に追求すべきレシピではなく、フォトニックアプローチの構成空間における説明上の極端な点である。 しかし、フォトニック量子コンピューティングに必要なものの多くは、実際にはそうではないことを証明している。 潜在的に独立した関心の1つは、アーキテクチャが単一の有効な量子ビット状態に対応する多くの可能なマイクロステートを持つ量子ビットを使用することであり、確率的操作を扱う技術は、必要に応じて、すべての可能性を取り込むためにそのようなマイクロステートの集合を拡大し、その後に与えられた量子ビットの特定のマイクロステートを‘コヒーレントに消去’する機能を多用することである。

We present photonic quantum computing architectures that can deal with both probabilistic (heralded) generation of single photons and probabilistic gates without making use of coherent switching. The only required dynamical element is the controllable absorption of all photons in a given mode. While the architectures in theory scale polynomially in the resources required for universal quantum computation, as presented their overhead is large and they are illustrative extreme points in the configuration space of photonic approaches, rather than a recipe that anybody should seriously pursue. They do, however, prove that many things presumed necessary for photonic quantum computing, in fact are not. Of potentially independent interest may be that the architectures make use of qubits which have many possible microstates corresponding to a single effective qubit state, and the technique for dealing with probabilistic operations is to, when necessary, just enlarge the set of such microstates to incorporate all possibilities, while making heavy use of the subsequent ability to `coherently erase' which particular microstate a given qubit is in.
翻訳日:2023-03-08 17:30:27 公開日:2023-03-06
# ヘルド型フォトニックベル計測による量子メモリのエンタングリング

Entangling Quantum Memories via Heralded Photonic Bell Measurement ( http://arxiv.org/abs/2303.03453v1 )

ライセンス: Link先を確認
Prajit Dhara, Dirk Englund, Saikat Guha(参考訳) 一対の量子記憶を絡める一般的な方法は、フォトニックな絡み替えである。 光チャネルで接続された2つのメモリはそれぞれ、自身と絡み合うフォトニック量子ビットを発生させ、フォトニック量子ビットは、チャネルの中央にあるビームスプリッターの絡み合いスワップを受ける。 我々は、フォトニックキュービットのエンコーディングの2つの選択肢を比較する:シングルレールとデュアルレール。 低チャネル損失、すなわち1つのメモリサイトとスワップサイトを接続するハーフチャネルの損失が約6ドルのdb以下である場合、デュアルレールスキームは1つのレールスキームよりも優れる。 デュアル・レール・スキームにおける高損失率の漸近はより悪く、これは送信されたフォトニック・モードでは$o(\eta)$ ebitsとスケールし、シングル・レール・スキームでは$o(\sqrt{\eta})$であり、ここで$\sqrt{\eta}$はハーフ・チャンネルの透過性である。 不完全モードマッチング、両側から干渉したフォトニック量子ビット間のキャリア位相ミスマッチ、および余剰ノイズ検出など、以下の非理想性を考慮して、ヘラルド2量子エンタングル状態の明示的密度演算子を評価する。 1コピーあたりの蒸留可能な絡み合いと、その忠実度(理想的なベル状態)について下限を計算する。 不完全スワップ可視性は一定因子の低下を生じさせ、余剰ノイズは、ある総チャネル損失閾値を超える蒸留性絡み合いの急落をゼロにする。 単線方式の速度損失の増大にもかかわらず、過大な騒音の影響が強く、確率的キャリアフェーズミスマッチの悪影響がある。 本研究は, 密閉状態での密閉蒸留について検討した。 エンタングル状態の密度演算子の評価は、より大きな量子ネットワークのより現実的な性能評価と高度なエンタングルメント蒸留法の開発への道を開くことを願っている。

A common way to entangle a pair of quantum memories is via a photonic entanglement swap. Each of two memories, connected by an optical channel, emits a photonic qubit entangled with itself, and the photonic qubits undergo an entanglement swap on a beamsplitter in the middle of the channel. We compare two choices of encoding of the photonic qubit: the single rail and dual rail. In the regime of low channel loss, i.e., when the loss of the half-channel connecting one memory site to the swap site is less than $\approx 6$ dB, the dual-rail scheme is seen to outperform the single rail scheme. The high-loss rate asymptote for the dual rail scheme is worse: it scales as $O(\eta)$ ebits per transmitted photonic mode, as opposed to $O(\sqrt{\eta})$ for the single-rail scheme, where $\sqrt{\eta}$ is the transmissivity of the half channel. Considering the following non-idealities: imperfect mode matching at the swap, carrier-phase mismatch across the interfered photonic qubits from the two sides, and detector excess noise, we evaluate the explicit density operator of the heralded two-qubit entangled state. We calculate a lower bound on its distillable entanglement per copy, and its Fidelity (with the ideal Bell state). Imperfect swap-visibility results in a constant-factor decrease in the rate, while excess noise results in a sharp dropoff of distillable entanglement beyond a certain total channel loss threshold to zero. Despite the single-rail scheme's better rate-loss scaling, it is more severely affected by excess noise, and is adversely affected by stochastic carrier-phase mismatch. We study entanglement distillation on the heralded noisy entangled states. Our evaluation of the density operator of the entangled state will hopefully pave the way for more realistic performance evaluations of larger quantum networks and the development of advanced entanglement distillation schemes.
翻訳日:2023-03-08 17:30:06 公開日:2023-03-06
# 勾配ブースティングによる微分プライベート回帰の改善

Improved Differentially Private Regression via Gradient Boosting ( http://arxiv.org/abs/2303.03451v1 )

ライセンス: Link先を確認
Shuai Tang, Sergul Aydore, Michael Kearns, Saeyoung Rho, Aaron Roth, Yichen Wang, Yu-Xiang Wang, Zhiwei Steven Wu(参考訳) 微分プライベート二乗誤差線形回帰の問題を再検討する。 既存の最先端のメソッドは、データに依存しない方法で最適に設定できない ``clipping threshold'' を含む、ハイパーパラメータの選択に敏感である。 勾配ブースティングに基づく線形回帰のための新しいアルゴリズムを提案する。 提案手法は,非プライベートな方法で最適化するのではなく,データに関する知識を使わずにクリッピングしきい値が固定された場合,従来より一貫して改良され,非プライベートにクリッピングしきい値が最適化された場合でも,アルゴリズムは悪くはないことを示す。 総合的な実験に加えて、この振る舞いを説明するための理論的洞察を与える。

We revisit the problem of differentially private squared error linear regression. We observe that existing state-of-the-art methods are sensitive to the choice of hyper-parameters -- including the ``clipping threshold'' that cannot be set optimally in a data-independent way. We give a new algorithm for private linear regression based on gradient boosting. We show that our method consistently improves over the previous state of the art when the clipping threshold is taken to be fixed without knowledge of the data, rather than optimized in a non-private way -- and that even when we optimize the clipping threshold non-privately, our algorithm is no worse. In addition to a comprehensive set of experiments, we give theoretical insights to explain this behavior.
翻訳日:2023-03-08 17:29:28 公開日:2023-03-06
# 衝突を伴う線型フラソフ方程式の量子アルゴリズム

A quantum algorithm for the linear Vlasov equation with collisions ( http://arxiv.org/abs/2303.03450v1 )

ライセンス: Link先を確認
Abtin Ameri, Paola Cappellaro, Hari Krovi, Nuno F. Loureiro, Erika Ye(参考訳) ヴラソフ方程式(Vlasov equation)は、プラズマの力学の第一原理を記述する非線形偏微分方程式である。 その線形極限はプラズマ物理学においてプラズマの振動と安定性を調べるために日常的に用いられる。 本研究では, 1次元の静電限界において, 衝突のない線形化フラソフ方程式をシミュレートする量子アルゴリズムを提案する。 この方程式を自然空間と速度位相空間で解くのではなく、フーリエ・ハーマイト展開によって得られる双対空間の効率的な表現を採用する。 フーリエ・エルミート表現は指数関数的にコンパクトであり、それゆえ、以前に提案された量子アルゴリズムの性能にマッチする古典的なアルゴリズムが得られる。 この表現は、よく開発された量子アルゴリズムで解くことができる線形常微分方程式の系、すなわち衝突なしの場合のハミルトンシミュレーションと衝突の場合の量子ode解法である。 特に、システムサイズの二次的なスピードアップが達成可能であることを示す。

The Vlasov equation is a nonlinear partial differential equation that provides a first-principles description of the dynamics of plasmas. Its linear limit is routinely used in plasma physics to investigate plasma oscillations and stability. In this work, we present a quantum algorithm that simulates the linearized Vlasov equation with and without collisions, in the one-dimensional, electrostatic limit. Rather than solving this equation in its native spatial and velocity phase-space, we adopt an efficient representation in the dual space yielded by a Fourier-Hermite expansion. The Fourier-Hermite representation is exponentially more compact, thus yielding a classical algorithm that can match the performance of a previously proposed quantum algorithm for this problem. This representation results in a system of linear ordinary differential equations which can be solved with well-developed quantum algorithms: Hamiltonian simulation in the collisionless case, and quantum ODE solvers in the collisional case. In particular, we demonstrate that a quadratic speedup in system size is attainable.
翻訳日:2023-03-08 17:29:16 公開日:2023-03-06
# 非エルミートハミルトニアンは固有状態熱化仮説に違反する

Non-Hermitian Hamiltonians Violate the Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2303.03448v1 )

ライセンス: Link先を確認
Giorgio Cipolloni, Jonah Kudler-Flam(参考訳) 固有状態熱化仮説(ETH)は、閉じた量子系における熱挙動の出現の理論的理解の基盤である。 ETHは、エネルギー固有状態における単純な可観測物の期待値は熱力学パラメータの滑らかな関数によって正確に説明され、ゆらぎと外対角行列要素はエントロピーで指数関数的に抑制されると主張している。 非エルミート多体系においてethがどの程度持つかを調べ、固有状態間のゆらぎが平均値に等しく、熱化を示さないという驚くべき結論に達した。 我々は、この結論をジニブルアンサンブルにおける数学的に厳密な結果と、非エルミート型sachdev-ye-kitaevモデルを含む他のアンサンブルにおける数値的結果で支持し、カオス的非エルミート量子系における普遍性を示す。

The Eigenstate Thermalization Hypothesis (ETH) represents a cornerstone in the theoretical understanding of the emergence of thermal behavior in closed quantum systems. The ETH asserts that expectation values of simple observables in energy eigenstates are accurately described by smooth functions of the thermodynamic parameters, with fluctuations and off-diagonal matrix elements exponentially suppressed in the entropy. We investigate to what extent the ETH holds in non-Hermitian many-body systems and come to the surprising conclusion that the fluctuations between eigenstates is of equal order to the average, indicating no thermalization. We support this conclusion with mathematically rigorous results in the Ginibre ensemble and numerical results in other ensembles, including the non-Hermitian Sachdev-Ye-Kitaev model, indicating universality in chaotic non-Hermitian quantum systems.
翻訳日:2023-03-08 17:28:59 公開日:2023-03-06
# スパースフィルタとグラフニューラルネットワークを用いた風力発電ギアボックス故障検出

Wind Turbine Gearbox Fault Detection Based on Sparse Filtering and Graph Neural Networks ( http://arxiv.org/abs/2303.03496v1 )

ライセンス: Link先を確認
Jinsong Wang, Kenneth A. Loparo(参考訳) 風力エネルギー産業は著しく成長し、風力タービンの部品の故障に直面している。 風力タービンのギアボックスの故障は特に顕著であり、最も長いダウンタイムと高いコストをもたらす。 本稿では,グラフニューラルネットワーク(gnn)モデルとスパースフィルタリング(sf)を用いた高周波振動データに基づく,データ駆動型ギアボックス故障検出アルゴリズムを提案する。 このアプローチは、包括的なデータソースと複雑なセンシングネットワークを活用することができる。 基本グラフニューラルネットワーク、ゲートグラフニューラルネットワーク、ゲートグラフシーケンシャルニューラルネットワークを含むgnnモデルは、風力タービン情報を用いて形成された知識に基づくグラフからギアボックス条件を検出するために使用される。 スパースフィルタリングはGNNモデルの訓練を高速化するための教師なし特徴学習法として用いられる。 本手法の有効性を実用実験データで検証した。

The wind energy industry has been experiencing tremendous growth and confronting the failures of wind turbine components. Wind turbine gearbox malfunctions are particularly prevalent and lead to the most prolonged downtime and highest cost. This paper presents a data-driven gearbox fault detection algorithm base on high frequency vibration data using graph neural network (GNN) models and sparse filtering (SF). The approach can take advantage of the comprehensive data sources and the complicated sensing networks. The GNN models, including basic graph neural networks, gated graph neural networks, and gated graph sequential neural networks, are used to detect gearbox condition from knowledge-based graphs formed using wind turbine information. Sparse filtering is used as an unsupervised feature learning method to accelerate the training of the GNN models. The effectiveness of the proposed method was verified on practical experimental data.
翻訳日:2023-03-08 17:22:24 公開日:2023-03-06
# 電荷密度波の位相秩序ダイナミクスのための機械学習

Machine learning for phase ordering dynamics of charge density waves ( http://arxiv.org/abs/2303.03493v1 )

ライセンス: Link先を確認
Chen Cheng, Sheng Zhang, Gia-Wei Chern(参考訳) 電荷密度波(CDW)状態の大規模動的シミュレーションのための機械学習(ML)フレームワークを提案する。 cdw状態における電荷変調は共役構造歪みを伴うことが多く、cdwオーダーの断熱的進化は格子歪みのダイナミクスによって制御される。 しかし、駆動力に対する電子的貢献の計算は、大規模システムでは計算的に非常に高価である。 電子系の局所性の原理を仮定し、近傍配置からの入力で局所電子力を正確にかつ効率的に予測するニューラルネットワークモデルを開発した。 重要なことに、MLモデルはCDWの動的シミュレーションのための線形複雑化アルゴリズムを可能にする。 実演として,CDW秩序の標準系であるホルシュタインモデルの位相秩序ダイナミクスを解析するために,本手法を適用した。 大規模シミュレーションにより,Ising型順序パラメータ場の位相秩序に関するアレン・カーンの法則から大きく逸脱したCDW領域の興味深い成長が明らかになった。 この異常なドメイン成長は、この系におけるドメインウォールの複雑な構造に起因する可能性がある。 本研究は,機能電子材料の動的シミュレーションにおけるMLベースの力場モデルの可能性を強調した。

We present a machine learning (ML) framework for large-scale dynamical simulations of charge density wave (CDW) states. The charge modulation in a CDW state is often accompanied by a concomitant structural distortion, and the adiabatic evolution of a CDW order is governed by the dynamics of the lattice distortion. Calculation of the electronic contribution to the driving forces, however, is computationally very expensive for large systems. Assuming the principle of locality for electron systems, a neural-network model is developed to accurately and efficiently predict local electronic forces with input from neighborhood configurations. Importantly, the ML model makes possible a linear complexity algorithm for dynamical simulations of CDWs. As a demonstration, we apply our approach to investigate the phase ordering dynamics of the Holstein model, a canonical system of CDW order. Our large-scale simulations uncover an intriguing growth of the CDW domains that deviates significantly from the expected Allen-Cahn law for phase ordering of Ising-type order parameter field. This anomalous domain-growth could be attributed to the complex structure of domain-walls in this system. Our work highlights the promising potential of ML-based force-field models for dynamical simulations of functional electronic materials.
翻訳日:2023-03-08 17:22:12 公開日:2023-03-06
# ニューラルネットワーク集約手法の比較

A Comparison of Methods for Neural Network Aggregation ( http://arxiv.org/abs/2303.03488v1 )

ライセンス: Link先を確認
John Pomerat and Aviv Segev(参考訳) 深層学習は理論的側面において成功した。 ディープラーニングが業界で成功するためには、実際のデータに現れる多くの矛盾を処理できるアルゴリズムが必要である。 これらの矛盾は、ディープラーニングアルゴリズムの実装に大きな影響を及ぼす可能性がある。 人工知能は現在医療産業を変えつつある。 しかし、機械学習アルゴリズムのトレーニングに医療データを使用する許可を受けることは大きなハードルです。 可能な解決策は、患者情報を共有せずにデータを共有することだ。 本稿では,ディープラーニングアルゴリズムのためのマルチパーティ計算プロトコルを提案する。 このプロトコルは、トレーニングデータのプライバシとセキュリティの両方を保存することができる。 ニューラルネットワークアセンブリの3つのアプローチは、転送学習、平均アンサンブル学習、および連続ネットワーク学習である。 結果は異なる実験におけるデータ共有に基づくアプローチと比較される。 我々は,提案プロトコルのセキュリティ問題を解析する。 分析は医療データに基づいているが、機械学習トレーニングの多人数計算の結果は理論的であり、複数の研究領域で実施可能である。

Deep learning has been successful in the theoretical aspect. For deep learning to succeed in industry, we need to have algorithms capable of handling many inconsistencies appearing in real data. These inconsistencies can have large effects on the implementation of a deep learning algorithm. Artificial Intelligence is currently changing the medical industry. However, receiving authorization to use medical data for training machine learning algorithms is a huge hurdle. A possible solution is sharing the data without sharing the patient information. We propose a multi-party computation protocol for the deep learning algorithm. The protocol enables to conserve both the privacy and the security of the training data. Three approaches of neural networks assembly are analyzed: transfer learning, average ensemble learning, and series network learning. The results are compared to approaches based on data-sharing in different experiments. We analyze the security issues of the proposed protocol. Although the analysis is based on medical data, the results of multi-party computation of machine learning training are theoretical and can be implemented in multiple research areas.
翻訳日:2023-03-08 17:21:53 公開日:2023-03-06
# 多言語方言検出のための2段階パイプライン

Two-stage Pipeline for Multilingual Dialect Detection ( http://arxiv.org/abs/2303.03487v1 )

ライセンス: Link先を確認
Ankit Vaidya and Aditya Kane(参考訳) 方言識別は、様々な大規模言語モデルをローカライズするための重要なタスクである。 本稿では,VarDial 2023共有タスクに対する我々のアプローチの概要を紹介する。 ここでは、3つの言語から3つまたは2つの方言を識別し、それぞれトラック1の9方向分類とトラック2の6方向分類を導出する。 提案手法は,2段階のシステムで構成され,他の参加者のシステムや過去の研究よりも優れている。 トラック1では58.54%、トラック2では85.61%となる。 私たちのコードベースは公開されています(https://github.com/ankit-vaidya19/EACL_VarDial2023)。

Dialect Identification is a crucial task for localizing various Large Language Models. This paper outlines our approach to the VarDial 2023 shared task. Here we have to identify three or two dialects from three languages each which results in a 9-way classification for Track-1 and 6-way classification for Track-2 respectively. Our proposed approach consists of a two-stage system and outperforms other participants' systems and previous works in this domain. We achieve a score of 58.54% for Track-1 and 85.61% for Track-2. Our codebase is available publicly (https://github.com/ankit-vaidya19/EACL_VarDial2023).
翻訳日:2023-03-08 17:21:40 公開日:2023-03-06
# 機械学習を用いたソフトウェア評価の最近の進歩

Recent Advances in Software Effort Estimation using Machine Learning ( http://arxiv.org/abs/2303.03482v1 )

ライセンス: Link先を確認
Victor Uc-Cetina(参考訳) ソフトウェア企業の数は、プロジェクト関連データをトレーニング予測モデルのための貴重な情報ソースとして保存することの重要性をすでに認識している。 このようなモデリングは、エンジニアチーム全体の労力見積の正確性を高めるために、適切な戦略を実装するための扉を開く。 この記事では、非アジャイルとアジャイルの方法論の両方でソフトウェア開発の取り組みを見積もるために使用される、最新の機械学習アプローチをレビューします。 プログラミングパターンのモデリングや,個々のエンジニアによる誤推定パターンといった,作業推定可能性の観点から,アジャイル方法論を採用するメリットを分析します。 我々は、データ駆動予測モデルによるソフトウェア作業の推定について、現在および将来のトレンドの分析で結論付けている。

An increasing number of software companies have already realized the importance of storing project-related data as valuable sources of information for training prediction models. Such kind of modeling opens the door for the implementation of tailored strategies to increase the accuracy in effort estimation of whole teams of engineers. In this article we review the most recent machine learning approaches used to estimate software development efforts for both, non-agile and agile methodologies. We analyze the benefits of adopting an agile methodology in terms of effort estimation possibilities, such as the modeling of programming patterns and misestimation patterns by individual engineers. We conclude with an analysis of current and future trends, regarding software effort estimation through data-driven predictive models.
翻訳日:2023-03-08 17:21:31 公開日:2023-03-06
# キャット型マグカップ」発見は可能か?(動画あり) LLMによるゼロショットオブジェクトナビゲーション

Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Based Zero-Shot Object Navigation ( http://arxiv.org/abs/2303.03480v1 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, James F. Mullen Jr., Dinesh Manocha(参考訳) 提案するlgxは「言語駆動、ゼロショット方式」で対象目標のナビゲーションを行う新しいアルゴリズムであり、具体化エージェントが予め未検討の環境で任意に記述された対象オブジェクトにナビゲートする。 提案手法は,LLMが環境の意味的文脈に関する暗黙的な知識をロボットの動き計画のための逐次入力にマッピングすることで,ナビゲーション決定のための言語モデル(LLM)の機能を利用する。 同時に、トレーニング済みのビジョンランゲージグラウンドモデルを用いて、一般化対象検出を行う。 OWL-ViT CLIP on Wheels (OWL CoW) の現在のベースラインよりも27%以上向上したRoboTHOR上での最先端のゼロショットオブジェクトナビゲーション結果が得られた。 さらに,ロボットナビゲーションにおけるLLMの利用について検討し,モデル出力に影響を与える様々な意味要因の分析を行った。 最後に,本手法の利点を実世界実験で示し,視覚にユニークな物体をナビゲートし検出する際のlgxの優れた性能を示す。

We present LGX, a novel algorithm for Object Goal Navigation in a "language-driven, zero-shot manner", where an embodied agent navigates to an arbitrarily described target object in a previously unexplored environment. Our approach leverages the capabilities of Large Language Models (LLMs) for making navigational decisions by mapping the LLMs implicit knowledge about the semantic context of the environment into sequential inputs for robot motion planning. Simultaneously, we also conduct generalized target object detection using a pre-trained Vision-Language grounding model. We achieve state-of-the-art zero-shot object navigation results on RoboTHOR with a success rate (SR) improvement of over 27% over the current baseline of the OWL-ViT CLIP on Wheels (OWL CoW). Furthermore, we study the usage of LLMs for robot navigation and present an analysis of the various semantic factors affecting model output. Finally, we showcase the benefits of our approach via real-world experiments that indicate the superior performance of LGX when navigating to and detecting visually unique objects.
翻訳日:2023-03-08 17:21:20 公開日:2023-03-06
# 不確実性定量化を伴う経頭蓋超音波の再生正規化流れ

Amortized Normalizing Flows for Transcranial Ultrasound with Uncertainty Quantification ( http://arxiv.org/abs/2303.03478v1 )

ライセンス: Link先を確認
Rafael Orozco, Mathias Louboutin, Ali Siahkoohi, Gabrio Rizzuti, Tristan van Leeuwen and Felix Herrmann(参考訳) 本稿では,画像化速度の向上に流れを利用した経頭蓋超音波断層撮影法とベイズ不確かさ定量化法を提案する。 本手法は物理インフォームド法とデータ駆動法を組み合わせて最終画像の再構成を高速化する。 我々は、既知の超音波物理を、大きな入射観測を圧縮する目的に組み込むために、物理インフォームド・サマリー統計を利用する。 この圧縮により、正規化フローの効率的なトレーニングが可能になり、画像構成に関係なく、データのサイズを標準化する。 これらの手法の組み合わせは、様々なトランスデューサ構成に一般化する高速不確実性認識画像再構成をもたらす。 本手法をシリコ実験で評価し,不確実性を定量化しながら撮像速度を大幅に改善できることを実証した。 従来の物理法との比較により画像再構成の品質を検証し,得られた不確かさが誤差で校正されていることを検証する。

We present a novel approach to transcranial ultrasound computed tomography that utilizes normalizing flows to improve the speed of imaging and provide Bayesian uncertainty quantification. Our method combines physics-informed methods and data-driven methods to accelerate the reconstruction of the final image. We make use of a physics-informed summary statistic to incorporate the known ultrasound physics with the goal of compressing large incoming observations. This compression enables efficient training of the normalizing flow and standardizes the size of the data regardless of imaging configurations. The combinations of these methods results in fast uncertainty-aware image reconstruction that generalizes to a variety of transducer configurations. We evaluate our approach with in silico experiments and demonstrate that it can significantly improve the imaging speed while quantifying uncertainty. We validate the quality of our image reconstructions by comparing against the traditional physics-only method and also verify that our provided uncertainty is calibrated with the error.
翻訳日:2023-03-08 17:21:03 公開日:2023-03-06
# タイムウインドウを用いたオフラインピックアップ・配信問題に対するローリングホライズンに基づく時間分解

Rolling Horizon based Temporal Decomposition for the Offline Pickup and Delivery Problem with Time Windows ( http://arxiv.org/abs/2303.03475v1 )

ライセンス: Link先を確認
Youngseo Kim, Danushka Edirimanna, Michael Wilbur, Philip Pugliese, Aron Laszka, Abhishek Dubey, Samitha Samaranayake(参考訳) 時間窓によるオフラインピックアップと配送の問題(PDPTW)は、輸送コミュニティにおける古典的な組合せ最適化の問題であり、計算的に非常に難しいことが証明されている。 問題の複雑さのため、現実的な問題インスタンスはヒューリスティックスによってのみ解決できる。 様々なヒューリスティックの中で共通の戦略は、問題分解、すなわち、より小さな部分問題の集合への大規模問題の還元であり、空間分解と時間分解は2つの自然なアプローチである。 空間分解は一定の条件下では成功したが、分解境界を越えてサブプロブレム解を縫い合わせることが困難であるため、効果的な時間分解は困難である。 本研究では,時間ウィンドウが狭いPDPTWのクラスを解くための時間分解手法を提案する。 近年,オンラインダイヤル・ア・ライド問題において,転がり地平線最適化の一般的な考え方とともに普及した手法を活用している。 我々の知る限りでは、このようなアプローチを用いてオフラインPDPTWを解く最初の試みである。 フレームワークのパフォーマンスとスケーラビリティを示すために、パラトランジットサービスの最適化をモチベーションの例として使用しています。 Google OR-Toolsを用いたオフラインヒューリスティックアルゴリズムとの比較を行った。 小さな問題例では、ベースラインアプローチはフレームワークと同じくらい競争力があります。 しかし、より大きな問題インスタンスでは、我々のフレームワークはよりスケーラブルで、様々な難易度の問題インスタンスに対して優れたソリューションを提供できる一方、ベースラインアルゴリズムは、同等の計算時間内で実現可能なソリューションを見つけるのに失敗することが多い。

The offline pickup and delivery problem with time windows (PDPTW) is a classical combinatorial optimization problem in the transportation community, which has proven to be very challenging computationally. Due to the complexity of the problem, practical problem instances can be solved only via heuristics, which trade-off solution quality for computational tractability. Among the various heuristics, a common strategy is problem decomposition, that is, the reduction of a large-scale problem into a collection of smaller sub-problems, with spatial and temporal decompositions being two natural approaches. While spatial decomposition has been successful in certain settings, effective temporal decomposition has been challenging due to the difficulty of stitching together the sub-problem solutions across the decomposition boundaries. In this work, we introduce a novel temporal decomposition scheme for solving a class of PDPTWs that have narrow time windows, for which it is able to provide both fast and high-quality solutions. We utilize techniques that have been popularized recently in the context of online dial-a-ride problems along with the general idea of rolling horizon optimization. To the best of our knowledge, this is the first attempt to solve offline PDPTWs using such an approach. To show the performance and scalability of our framework, we use the optimization of paratransit services as a motivating example. We compare our results with an offline heuristic algorithm using Google OR-Tools. In smaller problem instances, the baseline approach is as competitive as our framework. However, in larger problem instances, our framework is more scalable and can provide good solutions to problem instances of varying degrees of difficulty, while the baseline algorithm often fails to find a feasible solution within comparable compute times.
翻訳日:2023-03-08 17:20:48 公開日:2023-03-06
# 単一画像を用いた3次元人体テクスチャ推定

Refining 3D Human Texture Estimation from a Single Image ( http://arxiv.org/abs/2303.03471v1 )

ライセンス: Link先を確認
Said Fahri Altindis, Adil Meric, Yusuf Dalva, Ugur Gudukbay, Aysegul Dundar(参考訳) 1枚の画像から3次元の人間のテクスチャを推定することは、グラフィックスと視覚に欠かせない。 多様なポーズを持つ人間の入力画像からパラメトリック(uv)空間にマッピング機能を学習し、目に見えない部分を合理的に幻覚させる必要がある。 高品質な3次元ヒューマンテクスチャ推定を実現するために,オフセットをディープニューラルネットワークで学習する変形可能な畳み込みにより,入力を適応的にサンプリングするフレームワークを提案する。 さらに,ビューの一般化を改善する新しいサイクル一貫性の損失について述べる。 さらに,不確実性に基づく画素レベルの画像再構成損失を考慮し,カラー忠実度を高めることを提案する。 本手法を最先端手法と比較し,質的,定量的に改善した。

Estimating 3D human texture from a single image is essential in graphics and vision. It requires learning a mapping function from input images of humans with diverse poses into the parametric (UV) space and reasonably hallucinating invisible parts. To achieve a high-quality 3D human texture estimation, we propose a framework that adaptively samples the input by a deformable convolution where offsets are learned via a deep neural network. Additionally, we describe a novel cycle consistency loss that improves view generalization. We further propose to train our framework with an uncertainty-based pixel-level image reconstruction loss, which enhances color fidelity. We compare our method against the state-of-the-art approaches and show significant qualitative and quantitative improvements.
翻訳日:2023-03-08 17:20:22 公開日:2023-03-06
# 相対論的)量子力学における測定問題について

On the measurement problems in (relativistic) quantum mechanics ( http://arxiv.org/abs/2303.03465v1 )

ライセンス: Link先を確認
Antoine Soulas(参考訳) 我々は、(相対論的)量子力学において、測定の実装に比較して現れる主な問題を調べる。 このアプローチは、これらのトピックが理論物理学にとっていかに実りあるかを明らかにする。 測定問題の徹底的な解法を定式化しようとする努力は、測定の正確な定義と量子力学とデコヒーレンスを語る新しい語彙のおかげで、崩壊の状況と古典性の出現をよりよく理解することにつながる。 この結果は、量子力学の多世界解釈を超えた段階と見なすことができる。 相対論的制約が加えられると、任意の相対論的量子論を制約する一貫性条件が定式化され、そこから物理学の局所性だけでなく、量子場理論の文脈において微因性仮説も導出できる。 さらに、フェルミオン場の非可測性も意味する。 途中、量子力学を超越する決定論理論が定式化できないことを示すために、2つの異なる議論が与えられる。

We explore the main issues that appear in (relativistic) quantum mechanics relative to the implementation of measurements. This approach reveals how fruitful these topics are for theoretical physics. Endeavoring to formulate an exhaustive solution to the measurement problem leads us to a better understanding of the status of the collapse and of the emergence of classicality, thanks to a precise definition of the measurement and some new vocabulary to speak of quantum mechanics and decoherence. The result may be seen as a step beyond the many-worlds interpretation of quantum mechanics. When the relativistic constraints are added, a consistency condition constraining any relativistic quantum theory is formulated, from which can be deduced the locality of physics as well as, in the context of quantum field theory, the microcausality hypothesis. Moreover, it also implies the non-measurability of fermionic fields. On the way, two different arguments are given to show that a deterministic theory superseding quantum mechanics can not be formulated.
翻訳日:2023-03-08 17:20:10 公開日:2023-03-06
# 周期駆動を用いたGottesman-Kitaev-Preskill状態準備

Gottesman-Kitaev-Preskill state preparation using periodic driving ( http://arxiv.org/abs/2303.03541v1 )

ライセンス: Link先を確認
Xanda C. Kolesnikow, Raditya Weda Bomantara, Andrew C. Doherty, Arne L. Grimsmo(参考訳) Gottesman-Kitaev-Preskill (GKP) 符号は連続変数量子系のノイズを克服するために用いられる。 しかし、GKP状態の調製は実験的に困難である。 本稿では,Floquet状態がGKP状態である時間周期ハミルトニアンを工学的に構築する手法を提案する。 このハミルトニアンは、SQUIDによって駆動されるLC発振器からなる超伝導回路で実現できる。 GKPフロケット状態は、SQUIDループを通る外部磁束駆動の断熱ランプで作成することができる。 我々は,光子損失やフラックスノイズが現実的な速度で存在する場合でも,高度に圧縮された(>11.5 dB)GKPマジック状態がサブミクロ秒の時間スケールで生成可能であることを予測した。

The Gottesman-Kitaev-Preskill (GKP) code may be used to overcome noise in continuous variable quantum systems. However, preparing GKP states remains experimentally challenging. We propose a method for preparing GKP states by engineering a time-periodic Hamiltonian whose Floquet states are GKP states. This Hamiltonian may be realized in a superconducting circuit comprising an LC oscillator shunted by a SQUID. The GKP Floquet states can be prepared by an adiabatic ramp of an external magnetic flux drive through the SQUID loop. We predict that highly squeezed (>11.5 dB) GKP magic states can be prepared on a sub-microsecond timescale, even in the presence of photon loss and flux noise at realistic rates.
翻訳日:2023-03-08 17:13:08 公開日:2023-03-06
# 判断するAdam:ML4SEタスクにおける最適化手法の性能に関する研究

Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks ( http://arxiv.org/abs/2303.03540v1 )

ライセンス: Link先を確認
Dmitry Pasechnyuk, Anton Prazdnichnykh, Mikhail Evtikhiev, Timofey Bryksin(参考訳) ディープラーニングモデルで問題を解決するには、ある最適化手法で損失関数を最適化する必要がある。 研究コミュニティは100以上の異なるオプティマイザを開発したが、さまざまなタスクにおけるオプティマイザのパフォーマンスに関するデータは乏しい。 特に、どのベンチマークもソースコード関連の問題に対するオプティマイザのパフォーマンスをテストしていない。 しかし、既存のベンチマークデータは、特定のドメインに対してより効率的な最適化が可能であることを示している。 本研究では,ソースコードの深層学習モデルにおける各種オプティマイザの性能を検証し,オプティマイザの選択がモデル品質に大きな影響を与え,比較的優れたオプティマイザの最大2倍のスコア差が生じることを確認する。 また、RAdamオプティマイザ(およびLookaheadエンベロープによる修正)が、ほぼ常に考慮しているタスクでうまく機能する最適なオプティマイザであることもわかりました。 以上の結果から,コード関連タスクにおける最適化のより広範な研究の必要性が示唆され,ML4SEコミュニティではAdamの代わりにRAdamをコード関連ディープラーニングタスクのデフォルトオプティマイザとして使用すべきであることが示唆された。

Solving a problem with a deep learning model requires researchers to optimize the loss function with a certain optimization method. The research community has developed more than a hundred different optimizers, yet there is scarce data on optimizer performance in various tasks. In particular, none of the benchmarks test the performance of optimizers on source code-related problems. However, existing benchmark data indicates that certain optimizers may be more efficient for particular domains. In this work, we test the performance of various optimizers on deep learning models for source code and find that the choice of an optimizer can have a significant impact on the model quality, with up to two-fold score differences between some of the relatively well-performing optimizers. We also find that RAdam optimizer (and its modification with the Lookahead envelope) is the best optimizer that almost always performs well on the tasks we consider. Our findings show a need for a more extensive study of the optimizers in code-related tasks, and indicate that the ML4SE community should consider using RAdam instead of Adam as the default optimizer for code-related deep learning tasks.
翻訳日:2023-03-08 17:12:55 公開日:2023-03-06
# 非侵入負荷モニタリングのための進化的ディープネット

Evolutionary Deep Nets for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2303.03538v1 )

ライセンス: Link先を確認
Jinsong Wang, Kenneth A. Loparo(参考訳) 非侵入負荷モニタリング(non-intrusive load monitoring, nilm)は、住宅内の個々の家電の消費電力を、ビルレベルメータの読み取りなどの集約シングルで追跡するエネルギー効率技術である。 nilmの目標は、計算手法によってアプライアンスを集約シングルから分離することである。 本研究では,デグレゲーションを操作するためにディープラーニングアプローチを実装した。 この動作には、ディープニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワークが使用される。 さらに、各ディープラーニングモデルのトレーニング効率を加速するために、スパース進化的トレーニングが適用される。 この作業にはUK-Daleデータセットが使用される。

Non-Intrusive Load Monitoring (NILM) is an energy efficiency technique to track electricity consumption of an individual appliance in a household by one aggregated single, such as building level meter readings. The goal of NILM is to disaggregate the appliance from the aggregated singles by computational method. In this work, deep learning approaches are implemented to operate the desegregations. Deep neural networks, convolutional neural networks, and recurrent neural networks are employed for this operation. Additionally, sparse evolutionary training is applied to accelerate training efficiency of each deep learning model. UK-Dale dataset is used for this work.
翻訳日:2023-03-08 17:12:32 公開日:2023-03-06
# InGaAs多層構造における熱間輸送体の緩和における非平衡LOフォノン, パウリ排除, インターバルリー経路の役割

The Role of Nonequilibrium LO Phonons, Pauli Exclusion, and Intervalley Pathways on the Relaxation of Hot Carriers in InGaAs Multi-Quantum-Well Structures ( http://arxiv.org/abs/2303.03537v1 )

ライセンス: Link先を確認
Yongjie Zou, Hamidreza Esmaielpour, Daniel Suchet, Jean-Fran\c{c}ois Guillemoles, Stephen M. Goodnick(参考訳) InGaAs多量子井戸(MQW)構造における連続波レーザー励起の下では、注入されたキャリア密度が増加するにつれて、発光から抽出されたキャリア温度は、980nm励起と比較して405nm励起で速く上昇する。 mqw系におけるキャリアダイナミクスのアンサンブルモンテカルロシミュレーションにより、このキャリア温度上昇は非平衡loフォノン効果によって支配され、パウリの排他は高いキャリア密度で有意な効果を持つことが示された。 さらに,観測衛星のl-バレーに存在するキャリアのかなりの割合は,インターバルリー移動が強いために405nmの励起のために存在し,モデルからインターバルリー移動が除外された場合と比較して,中央谷ではより冷涼な定常電子温度となることがわかった。 実験とシミュレーションの良好な一致が示され、詳細な分析がなされている。 この研究は、太陽電池のエネルギー損失のさらなる制限に応用できる半導体中のホットキャリア人口のダイナミクスに関する我々の知識を広げるものである。

Under continuous-wave laser excitation in an InGaAs multi-quantum-well (MQW) structure, the carrier temperature extracted from photoluminescence rises faster for 405 nm excitation compared with 980 nm excitation, as the injected carrier density increases. Ensemble Monte Carlo simulation of the carrier dynamics in the MQW system shows that this carrier temperature rise is dominated by nonequilibrium LO phonon effects, with the Pauli exclusion having a significant effect at high carrier densities. Further, we find a significant fraction of carriers reside in the satellite L-valleys for 405 nm excitation due to strong intervalley transfer, leading to a cooler steady-state electron temperature in the central valley compared with the case when intervalley transfer is excluded from the model. Good agreement between experiment and simulation has been shown, and a detailed analysis has been presented. This study expands our knowledge of the dynamics of the hot carrier population in semiconductors, which can be applied to further limit energy loss in solar cells.
翻訳日:2023-03-08 17:12:20 公開日:2023-03-06
# 最適サブコントローラを用いたデクスタース操作学習のための価値誘導探索

Value Guided Exploration with Sub-optimal Controllers for Learning Dexterous Manipulation ( http://arxiv.org/abs/2303.03533v1 )

ライセンス: Link先を確認
Gagan Khandate, Cameron Mehlman, Xingsheng Wei, Matei Ciocarlie(参考訳) 近年,強化学習により,複雑化を伴う巧妙な操作能力が実現されている。 それでも、これらのスキルをシミュレーションで学ぶことは、これらのスキルがドメインの専門知識の恩恵を受けずにゼロから学習されるという事実に由来する、サンプル効率の低さを示す。 本研究では,ドメイン知識を介して利用可能な準最適制御器を用いて手動操作スキルを学習する際のサンプル効率を向上させることを目的とする。 本フレームワークは,タスクに関連する状態空間への探索を最適にクエリし,サンプルの複雑さの向上を示す。 また,我々は探索的リセット分布を使わずに,手作業による操作スキルの習得を初めて実証した。

Recently, reinforcement learning has allowed dexterous manipulation skills with increasing complexity. Nonetheless, learning these skills in simulation still exhibits poor sample-efficiency which stems from the fact these skills are learned from scratch without the benefit of any domain expertise. In this work, we aim to improve the sample-efficiency of learning dexterous in-hand manipulation skills using sub-optimal controllers available via domain knowledge. Our framework optimally queries the sub-optimal controllers and guides exploration toward state-space relevant to the task thereby demonstrating improved sample complexity. We show that our framework allows learning from highly sub-optimal controllers and we are the first to demonstrate learning hard-to-explore finger-gaiting in-hand manipulation skills without the use of an exploratory reset distribution.
翻訳日:2023-03-08 17:11:58 公開日:2023-03-06
# メンタルヘルスにおける人工知能の臨床的意思決定支援への応用:我々は何を学んだのか?

Applying Artificial Intelligence to Clinical Decision Support in Mental Health: What Have We Learned? ( http://arxiv.org/abs/2303.03511v1 )

ライセンス: Link先を確認
Grace Golden, Christina Popescu, Sonia Israel, Kelly Perlman, Caitrin Armstrong, Robert Fratila, Myriam Tanguay-Sela, and David Benrimoh(参考訳) 人工知能(AI)モデルで強化された臨床意思決定支援システム(CDSS)は、医療において潜在的に価値のあるツールとして浮上している。 彼らの約束にもかかわらず、これらのシステムの開発と実装は、一般的にいくつかの障壁に遭遇し、広く採用される可能性を妨げる。 本稿では、近年開発されたAI-CDSSであるAifred Healthを事例として、うつ病における治療の選択と管理を支援する。 我々は、このAI-CDSSの開発およびテスト中にもたらされた原則と、実装を容易にするために開発された実践的ソリューションの両方を考慮する。 また,AI-CDSSの構築,検証,トレーニング,実施プロセス全体について検討することを提案する。 これらの推奨事項には、鍵となる問題を特定すること、この問題に基づいて機械学習アプローチの種類を選択すること、必要なデータの種類を決定すること、CDSSが臨床ユーティリティを提供するために必要なフォーマットを決定すること、医師と患者のフィードバックを集めること、複数の設定でツールを検証することが含まれる。 最後に,これらのシステムの普及による潜在的なメリットについて検討すると同時に,システムによる臨床ワークフローの中断の防止や,エンドユーザの信頼感を高めるようなシステム設計など,実装上の課題とのバランスをとる。

Clinical decision support systems (CDSS) augmented with artificial intelligence (AI) models are emerging as potentially valuable tools in healthcare. Despite their promise, the development and implementation of these systems typically encounter several barriers, hindering the potential for widespread adoption. Here we present a case study of a recently developed AI-CDSS, Aifred Health, aimed at supporting the selection and management of treatment in major depressive disorder. We consider both the principles espoused during development and testing of this AI-CDSS, as well as the practical solutions developed to facilitate implementation. We also propose recommendations to consider throughout the building, validation, training, and implementation process of an AI-CDSS. These recommendations include: identifying the key problem, selecting the type of machine learning approach based on this problem, determining the type of data required, determining the format required for a CDSS to provide clinical utility, gathering physician and patient feedback, and validating the tool across multiple settings. Finally, we explore the potential benefits of widespread adoption of these systems, while balancing these against implementation challenges such as ensuring systems do not disrupt the clinical workflow, and designing systems in a manner that engenders trust on the part of end users.
翻訳日:2023-03-08 17:11:45 公開日:2023-03-06
# テキストにおける罪悪感検出: 複雑な感情理解への一歩

Guilt Detection in Text: A Step Towards Understanding Complex Emotions ( http://arxiv.org/abs/2303.03510v1 )

ライセンス: Link先を確認
Abdul Gafar Manuel Meque, Nisar Hussain, Grigori Sidorov, and Alexander Gelbukh(参考訳) 我々は,テキスト中の罪を検知することに焦点を当てた,ギルト検出と呼ばれる新しい自然言語処理(NLP)タスクを導入する。 我々は、罪悪感を、これまでNLPで研究されていない複雑で重要な感情であると認識し、よりきめ細かい分析を行うことを目指している。 VICは既存の3つの感情検出データセットから4622のテキストを含むデータセットで、罪悪感と罪悪感のクラスに二項化したものです。 従来の機械学習手法であるbaba-of-wordsと用語周波数逆文書頻度特徴を用いた実験を行い,最高性能モデルを用いて72%のf1スコアを得た。 本研究は,テキストにおける罪悪感の理解への第一歩として,今後の研究への扉を開くものである。

We introduce a novel Natural Language Processing (NLP) task called Guilt detection, which focuses on detecting guilt in text. We identify guilt as a complex and vital emotion that has not been previously studied in NLP, and we aim to provide a more fine-grained analysis of it. To address the lack of publicly available corpora for guilt detection, we created VIC, a dataset containing 4622 texts from three existing emotion detection datasets that we binarized into guilt and no-guilt classes. We experimented with traditional machine learning methods using bag-of-words and term frequency-inverse document frequency features, achieving a 72% f1 score with the highest-performing model. Our study provides a first step towards understanding guilt in text and opens the door for future research in this area.
翻訳日:2023-03-08 17:11:23 公開日:2023-03-06
# UAVにおけるビデオ物体検出・追跡のためのメモリマップ

Memory Maps for Video Object Detection and Tracking on UAVs ( http://arxiv.org/abs/2303.03508v1 )

ライセンス: Link先を確認
Benjamin Kiefer, Yitong Quan, Andreas Zell(参考訳) 本稿では,無人航空機(UAV)におけるビデオ物体検出と追跡のための新しい手法を提案する。 メタデータを組み込むことで、実際の世界座標におけるオブジェクト位置のメモリマップを作成し、画像空間と現実世界の両方におけるオブジェクト位置のより堅牢で解釈可能な表現を提供する。 この表現は信頼性を高めるために使用され、ビデオオブジェクト検出、短期・長期の単目的・多目的追跡、ビデオ異常検出などの時間的コンピュータビジョンタスクのパフォーマンスが向上する。 これらの知見は, 時間的コンピュータビジョンの分野におけるUAVの能力向上におけるメタデータのメリットを確認し, この分野のさらなる進歩への道を開くものである。

This paper introduces a novel approach to video object detection detection and tracking on Unmanned Aerial Vehicles (UAVs). By incorporating metadata, the proposed approach creates a memory map of object locations in actual world coordinates, providing a more robust and interpretable representation of object locations in both, image space and the real world. We use this representation to boost confidences, resulting in improved performance for several temporal computer vision tasks, such as video object detection, short and long-term single and multi-object tracking, and video anomaly detection. These findings confirm the benefits of metadata in enhancing the capabilities of UAVs in the field of temporal computer vision and pave the way for further advancements in this area.
翻訳日:2023-03-08 17:11:09 公開日:2023-03-06
# 超伝導量子プロセッサにおける動的再構成可能な光子交換

Dynamically Reconfigurable Photon Exchange in a Superconducting Quantum Processor ( http://arxiv.org/abs/2303.03507v1 )

ライセンス: Link先を確認
Brian Marinelli, Jie Luo, Hengjiang Ren, Bethany M. Niedzielski, David K. Kim, Rabindra Das, Mollie Schwartz, David I. Santiago, and Irfan Siddiqi(参考訳) 量子計算の利点を実現するには、多くの量子ビット(量子ビット)の状態のヒルベルト空間にアクセスする必要がある。 したがって、大規模な量子計算は、多くの量子ビット間の絡み合いを効率的に生成するという課題に直面している。 量子ビット間の直接接続数が限られているシステムでは、非アレスト近傍の量子ビット間の絡み合いは、隣り合う一連のゲートによって発生し、結果として生じる忠実さを指数関数的に抑制する。 本稿では,新しいオンチップ光子交換ネットワークの提案と実証を行う。 このフォトニックネットワークは超伝導量子プロセッサ(qpu)に埋め込まれ、任意に再構成可能な量子ビット接続グラフを実装する。 距離分離が最大9.2~\text{cm}$の量子ビット間の長距離量子ビット相互作用を蛇行したバス共振器で示し、光子交換レートを最大$g_{\text{qq}} = 2\pi \times 0.9~\text{MHz}$とする。 これらの実験的なデモンストレーションは、高結合で再構成可能な量子フォトニックネットワークを実現する基盤を提供し、モジュラー量子コンピューティングへの新しい道を開く。

Realizing the advantages of quantum computation requires access to the full Hilbert space of states of many quantum bits (qubits). Thus, large-scale quantum computation faces the challenge of efficiently generating entanglement between many qubits. In systems with a limited number of direct connections between qubits, entanglement between non-nearest neighbor qubits is generated by a series of nearest neighbor gates, which exponentially suppresses the resulting fidelity. Here we propose and demonstrate a novel, on-chip photon exchange network. This photonic network is embedded in a superconducting quantum processor (QPU) to implement an arbitrarily reconfigurable qubit connectivity graph. We show long-range qubit-qubit interactions between qubits with a maximum spatial separation of $9.2~\text{cm}$ along a meandered bus resonator and achieve photon exchange rates up to $g_{\text{qq}} = 2\pi \times 0.9~\text{MHz}$. These experimental demonstrations provide a foundation to realize highly connected, reconfigurable quantum photonic networks and opens a new path towards modular quantum computing.
翻訳日:2023-03-08 17:10:56 公開日:2023-03-06
# 非平衡電荷キャリアの光マッピング

Optical mapping of non-equilibrium charge carriers ( http://arxiv.org/abs/2303.03506v1 )

ライセンス: Link先を確認
E. David Guarin Castro, A. Pfenning, F. Hartmann, G. Knebl, M. Daldin Teodoro, Gilmar E. Marques, S. H\"ofling, G. Bastard, V. Lopez-Richard(参考訳) 非平衡電荷キャリアの光学的および輸送的ダイナミクスを評価し,共振トンネルヘテロ構造におけるエネルギー緩和セグメンテーションについて検討した。 電気的および光学的特性は、連続波モードにおける電子輸送測定と電気およびフォトルミネッセンス分光法を組み合わせて分析する。 放射再結合は主に重孔 \textit{via} 衝突イオン化過程の生成によって制御される。 以上の結果から,熱電子とブラックホールの集団は非平衡系を形成することが示唆された。 その結果、キャリアの有効温度はヘテロ構造の異なる領域で独立に変化し、電子よりも低温のホールの集団分布が変化する。

We investigate the energy relaxation segmentation in a resonant tunneling heterostructures by assessing the optical and transport dynamics of non-equilibrium charge carriers. The electrical and optical properties are analyzed using electronic transport measurements combined with electro- and photoluminescence spectroscopies in continuous-wave mode. The radiative recombination is mainly governed by the creation of heavy holes \textit{via} impact ionization processes. Our results suggest hot electrons and holes populations form independent non-equilibrium systems that do not thermalize among them and with the lattice. Consequently, the carriers effective temperature changes independently at different regions of the heterostructure, with a population distribution for holes colder than for electrons.
翻訳日:2023-03-08 17:10:34 公開日:2023-03-06
# 超高速分子フレーム量子トモグラフィ

Ultrafast Molecular Frame Quantum Tomography ( http://arxiv.org/abs/2303.03558v1 )

ライセンス: Link先を確認
Luna Morrigan, Simon P. Neville, Margaret Gregory, Andrey E. Boguslavskiy, Ruaridh Forbes, Iain Wilkinson, Rune Lausten, Albert Stolow, Michael S. Schuurman, Paul Hockett, Varun Makhija(参考訳) 動的多原子系のフル分子フレーム量子トモグラフィー(MFQT)の方法論を開発し、アンモニア分子(NH$_3$)における非アディアバトック電子波束の完全な特徴付けに応用した。 この方法は、エネルギーと時間領域の分光データの両方を利用し、分子フレームの電子的および振動的ダイナミクスを完全に特徴づける集団とコヒーレンスであるシステムのための実験用フレーム密度行列(LFDM)を生成する。 システムの特徴化以外にも、関連する演算子の時間と向きに依存した期待値をLFDMを用いて構築することができる。 例えば、時間依存の分子フレーム電子確率密度を構築し、分子フレーム内の電荷の流れに関する情報を出力し、システム内の絡み合いを判定することができる。 一般に、MFQTは超高速分子動力学、情報処理、気象学、最適制御スキームの研究の新しいルートを提供する。

A methodology for a full molecular frame quantum tomography (MFQT) of dynamical polyatomic systems is developed, and applied to fully characterize a non-adiabatc electronic wavepacket in ammonia molecules (NH$_3$). The method exploits both energy and time-domain spectroscopic data, and yields the lab frame density matrix (LFDM) for the system, the elements of which are populations and coherences fully characterising the electronic and vibrational dynamics in the molecular frame. Beyond characterizing the system, time and orientation angle dependent expectation values of any relevant operator may be constructed using the LFDM. For example, the time-dependent molecular frame electronic probability density may be constructed, yielding information on charge flow in the molecular frame, and entanglement within the system can be determined. In general MFQT provides new routes to the study of ultrafast molecular dynamics, information processing, metrology and optimal control schemes.
翻訳日:2023-03-08 17:04:28 公開日:2023-03-06
# ハイパースペクトル圧縮波面センシング

Hyperspectral Compressive Wavefront Sensing ( http://arxiv.org/abs/2303.03555v1 )

ライセンス: Link先を確認
Sunny Howard, Jannik Esslinger, Robin H.W. Wang, Peter Norreys, and Andreas Doepp(参考訳) 超短パルスレーザーパルスの時空間スペクトル位相を単一のショットで捉えるために,スナップショット圧縮イメージングと横せん断干渉法を組み合わせた新しい方法を提案する。 ディープ・アンローリング・アルゴリズムは、パラメータ効率と他の手法と比較して高速であるため、スナップショット圧縮画像再構成に利用される。 アルゴリズムの正規化項は3次元畳み込み層を持つニューラルネットワークを用いて表現され、レーザー波面に存在する時空間スペクトル相関を利用する。 圧縮センシングは通常、変調信号には適用されないが、ここではその成功を示す。 さらに,ゼラルニケ多項式を用いて横せん断干渉図から波面を予測できるようにニューラルネットワークを訓練し,精度を犠牲にすることなく手法の速度を再び向上させる。 この手法はシミュレーションに基づく結果によって支持される。 横せん断干渉法(英語版)の例にも適用できるが、この手法はシャック・ハートマン型センサを含む幅広い信号に適用できる。 この結果は、定量的位相イメージングを含むレーザー波面のキャラクタリゼーションの文脈を超えている可能性がある。

Presented is a novel way to combine snapshot compressive imaging and lateral shearing interferometry in order to capture the spatio-spectral phase of an ultrashort laser pulse in a single shot. A deep unrolling algorithm is utilised for the snapshot compressive imaging reconstruction due to its parameter efficiency and superior speed relative to other methods, potentially allowing for online reconstruction. The algorithm's regularisation term is represented using neural network with 3D convolutional layers, to exploit the spatio-spectral correlations that exist in laser wavefronts. Compressed sensing is not typically applied to modulated signals, but we demonstrate its success here. Furthermore, we train a neural network to predict the wavefronts from a lateral shearing interferogram in terms of Zernike polynomials, which again increases the speed of our technique without sacrificing fidelity. This method is supported with simulation-based results. While applied to the example of lateral shearing interferometry, the methods presented here are generally applicable to a wide range of signals, including Shack-Hartmann-type sensors. The results may be of interest beyond the context of laser wavefront characterization, including within quantitative phase imaging.
翻訳日:2023-03-08 17:04:11 公開日:2023-03-06
# 欠測データを用いた時系列のロバスト支配的周期性検出

Robust Dominant Periodicity Detection for Time Series with Missing Data ( http://arxiv.org/abs/2303.03553v1 )

ライセンス: Link先を確認
Qingsong Wen, Linxiao Yang, Liang Sun(参考訳) 周期性検出は時系列解析において重要な課題であるが、急激な傾向変化、外れ値、ノイズ、特に欠落データなどの時系列データの多様な特性のため、依然として困難な問題である。 本稿では,ブロック欠落データを含む時系列に対するロバストで効果的な周期性検出アルゴリズムを提案する。 まず,データ欠落時の複雑な傾向パターンの干渉を除去すべく,ロバストなトレンドフィルタを設計した。 次に,不足値や異常値を効果的に処理できるロバスト自己相関関数(acf)を提案する。 欠落ブロックの長さが周期長の1/3ドル未満である場合、提案したロバスト ACF が引き続き有効であることを厳密に証明する。 最後に、時間周波数情報を組み合わせることで、アルゴリズムは周期長を正確に生成できる。 実験の結果,本アルゴリズムは実世界の時系列データセットにおいて,既存の周期性検出アルゴリズムよりも優れていた。

Periodicity detection is an important task in time series analysis, but still a challenging problem due to the diverse characteristics of time series data like abrupt trend change, outlier, noise, and especially block missing data. In this paper, we propose a robust and effective periodicity detection algorithm for time series with block missing data. We first design a robust trend filter to remove the interference of complicated trend patterns under missing data. Then, we propose a robust autocorrelation function (ACF) that can handle missing values and outliers effectively. We rigorously prove that the proposed robust ACF can still work well when the length of the missing block is less than $1/3$ of the period length. Last, by combining the time-frequency information, our algorithm can generate the period length accurately. The experimental results demonstrate that our algorithm outperforms existing periodicity detection algorithms on real-world time series datasets.
翻訳日:2023-03-08 17:03:52 公開日:2023-03-06
# ソーシャルメディアにおける最適エンゲージメント・ダイバーシティ・トレードオフ

Optimal Engagement-Diversity Tradeoffs in Social Media ( http://arxiv.org/abs/2303.03549v1 )

ライセンス: Link先を確認
Fabian Baumann, Daniel Halpern, Ariel D. Procaccia, Iyad Rahwan, Itai Shapira, Manuel Wuthrich(参考訳) ソーシャルメディアプラットフォームは、アルゴリズムの助けを借りてユーザーのエンゲージメントを最適化することが知られている。 この慣行がエコーチャンバーを生じさせることは広く理解されており、エムダッシュの利用者は、主に自分自身に類似した意見に晒されている。 本稿では,エコーチャンバーが高いエンゲージメントの必然的な結果であるかどうかを問う。 我々の理論の主な結果は、多様性の制約の下で達成可能な最大エンゲージメントの境界を確立し、それゆえ、これらの2つの目的間の最悪のトレードオフを定量化することができる。 われわれの経験的結果は、Twitterの実際のデータに基づいて、エンゲージメントと多様性のトレードオフのParetoフロンティアをグラフ化した。

Social media platforms are known to optimize user engagement with the help of algorithms. It is widely understood that this practice gives rise to echo chambers\emdash users are mainly exposed to opinions that are similar to their own. In this paper, we ask whether echo chambers are an inevitable result of high engagement; we address this question in a novel model. Our main theoretical results establish bounds on the maximum engagement achievable under a diversity constraint, for suitable measures of engagement and diversity; we can therefore quantify the worst-case tradeoff between these two objectives. Our empirical results, based on real data from Twitter, chart the Pareto frontier of the engagement-diversity tradeoff.
翻訳日:2023-03-08 17:03:37 公開日:2023-03-06
# 人間-ロボットインタラクションのためのゼロショットヒューマンモデルとしての大規模言語モデル

Large Language Models as Zero-Shot Human Models for Human-Robot Interaction ( http://arxiv.org/abs/2303.03548v1 )

ライセンス: Link先を確認
Bowen Zhang and Harold Soh(参考訳) 人間とロボットの相互作用(HRI)において、人間モデルは重要な役割を果たす。 しかし、優れた人間のモデルを作成することは困難であり、文脈に依存した人間の振る舞いを捉えるには、かなりの事前知識や大量の相互作用データが必要である。 本研究では,HRIのゼロショット人間モデルとして機能する大規模言語モデル(LLM)の可能性を探る。 3つのソーシャルデータセットに関する我々の実験は有望な結果をもたらし、LLMは目的のモデルに匹敵する性能を達成することができる。 とは言っても、プロンプトに対する感受性や空間的/数値的推論の誤りなど、現在の制限についても論じる。 本研究は,LLMをベースとした人体モデルを社会ロボットの計画プロセスに統合し,HRIシナリオに適用できることを示す。 具体的には,信頼度に基づくテーブルクリアリングタスクをシミュレートした1つのケーススタディと,カスタムモデルに依存する過去の結果を再現する。 次に, LLMをベースとした人体モデルによる計画が, 基本的な筋電図計画よりも向上できることを示す, 新たなロボット器具通過実験(n = 65)を行う。 以上の結果から,LLMはHRIのための人体モデリングに有望な(しかし不完全な)アプローチを提供することが示された。

Human models play a crucial role in human-robot interaction (HRI), enabling robots to consider the impact of their actions on people and plan their behavior accordingly. However, crafting good human models is challenging; capturing context-dependent human behavior requires significant prior knowledge and/or large amounts of interaction data, both of which are difficult to obtain. In this work, we explore the potential of large-language models (LLMs) -- which have consumed vast amounts of human-generated text data -- to act as zero-shot human models for HRI. Our experiments on three social datasets yield promising results; the LLMs are able to achieve performance comparable to purpose-built models. That said, we also discuss current limitations, such as sensitivity to prompts and spatial/numerical reasoning mishaps. Based on our findings, we demonstrate how LLM-based human models can be integrated into a social robot's planning process and applied in HRI scenarios. Specifically, we present one case study on a simulated trust-based table-clearing task and replicate past results that relied on custom models. Next, we conduct a new robot utensil-passing experiment (n = 65) where preliminary results show that planning with a LLM-based human model can achieve gains over a basic myopic plan. In summary, our results show that LLMs offer a promising (but incomplete) approach to human modeling for HRI.
翻訳日:2023-03-08 17:03:25 公開日:2023-03-06
# 磁気ツェッペリン:Hz系における重力駆動の検出

Magnetic Zeppelin: Detection of gravitational drive in the Hz regime ( http://arxiv.org/abs/2303.03545v1 )

ライセンス: Link先を確認
Tim M. Fuchs, Dennis Uitenbroek, Jaimy Plugge, Noud van Halteren, Andrea Vinante, Hendrik Ulbricht and Tjerk H. Oosterkamp(参考訳) 極端に孤立した機械共鳴器は、小さな力と量子力学的効果に優れたプローブである。 さらに、低周波数で作動するそのような系は、量子力学的効果と重力効果の両方を測定するのに適しており、正確な記述はまだ統一されていない。 本稿では,i型超伝導トラップの内側に浮遊するサブミリメートルスケールの磁性粒子について述べる。 26.7Hz、質量0.4mg、Q因子10$^7$を超える周波数で、0.5$fN\sqrt{Hz}$の力雑音を得た。 この力の感度は、クリオスタットの下にある電気車輪に真珠質量から供給される時間変化の重力勾配を用いて磁気粒子を駆動することで検証され、将来の実験の道筋となった。 磁気粒子の位置で期待されるニュートン重力の3/8で信号を測定した。 この違いは,トラップが吊り下げられた質量ばね系に対する重力駆動の影響によるものである。 この研究は、重力のメソスコピックプローブと重力の量子的性質へのステップストーンを提供し、磁気学と磁気共鳴力顕微鏡に応用できる。

Extremely isolated mechanical resonators are excellent probes for small scale forces and quantum mechanical effects. Furthermore, such systems operating at low frequencies and appericiable mass are well suited to measure both quantum mechanical effects, and gravitational effect, whose exact descriptions have yet to be unified. In this paper we demonstrate a sub-millimeter scale magnetic particle, levitated inside a type-I superconducting trap. At a frequency of 26.7 Hz, a mass of 0.4 mg and showing Q-factors in excess of 10$^7$, we obtained a force noise of 0.5 $fN\sqrt{Hz}$. This force sensitivity was then validated by driving the magnetic particle using a time varying gravitational gradient supplied by brass masses on an electric wheel positioned underneath the cryostat, paving the way for future experiments gravitationally coupling small test and source masses. We measured a signal at 3/8 of the expected Newtonian gravitational force at the location of the magnetic particle. We attribute this difference to the effect of the gravitational drive on the mass spring system from which the trap was suspended. This work provides a stepping stone towards mesoscopic probes of gravity and the quantum nature of gravity, and can find application in magnetometry and magnetic resonance force microscopy.
翻訳日:2023-03-08 17:03:00 公開日:2023-03-06
# 多項式近似のための浅層および深層ニューラルネットワークの表現性

Expressivity of Shallow and Deep Neural Networks for Polynomial Approximation ( http://arxiv.org/abs/2303.03544v1 )

ライセンス: Link先を確認
Itai Shapira(参考訳) reluニューラルネットワークが多変量モノミアルを近似する必要があるニューロンの数を分析する。 一般コンパクト領域上の積函数 $\vec{x} \to \prod_{i=1}^d x_i$ を近似する任意の浅いネットワークの複雑性に対する指数的下界を確立する。 さらに、この下界が正規化された O(1)-Lipschitz 単項(または、単位立方体に制限することで)に対して成り立たないことを証明する。 これらの結果から,Lipschitzパラメータによる関数のスケーリングにおいて,浅部ReLUネットワークは次元性の呪いに悩まされ,ニューラルネットワークの表現力は全体的な複雑さよりも深部にあることが示唆された。

We analyze the number of neurons that a ReLU neural network needs to approximate multivariate monomials. We establish an exponential lower bound for the complexity of any shallow network that approximates the product function $\vec{x} \to \prod_{i=1}^d x_i$ on a general compact domain. Furthermore, we prove that this lower bound does not hold for normalized O(1)-Lipschitz monomials (or equivalently, by restricting to the unit cube). These results suggest shallow ReLU networks suffer from the curse of dimensionality when expressing functions with a Lipschitz parameter scaling with the dimension of the input, and that the expressive power of neural networks lies in their depth rather than the overall complexity.
翻訳日:2023-03-08 17:02:40 公開日:2023-03-06
# 3次元同変拡散による分子生成と親和性予測

3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction ( http://arxiv.org/abs/2303.03543v1 )

ライセンス: Link先を確認
Jiaqi Guan, Wesley Wei Qian, Xingang Peng, Yufeng Su, Jian Peng, Jianzhu Ma(参考訳) リッチデータと強力な機械学習モデルにより、特定のタンパク質の標的である \textit{in silico} の薬を設計できる。 近年,3d空間における原子間相互作用が明示的にモデル化されているため,標的薬物設計中に3d構造が組み込まれることは,他の標的フリーモデルよりも優れた性能を示す。 しかし、現在の3Dターゲットアウェアモデルは、ボキセル化原子密度または自己回帰サンプリングプロセスに依存しており、回転に不変ではないか、非現実的な構造をもたらす幾何学的制約に容易に違反する。 本研究では,上記の課題を解決する3次元同変拡散モデルを開発した。 ターゲット認識分子設計を実現するため,SE(3)-同変ネットワークを用いた連続原子座標とカテゴリー原子型の両方の結合生成過程を学習する。 さらに, 本モデルは, 適切なパラメータ化下での結合親和性を推定するための教師なし特徴抽出器として機能することを示し, 薬物スクリーニングに有効な方法を示した。 本モデルを評価するため,異なる次元から試料分子の品質を評価するための包括的枠組みを提案する。 実験研究では,よりリアルな3d構造を持つ分子を生成でき,タンパク質標的に対する親和性が向上し,再訓練することなく結合親和性ランキングや予測が向上することが示された。

Rich data and powerful machine learning models allow us to design drugs for a specific protein target \textit{in silico}. Recently, the inclusion of 3D structures during targeted drug design shows superior performance to other target-free models as the atomic interaction in the 3D space is explicitly modeled. However, current 3D target-aware models either rely on the voxelized atom densities or the autoregressive sampling process, which are not equivariant to rotation or easily violate geometric constraints resulting in unrealistic structures. In this work, we develop a 3D equivariant diffusion model to solve the above challenges. To achieve target-aware molecule design, our method learns a joint generative process of both continuous atom coordinates and categorical atom types with a SE(3)-equivariant network. Moreover, we show that our model can serve as an unsupervised feature extractor to estimate the binding affinity under proper parameterization, which provides an effective way for drug screening. To evaluate our model, we propose a comprehensive framework to evaluate the quality of sampled molecules from different dimensions. Empirical studies show our model could generate molecules with more realistic 3D structures and better affinities towards the protein targets, and improve binding affinity ranking and prediction without retraining.
翻訳日:2023-03-08 17:02:24 公開日:2023-03-06
# 自然言語分類のためのマルチレゾリューション解釈・診断ツール

Multi-resolution Interpretation and Diagnostics Tool for Natural Language Classifiers ( http://arxiv.org/abs/2303.03542v1 )

ライセンス: Link先を確認
Peyman Jalali, Nengfeng Zhou, Yufei Yu(参考訳) 自然言語処理(NLP)モデルのための説明可能性手法の開発は、2つの主な理由から難しい課題である。 第一に、データの高次元性(大きなトークン数)は、全体のモデルパフォーマンスと比較して、低いカバレッジと上位トークンへの小さなコントリビューションをもたらします。 第二に、テキストの性質から、適切な変換の後、入力変数は事実上バイナリ(観察におけるトークンの存在または欠如)であり、入力と出力の関係を理解するのが難しくなる。 一般的なNLP解釈技術は、通常単語レベルで動作し、完全にローカル(メッセージレベル)または完全グローバル(全メッセージ以上)の要約を提供するため、解像度の柔軟性を持たない。 本論文の目的は,観察のセグメントや意味的に関連づけられた単語のクラスタによって,より柔軟なモデル説明可能性要約を作成することである。 また,nlpモデルに対する根本原因分析法を,異なるセグメントからの代表的偽陽性例と偽陰性例を解析することにより紹介する。 最後に、3つのセグメント(restaurant、hotel、beauth)からなるyelpレビューデータセットを使用することで、単語やメッセージのグループ/クラスタ構造を活用することで、nlpモデルによる意思決定の解釈を支援し、性別、構文、単語の意味に対するモデルの感受性やバイアスを評価することができる。

Developing explainability methods for Natural Language Processing (NLP) models is a challenging task, for two main reasons. First, the high dimensionality of the data (large number of tokens) results in low coverage and in turn small contributions for the top tokens, compared to the overall model performance. Second, owing to their textual nature, the input variables, after appropriate transformations, are effectively binary (presence or absence of a token in an observation), making the input-output relationship difficult to understand. Common NLP interpretation techniques do not have flexibility in resolution, because they usually operate at word-level and provide fully local (message level) or fully global (over all messages) summaries. The goal of this paper is to create more flexible model explainability summaries by segments of observation or clusters of words that are semantically related to each other. In addition, we introduce a root cause analysis method for NLP models, by analyzing representative False Positive and False Negative examples from different segments. At the end, we illustrate, using a Yelp review data set with three segments (Restaurant, Hotel, and Beauty), that exploiting group/cluster structures in words and/or messages can aid in the interpretation of decisions made by NLP models and can be utilized to assess the model's sensitivity or bias towards gender, syntax, and word meanings.
翻訳日:2023-03-08 17:02:01 公開日:2023-03-06
# Data Portraits: 基礎モデルトレーニングデータの記録

Data Portraits: Recording Foundation Model Training Data ( http://arxiv.org/abs/2303.03919v1 )

ライセンス: Link先を確認
Marc Marone, Benjamin Van Durme(参考訳) 基礎モデルはますます複雑で不透明なデータセットで訓練される。 これらのモデルは現在、AIシステム構築においてキーになっているが、直接的な質問に答えることは難しい。 そこで,我々は,トレーニングデータを記録し,下流の検査を可能にするデータポートレートを広く採用することを提案する。 まず,このようなアーティファクトの特性を概説し,既存のソリューションが透明性を高める上でどのように役立つかについて議論する。 そこで我々は,高速で空間効率のよいクエリを行うために,データスケッチに基づくソリューションを提案し,実装する。 このツールを用いて,人気のある大規模言語モデリングコーパス(ザ・パイル)を文書化し,テストセットの漏洩とモデル盗用に関する質問に答えることができることを示す。 私たちのツールは軽量で高速で、オーバーヘッドのデータセットサイズはわずか3%です。 私たちはdataportraits.orgでツールのデモをリリースし、データセットとモデルクリエーターに現在のドキュメントプラクティスを補完するデータポートレートのリリースを呼び掛けます。

Foundation models are trained on increasingly immense and opaque datasets. Even while these models are now key in AI system building, it can be difficult to answer the straightforward question: has the model already encountered a given example during training? We therefore propose a widespread adoption of Data Portraits: artifacts that record training data and allow for downstream inspection. First we outline the properties of such an artifact and discuss how existing solutions can be used to increase transparency. We then propose and implement a solution based on data sketching, stressing fast and space efficient querying. Using our tool, we document a popular large language modeling corpus (the Pile) and show that our solution enables answering questions about test set leakage and model plagiarism. Our tool is lightweight and fast, costing only 3% of the dataset size in overhead. We release a demo of our tools at dataportraits.org and call on dataset and model creators to release Data Portraits as a complement to current documentation practices.
翻訳日:2023-03-08 15:15:58 公開日:2023-03-06
# 慣性測定ユニットを用いた車両振動からの学習位置

Learning Position From Vehicle Vibration Using an Inertial Measurement Unit ( http://arxiv.org/abs/2303.03942v1 )

ライセンス: Link先を確認
Barak Or, Nimrod Segol, Areej Eweida, and Maxim Freydin(参考訳) 本稿では,グローバルナビゲーション衛星システム(GNSS)に依存しない車両位置決め手法を提案する。 従来のGNSSアプローチは特定の環境での干渉に弱いため、都市キャニオンやフライオーバーや低受信エリアなどの状況では信頼性が低い。 本研究では,慣性計測ユニット(IMU)センサで得られた加速度計およびジャイロスコープ測定から道路信号の学習に基づく車両位置決め手法を提案する。 本手法では,道路面の微妙な変化に応答してIMUが車両の振動を検出できるという特徴を,各経路をセグメントに分割する。 この研究は、IMU測定から道路セグメントを学習するための2つの異なるデータ駆動手法を提示する。 1つの方法は畳み込みニューラルネットワークに基づいており、もう1つは手作りの特徴に適用されたランダムフォレストである。 さらに,学習した道路セグメントを用いて車両の位置をリアルタイムに推定するアルゴリズムを提案する。 アプローチは2つの位置決めタスクに適用された。 (i)密集市街地における6[km]経路に沿った車両 (ii)道路面と舗装面を結合した1[km]経路のeスクーター。 提案手法の位置と地上の真理との間の誤差は, 車両の約50[m], 電動スクーターの約30[m]であった。 IMU測定の時間積分に基づく解と比較して、提案手法はeスクータの5倍以上の誤差と自動車の20倍の誤差を持つ。

This paper presents a novel approach to vehicle positioning that operates without reliance on the global navigation satellite system (GNSS). Traditional GNSS approaches are vulnerable to interference in certain environments, rendering them unreliable in situations such as urban canyons, under flyovers, or in low reception areas. This study proposes a vehicle positioning method based on learning the road signature from accelerometer and gyroscope measurements obtained by an inertial measurement unit (IMU) sensor. In our approach, the route is divided into segments, each with a distinct signature that the IMU can detect through the vibrations of a vehicle in response to subtle changes in the road surface. The study presents two different data-driven methods for learning the road segment from IMU measurements. One method is based on convolutional neural networks and the other on ensemble random forest applied to handcrafted features. Additionally, the authors present an algorithm to deduce the position of a vehicle in real-time using the learned road segment. The approach was applied in two positioning tasks: (i) a car along a 6[km] route in a dense urban area; (ii) an e-scooter on a 1[km] route that combined road and pavement surfaces. The mean error between the proposed method's position and the ground truth was approximately 50[m] for the car and 30[m] for the e-scooter. Compared to a solution based on time integration of the IMU measurements, the proposed approach has a mean error of more than 5 times better for e-scooters and 20 times better for cars.
翻訳日:2023-03-08 15:05:02 公開日:2023-03-06
# DEDGAT:金融リスク検出のための方向性グラフ注意ネットワークのデュアル埋め込み

DEDGAT: Dual Embedding of Directed Graph Attention Networks for Detecting Financial Risk ( http://arxiv.org/abs/2303.03933v1 )

ライセンス: Link先を確認
Jiafu Wu, Mufeng Yao, Dong Wu, Mingmin Chi, Baokun Wang, Ruofan Wu, Xin Fu, Changhua Meng and Weiqiang Wang(参考訳) グラフ表現は、ユーザ間の関係をグラフ形式で構築できる金融リスク制御の分野において重要な役割を果たす。 現実的なシナリオでは、リスク管理タスクにおけるノード間の関係は双方向である。 非向グラフ用に設計されたグラフニューラルネットワークは、通常、注意戦略で識別ノードやエッジ表現を集約するが、指向性グラフに構築されたタスクに使用する場合、外部情報を完全に活用することはできない。 この問題に対処するために、DGATと呼ばれる、注意度を明示的に計算するダイレクトグラフアテンションネットワークを提案する。 方向性要求に加えて、同じノードが入力と出力の異なる表現を持つ可能性があるため、DEDGATと呼ばれるDGATの二重埋め込みも提案する。 具体的には、DEDGATは各ノードにインディグリー表現とアウトディグリー表現を割り当て、これら2つの埋め込みを使用してそれぞれインディグリーノードとアウトディグリーノードのアテンションウェイトを算出する。 ベンチマークデータセットを用いて行った実験により、DGATとDEDGATは非指向性GATよりも優れた分類性能が得られることが示された。 また, 可視化結果から, 本手法は, 内外情報と外外情報の両方を十分に活用できることが示される。

Graph representation plays an important role in the field of financial risk control, where the relationship among users can be constructed in a graph manner. In practical scenarios, the relationships between nodes in risk control tasks are bidirectional, e.g., merchants having both revenue and expense behaviors. Graph neural networks designed for undirected graphs usually aggregate discriminative node or edge representations with an attention strategy, but cannot fully exploit the out-degree information when used for the tasks built on directed graph, which leads to the problem of a directional bias. To tackle this problem, we propose a Directed Graph ATtention network called DGAT, which explicitly takes out-degree into attention calculation. In addition to having directional requirements, the same node might have different representations of its input and output, and thus we further propose a dual embedding of DGAT, referred to as DEDGAT. Specifically, DEDGAT assigns in-degree and out-degree representations to each node and uses these two embeddings to calculate the attention weights of in-degree and out-degree nodes, respectively. Experiments performed on the benchmark datasets show that DGAT and DEDGAT obtain better classification performance compared to undirected GAT. Also,the visualization results demonstrate that our methods can fully use both in-degree and out-degree information.
翻訳日:2023-03-08 15:04:01 公開日:2023-03-06
# ReLU活性化を伴う最適浅層フィードフォワードネットワークの存在について

On the existence of optimal shallow feedforward networks with ReLU activation ( http://arxiv.org/abs/2303.03950v1 )

ライセンス: Link先を確認
Steffen Dereich and Sebastian Kassing(参考訳) reluアクティベーションを用いた浅層フィードフォワード型ニューラルネットワークを用いて,連続目標関数近似のためのロスランドスケープにおけるグローバルミニマの存在を証明する。 この性質は、ReLUと他のよく使われるアクティベーション関数を分離する基本的なアーティファクトの1つである。 拡張空間最小化器が存在するように探索空間のある種の閉包を提案する。 第2のステップでは、新たに追加された拡張関数は、適切な表現可能なReLUネットワークよりも悪い性能を示すという軽微な仮定で示される。 これは、拡張対象空間における最適応答が、実際にreluネットワークの応答であることを意味する。

We prove existence of global minima in the loss landscape for the approximation of continuous target functions using shallow feedforward artificial neural networks with ReLU activation. This property is one of the fundamental artifacts separating ReLU from other commonly used activation functions. We propose a kind of closure of the search space so that in the extended space minimizers exist. In a second step, we show under mild assumptions that the newly added functions in the extension perform worse than appropriate representable ReLU networks. This then implies that the optimal response in the extended target space is indeed the response of a ReLU network.
翻訳日:2023-03-08 14:54:48 公開日:2023-03-06
# 新しい特徴抽出・選択手法による映像トラフィックの識別

Video traffic identification with novel feature extraction and selection method ( http://arxiv.org/abs/2303.03949v1 )

ライセンス: Link先を確認
Licheng Zhang, Shuaili Liu, Qingsheng Yang, Zhongfeng Qu, Lizhi Peng(参考訳) 近年、ビデオアプリケーションが急速に普及し、インターネットビデオのトラフィックが急増し、ネットワーク管理に深刻な課題が生じた。 そのため,ビデオトラフィックの効果的同定と管理が緊急課題となっている。 しかし,既存の映像トラフィック特徴抽出手法は主に従来のパケット・フローレベルの特徴を対象としており,映像トラフィックの識別精度は低い。 さらに、高データ次元の問題はしばしばビデオトラフィックの識別に存在し、識別タスクを完了するために最も関連する特徴を選択する効果的なアプローチが必要となる。 識別性能の向上に特徴選択を用いた研究は数多くあるが, 重複しない, 重複が少ない特徴分布の計測に注目する特徴選択研究は行われていない。 まず,ビデオトラフィックを識別する大規模機能セットを構築するために,映像関連特徴抽出を提案する。 第2に,映像トラフィック識別のコストを低減し,有効な特徴部分集合を選択するために,ワッサーシュタイン距離を用いて特徴分布間の距離を測定する適応分布距離に基づく特徴選択法を提案する。 提案手法の有効性を検証するため,キャンパスネットワーク環境における異なるプラットフォームからの動画トラフィックを収集し,これらのデータセットを用いて実験を行った。 実験の結果,提案手法は,映像シーントラフィックとクラウドゲームビデオトラフィック識別において高い識別性能を達成できることが示唆された。 最後に、ADDFSと他の特徴選択法との比較により、ADDFSはビデオトラフィック識別だけでなく、一般的な分類タスクにも実用的な特徴選択技術であることを示す。

In recent years, the rapid rise of video applications has led to an explosion of Internet video traffic, thereby posing severe challenges to network management. Therefore, effectively identifying and managing video traffic has become an urgent problem to be solved. However, the existing video traffic feature extraction methods mainly target at the traditional packet and flow level features, and the video traffic identification accuracy is low. Additionally, the issue of high data dimension often exists in video traffic identification, requiring an effective approach to select the most relevant features to complete the identification task. Although numerous studies have used feature selection to achieve improved identification performance, no feature selection research has focused on measuring feature distributions that do not overlap or have a small overlap. First, this study proposes to extract video-related features to construct a large-scale feature set to identify video traffic. Second, to reduce the cost of video traffic identification and select an effective feature subset, the current research proposes an adaptive distribution distance-based feature selection (ADDFS) method, which uses Wasserstein distance to measure the distance between feature distributions. To test the effectiveness of the proposal, we collected a set of video traffic from different platforms in a campus network environment and conducted a set of experiments using these data sets. Experimental results suggest that the proposed method can achieve high identification performance for video scene traffic and cloud game video traffic identification. Lastly, a comparison of ADDFS with other feature selection methods shows that ADDFS is a practical feature selection technique not only for video traffic identification, but also for general classification tasks.
翻訳日:2023-03-08 14:54:39 公開日:2023-03-06
# 不均衡部分ラベル学習のための擬似ラベル規則化

Pseudo Labels Regularization for Imbalanced Partial-Label Learning ( http://arxiv.org/abs/2303.03946v1 )

ライセンス: Link先を確認
Mingyu Xu, Zheng Lian(参考訳) 部分ラベル学習(pll)は、単一の基底真理が複数の候補ラベルに存在する弱い教師付き学習の重要な分野であるが、この研究はラベルの不均衡をほとんど考慮しない。 不均衡部分ラベル学習の最近の研究は、部分ラベル学習と長期学習の組合せ課題は、適切な辺縁分布と擬似ラベルの描画との整合性にあることを示唆している。 しかし、仮のラベルが以前の分布と一致するとしても、全体の重量が小さすぎるため、テールクラスは学習が困難である。 そこで本研究では,PLL用に特別に設計された擬似ラベル正規化手法を提案する。 ヘッドクラスの擬似ラベルを罰することにより、従来のpllメソッドと比較して、標準ベンチマーク下で最先端の実装を行う。

Partial-label learning (PLL) is an important branch of weakly supervised learning where the single ground truth resides in a set of candidate labels, while the research rarely considers the label imbalance. A recent study for imbalanced partial-Label learning proposed that the combinatorial challenge of partial-label learning and long-tail learning lies in matching between a decent marginal prior distribution with drawing the pseudo labels. However, we believe that even if the pseudo label matches the prior distribution, the tail classes will still be difficult to learn because the total weight is too small. Therefore, we propose a pseudo-label regularization technique specially designed for PLL. By punishing the pseudo labels of head classes, our method implements state-of-art under the standardized benchmarks compared to the previous PLL methods.
翻訳日:2023-03-08 14:53:41 公開日:2023-03-06
# 微小管におけるエネルギー伝達過程のモデリング

Modeling of the energy transfer process in microtubules ( http://arxiv.org/abs/2303.04087v1 )

ライセンス: Link先を確認
Sergey Ehduardovich Shirmovsky(参考訳) この作業では、細胞微小管内のエネルギー移動の過程をシミュレートする。 クーロン双極子-双極子相互作用によって結合されたトリプトファン系のエネルギーキャリアとして論じる。 この研究は、微小管内のトリプトファン鎖に沿ったエネルギーの移動が可能である条件をモデル化する。 移動機構は混合の性質を持つことを示した。 したがって、強い双極子-双極子相互作用を持つ2つまたは3つのトリプトファンでは、エキシトンコヒーレント機構によってエネルギー変換が生じる。 より弱い双極子-双極子相互作用の場合、誘導共振機構によってエネルギー変換が生じる。 研究の結果、微小管の信号関数について語り、双極子-双極子構造で局所的に誘導されるプロセスに関する信号を伝達する。 微小管内のエネルギー移動は量子現象として決定されている。

In the work the process of the energy transfer in the cell microtubules is simulated. A system of tryptophans connected by Coulomb dipole-dipole interaction is discussed as the energy carriers. The work models the conditions under which the migration of energy along the tryptophan chain in the microtubule is possible. It was shown the transfer mechanism has a mixed nature. Thus, within two or three tryptophans with a strong dipole-dipole interaction, the energy transformation process occurs due to an exciton coherent mechanism. In cases of weaker dipole-dipole interaction, the energy transformation process occurs due to an inductive-resonant mechanism. The results of the work allow us talk about a possible signal function of a microtubules, transmitting signals about processes locally induced in its dipole-dipole structure. The energy transfer in microtubules has been determined as a quantum phenomenon.
翻訳日:2023-03-08 14:28:02 公開日:2023-03-06
# eCDANs: 自己相関データと非定常データからの効率的な時間因果発見(Student Abstract)

eCDANs: Efficient Temporal Causal Discovery from Autocorrelated and Non-stationary Data (Student Abstract) ( http://arxiv.org/abs/2303.02833v1 )

ライセンス: Link先を確認
Muhammad Hasan Ferdous, Uzma Hasan, Md Osman Gani(参考訳) 従来の因果関係発見(cd)法は高次元に苦しめられ、遅延因果関係の同定に失敗し、しばしば関係のダイナミクスを無視する。 本研究では、時間的変化とともに、ラグや同時の因果関係を検出できる、自己相関性および非定常時系列データ(eCDAN)に対する制約に基づく新しいCD手法を提案する。 eCDANは条件セットを最適化し、条件独立(CI)テストを実行し、時間依存を表す代用変数を導入することで因果関係の変化を特定することで高次元性に対処する。 合成データと実世界のデータの実験は、eCDANが時間の影響を識別し、ベースラインを上回ることを示した。

Conventional temporal causal discovery (CD) methods suffer from high dimensionality, fail to identify lagged causal relationships, and often ignore dynamics in relations. In this study, we present a novel constraint-based CD approach for autocorrelated and non-stationary time series data (eCDANs) capable of detecting lagged and contemporaneous causal relationships along with temporal changes. eCDANs addresses high dimensionality by optimizing the conditioning sets while conducting conditional independence (CI) tests and identifies the changes in causal relations by introducing a surrogate variable to represent time dependency. Experiments on synthetic and real-world data show that eCDANs can identify time influence and outperform the baselines.
翻訳日:2023-03-07 17:40:11 公開日:2023-03-06
# 近接球の6自由度のナノスケールフィードバック制御

Nanoscale feedback control of six degrees of freedom of a near-sphere ( http://arxiv.org/abs/2303.02831v1 )

ライセンス: Link先を確認
M. Kamba, R. Shimizu, K. Aikawa(参考訳) 我々は、球面に近い中性ナノ粒子の全ての外部自由度に対するフィードバック冷却を示す。 3つの翻訳運動は光学的に基底状態の近くまで冷却され、最小の占有数は 0.69(18) である。 密接な異方性光閉じ込めにより、3つの回転振動をはっきりと観察し、直径4 pmに対応する10 ppmの精度で2つの半径と最長半径の比を同定することができる。 ナノ粒子の電気双極子モーメントを電気的に制御することにより、3つの回転振動の温度測定と0.1K以下の温度へのフィードバック冷却を実現する。 我々の研究は、捕捉されたナノ粒子を正確に特徴付ける方法だけでなく、それらを加速度センシングに利用し、翻訳と回転の自由度の両方で量子力学的挙動を探索する基礎を形成する。

We demonstrate feedback cooling of all the external degrees of freedom of a near-spherical neutral nanoparticle. The three translational motions are optically cooled to near the ground state, with a lowest occupation number of 0.69(18) for one degree. A tight, anisotropic optical confinement allows us to clearly observe three rotational oscillations and to identify the ratio of two radii to the longest radius with a precision of 10 ppm, corresponding to 4 pm in diameter. We develop a thermometry for three rotational oscillations and realize feedback cooling of them to temperatures of lower than 0.1 K by electrically controlling the electric dipole moment of the nanoparticle. Our work not only paves the way to precisely characterize trapped nanoparticles, but also forms the basis of utilizing them for acceleration sensing and for exploring quantum mechanical behaviors with both their translational and rotational degrees of freedom.
翻訳日:2023-03-07 17:39:56 公開日:2023-03-06
# ISAAQ「Ising Machine Assisted Quantum Compiler」

ISAAQ: Ising Machine Assisted Quantum Compiler ( http://arxiv.org/abs/2303.02830v1 )

ライセンス: Link先を確認
Soshun Naito, Yoshihiko Hasegawa, Yoshiki Matsuda, Shu Tanaka(参考訳) 物理量子ビットの接続が限られ、ゲート演算のエラー率が高いため、ノイズ中間量子(NISQ)デバイス用の量子回路をコンパイルすることが必須である。 量子回路のコンパイルにおける最も重要なステップの1つは、コンパイルオーバーヘッドを最小限に抑えるために論理量子ビットを配置して移動させるNP-Hard問題である量子ビットルーティングである。 本研究では,ISing mAchine Assisted Quantum compiler (ISAAQ) を提案する。 ISAAQは、以前のコンパイル結果を用いてコンパイルコストを正確に推定し、複数のIsingマシンと並行してQUBO問題を解くことでキュービットルーティングを高速化する。 さらに、ISAAQは、物理的に少ないCNOTゲートを持つ可換論理制御NOT(CNOT)ゲートを実装するコスト削減手法を採用している。 IBM QX5 と IBM QX20 の実験結果から、ISAAQ は Qiskit と tket で利用可能なヒューリスティックな手法と既存の QUBO 手法より優れており、ほとんどのベンチマーク回路では物理的 CNOT ゲートが少ないことが示されている。 ISAAQは大規模回路で特によく機能し、論理的なCNOTゲートの数に関してその高いスケーラビリティを示す。

It is imperative to compile quantum circuits for Noisy Intermediate-Scale Quantum (NISQ) devices because of the limited connectivity of physical qubits and the high error rates of gate operations. One of the most critical steps in quantum circuit compilation is qubit routing, an NP-Hard problem that involves placing and moving logical qubits to minimize compilation overhead. In this study, we propose ISing mAchine Assisted Quantum compiler (ISAAQ) to perform qubit routing with Ising machines, which can efficiently solve Quadratic Unconstrained Binary Optimization (QUBO) problems. ISAAQ accurately estimates the compilation costs by updating itself using previous compilation results, and accelerates qubit routing by solving QUBO problems in parallel with multiple Ising machines. In addition, ISAAQ exploits a cost-reduction method that implements commutative logical Controlled-NOT (CNOT) gates with fewer physical CNOT gates, which is particularly effective for planar devices when implementing original gates. Experimental results on both IBM QX5 and IBM QX20 show that ISAAQ outperforms the heuristic methods available in Qiskit and tket, as well as an existing QUBO method, requiring fewer physical CNOT gates for most benchmark circuits. ISAAQ performs particularly well on large circuits, demonstrating its strong scalability with respect to the number of logical CNOT gates.
翻訳日:2023-03-07 17:39:41 公開日:2023-03-06
# 人工知能の解説としての属性スコアと因果関係

Attribution-Scores and Causal Counterfactuals as Explanations in Artificial Intelligence ( http://arxiv.org/abs/2303.02829v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 本稿では、人工知能、一般に、そして、様々なアプローチの出自と関連性を参照しながら、新しい発展を論じる「説明可能なAI」に関する説明の関連性を強調します。 本稿では、帰属スコアに基づくデータ管理と機械学習における説明、因果関係の領域で見られる反事実を簡潔に記述する。 本稿では, 対物処理における論理的推論の重要性と, スコア計算への利用について詳述する。

In this expository article we highlight the relevance of explanations for artificial intelligence, in general, and for the newer developments in {\em explainable AI}, referring to origins and connections of and among different approaches. We describe in simple terms, explanations in data management and machine learning that are based on attribution-scores, and counterfactuals as found in the area of causality. We elaborate on the importance of logical reasoning when dealing with counterfactuals, and their use for score computation.
翻訳日:2023-03-07 17:39:12 公開日:2023-03-06
# 集団腐敗除去のためのロバストオートエンコーダ

Robust Autoencoders for Collective Corruption Removal ( http://arxiv.org/abs/2303.02828v1 )

ライセンス: Link先を確認
Taihui Li, Hengkang Wang, Peng Le, XianE Tang, Ju Sun(参考訳) ロバストPCAは、希少な外乱や希少な外乱の存在下で線形部分空間を学習するための標準ツールである。 画像のような自然データのより現実的なモデルである頑健な学習多様体はどうだろう? 近年、ロバストPCAを多様体設定に一般化する試みがいくつかある。 本稿では,深いオートエンコーダが多様体学習を行う直感に基づく驚くほどコンパクトな定式化に基づいて,$\ell_1$-およびスケール不変の$\ell_1/\ell_2$-robustオートエンコーダを提案する。 本稿では,提案手法が,クリーンイメージをトレーニングに使わずにスパース汚職を総合的に除去する上で,従来の手法を著しく上回っていることを示す。 さらに,学習した多様体構造を一般化してデータサンプルを効果的に取得できることを示す。

Robust PCA is a standard tool for learning a linear subspace in the presence of sparse corruption or rare outliers. What about robustly learning manifolds that are more realistic models for natural data, such as images? There have been several recent attempts to generalize robust PCA to manifold settings. In this paper, we propose $\ell_1$- and scaling-invariant $\ell_1/\ell_2$-robust autoencoders based on a surprisingly compact formulation built on the intuition that deep autoencoders perform manifold learning. We demonstrate on several standard image datasets that the proposed formulation significantly outperforms all previous methods in collectively removing sparse corruption, without clean images for training. Moreover, we also show that the learned manifold structures can be generalized to unseen data samples effectively.
翻訳日:2023-03-07 17:39:04 公開日:2023-03-06
# 単一光子波パケットの感受性

Susceptibility of a single photon wave packet ( http://arxiv.org/abs/2303.02821v1 )

ライセンス: Link先を確認
P.O. Kazinski, T.V. Solovyev(参考訳) 光子質量殻上の単一光子波パケットの感受性テンソルに対する明示的なコンパクト表現を導出する。 プローブ光子は硬く、テスト光子は柔らかく、全エネルギーは電子-ポジトロン対生成しきい値以下であると考えられている。 単一光子波パケットは、光による散乱の過程において二屈折性ジャイロトロピック分散媒体と見なすことができることが判明した。 光による散乱の過程でプローブ光子を記録する包括的確率の明示的な表現は、光波関数の自由通過と散乱部の干渉効果が支配する摂動理論の第1次非自明な順序で得られる。 この効果は、光による散乱断面積に対する標準的な寄与である$\alpha^4$とは対照的に、オーダー$\alpha^2$である。 プローブとテスト光子の波動関数の非自明な形状を考慮に入れた。 プローブ光子のストークスパラメータの進化について述べる。 ストークスパラメータの変化は、ハードプローブ光子とソフトテスト光子の十分な強度のビームに対してかなり大きい。

The explicit compact expression for the susceptibility tensor of a single photon wave packet on the photon mass-shell is derived. It is assumed that the probe photon is hard, the test photon is soft, and their total energy is below the electron-positron pair creation threshold. It turns out that a single photon wave packet can be regarded as a birefringent gyrotropic dispersive medium in the process of light-by-light scattering. The explicit expression for the inclusive probability to record the probe photon in the process of light-by-light scattering is obtained in the first nontrivial order of perturbation theory where the interference effect of the free passed and scattered parts of the photon wave function dominates. This effect is of order $\alpha^2$ in contrast to the standard contribution to the light-by-light scattering cross-section which is of order $\alpha^4$. The possible nontrivial shapes of the wave functions of probe and test photons are taken into account. The evolution of the Stokes parameters of a probe photon is described. The change of the Stokes parameters is rather large for hard probe photons and sufficiently intense beams of soft test photons.
翻訳日:2023-03-07 17:38:50 公開日:2023-03-06
# 人工知能:70年が経ちました

Artificial Intelligence: 70 Years Down the Road ( http://arxiv.org/abs/2303.02819v1 )

ライセンス: Link先を確認
Lin Zhang(参考訳) 人工知能(ai)は、その始まりから現在に至るまで1世紀近くの歴史を持つ。 我々は開発トレンドを要約し、成功と失敗の両方を含む普遍的なルールを発見した。 我々は、過去の失敗の背後にある理由と現在のAIの成功を理解するのに役立ち、技術と哲学の両方の観点から理由を分析し、将来の開発を考え探求するための基盤を提供する。 具体的には、コンピュータビジョン、自然言語処理、機械学習など、さまざまな分野におけるAIの開発が、ルールから統計学、データ駆動手法に至るまでのパターンに従うことを発見した。 過去の失敗や現在の成功に直面した私たちは,その背後にある理由を体系的に考える必要があります。 自然科学と社会科学の融合を考えると、aiの問題を理解・解決するために哲学的思考を取り入れる必要があり、マルクスの弁証法から始めることは実現可能な道だと信じている。 我々は、AIの持続可能な開発方向性は、人間と機械のコラボレーションと、コンピュータパワーを中心とした技術パスであるべきだと結論付けている。 最後に、この傾向から、AIが社会に与える影響を要約した。

Artificial intelligence (AI) has a history of nearly a century from its inception to the present day. We have summarized the development trends and discovered universal rules, including both success and failure. We have analyzed the reasons from both technical and philosophical perspectives to help understand the reasons behind the past failures and current successes of AI, and to provide a basis for thinking and exploring future development. Specifically, we have found that the development of AI in different fields, including computer vision, natural language processing, and machine learning, follows a pattern from rules to statistics to data-driven methods. In the face of past failures and current successes, we need to think systematically about the reasons behind them. Given the unity of AI between natural and social sciences, it is necessary to incorporate philosophical thinking to understand and solve AI problems, and we believe that starting from the dialectical method of Marx is a feasible path. We have concluded that the sustainable development direction of AI should be human-machine collaboration and a technology path centered on computing power. Finally, we have summarized the impact of AI on society from this trend.
翻訳日:2023-03-07 17:38:32 公開日:2023-03-06
# 畳み込みニューラルネットワークの逆攻撃に対するニューロン脆弱性の視覚的解析

Visual Analytics of Neuron Vulnerability to Adversarial Attacks on Convolutional Neural Networks ( http://arxiv.org/abs/2303.02814v1 )

ライセンス: Link先を確認
Yiran Li, Junpeng Wang, Takanori Fujiwara, Kwan-Liu Ma(参考訳) 畳み込みニューラルネットワーク(CNN)に対する敵対的攻撃 – 人間の知覚できない摂動を入力画像に注入 – は、高性能CNNを騙して誤った予測を行う可能性がある。 敵対的攻撃の成功は、CNNの堅牢性に対する深刻な懸念を生じさせ、医療診断や自律運転などの安全上重要な応用に使用できないようにする。 本研究は,(1)どのニューロンが攻撃に対して脆弱であるか,(2)予測中にこれらの脆弱なニューロンがどのような画像特徴を捉えているか,という2つの質問に回答することで,敵対的攻撃を理解するための視覚的解析手法を提案する。 最初の質問では、攻撃の規模を個々のCNNニューロンに分解し、その脆弱性レベルでニューロンをランク付けするための複数の摂動に基づく対策を導入する。 第2に、ユーザが選択したニューロンを刺激してニューロンの責任を増強し、検証する画像の特徴(例えば猫の耳)を特定する。 さらに,予測におけるニューロンの役割に基づいて階層的クラスタリングを行うことにより,多数のニューロンの対話的探索を支援する。 この目的のために、視覚分析システムは、敵対的攻撃を解釈するための視覚的推論を組み込むように設計されている。 複数のケーススタディとドメインエキスパートからのフィードバックを通じて,システムの有効性を検証する。

Adversarial attacks on a convolutional neural network (CNN) -- injecting human-imperceptible perturbations into an input image -- could fool a high-performance CNN into making incorrect predictions. The success of adversarial attacks raises serious concerns about the robustness of CNNs, and prevents them from being used in safety-critical applications, such as medical diagnosis and autonomous driving. Our work introduces a visual analytics approach to understanding adversarial attacks by answering two questions: (1) which neurons are more vulnerable to attacks and (2) which image features do these vulnerable neurons capture during the prediction? For the first question, we introduce multiple perturbation-based measures to break down the attacking magnitude into individual CNN neurons and rank the neurons by their vulnerability levels. For the second, we identify image features (e.g., cat ears) that highly stimulate a user-selected neuron to augment and validate the neuron's responsibility. Furthermore, we support an interactive exploration of a large number of neurons by aiding with hierarchical clustering based on the neurons' roles in the prediction. To this end, a visual analytics system is designed to incorporate visual reasoning for interpreting adversarial attacks. We validate the effectiveness of our system through multiple case studies as well as feedback from domain experts.
翻訳日:2023-03-07 17:38:16 公開日:2023-03-06
# ユーザ中心型XAIのためのシステムのアプローチ分類 : 調査

A System's Approach Taxonomy for User-Centred XAI: A Survey ( http://arxiv.org/abs/2303.02810v1 )

ライセンス: Link先を確認
Ehsan Emamirad, Pouya Ghiasnezhad Omran, Armin Haller, Shirley Gregor(参考訳) AIの最近の進歩は、AIモデルを説明可能なものにするための様々な方法を調査、分類、評価する研究コミュニティにおける継続的な取り組みと一致している。 しかし、既存の試みのほとんどは、通常ドメインの専門家にのみ意味のあるeXplainable AI(XAI)のメソッド中心のビューを提示している。 さまざまなタイプのユーザに対する説明の適合性を評価するための,堅牢な質的かつ定量的なパフォーマンスフレームワークが明らかに欠如している。 我々は,関連する取り組みを調査し,一般システム理論の原則に基づく総合的かつ包括的でユーザ中心のXAI分類を提案し,開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤となる。

Recent advancements in AI have coincided with ever-increasing efforts in the research community to investigate, classify and evaluate various methods aimed at making AI models explainable. However, most of existing attempts present a method-centric view of eXplainable AI (XAI) which is typically meaningful only for domain experts. There is an apparent lack of a robust qualitative and quantitative performance framework that evaluates the suitability of explanations for different types of users. We survey relevant efforts, and then, propose a unified, inclusive and user-centred taxonomy for XAI based on the principles of General System's Theory, which serves us as a basis for evaluating the appropriateness of XAI approaches for all user types, including both developers and end users.
翻訳日:2023-03-07 17:37:54 公開日:2023-03-06
# EvHandPose:スパーススーパービジョンによるイベントベースの3Dハンドポース推定

EvHandPose: Event-based 3D Hand Pose Estimation with Sparse Supervision ( http://arxiv.org/abs/2303.02862v1 )

ライセンス: Link先を確認
Jianping Jiang, Jiahe Li, Baowen Zhang, Xiaoming Deng, Boxin Shi(参考訳) イベントカメラは3次元ポーズ推定において大きな可能性を示し、特に低消費電力で高速な動きと高ダイナミックレンジの課題に対処する。 しかし, 非同期差動イメージング機構により, 手の動きが不明瞭である場合に手の動き情報を符号化するイベント表現を設計することは困難であり, 時間的に密接なイベントストリームを完全にアノテートすることは不可能である。 本稿では,手動ポーズの正確な推定と動作のあいまいさの軽減のために,イベント・ツー・Poseモジュールに新しい手動フロー表現を備えたEvHandPoseを提案する。 スパースアノテーションの下での問題を解決するため,Pose-to-IWEモジュールのコントラスト最大化とエッジ制約を設計し,自己スーパービジョンフレームワークでEvHandPoseを定式化する。 evrealhandsは、合成データに依存し、将来の研究を促進するため、ドメインギャップを橋渡しするためにいくつかの困難なシーンで、最初の大規模な実世界イベントベースのハンドポーズデータセットである。 EvRealHandsの実験では、EvHandPoseは、すべての評価シーンにおいて、15$\sim$20 mmのMPJPEで過去のイベントベースの手法よりも優れており、RGBベースの手法と比較して、速い動きや強い光のシーンにおいて正確で安定した手ポーズ推定を実現している。 さらに、evhandposeは120fps以上の3dハンドポーズ推定を示す。

Event camera shows great potential in 3D hand pose estimation, especially addressing the challenges of fast motion and high dynamic range in a low-power way. However, due to the asynchronous differential imaging mechanism, it is challenging to design event representation to encode hand motion information especially when the hands are not moving (causing motion ambiguity), and it is infeasible to fully annotate the temporally dense event stream. In this paper, we propose EvHandPose with novel hand flow representations in Event-to-Pose module for accurate hand pose estimation and alleviating the motion ambiguity issue. To solve the problem under sparse annotation, we design contrast maximization and edge constraints in Pose-to-IWE (Image with Warped Events) module and formulate EvHandPose in a self-supervision framework. We further build EvRealHands, the first large-scale real-world event-based hand pose dataset on several challenging scenes to bridge the domain gap due to relying on synthetic data and facilitate future research. Experiments on EvRealHands demonstrate that EvHandPose outperforms previous event-based method under all evaluation scenes with 15 $\sim$ 20 mm lower MPJPE and achieves accurate and stable hand pose estimation in fast motion and strong light scenes compared with RGB-based methods. Furthermore, EvHandPose demonstrates 3D hand pose estimation at 120 fps or higher.
翻訳日:2023-03-07 17:32:28 公開日:2023-03-06
# パラメータ効率のよい転送学習を可能にするマルチタスクプロンプトチューニング

Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2303.02861v1 )

ライセンス: Link先を確認
Zhen Wang, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, Huan Sun, Yoon Kim(参考訳) 学習したプロンプトベクトルを条件付けして各タスクにベース事前学習モデルを適用するプロンプトチューニングは,大規模言語モデルを複数の下流タスクに効率的に適応するための有望なアプローチとして登場した。 しかし、既存の手法は一般にゼロからソフトプロンプトベクトルを学習し、マルチタスク学習環境において、リッチなクロスタスク知識をプロンプトベクトルで活用する方法は明らかになっていない。 本稿では、まず複数のタスク固有のソースプロンプトから知識を抽出し、単一の転送可能なプロンプトを学習するマルチタスクプロンプトチューニング(MPT)を提案する。 次に、この共有プロンプトに対する乗算的低ランク更新を学習し、各下流ターゲットタスクに効率よく適応する。 提案手法は,タスク固有のパラメータの0.035%のチューニングしか行わないにも関わらず,いくつかのケースにおいて,完全な微調整ベースラインを含む最先端の手法よりも優れていることを示す。

Prompt tuning, in which a base pretrained model is adapted to each task via conditioning on learned prompt vectors, has emerged as a promising approach for efficiently adapting large language models to multiple downstream tasks. However, existing methods typically learn soft prompt vectors from scratch, and it has not been clear how to exploit the rich cross-task knowledge with prompt vectors in a multitask learning setting. We propose multitask prompt tuning (MPT), which first learns a single transferable prompt by distilling knowledge from multiple task-specific source prompts. We then learn multiplicative low rank updates to this shared prompt to efficiently adapt it to each downstream target task. Extensive experiments on 23 NLP datasets demonstrate that our proposed approach outperforms the state-of-the-art methods, including the full finetuning baseline in some cases, despite only tuning 0.035% as many task-specific parameters.
翻訳日:2023-03-07 17:32:00 公開日:2023-03-06
# シングル/マルチラベルテキスト分類のための多段階自己解釈型記号ニューラルモデル

A Multi-Grained Self-Interpretable Symbolic-Neural Model For Single/Multi-Labeled Text Classification ( http://arxiv.org/abs/2303.02860v1 )

ライセンス: Link先を確認
Xiang Hu, Xinyu Kong, Kewei Tu(参考訳) 層積み上げアーキテクチャに基づくディープニューラルネットワークは、歴史的に内在的な解釈性に乏しい。 一方、シンボリック確率モデルは明確な解釈可能性をもって機能するが、ニューラルネットワークと組み合わせて性能を向上させる方法については研究が続けられている。 本稿では, 構造化言語モデルを用いて, これら2つのシステムを用いてテキスト分類を行う。 本研究では,スパンレベルゴールドラベルへのアクセスを必要とせずに,構成木からテキストスパンのクラスラベルを明示的に予測できるシンボリックニューラルモデルを提案する。 構造化言語モデルが自己教師型で選挙区木を予測することを学ぶと、原文と文レベルのラベルのみが訓練データとして必要となり、基本的には構成レベルの自己解釈可能な分類モデルとなる。 実験により,下流タスクにおける予測精度が向上できることが実証された。 一方、予測されたスパンラベルは人間の合理性とある程度一致している。

Deep neural networks based on layer-stacking architectures have historically suffered from poor inherent interpretability. Meanwhile, symbolic probabilistic models function with clear interpretability, but how to combine them with neural networks to enhance their performance remains to be explored. In this paper, we try to marry these two systems for text classification via a structured language model. We propose a Symbolic-Neural model that can learn to explicitly predict class labels of text spans from a constituency tree without requiring any access to span-level gold labels. As the structured language model learns to predict constituency trees in a self-supervised manner, only raw texts and sentence-level labels are required as training data, which makes it essentially a general constituent-level self-interpretable classification model. Our experiments demonstrate that our approach could achieve good prediction accuracy in downstream tasks. Meanwhile, the predicted span labels are consistent with human rationales to a certain degree.
翻訳日:2023-03-07 17:31:40 公開日:2023-03-06
# 有限幅ニューラルネットワークを用いたベイズ推定

Bayesian inference with finitely wide neural networks ( http://arxiv.org/abs/2303.02859v1 )

ライセンス: Link先を確認
Chi-Ken Lu(参考訳) 解析的推論(例えば、予測分布は閉じた形で行われる)は、広いニューラルネットワークをベイズ設定のガウス過程として扱う機械学習実践者にとって魅力的な利点となるかもしれない。 しかし、現実的な幅は有限であり、モデル内の確率変数の偏辺化が単純であるガウス性から弱い偏差を引き起こす。 多変量エッジワース展開に基づき、ランダムニューラルネットワークからの出力の有限集合をモデル化し、対応する辺および条件特性を導出するために微分形式の非ガウス分布を提案する。 したがって,ベイズ回帰課題における非ガウス的後方分布を導出することができる。 さらに、深いガウス過程の重み空間表現であるボトルネック付きディープニューラルネットワークにおいて、非ガウス性は限界核を通して研究される。

The analytic inference, e.g. predictive distribution being in closed form, may be an appealing benefit for machine learning practitioners when they treat wide neural networks as Gaussian process in Bayesian setting. The realistic widths, however, are finite and cause weak deviation from the Gaussianity under which partial marginalization of random variables in a model is straightforward. On the basis of multivariate Edgeworth expansion, we propose a non-Gaussian distribution in differential form to model a finite set of outputs from a random neural network, and derive the corresponding marginal and conditional properties. Thus, we are able to derive the non-Gaussian posterior distribution in Bayesian regression task. In addition, in the bottlenecked deep neural networks, a weight space representation of deep Gaussian process, the non-Gaussianity is investigated through the marginal kernel.
翻訳日:2023-03-07 17:31:27 公開日:2023-03-06
# 弱教師付きリアルタイム動的背景減算

Weakly Supervised Realtime Dynamic Background Subtraction ( http://arxiv.org/abs/2303.02857v1 )

ライセンス: Link先を確認
Fateme Bahri and Nilanjan Ray(参考訳) バックグラウンドサブトラクションは、オブジェクトトラッキングからビデオ監視まで、多数の現実世界のアプリケーションによるコンピュータビジョンにおける基本的なタスクである。 ダイナミックなバックグラウンドは、ここで大きな課題となる。 教師付きディープラーニングベースの技術は、現在、このタスクの最先端と見なされている。 しかし、これらの手法には、時間と費用のかかるピクセル単位のグランドトラスラベルが必要である。 本研究では,画素単位の基底ラベルを必要とせずに背景減算が可能な弱教師付きフレームワークを提案する。 本フレームワークは,移動対象のない画像列をトレーニングし,2つのネットワークから構成される。 第1のネットワークは、背景画像を生成し、第2のネットワークをトレーニングするための動的背景画像を作成するオートエンコーダである。 背景減算画像のしきい値化により動的背景画像を得る。 第2のネットワークはU-Netで、トレーニングにオブジェクトフリーの動画と動的背景画像をピクセルワイドのグラウンドトルースラベルとして使用する。 テスト段階では、入力画像はオートエンコーダとU-Netによって処理され、それぞれ背景画像と動的背景画像を生成する。 動的背景画像は背景抽出画像から動的動きを取り除くのに役立ち、動的アーチファクトのない前景画像を得ることができる。 本手法の有効性を実証するため,CDnet 2014データセットとI2Rデータセットのカテゴリ選択実験を行った。 提案手法はトップランクの非教師なし手法を全て上回った。 また,既存の2つの弱教師付き手法の1つよりも優れた結果を得た。 提案手法はオンライン,リアルタイム,効率的であり,フレームレベルのアノテーションを最小にし,幅広い実世界のアプリケーションに適している。

Background subtraction is a fundamental task in computer vision with numerous real-world applications, ranging from object tracking to video surveillance. Dynamic backgrounds poses a significant challenge here. Supervised deep learning-based techniques are currently considered state-of-the-art for this task. However, these methods require pixel-wise ground-truth labels, which can be time-consuming and expensive. In this work, we propose a weakly supervised framework that can perform background subtraction without requiring per-pixel ground-truth labels. Our framework is trained on a moving object-free sequence of images and comprises two networks. The first network is an autoencoder that generates background images and prepares dynamic background images for training the second network. The dynamic background images are obtained by thresholding the background-subtracted images. The second network is a U-Net that uses the same object-free video for training and the dynamic background images as pixel-wise ground-truth labels. During the test phase, the input images are processed by the autoencoder and U-Net, which generate background and dynamic background images, respectively. The dynamic background image helps remove dynamic motion from the background-subtracted image, enabling us to obtain a foreground image that is free of dynamic artifacts. To demonstrate the effectiveness of our method, we conducted experiments on selected categories of the CDnet 2014 dataset and the I2R dataset. Our method outperformed all top-ranked unsupervised methods. We also achieved better results than one of the two existing weakly supervised methods, and our performance was similar to the other. Our proposed method is online, real-time, efficient, and requires minimal frame-level annotation, making it suitable for a wide range of real-world applications.
翻訳日:2023-03-07 17:31:13 公開日:2023-03-06
# 変動情報ボトルネックとコントラスト学習を用いたアスペクトベース感情分析のためのスプリアス相関の低減

Reducing Spurious Correlations for Aspect-Based Sentiment Analysis with Variational Information Bottleneck and Contrastive Learning ( http://arxiv.org/abs/2303.02846v1 )

ライセンス: Link先を確認
Mingshan Chang, Min Yang, Qingshan Jiang, and Ruifeng Xu(参考訳) アスペクトベースの感情分析(ABSA)に関する文献は、深層ニューラルネットワークに圧倒され、ABSAの最先端の結果が得られた。 しかし、これらの深層モデルは入力特徴と出力ラベルの間の急激な相関を学習し、一般には頑健さや一般化に悩まされる。 本稿では,ABSAの相関関係を緩和するために,CVIB(Contrastive Variational Information Bottleneck)フレームワークを提案する。 提案するCVIBフレームワークは,元のネットワークと自走ネットワークで構成され,これら2つのネットワークは,コントラスト学習によって同時に最適化される。 具体的には,入力特徴と予測ラベル間の過剰なパターンや急激な相関を排除した情報圧縮ネットワーク(自己表現型ネットワーク)を元のネットワークから学習するために,変分情報ボトルネック(VIB)の原理を用いる。 次に、意味的に類似する正の対を引き合いに出し、類似の対を押し出すために、自己相関学習を考案し、元のネットワークで学習されたアンカーの表現をそれぞれ正のペアとし、ミニバッチ内の2つの異なる文の表現を負のペアとして扱う。 5つのベンチマークABSAデータセットの大規模な実験により、CVIB法は、全体的な予測性能、堅牢性、一般化の点で、強力な競合相手よりも優れた性能を達成することが示された。

The literature on aspect-based sentiment analysis (ABSA) has been overwhelmed by deep neural networks, yielding state-of-the-art results for ABSA. However, these deep models are susceptible to learning spurious correlations between input features and output labels, which in general suffer from poor robustness and generalization. In this paper, we propose a novel Contrastive Variational Information Bottleneck framework (called CVIB) to reduce spurious correlations for ABSA. The proposed CVIB framework is composed of an original network and a self-pruned network, and these two networks are optimized simultaneously via contrastive learning. Concretely, we employ the Variational Information Bottleneck (VIB) principle to learn an informative and compressed network (self-pruned network) from the original network, which discards the superfluous patterns or spurious correlations between input features and prediction labels. Then, self-pruning contrastive learning is devised to pull together semantically similar positive pairs and push away dissimilar pairs, where the representations of the anchor learned by the original and self-pruned networks respectively are regarded as a positive pair while the representations of two different sentences within a mini-batch are treated as a negative pair. Extensive experiments on five benchmark ABSA datasets demonstrate that our CVIB method achieves better performance than the strong competitors in terms of overall prediction performance, robustness, and generalization.
翻訳日:2023-03-07 17:30:46 公開日:2023-03-06
# 翼の昇降係数予測のための知識埋め込みメタラーニングモデル

Knowledge-embedded meta-learning model for lift coefficient prediction of airfoils ( http://arxiv.org/abs/2303.02844v1 )

ライセンス: Link先を確認
Hairun Xie, Jing Wang, Miao Zhang(参考訳) 空力性能評価は航空機の空力設計最適化の重要な部分であるが、従来の手法はコストと時間を要する。 さまざまな機械学習手法が高い精度を達成できるという事実にもかかわらず、その一般化性能の低さと"ブラックボックス"の性質から、エンジニアリングへの応用は依然として困難である。 本稿では,データとリフト曲線の理論知識を十分に統合した知識埋め込みメタ学習モデルを開発し,任意の超臨界翼のリフト係数を攻撃角度に応じて求める。 提案モデルでは,プライマリネットワークがリフトと攻撃角度の関係を表現し,ジオメトリ情報がハイパーネットワークに符号化され,プライマリネットワークに関わる未知のパラメータを予測する。 具体的には、異なるアーキテクチャを持つ3つのモデルは、さまざまな解釈を提供するように訓練される。 通常のニューラルネットワークと比較すると,提案手法は高い一般化能力と競合予測精度を示すことができる。 その後、統合グラディエント法とサリエンシ法に基づいて解釈可能な解析を行う。 その結果, 提案モデルでは, 翼形状が物理的特性に与える影響を評価できることがわかった。 さらに,提案モデルによって引き起こされる例外と欠点を詳細に分析し,考察した。

Aerodynamic performance evaluation is an important part of the aircraft aerodynamic design optimization process; however, traditional methods are costly and time-consuming. Despite the fact that various machine learning methods can achieve high accuracy, their application in engineering is still difficult due to their poor generalization performance and "black box" nature. In this paper, a knowledge-embedded meta learning model, which fully integrates data with the theoretical knowledge of the lift curve, is developed to obtain the lift coefficients of an arbitrary supercritical airfoil under various angle of attacks. In the proposed model, a primary network is responsible for representing the relationship between the lift and angle of attack, while the geometry information is encoded into a hyper network to predict the unknown parameters involved in the primary network. Specifically, three models with different architectures are trained to provide various interpretations. Compared to the ordinary neural network, our proposed model can exhibit better generalization capability with competitive prediction accuracy. Afterward, interpretable analysis is performed based on the Integrated Gradients and Saliency methods. Results show that the proposed model can tend to assess the influence of airfoil geometry to the physical characteristics. Furthermore, the exceptions and shortcomings caused by the proposed model are analysed and discussed in detail.
翻訳日:2023-03-07 17:30:19 公開日:2023-03-06
# 財務における自然言語理解課題のためのモデル非依存メタラーニング

Model-Agnostic Meta-Learning for Natural Language Understanding Tasks in Finance ( http://arxiv.org/abs/2303.02841v1 )

ライセンス: Link先を確認
Bixing Yan, Shaoling Chen, Yuxuan He, Zhihan Li(参考訳) 自然言語理解(NLU)は、アノテーション付きデータやその領域の特殊言語が欠如しているため、財務面では困難である。 その結果,事前学習された言語モデルとマルチタスク学習を用いて,ロバストな表現を学習することを提案した。 しかし、アグレッシブな微調整は、しばしば過剰フィッティングを引き起こし、マルチタスク学習は、膨大な量のデータを含むタスクを好む。 本稿では,低リソース金融nluタスクにおけるモデル非依存なメタ学習アルゴリズム(maml)について検討する。 私たちの貢献には 1. GLUEデータセット、SNLI、Sci-Tail、Financial PhraseBankといった各種タスクを用いたMAML手法の性能について検討する。 2. 複数の単一型タスクによるmaml手法の性能について検討する:twitterテキストデータを用いた実シナリオ株価予測問題。 実験結果により,本手法は低リソース環境に高速かつ良好に適応できることを実証した。

Natural language understanding(NLU) is challenging for finance due to the lack of annotated data and the specialized language in that domain. As a result, researchers have proposed to use pre-trained language model and multi-task learning to learn robust representations. However, aggressive fine-tuning often causes over-fitting and multi-task learning may favor tasks with significantly larger amounts data, etc. To address these problems, in this paper, we investigate model-agnostic meta-learning algorithm(MAML) in low-resource financial NLU tasks. Our contribution includes: 1. we explore the performance of MAML method with multiple types of tasks: GLUE datasets, SNLI, Sci-Tail and Financial PhraseBank; 2. we study the performance of MAML method with multiple single-type tasks: a real scenario stock price prediction problem with twitter text data. Our models achieve the state-of-the-art performance according to the experimental results, which demonstrate that our method can adapt fast and well to low-resource situations.
翻訳日:2023-03-07 17:29:59 公開日:2023-03-06
# 安全計算と地理的不特定性を考慮した軌道ベース接触追跡

Accurate and Efficient Trajectory-based Contact Tracing with Secure Computation and Geo-Indistinguishability ( http://arxiv.org/abs/2303.02838v1 )

ライセンス: Link先を確認
Maocheng Li, Yuxiang Zeng, Libin Zheng, Lei Chen, Qing Li(参考訳) 接触追跡は、新型コロナウイルスなどの感染症の伝染を制限する効果的な手段と考えられている。 軌跡に基づく接触追跡は、ユーザの軌跡と患者の軌跡を比較し、直接接触と間接接触の両方の追跡を可能にする。 軌跡データはセンシティブかつ個人データとして広く考えられているが、優れた精度、高効率、強力なプライバシー保証を備えた接触追跡を行うために、ユーザと患者の軌跡を安全に比較する方法に関する研究は限られている。 従来のMPC(Secure Multiparty Computation)技術は、数百万人のユーザを抱える大都市での採用を妨げている。 本研究では,ContactGuardという技術フレームワークを提案し,正確な,効率的で,かつ,プライバシに配慮したトラジェクトリベースの接触追跡を実現する。 位置情報ベースのサービス(LBS)システムのための差分プライバシー概念であるGeo-Indistinguishability(Geo-Indistinguishability)の助けを借りて、患者の少数の位置だけを選択して患者の位置を比較することで、MPCベースのベースラインの効率を向上させる。 大規模な実験では、コンタクトガードはMPCベースラインよりも2.6$\times$の速度で動作し、接触追跡の精度は犠牲にならない。

Contact tracing has been considered as an effective measure to limit the transmission of infectious disease such as COVID-19. Trajectory-based contact tracing compares the trajectories of users with the patients, and allows the tracing of both direct contacts and indirect contacts. Although trajectory data is widely considered as sensitive and personal data, there is limited research on how to securely compare trajectories of users and patients to conduct contact tracing with excellent accuracy, high efficiency, and strong privacy guarantee. Traditional Secure Multiparty Computation (MPC) techniques suffer from prohibitive running time, which prevents their adoption in large cities with millions of users. In this work, we propose a technical framework called ContactGuard to achieve accurate, efficient, and privacy-preserving trajectory-based contact tracing. It improves the efficiency of the MPC-based baseline by selecting only a small subset of locations of users to compare against the locations of the patients, with the assist of Geo-Indistinguishability, a differential privacy notion for Location-based services (LBS) systems. Extensive experiments demonstrate that ContactGuard runs up to 2.6$\times$ faster than the MPC baseline, with no sacrifice in terms of the accuracy of contact tracing.
翻訳日:2023-03-07 17:29:28 公開日:2023-03-06
# TSP6Kデータセットによる交通シーン解析

Traffic Scene Parsing through the TSP6K Dataset ( http://arxiv.org/abs/2303.02835v1 )

ライセンス: Link先を確認
Peng-Tao Jiang, Yuqi Yang, Yang Cao, Qibin Hou, Ming-Ming Cheng, Chunhua Shen(参考訳) トラフィックシーン解析は、インテリジェントな都市を実現する上で最も重要なタスクの1つです。 これまでのところ、トラフィックシーン解析のタスクに特化したデータセットの構築にはほとんど労力がかからない。 このギャップを埋めるために,6,000の都市交通画像を含むTSP6Kデータセットを導入し,様々な気象条件下で数百のストリートシーンを横断する。 運転プラットフォームから収集された過去のトラフィックシーンデータセットとは対照的に、私たちのデータセットのイメージは、路上の撮影プラットフォームからのものです。 このような交通画像は、運転シーンよりも数倍のトラフィック参加者で、混雑した通りのシーンをキャプチャすることができる。 TSP6Kデータセットの各画像には、高品質のピクセルレベルとインスタンスレベルのアノテーションが提供されている。 データセットの詳細な解析を行い,最先端のシーン解析手法を総合的に評価する。 インスタンスサイズが大きく異なることを考慮し,トラフィックシーンにおける異なる意味領域の詳細を復元する詳細精細化デコーダを提案する。 実験は、その効果を、高速のトラフィックシーンの解析に示している。 コードとデータセットは公開される予定だ。

Traffic scene parsing is one of the most important tasks to achieve intelligent cities. So far, little effort has been spent on constructing datasets specifically for the task of traffic scene parsing. To fill this gap, here we introduce the TSP6K dataset, containing 6,000 urban traffic images and spanning hundreds of street scenes under various weather conditions. In contrast to most previous traffic scene datasets collected from a driving platform, the images in our dataset are from the shooting platform high-hanging on the street. Such traffic images can capture more crowded street scenes with several times more traffic participants than the driving scenes. Each image in the TSP6K dataset is provided with high-quality pixel-level and instance-level annotations. We perform a detailed analysis for the dataset and comprehensively evaluate the state-of-the-art scene parsing methods. Considering the vast difference in instance sizes, we propose a detail refining decoder, which recovers the details of different semantic regions in traffic scenes. Experiments have shown its effectiveness in parsing high-hanging traffic scenes. Code and dataset will be made publicly available.
翻訳日:2023-03-07 17:28:50 公開日:2023-03-06
# 深層学習によるメッシュ再構築手法の検討

A Review of Deep Learning-Powered Mesh Reconstruction Methods ( http://arxiv.org/abs/2303.02879v1 )

ライセンス: Link先を確認
Zhiqin Chen(参考訳) ハードウェアとレンダリング技術の最近の進歩により、3Dモデルは私たちの生活の至るところに現れた。 しかし、3Dの形状を作るのは困難で、専門的な知識を必要とする。 一方、Deep Learningは様々なソースから高品質な3D形状の再構築を可能にし、最小限の努力で3D形状を取得するための有効なアプローチとなった。 重要なのは、一般的な3dアプリケーションで使用するためには、再構成された形状を多角形メッシュとして表現する必要があることだ。 本稿では,機械学習を利用したメッシュ再構築手法の総合的なレビューを行う。 まず,深層学習における3次元形状の表現について述べる。 次に,ボクセル,点雲,単一画像,マルチビュー画像からの3次元メッシュ再構成手法の開発について概説する。 最後に,この分野におけるいくつかの課題を特定し,今後の方向性を提案する。

With the recent advances in hardware and rendering techniques, 3D models have emerged everywhere in our life. Yet creating 3D shapes is arduous and requires significant professional knowledge. Meanwhile, Deep learning has enabled high-quality 3D shape reconstruction from various sources, making it a viable approach to acquiring 3D shapes with minimal effort. Importantly, to be used in common 3D applications, the reconstructed shapes need to be represented as polygonal meshes, which is a challenge for neural networks due to the irregularity of mesh tessellations. In this survey, we provide a comprehensive review of mesh reconstruction methods that are powered by machine learning. We first describe various representations for 3D shapes in the deep learning context. Then we review the development of 3D mesh reconstruction methods from voxels, point clouds, single images, and multi-view images. Finally, we identify several challenges in this field and propose potential future directions.
翻訳日:2023-03-07 17:21:52 公開日:2023-03-06
# メタヒューリスティック摂動駆動型ニューラルネットワークによる準安定型スカイミオン構造の検出

Finding metastable skyrmionic structures via a metaheuristic perturbation-driven neural network ( http://arxiv.org/abs/2303.02876v1 )

ライセンス: Link先を確認
Qichen Xu, I. P. Miranda, Manuel Pereiro, Filipp N. Rybakov, Danny Thonig, Erik Sj\"oqvist, Pavel Bessarab, Anders Bergman, Olle Eriksson, Pawel Herman, Anna Delin(参考訳) 実験で観測されたトポロジカルな磁気テクスチャは、理論的計算と数値シミュレーションによって予測できる。 しかし、これらの計算は一般に、局所エネルギーと大域エネルギーの区別の困難さによって妨げられている。 これは、多くのトポロジカル電荷を許容する磁性材料にとって特に問題となる。 古典的な数値法を用いてそのような問題に対する解を見つけることは、よい初期推定か巨大なランダムサンプリングが必要であるため、困難である。 本研究では、フィードフォワードニューラルネットワークの枠組みにおける勾配降下に基づく最適化のパワーと、ニューラルネットワークの入力のランダムな摂動によって駆動されるヒューリスティックなメタサーチを組み合わせることで、これらのメタ安定な構成を特定する効率的な方法を示す。 実験により得られたPd/Fe/Ir(111)系の解析により,本手法のパワーを実証する。

Topological magnetic textures observed in experiments can, in principle, be predicted by theoretical calculations and numerical simulations. However, such calculations are, in general, hampered by difficulties in distinguishing between local and global energy minima. This becomes particularly problematic for magnetic materials that allow for a multitude of topological charges. Finding solutions to such problems by means of classical numerical methods can be challenging because either a good initial guess or a gigantic amount of random sampling is required. In this study, we demonstrate an efficient way to identify those metastable configurations by leveraging the power of gradient descent-based optimization within the framework of a feedforward neural network combined with a heuristic meta-search, which is driven by a random perturbation of the neural network's input. We exemplify the power of the method by an analysis of the Pd/Fe/Ir(111) system, an experimentally well characterized system.
翻訳日:2023-03-07 17:21:40 公開日:2023-03-06
# DR-Label:ラベルデコンストラクションと再構成による触媒系のGNNモデルの改善

DR-Label: Improving GNN Models for Catalysis Systems by Label Deconstruction and Reconstruction ( http://arxiv.org/abs/2303.02875v1 )

ライセンス: Link先を確認
Bowen Wang, Chen Liang, Jiaze Wang, Furui Liu, Shaogang Hao, Dong Li, Jianye Hao, Guangyong Chen, Xiaolong Zou, Pheng-Ann Heng(参考訳) 触媒吸着系の平衡状態を達成することは吸着エネルギーなどの有効特性を根本的に評価するための鍵となる。 原子系の緩和過程を促進・誘導し、平衡状態におけるその特性をより正確に予測するために、より詳細な監視戦略を持つ機械学習手法が適用されている。 本稿では,新しいグラフニューラルネットワーク(GNN)と予測戦略DR-Labelを提案する。 この方法は、監督信号を強化し、エッジ表現における解の多重性を低減し、グラフ構造変化に頑健なノード予測を提供することをモデルに促す。 DR-Labelはまず、ノードレベルの監視信号を各エッジに投影することで、モデルによりきめ細かい平衡状態情報をデコンストラクトする。 逆に、モデルでは、エッジレベルの予測を球面適合アルゴリズムでノードレベルに変換することにより、より堅牢な平衡状態予測を再構成する。 DR-Labelの戦略は、3つの根本的に異なるモデルに適用された。 DR-Label の戦略に基づいて,我々は Open Catalyst 2020 (OC20) データセットと Cu-based single-atom-alloyed CO Adsorption (SAA) データセットで新たな最先端性能を実現する DRFormer を提案する。 我々は,触媒系の平衡状態特性予測において,より正確なモデルを開発するための重要なステップを明らかにすることを期待する。

Attaining the equilibrium state of a catalyst-adsorbate system is key to fundamentally assessing its effective properties, such as adsorption energy. Machine learning methods with finer supervision strategies have been applied to boost and guide the relaxation process of an atomic system and better predict its properties at the equilibrium state. In this paper, we present a novel graph neural network (GNN) supervision and prediction strategy DR-Label. The method enhances the supervision signal, reduces the multiplicity of solutions in edge representation, and encourages the model to provide node predictions that are graph structural variation robust. DR-Label first Deconstructs finer-grained equilibrium state information to the model by projecting the node-level supervision signal to each edge. Reversely, the model Reconstructs a more robust equilibrium state prediction by transforming edge-level predictions to node-level with a sphere-fitting algorithm. The DR-Label strategy was applied to three radically distinct models, each of which displayed consistent performance enhancements. Based on the DR-Label strategy, we further proposed DRFormer, which achieved a new state-of-the-art performance on the Open Catalyst 2020 (OC20) dataset and the Cu-based single-atom-alloyed CO adsorption (SAA) dataset. We expect that our work will highlight crucial steps for the development of a more accurate model in equilibrium state property prediction of a catalysis system.
翻訳日:2023-03-07 17:21:24 公開日:2023-03-06
# ディープニューラルネットワークにおけるフェアネステストのための逆サンプリング

Adversarial Sampling for Fairness Testing in Deep Neural Network ( http://arxiv.org/abs/2303.02874v1 )

ライセンス: Link先を確認
Tosin Ige, William Marfo, Justin Tonkinson, Sikiru Adewale, Bolanle Hafiz Matti(参考訳) 本研究では,与えられたデータセット内の画像の異なるクラスにまたがるディープニューラルネットワークモデル予測の公平性をテストするために,逆サンプリングの利用に焦点をあてる。 敵攻撃に対する機械学習モデルの堅牢性を保証するために,いくつかのフレームワークが提案されている。 逆行訓練アルゴリズムは、異なるグループ間で精度と堅牢性の相違を引き起こす傾向があるという落とし穴がある。 本研究は,特定のデータセット内の異なるクラスやカテゴリの画像に対するディープニューラルネットワークモデル予測における公平性をテストするために,逆サンプリングを用いた。 ディープニューラルネットワーク分類器において,様々な入力群にまたがる公平性を確保する新しい手法を実証した。 我々は、元の画像でニューラルネットワークモデルを訓練し、摂動または攻撃された画像でモデルをトレーニングすることはなかった。 敵のサンプリングをモデルに送ると、敵のサンプルが属する画像の元のカテゴリ/クラスを予測することができました。 また,関心の分離をソフトウェア工学から切り離し,ノイズやアタックを徹底的に除去して画像の摂動をフィルターする独立したフィルタ層を付加し,分類のために自動的にネットワークに渡すことにより,93.3%の精度を得ることができた。 Cifar-10データセットにはデータセットの10のカテゴリがあり、公平性を考慮し、データセットの各カテゴリに仮説を適用し、一貫性のある結果と精度を得ることができた。

In this research, we focus on the usage of adversarial sampling to test for the fairness in the prediction of deep neural network model across different classes of image in a given dataset. While several framework had been proposed to ensure robustness of machine learning model against adversarial attack, some of which includes adversarial training algorithm. There is still the pitfall that adversarial training algorithm tends to cause disparity in accuracy and robustness among different group. Our research is aimed at using adversarial sampling to test for fairness in the prediction of deep neural network model across different classes or categories of image in a given dataset. We successfully demonstrated a new method of ensuring fairness across various group of input in deep neural network classifier. We trained our neural network model on the original image, and without training our model on the perturbed or attacked image. When we feed the adversarial samplings to our model, it was able to predict the original category/ class of the image the adversarial sample belongs to. We also introduced and used the separation of concern concept from software engineering whereby there is an additional standalone filter layer that filters perturbed image by heavily removing the noise or attack before automatically passing it to the network for classification, we were able to have accuracy of 93.3%. Cifar-10 dataset have ten categories of dataset, and so, in order to account for fairness, we applied our hypothesis across each categories of dataset and were able to get a consistent result and accuracy.
翻訳日:2023-03-07 17:20:59 公開日:2023-03-06
# 視覚・言語操作のための命名対象

Naming Objects for Vision-and-Language Manipulation ( http://arxiv.org/abs/2303.02871v1 )

ライセンス: Link先を確認
Tokuhiro Nishikawa, Kazumi Aoyama, Shunichi Sekiguchi, Takayoshi Takayanagi, Jianing Wu, Yu Ishihara, Tamaki Kojima, and Jerry Jun Yokono(参考訳) 自然言語命令によるロボット操作タスクは、人間とロボットの間の対象オブジェクトの共通理解を必要とする。 しかし、命令は重要な情報を欠いているか、目的のオブジェクトを正しく表現していないため、解釈の曖昧さがしばしばある。 この曖昧さ問題を解決するために、対象のオブジェクトを事前に“ナミング”することで、自然言語命令の曖昧さを低減できると仮定する。 本稿では,物体の外観に予め命名を組み込んだロボットシステムと手法を提案し,後続の操作タスクでは,その固有名称で指示を行うことで,物体の曖昧さを解消することができる。 提案手法の有効性を示すために,対象オブジェクトを記憶するシステムを構築し,対象オブジェクトの命名が対象オブジェクトの検出を容易にし,操作命令の成功率を向上させることを示す。 この方法では、あいまいな指示でオブジェクト操作タスクの成功率が31%増加する。

Robot manipulation tasks by natural language instructions need common understanding of the target object between human and the robot. However, the instructions often have an interpretation ambiguity, because the instruction lacks important information, or does not express the target object correctly to complete the task. To solve this ambiguity problem, we hypothesize that "naming" the target objects in advance will reduce the ambiguity of natural language instructions. We propose a robot system and method that incorporates naming with appearance of the objects in advance, so that in the later manipulation task, instruction can be performed with its unique name to disambiguate the objects easily. To demonstrate the effectiveness of our approach, we build a system that can memorize the target objects, and show that naming the objects facilitates detection of the target objects and improves the success rate of manipulation instructions. With this method, the success rate of object manipulation task increases by 31% in ambiguous instructions.
翻訳日:2023-03-07 17:20:36 公開日:2023-03-06
# 国境警備の強化とコンピュータビジョンによるテロ対策:人工知能の分野

Enhancing Border Security and Countering Terrorism Through Computer Vision: a Field of Artificial Intelligence ( http://arxiv.org/abs/2303.02869v1 )

ライセンス: Link先を確認
Tosin Ige, Abosede Kolade, Olukunle Kolade(参考訳) 国境警備は、特に、違法な武器の移動、禁輸、薬物、不法または不法移民の問題との闘い、および合法的な貿易、経済的繁栄と国境を越えた国家主権が維持されることを保証する問題において、国際国境において絶え間ない問題であった。 本研究では,オープンソースコンピュータビジョン(Open CV)とアダボストアルゴリズムを用いて,移動物体を遠方から検出し,分類し,個別に画像と顔を自動的に撮り,世界規模のデータベースに対して背景チェックを行い,個人が潜在的な脅威である可能性を予測し,移民やテロリストや過激派を意図した上で,アラームを発生させるモデルを開発した。 われわれのモデルはどんなカメラデバイスにも展開でき、どんな国境にも設置できる。 2つの段階があり、まずopen cvコンピュータビジョンアルゴリズムに基づくモデルを開発し、遠方から人間の動きを検知し、自動的に人の顔と全画像の両方を撮影し、第2段階は移動物体に対する背景チェックの自動トリガーである。 これにより、世界中の複数のデータベースに対して動くオブジェクトをチェックすることができ、遠くにいる人の許容度を決定することができる。 個人が容認できない場合は、その人物のイメージやその他の詳細を自動で国境当局に警告し、もし国境当局をバイパスすれば、システムは彼の画像やその他の詳細を検知し、当局に警告することができる。 これらすべての操作は、個人が国境に達する前にAI駆動カメラによって遠くに行われる

Border security had been a persistent problem in international border especially when it get to the issue of preventing illegal movement of weapons, contraband, drugs, and combating issue of illegal or undocumented immigrant while at the same time ensuring that lawful trade, economic prosperity coupled with national sovereignty across the border is maintained. In this research work, we used open source computer vision (Open CV) and adaboost algorithm to develop a model which can detect a moving object a far off, classify it, automatically snap full image and face of the individual separately, and then run a background check on them against worldwide databases while making a prediction about an individual being a potential threat, intending immigrant, potential terrorists or extremist and then raise sound alarm. Our model can be deployed on any camera device and be mounted at any international border. There are two stages involved, we first developed a model based on open CV computer vision algorithm, with the ability to detect human movement from afar, it will automatically snap both the face and the full image of the person separately, and the second stage is the automatic triggering of background check against the moving object. This ensures it check the moving object against several databases worldwide and is able to determine the admissibility of the person afar off. If the individual is inadmissible, it will automatically alert the border officials with the image of the person and other details, and if the bypass the border officials, the system is able to detect and alert the authority with his images and other details. All these operations will be done afar off by the AI powered camera before the individual reach the border
翻訳日:2023-03-07 17:20:21 公開日:2023-03-06
# Angel-PTM:Tencentのスケーラブルで経済的な大規模事前トレーニングシステム

Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent ( http://arxiv.org/abs/2303.02868v1 )

ライセンス: Link先を確認
Xiaonan Nie, Yi Liu, Fangcheng Fu, Jinbao Xue, Dian Jiao, Xupeng Miao, Yangyu Tao, Bin Cui(参考訳) 近年では、大規模な事前訓練モデル、特にトランスフォーマーモデルの前例のない成果が見られた。 Tencent Inc.の製品やサービスは、WeChat、QQ、Tencentなど、事前訓練されたモデルのパワーを得るために選択されている。 本稿では,事前学習および微調整型トランスフォーマーモデルのための生産的深層学習システムであるAngel-PTMを提案する。 Angel-PTMは階層メモリで極めて大規模なモデルを効率的に訓練することができる。 angel-ptmの鍵となる設計は、ページ抽象化によるきめ細かいメモリ管理と、計算、データ移動、通信を協調する統一スケジューリング手法である。 さらに、Angel-PTMはSSDストレージによる極端なモデルスケーリングをサポートし、SSD I/O帯域のボトルネックに対処するためのロックフリー更新機構を実装している。 実験の結果、Angel-PTMは最大モデルスケールで最大114.8%、トレーニングスループットで最大88.9%、既存のシステムを最大114.8%上回った。 さらに、数百のGPUを用いたGPT3-175BとT5-MoE-1.2Tモデルによる実験は、Angel-PTMの強力なスケーラビリティを検証する。

Recent years have witnessed the unprecedented achievements of large-scale pre-trained models, especially the Transformer models. Many products and services in Tencent Inc., such as WeChat, QQ, and Tencent Advertisement, have been opted in to gain the power of pre-trained models. In this work, we present Angel-PTM, a productive deep learning system designed for pre-training and fine-tuning Transformer models. Angel-PTM can train extremely large-scale models with hierarchical memory efficiently. The key designs of Angel-PTM are the fine-grained memory management via the Page abstraction and a unified scheduling method that coordinate the computations, data movements, and communications. Furthermore, Angel-PTM supports extreme model scaling with SSD storage and implements the lock-free updating mechanism to address the SSD I/O bandwidth bottlenecks. Experimental results demonstrate that Angel-PTM outperforms existing systems by up to 114.8% in terms of maximum model scale as well as up to 88.9% in terms of training throughput. Additionally, experiments on GPT3-175B and T5-MoE-1.2T models utilizing hundreds of GPUs verify the strong scalability of Angel-PTM.
翻訳日:2023-03-07 17:19:53 公開日:2023-03-06
# 光リモートセンシング画像における有向物体検出のための境界認識補助とプログレッシブセマンティック最適化によるデュアルフィードバック注意フレームワーク

Dual Feedback Attention Framework via Boundary-Aware Auxiliary and Progressive Semantic Optimization for Salient Object Detection in Optical Remote Sensing Imagery ( http://arxiv.org/abs/2303.02867v1 )

ライセンス: Link先を確認
Dejun Feng, Hongyu Chen, Suning Liu, Xingyu Shen, Ziyang Liao, Yakun Xie, Jun Zhu(参考訳) 光リモートセンシング画像(ORSI-SOD)における局所物体検出は、深層学習(DL)と自然シーン画像(NSI-SOD)における局所物体検出の発達により、徐々に注目を集めている。 しかし、NSIとORSIは、大きなカバレッジ、複雑なバックグラウンド、ターゲットタイプとスケールの大きな違いなど、多くの面で異なる。 そのため、ORSI-SODには新たな専用の方法が必要である。 加えて、既存のメソッドはオブジェクトの境界に十分な注意を払わず、最終的な給与マップの完全性は改善が必要である。 これらの問題に対処するために,境界認識補助および進歩意味最適化(DFA-BASO)によるデュアルフィードバック注意フレームワークを提案する。 第一に, 境界保護校正 (BPC) モジュールは, 前方伝搬時のエッジ位置情報の損失を低減し, 低レベル特性のノイズを抑制する。 次に、BPCモジュールに基づくDFFC(Dual Feature Feedback Complementary)モジュールを提案する。 境界セマンティックな二重特徴を集約し、異なる層にまたがる特徴を調整する効果的なフィードバックを提供する。 最後に,より完全なサリエンシーマップを得るために,ssfrモジュールを提案する。 このモジュールは特徴表現をさらに洗練し、ユニークなフィードバック機構を通じて特徴の違いを取り除く。 2つの公開データセットに対する大規模な実験は、DFA-BASOが15の最先端の手法より優れていることを示している。 さらに,DFA-BASOのORSI-SODへの貢献を可視化図の詳細な分析により強く実証する。 すべてのコードはhttps://github.com/YUHsss/DFA-BASOで見ることができる。

Salient object detection in optical remote sensing image (ORSI-SOD) has gradually attracted attention thanks to the development of deep learning (DL) and salient object detection in natural scene image (NSI-SOD). However, NSI and ORSI are different in many aspects, such as large coverage, complex background, and large differences in target types and scales. Therefore, a new dedicated method is needed for ORSI-SOD. In addition, existing methods do not pay sufficient attention to the boundary of the object, and the completeness of the final saliency map still needs improvement. To address these issues, we propose a novel method called Dual Feedback Attention Framework via Boundary-Aware Auxiliary and Progressive Semantic Optimization (DFA-BASO). First, Boundary Protection Calibration (BPC) module is proposed to reduce the loss of edge position information during forward propagation and suppress noise in low-level features. Second, a Dual Feature Feedback Complementary (DFFC) module is proposed based on BPC module. It aggregates boundary-semantic dual features and provides effective feedback to coordinate features across different layers. Finally, a Strong Semantic Feedback Refinement (SSFR) module is proposed to obtain more complete saliency maps. This module further refines feature representation and eliminates feature differences through a unique feedback mechanism. Extensive experiments on two public datasets show that DFA-BASO outperforms 15 state-of-the-art methods. Furthermore, this paper strongly demonstrates the true contribution of DFA-BASO to ORSI-SOD by in-depth analysis of the visualization figure. All codes can be found at https://github.com/YUHsss/DFA-BASO.
翻訳日:2023-03-07 17:19:35 公開日:2023-03-06
# 光装物の和則

Sum rules for light-dressed matter ( http://arxiv.org/abs/2303.02866v1 )

ライセンス: Link先を確認
Bing Gu(参考訳) 光駆動性物質は平衡で観察された物質と定性的に異なる電子的および光学的性質を示す。 量子光と古典光の両方による駆動系の光学特性の一般化和則を導入する。 古典的な光では、Floquet Brillouin ゾーンと n の駆動周波数で対応する準エネルギー差で重み付けられた着衣状態の間の時間依存の双極子行列要素のすべてのフーリエ成分の和が、電子の数によって決定される定数であることが示される。 量子照明の類似の和則も導出される。 これらの開発は、光電場による物質の有効光学特性の制御のためのガイダンスを提供する。

Light-driven matter can exhibit qualitatively distinct electronic and optical properties from those observed at equilibrium. We introduce generalized sum rules for the optical properties of driven systems by both quantum and classical light. For classical light, it shows that the sum of all Fourier components, indexed by n, of the time-dependent dipole matrix elements between dressed states weighted by the corresponding quasienergy difference in the first Floquet Brillouin zone plus n driving frequency is a constant, determined by the number of electrons. An analogous sum rule for quantum light-dressing is also derived. These developments provide guidance for the control of effective optical properties of matter by light fields.
翻訳日:2023-03-07 17:19:10 公開日:2023-03-06
# 欧州連合における政治広告の透明性向上法についての一考察

A Note on the Proposed Law for Improving the Transparency of Political Advertising in the European Union ( http://arxiv.org/abs/2303.02863v1 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 世界中で政治広告の供給と需要が高まっている。 同時に、外国政府や他の悪役による選挙妨害のような社会的な脅威は、多くの民主主義において、引き続き懸念されている。 さらに、外国軍や国内軍による選挙結果の操作は、基本的権利を心配している多くの市民の関心事であり続けている。 この目的のために、欧州連合(EU)はこの問題に取り組むためのいくつかの取り組みを開始した。 2020年には、政治広告の透明性を高めるための新しい規制が提案された。 この短い解説は規制を見直し、その制限と潜在的な影響についていくつかの点を提起する。

There is an increasing supply and demand for political advertising throughout the world. At the same time, societal threats, such election interference by foreign governments and other bad actors, continues to be a pressing concern in many democracies. Furthermore, manipulation of electoral outcomes, whether by foreign or domestic forces, continues to be a concern of many citizens who are also worried about their fundamental rights. To these ends, the European Union (EU) has launched several initiatives for tackling the issues. A new regulation was proposed in 2020 also for improving the transparency of political advertising in the union. This short commentary reviews the regulation and raises a few points about its limitations and potential impacts.
翻訳日:2023-03-07 17:18:57 公開日:2023-03-06
# 機械学習によるエントロピー生産推定を改善する$\alpha$-divergence

The $\alpha$-divergence Improves the Entropy Production Estimation via Machine Learning ( http://arxiv.org/abs/2303.02901v1 )

ライセンス: Link先を確認
Euijoon Kwon, Yongjoo Baek(参考訳) 近年,機械学習による軌道データから確率エントロピー生成(EP)をアルゴリズムで推定することへの関心が高まっている。 このようなアルゴリズムの重要な要素は、最小化が正確なEP推定を保証する損失関数の同定である。 本研究では,EP推定に使用できる$\alpha$-divergenceの変分表現を実装するような,損失関数のホストが存在することを示す。 これらの損失関数のうち、$\alpha = -0.5$に対応するものは、強い非平衡駆動やスローダイナミクスに対して最も堅牢な性能を示し、これはクルバック・リーバーの発散(\alpha = 0$)に基づいて既存の方法に悪影響を及ぼす。 そこで本研究では,ep推定問題の解法を単純化し,損失関数のランドスケープと確率的性質から,$\alpha = -0.5$ の最適性を示す。

Recent years have seen a surge of interest in the algorithmic estimation of stochastic entropy production (EP) from the trajectory data via machine learning. A crucial element of such algorithms is the identification of a loss function whose minimization guarantees the accurate EP estimation. In this study, we show that there exists a host of loss functions, namely those implementing a variational representation of the $\alpha$-divergence, which can be used for the EP estimation. Among these loss functions, the one corresponding to $\alpha = -0.5$ exhibits the most robust performance against strong nonequilibrium driving or slow dynamics, which adversely affects the existing method based on the Kullback-Leibler divergence ($\alpha = 0$). To corroborate our findings, we present an exactly solvable simplification of the EP estimation problem, whose loss function landscape and stochastic properties demonstrate the optimality of $\alpha = -0.5$.
翻訳日:2023-03-07 17:11:46 公開日:2023-03-06
# パラメトリック駆動カプラを用いた形状単一マイクロ波光子の決定論的生成

Deterministic generation of shaped single microwave photons using a parametrically driven coupler ( http://arxiv.org/abs/2303.02899v1 )

ライセンス: Link先を確認
Jiaying Yang, Axel Eriksson, Mohammed Ali Aamir, Ingrid Strandberg, Claudia Castillo Moreno, Daniel Perez Lozano, Per Persson, and Simone Gasparinetti(参考訳) 分散量子コンピューティングシステムは、空間的に分離された処理ユニット間の量子通信チャネルを必要とする。 超伝導回路では、伝播マイクロ波光子を用いてエミッタと受信ノード間の量子情報を符号化し転送することで、そのようなチャネルを実現することができる。 本稿では,データキュービットの状態が伝播するマイクロ波モードに決定論的に伝達される超伝導回路を94.5%の精度で実証する。 我々は、時間変化パラメトリックドライブを用いて、伝搬モードの時間プロファイルを時間対称かつ一定位相で形成することにより、受信プロセッサによる再吸収を時間反転バージョンのエミッションとして実装することができる。 パラメトリックドライブの変調による出力周波数の時間依存性シフトを補正するための自己校正ルーチンを実証する。 本研究は,分散量子コンピューティングネットワークにおける高忠実性量子状態転送と遠隔絡み込み操作を実現するための信頼性の高い手法を提供する。

A distributed quantum computing system requires a quantum communication channel between spatially separated processing units. In superconducting circuits, such a channel can be realized by using propagating microwave photons to encode and transfer quantum information between an emitter and a receiver node. Here we experimentally demonstrate a superconducting circuit that deterministically transfers the state of a data qubit into a propagating microwave mode, with a process fidelity of 94.5%. We use a time-varying parametric drive to shape the temporal profile of the propagating mode to be time-symmetric and with constant phase, so that reabsorption by the receiving processor can be implemented as a time-reversed version of the emission. We demonstrate a self-calibrating routine to correct for time-dependent shifts of the emitted frequencies due to the modulation of the parametric drive. Our work provides a reliable method to implement high-fidelity quantum state transfer and remote entanglement operations in a distributed quantum computing network.
翻訳日:2023-03-07 17:11:30 公開日:2023-03-06
# 単一精度ガス力学における最大エントロピーモーメント法の安定化

Stabilizing the Maximal Entropy Moment Method for Rarefied Gas Dynamics at Single-Precision ( http://arxiv.org/abs/2303.02898v1 )

ライセンス: Link先を確認
Candi Zheng, Wang Yang, Shiyi Chen(参考訳) 密度と希薄ガスの両方に有効な拡張流体力学方程式の開発は大きな課題である。 この課題の体系的な解決策は、気体分子速度分布のモーメントを伴う密度と希薄ガスの挙動を記述するモーメント法である。 モーメント法のうち、最大エントロピーモーメント法(mem)は、最大エントロピーを持つ速度分布を利用する、その適切さと安定性の点で際立っている。 しかし、そのような分布を見つけるには、不条件の計算要求最適化問題を解く必要がある。 この問題は、特に高速衝撃波のような流れに対して、数値精度が不十分なときに数値オーバーフローと分解を引き起こす。 また、最新のgpuが巨大な浮動小数点演算パワーで最適化を加速するのを防ぐ。 本稿では,MEMの安定化を目標とし,一精度で最新のGPU上での非常に強い通常の衝撃波をシミュレーションする。 本稿では,MEMのゲージ変換を提案する。 また, 分布の正準形式とニュートンの修正最適化法を適用し, 数値オーバーフローと破壊にも取り組む。 これらの手法により,従来の2倍精度のマッハ4を上回り,35モーメントMEMのマッハ10衝撃波の単精度GPUシミュレーションを達成した。 さらに、過精製空間メッシュはMEMの精度と安定性の両方を劣化させると主張した。 本研究は, 従来手法と比較して高い安定性を保ちながら, 単一精度で最新のGPU上での非常に強い通常の衝撃波をシミュレーションするための最大エントロピーモーメント法を実現する。

Developing extended hydrodynamics equations valid for both dense and rarefied gases remains a great challenge. A systematical solution for this challenge is the moment method describing both dense and rarefied gas behaviors with moments of gas molecule velocity distributions. Among moment methods, the maximal entropy moment method (MEM) stands out for its well-posedness and stability, which utilizes velocity distributions with maximized entropy. However, finding such distributions requires solving an ill-conditioned and computation-demanding optimization problem. This problem causes numerical overflow and breakdown when the numerical precision is insufficient, especially for flows like high-speed shock waves. It also prevents modern GPUs from accelerating optimization with their enormous single floating-point precision computation power. This paper aims to stabilize MEM, making it practical for simulating very strong normal shock waves on modern GPUs at single precision. We propose the gauge transformations for MEM, making the optimization less ill-conditioned. We also tackle numerical overflow and breakdown by adopting the canonical form of distribution and Newton's modified optimization method. With these techniques, we achieved a single-precision GPU simulation of a Mach 10 shock wave with 35 moments MEM, surpassing the previous double-precision results of Mach 4. Moreover, we argued that over-refined spatial mesh degrades both the accuracy and stability of MEM. Overall, this paper makes the maximal entropy moment method practical for simulating very strong normal shock waves on modern GPUs at single-precision, with significant stability improvement compared to previous methods.
翻訳日:2023-03-07 17:11:15 公開日:2023-03-06
# 人のフィードバックによる強化学習の社会的影響の展望

Perspectives on the Social Impacts of Reinforcement Learning with Human Feedback ( http://arxiv.org/abs/2303.02891v1 )

ライセンス: Link先を確認
Gabrielle Kaili-May Liu(参考訳) 機械が人間のように考えることは可能か? もしそうなら、どうやって彼らにそれを教えるべきか? 1950年にはアラン・チューリング(alan turing)が、子どもに教えるやり方で機械を教えるべきだと述べた。 人間のフィードバックによる強化学習(RLHF)は、エージェントが人間のフィードバックから自然主義的に学ぶための強力な候補となっている。 RLHFは、報酬信号に加えて、人間の教師からのフィードバックを提供するため、従来の強化学習とは異なる。 OpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、複数の著名なAIアプリケーションによって、一般に公開されている。 高度な能力を持つチャットボットはすでに、AIが人間とどのように相互作用するかについての理解を覆している。 RLHFの幅広い適用性と成功は、その社会的影響を評価する必要性を強く動機付けている。 近年の展開を踏まえて、RLHFは人間社会に悪影響を及ぼすことなく開発・利用できるのかという重要な疑問を考察する。 我々の目的は、RLHFの社会的影響を体系的に研究すること、RLHFの重要な社会的・倫理的問題を特定すること、利害関係者に対する社会的影響を議論することである。 RLHFのテキストベースの応用は注目されているが、その社会的意味を評価する際には、その適用範囲が多様であることを考慮する必要がある。 RLHFベースの技術が社会に影響を及ぼす7つの主要な方法について述べる。 本稿は最終的に、RLHFが誤情報、AIの価値調整、バイアス、AIアクセス、異文化間対話、産業、労働の領域に肯定的な影響を与える可能性を示唆する。 RLHFは、既存のAI技術と同等の懸念を提起するので、RLHFの採用に意識的かつ意図的に取り組むことが重要である。

Is it possible for machines to think like humans? And if it is, how should we go about teaching them to do so? As early as 1950, Alan Turing stated that we ought to teach machines in the way of teaching a child. Reinforcement learning with human feedback (RLHF) has emerged as a strong candidate toward allowing agents to learn from human feedback in a naturalistic manner. RLHF is distinct from traditional reinforcement learning as it provides feedback from a human teacher in addition to a reward signal. It has been catapulted into public view by multiple high-profile AI applications, including OpenAI's ChatGPT, DeepMind's Sparrow, and Anthropic's Claude. These highly capable chatbots are already overturning our understanding of how AI interacts with humanity. The wide applicability and burgeoning success of RLHF strongly motivate the need to evaluate its social impacts. In light of recent developments, this paper considers an important question: can RLHF be developed and used without negatively affecting human societies? Our objectives are threefold: to provide a systematic study of the social effects of RLHF; to identify key social and ethical issues of RLHF; and to discuss social impacts for stakeholders. Although text-based applications of RLHF have received much attention, it is crucial to consider when evaluating its social implications the diverse range of areas to which it may be deployed. We describe seven primary ways in which RLHF-based technologies will affect society by positively transforming human experiences with AI. This paper ultimately proposes that RLHF has potential to net positively impact areas of misinformation, AI value-alignment, bias, AI access, cross-cultural dialogue, industry, and workforce. As RLHF raises concerns that echo those of existing AI technologies, it will be important for all to be aware and intentional in the adoption of RLHF.
翻訳日:2023-03-07 17:10:47 公開日:2023-03-06
# 物理学的不定形ニューラルネットワークの解析

An Analysis of Physics-Informed Neural Networks ( http://arxiv.org/abs/2303.02890v1 )

ライセンス: Link先を確認
Edward Small(参考訳) 世界の力学を支配する偏微分方程式は数世紀にわたって大きな深さで研究されてきたが、複雑で高次元の条件や領域の解法はまだ非常に大きな数学と計算の課題となっている。 解析的手法は使いづらく、数値的手法は誤りや不正確性につながる。 これに加えて、この種の手法を適用するのに十分な問題を提起する情報や知識が欠けている場合もあります。 本稿では,物理システム – 物理インフォームドニューラルネットワーク – に対する解を近似する新しいアプローチを提案する。 人工ニューラルネットワークの概念を導入し、目的関数を定義し、最適化戦略について議論する。 偏微分方程式は最適化問題の損失関数の制約として含まれ、ネットワークがモデル化している物理系の力学に関する知識にアクセスする。 いくつかの直感的な例が示され、より複雑な応用は、地震イメージングのような物理情報ニューラルネットワークの力を示すと考えられている。 解の誤差を解析し、収束性および/または解の精度を改善するための提案を行う。 問題や制限は結論にも触れられ、物理がニューラルネットワークに最も役に立つ場所や、次にどこに行くかという考え方も取り上げられている。

Whilst the partial differential equations that govern the dynamics of our world have been studied in great depth for centuries, solving them for complex, high-dimensional conditions and domains still presents an incredibly large mathematical and computational challenge. Analytical methods can be cumbersome to utilise, and numerical methods can lead to errors and inaccuracies. On top of this, sometimes we lack the information or knowledge to pose the problem well enough to apply these kinds of methods. Here, we present a new approach to approximating the solution to physical systems - physics-informed neural networks. The concept of artificial neural networks is introduced, the objective function is defined, and optimisation strategies are discussed. The partial differential equation is then included as a constraint in the loss function for the optimisation problem, giving the network access to knowledge of the dynamics of the physical system it is modelling. Some intuitive examples are displayed, and more complex applications are considered to showcase the power of physics informed neural networks, such as in seismic imaging. Solution error is analysed, and suggestions are made to improve convergence and/or solution precision. Problems and limitations are also touched upon in the conclusions, as well as some thoughts as to where physics informed neural networks are most useful, and where they could go next.
翻訳日:2023-03-07 17:10:16 公開日:2023-03-06
# 空間情報型キーポイントのカスケードキャプチャによる変圧器ベース画像マッチングの改善

Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative Keypoints ( http://arxiv.org/abs/2303.02885v1 )

ライセンス: Link先を確認
Chenjie Cao, Yanwei Fu(参考訳) 堅牢なローカルイメージ機能マッチングの学習は、ここ数年で広く研究されてきた、基本的な低レベルのビジョンタスクである。 近年,変圧器をベースとしたセンサレス局所特徴整形器が有望な結果を示し,CNN(Creative Convolutional Neural Network)をベースとした手法よりも優れていた。 しかし,トランスフォーマによる相関は,注意学習のコストがかかるため,ソースビューの粗いパッチの中心に空間的に制限されている。 本稿では,この問題を再考し,特に低解像度画像に対して,このような定式化が劣化すると推定する。 そこで本研究では,高次特徴相関を効率的に学習し,相対的なポーズ推定のためにより信頼度の高いマッチングペアを選択するための,変圧器を用いたカスケード特徴マッチングモデルcasmtrを提案する。 新しい検出器を再訓練する代わりに、単純で効果的な非最大抑圧(NMS)後処理を用いて、信頼性マップを通じてキーポイントをフィルタリングし、マッチング精度を大幅に改善する。 CasMTRは室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。 さらに, 徹底的なアブレーションは, 提案する成分や手法の有効性を示す。

Learning robust local image feature matching is a fundamental low-level vision task, which has been widely explored in the past few years. Recently, detector-free local feature matchers based on transformers have shown promising results, which largely outperform pure Convolutional Neural Network (CNN) based ones. But correlations produced by transformer-based methods are spatially limited to the center of source views' coarse patches, because of the costly attention learning. In this work, we rethink this issue and find that such matching formulation degrades pose estimation, especially for low-resolution images. So we propose a transformer-based cascade matching model -- Cascade feature Matching TRansformer (CasMTR), to efficiently learn dense feature correlations, which allows us to choose more reliable matching pairs for the relative pose estimation. Instead of re-training a new detector, we use a simple yet effective Non-Maximum Suppression (NMS) post-process to filter keypoints through the confidence map, and largely improve the matching precision. CasMTR achieves state-of-the-art performance in indoor and outdoor pose estimation as well as visual localization. Moreover, thorough ablations show the efficacy of the proposed components and techniques.
翻訳日:2023-03-07 17:09:56 公開日:2023-03-06
# モデルスケッチ: 早期機械学習モデル設計における概念中心

Model Sketching: Centering Concepts in Early-Stage Machine Learning Model Design ( http://arxiv.org/abs/2303.02884v1 )

ライセンス: Link先を確認
Michelle S. Lam, Zixian Ma, Anne Li, Izequiel Freitas, Dakuo Wang, James A. Landay, Michael S. Bernstein(参考訳) マシンラーニングの実践者は、モデルアーキテクチャやパフォーマンスメトリクスなど、低レベルの技術的な詳細をトンネルすることが多い。 初期のモデル開発は、モデルが注意を払うべき要素について、ハイレベルな質問に集中できるだろうか? デザインにおけるスケッチの実践に触発され、アイデアを最小限の表現に蒸留し、機械学習モデルの意思決定ロジックの関数近似を反復的かつ迅速に作成する技術フレームワークであるモデルスケッチを導入する。 モデルスケッチは、ゼロショット概念のインスタンス化を用いて、モデルが推論するであろう(例えば、コンテンツモデレーションタスクにおけるプロファニティ、人種差別、皮肉)ハイレベルな人間理解可能な概念の作成に、実践者の注意を再び向ける。 17人のML実践者による評価では、モデルスケッチは、実装からより高いレベルの探索へと再編成され、より広い範囲のモデル設計の反復を引き起こし、モデルを構築するのに通常必要とされる時間のごく一部で、問題の定式化におけるギャップの特定に役立った。

Machine learning practitioners often end up tunneling on low-level technical details like model architectures and performance metrics. Could early model development instead focus on high-level questions of which factors a model ought to pay attention to? Inspired by the practice of sketching in design, which distills ideas to their minimal representation, we introduce model sketching: a technical framework for iteratively and rapidly authoring functional approximations of a machine learning model's decision-making logic. Model sketching refocuses practitioner attention on composing high-level, human-understandable concepts that the model is expected to reason over (e.g., profanity, racism, or sarcasm in a content moderation task) using zero-shot concept instantiation. In an evaluation with 17 ML practitioners, model sketching reframed thinking from implementation to higher-level exploration, prompted iteration on a broader range of model designs, and helped identify gaps in the problem formulation$\unicode{x2014}$all in a fraction of the time ordinarily required to build a model.
翻訳日:2023-03-07 17:09:33 公開日:2023-03-06
# 決定林の極めて高速で近似的なカウンターファクト的説明

Very fast, approximate counterfactual explanations for decision forests ( http://arxiv.org/abs/2303.02883v1 )

ライセンス: Link先を確認
Miguel \'A. Carreira-Perpi\~n\'an and Suryabhan Singh Hada(参考訳) 我々は,ランダム林などの分類や回帰林について,反事実的な説明を求める。 これは、森林が所望の値を出力する所定のインスタンスに最も近い入力インスタンスを見つけるために最適化問題を解く必要がある。 正確な解を見つけるには、森林の葉の数に指数関数的なコストがかかる。 我々は,実際のデータポイントに占めるフォレストによって定義された入力空間領域のみに最適化を限定する,単純かつ非常に効果的な手法を提案する。 この問題は、あるデータセット上のある距離を使って、近距離探索の形式に還元される。 まず、このソリューションは素早く見つけることができ、大きな森林や高次元のデータにスケールし、インタラクティブな利用を可能にします。 第二に、この解は入力空間の高密度領域に導かれるという点で現実的である可能性が高い。

We consider finding a counterfactual explanation for a classification or regression forest, such as a random forest. This requires solving an optimization problem to find the closest input instance to a given instance for which the forest outputs a desired value. Finding an exact solution has a cost that is exponential on the number of leaves in the forest. We propose a simple but very effective approach: we constrain the optimization to only those input space regions defined by the forest that are populated by actual data points. The problem reduces to a form of nearest-neighbor search using a certain distance on a certain dataset. This has two advantages: first, the solution can be found very quickly, scaling to large forests and high-dimensional data, and enabling interactive use. Second, the solution found is more likely to be realistic in that it is guided towards high-density areas of input space.
翻訳日:2023-03-07 17:09:12 公開日:2023-03-06
# kbnet: イメージ復元のためのカーネルベースネットワーク

KBNet: Kernel Basis Network for Image Restoration ( http://arxiv.org/abs/2303.02881v1 )

ライセンス: Link先を確認
Yi Zhang, Dasong Li, Xiaoyu Shi, Dailan He, Kangning Song, Xiaogang Wang, Hongwei Qin, Hongsheng Li(参考訳) 空間情報の集約は,学習に基づく画像復元において重要な役割を果たす。 既存のCNNベースのネットワークの多くは、空間情報を適応的に集約できない空間情報をエンコードするために静的畳み込みカーネルを採用している。 最近のトランスフォーマーベースのアーキテクチャは適応的な空間集約を実現する。 しかし、それらは畳み込みの望ましい帰納バイアスがなく、計算コストが重い。 本稿では,空間情報集約のための代表像パターンをモデル化するための学習可能なカーネルベースを導入したカーネルベースアテンション(KBA)モジュールを提案する。 異なるカーネルベースは異なるローカル構造をモデル化するように訓練されている。 各空間位置において、予測された画素毎係数により線形かつ適応的に融合して凝集重みを得る。 さらに,KBAモジュールをベースとしたマルチ軸機能融合(MFF)ブロックを設計し,画像復元のためのチャネルワイド,空間不変,画素適応といった特徴を符号化する。 我々のモデルである kernel basis network (kbnet) は,従来の sota 法よりも少ない計算コストを要しながら,画像のデノイジングやデレイジング,デブラリングといった10以上のベンチマークで最先端のパフォーマンスを実現している。

How to aggregate spatial information plays an essential role in learning-based image restoration. Most existing CNN-based networks adopt static convolutional kernels to encode spatial information, which cannot aggregate spatial information adaptively. Recent transformer-based architectures achieve adaptive spatial aggregation. But they lack desirable inductive biases of convolutions and require heavy computational costs. In this paper, we propose a kernel basis attention (KBA) module, which introduces learnable kernel bases to model representative image patterns for spatial information aggregation. Different kernel bases are trained to model different local structures. At each spatial location, they are linearly and adaptively fused by predicted pixel-wise coefficients to obtain aggregation weights. Based on the KBA module, we further design a multi-axis feature fusion (MFF) block to encode and fuse channel-wise, spatial-invariant, and pixel-adaptive features for image restoration. Our model, named kernel basis network (KBNet), achieves state-of-the-art performances on more than ten benchmarks over image denoising, deraining, and deblurring tasks while requiring less computational cost than previous SOTA methods.
翻訳日:2023-03-07 17:08:58 公開日:2023-03-06
# 車両軌道予測のための時空間カプセルニューラルネットワーク

Spatiotemporal Capsule Neural Network for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2303.02880v1 )

ライセンス: Link先を確認
Yan Qin, Yong Liang Guan, and Chau Yuen(参考訳) 車からすべて(v2x)ネットワークの進歩により、道路の安全性、エネルギー消費、交通効率が大幅に向上する。 正確な車両軌道予測は、v2xネットワークのリアルタイムアプリケーションのための通信トラフィック管理とネットワークリソース割り当ての恩恵を受ける。 最近の研究では、リカレントニューラルネットワークとその変種が車両の移動性を予測するために報告されている。 しかし,車両移動行動の空間的特性は見過ごされ,情報の利用が不完全になっている。 このギャップを埋めるために,カプセル型ニューラルネットワーク(capsnet)と3つの逐次成分を用いた階層的軌道予測構造を初めて提示した。 まず、地理情報をグリッドマップ表示に変換し、車両移動度分布を空間的および時間的に記述する。 第二に、CapsNetは階層カプセルを通して局所的時間的空間的相関を埋め込むコアモデルとして機能する。 最後に、ポルト市(ポルトガル)とシンガポールで収集された実際のタクシー移動データについて広範な実験を行い、提案手法が最先端の手法より優れていることを示した。

Through advancement of the Vehicle-to-Everything (V2X) network, road safety, energy consumption, and traffic efficiency can be significantly improved. An accurate vehicle trajectory prediction benefits communication traffic management and network resource allocation for the real-time application of the V2X network. Recurrent neural networks and their variants have been reported in recent research to predict vehicle mobility. However, the spatial attribute of vehicle movement behavior has been overlooked, resulting in incomplete information utilization. To bridge this gap, we put forward for the first time a hierarchical trajectory prediction structure using the capsule neural network (CapsNet) with three sequential components. First, the geographic information is transformed into a grid map presentation, describing vehicle mobility distribution spatially and temporally. Second, CapsNet serves as the core model to embed local temporal and global spatial correlation through hierarchical capsules. Finally, extensive experiments conducted on actual taxi mobility data collected in Porto city (Portugal) and Singapore show that the proposed method outperforms the state-of-the-art methods.
翻訳日:2023-03-07 17:08:43 公開日:2023-03-06
# SurfNN:磁気共鳴画像による複数の皮質表面の関節再構成

SurfNN: Joint Reconstruction of Multiple Cortical Surfaces from Magnetic Resonance Images ( http://arxiv.org/abs/2303.02922v1 )

ライセンス: Link先を確認
Hao Zheng, Hongming Li, Yong Fan(参考訳) 3次元磁気共鳴画像(MRI)からヒト大脳皮質表面の高速かつ堅牢かつ正確な再構築を実現するため,SurfNNと呼ばれる新しい深層学習基盤を開発し,MRIから内面(白質と灰白質)と外面(ピアル)の両方を同時に再構築する。 内面と外面の相互依存性を別々に再構築するか無視する既存の深層学習ベースの皮質表面再構成法とは異なり、SurfNNは内面と外面の相互依存性を1つのネットワークでトレーニングすることにより、内面と外面の中央に位置する中厚表面を予測する。 surnnの入力は、3次元mriと3次元距離マップとして暗黙的に表現される中度面の初期化と球状トポロジーを持つ三角形メッシュとして明示的に表現され、その出力は内皮質面と外皮質面の両方と中度面の両方を含む。 この手法は大規模なMRIデータセットで評価され、競争力のある皮質表面再構成性能を示した。

To achieve fast, robust, and accurate reconstruction of the human cortical surfaces from 3D magnetic resonance images (MRIs), we develop a novel deep learning-based framework, referred to as SurfNN, to reconstruct simultaneously both inner (between white matter and gray matter) and outer (pial) surfaces from MRIs. Different from existing deep learning-based cortical surface reconstruction methods that either reconstruct the cortical surfaces separately or neglect the interdependence between the inner and outer surfaces, SurfNN reconstructs both the inner and outer cortical surfaces jointly by training a single network to predict a midthickness surface that lies at the center of the inner and outer cortical surfaces. The input of SurfNN consists of a 3D MRI and an initialization of the midthickness surface that is represented both implicitly as a 3D distance map and explicitly as a triangular mesh with spherical topology, and its output includes both the inner and outer cortical surfaces, as well as the midthickness surface. The method has been evaluated on a large-scale MRI dataset and demonstrated competitive cortical surface reconstruction performance.
翻訳日:2023-03-07 17:01:44 公開日:2023-03-06
# 人間中心人工知能ベースのソフトウェアシステム構築に必要なフレームワーク

Requirements Framework for Engineering Human-centered Artificial Intelligence-Based Software Systems ( http://arxiv.org/abs/2303.02920v1 )

ライセンス: Link先を確認
Khlood Ahmad, Mohamed Abdelrazek, Chetan Arora, Arbind Agrahari Baniya, Muneera Bano, John Grundy(参考訳) [文脈]ソフトウェアソリューション構築に使用される人工知能(AI)コンポーネントは近年著しく増加している。 しかしながら、これらのソリューションの多くは、技術的な側面にフォーカスし、重要な人間中心の側面を無視します。 [目的]AIベースのソフトウェアを構築する際の要件エンジニアリング(RE)において、人間中心の側面を含めることによって、より責任を持ち、偏見がなく、包括的なAIベースのソフトウェアソリューションを達成することができます。 [方法]本論文では,人間中心型AIガイドラインに基づく新たなフレームワークと,人中心型AIソフトウェアに対する要件収集を支援するユーザサーベイを提案する。 これらの要件を明確化するためのカタログと、それらを視覚的に示すための概念モデルを提供します。 結果]バーチャルリアリティ(VR)ユーザを対象とした360度映像の品質向上のための要件を提示し,モデル化するためのケーススタディに適用した。 結論] 提案されたアプローチは、プロジェクトチームがプロジェクトのニーズを完全に理解するのに役立ちました。 さらに、このフレームワークは、AIベースのソフトウェアのエンジニアリングプロセスの後期段階に対して、初期段階で取得すべき要件を理解するのに役立った。

[Context] Artificial intelligence (AI) components used in building software solutions have substantially increased in recent years. However, many of these solutions end up focusing on technical aspects and ignore critical human-centered aspects. [Objective] Including human-centered aspects during requirements engineering (RE) when building AI-based software can help achieve more responsible, unbiased, and inclusive AI-based software solutions. [Method] In this paper, we present a new framework developed based on human-centered AI guidelines and a user survey to aid in collecting requirements for human-centered AI-based software. We provide a catalog to elicit these requirements and a conceptual model to present them visually. [Results] The framework is applied to a case study to elicit and model requirements for enhancing the quality of 360 degree~videos intended for virtual reality (VR) users. [Conclusion] We found that our proposed approach helped the project team fully understand the needs of the project to deliver. Furthermore, the framework helped to understand what requirements need to be captured at the initial stages against later stages in the engineering process of AI-based software.
翻訳日:2023-03-07 17:01:24 公開日:2023-03-06
# ランダム特徴伝播によるグラフ位置符号化

Graph Positional Encoding via Random Feature Propagation ( http://arxiv.org/abs/2303.02918v1 )

ライセンス: Link先を確認
Moshe Eliasof, Fabrizio Frasca, Beatrice Bevilacqua, Eran Treister, Gal Chechik, Haggai Maron(参考訳) gnnを強化するために、ノード機能拡張スキームの2つの主要なファミリーが検討されている:ランダム特徴とスペクトル位置符号化である。 しかし、この2つの拡張スキームの関係については、まだ明確には分かっていない。 本稿では,上述の2つのアプローチ間のリンクを描画し,両者を改良した位置符号化方式を提案する。 新たな手法はRandom Feature Propagation (RFP) と呼ばれ、パワーイテレーション法とその一般化にインスパイアされている。 ランダムノードの特徴から始まり、伝播行列の優性固有ベクトルを計算するための反復アルゴリズムのいくつかの中間ステップを結合する。 特に、これらの伝播ステップは、事前定義または学習が可能なグラフ依存の伝搬演算子に基づいている。 RFPの理論的および経験的メリットについて検討する。 まず,ランダムな特徴を用いたり,初期伝播ステップを組み込んだり,複数のランダム初期化を用いたりするための理論的正当性を示す。 そして、RFPが複数のノード分類およびグラフ分類ベンチマークにおいてスペクトルPEとランダムの特徴の両方を著しく上回ることを示す。

Two main families of node feature augmentation schemes have been explored for enhancing GNNs: random features and spectral positional encoding. Surprisingly, however, there is still no clear understanding of the relation between these two augmentation schemes. Here we propose a novel family of positional encoding schemes which draws a link between the above two approaches and improves over both. The new approach, named Random Feature Propagation (RFP), is inspired by the power iteration method and its generalizations. It concatenates several intermediate steps of an iterative algorithm for computing the dominant eigenvectors of a propagation matrix, starting from random node features. Notably, these propagation steps are based on graph-dependent propagation operators that can be either predefined or learned. We explore the theoretical and empirical benefits of RFP. First, we provide theoretical justifications for using random features, for incorporating early propagation steps, and for using multiple random initializations. Then, we empirically demonstrate that RFP significantly outperforms both spectral PE and random features in multiple node classification and graph classification benchmarks.
翻訳日:2023-03-07 17:01:05 公開日:2023-03-06
# フィードバックに基づくFermi-Hubbardモデルの基底状態生成のための量子アルゴリズム

Feedback-based quantum algorithm for ground state preparation of the Fermi-Hubbard model ( http://arxiv.org/abs/2303.02917v1 )

ライセンス: Link先を確認
James B. Larsen, Matthew D. Grace, Andrew D. Baczewski, Alicia B. Magann(参考訳) 量子多体系の基底状態の性質は、化学、材料科学、物理学にまたがる関心の対象となっている。 したがって、基底状態を見つけるアルゴリズムは幅広い影響を与える。 変分量子アルゴリズムは、近年大きな発展を遂げた基底状態アルゴリズムの一クラスである。 これらのアルゴリズムは、量子コンピュータ上で基底状態を作成するためにハイブリッド量子古典計算フレームワークを使用する。 しかし、これは高次元において違法に高価な古典最適化問題を解く必要がある。 この課題は、量子リアプノフ制御にインスパイアされた基底状態の準備のためのフィードバックに基づく量子アルゴリズムの開発を通じて解決される。 本稿では,この手法をFermi-Hubbardモデルに適用し,アルゴリズムの様々な側面とその性能を解析する様々な数値図形を提案する。

The ground state properties of quantum many-body systems are a subject of interest across chemistry, materials science, and physics. Thus, algorithms for finding ground states have broad impacts. Variational quantum algorithms are one class of ground state algorithm that has received significant development in recent years. These algorithms utilize a hybrid quantum-classical computing framework to prepare ground states on quantum computers. However, this requires solving classical optimization problems that can become prohibitively expensive in high dimensions. We address this challenge through the development of a feedback-based quantum algorithm for ground state preparation that is inspired by quantum Lyapunov control and is optimization-free. We apply this approach to the Fermi-Hubbard model and present a variety of numerical illustrations that analyze different aspects of the algorithm and its performance.
翻訳日:2023-03-07 17:00:48 公開日:2023-03-06
# プライバシー保護フェアアイテムランキング

Privacy-Preserving Fair Item Ranking ( http://arxiv.org/abs/2303.02916v1 )

ライセンス: Link先を確認
Jia Ao Sun, Sikha Pentyala, Martine De Cock, Golnoosh Farnadi(参考訳) 世界中のユーザーは、毎日ランキングの形で大量のキュレートされたデータにアクセスする。 このアクセスの容易さによる社会的な影響が研究され、ランキングにおける公平性の概念を提案・強制するために研究が進められている。 フェアアイテムランキングの現在の計算方法は、ユーザデータを集中型サーバに公開することに依存しており、ユーザにとってプライバシ上の懸念が生じている。 この研究は、プライバシ保存技術、特に差分プライバシとセキュアなマルチパーティ計算を組み込むことによって、プロデューサ(イテム)公正性とコンシューマ(ユーザ)プライバシをランキングで組み合わせて研究を進める最初のものである。 われわれの研究は、アモートされた注意ランキングの仕組みをプライバシー保護に拡張し、その効果をプライバシー、公正性、ランキング品質で評価する。 実世界のデータセットを用いた結果から,利用者のプライバシーを効果的に保ち,品目の不公平さを軽減できることがわかった。

Users worldwide access massive amounts of curated data in the form of rankings on a daily basis. The societal impact of this ease of access has been studied and work has been done to propose and enforce various notions of fairness in rankings. Current computational methods for fair item ranking rely on disclosing user data to a centralized server, which gives rise to privacy concerns for the users. This work is the first to advance research at the conjunction of producer (item) fairness and consumer (user) privacy in rankings by exploring the incorporation of privacy-preserving techniques; specifically, differential privacy and secure multi-party computation. Our work extends the equity of amortized attention ranking mechanism to be privacy-preserving, and we evaluate its effects with respect to privacy, fairness, and ranking quality. Our results using real-world datasets show that we are able to effectively preserve the privacy of users and mitigate unfairness of items without making additional sacrifices to the quality of rankings in comparison to the ranking mechanism in the clear.
翻訳日:2023-03-07 17:00:36 公開日:2023-03-06
# GlobalNER:非ローカル情報を名前付きエンティティ認識に組み込む

GlobalNER: Incorporating Non-local Information into Named Entity Recognition ( http://arxiv.org/abs/2303.02915v1 )

ライセンス: Link先を確認
Chiao-Wei Hsu, Keh-Yih Su(参考訳) 現在、多くの自然言語処理(nlp)タスクは、さらなるパフォーマンス向上のためにローカル情報に外部の知識を組み込む必要性を感じている。 しかし、NLPの基礎の1つである名前付きエンティティ認識(NER)についてはほとんど関連性がない。 具体的には,NERの改善を目的としたクエリ生成と関連情報の検索に関する調査は行われなかった。 本研究は,特にNERにおいて,DNNに基づくクエリ生成手法とBERTScoreに基づく参照対応アーキテクチャの有効性を示す。 最後に、WNUT17データセット上で61.56マイクロf1スコアの最先端のパフォーマンスを達成する。

Nowadays, many Natural Language Processing (NLP) tasks see the demand for incorporating knowledge external to the local information to further improve the performance. However, there is little related work on Named Entity Recognition (NER), which is one of the foundations of NLP. Specifically, no studies were conducted on the query generation and re-ranking for retrieving the related information for the purpose of improving NER. This work demonstrates the effectiveness of a DNN-based query generation method and a mention-aware re-ranking architecture based on BERTScore particularly for NER. In the end, a state-of-the-art performance of 61.56 micro-f1 score on WNUT17 dataset is achieved.
翻訳日:2023-03-07 17:00:16 公開日:2023-03-06
# OpenICL: コンテキスト内学習のためのオープンソースフレームワーク

OpenICL: An Open-Source Framework for In-context Learning ( http://arxiv.org/abs/2303.02913v1 )

ライセンス: Link先を確認
Zhenyu Wu, YaoXiang Wang, Jiacheng Ye, Jiangtao Feng, Jingjing Xu, Yu Qiao, Zhiyong Wu(参考訳) 近年,大規模言語モデル (LLM) 評価のための新たなパラダイムとして,インコンテキスト学習 (ICL) が注目されている。 従来の微調整方法とは異なり、ICLはパラメータを更新せずに未確認のタスクに事前訓練されたモデルを適用する。 しかし、iclの実装は、様々なモデル、データセット、タスクに対する様々な前処理要件と同様に、関連する多様な検索および推論方法によって洗練されている。 ICLの統一的で柔軟なフレームワークは、上記のコンポーネントの実装を容易にするために緊急に必要である。 ICL研究を促進するために、ICLとLLM評価のためのオープンソースツールキットOpenICLを紹介する。 OpenICLは、ユーザが自分のニーズに合ったさまざまなコンポーネントを簡単に組み合わせられるように、非常に柔軟なアーキテクチャで研究に親しみやすい。 また、最先端の研究にiclを適用するプロセスを合理化する様々な最先端の検索と推論手法を提供する。 OpenICLの有効性は、分類、QA、機械翻訳、意味解析を含む幅広いNLPタスクで検証されている。 副産物として, OpenICL は LLM 評価のための効率的かつ堅牢なツールであることがわかった。 OpenICLはhttps://github.com/Shark-NLP/OpenICLでリリースされた。

In recent years, In-context Learning (ICL) has gained increasing attention and emerged as the new paradigm for large language model (LLM) evaluation. Unlike traditional fine-tuning methods, ICL instead adapts the pre-trained models to unseen tasks without any parameter updates. However, the implementation of ICL is sophisticated due to the diverse retrieval and inference methods involved, as well as the varying pre-processing requirements for different models, datasets, and tasks. A unified and flexible framework for ICL is urgently needed to ease the implementation of the aforementioned components. To facilitate ICL research, we introduce OpenICL, an open-source toolkit for ICL and LLM evaluation. OpenICL is research-friendly with a highly flexible architecture that users can easily combine different components to suit their needs. It also provides various state-of-the-art retrieval and inference methods to streamline the process of adapting ICL to cutting-edge research. The effectiveness of OpenICL has been validated on a wide range of NLP tasks, including classification, QA, machine translation, and semantic parsing. As a side-product, we found OpenICL to be an efficient yet robust tool for LLMs evaluation. OpenICL is released at https://github.com/Shark-NLP/OpenICL
翻訳日:2023-03-07 17:00:05 公開日:2023-03-06
# 動的プロンプト:プロンプトチューニングのための統一フレームワーク

Dynamic Prompting: A Unified Framework for Prompt Tuning ( http://arxiv.org/abs/2303.02909v1 )

ライセンス: Link先を確認
Xianjun Yang, Wei Cheng, Xujiang Zhao, Linda Petzold and Haifeng Chen(参考訳) 言語モデル(lms)からの知識を効率的に引き出すには,迅速なチューニングが有効であることが実証されている。 しかし、特にLMが小さい場合、迅速なチューニングは微調整よりも遅れている。 p-tuning v2 (liu et al., 2021b) は、事前学習されたモデルのすべての層に対して連続的なプロンプトを追加することで、微調整と同等である。 しかし、不一致にかかわらず、全ての事例に対する固定されたソフトプロンプトの予測は疑わしい。 特に、挿入されたプロンプト位置、長さ、および異なるタスクを通して多様化したインスタンスのプロンプトの表現は、すべてプロンプトチューニング性能に影響を与える可能性がある。 このギャップを埋めるために、我々は動的プロンプト(DP)を提案し、その位置、長さ、プロンプト表現はすべて異なるタスクやインスタンスに対して動的に最適化できる。 我々はsuperglueベンチマークの包括的な実験を行い,仮説を検証し,実質的な改善を示す。 また、動的プロンプト戦略をサポートするための統一されたフレームワークも作成します。 特に、単純な学習ネットワークとGumble-Softmaxを使って、インスタンスに依存したガイダンスを学習する。 実験結果から、単純なインスタンスレベルの位置認識ソフトプロンプトにより、5つのデータセットの平均6点の分類精度が向上し、微調整によるギャップを低減できることが示された。 さらに,全データ,少数ショット,マルチタスク体制下での汎用性も証明した。 これらを組み合わせることで、DPのパワーをさらに解放し、微調整間の距離を狭めることができる。

It has been demonstrated that prompt tuning is highly effective in efficiently eliciting knowledge from language models (LMs). However, the prompt tuning still lags behind fine-tuning, especially when the LMs are small. P-tuning v2 (Liu et al., 2021b) makes it comparable with finetuning by adding continuous prompts for every layer of the pre-trained model. However, prepending fixed soft prompts for all instances, regardless of their discrepancy, is doubtful. In particular, the inserted prompt position, length, and the representations of prompts for diversified instances through different tasks could all affect the prompt tuning performance. To fill this gap, we propose dynamic prompting (DP): the position, length, and prompt representation can all be dynamically optimized with respect to different tasks and instances. We conduct comprehensive experiments on the SuperGlue benchmark to validate our hypothesis and demonstrate substantial improvements. We also derive a unified framework for supporting our dynamic prompting strategy. In particular, we use a simple learning network and Gumble- Softmax for learning instance-dependent guidance. Experimental results show that simple instance-level position-aware soft prompts can improve the classification accuracy of up to 6 points on average on five datasets, reducing its gap with fine-tuning. Besides, we also prove its universal usefulness under full-data, few-shot, and multitask regimes. Combining them together can even further unleash the power of DP, narrowing the distance between finetuning.
翻訳日:2023-03-07 16:59:44 公開日:2023-03-06
# MotionVideoGAN:画像ペアから学習した動き空間に基づく新しいビデオジェネレータ

MotionVideoGAN: A Novel Video Generator Based on the Motion Space Learned from Image Pairs ( http://arxiv.org/abs/2303.02906v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, and Jian Yuan(参考訳) 強力なイメージジェネレータが提供する高品質なレンダリングにより、ビデオ生成は急速に進歩した。 映像合成タスクは,同一コンテンツを共有しながら動作が変化する画像列を生成するものである。 しかし、事前学習された画像生成装置に基づく以前のビデオ合成フレームワークの多くは、コンテンツと動画の生成を別々に処理し、非現実的なビデオを生成する。 そこで我々は,映像生成のためのコンテンツ一貫性と高速収束を実現するために,動き空間を構築するための新しいフレームワークを設計する。 我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。 まず、同じコンテンツを共有する画像ペアを生成し、様々な動きを生成するmotionstyleganという画像ペア生成器を提案する。 そして、我々は、生成した画像ペア内の1つの画像を編集し、もう1つの画像を変更しないモーションコードを取得する。 移動符号は、編集された画像が同じ内容を共有するため、移動空間内の画像を編集するのに役立ちます。 最後に,ビデオ生成にモーションコードを用いた潜在コードシーケンスを生成するための潜在コードジェネレータを提案する。 提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。

Video generation has achieved rapid progress benefiting from high-quality renderings provided by powerful image generators. We regard the video synthesis task as generating a sequence of images sharing the same contents but varying in motions. However, most previous video synthesis frameworks based on pre-trained image generators treat content and motion generation separately, leading to unrealistic generated videos. Therefore, we design a novel framework to build the motion space, aiming to achieve content consistency and fast convergence for video generation. We present MotionVideoGAN, a novel video generator synthesizing videos based on the motion space learned by pre-trained image pair generators. Firstly, we propose an image pair generator named MotionStyleGAN to generate image pairs sharing the same contents and producing various motions. Then we manage to acquire motion codes to edit one image in the generated image pairs and keep the other unchanged. The motion codes help us edit images within the motion space since the edited image shares the same contents with the other unchanged one in image pairs. Finally, we introduce a latent code generator to produce latent code sequences using motion codes for video generation. Our approach achieves state-of-the-art performance on the most complex video dataset ever used for unconditional video generation evaluation, UCF101.
翻訳日:2023-03-07 16:59:20 公開日:2023-03-06
# 形状とデータの分類と解析のための複数フィールド間の位相距離測定

A Topological Distance Measure between Multi-Fields for Classification and Analysis of Shapes and Data ( http://arxiv.org/abs/2303.02902v1 )

ライセンス: Link先を確認
Yashwanth Ramamurthi and Amit Chattopadhyay(参考訳) 距離測定は形状分類やデータ解析問題において重要な役割を果たす。 形状マッチングやスカラーデータ解析において有効なアルゴリズムを得るために,Reebグラフと永続化図に基づく位相距離が用いられている。 本稿では、多次元リーブグラフ(MDRG)を計算し、異なる次元のリーブグラフの階層構造を通して多次元リーブの位相を捉えることにより、2つのマルチフィールド間の距離測定の改善を提案する。 次に、MDRGの各リーブグラフに対応する永続図を演算することにより、永続図の階層構造を構築する。 この表現に基づいて,2つのリーブグラフ間のボトルネック距離を延ばすことで,2つのmdrg間の新しい距離測度を提案する。 提案手法は擬似測度および安定性特性を満たすことを示す。 提案手法の有効性を,(1)形状分類と(2)時間変化したマルチフィールドデータにおけるトポロジ的特徴の検出の2つの異なる応用に適用した。 形状分類問題では, 形状マッチングにおけるよく知られたトポロジに基づく測度と, 提案測度の性能を比較した。 第2の応用では,Pt分子とCO分子の安定結合の場を検出することを目的とした計算化学の分野から,時間変化の体積場データを考える。 結合安定化前後で発生する各部位の分類において,提案した距離が有効であることを示す。

Distance measures play an important role in shape classification and data analysis problems. Topological distances based on Reeb graphs and persistence diagrams have been employed to obtain effective algorithms in shape matching and scalar data analysis. In the current paper, we propose an improved distance measure between two multi-fields by computing a multi-dimensional Reeb graph (MDRG) each of which captures the topology of a multi-field through a hierarchy of Reeb graphs in different dimensions. A hierarchy of persistence diagrams is then constructed by computing a persistence diagram corresponding to each Reeb graph of the MDRG. Based on this representation, we propose a novel distance measure between two MDRGs by extending the bottleneck distance between two Reeb graphs. We show that the proposed measure satisfies the pseudo-metric and stability properties. We examine the effectiveness of the proposed multi-field topology-based measure on two different applications: (1) shape classification and (2) detection of topological features in a time-varying multi-field data. In the shape classification problem, the performance of the proposed measure is compared with the well-known topology-based measures in shape matching. In the second application, we consider a time-varying volumetric multi-field data from the field of computational chemistry where the goal is to detect the site of stable bond formation between Pt and CO molecules. We demonstrate the ability of the proposed distance in classifying each of the sites as occurring before and after the bond stabilization.
翻訳日:2023-03-07 16:59:00 公開日:2023-03-06
# コア電子が強く閉じ込められたとき、多電子ドットはより高速なラビ振動を与える

Multielectron dots provide faster Rabi oscillations when the core electrons are strongly confined ( http://arxiv.org/abs/2303.02958v1 )

ライセンス: Link先を確認
H. Ekmel Ercan, Christopher R. Anderson, S. N. Coppersmith, Mark Friesen, Mark F. Gyure(参考訳) 静電閉じ込めされた量子ドットにおける電子数の増加は、より高速な量子ビットゲートを可能にする。 これは実験的に証明されているが、詳細な定量的理解は欠落している。 本稿では, 電気駆動型スピン共鳴(EDSR)におけるシリコン/シリコン-ゲルマニウムヘテロ構造中の1電子および3電子量子ドットについて, フル構成相互作用とタイトな結合アプローチを用いて検討する。 我々の計算は、閉じ込めポテンシャルの非調和性が重要な役割を担っていることを示している: 調和ポテンシャル中の電子のEDSR Rabi周波数は電子数に無関係であるが、ソフトな無調和閉じ込めはより大きく硬い無調和閉じ込めをもたらす。 また、二重点がRabiの発振を高速に行うことも確認し、また、意図的に設計された閉じ込めは、単一点におけるRabiの発振と同様の高速な発振をもたらすことを示唆している。 最後に、インターフェースステップの役割について論じる。 これらの発見は多電子si/sige量子ドット量子ビットの設計に重要な意味を持つ。

Increasing the number of electrons in electrostatically confined quantum dots can enable faster qubit gates. Although this has been experimentally demonstrated, a detailed quantitative understanding has been missing. Here we study one- and three-electron quantum dots in silicon/silicon-germanium heterostructures within the context of electrically-driven spin resonance (EDSR) using full configuration interaction and tight binding approaches. Our calculations show that anharmonicity of the confinement potential plays an important role: while the EDSR Rabi frequency of electrons in a harmonic potential is indifferent to the electron number, soft anharmonic confinements lead to larger and hard anharmonic confinements lead to smaller Rabi frequencies. We also confirm that double dots allow fast Rabi oscillations, and further suggest that purposefully engineered confinements can also yield similarly fast Rabi oscillations in a single dot. Finally, we discuss the role of interface steps. These findings have important implications for the design of multielectron Si/SiGe quantum dot qubits.
翻訳日:2023-03-07 16:53:29 公開日:2023-03-06
# 有限サム問題に対するエントロピー的架空の遊びの原始的・双対的解析

Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum Problems ( http://arxiv.org/abs/2303.02957v1 )

ライセンス: Link先を確認
Atsushi Nitanda, Kazusato Oko, Denny Wu, Nobuhito Takenouchi, Taiji Suzuki(参考訳) entropic fictitious play (efp) は、最近提案されたアルゴリズムで、測度空間における凸汎関数とエントロピーの和を最小化する。 本研究では,学習課題が有限サム構造を示す設定において,efpの簡潔な主元双対解析を行う。 我々は,nitanda et al. (2022) で導入された近位ギブス測度の性質に基づいて,連続時間および離散時間ダイナミクスに対する定量的大域収束の保証を確立する。 さらに,本フレームワークはefp更新のメモリ効率の高いパーティクルベース実装を伴い,勾配ブースティング手法との接続も提案する。 本稿では,ニューラルネットワークの最適化と画像合成を含む実験において,提案手法の有効性を示す。

The entropic fictitious play (EFP) is a recently proposed algorithm that minimizes the sum of a convex functional and entropy in the space of measures -- such an objective naturally arises in the optimization of a two-layer neural network in the mean-field regime. In this work, we provide a concise primal-dual analysis of EFP in the setting where the learning problem exhibits a finite-sum structure. We establish quantitative global convergence guarantees for both the continuous-time and discrete-time dynamics based on properties of a proximal Gibbs measure introduced in Nitanda et al. (2022). Furthermore, our primal-dual framework entails a memory-efficient particle-based implementation of the EFP update, and also suggests a connection to gradient boosting methods. We illustrate the efficiency of our novel implementation in experiments including neural network optimization and image synthesis.
翻訳日:2023-03-07 16:53:09 公開日:2023-03-06
# 連続学習における効果的なリハーサルのための遠心距離蒸留

Centroid Distance Distillation for Effective Rehearsal in Continual Learning ( http://arxiv.org/abs/2303.02954v1 )

ライセンス: Link先を確認
Daofeng Liu, Fan Lyu, Linyan Li, Zhenping Xia, Fuyuan Hu(参考訳) リハーサルは、古いタスクの保存された小さなデータサブセットでリトレーニングされ、継続的な学習において破滅的な忘れを解くのに有効であることが証明されている。 しかし、サンプルデータにより、元のデータセットに対する大きなバイアスがあり、それらを再トレーニングすることは、機能空間における古いタスクの連続的なドメインドリフトを駆動し、忘れてしまう可能性がある。 本稿では,遠心距離蒸留による連続領域ドリフト問題に取り組むことに焦点を当てる。 まず,構築したセントロイドに基づいてデータポイントをサンプリングし,リハーサルにおけるサンプルバイアスを低減するセントロイドキャッシング機構を提案する。 次に, 連続領域ドリフトを低減するために, 遠心距離のみを格納する遠心距離蒸留法を提案する。 4つの連続学習データセットにおける実験は,提案手法の優越性を示し,連続領域ドリフトを低減できる。

Rehearsal, retraining on a stored small data subset of old tasks, has been proven effective in solving catastrophic forgetting in continual learning. However, due to the sampled data may have a large bias towards the original dataset, retraining them is susceptible to driving continual domain drift of old tasks in feature space, resulting in forgetting. In this paper, we focus on tackling the continual domain drift problem with centroid distance distillation. First, we propose a centroid caching mechanism for sampling data points based on constructed centroids to reduce the sample bias in rehearsal. Then, we present a centroid distance distillation that only stores the centroid distance to reduce the continual domain drift. The experiments on four continual learning datasets show the superiority of the proposed method, and the continual domain drift can be reduced.
翻訳日:2023-03-07 16:52:52 公開日:2023-03-06
# CTG-Net:Dilated Pancreatic Duct Segmentationのための終端誘導機構による効率的なカスケードフレームワーク

CTG-Net: An Efficient Cascaded Framework Driven by Terminal Guidance Mechanism for Dilated Pancreatic Duct Segmentation ( http://arxiv.org/abs/2303.02944v1 )

ライセンス: Link先を確認
Liwen Zou, Zhenghua Cai, Yudong Qiu, Luying Gui, Liang Mao and Xiaoping Yang(参考訳) 膵管拡張は膵疾患のリスクが高いことを示している。 CT画像上の拡張膵管の分画は早期診断,手術計画,予後を補助する可能性を示している。 管の大きさが小さく、細長い管状構造と周囲の気晴らしのため、膵管の分節に関する現在の研究のほとんどは、精度が低く、管の終端部分には常に分節誤差がある。 これらの問題に対処するために,カスケード端末誘導ネットワーク(CTG-Net)と呼ばれる端末誘導機構を提案する。 まず、粗い予測から抽出した骨格上に終端注意機構を確立する。 そして, 細かな終端セグメンテーションを実現するために, 原画像から局所強度, 粗い予測からの特徴, 膵臓距離変換マップからの大域的解剖情報とを共同で学習するサブネットワークを設計する。 最後に, 終端偏差の分布を明示的に学習する終端偏差注意モジュールを提案し, 偽陽性および偽陰性予測の低減を図った。 また, 管状構造を有するターゲットの終端セグメンテーション精度を測定するためのtdiceと呼ばれる新しい指標と, 気晴らしのための2つのセグメンテーション指標を提案する。 5種類の膵腫瘍患者から150個のctスキャンで拡張膵管分画データセットを採取した。 以上の結果から,提案手法は膵管分断精度を既存法と比較して約20%向上させ, 終端分断精度を最先端法と比較して9%以上改善することを示した。

Pancreatic duct dilation indicates a high risk of various pancreatic diseases. Segmentation of dilated pancreatic ducts on computed tomography (CT) images shows the potential to assist the early diagnosis, surgical planning and prognosis. Because of the ducts' tiny sizes, slender tubular structures and the surrounding distractions, most current researches on pancreatic duct segmentation achieve low accuracy and always have segmentation errors on the terminal parts of the ducts. To address these problems, we propose a terminal guidance mechanism called cascaded terminal guidance network (CTG-Net). Firstly, a terminal attention mechanism is established on the skeletons extracted from the coarse predictions. Then, to get fine terminal segmentation, a subnetwork is designed for jointly learning the local intensity from the original images, feature cues from coarse predictions and global anatomy information from the pancreas distance transform maps. Finally, a terminal distraction attention module which explicitly learns the distribution of the terminal distraction is proposed to reduce the false positive and false negative predictions. We also propose a new metric called tDice to measure the terminal segmentation accuracy for targets with tubular structures and two segmentation metrics for distractions. We collect our dilated pancreatic duct segmentation dataset with 150 CT scans from patients with 5 types of pancreatic tumors. Experimental results on our dataset show that our proposed approach boosts dilated pancreatic duct segmentation accuracy by nearly 20% compared with the existing results, and achieves more than 9% improvement for the terminal segmentation accuracy compared with the state-of-the-art methods.
翻訳日:2023-03-07 16:52:36 公開日:2023-03-06
# 単一領域一般化セグメンテーションのための適応テクスチャフィルタ

Adaptive Texture Filtering for Single-Domain Generalized Segmentation ( http://arxiv.org/abs/2303.02943v1 )

ライセンス: Link先を確認
Xinhui Li, Mingjia Li, Yaxing Wang, Chuan-Xian Ren, Xiaojie Guo(参考訳) セマンティクスセグメンテーションにおけるドメインの一般化は、ドメイン不変特徴の学習を通じて、未知のドメインのパフォーマンス低下を緩和することを目的としている。 既存の手法では、複雑なテクスチャや異常なテクスチャを追加することで、ソースドメイン内の画像を多様化し、ドメイン固有の特徴に対する感度を低下させる。 しかし、これらのアプローチはテクスチャバンクの豊かさに大きく依存しており、トレーニングには時間がかかる可能性がある。 テクスチャを任意にインポートしたり、スタイルをランダムに拡張したりするのとは対照的に、私たちは一般化を達成するために単一のソースドメイン自体に焦点を合わせます。 本稿では,拡張を使わずにテクスチャの影響を抑えるための新しい適応型テクスチャフィルタリング機構を提案する。 さらに,構造誘導型拡張モジュールを備えた階層的誘導一般化ネットワークの設計を行い,その目的はドメイン不変な一般化知識の学習である。 広く使われているデータセットに関するアブレーション実験とともに、提案モデルの有効性を検証するとともに、他の最先端の代替案よりもその優越性を明らかにする。

Domain generalization in semantic segmentation aims to alleviate the performance degradation on unseen domains through learning domain-invariant features. Existing methods diversify images in the source domain by adding complex or even abnormal textures to reduce the sensitivity to domain specific features. However, these approaches depend heavily on the richness of the texture bank, and training them can be time-consuming. In contrast to importing textures arbitrarily or augmenting styles randomly, we focus on the single source domain itself to achieve generalization. In this paper, we present a novel adaptive texture filtering mechanism to suppress the influence of texture without using augmentation, thus eliminating the interference of domain-specific features. Further, we design a hierarchical guidance generalization network equipped with structure-guided enhancement modules, which purpose is to learn the domain-invariant generalized knowledge. Extensive experiments together with ablation studies on widely-used datasets are conducted to verify the effectiveness of the proposed model, and reveal its superiority over other state-of-the-art alternatives.
翻訳日:2023-03-07 16:52:08 公開日:2023-03-06
# UniHCP:人間中心の知覚の統一モデル

UniHCP: A Unified Model for Human-Centric Perceptions ( http://arxiv.org/abs/2303.02936v1 )

ライセンス: Link先を確認
Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang(参考訳) 人間中心の知覚(ポーズ推定、人間の解析、歩行者検出、人物再同定など)は、視覚モデルの産業応用において重要な役割を果たす。 特定の人間中心のタスクは、それぞれに焦点をあてる意味的な側面を持っているが、同時に、人体の基本的な意味構造も共有している。 しかし、そのような均質性を活かし、人間中心タスクの汎用モデルの設計を試みる研究はほとんどない。 本研究では、人間中心の幅広いタスクを再考し、最小限の方法でそれらを統一する。 そこで我々は,人間中心のタスクを多種多様なタスクに統一したUniHCPを,視覚トランスフォーマアーキテクチャを用いて簡易なエンド・ツー・エンド方式で提案する。 33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPはいくつかのドメイン内および下流タスクにおいて、直接評価によって強力なベースラインを達成できる。 特定のタスクに適応すると、UniHCPは、人間解析用のCIHPの69.8 mIoU、属性予測用のPA-100Kの86.18 mA、ReID用のMarket1501の90.3 mAP、歩行者検出用のCrowdHumanの85.8 JIなど、幅広い人間中心のタスクで新しいSOTAを達成し、各タスク用に調整された特別モデルよりも優れたパフォーマンスを発揮する。

Human-centric perceptions (e.g., pose estimation, human parsing, pedestrian detection, person re-identification, etc.) play a key role in industrial applications of visual models. While specific human-centric tasks have their own relevant semantic aspect to focus on, they also share the same underlying semantic structure of the human body. However, few works have attempted to exploit such homogeneity and design a general-propose model for human-centric tasks. In this work, we revisit a broad range of human-centric tasks and unify them in a minimalist manner. We propose UniHCP, a Unified Model for Human-Centric Perceptions, which unifies a wide range of human-centric tasks in a simplified end-to-end manner with the plain vision transformer architecture. With large-scale joint training on 33 human-centric datasets, UniHCP can outperform strong baselines on several in-domain and downstream tasks by direct evaluation. When adapted to a specific task, UniHCP achieves new SOTAs on a wide range of human-centric tasks, e.g., 69.8 mIoU on CIHP for human parsing, 86.18 mA on PA-100K for attribute prediction, 90.3 mAP on Market1501 for ReID, and 85.8 JI on CrowdHuman for pedestrian detection, performing better than specialized models tailored for each task.
翻訳日:2023-03-07 16:51:47 公開日:2023-03-06
# 量子ドットの感度反射率測定のための極低温超急速チタン酸ストロンチウムバラクター

Cryogenic hyperabrupt strontium titanate varactors for sensitive reflectometry of quantum dots ( http://arxiv.org/abs/2303.02933v1 )

ライセンス: Link先を確認
Rafael S. Eggli, Simon Svab, Taras Patlatiuk, Dominique Tr\"ussel, Miguel J. Carballido, Pierre Chevalier Kwon, Simon Geyer, Ang Li, Erik P. A. M. Bakkers, Andreas V. Kuhlmann, and Dominik M. Zumb\"uhl(参考訳) 高周波反射率測定技術は半導体量子ドットの高帯域読み出しを可能にする。 共鳴回路の注意深いインピーダンスマッチングは高い感度を達成するために必要であるが、低温では困難である。 ガリウムヒ素をベースとした電圧可変キャパシタ、いわゆるヴァラクターダイオードは、回路インピーダンスのその場チューニングに使用することができるが、10K以下の温度で劣化して故障する。 本稿では, チタン酸ストロンチウムを主成分とする超急速キャパシタンス-電圧特性, すなわち, 最高のガリウム系デバイスに類似したキャパシタンス調整性を有するバラクターについて検討する。 ここで導入されたvaractorの設計はコンパクトでスケーラブルで、45 pfから3.2 pfまでアクセス可能な容量範囲でワイヤボンドが容易である。 共振インダクタ・キャパシタ回路を完全インピーダンス整合に調整し,11mK,最大2Tの面内磁場下でのロバスト,温度,フィールド独立整合を観測する。 最後に、ゲルマニウム/シリコンコア/シェルナノワイヤホールダブル量子ドット上でゲート分散電荷センシングを行い、ゲートベースの単発スピン読み出しへの道を開く。 この結果, 小型で磁気抵抗性が高く, 調整可能な可変体がmK温度に到達し, 低温ラジオ周波数応用のツールボックスが拡張された。

Radio frequency reflectometry techniques enable high bandwidth readout of semiconductor quantum dots. Careful impedance matching of the resonant circuit is required to achieve high sensitivity, which however proves challenging at cryogenic temperatures. Gallium arsenide-based voltage-tunable capacitors, so-called varactor diodes, can be used for in-situ tuning of the circuit impedance but deteriorate and fail at temperatures below 10 K and in magnetic fields. Here, we investigate a varactor based on strontium titanate with hyperabrupt capacitance-voltage characteristic, that is, a capacitance tunability similar to the best gallium arsenide-based devices. The varactor design introduced here is compact, scalable and easy to wirebond with an accessible capacitance range from 45 pF to 3.2 pF. We tune a resonant inductor-capacitor circuit to perfect impedance matching and observe robust, temperature and field independent matching down to 11 mK and up to 2 T in-plane field. Finally, we perform gate-dispersive charge sensing on a germanium/silicon core/shell nanowire hole double quantum dot, paving the way towards gate-based single-shot spin readout. Our results bring small, magnetic field-resilient, highly tunable varactors to mK temperatures, expanding the toolbox of cryo-radio frequency applications.
翻訳日:2023-03-07 16:51:16 公開日:2023-03-06
# deepfakeによるプライバシ保護のためのscapegoat生成

Scapegoat Generation for Privacy Protection from Deepfake ( http://arxiv.org/abs/2303.02930v1 )

ライセンス: Link先を確認
Gido Kato, Yoshihiro Fukuhara, Mariko Isogawa, Hideki Tsunashima, Hirokatsu Kataoka, Shigeo Morishima(参考訳) プライバシーを保護し、ディープフェイクの悪質な使用を防止するために、最近の研究は、検出や破壊アプローチのような生成プロセスを妨げる方法を提案している。 しかし、これらの手法は、目に見えないモデルに対する準最適一般化性能に悩まされ、元の画像に望ましくないノイズを加える。 そこで本研究では,ユーザによってアバターとして認識されるが,実際の顔の再構築が不可能な方法で,元の入力のスタイルを変更することで,「スケープゴート画像」を生成するディープフェイク防止のための新たな問題定式化を提案する。 悪意のあるディープフェイクであっても、ユーザーのプライバシーは保護されている。 そこで本研究では,GANインバージョンを利用した最適化ベースの編集手法を提案する。 提案手法の有効性を定量的およびユーザ研究により検証する。

To protect privacy and prevent malicious use of deepfake, current studies propose methods that interfere with the generation process, such as detection and destruction approaches. However, these methods suffer from sub-optimal generalization performance to unseen models and add undesirable noise to the original image. To address these problems, we propose a new problem formulation for deepfake prevention: generating a ``scapegoat image'' by modifying the style of the original input in a way that is recognizable as an avatar by the user, but impossible to reconstruct the real face. Even in the case of malicious deepfake, the privacy of the users is still protected. To achieve this, we introduce an optimization-based editing method that utilizes GAN inversion to discourage deepfake models from generating similar scapegoats. We validate the effectiveness of our proposed method through quantitative and user studies.
翻訳日:2023-03-07 16:50:51 公開日:2023-03-06
# LIDA:大規模言語モデルを用いた文法非依存可視化とインフォグラフィックの自動生成ツール

LIDA: A Tool for Automatic Generation of Grammar-Agnostic Visualizations and Infographics using Large Language Models ( http://arxiv.org/abs/2303.02927v1 )

ライセンス: Link先を確認
Victor Dibia(参考訳) 可視化の自動生成でユーザをサポートするシステムは、データのセマンティクスを理解し、関連する視覚化目標を列挙し、視覚化仕様を生成する、いくつかのサブタスクに対処しなければならない。 本研究では,多段階生成問題として可視化生成を行い,大規模言語モデル (llms) と画像生成モデル (igms) に基づく高度に整備されたパイプラインがこれらの課題に適合していると主張する。 本稿では,文法に依存しないビジュアライゼーションとインフォグラフィックを生成するための新しいツールLIDAを提案する。 LIDAは4つのモジュールから構成される - データはリッチだがコンパクトな自然言語の要約に変換するSUMMARIZER、データに与えられた視覚化目標を列挙するGOAL EXPLORER、視覚化コードを生成し、洗練し、実行し、フィルタするVISGENERATOR、IGMを使用してデータに忠実なスタイリングされたグラフィックを生成するINFOGRAPHERモジュール。 LIDAは、python apiとインタラクティブチャート、インフォグラフィック、データストーリー生成のためのハイブリッドユーザインタフェース(ダイレクト操作と自然言語)を提供する。

Systems that support users in the automatic creation of visualizations must address several subtasks - understand the semantics of data, enumerate relevant visualization goals and generate visualization specifications. In this work, we pose visualization generation as a multi-stage generation problem and argue that well-orchestrated pipelines based on large language models (LLMs) and image generation models (IGMs) are suitable to addressing these tasks. We present LIDA, a novel tool for generating grammar-agnostic visualizations and infographics. LIDA comprises of 4 modules - A SUMMARIZER that converts data into a rich but compact natural language summary, a GOAL EXPLORER that enumerates visualization goals given the data, a VISGENERATOR that generates, refines, executes and filters visualization code and an INFOGRAPHER module that yields data-faithful stylized graphics using IGMs. LIDA provides a python api, and a hybrid user interface (direct manipulation and natural language) for interactive chart, infographics and data story generation.
翻訳日:2023-03-07 16:50:35 公開日:2023-03-06
# 量子相互作用系のダイナミクス -ボルンマルコフを超える拡張グローバルアプローチと世俗近似-

Dynamics of a quantum interacting system -Extended Global Approach beyond the Born-Markov and secular approximation ( http://arxiv.org/abs/2303.02926v1 )

ライセンス: Link先を確認
Chikako Uchiyama(参考訳) 量子物理学から生物学まで様々な分野において、相互作用するサブシステムからなるシステムのオープン量子力学は重要な基本機能の中核をなす。 局所的なアプローチはこの目的のために広く使われてきたが、最近の批判では、得られた定常状態の非物理的性が主張されている。 別の方法として、ボルン=マルコフと世俗近似の下でのグローバルアプローチが新たな関心を集めている。 しかし、この論争は、サブシステムのボーア周波数における短時間領域および/または制限パラメータ領域における正の値に反するままである。 本研究では,ボルン・マルコフや世俗近似を超越したグローバルアプローチによって得られる時間畳み込みのない(時間局所的な)マスター方程式に導かれる形式主義を示す。 本研究では, 終端サイトのみが有限温度のボゾン環境と弱相互作用する相互作用部位間の励起エネルギー伝達を, 回転波近似を超える方法で適用する。 1) 定式化は, 正の保存による短時間の振舞い, (2) 世俗近似によって隠蔽される振動特性を復元し, (3) 総系ハミルトニアンに対してギブス状態に非常に近い定常状態へと導く。 \end{abstract}

In various fields from quantum physics to biology, open quantum dynamics of a system consisting of interacting subsystems underscore important fundamental functionality. The local approach has been widely used for this purpose because of its robustness against the positivity, while a recent critique argues its the un-physicalness of obtained the stationary state obtained. As an alternative, the global approach under the Born--Markov and secular approximations, has attracted renewed interests. However, the controversy remains in its violation of positivity in the short-time region and/or limited parameter region on the Bohr frequencies of the sub-systems. In this study, we present a formalism leading to the time-convolutionless (time-local) master equation obtained by extending the global approach beyond the Born--Markov and secular approximations. We apply it to the excitation energy transfer between interacting sites in which only the terminal site weakly interacts with a bosonic environment of finite temperature in a manner beyond the rotating-wave approximation. We find that the formulation (1) gives the short-time behavior with preserving positivity, (2) restores the oscillative oscillatory features obscured by the secular approximation, and (3) leads to a stationary state very near to the Gibbs state for the total system Hamiltonian. \end{abstract}
翻訳日:2023-03-07 16:50:13 公開日:2023-03-06
# KDSM:知識蒸留とサンプルマッチングに基づく揚力モデリングフレームワーク

KDSM: An uplift modeling framework based on knowledge distillation and sample matching ( http://arxiv.org/abs/2303.02980v1 )

ライセンス: Link先を確認
Chang Sun, Qianying Li, Guanxiang Wang, Sihao Xu, Yitong Liu(参考訳) uplift modelingは個人に対する治療効果を見積もることを目的としており、eコマースプラットフォームにおいて、説得力のある顧客をターゲットとし、マーケティング活動の再開を最大化するために広く適用されている。 既存のアップリフトモデリング手法では、木ベースの手法はインクリメントと一般化に適しており、ニューラルネットワークベースのモデルは絶対値と精度の予測に優れている。 また、逆実例ペアの欠如は、アップリフトモデリングの根本的課題である。 本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。 教師モデルはアップリフト決定木(UpliftDT)であり、その構造を利用して対実的なサンプルペアを構築し、対角的な漸進予測を学生モデルの別の目的として扱う。 マルチタスク学習の概念の下では、学生モデルは一般化におけるより良いパフォーマンスを達成でき、教師を超越することもできる。 広範なオフライン実験は、教師と学生モデルの異なる組み合わせの普遍性と、ベースラインに対して測定されたkdsmの優越性を検証する。 オンラインA/Bテストでは、各インクリメンタルルームナイトのコストは6.5\%削減される。

Uplift modeling aims to estimate the treatment effect on individuals, widely applied in the e-commerce platform to target persuadable customers and maximize the return of marketing activities. Among the existing uplift modeling methods, tree-based methods are adept at fitting increment and generalization, while neural-network-based models excel at predicting absolute value and precision, and these advantages have not been fully explored and combined. Also, the lack of counterfactual sample pairs is the root challenge in uplift modeling. In this paper, we proposed an uplift modeling framework based on Knowledge Distillation and Sample Matching (KDSM). The teacher model is the uplift decision tree (UpliftDT), whose structure is exploited to construct counterfactual sample pairs, and the pairwise incremental prediction is treated as another objective for the student model. Under the idea of multitask learning, the student model can achieve better performance on generalization and even surpass the teacher. Extensive offline experiments validate the universality of different combinations of teachers and student models and the superiority of KDSM measured against the baselines. In online A/B testing, the cost of each incremental room night is reduced by 6.5\%.
翻訳日:2023-03-07 16:43:52 公開日:2023-03-06
# 下水道線検査用構造化光を用いた3次元取得・3次元復元システム

System for 3D Acquisition and 3D Reconstruction using Structured Light for Sewer Line Inspection ( http://arxiv.org/abs/2303.02978v1 )

ライセンス: Link先を確認
Johannes K\"unzel, Darko Vehar, Rico Nestler, Karl-Heinz Franke, Anna Hilsmann, Peter Eisert(参考訳) 下水道管システムの評価は極めて重要であるが、同時に煩雑でエラーが発生しやすい課題である。 単発構造光モジュールに基づく革新的なシステムを導入し, ジャッティング侵入やスポーリング, 接合部のミスアライメントなどの空間的欠陥の検出と分類を容易にする。 このシステムはパイプ表面のサブミリ波分解能で高精度な3D計測を行い、それらを総合的な3Dモデルに融合させる。 このような全体的3dモデルの利点は2つある:一方は、正確な手動下水道管評価を容易にし、他方は、高精度な奥行き情報によって入力を内包する下流の自動システムにおける欠陥検出を単純化する。 本研究では,システムの概要を概観し,設計選択に関する貴重な洞察を提供する。

The assessment of sewer pipe systems is a highly important, but at the same time cumbersome and error-prone task. We introduce an innovative system based on single-shot structured light modules that facilitates the detection and classification of spatial defects like jutting intrusions, spallings, or misaligned joints. This system creates highly accurate 3D measurements with sub-millimeter resolution of pipe surfaces and fuses them into a holistic 3D model. The benefit of such a holistic 3D model is twofold: on the one hand, it facilitates the accurate manual sewer pipe assessment, on the other, it simplifies the detection of defects in downstream automatic systems as it endows the input with highly accurate depth information. In this work, we provide an extensive overview of the system and give valuable insights into our design choices.
翻訳日:2023-03-07 16:43:33 公開日:2023-03-06
# ヒストグラムに基づく自動車レーダの深層学習

Histogram-based Deep Learning for Automotive Radar ( http://arxiv.org/abs/2303.02975v1 )

ライセンス: Link先を確認
Maxim Tatarchenko and Kilian Rambach(参考訳) レーダーセンサーで記録された点雲データを正しく解釈する様々な自動車応用がある。 このような点雲のヒストグラムに基づく処理のための深層学習手法を提案する。 既存の手法と比較して、我々のアプローチの設計は非常に単純で、ポイントクラウドのヒストグラムを計算し、それを多層パーセプトロンに渡す。 我々のアプローチは,自動車レーダの物体分類の課題における最先端のアプローチに匹敵する。 また、レーダー測定を損なうような雑音にも頑健であり、単一のレーダー反射の欠如した特徴に対処できる。 最後に、このアプローチの設計により、既存の手法よりも解釈しやすくなり、意思決定の洞察に富んだ分析が可能になります。

There are various automotive applications that rely on correctly interpreting point cloud data recorded with radar sensors. We present a deep learning approach for histogram-based processing of such point clouds. Compared to existing methods, the design of our approach is extremely simple: it boils down to computing a point cloud histogram and passing it through a multi-layer perceptron. Our approach matches and surpasses state-of-the-art approaches on the task of automotive radar object type classification. It is also robust to noise that often corrupts radar measurements, and can deal with missing features of single radar reflections. Finally, the design of our approach makes it more interpretable than existing methods, allowing insightful analysis of its decisions.
翻訳日:2023-03-07 16:43:18 公開日:2023-03-06
# 失敗予測のための信頼度校正の再考

Rethinking Confidence Calibration for Failure Prediction ( http://arxiv.org/abs/2303.02970v1 )

ライセンス: Link先を確認
Fei Zhu, Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) 予測に対する信頼性の高い信頼度推定は、多くの安全クリティカルなアプリケーションにおいて重要である。 しかし、現代のディープニューラルネットワークは、しばしば誤った予測を過信している。 近年, 過信頼問題を解決するための校正手法が多数提案されている。 キャリブレーションされた信頼度では、信頼性の低い予測(失敗予測として知られる)をフィルタリングすることで誤分類エラーを検出する。 本稿では,信頼度校正手法のほとんどが障害予測に役に立たない,あるいは有害である,一般的かつ広く存在するが実際に否定される現象を見出す。 そこで本研究では, 信頼度校正手法が, 正しいサンプルと間違ったサンプルの信頼度分離を悪化させ, 予測を信頼するか否かを判断することが困難であることを明らかにした。 最後に,フラットミニマと信頼分離の自然な関係に着想を得て,フラットミニマは障害予測に有効であるという単純な仮説を提案する。 この仮説を広範囲な実験を通じて検証し、2つの異なる平たいミニマ技法を組み合わせることで、さらなる性能向上を図る。 私たちのコードはhttps://github.com/Impression2805/FMFPで利用可能です。

Reliable confidence estimation for the predictions is important in many safety-critical applications. However, modern deep neural networks are often overconfident for their incorrect predictions. Recently, many calibration methods have been proposed to alleviate the overconfidence problem. With calibrated confidence, a primary and practical purpose is to detect misclassification errors by filtering out low-confidence predictions (known as failure prediction). In this paper, we find a general, widely-existed but actually-neglected phenomenon that most confidence calibration methods are useless or harmful for failure prediction. We investigate this problem and reveal that popular confidence calibration methods often lead to worse confidence separation between correct and incorrect samples, making it more difficult to decide whether to trust a prediction or not. Finally, inspired by the natural connection between flat minima and confidence separation, we propose a simple hypothesis: flat minima is beneficial for failure prediction. We verify this hypothesis via extensive experiments and further boost the performance by combining two different flat minima techniques. Our code is available at https://github.com/Impression2805/FMFP
翻訳日:2023-03-07 16:43:07 公開日:2023-03-06
# dwinformer : エンド・ツー・エンド単眼深度推定のためのデュアルウィンドウトランスフォーマ

DwinFormer: Dual Window Transformers for End-to-End Monocular Depth Estimation ( http://arxiv.org/abs/2303.02968v1 )

ライセンス: Link先を確認
Md Awsafur Rahman and Shaikh Anowarul Fattah(参考訳) 単一の画像からの深さ推定はコンピュータビジョンの領域において最重要であり、多くの応用がある。 従来の手法は、局所受容領域が実用性を制限するため、一貫性と細かな細部とのトレードオフに苦しむ。 この長距離依存の欠如は、本質的にアーキテクチャの畳み込みニューラルネットワーク部分に由来する。 本稿では,エンド・ツー・エンドの単眼深度推定に局所的特徴と大域的特徴を両立したデュアルウィンドウトランスフォーマネットワーク,dwinformerを提案する。 DwinFormerはデュアルウィンドウ自己アテンションとクロスアテンショントランスフォーマー、Dwin-SATとDwin-CATで構成されている。 Dwin-SATは、グローバルコンテキストを同時にキャプチャしながら、複雑な局所的な特徴をシームレスに抽出する。 ローカルウィンドウとグローバルウィンドウの注意力を利用して、短距離と長距離の両方の依存関係を適切にキャプチャし、アテンションマスクやウィンドウシフトのような複雑で計算コストの高い操作の必要性を回避している。 さらに、Dwin-SATは、翻訳等分散や大規模データへの依存の低減など、望ましい特性を提供する帰納バイアスを導入している。 さらに、従来の復号法は、エンコーダとデコーダの特徴を融合する際に意味的不一致とグローバルコンテキストの欠如をもたらすスキップ接続に依存することが多い。 対照的に、Dwin-CATはローカルとグローバルの両方のウィンドウクロスアテンションを使用して、エンコーダとデコーダの機能をシームレスに融合し、局所的および文脈的に認識されたグローバル情報の両方を微細化し、意味的ギャップを効果的に修正する。 NYU-Depth-V2データセットとKITTIデータセットの広範な実験により得られた実証的証拠は、提案手法の優位性を示し、屋内および屋外の両方の環境における既存のアプローチを一貫して上回っている。

Depth estimation from a single image is of paramount importance in the realm of computer vision, with a multitude of applications. Conventional methods suffer from the trade-off between consistency and fine-grained details due to the local-receptive field limiting their practicality. This lack of long-range dependency inherently comes from the convolutional neural network part of the architecture. In this paper, a dual window transformer-based network, namely DwinFormer, is proposed, which utilizes both local and global features for end-to-end monocular depth estimation. The DwinFormer consists of dual window self-attention and cross-attention transformers, Dwin-SAT and Dwin-CAT, respectively. The Dwin-SAT seamlessly extracts intricate, locally aware features while concurrently capturing global context. It harnesses the power of local and global window attention to adeptly capture both short-range and long-range dependencies, obviating the need for complex and computationally expensive operations, such as attention masking or window shifting. Moreover, Dwin-SAT introduces inductive biases which provide desirable properties, such as translational equvariance and less dependence on large-scale data. Furthermore, conventional decoding methods often rely on skip connections which may result in semantic discrepancies and a lack of global context when fusing encoder and decoder features. In contrast, the Dwin-CAT employs both local and global window cross-attention to seamlessly fuse encoder and decoder features with both fine-grained local and contextually aware global information, effectively amending semantic gap. Empirical evidence obtained through extensive experimentation on the NYU-Depth-V2 and KITTI datasets demonstrates the superiority of the proposed method, consistently outperforming existing approaches across both indoor and outdoor environments.
翻訳日:2023-03-07 16:42:50 公開日:2023-03-06
# 反復的トランク成長と弱監視機構に基づく膵周囲血管分画とラベル付けの自動化

Automated Peripancreatic Vessel Segmentation and Labeling Based on Iterative Trunk Growth and Weakly Supervised Mechanism ( http://arxiv.org/abs/2303.02967v1 )

ライセンス: Link先を確認
Liwen Zou, Zhenghua Cai, Liang Mao, Ziwei Nie, Yudong Qiu and Xiaoping Yang(参考訳) 膵腫瘍の早期診断,手術計画,予後の補助には,膵周囲血管分画と解剖学的標識が極めて重要な役割を担っている。 しかしながら、現在のほとんどの技術は、膵静脈の十分なセグメンテーション性能を達成できず、通常は整合性や接続性に乏しい予測を行う。 さらに、教師なしのラベリングアルゴリズムは複雑な解剖学的変異には対処できないが、教師なしの手法はトレーニングのために大量のvoxel-wiseアノテーションを必要とする。 これらの課題に対処するため, 膵静脈の分節性能を向上するだけでなく, 膵動脈枝の同定も効果的に行うために, 膵動静脈分節とlAbeling(APESA)フレームワークを提案する。 APESA フレームワークには2つのコアモジュールがある: 静脈分節に対する反復的トランク成長モジュール (ITGM) と動脈枝同定のための弱い教師付きラベル機構 (WSLM) である。 提案したITGMは一連のトランク成長モジュールから構成されており,各モジュールは最大連結制約による基本容器予測の最も信頼性の高いトランクを選択し,分岐提案ネットワークによる成長分岐の可能性を探っている。 私たちの設計した反復プロセスは、生のトランクをより完全かつ完全に接続するように導きます。 提案するWSLMは、疑似分岐アノテーションを生成するための教師なしルールベースの前処理と、voxelによる分岐分布のボクセルを学習するための解剖学的ラベリングネットワークから構成される。 収集したデータセットの静脈分画の94.01%をdiceで達成し,最先端法と比較して精度を10%近く向上させた。 また,膵動脈の解剖学的ラベリングにおけるセグメンテーションと競争性能の97.01%のDiceも達成した。

Peripancreatic vessel segmentation and anatomical labeling play extremely important roles to assist the early diagnosis, surgery planning and prognosis for patients with pancreatic tumors. However, most current techniques cannot achieve satisfactory segmentation performance for peripancreatic veins and usually make predictions with poor integrity and connectivity. Besides, unsupervised labeling algorithms cannot deal with complex anatomical variation while fully supervised methods require a large number of voxel-wise annotations for training, which is very labor-intensive and time-consuming. To address these problems, we propose our Automated Peripancreatic vEssel Segmentation and lAbeling (APESA) framework, to not only highly improve the segmentation performance for peripancreatic veins, but also efficiently identify the peripancreatic artery branches. There are two core modules in our proposed APESA framework: iterative trunk growth module (ITGM) for vein segmentation and weakly supervised labeling mechanism (WSLM) for artery branch identification. Our proposed ITGM is composed of a series of trunk growth modules, each of which chooses the most reliable trunk of a basic vessel prediction by the largest connected constraint, and seeks for the possible growth branches by branch proposal network. Our designed iterative process guides the raw trunk to be more complete and fully connected. Our proposed WSLM consists of an unsupervised rule-based preprocessing for generating pseudo branch annotations, and an anatomical labeling network to learn the branch distribution voxel by voxel. We achieve Dice of 94.01% for vein segmentation on our collected dataset, which boosts the accuracy by nearly 10% compared with the state-of-the-art methods. Additionally, we also achieve Dice of 97.01% on segmentation and competitive performance on anatomical labeling for peripancreatic arteries.
翻訳日:2023-03-07 16:42:19 公開日:2023-03-06
# 非パラメトリックアウトリアー合成

Non-Parametric Outlier Synthesis ( http://arxiv.org/abs/2303.02966v1 )

ライセンス: Link先を確認
Leitian Tao, Xuefeng Du, Xiaojin Zhu, Yixuan Li(参考訳) out-of-distribution (ood)検出は、機械学習モデルを安全に運用するには不可欠である。 重要な課題の1つは、モデルは未知のデータからの監視信号が欠如しており、その結果、OODデータに対する過信的な予測を生成することができることである。 オフリエ合成に関する最近の研究は、特徴空間をパラメトリックガウス分布としてモデル化した。 本稿では,人為的なOODトレーニングデータを生成し,IDとOODデータ間の信頼性の高い決定境界の学習を容易にする新しいフレームワークであるNon-Parametric Outlier Synthesis (NPOS)を提案する。 重要なことは、提案した合成手法はID埋め込みに分布的な仮定を持たず、柔軟性と汎用性を提供する。 提案手法は, 拒絶サンプリングフレームワークとして数学的に解釈できることを示す。 大規模な実験により、NPOSは優れたOOD検出性能を達成でき、競争相手をかなり上回っていることがわかった。 コードはhttps://github.com/deeplearning-wisc/nposで公開されている。

Out-of-distribution (OOD) detection is indispensable for safely deploying machine learning models in the wild. One of the key challenges is that models lack supervision signals from unknown data, and as a result, can produce overconfident predictions on OOD data. Recent work on outlier synthesis modeled the feature space as parametric Gaussian distribution, a strong and restrictive assumption that might not hold in reality. In this paper, we propose a novel framework, Non-Parametric Outlier Synthesis (NPOS), which generates artificial OOD training data and facilitates learning a reliable decision boundary between ID and OOD data. Importantly, our proposed synthesis approach does not make any distributional assumption on the ID embeddings, thereby offering strong flexibility and generality. We show that our synthesis approach can be mathematically interpreted as a rejection sampling framework. Extensive experiments show that NPOS can achieve superior OOD detection performance, outperforming the competitive rivals by a significant margin. Code is publicly available at https://github.com/deeplearning-wisc/npos.
翻訳日:2023-03-07 16:41:45 公開日:2023-03-06
# 文化財保存の新時代:協同航空自治

New Era in Cultural Heritage Preservation: Cooperative Aerial Autonomy ( http://arxiv.org/abs/2303.02962v1 )

ライセンス: Link先を確認
Pavel Petracek, Vit Kratky, Tomas Baca, Matej Petrlik, Martin Saska(参考訳) 歴史的建造物の大規模な内部のデジタル文書化は、ほとんどの関心領域が典型的な人間の範囲を超えているため、枯渇する作業である。 我々は,多回転無人航空機(UAV)の自律型チームを用いて,複数桁のドキュメンテーションプロセスの高速化を図りながら,高高度での衝突のない正確な操作が可能な,反復可能で正確で条件に依存しないソリューションを提案する。 提案するマルチロボットアプローチでは,大規模な実世界シナリオにおいて動的シーン照明を必要とするタスクを実行できる。 大規模な実験分析は、単一UAVイメージングから複数のUAVの正確な調整を必要とする特殊な照明技術まで様々である。 システムの堅牢性は、15の歴史的記念物において200以上の自律飛行で実証されており、外部のローカライゼーションへのアクセスが欠如している。 このユニークな実験的なキャンペーンは、修復者や保守者と協力し、文書化や検査作業で他の安全クリティカルなロボットミッションに多くの教訓をもたらした。

Digital documentation of large interiors of historical buildings is an exhausting task since most of the areas of interest are beyond typical human reach. We advocate the use of autonomous teams of multi-rotor Unmanned Aerial Vehicles (UAVs) to speed up the documentation process by several orders of magnitude while allowing for a repeatable, accurate, and condition-independent solution capable of precise collision-free operation at great heights. The proposed multi-robot approach allows for performing tasks requiring dynamic scene illumination in large-scale real-world scenarios, a process previously applicable only in small-scale laboratory-like conditions. Extensive experimental analyses range from single-UAV imaging to specialized lighting techniques requiring accurate coordination of multiple UAVs. The system's robustness is demonstrated in more than two hundred autonomous flights in fifteen historical monuments requiring superior safety while lacking access to external localization. This unique experimental campaign, cooperated with restorers and conservators, brought numerous lessons transferable to other safety-critical robotic missions in documentation and inspection tasks.
翻訳日:2023-03-07 16:41:20 公開日:2023-03-06
# モデルが幻覚を見る:ビデオキャプションにおける現実性の評価

Models See Hallucinations: Evaluating the Factuality in Video Captioning ( http://arxiv.org/abs/2303.02961v1 )

ライセンス: Link先を確認
Hui Liu, Xiaojun Wan(参考訳) ビデオキャプションは、自然言語でビデオ内のイベントを記述することを目的としている。 近年、多くの作品がキャプションモデルのパフォーマンス向上に力を入れている。 しかし、他のテキスト生成タスクと同様に、入力ビデオがサポートしていない事実エラーを起こす危険性がある。 これらの事実的エラーは、生成したテキストの品質に深刻な影響を与える可能性がある。 事実整合性はテキストからテキストへのタスク(例えば要約)で多くの研究の注目を集めているが、視覚に基づくテキスト生成の文脈ではあまり研究されていない。 本研究では,映像キャプションにおける実感の詳細な評価を行い,注釈付き実感データセットを2つ収集する。 モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。 しかし、既存の評価指標は主にn-gramマッチングに基づいており、人間の事実性アノテーションとはほとんど相関がない。 さらに,映像キャプションの事実性評価において,従来の指標よりも優れたモデルベース事実性指標FactVCを提案する。 データセットとメトリクスは、将来のビデオキャプション研究を促進するためにリリースされる。

Video captioning aims to describe events in a video with natural language. In recent years, many works have focused on improving captioning models' performance. However, like other text generation tasks, it risks introducing factual errors not supported by the input video. These factual errors can seriously affect the quality of the generated text, sometimes making it completely unusable. Although factual consistency has received much research attention in text-to-text tasks (e.g., summarization), it is less studied in the context of vision-based text generation. In this work, we conduct a detailed human evaluation of the factuality in video captioning and collect two annotated factuality datasets. We find that 57.0% of the model-generated sentences have factual errors, indicating it is a severe problem in this field. However, existing evaluation metrics are mainly based on n-gram matching and show little correlation with human factuality annotation. We further propose a weakly-supervised, model-based factuality metric FactVC, which outperforms previous metrics on factuality evaluation of video captioning. The datasets and metrics will be released to promote future research for video captioning.
翻訳日:2023-03-07 16:40:50 公開日:2023-03-06
# バタフライ:複数の参照フレームにニューラルビデオ圧縮のための伝播機構

Butterfly: Multiple Reference Frames Feature Propagation Mechanism for Neural Video Compression ( http://arxiv.org/abs/2303.02959v1 )

ライセンス: Link先を確認
Feng Wang, Haihang Ruan, Fei Xiong, Jiayu Yang, Litian Li and Ronggang Wang(参考訳) より多くの参照フレームを使用することで、神経ビデオ圧縮の圧縮効率が大幅に向上する。 しかしながら、低レイテンシのシナリオでは、既存のほとんどのニューラルビデオ圧縮フレームワークは、通常、前のフレームを参照として使用する。 あるいは、以前の複数のフレームを参照として使用するいくつかのフレームワークは、単純なマルチ参照フレームの伝搬メカニズムのみを採用する。 本稿では,バタフライマルチリファレンスフレーム伝搬機構(butterfly,butterfly)と呼ばれる,ニューラルビデオ圧縮のためのより合理的なマルチリファレンスフレーム伝播機構を提案する。 これにより、コンテキスト符号化モジュールに先立ってより正確な時間的文脈条件を生成することができる。 また,復号化フレーム数が要求される参照フレーム数に満たない場合には,最も近い参照フレームを複製して要求を達成する。 実験の結果,提案手法は従来のSOTA(State-of-the-art)よりも大幅に優れており,同じ圧縮構成の単一参照フレームモデルと比較すると,HEVCクラスDデータセット上で7.6%のビットレートセーブが得られることがわかった。

Using more reference frames can significantly improve the compression efficiency in neural video compression. However, in low-latency scenarios, most existing neural video compression frameworks usually use the previous one frame as reference. Or a few frameworks which use the previous multiple frames as reference only adopt a simple multi-reference frames propagation mechanism. In this paper, we present a more reasonable multi-reference frames propagation mechanism for neural video compression, called butterfly multi-reference frame propagation mechanism (Butterfly), which allows a more effective feature fusion of multi-reference frames. By this, we can generate more accurate temporal context conditional prior for Contextual Coding Module. Besides, when the number of decoded frames does not meet the required number of reference frames, we duplicate the nearest reference frame to achieve the requirement, which is better than duplicating the furthest one. Experiment results show that our method can significantly outperform the previous state-of-the-art (SOTA), and our neural codec can achieve -7.6% bitrate save on HEVC Class D dataset when compares with our base single-reference frame model with the same compression configuration.
翻訳日:2023-03-07 16:40:22 公開日:2023-03-06
# 壁面境界流のテンソルネットワーク低減秩序モデル

Tensor network reduced order models for wall-bounded flows ( http://arxiv.org/abs/2303.03010v1 )

ライセンス: Link先を確認
Martin Kiffner and Dieter Jaksch(参考訳) 本稿では,壁面境界流体の流れを記述する低次モデルを構築するために,広く適用可能なテンソルネットワークベースのフレームワークを提案する。 パラダイム的な例として、2次元の非圧縮性ナビエ・ストークス方程式と蓋駆動空洞を考える。 低レイノルズ数の公開参照データに対するソリューションのベンチマークを行い、優れた一致を見出す。 さらに,高レイノルズ数における流れの短時間ダイナミクスについても検討した。 テンソルネットワークアルゴリズムは、直接数値シミュレーションによって得られる解をパラメトリクスする変数の少なくとも3.4\%を必要とし、同様のハードウェア上で直接数値シミュレーションと比較して5倍のスピードアップを達成する。 速度成分を行列積状態で表現し、結合次元が格子の大きさとほぼ独立であることを示す。 この挙動は量子物理学の領域法則に似ており、我々のアルゴリズムの数値複雑性は格子点の数と対数的にスケールすることを示している。 我々のアプローチは容易に他の流れに伝達でき、複雑な幾何学における量子計算流体力学への道を開く。

We introduce a widely applicable tensor network-based framework for developing reduced order models describing wall-bounded fluid flows. As a paradigmatic example, we consider the incompressible Navier-Stokes equations and the lid-driven cavity in two spatial dimensions. We benchmark our solution against published reference data for low Reynolds numbers and find excellent agreement. In addition, we investigate the short-time dynamics of the flow at high Reynolds numbers. The tensor network algorithm requires at most 3.4\% of the number of variables parametrising the solution obtained by direct numerical simulation, and achieves a five-fold speedup compared to direct numerical simulation on similar hardware. We represent the velocity components by matrix product states and find that the bond dimension is approximately independent of the grid size. This behaviour is akin to area laws in quantum physics and shows that the numerical complexity of our algorithm scales logarithmically with the number of grid points. Our approach is readily transferable to other flows, and paves the way towards quantum computational fluid dynamics in complex geometries.
翻訳日:2023-03-07 16:35:03 公開日:2023-03-06
# conv-tasnetを用いたデバイス上低複雑さソース分離のためのスケーリング戦略

Scaling strategies for on-device low-complexity source separation with Conv-Tasnet ( http://arxiv.org/abs/2303.03005v1 )

ライセンス: Link先を確認
Mohamed Nabih Ali, Francesco Paissan, Daniele Falavigna, Alessio Brutti(参考訳) 近年,単チャネル音声分離のための非常に効果的なニューラルアプローチが文献に提示されている。 しかしながら、これらのモデルのサイズと複雑さのため、補聴器やイヤホンなどの低リソースデバイスでの使用は依然として課題であり、確立されたソリューションはまだ利用できない。 プルーニングまたは圧縮ニューラルモデルに基づくアプローチが提案されているが、特定のアプリケーションドメインに適したモデルアーキテクチャの設計は、しばしば異なる低リソースプラットフォームに容易に移植できないヒューリスティックな手順を必要とする。 本稿では,よく知られたConv-Tasnet音声分離アーキテクチャのモジュラー性を考慮して,モデル全体のサイズを直接制御する3つのパラメータについて考察する。 特に、Libri2Mixで行った実験では、拡張された1D-Convブロックの数が最も重要なパラメータであり、残余ブロックにおける拡張外使用が性能低下を減少させることを示した。

Recently, several very effective neural approaches for single-channel speech separation have been presented in the literature. However, due to the size and complexity of these models, their use on low-resource devices, e.g. for hearing aids, and earphones, is still a challenge and established solutions are not available yet. Although approaches based on either pruning or compressing neural models have been proposed, the design of a model architecture suitable for a certain application domain often requires heuristic procedures not easily portable to different low-resource platforms. Given the modular nature of the well-known Conv-Tasnet speech separation architecture, in this paper we consider three parameters that directly control the overall size of the model, namely: the number of residual blocks, the number of repetitions of the separation blocks and the number of channels in the depth-wise convolutions, and experimentally evaluate how they affect the speech separation performance. In particular, experiments carried out on the Libri2Mix show that the number of dilated 1D-Conv blocks is the most critical parameter and that the usage of extra-dilation in the residual blocks allows reducing the performance drop.
翻訳日:2023-03-07 16:34:47 公開日:2023-03-06
# xCodeEval: コード理解、生成、翻訳、検索のための大規模マルチ言語マルチタスクベンチマーク

xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval ( http://arxiv.org/abs/2303.03004v1 )

ライセンス: Link先を確認
Mohammad Abdullah Matin Khan, M Saiful Bari, Xuan Long Do, Weishi Wang, Md Rizwan Parvez, Shafiq Joty(参考訳) 問題を解決する能力は知性の目印であり、AIの永続的な目標でした。 問題に対するソリューションとしてプログラムを作成したり、プログラムを書く開発者を支援したりできるaiシステムは、生産性を高め、プログラミングをよりアクセスしやすくする。 最近、訓練済みの大規模言語モデルでは、自然言語記述から新しいコードを生成すること、バグのあるコードを修正すること、言語間のコード変換、関連するコードセグメントの検索に顕著な能力を示している。 しかし、これらのモデルの評価は、1つか2つの特定のタスク、いくつかの言語、部分的な粒度(例えば、関数)レベル、多くの場合、適切なトレーニングデータなしで、散在的に行われてきた。 さらに懸念されるのは、ほとんどの場合、生成されたコードの評価は実際の実行よりも単なる語彙的なオーバーラップによって行われ、一方、2つのコードセグメントの意味的類似性(または等価性)は、その'`execution similarity''、すなわち、与えられた入力に対して同じ出力を得ることができることである。

The ability to solve problems is a hallmark of intelligence and has been an enduring goal in AI. AI systems that can create programs as solutions to problems or assist developers in writing programs can increase productivity and make programming more accessible. Recently, pre-trained large language models have shown impressive abilities in generating new codes from natural language descriptions, repairing buggy codes, translating codes between languages, and retrieving relevant code segments. However, the evaluation of these models has often been performed in a scattered way on only one or two specific tasks, in a few languages, at a partial granularity (e.g., function) level and in many cases without proper training data. Even more concerning is that in most cases the evaluation of generated codes has been done in terms of mere lexical overlap rather than actual execution whereas semantic similarity (or equivalence) of two code segments depends only on their ``execution similarity'', i.e., being able to get the same output for a given input.
翻訳日:2023-03-07 16:34:26 公開日:2023-03-06
# 高解像度グリッドと平面特徴のハイブリッドによる大規模シーンの効率的な表現

Efficient Large-scale Scene Representation with a Hybrid of High-resolution Grid and Plane Features ( http://arxiv.org/abs/2303.03003v1 )

ライセンス: Link先を確認
Yuqi Zhang, Guanying Chen and Shuguang Cui(参考訳) 大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)メソッドは、複数のGPUを使用した日々のトレーニングを必要とし、限られたコンピューティングリソースを持つシナリオでの応用を妨げる。 高速最適化のNeRF変種は、明示的な高密度またはハッシュグリッドの特徴に基づいて提案されているが、その効果は主にオブジェクトスケールのシーン表現で実証されている。 本稿では,明示表現における低特徴分解能が,大規模非有界シーン表現のボトルネックとなっていることを指摘する。 この問題に対処するため,我々は3Dハッシュグレードと高分解能2D高密度平面特徴を融合したNeRFのハイブリッド特徴表現を導入した。 密度格子表現と比較して、密度2次元平面の分解能はより効率的にスケールアップできる。 このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。 複数の大規模アンバウンドシーンデータセットに対する大規模な実験により、我々のモデルは1つのGPUを使用して1.5時間で収束でき、その結果は8つのGPUで1日程度のトレーニングを必要とする既存の方法に匹敵する。

Existing neural radiance fields (NeRF) methods for large-scale scene modeling require days of training using multiple GPUs, hindering their applications in scenarios with limited computing resources. Despite fast optimization NeRF variants have been proposed based on the explicit dense or hash grid features, their effectivenesses are mainly demonstrated in object-scale scene representation. In this paper, we point out that the low feature resolution in explicit representation is the bottleneck for large-scale unbounded scene representation. To address this problem, we introduce a new and efficient hybrid feature representation for NeRF that fuses the 3D hash-grids and high-resolution 2D dense plane features. Compared with the dense-grid representation, the resolution of a dense 2D plane can be scaled up more efficiently. Based on this hybrid representation, we propose a fast optimization NeRF variant, called GP-NeRF, that achieves better rendering results while maintaining a compact model size. Extensive experiments on multiple large-scale unbounded scene datasets show that our model can converge in 1.5 hours using a single GPU while achieving results comparable to or even better than the existing method that requires about one day's training with 8 GPUs.
翻訳日:2023-03-07 16:34:07 公開日:2023-03-06
# 半教師対象検出のための擬似ラベル補正と学習

Pseudo-label Correction and Learning For Semi-Supervised Object Detection ( http://arxiv.org/abs/2303.02998v1 )

ライセンス: Link先を確認
Yulin He, Wei Chen, Ke Liang, Yusong Tan, Zhengfa Liang, Yulan Guo(参考訳) Pseudo-Labelingは、半教師付き物体検出(SSOD)の単純かつ効果的な手法として登場した。 しかし、擬似ラベルにおける避けられないノイズ問題はSSOD法の性能を著しく低下させる。 近年,SSODの分類ノイズは効果的に軽減されているが,SSODの非無視部分である局所雑音は十分に適応されていない。 本稿では, 生成・学習段階から局所化雑音を分析し, 擬似ラベル補正と雑音認識学習という2つの手法を提案する。 擬似ラベル補正には, マルチラウンド精製法と多声重み付け法を導入する。 前者は予測の安定性を向上させるために擬似箱を反復的に洗練し、後者は周囲の散らばった箱のスコアを測り、円滑に自己修正する。 ノイズを意識しない学習では,回帰課題における結合(iou)の交点と負の相関関係を持つ損失重み関数を導入し,予測ボックスを物体に近づけて位置推定精度を向上させる。 提案手法であるPseudo-label Correction and Learning (PCL) は,MS COCOおよびPASCAL VOCベンチマークで広く評価されている。 MS COCOでは、PCLは教師付きベースラインを12.16、12.11、9.57 mAP、最近のSOTA(SoftTeacher)を3.90、2.54、および2.43 mAPでそれぞれ1\%、5\%、そして10\%で上回る。 PASCAL VOCでは、PCLは教師付きベースラインを5.64 mAPで改善し、最近のSOTA(Unbiased Teacherv2)を1.04 mAPでAP$^{50}$で改善する。

Pseudo-Labeling has emerged as a simple yet effective technique for semi-supervised object detection (SSOD). However, the inevitable noise problem in pseudo-labels significantly degrades the performance of SSOD methods. Recent advances effectively alleviate the classification noise in SSOD, while the localization noise which is a non-negligible part of SSOD is not well-addressed. In this paper, we analyse the localization noise from the generation and learning phases, and propose two strategies, namely pseudo-label correction and noise-unaware learning. For pseudo-label correction, we introduce a multi-round refining method and a multi-vote weighting method. The former iteratively refines the pseudo boxes to improve the stability of predictions, while the latter smoothly self-corrects pseudo boxes by weighing the scores of surrounding jittered boxes. For noise-unaware learning, we introduce a loss weight function that is negatively correlated with the Intersection over Union (IoU) in the regression task, which pulls the predicted boxes closer to the object and improves localization accuracy. Our proposed method, Pseudo-label Correction and Learning (PCL), is extensively evaluated on the MS COCO and PASCAL VOC benchmarks. On MS COCO, PCL outperforms the supervised baseline by 12.16, 12.11, and 9.57 mAP and the recent SOTA (SoftTeacher) by 3.90, 2.54, and 2.43 mAP under 1\%, 5\%, and 10\% labeling ratios, respectively. On PASCAL VOC, PCL improves the supervised baseline by 5.64 mAP and the recent SOTA (Unbiased Teacherv2) by 1.04 mAP on AP$^{50}$.
翻訳日:2023-03-07 16:33:43 公開日:2023-03-06
# HiCLIP:階層認識によるコントラスト言語イメージ事前学習

HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention ( http://arxiv.org/abs/2303.02995v1 )

ライセンス: Link先を確認
Shijie Geng, Jianbo Yuan, Yu Tian, Yuxiao Chen, Yongfeng Zhang(参考訳) 大規模コントラッシブ・ビジョン言語事前学習(CLIP)の成功は、視覚認識とマルチモーダルコンテンツ理解の両方の恩恵を受けている。 簡潔な設計により、CLIPは他の視覚言語モデルに対して、より重い相互注意融合層を持つモデルに対する推論効率の利点がもたらされる。 しかし、CLIPは画像やテキストで伝達される高レベルできめ細かい意味論の階層的な性質を明示的に捉えていない。 この目的のために,階層型CLIP (Hierarchy-aware CLIP, HiCLIP) の視覚と言語の両方のブランチに階層型アテンションを付加し,画像とテキストの両方から階層型セマンティック階層を段階的に発見する。 結果として、このような階層的な集約は、クロスモーダルアライメントを著しく改善する。 HiCLIPの利点を実証するために、推論中の教師なし階層化誘導に関する定性的な分析を行い、視覚認識と視覚言語下流タスクに関する広範な定量的実験を行った。

The success of large-scale contrastive vision-language pretraining (CLIP) has benefited both visual recognition and multimodal content understanding. The concise design brings CLIP the advantage in inference efficiency against other vision-language models with heavier cross-attention fusion layers, making it a popular choice for a wide spectrum of downstream tasks. However, CLIP does not explicitly capture the hierarchical nature of high-level and fine-grained semantics conveyed in images and texts, which is arguably critical to vision-language understanding and reasoning. To this end, we equip both the visual and language branches in CLIP with hierarchy-aware attentions, namely Hierarchy-aware CLIP (HiCLIP), to progressively discover semantic hierarchies layer-by-layer from both images and texts in an unsupervised manner. As a result, such hierarchical aggregation significantly improves the cross-modal alignment. To demonstrate the advantages of HiCLIP, we conduct qualitative analysis on its unsupervised hierarchy induction during inference, as well as extensive quantitative experiments on both visual recognition and vision-language downstream tasks.
翻訳日:2023-03-07 16:33:09 公開日:2023-03-06
# 行動単位検出問題における戦闘騒音と不均衡

Fighting noise and imbalance in Action Unit detection problems ( http://arxiv.org/abs/2303.02994v1 )

ライセンス: Link先を確認
Gauthier Tallec, Arnaud Dapogny and Kevin Bailly(参考訳) action unit(au)検出は、表情を筋肉のアクティベーションで自動的にキャラクタリゼーションすることを目的としている。 その主な関心は、高いレベルの感情的コンピューティングタスク学習を支援するために使用できる低レベルの顔表現を提供することである。 しかし、これは難しい課題である。 実際、利用可能なデータベースは顔の変動が限られており、中立表現に対して不均衡である。 さらに、AUは微妙な顔の動きに悩まされるため、提供された数少ないデータポイントのいくつかを誤ってラベル付けするように注釈を付けるのが困難である。 本研究では,ラベル平滑化機能を活用し,信頼度を低下させることで,ノイズ事例の軽減を図る。 しかし、ラベルの平滑化は、既存のアンダー信頼問題と性能低下を増大させる可能性がある。 この問題を回避するため,Robin Hood Label Smoothing (RHLS)を提案する。 RHLSの原則は、ラベルのスムーズな信頼度低下を多数派に抑えることである。 その範囲では、不均衡に基づく過剰信頼問題と、騒がしい多数派例の否定的な影響の両方を緩和する。 実験的な観点から、RHLSはAU検出における自由な性能向上を提供することを示す。 特に、最新のマルチタスクベースラインにそれを適用することで、BP4DやdisFAの最先端メソッドよりも有望な結果が得られる。

Action Unit (AU) detection aims at automatically caracterizing facial expressions with the muscular activations they involve. Its main interest is to provide a low-level face representation that can be used to assist higher level affective computing tasks learning. Yet, it is a challenging task. Indeed, the available databases display limited face variability and are imbalanced toward neutral expressions. Furthermore, as AU involve subtle face movements they are difficult to annotate so that some of the few provided datapoints may be mislabeled. In this work, we aim at exploiting label smoothing ability to mitigate noisy examples impact by reducing confidence [1]. However, applying label smoothing as it is may aggravate imbalance-based pre-existing under-confidence issue and degrade performance. To circumvent this issue, we propose Robin Hood Label Smoothing (RHLS). RHLS principle is to restrain label smoothing confidence reduction to the majority class. In that extent, it alleviates both the imbalance-based over-confidence issue and the negative impact of noisy majority class examples. From an experimental standpoint, we show that RHLS provides a free performance improvement in AU detection. In particular, by applying it on top of a modern multi-task baseline we get promising results on BP4D and outperform state-of-the-art methods on DISFA.
翻訳日:2023-03-07 16:32:47 公開日:2023-03-06
# 心電図による心転子検出のためのニューラルネットワークアーキテクチャの探索

Searching for Effective Neural Network Architectures for Heart Murmur Detection from Phonocardiogram ( http://arxiv.org/abs/2303.02988v1 )

ライセンス: Link先を確認
Hao Wen and Jingsu Kang(参考訳) Aim: George B. Moody PhysioNet Challenge 2022は, 超音波心電図(PCGs)から, 心室および関連する心機能同定の問題を提起した。 この研究は、チームがこれらの問題を解決するために開発した新しいアプローチについて述べます。 方法: pcg を 1000 hz にサンプリングし、次に 3 順の butterworth band-pass filter でフィルタし、25 - 400 hz のカットオフ周波数と z-score を正規化した。 我々は、ハードパラメータ共有によるマルチタスク学習(MTL)手法を用いて、チャレンジタスクのすべてに1つのニューラルネットワーク(NN)モデルをトレーニングした。 我々は,マルチブランチ畳み込みニューラルネットワーク(CNN),SE-ResNets,TResNets,簡易wav2vec2など,一連のネットワークバックボーン間のニューラルネットワーク探索を行った。 被験者の階層的な分割に基づいて、公開データの20%はモデル選択の検証セットとして除外された。 モデル重量を最適化するために、AdamWオプティマイザとOneCycleスケジューラが採用された。 結果: murmur検出分類器は, 隠れた検証セットで0.736点(40チーム中14位), チャレンジコストスコア12944点(39チーム中19位)を得た。 結論: 本研究は, 心室中隔欠損症を診断し, 臨床診断をPCGから提案する問題に対して, 実用的な解決策を提供する。

Aim: The George B. Moody PhysioNet Challenge 2022 raised problems of heart murmur detection and related abnormal cardiac function identification from phonocardiograms (PCGs). This work describes the novel approaches developed by our team, Revenger, to solve these problems. Methods: PCGs were resampled to 1000 Hz, then filtered with a Butterworth band-pass filter of order 3, cutoff frequencies 25 - 400 Hz, and z-score normalized. We used the multi-task learning (MTL) method via hard parameter sharing to train one neural network (NN) model for all the Challenge tasks. We performed neural architecture searching among a set of network backbones, including multi-branch convolutional neural networks (CNNs), SE-ResNets, TResNets, simplified wav2vec2, etc. Based on a stratified splitting of the subjects, 20% of the public data was left out as a validation set for model selection. The AdamW optimizer was adopted, along with the OneCycle scheduler, to optimize the model weights. Results: Our murmur detection classifier received a weighted accuracy score of 0.736 (ranked 14th out of 40 teams) and a Challenge cost score of 12944 (ranked 19th out of 39 teams) on the hidden validation set. Conclusion: We provided a practical solution to the problems of detecting heart murmurs and providing clinical diagnosis suggestions from PCGs.
翻訳日:2023-03-07 16:32:25 公開日:2023-03-06
# 画像のマルチスケール局所条件確率モデルの学習

Learning multi-scale local conditional probability models of images ( http://arxiv.org/abs/2303.02984v1 )

ライセンス: Link先を確認
Zahra Kadkhodaie, Florentin Guth, St\'ephane Mallat, and Eero P Simoncelli(参考訳) ディープニューラルネットワークは、最近のスコアベースの拡散法で得られた高品質な世代によって証明されるように、画像の強力な事前確率モデルを学ぶことができる。 しかし、これらのネットワークが複雑なグローバルな統計構造を捉える手段は、明らかに次元の呪いに苦しむことなく、謎のままだ。 本研究では,拡散法を多スケール分解に組み込み,粗大係数に条件付きウェーブレット係数の定常局所マルコフモデルを仮定することにより次元性を低減する。 このモデルを畳み込みニューラルネットワーク(cnns)と局所受容場を用いてインスタンス化し、定常性とマルコフ特性の両方を強制する。 グローバル構造は、(小さな)ローパスイメージ全体をカバーする受容フィールドを持つCNNを使用してキャプチャされる。 我々はこのモデルを,非定常で大規模幾何学構造を含む顔画像のデータセット上でテストする。 驚くべきことに、デノイジング、超解像、画像合成の結果、これらの構造はピクセル領域に実装されたマルコフモデルが要求するよりもかなり小さいコンディショニング近傍でキャプチャできることを示している。 以上の結果から, 大規模画像のスコア推定は, 低次元マルコフ条件モデルに縮小でき, 次元の呪いを緩和できることがわかった。

Deep neural networks can learn powerful prior probability models for images, as evidenced by the high-quality generations obtained with recent score-based diffusion methods. But the means by which these networks capture complex global statistical structure, apparently without suffering from the curse of dimensionality, remain a mystery. To study this, we incorporate diffusion methods into a multi-scale decomposition, reducing dimensionality by assuming a stationary local Markov model for wavelet coefficients conditioned on coarser-scale coefficients. We instantiate this model using convolutional neural networks (CNNs) with local receptive fields, which enforce both the stationarity and Markov properties. Global structures are captured using a CNN with receptive fields covering the entire (but small) low-pass image. We test this model on a dataset of face images, which are highly non-stationary and contain large-scale geometric structures. Remarkably, denoising, super-resolution, and image synthesis results all demonstrate that these structures can be captured with significantly smaller conditioning neighborhoods than required by a Markov model implemented in the pixel domain. Our results show that score estimation for large complex images can be reduced to low-dimensional Markov conditional models across scales, alleviating the curse of dimensionality.
翻訳日:2023-03-07 16:31:58 公開日:2023-03-06
# ファウショット動作認識のためのCLIP誘導型プロトタイプ変調

CLIP-guided Prototype Modulating for Few-shot Action Recognition ( http://arxiv.org/abs/2303.02982v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Jun Cen, Changxin Gao, Yingya Zhang, Deli Zhao, Nong Sang(参考訳) CLIPのような大規模なコントラスト言語イメージ事前トレーニングから学んだことは、近年、幅広いダウンストリームタスクで顕著な成功を収めている。 本研究では,データ不足による不正確なプロトタイプ推定問題を軽減するために,クリップの強力なマルチモーダル知識を伝達することを目的としている。 そこで本研究では,ビデオテキストコントラスト目標とプロトタイプ変調の2つの主成分からなる,クリップガイド付きプロトタイプ変調フレームワーク clip-fsar を提案する。 具体的には、CLIPと数ショットのビデオタスクとの間のタスクの相違を、ビデオとそれに対応するクラステキスト記述とを対比することによって橋渡しする。 後者はCLIPから変換可能なテキストの概念を活用して、時間変換器で視覚プロトタイプを適応的に洗練する。 これにより、CLIP-FSARは、CLIPのリッチなセマンティックプリエントをフル活用して、信頼性の高いプロトタイプを取得し、正確な数発の分類を達成できる。 5つのベンチマークを用いた広範囲な実験により,提案手法の有効性が実証された。 ソースコードとモデルはhttps://github.com/alibaba-mmai-research/CLIP-FSARで公開されている。

Learning from large-scale contrastive language-image pre-training like CLIP has shown remarkable success in a wide range of downstream tasks recently, but it is still under-explored on the challenging few-shot action recognition (FSAR) task. In this work, we aim to transfer the powerful multimodal knowledge of CLIP to alleviate the inaccurate prototype estimation issue due to data scarcity, which is a critical problem in low-shot regimes. To this end, we present a CLIP-guided prototype modulating framework called CLIP-FSAR, which consists of two key components: a video-text contrastive objective and a prototype modulation. Specifically, the former bridges the task discrepancy between CLIP and the few-shot video task by contrasting videos and corresponding class text descriptions. The latter leverages the transferable textual concepts from CLIP to adaptively refine visual prototypes with a temporal Transformer. By this means, CLIP-FSAR can take full advantage of the rich semantic priors in CLIP to obtain reliable prototypes and achieve accurate few-shot classification. Extensive experiments on five commonly used benchmarks demonstrate the effectiveness of our proposed method, and CLIP-FSAR significantly outperforms existing state-of-the-art methods under various settings. The source code and models will be publicly available at https://github.com/alibaba-mmai-research/CLIP-FSAR.
翻訳日:2023-03-07 16:31:34 公開日:2023-03-06
# MABNet:画像検索のためのハイブリッド学習によるマスターアシスタントバディネットワーク

MABNet: Master Assistant Buddy Network with Hybrid Learning for Image Retrieval ( http://arxiv.org/abs/2303.03050v1 )

ライセンス: Link先を確認
Rohit Agarwal, Gyanendra Das, Saksham Aggarwal, Alexander Horsch, Dilip K. Prasad(参考訳) 近年,画像検索への関心が高まっている。 現在のアプローチは、教師されるか、自己監督される。 これらの手法は、監督と自己監督の両方を使ってハイブリッド学習の利点を活用しない。 本稿では、両方の学習機構を組み込んだ画像検索のための新しいMaster Assistant Buddy Network(MABNet)を提案する。 mabnetはマスターブロックとアシスタントブロックで構成され、それぞれが監督を通じて独立して学習し、集合的に自己スーパービジョンを通じて学習する。 マスターは、自己監督の基準として知識ベースを提供することでアシスタントを誘導し、アシスタントは、重量移動によりその知識をマスターに報告する。 ポストプロセッシングの有無に関わらず,公開データセットで広範な実験を行う。

Image retrieval has garnered growing interest in recent times. The current approaches are either supervised or self-supervised. These methods do not exploit the benefits of hybrid learning using both supervision and self-supervision. We present a novel Master Assistant Buddy Network (MABNet) for image retrieval which incorporates both learning mechanisms. MABNet consists of master and assistant blocks, both learning independently through supervision and collectively via self-supervision. The master guides the assistant by providing its knowledge base as a reference for self-supervision and the assistant reports its knowledge back to the master by weight transfer. We perform extensive experiments on public datasets with and without post-processing.
翻訳日:2023-03-07 16:24:37 公開日:2023-03-06
# 2次元システムとしての畳み込みニューラルネットワーク

Convolutional Neural Networks as 2-D systems ( http://arxiv.org/abs/2303.03042v1 )

ライセンス: Link先を確認
Dennis Gramlich, Patricia Pauli, Carsten W. Scherer, Frank Allg\"ower and Christian Ebenbauer(参考訳) 本稿では,2次元力学系における畳み込みニューラルネットワーク(CNN)の新たな表現法を提案する。 この目的のために、線形フィルタのインパルス応答である畳み込みカーネルを用いた畳み込み層の通常の記述は、線形時間不変な2次元システムとして状態空間で実現される。 畳み込み層と非線形活性化関数からなる全体的な畳み込みニューラルネットワークは、Lur'eシステムの2次元バージョン、すなわち静的な非線形成分と相互接続された線形力学系と見なされる。 CNNにおけるこの 2-D Lur'e 系の観点の利点の1つは、より効率的にロバスト制御理論をリプシッツ定数推定に利用できることである。

This paper introduces a novel representation of convolutional Neural Networks (CNNs) in terms of 2-D dynamical systems. To this end, the usual description of convolutional layers with convolution kernels, i.e., the impulse responses of linear filters, is realized in state space as a linear time-invariant 2-D system. The overall convolutional Neural Network composed of convolutional layers and nonlinear activation functions is then viewed as a 2-D version of a Lur'e system, i.e., a linear dynamical system interconnected with static nonlinear components. One benefit of this 2-D Lur'e system perspective on CNNs is that we can use robust control theory much more efficiently for Lipschitz constant estimation than previously possible.
翻訳日:2023-03-07 16:24:27 公開日:2023-03-06
# Yolov5-OBBに基づく航空測量地制御点の自動検出

Automatic detection of aerial survey ground control points based on Yolov5-OBB ( http://arxiv.org/abs/2303.03041v1 )

ライセンス: Link先を確認
Cheng Chuanxiang, Yang Jia, Wang Chao, Zheng Zhi, Li Xiaopeng, Dong Di, Chang Mengxia, Zhuang Zhiheng(参考訳) 地上制御点(GCP)のジオレファレンスへの利用は無人航空機(UAV)における最も一般的な戦略であるが、同時にそれらの収集はUAVキャンペーンの最も時間と費用のかかる部分を表している。 近年,小型物体検出の分野では,ディープラーニングが急速に発展している。 本稿では,UAV画像中のGCPマーカーを検出して地上制御点(GCP)の座標情報を自動抽出するために,深層学習に基づくアーキテクチャであるYOLOv5-OBBと,信頼しきい値フィルタリングアルゴリズムと最適ランキングアルゴリズムを組み合わせた解を提案する。 提案手法をDJI Phantom 4 Proドローンで収集したデータセットに適用し,平均精度0.832,最大精度0.982で高い検出性能を得た。 提案手法は, エンドツーエンドの航空三角法を将来実装するための有望なツールとなる。

The use of ground control points (GCPs) for georeferencing is the most common strategy in unmanned aerial vehicle (UAV) photogrammetry, but at the same time their collection represents the most time-consuming and expensive part of UAV campaigns. Recently, deep learning has been rapidly developed in the field of small object detection. In this letter, to automatically extract coordinates information of ground control points (GCPs) by detecting GCP-markers in UAV images, we propose a solution that uses a deep learning-based architecture, YOLOv5-OBB, combined with a confidence threshold filtering algorithm and an optimal ranking algorithm. We applied our proposed method to a dataset collected by DJI Phantom 4 Pro drone and obtained good detection performance with the mean Average Precision (AP) of 0.832 and the highest AP of 0.982 for the cross-type GCP-markers. The proposed method can be a promising tool for future implementation of the end-to-end aerial triangulation process.
翻訳日:2023-03-07 16:24:14 公開日:2023-03-06
# EvCenterNet: 証拠学習を用いた物体検出の不確かさ推定

EvCenterNet: Uncertainty Estimation for Object Detection using Evidential Learning ( http://arxiv.org/abs/2303.03037v1 )

ライセンス: Link先を確認
Monish R. Nallapareddy, Kshitij Sirohi, Paulo L. J. Drews-Jr, Wolfram Burgard, Chih-Hong Cheng, Abhinav Valada(参考訳) 高レベルの意思決定や経路計画を含む下流タスクに貴重な情報を提供するため、自動運転などの安全クリティカルな設定では不確実性推定が不可欠である。 本研究では,明度学習を利用した新しい不確実性を考慮した2次元オブジェクト検出フレームワークであるEvCenterNetを提案する。 物体検出に実証学習を取り入れるために,スパースヒートマップ入力に対する顕在的損失関数と焦点的損失関数の組み合わせを考案する。 そこで本研究では,回帰とヒートマップ予測のためのクラスバランス重み付けを導入し,実証学習で生じるクラス不均衡に取り組む。 さらに,予測熱マップの不確かさを積極的に活用し,最も不確実な点に着目して検出性能を向上させる学習手法を提案する。 我々は、KITTIデータセット上でモデルをトレーニングし、BDD100KやnuImagesなどの配布外データセットに挑戦して評価する。 本実験は,本手法が精度を向上し,ベースモデルに対する実行時間損失を最小化することを示す。

Uncertainty estimation is crucial in safety-critical settings such as automated driving as it provides valuable information for several downstream tasks including high-level decision-making and path planning. In this work, we propose EvCenterNet, a novel uncertainty-aware 2D object detection framework utilizing evidential learning to directly estimate both classification and regression uncertainties. To employ evidential learning for object detection, we devise a combination of evidential and focal loss functions for the sparse heatmap inputs. We introduce class-balanced weighting for regression and heatmap prediction to tackle the class imbalance encountered by evidential learning. Moreover, we propose a learning scheme to actively utilize the predicted heatmap uncertainties to improve the detection performance by focusing on the most uncertain points. We train our model on the KITTI dataset and evaluate it on challenging out-of-distribution datasets including BDD100K and nuImages. Our experiments demonstrate that our approach improves the precision and minimizes the execution time loss in relation to the base model.
翻訳日:2023-03-07 16:23:57 公開日:2023-03-06
# 対称情報に基づく位相不変性の制約付き深層クラスタリング

Deep Clustering with a Constraint for Topological Invariance based on Symmetric InfoNCE ( http://arxiv.org/abs/2303.03036v1 )

ライセンス: Link先を確認
Yuhui Zhang, Yuichiro Wada, Hiroki Waida, Kaito Goto, Yusaku Hino, Takafumi Kanamori(参考訳) 我々は,利用可能な事前知識が限定された深層クラスタリングのシナリオを検討する。 このシナリオでは、複雑なトポロジーと複雑なトポロジーデータセットの両方に対して、既存の最先端のディープクラスタリング手法がうまく機能する例はほとんどない。 そこで本研究では,非複素トポロジだけでなく,複雑なトポロジデータセットにも有効であるように,モデル学習における深層クラスタリング手法の目的を支援する対称情報を用いた制約を提案する。 さらに,この制約が深層クラスタリング手法の性能を向上できる理由について,いくつかの理論的説明を行う。 提案手法の有効性を確認するため,既存のディープクラスタリング手法と我々の制約を組み合わせたMISTと呼ばれるディープクラスタリング手法を提案する。 MISTを用いた数値実験により,制約が有効であることを実証した。 さらに、MISTは一般的な10のベンチマークデータセットのほとんどに対して、最先端のディープクラスタリング手法よりも優れている。

We consider the scenario of deep clustering, in which the available prior knowledge is limited. In this scenario, few existing state-of-the-art deep clustering methods can perform well for both non-complex topology and complex topology datasets. To address the problem, we propose a constraint utilizing symmetric InfoNCE, which helps an objective of deep clustering method in the scenario train the model so as to be efficient for not only non-complex topology but also complex topology datasets. Additionally, we provide several theoretical explanations of the reason why the constraint can enhances performance of deep clustering methods. To confirm the effectiveness of the proposed constraint, we introduce a deep clustering method named MIST, which is a combination of an existing deep clustering method and our constraint. Our numerical experiments via MIST demonstrate that the constraint is effective. In addition, MIST outperforms other state-of-the-art deep clustering methods for most of the commonly used ten benchmark datasets.
翻訳日:2023-03-07 16:23:39 公開日:2023-03-06
# DeCap: テキストオンリートレーニングによるゼロショットキャプションのためのCLIPレイテンシのデコード

DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only Training ( http://arxiv.org/abs/2303.03032v1 )

ライセンス: Link先を確認
Wei Li, Linchao Zhu, Longyin Wen, Yi Yang(参考訳) 大規模事前訓練型マルチモーダルモデル(例えばCLIP)は、多くの識別タスクにおいて強力なゼロショット転送能力を示す。 ゼロショット画像条件付きテキスト生成タスクへの適応が注目されている。 先行技術によるゼロショットキャプションへのアプローチは、既存の大規模言語モデル(gpt-2など)を利用するか、エンコーダ-デコーダネットワークをエンドツーエンドで事前トレーニングする。 本研究では,ゼロショットキャプションのための単純なフレームワークDeCapを提案する。 軽量な視覚認識言語デコーダを提案する。 このデコーダはデータ効率と計算効率の両方です。 1) 学習にはテキストデータのみが必要であり, ペアデータ収集の負担が軽減される。 2) エンドツーエンドのトレーニングは必要ありません。 テキストのみのデータでトレーニングすると、デコーダは、オフセットクリップエンコーダから抽出されたテキスト埋め込みをプレフィックス埋め込みとして取り出す。 課題は、デコーダはテキストコーパスでトレーニングされるが、推論の段階では、視覚入力に基づいてキャプションを生成する必要があることである。 マルチモーダルコントラストモデルでは, 視覚的な埋め込みを接頭辞の埋め込みとして直接行うことを防止するために, モダリティギャップの問題が広く見受けられる。 モダリティギャップを低減するためのトレーニングフリーメカニズムを提案する。 視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。 プロジェクテッド埋め込みをプレフィックス埋め込みとして、デコーダは視覚入力と一致する高品質な記述を生成する。 実験の結果、DeCapは通常の画像キャプションベンチマーク、すなわちMSCOCOとNoCapsで、他のゼロショットキャプション法や未ペアキャプション法よりも優れていることが示された。

Large-scale pre-trained multi-modal models (e.g., CLIP) demonstrate strong zero-shot transfer capability in many discriminative tasks. Their adaptation to zero-shot image-conditioned text generation tasks has drawn increasing interest. Prior arts approach to zero-shot captioning by either utilizing the existing large language models (e.g., GPT-2) or pre-training the encoder-decoder network in an end-to-end manner. In this work, we propose a simple framework, named DeCap, for zero-shot captioning. We introduce a lightweight visual-aware language decoder. This decoder is both data-efficient and computation-efficient: 1) it only requires the text data for training, easing the burden on the collection of paired data. 2) it does not require end-to-end training. When trained with text-only data, the decoder takes the text embedding extracted from the off-the-shelf CLIP encoder as a prefix embedding. The challenge is that the decoder is trained on the text corpus but at the inference stage, it needs to generate captions based on visual inputs. The modality gap issue is widely observed in multi-modal contrastive models that prevents us from directly taking the visual embedding as the prefix embedding. We propose a training-free mechanism to reduce the modality gap. We project the visual embedding into the CLIP text embedding space, while the projected embedding retains the information of the visual input. Taking the projected embedding as the prefix embedding, the decoder generates high-quality descriptions that match the visual input. The experiments show that DeCap outperforms other zero-shot captioning methods and unpaired captioning methods on the typical image captioning benchmarks, i.e., MSCOCO and NoCaps.
翻訳日:2023-03-07 16:23:25 公開日:2023-03-06
# RQAT-INR:ニューラル画像圧縮の改善

RQAT-INR: Improved Implicit Neural Image Compression ( http://arxiv.org/abs/2303.03028v1 )

ライセンス: Link先を確認
Bharath Bhushan Damodaran, Muhammet Balcilar, Franck Galpin, and Pierre Hellier(参考訳) AVC、HEVC、VVCのような数十年にわたる伝統的なコーデックと比較して、競争力や圧縮速度が向上する可能性があるため、画像圧縮やビデオ圧縮のための深い変分オートエンコーダは近年大きな注目を集めている。 しかし、複雑さとエネルギー消費のため、これらのアプローチは産業における実践的な利用には程遠い。 最近では、暗黙的神経表現(INR)ベースのコーデックが出現し、復号法における古典的アプローチに比べて複雑さとエネルギー使用量が減っている。 しかし、彼らのパフォーマンスは現在の最先端の手法と同等ではない。 本研究では,まず,INRベースの画像コーデックがVAEベースのアプローチよりも複雑性が低いことを示すとともに,INRベースの画像コーデックと性能改善ベースラインモデルに対して,大きなマージンでいくつかの改善を提案する。

Deep variational autoencoders for image and video compression have gained significant attraction in the recent years, due to their potential to offer competitive or better compression rates compared to the decades long traditional codecs such as AVC, HEVC or VVC. However, because of complexity and energy consumption, these approaches are still far away from practical usage in industry. More recently, implicit neural representation (INR) based codecs have emerged, and have lower complexity and energy usage to classical approaches at decoding. However, their performances are not in par at the moment with state-of-the-art methods. In this research, we first show that INR based image codec has a lower complexity than VAE based approaches, then we propose several improvements for INR-based image codec and outperformed baseline model by a large margin.
翻訳日:2023-03-07 16:22:56 公開日:2023-03-06
# Bures-Wasserstein 損失を学習した線形生成ネットワークの臨界点と収束解析

Critical Points and Convergence Analysis of Generative Deep Linear Networks Trained with Bures-Wasserstein Loss ( http://arxiv.org/abs/2303.03027v1 )

ライセンス: Link先を確認
Pierre Br\'echet, Katerina Papagiannouli, Jing An, Guido Mont\'ufar(参考訳) 我々は、bures-wasserstein距離で訓練された共分散行列の深い行列分解モデルを考える。 最近の研究は、過パラメータ化低ランク行列近似の最適化問題の研究において重要な進歩を遂げているが、判別的設定と正方形損失に重点が置かれている。 対照的に、このモデルは別の興味深いタイプの損失を考え、生成的設定と結びつける。 我々は、ランク境界行列の空間上のbures-wasserstein距離の臨界点と最小点を特徴付ける。 低ランク行列の場合、この損失のヘシアンは理論的に爆発し、オプティミザトン法の収束を分析するのに挑戦する。 有限ステップサイズ勾配降下に対する損失および収束結果の滑らかな摂動バージョンを用いて,初期重み付けに対する一定の仮定下での勾配流の収束結果を確立する。

We consider a deep matrix factorization model of covariance matrices trained with the Bures-Wasserstein distance. While recent works have made important advances in the study of the optimization problem for overparametrized low-rank matrix approximation, much emphasis has been placed on discriminative settings and the square loss. In contrast, our model considers another interesting type of loss and connects with the generative setting. We characterize the critical points and minimizers of the Bures-Wasserstein distance over the space of rank-bounded matrices. For low-rank matrices the Hessian of this loss can theoretically blow up, which creates challenges to analyze convergence of optimizaton methods. We establish convergence results for gradient flow using a smooth perturbative version of the loss and convergence results for finite step size gradient descent under certain assumptions on the initial weights.
翻訳日:2023-03-07 16:22:41 公開日:2023-03-06
# 競合潜在変数によるエネルギーモデル案内

Guiding Energy-based Models via Contrastive Latent Variables ( http://arxiv.org/abs/2303.03023v1 )

ライセンス: Link先を確認
Hankook Lee, Jongheon Jeong, Sejun Park, Jinwoo Shin(参考訳) エネルギーベースモデル(ebm)は、明示的な密度とアーキテクチャの柔軟性の両方を提供する一般的な生成フレームワークであるが、それらはしばしば不安定で時間がかかるため、トレーニングは困難である。 近年,mcmcサンプリングにおける発散性向上や安定化等,様々な訓練手法が開発されているが,世代品質の面ではebmsとgansのような他の生成フレームワークとの間には大きなギャップがあることが多い。 本稿では,コントラスト表現学習(CRL)によるESM改善のための新しい効果的なフレームワークを提案する。 具体的には、コントラスト法によって学習された表現を真の潜在変数として考える。 この対照的な潜在変数は、ebmがデータ構造をよりよく理解するように誘導するので、ebmトレーニングを大幅に改善し、加速することができる。 EBMとCRLのジョイントトレーニングを可能にするために,データのジョイント密度と対照的な潜在変数を学習するための潜在変数EMMの新しいクラスを設計する。 提案手法は,より高速でメモリ効率のよいトレーニングでも,先行技術であるebm法(変分オートエンコーダや拡散技術など)と比較して低いfidスコアが得られることを示した。 また, 条件付き学習がなくても, 潜在変数ebmの条件付きおよび構成的生成能力が付加的な利点として示される。 コードはhttps://github.com/hankook/clelで入手できる。

An energy-based model (EBM) is a popular generative framework that offers both explicit density and architectural flexibility, but training them is difficult since it is often unstable and time-consuming. In recent years, various training techniques have been developed, e.g., better divergence measures or stabilization in MCMC sampling, but there often exists a large gap between EBMs and other generative frameworks like GANs in terms of generation quality. In this paper, we propose a novel and effective framework for improving EBMs via contrastive representation learning (CRL). To be specific, we consider representations learned by contrastive methods as the true underlying latent variable. This contrastive latent variable could guide EBMs to understand the data structure better, so it can improve and accelerate EBM training significantly. To enable the joint training of EBM and CRL, we also design a new class of latent-variable EBMs for learning the joint density of data and the contrastive latent variable. Our experimental results demonstrate that our scheme achieves lower FID scores, compared to prior-art EBM methods (e.g., additionally using variational autoencoders or diffusion techniques), even with significantly faster and more memory-efficient training. We also show conditional and compositional generation abilities of our latent-variable EBMs as their additional benefits, even without explicit conditional training. The code is available at https://github.com/hankook/CLEL.
翻訳日:2023-03-07 16:22:27 公開日:2023-03-06
# NxPlain: 潜在概念の発見のためのWebベースのツール

NxPlain: Web-based Tool for Discovery of Latent Concepts ( http://arxiv.org/abs/2303.03019v1 )

ライセンス: Link先を確認
Fahim Dalvi and Nadir Durrani and Hassan Sajjad and Tamim Jaban and Musab Husaini and Ummar Abbas(参考訳) さまざまな領域におけるディープニューラルネットワークの増殖は、モデルのパフォーマンスと同じくらい公平さと信頼が重要である場合において、これらのモデルの解釈可能性の必要性が高まっている。 多くの独立した仕事が行われています 一 言語的及び非言語的知識がこれらのモデルで何を学ぶかを分析すること、及び 二 入力の健全な部分を強調すること。 提案するNxPlainは,潜在概念を用いたモデル予測を記述したWebアプリケーションである。 NxPlainは、深いNLPモデルで学んだ潜在概念を発見し、モデルで学んだ知識の解釈を提供し、使用した概念に基づいてその予測を説明する。 このアプリケーションでは、潜在概念を直感的な順序で閲覧でき、グローバルコーパスレベルのビューとローカルな文レベルのビューで、最も有意義な概念を効率的にスキャンすることができる。 このツールは、デバッグ、モデルのバイアスの解き放ち、モデルのスプリアス相関を強調するのに役立ちます。 ホストされたデモは、https://nxplain.qcri.orgで公開されている。

The proliferation of deep neural networks in various domains has seen an increased need for the interpretability of these models, especially in scenarios where fairness and trust are as important as model performance. A lot of independent work is being carried out to: i) analyze what linguistic and non-linguistic knowledge is learned within these models, and ii) highlight the salient parts of the input. We present NxPlain, a web application that provides an explanation of a model's prediction using latent concepts. NxPlain discovers latent concepts learned in a deep NLP model, provides an interpretation of the knowledge learned in the model, and explains its predictions based on the used concepts. The application allows users to browse through the latent concepts in an intuitive order, letting them efficiently scan through the most salient concepts with a global corpus level view and a local sentence-level view. Our tool is useful for debugging, unraveling model bias, and for highlighting spurious correlations in a model. A hosted demo is available here: https://nxplain.qcri.org.
翻訳日:2023-03-07 16:22:02 公開日:2023-03-06
# 不均衡分類のためのデータ前処理手法のベンチマーク

Benchmark of Data Preprocessing Methods for Imbalanced Classification ( http://arxiv.org/abs/2303.03094v1 )

ライセンス: Link先を確認
Radovan Halu\v{s}ka, Jan Brabec and Tom\'a\v{s} Kom\'arek(参考訳) 厳しいクラスの不均衡は、サイバーセキュリティにおける機械学習を困難にする主な条件の1つである。 近年,データセットのプリプロセッシング手法が数多く導入されている。 これらの方法は、トレーニングデータセットをオーバーサンプリング、アンダーサンプリング、あるいは両方の組み合わせで修正し、このデータセットでトレーニングされた分類器の予測性能を改善する。 これらの手法はサイバーセキュリティに時々使用されるが、様々なサイバーセキュリティ問題に対するパフォーマンスを比較する包括的で偏りのないベンチマークは欠落している。 本稿では,6つのサイバーセキュリティデータセットと17のパブリック不均衡データセットを対象とした16の事前処理手法のベンチマークを提案する。 我々は、複数のハイパーパラメータ構成下でメソッドをテストし、AutoMLシステムを使用して、事前処理されたデータセット上の分類器を訓練する。 また, 現実のサイバーセキュリティシステムにおいて, 適切な性能評価手法を用いて, 実用的な性能評価を行う。 私たちの研究の主な発見は 1) ほとんどの場合, 分類性能を向上させるデータ前処理方法が存在する。 2) 何もしないというベースラインアプローチは、ベンチマークのメソッドの大部分を上回っていた。 3)オーバーサンプリング法は一般にアンダーサンプリング法より優れている。 4) 最も重要な性能向上は標準smoteアルゴリズムによってもたらされるものであり、より複雑な手法は、しばしば計算性能が悪化するコストで主に漸進的な改善を提供する。

Severe class imbalance is one of the main conditions that make machine learning in cybersecurity difficult. A variety of dataset preprocessing methods have been introduced over the years. These methods modify the training dataset by oversampling, undersampling or a combination of both to improve the predictive performance of classifiers trained on this dataset. Although these methods are used in cybersecurity occasionally, a comprehensive, unbiased benchmark comparing their performance over a variety of cybersecurity problems is missing. This paper presents a benchmark of 16 preprocessing methods on six cybersecurity datasets together with 17 public imbalanced datasets from other domains. We test the methods under multiple hyperparameter configurations and use an AutoML system to train classifiers on the preprocessed datasets, which reduces potential bias from specific hyperparameter or classifier choices. Special consideration is also given to evaluating the methods using appropriate performance measures that are good proxies for practical performance in real-world cybersecurity systems. The main findings of our study are: 1) Most of the time, a data preprocessing method that improves classification performance exists. 2) Baseline approach of doing nothing outperformed a large portion of methods in the benchmark. 3) Oversampling methods generally outperform undersampling methods. 4) The most significant performance gains are brought by the standard SMOTE algorithm and more complicated methods provide mainly incremental improvements at the cost of often worse computational performance.
翻訳日:2023-03-07 16:16:01 公開日:2023-03-06
# 環境不変な線形最小正方形

Environment Invariant Linear Least Squares ( http://arxiv.org/abs/2303.03092v1 )

ライセンス: Link先を確認
Jianqing Fan, Cong Fang, Yihong Gu, Tong Zhang(参考訳) 本稿では,複数の実験環境からのデータを収集する線形回帰モデルを提案する。 応答変数と共変量の合同分布は異なる環境にまたがるが、未知の重要な変数のセットが与えられた場合の条件付き期待値は、環境間で不変である。 このような統計モデルは内在性、因果推論、移動学習の問題と関連している。 その背後にある動機は、予測と帰属という目標が、真のパラメータと重要な変数集合を推定することの本質であることを示している。 我々は、上記の条件付き予測不変構造と異なる環境間の不均一性を利用して、真パラメータを決定する線形最小二乗の多重環境版である、新しい環境不変線形最小二乗関数(EILLS)を構築する。 提案手法は, 構造的知識を必要とせず, 最小の同定条件下で真のパラメータを同定できる。 我々は、スプリアス変数の存在下でのEILLS推定器の推定誤差に基づいて、非漸近$\ell_2$エラー境界を確立する。 さらに,eills推定器は内在的変数をすべて排除でき,$\ell_0$ ペナル化eills推定器は高次元環境において変数選択一貫性を実現できることを示した。 これらの非漸近的な結果は、EILLS推定器のサンプル効率と、事前の構造知識のないアルゴリズム的な方法で内在性の呪いを回避する能力を示している。

This paper considers a multiple environments linear regression model in which data from multiple experimental settings are collected. The joint distribution of the response variable and covariate may vary across different environments, yet the conditional expectation of $y$ given the unknown set of important variables are invariant across environments. Such a statistical model is related to the problem of endogeneity, causal inference, and transfer learning. The motivation behind it is illustrated by how the goals of prediction and attribution are inherent in estimating the true parameter and the important variable set. We construct a novel {\it environment invariant linear least squares (EILLS)} objective function, a multiple-environment version of linear least squares that leverages the above conditional expectation invariance structure and heterogeneity among different environments to determine the true parameter. Our proposed method is applicable without any additional structural knowledge and can identify the true parameter under a near-minimal identification condition. We establish non-asymptotic $\ell_2$ error bounds on the estimation error for the EILLS estimator in the presence of spurious variables. Moreover, we further show that the EILLS estimator is able to eliminate all endogenous variables and the $\ell_0$ penalized EILLS estimator can achieve variable selection consistency in high-dimensional regimes. These non-asymptotic results demonstrate the sample efficiency of the EILLS estimator and its capability to circumvent the curse of endogeneity in an algorithmic manner without any prior structural knowledge.
翻訳日:2023-03-07 16:15:44 公開日:2023-03-06
# 極端領域の回帰について

On Regression in Extreme Regions ( http://arxiv.org/abs/2303.03084v1 )

ライセンス: Link先を確認
Nathan Huet, Stephan Cl\'emen\c{c}on, Anne Sabourin(参考訳) 古典的な回帰問題では、実数値確率変数 $y$ の値は、確率ベクトル $x$ の観測に基づいて予測され、その値は $d\geq 1$ say で$\mathbb{r}^d$ となる。 統計学習問題は、ペア $(x,y)$ の独立コピーに基づく予測関数 $\hat{f}:\mathbb{r}^d\to \mathbb{r}$ を構築することにより、y$ は平均二乗意味で最小誤差で$\hat{f}(x)$ に近似される。 環境科学から金融や保険まで、様々な応用によって動機づけられ、ここでは極端な(すなわち非常に大きな)観察結果に対して特別な注意が払われる。 その希少性のため、(経験的)エラーに対して無視可能な方法で寄与し、経験的二次リスク最小化器の予測性能は、極端な地域では非常に貧弱である。 本稿では,極域における回帰の一般的な枠組みを開発する。 y$ が与えられる x$ の条件分布は、重み付き確率分布の非パラメトリッククラスに属すると仮定される。 次に,入力空間の極端領域における予測性能を適切に要約するために,リスクの漸近的概念を調整可能であることを示す。 また、この「極度リスク」の経験的かつ非漸近的なバージョンの最小化は、最も大きな観測のごく一部に基づいて、優れた一般化能力を持つ回帰関数を生成することも証明されている。 また、提案手法の妥当性に関する強い実証的証拠を提供する数値結果を表示する。

In the classic regression problem, the value of a real-valued random variable $Y$ is to be predicted based on the observation of a random vector $X$, taking its values in $\mathbb{R}^d$ with $d\geq 1$ say. The statistical learning problem consists in building a predictive function $\hat{f}:\mathbb{R}^d\to \mathbb{R}$ based on independent copies of the pair $(X,Y)$ so that $Y$ is approximated by $\hat{f}(X)$ with minimum error in the mean-squared sense. Motivated by various applications, ranging from environmental sciences to finance or insurance, special attention is paid here to the case of extreme (i.e. very large) observations $X$. Because of their rarity, they contribute in a negligible manner to the (empirical) error and the predictive performance of empirical quadratic risk minimizers can be consequently very poor in extreme regions. In this paper, we develop a general framework for regression in the extremes. It is assumed that $X$'s conditional distribution given $Y$ belongs to a non parametric class of heavy-tailed probability distributions. It is then shown that an asymptotic notion of risk can be tailored to summarize appropriately predictive performance in extreme regions of the input space. It is also proved that minimization of an empirical and non asymptotic version of this 'extreme risk', based on a fraction of the largest observations solely, yields regression functions with good generalization capacity. In addition, numerical results providing strong empirical evidence of the relevance of the approach proposed are displayed.
翻訳日:2023-03-07 16:15:18 公開日:2023-03-06
# 射影的横磁場イジングモデルによる復号

Decoding the Projective Transverse Field Ising Model ( http://arxiv.org/abs/2303.03081v1 )

ライセンス: Link先を確認
Felix Roser, Hans Peter B\"uchler, and Nicolai Lang(参考訳) 離散量子回路における非可換射影測定の競合は、絡み合い遷移を引き起こす。 初期記憶された量子情報が時間進化を生き残る状態と、測定によって量子情報が破壊される状態とを分離する。 本稿では,その量子誤り訂正符号としての機能に着目した,射影的横場イジングモデルについて検討する。 1つのタイプの測定をエラーとして、もう1つのタイプの計測をシンドロームとして解釈する。 初期エンタングル状態でエンコードされた量子情報が確実に検索できるような有限のしきい値が存在することを実証する。 特に,誤り訂正しきい値がエンタングルメント遷移と異なることを示すために,最大確率デコーダを実装した。 これは、量子情報は射影力学によって保護されるが、シンドローム測定では取り戻せない有限のレジームが存在することを意味する。

The competition between non-commuting projective measurements in discrete quantum circuits can give rise to entanglement transitions. It separates a regime where initially stored quantum information survives the time evolution from a regime where the measurements destroy the quantum information. Here we study one such system - the projective transverse field Ising model - with focus on its capabilities as a quantum error correction code. The idea is to interpret one type of measurements as errors and the other type as syndrome measurements. We demonstrate that there is a finite threshold below which quantum information encoded in an initially entangled state can be retrieved reliably. In particular, we implement the maximum likelihood decoder to demonstrate that the error correction threshold is distinct from the entanglement transition. This implies that there is a finite regime where quantum information is protected by the projective dynamics, but cannot be retrieved by using syndrome measurements.
翻訳日:2023-03-07 16:14:48 公開日:2023-03-06
# 多次元非線形ホークス過程のためのニューラルネットワークモデル

A neural network based model for multi-dimensional nonlinear Hawkes processes ( http://arxiv.org/abs/2303.03073v1 )

ライセンス: Link先を確認
Sobin Joseph and Shashi Jain(参考訳) 本稿では非線形ホークスプロセスに適合するニューラルネットワークに基づく非パラメトリック手法である非線形ホークスプロセスのためのニューラルネットワーク(NNNH)を提案する。 本手法は,イベントが相互引用パターンと抑制パターンの両方を示す大規模データセットの解析に好適である。 nnnhアプローチは、フィードフォワードニューラルネットワークを用いた非線形ホークス過程の個々のカーネルと基本強度をモデル化し、log-likelihood関数を最大化することでネットワークのパラメータを協調的に調整する。 本稿では,最適パラメータの探索に確率的勾配降下法を応用し,勾配の偏りのない推定器と効率的な計算法を提案する。 シミュレーションおよび実世界のデータの数値実験により,本手法の柔軟性と精度を実証し,最先端の手法と比較する。 本結果は,非線形ホークス過程の複雑さを正確に把握するNNNH法の有効性を強調した。

This paper introduces the Neural Network for Nonlinear Hawkes processes (NNNH), a non-parametric method based on neural networks to fit nonlinear Hawkes processes. Our method is suitable for analyzing large datasets in which events exhibit both mutually-exciting and inhibitive patterns. The NNNH approach models the individual kernels and the base intensity of the nonlinear Hawkes process using feed forward neural networks and jointly calibrates the parameters of the networks by maximizing the log-likelihood function. We utilize Stochastic Gradient Descent to search for the optimal parameters and propose an unbiased estimator for the gradient, as well as an efficient computation method. We demonstrate the flexibility and accuracy of our method through numerical experiments on both simulated and real-world data, and compare it with state-of-the-art methods. Our results highlight the effectiveness of the NNNH method in accurately capturing the complexities of nonlinear Hawkes processes.
翻訳日:2023-03-07 16:14:35 公開日:2023-03-06
# 強化学習に基づく騒音環境の自己学習と状態スタッキング技術

Reinforcement Learning Based Self-play and State Stacking Techniques for Noisy Air Combat Environment ( http://arxiv.org/abs/2303.03068v1 )

ライセンス: Link先を確認
Ahmet Semih Tasbas, Safa Onur Sahin, Nazim Kemal Ure(参考訳) 強化学習(rl)は、最近、複雑な問題を解決する強力な手段として証明され、いくつかの挑戦的なアプリケーションで人間のパフォーマンスを超えている。 このことは、RLアルゴリズムが長年研究されてきた自律空気戦闘問題に利用できることを示している。 空気戦闘の複雑さは、攻撃的な近距離演習とアジャイルな敵の行動から生じる。 これらの複雑さに加えて、センサーエラーによる現実のシナリオにも不確実性があり、敵の実際の位置を推定できない。 この場合、自律飛行はノイズの多い環境でも成功すべきである。 そこで,本研究では,エージェントにうるさく観察する航空戦闘シミュレーションを考案し,航空戦闘問題をさらに困難にした。 そこで, 雑音低減手法として, 雑音下rl環境の状態重ね合わせ手法を提案する。 提案手法は, 提案手法は, 高い騒音レベルにおいて, 性能向上がより顕著である点において, 勝利率の点において, ベースラインアルゴリズムを著しく上回っている。 また,トレーニングエージェントの凍結コピーで定期的に敵を更新することにより,自己プレイ方式をトレーニングプロセスに組み込む。 このようにして、訓練エージェントは、より賢い戦略で敵に航空戦闘シミュレーションを行い、エージェントの性能と堅牢性を向上させる。 シミュレーションでは,従来のRLトレーニングと比較して,自己演奏方式が重要なパフォーマンス向上をもたらすことを示した。

Reinforcement learning (RL) has recently proven itself as a powerful instrument for solving complex problems and even surpassed human performance in several challenging applications. This signifies that RL algorithms can be used in the autonomous air combat problem, which has been studied for many years. The complexity of air combat arises from aggressive close-range maneuvers and agile enemy behaviors. In addition to these complexities, there may be uncertainties in real-life scenarios due to sensor errors, which prevent estimation of the actual position of the enemy. In this case, autonomous aircraft should be successful even in the noisy environments. In this study, we developed an air combat simulation, which provides noisy observations to the agents, therefore, make the air combat problem even more challenging. Thus, we present a state stacking method for noisy RL environments as a noise reduction technique. In our extensive set of experiments, the proposed method significantly outperforms the baseline algorithms in terms of the winning ratio, where the performance improvement is even more pronounced in the high noise levels. In addition, we incorporate a self-play scheme to our training process by periodically updating the enemy with a frozen copy of the training agent. By this way, the training agent performs air combat simulations to an enemy with smarter strategies, which improves the performance and robustness of the agents. In our simulations, we demonstrate that the self-play scheme provides important performance gains compared to the classical RL training.
翻訳日:2023-03-07 16:14:20 公開日:2023-03-06
# MOISST:時空間キャリブレーションのための不規則シーンのマルチモーダル最適化

MOISST: Multi-modal Optimization of Implicit Scene for SpatioTemporal calibration ( http://arxiv.org/abs/2303.03056v1 )

ライセンス: Link先を確認
Quentin Herau, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur and C\'edric Demonceaux(参考訳) 近年の自動運転の進歩とLiDARのコスト削減により、マルチモーダルセンサーシステムの利用が増加している。 しかし,様々な補足センサによって提供される情報を活用するためには,正確な校正が必要である。 コンピュータグラフィックスと暗黙のボリュームシーン表現の最近の進歩を利用して、マルチセンサ空間と時間的キャリブレーションの問題に取り組む。 暗黙的モデル最適化の新しい定式化により、放射計および幾何計測に基づくシーン表現とともにキャリブレーションパラメータを共同で最適化できる。 本手法は, 未制御・非構造都市環境におけるデータから, 高精度でロバストなキャリブレーションを可能にし, 既存のキャリブレーションソリューションよりもスケーラブルである。 提案手法の精度とロバスト性について,運転シナリオで典型的に発生する都市シーンで実証する。

With the recent advances in autonomous driving and the decreasing cost of LiDARs, the use of multi-modal sensor systems is on the rise. However, in order to make use of the information provided by a variety of complimentary sensors, it is necessary to accurately calibrate them. We take advantage of recent advances in computer graphics and implicit volumetric scene representation to tackle the problem of multi-sensor spatial and temporal calibration. Thanks to a new formulation of the implicit model optimization, we are able to jointly optimize calibration parameters along with scene representation based on radiometric and geometric measurements. Our method enables accurate and robust calibration from data captured in uncontrolled and unstructured urban environments, making our solution more scalable than existing calibration solutions. We demonstrate the accuracy and robustness of our method in urban scenes typically encountered in autonomous driving scenarios.
翻訳日:2023-03-07 16:13:58 公開日:2023-03-06
# 拡大次元空間における低離散サンプリング:粒子群最適化のための加速法

Low-discrepancy Sampling in the Expanded Dimensional Space: An Acceleration Technique for Particle Swarm Optimization ( http://arxiv.org/abs/2303.03055v1 )

ライセンス: Link先を確認
Feng Wu, Yuelin Zhao, Jianhua Pang, Jun Yan, and Wanxie Zhong(参考訳) ランダムサンプリングと比較すると,低差分サンプリングの方が探索空間の被覆に有効である。 しかし, 粒子群最適化 (pso) に対する低分散サンプルの影響が正か負かは, 既存の研究で明らかに述べられていない。 ニダーレイターの定理を用いて、この研究はPSOの誤差解析を完了し、各反復におけるPSOの誤差境界は拡張次元空間におけるサンプル集合の分散に依存することを示した。 この誤差解析に基づいて,拡張次元空間における低差分サンプリングによるPSO型アルゴリズムの高速化手法を提案する。 加速度法は、拡張次元空間においてランダムサンプリングに比べて分散が小さい低分散サンプル集合を生成することができ、また、各イテレーションにおける誤差を低減し、収束速度を向上できる。 高速化手法を標準PSOと総合学習粒子群最適化と組み合わせ,改良アルゴリズムの性能を元のアルゴリズムと比較した。 実験の結果, 2つの改良アルゴリズムは同じ精度で収束速度が著しく速いことがわかった。

Compared with random sampling, low-discrepancy sampling is more effective in covering the search space. However, the existing research cannot definitely state whether the impact of a low-discrepancy sample on particle swarm optimization (PSO) is positive or negative. Using Niderreiter's theorem, this study completes an error analysis of PSO, which reveals that the error bound of PSO at each iteration depends on the dispersion of the sample set in an expanded dimensional space. Based on this error analysis, an acceleration technique for PSO-type algorithms is proposed with low-discrepancy sampling in the expanded dimensional space. The acceleration technique can generate a low-discrepancy sample set with a smaller dispersion, compared with a random sampling, in the expanded dimensional space; it also reduces the error at each iteration, and hence improves the convergence speed. The acceleration technique is combined with the standard PSO and the comprehensive learning particle swarm optimization, and the performance of the improved algorithm is compared with the original algorithm. The experimental results show that the two improved algorithms have significantly faster convergence speed under the same accuracy requirement.
翻訳日:2023-03-07 16:13:43 公開日:2023-03-06
# プライバシ保護によるテキスト書き直しによる感性データのクラウドソーシング

Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting ( http://arxiv.org/abs/2303.03053v1 )

ライセンス: Link先を確認
Nina Mouhammad, Johannes Daxenberger, Benjamin Schiller, Ivan Habernal(参考訳) NLPのほとんどのタスクはラベル付きデータを必要とする。 データラベリングは、スケーラビリティの理由から、クラウドソーシングプラットフォームで行われることが多い。 しかし、公開プラットフォーム上でのデータ公開は、プライバシー関連の情報が含まれていない場合にのみ行うことができる。 テキストデータは、人名や場所などの機密情報を含むことが多い。 本研究では,個人識別可能な情報 (PII) の削除と差分プライバシー (DP) の書き換えにより,クラウドソーシングにプライバシ関連情報を用いたテキストを利用できるかを検討する。 クラウドソーシング前のdpリライトはプライバシを保ちながら,特定のタスクやデータのラベル品質を向上できることが分かっています。 PII除去はすべての検査作業において良好なラベル品質をもたらすが、プライバシー保証はない。

Most tasks in NLP require labeled data. Data labeling is often done on crowdsourcing platforms due to scalability reasons. However, publishing data on public platforms can only be done if no privacy-relevant information is included. Textual data often contains sensitive information like person names or locations. In this work, we investigate how removing personally identifiable information (PII) as well as applying differential privacy (DP) rewriting can enable text with privacy-relevant information to be used for crowdsourcing. We find that DP-rewriting before crowdsourcing can preserve privacy while still leading to good label quality for certain tasks and data. PII-removal led to good label quality in all examined tasks, however, there are no privacy guarantees given.
翻訳日:2023-03-07 16:13:25 公開日:2023-03-06
# マスク画像は、ロバストな微調整のための偽のサンプルである

Masked Images Are Counterfactual Samples for Robust Fine-tuning ( http://arxiv.org/abs/2303.03052v1 )

ライセンス: Link先を確認
Yao Xiao, Ziyi Tang, Pengxu Wei, Cong Liu, Liang Lin(参考訳) ディープラーニングモデルは、トレーニングデータとテストデータとの分散シフトによって挑戦される。 近年,各種データに事前学習した大規模モデルは,分布変化に対して前例のない堅牢性を示した。 しかし、これらのモデルの微調整は、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。 このトレードオフに対処する既存の方法は、OOD堅牢性の問題に明示的に対処するものではない。 本稿では, 上記の問題に対する因果解析に基づいて, マスク画像を対物サンプルとして用い, 微調整モデルの堅牢性を向上させる新しい微調整法を提案する。 具体的には,クラスアクティベーションマップに基づくイメージのセマンティクス関連パッチあるいはセマンティクス関連パッチのどちらかをマスクして,スプリアス相関を破って,他のイメージからのパッチでマスクパッチを補充する。 得られた反事実サンプルは、事前訓練されたモデルで特徴ベースの蒸留に使用される。 広汎な実験により,提案したマスク画像による微調整が,OOD性能の従来の手法を上回り,IDとOODとのトレードオフを向上できることを確認した。 私たちのコードは公開されます。

Deep learning models are challenged by the distribution shift between the training data and test data. Recently, the large models pre-trained on diverse data demonstrate unprecedented robustness to various distribution shifts. However, fine-tuning on these models can lead to a trade-off between in-distribution (ID) performance and out-of-distribution (OOD) robustness. Existing methods for tackling this trade-off do not explicitly address the OOD robustness problem. In this paper, based on causal analysis on the aforementioned problems, we propose a novel fine-tuning method, which use masked images as counterfactual samples that help improving the robustness of the fine-tuning model. Specifically, we mask either the semantics-related or semantics-unrelated patches of the images based on class activation map to break the spurious correlation, and refill the masked patches with patches from other images. The resulting counterfactual samples are used in feature-based distillation with the pre-trained model. Extensive experiments verify that regularizing the fine-tuning with the proposed masked images can achieve a better trade-off between ID and OOD, surpassing previous methods on the OOD performance. Our code will be publicly available.
翻訳日:2023-03-07 16:13:12 公開日:2023-03-06
# st-keys:歴史文書におけるキーワードスポッティングのための自己教師付きトランスフォーマー

ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents ( http://arxiv.org/abs/2303.03127v1 )

ライセンス: Link先を確認
Sana Khamekhem Jemni, Sourour Ammar, Mohamed Ali Souibgui, Yousri Kessentini, Abbas Cheddad(参考訳) 歴史的文書中のキーワードスポッティング(kws)は、デジタル化されたコレクションの初期探索のための重要なツールである。 今日では、最も効率的なKWS手法は、大量の注釈付きトレーニングデータを必要とする機械学習技術に依存している。 しかし、歴史写本の場合、訓練のための注釈付きコーパスが欠如している。 データの不足問題に対処するために,人間のアノテーションに頼らずに入力データの有用な表現を抽出するために,自己教師付き学習のメリットを調査し,それらの表現を下流タスクで利用する。 ラベル付きデータを必要としないマスク・アンド・予測パラダイムに基づく事前学習ステージである視覚トランスフォーマに基づくマスク付きオートエンコーダモデルであるst-keysを提案する。 微調整段階において、プリトレーニングされたエンコーダは、入力画像からの特徴埋め込みを改善するために微調整されたシアムニューラルネットワークモデルに統合される。 さらに,文字のピラミッドヒストグラム(PHOC)を用いた画像表現を改善し,テキスト属性に基づく画像の中間表現を作成し,活用する。 広く使用されている3つのベンチマークデータセット(Botany、Alvermann Konzilsprotokolle、George Washington)に対する徹底的な実験的評価では、提案手法は同一データセット上でトレーニングされた最先端の手法よりも優れている。

Keyword spotting (KWS) in historical documents is an important tool for the initial exploration of digitized collections. Nowadays, the most efficient KWS methods are relying on machine learning techniques that require a large amount of annotated training data. However, in the case of historical manuscripts, there is a lack of annotated corpus for training. To handle the data scarcity issue, we investigate the merits of the self-supervised learning to extract useful representations of the input data without relying on human annotations and then using these representations in the downstream task. We propose ST-KeyS, a masked auto-encoder model based on vision transformers where the pretraining stage is based on the mask-and-predict paradigm, without the need of labeled data. In the fine-tuning stage, the pre-trained encoder is integrated into a siamese neural network model that is fine-tuned to improve feature embedding from the input images. We further improve the image representation using pyramidal histogram of characters (PHOC) embedding to create and exploit an intermediate representation of images based on text attributes. In an exhaustive experimental evaluation on three widely used benchmark datasets (Botany, Alvermann Konzilsprotokolle and George Washington), the proposed approach outperforms state-of-the-art methods trained on the same datasets.
翻訳日:2023-03-07 16:06:49 公開日:2023-03-06
# IFAN:人間とNLPモデルのための説明可能性に基づくインタラクションフレームワーク

IFAN: An Explainability-Focused Interaction Framework for Humans and NLP Models ( http://arxiv.org/abs/2303.03124v1 )

ライセンス: Link先を確認
Edoardo Mosca, Daryna Dementieva, Tohid Ebrahim Ajdari, Maximilian Kummeth, Kirill Gringauz and Georg Groh(参考訳) 解釈可能性と人間の監視は、複雑なNLPモデルを現実世界のアプリケーションにデプロイする基本的な柱である。 しかし、説明可能性と人道的手法を適用するには、技術的熟練が必要である。 モデル理解と分析のための既存のツールキットにもかかわらず、人間のフィードバックを統合するオプションはまだ限られている。 NLPモデルとのリアルタイムな説明に基づくインタラクションフレームワークIFANを提案する。 IFANのインターフェースを通じて、ユーザーは選択したモデル説明に対してフィードバックを提供することができる。 本稿では,ヘイトスピーチ分類器の劣化を最小性能損失で抑制するシステムを提案する。 IFANはまた、モデル(とデータセット)を管理し、アクセス権を制御するビジュアルアドミンシステムとAPIも提供する。 デモはhttps://ifan.ml/で公開されている。

Interpretability and human oversight are fundamental pillars of deploying complex NLP models into real-world applications. However, applying explainability and human-in-the-loop methods requires technical proficiency. Despite existing toolkits for model understanding and analysis, options to integrate human feedback are still limited. We propose IFAN, a framework for real-time explanation-based interaction with NLP models. Through IFAN's interface, users can provide feedback to selected model explanations, which is then integrated through adapter layers to align the model with human rationale. We show the system to be effective in debiasing a hate speech classifier with minimal performance loss. IFAN also offers a visual admin system and API to manage models (and datasets) as well as control access rights. A demo is live at https://ifan.ml/
翻訳日:2023-03-07 16:06:26 公開日:2023-03-06
# ancillae または partial trace を持つ量子回路の単純完全等式理論

Simple Complete Equational Theories for Quantum Circuits with Ancillae or Partial Trace ( http://arxiv.org/abs/2303.03117v1 )

ライセンス: Link先を確認
Alexandre Cl\'ement, No\'e Delorme, Simon Perdrix, Renaud Vilmart(参考訳) 量子回路は量子コンピューティングにおいて何十年にもわたって普及してきたが、量子回路に関する最初の完全な方程式理論が最近導入されたばかりである。 完全性は、量子回路上の真の方程式が方程式理論から導出できることを保証する。 私たちの貢献は2つあります (i) 方程式理論を単純化し、いくつかの規則が残りの規則から導出できることを証明する。 特に、最も複雑な3つのうち2つが取り除かれ、3つ目はわずかに単純化されている。 (ii)完全等式理論をアンシラエまたはクビット廃棄の量子回路に拡張し、追加のワークスペースとハイブリッド量子計算を用いてそれぞれの量子計算を表現する。 より表現力のある設定で、残りの複雑なルールは大幅に単純化できることを示す。 表現型量子回路モデルのための単純で完全な方程式理論の開発は、量子回路を推論するための新しい道を開く。 回路最適化、ハードウェア制約の満足度、検証など、様々なコンパイルタスクに対する強力な公式な基盤を提供する。

Although quantum circuits have been ubiquitous for decades in quantum computing, the first complete equational theory for quantum circuits has only recently been introduced. Completeness guarantees that any true equation on quantum circuits can be derived from the equational theory. Our contribution is twofold: (i) We simplify this equational theory by proving that several rules can be derived from the remaining ones. In particular, two out of the three most intricate rules are removed, the third one being slightly simplified. (ii) We extend the complete equational theory to quantum circuits with ancillae or qubit discarding, to represent respectively quantum computations using an additional workspace, and hybrid quantum computations. We show that the remaining intricate rule can be greatly simplified in these more expressive settings. The development of simple and complete equational theories for expressive quantum circuit models opens new avenues for reasoning about quantum circuits. It provides strong formal foundations for various compiling tasks such as circuit optimisation, hardware constraint satisfaction and verification.
翻訳日:2023-03-07 16:06:13 公開日:2023-03-06
# 言語モデルのゼロショット機能構成性に向けて

Towards Zero-Shot Functional Compositionality of Language Models ( http://arxiv.org/abs/2303.03103v1 )

ライセンス: Link先を確認
Hangyeol Yu, Myeongho Jeong, Jamin Shin, Hyeongdon Moon, Juneyoung Park, Seungtaek Choi(参考訳) 大規模事前学習言語モデル(PLM)は,NLP分野において最も望ましい出発点となっている。 このような成功にもかかわらず、本稿では、PLMを用いた作業の現在のパラダイムは人間の知性をモデル化する重要な側面を無視している、と論じる。 機能的構成性 - 学習したタスクを構成する能力 - は、人間の知能の目印と見なされるAI(と他の多くの分野)の分野で長年の課題である。 バイリンガルの人物(英語とフランス語)は、英語の文書や要約を明示的にフランス語に翻訳することなく、直接フランス語の文章に英語の文書を要約することができる。 この分野のさらなる関心を必要とする重要なオープン問題である理由について議論する。 そして、現在のPLM(例えば、GPT-2とT5)は機能的構成性を持っておらず、人間レベルの一般化には程遠いことを示す。 最後に、言語モデルのゼロショット機能的構成性にフィールドを向かわせるいくつかの研究方向を提案する。

Large Pre-trained Language Models (PLM) have become the most desirable starting point in the field of NLP, as they have become remarkably good at solving many individual tasks. Despite such success, in this paper, we argue that current paradigms of working with PLMs are neglecting a critical aspect of modeling human intelligence: functional compositionality. Functional compositionality - the ability to compose learned tasks - has been a long-standing challenge in the field of AI (and many other fields) as it is considered one of the hallmarks of human intelligence. An illustrative example of such is cross-lingual summarization, where a bilingual person (English-French) could directly summarize an English document into French sentences without having to translate the English document or summary into French explicitly. We discuss why this matter is an important open problem that requires further attention from the field. Then, we show that current PLMs (e.g., GPT-2 and T5) don't have functional compositionality yet and it is far from human-level generalizability. Finally, we suggest several research directions that could push the field towards zero-shot functional compositionality of language models.
翻訳日:2023-03-07 16:05:17 公開日:2023-03-06
# CRIN:遠心基準フレームによる回転不変点雲解析と回転推定

CRIN: Rotation-Invariant Point Cloud Analysis and Rotation Estimation via Centrifugal Reference Frame ( http://arxiv.org/abs/2303.03101v1 )

ライセンス: Link先を確認
Yujing Lou, Zelin Ye, Yang You, Nianjuan Jiang, Jiangbo Lu, Weiming Wang, Lizhuang Ma, Cewu Lu(参考訳) 最近の様々な方法では、点の入力座標を相対距離と角度に置き換え、回転不変な3次元ディープラーニングを実装しようとしている。 これらの低レベルの特徴が不完全であるため、グローバルな情報を失う費用を負担しなければならない。 本稿では,CRIN,すなわち遠心回転不変ネットワークを提案する。 CRINは点の座標を直接入力として取り、遠心基準フレームを介して局所点を回転不変表現に変換する。 遠心基準フレームの支援により、各点が離散回転に対応し、回転の情報は暗黙的に点特徴に格納される。 残念ながら、離散点は回転空間全体を記述するには程遠い。 さらに,点に基づく3次元回転の連続分布を導入する。 さらに,回転に不変な点をサンプリングするための注意に基づくダウンサンプリング戦略を提案する。 最後に、サンプル点間の長距離依存性を強化するための関係モジュールを採用し、教師なし回転推定のためのアンカーポイントを予測する。 広範な実験により, 回転不変性を達成し, 物体の回転を正確に推定し, 回転誘導分類と部分分割に関する最新結果を得た。 アブレーション研究はネットワーク設計の有効性を検証する。

Various recent methods attempt to implement rotation-invariant 3D deep learning by replacing the input coordinates of points with relative distances and angles. Due to the incompleteness of these low-level features, they have to undertake the expense of losing global information. In this paper, we propose the CRIN, namely Centrifugal Rotation-Invariant Network. CRIN directly takes the coordinates of points as input and transforms local points into rotation-invariant representations via centrifugal reference frames. Aided by centrifugal reference frames, each point corresponds to a discrete rotation so that the information of rotations can be implicitly stored in point features. Unfortunately, discrete points are far from describing the whole rotation space. We further introduce a continuous distribution for 3D rotations based on points. Furthermore, we propose an attention-based down-sampling strategy to sample points invariant to rotations. A relation module is adopted at last for reinforcing the long-range dependencies between sampled points and predicts the anchor point for unsupervised rotation estimation. Extensive experiments show that our method achieves rotation invariance, accurately estimates the object rotation, and obtains state-of-the-art results on rotation-augmented classification and part segmentation. Ablation studies validate the effectiveness of the network design.
翻訳日:2023-03-07 16:04:55 公開日:2023-03-06
# リプシッツニューラルネットワークに関する統一代数的視点

A Unified Algebraic Perspective on Lipschitz Neural Networks ( http://arxiv.org/abs/2303.03169v1 )

ライセンス: Link先を確認
Alexandre Araujo, Aaron Havens, Blaise Delattre, Alexandre Allauzen, Bin Hu(参考訳) 重要な研究は、制御されたリプシッツ定数を持つニューラルネットワークの設計と訓練に焦点を当てている。 目標は、敵の攻撃に対する堅牢性を高め、時には保証することである。 最近の有望な技術は、異なる背景からインスピレーションを得て、1-Lipschitzニューラルネットワークを設計する。 連続力学系の離散化から導かれる凸ポテンシャル層(convex potential layer)は、行列再スケーリングのための調整された方法を提案する。 しかし、今日では、新しく改良された層をより良く設計するための共通の理論レンズの下で、この分野における最近の有望な貢献を考えることが重要である。 本稿では,前述した手法を含む様々なタイプの1-リプシッツニューラルネットワークと,直交法とスペクトル法に基づく手法を統一した,新しい代数的視点を提案する。 興味深いことに,sdp (common semidefinite programming) 条件の解析解を求めることにより,既存の手法の多くを導出し,一般化できることが示されている。 また、AOLは、ある数学的方法で直交行列の集合に近いものに対して、スケールした重量を偏っていることを証明しています。 さらに、ゲルシュゴリンの円定理と組み合わされた代数的条件は、1-リプシッツネットワーク層に対する新しい多様なパラメータ化をもたらす。 SDPベースのLipschitz Layers (SLL)と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。 最後に,画像分類実験の包括的集合は,sllが認証されたロバスト精度に対する従来のアプローチよりも優れていることを示している。 コードはhttps://github.com/araujoalexandre/Lipschitz-SLL-Networksで公開されている。

Important research efforts have focused on the design and training of neural networks with a controlled Lipschitz constant. The goal is to increase and sometimes guarantee the robustness against adversarial attacks. Recent promising techniques draw inspirations from different backgrounds to design 1-Lipschitz neural networks, just to name a few: convex potential layers derive from the discretization of continuous dynamical systems, Almost-Orthogonal-Layer proposes a tailored method for matrix rescaling. However, it is today important to consider the recent and promising contributions in the field under a common theoretical lens to better design new and improved layers. This paper introduces a novel algebraic perspective unifying various types of 1-Lipschitz neural networks, including the ones previously mentioned, along with methods based on orthogonality and spectral methods. Interestingly, we show that many existing techniques can be derived and generalized via finding analytical solutions of a common semidefinite programming (SDP) condition. We also prove that AOL biases the scaled weight to the ones which are close to the set of orthogonal matrices in a certain mathematical manner. Moreover, our algebraic condition, combined with the Gershgorin circle theorem, readily leads to new and diverse parameterizations for 1-Lipschitz network layers. Our approach, called SDP-based Lipschitz Layers (SLL), allows us to design non-trivial yet efficient generalization of convex potential layers. Finally, the comprehensive set of experiments on image classification shows that SLLs outperform previous approaches on certified robust accuracy. Code is available at https://github.com/araujoalexandre/Lipschitz-SLL-Networks.
翻訳日:2023-03-07 15:58:07 公開日:2023-03-06
# スパース多レベル境界生成器による時間行動提案の高速化

Faster Learning of Temporal Action Proposal via Sparse Multilevel Boundary Generator ( http://arxiv.org/abs/2303.03166v1 )

ライセンス: Link先を確認
Qing Song, Yang Zhou, Mengjie Hu, Chun Liu(参考訳) ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。 境界感応法は広く採用されているが、その限界には不完全な中間情報と大域情報の使用、および非効率な提案特徴生成が含まれる。 これらの課題に対処するために,境界線分類と行動完全性回帰を用いた境界感度法を改良した,スパースマルチレベル境界発生器(SMBG)を提案する。 SMBGは、異なる長さで境界情報を収集することで高速な処理を可能にするマルチレベル境界モジュールを備えている。 さらに,アクション内外の情報を識別するスパース抽出信頼度ヘッドを導入し,提案機能生成器を最適化する。 複数枝間の相乗効果と正負のサンプルのバランスを改善するために,グローバルなガイダンス損失を提案する。 提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。 これらの結果は、SMBGが時間的行動提案を生成するためのより効率的で簡単なソリューションを提供することを示した。 提案するフレームワークは,映像解析における時間的行動ローカライゼーションの精度と速度を向上し,コンピュータビジョンの分野を推し進める可能性を秘めている。

Temporal action localization in videos presents significant challenges in the field of computer vision. While the boundary-sensitive method has been widely adopted, its limitations include incomplete use of intermediate and global information, as well as an inefficient proposal feature generator. To address these challenges, we propose a novel framework, Sparse Multilevel Boundary Generator (SMBG), which enhances the boundary-sensitive method with boundary classification and action completeness regression. SMBG features a multi-level boundary module that enables faster processing by gathering boundary information at different lengths. Additionally, we introduce a sparse extraction confidence head that distinguishes information inside and outside the action, further optimizing the proposal feature generator. To improve the synergy between multiple branches and balance positive and negative samples, we propose a global guidance loss. Our method is evaluated on two popular benchmarks, ActivityNet-1.3 and THUMOS14, and is shown to achieve state-of-the-art performance, with a better inference speed (2.47xBSN++, 2.12xDBG). These results demonstrate that SMBG provides a more efficient and simple solution for generating temporal action proposals. Our proposed framework has the potential to advance the field of computer vision and enhance the accuracy and speed of temporal action localization in video analysis.The code and models are made available at \url{https://github.com/zhouyang-001/SMBG-for-temporal-action-proposal}.
翻訳日:2023-03-07 15:57:41 公開日:2023-03-06
# 学生・専門家のための基本ZX計算

Basic ZX-calculus for students and professionals ( http://arxiv.org/abs/2303.03163v1 )

ライセンス: Link先を確認
Bob Coecke(参考訳) 以下は、オックスフォード大学数学研究所(Hilary Term 2023)におけるアートゥール・エケルト(Arur Ekert)の量子情報入門講座の講演ノートである。 ディラック表記に関するいくつかの基本的な知識が推測される。 基本的な量子背景を持つQuantum in Pictures(QiP)の読者にとって、これらのメモは、彼らがQIPで学んだことが従来の量子形式とどのように関連しているかを説明する最短の道である。

These are the lecture notes of guest lectures for Artur Ekert's course Introduction to Quantum Information at the Mathematical Institute of Oxford University, Hilary Term 2023. Some basic familiarity with Dirac notation is assumed. For the readers of Quantum in Pictures (QiP) who have some basic quantum background, these notes also constitute the shortest path to an explanation of how what they learn in QIP relates to the traditional quantum formalism.
翻訳日:2023-03-07 15:57:01 公開日:2023-03-06
# 固有のリアプノフ安定性を持つデータ駆動制御

Data-Driven Control with Inherent Lyapunov Stability ( http://arxiv.org/abs/2303.03157v1 )

ライセンス: Link先を確認
Youngjae Min, Spencer M. Richards, Navid Azizan(参考訳) 学習に基づく制御の最近の進歩は、ニューラルネットワークのような深い関数近似を利用して、時間とともに制御された動的システムの進化をモデル化している。 しかし、既知の非線形系に対する安定化フィードバック則の合成は、データに適合する複雑なパラメトリック表現を言うまでもなく、難しい作業であるため、ダイナミクスモデルと安定化制御の学習の問題は継続する。 そこで本研究では,非線形力学モデルのパラメトリック表現と安定化制御器をデータから共同学習する手法を提案する。 これを実現するために,本手法では,学習した制御器によって動的モデルの安定化を本質的に制約するパラメトリックリアプノフ関数を同時に学習する。 新たな構成によって保証される学習ダイナミクスの安定性に加えて,学習コントローラが学習ダイナミクスの忠実性に関する一定の仮定の下で真のダイナミクスを安定化することを示す。 最後に, シミュレーションされた非線形力学系に対する本手法の有効性を示す。

Recent advances in learning-based control leverage deep function approximators, such as neural networks, to model the evolution of controlled dynamical systems over time. However, the problem of learning a dynamics model and a stabilizing controller persists, since the synthesis of a stabilizing feedback law for known nonlinear systems is a difficult task, let alone for complex parametric representations that must be fit to data. To this end, we propose a method for jointly learning parametric representations of a nonlinear dynamics model and a stabilizing controller from data. To do this, our approach simultaneously learns a parametric Lyapunov function which intrinsically constrains the dynamics model to be stabilizable by the learned controller. In addition to the stabilizability of the learned dynamics guaranteed by our novel construction, we show that the learned controller stabilizes the true dynamics under certain assumptions on the fidelity of the learned dynamics. Finally, we demonstrate the efficacy of our method on a variety of simulated nonlinear dynamical systems.
翻訳日:2023-03-07 15:56:52 公開日:2023-03-06
# IPA-CLIP:視覚と言語の事前学習に音声の事前処理を統合する

IPA-CLIP: Integrating Phonetic Priors into Vision and Language Pretraining ( http://arxiv.org/abs/2303.03144v1 )

ライセンス: Link先を確認
Chihaya Matsuhira, Marc A. Kastner, Takahiro Komamizu, Takatsugu Hirayama, Keisuke Doman, Yasutomo Kawanishi, Ichiro Ide(参考訳) 近年,大規模ビジョン・アンド・ランゲージ(V\&L)事前学習がマルチメディアシステムの標準バックボーンとなっている。 目立たない状況でも目覚ましいパフォーマンスを見せているが、人間にとって直感的ではないやり方でしばしば演じられる。 特に、人間が言語を理解するために使う入力の発音、特に未知の単語に関しては考慮しないのが普通である。 そこで本論文では,V\&L事前学習モデルの1つであるContrastive Language- Image Pretraining (CLIP) に先行音声を挿入し,発音入力の発音類似性を考察する。 これを実現するために,まず,国際音素アルファベット(ipa)チャートが提供する音素関係を音素先行として利用する音素埋め込みを提案する。 次に,凍結したCLIPテキストエンコーダを蒸留することにより,IPAベースの埋め込みを用いた発音エンコーダを訓練する。 IPA-CLIPという名前のモデルは、この発音エンコーダと元のCLIPエンコーダ(画像とテキスト)から構成される。 定量的評価により, 提案した音素埋め込みを用いた場合, 音素分布はより正確に音素関係を表すことがわかった。 さらに、複数のモーダル検索タスクにおいて、提案した発音エンコーダがテキストエンコーダの性能を高め、発音エンコーダがテキストエンコーダよりもナンセンスな単語をより音声的に処理することを確認する。 最後に、質的評価により、発音類似性に関する発音エンコーダと人間の知覚との相関が検証される。

Recently, large-scale Vision and Language (V\&L) pretraining has become the standard backbone of many multimedia systems. While it has shown remarkable performance even in unseen situations, it often performs in ways not intuitive to humans. Particularly, they usually do not consider the pronunciation of the input, which humans would utilize to understand language, especially when it comes to unknown words. Thus, this paper inserts phonetic prior into Contrastive Language-Image Pretraining (CLIP), one of the V\&L pretrained models, to make it consider the pronunciation similarity among its pronunciation inputs. To achieve this, we first propose a phoneme embedding that utilizes the phoneme relationships provided by the International Phonetic Alphabet (IPA) chart as a phonetic prior. Next, by distilling the frozen CLIP text encoder, we train a pronunciation encoder employing the IPA-based embedding. The proposed model named IPA-CLIP comprises this pronunciation encoder and the original CLIP encoders (image and text). Quantitative evaluation reveals that the phoneme distribution on the embedding space represents phonetic relationships more accurately when using the proposed phoneme embedding. Furthermore, in some multimodal retrieval tasks, we confirm that the proposed pronunciation encoder enhances the performance of the text encoder and that the pronunciation encoder handles nonsense words in a more phonetic manner than the text encoder. Finally, qualitative evaluation verifies the correlation between the pronunciation encoder and human perception regarding pronunciation similarity.
翻訳日:2023-03-07 15:56:36 公開日:2023-03-06
# AI医療機器のサイバーセキュリティ:リスク、法律、課題

Cybersecurity of AI medical devices: risks, legislation, and challenges ( http://arxiv.org/abs/2303.03140v1 )

ライセンス: Link先を確認
Elisabetta Biasin, Erik Kamenjasevic, Kaspar Rosager Ludvigsen(参考訳) 医療機器と人工知能システムは、医療規定を急速に変える。 同時に、その性質上、医療機器のAIがサイバー攻撃にさらされる可能性があるため、患者の安全とセキュリティのリスクが生じる。 本章は3部に分かれている。 最初の部分は、医療におけるサイバーセキュリティの役割を説明する場面から始まります。 そして、医療機器と見なされる、あるいはそれをサポートするAIについて話すときに、私たちが言及するものを簡潔に定義する。 このような医療機器がもたらすリスクを説明するために、データセット、ソーシャルエンジニアリング、データまたはソースコード抽出の3つの例を挙げる。 第2部では、医療機器(MDR、NISディレクティブ、サイバーセキュリティ法、GDPR、AI法提案、NIS2ディレクティブ提案)としてのAIのサイバーセキュリティを確保するための欧州連合の規制枠組みの概要について述べる。 最後に、第3部では、EU規制枠組みから生じる可能性のある課題について検討する。 特に、2つの立法案から生じる課題と、ai医療機器のサイバーセキュリティに関する既存の法律との相互作用について考察する。 1)AI法は、サイバーセキュリティと安全要件に関して、MDRとどのように相互作用するのか? ; (2) nis 2 指令提案と mdr からのインシデント通知要件をどう解釈すべきか? ; そして(3) 重要なインフラの進化期の結果はどうなるのか? [本章は草稿で、最終版は、バリー・ソライマン・I・グレン・コーエン編『健康・AI・法研究ハンドブック』2023年、エドワード・エルガー出版社(Edward Elgar Publishing Ltd.)に掲載される。

Medical devices and artificial intelligence systems rapidly transform healthcare provisions. At the same time, due to their nature, AI in or as medical devices might get exposed to cyberattacks, leading to patient safety and security risks. This book chapter is divided into three parts. The first part starts by setting the scene where we explain the role of cybersecurity in healthcare. Then, we briefly define what we refer to when we talk about AI that is considered a medical device by itself or supports one. To illustrate the risks such medical devices pose, we provide three examples: the poisoning of datasets, social engineering, and data or source code extraction. In the second part, the paper provides an overview of the European Union's regulatory framework relevant for ensuring the cybersecurity of AI as or in medical devices (MDR, NIS Directive, Cybersecurity Act, GDPR, the AI Act proposal and the NIS 2 Directive proposal). Finally, the third part of the paper examines possible challenges stemming from the EU regulatory framework. In particular, we look toward the challenges deriving from the two legislative proposals and their interaction with the existing legislation concerning AI medical devices' cybersecurity. They are structured as answers to the following questions: (1) how will the AI Act interact with the MDR regarding the cybersecurity and safety requirements?; (2) how should we interpret incident notification requirements from the NIS 2 Directive proposal and MDR?; and (3) what are the consequences of the evolving term of critical infrastructures? [This is a draft chapter. The final version will be available in Research Handbook on Health, AI and the Law edited by Barry Solaiman & I. Glenn Cohen, forthcoming 2023, Edward Elgar Publishing Ltd]
翻訳日:2023-03-07 15:56:09 公開日:2023-03-06
# low impact agency: レビューと議論

Low impact agency: review and discussion ( http://arxiv.org/abs/2303.03139v1 )

ライセンス: Link先を確認
Danilo Naiff, Shashwat Goel(参考訳) 強力な人工知能は、aiがその目標を追求して世界を大きく変えようとすると、存在の脅威となる。 低影響の人工知能の望みは、AIがそれをしないよう動機づけることである。 本稿では,まず,この課題に対処するための低影響エージェンシーの概念と,それ以前の提案を概観し,そのトピックにおける今後の研究方向性を提案し,低影響エフェクトがAIを安全にする上で有用であることを確かめる。

Powerful artificial intelligence poses an existential threat if the AI decides to drastically change the world in pursuit of its goals. The hope of low-impact artificial intelligence is to incentivize AI to not do that just because this causes a large impact in the world. In this work, we first review the concept of low-impact agency and previous proposals to approach the problem, and then propose future research directions in the topic, with the goal to ensure low-impactedness is useful in making AI safe.
翻訳日:2023-03-07 15:55:40 公開日:2023-03-06
# SC-Block: エンティティ解決パイプライン内でのコントラストブロックの監視

SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines ( http://arxiv.org/abs/2303.03132v1 )

ライセンス: Link先を確認
Alexander Brinkmann, Roee Shraga, Christian Bizer(参考訳) エンティティ解決の目標は、同じ現実世界のエンティティを表す複数のデータセット内のレコードを識別することだ。 しかし、データセットをまたいだすべてのレコードを比較することは計算集約的であり、長いランタイムに繋がる。 これらのランタイムを削減するために、エンティティレゾリューションパイプラインは2つの部分で構成されている: 候補レコードペアを選択するために計算コストの安いメソッドを適用するブロッカーと、より高価なメソッドを使用してこのセットからマッチングペアを識別するmatcherである。 本稿では,組込み空間における記録の位置決めに教師付きコントラスト学習を利用するブロック手法であるsc-blockと,候補集合ビルの近接探索を提案する。 SC-Blockを8つの最先端のブロッキング手法と比較した。 SC-Blockのトレーニング時間とエンティティ分解パイプライン全体の実行時間の短縮を関連付けるため、SC-Blockと4つのマッチングメソッドを完全なパイプラインに組み合わせる。 全体の実行時間を測定するために、98%のペア完全性を持つ候補集合を決定し、それらをマーカに渡す。 その結果、SC-Blockは、F1スコアを犠牲にすることなく、SC-Blockが他のブロッカを持つパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。 ブロッカは比較的小さなデータセットを使用して評価されることが多い。 より困難な環境でランタイムを測定するために、多数の製品の提供をブロックする必要がある新しいベンチマークデータセットを導入します。 この大規模なベンチマークデータセットでは、SC-Blockと最高のパフォーマンスのマーカを使用するパイプラインは、同じマーカを持つ別のブロッカを使用するパイプラインよりも8倍高速に実行され、ランタイムを2.5時間から18分に短縮する。

The goal of entity resolution is to identify records in multiple datasets that represent the same real-world entity. However, comparing all records across datasets can be computationally intensive, leading to long runtimes. To reduce these runtimes, entity resolution pipelines are constructed of two parts: a blocker that applies a computationally cheap method to select candidate record pairs, and a matcher that afterwards identifies matching pairs from this set using more expensive methods. This paper presents SC-Block, a blocking method that utilizes supervised contrastive learning for positioning records in the embedding space, and nearest neighbour search for candidate set building. We benchmark SC-Block against eight state-of-the-art blocking methods. In order to relate the training time of SC-Block to the reduction of the overall runtime of the entity resolution pipeline, we combine SC-Block with four matching methods into complete pipelines. For measuring the overall runtime, we determine candidate sets with 98% pair completeness and pass them to the matcher. The results show that SC-Block is able to create smaller candidate sets and pipelines with SC-Block execute 1.5 to 2 times faster compared to pipelines with other blockers, without sacrificing F1 score. Blockers are often evaluated using relatively small datasets which might lead to runtime effects resulting from a large vocabulary size being overlooked. In order to measure runtimes in a more challenging setting, we introduce a new benchmark dataset that requires large numbers of product offers to be blocked. On this large-scale benchmark dataset, pipelines utilizing SC-Block and the best-performing matcher execute 8 times faster than pipelines utilizing another blocker with the same matcher reducing the runtime from 2.5 hours to 18 minutes, clearly compensating for the 5 minutes required for training SC-Block.
翻訳日:2023-03-07 15:55:31 公開日:2023-03-06
# CLIP-Guided Visual-Text Attention を用いたビデオ質問応答

Video Question Answering Using CLIP-Guided Visual-Text Attention ( http://arxiv.org/abs/2303.03131v1 )

ライセンス: Link先を確認
Shuhong Ye (1), Weikai Kong (1), Chenglin Yao (1), Jianfeng Ren (1), Xudong Jiang (2) ((1) School of Computer Science, University of Nottingham Ningbo China, (2) School of Electrical & Electronic Engineering, Nanyang Technological University)(参考訳) ビデオ質問回答(Video Question Answering, VideoQA)では,ビデオとテキストの相互学習が重要な役割を果たす。 本稿では,ビデオQAのクロスモーダル学習を指導するために,多くのドメイン言語と画像のペアで訓練されたコントラスト言語-画像事前学習(CLIP)を利用する視覚テキストアテンション機構を提案する。 具体的には,まず,対象のアプリケーションドメインから BERT を用いて TimeSformer とテキスト機能を用いてビデオ特徴を抽出し,CLIP を用いて一般知識ドメインから一対の視覚テキスト特徴をドメイン固有の学習を通じて抽出する。 次に,対象領域と一般領域にまたがる視覚的特徴と言語的特徴の注意情報を抽出するクロスドメイン学習を提案する。 CLIPで誘導される視覚テキスト機能は、その答えを予測するために統合されている。 提案手法はMSVD-QAおよびMSRVTT-QAデータセット上で評価され,最先端の手法よりも優れている。

Cross-modal learning of video and text plays a key role in Video Question Answering (VideoQA). In this paper, we propose a visual-text attention mechanism to utilize the Contrastive Language-Image Pre-training (CLIP) trained on lots of general domain language-image pairs to guide the cross-modal learning for VideoQA. Specifically, we first extract video features using a TimeSformer and text features using a BERT from the target application domain, and utilize CLIP to extract a pair of visual-text features from the general-knowledge domain through the domain-specific learning. We then propose a Cross-domain Learning to extract the attention information between visual and linguistic features across the target domain and general domain. The set of CLIP-guided visual-text features are integrated to predict the answer. The proposed method is evaluated on MSVD-QA and MSRVTT-QA datasets, and outperforms state-of-the-art methods.
翻訳日:2023-03-07 15:54:56 公開日:2023-03-06
# 適応型サンプル再重み付けによる微分因果発見の促進

Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting ( http://arxiv.org/abs/2303.03187v1 )

ライセンス: Link先を確認
An Zhang, Fangfu Liu, Wenchang Ma, Zhibo Cai, Xiang Wang, Tat-seng Chua(参考訳) ストリングモデル型および可変分布仮定の下で、微分可能なスコアベース因果発見法は、平均スコア関数上で候補グラフを評価することにより、観測データから有向非循環グラフ(dag)を学習する。 低次元線形システムで大きな成功を収めたにもかかわらず、これらのアプローチは適合しやすいサンプルを過剰に活用し、必然的にスプリアスエッジを学習していることが観察されている。 さらに悪いことに、これらの手法に特有の共通均一性仮定は、実世界の異種データが広く存在するため、容易に違反でき、ノイズ分布が変化すると性能上の脆弱性が生じる。 重み付けスコア関数rescoreの適応重み付けを動的に学習し,各サンプルの重要性度に定量的に重み付けを行うことによって,因果発見性能を高めるための,単純かつ効果的なモデル非依存フレームワークを提案する。 直感的には、bilevel optimization schemeを利用して、標準のdag学習者およびリウェイトサンプル -- つまり、学習者が適合できないサンプルをアップウェイトし、学習者がスプリアス情報から容易に抽出するサンプルをダウンウェイトする -- をトレーニングします。 rescoreの有効性を検証するために,合成データと実世界のデータセットの両方について広範な実験を行った。 構造学習性能の一貫性と顕著な向上を観察する。 さらに,スプリアスエッジの影響を同時に緩和し,異種データに一般化できることを可視化する。 最後に、線形システムにおけるReScoreの構造識別性と重み適応性を保証するための理論的解析を行う。 私たちのコードはhttps://github.com/anzhang314/rescoreで利用可能です。

Under stringent model type and variable distribution assumptions, differentiable score-based causal discovery methods learn a directed acyclic graph (DAG) from observational data by evaluating candidate graphs over an average score function. Despite great success in low-dimensional linear systems, it has been observed that these approaches overly exploit easier-to-fit samples, thus inevitably learning spurious edges. Worse still, inherent mostly in these methods the common homogeneity assumption can be easily violated, due to the widespread existence of heterogeneous data in the real world, resulting in performance vulnerability when noise distributions vary. We propose a simple yet effective model-agnostic framework to boost causal discovery performance by dynamically learning the adaptive weights for the Reweighted Score function, ReScore for short, where the weights tailor quantitatively to the importance degree of each sample. Intuitively, we leverage the bilevel optimization scheme to \wx{alternately train a standard DAG learner and reweight samples -- that is, upweight the samples the learner fails to fit and downweight the samples that the learner easily extracts the spurious information from. Extensive experiments on both synthetic and real-world datasets are carried out to validate the effectiveness of ReScore. We observe consistent and significant boosts in structure learning performance. Furthermore, we visualize that ReScore concurrently mitigates the influence of spurious edges and generalizes to heterogeneous data. Finally, we perform the theoretical analysis to guarantee the structure identifiability and the weight adaptive properties of ReScore in linear systems. Our codes are available at https://github.com/anzhang314/ReScore.
翻訳日:2023-03-07 15:48:43 公開日:2023-03-06
# MetaPhysiCa:物理インフォームド機械学習におけるOODロバスト性

MetaPhysiCa: OOD Robustness in Physics-informed Machine Learning ( http://arxiv.org/abs/2303.03181v1 )

ライセンス: Link先を確認
S Chandra Mouli, Muhammad Ashraful Alam, Bruno Ribeiro(参考訳) 物理情報処理機械学習(PIML)の基本的な課題は、アウト・オブ・ディストリビューション(OOD)予測タスクのための堅牢なPIML手法の設計である。 これらのOODタスクは、未知のODEパラメータを持つ同じ(ODE)力学系の観測から学習し、サポート外初期条件やサポート外ODEパラメータの下でも正確な予測を要求する。 本研究では,因果構造発見(不変リスク最小化を含む)のためのメタラーニング手順として定義するタスクの解法を提案する。 3つのOODタスクを用いて、提案手法が既存の最先端PIMLおよびディープラーニング手法を著しく上回っていることを実証的に観察した。

A fundamental challenge in physics-informed machine learning (PIML) is the design of robust PIML methods for out-of-distribution (OOD) forecasting tasks. These OOD tasks require learning-to-learn from observations of the same (ODE) dynamical system with different unknown ODE parameters, and demand accurate forecasts even under out-of-support initial conditions and out-of-support ODE parameters. In this work we propose a solution for such tasks, which we define as a meta-learning procedure for causal structure discovery (including invariant risk minimization). Using three different OOD tasks, we empirically observe that the proposed approach significantly outperforms existing state-of-the-art PIML and deep learning methods.
翻訳日:2023-03-07 15:47:08 公開日:2023-03-06
# 一般化3次元多目的探索システム

A System for Generalized 3D Multi-Object Search ( http://arxiv.org/abs/2303.03178v1 )

ライセンス: Link先を確認
Kaiyu Zheng, Anirudha Paul, Stefanie Tellex(参考訳) オブジェクトの検索は、ロボットにとって基本的なスキルである。 そのため、オブジェクト検出やSLAMのように、オブジェクト検索が最終的にロボットの既製の能力になることを期待している。 対照的に、実際のロボットや環境にまたがって一般化する3Dオブジェクト探索システムは存在しない。 本稿では,octree構造を利用して3dの信念を表現する最近の理論的枠組みに基づいて,ロボット非依存かつ環境非依存な3d領域において,最初の多目的探索のための汎用システムであるgenmos(generalized multi-object search)を提案する。 GenMOSは、ローカル領域の入力ポイントクラウド観測、オブジェクト検出結果、ロボットのビューポーズのローカライズを行い、オンラインプランニングを通じて移動するための6D視点を出力する。 特にGenMOSは,(1)オクルージョンをシミュレートする,(2)オクルージョンを通知する,(3)オクトリーの信念を初期化する,(3)障害物を避ける視点位置の信念依存グラフをサンプリングする,という3つの方法で点雲観測を行っている。 我々はシミュレーションと2つの実ロボットプラットフォームでシステムを評価する。 例えば、Boston Dynamics Spotロボットは、ソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。 さらに,3次元局所探索と2次元グローバルサーチを統合して,25m$^2$ロビーエリアでシステムを構築した。

Searching for objects is a fundamental skill for robots. As such, we expect object search to eventually become an off-the-shelf capability for robots, similar to e.g., object detection and SLAM. In contrast, however, no system for 3D object search exists that generalizes across real robots and environments. In this paper, building upon a recent theoretical framework that exploited the octree structure for representing belief in 3D, we present GenMOS (Generalized Multi-Object Search), the first general-purpose system for multi-object search (MOS) in a 3D region that is robot-independent and environment-agnostic. GenMOS takes as input point cloud observations of the local region, object detection results, and localization of the robot's view pose, and outputs a 6D viewpoint to move to through online planning. In particular, GenMOS uses point cloud observations in three ways: (1) to simulate occlusion; (2) to inform occupancy and initialize octree belief; and (3) to sample a belief-dependent graph of view positions that avoid obstacles. We evaluate our system both in simulation and on two real robot platforms. Our system enables, for example, a Boston Dynamics Spot robot to find a toy cat hidden underneath a couch in under one minute. We further integrate 3D local search with 2D global search to handle larger areas, demonstrating the resulting system in a 25m$^2$ lobby area.
翻訳日:2023-03-07 15:46:54 公開日:2023-03-06
# Vigilant Incentivesは、規制市場がAIの安全性を向上させる

Both eyes open: Vigilant Incentives help Regulatory Markets improve AI Safety ( http://arxiv.org/abs/2303.03174v1 )

ライセンス: Link先を確認
Paolo Bova and Alessandro Di Stefano and The Anh Han(参考訳) AIのリーダーによる迅速な発見の文脈では、政府は新しいAI能力の増加ペースに合わせた規制をどう設計するかを検討する必要がある。 Regulatory Markets for AIは、適応性を考慮して設計された提案である。 政府はAI企業が達成すべき成果に基づく目標を設定し、民間規制当局の市場からサービスを購入することで示すことができる。 我々は進化的ゲーム理論モデルを用いて、政府が無謀な振る舞いを抑えるAIシステムのための規制市場を構築する上で、役割を探求する。 我々は、規制市場がこの目標を達成するのを阻止するインセンティブについて、非常に簡単に対応できることを警告する。 これらの「バウンティ・インセンティブ」は、安全でない行動をキャッチした民間の規制当局にのみ報いる。 当社は、ai企業は規制当局がどれだけの努力を投資するかを学習し、規制当局がイノベーションを阻害する可能性が高いと主張している。 その代わりに、規制当局が安全でない行動を検出できなかったこと以外は、政府は常に規制当局に報いることを推奨します。 これらの'Vigilant Incentives'は、最先端のAIシステムを評価する革新的な方法を見つけることを民間規制当局に促す可能性がある。

In the context of rapid discoveries by leaders in AI, governments must consider how to design regulation that matches the increasing pace of new AI capabilities. Regulatory Markets for AI is a proposal designed with adaptability in mind. It involves governments setting outcome-based targets for AI companies to achieve, which they can show by purchasing services from a market of private regulators. We use an evolutionary game theory model to explore the role governments can play in building a Regulatory Market for AI systems that deters reckless behaviour. We warn that it is alarmingly easy to stumble on incentives which would prevent Regulatory Markets from achieving this goal. These 'Bounty Incentives' only reward private regulators for catching unsafe behaviour. We argue that AI companies will likely learn to tailor their behaviour to how much effort regulators invest, discouraging regulators from innovating. Instead, we recommend that governments always reward regulators, except when they find that those regulators failed to detect unsafe behaviour that they should have. These 'Vigilant Incentives' could encourage private regulators to find innovative ways to evaluate cutting-edge AI systems.
翻訳日:2023-03-07 15:45:57 公開日:2023-03-06
# マイクロ波光子数増幅

Microwave photon-number amplification ( http://arxiv.org/abs/2303.03173v1 )

ライセンス: Link先を確認
Romain Albert, Jo\"el Griesmar, Florian Blanchet, Ulrich Martel, Nicolas Bourlet, Max Hofheinz(参考訳) これまでのところ、量子制限電力計はマイクロ波領域では利用できないため、反復量子状態における光子数の測定を妨げている。 一方、単一光子検出器は1つの光子を正確に検出するが、2つの光子が同時に到着するとすぐに飽和する。 一方、ボロメータのようなより線形なワットメーターはノイズが多すぎて単一のマイクロ波光子を正確に検出できない。 線形増幅器は信号の非可換可観測器をプローブし、ノイズを加えなければならないし、単一の光子を検出できないようにする。 本稿では、入射光子数を整数因子で乗算することにより、単一光子検出器とパワーメータの利点を組み合わせたマイクロ波光子乗算方式を実験的に実証する。 最初の実験では、入力光子レート400MHzまでの帯域幅116MHzにおいて、0.69の効率でn = 3倍の乗算を実現した。 フェーズ情報は失われるが、デッドタイムやタイムビッキングは不要である。 このような乗算器をカスケードする最適化されたデバイスは、暗黒数の少ないイテナント光子の数分解測定を実現し、幅広い量子センシングおよび量子コンピューティングアプリケーションに新たな可能性をもたらすことを期待する。

So far, quantum-limited power meters are not available in the microwave domain, hindering measurement of photon number in itinerant quantum states. On the one hand, single photon detectors accurately detect single photons, but saturate as soon as two photons arrive simultaneously. On the other hand, more linear watt meters, such as bolometers, are too noisy to accurately detect single microwave photons. Linear amplifiers probe non-commuting observables of a signal so that they must add noise and cannot be used to detect single photons, either. Here we experimentally demonstrate a microwave photon-multiplication scheme which combines the advantages of a single photon detector and a power meter by multiplying the incoming photon number by an integer factor. Our first experimental implementation achieves a n = 3-fold multiplication with 0.69 efficiency in a 116 MHz bandwidth up to a input photon rate of 400 MHz. It loses phase information but does not require any dead time or time binning. We expect an optimised device cascading such multipliers to achieve number-resolving measurement of itinerant photons with low dark count, which would offer new possibilities in a wide range of quantum sensing and quantum computing applications.
翻訳日:2023-03-07 15:45:38 公開日:2023-03-06
# チェンジキャプションのための近所コントラストトランスフォーマ

Neighborhood Contrastive Transformer for Change Captioning ( http://arxiv.org/abs/2303.03171v1 )

ライセンス: Link先を確認
Yunbin Tu, Liang Li, Li Su, Ke Lu, Qingming Huang(参考訳) 変更キャプションは、自然言語における類似した画像のペア間の意味的変化を記述することである。 これは一般的な画像キャプションよりも困難であり、無関係な視点変化に免疫されながら細かい変更情報をキャプチャし、変更記述における構文曖昧さを解決する必要がある。 本稿では,様々な場面における様々な変化に対するモデルの知覚能力と複雑な構文構造に対する認識能力を改善するために,近傍のコントラストトランスフォーマを提案する。 具体的には、まず、近隣のコンテキストを各特徴に統合するために隣接する特徴集合体を設計し、目立たしい参照者の指導の下で、目立たぬ変化を素早く見つけ出すのに役立つ。 次に,近傍の2つの画像を比較し,各画像から共通特性を抽出する共通特徴蒸留法を考案し,両者の効果的な対比情報を得る。 最後に、トランスデコーダを校正するために単語間の明示的な依存関係を導入し、トレーニング中の複雑な構文構造をよりよく理解できるようにする。 大規模な実験結果から,提案手法は変化シナリオの異なる3つの公開データセット上での最先端性能を実現することが示された。 コードはhttps://github.com/tuyunbin/NCTで公開されている。

Change captioning is to describe the semantic change between a pair of similar images in natural language. It is more challenging than general image captioning, because it requires capturing fine-grained change information while being immune to irrelevant viewpoint changes, and solving syntax ambiguity in change descriptions. In this paper, we propose a neighborhood contrastive transformer to improve the model's perceiving ability for various changes under different scenes and cognition ability for complex syntax structure. Concretely, we first design a neighboring feature aggregating to integrate neighboring context into each feature, which helps quickly locate the inconspicuous changes under the guidance of conspicuous referents. Then, we devise a common feature distilling to compare two images at neighborhood level and extract common properties from each image, so as to learn effective contrastive information between them. Finally, we introduce the explicit dependencies between words to calibrate the transformer decoder, which helps better understand complex syntax structure during training. Extensive experimental results demonstrate that the proposed method achieves the state-of-the-art performance on three public datasets with different change scenarios. The code is available at https://github.com/tuyunbin/NCT.
翻訳日:2023-03-07 15:45:19 公開日:2023-03-06
# 相関ネットワークを用いた連続手話認識

Continuous Sign Language Recognition with Correlation Network ( http://arxiv.org/abs/2303.03202v1 )

ライセンス: Link先を確認
Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng(参考訳) 人間の身体の軌跡は、ビデオの中でアクションを識別するための貴重な手がかりです。 このような身体の軌跡は主に手と顔で手話の連続したフレームで伝えられる。 しかしながら、連続手話認識(CSLR)における現在の手法は通常、フレームを独立に処理するため、符号を効果的に識別するためにクロスフレームの軌跡を捕捉できなかった。 この制限に対処するために、フレーム間の身体軌道を明示的に捕捉し、利用して記号を識別する相関ネットワーク(CorrNet)を提案する。 具体的には、まず、現在のフレームと隣接するフレーム間の相関マップを動的に計算し、すべての空間パッチの軌跡を特定するための相関モジュールを提案する。 識別モジュールが提示され、これらの相関マップ内の身体軌跡を動的に強調する。 その結果、生成された特徴は、サインを特定するために局所的な時間運動の概観を得ることができる。 CorrNetは体軌道に特別な注意を払って、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現している。 CorrNetの有効性を検証するため,従来の時空間推論手法との比較を行った。 可視化は、隣接するフレームを横切る人体の軌跡を強調するcorrnetの効果を実証する。

Human body trajectories are a salient cue to identify actions in the video. Such body trajectories are mainly conveyed by hands and face across consecutive frames in sign language. However, current methods in continuous sign language recognition (CSLR) usually process frames independently, thus failing to capture cross-frame trajectories to effectively identify a sign. To handle this limitation, we propose correlation network (CorrNet) to explicitly capture and leverage body trajectories across frames to identify signs. In specific, a correlation module is first proposed to dynamically compute correlation maps between the current frame and adjacent frames to identify trajectories of all spatial patches. An identification module is then presented to dynamically emphasize the body trajectories within these correlation maps. As a result, the generated features are able to gain an overview of local temporal movements to identify a sign. Thanks to its special attention on body trajectories, CorrNet achieves new state-of-the-art accuracy on four large-scale datasets, i.e., PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the effectiveness of CorrNet. Visualizations demonstrate the effects of CorrNet on emphasizing human body trajectories across adjacent frames.
翻訳日:2023-03-07 15:41:17 公開日:2023-03-06
# 制御の選択 - ダイジェティックおよび非ディジェティック・プロンプティングを用いた大規模言語モデルによる書き方

Choice Over Control: How Users Write with Large Language Models using Diegetic and Non-Diegetic Prompting ( http://arxiv.org/abs/2303.03199v1 )

ライセンス: Link先を確認
Hai Dang, Sven Goller, Florian Lehmann, Daniel Buschek(参考訳) 我々は,(1)ダイジェチックなプロンプト(例えば,『once upon a time, i saw a fox...』)と(2)非ディジェティックプロンプト(例えば『the adventures of the fox』)とを区別する大規模言語モデル(llm)のためのプロンプトの概念的視点を提案する。 このレンズを用いて,多作なユーザインタフェースによる短いテキスト作成 (1対3提案,非ディゲティックプロンプトによる非ディゲティックプロンプト,gpt-3による実装) に対して129人のクラウドワーカーが,複数の提案を提供し,非ディゲティックプロンプトのオプションを提供した場合,参加者は非ディゲティックプロンプトによる制御よりも,複数の提案から選択することを好む。 参加者が非ディゲティックなプロンプトを提供したとき、インスピレーションや話題、事実を求めることが目的だった。 特に1つの提案は、ダイジェティック情報と非ジジェティック情報の両方で導かれた。 本研究は,(1)非ディジタルなプロンプトを書くためには努力が必要であること,(2)ダイジェティックなプロンプトと非デジタルなプロンプトを組み合わせること,(3)彼らのドラフト(つまりダイジェティックな情報)と提案タイミングを用いてLSMを戦略的に導くことを明らかにする。

We propose a conceptual perspective on prompts for Large Language Models (LLMs) that distinguishes between (1) diegetic prompts (part of the narrative, e.g. "Once upon a time, I saw a fox..."), and (2) non-diegetic prompts (external, e.g. "Write about the adventures of the fox."). With this lens, we study how 129 crowd workers on Prolific write short texts with different user interfaces (1 vs 3 suggestions, with/out non-diegetic prompts; implemented with GPT-3): When the interface offered multiple suggestions and provided an option for non-diegetic prompting, participants preferred choosing from multiple suggestions over controlling them via non-diegetic prompts. When participants provided non-diegetic prompts it was to ask for inspiration, topics or facts. Single suggestions in particular were guided both with diegetic and non-diegetic information. This work informs human-AI interaction with generative models by revealing that (1) writing non-diegetic prompts requires effort, (2) people combine diegetic and non-diegetic prompting, and (3) they use their draft (i.e. diegetic information) and suggestion timing to strategically guide LLMs.
翻訳日:2023-03-07 15:40:34 公開日:2023-03-06
# 単位制約に導かれる物理学の深い記号的回帰--物理法則の自動発見に向けて

Deep symbolic regression for physics guided by units constraints: toward the automated discovery of physical laws ( http://arxiv.org/abs/2303.03192v1 )

ライセンス: Link先を確認
Wassim Tenachi, Rodrigo Ibata and Foivos I. Diakogiannis(参考訳) シンボリック回帰(英: Symbolic Regression)は、データに適合する解析式を自動検索するアルゴリズムの研究である。 ディープラーニングの最近の進歩は、このようなアプローチに対する新たな関心を生んでいるが、私たちのデータに関連する単位のために重要な制約がある物理学には、取り組みは注がれていない。 本稿では,深層強化学習手法を用いて物理データから解析的記号表現を復元する物理記号最適化フレームワークである$\phi$-soを提案する。 我々のシステムは、建設によって物理ユニットが一貫したソリューションを提案するために、ゼロから構築されている。 これは物理的に不可能な解を除去するだけでなく、方程式生成器の自由を著しく制限し、性能を大幅に改善する。 このアルゴリズムはノイズのないデータに適合させることができ、例えば物理モデルの解析的性質を導出しようとするときに有用であり、ノイズデータに対する解析的近似を得るのにも使うことができる。 我々の機械は天体物理学の例のパネルで紹介する。

Symbolic Regression is the study of algorithms that automate the search for analytic expressions that fit data. While recent advances in deep learning have generated renewed interest in such approaches, efforts have not been focused on physics, where we have important additional constraints due to the units associated with our data. Here we present $\Phi$-SO, a Physical Symbolic Optimization framework for recovering analytical symbolic expressions from physics data using deep reinforcement learning techniques by learning units constraints. Our system is built, from the ground up, to propose solutions where the physical units are consistent by construction. This is useful not only in eliminating physically impossible solutions, but because it restricts enormously the freedom of the equation generator, thus vastly improving performance. The algorithm can be used to fit noiseless data, which can be useful for instance when attempting to derive an analytical property of a physical model, and it can also be used to obtain analytical approximations to noisy data. We showcase our machinery on a panel of examples from astrophysics.
翻訳日:2023-03-07 15:39:35 公開日:2023-03-06
# 確率論理シールドによる安全強化学習

Safe Reinforcement Learning via Probabilistic Logic Shields ( http://arxiv.org/abs/2303.03226v1 )

ライセンス: Link先を確認
Wen-Chi Yang, Giuseppe Marra, Gavin Rens, Luc De Raedt(参考訳) セーフ強化学習(Safe RL)は、安全を維持しながら最適なポリシーを学ぶことを目的としている。 Safe RLの一般的な解決策はシールドである。これは論理的安全仕様を使用して、RLエージェントが安全でないアクションを取らないようにする。 しかし、従来の遮蔽技術は、連続的なエンドツーエンドの深層RL法と統合することは困難である。 この目的のために、確率論理ポリシーグラディエント(PLPG)を紹介する。 plpgはモデルベースの安全なrl技術であり、確率論理プログラミングを用いて論理安全制約を微分可能な関数としてモデル化する。 したがって、PLPGは任意のポリシー勾配アルゴリズムにシームレスに適用でき、同じ収束保証を提供する。 本実験では,PLPGが他の最先端遮蔽技術と比較して安全で報奨的な政策を学習することを示した。

Safe Reinforcement learning (Safe RL) aims at learning optimal policies while staying safe. A popular solution to Safe RL is shielding, which uses a logical safety specification to prevent an RL agent from taking unsafe actions. However, traditional shielding techniques are difficult to integrate with continuous, end-to-end deep RL methods. To this end, we introduce Probabilistic Logic Policy Gradient (PLPG). PLPG is a model-based Safe RL technique that uses probabilistic logic programming to model logical safety constraints as differentiable functions. Therefore, PLPG can be seamlessly applied to any policy gradient algorithm while still providing the same convergence guarantees. In our experiments, we show that PLPG learns safer and more rewarding policies compared to other state-of-the-art shielding techniques.
翻訳日:2023-03-07 15:37:11 公開日:2023-03-06
# 単一およびマルチフレーム画像の超解像合成:解析的視点

Combination of Single and Multi-frame Image Super-resolution: An Analytical Perspective ( http://arxiv.org/abs/2303.03212v1 )

ライセンス: Link先を確認
Mohammad Mahdi Afrasiabi, Reshad Hosseini, Aliazam Abbasfar(参考訳) 超解像度は、1つ以上の低解像度画像から高解像度画像を得る過程である。 単一の画像超解像 (SISR) とマルチフレーム超解像 (MFSR) 法は、ほぼ独立して進化してきた。 この分野での無視された研究は、SISRとMFSRの最適な組み合わせを見つける理論的解析である。 このギャップを埋めるために,反復的縮小としきい値決定アルゴリズムに基づく理論解析を提案する。 我々は, sisr と mfsr を組み合わせるためのいくつかの手法を実装し比較し, シミュレーションの結果から, 定量的および定性的に, 理論解析の探索を支援する。

Super-resolution is the process of obtaining a high-resolution image from one or more low-resolution images. Single image super-resolution (SISR) and multi-frame super-resolution (MFSR) methods have been evolved almost independently for years. A neglected study in this field is the theoretical analysis of finding the optimum combination of SISR and MFSR. To fill this gap, we propose a novel theoretical analysis based on the iterative shrinkage and thresholding algorithm. We implement and compare several approaches for combining SISR and MFSR, and simulation results support the finding of our theoretical analysis, both quantitatively and qualitatively.
翻訳日:2023-03-07 15:36:59 公開日:2023-03-06
# 変分オートエンコーダを用いた安全監視型自律ロボットのラストミル配送における有効探索空間の学習

Using a Variational Autoencoder to Learn Valid Search Spaces of Safely Monitored Autonomous Robots for Last-Mile Delivery ( http://arxiv.org/abs/2303.03211v1 )

ライセンス: Link先を確認
Peter J. Bentley, Soo Ling Lim, Paolo Arcaini, Fuyuki Ishikawa(参考訳) 顧客に商品を届けるための自律ロボットの利用は、信頼性と持続可能なサービスを提供するためのエキサイティングな新しい方法だ。 しかし、現実の世界では、自律ロボットは安全のために人間の監督を必要とする。 我々は、自律ロボットのタイミングを最適化して配達を最大化する現実的な問題に取り組み、安全に監視できるように、同時に走るロボットが多すぎることを保証する。 我々は,最近のハイブリッド機械学習最適化手法であるCOIL (Constrained optimization in learn latent space) を用いて,この問題のバリエーションを探索するためのベースライン遺伝的アルゴリズムと比較した。 また,COILの高速化と効率向上のための新しい手法についても検討した。 テストされた全ての問題に対して,適切な数のロボットが同時に動作するような有効な解はCOILでのみ見つかることを示す。 また,COILが遅延表現を学習した場合には,GAよりも10%高速に最適化できることが示され,毎日の配達要求をロボットに割り当てるロボットの再最適化において,同時に走るロボットの安全数を確保できる。

The use of autonomous robots for delivery of goods to customers is an exciting new way to provide a reliable and sustainable service. However, in the real world, autonomous robots still require human supervision for safety reasons. We tackle the realworld problem of optimizing autonomous robot timings to maximize deliveries, while ensuring that there are never too many robots running simultaneously so that they can be monitored safely. We assess the use of a recent hybrid machine-learningoptimization approach COIL (constrained optimization in learned latent space) and compare it with a baseline genetic algorithm for the purposes of exploring variations of this problem. We also investigate new methods for improving the speed and efficiency of COIL. We show that only COIL can find valid solutions where appropriate numbers of robots run simultaneously for all problem variations tested. We also show that when COIL has learned its latent representation, it can optimize 10% faster than the GA, making it a good choice for daily re-optimization of robots where delivery requests for each day are allocated to robots while maintaining safe numbers of robots running at once.
翻訳日:2023-03-07 15:36:47 公開日:2023-03-06
# 次世代のE-textileを刺激する新しいAI技術

Emerging AI Technologies Inspiring the Next Generation of E-textiles ( http://arxiv.org/abs/2303.03205v1 )

ライセンス: Link先を確認
Frances Cleary, Witawas Srisa-An, David C. Henshall and Sasitharan Balasubramaniam(参考訳) スマート・テキスタイルとウェアラブル分野は、急速に成長する繊維産業の中で、業界、消費者、そして新しい革新的なテキスタイルのアプリケーション需要を満たすテクノロジーの進歩を目指している。 人間の脳の生物学的神経活動に基づく並列インスピレーションは、次世代の人工知能を駆動している。 人工知能にインスパイアされたハードウェア(ニューロモルフィックコンピューティング)とソフトウェアモジュールは、ニューラルネットワークと人間の神経システムの処理能力と特性を模倣している。 繊維分野は、新しい、革新的な組み込みインテリジェンスの発展を刺激するために、彼らの仕事や加工方法から着想を得て、新しい、新しい、新しいテクノロジーを積極的に検討する必要がある。 次世代人工知能(AI)は、さまざまな産業(テキスタイル、医療、自動車、航空宇宙、軍)で急速に関心を集めている。 このような性質が、etextilesセクター内でどのように発展を刺激し、推進するかを考える必要がある。 本稿では,繊維分野におけるニューロモルフィックコンピューティングとスパイクニューラルネットワークによるAI技術の潜在的な応用に関する今後のビジョンと方向性に焦点をあてる前に,現在のナノテクノロジーと人工知能のエテキスタイル領域における進歩について考察する。 人工ニューラルネットワークの中核となるアーキテクチャ要素、ニューロモルフィックコンピューティング、そしてそのような神経科学にインスパイアされた技術が、e-textileセクターにおける変化や新しい研究にどのように影響し、刺激を与えるかを検討する。

The smart textile and wearables sector is looking towards advancing technologies to meet both industry, consumer and new emerging innovative textile application demands, within a fast paced textile industry. In parallel inspiration based on the biological neural workings of the human brain is driving the next generation of artificial intelligence. Artificial intelligence inspired hardware (neuromorphic computing) and software modules mimicking the processing capabilities and properties of neural networks and the human nervous system are taking shape. The textile sector needs to actively look at such emerging and new technologies taking inspiration from their workings and processing methods in order to stimulate new and innovative embedded intelligence advancements in the etextile world. This emerging next generation of Artificial intelligence(AI) is rapidly gaining interest across varying industries (textile, medical, automotive, aerospace, military). How such properties can inspire and drive advancements within the etextiles sector needs to be considered. This paper will provide an insight into current nanotechnology and artificial intelligence advancements in the etextiles domain before focusing specifically on the future vision and direction around the potential application of neuromorphic computing and spiking neural network inspired AI technologies within the textile sector. We investigate the core architectural elements of artificial neural networks, neuromorphic computing and how such neuroscience inspired technologies could impact and inspire change and new research developments within the e-textile sector.
翻訳日:2023-03-07 15:36:28 公開日:2023-03-06
# 資源割当を制約するオンラインアルゴリズム

An Online Algorithm for Chance Constrained Resource Allocation ( http://arxiv.org/abs/2303.03254v1 )

ライセンス: Link先を確認
Yuwei Chen, Zengde Deng, Yinzhi Zhou, Zaiyi Chen, Yujie Chen, Haoyuan Hu(参考訳) 本稿では,オンライン確率的資源配分問題(RAP)を確率制約で検討する。 オンラインRAPは0-1整数線形計画問題であり、リソース消費係数とそれに対応する収益係数を列で表す。 カラムが露見されると、対応する決定変数は、将来の情報なしで瞬時に決定される。 さらに、オンラインアプリケーションでは、リソース消費係数は予測によって得られることが多い。 不確実性をモデル化するために、私たちは機会制約を考慮に入れます。 私たちの知る限りでは、オンラインRAP問題に制約が導入されるのはこれが初めてです。 不確実変数がガウス分布を知っていれば、確率RAPは整数二階錐の制約を伴う決定論的だが非線形問題に変換できる。 次に、この非線形問題を線形化し、線形化確率RAPを解くためのバニラオンライン原始双対アルゴリズムの性能を解析する。 穏やかな技術的仮定の下では、最適性ギャップと制約違反はともに$\sqrt{n}$の順序である。 次に, アルゴリズムの性能をさらに向上させるために, ヒューリスティック補正を施したオンライン原始アルゴリズムを複数提案する。 最後に,合成データと実データの両方について広範な数値実験を行い,本手法の適用性と有効性を示した。

This paper studies the online stochastic resource allocation problem (RAP) with chance constraints. The online RAP is a 0-1 integer linear programming problem where the resource consumption coefficients are revealed column by column along with the corresponding revenue coefficients. When a column is revealed, the corresponding decision variables are determined instantaneously without future information. Moreover, in online applications, the resource consumption coefficients are often obtained by prediction. To model their uncertainties, we take the chance constraints into the consideration. To the best of our knowledge, this is the first time chance constraints are introduced in the online RAP problem. Assuming that the uncertain variables have known Gaussian distributions, the stochastic RAP can be transformed into a deterministic but nonlinear problem with integer second-order cone constraints. Next, we linearize this nonlinear problem and analyze the performance of vanilla online primal-dual algorithm for solving the linearized stochastic RAP. Under mild technical assumptions, the optimality gap and constraint violation are both on the order of $\sqrt{n}$. Then, to further improve the performance of the algorithm, several modified online primal-dual algorithms with heuristic corrections are proposed. Finally, extensive numerical experiments on both synthetic and real data demonstrate the applicability and effectiveness of our methods.
翻訳日:2023-03-07 15:30:56 公開日:2023-03-06
# サイバー犯罪を知る: 大規模ユーザ偽造の犯罪市場をリードするアクティブなプロファイル販売の測定によるアタッカー選好の評価

Know Your Cybercriminal: Evaluating Attacker Preferences by Measuring Profile Sales on an Active, Leading Criminal Market for User Impersonation at Scale ( http://arxiv.org/abs/2303.03249v1 )

ライセンス: Link先を確認
Michele Campobasso, Luca Allodi(参考訳) 本稿では,ロシアの主要なサイバー犯罪市場であるユーザ偽装市場の特徴を活用し,盗んだユーザプロファイルの購入時の攻撃者の嗜好や,市場全体の経済活動を評価する。 私たちは161ドルの期間にわたってデータ収集を行い、その期間に宣伝された製品1,357ドルのうち、193ドルのユーザプロファイルをサンプルとして収集し、それらの特徴と特徴を収集します。 市場取引額は1日あたり700ドル程度と見積もられており、推定1日あたりの売上高は4万ドル、市場全体の売上は540万ドルから715万ドルの間と見積もられている。 プロファイル設定は時間とともにかなり安定しており、主にヨーロッパのプロファイルに焦点を当てているのに対して、実際のプロファイル取得は他のプロファイル特性によって大きく異なる。 攻撃者の興味は、北米に起源を持つものや、$crypto$のリソースを含む特定のタイプのプロファイルに不当に焦点を合わせている。 攻撃者がプロファイルを購入する最終決定において、異なるプロファイル特性の相対的重要性をモデル化し、評価し、防御とリスク評価について論じる。

In this paper we exploit market features proper of a leading Russian cybercrime market for user impersonation at scale to evaluate attacker preferences when purchasing stolen user profiles, and the overall economic activity of the market. We run our data collection over a period of $161$ days and collect data on a sample of $1'193$ sold user profiles out of $11'357$ advertised products in that period and their characteristics. We estimate a market trade volume of up to approximately $700$ profiles per day, corresponding to estimated daily sales of up to $4'000$ USD and an overall market revenue within the observation period between $540k$ and $715k$ USD. We find profile provision to be rather stable over time and mainly focused on European profiles, whereas actual profile acquisition varies significantly depending on other profile characteristics. Attackers' interests focus disproportionally on profiles of certain types, including those originating in North America and featuring $crypto$ resources. We model and evaluate the relative importance of different profile characteristics in the final decision of an attacker to purchase a profile, and discuss implications for defenses and risk evaluation.
翻訳日:2023-03-07 15:30:41 公開日:2023-03-06
# 医用画像解析における深層学習の不確かさの評価

Evaluating the Fairness of Deep Learning Uncertainty Estimates in Medical Image Analysis ( http://arxiv.org/abs/2303.03242v1 )

ライセンス: Link先を確認
Raghav Mehta, Changjian Shui, Tal Arbel(参考訳) 深層学習モデルは多くの医用画像解析タスクで大きな成功を収めているが、その結果得られたモデルの実際の臨床コンテキストへの展開には、(1)異なるサブ人口にまたがる堅牢性と公平性を示し、(2)dlモデル予測の信頼性を不確実性の形で正確に表現することが必要である。 残念なことに、最近の研究では、人口統計学的サブグループ(例えば、人種、性別、年齢)でDLモデルに顕著なバイアスが見られ、そのモデルに公平性が欠如していることが示されている。 ML文献では、DLモデルの公平性の欠如を緩和するためにいくつかの方法が提案されているが、不確実性推定の影響を考慮せずに、グループ間の絶対的な性能に完全に焦点を当てている。 本稿では,医療画像解析における下位群間のバイアスの克服と不確実性定量化への効果について,人気のフェアネスモデルが与える影響について,まず最初に検討する。 3つの異なる臨床的タスクについて広範な実験を行う。 (i)皮膚病変分類 (ii)脳腫瘍の分画、及び (3)アルツハイマー病の臨床成績の回帰。 この結果から,データ分散や分散ロバストな最適化といった一般的なML手法が,タスクのモデル性能の観点から公平性の問題を軽減することに成功した。 しかし、これはモデル予測に関連する不確実性推定のコストがかかる可能性がある。 このトレードオフは、医療画像解析にフェアネスモデルを採用する場合、緩和されなければならない。

Although deep learning (DL) models have shown great success in many medical image analysis tasks, deployment of the resulting models into real clinical contexts requires: (1) that they exhibit robustness and fairness across different sub-populations, and (2) that the confidence in DL model predictions be accurately expressed in the form of uncertainties. Unfortunately, recent studies have indeed shown significant biases in DL models across demographic subgroups (e.g., race, sex, age) in the context of medical image analysis, indicating a lack of fairness in the models. Although several methods have been proposed in the ML literature to mitigate a lack of fairness in DL models, they focus entirely on the absolute performance between groups without considering their effect on uncertainty estimation. In this work, we present the first exploration of the effect of popular fairness models on overcoming biases across subgroups in medical image analysis in terms of bottom-line performance, and their effects on uncertainty quantification. We perform extensive experiments on three different clinically relevant tasks: (i) skin lesion classification, (ii) brain tumour segmentation, and (iii) Alzheimer's disease clinical score regression. Our results indicate that popular ML methods, such as data-balancing and distributionally robust optimization, succeed in mitigating fairness issues in terms of the model performances for some of the tasks. However, this can come at the cost of poor uncertainty estimates associated with the model predictions. This tradeoff must be mitigated if fairness models are to be adopted in medical image analysis.
翻訳日:2023-03-07 15:30:19 公開日:2023-03-06
# 非対数凹サンプリングの収束率と対数分割推定

Convergence Rates for Non-Log-Concave Sampling and Log-Partition Estimation ( http://arxiv.org/abs/2303.03237v1 )

ライセンス: Link先を確認
David Holzm\"uller, Francis Bach(参考訳) Gibbsディストリビューションからサンプリングする$p(x) \propto \exp(-V(x)/\varepsilon)$とそれらのログ分割関数の計算は統計学、機械学習、統計物理学の基本的なタスクである。 しかしながら、効率的なアルゴリズムは凸ポテンシャル$V$で知られているが、非凸の場合、最悪の場合、アルゴリズムが必然的に次元性の呪いに苦しむ場合、状況ははるかに困難である。 サンプリングの低温限界と見なすことができる最適化のために、滑らかな関数 $v$ はより高速な収束率を可能にすることが知られている。 具体的には、$d$次元における$m$-times微分可能関数の場合、$n$関数評価を持つアルゴリズムの最適レートは$O(n^{-m/d})$であることが知られており、定数は$m, d$と最適化される関数に依存する可能性がある。 したがって、次元性の呪いは少なくとも収束率の観点から滑らかな函数に対して緩和することができる。 近年、多項式ランタイム $o(n^{3.5})$ でも同様の速さを達成できることが示されており、指数 $3.5$ は $m$ または $d$ から独立している。 したがって、サンプリングとログ分割計算の類似のレートが可能か、あるいは$m$と$d$に依存しない指数で多項式時間で実現可能かどうかを問うのは自然である。 サンプリングおよびログ分割計算の最適レートは、最適化よりも等しく、時として高速であることを示す。 次に,最近期待されている最適化手法の拡張を含む様々な多項式時間サンプリングアルゴリズムを分析し,興味ある振る舞いを呈するが、ほぼ最適に近い速度は示さないことを示す。 また,サンプリング,ログ分割,最適化問題との関係についても考察した。

Sampling from Gibbs distributions $p(x) \propto \exp(-V(x)/\varepsilon)$ and computing their log-partition function are fundamental tasks in statistics, machine learning, and statistical physics. However, while efficient algorithms are known for convex potentials $V$, the situation is much more difficult in the non-convex case, where algorithms necessarily suffer from the curse of dimensionality in the worst case. For optimization, which can be seen as a low-temperature limit of sampling, it is known that smooth functions $V$ allow faster convergence rates. Specifically, for $m$-times differentiable functions in $d$ dimensions, the optimal rate for algorithms with $n$ function evaluations is known to be $O(n^{-m/d})$, where the constant can potentially depend on $m, d$ and the function to be optimized. Hence, the curse of dimensionality can be alleviated for smooth functions at least in terms of the convergence rate. Recently, it has been shown that similarly fast rates can also be achieved with polynomial runtime $O(n^{3.5})$, where the exponent $3.5$ is independent of $m$ or $d$. Hence, it is natural to ask whether similar rates for sampling and log-partition computation are possible, and whether they can be realized in polynomial time with an exponent independent of $m$ and $d$. We show that the optimal rates for sampling and log-partition computation are sometimes equal and sometimes faster than for optimization. We then analyze various polynomial-time sampling algorithms, including an extension of a recent promising optimization approach, and find that they sometimes exhibit interesting behavior but no near-optimal rates. Our results also give further insights on the relation between sampling, log-partition, and optimization problems.
翻訳日:2023-03-07 15:29:49 公開日:2023-03-06
# テキスト解釈支援のための議論グラフの可視化について

On the Visualisation of Argumentation Graphs to Support Text Interpretation ( http://arxiv.org/abs/2303.03235v1 )

ライセンス: Link先を確認
Hanadi Mardah, Oskar Wysocki, Markel Vigo and Andre Freitas(参考訳) 自然言語処理(NLP)手法の最近の進化、特に議論マイニングの分野では、複雑な談話や議論の解釈と分析を支えながら、私たちがテキストと対話する方法を変える可能性がある。 複雑な議論のグラフィック視覚化は、議論をより批判的な解釈を可能にするか? 本研究は,議論の解釈を支援するための正規テキストと比較して,議論グラフ(AG)の影響を分析することに焦点を当てた。 AGは、ほとんどのUEQスケールにおいて、時間的・物理的要求ではなく、NASA-TLXのワークロードよりもパフォーマンスが優れています。 AGモデルは、テキストベースとAGモデルの両方が、ワーキングメモリと参加者決定の変更という観点で批判的な解釈において、同等の結果を得たにもかかわらず、より多くの参加者によって好まれた。 解釈過程はAGにおける議論スキーム(批判的質問(CQ)にリンク)を参照することを含む。 興味深いことに、参加者は議論トピックに詳しくない場合、より多くのCQ(AGの議論スキーム)を選択し、いくつかのスケール(相対的に)でAGスキームを解釈プロセスを支持するようにしました。 したがって、adsは議論の解釈、特に不慣れな話題に対してより批判的なアプローチを提供すると考えられた。 本研究で行った25名の参加者から,AGは議論解釈プロセスに全体的に肯定的な効果を示したようである。

The recent evolution in Natural Language Processing (NLP) methods, in particular in the field of argumentation mining, has the potential to transform the way we interact with text, supporting the interpretation and analysis of complex discourse and debates. Can a graphic visualisation of complex argumentation enable a more critical interpretation of the arguments? This study focuses on analysing the impact of argumentation graphs (AGs) compared with regular texts for supporting argument interpretation. We found that AGs outperformed the extrinsic metrics throughout most UEQ scales as well as the NASA-TLX workload in all the terms but not in temporal or physical demand. The AG model was liked by a more significant number of participants, despite the fact that both the text-based and AG models yielded comparable outcomes in the critical interpretation in terms of working memory and altering participants decisions. The interpretation process involves reference to argumentation schemes (linked to critical questions (CQs)) in AGs. Interestingly, we found that the participants chose more CQs (using argument schemes in AGs) when they were less familiar with the argument topics, making AG schemes on some scales (relatively) supportive of the interpretation process. Therefore, AGs were considered to deliver a more critical approach to argument interpretation, especially with unfamiliar topics. Based on the 25 participants conducted in this study, it appears that AG has demonstrated an overall positive effect on the argument interpretation process.
翻訳日:2023-03-07 15:29:21 公開日:2023-03-06
# 900kmの光ファイバを用いた信頼ノードのリピータチェーンへのアップグレード要件

Requirements for upgrading trusted nodes to a repeater chain over 900 km of optical fiber ( http://arxiv.org/abs/2303.03234v1 )

ライセンス: Link先を確認
Francisco Ferreira da Silva and Guus Avis and Joshua A. Slater and Stephanie Wehner(参考訳) ボン市とベルリン市を結ぶ実世界の繊維グリッド上での絡み合いの分布について数値解析を行った。 この接続は、およそ900kmにわたる処理ノード量子リピータの連鎖を用いて実現される。 ハードウェア要件の最小化が,対象アプリケーションやチェーン内のリピータ数にどの程度依存しているかを調査した。 ブラインド量子コンピューティングの要件は、量子鍵分布の要件と著しく異なり、必要なコヒーレンス時間は前者の約2倍程度である。 また,高い頻度で発生する比較的低い品質の絡み合い状態は高いリピータに好まれる一方で,低い速度で発生する比較的高品質な状態は低いリピータに好まれるという,異なるリピータを使用する場合の目標秘密鍵レートの達成に関するトレードオフを観察した。 この結果を得るために,量子ネットワーク用離散イベントシミュレータnetsquidを用いて大規模シミュレーションフレームワークを構築した。 これらは、最小限のハードウェア要件を決定する遺伝的アルゴリズムに基づく最適化手法と組み合わせられる。

We perform a numerical study of the distribution of entanglement on a real-world fiber grid connecting the German cities of Bonn and Berlin. The connection is realized using a chain of processing-node quantum repeaters spanning roughly 900 kilometers. We investigate how minimal hardware requirements depend on the target application, as well as on the number of repeaters in the chain. We find that requirements for blind quantum computing are markedly different than those for quantum key distribution, with the required coherence time being around two and a half times larger for the former. Further, we observe a trade-off regarding how target secret-key rates are achieved when using different numbers of repeaters: comparatively low-quality entangled states generated at a high rate are preferred for higher numbers of repeaters, whereas comparatively high-quality states generated at a lower rate are favored for lower numbers of repeaters. To obtain our results we employ an extensive simulation framework implemented using NetSquid, a discrete-event simulator for quantum networks. These are combined with an optimization methodology based on genetic algorithms to determine minimal hardware requirements.
翻訳日:2023-03-07 15:28:56 公開日:2023-03-06
# styo: 顔をワンショットでスタイリッシュする

StyO: Stylize Your Face in Only One-Shot ( http://arxiv.org/abs/2303.03231v1 )

ライセンス: Link先を確認
Bonan Li, Zicheng Zhang, Xuecheng Nie, Congying Han, Yinhan Hu, Tiande Guo(参考訳) 本稿では,1つの芸術的対象による顔のスタイライゼーションに焦点をあてる。 このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。 ここでは,新しいstyoモデルieを提案する。 上記の問題を解決するために、顔をワンショットでスタイリッシュする。 特に、StyOは混乱と再結合戦略を利用する。 まず、ソースとターゲットの画像の内容とスタイルを識別子に切り離し、それを横断的に再結合して、スタイリングされた顔画像を生成する。 このようにして、styoは複雑な画像を独立して特定の属性に分解し、入力画像から異なる属性の組み合わせとしてワンショットのフェイススタイライゼーションを単純化し、対象画像の顔形状とソース画像のコンテンツとのマッチングをより良くする。 StyOは遅延拡散モデル(LDM)で実装され、2つの主要なモジュールから構成される。 1)不整合位相のための識別器非整合学習器(IDL) 識別子をコントラストテキストプロンプトとして表現します。 肯定的かつ否定的な記述。 そして、トレーニング済みのLDMを微調整して、スタイルとコンテンツを対応する識別子に符号化する新しいトリプル再構築損失を導入する。 2) 組換えフェーズ用の細粒度コンテンツコントローラ(FCC)。 IDLから切り離された識別子を再結合し、スタイル化された顔を生成するための拡張テキストプロンプトを形成する。 さらにFCCは、潜在機能とテキスト機能の横断的アテンションマップを制約して、結果のソース顔の詳細を保存している。 StyOは様々なスタイルの絵画で高品質な映像を制作し、現状よりも優れていた。 コードは受理時にリリースされる。

This paper focuses on face stylization with a single artistic target. Existing works for this task often fail to retain the source content while achieving geometry variation. Here, we present a novel StyO model, ie. Stylize the face in only One-shot, to solve the above problem. In particular, StyO exploits a disentanglement and recombination strategy. It first disentangles the content and style of source and target images into identifiers, which are then recombined in a cross manner to derive the stylized face image. In this way, StyO decomposes complex images into independent and specific attributes, and simplifies one-shot face stylization as the combination of different attributes from input images, thus producing results better matching face geometry of target image and content of source one. StyO is implemented with latent diffusion models (LDM) and composed of two key modules: 1) Identifier Disentanglement Learner (IDL) for disentanglement phase. It represents identifiers as contrastive text prompts, ie. positive and negative descriptions. And it introduces a novel triple reconstruction loss to fine-tune the pre-trained LDM for encoding style and content into corresponding identifiers; 2) Fine-grained Content Controller (FCC) for the recombination phase. It recombines disentangled identifiers from IDL to form an augmented text prompt for generating stylized faces. In addition, FCC also constrains the cross-attention maps of latent and text features to preserve source face details in results. The extensive evaluation shows that StyO produces high-quality images on numerous paintings of various styles and outperforms the current state-of-the-art. Code will be released upon acceptance.
翻訳日:2023-03-07 15:28:37 公開日:2023-03-06
# 弱相互作用するボース気体の力学理論における絡み合いの緩和

Taming the entanglement in the dynamical theory of weakly interacting Bose gases ( http://arxiv.org/abs/2303.03230v1 )

ライセンス: Link先を確認
Michiel Wouters(参考訳) 弱相互作用するボース気体の動力学は時間依存のボゴリューボフ理論によって記述できることを示す。 このアプローチの新規性は、純粋な状態の絡み合いエントロピーを統計的混合のフォン・ノイマンエントロピーに徐々に変換するデコヒーレンスステップを含むことである。 この近似はシステムの状態を表すのに必要な絡み合いを劇的に減少させ、平均場の極限では指数関数的に正確になる。 このスキームは、基底状態が変動波関数によってよく近似できる全ての量子系に拡張できると私は論じる。 結論は、ほとんど全ての量子系の力学は、小さな量子揺らぎを補う確率的古典運動に還元できるということである。

I show that the dynamics of the weakly interacting bose gas can be described by a modified time dependent Bogoliubov theory. The novelty of the approach is to include decoherence steps that gradually transform the entanglement entropy of the pure state into the von Neumann entropy of a statistical mixture. This approximation drastically reduces the entanglement that is needed in order to represent the system's state while becoming exponentially accurate in the mean field limit. I argue that this scheme can be extended to all quantum systems whose ground state can be well approximated by a variational wave function. The upshot is that the dynamics of almost all quantum systems can be reduced to stochastic classical motion supplemented with small quantum fluctuations.
翻訳日:2023-03-07 15:27:58 公開日:2023-03-06
# 並列ハイブリッドネットワーク:量子ニューラルネットワークと古典ニューラルネットワークの相互作用

Parallel Hybrid Networks: an interplay between quantum and classical neural networks ( http://arxiv.org/abs/2303.03227v1 )

ライセンス: Link先を確認
Mohammad Kordzanganeh, Daria Kosichkina, Alexey Melnikov(参考訳) 量子ニューラルネットワークは、最近注目を集めている新しい機械学習パラダイムを表している。 特定の条件下では、これらのモデルは計算されたフーリエ級数でデータセットの分布を近似する。 この適合の三角性の性質は、与えられたデータセットの非調和的特徴に収まるのに苦労する角度埋め込み量子ニューラルネットワークをもたらす可能性がある。 さらに、ニューラルネットワークの解釈可能性も課題である。 本研究では、データセットの入力を並列に渡すハイブリッド量子ニューラルネットワークの新しい解釈可能なクラスを導入する。 1)古典的な多層パーセプトロンと 2) 変分量子回路、次に2つの出力が線形に結合される。 量子ニューラルネットワークは、トレーニングセット上に滑らかな正弦波基底を作り、その後、古典的なパーセプトロンが風景の非調和ギャップを埋めることを観測する。 この主張を,周期分布からサンプリングした2つの合成データセットで実証する。 トレーニングの結果,並列ハイブリッドネットワークアーキテクチャは,雑音を付加した周期データセットの解の最適性を向上する可能性が示唆された。

Quantum neural networks represent a new machine learning paradigm that has recently attracted much attention due to its potential promise. Under certain conditions, these models approximate the distribution of their dataset with a truncated Fourier series. The trigonometric nature of this fit could result in angle-embedded quantum neural networks struggling to fit the non-harmonic features in a given dataset. Moreover, the interpretability of neural networks remains a challenge. In this work, we introduce a new, interpretable class of hybrid quantum neural networks that pass the inputs of the dataset in parallel to 1) a classical multi-layered perceptron and 2) a variational quantum circuit, and then the outputs of the two are linearly combined. We observe that the quantum neural network creates a smooth sinusoidal foundation base on the training set, and then the classical perceptrons fill the non-harmonic gaps in the landscape. We demonstrate this claim on two synthetic datasets sampled from periodic distributions with added protrusions as noise. The training results indicate that the parallel hybrid network architecture could improve the solution optimality on periodic datasets with additional noise.
翻訳日:2023-03-07 15:27:34 公開日:2023-03-06
# 重量摂動は分布シフト下での公平性に役立つ

Weight Perturbation Can Help Fairness under Distribution Shift ( http://arxiv.org/abs/2303.03300v1 )

ライセンス: Link先を確認
Zhimeng Jiang, Xiaotian Han, Hongye Jin, Guanchu Wang, Na Zou, Xia Hu(参考訳) 近年、機械学習の公平性が注目されている。 分散データに対するアルゴリズム的公平性を改善するフェアネス法は、分散シフト下ではうまく機能しない。 本稿では,まず,分布シフト,データの摂動,重みの摂動に固有の関係を理論的に示す。 その後、ソースデータセットの公平性や、センシティブ属性群毎のソースデータセットとターゲットデータセットとの予測差の低さを含む、ターゲットデータセットの公平性(すなわち、低人口比率)を保証するための十分な条件を分析した。 これらの十分な条件により,各属性群に対する重量摂動ボール内の最悪のケースを考慮し,ロバストフェアネス正則化(RFR)を提案する。 このように、最大化問題はモデルパラメータの更新毎に2つの前方および2つの後方伝播として単純化することができる。 提案したRFRアルゴリズムが各種データセット間の合成および実分布シフトに与える影響を評価する。 実験結果から, RFRはいくつかのベースラインと比較して, 公平性と精度のトレードオフ性能が良好であることが示された。

Fairness in machine learning has attracted increasing attention in recent years. The fairness methods improving algorithmic fairness for in-distribution data may not perform well under distribution shift. In this paper, we first theoretically demonstrate the inherent connection between distribution shift, data perturbation, and weight perturbation. Subsequently, we analyze the sufficient conditions to guarantee fairness (i.e., low demographic parity) for the target dataset, including fairness for the source dataset, and low prediction difference between the source and target dataset for each sensitive attribute group. Motivated by these sufficient conditions, we propose robust fairness regularization (RFR) by considering the worst case within the weight perturbation ball for each sensitive attribute group. In this way, the maximization problem can be simplified as two forward and two backward propagations for each update of model parameters. We evaluate the effectiveness of our proposed RFR algorithm on synthetic and real distribution shifts across various datasets. Experimental results demonstrate that RFR achieves better fairness-accuracy trade-off performance compared with several baselines.
翻訳日:2023-03-07 15:20:37 公開日:2023-03-06
# HiGeN:階層型マルチソリューショングラフ生成ネットワーク

HiGeN: Hierarchical Multi-Resolution Graph Generative Networks ( http://arxiv.org/abs/2303.03293v1 )

ライセンス: Link先を確認
Mahdi Karami, Jun Luo(参考訳) 実世界の領域では、ほとんどのグラフは自然に階層構造を示す。 しかし、データ駆動グラフ生成はそのような構造を効果的に捉えていない。 そこで本稿では,階層の各レベルでのトレーニングデータ分布に準拠した生成構造を複数解像度で再帰的に生成する新しい手法を提案する。 グラフ生成は、すべてのサブ構造を並列に生成できる粗大な生成モデルのシーケンスとして設計されており、高いスケーラビリティをもたらす。 さらに、エッジの出力分布をより表現力のある多項分布でモデル化し、この分布に対する再帰的因子化を導出し、グラフ生成モデルに適した選択となる。 これにより、整数値のエッジ重み付きグラフの生成が可能になる。 提案手法は,複数のデータセットの精度と効率の両面で最先端の性能を実現する。

In real world domains, most graphs naturally exhibit a hierarchical structure. However, data-driven graph generation is yet to effectively capture such structures. To address this, we propose a novel approach that recursively generates community structures at multiple resolutions, with the generated structures conforming to training data distribution at each level of the hierarchy. The graphs generation is designed as a sequence of coarse-to-fine generative models allowing for parallel generation of all sub-structures, resulting in a high degree of scalability. Furthermore, we model the output distribution of edges with a more expressive multinomial distribution and derive a recursive factorization for this distribution, making it a suitable choice for graph generative models. This allows for the generation of graphs with integer-valued edge weights. Our method achieves state-of-the-art performance in both accuracy and efficiency on multiple datasets.
翻訳日:2023-03-07 15:20:22 公開日:2023-03-06
# AmQA: Amharic Question Answering Dataset

AmQA: Amharic Question Answering Dataset ( http://arxiv.org/abs/2303.03290v1 )

ライセンス: Link先を確認
Tilahun Abedissa, Ricardo Usbeck, Yaregal Assabie(参考訳) 質問応答(qa)は、コンテキストドキュメントが与えられた自然言語テキストから簡潔な回答や回答リストを返す。 多くのリソースは、堅牢なモデルの開発を進めるために、QAデータセットをキュレートする。 英語のような言語向けのQAデータセットが急増しているが、これはAmharicには当てはまらない。 エチオピアの公用語であるアムハラ語は、世界で2番目に話されているセム語である。 Amharic QAデータセットは公開されていない。 したがって、Amharic QAの研究を促進するために、最初のAmharic QA(AmQA)データセットを提示する。 われわれは2628件のウィキペディア記事をクラウドソーシングした。 さらに、オープンドメインQA研究の関心を喚起するために、XLMR Largeベースのベースラインモデルを実行します。 ベストパフォーマンスのベースラインは、読者検索QAおよび読解設定において、それぞれ69.58と71.74のFスコアを達成する。

Question Answering (QA) returns concise answers or answer lists from natural language text given a context document. Many resources go into curating QA datasets to advance robust models' development. There is a surge of QA datasets for languages like English, however, this is not true for Amharic. Amharic, the official language of Ethiopia, is the second most spoken Semitic language in the world. There is no published or publicly available Amharic QA dataset. Hence, to foster the research in Amharic QA, we present the first Amharic QA (AmQA) dataset. We crowdsourced 2628 question-answer pairs over 378 Wikipedia articles. Additionally, we run an XLMR Large-based baseline model to spark open-domain QA research interest. The best-performing baseline achieves an F-score of 69.58 and 71.74 in reader-retriever QA and reading comprehension settings respectively.
翻訳日:2023-03-07 15:20:09 公開日:2023-03-06
# Wasserstein Believer:Reliable Latent Space Modelによる部分観測可能な環境に対する信頼度更新の学習

The Wasserstein Believer: Learning Belief Updates for Partially Observable Environments through Reliable Latent Space Models ( http://arxiv.org/abs/2303.03284v1 )

ライセンス: Link先を確認
Raphael Avalos, Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez, Diederik M. Roijers(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、エージェントによって完全な状態が認識できない環境をモデル化するための有用なツールである。 このように、エージェントは過去の観察と行動を考慮する必要がある。 しかし、歴史空間の指数的な成長のため、単に歴史全体を記憶することは一般的に難解である。 真の状態に関する信念をモデル化する確率分布を維持することは、歴史の十分な統計量として使用できるが、その計算には環境のモデルへのアクセスが必要であり、また難解である。 現在の最先端アルゴリズムはrecurrent neural network(rnn)を使用して、十分な統計値の学習を目的とした観測行動履歴を圧縮するが、成功の保証がなく、最適でないポリシにつながる可能性がある。 そこで本研究では,pomdpの潜在モデルと信念更新の近似を学習するrlアルゴリズムであるwasserstein-belief-updater(wbu)を提案する。 我々のアプローチは、我々の出力された信念が最適な値関数を学習できるように、近似の品質に関する理論的保証が伴う。

Partially Observable Markov Decision Processes (POMDPs) are useful tools to model environments where the full state cannot be perceived by an agent. As such the agent needs to reason taking into account the past observations and actions. However, simply remembering the full history is generally intractable due to the exponential growth in the history space. Keeping a probability distribution that models the belief over what the true state is can be used as a sufficient statistic of the history, but its computation requires access to the model of the environment and is also intractable. Current state-of-the-art algorithms use Recurrent Neural Networks (RNNs) to compress the observation-action history aiming to learn a sufficient statistic, but they lack guarantees of success and can lead to suboptimal policies. To overcome this, we propose the Wasserstein-Belief-Updater (WBU), an RL algorithm that learns a latent model of the POMDP and an approximation of the belief update. Our approach comes with theoretical guarantees on the quality of our approximation ensuring that our outputted beliefs allow for learning the optimal value function.
翻訳日:2023-03-07 15:19:56 公開日:2023-03-06
# AIのゴーストライター効果:ユーザーはAI生成テキストの所有権を認識せず、著者として自己宣言する

The AI Ghostwriter Effect: Users Do Not Perceive Ownership of AI-Generated Text But Self-Declare as Authors ( http://arxiv.org/abs/2303.03283v1 )

ライセンス: Link先を確認
Fiona Draxler, Anna Werner, Florian Lehmann, Matthias Hoppe, Albrecht Schmidt, Daniel Buschek, Robin Welsch(参考訳) テキスト生成における人間とAIの相互作用は、著者の複雑さを増大させる。 2つの実証研究(n1 = 30 & n2 = 96)において、パーソナライズされた言語生成モデルのための人間とAIのコラボレーションにおけるオーサシップとオーナシップについて検討する。 AIゴーストライター効果: ユーザーは自分自身をAI生成テキストの所有者や著者とはみなさず、公然とAI著者を宣言することを控える。 パーソナライゼーションの程度はAIゴーストライター効果に影響を与えず、モデルのコントロールは参加者の所有権意識を高めた。 また、オーナーシップの感覚と著者宣言の相違は、人間のゴーストライターとのインタラクションにおいてより強く、aiゴーストライターと人間のゴーストライターにおいて、同じような合理化を著者シップに使用することを発見した。 本稿では,テキスト生成タスクにおけるAIのオーサシップフレームワークとユーザインターフェースの適用の基礎となる,心理的オーサシップと人間-AIインタラクションとの関連について論じる。

Human-AI interaction in text production increases complexity in authorship. In two empirical studies (n1 = 30 & n2 = 96), we investigate authorship and ownership in human-AI collaboration for personalized language generation models. We show an AI Ghostwriter Effect: Users do not consider themselves the owners and authors of AI-generated text but refrain from publicly declaring AI authorship. The degree of personalization did not impact the AI Ghostwriter Effect, and control over the model increased participants' sense of ownership. We also found that the discrepancy between the sense of ownership and the authorship declaration is stronger in interactions with a human ghostwriter and that people use similar rationalizations for authorship in AI ghostwriters and human ghostwriters. We discuss how our findings relate to psychological ownership and human-AI interaction to lay the foundations for adapting authorship frameworks and user interfaces in AI in text-generation tasks.
翻訳日:2023-03-07 15:19:35 公開日:2023-03-06
# 視覚的位置認識 : チュートリアル

Visual Place Recognition: A Tutorial ( http://arxiv.org/abs/2303.03281v1 )

ライセンス: Link先を確認
Stefan Schubert, Peer Neubert, Sourav Garg, Michael Milford, Tobias Fischer(参考訳) ローカライゼーションは移動ロボットにとって必須の機能である。 この分野で急速に成長している研究分野として、視覚位置認識(英語版)(vpr)がある。 本研究は視覚的位置認識に関する最初のチュートリアル論文である。 VPRの用語を統一し、先行研究を2つの重要な方向に補完する。 1)VPR問題の定式化,汎用アルゴリズムパイプライン,VPRアプローチの評価方法論,VPRの課題と対処方法など,新参者の分野への体系的な紹介を提供する。 2) VPR問題に精通した研究者への貢献として, 入力, データ処理, 出力に関する様々なVPR問題型の複雑さについて検討した。 チュートリアルではまた、VPRアルゴリズムの評価の背景にある微妙さについても論じている。例えば、単一のマッチングではなく、クエリ毎に一致するデータベースイメージをすべて見つけなければならないVPRシステムの評価である。 Pythonの実践的なコード例は、VPRの実装方法と評価方法を示す。

Localization is an essential capability for mobile robots. A rapidly growing field of research in this area is Visual Place Recognition (VPR), which is the ability to recognize previously seen places in the world based solely on images. This present work is the first tutorial paper on visual place recognition. It unifies the terminology of VPR and complements prior research in two important directions: 1) It provides a systematic introduction for newcomers to the field, covering topics such as the formulation of the VPR problem, a general-purpose algorithmic pipeline, an evaluation methodology for VPR approaches, and the major challenges for VPR and how they may be addressed. 2) As a contribution for researchers acquainted with the VPR problem, it examines the intricacies of different VPR problem types regarding input, data processing, and output. The tutorial also discusses the subtleties behind the evaluation of VPR algorithms, e.g., the evaluation of a VPR system that has to find all matching database images per query, as opposed to just a single match. Practical code examples in Python illustrate to prospective practitioners and researchers how VPR is implemented and evaluated.
翻訳日:2023-03-07 15:19:14 公開日:2023-03-06
# 効率的な量子回路最適化のためのグラフニューラルネットワークオートエンコーダ

Graph Neural Network Autoencoders for Efficient Quantum Circuit Optimisation ( http://arxiv.org/abs/2303.03280v1 )

ライセンス: Link先を確認
Ioana Moflic, Vikas Garg, Alexandru Paler(参考訳) 強化学習(rl)は量子回路最適化の有望な方法である。 しかし、rlエージェントが探索しなければならない状態空間は、局所的な書き換え操作によって量子回路を変換できる可能性をすべて考慮すれば、非常に大きい。 この状態空間の爆発はrlベースの最適化戦略の学習を遅くする。 我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。 我々は、量子回路から有向非巡回グラフを構築し、グラフをエンコードし、rl状態を表すエンコードを使用する。 我々はbernstein-vazirani回路の概念実装の証明を示し、予備的な結果から、我々のオートエンコーダアプローチを結論付ける。 a) 元のRL法の最適性を維持する。 b)学習した最適化戦略を符号化するテーブルのサイズを20%削減する。 本手法は,大規模rl量子回路最適化に向けた最初の現実的な第一歩である。

Reinforcement learning (RL) is a promising method for quantum circuit optimisation. However, the state space that has to be explored by an RL agent is extremely large when considering all the possibilities in which a quantum circuit can be transformed through local rewrite operations. This state space explosion slows down the learning of RL-based optimisation strategies. We present for the first time how to use graph neural network (GNN) autoencoders for the optimisation of quantum circuits. We construct directed acyclic graphs from the quantum circuits, encode the graphs and use the encodings to represent RL states. We illustrate our proof of concept implementation on Bernstein-Vazirani circuits and, from preliminary results, we conclude that our autoencoder approach: a) maintains the optimality of the original RL method; b) reduces by 20 \% the size of the table that encodes the learned optimisation strategy. Our method is the first realistic first step towards very large scale RL quantum circuit optimisation.
翻訳日:2023-03-07 15:18:57 公開日:2023-03-06
# 抽象要約のための忠実性を考慮した復号化戦略

Faithfulness-Aware Decoding Strategies for Abstractive Summarization ( http://arxiv.org/abs/2303.03278v1 )

ライセンス: Link先を確認
David Wan, Mengwen Liu, Kathleen McKeown, Markus Dreyer, Mohit Bansal(参考訳) 抽象的な要約における信条の理解と改善の著しい進歩にもかかわらず、復号戦略が信条にどう影響するかという問題は少ない。 本稿では,ビーム探索や核サンプリングといった生成手法が抽象要約における忠実性に与える影響を体系的に研究する。 ビームサイズが大きいビームサーチが最も忠実なサマリーを生成する一方、核サンプリングが最も忠実でないサマリーを生成するという一貫した傾向を見出す。 提案手法は,(1)自動忠実度指標を用いたビームサーチによって生成される候補のランク付け,(2)将来の要約に忠実度スコアを生成するルックアヘッドヒューリスティックを取り入れた2つの信頼度認識生成手法を提案する。 4つの自動忠実度測定値と人的評価値から2つのデータセット間の信頼度を有意に向上することを示す。 計算コストを削減するため,モデルがグリーディ復号化だけで忠実な要約を生成できる簡単な蒸留手法を実証した。 私たちのコードはhttps://github.com/amazon-science/faithful-summarization-generationで公開されています。

Despite significant progress in understanding and improving faithfulness in abstractive summarization, the question of how decoding strategies affect faithfulness is less studied. We present a systematic study of the effect of generation techniques such as beam search and nucleus sampling on faithfulness in abstractive summarization. We find a consistent trend where beam search with large beam sizes produces the most faithful summaries while nucleus sampling generates the least faithful ones. We propose two faithfulness-aware generation methods to further improve faithfulness over current generation techniques: (1) ranking candidates generated by beam search using automatic faithfulness metrics and (2) incorporating lookahead heuristics that produce a faithfulness score on the future summary. We show that both generation methods significantly improve faithfulness across two datasets as evaluated by four automatic faithfulness metrics and human evaluation. To reduce computational cost, we demonstrate a simple distillation approach that allows the model to generate faithful summaries with just greedy decoding. Our code is publicly available at https://github.com/amazon-science/faithful-summarization-generation
翻訳日:2023-03-07 15:18:44 公開日:2023-03-06
# 確率的および逆的オンライン凸最適化の高速化

Accelerated Rates between Stochastic and Adversarial Online Convex Optimization ( http://arxiv.org/abs/2303.03272v1 )

ライセンス: Link先を確認
Sarah Sachs, Hedi Hadiji, Tim van Erven, Cristobal Guzman(参考訳) 確率的データと敵対的データは、オンライン学習において広く研究されている2つの設定である。 しかし、多くの最適化タスクはi.d.でも完全逆数でもないため、これらの極端点の間の世界をより理論的に理解することへの根本的な関心がある。 本研究では,オンライン凸最適化における新たな後悔の限界を,確率的i.i.d.と完全敵対的損失との補間として確立する。 期待損失の滑らかさを活用することで、この境界は最大勾配長への依存性を、以前は線形損失のみとして知られていた勾配の分散に置き換える。 さらに、彼らはi.d.仮定を弱め、例えば、以前関連する専門家や盗賊の設定で考慮されていた敵に毒を盛ったラウンドを許可する。 完全にi.i.d.の場合、我々の後悔の限界は確率的加速の結果から期待される割合と一致し、オンラインからバッチへの変換によって最適な確率的加速率を回復する。 完全な逆境の場合、我々の限界はミニマックスの後悔に合うように優しく悪化した。 さらに,我々の後悔の上限が,確率的分散と損失勾配の敵対的変動の観点から,すべての中間的レジームに対して厳密であることを示す下限を与える。

Stochastic and adversarial data are two widely studied settings in online learning. But many optimization tasks are neither i.i.d. nor fully adversarial, which makes it of fundamental interest to get a better theoretical understanding of the world between these extremes. In this work we establish novel regret bounds for online convex optimization in a setting that interpolates between stochastic i.i.d. and fully adversarial losses. By exploiting smoothness of the expected losses, these bounds replace a dependence on the maximum gradient length by the variance of the gradients, which was previously known only for linear losses. In addition, they weaken the i.i.d. assumption by allowing, for example, adversarially poisoned rounds, which were previously considered in the related expert and bandit settings. In the fully i.i.d. case, our regret bounds match the rates one would expect from results in stochastic acceleration, and we also recover the optimal stochastically accelerated rates via online-to-batch conversion. In the fully adversarial case our bounds gracefully deteriorate to match the minimax regret. We further provide lower bounds showing that our regret upper bounds are tight for all intermediate regimes in terms of the stochastic variance and the adversarial variation of the loss gradients.
翻訳日:2023-03-07 15:18:26 公開日:2023-03-06
# 非マルコフダイナミクスのシミュレーションによる単一ビット誤差低減

Single Qubit Error Mitigation by Simulating Non-Markovian Dynamics ( http://arxiv.org/abs/2303.03268v1 )

ライセンス: Link先を確認
Mirko Rossini, Dominik Maile, Joachim Ankerhold and Brecht I. C Donvil(参考訳) 量子シミュレーションは、量子システムの特性を研究する強力なツールである。 開量子系のダイナミクスは、いくつかの量子シミュレーションスキームが存在する完全正(cp)写像によってしばしば記述される。 本稿では, 線形な一般力学写像, エルミート保存, トレース保存を行うが, 必ずしも正の保存はしない, という, より大規模なクラスで記述された開キュービット力学のシミュレーションスキームを提案する。 後者は、両方が絡み合っており、従って非マルコフ量子ビット力学であるようなシステム保存モデルを提案する。 このような写像はcp写像の逆数としても現れる。 我々は、lindblad進化の初期状態を復元できることを示すことにより、ibm量子プロセッサ上でのシミュレーションスキームを示す。 これは、新しい形の量子エラー緩和への道を開く。 オーバヘッドとして1つのアシラキュービットと、少数の1と2つのキュービットゲートしか必要としない。

Quantum simulation is a powerful tool to study the properties of quantum systems. The dynamics of open quantum systems are often described by Completely Positive (CP) maps, for which several quantum simulation schemes exist. We present a simulation scheme for open qubit dynamics described by a larger class of maps: the general dynamical maps which are linear, hermitian preserving and trace preserving but not necessarily positivity preserving. The latter suggests an underlying system-reservoir model where both are entangled and thus non-Markovian qubit dynamics. Such maps also come about as the inverse of CP maps. We illustrate our simulation scheme on an IBM quantum processor by showing that we can recover the initial state of a Lindblad evolution. This paves the way for a novel form of quantum error mitigation. Our scheme only requires one ancilla qubit as an overhead and a small number of one and two qubit gates.
翻訳日:2023-03-07 15:18:04 公開日:2023-03-06
# シーケンス再構成に基づく状態空間モデルを用いた時系列異常検出

Time series anomaly detection with sequence reconstruction based state-space model ( http://arxiv.org/abs/2303.03324v1 )

ライセンス: Link先を確認
Fan Wang, Keli Wang, Boyu Yao(参考訳) 近年のデジタル化の進展により、リアルタイムに操作を監視するため、様々な領域で多変量時系列データが利用できるようになった。 これらのシナリオで異常なデータパターンを特定し、潜在的な障害を検出することは、非常に難しい作業である。 時系列データに対する新しい教師なし異常検出手法を提案する。 提案手法では,シーケンスエンコーダとデコーダを用いて時系列と隠れ状態のマッピングを表現し,トレーニングプロセスの前後時間情報を利用して双方向のダイナミクスを同時に学習する。 さらに,正常試料の状態に制約を課すための状態空間を定式化し,マハラノビス距離を用いて異常度を評価する。 合成および実世界のデータセットの結果は,提案手法の優位性を示している。

Recent advances in digitization has led to availability of multivariate time series data in various domains, in order to monitor operations in real time. Identifying abnormal data pattern and detect potential failures in these scenarios are important yet rather difficult tasks. We propose a novel unsupervised anomaly detection method for time series data. Our approach uses sequence encoder and decoder to represent the mapping between time series and hidden state, and learns bidirectional dynamics simultaneously by leveraging backward and forward temporal information in the training process. We further regularize the state space to place constraints on states of normal samples, and use Mahalanobis distance to evaluate abnormality level. Results on synthetic and real-world datasets show the superiority of the proposed method.
翻訳日:2023-03-07 15:12:04 公開日:2023-03-06
# cleanclip: マルチモーダルコントラスト学習におけるデータ中毒攻撃の軽減

CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning ( http://arxiv.org/abs/2303.03323v1 )

ライセンス: Link先を確認
Hritik Bansal, Nishad Singhi, Yu Yang, Fan Yin, Aditya Grover, Kai-Wei Chang(参考訳) マルチモーダルコントラストプリトレーニングは、クリップのようなマルチモーダル表現モデルを膨大な量の画像テキストデータでトレーニングするために利用されてきた。 しかし、過去の研究では、そのようなモデルがバックドア攻撃に対する感受性を強調していた。 特に、バックドアの例に関するトレーニングでは、CLIPは埋め込みバックドアトリガとターゲットラベルの間の素早い相関を学習し、それらの表現を共同埋め込み空間に整列させる。 例えば、3m事前トレーニングデータに75例の有毒な例だけを注入することで、モデルの振る舞いを著しく操作することができるため、そのような相関を検出または解き放つのが困難になる。 そこで本研究では,個別のモダリティの表現を個別に調整することで,バックドア攻撃によって引き起こされる学習的刺激的関連を弱めるための微調整フレームワークであるCleanCLIPを提案する。 cleanCLIPは、ペア画像テキストデータの教師なし微調整とラベル付き画像データの教師なし微調整の両方に使用できる。 本研究では,マルチモーダルコントラストとユニモーダル自己教師付き目標を組み合わせた非教師なし微調整により,バックドア攻撃の影響を著しく低減できることを実証する。 さらに、イメージデータなどの個々のモダリティのタスク固有のラベル付きデータに対する教師付き微調整により、CLIPビジョンエンコーダからバックドアトリガが削除される。 実験により,CleanCLIPは,多様なバックドア攻撃がマルチモーダル・コントラスト学習に与える影響を軽減しつつ,良質な事例に対するモデル性能を維持していることがわかった。

Multimodal contrastive pretraining has been utilized to train multimodal representation models, like CLIP, on vast amounts of paired image-text data. However, previous studies have highlighted the susceptibility of such models to backdoor attacks. Specifically, when training on backdoored examples, CLIP learns spurious correlations between the embedded backdoor trigger and the target label, aligning their representations in the joint embedding space. With injecting only a few poisoned examples e.g., 75 examples in the 3M pretraining data, the model's behavior can be significantly manipulated, thus making it hard to detect or unlearn such correlations. To address this issue, we propose CleanCLIP, a finetuning framework that weakens the learned spurious associations introduced by backdoor attacks by re-aligning the representations for individual modalities independently. CleanCLIP can be employed for both unsupervised finetuning on paired image-text data and for supervised finetuning on labeled image data. We demonstrate that unsupervised finetuning with a combination of multimodal contrastive and unimodal self-supervised objectives for individual modalities can significantly reduce the impact of the backdoor attack. Additionally, supervised finetuning on task-specific labeled data of the individual modality, such as image data, removes the backdoor trigger from the CLIP vision encoder. Empirically, we show that CleanCLIP maintains model performance on benign examples while mitigating the impact of a range of backdoor attacks on multimodal contrastive learning.
翻訳日:2023-03-07 15:11:51 公開日:2023-03-06
# 雑音性ハイパーリンク除去システムの実装:意味論的および関連性的アプローチ

Implementation of a noisy hyperlink removal system: A semantic and relatedness approach ( http://arxiv.org/abs/2303.03321v1 )

ライセンス: Link先を確認
Kazem Taghandiki, Elnaz Rezaei Ehsan(参考訳) Web上のデータの量が増えるにつれて、Webのグラフ表現であるWeb構造グラフが進化し続けています。 このグラフの構造は徐々にコンテンツベースから非コンテンツベースへとシフトしている。 さらに、Web構造グラフにおけるノイズの多いハイパーリンクなどのスパムデータは、情報検索とリンクマイニングアルゴリズムの速度と効率に悪影響を及ぼす。 この領域ではこれまで、構造的および文字列的アプローチによるノイズの多いハイパーリンクの除去に重点を置いてきた。 しかし、これらのアプローチは誤って有用なリンクを取り除いたり、特定の状況下でノイズの多いハイパーリンクを検出できなかったりする可能性がある。 本稿では,まず対話型クローラを用いてハイパーリンクのデータ収集を行う。 ハイパーリンクの意味的および関連性構造は、DBpediaオントロジーのようなセマンティックウェブアプローチやツールを通して研究される。 最後に、DBpediaオントロジー上の推論器を用いてノイズの多いハイパーリンクの除去処理を行う。 我々の実験は、ノイズの多いハイパーリンクを除去するセマンティックウェブ技術の精度と能力を示す。

As the volume of data on the web grows, the web structure graph, which is a graph representation of the web, continues to evolve. The structure of this graph has gradually shifted from content-based to non-content-based. Furthermore, spam data, such as noisy hyperlinks, in the web structure graph adversely affect the speed and efficiency of information retrieval and link mining algorithms. Previous works in this area have focused on removing noisy hyperlinks using structural and string approaches. However, these approaches may incorrectly remove useful links or be unable to detect noisy hyperlinks in certain circumstances. In this paper, a data collection of hyperlinks is initially constructed using an interactive crawler. The semantic and relatedness structure of the hyperlinks is then studied through semantic web approaches and tools such as the DBpedia ontology. Finally, the removal process of noisy hyperlinks is carried out using a reasoner on the DBpedia ontology. Our experiments demonstrate the accuracy and ability of semantic web technologies to remove noisy hyperlinks
翻訳日:2023-03-07 15:11:26 公開日:2023-03-06
# バックドアフェデレーション学習への学習

Learning to Backdoor Federated Learning ( http://arxiv.org/abs/2303.03320v1 )

ライセンス: Link先を確認
Henger Li, Chen Wu, Senchun Zhu, Zizhan Zheng(参考訳) フェデレーション学習(fl)システムでは、悪意のある参加者は、モデルのメインタスクのパフォーマンスを維持しながら、簡単にバックドアを集約モデルに埋め込むことができる。 近年,訓練段階の集約型防御や訓練後の緩和防衛など,様々な防御が提案されている。 これらの防御は、主にヒューリスティックスに基づく既存のバックドア攻撃に対して合理的な性能を得るが、より先進的な攻撃に直面すると不十分であることを示す。 特に,攻撃者がまずローカルデータとFLシステムの共通知識をベースとしたシミュレータを用いて(非明視的)攻撃ポリシーを訓練し,実際のFL訓練中に適用できる汎用強化学習ベースのバックドア攻撃フレームワークを提案する。 我々の攻撃フレームワークは適応的かつ柔軟であり、最先端の防御の下でも強力な攻撃性能と耐久性を実現する。

In a federated learning (FL) system, malicious participants can easily embed backdoors into the aggregated model while maintaining the model's performance on the main task. To this end, various defenses, including training stage aggregation-based defenses and post-training mitigation defenses, have been proposed recently. While these defenses obtain reasonable performance against existing backdoor attacks, which are mainly heuristics based, we show that they are insufficient in the face of more advanced attacks. In particular, we propose a general reinforcement learning-based backdoor attack framework where the attacker first trains a (non-myopic) attack policy using a simulator built upon its local data and common knowledge on the FL system, which is then applied during actual FL training. Our attack framework is both adaptive and flexible and achieves strong attack performance and durability even under state-of-the-art defenses.
翻訳日:2023-03-07 15:11:11 公開日:2023-03-06
# パスエッジサンプリングのための量子アルゴリズム

Quantum Algorithm for Path-Edge Sampling ( http://arxiv.org/abs/2303.03319v1 )

ライセンス: Link先を確認
Stacey Jeffery, Shelby Kimmel, Alvaro Piedrafita(参考訳) 隣接行列として与えられる無向グラフにおいて、2つのノード s と t の間の経路上のエッジをサンプリングする量子アルゴリズムを提案し、これは s と t の間の経路を検出するクエリの複雑さとして、漸近的に同じクエリの複雑さで実現できることを示す。 我々はこの経路サンプリングアルゴリズムを,特定のケースにおいてst-path検索およびst-cut-set発見アルゴリズムのサブルーチンとして利用する。 我々の主な技術的貢献は、スパンプログラムの正の証人ベクトルに比例する量子状態を生成するアルゴリズムである。

We present a quantum algorithm for sampling an edge on a path between two nodes s and t in an undirected graph given as an adjacency matrix, and show that this can be done in query complexity that is asymptotically the same, up to log factors, as the query complexity of detecting a path between s and t. We use this path sampling algorithm as a subroutine for st-path finding and st-cut-set finding algorithms in some specific cases. Our main technical contribution is an algorithm for generating a quantum state that is proportional to the positive witness vector of a span program.
翻訳日:2023-03-07 15:10:55 公開日:2023-03-06
# MACARONS: RGBオンラインセルフスーパービジョンによるマッピングとカバレッジ予測

MACARONS: Mapping And Coverage Anticipation with RGB Online Self-Supervision ( http://arxiv.org/abs/2303.03315v1 )

ライセンス: Link先を確認
Antoine Gu\'edon, Tom Monnier, Pascal Monasse and Vincent Lepetit(参考訳) カラー画像のみから,新たな大規模環境の探索と3次元再構成を同時に行う方法を提案する。 これはNext Best View問題(NBV)と密接に関係しており、未知のシーンのカバレッジを改善するために、カメラの移動先を特定する必要がある。 しかし、現在のNBV手法のほとんどは深度センサーに依存しており、3Dの監視や大規模なシーンへのスケーリングは必要ではない。 私たちの方法はカラーカメラだけで、3D監視は不要です。 これは同時に自己教師方式で学習し、カラー画像から「体積占有場」を予測し、このフィールドからnbvを予測する。 このアプローチにより,本手法はトレーニング3Dデータに偏りがないため,新しいシーンでうまく機能する。 様々な3Dシーンからなる最近のデータセットでこれを実証し、近年の深度センサーを必要とする手法よりも優れた性能を示し、これは飛行ドローンで撮影する屋外シーンの現実的な仮定ではない。

We introduce a method that simultaneously learns to explore new large environments and to reconstruct them in 3D from color images only. This is closely related to the Next Best View problem (NBV), where one has to identify where to move the camera next to improve the coverage of an unknown scene. However, most of the current NBV methods rely on depth sensors, need 3D supervision and/or do not scale to large scenes. Our method requires only a color camera and no 3D supervision. It simultaneously learns in a self-supervised fashion to predict a "volume occupancy field" from color images and, from this field, to predict the NBV. Thanks to this approach, our method performs well on new scenes as it is not biased towards any training 3D data. We demonstrate this on a recent dataset made of various 3D scenes and show it performs even better than recent methods requiring a depth sensor, which is not a realistic assumption for outdoor scenes captured with a flying drone.
翻訳日:2023-03-07 15:10:44 公開日:2023-03-06
# ノイズ型ディジタル量子シミュレータにおける ising meson spectroscopy

Ising Meson Spectroscopy on a Noisy Digital Quantum Simulator ( http://arxiv.org/abs/2303.03311v1 )

ライセンス: Link先を確認
Christopher Lamb, Yicheng Tang, Robert Davis and Ananda Roy(参考訳) 量子シミュレーションは、強相互作用量子場理論(QFT)における非摂動現象の研究に必須の手法である可能性がある。 現代の量子時代には、ノイズの中間スケール量子〜(NISQ)シミュレータが広く利用可能であり、地平線上により大きな量子マシンがあるため、どのような非摂動QFT問題は既存の量子ハードウェアで解決できるのか? 既存の雑音量子マシンは、強い相互作用を持つ1+1D QFTの大きいファミリーのエネルギースペクトルを分析するのに利用できることを示す。 後者は、通常、素粒子の高次元QFTと関連する「クォーク閉じ込め」や「偽真空崩壊」のような幅広い非摂動効果を示す。 ibmのibmq_mumbai量子シミュレータでクエンチ実験を行い、1+1次元量子イジングモデルのエネルギースペクトルを長手場で計算した。 後者のモデルが特に興味深いのは、2次元量子色力学のt'Hooftモデルに類似したイジング領域壁の凝縮ポテンシャルから生じるメソニック境界状態の形成である。 その結果,nisq時代のディジタル量子シミュレーションは,密度行列再正規化群やqft解析のための切断共形空間法といった数値手法の代替となる可能性が示唆された。

Quantum simulation has the potential to be an indispensable technique for the investigation of non-perturbative phenomena in strongly-interacting quantum field theories (QFTs). In the modern quantum era, with Noisy Intermediate Scale Quantum~(NISQ) simulators widely available and larger-scale quantum machines on the horizon, it is natural to ask: what non-perturbative QFT problems can be solved with the existing quantum hardware? We show that existing noisy quantum machines can be used to analyze the energy spectrum of a large family of strongly-interacting 1+1D QFTs. The latter exhibit a wide-range of non-perturbative effects like `quark confinement' and `false vacuum decay' which are typically associated with higher-dimensional QFTs of elementary particles. We perform quench experiments on IBM's ibmq_mumbai quantum simulator to compute the energy spectrum of 1+1D quantum Ising model with a longitudinal field. The latter model is particularly interesting due to the formation of mesonic bound states arising from a confining potential for the Ising domain-walls, reminiscent of t'Hooft's model of two-dimensional quantum chromodynamics. Our results demonstrate that digital quantum simulation in the NISQ era has the potential to be a viable alternative to numerical techniques such as density matrix renormalization group or the truncated conformal space methods for analyzing QFTs.
翻訳日:2023-03-07 15:10:27 公開日:2023-03-06
# 最大マニフォールド容量表現による自然画像の効率的な符号化

Learning Efficient Coding of Natural Images with Maximum Manifold Capacity Representations ( http://arxiv.org/abs/2303.03307v1 )

ライセンス: Link先を確認
Thomas Yerxa, Yilun Kuang, Eero Simoncelli, SueYeon Chung(参考訳) 自己教師付き学習(ssl)は、手書きラベルに依存することなく、画像の有用な表現を構築するための戦略を提供する。 そのような方法の多くは、同じシーンやオブジェクトの異なるビューを、表現空間内の近くのポイントにマッピングすることを目的としている。 ここでは、最適化の効率指標として、サポートできる線形分離可能な対象多様体の数に基づいて表現の質を定量化する尺度である多様体容量を採用することで、効率的な符号化という観点から問題を再キャストする。 具体的には、比較学習フレームワークにおける目的関数として用いた多様体容量を適応させ、最大マニフォールド容量表現(MMCR)を生成する。 この手法をラベルのない画像に適用し,それぞれに基本変換のセットを付加し,標準線形評価プロトコルを用いて有意義な特徴を学習する。 具体的には、最近開発されたSSLフレームワークに匹敵するオブジェクト認識のパフォーマンスをMMCRがサポートし、敵攻撃に対してより堅牢性を提供します。 経験的分析により、MMCRと他のSSLフレームワークで学んだ表現の違いが明らかとなり、多様体圧縮がクラス分離性をもたらすメカニズムが示唆された。

Self-supervised Learning (SSL) provides a strategy for constructing useful representations of images without relying on hand-assigned labels. Many such methods aim to map distinct views of the same scene or object to nearby points in the representation space, while employing some constraint to prevent representational collapse. Here we recast the problem in terms of efficient coding by adopting manifold capacity, a measure that quantifies the quality of a representation based on the number of linearly separable object manifolds it can support, as the efficiency metric to optimize. Specifically, we adapt the manifold capacity for use as an objective function in a contrastive learning framework, yielding a Maximum Manifold Capacity Representation (MMCR). We apply this method to unlabeled images, each augmented by a set of basic transformations, and find that it learns meaningful features using the standard linear evaluation protocol. Specifically, we find that MMCRs support performance on object recognition comparable to or surpassing that of recently developed SSL frameworks, while providing more robustness to adversarial attacks. Empirical analyses reveal differences between MMCRs and representations learned by other SSL frameworks, and suggest a mechanism by which manifold compression gives rise to class separability.
翻訳日:2023-03-07 15:10:00 公開日:2023-03-06
# 2次元強磁性体における光誘起位相のひずみ工学

Strain Engineering of Photo-induced Topological Phases in 2D Ferromagnets ( http://arxiv.org/abs/2303.03305v1 )

ライセンス: Link先を確認
T. V. C. Ant\~ao, N. M. R. Peres(参考訳) 我々は, ひずみ工学はレーザー駆動2次元強磁性系における位相相の実験的実現と制御を促進する強力なツールであると主張する。 この範囲で、ジグザグまたはアームチェア方向に一軸歪んだ2次元ハニカム強磁性体に円偏光レーザー場を印加することにより、印加電界の強度および印加ひずみの大きさによって調整可能な合成ジアロシンスキー・モリヤ相互作用(DMI)を生成することができることを示す。 このような変形はチャーン数の反対符号を持つ相や自明な相への遷移を可能にする。 これらは、ひずみ工学的位相スピントロニクス(sets)の新しい分野の開発への道を開く基本的な結果である。

We argue that strain engineering is a powerful tool which may facilitate the experimental realization and control of topological phases in laser-driven 2D ferromagnetic systems. To this extent, we show that by applying a circularly polarized laser field to a 2D honeycomb ferromagnet which is uniaxially strained in either the zig-zag or armchair direction, it is possible to generate a synthetic Dzyaloshinskii-Moriya interaction (DMI) tunable by the intensity of the applied electric field, as well as by the magnitude of applied strain. Such deformations enable transitions to phases with opposite sign of Chern number, or to trivial phases. These are basic results that could pave the way for the development of a new field of Strain Engineered Topological Spintronics (SETS).
翻訳日:2023-03-07 15:09:39 公開日:2023-03-06
# 実用的な歩行認識のための深層モデル探索

Exploring Deep Models for Practical Gait Recognition ( http://arxiv.org/abs/2303.03301v1 )

ライセンス: Link先を確認
Chao Fan, Saihui Hou, Yongzhen Huang, and Shiqi Yu(参考訳) 歩行認識は、遠くから人物を識別するための急速に進歩する視覚技術である。 以前の研究では、比較的小さく浅いニューラルネットワークを使って微妙な歩行の特徴を抽出し、屋内環境では素晴らしい成功を収めた。 それにもかかわらず、これらの既存手法は、新たにリリースされた移動データに適用した場合、ほとんど満足のいく結果が得られないことが実験によって明らかになった。 本稿では,従来のCNNやTransformerベースのアーキテクチャを含む,最先端の屋外歩行認識のための深層モデルの構築方法について検討する。 そこで本研究では,適切なネットワーク容量,明示的な時間モデル,深層トランスフォーマ構造の重要性を強調する。 提案したCNNベースのDeepGaitV2シリーズとTransformerベースのSwinGaitシリーズは,挑戦的なGREWデータセットにおける多くの最先端手法と比較して,アウトドアシナリオにおいて,約+30\%のランク-1精度を示す。 この研究は歩行認識の研究と応用をさらに促進することが期待されている。 コードはhttps://github.com/shiqiyu/opengaitで入手できる。

Gait recognition is a rapidly advancing vision technique for person identification from a distance. Prior studies predominantly employed relatively small and shallow neural networks to extract subtle gait features, achieving impressive successes in indoor settings. Nevertheless, experiments revealed that these existing methods mostly produce unsatisfactory results when applied to newly released in-the-wild gait datasets. This paper presents a unified perspective to explore how to construct deep models for state-of-the-art outdoor gait recognition, including the classical CNN-based and emerging Transformer-based architectures. Consequently, we emphasize the importance of suitable network capacity, explicit temporal modeling, and deep transformer structure for discriminative gait representation learning. Our proposed CNN-based DeepGaitV2 series and Transformer-based SwinGait series exhibit significant performance gains in outdoor scenarios, \textit{e.g.}, about +30\% rank-1 accuracy compared with many state-of-the-art methods on the challenging GREW dataset. This work is expected to further boost the research and application of gait recognition. Code will be available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2023-03-07 15:09:21 公開日:2023-03-06
# 説明可能な閾値ポリシーを用いたシナリオ非依存ゼロトラスト防御:メタラーニングアプローチ

Scenario-Agnostic Zero-Trust Defense with Explainable Threshold Policy: A Meta-Learning Approach ( http://arxiv.org/abs/2303.03349v1 )

ライセンス: Link先を確認
Yunfei Ge, Tao Li, and Quanyan Zhu(参考訳) 接続の増大と複雑なリモートアクセス環境により、従来のペリメータベースのネットワーク防御は脆弱になっている。 ゼロ信頼は、エージェント中心の信頼評価に基づく防衛政策を提供する有望なアプローチとなる。 しかし、エージェントのトレースの限られた観察は、意思決定において情報非対称性をもたらす。 政策と技術導入の人間的理解を促進するためには、人間に説明可能で、異なる攻撃シナリオに適応可能なゼロトラスト防御を作成する必要がある。 そこで本研究では,一握りのサンプルシナリオのみを用いて,部分可観測マルコフ決定プロセス(pomdp)と一階メタラーニングに基づくシナリオ非依存なゼロトラスト防御を提案する。 この枠組みは説明可能で一般化可能な信頼層防衛政策につながる。 実証的セキュリティデータセットと現実の間の分散シフトに対処するため、最悪のケース損失を最小限に抑えるロバストなゼロトラスト防御にモデルを拡張します。 ケーススタディと実世界の攻撃を使って結果を裏付ける。

The increasing connectivity and intricate remote access environment have made traditional perimeter-based network defense vulnerable. Zero trust becomes a promising approach to provide defense policies based on agent-centric trust evaluation. However, the limited observations of the agent's trace bring information asymmetry in the decision-making. To facilitate the human understanding of the policy and the technology adoption, one needs to create a zero-trust defense that is explainable to humans and adaptable to different attack scenarios. To this end, we propose a scenario-agnostic zero-trust defense based on Partially Observable Markov Decision Processes (POMDP) and first-order Meta-Learning using only a handful of sample scenarios. The framework leads to an explainable and generalizable trust-threshold defense policy. To address the distribution shift between empirical security datasets and reality, we extend the model to a robust zero-trust defense minimizing the worst-case loss. We use case studies and real-world attacks to corroborate the results.
翻訳日:2023-03-07 15:03:02 公開日:2023-03-06
# 正常ガンマ前の線形帯域問題に対するトンプソンサンプリング

Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors ( http://arxiv.org/abs/2303.03348v1 )

ライセンス: Link先を確認
Bj\"orn Lindenberg, Karl-Olof Lindahl(参考訳) 有限個の独立なアームを持つ線形バンドイット問題に対するトンプソンサンプリングについて検討し、未知のパラメータベクトルと未知の分散に線形に依存する正規分布から報酬をサンプリングする。 具体的には、ベイズ的定式化では、すべての関連するパラメータに対する環境不確実性を表す多変量正規ガンマ前駆体を考える。 その結果,選択されたサンプリング前処理は報酬モデルに先立って共役であり,分散分布の5/2モーメントが存在することを条件に,トンプソンサンプリングに結びついたベイズ的後悔を生じることがわかった。

We consider Thompson sampling for linear bandit problems with finitely many independent arms, where rewards are sampled from normal distributions that are linearly dependent on unknown parameter vectors and with unknown variance. Specifically, with a Bayesian formulation we consider multivariate normal-gamma priors to represent environment uncertainty for all involved parameters. We show that our chosen sampling prior is a conjugate prior to the reward model and derive a Bayesian regret bound for Thompson sampling under the condition that the 5/2-moment of the variance distribution exist.
翻訳日:2023-03-07 15:02:34 公開日:2023-03-06
# 量子ビットアレイにおけるフラックスクロストークの学習による校正

Learning-based Calibration of Flux Crosstalk in Transmon Qubit Arrays ( http://arxiv.org/abs/2303.03347v1 )

ライセンス: Link先を確認
Cora N. Barrett, Amir H. Karamlou, Sarah E. Muschinske, Ilan T. Rosen, Jochen Braum\"uller, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Terry P. Orlando, Simon Gustavsson, Jeffrey A. Grover, William D. Oliver(参考訳) 磁束可変データとカプラ量子ビットからなる超伝導量子プロセッサは、量子計算に有望なプラットフォームである。 しかし、磁束制御線と構成量子ビット間の磁束クロストークは、量子ビット周波数の精密制御を阻害し、このプラットフォームをスケールさせることが困難である。 高忠実度デジタルおよびアナログ量子演算を実装するには、フラックスクロストークを特徴付ける必要がある。 本稿では,学習に基づくキャリブレーションプロトコルを導入し,16個のフラックス可変トランスモンキュービットの配列をキャリブレーションすることにより,その実験性能を示す。 提案プロトコルの拡張性を示すため,トランスモン量子ビットのより大きな配列に対するクロストーク行列学習手順をシミュレートした。 中央値の量子ビット周波数誤差を300ドル未満に保ちながら,システムサイズの線形スケーリングを実証的に観察した。

Superconducting quantum processors comprising flux-tunable data and coupler qubits are a promising platform for quantum computation. However, magnetic flux crosstalk between the flux-control lines and the constituent qubits impedes precision control of qubit frequencies, presenting a challenge to scaling this platform. In order to implement high-fidelity digital and analog quantum operations, one must characterize the flux crosstalk and compensate for it. In this work, we introduce a learning-based calibration protocol and demonstrate its experimental performance by calibrating an array of 16 flux-tunable transmon qubits. To demonstrate the extensibility of our protocol, we simulate the crosstalk matrix learning procedure for larger arrays of transmon qubits. We observe an empirically linear scaling with system size, while maintaining a median qubit frequency error below $300$ kHz.
翻訳日:2023-03-07 15:02:21 公開日:2023-03-06
# 深部年齢不変指紋セグメンテーションシステム

Deep Age-Invariant Fingerprint Segmentation System ( http://arxiv.org/abs/2303.03341v1 )

ライセンス: Link先を確認
M.G. Sarwar Murshed, Keivan Bahmani, Stephanie Schuckers, Faraz Hussain(参考訳) 指紋に基づく識別システムは、被験者の複数の指紋を含むスラップを1つの指紋の代わりに使用する場合に高い精度を達成する。 しかし,スラップ画像中のすべての指紋のセグメント化や自動位置決めは,指紋の向きや雑音の背景,指先成分のサイズが小さいため,困難な作業である。 1つ以上の指紋が回転する実世界のデータセットにおけるスラップ画像の存在は、生体認証システムにとって指紋の自動ローカライズとラベル付けが難しい。 不適切な指紋位置と指のラベリングエラーは、マッチング性能を低下させる。 本稿では,軸合わせ画像と過剰回転画像の両方から指紋を高精度に位置決めしラベル付けする深層学習に基づくアルゴリズムを用いて,任意の角度境界ボックスを生成する手法を提案する。 我々は,従来の高速R-CNNアーキテクチャ [21] に基づくCFSEGモデルの更新により,CRFSEG (Clarkson Rotated Fingerprint segmentation Model) という指紋分割モデルを構築した。 CRFSEGは高速なR-CNNアルゴリズムを改良し、任意の角度のバウンディングボックスにより、CRFSEGが挑戦的なスラップ画像でより良い性能を発揮する。 成人と小児の両方の被験者から収集したスラップ画像を含む新しいデータセットでCRFSEGアルゴリズムを訓練した結果,CRFSEGモデルは年齢差で不変であり,過回転スラップ画像の処理に成功していたことが示唆された。 成人と小児の正常画像と回転画像の両方を含む組み合わせデータセットでは、97.17%のマッチング精度を達成し、最先端のVeriFinger(94.25%)とNFSEGセグメンテーションシステム(80.58%)を上回った。

Fingerprint-based identification systems achieve higher accuracy when a slap containing multiple fingerprints of a subject is used instead of a single fingerprint. However, segmenting or auto-localizing all fingerprints in a slap image is a challenging task due to the different orientations of fingerprints, noisy backgrounds, and the smaller size of fingertip components. The presence of slap images in a real-world dataset where one or more fingerprints are rotated makes it challenging for a biometric recognition system to localize and label the fingerprints automatically. Improper fingerprint localization and finger labeling errors lead to poor matching performance. In this paper, we introduce a method to generate arbitrary angled bounding boxes using a deep learning-based algorithm that precisely localizes and labels fingerprints from both axis-aligned and over-rotated slap images. We built a fingerprint segmentation model named CRFSEG (Clarkson Rotated Fingerprint segmentation Model) by updating the previously proposed CFSEG model which was based on traditional Faster R-CNN architecture [21]. CRFSEG improves upon the Faster R-CNN algorithm with arbitrarily angled bounding boxes that allow the CRFSEG to perform better in challenging slap images. After training the CRFSEG algorithm on a new dataset containing slap images collected from both adult and children subjects, our results suggest that the CRFSEG model was invariant across different age groups and can handle over-rotated slap images successfully. In the Combined dataset containing both normal and rotated images of adult and children subjects, we achieved a matching accuracy of 97.17%, which outperformed state-of-the-art VeriFinger (94.25%) and NFSEG segmentation systems (80.58%).
翻訳日:2023-03-07 15:02:04 公開日:2023-03-06
# ニューラルネットワークの記号合成

Symbolic Synthesis of Neural Networks ( http://arxiv.org/abs/2303.03340v1 )

ライセンス: Link先を確認
Eli Whitehouse(参考訳) ニューラルネットワークは分散的かつ連続的な表現に非常によく適応するが、少量のデータから学習と一般化に苦労する。 シンボリックシステムは一般に、モジュラリティを利用して表現の局所的特徴と離散的特徴の恩恵を受けることで、データの効率的な一般化を実現する。 これらの特徴により、シンボリックプログラムは一度に1つのモジュールを改善し、うまく処理できる値の組合せ的な成長を経験することができる。 しかし、パラメータの調整によってモジュールのセマンティクスが不安定になるため、シンボリックな抽象化を形成し、ニューラルネットワークのように高度に過度にパラメータ化されたコンポーネントを設計することは困難である。 本稿では,グラフに基づく記号型合成ニューラルネットワーク(G-SSNN)について紹介する。 集団レベルでシンボリック抽象化を開発し、個々のレベルで勾配に基づく最適化を適用することで、局所的特徴と離散的特徴を含む少数のデータを用いて、改良された一般化の信頼性の高いパターンを導出できることを実証する。 G-SSNNによって具現化されたパラダイムは、様々なタスクや高次元メディアに対して柔軟に再利用できるコンパクトで構成可能な抽象化の共通開発への道筋を提供する。 今後の研究では、より複雑なシンボリックプログラムのクラスに基づいて、より野心的なG-SSNN設計を探求し、これらのメリットを追求したいと考えています。 報告された結果に関連するコードとデータはhttps://github.com/shlomenu/symbolically_synthesized_networksで公開されている。

Neural networks adapt very well to distributed and continuous representations, but struggle to learn and generalize from small amounts of data. Symbolic systems commonly achieve data efficient generalization by exploiting modularity to benefit from local and discrete features of a representation. These features allow symbolic programs to be improved one module at a time and to experience combinatorial growth in the values they can successfully process. However, it is difficult to design components that can be used to form symbolic abstractions and which are highly-overparametrized like neural networks, as the adjustment of parameters makes the semantics of modules unstable. I present Graph-based Symbolically Synthesized Neural Networks (G-SSNNs), a form of neural network whose topology and parameters are informed by the output of a symbolic program. I demonstrate that by developing symbolic abstractions at a population level, and applying gradient-based optimization to such neural models at an individual level, I can elicit reliable patterns of improved generalization with small quantities of data known to contain local and discrete features. The paradigm embodied by G-SSNNs offers a route towards the communal development of compact and composable abstractions which can be flexibly repurposed for a variety of tasks and high-dimensional media. In future work, I hope to pursue these benefits by exploring more ambitious G-SSNN designs based on more complex classes of symbolic programs. The code and data associated with the reported results are publicly available at https://github.com/shlomenu/symbolically_synthesized_networks .
翻訳日:2023-03-07 15:01:31 公開日:2023-03-06
# 文法進化による組込みシステムのL1キャッシュ最適化

Optimizing L1 cache for embedded systems through grammatical evolution ( http://arxiv.org/abs/2303.03338v1 )

ライセンス: Link先を確認
Josefa D\'iaz \'Alvarez, J. Manuel Colmenar, Jos\'e L. Risco-Mart\'in, Juan Lanchares and Oscar Garnica(参考訳) 現在, 組込みシステムにはキャッシュメモリが備わっており, この種のシステムではかつてない性能とエネルギー消費に影響を及ぼすほど大きなキャッシュメモリが備わっている。 さらに、キャッシュメモリシステムは、実行中のアプリケーションのメモリアクセスパターンに従って構成を調整することで、これらのメトリクスを改善するコンポーネントとして特定されている。 しかし、キャッシュメモリには多くのパラメータがあり、多くの異なる値に設定できるため、デザイナーは広い時間を要する探索空間に直面している。 本稿では,与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる文法進化(GE)に基づく最適化フレームワークを提案する。 このメタヒューリスティックにより、最適化ランタイムが大幅に削減され、少ない世代で良い結果が得られる。 さらに、評価キャッシュの効率的なストレージのため、この削減も増加する。 さらに,文法の可塑性は,異なる構成の評価に必要なキャッシュシミュレータへの呼び出しを形成する表現型の作成を容易にするため,GEを選択した。 Mediabench スイートの実験結果から,提案手法は実世界のベースライン構成に対して平均 62 %$ のキャッシュ構成が得られることがわかった。

Nowadays, embedded systems are provided with cache memories that are large enough to influence in both performance and energy consumption as never occurred before in this kind of systems. In addition, the cache memory system has been identified as a component that improves those metrics by adapting its configuration according to the memory access patterns of the applications being run. However, given that cache memories have many parameters which may be set to a high number of different values, designers face to a wide and time-consuming exploration space. In this paper we propose an optimization framework based on Grammatical Evolution (GE) which is able to efficiently find the best cache configurations for a given set of benchmark applications. This metaheuristic allows an important reduction of the optimization runtime obtaining good results in a low number of generations. Besides, this reduction is also increased due to the efficient storage of evaluated caches. Moreover, we selected GE because the plasticity of the grammar eases the creation of phenotypes that form the call to the cache simulator required for the evaluation of the different configurations. Experimental results for the Mediabench suite show that our proposal is able to find cache configurations that obtain an average improvement of $62\%$ versus a real world baseline configuration.
翻訳日:2023-03-07 15:01:05 公開日:2023-03-06
# マルチパスルーティングを用いた量子ネットワークにおけるマルチユーザ絡み合い分布

Multi-User Entanglement Distribution in Quantum Networks Using Multipath Routing ( http://arxiv.org/abs/2303.03334v1 )

ライセンス: Link先を確認
Evan Sutcliffe and Alejandra Beghelli(参考訳) 量子ネットワークは、絡み合い分布を実行することにより、セキュアな通信や分散量子計算などの多くのアプリケーションを促進する。 量子情報が複数のユーザ間で共有されるマルチユーザ量子アプリケーションは、ユーザ間で共有されたマルチパート状態にアクセスする必要がある。 我々は,そのような状態の分散プロトコルを,絡み合いの増加率で設計する問題を考える。 マルチパスルーティングを利用して,マルチユーザアプリケーションの絡み合い率を高める3つのプロトコルを提案する。 プロトコルは、限られた量子メモリと確率的絡み合い生成を含む、nisq制約のある量子ネットワーク上で評価される。 モンテカルロシミュレーションの結果, 開発したプロトコルは, 単一経路ルーティング手法と比較して, エンタングル率の指数関数的な高速化を達成し, 最大速度は最大4桁であった。 このスピードアップは、より大きなユーザー向けにも改善されている。 プロトコルをスケールダウン実世界のトポロジでテストしたところ、トポロジーは達成可能な絡み合い率に大きな影響を与え、トポロジー間で1桁の差があることがわかった。 最後に、マルチパスルーティングの利点は、短い量子メモリデコヒーレンス時間と絡み合い発生確率の中間値に対して最大であることを示す。 したがって、開発されたプロトコルは、NISQ量子ネットワーク制御と設計の恩恵を受けることができる。

Quantum networks facilitate numerous applications such as secure communication and distributed quantum computation by performing entanglement distribution. Multi-user quantum applications where quantum information is shared between multiple users require access to a shared multipartite state between the users. We consider the problem of designing protocols for distributing such states, at an increased entanglement rate. We propose three protocols that increase the entanglement rate of multi-user applications by leveraging multipath routing. The protocols are evaluated on quantum networks with NISQ constraints, including limited quantum memories and probabilistic entanglement generation. Monte Carlo simulation results show that the developed protocols achieve an exponential speedup of entanglement rate compared to single-path routing techniques, with a maximum speedup of four orders of magnitude for the cases studied. The speedup was also found to improve for larger sets of users. When the protocols were tested in scaled-down real-world topologies, it was found that topology can have a significant effect on the achievable entanglement rates, with one order of magnitude difference between topologies. Finally, we find that the benefits of multipath routing are a maximum for short quantum memory decoherence times, and intermediate values of entanglement generation probability. Hence the protocols developed can benefit NISQ quantum network control and design.
翻訳日:2023-03-07 15:00:48 公開日:2023-03-06
# 決定-推定係数による$\gamma$-Regretの低境界

Lower Bounds for $\gamma$-Regret via the Decision-Estimation Coefficient ( http://arxiv.org/abs/2303.03327v1 )

ライセンス: Link先を確認
Margalit Glasgow and Alexander Rakhlin(参考訳) ここでは、バンディット問題における$\gamma$-regretに対する新しい下界を与えるが、これは、$\gamma$が最適解の$\gamma$倍であるベンチマーク、すなわち$\mathsf{Reg}_{\gamma}(T) = \sum_{t = 1}^T \gamma \max_{\pi} f(\pi) - f(\pi_t)$と比較する際に生じる後悔である。 $\gamma$-regretは、$f$の正確な最適値を求めるような構造化バンドイット問題に現れる。 我々の下限は、制約付き決定推定係数 (DEC) の~\citet{foster2023tight} (および$\gamma$-DEC を言う \citet{foster2021statistical} の元のオフセット DEC と密接に関連している) の修正によって与えられる。 $\gamma = 1$ の伝統的な後悔の設定に制限された場合、この結果は \citet{foster2023tight} の下限の対数要素を除去する。

In this note, we give a new lower bound for the $\gamma$-regret in bandit problems, the regret which arises when comparing against a benchmark that is $\gamma$ times the optimal solution, i.e., $\mathsf{Reg}_{\gamma}(T) = \sum_{t = 1}^T \gamma \max_{\pi} f(\pi) - f(\pi_t)$. The $\gamma$-regret arises in structured bandit problems where finding an exact optimum of $f$ is intractable. Our lower bound is given in terms of a modification of the constrained Decision-Estimation Coefficient (DEC) of~\citet{foster2023tight} (and closely related to the original offset DEC of \citet{foster2021statistical}), which we term the $\gamma$-DEC. When restricted to the traditional regret setting where $\gamma = 1$, our result removes the logarithmic factors in the lower bound of \citet{foster2023tight}.
翻訳日:2023-03-07 15:00:08 公開日:2023-03-06
# 簡単に言っておく: 干渉分類タスクのためのCNNモデル複雑度研究

Keep It Simple: CNN Model Complexity Studies for Interference Classification Tasks ( http://arxiv.org/abs/2303.03326v1 )

ライセンス: Link先を確認
Taiwo Oyedare, Vijay K. Shah, Daniel J. Jakubisin, Jeffrey H. Reed(参考訳) 無線スペクトルを用いたデバイスの増加により、干渉を最小限に抑え、スペクトルの使用を最適化する方法を見つけることが重要である。 畳み込みニューラルネットワーク(cnns)のようなディープラーニングモデルは、データから直接学習する能力によって干渉を識別、分類、緩和するために広く利用されている。 しかし、このような深層学習モデルの複雑さについての研究は限られている。 深層学習に基づく無線分類文学の主な焦点は分類精度の向上であり、しばしばモデルの複雑さを犠牲にしている。 これは、通常非常に限られた計算資源を持ち、非常に複雑なモデルを扱うことができないモノのインターネット(IoT)デバイスなど、多くの無線デバイスにとって実用的ではないかもしれない。 したがって、干渉分類のための深層学習モデルの設計において、モデルの複雑さを考慮することが重要である。 そこで本研究では,干渉分類,異種送信者分類,均質送信者分類といった様々な分類難易度の下で,データセットサイズ,cnnモデルの複雑さ,分類精度のトレードオフを検討するcnnベースの無線分類分析を行う。 本研究は3つの無線データセットに基づいて,より単純なCNNモデルと,より複雑なCNNモデルを用いて計算制約のあるアプリケーションにおけるCNNの利用について重要な知見を提供する。

The growing number of devices using the wireless spectrum makes it important to find ways to minimize interference and optimize the use of the spectrum. Deep learning models, such as convolutional neural networks (CNNs), have been widely utilized to identify, classify, or mitigate interference due to their ability to learn from the data directly. However, there have been limited research on the complexity of such deep learning models. The major focus of deep learning-based wireless classification literature has been on improving classification accuracy, often at the expense of model complexity. This may not be practical for many wireless devices, such as, internet of things (IoT) devices, which usually have very limited computational resources and cannot handle very complex models. Thus, it becomes important to account for model complexity when designing deep learning-based models for interference classification. To address this, we conduct an analysis of CNN based wireless classification that explores the trade-off amongst dataset size, CNN model complexity, and classification accuracy under various levels of classification difficulty: namely, interference classification, heterogeneous transmitter classification, and homogeneous transmitter classification. Our study, based on three wireless datasets, shows that a simpler CNN model with fewer parameters can perform just as well as a more complex model, providing important insights into the use of CNNs in computationally constrained applications.
翻訳日:2023-03-07 14:59:39 公開日:2023-03-06
# ALMOST: シンセサイザーチューニングによるOracleなしML攻撃軽減のための逆学習

ALMOST: Adversarial Learning to Mitigate Oracle-less ML Attacks via Synthesis Tuning ( http://arxiv.org/abs/2303.03372v1 )

ライセンス: Link先を確認
Animesh Basak Chowdhury, Lilas Alrahis, Luca Collini, Johann Knechtel, Ramesh Karri, Siddharth Garg, Ozgur Sinanoglu, Benjamin Tan(参考訳) Oracleなしの機械学習(ML)攻撃は、さまざまなロジックロックスキームを壊した。 領域電力遅延最適化に適した正規合成では、キーゲートの局所性が学習に弱いネットリストが得られる。 そこで我々はセキュリティを意識した論理合成を提案する。 合成チューニングによるオラクルレスML攻撃を軽減するための逆学習フレームワークであるALMOSTを提案する。 ALMOSTはシミュレートアニーリングベースの合成合成生成装置を使用しており、さまざまなレシピやキーゲートの局所性に対して、最先端の攻撃の精度を予測できる敵の訓練されたモデルを使用している。 ISCASベンチマークの実験では、設計最適化を損なうことなく、ALMOST合成回路のアタックの精度はおよそ50%に低下した。

Oracle-less machine learning (ML) attacks have broken various logic locking schemes. Regular synthesis, which is tailored for area-power-delay optimization, yields netlists where key-gate localities are vulnerable to learning. Thus, we call for security-aware logic synthesis. We propose ALMOST, a framework for adversarial learning to mitigate oracle-less ML attacks via synthesis tuning. ALMOST uses a simulated-annealing-based synthesis recipe generator, employing adversarially trained models that can predict state-of-the-art attacks' accuracies over wide ranges of recipes and key-gate localities. Experiments on ISCAS benchmarks confirm the attacks' accuracies drops to around 50\% for ALMOST-synthesized circuits, all while not undermining design optimization.
翻訳日:2023-03-07 14:53:31 公開日:2023-03-06
# 視覚認識のためのモダリティを欠いたマルチモーダルプロンプト

Multimodal Prompting with Missing Modalities for Visual Recognition ( http://arxiv.org/abs/2303.03369v1 )

ライセンス: Link先を確認
Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu, Chen-Yu Lee(参考訳) 本稿では,視覚認識のためのマルチモーダル学習における2つの課題に取り組む。 1) 現実の状況下で訓練中又は試験中にモダリティが欠落した場合 2) 重変圧器モデル上で計算資源が微調整できない場合。 そこで,本稿では,これら2つの課題を即時学習と緩和することを提案する。 具体的には、modality-missing-awareプロンプトをマルチモーダルトランスフォーマーに挿入して、一般的な欠落したモダリティケースを処理できますが、モデル全体のトレーニングと比較して学習可能なパラメータは1%未満です。 我々はさらに,異なるプロンプト構成の効果を探索し,欠落したモダリティに対するロバスト性を分析する。 重モデル再訓練の要件を緩和しつつ, 様々なモダリティケースにおいて, 性能向上を図りつつ, 即時学習フレームワークの有効性を示すため, 広範囲な実験を行った。 コードは利用可能。

In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.
翻訳日:2023-03-07 14:53:16 公開日:2023-03-06
# マルチオブジェクト追跡の参照

Referring Multi-Object Tracking ( http://arxiv.org/abs/2303.03366v1 )

ライセンス: Link先を確認
Dongming Wu, Wencheng Han, Tiancai Wang, Xingping Dong, Xiangyu Zhang, Jianbing Shen(参考訳) 既存の参照理解タスクは、単一のテキスト参照オブジェクトの検出を伴う傾向がある。 本稿では,マルチオブジェクトトラッキング(rmot)と呼ばれる,新しい汎用的な参照理解タスクを提案する。 その核となる考え方は、言語表現を意味的手がかりとして、マルチオブジェクト追跡の予測を導くことである。 我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するための最初の作業である。 RMOT を推し進めるため,KITTI をベースとした拡張性のあるベンチマークである Refer-KITTI を構築した。 具体的には、18のビデオを818の表現で提供し、ビデオ内の各表現は平均10.7のオブジェクトでアノテートされる。 さらに,変換器をベースとしたTransRMOTアーキテクチャを開発し,新たなタスクをオンライン的に処理し,優れた検出性能を実現し,他のタスクよりも優れることを示す。

Existing referring understanding tasks tend to involve the detection of a single text-referred object. In this paper, we propose a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking. To the best of our knowledge, it is the first work to achieve an arbitrary number of referent object predictions in videos. To push forward RMOT, we construct one benchmark with scalable expressions based on KITTI, named Refer-KITTI. Specifically, it provides 18 videos with 818 expressions, and each expression in a video is annotated with an average of 10.7 objects. Further, we develop a transformer-based architecture TransRMOT to tackle the new task in an online manner, which achieves impressive detection performance and outperforms other counterparts.
翻訳日:2023-03-07 14:52:59 公開日:2023-03-06
# 障害環境における複雑な操作タスクの効率的なスキル獲得

Efficient Skill Acquisition for Complex Manipulation Tasks in Obstructed Environments ( http://arxiv.org/abs/2303.03365v1 )

ライセンス: Link先を確認
Jun Yamada, Jack Collins, Ingmar Posner(参考訳) ロボットのスキル獲得におけるデータの効率性は、様々な小さなバッチ組立環境でロボットを操作するために不可欠である。 このような環境で運用するには、ロボットはいくつかの単純なデモンストレーションから得られる堅牢な障害物回避と汎用的な目標条件を持つ必要がある。 しかし、既存のアプローチはこれらの要件を満たさない。 deep reinforcement learning(rl)はロボットが複雑な操作タスクを学習することを可能にするが、サンプルの非効率性や安全性の懸念から、現実世界の小さなタスク空間に限定されることが多い。 モーションプランニング(mp)は、妨害された環境で衝突のない経路を生成するが、複雑な操作タスクは解決できず、ユーザーやオブジェクト固有のポーズ推定器によって指定されるゴール状態を必要とする。 本研究では,オブジェクト指向生成モデル(OCGM)を多目的目標同定に活用し,MPとRLの組み合わせによる複雑な操作課題の解決を目的とした,効率的なスキル獲得システムを提案する。 具体的には、ocgmは新しいシーンでワンショットのターゲットオブジェクトの識別と再識別を可能にし、mpは障害物を避けながらロボットをターゲットオブジェクトに誘導できる。 これは、MPの終端状態とサンプル効率のよいRLポリシーの実行可能な開始状態とのギャップを埋めるスキル移行ネットワークと組み合わせられる。 実験では,OCGMをベースとしたワンショットゴール識別により,他のベースラインアプローチと競合する精度が得られ,モジュラーフレームワークは,現状のRLアルゴリズムを含む競争ベースラインを,障害環境における複雑な操作タスクのかなりのマージンで上回ることを示した。

Data efficiency in robotic skill acquisition is crucial for operating robots in varied small-batch assembly settings. To operate in such environments, robots must have robust obstacle avoidance and versatile goal conditioning acquired from only a few simple demonstrations. Existing approaches, however, fall short of these requirements. Deep reinforcement learning (RL) enables a robot to learn complex manipulation tasks but is often limited to small task spaces in the real world due to sample inefficiency and safety concerns. Motion planning (MP) can generate collision-free paths in obstructed environments, but cannot solve complex manipulation tasks and requires goal states often specified by a user or object-specific pose estimator. In this work, we propose a system for efficient skill acquisition that leverages an object-centric generative model (OCGM) for versatile goal identification to specify a goal for MP combined with RL to solve complex manipulation tasks in obstructed environments. Specifically, OCGM enables one-shot target object identification and re-identification in new scenes, allowing MP to guide the robot to the target object while avoiding obstacles. This is combined with a skill transition network, which bridges the gap between terminal states of MP and feasible start states of a sample-efficient RL policy. The experiments demonstrate that our OCGM-based one-shot goal identification provides competitive accuracy to other baseline approaches and that our modular framework outperforms competitive baselines, including a state-of-the-art RL algorithm, by a significant margin for complex manipulation tasks in obstructed environments.
翻訳日:2023-03-07 14:52:43 公開日:2023-03-06
# 静止空間におけるグラディエントに基づく運動計画のためのシーン埋め込みの活用

Leveraging Scene Embeddings for Gradient-Based Motion Planning in Latent Space ( http://arxiv.org/abs/2303.03364v1 )

ライセンス: Link先を確認
Jun Yamada, Chia-Man Hung, Jack Collins, Ioannis Havoutis, Ingmar Posner(参考訳) 構造化潜在空間の最適化を前提とした運動計画は、近年、計画の成功の観点から従来の手法と競合する一方で、計算速度という点ではかなり優れていた。 しかし、この領域における最近の研究の現実的な適用性は、単純な幾何学的プリミティブを含む状態空間で障害情報を直接表現する必要性によって制限されている。 本研究では,ロボットマニピュレータの生成モデルとともに学習シーン埋め込みを活用し,最適化プロセスを進めることで,この課題に対処した。 さらに,計画の最適化を直接調整する効率的な衝突チェック手法を提案する。 シミュレーションと実世界の実験を用いて,我々の手法であるamp-lsは,計算速度の点で従来の計画ベースラインを上回りながら,新しい複雑な場面でうまく計画できることを実証した。 実世界の動的シーンにおける閉ループ計画を実現するのに十分な速さであることを示す。

Motion planning framed as optimisation in structured latent spaces has recently emerged as competitive with traditional methods in terms of planning success while significantly outperforming them in terms of computational speed. However, the real-world applicability of recent work in this domain remains limited by the need to express obstacle information directly in state-space, involving simple geometric primitives. In this work we address this challenge by leveraging learned scene embeddings together with a generative model of the robot manipulator to drive the optimisation process. In addition, we introduce an approach for efficient collision checking which directly regularises the optimisation undertaken for planning. Using simulated as well as real-world experiments, we demonstrate that our approach, AMP-LS, is able to successfully plan in novel, complex scenes while outperforming traditional planning baselines in terms of computation speed by an order of magnitude. We show that the resulting system is fast enough to enable closed-loop planning in real-world dynamic scenes.
翻訳日:2023-03-07 14:52:15 公開日:2023-03-06
# ヒトの言語理解能力を用いた薬物発見における活動予測モデルの拡張

Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language ( http://arxiv.org/abs/2303.03363v1 )

ライセンス: Link先を確認
Philipp Seidl, Andreu Vall, Sepp Hochreiter, G\"unter Klambauer(参考訳) 活動と特性予測モデルは、創薬と物質科学の中心的な研究馬であるが、現在それらは新しいタスクのために訓練または微調整されなければならない。 トレーニングや微調整がなければ、科学的な言語モデルは、発表されているゼロショットと少数ショット機能を通じて、このような低データタスクに使用できる。 しかし、活動予測における予測品質は欠落している。 本研究では,タスクを記述したテキスト情報の理解を通じて,推論時に新しい予測タスクに適応可能な,新たなタイプのアクティビティ予測モデルを提案する。 そこで本研究では,化学および自然言語入力のためのモジュールを分離した新しいアーキテクチャを提案する。 幅広い実験において,本手法は,数発学習ベンチマークにおける予測性能の向上と,薬物発見におけるゼロショット問題をもたらすことを示した。 我々は,提案手法の進歩をモジュール化アーキテクチャと事前学習目標に分類した。

Activity and property prediction models are the central workhorses in drug discovery and materials sciences, but currently they have to be trained or fine-tuned for new tasks. Without training or fine-tuning, scientific language models could be used for such low-data tasks through their announced zero- and few-shot capabilities. However, their predictive quality at activity prediction is lacking. In this work, we envision a novel type of activity prediction model that is able to adapt to new prediction tasks at inference time, via understanding textual information describing the task. To this end, we propose a new architecture with separate modules for chemical and natural language inputs, and a contrastive pre-training objective on data from large biochemical databases. In extensive experiments, we show that our method CLAMP yields improved predictive performance on few-shot learning benchmarks and zero-shot problems in drug discovery. We attribute the advances of our method to the modularized architecture and to our pre-training objective.
翻訳日:2023-03-07 14:52:00 公開日:2023-03-06
# nerflets: 2次元スーパービジョンからの効率的な構造認識3次元シーン表現のための局所放射場

Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Supervisio ( http://arxiv.org/abs/2303.03361v1 )

ライセンス: Link先を確認
Xiaoshuai Zhang, Abhijit Kundu, Thomas Funkhouser, Leonidas Guibas, Hao Su, Kyle Genova(参考訳) 画像から3dシーン表現を効率的かつ構造的に表現する。 nerfletsは私たちの重要な貢献です -- シーンを表すローカルな神経放射フィールドのセットです。 各nerfletは、その空間的位置、向き、範囲を維持しており、その内部は、パンオプティクス、密度、放射光再構成に寄与している。 光度と推論されたパノプティクス画像の監視のみを利用することで、オタクレットの集合のパラメータを直接かつ共同で最適化し、各オブジェクトのインスタンスがオタクレットのグループによって表現されるシーンの分解表現を形成することができる。 室内および屋外環境での実験では,(1)従来のグローバルなNeRFよりも効率よくシーンをマッチングし,近似し,(2)任意の視点からパノプティクスと測光のレンダリングを抽出し,(3)3Dパノプティクスのセグメンテーションやインタラクティブな編集など,NeRFにとって稀なタスクを可能にする。

We address efficient and structure-aware 3D scene representation from images. Nerflets are our key contribution -- a set of local neural radiance fields that together represent a scene. Each nerflet maintains its own spatial position, orientation, and extent, within which it contributes to panoptic, density, and radiance reconstructions. By leveraging only photometric and inferred panoptic image supervision, we can directly and jointly optimize the parameters of a set of nerflets so as to form a decomposed representation of the scene, where each object instance is represented by a group of nerflets. During experiments with indoor and outdoor environments, we find that nerflets: (1) fit and approximate the scene more efficiently than traditional global NeRFs, (2) allow the extraction of panoptic and photometric renderings from arbitrary views, and (3) enable tasks rare for NeRFs, such as 3D panoptic segmentation and interactive editing.
翻訳日:2023-03-07 14:51:43 公開日:2023-03-06
# n$-光子駆動量子非線形共振器における散逸相転移

Dissipative phase transitions in $n$-photon driven quantum nonlinear resonators ( http://arxiv.org/abs/2303.03355v1 )

ライセンス: Link先を確認
Fabrizio Minganti, Vincenzo Savona, and Alberto Biella(参考訳) n$-photon 駆動と散逸を受ける非線形光子共振器における有限成分散逸相遷移(dpts)の発生を解析・特性評価した。 半古典的アプローチを実施すれば、このクラスのシステムにおける二階DPTの発生に関する一般的な結果が得られる。 すべての奇数$n$に対して、2階のDPTは発生しないが、高階の非線形性の間の競合は2階のDPTが$n=2$と$n=4$でしか出現しない臨界性の性質を決定する。 重要な例として、3光子および4光子駆動散逸型kerr共振器の完全な量子力学を研究し、遷移の性質に関する半古典的解析の予測を確認した。 真空の安定性と異なる位相にアクセスするのに必要な典型的な時間スケールについても論じる。 また、ゼロ、低、高光子数に複数の解が出現する1次DPTを示す。 この結果は, 量子センシングや情報処理の課題に適用可能な, 駆動散逸系における高次非線形プロセスの効果を研究するための, リウヴィリアの枠組みを提供する。

We investigate and characterize the emergence of finite-component dissipative phase transitions (DPTs) in nonlinear photon resonators subject to $n$-photon driving and dissipation. Exploiting a semiclassical approach, we derive general results on the occurrence of second-order DPTs in this class of systems. We show that for all odd $n$, no second-order DPT can occur while, for even $n$, the competition between higher-order nonlinearities determines the nature of the criticality allowing for second-order DPTs to emerge only for $n=2$ and $n=4$. As pivotal examples, we study the full quantum dynamics of three- and four-photon driven-dissipative Kerr resonators, confirming the prediction of the semiclassical analysis on the nature of the transitions. The stability of the vacuum and the typical timescales needed to access the different phases are also discussed. We also show a first-order DPT where multiple solution emerge around zero, low, and high-photon number. Our results highlight the crucial role played by $strong$ and $weak$ symmetries in triggering critical behaviors, providing a Liouvillian framework to study the effect of high-order nonlinear processes in driven-dissipative systems, that can be applied to problems in quantum sensing and information processing.
翻訳日:2023-03-07 14:51:23 公開日:2023-03-06
# どの理論に測定の問題がありますか。

Which theories have a measurement problem? ( http://arxiv.org/abs/2303.03353v1 )

ライセンス: Link先を確認
Nick Ormrod, V. Vilasini, Jonathan Barrett(参考訳) 特定の性質を持つ任意の理論は、測定結果と相容れない予測を(すなわち、一意的かつ非関係的)行うという意味で、測定問題を持つことが示されている。 これらの特性はベル非局所性、情報保存、局所ダイナミクスである。 この結果は、局所ダイナミクスを超光の影響、分離可能なダイナミクス、一貫性埋め込みから導き出すことによって拡張される。 既存のウィグナーの友人にインスパイアされたno-go定理が量子論に寄与する理由を説明するだけでなく、これらの結果は、将来の物理学理論が測定問題を克服するかどうかにも光を当てた。 特に、絶対性は維持されるが、(ボーム理論のように)相対性理論を拒絶したり、(GRW理論のように)目的の崩壊を受け入れることなく可能であることを示唆している。

It is shown that any theory that has certain properties has a measurement problem, in the sense that it makes predictions that are incompatible with measurement outcomes being absolute (that is, unique and non-relational). These properties are Bell Nonlocality, Information Preservation, and Local Dynamics. The result is extended by deriving Local Dynamics from No Superluminal Influences, Separable Dynamics, and Consistent Embeddings. As well as explaining why the existing Wigner's-friend-inspired no-go theorems hold for quantum theory, these results also shed light on whether a future theory of physics might overcome the measurement problem. In particular, they suggest the possibility of a theory in which absoluteness is maintained, but without rejecting relativity theory (as in Bohm theory) or embracing objective collapses (as in GRW theory).
翻訳日:2023-03-07 14:50:59 公開日:2023-03-06
# 位相駆動ホールスピン量子ビット

Phase driving hole spin qubits ( http://arxiv.org/abs/2303.03350v1 )

ライセンス: Link先を確認
Stefano Bosco, Simon Geyer, Leon C. Camenzind, Rafael S. Eggli, Andreas Fuhrer, Richard J. Warburton, Dominik M. Zumb\"uhl, J. Carlos Egues, Andreas V. Kuhlmann, Daniel Loss(参考訳) スピン量子ビットにおけるスピン軌道相互作用はスピン-フリップ遷移を可能にし、外部マイクロ波場がクビット周波数に共鳴するときにラビ振動を引き起こす。 ここでは、遠方偏移振動場が量子ビット位相に結合するホールスピン量子ビットの代替駆動機構を紹介する。 マイクロ波キュービット周波数よりも桁違い遅い電波周波数での位相駆動は、非常に非自明なスピンダイナミクスを誘導し、ラビ共鳴条件に違反する。 シリコンフィン電界効果トランジスタ(Si FinFET)に組み込まれた量子ビットを用いて、共振ラビ振動の制御可能な抑制と、調整可能なサイドバンドでの再生を示す。 これらのサイドバンドは、大域的フィールドと局所的な極小パルスを用いた代替のキュービット制御スキームを可能にし、局所的なキュービットアドレス性を持つ大規模キュービットアーキテクチャの設計を容易にする。 位相駆動はまた、ガッピングフロッケスペクトルによる効果であるノイズからラビ振動を分離し、将来の量子プロセッサにおいてフロッケ工学の高忠実性ゲートを可能にする。

The spin-orbit interaction in spin qubits enables spin-flip transitions, resulting in Rabi oscillations when an external microwave field is resonant with the qubit frequency. Here, we introduce an alternative driving mechanism of hole spin qubits, where a far-detuned oscillating field couples to the qubit phase. Phase driving at radio frequencies, orders of magnitude slower than the microwave qubit frequency, induces highly non-trivial spin dynamics, violating the Rabi resonance condition. By using a qubit integrated in a silicon fin field-effect transistor (Si FinFET), we demonstrate a controllable suppression of resonant Rabi oscillations, and their revivals at tunable sidebands. These sidebands enable alternative qubit control schemes using global fields and local far-detuned pulses, facilitating the design of dense large-scale qubit architectures with local qubit addressability. Phase driving also decouples Rabi oscillations from noise, an effect due to a gapped Floquet spectrum and can enable Floquet engineering high-fidelity gates in future quantum processors.
翻訳日:2023-03-07 14:50:43 公開日:2023-03-06
# リニア拡散以外の修復劣化:DDIM型サンプリングの非漸近解析

Restoration-Degradation Beyond Linear Diffusions: A Non-Asymptotic Analysis For DDIM-Type Samplers ( http://arxiv.org/abs/2303.03384v1 )

ライセンス: Link先を確認
Sitan Chen, Giannis Daras, Alexandros G. Dimakis(参考訳) 拡散生成モデルに使用される決定論的サンプルの非漸近解析のためのフレームワークを開発した。 いくつかの最近の研究は、ジルサノフの定理や補間引数の連鎖規則変種のようなツールを用いて確率的サンプリング器を解析している。 残念ながら、これらのテクニックは決定論的サンプラーに適用すると空白の境界を与える。 確率フロー ode に沿った1つのステップを2つのステップとして表現できることを示すことにより、決定論的サンプリングのための新しい操作解釈を与える。 1)条件付きログ様相の勾配上昇を前回の無限小時間で行う復元工程 2)フォワードプロセスを実行する劣化ステップは、電流反復方向のノイズを後ろ向きに向ける。 この観点から、拡散暗黙のモデルを一般の非線形前処理に拡張することができる。 次に、データ分布の穏やかな条件下で、これらのサンプルに対する最初の多項式収束境界を開発する。

We develop a framework for non-asymptotic analysis of deterministic samplers used for diffusion generative modeling. Several recent works have analyzed stochastic samplers using tools like Girsanov's theorem and a chain rule variant of the interpolation argument. Unfortunately, these techniques give vacuous bounds when applied to deterministic samplers. We give a new operational interpretation for deterministic sampling by showing that one step along the probability flow ODE can be expressed as two steps: 1) a restoration step that runs gradient ascent on the conditional log-likelihood at some infinitesimally previous time, and 2) a degradation step that runs the forward process using noise pointing back towards the current iterate. This perspective allows us to extend denoising diffusion implicit models to general, non-linear forward processes. We then develop the first polynomial convergence bounds for these samplers under mild conditions on the data distribution.
翻訳日:2023-03-07 14:44:14 公開日:2023-03-06
# 閾値活性化機能を有するニューラルネットワークのグローバル最適学習

Globally Optimal Training of Neural Networks with Threshold Activation Functions ( http://arxiv.org/abs/2303.03382v1 )

ライセンス: Link先を確認
Tolga Ergen, Halil Ibrahim Gulluk, Jonathan Lacotte, Mert Pilanci(参考訳) 閾値アクティベーション関数は、ハードウェア実装の効率性から、ニューラルネットワークにおいて非常に好ましい。 さらに、その操作様式はより解釈可能であり、生物学的ニューロンに類似している。 しかし、グラディエントDescentのような従来の勾配に基づくアルゴリズムは、アクティベーション関数が1つの非微分可能点を除いて勾配がゼロであるため、しきい値のアクティベーションを持つニューラルネットワークのパラメータのトレーニングには使用できない。 そこで本研究では,しきい値アクティベーションを有するディープニューラルネットワークの重み劣化正規化トレーニング問題について検討する。 まず,ラッソ法に準ずる標準凸最適化問題として正規化ディープ閾値ネットワークトレーニング問題を等価に定式化できることを示す。 また、ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化定式化を導出する。 我々は様々な数値実験で理論結果を裏付ける。

Threshold activation functions are highly preferable in neural networks due to their efficiency in hardware implementations. Moreover, their mode of operation is more interpretable and resembles that of biological neurons. However, traditional gradient based algorithms such as Gradient Descent cannot be used to train the parameters of neural networks with threshold activations since the activation function has zero gradient except at a single non-differentiable point. To this end, we study weight decay regularized training problems of deep neural networks with threshold activations. We first show that regularized deep threshold network training problems can be equivalently formulated as a standard convex optimization problem, which parallels the LASSO method, provided that the last hidden layer width exceeds a certain threshold. We also derive a simplified convex optimization formulation when the dataset can be shattered at a certain layer of the network. We corroborate our theoretical results with various numerical experiments.
翻訳日:2023-03-07 14:44:00 公開日:2023-03-06
# トランスフォーマーによるヒューマノイド運動の学習

Learning Humanoid Locomotion with Transformers ( http://arxiv.org/abs/2303.03381v1 )

ライセンス: Link先を確認
Ilija Radosavovic, Tete Xiao, Bike Zhang, Trevor Darrell, Jitendra Malik, Koushil Sreenath(参考訳) 実世界のヒューマノイド移動に対するシミュレート学習に基づくアプローチを提案する。 我々のコントローラは、観測と行動の歴史から将来の行動の自己回帰予測によって訓練された因果トランスフォーマである。 我々は、観測行動履歴には、強力なトランスフォーマーモデルが、重みを更新せずに、コンテキスト内の動作に適応できる世界に関する有用な情報が含まれていると仮定する。 状態推定、動的モデル、軌道最適化、参照軌跡、事前計算された歩行ライブラリは使用しない。 シミュレーションでは,ランダムな環境の集合体を用いた大規模モデルレス強化学習を訓練し,ゼロショット方式で現実世界に展開する。 提案手法を高忠実度シミュレーションで評価し,実ロボットへの展開に成功した。 私たちの知る限りでは、これは実世界のフルサイズのヒューマノイド移動のための完全な学習ベースの手法の最初の実演である。

We present a sim-to-real learning-based approach for real-world humanoid locomotion. Our controller is a causal Transformer trained by autoregressive prediction of future actions from the history of observations and actions. We hypothesize that the observation-action history contains useful information about the world that a powerful Transformer model can use to adapt its behavior in-context, without updating its weights. We do not use state estimation, dynamics models, trajectory optimization, reference trajectories, or pre-computed gait libraries. Our controller is trained with large-scale model-free reinforcement learning on an ensemble of randomized environments in simulation and deployed to the real world in a zero-shot fashion. We evaluate our approach in high-fidelity simulation and successfully deploy it to the real robot as well. To the best of our knowledge, this is the first demonstration of a fully learning-based method for real-world full-sized humanoid locomotion.
翻訳日:2023-03-07 14:43:44 公開日:2023-03-06
# 熱状態のpetz-r\'enyi相対エントロピーとその変位

Petz-R\'enyi Relative Entropy of Thermal States and their Displacements ( http://arxiv.org/abs/2303.03380v1 )

ライセンス: Link先を確認
George Androulakis and Tiju Cherian John(参考訳) 本稿では, 2つの熱状態が有限であるようなパラメータ $\alpha$ の値の精度範囲を, Petz-R\'enyi $\alpha$-relative entropy $D_{\alpha}(\rho||\sigma)$ とする。 より正確には、2つの置換された熱状態が与えられたとき、r_1, r_2,\dots, r_n$ と $s_1,s_2, \dots, s_n$ はそれぞれ \[ d_{\alpha}(\rho||\sigma)<\infty \leftrightarrow \alpha < \min \left\{ \frac{s_j}{s_j-r_j}: j \in \{ 1, \ldots , n \} \text{ such that } r_j<s_j \right\}, \] となることを証明する。 その過程で、Seshdreesan, Lami and Wilde (J) の予想の特別な場合を証明する。 数学 Phys 59, 072204 (2018)).

In this article, we obtain the precise range of the values of the parameter $\alpha$ such that Petz-R\'enyi $\alpha$-relative entropy $D_{\alpha}(\rho||\sigma)$ of two displaced thermal states is finite. More precisely, we prove that, given two displaced thermal states $\rho$ and $\sigma$ with inverse temperature parameters $r_1, r_2,\dots, r_n$ and $s_1,s_2, \dots, s_n$, respectively, we have \[ D_{\alpha}(\rho||\sigma)<\infty \Leftrightarrow \alpha < \min \left\{ \frac{s_j}{s_j-r_j}: j \in \{ 1, \ldots , n \} \text{ such that } r_j<s_j \right\}, \] where we adopt the convention that the minimum of an empty set is equal to infinity. Along the way, we prove a special case of a conjecture of Seshdreesan, Lami and Wilde (J. Math. Phys. 59, 072204 (2018)).
翻訳日:2023-03-07 14:43:31 公開日:2023-03-06
# SUREL+:スケーラブルなグラフ表現学習のためのウォークからセットへの移行

SUREL+: Moving from Walks to Sets for Scalable Subgraph-based Graph Representation Learning ( http://arxiv.org/abs/2303.03379v1 )

ライセンス: Link先を確認
Haoteng Yin, Muhan Zhang, Jianguo Wang, Pan Li(参考訳) グラフを用いたグラフ表現学習(SGRL)は、モデル表現性と一般化能力の優位性から、最近、グラフ上の多くの予測タスクにおいて強力なツールとして登場した。 従来のsgrlモデルは、トレーニングやテストクエリごとにサブグラフを抽出するコストが高いという計算問題に直面している。 最近、sllは、ランダムウォークをオフラインでサンプリングし、これらのウォークをオンラインのサブグラフとして予測するsgrlを加速する新しいフレームワークとして提案されている。 異なるクエリにわたるサンプルウォークの再利用性のため、SURELはスケーラビリティと予測精度の両方で最先端のパフォーマンスを達成する。 しかし、SURELは、サンプリングされたウォークにおけるノードの冗長性に起因する高い計算オーバーヘッドに悩まされている。 本研究では,ウォークの代わりにノードセットを用いてSURELをアップグレードし,サブグラフを表現する新しいフレームワークSUREL+を提案する。 このセットベースの表現は定義によるノード重複を避けるが、ノードセットのサイズは不規則である。 この問題に対処するため,我々は,インデックスノードを効率的に格納・高速化するために,専用のスパースデータ構造を設計し,並列バッチでそれらを結合する特別な演算子を提供する。 SUREL+は、複数のタイプのセットサンプリング、構造的特徴、ニューラルエンコーダをサポートし、ウォークからセットへの減少による構造情報の損失を補完するようにモジュール化されている。 リンク,関係型,高次パターンの予測タスクにおいて,SUREL+を検証するための大規模な実験が行われた。 SUREL+は他のSGRLベースラインと比較して、SUREL+は$\sim$20$\times$スピードアップを達成し、予測精度を大幅に改善している。

Subgraph-based graph representation learning (SGRL) has recently emerged as a powerful tool in many prediction tasks on graphs due to its advantages in model expressiveness and generalization ability. Most previous SGRL models face computational issues associated with the high cost of extracting subgraphs for each training or testing query. Recently, SUREL has been proposed as a new framework to accelerate SGRL, which samples random walks offline and joins these walks as subgraphs online for prediction. Due to the reusability of sampled walks across different queries, SUREL achieves state-of-the-art performance in both scalability and prediction accuracy. However, SUREL still suffers from high computational overhead caused by node redundancy in sampled walks. In this work, we propose a novel framework SUREL+ that upgrades SUREL by using node sets instead of walks to represent subgraphs. This set-based representation avoids node duplication by definition, but the sizes of node sets can be irregular. To address this issue, we design a dedicated sparse data structure to efficiently store and fast index node sets, and provide a specialized operator to join them in parallel batches. SUREL+ is modularized to support multiple types of set samplers, structural features, and neural encoders to complement the loss of structural information due to the reduction from walks to sets. Extensive experiments have been performed to validate SUREL+ in the prediction tasks of links, relation types, and higher-order patterns. SUREL+ achieves 3-11$\times$ speedups of SUREL while maintaining comparable or even better prediction performance; compared to other SGRL baselines, SUREL+ achieves $\sim$20$\times$ speedups and significantly improves the prediction accuracy.
翻訳日:2023-03-07 14:42:50 公開日:2023-03-06
# PaLM-E: マルチモーダル言語モデル

PaLM-E: An Embodied Multimodal Language Model ( http://arxiv.org/abs/2303.03378v1 )

ライセンス: Link先を確認
Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence(参考訳) 大規模な言語モデルは、幅広い複雑なタスクに優れている。 しかし、ロボット工学の問題のような現実世界での一般的な推論を可能にすることは、接地という課題を提起する。 本研究では,実世界の連続したセンサのモーダル性を直接言語モデルに組み込むための具体的言語モデルを提案する。 具体的言語モデルへの入力は、視覚、連続状態推定、テキスト入力エンコーディングをインターリーブするマルチモーダル文である。 我々は,ロボット操作計画や視覚的質問応答,キャプションなど,複数の具体的タスクに対して,事前訓練済みの大規模言語モデルとともに,エンド・ツー・エンドのエンコーディングを訓練する。 評価の結果,1つの大規模マルチモーダルモデルである PaLM-E は,様々な観察モダリティから,複数の実施形態に至るまで,様々な具体的推論タスクに対処できることがわかった。 私たちの最大のモデルは562bのパラメータを持つpalm-e-562bで、ロボティクスタスクのトレーニングに加えて、ok-vqaで最先端のパフォーマンスを持つビジュアル言語ジェネラリストです。

Large language models excel at a wide range of complex tasks. However, enabling general inference in the real world, e.g., for robotics problems, raises the challenge of grounding. We propose embodied language models to directly incorporate real-world continuous sensor modalities into language models and thereby establish the link between words and percepts. Input to our embodied language model are multi-modal sentences that interleave visual, continuous state estimation, and textual input encodings. We train these encodings end-to-end, in conjunction with a pre-trained large language model, for multiple embodied tasks including sequential robotic manipulation planning, visual question answering, and captioning. Our evaluations show that PaLM-E, a single large embodied multimodal model, can address a variety of embodied reasoning tasks, from a variety of observation modalities, on multiple embodiments, and further, exhibits positive transfer: the model benefits from diverse joint training across internet-scale language, vision, and visual-language domains. Our largest model, PaLM-E-562B with 562B parameters, in addition to being trained on robotics tasks, is a visual-language generalist with state-of-the-art performance on OK-VQA, and retains generalist language capabilities with increasing scale.
翻訳日:2023-03-07 14:42:22 公開日:2023-03-06
# MAESTRO:マルチエージェント強化学習のためのオープンエンド環境設計

MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.03376v1 )

ライセンス: Link先を確認
Mikayel Samvelyan, Akbir Khan, Michael Dennis, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Roberta Raileanu, Tim Rockt\"aschel(参考訳) ますます困難なタスクのカリキュラムを自動的に生成するオープンエンド学習手法は、汎用的な強化学習エージェントへの有望な道のりとなっている。 既存のメソッドは、環境パラメータ(シングルエージェント設定)またはコプレイヤーポリシー(マルチエージェント設定)に独立してキュキュキュラを適用する。 しかし,コプレーヤの強みや弱みは,環境特性によって異なる。 したがって、マルチエージェントドメインでカリキュラムを形作る場合、環境とコプレイヤー間の依存性を考慮することが不可欠である。 本研究では,この知見を用いて,教師なし環境設計(UED)をマルチエージェント環境に拡張する。 次に,オープンエンド学習のためのマルチエージェント環境設計ストラテジスト(maestro)を導入する。 MAESTROは、環境と共同プレイヤの両方で対向的、共同キュキュキュラを効率よく生成し、ナッシュ平衡においてミニマックス-レグレット保証を達成する。 実験の結果、MAESTROは、離散的かつ連続的な制御設定にまたがる、競争力のある2プレイヤーゲームにおいて、多くの強力なベースラインを上回ります。

Open-ended learning methods that automatically generate a curriculum of increasingly challenging tasks serve as a promising avenue toward generally capable reinforcement learning agents. Existing methods adapt curricula independently over either environment parameters (in single-agent settings) or co-player policies (in multi-agent settings). However, the strengths and weaknesses of co-players can manifest themselves differently depending on environmental features. It is thus crucial to consider the dependency between the environment and co-player when shaping a curriculum in multi-agent domains. In this work, we use this insight and extend Unsupervised Environment Design (UED) to multi-agent environments. We then introduce Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO), the first multi-agent UED approach for two-player zero-sum settings. MAESTRO efficiently produces adversarial, joint curricula over both environments and co-players and attains minimax-regret guarantees at Nash equilibrium. Our experiments show that MAESTRO outperforms a number of strong baselines on competitive two-player games, spanning discrete and continuous control settings.
翻訳日:2023-03-07 14:41:55 公開日:2023-03-06
# 光子, グルーオン, グラビトンETFにおける2, 2ドル散乱のベル違反

Bell violation in $2\rightarrow 2$ scattering in photon, gluon and graviton EFTs ( http://arxiv.org/abs/2303.03375v1 )

ライセンス: Link先を確認
Diptimoy Ghosh, Rajat Sharma(参考訳) 本稿では,光子,グルーオン,重力子の有効場理論(EFTs)における2-rightarrow2$散乱に対するベル不等式違反について検討する。 CGLMP Bellパラメータ(I_2$)を用いて、適切な初期非積状態から、ベルの不等式は少なくともある程度の散乱角に対して最終状態(すなわち$I_2 > 2$)で常に破れることを示す。 初期積状態の場合、アーベルゲージ理論は、最終的な状態におけるベル違反の観点から、非アーベルゲージ理論(あるいは重力)とは定性的に異なる振舞いを示す: 非アーベルゲージの場合、ベル違反(i_2>2$)は弱結合uv完了のeftsの妥当性内では不可能である。 興味深いことに、最大絡み合った初期状態の場合、散乱はCPに反する理論に対してのみ絡み合いの程度を減少させる。 したがって、2\rightarrow2$の散乱におけるベル違反は、原則としてcp保存理論と違反理論の分類に使用できる。

In this paper, we explore Bell inequality violation for $2\rightarrow2$ scattering in Effective Field Theories (EFTs) of photons, gluons, and gravitons. Using the CGLMP Bell parameter ($I_2$), we show that, starting from an appropriate initial non-product state, the Bell inequality can always be violated in the final state (i.e.,$I_2 >2$) at least for some scattering angle. For an initial product state, we demonstrate that abelian gauge theories behave qualitatively differently than non-abelian gauge theories (or Gravity) from the point of view of Bell violation in the final state: in the non-abelian case, Bell violation ($I_2>2$) is never possible within the validity of EFTs for weakly coupled UV completions. Interestingly, we also find that, for a maximally entangled initial state, scattering can reduce the degree of entanglement only for CP-violating theories. Thus Bell violation in $2\rightarrow2$ scattering can, in principle, be used to classify CP conserving vs violating theories.
翻訳日:2023-03-07 14:41:35 公開日:2023-03-06
# プレトレイン盆地に滞在するか否か:転校学習の実践をめざして

To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning ( http://arxiv.org/abs/2303.03374v1 )

ライセンス: Link先を確認
Ildus Sadrtdinov, Dmitrii Pozdeev, Dmitry Vetrov, Ekaterina Lobacheva(参考訳) transfer learningとensemblingは、ニューラルネットワークのパフォーマンスと堅牢性を改善するための2つの一般的なテクニックである。 事前訓練のコストが高いため、1つの事前訓練済みチェックポイントから微調整されたモデルのアンサンブルが実際によく用いられる。 このようなモデルは損失ランドスケープの同じ盆地に留まり、したがって多様性が制限される。 本研究では,1つの事前学習検問所から訓練されたアンサンブルを,列車前流域やその外側の近辺をよりよく探索することで改善できるかどうかを検討する。 プレトレイン盆地の探索はアンサンブルにとって有益であるが, 流域は移動学習の利点を失い, アンサンブルの質が低下することが示唆された。

Transfer learning and ensembling are two popular techniques for improving the performance and robustness of neural networks. Due to the high cost of pre-training, ensembles of models fine-tuned from a single pre-trained checkpoint are often used in practice. Such models end up in the same basin of the loss landscape and thus have limited diversity. In this work, we study if it is possible to improve ensembles trained from a single pre-trained checkpoint by better exploring the pre-train basin or a close vicinity outside of it. We show that while exploration of the pre-train basin may be beneficial for the ensemble, leaving the basin results in losing the benefits of transfer learning and degradation of the ensemble quality.
翻訳日:2023-03-07 14:41:13 公開日:2023-03-06
# 画像における物体接触検出

Detecting Human-Object Contact in Images ( http://arxiv.org/abs/2303.03373v1 )

ライセンス: Link先を確認
Yixin Chen, Sai Kumar Dwivedi, Michael J. Black, Dimitrios Tzionas(参考訳) 人間は常にオブジェクトに接触し、タスクを動かします。 したがって、人間中心の人工知能を構築するためには、人間と物体の接触を検出することが重要である。 しかし、画像から身体とシーンの間の接触を検出する堅牢な方法はなく、そのような検出器を学ぶためのデータセットも存在しない。 我々はこのギャップをHOT(Human-Object conTact)で埋める。 HOTを構築するには,(1)3次元メッシュのPROXデータセットを3次元のシーンで移動させ,さらに3次元メッシュの近接と投影によって接触する2次元画像領域を自動的にアノテートする。 2) V-COCO, HAKE, Watch-n-Patchデータセットを用いて, 接触する2次元画像領域のポリゴンの描画を訓練したアノテータに依頼する。 また、人体の身体部分も注釈付けします。 当社のホットデータセットを使って、新しいコンタクト検出器をトレーニングし、単一のカラーイメージを入力として、2dコンタクトヒートマップと接触しているボディパートラベルを出力します。 これは、現在の足場または手動接触検出器を全身の完全な汎用性にまで拡張する、新しくて困難なタスクである。 検知器は、接触推定を周囲の体部とシーンの文脈を通して導くために、部分接触分岐を使用する。 我々は検出器を広範囲に評価し、定量的な結果から、モデルがベースラインよりも優れており、全てのコンポーネントがより良い性能に寄与することを示した。 オンラインリポジトリの画像から得られた結果は、合理的な検出と一般化を示している。

Humans constantly contact objects to move and perform tasks. Thus, detecting human-object contact is important for building human-centered artificial intelligence. However, there exists no robust method to detect contact between the body and the scene from an image, and there exists no dataset to learn such a detector. We fill this gap with HOT ("Human-Object conTact"), a new dataset of human-object contacts for images. To build HOT, we use two data sources: (1) We use the PROX dataset of 3D human meshes moving in 3D scenes, and automatically annotate 2D image areas for contact via 3D mesh proximity and projection. (2) We use the V-COCO, HAKE and Watch-n-Patch datasets, and ask trained annotators to draw polygons for the 2D image areas where contact takes place. We also annotate the involved body part of the human body. We use our HOT dataset to train a new contact detector, which takes a single color image as input, and outputs 2D contact heatmaps as well as the body-part labels that are in contact. This is a new and challenging task that extends current foot-ground or hand-object contact detectors to the full generality of the whole body. The detector uses a part-attention branch to guide contact estimation through the context of the surrounding body parts and scene. We evaluate our detector extensively, and quantitative results show that our model outperforms baselines, and that all components contribute to better performance. Results on images from an online repository show reasonable detections and generalizability.
翻訳日:2023-03-07 14:41:01 公開日:2023-03-06
# 半教師あり学習による幾何と関数の合同皮質登録

Joint cortical registration of geometry and function using semi-supervised learning ( http://arxiv.org/abs/2303.01592v2 )

ライセンス: Link先を確認
Jian Li, Greta Tuckute, Evelina Fedorenko, Brian L. Edlow, Bruce Fischl, Adrian V. Dalca(参考訳) 脳表面に基づく画像登録は、脳画像解析の重要な構成要素であり、皮質表面間の空間的対応を確立する。 既存の反復的および学習に基づくアプローチは、大脳皮質の折り畳みパターンの正確な登録に焦点を当てており、幾何が機能を予測すると仮定しているため、機能領域も適切に整列する。 しかし, 解剖学的対応領域の構造・機能的多様性は, 広く報告されている。 本研究では,最適なアトラスを学習しながら,折り畳みパターンと関数マップを協調的に整列する学習ベースの皮質登録フレームワークJOSAを紹介する。 JOSAは既存手法よりも解剖学的・機能的ドメインの登録性能を大幅に向上させることができることを示す。 半教師付きトレーニング戦略を採用することで、提案フレームワークは推論中に機能的データの必要性を軽減し、機能的データが観察できない広い神経科学領域での使用を可能にする。

Brain surface-based image registration, an important component of brain image analysis, establishes spatial correspondence between cortical surfaces. Existing iterative and learning-based approaches focus on accurate registration of folding patterns of the cerebral cortex, and assume that geometry predicts function and thus functional areas will also be well aligned. However, structure/functional variability of anatomically corresponding areas across subjects has been widely reported. In this work, we introduce a learning-based cortical registration framework, JOSA, which jointly aligns folding patterns and functional maps while simultaneously learning an optimal atlas. We demonstrate that JOSA can substantially improve registration performance in both anatomical and functional domains over existing methods. By employing a semi-supervised training strategy, the proposed framework obviates the need for functional data during inference, enabling its use in broad neuroscientific domains where functional data may not be observed.
翻訳日:2023-03-07 12:20:56 公開日:2023-03-06
# テイラー相互作用を用いた14の帰属方法の理解と統一

Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions ( http://arxiv.org/abs/2303.01506v2 )

ライセンス: Link先を確認
Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, and Quanshi Zhang(参考訳) 各入力変数の属性/重要/貢献スコアを最終出力に推定することにより、ディープニューラルネットワーク(DNN)を説明する様々な属性法を開発した。 しかし、既存の帰属法はしばしば異なるヒューリスティックに基づいている。 これらの方法がなぜ効果的で、どのように関連しているかについての統一的な理論的理解がいまだに欠けている。 この目的のために、我々は初めて、異なるヒューリスティックに基づいて設計された14個の帰属法のコアメカニズムを、同じ数学的システム、すなわちテイラー相互作用の系に定式化した。 具体的には,14個の帰属法で推定される帰属スコアを,各入力変数の独立効果と入力変数間の相互作用効果という2種類の効果の重み付け和として再構成できることを実証する。 14の帰属法における本質的な違いは、主に異なる効果を割り当てる重みである。 本研究は,14の帰属方法の忠実度を評価するために,効果の公平な配分のための3つの原則を提案する。

Various attribution methods have been developed to explain deep neural networks (DNNs) by inferring the attribution/importance/contribution score of each input variable to the final output. However, existing attribution methods are often built upon different heuristics. There remains a lack of a unified theoretical understanding of why these methods are effective and how they are related. To this end, for the first time, we formulate core mechanisms of fourteen attribution methods, which were designed on different heuristics, into the same mathematical system, i.e., the system of Taylor interactions. Specifically, we prove that attribution scores estimated by fourteen attribution methods can all be reformulated as the weighted sum of two types of effects, i.e., independent effects of each individual input variable and interaction effects between input variables. The essential difference among the fourteen attribution methods mainly lies in the weights of allocating different effects. Based on the above findings, we propose three principles for a fair allocation of effects to evaluate the faithfulness of the fourteen attribution methods.
翻訳日:2023-03-07 12:20:41 公開日:2023-03-06
# 量子機械学習のための古典特異値変換の改良

An Improved Classical Singular Value Transformation for Quantum Machine Learning ( http://arxiv.org/abs/2303.01492v2 )

ライセンス: Link先を確認
Ainesh Bakshi and Ewin Tang(参考訳) 量子機械学習(QML)は線形代数問題に対して大きな量子スピードアップを生み出す大きな可能性を示している。 GSLW, STOC'19, arXiv:1806.01838] によって導入された量子特異値変換(QSVT)は、QMLアルゴリズムを得るための統一フレームワークである。 低ランク入力におけるQSVTの性能を,多項式オーバーヘッドを小さくする古典的アルゴリズムを提案する。 量子メモリの仮定の下では、有界行列 $a\in\mathbb{c}^{m\times n}$, vector $b\in\mathbb{c}^{n}$, and bounded degree-$d$ polynomial $p$, qsvt は線形時間前処理後に$|p(a)b\rangle$ in $o(d\|a\|_f)$ time から測定値を出力することができる。 同じ設定で、任意の$\varepsilon>0$に対して、$\|v - p(A) b\|\leq\varepsilon\|b\|$ in $O(d^9\|A\|_F^4/\varepsilon^2)$ を線形時間前処理の後に出力できる。 これは、$O(d^{22}\|A\|_F^6/\varepsilon^6)$timeを必要とする最もよく知られた古典的アルゴリズム [CGLLTW, STOC'20, arXiv:1910.06151] により改善される。 上記のアルゴリズムを異なる多項式で検証し、回帰、レコメンデーションシステム、ハミルトニアンシミュレーションのための高速量子インスピレーションアルゴリズムを得る。 我々は,問題特化アプローチを含む,先行作業における多数のパラメータ設定を改善した。 我々の重要な洞察は、行列多項式の反復的計算法であるクレンショー繰り返しと、QSVTを古典的にシミュレートするスケッチ技法を組み合わせることである。 この作業で導入されたツールは、 (a)双線型形式をほぼ保存するためのマトリクススケッチ (b)$\ell_2^2$サンプリングに基づく非対称近似行列積のスケッチ (c)クレンショー再発に対する新しい安定性解析、及び (d) 有界関数のチェビシェフ級数展開に現れる係数の算術進行を有界化するための新しい手法。

Quantum machine learning (QML) has shown great potential to produce large quantum speedups for linear algebra tasks. The quantum singular value transformation (QSVT), introduced by [GSLW, STOC'19, arXiv:1806.01838], is a unifying framework to obtain QML algorithms. We provide a classical algorithm that matches the performance of QSVT on low-rank inputs, up to small polynomial overhead. Under quantum memory assumptions, given a bounded matrix $A\in\mathbb{C}^{m\times n}$, vector $b\in\mathbb{C}^{n}$, and bounded degree-$d$ polynomial $p$, QSVT can output a measurement from the state $|p(A)b\rangle$ in $O(d\|A\|_F)$ time after linear-time pre-processing. We show that, in the same setting, for any $\varepsilon>0$, we can output a vector $v$ such that $\|v - p(A) b\|\leq\varepsilon\|b\|$ in $O(d^9\|A\|_F^4/\varepsilon^2)$ time after linear-time pre-processing. This improves upon the best known classical algorithm [CGLLTW, STOC'20, arXiv:1910.06151], which requires $O(d^{22}\|A\|_F^6/\varepsilon^6)$ time. Instantiating the aforementioned algorithm with different polynomials, we obtain fast quantum-inspired algorithms for regression, recommendation systems, and Hamiltonian simulation. We improve in numerous parameter settings on prior work, including those that use problem-specialized approaches. Our key insight is to combine the Clenshaw recurrence, an iterative method for computing matrix polynomials, with sketching techniques to simulate QSVT classically. The tools we introduce in this work include (a) a matrix sketch for approximately preserving bi-linear forms, (b) an asymmetric approximate matrix product sketch based on $\ell_2^2$ sampling, (c) a new stability analysis for the Clenshaw recurrence, and (d) a new technique to bound arithmetic progressions of the coefficients appearing in the Chebyshev series expansion of bounded functions, each of which may be of independent interest.
翻訳日:2023-03-07 12:20:24 公開日:2023-03-06
# Deep Learning-based Denoising Methodの客観的タスクベース評価の必要性:心筋血流SPECTにおける検討

Need for Objective Task-based Evaluation of Deep Learning-Based Denoising Methods: A Study in the Context of Myocardial Perfusion SPECT ( http://arxiv.org/abs/2303.02110v2 )

ライセンス: Link先を確認
Zitong Yu, Md Ashequr Rahman, Richard Laforest, Thomas H. Schindler, Robert J. Gropler, Richard L. Wahl, Barry A. Siegel, Abhinav K. Jha(参考訳) 人工知能に基づく手法は核医学に大きな関心を呼んだ。 関心のある領域は、低用量、より短い取得時間、あるいは両方で取得した画像を識別するためのディープラーニング(DL)ベースのアプローチである。 これらのアプローチの客観的評価は臨床応用に不可欠である。 dlに基づく核医学画像の脱ノイズ化手法は、一般的にrmseやssimのような忠実度に基づく評価(foms)を用いて評価されている。 しかし,これらの画像は臨床的タスクのために取得され,それらのタスクのパフォーマンスに基づいて評価されるべきである。 本研究の目的は,(1)fomによる評価が客観的な臨床課題に基づく評価と一致しているか,(2)信号検出課題に対する脱音の影響を理論的に決定するための分析を行うこと,(3)dlに基づく方法を評価するための仮想臨床試験(vcts)の有用性を示すことである。 心筋灌流SPECT(MPS)画像の診断にDL法を応用したVCTを施行した。 人為的チャネルを持つモデル観測者を用いて,MPS画像の灌流欠陥検出性能を定量化したFoMsとAUCを用いて,DLベースデノナイジングの効果を評価した。 忠実度をベースとしたFoMでは,DL法を併用することで性能が著しく向上した。 しかし,ROC分析ではデノナイジングは改善せず,実際は検出タスク性能が劣化することが多かった。 その結果、dlに基づく分別手法の客観的タスクベース評価の必要性が高まった。 さらに,本研究では,VCTを用いて評価を行うメカニズムについて述べる。 最後に,提案手法の限定的な性能の理由を理論的に明らかにした。

Artificial intelligence-based methods have generated substantial interest in nuclear medicine. An area of significant interest has been using deep-learning (DL)-based approaches for denoising images acquired with lower doses, shorter acquisition times, or both. Objective evaluation of these approaches is essential for clinical application. DL-based approaches for denoising nuclear-medicine images have typically been evaluated using fidelity-based figures of merit (FoMs) such as RMSE and SSIM. However, these images are acquired for clinical tasks and thus should be evaluated based on their performance in these tasks. Our objectives were to (1) investigate whether evaluation with these FoMs is consistent with objective clinical-task-based evaluation; (2) provide a theoretical analysis for determining the impact of denoising on signal-detection tasks; (3) demonstrate the utility of virtual clinical trials (VCTs) to evaluate DL-based methods. A VCT to evaluate a DL-based method for denoising myocardial perfusion SPECT (MPS) images was conducted. The impact of DL-based denoising was evaluated using fidelity-based FoMs and AUC, which quantified performance on detecting perfusion defects in MPS images as obtained using a model observer with anthropomorphic channels. Based on fidelity-based FoMs, denoising using the considered DL-based method led to significantly superior performance. However, based on ROC analysis, denoising did not improve, and in fact, often degraded detection-task performance. The results motivate the need for objective task-based evaluation of DL-based denoising approaches. Further, this study shows how VCTs provide a mechanism to conduct such evaluations using VCTs. Finally, our theoretical treatment reveals insights into the reasons for the limited performance of the denoising approach.
翻訳日:2023-03-07 12:10:53 公開日:2023-03-06
# 不釣り合いなモザイク

Unproportional mosaicing ( http://arxiv.org/abs/2303.02081v2 )

ライセンス: Link先を確認
Vojtech Molek, Petr Hurtik, Pavel Vlasanek, David Adamczyk(参考訳) データシフトは、トレーニングに使用されるデータ分散と、現実世界で遭遇するデータ分散のギャップである。 データ拡張は、新しいデータサンプルの生成、データの多様性の向上、データ空間のカバレッジ向上によってギャップを狭めるのに役立つ。 新たなデータ拡張としてunproportional mosaicing (unprop)を提案する。 我々の拡張は、画像をランダムに様々なサイズのブロックに分割し、ブロックサイズを維持しながらコンテンツ(ピクセル)を交換する。 提案手法は,他の技術拡張と組み合わせた場合の誤差率を低くする。

Data shift is a gap between data distribution used for training and data distribution encountered in the real-world. Data augmentations help narrow the gap by generating new data samples, increasing data variability, and data space coverage. We present a new data augmentation: Unproportional mosaicing (Unprop). Our augmentation randomly splits an image into various-sized blocks and swaps its content (pixels) while maintaining block sizes. Our method achieves a lower error rate when combined with other state-of-the-art augmentations.
翻訳日:2023-03-07 12:10:23 公開日:2023-03-06
# グローバルヘルスにおける適応的介入のための合成データ生成装置

Synthetic Data Generator for Adaptive Interventions in Global Health ( http://arxiv.org/abs/2303.01954v2 )

ライセンス: Link先を確認
Aditya Rastogi, Juan Francisco Garamendi, Ana Fern\'andez del R\'io, Anna Guitart, Moiz Hassan Khan, Dexian Tang and \'Africa Peri\'a\~nez(参考訳) 人工知能とデジタルヘルスは、世界の健康を変える可能性がある。 しかし、現実的な実運用環境でアルゴリズムをテストし検証するために代表データにアクセスすることは不可欠である。 モバイルヘルス介入の文脈で強化学習アルゴリズムをテストするための,ユーザの行動のオープンソース合成データ生成装置であるHealthSynを紹介する。 ジェネレータはmarkovプロセスを使用してさまざまなユーザアクションを生成し、パーソナライズされた介入(リマインダー、レコメンデーション、インセンティブなど)に対する反応を変えることができる個々のユーザ行動パターンを生成する。 これらのアクションは、HealthKitに含まれるモバイルヘルスアプリケーション機能とオープンソースSDKに特有のML目的のデータスキーマを使用して、実際のログに変換される。 ログはパイプラインに送ってユーザメトリクスを取得することができる。 生成されたデータは、実世界の振る舞いとシミュレーション技術に基づいており、研究におけるMLアルゴリズムの開発とテスト、評価、およびエンドツーエンドのRLベースの介入配信フレームワークを使用することができる。

Artificial Intelligence and digital health have the potential to transform global health. However, having access to representative data to test and validate algorithms in realistic production environments is essential. We introduce HealthSyn, an open-source synthetic data generator of user behavior for testing reinforcement learning algorithms in the context of mobile health interventions. The generator utilizes Markov processes to generate diverse user actions, with individual user behavioral patterns that can change in reaction to personalized interventions (i.e., reminders, recommendations, and incentives). These actions are translated into actual logs using an ML-purposed data schema specific to the mobile health application functionality included with HealthKit, and open-source SDK. The logs can be fed to pipelines to obtain user metrics. The generated data, which is based on real-world behaviors and simulation techniques, can be used to develop, test, and evaluate, both ML algorithms in research and end-to-end operational RL-based intervention delivery frameworks.
翻訳日:2023-03-07 12:10:16 公開日:2023-03-06
# 遠隔監視による古代中国語単語のセグメンテーションとパート・オブ・スパイチ・タギング

Ancient Chinese Word Segmentation and Part-of-Speech Tagging Using Distant Supervision ( http://arxiv.org/abs/2303.01912v2 )

ライセンス: Link先を確認
Shuo Feng, Piji Li(参考訳) 古代中国語の単語セグメンテーション(WSG)とPOS(part-of-speech tagging)は、古代中国語を研究する上で重要であるが、古代中国語のWSGとPOSタグデータの量はいまだに稀である。 本稿では,パラレルコーパス上の遠隔監視を用いた,古代中国のwsgおよびposタグデータの新たな拡張手法を提案する。 しかし、いまだに誤記・無記名古代の漢語は、遠方の監督によって必然的に残されている。 この問題に対処するために、深層ニューラルネットワークと少量の注釈付きデータによる暗記効果を利用して、多くの知識とわずかなノイズを持つモデルを取得し、このモデルを用いて、古代中国語の文を並列コーパスで再現する。 実験により、学習したモデルが、遠隔監視データと注釈付きデータから生成されたデータより訓練されたモデルより優れていることが示された。 私たちのコードはhttps://github.com/farlit/acdsで利用可能です。

Ancient Chinese word segmentation (WSG) and part-of-speech tagging (POS) are important to study ancient Chinese, but the amount of ancient Chinese WSG and POS tagging data is still rare. In this paper, we propose a novel augmentation method of ancient Chinese WSG and POS tagging data using distant supervision over parallel corpus. However, there are still mislabeled and unlabeled ancient Chinese words inevitably in distant supervision. To address this problem, we take advantage of the memorization effects of deep neural networks and a small amount of annotated data to get a model with much knowledge and a little noise, and then we use this model to relabel the ancient Chinese sentences in parallel corpus. Experiments show that the model trained over the relabeled data outperforms the model trained over the data generated from distant supervision and the annotated data. Our code is available at https://github.com/farlit/ACDS.
翻訳日:2023-03-07 12:10:00 公開日:2023-03-06
# EcoTTA: 自己蒸留正則化によるメモリ効率の良い連続テスト時間適応

EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization ( http://arxiv.org/abs/2303.01904v2 )

ライセンス: Link先を確認
Junha Song, Jungsoo Lee, In So Kweon, Sungha Choi(参考訳) 本稿では,TTA(Continuous Test-Time Adaptance)をメモリ効率良く改善する,シンプルかつ効果的な手法を提案する。 TTAは主にメモリ制限のあるエッジデバイス上で実行されるため、メモリ削減は重要であるが、以前のTTA研究では見過ごされてきた。 加えて、長期的な適応は、しばしば破滅的な忘れとエラーの蓄積をもたらし、現実世界の展開においてTTAの適用を妨げる。 このアプローチは、これらの問題に対処する2つのコンポーネントで構成されています。 まず,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。 このアーキテクチャは、バックプロパゲーションに必要な中間活性化のサイズを小さくすることで、メモリ消費を最小化する。 第2に, 新たな自己蒸留正則化は, 凍結した元のネットワークの出力から著しく逸脱しないように, メタネットワークの出力を制御する。 追加のメモリがなければ、この正規化はエラーの蓄積と破滅的な忘れ込みを防止し、長期のテスト時間適応においても安定したパフォーマンスをもたらす。 画像分類やセマンティクスセグメンテーションタスクのベンチマークにおいて,我々の単純かつ効果的な戦略が,他の最先端手法よりも優れていることを実証する。 特に,ResNet-50およびWideResNet-40を用いた提案手法は,最近の最先端手法であるCoTTAよりも86%,80%少ないメモリを消費する。

This paper presents a simple yet effective approach that improves continual test-time adaptation (TTA) in a memory-efficient manner. TTA may primarily be conducted on edge devices with limited memory, so reducing memory is crucial but has been overlooked in previous TTA studies. In addition, long-term adaptation often leads to catastrophic forgetting and error accumulation, which hinders applying TTA in real-world deployments. Our approach consists of two components to address these issues. First, we present lightweight meta networks that can adapt the frozen original networks to the target domain. This novel architecture minimizes memory consumption by decreasing the size of intermediate activations required for backpropagation. Second, our novel self-distilled regularization controls the output of the meta networks not to deviate significantly from the output of the frozen original networks, thereby preserving well-trained knowledge from the source domain. Without additional memory, this regularization prevents error accumulation and catastrophic forgetting, resulting in stable performance even in long-term test-time adaptation. We demonstrate that our simple yet effective strategy outperforms other state-of-the-art methods on various benchmarks for image classification and semantic segmentation tasks. Notably, our proposed method with ResNet-50 and WideResNet-40 takes 86% and 80% less memory than the recent state-of-the-art method, CoTTA.
翻訳日:2023-03-07 12:09:42 公開日:2023-03-06
# t360rrd:360度回転矩形テーブル検出用データセット

T360RRD: A dataset for 360 degree rotated rectangular box table detection ( http://arxiv.org/abs/2303.01894v2 )

ライセンス: Link先を確認
Wenxing Hu, Minglei Tong(参考訳) 本稿では,回転画像テーブル検出データセットの不足とアノテーションコストの問題に対処するため,回転画像テーブル検出データセットを構築する手法を提案する。 ICDAR2019MTDのテーブル検出データセットに基づいて、DOTAデータセットのアノテーションフォーマットを参照して、TRR360D回転テーブル検出データセットを作成する。 トレーニングセットは600の回転画像と977の注釈付きインスタンスを含み、テストセットは240の回転画像と499の注釈付きインスタンスを含む。 AP50(T<90)評価基準を定義し、このデータセットは将来の研究者がテーブル検出アルゴリズムの研究とテーブル検出技術の開発を促進するために利用できる。 TRR360D回転テーブル検出データセットは開始点とアノテーションの方向を制約することで作成され、https://github.com/vansin/TRR360Dで公開されている。

To address the problem of scarcity and high annotation costs of rotated image table detection datasets, this paper proposes a method for building a rotated image table detection dataset. Based on the ICDAR2019MTD modern table detection dataset, we refer to the annotation format of the DOTA dataset to create the TRR360D rotated table detection dataset. The training set contains 600 rotated images and 977 annotated instances, and the test set contains 240 rotated images and 499 annotated instances. The AP50(T<90) evaluation metric is defined, and this dataset is available for future researchers to study rotated table detection algorithms and promote the development of table detection technology. The TRR360D rotated table detection dataset was created by constraining the starting point and annotation direction, and is publicly available at https://github.com/vansin/TRR360D.
翻訳日:2023-03-07 12:09:18 公開日:2023-03-06
# 物体中心予測モデルによる内在的物理概念の発見

Intrinsic Physical Concepts Discovery with Object-Centric Predictive Models ( http://arxiv.org/abs/2303.01869v2 )

ライセンス: Link先を確認
Qu Tang, XiangYu Zhu, Zhen Lei, ZhaoXiang Zhang(参考訳) 抽象的な物理的概念を発見し、人間の知性の中核を観察することで世界がどのように働くかを理解する能力。 この能力の獲得は、教師なしの方法でオブジェクトと関係の観点から環境を合成的に知覚することに基づいている。 最近のアプローチでは、オブジェクト中心の表現を学習し、形、サイズ、位置など、視覚的に観察可能なオブジェクトの概念をキャプチャする。 本稿では,質量や電荷といった内在的な物理的概念を発見し,表現しようとする。 PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。 PHYCINEの根底にある重要な洞察は、2倍のコモンセンス知識が予測と共に出現し、異なる抽象レベルの物理的概念がボトムアップ方式で推論されるべきである。 経験的評価は、システムによって推定される変数が対応する物理概念の性質に従って動作することを示す。 また,検出された物理概念変数を含むオブジェクト表現が,因果推論タスク,すなわちcomphyの性能向上に役立つことを示す。

The ability to discover abstract physical concepts and understand how they work in the world through observing lies at the core of human intelligence. The acquisition of this ability is based on compositionally perceiving the environment in terms of objects and relations in an unsupervised manner. Recent approaches learn object-centric representations and capture visually observable concepts of objects, e.g., shape, size, and location. In this paper, we take a step forward and try to discover and represent intrinsic physical concepts such as mass and charge. We introduce the PHYsical Concepts Inference NEtwork (PHYCINE), a system that infers physical concepts in different abstract levels without supervision. The key insights underlining PHYCINE are two-fold, commonsense knowledge emerges with prediction, and physical concepts of different abstract levels should be reasoned in a bottom-up fashion. Empirical evaluation demonstrates that variables inferred by our system work in accordance with the properties of the corresponding physical concepts. We also show that object representations containing the discovered physical concepts variables could help achieve better performance in causal reasoning tasks, i.e., ComPhy.
翻訳日:2023-03-07 12:09:03 公開日:2023-03-06
# セマンティックタイポグラフィのためのワード・アズ・イメージ

Word-As-Image for Semantic Typography ( http://arxiv.org/abs/2303.01818v2 )

ライセンス: Link先を確認
Shir Iluz, Yael Vinker, Amir Hertz, Daniel Berio, Daniel Cohen-Or, Ariel Shamir(参考訳) ワード・アズ・イメージ(word-as-image)は、単語イラストが単語の意味を視覚化し、読みやすさを保ちながら表現する意味的タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。 この課題には、単語の意味的理解と、これらの意味を視覚的に快く妥当な方法で表現する方法の創造的アイデアが必要であるため、非常に難しい。 テキスト概念を視覚的に蒸留する,近年の大規模事前学習言語ビジョンモデルの顕著な能力に頼っている。 セマンティクスを明確に伝えるシンプルで簡潔で白黒のデザインをターゲットにしています。 我々は意図的に文字の色やテクスチャを変えず、装飾を使わない。 本手法では,各文字の輪郭を最適化し,事前学習した安定拡散モデルに導かれる望ましい概念を伝える。 我々は、テキストの正当性とフォントのスタイルの保存を保証するために、追加の損失項を組み込んだ。 多数の例で高い品質と魅力的な結果を示し、代替技術と比較する。

A word-as-image is a semantic typography technique where a word illustration presents a visualization of the meaning of the word, while also preserving its readability. We present a method to create word-as-image illustrations automatically. This task is highly challenging as it requires semantic understanding of the word and a creative idea of where and how to depict these semantics in a visually pleasing and legible manner. We rely on the remarkable ability of recent large pretrained language-vision models to distill textual concepts visually. We target simple, concise, black-and-white designs that convey the semantics clearly. We deliberately do not change the color or texture of the letters and do not use embellishments. Our method optimizes the outline of each letter to convey the desired concept, guided by a pretrained Stable Diffusion model. We incorporate additional loss terms to ensure the legibility of the text and the preservation of the style of the font. We show high quality and engaging results on numerous examples and compare to alternative techniques.
翻訳日:2023-03-07 12:08:44 公開日:2023-03-06
# フェアネス診断としてのモデル説明の相違

Model Explanation Disparities as a Fairness Diagnostic ( http://arxiv.org/abs/2303.01704v2 )

ライセンス: Link先を確認
Peter W. Chang, Leor Fishman, Seth Neel(参考訳) 近年、機械学習モデルの公平性、特に保護された部分群に対するバイアスの定量化と排除に焦点を当てた研究が盛んに行われている。 1行の作業は、"リッチな部分群"の概念を導入することによって、単純な離散クラスを超えて保護された部分群の概念を一般化し、これらのリッチな部分群クラスに関して校正されたモデルやエラー率の等化を求める。 主に直交的に局所モデル説明法が開発され、クラス化 h とテストポイント x が与えられたとき、x の個々の特徴に対する予測 h(x) に対する属性の影響が与えられる。 局所モデル説明法は、異なる保護されたサブグループの平均的な特徴重要度を属性としており、これらの格差を効率的に検出できるだろうか? モデルが特定の保護されたサブグループの特定の特徴に対して高い重みを付けるが、データセット全体(あるいはその逆も)には当てはまらない場合、これは予測モデルや基礎となるデータ生成プロセスにおけるバイアスの潜在的な指標になり得る。 本稿では,リッチサブグループの文脈において特徴量格差 (fid) の概念を正式に導入し,大規模fidサブグループを識別するためのoracle-efficentアルゴリズムの設計と,データセットバイアスを調査するための重要な方法としてfidの監査を確立する徹底的な経験的分析を行う。 実験の結果,4つのデータセットと4つの共通特徴重み付け手法で,アルゴリズムが同時に(機能,サブグループ)ペアを見つけることがわかった。 (i)データセット全体の重要性と等級が異なる部分群の特徴の重要性 (ii)サンプルから一般化し、 (iii)これらのデータセットに内在する潜在的なバイアスについての興味深い議論をもたらす。

In recent years, there has been a flurry of research focusing on the fairness of machine learning models, and in particular on quantifying and eliminating bias against protected subgroups. One line of work generalizes the notion of protected subgroups beyond simple discrete classes by introducing the notion of a "rich subgroup", and seeks to train models that are calibrated or equalize error rates with respect to these richer subgroup classes. Largely orthogonally, local model explanation methods have been developed that given a classifier h and test point x, attribute influence for the prediction h(x) to the individual features of x. This raises a natural question: Do local model explanation methods attribute different feature importance values on average across different protected subgroups, and can we detect these disparities efficiently? If the model places high weight on a given feature in a specific protected subgroup, but not on the dataset overall (or vice versa), this could be a potential indicator of bias in the predictive model or the underlying data generating process, and is at the very least a useful diagnostic that signals the need for a domain expert to delve deeper. In this paper, we formally introduce the notion of feature importance disparity (FID) in the context of rich subgroups, design oracle-efficent algorithms to identify large FID subgroups, and conduct a thorough empirical analysis that establishes auditing for FID as an important method to investigate dataset bias. Our experiments show that across 4 datasets and 4 common feature importance methods our algorithms find (feature, subgroup) pairs that simultaneously: (i) have subgroup feature importance that is often an order of magnitude different than the importance on the dataset as a whole (ii) generalize out of sample, and (iii) yield interesting discussions about potential bias inherent in these datasets.
翻訳日:2023-03-07 12:08:27 公開日:2023-03-06
# 半教師付き逐次変分ベイズフレームワークによるソフトロボットのクロスドメイン移動学習と状態推定

Cross-domain Transfer Learning and State Inference for Soft Robots via a Semi-supervised Sequential Variational Bayes Framework ( http://arxiv.org/abs/2303.01693v2 )

ライセンス: Link先を確認
Shageenderan Sapai, Junn Yong Loo, Ze Yang Ding, Chee Pin Tan, Raphael CW Phan, Vishnu Monn Baskaran, Surya Girinatha Nurzaman(参考訳) 近年、ディープニューラルネットワークのようなデータ駆動モデルは、ソフトロボットのモデリングと状態推論に有望なツールであることが示されている。 しかし、深いモデルが効果的に実行するには、大量のデータが必要であり、特に状態ラベルにおいて、徹底的で質の高いデータ収集が必要である。 このため,ソフトロボットのセンサ化の難しさや非構造環境におけるデータ収集の不便さなど,ソフトロボットシステムのためのラベル付き状態データを得ることが課題となっている。 この課題に対処するために,本研究では,特定のロボット構成に状態ラベルが欠けているソフトロボットにおいて,伝達学習と状態推論のための半教師付き逐次変分ベイズ(DSVB)フレームワークを提案する。 ソフトロボットは、異なるロボット構成下で異なるダイナミクスを示す可能性があるため、複数の構成にまたがる潜在特徴の適応を促進するために、特徴空間移動戦略も組み込まれている。 提案するdsvbは,従来のトランスファー学習手法とは異なり,リカレントニューラルネットワークを用いて,ソフトロボットデータの非線形ダイナミクスと時間コヒーレンスをモデル化する。 提案フレームワークは,空気圧式ソフトロボットフィンガーの複数の設定構成で検証される。 4つの転送シナリオに関する実験結果から, DSVBは, 状態ラベルの欠落の中で, 効率的な転送学習と正確な状態推定を行うことを示した。

Recently, data-driven models such as deep neural networks have shown to be promising tools for modelling and state inference in soft robots. However, voluminous amounts of data are necessary for deep models to perform effectively, which requires exhaustive and quality data collection, particularly of state labels. Consequently, obtaining labelled state data for soft robotic systems is challenged for various reasons, including difficulty in the sensorization of soft robots and the inconvenience of collecting data in unstructured environments. To address this challenge, in this paper, we propose a semi-supervised sequential variational Bayes (DSVB) framework for transfer learning and state inference in soft robots with missing state labels on certain robot configurations. Considering that soft robots may exhibit distinct dynamics under different robot configurations, a feature space transfer strategy is also incorporated to promote the adaptation of latent features across multiple configurations. Unlike existing transfer learning approaches, our proposed DSVB employs a recurrent neural network to model the nonlinear dynamics and temporal coherence in soft robot data. The proposed framework is validated on multiple setup configurations of a pneumatic-based soft robot finger. Experimental results on four transfer scenarios demonstrate that DSVB performs effective transfer learning and accurate state inference amidst missing state labels.
翻訳日:2023-03-07 12:07:57 公開日:2023-03-06