このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230421となっている論文です。

PDF登録状況(公開日: 20230421)

TitleAuthorsAbstract論文公表日・翻訳日
# 分析 - インテリジェントエージェントによるサイバー物理エネルギーシステム攻撃のための学習

ANALYSE -- Learning to Attack Cyber-Physical Energy Systems With Intelligent Agents ( http://arxiv.org/abs/2305.09476v1 )

ライセンス: Link先を確認
Thomas Wolgast, Nils Wenninghoff, Stephan Balduin, Eric Veith, Bastian Fraune, Torben Woltjen, Astrid Nie{\ss}e(参考訳) 情報通信技術(ict)によるエネルギーシステムの継続的な普及と新しい市場の導入は、システムの安定性を脅かす悪質または利益主導の攻撃の可能性を高める。 供給のセキュリティを確保するためには、そのような攻撃とその基盤となる脆弱性を分析し、対策を開発し、システム設計を改善する必要がある。 我々は,学習エージェントが電力システム,ICT,エネルギー市場で構成されるサイバー物理エネルギーシステムにおいて,自律的に攻撃を見つけることができる機械学習ベースのソフトウェアスイートANALYSEを提案する。 ANALYSEは、未知の攻撃タイプを見つけ、科学文献からサイバー物理エネルギーシステムにおける既知の攻撃戦略を再現するために設計されたモジュラーで構成可能で自己文書化フレームワークである。

The ongoing penetration of energy systems with information and communications technology (ICT) and the introduction of new markets increase the potential for malicious or profit-driven attacks that endanger system stability. To ensure security-of-supply, it is necessary to analyze such attacks and their underlying vulnerabilities, to develop countermeasures and improve system design. We propose ANALYSE, a machine-learning-based software suite to let learning agents autonomously find attacks in cyber-physical energy systems, consisting of the power system, ICT, and energy markets. ANALYSE is a modular, configurable, and self-documenting framework designed to find yet unknown attack types and to reproduce many known attack strategies in cyber-physical energy systems from the scientific literature.
翻訳日:2023-05-21 11:04:33 公開日:2023-04-21
# 多変量時系列データを用いた異常攻撃検出のための再構成型LSTMオートエンコーダ

Reconstruction-based LSTM-Autoencoder for Anomaly-based DDoS Attack Detection over Multivariate Time-Series Data ( http://arxiv.org/abs/2305.09475v1 )

ライセンス: Link先を確認
Yuanyuan Wei, Julian Jang-Jaccard, Fariza Sabrina, Wen Xu, Seyit Camtepe, Aeryn Dunmore(参考訳) 分散型dod(distributed denial-of-service)攻撃(distributed denial-of-service)は、ターゲットあるいはその周辺インフラストラクチャを圧倒するために大量のトラフィックを送信することによって、ターゲットとするサーバ、サービス、あるいはネットワークの通常のトラフィックを妨害する悪意のある試みである。 テクノロジーが向上するにつれて、ハッカーによって新たな攻撃が開発された。 従来の統計的および浅層機械学習技術は、浅層データと特徴選択に基づいて表面異常を検出することができるが、これらの手法は見えないDDoS攻撃を検出することはできない。 本研究では,LSTM-Autoencoder (LSTM-AE) と命名された再構成に基づく異常検出モデルを提案する。 提案した長寿命メモリ(LSTM)ネットワークの構造は、時系列シーケンス内のデータの長期的短期相関を学習するために互いに作業するユニットを提供する。 オートエンコーダを用いて、全時系列シーケンスのサンプル毎に評価された再構成誤差率に基づいて最適なしきい値を特定する。 そのため、LSTM-AEの組み合わせモデルでは、攻撃や良性トラフィックフローの微妙なサブパターンの違いを学習できるだけでなく、再建された良性トラフィックを最小限に抑え、より低い範囲再構成誤差が得られる。 本研究では,反射型DDoS攻撃(DNS,LDAP,SNMP)におけるLSTM-AEモデルの訓練と評価を行った。 実験の結果,本手法は他の最先端手法,特にLDAP攻撃では99。

A Distributed Denial-of-service (DDoS) attack is a malicious attempt to disrupt the regular traffic of a targeted server, service, or network by sending a flood of traffic to overwhelm the target or its surrounding infrastructure. As technology improves, new attacks have been developed by hackers. Traditional statistical and shallow machine learning techniques can detect superficial anomalies based on shallow data and feature selection, however, these approaches cannot detect unseen DDoS attacks. In this context, we propose a reconstruction-based anomaly detection model named LSTM-Autoencoder (LSTM-AE) which combines two deep learning-based models for detecting DDoS attack anomalies. The proposed structure of long short-term memory (LSTM) networks provides units that work with each other to learn the long short-term correlation of data within a time series sequence. Autoencoders are used to identify the optimal threshold based on the reconstruction error rates evaluated on each sample across all time-series sequences. As such, a combination model LSTM-AE can not only learn delicate sub-pattern differences in attacks and benign traffic flows, but also minimize reconstructed benign traffic to obtain a lower range reconstruction error, with attacks presenting a larger reconstruction error. In this research, we trained and evaluated our proposed LSTM-AE model on reflection-based DDoS attacks (DNS, LDAP, and SNMP). The results of our experiments demonstrate that our method performs better than other state-of-the-art methods, especially for LDAP attacks, with an accuracy of over 99.
翻訳日:2023-05-21 11:04:18 公開日:2023-04-21
# 金融時系列予測のためのディープラーニング技術:最近の進歩を振り返る:2020-2022

Deep learning techniques for financial time series forecasting: A review of recent advancements: 2020-2022 ( http://arxiv.org/abs/2305.04811v1 )

ライセンス: Link先を確認
Cheng Zhang, Nilam Nur Amir Sjarif, Roslina Binti Ibrahim(参考訳) 金融時系列の予測は長い間困難な問題であり、研究者と実践者の両方から注目を集めてきた。 統計と機械学習の技術はいずれも、過去数十年で効果的な予測モデルを開発するために研究されてきた。 近年のディープラーニングモデルの発展により、金融時系列予測モデルは大きく進歩し、これらの発展に追随することがしばしば困難になっている。 そこで本研究では,金融時系列に基づく価格予測に用いるディープラーニングモデルについて,2020年から2022年までの最近の研究を総合的に評価するために,文献レビューを行った。 本稿では,様々なデータソースとニューラルネットワーク構造と実装の詳細について述べる。 我々の目標は、関心のある研究者がこの分野の最近の発展を最新に保ち、先行研究で使用されるモデルに基づいたベースラインの選択を容易にすることである。 また,本レビューの内容に基づく今後の研究について提案する。

Forecasting financial time series has long been a challenging problem that has attracted attention from both researchers and practitioners. Statistical and machine learning techniques have both been explored to develop effective forecasting models in the past few decades. With recent developments in deep learning models, financial time series forecasting models have advanced significantly, and these developments are often difficult to keep up with. Hence, we have conducted this literature review to provide a comprehensive assessment of recent research from 2020 to 2022 on deep learning models used to predict prices based on financial time series. Our review presents different data sources and neural network structures, as well as their implementation details. Our goals are to ensure that interested researchers remain up-to-date on recent developments in the field and facilitate the selection of baselines based on models used in prior studies. Additionally, we provide suggestions for future research based on the content in this review.
翻訳日:2023-05-14 21:07:52 公開日:2023-04-21
# 平均Fokker-Planck方程式のスコアベース輸送モデル

Score-based Transport Modeling for Mean-Field Fokker-Planck Equations ( http://arxiv.org/abs/2305.03729v1 )

ライセンス: Link先を確認
Jianfeng Lu and Yue Wu and Yang Xiang(参考訳) 我々は,MSBTMと呼ばれる平均場Fokker-Planck方程式の解法として,スコアベーストランスポートモデルを用いる。 我々は、正確な解からMSBTM数値推定に向け、KL(Kullback-Leibler)の時間微分の上限を確立し、MSBTMアプローチを検証する。 さらに,アルゴリズムの誤差解析を行う。 数値実験では,2種類の平均場フォッカー・プランク方程式と相互作用系における粒子のダイナミクスについて検討した。 MSBTM法は,MSBTM法と関連する確率微分方程式と解析解との質的,定量的な比較によって数値的に検証される。

We use the score-based transport modeling method to solve the mean-field Fokker-Planck equations, which we call MSBTM. We establish an upper bound on the time derivative of the Kullback-Leibler (KL) divergence to MSBTM numerical estimation from the exact solution, thus validates the MSBTM approach. Besides, we provide an error analysis for the algorithm. In numerical experiments, we study two types of mean-field Fokker-Planck equation and their corresponding dynamics of particles in interacting systems. The MSBTM algorithm is numerically validated through qualitative and quantitative comparison between the MSBTM solutions, the results of integrating the associated stochastic differential equation and the analytical solutions if available.
翻訳日:2023-05-14 21:06:57 公開日:2023-04-21
# マルチモーダルAIチャットボットの構築

Building Multimodal AI Chatbots ( http://arxiv.org/abs/2305.03512v1 )

ライセンス: Link先を確認
Min Young Lee(参考訳) この研究の目的は、人間とチャットし、関連する写真を共有するマルチモーダルAIシステムを作ることだ。 初期の作品は画像内の特定のオブジェクトやシーンに関する対話に限られていたが、最近の作品では画像がオープンドメインの対話に組み込まれている。 しかし、応答生成器は、テキスト入力を受け入れるが、画像入力がないため、対話で共有される画像と矛盾する応答を生成する傾向がある。 そこで本研究では,テキスト理解のための画像検索器と画像理解のための応答生成器という2つのマルチモーダル深層学習モデルを用いた完全なチャットボットシステムを提案する。 ViTおよびBERTによって実装された画像検索装置は、対話履歴と画像データベースとが与えられた最も関連性の高い画像を選択する。 応答生成器は、ViTとGPT-2/DialoGPTによって実装され、対話履歴および最近検索された画像に応じて適切な応答を生成する。 2つのモデルは、各セッションで写真を共有するオープンドメイン対話データセットであるPhotoChatでトレーニングされ、評価される。 自動評価では,既存のベースラインであるVSE++とSCANをRecall@1/5/10の0.1/0.3/0.4,MRRの0.2で上回っている。 提案した応答生成器は、PPLが16.9、BLEU-1/2が0.13/0.03、 Distinct-1/2が0.97/0.86で、PPLが-42.8、BLEU-1/2が+0.07/0.02で大きく改善された。 ニッカートスケール1〜5の人間評価では、完全なマルチモーダルチャットボットシステムは、他のチャットボット変種と比較して、高画質4.3、係り合い4.3、競合フルエンシ4.1、コヒーレンス3.9、人間性3.1を受信する。 ソースコードはhttps://github.com/minniie/multimodal_chat.gitで入手できる。

This work aims to create a multimodal AI system that chats with humans and shares relevant photos. While earlier works were limited to dialogues about specific objects or scenes within images, recent works have incorporated images into open-domain dialogues. However, their response generators are unimodal, accepting text input but no image input, thus prone to generating responses contradictory to the images shared in the dialogue. Therefore, this work proposes a complete chatbot system using two multimodal deep learning models: an image retriever that understands texts and a response generator that understands images. The image retriever, implemented by ViT and BERT, selects the most relevant image given the dialogue history and a database of images. The response generator, implemented by ViT and GPT-2/DialoGPT, generates an appropriate response given the dialogue history and the most recently retrieved image. The two models are trained and evaluated on PhotoChat, an open-domain dialogue dataset in which a photo is shared in each session. In automatic evaluation, the proposed image retriever outperforms existing baselines VSE++ and SCAN with Recall@1/5/10 of 0.1/0.3/0.4 and MRR of 0.2 when ranking 1,000 images. The proposed response generator also surpasses the baseline Divter with PPL of 16.9, BLEU-1/2 of 0.13/0.03, and Distinct-1/2 of 0.97/0.86, showing a significant improvement in PPL by -42.8 and BLEU-1/2 by +0.07/0.02. In human evaluation with a Likert scale of 1-5, the complete multimodal chatbot system receives higher image-groundedness of 4.3 and engagingness of 4.3, along with competitive fluency of 4.1, coherence of 3.9, and humanness of 3.1, when compared to other chatbot variants. The source code is available at: https://github.com/minniie/multimodal_chat.git.
翻訳日:2023-05-14 21:05:50 公開日:2023-04-21
# 生成型AI知覚: 大学における生成型AIツールに関する学部・職員・学生の知覚を測定するための調査

Generative AI Perceptions: A Survey to Measure the Perceptions of Faculty, Staff, and Students on Generative AI Tools in Academia ( http://arxiv.org/abs/2304.14415v1 )

ライセンス: Link先を確認
Sara Amani, Lance White, Trini Balart, Laksha Arora, Dr. Kristi J. Shryock, Dr. Kelly Brumbelow, and Dr. Karan L. Watson(参考訳) chatgptは自然言語処理ツールで、人間のような会話に関わり、さまざまなプロンプトに対してコヒーレントでコンテキスト的に関連する応答を生成する。 ChatGPTは、ユーザが入力した自然なテキストを理解し、様々な形式で適切な応答を生成することができる。 このツールは、人間がテクノロジーと対話する方法の大きな一歩だ。 本稿では,chatgptが工学教育の領域と,技術,学生,教員,スタッフの関係をいかに変革しているか,特に注目する。 このツールは、さらに将来的な能力の可能性を秘めつつ、急速に変化し、改善しているため、関連するデータを収集する重要な時期である。 chatgptが学生, 教員, 職員に及ぼす影響を計測するために調査を行った。 この調査はテキサスA&M大学技術レポートとして共有されており、他の大学や団体がこの調査を利用して他の場所で効果を測定することができる。

ChatGPT is a natural language processing tool that can engage in human-like conversations and generate coherent and contextually relevant responses to various prompts. ChatGPT is capable of understanding natural text that is input by a user and generating appropriate responses in various forms. This tool represents a major step in how humans are interacting with technology. This paper specifically focuses on how ChatGPT is revolutionizing the realm of engineering education and the relationship between technology, students, and faculty and staff. Because this tool is quickly changing and improving with the potential for even greater future capability, it is a critical time to collect pertinent data. A survey was created to measure the effects of ChatGPT on students, faculty, and staff. This survey is shared as a Texas A&M University technical report to allow other universities and entities to use this survey and measure the effects elsewhere.
翻訳日:2023-05-07 16:20:41 公開日:2023-04-21
# MLPとLSTMを用いたハイブリッドディープフェイク検出

Hybrid Deepfake Detection Utilizing MLP and LSTM ( http://arxiv.org/abs/2304.14504v1 )

ライセンス: Link先を確認
Jacob Mallet, Natalie Krueger, Mounika Vanamala, Rushit Dave(参考訳) 社会の真正な情報に対するソーシャルメディアへの依存度は、過去数年間で増加している。 これは誤報の拡散による潜在的な結果に過ぎなかった。 人気が高まっている方法の1つは、ディープフェイクを使ってユーザーを騙すことである。 ディープフェイク(英: deepfake)は、悪質なオンラインユーザーが、多数の社会の強力なメンバーによって生成された、合成された顔で顔を置き換えることを可能にする、最新の技術進歩を伴った発明である。 ディープフェイクの画像やビデオは、重要な政治的、文化的人物を模倣して大量の偽情報を広める手段を提供する。 誤報の拡散を防ぐためにこれらのディープフェイクを検出するモデルは、今や非常に必要である。 本稿では,長期記憶と多層パーセプトロンという2つのディープラーニングアルゴリズムを用いた,新しいディープフェイク検出スキーマを提案する。 我々は,我々のモデルを評価するために,140k real と fake faces という公開データセットを用いて,最大74.7%の精度を達成したディープフェイクによって修正された画像を検出する。

The growing reliance of society on social media for authentic information has done nothing but increase over the past years. This has only raised the potential consequences of the spread of misinformation. One of the growing methods in popularity is to deceive users using a deepfake. A deepfake is an invention that has come with the latest technological advancements, which enables nefarious online users to replace their face with a computer generated, synthetic face of numerous powerful members of society. Deepfake images and videos now provide the means to mimic important political and cultural figures to spread massive amounts of false information. Models that can detect these deepfakes to prevent the spread of misinformation are now of tremendous necessity. In this paper, we propose a new deepfake detection schema utilizing two deep learning algorithms: long short term memory and multilayer perceptron. We evaluate our model using a publicly available dataset named 140k Real and Fake Faces to detect images altered by a deepfake with accuracies achieved as high as 74.7%
翻訳日:2023-05-07 16:12:51 公開日:2023-04-21
# 2つのシーケンシャルStern-Gerlach検出器とフォトンフォック状態を用いた量子スピンの離散モデルのテスト

Testing a discrete model for quantum spin with two sequential Stern-Gerlach detectors and photon Fock states ( http://arxiv.org/abs/2304.13535v1 )

ライセンス: Link先を確認
Sam Powers, Guangpeng Xu, Herbert Fotso, Tim Thomay, and Dejan Stojkovic(参考訳) この成功にもかかわらず、量子力学(QM)は自然の不完全理論である。 数学的基礎と物理的解釈に関する長年にわたる懸念は、その概念を超えた完全な世紀が続く。 これらの問題によって制限され、QMを超えて進む努力は、より広い物理学コミュニティ内で牽引力を得るのに苦労してきた。 この方向の進歩への1つのアプローチは、物理学の伝統に深く根ざしており、qmによって別途扱われる物理システムのための新しいモデルの開発である。 1つのそのようなモデルがここで示され、スピン系と独立に回転する2つのスターン・ゲルラッハ検出器のシーケンスの相互作用に関するものである。 QMの伝統的な形式主義を採用するのではなく、提案モデルは有限群、集合論、組合せ論といった離散数学の道具によって支えられている。 この新しいツールキットにより、ウィグナーのd-行列公式の類似式が導出され、QMからわずかに逸脱することが示されている。 これらの結果により、提案モデルはビームスプリッタを通過する光子数状態を含む光学系に拡張される。 そこで,これらのシステムにおける高精度実験の最近の進歩を活かし,テーブルトップ実験を用いて新しいモデルをテストする手法を提案する。 したがって、提案されたモデルは明確な検証可能な予測を行うだけでなく、量子論の本質的な原理に対する貴重な洞察を与える。

Despite its unparalleled success, quantum mechanics (QM) is an incomplete theory of nature. Longstanding concerns regarding its mathematical foundations and physical interpretation persist, a full century beyond its conception. Limited by these issues, efforts to move beyond QM have struggled to gain traction within the broader physics community. One approach to progress in this direction, which is deeply rooted in the tradition of physics, is the development of new models for physical systems otherwise treated by QM. One such model is presented here, which concerns the interaction of a spin system with sequences of two Stern-Gerlach detectors that may be independently rotated. Rather than employing the traditional formalism of QM, the proposed model is supported by tools from discrete mathematics, such as finite groups, set theory, and combinatorics. Equipped with this novel toolkit, an analog of Wigner's d-matrix formula is derived and shown to deviate slightly from QM. With these results, the proposed model is extended to an optical system involving photon number states passing through a beam splitter. Leveraging recent advancements in high precision experiments on these systems, we then propose a means of testing the new model using a tabletop experiment. Hence, the proposed model not only makes clear testable predictions, but also provides valuable insight into the essential principles of quantum theory.
翻訳日:2023-04-30 07:19:49 公開日:2023-04-21
# ChatGPTのダークサイド:確率的パロットと幻覚からの法的・倫理的挑戦

The Dark Side of ChatGPT: Legal and Ethical Challenges from Stochastic Parrots and Hallucination ( http://arxiv.org/abs/2304.14347v1 )

ライセンス: Link先を確認
Zihao Li(参考訳) ChatGPTのローンチによって、Large Language Models(LLM)は私たちの社会全体を揺るがし、私たちの考え方、創造、そして生き方を変えつつある。 例えば、BingのGPT統合は、オンライン検索へのアプローチを変えました。 初期のLSMには多くの利点があるが、特に確率的なオウムや幻覚から生じる新しい法的および倫理的リスクも出現している。 EUは、AIモデルの規制に焦点を絞った最初の、そして最も重要な管轄権である。 しかし、新たなLLMによるリスクは、新興のEU規制パラダイムによって過小評価される可能性が高い。 したがって、この対応は欧州のAI規制パラダイムがそのようなリスクを軽減するためにさらに進化する必要があることを警告する。

With the launch of ChatGPT, Large Language Models (LLMs) are shaking up our whole society, rapidly altering the way we think, create and live. For instance, the GPT integration in Bing has altered our approach to online searching. While nascent LLMs have many advantages, new legal and ethical risks are also emerging, stemming in particular from stochastic parrots and hallucination. The EU is the first and foremost jurisdiction that has focused on the regulation of AI models. However, the risks posed by the new LLMs are likely to be underestimated by the emerging EU regulatory paradigm. Therefore, this correspondence warns that the European AI regulatory paradigm must evolve further to mitigate such risks.
翻訳日:2023-04-30 07:11:29 公開日:2023-04-21
# 量子機械学習アーキテクチャにおけるショット最適化によるトレーニングの高速化

Shot Optimization in Quantum Machine Learning Architectures to Accelerate Training ( http://arxiv.org/abs/2304.12950v1 )

ライセンス: Link先を確認
Koustubh Phalak, Swaroop Ghosh(参考訳) 本稿では,モデル性能への影響を最小限に抑えて,qmlモデルのショット最適化手法を提案する。 分類タスクをmnistとfmnistのデータセットのテストケースとして,ハイブリッド量子古典qmlモデルを用いた。 まず、データセットのショートバージョンとフルバージョンのショット数を最大化します。 フルバージョンのトレーニングでは、トレーニング用のショット数が最大10倍の短いバージョンのデータセットよりも、5~6%高いテスト精度が提供されます。 そのため、データセットのサイズを縮小してトレーニング時間を短縮することができる。 次に,ショートバージョンデータセットのアダプティブショットアロケーションを提案し,訓練エポックにおけるショット数を最適化し,分類精度への影響を評価する。 使用します。 (a)ショット数がエポックとともに直線的に減少する直線関数、 b) ショット数がエポックのステップで減少するステップ関数。 我々は,従来のmnistデータセットの定ショット関数と比較して,最大100倍(10倍)のリニアショット関数によるショット削減の精度が0.01(1%)程度,損失が0.05(5~7%)程度向上し,fmnistデータセットのリニア(ステップ)ショット関数を用いたテスト精度が約5.7%(5~7%)低下していることに注意した。 比較のために,提案するショット最適化法を用いて異なる分子の基底状態エネルギー推定を行い,ステップ関数が1000倍のショット数で最良かつ最も安定な基底状態エネルギー予測を与えることを観測する。

In this paper, we propose shot optimization method for QML models at the expense of minimal impact on model performance. We use classification task as a test case for MNIST and FMNIST datasets using a hybrid quantum-classical QML model. First, we sweep the number of shots for short and full versions of the dataset. We observe that training the full version provides 5-6% higher testing accuracy than short version of dataset with up to 10X higher number of shots for training. Therefore, one can reduce the dataset size to accelerate the training time. Next, we propose adaptive shot allocation on short version dataset to optimize the number of shots over training epochs and evaluate the impact on classification accuracy. We use a (a) linear function where the number of shots reduce linearly with epochs, and (b) step function where the number of shots reduce in step with epochs. We note around 0.01 increase in loss and around 4% (1%) reduction in testing accuracy for reduction in shots by up to 100X (10X) for linear (step) shot function compared to conventional constant shot function for MNIST dataset, and 0.05 increase in loss and around 5-7% (5-7%) reduction in testing accuracy with similar reduction in shots using linear (step) shot function on FMNIST dataset. For comparison, we also use the proposed shot optimization methods to perform ground state energy estimation of different molecules and observe that step function gives the best and most stable ground state energy prediction at 1000X less number of shots.
翻訳日:2023-04-26 19:57:24 公開日:2023-04-21
# フォレの時代:財団

The ERA of FOLE: Foundation ( http://arxiv.org/abs/1512.07430v4 )

ライセンス: Link先を確認
Robert E. Kent(参考訳) 本稿では,一階論理環境におけるオントロジーの表現について論じる。 オントロジーは、会話のコミュニティの知識資源をモデル化するプリミティブを定義する。 これらのプリミティブはクラス、リレーションシップ、プロパティから構成される。 オントロジーはこれらのプリミティブの解釈を制約するために形式公理を使用する。 要するに、オントロジーは論理理論を特定する。 本稿では,一階論理環境におけるオントロジの表現と解釈の議論を続行する。 多種一階論理の形式論と意味論は、 \emph{classification form} と \emph{interpretation form} の両方で発展することができる。 2つの論文、すなわち、構造の概念を定義する現在の論文、および {\ttfamily fole} の ‘the {\ttfamily era}: superstructure'' は、音論理の概念を定義するもので、'情報フローフレームワーク'で議論されたアイデアに対応する \emph{classification form} を表す。 関係表の概念を定義する ``the {\ttfamily fole} table'' と、関係データベースの概念を定義する ``the {\ttfamily fole} database'' の 2 つの論文は、"`database semantics'' という論文で見つかった資料を拡張して、 \emph{interpretation form} を表す。 分類形式はChenのエンティティ-リレーショナル-属性データモデルに従っているが、解釈形式はCoddのリレーショナルデータモデルを含んでいる。 第5の論文 ``{\tt Family FOLE} Equivalence'' は、分類形式が解釈形式と等価であることを証明している。 一般に、 FOLE 表現は概念構造的アプローチを用いており、制度の理論、形式的概念分析、情報の流れと完全に互換性がある。

This paper discusses the representation of ontologies in the first-order logical environment {\ttfamily FOLE}. An ontology defines the primitives with which to model the knowledge resources for a community of discourse. These primitives consist of classes, relationships and properties. An ontology uses formal axioms to constrain the interpretation of these primitives. In short, an ontology specifies a logical theory. This paper continues the discussion of the representation and interpretation of ontologies in the first-order logical environment {\ttfamily FOLE}. The formalism and semantics of (many-sorted) first-order logic can be developed in both a \emph{classification form} and an \emph{interpretation form}. Two papers, the current paper, defining the concept of a structure, and ``The {\ttfamily ERA} of {\ttfamily FOLE}: Superstructure'', defining the concept of a sound logic, represent the \emph{classification form}, corresponding to ideas discussed in the ``Information Flow Framework''. Two papers, ``The {\ttfamily FOLE} Table'', defining the concept of a relational table, and ``The {\ttfamily FOLE} Database'', defining the concept of a relational database, represent the \emph{interpretation form}, expanding on material found in the paper ``Database Semantics''. Although the classification form follows the entity-relationship-attribute data model of Chen, the interpretation form incorporates the relational data model of Codd. A fifth paper ``{\ttfamily FOLE} Equivalence'' proves that the classification form is equivalent to the interpretation form. In general, the {\ttfamily FOLE} representation uses a conceptual structures approach, that is completely compatible with the theory of institutions, formal concept analysis and information flow.
翻訳日:2023-04-26 02:04:34 公開日:2023-04-21
# 逐次ランダム化実験のための弱信号漸近

Weak Signal Asymptotics for Sequentially Randomized Experiments ( http://arxiv.org/abs/2101.09855v5 )

ライセンス: Link先を確認
Stefan Wager and Kuang Xu(参考訳) 弱信号漸近のレンズを用いて,複数腕のバンディット問題を解決する際に発生するものを含む,逐次ランダム化実験のクラスを研究する。 n$の時間ステップを持つ実験では、アクション間の平均報酬ギャップを1/\sqrt{n}$にすることで、n$が増加するにつれて学習タスクの難易度を保ちます。 この方法では、逐次ランダム化実験(このスケーリング方式に適合し、状態によって連続的に変化するアーム選択確率を持つ)のサンプルパスが、確率微分方程式の解として与えられた拡散限界に弱収束することを示す。 拡散限界は、確率力学の洗練された例特有な特徴を導出し、トンプソンサンプリングを含む一連の実験の後悔と信念の進化に関するいくつかの洞察を得ることを可能にする(ただし、UCBは我々の連続性仮定を満たさない)。 ランダム化確率が観測データに連続的に依存する全ての連続実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔性能に悩まされることを示す。 逆に,asymptoticly uninformative prior varianceによるトンプソンサンプリングは,報奨ギャップが大きいことを含め,最適に近いインスタンス固有の後悔のスケーリングを実現するが,これらの優れた後悔特性は,極めて不安定な後方信念の犠牲になる。

We use the lens of weak signal asymptotics to study a class of sequentially randomized experiments, including those that arise in solving multi-armed bandit problems. In an experiment with $n$ time steps, we let the mean reward gaps between actions scale to the order $1/\sqrt{n}$ so as to preserve the difficulty of the learning task as $n$ grows. In this regime, we show that the sample paths of a class of sequentially randomized experiments -- adapted to this scaling regime and with arm selection probabilities that vary continuously with state -- converge weakly to a diffusion limit, given as the solution to a stochastic differential equation. The diffusion limit enables us to derive refined, instance-specific characterization of stochastic dynamics, and to obtain several insights on the regret and belief evolution of a number of sequential experiments including Thompson sampling (but not UCB, which does not satisfy our continuity assumption). We show that all sequential experiments whose randomization probabilities have a Lipschitz-continuous dependence on the observed data suffer from sub-optimal regret performance when the reward gaps are relatively large. Conversely, we find that a version of Thompson sampling with an asymptotically uninformative prior variance achieves near-optimal instance-specific regret scaling, including with large reward gaps, but these good regret properties come at the cost of highly unstable posterior beliefs.
翻訳日:2023-04-26 01:10:54 公開日:2023-04-21
# GREED:グラフ距離関数学習のためのニューラルネットワークフレームワーク

GREED: A Neural Framework for Learning Graph Distance Functions ( http://arxiv.org/abs/2112.13143v3 )

ライセンス: Link先を確認
Rishabh Ranjan, Siddharth Grover, Sourav Medya, Venkatesan Chakaravarthy, Yogish Sabharwal, Sayan Ranu(参考訳) グラフの様々な距離関数のうち、グラフとサブグラフの編集距離(GEDとSED)は、最もポピュラーで表現力のある尺度である。 残念ながら、両方の正確な計算はNPハードである。 この計算ボトルネックを克服するために、多項式時間で編集距離を学習し予測するニューラルアプローチが注目されている。 かなりの進歩がなされているが、対処すべき制限がある。 第一に、近似距離関数の有効性はその近似精度だけでなく、その性質の保存にも関係している。 詳しくは、GEDは計量であるが、その神経近似はそのような保証を提供しない。 これにより、クラスタリングやインデックス化といった距離関数に依存する高次タスクでの使用が禁止される。 第2に、SEDが非対称であるため、GEDの既存のフレームワークはSEDに拡張されない。 本研究では,GREEDと呼ばれる新しいサイムズグラフニューラルネットワークを設計し,慎重に設計した帰納バイアスを用いて,プロパティ保存方式でGEDとSEDを学習する。 最大700万のエッジを含む10の実際のグラフデータセットにわたる広範な実験を通じて、GREEDは最先端技術よりも正確であるだけでなく、最大3桁高速であることを示す。 さらに、三角形の不等式を保存するため、生成された埋め込みはインデックス化可能であり、CPUのみの環境でもGREEDはグラフ/グラフ検索のためのGPUベースのベースラインよりも最大50倍高速である。

Among various distance functions for graphs, graph and subgraph edit distances (GED and SED respectively) are two of the most popular and expressive measures. Unfortunately, exact computations for both are NP-hard. To overcome this computational bottleneck, neural approaches to learn and predict edit distance in polynomial time have received much interest. While considerable progress has been made, there exist limitations that need to be addressed. First, the efficacy of an approximate distance function lies not only in its approximation accuracy, but also in the preservation of its properties. To elaborate, although GED is a metric, its neural approximations do not provide such a guarantee. This prohibits their usage in higher order tasks that rely on metric distance functions, such as clustering or indexing. Second, several existing frameworks for GED do not extend to SED due to SED being asymmetric. In this work, we design a novel siamese graph neural network called GREED, which through a carefully crafted inductive bias, learns GED and SED in a property-preserving manner. Through extensive experiments across 10 real graph datasets containing up to 7 million edges, we establish that GREED is not only more accurate than the state of the art, but also up to 3 orders of magnitude faster. Even more significantly, due to preserving the triangle inequality, the generated embeddings are indexable and consequently, even in a CPU-only environment, GREED is up to 50 times faster than GPU-powered baselines for graph / subgraph retrieval.
翻訳日:2023-04-26 00:54:21 公開日:2023-04-21
# 道路利用者検出のための確率論的アプローチ

Probabilistic Approach for Road-Users Detection ( http://arxiv.org/abs/2112.01360v4 )

ライセンス: Link先を確認
G. Melotti and W. Lu and P. Conde and D. Zhao and A. Asvadi and N. Gon\c{c}alves and C. Premebida(参考訳) 自動運転アプリケーションにおける物体検出は、セマンティックオブジェクトの検出と追跡が、歩行者や車両のような都市部の運転環境に特有のことを暗示している。 最先端のディープラーニングに基づくオブジェクト検出における大きな課題の1つは、自信過剰なスコアで発生する偽陽性である。 安全上の懸念から、自動運転や他の重要なロボット知覚領域では、これは非常に望ましくない。 本稿では, 深層物体検出ネットワークに新しい確率層を導入することにより, 過密予測の問題を緩和する手法を提案する。 提案手法は従来のsgmoidまたはsoftmax予測層を避け、しばしば自信過剰な予測を生成する。 提案手法は, 真正に対する性能を劣化させることなく, 偽正の過信を低減できることを実証した。 この手法は、YOLOV4とSECOND(Lidar-based detector)による2D-KITTI対物検出で検証される。 提案手法は,ネットワークの再学習を必要とせず,解釈可能な確率予測を可能にする。

Object detection in autonomous driving applications implies that the detection and tracking of semantic objects are commonly native to urban driving environments, as pedestrians and vehicles. One of the major challenges in state-of-the-art deep-learning based object detection are false positives which occur with overconfident scores. This is highly undesirable in autonomous driving and other critical robotic-perception domains because of safety concerns. This paper proposes an approach to alleviate the problem of overconfident predictions by introducing a novel probabilistic layer to deep object detection networks in testing. The suggested approach avoids the traditional Sigmoid or Softmax prediction layer which often produces overconfident predictions. It is demonstrated that the proposed technique reduces overconfidence in the false positives without degrading the performance on the true positives. The approach is validated on the 2D-KITTI objection detection through the YOLOV4 and SECOND (Lidar-based detector). The proposed approach enables interpretable probabilistic predictions without the requirement of re-training the network and therefore is very practical.
翻訳日:2023-04-26 00:52:36 公開日:2023-04-21
# ベイズの回帰を超えた状態検索

State retrieval beyond Bayes' retrodiction ( http://arxiv.org/abs/2201.09899v3 )

ライセンス: Link先を確認
Jacopo Surace and Matteo Scandi(参考訳) 不可逆力学の文脈では、物理過程に関連付ける直感的な逆は、非常に曖昧なタスクとなる。 ベイズの定理を用いて逆過程を定義するのは標準的な選択であるが、一般にこの選択は最適ではない。 本研究では,状態検索マップという概念から最適な逆写像構築を特徴付けることができるかを検討する。 そこで,我々は,状態検索マップが満足すべき原則のセットを提案する。 ベイズにインスパイアされたリバースが、ベイズの法則よりも正確な初期状態を取得するマップを与えるように最適化された、可能な選択肢のクラス全体の1つのケースであることがわかった。 我々の分析は自然に量子状態に拡張する利点がある。 実際、ペッツ回収写像を含む逆変換のクラスを特定の場合として発見し、ベイズ検索の量子類似体として解釈を裏付ける。 最後に, 1 つの余剰公理を加えることでベイズの定理から導かれる通常の逆過程を分離できるという数値的証明を示す。

In the context of irreversible dynamics, associating to a physical process its intuitive reverse can result to be a quite ambiguous task. It is a standard choice to define the reverse process using Bayes' theorem, but, in general, this choice is not optimal. In this work we explore whether it is possible to characterise an optimal reverse map building from the concept of state retrieval maps. In doing so, we propose a set of principles that state retrieval maps should satisfy. We find out that the Bayes inspired reverse is just one case in a whole class of possible choices, which can be optimised to give a map retrieving the initial state more precisely than the Bayes rule. Our analysis has the advantage of naturally extending to the quantum regime. In fact, we find a class of reverse transformations containing the Petz recovery map as a particular case, corroborating its interpretation as quantum analogue of the Bayes retrieval. Finally, we present numerical evidences that by adding a single extra axiom one can isolate the usual reverse process derived from Bayes' theorem.
翻訳日:2023-04-26 00:42:54 公開日:2023-04-21
# 統合半量子層通信

Integrated semi-quantum layered communication ( http://arxiv.org/abs/2201.06540v3 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana and V. Ravishankar(参考訳) 近年、層状ネットワークにおけるセキュアな量子通信が重要な研究領域として浮上している。 本稿では,1人の量子参加者と他のすべての古典的参加者とのセキュアな量子通信において,多次元状態が提供するポテンシャルを利用する。 3つのプロトコルを提案します 一 絡み合いに基づく半量子鍵分布 (二)半量子秘密共有層及び 三 任意の層状ネットワークにおいて秘密情報を共有するための半量子鍵分散と秘密共有を統合した。 これらのプロトコルは層状ネットワークにおけるセミ量子通信の機能を統合する。 これら3つのプロトコルは、多次元状態の利用により、ネットワークのすべての層にセキュアな情報の同時配信を可能にする。 我々は,これらのプロトコルを,少なくとも5名の参加者と3つのレイヤからなる小さなネットワークに対して提示し,様々な盗聴戦略に対して,同一の堅牢性を示す。 最後に,任意の量子ネットワークにおいて鍵/秘密鍵を分散するための提案プロトコルを一般化するための詳細な手順を提案する。

In recent times, secure quantum communication in layered networks has emerged as an important area of study. In this paper, we harness the potential offered by multidimensional states in secure quantum communication with only one quantum participant and all the other classical participants. We propose three protocols for (i) entanglement-based layered semi--quantum key distribution, (ii) layered semi-quantum secret sharing, and, (iii) integrated layered semi-quantum key distribution and secret sharing to share secret information in an arbitrarily layered network. These protocols integrate the features of semi quantum communication in layered networks. All three protocols allow for the simultaneous distribution of secure information in all the layers of a network, thanks to the employment of multidimensional states. We present these protocols for a small network of at most five participants and three layers and show the robustness of the same against various eavesdropping strategies. Finally, we provide a detailed procedure for the generalization of the proposed protocols to distribute keys/secrets in any arbitrarily structured quantum network.
翻訳日:2023-04-26 00:41:56 公開日:2023-04-21
# ブール立方体上の変分量子機械学習の表現性

Expressivity of Variational Quantum Machine Learning on the Boolean Cube ( http://arxiv.org/abs/2204.05286v3 )

ライセンス: Link先を確認
Dylan Herman, Rudy Raymond, Muyuan Li, Nicolas Robles, Antonio Mezzacapo, Marco Pistoia(参考訳) 分類データは機械学習研究において重要な役割を果たし、様々な応用に現れる。 ブール立方体上の実数値関数の大きなクラスを表現できるモデルは、ブールでないものを含む離散値データ型を含む問題に有用である。 今日まで、古典データを変分量子機械学習モデルに埋め込むための一般的なスキームは、連続的な値をエンコードする。 本稿では、ブール値データを機械学習タスクに使用するパラメータ化量子回路に符号化するための量子埋め込みについて検討する。 我々は2つの量子埋め込み(位相埋め込みと量子ランダムアクセス符号に基づく埋め込み)を用いて、n$-dimensional boolean cube 上の関数の表現可能性条件を以前知られていた結果に関して狭める。 我々は、$n$-次元ブール立方体上の任意の実数値関数に対して、それを表現できる$n$ qubitsと、最大$d$で任意の関数を表現できる$d < n$ qubitsを用いたようなモデルのアンサンブルを用いた位相埋め込みに基づく変分線形量子モデルが存在することを示した。 さらに、量子ランダムアクセスコードを用いた変分線形量子モデルは、次数$d\leq \lceil\frac{n}{3}\rceil$でブール立方体上の関数を表現することができ、そのようなモデルのアンサンブルは次数$d\leq \lceil\frac{n}{3}\rceil$でブール立方体上の任意の関数を表現することができることを証明している。 さらに,各組込みの潜在的メリットと連続繰り返しの影響について考察する。 最後に,qiskit機械学習フレームワークを用いて,ibm量子プロセッサ上での数値シミュレーションと実験を行い,組込みの利用を実証する。

Categorical data plays an important part in machine learning research and appears in a variety of applications. Models that can express large classes of real-valued functions on the Boolean cube are useful for problems involving discrete-valued data types, including those which are not Boolean. To this date, the commonly used schemes for embedding classical data into variational quantum machine learning models encode continuous values. Here we investigate quantum embeddings for encoding Boolean-valued data into parameterized quantum circuits used for machine learning tasks. We narrow down representability conditions for functions on the $n$-dimensional Boolean cube with respect to previously known results, using two quantum embeddings: a phase embedding and an embedding based on quantum random access codes. We show that for any real-valued function on the $n$-dimensional Boolean cube, there exists a variational linear quantum model based on a phase embedding using $n$ qubits that can represent it and an ensemble of such models using $d < n$ qubits that can express any function with degree at most $d$. Additionally, we prove that variational linear quantum models that use the quantum random access code embedding can express functions on the Boolean cube with degree $ d\leq \lceil\frac{n}{3}\rceil$ using $\lceil\frac{n}{3}\rceil$ qubits, and that an ensemble of such models can represent any function on the Boolean cube with degree $ d\leq \lceil\frac{n}{3}\rceil$. Furthermore, we discuss the potential benefits of each embedding and the impact of serial repetitions. Lastly, we demonstrate the use of the embeddings presented by performing numerical simulations and experiments on IBM quantum processors using the Qiskit machine learning framework.
翻訳日:2023-04-26 00:35:44 公開日:2023-04-21
# ニューラルスケーリングの法則を超えた:データプルーニングによるパワーローのスケーリング

Beyond neural scaling laws: beating power law scaling via data pruning ( http://arxiv.org/abs/2206.14486v6 )

ライセンス: Link先を確認
Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S. Morcos(参考訳) 広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズ、あるいはその両方がエラーを発生させるため、ディープラーニングのパフォーマンスが大幅に向上している。 しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、データセットサイズによるエラーのスケーリングに注目し、理論上、任意のデータセットサイズを達成するためにトレーニング例を捨てるべき順序をランク付けする高品質なデータプルーニングメトリックにアクセスできれば、パワーロースケーリングを超越して、指数スケーリングにまで削減できる可能性も示します。 そして、この改良されたスケーリング予測をprunedデータセットサイズで実証的にテストし、cifar-10、svhn、imagenetでトレーニングされたresnet上で、実際にパワーロースケーリングよりもよく観察します。 次に、高品質なpruningメトリックを見つけることの重要性を踏まえて、imagenet上で10の異なるデータpruningメトリックに関する最初の大規模ベンチマーク調査を行う。 既存のハイパフォーマンスなメトリクスのほとんどはImageNetに匹敵するものですが、ベストは計算集約的で、すべてのイメージにラベルが必要です。 そこで我々は,優れた教師付きメトリクスに匹敵するパフォーマンスを示す,シンプルで安価でスケーラブルな自己教師付きプルーニングメトリックを開発した。 全体として、我々の研究は、優れたデータ処理メトリクスの発見が、ニューラルネットワークのスケーリング法則を大幅に改善し、現代のディープラーニングのリソースコストを削減するための、実行可能な道筋を提供する可能性を示唆している。

Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how in theory we can break beyond power law scaling and potentially even reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this improved scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling in practice on ResNets trained on CIFAR-10, SVHN, and ImageNet. Next, given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.
翻訳日:2023-04-26 00:17:00 公開日:2023-04-21
# Merlin-Arthur分類器による形式的解釈可能性

Formal Interpretability with Merlin-Arthur Classifiers ( http://arxiv.org/abs/2206.00759v2 )

ライセンス: Link先を確認
Stephan W\"aldchen, Kartikey Sharma, Max Zimmer, Berkant Turan, Sebastian Pokutta(参考訳) ニューラルネットワークのような複雑なエージェントに対しても、証明可能な解釈可能性保証を提供する新しいタイプのマルチエージェント対話型分類器を提案する。 これらの保証は、この分類器によって選択された特徴の相互情報の境界からなる。 この結果は、Interactive Proof SystemsのMerlin-Arthurプロトコルにインスパイアされ、音響性や完全性といった測定可能な指標でこれらの境界を表現する。 既存のインタラクティブなセットアップと比較すると、最適なエージェントや、機能が独立して配布されるという仮定に依存していません。 代わりに、エージェントの相対強度と非対称特徴相関という新しい概念を用いて、解釈可能性の保証を困難にする正確な種類の相関をキャプチャする。 %は特徴の集合が持つ情報を個々の特徴の1つに関連付ける。 我々は,高い相互情報を明確に検証できる2つの小規模データセットの数値実験により実験を行った。

We propose a new type of multi-agent interactive classifier that provides provable interpretability guarantees even for complex agents such as neural networks. These guarantees consist of bounds on the mutual information of the features selected by this classifier. Our results are inspired by the Merlin-Arthur protocol from Interactive Proof Systems and express these bounds in terms of measurable metrics such as soundness and completeness. Compared to existing interactive setups we do not rely on optimal agents or on the assumption that features are distributed independently. Instead, we use the relative strength of the agents as well as the new concept of Asymmetric Feature Correlation which captures the precise kind of correlations that make interpretability guarantees difficult. %relates the information carried by sets of features to one of the individual features. We test our results through numerical experiments on two small-scale datasets where high mutual information can be verified explicitly.
翻訳日:2023-04-26 00:14:19 公開日:2023-04-21
# グラフニューラルネットワークによる離散的転位ダイナミクスシミュレーションの高速化

Accelerating discrete dislocation dynamics simulations with graph neural networks ( http://arxiv.org/abs/2208.03296v2 )

ライセンス: Link先を確認
Nicolas Bertin, Fei Zhou(参考訳) 離散転位力学 (DDD) はメソスケールで塑性を研究するために広く用いられている計算手法であり、転位線の運動と結晶材料のマクロ応答を結びつける。 しかし、DDDシミュレーションの計算コストは、適用範囲を制限するボトルネックのままです。 本稿では、DDDトラジェクトリに基づいてトレーニングされたグラフニューラルネットワーク(GNN)モデルによって、転位運動の高価な時間積分を完全に置き換える、新しいDDD-GNNフレームワークを紹介する。 最初の応用として,障害物の配列を滑走する転位線の単純なモデル上で,本手法の有効性と可能性を示す。 我々は、DDD-GNNモデルが安定しており、時間積分中の結節力や転位モビリティを明示的に計算することなく、様々なストレッチレートと障害物密度に対して、非常によく見えない基盤的DDDシミュレーション応答を再現することを示した。 このアプローチはDDDシミュレーションを加速し、より複雑な転位動作を取り入れるために、新しい有望な道を開く。

Discrete dislocation dynamics (DDD) is a widely employed computational method to study plasticity at the mesoscale that connects the motion of dislocation lines to the macroscopic response of crystalline materials. However, the computational cost of DDD simulations remains a bottleneck that limits its range of applicability. Here, we introduce a new DDD-GNN framework in which the expensive time-integration of dislocation motion is entirely substituted by a graph neural network (GNN) model trained on DDD trajectories. As a first application, we demonstrate the feasibility and potential of our method on a simple yet relevant model of a dislocation line gliding through an array of obstacles. We show that the DDD-GNN model is stable and reproduces very well unseen ground-truth DDD simulation responses for a range of straining rates and obstacle densities, without the need to explicitly compute nodal forces or dislocation mobilities during time-integration. Our approach opens new promising avenues to accelerate DDD simulations and to incorporate more complex dislocation motion behaviors.
翻訳日:2023-04-26 00:07:24 公開日:2023-04-21
# SALSA:変圧器で格子暗号を攻撃

SALSA: Attacking Lattice Cryptography with Transformers ( http://arxiv.org/abs/2207.04785v2 )

ライセンス: Link先を確認
Emily Wenger, Mingjie Chen, Fran\c{c}ois Charton, Kristin Lauter(参考訳) 現在デプロイされている公開鍵暗号システムは、フルスケールの量子コンピュータによる攻撃に対して脆弱である。 その結果、「量子耐性」暗号系は需要が高く、Learning With Errors (LWE)と呼ばれる難しい問題に基づく格子ベースの暗号系が標準化の強力な競争相手として登場した。 本研究では、モジュラー演算を実行するようにトランスフォーマーを訓練し、半学習モデルと統計的暗号解析技術を組み合わせることにより、LWEベースの暗号スキームに対する機械学習攻撃であるSALSAを提案する。 SALSAは、疎いバイナリシークレットを持つ小規模から中規模のLWEインスタンスのシークレットを完全に復元することができ、現実世界のLWEベースの暗号システムを攻撃するためにスケールすることができる。

Currently deployed public-key cryptosystems will be vulnerable to attacks by full-scale quantum computers. Consequently, "quantum resistant" cryptosystems are in high demand, and lattice-based cryptosystems, based on a hard problem known as Learning With Errors (LWE), have emerged as strong contenders for standardization. In this work, we train transformers to perform modular arithmetic and combine half-trained models with statistical cryptanalysis techniques to propose SALSA: a machine learning attack on LWE-based cryptographic schemes. SALSA can fully recover secrets for small-to-mid size LWE instances with sparse binary secrets, and may scale to attack real-world LWE-based cryptosystems.
翻訳日:2023-04-26 00:05:39 公開日:2023-04-21
# 因果AIのための因果表現学習と再定義DAGの実現

Realization of Causal Representation Learning and Redefined DAG for Causal AI ( http://arxiv.org/abs/2211.08573v8 )

ライセンス: Link先を確認
Jia Li, Xiang Li, Xiaowei Jia, Michael Steinbach, Vipin Kumar(参考訳) 因果推論からのDAG(Directed Acyclic Graph)は因果効果と相関変化を区別しない。 そして、集団の一般的な効果は、通常、すべての個体に対する平均相関によって近似される。 ai(artificial intelligence)はビッグデータの大規模構造モデリングを可能にするため、複雑な隠れたコンファウンディングによって、これらの近似誤差はもはや無視できないが、かなりのモデリングバイアスによって雪だるまになった - このような因果表現バイアス(crb)は、多くの問題を引き起こす。 簡単に言うと、DAGは因果AIの新しいフレームワークを可能にするために再定義されなければならない。 統計学における観測時系列は相関した変化しか表現できないが、DLベースのオートエンコーダはそれらを潜在空間における個々の特徴変化として表現し、因果効果を直接推定することができる。 本稿では、再定義されたdo-DAGを用いてCRBを可視化し、その実現のための新しいアーキテクチャとともに汎用的なソリューションCausal Representation Learning(CRL)フレームワークを提案し、その実現可能性について実験的に検証する。

DAG(Directed Acyclic Graph) from causal inference does not differentiate causal effects and correlated changes. And the general effect of a population is usually approximated by averaging correlations over all individuals. Since AI(Artificial Intelligence) enables large-scale structure modeling on big data, the complex hidden confoundings have made these approximation errors no longer ignorable but snowballed to considerable modeling bias - Such Causal Representation Bias (CRB) leads to many problems: ungeneralizable causal models, unrevealed individual-level features, hardly utilized causal knowledge in DL(Deep Learning), etc. In short, DAG must be redefined to enable a new framework for causal AI. The observational time series in statistics can only represent correlated changes, while the DL-based autoencoder can represent them as individualized feature changes in latent space to estimate the causal effects directly. In this paper, we introduce the redefined do-DAG to visualize CRB, propose a generic solution Causal Representation Learning (CRL) framework, along with a novel architecture for its realization, and experimentally verify the feasibility.
翻訳日:2023-04-25 23:29:45 公開日:2023-04-21
# 製品マニフォールドを用いた潜在グラフ推論

Latent Graph Inference using Product Manifolds ( http://arxiv.org/abs/2211.16199v2 )

ライセンス: Link先を確認
Haitz S\'aez de Oc\'ariz Borde, Anees Kazi, Federico Barbero, Pietro Li\`o(参考訳) グラフニューラルネットワークは通常、グラフトポロジがネットワークで利用可能であり、下流タスクに最適であるという仮定に依存する。 潜在グラフ推論は、モデルがデータの接続パターンが直接アクセスできない問題の固有グラフ構造を動的に学習することを可能にする。 本研究では,潜在グラフ学習のための離散微分可能グラフモジュール(ddgm)を一般化する。 元々のdDGMアーキテクチャはユークリッド平面を用いて、潜在グラフが生成される潜在特徴を符号化した。 リーマン幾何学をモデルに組み込んでより複雑な埋め込み空間を生成することにより、潜在グラフ推論システムの性能を向上させることができる。 特に,様々な構造の潜在特徴をエンコードできる定数曲率モデル空間の積多様体を生成できる計算可能な手法を提案する。 推定積多様体に写像された潜在表現は、最適化された潜在グラフを得るために、潜在グラフ学習モデルによって活用されるよりリッチな類似度測度を計算するために用いられる。 さらに、積多様体の曲率は、トレーニング中に他のネットワークパラメータと共に学習され、静的な埋め込み空間ではなく、下流のタスクに基づいて学習される。 我々の新しいアプローチは幅広いデータセットでテストされ、オリジナルのdDGMモデルよりも優れています。

Graph Neural Networks usually rely on the assumption that the graph topology is available to the network as well as optimal for the downstream task. Latent graph inference allows models to dynamically learn the intrinsic graph structure of problems where the connectivity patterns of data may not be directly accessible. In this work, we generalize the discrete Differentiable Graph Module (dDGM) for latent graph learning. The original dDGM architecture used the Euclidean plane to encode latent features based on which the latent graphs were generated. By incorporating Riemannian geometry into the model and generating more complex embedding spaces, we can improve the performance of the latent graph inference system. In particular, we propose a computationally tractable approach to produce product manifolds of constant curvature model spaces that can encode latent features of varying structure. The latent representations mapped onto the inferred product manifold are used to compute richer similarity measures that are leveraged by the latent graph learning model to obtain optimized latent graphs. Moreover, the curvature of the product manifold is learned during training alongside the rest of the network parameters and based on the downstream task, rather than it being a static embedding space. Our novel approach is tested on a wide range of datasets, and outperforms the original dDGM model.
翻訳日:2023-04-25 23:20:40 公開日:2023-04-21
# edge impulse: 小さな機械学習のためのmlopsプラットフォーム

Edge Impulse: An MLOps Platform for Tiny Machine Learning ( http://arxiv.org/abs/2212.03332v2 )

ライセンス: Link先を確認
Shawn Hymel, Colby Banbury, Daniel Situnayake, Alex Elium, Carl Ward, Mat Kelcey, Mathijs Baaijens, Mateusz Majchrzycki, Jenny Plunkett, David Tischler, Alessandro Grande, Louis Moreau, Dmitry Maslov, Artie Beavis, Jan Jongboom, Vijay Janapa Reddi(参考訳) Edge Impulseは、さまざまなハードウェアターゲットにデプロイ可能な組み込みおよびエッジML(TinyML)システムを開発するための、クラウドベースの機械学習操作(MLOps)プラットフォームである。 現在のTinyMLワークフローは、断片化されたソフトウェアスタックと異種デプロイメントハードウェアに悩まされており、MLモデルの最適化が難しく、利用できない。 我々は,smallmlシステムを大規模に開発するための実用的なmlopsプラットフォームであるedge impulseを提案する。 Edge Impulseはこれらの課題に対処し、TinyMLの設計サイクルを合理化し、様々なソフトウェアとハードウェアの最適化をサポートし、様々な組み込みシステムのための拡張可能でポータブルなソフトウェアスタックを作成する。 2022年10月現在、Edge Impulseは50,953人の開発者から118,185のプロジェクトをホストしている。

Edge Impulse is a cloud-based machine learning operations (MLOps) platform for developing embedded and edge ML (TinyML) systems that can be deployed to a wide range of hardware targets. Current TinyML workflows are plagued by fragmented software stacks and heterogeneous deployment hardware, making ML model optimizations difficult and unportable. We present Edge Impulse, a practical MLOps platform for developing TinyML systems at scale. Edge Impulse addresses these challenges and streamlines the TinyML design cycle by supporting various software and hardware optimizations to create an extensible and portable software stack for a multitude of embedded systems. As of Oct. 2022, Edge Impulse hosts 118,185 projects from 50,953 developers.
翻訳日:2023-04-25 23:07:59 公開日:2023-04-21
# 簡易捕捉データを用いた多様な表面上の指先圧力の視覚的推定

Visual Estimation of Fingertip Pressure on Diverse Surfaces using Easily Captured Data ( http://arxiv.org/abs/2301.02310v2 )

ライセンス: Link先を確認
Patrick Grady, Jeremy A. Collins, Chengcheng Tang, Christopher D. Twigg, Kunal Aneja, James Hays, Charles C. Kemp(参考訳) 人々はしばしば手を使って世界と接触し、圧力をかける。 この重要な人間の活動に対する機械の認識は広く適用できる。 先行研究では、深層モデルが単一のrgb画像に基づいて手圧を推定できることが示されている。 しかし、評価は制御された設定に限られており、性能は取得が困難な高分解能圧力測定によるトレーニングデータに依存している。 本稿では,RGBカメラと協力的参加者のみを用いて,多様なデータをキャプチャ可能な新しいアプローチを提案する。 私たちの重要な洞察は、人々は接触圧力(接触ラベル)を記述したカテゴリラベルに対応するアクションを実行し、結果として生じる弱いラベル付きデータは、さまざまな条件下でうまく機能するモデルのトレーニングに使用できるということです。 提案手法の有効性を,51名の被験者が指先を楽器や非楽器の物体と接触させる新しいデータセットを用いて評価した。 当社のネットワークであるContactLabelNetは,従来より劇的にパフォーマンスが向上し,多様な条件下では良好に動作し,人間のアノテータのパフォーマンスと一致あるいは上回った。

People often use their hands to make contact with the world and apply pressure. Machine perception of this important human activity could be widely applied. Prior research has shown that deep models can estimate hand pressure based on a single RGB image. Yet, evaluations have been limited to controlled settings, since performance relies on training data with high-resolution pressure measurements that are difficult to obtain. We present a novel approach that enables diverse data to be captured with only an RGB camera and a cooperative participant. Our key insight is that people can be prompted to perform actions that correspond with categorical labels describing contact pressure (contact labels), and that the resulting weakly labeled data can be used to train models that perform well under varied conditions. We demonstrate the effectiveness of our approach by training on a novel dataset with 51 participants making fingertip contact with instrumented and uninstrumented objects. Our network, ContactLabelNet, dramatically outperforms prior work, performs well under diverse conditions, and matched or exceeded the performance of human annotators.
翻訳日:2023-04-25 21:27:32 公開日:2023-04-21
# 運用量子メレオロジーと最小スクランブル

Operational Quantum Mereology and Minimal Scrambling ( http://arxiv.org/abs/2212.14340v2 )

ライセンス: Link先を確認
Paolo Zanardi and Seth Lloyd(参考訳) 本稿では,系の力学則から生じる自然量子サブシステムとは何か,という問いに答える。 この質問に答えるために、まず可観測性の観点から一般化テンソル積構造(gTPS)を作用素部分代数 $\cal A$ とその可換体の双対として定義する。 次に,gtpを動的に選択するために,短時間でスクランブルする最小情報の運用基準を提案する。 このように、創発的なサブシステムは、最も長い情報的アイデンティティを保持するサブシステムである。 この戦略は、out of time order correlation(otoc)関数の代数的バージョン(すなわち$\cal a$-otoc)の短時間展開の観点からガウスのスクランブルレートを定義することによって定量的になる。 ガウススクランブルレートは、物理的に重要なサブシステム分割の場合に解析的に計算され、サブシステム間の相互作用強度を最小化し、誤り訂正符号の有効性を最大化するという点で、直感的で説得力のある物理的解釈を持つことが示されている。

In this paper we will attempt to answer the following question: what are the natural quantum subsystems which emerge out of a system's dynamical laws? To answer this question we first define generalized tensor product structures (gTPS) in terms of observables, as dual pairs of an operator subalgebra $\cal A$ and its commutant. Second, we propose an operational criterion of minimal information scrambling at short time scales to dynamically select gTPS. In this way the emergent subsystems are those which maintain the longest informational identity. This strategy is made quantitative by defining a Gaussian scrambling rate in terms of the short-time expansion of an algebraic version of the Out of Time Order Correlation (OTOC) function i.e., the $\cal A$-OTOC. The Gaussian scrambling rate is computed analytically for physically important cases of general division into subsystems, and is shown to have an intuitive and compelling physical interpretation in terms of minimizing the interaction strength between subsystems, and maximizing the effectiveness of error-correcting codes.
翻訳日:2023-04-25 21:26:36 公開日:2023-04-21
# 少数の教師なし画像の異常検出に適したデータ拡張とは何か?

What makes a good data augmentation for few-shot unsupervised image anomaly detection? ( http://arxiv.org/abs/2304.03294v3 )

ライセンス: Link先を確認
Lingrui Zhang, Shuheng Zhang, Guoyang Xie, Jiaqi Liu, Hua Yan, Jinbao Wang, Feng Zheng, Yaochu Jin(参考訳) データ拡張は産業応用における教師なし異常検出に有望な技術であり、商業的競争やサンプル収集の困難などの要因により、陽性サンプルの入手が制限されることが多い。 本稿では,教師なし異常検出のためのデータ拡張手法を効果的に選択し,適用する方法について検討する。 各種データ拡張手法が各種異常検出アルゴリズムに与える影響を実験により系統的に検討した。 実験の結果, 異なる産業用画像異常検出アルゴリズム(iad)の性能は, 特定のデータ拡張法では大きな影響を受けず, 複数のデータ拡張法を組み合わせると, 特定の手法で優れた結果が得られるが, 異常検出の精度がさらに向上するとは限らないことがわかった。 これらの知見は、IDAの異なる要件に対する適切なデータ拡張方法を選択する上で有用なガイダンスを提供する。

Data augmentation is a promising technique for unsupervised anomaly detection in industrial applications, where the availability of positive samples is often limited due to factors such as commercial competition and sample collection difficulties. In this paper, how to effectively select and apply data augmentation methods for unsupervised anomaly detection is studied. The impact of various data augmentation methods on different anomaly detection algorithms is systematically investigated through experiments. The experimental results show that the performance of different industrial image anomaly detection (termed as IAD) algorithms is not significantly affected by the specific data augmentation method employed and that combining multiple data augmentation methods does not necessarily yield further improvements in the accuracy of anomaly detection, although it can achieve excellent results on specific methods. These findings provide useful guidance on selecting appropriate data augmentation methods for different requirements in IAD.
翻訳日:2023-04-25 20:32:12 公開日:2023-04-21
# 関数制約付き確率変分不等式問題の一階法

First-order methods for Stochastic Variational Inequality problems with Function Constraints ( http://arxiv.org/abs/2304.04778v2 )

ライセンス: Link先を確認
Digvijay Boob and Qi Deng(参考訳) モノトン変分不等式(VI)は機械学習において重要な問題である。 多数の例において、vi問題にはデータ駆動が可能な関数制約が伴うため、プロジェクション演算子の計算が難しくなる。 本稿では, 確率演算子を用いたスムーズあるいは非滑らかな問題や確率的制約を含む, 様々な条件下での関数制約VI(FCVI)問題に対する新しい一階法を提案する。 まず,演算子の補間と制約評価を用いて変数とラグランジアン乗算器を更新する-{\textt{opconex}} 法とその確率的変種を紹介する。 これらの手法はFCVI問題のいずれかが最適作用素あるいは標本複素量を達成する。 一 決定論的非流動性又は (ii)滑らかまたは非滑らかな確率的制約を含む確率的制約。 特に、我々のアルゴリズムは単純な単一ループ手続きであり、これらの複雑さを達成するためにラグランジュ乗算器の知識を必要としない。 第二に、スムーズな決定論的問題に対する最適演算子複雑性を得るために、ラグランジュ乗算器を適応的に探索し、明示的に有界にする新しい単一ループ適応ラグランジュ外挿法(\texttt{AdLagEx})を提案する。 さらに、これらのアルゴリズムは、結合された関数制約で容易にサドル点問題に拡張できることを示し、上記の場合と同様の複雑性結果が得られることを示す。 我々の知る限りでは、これらの複雑さの多くは初めて文献で得られている。

The monotone Variational Inequality (VI) is an important problem in machine learning. In numerous instances, the VI problems are accompanied by function constraints which can possibly be data-driven, making the projection operator challenging to compute. In this paper, we present novel first-order methods for function constrained VI (FCVI) problem under various settings, including smooth or nonsmooth problems with a stochastic operator and/or stochastic constraints. First, we introduce the~{\texttt{OpConEx}} method and its stochastic variants, which employ extrapolation of the operator and constraint evaluations to update the variables and the Lagrangian multipliers. These methods achieve optimal operator or sample complexities when the FCVI problem is either (i) deterministic nonsmooth, or (ii) stochastic, including smooth or nonsmooth stochastic constraints. Notably, our algorithms are simple single-loop procedures and do not require the knowledge of Lagrange multipliers to attain these complexities. Second, to obtain the optimal operator complexity for smooth deterministic problems, we present a novel single-loop Adaptive Lagrangian Extrapolation~(\texttt{AdLagEx}) method that can adaptively search for and explicitly bound the Lagrange multipliers. Furthermore, we show that all of our algorithms can be easily extended to saddle point problems with coupled function constraints, hence achieving similar complexity results for the aforementioned cases. To our best knowledge, many of these complexities are obtained for the first time in the literature.
翻訳日:2023-04-25 20:22:14 公開日:2023-04-21
# GeneGPT: バイオメディカル情報へのアクセスを改善するためのドメインツールによる大規模言語モデルの拡張

GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information ( http://arxiv.org/abs/2304.09667v2 )

ライセンス: Link先を確認
Qiao Jin, Yifan Yang, Qingyu Chen, Zhiyong Lu(参考訳) 大きな言語モデル(LLM)は様々なタスクにうまく適用されているが、幻覚や誤ったコンテンツを生成するという課題に直面している。 データベースユーティリティなどのドメイン固有のツールによるLLMの拡張は、専門知識へのより正確で直接的なアクセスを促進する可能性がある。 本稿では,National Center for Biotechnology Information (NCBI) の Web Application Programming Interfaces (API) を利用した LLM の教育手法である GeneGPT について述べる。 具体的には、Codex (code-davinci-002) に、NCBI API呼び出しのわずかなURLリクエストでGeneTuringテストを解決するよう促す。 推論中、呼び出し要求が検出されるとデコードを停止し、生成されたURLでAPIコールします。 次に、ncbi apiが返した生の実行結果を生成テキストに追加し、回答が見つかったり、別のapi呼び出しが検出されるまで生成を継続します。 予備実験の結果から,genegptは4つのゼロショットタスクのうち3つと5つのゼロショットタスクのうち4つで最先端の結果を得ることができた。 全体として、GeneGPTのマクロ平均スコアは0.76で、New Bing (0.44)、BioMedLM (0.08)、BioGPT (0.04)、GPT-3 (0.16)、ChatGPT (0.12)のような検索拡張LDMよりもはるかに高い。

While large language models (LLMs) have been successfully applied to various tasks, they still face challenges with hallucinations and generating erroneous content. Augmenting LLMs with domain-specific tools such as database utilities has the potential to facilitate more precise and straightforward access to specialized knowledge. In this paper, we present GeneGPT, a novel method for teaching LLMs to use the Web Application Programming Interfaces (APIs) of the National Center for Biotechnology Information (NCBI) and answer genomics questions. Specifically, we prompt Codex (code-davinci-002) to solve the GeneTuring tests with few-shot URL requests of NCBI API calls as demonstrations for in-context learning. During inference, we stop the decoding once a call request is detected and make the API call with the generated URL. We then append the raw execution results returned by NCBI APIs to the generated texts and continue the generation until the answer is found or another API call is detected. Our preliminary results show that GeneGPT achieves state-of-the-art results on three out of four one-shot tasks and four out of five zero-shot tasks in the GeneTuring dataset. Overall, GeneGPT achieves a macro-average score of 0.76, which is much higher than retrieval-augmented LLMs such as the New Bing (0.44), biomedical LLMs such as BioMedLM (0.08) and BioGPT (0.04), as well as other LLMs such as GPT-3 (0.16) and ChatGPT (0.12).
翻訳日:2023-04-25 20:13:57 公開日:2023-04-21
# オンラインおよびオープンソース機械学習ツールキットを活用した持続可能なエンジニアリングの未来

Utilizing Online and Open-Source Machine Learning Toolkits to Leverage the Future of Sustainable Engineering ( http://arxiv.org/abs/2304.11175v1 )

ライセンス: Link先を確認
Andrew Schulz (1), Suzanne Stathatos (2), Cassandra Shriver (3), Roxanne Moore (1) ((1) School of Mechanical Engineering at Georgia Institute of Technology, (2) School of Computing and Mathematical Sciences at California Institute of Technology, (3) School of Biological Sciences at Georgia Institute of Technology)(参考訳) 近年、材料科学における高度な破壊力学から土質試験、環境工学分野における水質試験まで、あらゆる分野において、機械学習(ml)と人工知能(ai)を用いた工学技術の進歩を全国的に推進している。 AI、特に機械学習を使用することで、エンジニアは、トレーニングされたモデルやセンサーを介して統計的再現性を保ちながら、処理や人間のラベル付け時間を自動化し、短縮することができる。 Edge Impulseは、TinyMLに対応したオープンソースのArduino教育ツールキットを設計した。 本稿では,工学教育者が教室でmlツールキットを利用するための様々な応用とアプローチについて述べる。 環境工学教室に着目した詳細な実装ガイドと関連する学習結果を提供する。 本稿では,新入生・中学レベルの4つの標準環境工学コースの具体例について述べる。 現在、機械学習ツールキットを使用して、産業や学術のキャリアのために、次世代のMLおよびAI教育エンジニアを準備するプログラムは、国内にはほとんどありません。 本稿は、Edge Impulseと共同でオンラインプラットフォームから、シンプルで安価でオープンソースのツールと技術援助を用いて、ML/AIをエンジニアリングカリキュラム(コース内で特定のAIやMLを使わずに)に設計、実装するよう教育者に指導する。

Recently, there has been a national push to use machine learning (ML) and artificial intelligence (AI) to advance engineering techniques in all disciplines ranging from advanced fracture mechanics in materials science to soil and water quality testing in the civil and environmental engineering fields. Using AI, specifically machine learning, engineers can automate and decrease the processing or human labeling time while maintaining statistical repeatability via trained models and sensors. Edge Impulse has designed an open-source TinyML-enabled Arduino education tool kit for engineering disciplines. This paper discusses the various applications and approaches engineering educators have taken to utilize ML toolkits in the classroom. We provide in-depth implementation guides and associated learning outcomes focused on the Environmental Engineering Classroom. We discuss five specific examples of four standard Environmental Engineering courses for freshman and junior-level engineering. There are currently few programs in the nation that utilize machine learning toolkits to prepare the next generation of ML and AI-educated engineers for industry and academic careers. This paper will guide educators to design and implement ML/AI into engineering curricula (without a specific AI or ML focus within the course) using simple, cheap, and open-source tools and technological aid from an online platform in collaboration with Edge Impulse.
翻訳日:2023-04-25 20:04:57 公開日:2023-04-21
# トランスダクティブメタラーニングのためのタスク適応擬似ラベリング

Task-Adaptive Pseudo Labeling for Transductive Meta-Learning ( http://arxiv.org/abs/2304.11173v1 )

ライセンス: Link先を確認
Sanghyuk Lee, Seunghyun Lee, Byung Cheol Song(参考訳) メタラーニングは限られた量のサポートセットを通じて適応し、サンプルバイアス問題を引き起こす可能性がある。 この問題を解決するため、トランスダクティブメタラーニングは、従来の帰納的学習の観点を超えて、ますます注目を集めています。 本稿では、トランスダクティブメタラーニングのためのタスク適応型擬似ラベリングを提案する。 特にラベル付きクエリセットの擬似ラベルはラベルの伝搬を通じてラベル付きサポートセットから生成される。 擬似ラベルは、教師付き設定をそのまま採用でき、適応プロセスでラベルなしのクエリセットを使用することもできる。 その結果,提案手法は帰納的手法よりも適応過程の例を多く扱えるようになり,モデルの分類性能が向上する可能性が示唆された。 提案手法は擬似ラベリングにタスク適応を適用する最初の手法である。 実験により, 提案手法は, 5ウェイ1ショット小ショット分類において, 最先端技術(SOTA)技術より優れていることが示された。

Meta-learning performs adaptation through a limited amount of support set, which may cause a sample bias problem. To solve this problem, transductive meta-learning is getting more and more attention, going beyond the conventional inductive learning perspective. This paper proposes so-called task-adaptive pseudo labeling for transductive meta-learning. Specifically, pseudo labels for unlabeled query sets are generated from labeled support sets through label propagation. Pseudo labels enable to adopt the supervised setting as it is and also use the unlabeled query set in the adaptation process. As a result, the proposed method is able to deal with more examples in the adaptation process than inductive ones, which can result in better classification performance of the model. Note that the proposed method is the first approach of applying task adaptation to pseudo labeling. Experiments show that the proposed method outperforms the state-of-the-art (SOTA) technique in 5-way 1-shot few-shot classification.
翻訳日:2023-04-25 20:04:33 公開日:2023-04-21
# センタウアプログラマー -- KasparovのAdvanced Chessはどのようにして未来のソフトウェア開発にまたがるか

The centaur programmer -- How Kasparov's Advanced Chess spans over to the software development of the future ( http://arxiv.org/abs/2304.11172v1 )

ライセンス: Link先を確認
Pedro Alves, Bruno Pereira Cipriano(参考訳) 私たちは、人間とaiの混合チームが単独のコンピュータを打ち負かした、centaurチェストーナメントで示されたように、人間とaiのコラボレーティブアプローチがai単独よりも効果的であるという前提に基づいて、centaurプログラマのアイデアを紹介します。 本稿では,AIと協調してプログラミングを行うプログラミングモデルについて紹介し,指導モデル,スケッチモデル,逆制御モデルなどを紹介するとともに,AIを付加したより効率的で生産性の高いプログラミング環境を実現するために,大学が将来のプログラマを準備すべきであることを示唆する。 私たちは、今後10年で人間とAIがプログラミングで協力できる様々な方法、大学がこれらの変化をどのように扱うべきか、そしてこのトピックを取り巻く法的な意味について、重要な議論に貢献したいと考えています。

We introduce the idea of Centaur Programmer, based on the premise that a collaborative approach between humans and AI will be more effective than AI alone, as demonstrated in centaur chess tournaments where mixed teams of humans and AI beat sole computers. The paper introduces several collaboration models for programming alongside an AI, including the guidance model, the sketch model, and the inverted control model, and suggests that universities should prepare future programmers for a more efficient and productive programming environment augmented with AI. We hope to contribute to the important discussion about the diverse ways whereby humans and AI can work together in programming in the next decade, how universities should handle these changes and some legal implications surrounding this topic.
翻訳日:2023-04-25 20:04:20 公開日:2023-04-21
# 粒状球計算:効率的でロバストで解釈可能な適応多粒度表現と計算法

Granular ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method ( http://arxiv.org/abs/2304.11171v1 )

ライセンス: Link先を確認
Shuyin Xia, Guoyin Wang, Xinbo Gao(参考訳) 人間の認知には「大規模ファースト」認知機構があり、適応的な多粒性記述能力を有する。 これにより、効率、堅牢性、解釈可能性などの計算特性が得られる。 既存の人工知能学習手法の多くは、特定の多粒度特徴を持つが、「大規模ファースト」認知機構と完全に一致していない。 マルチグラニュラー性粒球計算は近年開発された重要なモデル手法である。 この方法は、異なる大きさの粒状球を用いてサンプル空間を適応的に表現し、粒状球に基づいて学習することができる。 粒度が粗い「粒度」の数はサンプル点数より小さいため、粒度計算はより効率的であり、粒度が粗い粒度の特徴は細かい試料点の影響を受けにくく、より堅牢になり、粒度の多粒度構造はトポロジカルな構造と粗い粒度記述を生成でき、自然な解釈性を提供する。 グラニュラ・ボール・コンピューティングは人工知能の様々な分野に効果的に拡張され、グラニュラ・ボール分類器、グラニュラ・ボール・クラスタリング法、グラニュラ・ボール・ニューラルネットワーク、グラニュラ・ボール・ラフ・セット、グラニュラ・ボールの進化計算などの理論的手法を開発し、効率、ノイズの堅牢性、既存手法の解釈可能性を大幅に向上させた。 優れたイノベーション、実用性、そして開発の可能性を持っている。 本稿では,これらの手法を体系的に紹介し,グラニュラーボールコンピューティングが現在直面している主な問題を解析し,グラニュラーボールコンピューティングの主要なシナリオについて論じるとともに,将来の研究者がこの理論を改善するための参照と提案を提供する。

Human cognition has a ``large-scale first'' cognitive mechanism, therefore possesses adaptive multi-granularity description capabilities. This results in computational characteristics such as efficiency, robustness, and interpretability. Although most existing artificial intelligence learning methods have certain multi-granularity features, they do not fully align with the ``large-scale first'' cognitive mechanism. Multi-granularity granular-ball computing is an important model method developed in recent years. This method can use granular-balls of different sizes to adaptively represent and cover the sample space, and perform learning based on granular-balls. Since the number of coarse-grained "granular-ball" is smaller than the number of sample points, granular-ball computing is more efficient; the coarse-grained characteristics of granular-balls are less likely to be affected by fine-grained sample points, making them more robust; the multi-granularity structure of granular-balls can produce topological structures and coarse-grained descriptions, providing natural interpretability. Granular-ball computing has now been effectively extended to various fields of artificial intelligence, developing theoretical methods such as granular-ball classifiers, granular-ball clustering methods, granular-ball neural networks, granular-ball rough sets, and granular-ball evolutionary computation, significantly improving the efficiency, noise robustness, and interpretability of existing methods. It has good innovation, practicality, and development potential. This article provides a systematic introduction to these methods and analyzes the main problems currently faced by granular-ball computing, discussing both the primary applicable scenarios for granular-ball computing and offering references and suggestions for future researchers to improve this theory.
翻訳日:2023-04-25 20:04:04 公開日:2023-04-21
# chatgpt、大規模言語技術、そして人類に利益をもたらす大胆な道

ChatGPT, Large Language Technologies, and the Bumpy Road of Benefiting Humanity ( http://arxiv.org/abs/2304.11163v1 )

ライセンス: Link先を確認
Atoosa Kasirzadeh(参考訳) 新興AI技術の魅力は間違いなくスリリングだ。 しかし、世界的不平等の拡大と存在の脅威に直面する中で、人類が何であるかを微妙な理解がなければ、ai技術がすべての人類に利益をもたらすという約束は空です。 今後は、厳格で協力的なAIの安全性と倫理の研究に投資することが不可欠だ。 我々はまた、単に推測的な質問とよく研究された質問を区別する、持続的で公平な方法で標準を開発する必要がある。 後者だけが、有益なAIを作成するのに必要な価値を共同構築し、デプロイすることができます。 このような失敗は、私たちのAI技術の進歩が、倫理的および社会的意味をナビゲートする能力を上回る未来をもたらす可能性がある。 この道は下りたくない。

The allure of emerging AI technologies is undoubtedly thrilling. However, the promise that AI technologies will benefit all of humanity is empty so long as we lack a nuanced understanding of what humanity is supposed to be in the face of widening global inequality and pressing existential threats. Going forward, it is crucial to invest in rigorous and collaborative AI safety and ethics research. We also need to develop standards in a sustainable and equitable way that differentiate between merely speculative and well-researched questions. Only the latter enable us to co-construct and deploy the values that are necessary for creating beneficial AI. Failure to do so could result in a future in which our AI technological advancements outstrip our ability to navigate their ethical and social implications. This path we do not want to go down.
翻訳日:2023-04-25 20:01:51 公開日:2023-04-21
# 1+1)d量子セルオートマトンおよび量子ニューラルネットワークにおける散逸量子多体ダイナミクス

Dissipative quantum many-body dynamics in (1+1)D quantum cellular automata and quantum neural networks ( http://arxiv.org/abs/2304.11209v1 )

ライセンス: Link先を確認
Mario Boneberg, Federico Carollo, Igor Lesanovsky(参考訳) パーセプトロンを基本単位として構築された古典的な人工ニューラルネットワークは、膨大な表現力を持っている。 本稿では、同様のパラダイムに従う量子ニューラルネットワークアーキテクチャについて検討する。 構造的には(1+1)d量子セルオートマトン(英語版)と等価であり、離散時間にダイナミクスが起こる2次元量子格子系である。 連続した時間スライス(または隣接するネットワーク層)間の情報転送は、古典的パーセプトロンの量子対応と見なすことができる局所量子ゲートによって制御される。 時間方向に沿って、有効散逸進化は減少状態のレベルに現れ、このダイナミクスの性質は基本ゲートの構造によって決定される。 局所ユニタリゲートを構築して所望の多体力学を導出する方法を示し、あるパラメータレジームではリンドブラッドマスター方程式によって制御される。 数値シミュレーションにより, 小型システムについて検討し, 量子セルオートマトンにおける集団効果をパラメトリックに制御できることを実証する。 本研究は,大規模量子ニューラルネットワークにおける大規模創発現象の機械学習への応用に向けた一歩である。

Classical artificial neural networks, built from perceptrons as their elementary units, possess enormous expressive power. Here we investigate a quantum neural network architecture, which follows a similar paradigm. It is structurally equivalent to so-called (1+1)D quantum cellular automata, which are two-dimensional quantum lattice systems on which dynamics takes place in discrete time. Information transfer between consecutive time slices -- or adjacent network layers -- is governed by local quantum gates, which can be regarded as the quantum counterpart of the classical perceptrons. Along the time-direction an effective dissipative evolution emerges on the level of the reduced state, and the nature of this dynamics is dictated by the structure of the elementary gates. We show how to construct the local unitary gates to yield a desired many-body dynamics, which in certain parameter regimes is governed by a Lindblad master equation. We study this for small system sizes through numerical simulations and demonstrate how collective effects within the quantum cellular automaton can be controlled parametrically. Our study constitutes a step towards the utilisation of large-scale emergent phenomena in large quantum neural networks for machine learning purposes.
翻訳日:2023-04-25 19:54:30 公開日:2023-04-21
# 安倍晋三首相:第2次モーメント評価でDPバイアス修正へ

DP-Adam: Correcting DP Bias in Adam's Second Moment Estimation ( http://arxiv.org/abs/2304.11208v1 )

ライセンス: Link先を確認
Qiaoyue Tang, Mathias L\'ecuyer(参考訳) 我々は,adamオプティマイザを用いたdpの従来の使用は,勾配計算における独立ノイズの追加により,第2モーメント推定にバイアスが生じることを観測した。 このバイアスは、非プライベートなAdamの振る舞いやAdamのサイン降下解釈と矛盾する低分散パラメータ更新のための異なるスケーリングにつながる。 DPノイズによるバイアスの補正はDP-Adamの最適化性能を著しく向上させる。

We observe that the traditional use of DP with the Adam optimizer introduces a bias in the second moment estimation, due to the addition of independent noise in the gradient computation. This bias leads to a different scaling for low variance parameter updates, that is inconsistent with the behavior of non-private Adam, and Adam's sign descent interpretation. Empirically, correcting the bias introduced by DP noise significantly improves the optimization performance of DP-Adam.
翻訳日:2023-04-25 19:54:11 公開日:2023-04-21
# SSS3D: 効率的な3次元セマンティックセグメンテーションのための高速ニューラルネットワーク探索

SSS3D: Fast Neural Architecture Search For Efficient Three-Dimensional Semantic Segmentation ( http://arxiv.org/abs/2304.11207v1 )

ライセンス: Link先を確認
Olivier Therrien, Marihan Amein, Zhuoran Xiong, Warren J. Gross, Brett H. Meyer(参考訳) 計算効率のよい3Dセマンティックシーンセグメンテーションネットワークを実現するために設計された高速多目的NASフレームワークであるSSS3Dを提案する。 市販のポイントベースネットワークであるRandLA-Netをスーパーネットワークとして使用し、ウェイトシェアリングと検索時間の99.67%削減を実現している。 SSS3Dはサンプリングとアーキテクチャパラメータからなる複雑な検索空間を持ち、2.88 * 10^17の可能なネットワークを形成することができる。 さらに検索時間を短縮するため、sss3dは全検索空間を分割し、1段階検索に必要な54%の時間で最適なサブネットワークを見つける2段階検索を導入する。

We present SSS3D, a fast multi-objective NAS framework designed to find computationally efficient 3D semantic scene segmentation networks. It uses RandLA-Net, an off-the-shelf point-based network, as a super-network to enable weight sharing and reduce search time by 99.67% for single-stage searches. SSS3D has a complex search space composed of sampling and architectural parameters that can form 2.88 * 10^17 possible networks. To further reduce search time, SSS3D splits the complete search space and introduces a two-stage search that finds optimal subnetworks in 54% of the time required by single-stage searches.
翻訳日:2023-04-25 19:54:02 公開日:2023-04-21
# Sierpinski-Hofstadterモデルにおける断熱ポンプと輸送

Adiabatic pumping and transport in the Sierpinski-Hofstadter model ( http://arxiv.org/abs/2304.11201v1 )

ライセンス: Link先を確認
Saswat Sarangi, Anne E. B. Nielsen(参考訳) 位相相は垂直磁場の存在下で自己相似構造について報告されている。 本稿では,これらの相のスペクトルフローと電荷ポンプの観点からの理解について述べる。 Sierpinskiガスケットから構築した自己相似構造のハーパーホフシュタッターモデルについて検討した。 フラックスチューブが構造を通して挿入され、管を通るフラックスが断続的に変化する場合のスペクトル流れと関連する電荷ポンプについて数値的に検討する。 スペクトル流の性質は、垂直磁場を持つ変換不変非相互作用系と定性的に異なることが判明した。 その結果, 瞬時固有スペクトルは, サイクル上で励起される電荷の量子化を理解でき, 従って系の位相的特性を理解できることがわかった。 ホール導電率に対する局所的な寄与とエッジ状状態のスペクトル流との対応性を示す。 また、エッジのような状態は離散角運動量作用素の固有状態によって近似できることを示す。

Topological phases have been reported on self-similar structures in the presence of a perpendicular magnetic field. Here, we present an understanding of these phases from a perspective of spectral flow and charge pumping. We study the Harper-Hofstadter model on self-similar structures constructed from the Sierpinski gasket. We numerically investigate the spectral flow and the associated charge pumping when a flux tube is inserted through the structure and the flux through the tube is varied adiabatically. We find that the nature of the spectral flow is qualitatively different from that of translationally invariant non-interacting systems with a perpendicular magnetic field. We show that the instantaneous eigenspectra can be used to understand the quantization of the charge pumped over a cycle, and hence to understand the topological character of the system. We show the correspondence between the local contributions to the Hall conductivity and the spectral flow of the edge-like states. We also show that the edge-like states can be approximated by eigenstates of the discrete angular-momentum operator, their chiral nature being a consequence of this.
翻訳日:2023-04-25 19:53:48 公開日:2023-04-21
# fast grabnext: エッジ上のロボット把持のためのコンピュータビジョンタスクにおけるマルチタスク学習のための高速セルフアテンションニューラルネットワークアーキテクチャ

Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge ( http://arxiv.org/abs/2304.11196v1 )

ライセンス: Link先を確認
Alexander Wong, Yifan Wu, Saad Abbasi, Saeejith Nair, Yuhao Chen, Mohammad Javad Shafiee(参考訳) マルチタスク学習は,ロボット把持を目的とした深層学習駆動視覚システムの性能向上に大いに期待されている。 しかし、高いアーキテクチャと計算の複雑さは、現実の製造業や倉庫環境のためにロボットアームで通常活用される組み込みデバイスへの展開に適さない結果をもたらす。 このように、エッジ上でロボットをつかむコンピュータビジョンタスクに適した高効率なマルチタスクディープニューラルネットワークアーキテクチャの設計が、製造環境において広く採用されることが望まれている。 ロボットグルーピングのためのコンピュータビジョンタスクに組み込んだマルチタスク学習に適した,高速自己認識型ニューラルネットワークアーキテクチャであるFast GraspNeXtを提案する。 Fast GraspNeXtを構築するために,マルチタスク学習性能と組込み推論効率の強いバランスを実現するために,アーキテクチャ制約をカスタマイズした生成ネットワークアーキテクチャ検索戦略を利用する。 MetaGraspNetベンチマークデータセットでの実験結果から、高速なGraspNeXtネットワーク設計は、NVIDIA Jetson TX2組み込みプロセッサで17.8Mパラメータ(約5倍以下)、259 GFLOP(最大5倍以下)、最大3.15倍高速であるのに対して、他の効率的なマルチタスクネットワーク設計と比較して、複数のコンピュータビジョンタスクにおける最高性能(平均精度、精度、平均二乗誤差(MSE))を達成することが示された。

Multi-task learning has shown considerable promise for improving the performance of deep learning-driven vision systems for the purpose of robotic grasping. However, high architectural and computational complexity can result in poor suitability for deployment on embedded devices that are typically leveraged in robotic arms for real-world manufacturing and warehouse environments. As such, the design of highly efficient multi-task deep neural network architectures tailored for computer vision tasks for robotic grasping on the edge is highly desired for widespread adoption in manufacturing environments. Motivated by this, we propose Fast GraspNeXt, a fast self-attention neural network architecture tailored for embedded multi-task learning in computer vision tasks for robotic grasping. To build Fast GraspNeXt, we leverage a generative network architecture search strategy with a set of architectural constraints customized to achieve a strong balance between multi-task learning performance and embedded inference efficiency. Experimental results on the MetaGraspNet benchmark dataset show that the Fast GraspNeXt network design achieves the highest performance (average precision (AP), accuracy, and mean squared error (MSE)) across multiple computer vision tasks when compared to other efficient multi-task network architecture designs, while having only 17.8M parameters (about >5x smaller), 259 GFLOPs (as much as >5x lower) and as much as >3.15x faster on a NVIDIA Jetson TX2 embedded processor.
翻訳日:2023-04-25 19:53:33 公開日:2023-04-21
# 映像予測のための視覚と触覚の組み合わせ

Combining Vision and Tactile Sensation for Video Prediction ( http://arxiv.org/abs/2304.11193v1 )

ライセンス: Link先を確認
Willow Mandil and Amir Ghalamzan-E(参考訳) 本稿では,ロボットインタラクションにおける映像予測モデルに触覚感を加える効果について検討する。 ロボットが環境に与える影響を予測することは、ロボット工学における根本的な課題である。 現在の方法では、視覚とロボットのアクションデータを利用して、所定の時間内にビデオ予測を生成し、ロボットのアクションを調整することができる。 しかし、人間は視覚と触覚の両方のフィードバックに頼り、身体環境のメンタルモデルを開発し維持する。 本稿では,触覚フィードバックを映像予測モデルに組み込んだ物理ロボットインタラクションへの影響について検討する。 本稿では,3つのマルチモーダル統合手法を提案し,これらの触覚強調映像予測モデルの性能を比較した。 さらに,非教師なし学習のための磁気触覚センサを用いたロボットプッシュの2つの新しいデータセットを提案する。 第1のデータセットは視覚的に同一のオブジェクトを含み、第2のデータセットは既存の家庭用オブジェクトクラスタのロボットプッシュデータセットを模倣する。 本研究は,映像予測モデルに触覚フィードバックを組み込むことにより,シーン予測精度が向上し,エージェントの物理的インタラクション知覚が向上し,ロボットインタラクションにおける因果関係の理解が向上することを示す。

In this paper, we explore the impact of adding tactile sensation to video prediction models for physical robot interactions. Predicting the impact of robotic actions on the environment is a fundamental challenge in robotics. Current methods leverage visual and robot action data to generate video predictions over a given time period, which can then be used to adjust robot actions. However, humans rely on both visual and tactile feedback to develop and maintain a mental model of their physical surroundings. In this paper, we investigate the impact of integrating tactile feedback into video prediction models for physical robot interactions. We propose three multi-modal integration approaches and compare the performance of these tactile-enhanced video prediction models. Additionally, we introduce two new datasets of robot pushing that use a magnetic-based tactile sensor for unsupervised learning. The first dataset contains visually identical objects with different physical properties, while the second dataset mimics existing robot-pushing datasets of household object clusters. Our results demonstrate that incorporating tactile feedback into video prediction models improves scene prediction accuracy and enhances the agent's perception of physical interactions and understanding of cause-effect relationships during physical robot interactions.
翻訳日:2023-04-25 19:53:03 公開日:2023-04-21
# 超強結合空洞QEDにおける緩和破壊と共鳴トンネル

Relaxation breakdown and resonant tunneling in ultrastrong-coupling cavity QED ( http://arxiv.org/abs/2304.11191v1 )

ライセンス: Link先を確認
Daniele De Bernardis(参考訳) 単一電磁空洞モードと超強結合した非対称双極子の開緩和ダイナミクスについて検討した。 相互作用系全体に対する熱化マスター方程式を用いることで、リウビリアンギャップの位相図を導出する。 超強結合は双極子トンネル速度の指数関数的な抑制により平衡状態への緩和を抑制する。 しかし、極性多光子共鳴はキャビティを介する双極子共鳴トンネル法により高速な緩和を回復する。 数値的なエビデンスとは別に、一般化された回転波近似によりRabiモデルを対角化して完全に解析的な記述を開発する。 このような超強結合系の緩和物理学は、標準のテキストブック装束状態図の多光子ポーラロン版に還元される。 最後に、超強結合系におけるカスケード共振トンネル構成の基礎を設定できるマルチウェルダイポールの拡張について議論する。

We study the open relaxation dynamics of an asymmetric dipole that is ultrastrongly coupled to a single electromagnetic cavity mode. By using a thermalizing master equation for the whole interacting system we derive a phase diagram of the Liouvillian gap. It emerges that the ultrastrong coupling inhibits the system relaxation toward the equilibrium state due to an exponential suppression of the dipole tunneling rate. However, we find that polaronic multi-photon resonances restore fast relaxation by a cavity-mediated dipole resonant tunneling process. Aside of the numerical evidences, we develop a fully analytical description by diagonalizing the Rabi model through a generalized rotating-wave approximation, valid in the so-called polaron frame. The relaxation physics of such ultrastrong-coupling systems is then reduced to a multi-photon polaron version of the standard text-book dressed states picture. At the end we discuss an extension to a multi-well dipole that can set the basis of a cascaded resonant tunnelling setup in the ultrastrong coupling regime.
翻訳日:2023-04-25 19:52:44 公開日:2023-04-21
# 非局所計算とブラックホール内部

Non-local computation and the black hole interior ( http://arxiv.org/abs/2304.11184v1 )

ライセンス: Link先を確認
Alex May and Michelle Xu(参考訳) 両面のブラックホールでは、反対の漸近領域から落ちてくる系がブラックホールの内部で衝突し相互作用する。 それぞれの漸近領域を記述する2つのcftは相互作用しないが、この場合である。 ここでは、平面ブラックホールの地平線相互作用の背後にあるこれらを探索し、非局所量子計算に関連付ける。 これにより、これらの相互作用に対する量子回路の視点が与えられ、任意の次元に適用される。 我々はさらに,一方のサイドアドバンスジオメトリーにおけるバルクインタラクションと非局所計算の間に議論された接続を再検討し,その接続をより正確にするための新たな視点を提供するために,いくつかの手法を再利用した。

In a two sided black hole, systems falling in from opposite asymptotic regions can meet inside the black hole and interact. This is the case even while the two CFTs describing each asymptotic region are non-interacting. Here, we explore these behind the horizon interactions in planar black holes, where we can relate them to non-local quantum computations. This gives a quantum circuit perspective on these interactions, which applies in arbitrary dimension. We further revisit the connection discussed earlier between bulk interactions in one sided AdS geometries and non-local computation, and recycle some of our techniques to offer a new perspective on making that connection precise.
翻訳日:2023-04-25 19:52:28 公開日:2023-04-21
# 非エルミートホログラフィにおける導電性

Electric conductivity in non-Hermitian holography ( http://arxiv.org/abs/2304.11183v1 )

ライセンス: Link先を確認
Zhuo-Yu Xian, David Rodr\'iguez Fern\'andez, Zhaohui Chen, Yang Liu, Rene Meyer(参考訳) 非エルミート型PT対称ホログラフィーモデルarXiv:1912.06647の有限温度における相構造と電荷輸送および化学ポテンシャルについて検討した。 非エルミートpt対称変形は、大域u(1)対称性のパラメータを複素数に促進することによって実現される。 変形強度によっては, 安定なpt-対称相, 不安定なpt-対称相, 不安定なpt-対称破壊相の3相が認められる。 3つの相では、縮合体の正方形と0周波数での交流伝導率のスペクトル重みはそれぞれ正、負、複素である。 我々は、交流伝導度に対するフェレル・グルーバー・ティンカム和則が3つの相すべてで成り立つことを確認する。 また,pt対称変形を伴う複雑なu(1)回転子モデルについて検討し,その位相構造と凝縮パターンを導出し,ホログラムモデルに類似した零周波スペクトル量を求める。

We study the phase structure and charge transport at finite temperature and chemical potential in the non-Hermitian PT-symmetric holographic model of arXiv:1912.06647. The non-Hermitian PT-symmetric deformation is realized by promoting the parameter of a global U(1) symmetry to a complex number. Depending on the strength of the deformation, we find three phases: stable PT-symmetric phase, unstable PT-symmetric phase, and an unstable PT-symmetry broken phase. In the three phases, the square of the condensate and also the spectral weight of the AC conductivity at zero frequency are, respectively, positive, negative, and complex. We check that the Ferrell-Glover-Tinkham sum rule for the AC conductivity holds in all the three phases. We also investigate a complexified U(1) rotor model with PT-symmetric deformation, derive its phase structure and condensation pattern, and find a zero frequency spectral weight analogous to the holographic model.
翻訳日:2023-04-25 19:52:17 公開日:2023-04-21
# データから動的システムを自動的に識別する

Automatically identifying dynamical systems from data ( http://arxiv.org/abs/2304.11182v1 )

ライセンス: Link先を確認
Kevin Egan and Weizhen Li and Rui Carvalho(参考訳) 経験的データから系力学を記述する非線形微分方程式の発見は、現代科学における根本的な課題である。 本稿では,解法手法,スパース回帰,ブートストラップ信頼区間を統合することで,動的法則を自動的に識別する手法を提案する。 本手法は,ランダム初期条件のアンサンブル,長さ増加の時系列,信号対雑音比の変動により,よく知られた常微分方程式に対する評価を行う。 提案アルゴリズムは,中等度な時系列と背景雑音に対する高信号品質の3次元系を連続的に同定する。 力学系を正確に同定することで、我々の方法論は複雑なシステムを理解することが重要である工学だけでなく、物理・生物科学などの様々な分野に影響を及ぼす可能性を秘めている。

Discovering nonlinear differential equations that describe system dynamics from empirical data is a fundamental challenge in contemporary science. Here, we propose a methodology to automatically identify dynamical laws by integrating denoising techniques, sparse regression, and bootstrap confidence intervals. We evaluate our method on well-known ordinary differential equations with an ensemble of random initial conditions, time series of increasing length, and varying signal-to-noise ratios. Our algorithm consistently identifies three-dimensional systems, given moderately-sized time series and high signal quality levels relative to background noise. By accurately identifying dynamical systems, our methodology has the potential to impact diverse fields, such as the physical and biological sciences, as well as engineering, where understanding complex systems is crucial.
翻訳日:2023-04-25 19:52:01 公開日:2023-04-21
# 未知ガウス量子状態のステアリング証人

Steering witnesses for unknown Gaussian quantum states ( http://arxiv.org/abs/2304.11239v1 )

ライセンス: Link先を確認
Tatiana Mihaescu, Hermann Kampermann, Aurelian Isar, Dagmar Bru{\ss}(参考訳) ガウスの国家におけるステアリングを検出する第2の瞬間をガウスの測定によって定義し、完全に特徴づける。 標準作用素の分散や第二モーメントの線形結合から生じる全てのそのようなテストは、実験で容易に実装される。 また、操舵者のボソニックモードが1つある場合、操舵者を完全に特徴づける線形制約のセットを提案し、一般的な場合、操舵を検出するテストのセットを制限する。 未知の量子状態が与えられた場合、ランダムな測定回数に対して適切なステアリングテストを提供する半定プログラムを実装します。 したがって、フルトモグラフィーよりも少ない測定でステアリング検出が可能な「再試行法」である。 本研究では, 2モード圧縮真空状態, 2モード一般未知状態, 3モード連続可変ghz状態のステアリング検出効率について検討した。 さらに,この手法の統計的誤差に対する堅牢性についても論じる。

We define and fully characterize the witnesses based on second moments detecting steering in Gaussian states by means of Gaussian measurements. All such tests, which arise from linear combination of variances or second moments of canonical operators, are easily implemented in experiments. We propose also a set of linear constraints fully characterizing steering witnesses when the steered party has one bosonic mode, while in the general case the constraints restrict the set of tests detecting steering. Given an unknown quantum state we implement a semidefinite program providing the appropriate steering test with respect to the number of random measurements performed. Thus, it is a "repeat-until-success" method allowing for steering detection with less measurements than in full tomography. We study the efficiency of steering detection for two-mode squeezed vacuum states, for two-mode general unknown states, and for three-mode continuous variable GHZ states. In addition, we discuss the robustness of this method to statistical errors.
翻訳日:2023-04-25 19:45:23 公開日:2023-04-21
# 複数の取得条件にモデルベースディープラーニングを適用する:Ada-MoDL

Adapting model-based deep learning to multiple acquisition conditions: Ada-MoDL ( http://arxiv.org/abs/2304.11238v1 )

ライセンス: Link先を確認
Aniket Pramanik, Sampada Bhave, Saurav Sajib, Samir D. Sharma, Mathews Jacob(参考訳) 目的:本研究の目的は,複数のシーケンス,取得設定,フィールド強度で得られたアンサンプされた並列MRIデータから高品質な再構成が可能な,単一のモデルベースディープネットワークを導入することである。 メソッド: 複数の取得設定のための優れた再構築を提供する単一のアンロールアーキテクチャが導入された。 提案手法は,CNN特徴量と正規化パラメータを適切な重みで拡張することにより,各設定に適応する。 スケーリング重みと正規化パラメータは、特定の獲得設定を表す条件付きベクトルから多層パーセプトロンモデルを用いて導出される。 パーセプトロンパラメータとcnnの重み付けは、フィールド強度、加速度、コントラストの違いを含む複数の取得設定のデータを用いて共同で訓練される。 条件付きネットワークは、異なる取得設定で取得したデータセットを使用して検証される。 結果: すべての設定からデータを用いて単一モデルをトレーニングする適応フレームワークの比較により, 取得条件毎に一貫した性能向上が得られた。 提案手法と, 個別に学習したネットワークとの比較から, 優れた性能を得るためには, 獲得設定あたりのトレーニングデータが少ないことが示唆された。 結論: Ada-MoDLフレームワークは、複数の取得設定に単一のモデルベースのアンロールネットワークを使用することを可能にします。 異なる取得設定のために複数のネットワークをトレーニングし、保存する必要がないことに加えて、このアプローチは、各取得設定に必要なトレーニングデータを削減する。

Purpose: The aim of this work is to introduce a single model-based deep network that can provide high-quality reconstructions from undersampled parallel MRI data acquired with multiple sequences, acquisition settings and field strengths. Methods: A single unrolled architecture, which offers good reconstructions for multiple acquisition settings, is introduced. The proposed scheme adapts the model to each setting by scaling the CNN features and the regularization parameter with appropriate weights. The scaling weights and regularization parameter are derived using a multi-layer perceptron model from conditional vectors, which represents the specific acquisition setting. The perceptron parameters and the CNN weights are jointly trained using data from multiple acquisition settings, including differences in field strengths, acceleration, and contrasts. The conditional network is validated using datasets acquired with different acquisition settings. Results: The comparison of the adaptive framework, which trains a single model using the data from all the settings, shows that it can offer consistently improved performance for each acquisition condition. The comparison of the proposed scheme with networks that are trained independently for each acquisition setting shows that it requires less training data per acquisition setting to offer good performance. Conclusion: The Ada-MoDL framework enables the use of a single model-based unrolled network for multiple acquisition settings. In addition to eliminating the need to train and store multiple networks for different acquisition settings, this approach reduces the training data needed for each acquisition setting.
翻訳日:2023-04-25 19:45:07 公開日:2023-04-21
# BinMaskによる効率的なニューラルネットワーク$L_0$正規化

Effective Neural Network $L_0$ Regularization With BinMask ( http://arxiv.org/abs/2304.11237v1 )

ライセンス: Link先を確認
Kai Jia, Martin Rinard(参考訳) ニューラルネットワークの正規化は基本的な問題である。 より一般化可能なモデルの正規化に加えて、$L_0$正規化は入力特徴の選択やスパースニューラルネットワークのトレーニングにも適用される。 関連するトピックに関する多くの研究があり、いくつかは非常に複雑な方法がある。 本稿では,決定論的二項マスクと重みを乗算し,逆プロパゲーションに一意性ストレートスルー推定器を用いる簡単な定式化であるBinMaskが,有効な$L_0$正規化器であることを示す。 我々は,BinMaskを特徴選択,ネットワークスペーシング,モデル正規化の3つのタスクで評価する。 その単純さにもかかわらず、BinMaskは各タスク用に設計されたメソッドと比較して、タスク固有のチューニングなしで全てのベンチマークで競合性能を達成する。 その結果,これまで広く採用されてきたマスク最適化と重みを分離することが,l_0$正則化の有効成分であることが示唆された。

$L_0$ regularization of neural networks is a fundamental problem. In addition to regularizing models for better generalizability, $L_0$ regularization also applies to selecting input features and training sparse neural networks. There is a large body of research on related topics, some with quite complicated methods. In this paper, we show that a straightforward formulation, BinMask, which multiplies weights with deterministic binary masks and uses the identity straight-through estimator for backpropagation, is an effective $L_0$ regularizer. We evaluate BinMask on three tasks: feature selection, network sparsification, and model regularization. Despite its simplicity, BinMask achieves competitive performance on all the benchmarks without task-specific tuning compared to methods designed for each task. Our results suggest that decoupling weights from mask optimization, which has been widely adopted by previous work, is a key component for effective $L_0$ regularization.
翻訳日:2023-04-25 19:44:46 公開日:2023-04-21
# 効率的なロボット学習のための空間言語注意政策

Spatial-Language Attention Policies for Efficient Robot Learning ( http://arxiv.org/abs/2304.11235v1 )

ライセンス: Link先を確認
Priyam Parashar, Jay Vakil, Sam Powers, Chris Paxton(参考訳) トランスフォーマーを用いたロボット意思決定のための空間表現の構築と訓練について検討する。 特に、ロボットが様々な環境で動作するためには、散らかりやすく、データ効率が良く、異なる状況にうまく一般化できる、ロボットのセンサーモデレータポリシーをすばやく訓練したり、微調整したりできなければなりません。 そこで本研究では,空間言語注意ポリシー(SLAP)を提案する。 SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。 1つのモデルで8つのタスクにまたがる実世界では80%の成功率を示し、1つのタスクにほんのわずかな例であっても、見当たらないクレームや見当たらないオブジェクト構成を導入すると47.5%の成功率を示す。 これは、以前の作業よりも30%の改善である(見当たらない障害と構成で20%)。

We investigate how to build and train spatial representations for robot decision making with Transformers. In particular, for robots to operate in a range of environments, we must be able to quickly train or fine-tune robot sensorimotor policies that are robust to clutter, data efficient, and generalize well to different circumstances. As a solution, we propose Spatial Language Attention Policies (SLAP). SLAP uses three-dimensional tokens as the input representation to train a single multi-task, language-conditioned action prediction policy. Our method shows 80% success rate in the real world across eight tasks with a single model, and a 47.5% success rate when unseen clutter and unseen object configurations are introduced, even with only a handful of examples per task. This represents an improvement of 30% over prior work (20% given unseen distractors and configurations).
翻訳日:2023-04-25 19:44:32 公開日:2023-04-21
# シーン理解の深層化の進展

Advances in Deep Concealed Scene Understanding ( http://arxiv.org/abs/2304.11234v1 )

ライセンス: Link先を確認
Deng-Ping Fan, Ge-Peng Ji, Peng Xu, Ming-Ming Cheng, Christos Sakaridis, Luc Van Gool(参考訳) Concealed scene understanding (CSU) は、擬似的特性を持つ物体を知覚することを目的とした、ホットコンピュータビジョンのトピックである。 現在の最先端技術と新しい応用のブームは、研究者が現在の成果と大きな課題を含むCSU分野のグローバルなイメージを理解するために、最新の調査を提供することをタイムリーにしている。 本論文は,(1)CSUにおける深層学習技術に関する総合的な調査を初めて実施し,その背景には,その分類,課題・普遍的課題,および既存のデータセットや深層学習技術による深層学習時代の発展について概観する。 2)最先端の定量的比較を行うため,COS(Concealed Object Segmentation)の最大かつ最新のベンチマークに貢献する。 3) 実用シナリオにおける深層csuの転送可能性を評価するために,cds2kと呼ばれる最大の隠蔽欠陥セグメンテーションデータセットを再編成し,包括的ベンチマークを構築した。 (4)このコミュニティのオープンな問題と潜在的研究の方向性について論じる。 私たちのコードとデータセットはhttps://github.com/DengPingFan/CSUで公開されています。

Concealed scene understanding (CSU) is a hot computer vision topic aiming to perceive objects with camouflaged properties. The current boom in its advanced techniques and novel applications makes it timely to provide an up-to-date survey to enable researchers to understand the global picture of the CSU field, including both current achievements and major challenges. This paper makes four contributions: (1) For the first time, we present a comprehensive survey of the deep learning techniques oriented at CSU, including a background with its taxonomy, task-unique challenges, and a review of its developments in the deep learning era via surveying existing datasets and deep techniques. (2) For a quantitative comparison of the state-of-the-art, we contribute the largest and latest benchmark for Concealed Object Segmentation (COS). (3) To evaluate the transferability of deep CSU in practical scenarios, we re-organize the largest concealed defect segmentation dataset termed CDS2K with the hard cases from diversified industrial scenarios, on which we construct a comprehensive benchmark. (4) We discuss open problems and potential research directions for this community. Our code and datasets are available at https://github.com/DengPingFan/CSU, which will be updated continuously to watch and summarize the advancements in this rapidly evolving field.
翻訳日:2023-04-25 19:44:16 公開日:2023-04-21
# 機械学習を用いたコンクリートの確率的選択と設計

Probabilistic selection and design of concrete using machine learning ( http://arxiv.org/abs/2304.11226v1 )

ライセンス: Link先を確認
Jessica C. Forsdyke, Bahdan Zviazhynski, Janet M. Lees and Gareth J. Conduit(参考訳) 環境影響の少ない強固なコンクリート混合材の開発は, 構成材料の自然変動と配合割合の多種多様な組み合わせにより困難である。 機械学習による信頼性の高い特性予測を行うことで、コンクリートの性能に基づく仕様策定が容易になり、材料の非効率性が低減され、コンクリート構造物の持続性が向上する。 本研究では,中間目標変数とその関連雑音を利用して最終目標変数を予測する機械学習アルゴリズムを開発した。 本手法は, 炭酸化に対して高い抵抗性を有するコンクリート混合物と, 環境影響の少ないコンクリート混合物を規定するために適用する。 両方の混合物は強度、密度、コストの目標も満たしている。 特定の混合物は、その予測に対して実験的に検証される。 私たちの一般的な方法論は、構造工学や他の分野に幅広い応用がある機械学習におけるノイズの活用を可能にします。

Development of robust concrete mixes with a lower environmental impact is challenging due to natural variability in constituent materials and a multitude of possible combinations of mix proportions. Making reliable property predictions with machine learning can facilitate performance-based specification of concrete, reducing material inefficiencies and improving the sustainability of concrete construction. In this work, we develop a machine learning algorithm that can utilize intermediate target variables and their associated noise to predict the final target variable. We apply the methodology to specify a concrete mix that has high resistance to carbonation, and another concrete mix that has low environmental impact. Both mixes also fulfill targets on the strength, density, and cost. The specified mixes are experimentally validated against their predictions. Our generic methodology enables the exploitation of noise in machine learning, which has a broad range of applications in structural engineering and beyond.
翻訳日:2023-04-25 19:43:53 公開日:2023-04-21
# ヘイトスピーチ検出のためのグループ別nlpアプローチ

A Group-Specific Approach to NLP for Hate Speech Detection ( http://arxiv.org/abs/2304.11223v1 )

ライセンス: Link先を確認
Karina Halevy(参考訳) 自動ヘイトスピーチ検出は、常識の知識、保護されたグループのステレオタイプ、そして識別の歴史を必要とする重要な複雑なタスクであり、それぞれが常に進化する可能性がある。 本稿では,オンラインヘイトスピーチ検出のためのグループ固有のNLPアプローチを提案する。 このアプローチは、特定の保護されたグループに関する歴史的および言語的な知識をヘイトスピーチ検出モデルに反映させ、保護されたグループに対する差別に関する歴史的データを分析し、そのグループに対するヘイトスピーチのスパイクをより正確に予測し、交差性と倫理のレンズを通してヘイトスピーチ検出モデルを批判的に評価する。 我々は,NLPによる反ユダヤ的ヘイトスピーチの検出を事例として,この手法を実証する。 このケーススタディは、反ユダヤ主義検出のためのNLPに関する現在の英語文献を合成し、20世紀から現在までの反ユダヤ主義の歴史と言語に関する新しい知識グラフを導入し、知識グラフからの情報をロジスティック回帰と未解決のディスティバートベースライン上の一連のツイートに注入し、知識グラフからコンテキストを組み込むことが、微妙なステレオタイプを拾い上げるのに役立つことを示唆している。

Automatic hate speech detection is an important yet complex task, requiring knowledge of common sense, stereotypes of protected groups, and histories of discrimination, each of which may constantly evolve. In this paper, we propose a group-specific approach to NLP for online hate speech detection. The approach consists of creating and infusing historical and linguistic knowledge about a particular protected group into hate speech detection models, analyzing historical data about discrimination against a protected group to better predict spikes in hate speech against that group, and critically evaluating hate speech detection models through lenses of intersectionality and ethics. We demonstrate this approach through a case study on NLP for detection of antisemitic hate speech. The case study synthesizes the current English-language literature on NLP for antisemitism detection, introduces a novel knowledge graph of antisemitic history and language from the 20th century to the present, infuses information from the knowledge graph into a set of tweets over Logistic Regression and uncased DistilBERT baselines, and suggests that incorporating context from the knowledge graph can help models pick up subtle stereotypes.
翻訳日:2023-04-25 19:43:40 公開日:2023-04-21
# チャットボットにおける生成的安全性を目指して

Learn What NOT to Learn: Towards Generative Safety in Chatbots ( http://arxiv.org/abs/2304.11220v1 )

ライセンス: Link先を確認
Leila Khalatbari, Yejin Bang, Dan Su, Willy Chung, Saeed Ghadimi, Hossein Sameti, Pascale Fung(参考訳) 生成的かつオープンドメインな会話モデルは、Webベースのソーシャルデータで訓練されているため、特に安全でないコンテンツを生成する可能性がある。 この問題を軽減する以前のアプローチには、会話の流れを乱す、有害な入力コンテキストを認識できないような一般化を制限する、安全性のために対話の品質を犠牲にするといった欠点がある。 本稿では,正と負の両方のトレーニング信号から学習することで一般化を促進するために,対照的な損失を生かした「LOT(Learn NOT to)」という新しいフレームワークを提案する。 本手法は,従来学習されてきた安全で安全でない言語分布から,正負の信号を自動的に得るという点で,標準のコントラスト学習フレームワークと異なる。 LOTフレームワークは、会話の流れを保ちながら、安全でない部分空間から安全な部分空間へ世代を誘導するために分岐を利用する。 提案手法は, 復号時の記憶効率と時間効率が向上し, 関与性と流動性を維持しつつ毒性を効果的に低減する。 実験の結果,LOTは基準モデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成し,毒性を最大4倍に低下させることがわかった。 我々の発見は人間の評価によってさらに裏付けられている。

Conversational models that are generative and open-domain are particularly susceptible to generating unsafe content since they are trained on web-based social data. Prior approaches to mitigating this issue have drawbacks, such as disrupting the flow of conversation, limited generalization to unseen toxic input contexts, and sacrificing the quality of the dialogue for the sake of safety. In this paper, we present a novel framework, named "LOT" (Learn NOT to), that employs a contrastive loss to enhance generalization by learning from both positive and negative training signals. Our approach differs from the standard contrastive learning framework in that it automatically obtains positive and negative signals from the safe and unsafe language distributions that have been learned beforehand. The LOT framework utilizes divergence to steer the generations away from the unsafe subspace and towards the safe subspace while sustaining the flow of conversation. Our approach is memory and time-efficient during decoding and effectively reduces toxicity while preserving engagingness and fluency. Empirical results indicate that LOT reduces toxicity by up to four-fold while achieving four to six-fold higher rates of engagingness and fluency compared to baseline models. Our findings are further corroborated by human evaluation.
翻訳日:2023-04-25 19:43:15 公開日:2023-04-21
# フェムトスコープにおけるピオニックエンタングルメント : 干渉と識別不能の教訓

Pionic Entanglement in Femtoscopy: A Lesson in Interference and Indistinguishability ( http://arxiv.org/abs/2304.11212v1 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) 純度測定を含む絡み合いのプロトコルを用いて,STAR共同研究によるフェムトスコープにおける最近の実験の分析を行った。 絡み合いはピオンの電荷と運動量の間のもので、状態純度の測定は最終的に検出されたピオンのボゾンの性質に依存する。 陽イオン実験は、核の大きさと核間の距離を測定することを目的としているが、様々な陽イオン状態の純度に基づいて、異なる電荷を持つ陽イオンの状態が絡み合っていることを間接的に確認している。 ピオンの絡み合った状態は単純なハミルトニアンを用いて直接動的にモデル化することができる。 この分析において量子不明瞭性は重要な役割を担い、等価なフォトニック実験と比較する。

We present an analysis of recent experiments in femtoscopy by the STAR collaboration in terms of the protocol of entanglement witnessing involving purity measurements. The entanglement is between the charge and momentum degrees of freedom of pions and the state purity measurements ultimately rely on the bosonic nature of the detected pions. The pion experiment is intended to measure the size of nuclei and the distance between the nuclei involved, however it indirectly confirms that the states of differently charged pions are entangled through an entanglement witness based on the purity of various pionic states. The entangled state of pions can be modelled straightforwardly dynamically using a simple Hamiltonian. Quantum indistinguishability plays a key role in this analysis and we make comparison with the equivalent photonic experiments.
翻訳日:2023-04-25 19:42:26 公開日:2023-04-21
# GPU対応最適化による大規模拡散モデルのデバイス上での高速化

Speed Is All You Need: On-Device Acceleration of Large Diffusion Models via GPU-Aware Optimizations ( http://arxiv.org/abs/2304.11267v1 )

ライセンス: Link先を確認
Yu-Hui Chen, Raman Sarokin, Juhyun Lee, Jiuqiang Tang, Chuo-Ling Chang, Andrei Kulik, Matthias Grundmann(参考訳) 基礎モデルの急速な発展と応用は人工知能の分野に革命をもたらした。 大規模拡散モデルは、フォトリアリスティックな画像を生成し、様々なタスクをサポートする能力で注目されている。 これらのモデルのオンデバイスデプロイメントは、サーバコストの低減、オフライン機能、ユーザのプライバシの改善といったメリットを提供する。 しかし、一般的な大規模拡散モデルは10億以上のパラメータを持ち、デバイス上の制限された計算資源とメモリ資源のために課題を提起する。 我々は,Samsung S23 Ultraの512x512イメージに対して,Int8量子化を伴わない安定拡散1.4の12秒間において,GPU搭載モバイルデバイス上での高速な推論遅延を実現する,大規模拡散モデルの一連の実装最適化を提案する。 これらの強化により、生成AIの適用範囲が拡大し、幅広いデバイスにわたるユーザエクスペリエンスが向上する。

The rapid development and application of foundation models have revolutionized the field of artificial intelligence. Large diffusion models have gained significant attention for their ability to generate photorealistic images and support various tasks. On-device deployment of these models provides benefits such as lower server costs, offline functionality, and improved user privacy. However, common large diffusion models have over 1 billion parameters and pose challenges due to restricted computational and memory resources on devices. We present a series of implementation optimizations for large diffusion models that achieve the fastest reported inference latency to-date (under 12 seconds for Stable Diffusion 1.4 without int8 quantization on Samsung S23 Ultra for a 512x512 image with 20 iterations) on GPU-equipped mobile devices. These enhancements broaden the applicability of generative AI and improve the overall user experience across a wide range of devices.
翻訳日:2023-04-25 19:37:06 公開日:2023-04-21
# 手首運動からパーキンソン病を検出する時系列分類

Time Series Classification for Detecting Parkinson's Disease from Wrist Motions ( http://arxiv.org/abs/2304.11265v1 )

ライセンス: Link先を確認
Cedric Doni\'e, Neha Das, Satoshi Endo, Sandra Hirche(参考訳) パーキンソン病(英: Parkinson's disease, PD)は、神経変性疾患の一つで、頻回に変化する運動性症状である。 古典的時系列分類(TSC)とディープラーニング技術は、PD運動パターンが複雑であるがデータセットが小さいため、ウェアラブル加速度計データを用いたPD症状モニタリングの性能が制限されている。 InceptionTime と RandOm Convolutional KErnel Transform (ROCKET) は TSC の最先端技術であり PD 症状モニタリングに有望であるため検討する: InceptionTime の高次学習能力は複雑な動きパターンをモデル化するのに適し、ROCKET は小さなデータセットに適している。 我々はランダムに探索を行い,最高レベルのインセプションタイムアーキテクチャを探索し,pd患者の手首動作について,尾根分類器と多層パーセプトロン(mlp)を用いてロケットと比較した。 いずれのアプローチも震度とブラジキネジアの存在を推定するのに適しているが,ジスキネジアの検出に苦慮している。 ROCKETはジスキネジアに良いが、InceptionTimeは振れやブラジキネシアにやや良いが、性能はより高い。 MLPより優れている。 結論として,インセプションタイムとロケットは連続的な症状モニタリングに適しており,興味のある症状や望ましいロバスト性によって選択される。

Parkinson's disease (PD) is a neurodegenerative disease with frequently changing motor symptoms where continuous symptom monitoring enables more targeted treatment. Classical time series classification (TSC) and deep learning techniques have limited performance for PD symptom monitoring using wearable accelerometer data because PD movement patterns are complex, but datasets are small. We investigate InceptionTime and RandOm Convolutional KErnel Transform (ROCKET) because they are state-of-the-art for TSC and promising for PD symptom monitoring: InceptionTime's high learning capacity is suited to modeling complex movement patterns while ROCKET is suited to small datasets. We used a random search to find the highest-scoring InceptionTime architecture and compared it to ROCKET with a ridge classifier and a multi-layer perceptron (MLP) on wrist motions of PD patients. We find that all approaches are suitable for estimating tremor severity and bradykinesia presence but struggle with detecting dyskinesia. ROCKET performs better for dyskinesia, whereas InceptionTime is slightly better for tremor and bradykinesia but has much higher variability in performance. Both outperform the MLP. In conclusion, both InceptionTime and ROCKET are suitable for continuous symptom monitoring, with the choice depending on the symptom of interest and desired robustness.
翻訳日:2023-04-25 19:36:53 公開日:2023-04-21
# 自然分布シフトに対する低ショットロバスト性ベンチマーク

Benchmarking Low-Shot Robustness to Natural Distribution Shifts ( http://arxiv.org/abs/2304.11263v1 )

ライセンス: Link先を確認
Aaditya Singh, Kartik Sarangmath, Prithvijit Chattopadhyay, Judy Hoffman(参考訳) 自然分布へのロバストな変化は、最近の事前学習戦略とより良い微調整手法によって顕著に進展した。 しかし、このような微調整は大量のラベル付きデータへのアクセスを前提としており、訓練データの量がそれほど高くない場合の観測の程度は不明である。 このギャップに対処するために,我々は,データセットのスパンニング,アーキテクチャ,事前学習された初期化,最先端のロバストネス介入など,さまざまな低ショット環境における様々な自然分布シフトに対するロバストネスに関する最初の詳細な研究を行った。 最も重要なのは、他のモデルよりもロバストな選択モデルが存在しないことですし、既存の介入は、フルショットのシステムであっても、一部のデータセットのロバスト性を改善するのに失敗する可能性があります。 私たちの仕事がコミュニティに実用的重要性の問題に焦点を当てる動機になることを願っています。

Robustness to natural distribution shifts has seen remarkable progress thanks to recent pre-training strategies combined with better fine-tuning methods. However, such fine-tuning assumes access to large amounts of labelled data, and the extent to which the observations hold when the amount of training data is not as high remains unknown. We address this gap by performing the first in-depth study of robustness to various natural distribution shifts in different low-shot regimes: spanning datasets, architectures, pre-trained initializations, and state-of-the-art robustness interventions. Most importantly, we find that there is no single model of choice that is often more robust than others, and existing interventions can fail to improve robustness on some datasets even if they do so in the full-shot regime. We hope that our work will motivate the community to focus on this problem of practical importance.
翻訳日:2023-04-25 19:36:13 公開日:2023-04-21
# 111)B配向GaAs膜上のサイト制御高C3v対称InGaAsQDナノ空洞における強結合の開始

Onset of strong coupling in site-controlled high C3v-symmetric InGaAs QD-nanocavity on the (111)B-oriented GaAs membrane ( http://arxiv.org/abs/2304.11258v1 )

ライセンス: Link先を確認
Jiahui Huang, Wei Liu, Xiang Cheng, Alessio Miranda, Benjamin Dwir, Alok Rudra, Eli Kapon, Chee Wei Wong(参考訳) 111)B配向GaAs PhCキャビティに埋め込まれたシングルサイト制御InGaAs QDの精密位置決めにより、ナノメートル精度でQDの高C3v対称性が実現され、オンチップフォトニック量子情報処理に大いに期待できる。 しかし, キャビティ損失の増加により, この形状における強結合状態の達成が報告されることは稀である。 ここでは、フォノンを介するコヒーレントエキシトン-光子相互作用の発端を明らかにする。 以上の結果から,エキソニック成分とフォトニック成分との発光強度のラビ様発振が発振エネルギーの分裂と相関した。 このようなラビ様振動は、励起子-光子集団のコヒーレント交換をモデル化することによってよく再現される。 さらに、QDキャビティ共振器における振動性2時間共振が明らかとなり、強い結合状態の開始時にシステムが動作することを示す。 さらに、キャビティモードをフォノン散乱によって引き起こされるqdの仮想状態のプローブとして用いることにより、qd-キャビティ共鳴付近でフォノン散乱率の増加が明らかとなり、一重項スペクトルの特徴を装った強結合状態の開始に繋がる可能性がある。

Precise positioning of single site-controlled InGaAs QD embedded in the (111)B-oriented GaAs PhC cavity, which enables high C3v symmetries of QD with nanometer-scale accuracy offers great promise for on-chip photonic quantum information processing. However, achieving the strong coupling regime in this geometry is rarely reported due to the increase in cavity loss. Here, we reveal the onset of phonon-mediated coherent exciton-photon interaction on our tailored device. Our results present a Rabi-like oscillation of luminescence intensity between excitonic and photonic components correlated with their oscillatory energy splitting. Such Rabi-like oscillation is well reproduced by modeling the coherent exchange of the exciton-photon population. The modeling further reveals an oscillatory two-time covariance at QD-cavity resonance, which indicates the system operates at the onset of the strong coupling regime. Moreover, by using the cavity mode as a probe of the virtual state of QD induced by phonon scattering, it reveals an increase in phonon scattering rates near the QD-cavity resonance, which can result in the onset of the strong coupling regime disguised with a singlet spectral feature.
翻訳日:2023-04-25 19:35:45 公開日:2023-04-21
# 最高の探偵は誰だ? 不一致の4年生数学答の検出における llms と mls の比較

Who's the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth Grade Math Answers ( http://arxiv.org/abs/2304.11257v1 )

ライセンス: Link先を確認
Felipe Urrutia and Roberto Araya(参考訳) オープンエンドの質問に対する回答は、複数の質問よりも学習に長期的な影響を与える可能性がある。 しかし,教師が即座に回答をレビューし,一貫性のない回答を再検討することが重要である。 これは難しい作業であり、教師にとって時間がかかります。 可能な解決策は、一貫性のない回答の自動検出である。 1つの選択肢は、Large Language Models (LLM)によるレビューを自動化することである。 本稿では,GPT-3,BLOOM,YOUの3つのLLMを用いて,数学における4年生の反応を分析する。 ゼロ、1、2、3、4ショットで使用しました。 機械学習(ml)で学習した各種分類器の結果と比較した。 その結果,LLMはMLよりも不整合性の検出に優れていた。 難易度は、質問と回答の両方を含む再帰的な質問と、典型的な4年生のミススペルの学生からの回答に存在している。 より精査した結果,ChatGPTモデルも同じ課題に直面していることがわかった。

Written answers to open-ended questions can have a higher long-term effect on learning than multiple-choice questions. However, it is critical that teachers immediately review the answers, and ask to redo those that are incoherent. This can be a difficult task and can be time-consuming for teachers. A possible solution is to automate the detection of incoherent answers. One option is to automate the review with Large Language Models (LLM). In this paper, we analyze the responses of fourth graders in mathematics using three LLMs: GPT-3, BLOOM, and YOU. We used them with zero, one, two, three and four shots. We compared their performance with the results of various classifiers trained with Machine Learning (ML). We found that LLMs perform worse than MLs in detecting incoherent answers. The difficulty seems to reside in recursive questions that contain both questions and answers, and in responses from students with typical fourth-grader misspellings. Upon closer examination, we have found that the ChatGPT model faces the same challenges.
翻訳日:2023-04-25 19:35:08 公開日:2023-04-21
# UBC-DLNLP at SemEval-2023 Task 12:Transfer Learning がアフリカ感情分析に及ぼす影響

UBC-DLNLP at SemEval-2023 Task 12: Impact of Transfer Learning on African Sentiment Analysis ( http://arxiv.org/abs/2304.11256v1 )

ライセンス: Link先を確認
Gagan Bhatia, Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) 我々は2023afrisenti-semeval共有タスクへの我々の貢献について述べ、そこでは14の異なるアフリカの言語における感情分析のタスクに取り組む。 完全教師付き設定(サブタスクAとB)の下で単言語モデルと多言語モデルの両方を開発する。 また、ゼロショット設定(サブタスクC)のモデルも開発する。 私たちのアプローチでは、6つの言語モデルを使って転送学習を実験します。 開発データではf1-scoreが70.36、テストデータではf1-scoreが66.13である。 当然のことながら、複数の言語にわたる感情分析のための伝達学習と微調整技術の有効性を示した。 我々のアプローチは、異なる言語やドメインにおける他の感情分析タスクに適用できる。

We describe our contribution to the SemEVAl 2023 AfriSenti-SemEval shared task, where we tackle the task of sentiment analysis in 14 different African languages. We develop both monolingual and multilingual models under a full supervised setting (subtasks A and B). We also develop models for the zero-shot setting (subtask C). Our approach involves experimenting with transfer learning using six language models, including further pertaining of some of these models as well as a final finetuning stage. Our best performing models achieve an F1-score of 70.36 on development data and an F1-score of 66.13 on test data. Unsurprisingly, our results demonstrate the effectiveness of transfer learning and fine-tuning techniques for sentiment analysis across multiple languages. Our approach can be applied to other sentiment analysis tasks in different languages and domains.
翻訳日:2023-04-25 19:34:54 公開日:2023-04-21
# 機械学習とベイズ計算の未来

Machine Learning and the Future of Bayesian Computation ( http://arxiv.org/abs/2304.11251v1 )

ライセンス: Link先を確認
Steven Winter, Trevor Campbell, Lizhen Lin, Sanvesh Srivastava, David B. Dunson(参考訳) ベイズモデルは複雑なデータを研究する強力なツールであり、アナリストは豊富な階層的な依存関係をエンコードし、事前情報を活用することができる。 最も重要なことは、後方分布による不確かさの完全な特徴付けを促進することである。 現実的な後続計算はMCMCを通して行われ、多くの観測値を持つ高次元モデルでは計算不可能である。 本稿では,機械学習のアイデアを用いた後続計算の改善の可能性について論じる。 また, 流動の正規化, ベイズコアセット, 分散ベイズ推定, 変分推定について検討した。

Bayesian models are a powerful tool for studying complex data, allowing the analyst to encode rich hierarchical dependencies and leverage prior information. Most importantly, they facilitate a complete characterization of uncertainty through the posterior distribution. Practical posterior computation is commonly performed via MCMC, which can be computationally infeasible for high dimensional models with many observations. In this article we discuss the potential to improve posterior computation using ideas from machine learning. Concrete future directions are explored in vignettes on normalizing flows, Bayesian coresets, distributed Bayesian inference, and variational inference.
翻訳日:2023-04-25 19:34:41 公開日:2023-04-21
# eWaSR -- 組み込み計算可能な海上障害物検出ネットワーク

eWaSR -- an embedded-compute-ready maritime obstacle detection network ( http://arxiv.org/abs/2304.11249v1 )

ライセンス: Link先を確認
Matija Ter\v{s}ek and Lojze \v{Z}ust and Matej Kristan(参考訳) 海上障害物検出は、自律表面車両(ASV)の安全な航行に重要である。 画像に基づく検出手法の精度は大幅に向上しているが、その計算とメモリ要件は組み込みデバイスへの展開を禁止している。 本稿では,現在最も高性能な海上障害物検出ネットワークwasrの解析を行う。 この分析に基づいて、計算集約的なステージの置換を提案し、組込み畳み込み型 eWaSR を提案する。 特に、新しい設計は変圧器ベースの軽量ネットワークの最新の進歩に続くものである。 eWaSRは、0.52%のF1スコアで最先端のWaSRに匹敵する検出結果を達成し、F1スコアで9.74%以上向上した。 標準GPUでは、eWaSRは元のWaSR(115 FPS対11 FPS)より10倍高速で動作する。 実際の組み込みデバイスOAK-Dでのテストでは、WaSRはメモリ制限のために動作できないが、eWaSRは5.5FPSで快適に動作している。 これにより、eWaSRは初めて組み込み計算可能な海上障害物検出ネットワークとなる。 ソースコードとトレーニングされたeWaSRモデルはこちらで公開されている。

Maritime obstacle detection is critical for safe navigation of autonomous surface vehicles (ASVs). While the accuracy of image-based detection methods has advanced substantially, their computational and memory requirements prohibit deployment on embedded devices. In this paper we analyze the currently best-performing maritime obstacle detection network WaSR. Based on the analysis we then propose replacements for the most computationally intensive stages and propose its embedded-compute-ready variant eWaSR. In particular, the new design follows the most recent advancements of transformer-based lightweight networks. eWaSR achieves comparable detection results to state-of-the-art WaSR with only 0.52% F1 score performance drop and outperforms other state-of-the-art embedded-ready architectures by over 9.74% in F1 score. On a standard GPU, eWaSR runs 10x faster than the original WaSR (115 FPS vs 11 FPS). Tests on a real embedded device OAK-D show that, while WaSR cannot run due to memory restrictions, eWaSR runs comfortably at 5.5 FPS. This makes eWaSR the first practical embedded-compute-ready maritime obstacle detection network. The source code and trained eWaSR models are publicly available here: https://github.com/tersekmatija/eWaSR.
翻訳日:2023-04-25 19:34:30 公開日:2023-04-21
# 複雑形状の計算流体力学シミュレーションのための量子物理学インフォームニューラルネットワーク

Quantum physics-informed neural networks for simulating computational fluid dynamics in complex shapes ( http://arxiv.org/abs/2304.11247v1 )

ライセンス: Link先を確認
Alexandr Sedykh, Maninadh Podapaka, Asel Sagingalieva, Nikita Smertyak, Karan Pinto, Markus Pflitsch, Alexey Melnikov(参考訳) 流体の速度と圧力の分布(ナビエ・ストークス方程式の解法によって)を見つけることは、化学、エネルギー、薬品産業、機械工学、パイプラインシステムの設計において主要な仕事である。 OpenFOAMやAnsysのような既存の解法では、複雑な測地における流体力学のシミュレーションは計算コストが高く、幾何学的パラメータや初期条件や境界条件が変更されるたびに再シミュレーションが必要となる。 物理学に変形したニューラルネットワーク(pinns)は、幾何学やメッシュの定義の変化に適応できるため、複雑な幾何学における流体の流れをシミュレートする有望なツールである。 本稿では3次元Y字ミキサー内の層流をシミュレーションするハイブリッド量子物理学インフォームドニューラルネットワークを提案する。 提案手法では,量子モデルの表現力とピンの柔軟性を組み合わせることで,従来のニューラルネットワークに比べて21%高い精度を実現する。 計算流体力学における複雑な形状最適化タスクのための機械学習アプローチ,特に量子PINNの可能性を明らかにする。 複素測地における流体シミュレーションの精度を向上させることにより、量子PINNを用いた研究はより効率的で信頼性の高い流体力学解法の開発に寄与する。

Finding the distribution of the velocities and pressures of a fluid (by solving the Navier-Stokes equations) is a principal task in the chemical, energy, and pharmaceutical industries, as well as in mechanical engineering and the design of pipeline systems. With existing solvers, such as OpenFOAM and Ansys, simulations of fluid dynamics in intricate geometries are computationally expensive and require re-simulation whenever the geometric parameters or the initial and boundary conditions are altered. Physics-informed neural networks (PINNs) are a promising tool for simulating fluid flows in complex geometries, as they can adapt to changes in the geometry and mesh definitions, allowing for generalization across different shapes. We present a hybrid quantum physics-informed neural network that simulates laminar fluid flows in 3D Y-shaped mixers. Our approach combines the expressive power of a quantum model with the flexibility of a PINN, resulting in a 21% higher accuracy compared to a purely classical neural network. Our findings highlight the potential of machine learning approaches, and in particular quantum PINNs, for complex shape optimization tasks in computational fluid dynamics. By improving the accuracy of fluid simulations in complex geometries, our research using quantum PINNs contributes to the development of more efficient and reliable fluid dynamics solvers.
翻訳日:2023-04-25 19:34:09 公開日:2023-04-21
# AutoNeRF: 自律エージェントによる暗黙のシーン表現のトレーニング

AutoNeRF: Training Implicit Scene Representations with Autonomous Agents ( http://arxiv.org/abs/2304.11241v1 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Christian Wolf, Devendra Singh Chaplot(参考訳) ニューラルレージアンス場(NeRF)のような入射表現は、新規なビュー合成に非常に有効であることが示されている。 しかし、これらのモデルは通常、トレーニングのために手動で注意深い人的データ収集を必要とする。 本稿では,自律型エンボディエージェントを用いたNeRF訓練に必要なデータ収集手法であるAutoNeRFを提案する。 本手法では,エージェントが未知の環境を効率的に探索し,その経験を用いて暗黙の地図表現を自律的に構築できる。 我々は,手作りのフロンティア探索や,訓練された高レベルプランナーと古典的な低レベルパスフォロワーからなるモジュラーアプローチなど,さまざまな探索戦略の影響を比較した。 我々は,この問題に適応した異なる報酬関数を持つこれらのモデルを訓練し,古典的視点レンダリング,地図再構成,計画,ポーズリファインメントという4つの下流タスクにおける学習表現の品質を評価する。 実験結果から,nerfsは未知の環境において1回の体験のみを使用して,アクティブに収集されたデータに対してトレーニングすることが可能であり,いくつかの下流ロボットタスクに使用できること,モジュール型学習された探索モデルが従来のベースラインを大きく上回ること,などが示されている。

Implicit representations such as Neural Radiance Fields (NeRF) have been shown to be very effective at novel view synthesis. However, these models typically require manual and careful human data collection for training. In this paper, we present AutoNeRF, a method to collect data required to train NeRFs using autonomous embodied agents. Our method allows an agent to explore an unseen environment efficiently and use the experience to build an implicit map representation autonomously. We compare the impact of different exploration strategies including handcrafted frontier-based exploration and modular approaches composed of trained high-level planners and classical low-level path followers. We train these models with different reward functions tailored to this problem and evaluate the quality of the learned representations on four different downstream tasks: classical viewpoint rendering, map reconstruction, planning, and pose refinement. Empirical results show that NeRFs can be trained on actively collected data using just a single episode of experience in an unseen environment, and can be used for several downstream robotic tasks, and that modular trained exploration models significantly outperform the classical baselines.
翻訳日:2023-04-25 19:33:46 公開日:2023-04-21
# PyTorch FSDP: 完全なシャードデータ並列のスケーリングの経験

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel ( http://arxiv.org/abs/2304.11277v1 )

ライセンス: Link先を確認
Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang, Min Xu, Less Wright, Hamid Shojanazeri, Myle Ott, Sam Shleifer, Alban Desmaison, Can Balioglu, Bernard Nguyen, Geeta Chauhan, Yuchen Hao and Shen Li(参考訳) 大きなモデルが幅広い領域で優れたパフォーマンスをもたらす可能性があることは広く認識されている。 大規模なモデルの開発と探索を可能にする機械学習システム研究の分野で顕著な進歩にもかかわらず、そのような能力は、少数の先進的なユーザーや業界リーダーのグループに限られており、より広いコミュニティがこれらの技術にアクセスし活用するための暗黙の技術的障壁となっている。 本稿では,大規模モデルトレーニングのための業界レベルのソリューションとして,PyTorch Fully Sharded Data Parallel (FSDP)を紹介する。 FSDPはTensor実装、ディスパッチシステム、CUDAメモリキャッシュアロケータなど、いくつかの主要なPyTorchコアコンポーネントと密に設計されており、非侵襲的なユーザエクスペリエンスと高いトレーニング効率を提供する。 さらにFSDPは、様々なハードウェア構成のリソース利用を最適化するための様々な技術と設定をネイティブに組み込んでいる。 実験結果から,fsdp は分散データ並列処理と同等の性能を達成でき,tflops の観点からは,より大規模でニアリニアなモデルをサポートできることがわかった。

It is widely acknowledged that large models have the potential to deliver superior performance across a broad range of domains. Despite the remarkable progress made in the field of machine learning systems research, which has enabled the development and exploration of large models, such abilities remain confined to a small group of advanced users and industry leaders, resulting in an implicit technical barrier for the wider community to access and leverage these technologies. In this paper, we introduce PyTorch Fully Sharded Data Parallel (FSDP) as an industry-grade solution for large model training. FSDP has been closely co-designed with several key PyTorch core components including Tensor implementation, dispatcher system, and CUDA memory caching allocator, to provide non-intrusive user experiences and high training efficiency. Additionally, FSDP natively incorporates a range of techniques and settings to optimize resource utilization across a variety of hardware configurations. The experimental results demonstrate that FSDP is capable of achieving comparable performance to Distributed Data Parallel while providing support for significantly larger models with near-linear scalability in terms of TFLOPS.
翻訳日:2023-04-25 19:25:20 公開日:2023-04-21
# 香港中学生の人間-AI創造的執筆におけるAIの役割

The Role of AI in Human-AI Creative Writing for Hong Kong Secondary Students ( http://arxiv.org/abs/2304.11276v1 )

ライセンス: Link先を確認
Hengky Susanto, David James Woo, and Kai Guo(参考訳) 自然言語処理(NLP)能力の最近の進歩は、人間に似た言語を生成することができる言語モデル(例えば、ChatGPT)の開発につながっている。 本研究では,創造的執筆の思想的側面を支援するために,言語モデルをどのように活用できるかを考察する。 私たちの経験的発見は、言語モデルが、協力者やプロボケーターの役割など、学生作家の創造性を高める上で、異なる役割を担っていることを示している。

The recent advancement in Natural Language Processing (NLP) capability has led to the development of language models (e.g., ChatGPT) that is capable of generating human-like language. In this study, we explore how language models can be utilized to help the ideation aspect of creative writing. Our empirical findings show that language models play different roles in helping student writers to be more creative, such as the role of a collaborator, a provocateur, etc
翻訳日:2023-04-25 19:24:59 公開日:2023-04-21
# マルチラベル画像認識のための意味認識グラフマッチング機構

Semantic-Aware Graph Matching Mechanism for Multi-Label Image Recognition ( http://arxiv.org/abs/2304.11275v1 )

ライセンス: Link先を確認
Yanan Wu, Songhe Feng and Yang Wang(参考訳) マルチラベル画像認識は、画像に存在するラベルの集合を予測することを目的としている。 このような問題に対処する鍵は、画像の内容とラベルの関連を掘り起こし、さらに画像とラベルの間の正しい割り当てを得ることである。 本稿では,各画像をインスタンスの袋として扱い,複数ラベル画像認識のタスクをインスタンスマッチング選択問題として定式化する。 このような問題をモデル化するために,マルチラベル画像認識(ML-SGM)のための革新的なセマンティック対応グラフマッチングフレームワークを提案する。 このフレームワークは、コンテンツ認識(インスタンス)とセマンティック認識(ラベル)カテゴリ表現の関係をモデル化し、カテゴリ間のカテゴリ相関とインスタンス-ラベル対応を明確に定義し、複数のラベルイメージ理解を容易にし、各カテゴリに対する大量のトレーニングサンプルの依存性を低減する。 具体的には,まずインスタンス空間グラフとラベル意味グラフをそれぞれ構築し,各インスタンスをすべてのラベルに接続して構築した割当グラフに組み込む。 その後、グラフネットワークブロックを使用して、割り当てグラフ上のすべてのノードとエッジ状態を集約および更新し、各インスタンスとラベルの構造化表現を形成する。 最後に,各インスタンスラベル対応の予測スコアを導出し,重み付きクロスエントロピー損失との対応を最適化する。 汎用マルチラベル画像認識における実験結果から,提案手法の優位性を示した。 さらに,提案手法は,部分ラベルを用いたマルチラベル認識や,複数ラベルによる複数ショット学習の利点も示し,最先端の手法よりも明確なマージンで優れていた。

Multi-label image recognition aims to predict a set of labels that present in an image. The key to deal with such problem is to mine the associations between image contents and labels, and further obtain the correct assignments between images and their labels. In this paper, we treat each image as a bag of instances, and formulate the task of multi-label image recognition as an instance-label matching selection problem. To model such problem, we propose an innovative Semantic-aware Graph Matching framework for Multi-Label image recognition (ML-SGM), in which Graph Matching mechanism is introduced owing to its good performance of excavating the instance and label relationship. The framework explicitly establishes category correlations and instance-label correspondences by modeling the relation among content-aware (instance) and semantic-aware (label) category representations, to facilitate multi-label image understanding and reduce the dependency of large amounts of training samples for each category. Specifically, we first construct an instance spatial graph and a label semantic graph respectively and then incorporate them into a constructed assignment graph by connecting each instance to all labels. Subsequently, the graph network block is adopted to aggregate and update all nodes and edges state on the assignment graph to form structured representations for each instance and label. Our network finally derives a prediction score for each instance-label correspondence and optimizes such correspondence with a weighted cross-entropy loss. Empirical results conducted on generic multi-label image recognition demonstrate the superiority of our proposed method. Moreover, the proposed method also shows advantages in multi-label recognition with partial labels and multi-label few-shot learning, as well as outperforms current state-of-the-art methods with a clear margin.
翻訳日:2023-04-25 19:24:50 公開日:2023-04-21
# Twitterの「ノンマスク効果」

The "Non-Musk Effect" at Twitter ( http://arxiv.org/abs/2304.11272v1 )

ライセンス: Link先を確認
Dmitry Zinoviev, Arkapravo Sarkar, Pelin Bicen(参考訳) Elon Muskは、物議を醸す発言や行動、特に自身のソーシャルメディア利用を通じてウォール街に大きな影響を与えることは長年知られている。 マスクはイノベーターでヴィジュアルな起業家であり、世界中の起業家のポスターボーイと見なされることが多い。 したがって、マスクがメインストリート、すなわち他の起業家のソーシャルメディア活動に与える影響を調べるのは興味深いことである。 本研究では、この「マスク・エフェクト」、すなわちMuskが最近高度に公表されたTwitter買収が起業家のツイート活動に与える影響について研究し、定量化する。 7つの英語圏(米国、オーストラリア、ニュージーランド、イギリス、カナダ、南アフリカ、アイルランド)の47,190人の起業家の実際のツイートからなるデータセットを71週間にわたって使用し、MuskがTwitterを買収するという噂から買収完了までの全期間をカバーしている。 われわれの研究は、MuskによるTwitterの買収がTwitterユーザー(起業家)の実際のツイート行動に与える影響を調べる最初の研究の1つだと信じている。 メインストリートにおけるマスク効果の影響を定量化することにより、マスクの行動がウォール街に与える影響と比較する。 最後に、musk効果に最も影響を受ける起業家の特徴の体系的な識別は、学者や実践者にも実用的な意味を持っている。

Elon Musk has long been known to significantly impact Wall Street through his controversial statements and actions, particularly through his own use of social media. An innovator and visionary entrepreneur, Musk is often considered a poster boy for all entrepreneurs worldwide. It is, thus, interesting to examine the effect that Musk might have on Main Street, i.e., on the social media activity of other entrepreneurs. In this research, we study and quantify this "Musk Effect," i.e., the impact of Musk's recent and highly publicized acquisition of Twitter on the tweeting activity of entrepreneurs. Using a dataset consisting of 9.94 million actual tweets from 47,190 self-declared entrepreneurs from seven English-speaking countries (US, Australia, New Zealand, UK, Canada, South Africa, and Ireland) spanning 71 weeks and encompassing the entire period from the rumor that Musk may buy Twitter till the completion of the acquisition, we find that only about 2.5% of the entrepreneurs display a significant change in their tweeting behavior over the time. We believe that our study is one of the first works to examine the effect of Musk's acquisition of Twitter on the actual tweeting behavior of Twitter users (entrepreneurs). By quantifying the impact of the Musk Effect on Main Street, we provide a comparison with the effect Musk's actions have on Wall Street. Finally, our systematic identification of the characteristics of entrepreneurs most affected by the Musk Effect has practical implications for academics and practitioners alike.
翻訳日:2023-04-25 19:24:19 公開日:2023-04-21
# 科学者のテクノロジーに対する警告

Scientists' Warning on Technology ( http://arxiv.org/abs/2304.11271v1 )

ライセンス: Link先を確認
Bill Tomlinson, Andrew W. Torrance, William J. Ripple(参考訳) 過去数年間、科学者は気候変動やその他の環境破壊の脅威について警告を発してきた。 ここでは、これらの問題にテクノロジーがどのように影響するかについての科学者の警告を提供する。 技術は同時に人類に多大な利益をもたらし、また大きなコストももたらします。 現在の技術システムは気候変動を悪化させ、地球の生態系が変質している。 これらの危機に対処するにはクリーンエネルギー技術や人工知能といった新しい技術を採用する必要があるかもしれない。 このような変革にはリスクはないが、人類文明を持続可能な未来へと導くのに役立つかもしれない。

In the past several years, scientists have issued a series of warnings about the threats of climate change and other forms of environmental disruption. Here, we provide a scientists' warning on how technology affects these issues. Technology simultaneously provides substantial benefits for humanity, and also profound costs. Current technological systems are exacerbating climate change and the wholesale conversion of the Earth's ecosystems. Adopting new technologies, such as clean energy technologies and artificial intelligence, may be necessary for addressing these crises. Such transformation is not without risks, but it may help set human civilizations on a path to a sustainable future.
翻訳日:2023-04-25 19:23:56 公開日:2023-04-21
# オンライン進化戦略におけるノイズリユース

Noise-Reuse in Online Evolution Strategies ( http://arxiv.org/abs/2304.12180v1 )

ライセンス: Link先を確認
Oscar Li, James Harrison, Jascha Sohl-Dickstein, Virginia Smith, Luke Metz(参考訳) オンライン進化戦略は、カオスとブラックボックスの損失関数を扱う能力と、バニラ進化戦略(ES)よりも頻繁な勾配更新を可能にするため、自動分化(AD)の魅力的な代替手段となっている。 本研究では,非バイアスのオンライン進化戦略の一般クラスを提案する。 我々は,この種類の勾配推定器の分散を解析的,実証的に特徴付け,ノイズリユース進化戦略 (nres) と呼ぶ最小分散を持つものを同定する。 実験により,NRESは従来のAD法やES法に比べて,動的システムの学習,メタトレーニング学習の最適化,強化学習など,様々なアプリケーションにまたがって,ウォールクロック速度とアンロールステップの総数で収束することがわかった。

Online evolution strategies have become an attractive alternative to automatic differentiation (AD) due to their ability to handle chaotic and black-box loss functions, while also allowing more frequent gradient updates than vanilla Evolution Strategies (ES). In this work, we propose a general class of unbiased online evolution strategies. We analytically and empirically characterize the variance of this class of gradient estimators and identify the one with the least variance, which we term Noise-Reuse Evolution Strategies (NRES). Experimentally, we show that NRES results in faster convergence than existing AD and ES methods in terms of wall-clock speed and total number of unroll steps across a variety of applications, including learning dynamical systems, meta-training learned optimizers, and reinforcement learning.
翻訳日:2023-04-25 14:36:42 公開日:2023-04-21
# 量子スケージング誘起点ギャップトポロジーと皮膚効果

Quantum-Squeezing-Induced Point-Gap Topology and Skin Effect ( http://arxiv.org/abs/2304.12201v1 )

ライセンス: Link先を確認
Liang-Liang Wan, Xin-You L\"u(参考訳) 理論的には1次元(1D)二次ボゾン系 (QBS) において, スクイーズにより誘導される点ギャップ位相と, 対称性で保護された$\mathbb{Z}_2$スキン効果を同時に予測する。 時間反転対称性によって保護されるようなトポロジーは、新しい $\mathbb{z}_2$ 不変量(量子スピンホール絶縁体に似ている)と関連付けられ、$\mathbb{z}_2$ 皮膚効果の発生を完全に特徴付けることができる。 ゼロエネルギーに焦点をあてると、位相図におけるこのスキン効果のパラメータレジームは、単に {\displaystyle {\it real-gap and point-gap coexisted topological phase} に対応する。 さらに、この位相は、定常的なパワースペクトル密度を検出することで実験的に観測できる。 我々の研究は、量子スクイージングの導入による非ブロッホ位相物理学の強化に基礎的関心を持ち、$\mathbb{z}_2$スキン効果に基づく対称性保護センサの工学への応用の可能性を持っている。

We theoretically predict the squeezing-induced point-gap topology together with a {\it symmetry-protected $\mathbb{Z}_2$ skin effect} in a one-dimensional (1D) quadratic-bosonic system (QBS). Protected by a time-reversal symmetry, such a topology is associated with a novel $\mathbb{Z}_2$ invariant (similar to quantum spin-Hall insulators), which is fully capable of characterizing the occurrence of $\mathbb{Z}_2$ skin effect. Focusing on zero energy, the parameter regime of this skin effect in the phase diagram just corresponds to a {\it real-gap and point-gap coexisted topological phase}. Moreover, this phase associated with the {\it symmetry-protected $\mathbb{Z}_2$ skin effect} is experimentally observable by detecting the steady-state power spectral density. Our work is of fundamental interest in enriching non-Bloch topological physics by introducing quantum squeezing, and has potential applications for the engineering of symmetry-protected sensors based on the $\mathbb{Z}_2$ skin effect.
翻訳日:2023-04-25 14:26:45 公開日:2023-04-21
# 多目的メタモデルを用いた機械学習における公平性トレードオフの最適化

Optimizing fairness tradeoffs in machine learning with multiobjective meta-models ( http://arxiv.org/abs/2304.12190v1 )

ライセンス: Link先を確認
William G. La Cava(参考訳) 機械学習モデルの公平性を改善することは、意思決定者が複数の矛盾する基準を判断する必要がある、微妙なタスクである。 公平な機械学習手法の大多数は、エラー対公平性の相対的重要性を制御するパラメータを用いて、エラー対公平性のトレードオフを単一の目的問題に変換する。 そこで本研究では,多目的最適化を用いてエラーフェアネストレードオフを直接最適化する手法を提案する。 複数のコスト関数を持つ重み付き分類問題として、公平な機械学習タスクを定義するフレキシブルなフレームワークを提案する。 このフレームワークは、基盤となる予測モデルとメトリクスに依存しない。 我々は、与えられた機械学習者のモデルトレーニングで使用されるサンプル重量を定義するために多目的最適化を使用し、その重みを適用して、タスクセットの公平性と精度の複数の指標を最適化する。 最適化されたパラメータの数を減らし、人口サブグループに関してその複雑さを制約するために、保護された属性をサンプルの重みにマップすることを学ぶ新しいメタモデルアプローチを提案する。 実世界の一連の問題において、このアプローチは、好ましいエラー/フェアネストレードオフを持つ解集合を見つけることにより、現在の最先端手法よりも優れている。

Improving the fairness of machine learning models is a nuanced task that requires decision makers to reason about multiple, conflicting criteria. The majority of fair machine learning methods transform the error-fairness trade-off into a single objective problem with a parameter controlling the relative importance of error versus fairness. We propose instead to directly optimize the error-fairness tradeoff by using multi-objective optimization. We present a flexible framework for defining the fair machine learning task as a weighted classification problem with multiple cost functions. This framework is agnostic to the underlying prediction model as well as the metrics. We use multiobjective optimization to define the sample weights used in model training for a given machine learner, and adapt the weights to optimize multiple metrics of fairness and accuracy across a set of tasks. To reduce the number of optimized parameters, and to constrain their complexity with respect to population subgroups, we propose a novel meta-model approach that learns to map protected attributes to sample weights, rather than optimizing those weights directly. On a set of real-world problems, this approach outperforms current state-of-the-art methods by finding solution sets with preferable error/fairness trade-offs.
翻訳日:2023-04-25 14:25:41 公開日:2023-04-21
# キーワードスポッティングのための小足プリントスリム化ネットワーク

Small-footprint slimmable networks for keyword spotting ( http://arxiv.org/abs/2304.12183v1 )

ライセンス: Link先を確認
Zuhaib Akhtar, Mohammad Omar Khursheed, Dongsu Du, Yuzong Liu(参考訳) 本研究では,スリム化可能なニューラルネットワークを,スリムプリントキーワードスポッティング問題に適用する。 我々は、スリム化可能なニューラルネットワークによって、Convolutioanl Neural NetworksとTransformersからスーパーネットを作成できることを示し、そこから異なるサイズのサブネットワークを抽出することができる。 これらのモデルの有用性を、社内のAlexaデータとGoogle Speech Commandsで実証し、オンデバイスユースケースのモデルに注力し、自らを250k未満のパラメータに制限します。 我々は、スリム化可能なモデルが、スクラッチからトレーニングされたモデルと(場合によっては)一致できることを示します。 したがって、スリムなニューラルネットワークは、異なるメモリと計算予算で同じ機能を再現するために、異なる精度要件で特に有用なモデルのクラスである。

In this work, we present Slimmable Neural Networks applied to the problem of small-footprint keyword spotting. We show that slimmable neural networks allow us to create super-nets from Convolutioanl Neural Networks and Transformers, from which sub-networks of different sizes can be extracted. We demonstrate the usefulness of these models on in-house Alexa data and Google Speech Commands, and focus our efforts on models for the on-device use case, limiting ourselves to less than 250k parameters. We show that slimmable models can match (and in some cases, outperform) models trained from scratch. Slimmable neural networks are therefore a class of models particularly useful when the same functionality is to be replicated at different memory and compute budgets, with different accuracy requirements.
翻訳日:2023-04-25 14:24:41 公開日:2023-04-21
# ディラックの自由場の量子論

Quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v1 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 自由質量フェルミオンのディラック理論は、新しい保存されたスピン作用素とその関連する位置を中心に、長い間Pryceによって提案され、最近適切なスペクトル表現を用いて再定義されている。 I. Cot\u aescu, Eur Phys J.C (2022) 82:1073。 ここで、この方法は任意の積分作用素に関連付け、モードスピノルの代わりに運動量表現において粒子と反粒子波スピノルに作用する一対の積分作用素を配置表現する。 これにより、従来の解釈でzitterbewegungを産出するもののようにタームを振動させることなく、主観測可能な粒子が1粒子作用素であるコヒーレント量子理論に米を与える効果的な量子化手法が得られる。 このアプローチでは、スピン作用素は保存されるが、Pryceによって最初に提案された位置演算子は、保存速度とともに線形に進化する双極子作用素の量子化の後になる。 アイソメトリー生成器や様々な位置演算子を含む可観測物のリッチ代数は、大まかに研究されている。 1粒子波束の伝播は、このフレームワークで初めて、これらの動きが通常、他のスカラー波束や非相対論的波束のように時間的に均一に広がることを発見したと考えられている。

The Dirac theory of free massive fermions is reconstructed around the new conserved spin operator and its associated position one proposed initially by Pryce long time ago and re-defined recently by using suitable spectral representations [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. This method is generalized here associating to any integral operator in configuration representation a pair of integral operators acting on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. It results thus an effective quantization procedure giving rice to a coherent quantum theory in which the principal observables are one-particle operators without oscillating therms as those producing zitterbewegung in the traditional interpretation. In this approach the spin operator is conserved while the position one, proposed initially by Pryce as mass-center operator, becomes after quantization the dipole operator evolving linearly in time with a conserved velocity. The rich algebra of observables including the isometry generators and various position operators is carrefuly studied. The propagation of one-particle wave-packets is considered for the first time in this framework finding that these move uniformly spreading in time normally as any other scalar or non-relativistic wave-packet.
翻訳日:2023-04-25 14:24:29 公開日:2023-04-21
# 量子センシングのための量子コンピュータ上の例外点系のシミュレーション

Simulation of exceptional-point systems on quantum computers for quantum sensing ( http://arxiv.org/abs/2304.12181v1 )

ライセンス: Link先を確認
Chetan Waghela and Shubhrangshu Dasgupta(参考訳) 量子センシングにおける例外点(EP)の適用性については議論がある。 これを解決するために、我々はまず、ユニタリゲート上で動く量子コンピュータ上でEPを示す非エルミート非対角化ハミルトニアンを実験的に実装する方法を探求する。 本稿では,アンシラを用いた手法を提案する。 次に,そのようなハミルトニアンを量子コンピュータを用いたパラメータ推定に利用し,その性能をepsにおける量子フィッシャー情報(qfi$)を用いて解析し,ノイズを伴わずに評価する。 推定されるパラメータの$qfi$が量子クレーダ-ラオ境界によるパラメータの分散と逆関係であることはよく知られている。 したがって、EPsにおける$QFI$の発散は、感受性の利点を約束する。 qfi$ が実際に非可算であると考えられていたそのような ep システムにおいて発散することを示す実験と理論的に証明した。

There has been debate around applicability of exceptional points (EP) for quantum sensing. To resolve this, we first explore how to experimentally implement the nonhermitian non-diagonalizable Hamiltonians, that exhibit EPs, on quantum computers which run on unitary gates. We propose to use an ancilla-based method in this regard. Next, we show how such Hamiltonians can be used for parameter estimation using quantum computers and analyze its performance in terms of Quantum Fisher Information ($QFI$) at EPs, without noise and in presence of noise. It is well known that $QFI$ of a parameter to be estimated is inversely related to the variance of the parameter by the quantum Cramer-Rao bound. Therefore the divergence of $QFI$ at EPs promise sensing advantages. We experimentally demonstrate and theoretically show that $QFI$ indeed diverges in such EP systems which were earlier considered to be non-divergent.
翻訳日:2023-04-25 14:24:07 公開日:2023-04-21
# Nerfbusters:原因不明のNeRFからゴーストなアーティファクトを除去する

Nerfbusters: Removing Ghostly Artifacts from Casually Captured NeRFs ( http://arxiv.org/abs/2304.10532v2 )

ライセンス: Link先を確認
Frederik Warburg, Ethan Weber, Matthew Tancik, Aleksander Holynski, Angjoo Kanazawa(参考訳) カジュアルに捕獲されたニューラル・ラジアンス・フィールド(nerfs)は、カメラの軌道の外でレンダリングする際にフローターや欠陥のある幾何学などの人工物に苦しむ。 既存の評価プロトコルは、通常、トレーニングキャプチャの8番目のフレームごとに画像品質のみを評価するため、これらの効果をキャプチャしないことが多い。 新規視点合成の進歩を推し進めるために,2つのカメラトラジェクトリがシーンに記録され,一方がトレーニングに,もう一方が評価に使用される新しいデータセットと評価手順を提案する。 このより困難な状況下では、既存の手作りの正規化器はフローターを除去したり、風景形状を改良したりしない。 そこで我々は, 局所的な3次元先行値と新しい密度に基づくスコア蒸留サンプリング損失を利用した3次元拡散法を提案する。 このデータ駆動型プリエントはフローターを取り除き,カジュアルキャプチャのためのシーン形状を改善する。

Casually captured Neural Radiance Fields (NeRFs) suffer from artifacts such as floaters or flawed geometry when rendered outside the camera trajectory. Existing evaluation protocols often do not capture these effects, since they usually only assess image quality at every 8th frame of the training capture. To push forward progress in novel-view synthesis, we propose a new dataset and evaluation procedure, where two camera trajectories are recorded of the scene: one used for training, and the other for evaluation. In this more challenging in-the-wild setting, we find that existing hand-crafted regularizers do not remove floaters nor improve scene geometry. Thus, we propose a 3D diffusion-based method that leverages local 3D priors and a novel density-based score distillation sampling loss to discourage artifacts during NeRF optimization. We show that this data-driven prior removes floaters and improves scene geometry for casual captures.
翻訳日:2023-04-25 11:22:25 公開日:2023-04-21
# ancillae thermalizationによる自動ポストセレクション

Automatic Post-selection by Ancillae Thermalisation ( http://arxiv.org/abs/2010.04173v2 )

ライセンス: Link先を確認
Lewis Wright, Fergus Barratt, James Dborin, George H. Booth, Andrew G. Green(参考訳) データ分類やハミルトンの基底状態の決定といったタスクは、純粋にユニタリな量子進化によって実行できない。 代わりに、測定プロセスの固有の非ユニタリ性を利用する必要がある。 ポスト選択とその拡張は、これを行う手段を提供する。 しかし、それらは時間資源を非効率に利用します -- 典型的な計算では、望ましい精度に到達するには、$O(2^m)$ qubits以上を計測する必要があります。 本稿では, サブシステムにおける測定の非線形性を利用した固有状態熱化仮説に基づく手法を提案する。 m$ ancillae qubits のポストセレクションは $o(\log\epsilon / \log(1-p))$ (p は成功した測定の確率) のトレースに置き換えられ、ポストセレクション回路と同じ精度が得られる。 この手法を量子パーセプトロンおよび位相推定アルゴリズムで実証する。 この方法は超伝導回路を含む電流量子コンピュータにおいて特に有利である。

Tasks such as classification of data and determining the groundstate of a Hamiltonian cannot be carried out through purely unitary quantum evolution. Instead, the inherent non-unitarity of the measurement process must be harnessed. Post-selection and its extensions provide a way to do this. However they make inefficient use of time resources -- a typical computation might require $O(2^m)$ measurements over $m$ qubits to reach a desired accuracy. We propose a method inspired by the eigenstate thermalisation hypothesis, that harnesses the induced non-linearity of measurement on a subsystem. Post-selection on $m$ ancillae qubits is replaced with tracing out $O(\log\epsilon / \log(1-p))$ (where p is the probability of a successful measurement) to attain the same accuracy as the post-selection circuit. We demonstrate this scheme on the quantum perceptron and phase estimation algorithm. This method is particularly advantageous on current quantum computers involving superconducting circuits.
翻訳日:2023-04-24 19:23:53 公開日:2023-04-21
# ニュートンスクリーニングについて

On Newton Screening ( http://arxiv.org/abs/2001.10616v3 )

ライセンス: Link先を確認
Jian Huang, Yuling Jiao, Lican Kang, Jin Liu, Yanyan Liu, Xiliang Lu, and Yuanyuan Yang(参考訳) 最適化問題のサイズを減らすため、スクリーニングと作業セット技術は重要なアプローチである。 大規模なスパース学習問題を解決する一階法の高速化に広く用いられている。 本稿では,ニュートンスクリーニング機構を内蔵した一般化ニュートン法であるNewton Screening (NS) という新しいスクリーニング手法を提案する。 我々は、lasso の等価な kkt 系を導出し、一般化ニュートン法を用いて kkt 方程式を解く。 このKKTシステムに基づいて、前回の繰り返しから生成された原始変数と双対変数の和を用いて、比較的小さな組込み作業セットをまず決定し、次いで、作業セットと閉形式式に基づいて更新された双対変数の最小二乗問題を解くことにより、一次変数を更新する。 さらに,ウォームスタート戦略によるニュートンスクリーニング(sns)の逐次バージョンについて検討する。 NSは1ステップの局所収束を達成するという意味で最適収束特性を有することを示す。 特徴行列上の一定の規則性条件下では、SNSが真ターゲットと同じ符号の解に到達し、高い確率で有界な推定誤差が得られることを示す。 シミュレーション研究と実データ解析は理論的な結果をサポートし、比較研究においてsnsがいくつかの最先端手法よりも高速かつ正確であることを実証する。

Screening and working set techniques are important approaches to reducing the size of an optimization problem. They have been widely used in accelerating first-order methods for solving large-scale sparse learning problems. In this paper, we develop a new screening method called Newton screening (NS) which is a generalized Newton method with a built-in screening mechanism. We derive an equivalent KKT system for the Lasso and utilize a generalized Newton method to solve the KKT equations. Based on this KKT system, a built-in working set with a relatively small size is first determined using the sum of primal and dual variables generated from the previous iteration, then the primal variable is updated by solving a least-squares problem on the working set and the dual variable updated based on a closed-form expression. Moreover, we consider a sequential version of Newton screening (SNS) with a warm-start strategy. We show that NS possesses an optimal convergence property in the sense that it achieves one-step local convergence. Under certain regularity conditions on the feature matrix, we show that SNS hits a solution with the same signs as the underlying true target and achieves a sharp estimation error bound with high probability. Simulation studies and real data analysis support our theoretical results and demonstrate that SNS is faster and more accurate than several state-of-the-art methods in our comparative studies.
翻訳日:2023-04-24 19:22:58 公開日:2023-04-21
# 差別的訓練データからの学習

Learning from Discriminatory Training Data ( http://arxiv.org/abs/1912.08189v4 )

ライセンス: Link先を確認
Przemyslaw A. Grabowicz, Nicholas Perello, Kenta Takatsu(参考訳) 教師付き学習システムは、歴史的データを用いて訓練され、データが差別によって汚染された場合、意図せず保護されたグループに対して識別を学ぶことができる。 差別的データセットの訓練にもかかわらず、公正な学習手法は公正なテストデータセットで良好に機能することを提案する。 このようなデータセットは、特定の公正な学習方法のアプリケーションシナリオを結晶化する。 例えば、直接識別の除去は、特定のデータセットシフト問題として表現することができる。 そこで本研究では,公正なデータセット上でのモデル誤差を確実に最小化する学習手法を提案する。 この方法は既存の法体系と互換性があり、保護されたグループ間のバランスをとることで保護されたグループの交点性に関する広く議論された問題への解決策を提供する。 技術的には、確率的介入を適用し、因果的および反ファクト的定式化を持ち、計算学的に軽量であり、任意の教師付き学習モデルを用いて、プロキシによる識別を防止しつつ、ビジネスニーズに対するモデル精度を最大化することができる。

Supervised learning systems are trained using historical data and, if the data was tainted by discrimination, they may unintentionally learn to discriminate against protected groups. We propose that fair learning methods, despite training on potentially discriminatory datasets, shall perform well on fair test datasets. Such dataset shifts crystallize application scenarios for specific fair learning methods. For instance, the removal of direct discrimination can be represented as a particular dataset shift problem. For this scenario, we propose a learning method that provably minimizes model error on fair datasets, while blindly training on datasets poisoned with direct additive discrimination. The method is compatible with existing legal systems and provides a solution to the widely discussed issue of protected groups' intersectionality by striking a balance between the protected groups. Technically, the method applies probabilistic interventions, has causal and counterfactual formulations, and is computationally lightweight - it can be used with any supervised learning model to prevent discrimination via proxies while maximizing model accuracy for business necessity.
翻訳日:2023-04-24 19:22:37 公開日:2023-04-21
# 住民生活における人間環境意識教育のための本格的ゲーム

Serious Game for Human Environmental Consciousness Education in Residents Daily Life ( http://arxiv.org/abs/1503.05972v3 )

ライセンス: Link先を確認
Jing Du(参考訳) 環境意識を高めるために人々を教育する方法を見つけることは困難である。 場合によっては、環境を保護するための正しい行動が何であるかを知らない人もいます。 ゲームエンジンはAEC業界で視覚化に使われている。 しかし, 環境意識教育にはほとんど使われていない。例えば, 建築エネルギー消費を減らし, リサイクル可能なものなどである。 社会心理学の研究は、ビデオゲームが人間の行動に影響を及ぼすことを示したので、優れたデザインのゲームは、ゲームプレイヤに適切なインセンティブを与え、より良い環境保護のための賢明な選択をユーザに促すべきである。 本稿では,ゲームエンジンを用いてプレイヤーに異なるシナリオで行うべき適切なアクションを教育する方法について議論した。 これらの実生活における行動は、より良い環境保護をもたらす。 本研究で提案するゲームは住宅事業用である。 本研究の展開として,レストランの営業,食料品店の営業などのシナリオについて論じる。 ゲームプレーヤーのポイントは、異なる選択によるパフォーマンスに基づいて計算され、一定のレベルを超えると、現在の生活スタイルを調整するために、異なる報酬が与えられる。 ゲームの目的は、プレイヤーの環境意識を高め、ゲームに時間を費やしているときに環境をよりよく保護するための適切な行動を彼らに教育することである。

It has been challenging to find ways to educate people to have better environmental consciousness. In some cases, people do not know what the right behaviors are to protect the environment. Game engine has been used in the AEC industry for visualization. However, it has barely been used in environmental consciousness education, for example, what operation can reduce building energy consumption, what items are recyclables. As social psychology studies show that video game can influence human behavior, a good designed game should provide the game player with right incentives and guide the users to make wiser choices for better environmental protection. This paper discussed a method to use serious game engines to educate the players the right actions that should be taken under in different scenarios. These actions in real life will results in a better environmental protection. The game proposed in this study is for residential home operation. Other scenarios such as restaurant operation, grocery store operations are discussed as expansion of this study. The game players points will be calculated based on their performance on different choices and when they surpass a certain level, different rewards will be gained in order for them to adjust their current living style. The purpose of the game is to raise the environmental consciousness among the game players and educate them the right actions they can make to better protect the environment while they are spending time on games.
翻訳日:2023-04-24 19:22:21 公開日:2023-04-21
# 漸進的ドリフト概念の認知的学習

Cognitively Inspired Learning of Incremental Drifting Concepts ( http://arxiv.org/abs/2110.04662v2 )

ライセンス: Link先を確認
Mohammad Rostami and Aram Galstyan(参考訳) 人間は新しいドメインに学習知識を継続的に拡張し、過去の学習経験に干渉することなく新しい概念を学ぶ。 対照的に、機械学習モデルでは、入力データ分布が時間とともに変化する連続学習環境では、パフォーマンスが低下する。 神経系学習機構に触発されて、深層ニューラルネットワークが新しい概念を学習し、学習知識を連続的な学習環境で段階的に新しい領域に拡大することを可能にする計算モデルを開発した。 我々は,マルチモーダル分布の観点から,抽象概念を埋め込み空間にエンコードするために並列分散処理理論を利用する。 この埋め込み空間は、隠れたネットワーク層の内部データ表現によってモデル化される。 また,補足学習システム理論を活用し,擬似リハーサルの実装による破滅的な忘れを克服するメモリ機構をモデルに適用する。 我々のモデルは、過去の学習経験に新たな経験を蓄積し、タスク間の干渉を引き起こすことなく擬似データポイントを生成することができる。

Humans continually expand their learned knowledge to new domains and learn new concepts without any interference with past learned experiences. In contrast, machine learning models perform poorly in a continual learning setting, where input data distribution changes over time. Inspired by the nervous system learning mechanisms, we develop a computational model that enables a deep neural network to learn new concepts and expand its learned knowledge to new domains incrementally in a continual learning setting. We rely on the Parallel Distributed Processing theory to encode abstract concepts in an embedding space in terms of a multimodal distribution. This embedding space is modeled by internal data representations in a hidden network layer. We also leverage the Complementary Learning Systems theory to equip the model with a memory mechanism to overcome catastrophic forgetting through implementing pseudo-rehearsal. Our model can generate pseudo-data points for experience replay and accumulate new experiences to past learned experiences without causing cross-task interference.
翻訳日:2023-04-24 18:48:06 公開日:2023-04-21
# Bures-Wasserstein多様体上の平均化:勾配勾配の次元自由収束

Averaging on the Bures-Wasserstein manifold: dimension-free convergence of gradient descent ( http://arxiv.org/abs/2106.08502v2 )

ライセンス: Link先を確認
Jason M. Altschuler, Sinho Chewi, Patrik Gerber, Austin J. Stromme(参考訳) 最適輸送計量に関してガウス分布のバリ中心を計算するための一階最適化アルゴリズムについて検討する。 目的は測地的に非凸であるが、リーマン GD は経験的に急速に収束し、実際はユークリッド GD や SDP ソルバのような既製の方法よりも速い。 これは、次元に指数関数的に依存するリーマン gd の最もよく知られた理論結果とは対照的である。 本研究では,新たな測地的凸性を証明し,イテレートをより強く制御し,次元自由収束率を導出する。 また本手法は, 2つの関連する平均化概念, エントロピー正規化バリセンタと幾何学的中央値の解析を可能にし, リーマン gd に対する最初の収束保証を提供する。

We study first-order optimization algorithms for computing the barycenter of Gaussian distributions with respect to the optimal transport metric. Although the objective is geodesically non-convex, Riemannian GD empirically converges rapidly, in fact faster than off-the-shelf methods such as Euclidean GD and SDP solvers. This stands in stark contrast to the best-known theoretical results for Riemannian GD, which depend exponentially on the dimension. In this work, we prove new geodesic convexity results which provide stronger control of the iterates, yielding a dimension-free convergence rate. Our techniques also enable the analysis of two related notions of averaging, the entropically-regularized barycenter and the geometric median, providing the first convergence guarantees for Riemannian GD for these problems.
翻訳日:2023-04-24 18:47:51 公開日:2023-04-21
# マルチモーダルフレームワークを用いたMeTooTweetsの感情分析

MeToo Tweets Sentiment Analysis Using Multi Modal frameworks ( http://arxiv.org/abs/2104.05331v2 )

ライセンス: Link先を確認
Rushil Thareja(参考訳) 本稿では, IEEEBigMM 2020, Grand Challenge (BMGC) へのアプローチとして, MeToo 運動に関連するツイートからセンティメントを同定する手法を提案する。 このモデルは、畳み込みニューラルネットワーク、双方向LSTM、最終分類のためのDNNのアンサンブルに基づいている。 本論文の目的は,モデルと得られた結果を詳細に分析することである。 10チーム中5位にランクインし、スコアは0.51491

In this paper, We present our approach for IEEEBigMM 2020, Grand Challenge (BMGC), Identifying senti-ments from tweets related to the MeToo movement. The modelis based on an ensemble of Convolutional Neural Network,Bidirectional LSTM and a DNN for final classification. Thispaper is aimed at providing a detailed analysis of the modeland the results obtained. We have ranked 5th out of 10 teamswith a score of 0.51491
翻訳日:2023-04-24 18:47:13 公開日:2023-04-21
# 多階層畳み込みネットワークを用いた非接触ppg信号と心拍数推定

Non-contact PPG Signal and Heart Rate Estimation with Multi-hierarchical Convolutional Network ( http://arxiv.org/abs/2104.02260v2 )

ライセンス: Link先を確認
Bin Li, Panpan Zhang, Jinye Peng, Hong Fu(参考訳) 心拍リズムと心拍数(HR)は人体の重要な生理的パラメータである。 本研究では,顔ビデオクリップから遠隔生理学信号とHRを迅速に推定できる,効率的な多階層型時空間畳み込みネットワークを提案する。 まず、低レベル顔特徴生成(LFFG)モジュールを用いて顔色分布特性を抽出する。 次に,3次元時空間スタック畳み込みモジュール(STSC)と多階層特徴融合モジュール(MHFF)を用いて,多チャンネル特徴の時空間相関を強化する。 MHFFでは、フレーム間の顔の小さな動き情報を捕捉し、関心の自己適応領域(ROI)を生成するためにスパース光学フローを用いる。 最後に、信号予測モジュール(SP)を用いて推定rPPG信号を抽出する。 心拍数推定結果は,提案したネットワークが3つのデータセット上で最先端の手法を上回ることを示す。 1)UBFC-RPPG 2) COHFACE 3) 平均絶対誤差 (MAE) はそれぞれ2.15, 5.57, 1.75回/分 (bpm) である。

Heartbeat rhythm and heart rate (HR) are important physiological parameters of the human body. This study presents an efficient multi-hierarchical spatio-temporal convolutional network that can quickly estimate remote physiological (rPPG) signal and HR from face video clips. First, the facial color distribution characteristics are extracted using a low-level face feature generation (LFFG) module. Then, the three-dimensional (3D) spatio-temporal stack convolution module (STSC) and multi-hierarchical feature fusion module (MHFF) are used to strengthen the spatio-temporal correlation of multi-channel features. In the MHFF, sparse optical flow is used to capture the tiny motion information of faces between frames and generate a self-adaptive region of interest (ROI) skin mask. Finally, the signal prediction module (SP) is used to extract the estimated rPPG signal. The heart rate estimation results show that the proposed network overperforms the state-of-the-art methods on three datasets, 1) UBFC-RPPG, 2) COHFACE, 3) our dataset, with the mean absolute error (MAE) of 2.15, 5.57, 1.75 beats per minute (bpm) respectively.
翻訳日:2023-04-24 18:47:07 公開日:2023-04-21
# Stochastic Online Convex Optimization の略。 確率時系列予測への応用

Stochastic Online Convex Optimization. Application to probabilistic time series forecasting ( http://arxiv.org/abs/2102.00729v3 )

ライセンス: Link先を確認
Olivier Wintenberger (LPSM (UMR\_8001))(参考訳) 本稿では,確率的オンライン凸最適化の一般的な枠組みを導入し,高速確率的後悔境界を求める。 オンラインニュートンステップや、バーンスタインオンラインアグリゲーションのスケールフリー10バージョンのようなアルゴリズムが、非有界確率的設定において最もよく知られたレートを達成することを証明している。 我々は,非定常準ガウス時系列のパラメトリック確率予測器のキャリブレーションに本手法を適用した。 私たちの高速確率的後悔境界はいつでも有効です。 我々の証明は、確率的 exp-concavity 仮定の下で、マルティンガレと準ガウス的確率変数に対する自己有界とポアソン的不等式をそれぞれ組み合わせている。

We introduce a general framework of stochastic online convex optimization to obtain fast-rate stochastic regret bounds. We prove that algorithms such as online newton steps and a scale-free 10 version of Bernstein online aggregation achieve best-known rates in unbounded stochastic settings. We apply our approach to calibrate parametric probabilistic forecasters of non-stationary sub-gaussian time series. Our fast-rate stochastic regret bounds are any-time valid. Our proofs combine self-bounded and Poissonnian inequalities for martingales and sub-gaussian random variables, respectively, under a stochastic exp-concavity assumption.
翻訳日:2023-04-24 18:46:46 公開日:2023-04-21
# ICSML: IEC 61131-3コードを用いたネイティブ推論のための産業制御システムMLフレームワーク

ICSML: Industrial Control Systems ML Framework for native inference using IEC 61131-3 code ( http://arxiv.org/abs/2202.10075v3 )

ライセンス: Link先を確認
Constantine Doumanidis (1), Prashant Hari Narayan Rajput (2), Michail Maniatakos (1) ((1) New York University Abu Dhabi, (2) NYU Tandon School of Engineering)(参考訳) 産業制御システム(ICS)は、第4次産業革命の実現に触媒的役割を果たしてきた。 Programmable Logic Controllers (PLC)のようなICSデバイスは、産業、エネルギー、商業環境における重要なプロセスを自動化、監視、制御する。 従来型の運用技術(ot)と情報技術(it)の融合は、新たなユニークな脅威の展望を開いた。 これは、外部のitハードウェア上で動作する機械学習(ml)ベースの異常検出手法に重点を置いた防衛研究に影響を与えた。 この要求を解消するために、我々は、PLC上でMLモデル推論をネイティブに実行可能にするICSML(ICSML)を導入する。 ICSMLはIEC 61131-3コードで実装されており、ドメイン固有の言語によって課される制限を回避できるいくつかの最適化を提供している。 したがって、ベンダーのサポートを必要とせずに、すべてのPLCで動作する。 ICSMLは、確立されたMLフレームワークと同様に、完全なMLモデルを作成するための完全なコンポーネントセットを提供する。 メモリとパフォーマンスを研究する一連のベンチマークを実行し、ソリューションをTFLite推論フレームワークと比較します。 同時に、ICSMLの効率を改善するためにドメイン固有モデル最適化を開発する。 ICSMLの能力を実証するため,脱塩プラントを標的としたプロセス認識攻撃に対する実戦防御の事例検討を行った。

Industrial Control Systems (ICS) have played a catalytic role in enabling the 4th Industrial Revolution. ICS devices like Programmable Logic Controllers (PLCs), automate, monitor, and control critical processes in industrial, energy, and commercial environments. The convergence of traditional Operational Technology (OT) with Information Technology (IT) has opened a new and unique threat landscape. This has inspired defense research that focuses heavily on Machine Learning (ML) based anomaly detection methods that run on external IT hardware, which means an increase in costs and the further expansion of the threat landscape. To remove this requirement, we introduce the ICS machine learning inference framework (ICSML) which enables executing ML model inference natively on the PLC. ICSML is implemented in IEC 61131-3 code and provides several optimizations to bypass the limitations imposed by the domain-specific languages. Therefore, it works on every PLC without the need for vendor support. ICSML provides a complete set of components for creating full ML models similarly to established ML frameworks. We run a series of benchmarks studying memory and performance, and compare our solution to the TFLite inference framework. At the same time, we develop domain-specific model optimizations to improve the efficiency of ICSML. To demonstrate the abilities of ICSML, we evaluate a case study of a real defense for process-aware attacks targeting a desalination plant.
翻訳日:2023-04-24 18:40:14 公開日:2023-04-21
# 都市交通データから自動走行システムの教師なしテストシナリオ抽出に向けて

Toward Unsupervised Test Scenario Extraction for Automated Driving Systems from Urban Naturalistic Road Traffic Data ( http://arxiv.org/abs/2202.06608v2 )

ライセンス: Link先を確認
Nico Weber, Christoph Thiem, and Ulrich Konigorski(参考訳) シナリオベースのテストは、自動走行システムを備えた車両の安全な動作を証明するという課題を解決するための有望なアプローチである。 理論的には、現実の道路交通において無限の具体的なシナリオが発生するため、これらのシステムの安全性に関する振る舞いの観点からシナリオを抽出することが、検証と検証の成功の重要な側面である。 そこで本研究では,非教師的道路交通データから多様都市交通シナリオを抽出し,事前知識の量(潜在的に偏り)を最小限に抑える手法を提案する。 具体的なシナリオを事前に定義された機能シナリオに抽出する(詳細)ルールベースの代入ではなく、提案手法は教師なしの機械学習パイプラインをデプロイする。 このアプローチでは、データの未知の性質と、その解釈を、専門家が予想できなかったテストシナリオとして探求することができる。 本手法は,inDとSilicon Valley Intersectionsデータセットから都市交差点の自然道路交通データを評価する。 この目的のために,シナリオ抽出手法が(k平均,階層クラスタリング,dbscan)どのクラスタリング手法が最適かを分析する(詳細ルールベース実装を参照)。 その後、階層的クラスタリングを用いることで、4から5クラスタに移行する場合の全体の精度が約20%向上し、全体の精度が84%の41クラスタから飽和効果が得られた。 これらの観察は、機能シナリオの数(すなわちクラスタリングの精度)とテストの労力の間のトレードオフの文脈において、貴重な貢献となる。 それぞれに与えられたクラスタの総数の固定された、異なるクラスタの観測精度のばらつきについて論じる。

Scenario-based testing is a promising approach to solve the challenge of proving the safe behavior of vehicles equipped with automated driving systems. Since an infinite number of concrete scenarios can theoretically occur in real-world road traffic, the extraction of scenarios relevant in terms of the safety-related behavior of these systems is a key aspect for their successful verification and validation. Therefore, a method for extracting multimodal urban traffic scenarios from naturalistic road traffic data in an unsupervised manner, minimizing the amount of (potentially biased) prior expert knowledge, is proposed. Rather than an (elaborate) rule-based assignment by extracting concrete scenarios into predefined functional scenarios, the presented method deploys an unsupervised machine learning pipeline. The approach allows exploring the unknown nature of the data and their interpretation as test scenarios that experts could not have anticipated. The method is evaluated for naturalistic road traffic data at urban intersections from the inD and the Silicon Valley Intersections datasets. For this purpose, it is analyzed with which clustering approach (K-Means, hierarchical clustering, and DBSCAN) the scenario extraction method performs best (referring to an elaborate rule-based implementation). Subsequently, using hierarchical clustering the results show both a jump in overall accuracy of around 20% when moving from 4 to 5 clusters and a saturation effect starting at 41 clusters with an overall accuracy of 84%. These observations can be a valuable contribution in the context of the trade-off between the number of functional scenarios (i.e., clustering accuracy) and testing effort. Possible reasons for the observed accuracy variations of different clusters, each with a fixed total number of given clusters, are discussed.
翻訳日:2023-04-24 18:39:51 公開日:2023-04-21
# グラフ関係領域適応

Graph-Relational Domain Adaptation ( http://arxiv.org/abs/2202.03628v2 )

ライセンス: Link先を確認
Zihao Xu, Hao He, Guang-He Lee, Yuyang Wang, Hao Wang(参考訳) 既存のドメイン適応手法は、すべてのドメインを均等に扱い、全てを完璧に調整する傾向がある。 このような均一なアライメントは、異なる領域間の位相構造を無視しているため、近くのドメインには有益であるが、必ずしも遠いドメインには有益である。 本稿では、ドメイングラフを用いてドメイン隣接性をエンコードすることにより、このような統一的なアライメントを緩和する。例えば、各ステートをドメインとして、各エッジを隣接性を示す米国内の状態グラフを、グラフ構造に基づいて柔軟に整列させることができる。 符号化条件付きグラフ埋め込みを用いた新しいグラフ識別器を用いて,既存の逆学習フレームワークを一般化する。 理論的解析により、グラフが斜めであるときの古典的領域適応は平衡で回復し、他の種類のグラフに対する非自明なアライメントを実現する。 実験結果から,本手法は一様アライメントの一般化に成功し,グラフで表されるドメイン情報を自然に組み込んで,合成および実世界のデータセット上で既存のドメイン適応手法を改善した。 コードは間もなくhttps://github.com/Wang-ML-Lab/GRDA.orgで公開される。

Existing domain adaptation methods tend to treat every domain equally and align them all perfectly. Such uniform alignment ignores topological structures among different domains; therefore it may be beneficial for nearby domains, but not necessarily for distant domains. In this work, we relax such uniform alignment by using a domain graph to encode domain adjacency, e.g., a graph of states in the US with each state as a domain and each edge indicating adjacency, thereby allowing domains to align flexibly based on the graph structure. We generalize the existing adversarial learning framework with a novel graph discriminator using encoding-conditioned graph embeddings. Theoretical analysis shows that at equilibrium, our method recovers classic domain adaptation when the graph is a clique, and achieves non-trivial alignment for other types of graphs. Empirical results show that our approach successfully generalizes uniform alignment, naturally incorporates domain information represented by graphs, and improves upon existing domain adaptation methods on both synthetic and real-world datasets. Code will soon be available at https://github.com/Wang-ML-Lab/GRDA.
翻訳日:2023-04-24 18:39:23 公開日:2023-04-21
# 4つの異なるソースからの自己承認技術的負債の自動識別

Automatic Identification of Self-Admitted Technical Debt from Four Different Sources ( http://arxiv.org/abs/2202.02387v5 )

ライセンス: Link先を確認
Yikun Li, Mohamed Soliman, Paris Avgeriou(参考訳) 技術的負債とは、ソフトウェアシステムの長期的な保守性と進化性を犠牲にして、短期的な目標を達成するためにショートカットを取ることを指す。 技術的負債の大部分は、開発者自身によって明示的に報告されており、一般的には、セルフコミットメント技術的負債(Self-Admitted Technical Debt、SATD)と呼ばれる。 これまでの作業は、ソースコードコメントとイシュートラッカからSATDを識別することに集中していた。 しかし、コミットメッセージやプルリクエストなどの他のソースからSATDを自動的に識別するアプローチや、複数のソースを組み合わせるアプローチはない。 そこで我々は,ソースコードコメント,コミットメッセージ,プルリクエスト,イシュートラッキングシステムという4つのソースを統合する自動satd識別手法を提案し,評価する。 提案手法は, 4種類のSATD(コード/設計負債, 要件負債, ドキュメント負債, テスト負債)を検出する場合に, ベースラインアプローチより優れ, 平均F1スコアが0.611であることを示す。 その後、23.6mのコードコメント、1.3mコミットメッセージ、3.7m発行セクション、1.7mプルリクエストセクションを分析し、103のオープンソースプロジェクトでsatdを特徴付ける。 さらに,SATD キーワードと SATD の関係について検討した。 この発見は、以下を示唆している。 1)SATDは,すべてのソースに均等に分散する。 2) 問題とプルリクエストは,共有satキーワードの数,コミットメッセージ,コードコメントに関して,最もよく似た2つのソースである。 3)異なるソースにsat項目間の関係は4種類ある。

Technical debt refers to taking shortcuts to achieve short-term goals while sacrificing the long-term maintainability and evolvability of software systems. A large part of technical debt is explicitly reported by the developers themselves; this is commonly referred to as Self-Admitted Technical Debt or SATD. Previous work has focused on identifying SATD from source code comments and issue trackers. However, there are no approaches available for automatically identifying SATD from other sources such as commit messages and pull requests, or by combining multiple sources. Therefore, we propose and evaluate an approach for automated SATD identification that integrates four sources: source code comments, commit messages, pull requests, and issue tracking systems. Our findings show that our approach outperforms baseline approaches and achieves an average F1-score of 0.611 when detecting four types of SATD (i.e., code/design debt, requirement debt, documentation debt, and test debt) from the four aforementioned sources. Thereafter, we analyze 23.6M code comments, 1.3M commit messages, 3.7M issue sections, and 1.7M pull request sections to characterize SATD in 103 open-source projects. Furthermore, we investigate the SATD keywords and relations between SATD in different sources. The findings indicate, among others, that: 1) SATD is evenly spread among all sources; 2) issues and pull requests are the two most similar sources regarding the number of shared SATD keywords, followed by commit messages, and then followed by code comments; 3) there are four kinds of relations between SATD items in the different sources.
翻訳日:2023-04-24 18:39:03 公開日:2023-04-21
# E-ADDA: スマートコンピューティングのための新しいマハラノビス距離損失によって強化された教師なし逆境適応

E-ADDA: Unsupervised Adversarial Domain Adaptation Enhanced by a New Mahalanobis Distance Loss for Smart Computing ( http://arxiv.org/abs/2201.10001v5 )

ライセンス: Link先を確認
Ye Gao, Brian Baucom, Karen Rose, Kristina Gordon, Hongning Wang, John Stankovic(参考訳) スマートコンピューティングでは、特定のタスクのトレーニングサンプルのラベルが常に豊富であるとは限らない。 しかし、関連するが異なるデータセットのサンプルのラベルが利用可能である。 その結果、研究者は教師なしのドメイン適応に頼ってデータセット(ソースドメイン)のラベルを活用し、異なるラベルなしデータセット(ターゲットドメイン)のより良い分類を実行した。 udaの既存の非生成的敵意ソリューションは、敵意トレーニングによるドメイン混乱の実現を目標としている。 理想的なシナリオは、完璧なドメインの混乱が達成されることですが、これが真実である保証はありません。 そこで本研究では,Mahalanobis 距離損失の新たな変化と分布外検出サブルーチンを併用した新しい UDA アルゴリズムである \textit{E-ADDA} を提案する。 マハラノビス距離損失は、符号化された対象サンプルとソースドメインの分布との分布ワイド距離を最小化し、敵の訓練の上に追加のドメイン混乱を引き起こす。 その後、OODサブルーチンはドメインの混乱が失敗したサンプルをさらに除去する。 音響およびコンピュータビジョンにおけるE-ADDAの広範かつ包括的な評価を行った。 音響モードでは、E-ADDAはf1スコアで測定されたいくつかの最先端UDAアルゴリズムを最大29.8%上回っている。 コンピュータビジョンのモダリティでは、Office-31やOffice-Homeのような人気のあるUDAベンチマークにおいて、新しい最先端性能を実現し、最高の性能のアルゴリズムを最大17.9%上回った。

In smart computing, the labels of training samples for a specific task are not always abundant. However, the labels of samples in a relevant but different dataset are available. As a result, researchers have relied on unsupervised domain adaptation to leverage the labels in a dataset (the source domain) to perform better classification in a different, unlabeled dataset (target domain). Existing non-generative adversarial solutions for UDA aim at achieving domain confusion through adversarial training. The ideal scenario is that perfect domain confusion is achieved, but this is not guaranteed to be true. To further enforce domain confusion on top of the adversarial training, we propose a novel UDA algorithm, \textit{E-ADDA}, which uses both a novel variation of the Mahalanobis distance loss and an out-of-distribution detection subroutine. The Mahalanobis distance loss minimizes the distribution-wise distance between the encoded target samples and the distribution of the source domain, thus enforcing additional domain confusion on top of adversarial training. Then, the OOD subroutine further eliminates samples on which the domain confusion is unsuccessful. We have performed extensive and comprehensive evaluations of E-ADDA in the acoustic and computer vision modalities. In the acoustic modality, E-ADDA outperforms several state-of-the-art UDA algorithms by up to 29.8%, measured in the f1 score. In the computer vision modality, the evaluation results suggest that we achieve new state-of-the-art performance on popular UDA benchmarks such as Office-31 and Office-Home, outperforming the second best-performing algorithms by up to 17.9%.
翻訳日:2023-04-24 18:38:35 公開日:2023-04-21
# 量子センサの最適制御:解析解に基づく高速アルゴリズム

Optimal control of a quantum sensor: A fast algorithm based on an analytic solution ( http://arxiv.org/abs/2112.14998v3 )

ライセンス: Link先を確認
S. Hern\'andez-G\'omez and F. Balducci and G. Fasiolo and P. Cappellaro and N. Fabbri and A. Scardicchio(参考訳) 量子センサーは、非常に特定の最適な方法で制御されている場合、前例のない感度を示すことができる。 そこで本研究では,デフォーカスノイズの存在下での時間変化磁界のスピンセンサについて考察し,最適パルス制御場を求める問題はスピンチェーンの基底状態の決定にマッピング可能であることを示す。 この問題に対する近似的だが解析的な解を見いだし、センサの感度について \emph{lower bound} と、最適に近いパルス制御を提供し、高速にシミュレーションされたアニーリングアルゴリズムを実現するための初期推定として用いる。 ダイヤモンド中の窒素空隙中心に基づくスピン量子磁気センサの感度改善を実験的に実証した。

Quantum sensors can show unprecedented sensitivities, provided they are controlled in a very specific, optimal way. Here, we consider a spin sensor of time-varying fields in the presence of dephasing noise, and we show that the problem of finding the optimal pulsed control field can be mapped to the determination of the ground state of a spin chain. We find an approximate but analytic solution of this problem, which provides a \emph{lower bound} for the sensor sensitivity, and a pulsed control very close to optimal, which we further use as initial guess for realizing a fast simulated annealing algorithm. We experimentally demonstrate the sensitivity improvement for a spin-qubit magnetometer based on a nitrogen-vacancy center in diamond.
翻訳日:2023-04-24 18:38:07 公開日:2023-04-21
# 医学画像分割のための因果性に触発された単一ソースドメインの一般化

Causality-inspired Single-source Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2111.12525v5 )

ライセンス: Link先を確認
Cheng Ouyang, Chen Chen, Surui Li, Zeju Li, Chen Qin, Wenjia Bai, Daniel Rueckert(参考訳) ディープラーニングモデルは、通常、あるソースドメインでトレーニングされたモデルが他の目に見えないドメインにうまく一般化しない、ドメインシフトの問題に苦しむ。 本研究では, 医用画像アプリケーションで一般的である1つのソースドメインからのみ, トレーニングデータが利用可能であることを条件として, 未取得ドメインに頑健な深層ネットワークをトレーニングする, 単一ソースドメイン一般化問題について検討する。 ドメイン間医療画像セグメンテーションの文脈においてこの問題に対処する。 このシナリオでは、ドメインシフトは主に異なる取得プロセスによって引き起こされる。 ドメインシフトトレーニング例の合成にセグメンテーションモデルを公開するために,単純な因果関係に触発されたデータ拡張手法を提案する。 具体的には 1) 深層モデルを画像強度とテクスチャのばらつきに頑健にするために, ランダムに重み付けされた浅層ネットワーク群を用いた。 多様な外観変換を用いてトレーニングイメージを増強する。 2)さらに,画像内のオブジェクト間のスプリアス相関がドメインロバスト性に有害であることを示す。 これらの相関関係は、ネットワークによって予測を行うためのドメイン固有の手がかりとして捉えられ、未知のドメインを壊す可能性がある。 因果介入によってこれらの急激な相関を除去する。 これは、潜在的な相関オブジェクトの外観を独立に再サンプリングすることで達成される。 提案手法は,CT-MRIの腹部画像分割,bSSFP-LGEの心臓MRI分割,中心前立腺MRI分割という3つの領域横断的課題に対して検証された。 提案手法は,未取得領域でテストした場合の競合手法と比較して,一貫性のある性能向上を実現する。

Deep learning models usually suffer from domain shift issues, where models trained on one source domain do not generalize well to other unseen domains. In this work, we investigate the single-source domain generalization problem: training a deep network that is robust to unseen domains, under the condition that training data is only available from one source domain, which is common in medical imaging applications. We tackle this problem in the context of cross-domain medical image segmentation. Under this scenario, domain shifts are mainly caused by different acquisition processes. We propose a simple causality-inspired data augmentation approach to expose a segmentation model to synthesized domain-shifted training examples. Specifically, 1) to make the deep model robust to discrepancies in image intensities and textures, we employ a family of randomly-weighted shallow networks. They augment training images using diverse appearance transformations. 2) Further we show that spurious correlations among objects in an image are detrimental to domain robustness. These correlations might be taken by the network as domain-specific clues for making predictions, and they may break on unseen domains. We remove these spurious correlations via causal intervention. This is achieved by resampling the appearances of potentially correlated objects independently. The proposed approach is validated on three cross-domain segmentation tasks: cross-modality (CT-MRI) abdominal image segmentation, cross-sequence (bSSFP-LGE) cardiac MRI segmentation, and cross-center prostate MRI segmentation. The proposed approach yields consistent performance gains compared with competitive methods when tested on unseen domains.
翻訳日:2023-04-24 18:37:55 公開日:2023-04-21
# 測定相転移におけるリンドブラッド展開の最適性

Optimality of Lindblad unfolding in measurement phase transitions ( http://arxiv.org/abs/2111.11391v2 )

ライセンス: Link先を確認
Michael Kolodrubetz(参考訳) ハイブリッド量子回路における絡み合い位相遷移は、測定結果が従来はフィードバックに使われていないにもかかわらず、測定平均アンサンブルよりも個々の量子軌道を記述する。 本稿では、同一の測定平均ダイナミクスを持つ一般化された測定のクラスが、異なる相転移と相転移をもたらすことを数値的に示す。 ベル状態のエンタングルメントの計測平均的破壊は、どのハイブリッド回路が最小エンタングルメントダイナミクスをもたらすかを決定する上で有用な指標である。 これを使って、我々のモデルの展開は、オープン量子システムのシミュレーションに影響を及ぼす体積則フェーズを回避できないと主張する。

Entanglement phase transitions in hybrid quantum circuits describe individual quantum trajectories rather than the measurement-averaged ensemble, despite the fact that results of measurements are not conventionally used for feedback. Here, we numerically demonstrate that a class of generalized measurements with identical measurement-averaged dynamics give different phases and phase transitions. We show that measurement-averaged destruction of Bell state entanglement is a useful proxy for determining which hybrid circuit yields the lowest-entanglement dynamics. We use this to argue that no unfolding of our model can avoid a volume law phase, which has implications for simulation of open quantum systems.
翻訳日:2023-04-24 18:37:25 公開日:2023-04-21
# 計測装置における重ね合わせ:思考実験

Superposition in Measuring Apparatus: A Thought Experiment ( http://arxiv.org/abs/2111.07730v4 )

ライセンス: Link先を確認
Vishwas KS(参考訳) 量子力学における測定問題は、重ね合わせ状態の明らかな崩壊から、測定を行う際の確定結果へと生じる。 測定装置を古典的なシステムとして扱うことは量子現象の説明に成功しているが、測定の性質と波動関数の崩壊の妥当性に関する根本的な疑問を提起する。 本稿では,量子システムとして扱われる計測装置における重ね合わせを探索する思考実験について述べる。 この実験では、2光子干渉装置でHong-Ou-Mandel効果を使用し、その結果は偶然数で示される。 具体的には、ゼロカウントは重ね合わせの存在を意味し、非ゼロカウントは波動関数の崩壊を表す。 この議論は、特に波動関数の崩壊とネスト計測に関する測定問題に対する洞察を与え、それに対する識別可能性の重要性を強調する。 波動関数が崩壊するために必要な正確な条件を探索するフレームワークを提供する。

The measurement problem in quantum mechanics arises from the apparent collapse of a superposition state to a definite outcome when a measurement is made. Although treating the measuring apparatus as a classical system has been a successful approach in explaining quantum phenomena, it raises fundamental questions about the nature of measurement and the validity of wave function collapse. In this paper, we discuss a thought experiment that explores superposition in the measuring apparatus when it is treated as a quantum system. The experiment uses the Hong-Ou-Mandel effect in a two-photon interference setup, and its outcome is indicated by the coincidence count. Specifically, a zero count implies the existence of superposition, while a non-zero count indicates a wave function collapse. The discussions provide insight into the measurement problem, particularly regarding wave function collapse and nested measurement, and highlight the importance of indistinguishability to it. It provides a framework that probes the exact conditions necessary for a wave function collapse to happen.
翻訳日:2023-04-24 18:37:13 公開日:2023-04-21
# 平滑化分離性非負行列分解

Smoothed Separable Nonnegative Matrix Factorization ( http://arxiv.org/abs/2110.05528v2 )

ライセンス: Link先を確認
Nicolas Nadisic, Nicolas Gillis, Christophe Kervazo(参考訳) 頂点の集合の凸包に属する一連のデータポイントが与えられたとき、線形代数、信号処理、データ解析、機械学習における鍵となる問題は、ノイズの存在下でこれらの頂点を推定することである。 多くのアルゴリズムは、各頂点に少なくとも1つのデータポイントが存在するという仮定の下で開発されており、最も広く使われているもののうち2つは頂点成分分析(VCA)と連続射影アルゴリズム(SPA)である。 この仮定は、ブラインド超スペクトルアンミックスにおける純粋なピクセル仮定、および非負行列因子分解における分離可能性仮定として知られている。 最近では、Bhattacharyya と Kannan (ACM-SIAM Symposium on Discrete Algorithms, 2020) が、各頂点に複数のデータポイントが存在するという仮定に依存する潜在単純性(ALLS)を学習するためのアルゴリズムを提案した。 そのシナリオでは、ALLSは分離可能性仮定に基づくアルゴリズムよりも確率的にノイズに対して堅牢である。 本稿では,各頂点に複数のデータポイントが存在することを仮定して,VCAとSPAを一般化するスムーズなVCA(SVCA)とスムーズなSPA(SSPA)を提案する。 本稿では,vca,spa,allsに対するsvcaとsspaの有効性について,合成データセット,ハイパースペクトル画像のアンミックス,顔画像データにおける特徴抽出について述べる。 さらに,本研究はVCAの新たな理論的結果を強調した。

Given a set of data points belonging to the convex hull of a set of vertices, a key problem in linear algebra, signal processing, data analysis and machine learning is to estimate these vertices in the presence of noise. Many algorithms have been developed under the assumption that there is at least one nearby data point to each vertex; two of the most widely used ones are vertex component analysis (VCA) and the successive projection algorithm (SPA). This assumption is known as the pure-pixel assumption in blind hyperspectral unmixing, and as the separability assumption in nonnegative matrix factorization. More recently, Bhattacharyya and Kannan (ACM-SIAM Symposium on Discrete Algorithms, 2020) proposed an algorithm for learning a latent simplex (ALLS) that relies on the assumption that there is more than one nearby data point to each vertex. In that scenario, ALLS is probalistically more robust to noise than algorithms based on the separability assumption. In this paper, inspired by ALLS, we propose smoothed VCA (SVCA) and smoothed SPA (SSPA) that generalize VCA and SPA by assuming the presence of several nearby data points to each vertex. We illustrate the effectiveness of SVCA and SSPA over VCA, SPA and ALLS on synthetic data sets, on the unmixing of hyperspectral images, and on feature extraction on facial images data sets. In addition, our study highlights new theoretical results for VCA.
翻訳日:2023-04-24 18:36:58 公開日:2023-04-21
# トポロジカルディープラーニング: グラフデータを超えて

Topological Deep Learning: Going Beyond Graph Data ( http://arxiv.org/abs/2206.00606v2 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Theodore Papamarkou, Nina Miolane, Aldo Guzm\'an-S\'aenz, Karthikeyan Natesan Ramamurthy, Tolga Birdal, Tamal K. Dey, Soham Mukherjee, Shreyas N. Samaga, Neal Livesay, Robin Walters, Paul Rosen, Michael T. Schaub(参考訳) トポロジカルディープラーニング(英: topological deep learning)は、単純複体、細胞複合体、ハイパーグラフなどのトポロジカルドメインでサポートされているデータのためのディープラーニングモデルの開発に関連する、急速に成長している分野である。 本稿では,広く採用されているトポロジ領域を含むよりリッチなデータ構造上に構築された,統一的な深層学習フレームワークを提案する。 具体的には,新しいタイプのトポロジカルドメインであるコンビナトリコンプレックスを導入する。 組合せ錯体は、特定の望ましい性質を維持するグラフの一般化と見なすことができる。 ハイパーグラフと同様に、組合せ錯体は関係の集合に制約を課さない。 さらに、コンビナート錯体は、単純および細胞複合体で見られるような階層的な高次関係の構築を可能にする。 したがって、組合せ錯体は、グラフニューラルネットワークの位相空間への一般化を促進する2つの有望な抽象化として出現したハイパーグラフとセル複合体の両方の有用な特性を一般化し結合する。 次に、組合せ錯体とそのリッチな組合せ構造と代数構造に基づいて、注意に基づくccnnを中心に、メッセージパッシング組合せ複合ニューラルネットワーク(ccnns)の一般クラスを構築した。 我々は、CCNNの置換と配向の等式を特徴付け、CCNN内のプーリングとアンプール操作を詳細に論じる。 第3に,メッシュ形状解析とグラフ学習に関わるタスクにおけるCCNNの性能を評価する。 我々の実験では、CCNNは最先端のディープラーニングモデルと比較すると、同じタスクに特化している。 本研究は,高次関係を異なるアプリケーションでディープラーニングモデルに組み込むことの利点を実証する。

Topological deep learning is a rapidly growing field that pertains to the development of deep learning models for data supported on topological domains such as simplicial complexes, cell complexes, and hypergraphs, which generalize many domains encountered in scientific computations. In this paper, we present a unifying deep learning framework built upon a richer data structure that includes widely adopted topological domains. Specifically, we first introduce combinatorial complexes, a novel type of topological domain. Combinatorial complexes can be seen as generalizations of graphs that maintain certain desirable properties. Similar to hypergraphs, combinatorial complexes impose no constraints on the set of relations. In addition, combinatorial complexes permit the construction of hierarchical higher-order relations, analogous to those found in simplicial and cell complexes. Thus, combinatorial complexes generalize and combine useful traits of both hypergraphs and cell complexes, which have emerged as two promising abstractions that facilitate the generalization of graph neural networks to topological spaces. Second, building upon combinatorial complexes and their rich combinatorial and algebraic structure, we develop a general class of message-passing combinatorial complex neural networks (CCNNs), focusing primarily on attention-based CCNNs. We characterize permutation and orientation equivariances of CCNNs, and discuss pooling and unpooling operations within CCNNs in detail. Third, we evaluate the performance of CCNNs on tasks related to mesh shape analysis and graph learning. Our experiments demonstrate that CCNNs have competitive performance as compared to state-of-the-art deep learning models specifically tailored to the same tasks. Our findings demonstrate the advantages of incorporating higher-order relations into deep learning models in different applications.
翻訳日:2023-04-24 18:29:03 公開日:2023-04-21
# ワッサーシュタイン勾配流による変分推定

Variational inference via Wasserstein gradient flows ( http://arxiv.org/abs/2205.15902v3 )

ライセンス: Link先を確認
Marc Lambert, Sinho Chewi, Francis Bach, Silv\`ere Bonnabel, Philippe Rigollet(参考訳) マルコフ連鎖モンテカルロ法 (MCMC) とともに、変分推論 (VI) は大規模ベイズ推論における中心的な計算手法として登場した。 真の$\pi$からサンプリングするのではなく、VI は単純だが効果的な近似 $\hat \pi$ to $\pi$ を生成することを目的としており、要約統計は計算が容易である。 しかし、よく研究されているMCMC法とは異なり、VIのアルゴリズム的保証はいまだによく理解されていない。 本研究では, ガウス測度のベレス-ヴァッサーシュタイン空間上の勾配流の理論に従えば, $\hat \pi$ をガウスあるいはガウスの混合とする VI の原理的手法を提案する。 MCMCと同様、$\pi$がlog-concaveである場合、理論上の保証が強い。

Along with Markov chain Monte Carlo (MCMC) methods, variational inference (VI) has emerged as a central computational approach to large-scale Bayesian inference. Rather than sampling from the true posterior $\pi$, VI aims at producing a simple but effective approximation $\hat \pi$ to $\pi$ for which summary statistics are easy to compute. However, unlike the well-studied MCMC methodology, algorithmic guarantees for VI are still relatively less well-understood. In this work, we propose principled methods for VI, in which $\hat \pi$ is taken to be a Gaussian or a mixture of Gaussians, which rest upon the theory of gradient flows on the Bures--Wasserstein space of Gaussian measures. Akin to MCMC, it comes with strong theoretical guarantees when $\pi$ is log-concave.
翻訳日:2023-04-24 18:28:33 公開日:2023-04-21
# 事前学習された知覚機能は差分プライベート画像生成を改善する

Pre-trained Perceptual Features Improve Differentially Private Image Generation ( http://arxiv.org/abs/2205.12900v3 )

ライセンス: Link先を確認
Fredrik Harder and Milad Jalali Asadabadi and Danica J. Sutherland and Mijung Park(参考訳) 偏極性確率勾配勾配勾配(DP-SGD)を持つ中等度サイズの生成モデルの訓練は困難であり、適切なプライバシーレベルに必要なノイズレベルは、単に大きすぎる。 代わりに、情報のある公開データセットに適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。 特に、公開データセットから学習した知覚的特徴に基づくカーネルを用いて、プライベートなターゲットデータとジェネレータの分散との間の最大平均不一致(mmd)を最小限に抑える。 mmdでは、dp-sgdのように最適化の各ステップにノイズを導入するのではなく、データ依存の用語を何度でも民営化することができる。 当社のアルゴリズムでは,MNISTやFashionMNISTなどのデータセットを大容量の$\epsilon \approx 10$で対象とする,分散における特徴を捉えたCIFAR10レベルのイメージを$\epsilon \approx 2$で生成することができる。 我々の研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすためのシンプルで強力な基盤を導入しました。 私たちのコードは \url{https://github.com/ParkLabML/DP-MEPF} で利用可能です。

Training even moderately-sized generative models with differentially-private stochastic gradient descent (DP-SGD) is difficult: the required level of noise for reasonable levels of privacy is simply too large. We advocate instead building off a good, relevant representation on an informative public dataset, then learning to model the private data with that representation. In particular, we minimize the maximum mean discrepancy (MMD) between private target data and a generator's distribution, using a kernel based on perceptual features learned from a public dataset. With the MMD, we can simply privatize the data-dependent term once and for all, rather than introducing noise at each step of optimization as in DP-SGD. Our algorithm allows us to generate CIFAR10-level images with $\epsilon \approx 2$ which capture distinctive features in the distribution, far surpassing the current state of the art, which mostly focuses on datasets such as MNIST and FashionMNIST at a large $\epsilon \approx 10$. Our work introduces simple yet powerful foundations for reducing the gap between private and non-private deep generative models. Our code is available at \url{https://github.com/ParkLabML/DP-MEPF}.
翻訳日:2023-04-24 18:28:21 公開日:2023-04-21
# 古典最適化ハミルトンシミュレーション

Classically optimized Hamiltonian simulation ( http://arxiv.org/abs/2205.11427v4 )

ライセンス: Link先を確認
Conor Mc Keever, Michael Lubasch(参考訳) ハミルトンシミュレーションは量子コンピュータが量子優位を達成するための有望な応用である。 本稿では,量子回路を最適化するためのテンソルネットワーク法に基づく古典的アルゴリズムを提案する。 トロッター積公式と比較して、古典的に最適化された回路は桁違いに精度が高く、シミュレーション時間も大幅に拡張できることを示す。

Hamiltonian simulation is a promising application for quantum computers to achieve a quantum advantage. We present classical algorithms based on tensor network methods to optimize quantum circuits for this task. We show that, compared to Trotter product formulas, the classically optimized circuits can be orders of magnitude more accurate and significantly extend the total simulation time.
翻訳日:2023-04-24 18:27:57 公開日:2023-04-21
# 教師付き学習における公平性と説明可能性の結婚

Marrying Fairness and Explainability in Supervised Learning ( http://arxiv.org/abs/2204.02947v3 )

ライセンス: Link先を確認
Przemyslaw Grabowicz, Nicholas Perello, Aarshee Mishra(参考訳) 人間の意思決定を支援する機械学習アルゴリズムは、特定の保護されたグループに対して不注意に判別することができる。 我々は,保護属性の直接的因果効果として直接的差別を定式化し,保護属性に関連する非保護的特徴の因果影響の変化として誘導的差別を導出する。 限界直接効果(MDE)とSHAP(SHapley Additive ExPlanations)の測定により、最先端のフェアラーニング手法は、合成および実世界のデータセットにおける関連性や逆の識別を通じて、識別を誘導できることが明らかになった。 アルゴリズムシステムにおける識別を抑制するため,残りの特徴を保ちながら,保護属性がシステム出力に与える影響を無効にすることを提案する。 このような目的を達成する事後処理法を紹介・検討し, モデル精度が比較的高いこと, 直接的差別を防止し, 人口格差などの様々な格差対策を減少させることを見出した。

Machine learning algorithms that aid human decision-making may inadvertently discriminate against certain protected groups. We formalize direct discrimination as a direct causal effect of the protected attributes on the decisions, while induced discrimination as a change in the causal influence of non-protected features associated with the protected attributes. The measurements of marginal direct effect (MDE) and SHapley Additive exPlanations (SHAP) reveal that state-of-the-art fair learning methods can induce discrimination via association or reverse discrimination in synthetic and real-world datasets. To inhibit discrimination in algorithmic systems, we propose to nullify the influence of the protected attribute on the output of the system, while preserving the influence of remaining features. We introduce and study post-processing methods achieving such objectives, finding that they yield relatively high model accuracy, prevent direct discrimination, and diminishes various disparity measures, e.g., demographic disparity.
翻訳日:2023-04-24 18:27:17 公開日:2023-04-21
# 3次元医用画像に対する翻訳整合半教師付きセグメンテーション

Translation Consistent Semi-supervised Segmentation for 3D Medical Images ( http://arxiv.org/abs/2203.14523v2 )

ライセンス: Link先を確認
Yuyuan Liu, Yu Tian, Chong Wang, Yuanhong Chen, Fengbei Liu, Vasileios Belagiannis, Gustavo Carneiro(参考訳) 3次元医用画像分割法は成功したが、大量のボクセルレベルのアノテートデータに依存しているため、そのようなアノテーションを得るのに高いコストがかかるため、対処する必要がある。 半教師付き学習(SSL)は、大きなラベル付きデータセットと小さなラベル付きデータセットでモデルをトレーニングすることで、この問題を解決する。 最も成功したSSLアプローチは、乱れのないデータの摂動ビューから得られたモデル応答間の距離を最小化する一貫性学習に基づいている。 これらの摂動は通常、ビュー間の空間的な入力コンテキストを一定に保つため、モデルがセグメント化されたオブジェクトの代わりに空間的な入力コンテキストからセグメント化パターンを学習する可能性がある。 本稿では、空間的な入力コンテキストを変化させることで、入力データビューを摂動する一貫性学習SSL手法であるTranslation Consistent Co-training(TraCoCo)を紹介し、視覚オブジェクトからセグメンテーションパターンを学習できるようにする。 さらに, 一般用平均二乗誤差 (MSE) の半教師付き損失を, 新しいクロスモデル自信を持つバイナリクロスエントロピー (CBC) 損失に置き換えることを提案する。 また、一般化をさらに改善するために、CutMixの拡張を3D SSLに拡張します。 我々のTrCoCoは、異なるバックボーンを持つ左房(LA)と脳腫瘍分離(BRaTS19)データセットの最先端の結果を示しています。 私たちのコードはhttps://github.com/yyliu01/TraCoCoで利用可能です。

3D medical image segmentation methods have been successful, but their dependence on large amounts of voxel-level annotated data is a disadvantage that needs to be addressed given the high cost to obtain such annotation. Semi-supervised learning (SSL) solve this issue by training models with a large unlabelled and a small labelled dataset. The most successful SSL approaches are based on consistency learning that minimises the distance between model responses obtained from perturbed views of the unlabelled data. These perturbations usually keep the spatial input context between views fairly consistent, which may cause the model to learn segmentation patterns from the spatial input contexts instead of the segmented objects. In this paper, we introduce the Translation Consistent Co-training (TraCoCo) which is a consistency learning SSL method that perturbs the input data views by varying their spatial input context, allowing the model to learn segmentation patterns from visual objects. Furthermore, we propose the replacement of the commonly used mean squared error (MSE) semi-supervised loss by a new Cross-model confident Binary Cross entropy (CBC) loss, which improves training convergence and keeps the robustness to co-training pseudo-labelling mistakes. We also extend CutMix augmentation to 3D SSL to further improve generalisation. Our TraCoCo shows state-of-the-art results for the Left Atrium (LA) and Brain Tumor Segmentation (BRaTS19) datasets with different backbones. Our code is available at https://github.com/yyliu01/TraCoCo.
翻訳日:2023-04-24 18:27:01 公開日:2023-04-21
# マスクオートエンコーダを用いた医用画像分類とセグメンテーションのための自己事前訓練

Self Pre-training with Masked Autoencoders for Medical Image Classification and Segmentation ( http://arxiv.org/abs/2203.05573v2 )

ライセンス: Link先を確認
Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras, Prateek Prasanna(参考訳) Masked Autoencoder (MAE) は視覚変換器 (ViT) の自然画像解析に有効であることが最近示されている。 部分的にマスクされた入力から全画像を再構成することにより、ViTエンコーダはコンテキスト情報を集約してマスクされた画像領域を推測する。 このコンテキストアグリゲーション能力は、各解剖学的構造が他の構造や領域と機能的におよび機械的に結びついている医療画像領域に特に不可欠であると信じている。 プリトレーニングのためのimagenetスケールの医用画像データセットがないため,医療画像解析タスクのためのmaeを用いた自己事前学習パラダイムについて検討する。 提案手法では,他のデータセットではなく,対象データのトレーニングセット上でViTを事前トレーニングする。 このように、自己事前トレーニングは、事前トレーニングデータが取得し難いシナリオの恩恵を受けることができる。 実験の結果,MAE自己訓練は胸部X線疾患分類,腹部CT多臓器分節,MRI脳腫瘍分節などの医療画像タスクを著しく改善することが示された。 コードはhttps://github.com/cvlab-stonybrook/SelfMedMAEで入手できる。

Masked Autoencoder (MAE) has recently been shown to be effective in pre-training Vision Transformers (ViT) for natural image analysis. By reconstructing full images from partially masked inputs, a ViT encoder aggregates contextual information to infer masked image regions. We believe that this context aggregation ability is particularly essential to the medical image domain where each anatomical structure is functionally and mechanically connected to other structures and regions. Because there is no ImageNet-scale medical image dataset for pre-training, we investigate a self pre-training paradigm with MAE for medical image analysis tasks. Our method pre-trains a ViT on the training set of the target data instead of another dataset. Thus, self pre-training can benefit more scenarios where pre-training data is hard to acquire. Our experimental results show that MAE self pre-training markedly improves diverse medical image tasks including chest X-ray disease classification, abdominal CT multi-organ segmentation, and MRI brain tumor segmentation. Code is available at https://github.com/cvlab-stonybrook/SelfMedMAE
翻訳日:2023-04-24 18:26:33 公開日:2023-04-21
# 細胞計測における細胞型アノテーションのための生物駆動深層生成モデル

A biology-driven deep generative model for cell-type annotation in cytometry ( http://arxiv.org/abs/2208.05745v2 )

ライセンス: Link先を確認
Quentin Blampey, Nad\`ege Bercovici, Charles-Antoine Dutertre, Isabelle Pic, Fabrice Andr\'e, Joana Mourato Ribeiro, and Paul-Henry Courn\`ede(参考訳) サイトメトリーは、異種集団内の正確な単細胞表現型を可能にする。 これらの細胞型は伝統的に手動ゲーティングによってアノテートされるが、この方法は再現性とバッチ効果に対する感受性の欠如に苦しむ。 また、最新のサイトメータ(スペクトルフローまたは質量サイトメータ)は、手作業による分析が困難で時間がかかるリッチで高次元のデータを生成する。 これらの制限に対処するために、scyan(https://github.com/mics-lab/scyan)というシングルセルのサイトメトリーアノテーションネットワークを導入し、サイトメトリーパネルに関する専門知識のみを使用して、自動的に細胞タイプをアノテートする。 我々は、Scyanが複数の公開データセット上で関連する最先端モデルよりも高速かつ解釈可能であることを実証した。 さらに、Scyanはバッチ効果除去、デバーコーディング、人口発見など、いくつかの補完的なタスクを克服している。 全体として、このモデルは細胞集団の特徴化、定量化、細胞計測の発見を加速し、緩和する。

Cytometry enables precise single-cell phenotyping within heterogeneous populations. These cell types are traditionally annotated via manual gating, but this method suffers from a lack of reproducibility and sensitivity to batch-effect. Also, the most recent cytometers - spectral flow or mass cytometers - create rich and high-dimensional data whose analysis via manual gating becomes challenging and time-consuming. To tackle these limitations, we introduce Scyan (https://github.com/MICS-Lab/scyan), a Single-cell Cytometry Annotation Network that automatically annotates cell types using only prior expert knowledge about the cytometry panel. We demonstrate that Scyan significantly outperforms the related state-of-the-art models on multiple public datasets while being faster and interpretable. In addition, Scyan overcomes several complementary tasks such as batch-effect removal, debarcoding, and population discovery. Overall, this model accelerates and eases cell population characterisation, quantification, and discovery in cytometry.
翻訳日:2023-04-24 18:20:58 公開日:2023-04-21
# 分子ポテンシャルエネルギー表面のための局所フレーム付きグラフニューラルネットワーク

Graph Neural Network with Local Frame for Molecular Potential Energy Surface ( http://arxiv.org/abs/2208.00716v2 )

ライセンス: Link先を確認
Xiyuan Wang, Muhan Zhang(参考訳) 分子ポテンシャルエネルギー表面のモデリングは科学において重要な要素である。 グラフニューラルネットワークはこの分野で大きな成功を収めている。 しかし、それらのメッセージパッシングスキームは、幾何学的情報をキャプチャし、回転同値のような対称性要件を満たすために特別な設計を必要とする。 これらの設計を避けるために,分子表現学習のための新しい局所フレーム法を導入し,その表現性を分析する。 フレーム上に投影された3d座標のような同値な特徴は不変な特徴に変換され、これらの射影で幾何学的情報をキャプチャし、対称性要求をgnn設計から切り離すことができる。 理論的には、任意の非退化フレームであっても、通常のgnnでも分子を注入的にエンコードでき、座標射影とフレーム射影で最大表現率に達することが証明される。 実験では、単純な通常のGNNアーキテクチャを使用しながら、最先端の精度を実現する。 アーキテクチャがシンプルになるとスケーラビリティも向上する。 我々のモデルは、最も効率的なベースラインに比べて30%の推論時間と10%のGPUメモリしか必要としない。

Modeling molecular potential energy surface is of pivotal importance in science. Graph Neural Networks have shown great success in this field. However, their message passing schemes need special designs to capture geometric information and fulfill symmetry requirement like rotation equivariance, leading to complicated architectures. To avoid these designs, we introduce a novel local frame method to molecule representation learning and analyze its expressivity. Projected onto a frame, equivariant features like 3D coordinates are converted to invariant features, so that we can capture geometric information with these projections and decouple the symmetry requirement from GNN design. Theoretically, we prove that given non-degenerate frames, even ordinary GNNs can encode molecules injectively and reach maximum expressivity with coordinate projection and frame-frame projection. In experiments, our model uses a simple ordinary GNN architecture yet achieves state-of-the-art accuracy. The simpler architecture also leads to higher scalability. Our model only takes about 30% inference time and 10% GPU memory compared to the most efficient baselines.
翻訳日:2023-04-24 18:20:22 公開日:2023-04-21
# カットオフをもつ等質リピータ鎖の最適絡み合い分布ポリシ

Optimal entanglement distribution policies in homogeneous repeater chains with cutoffs ( http://arxiv.org/abs/2207.06533v3 )

ライセンス: Link先を確認
\'Alvaro G. I\~nesta, Gayane Vardoyan, Lara Scavuzzo, Stephanie Wehner(参考訳) 量子記憶を持つ量子リピータの連鎖を用いて, 2成分の絡み合い分布の限界について検討する。 エンドツーエンドの絡み合いを生成するために、各ノードは隣り合う絡み合いリンクの生成を試みたり、絡み合い交換測定を行うことができる。 最大記憶時間はカットオフと呼ばれ、メモリに強制され、高品質な絡み合いが保証される。 ノードは、各操作の実行時期を決定するポリシーに従う。 グローバル知識政策は、既に生み出された絡み合いに関する情報をすべて考慮に入れている。 ここでは、エンドツーエンドの絡み合いを生み出すのに期待できる時間を最小化するグローバル知識ポリシーを見つける。 我々の手法はマルコフ決定プロセスと価値と政策の反復に基づいている。 最適なポリシを,ノードがローカル情報のみを使用するポリシと比較する。 ノード数の増加とスワップ成功の確率の低下に伴い,最適グローバルナレッジポリシによる期待デリバリ時間のアドバンテージが増加することが判明した。 我々の研究は、カットオフを伴う中間リピータの連鎖を用いて、大きな量子ネットワークで絡み合ったペアを分配する方法に光を当てています。

We study the limits of bipartite entanglement distribution using a chain of quantum repeaters that have quantum memories. To generate end-to-end entanglement, each node can attempt the generation of an entangled link with a neighbor, or perform an entanglement swapping measurement. A maximum storage time, known as cutoff, is enforced on the memories to ensure high-quality entanglement. Nodes follow a policy that determines when to perform each operation. Global-knowledge policies take into account all the information about the entanglement already produced. Here, we find global-knowledge policies that minimize the expected time to produce end-to-end entanglement. Our methods are based on Markov decision processes and value and policy iteration. We compare optimal policies to a policy in which nodes only use local information. We find that the advantage in expected delivery time provided by an optimal global-knowledge policy increases with increasing number of nodes and decreasing probability of successful swapping. Our work sheds light on how to distribute entangled pairs in large quantum networks using a chain of intermediate repeaters with cutoffs.
翻訳日:2023-04-24 18:19:44 公開日:2023-04-21
# 境界項からの宇宙論的摂動のデコヒーレンスと重力の非古典性

Decoherence of Cosmological Perturbations from Boundary Terms and the Non-Classicality of Gravity ( http://arxiv.org/abs/2207.04435v3 )

ライセンス: Link先を確認
Chon Man Sou, Duc Huy Tran, Yi Wang(参考訳) インフレーション的曲率摂動のデコヒーレンス$\zeta$は重力作用の境界項によって支配される。 この境界項は、宇宙的相関子$\left\langle \zeta^n \right\rangle$には影響しないが、以前の計算よりもずっと高速なデコヒーレンスを誘導する。 インフレーションデコヒーレンスの重力の起源は、重力の量子的(または古典的でない)性質に光を当てる。 古典的重力のシュリンガー・ニュートンの玩具モデルと比較することにより、古典的あるいは量子的起源の重力理論がデコヒーレンス率に対する異なる影響を$\zeta$と比較することによって区別できることが示される。 我々の計算は、密度ゆらぎ$\delta\rho$は、宇宙論的ベルのような実験を構築するために$\zeta$よりも量子情報を保存していることを示している。

We note that the decoherence of inflationary curvature perturbation $\zeta$ is dominated by a boundary term of the gravity action. Although this boundary term cannot affect cosmological correlators $\left\langle \zeta^n \right\rangle$, it induces much faster decoherence for $\zeta$ than that of previous calculations. The gravitational origin of inflationary decoherence sheds light on the quantum (or non-classical) nature of gravity. By comparing with a Schr\"odinger-Newton toy model of classical gravity, we show that gravity theories of classical or quantum origins can be distinguished by comparing their different impacts on decoherence rate of $\zeta$. Our calculation also indicates that density fluctuation $\delta\rho$ better preserves quantum information than $\zeta$ for the purpose of constructing cosmological Bell-like experiments.
翻訳日:2023-04-24 18:19:26 公開日:2023-04-21
# 信頼性のある表現は強力な防御力をもたらす:ロバストgnnのための教師なし構造の改良

Reliable Representations Make A Stronger Defender: Unsupervised Structure Refinement for Robust GNN ( http://arxiv.org/abs/2207.00012v4 )

ライセンス: Link先を確認
Kuan Li, Yang Liu, Xiang Ao, Jianfeng Chi, Jinghua Feng, Hao Yang, Qing He(参考訳) メッセージパッシング機構の恩恵を受けたグラフニューラルネットワーク(gnn)は、グラフデータよりも隆盛したタスクで成功している。 しかし最近の研究では、攻撃者はグラフ構造を悪質に修正することで、GNNの性能を壊滅的に低下させることができることが示されている。 この問題を解決するための簡単な解決策は、2つの端ノードのペアワイズ表現の間の計量関数を学習することでエッジウェイトをモデル化することである。 既存の手法では、エッジウェイトをモデル化するために、教師付きGNNによって学習された生の特徴または表現を使用する。 生の特徴はノードの様々な特性(例えば構造情報)を表現できないし、教師付きgnnによって学習された表現は、有毒グラフ上の分類器の性能の低下に苦しむ可能性がある。 特徴情報と、できるだけ正確な構造情報の両方を持ち、構造摂動に敏感な表現が必要である。 この目的のために、グラフ構造を最適化するための教師なしパイプラインSTABLEを提案する。 最後に、精細なグラフを下流の分類器に入力する。 そこで我々は,バニラGCNの堅牢性を大幅に向上する高度なGCNを設計する。 4つの実世界のグラフベンチマークの大規模な実験により、STABLEは最先端の手法より優れ、様々な攻撃に対してうまく防御できることを示した。

Benefiting from the message passing mechanism, Graph Neural Networks (GNNs) have been successful on flourish tasks over graph data. However, recent studies have shown that attackers can catastrophically degrade the performance of GNNs by maliciously modifying the graph structure. A straightforward solution to remedy this issue is to model the edge weights by learning a metric function between pairwise representations of two end nodes, which attempts to assign low weights to adversarial edges. The existing methods use either raw features or representations learned by supervised GNNs to model the edge weights. However, both strategies are faced with some immediate problems: raw features cannot represent various properties of nodes (e.g., structure information), and representations learned by supervised GNN may suffer from the poor performance of the classifier on the poisoned graph. We need representations that carry both feature information and as mush correct structure information as possible and are insensitive to structural perturbations. To this end, we propose an unsupervised pipeline, named STABLE, to optimize the graph structure. Finally, we input the well-refined graph into a downstream classifier. For this part, we design an advanced GCN that significantly enhances the robustness of vanilla GCN without increasing the time complexity. Extensive experiments on four real-world graph benchmarks demonstrate that STABLE outperforms the state-of-the-art methods and successfully defends against various attacks.
翻訳日:2023-04-24 18:18:43 公開日:2023-04-21
# GraphMLP: 3Dヒューマンポース推定のためのグラフMLPライクなアーキテクチャ

GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation ( http://arxiv.org/abs/2206.06420v3 )

ライセンス: Link先を確認
Wenhao Li, Hong Liu, Tianyu Guo, Runwei Ding, and Hao Tang(参考訳) 現代の多層パーセプトロン(MLP)モデルは、自己注意なしで視覚表現を学習する際の競合的な結果を示している。 しかし、既存のmlpモデルは、局所的な詳細を捉えたり、人体構成に関する事前知識を欠いているため、骨格表現学習のモデリング能力が制限されている。 これらの課題に対処するため,我々は,3次元ポーズ推定のためのグローバル・ローカル・グラフィック統一アーキテクチャにおいて,MPPとGCNを組み合わせたグラフ強化型MLPアーキテクチャーGraphMLPを提案する。 GraphMLPは、人体のグラフ構造をMLPモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たすとともに、局所的およびグローバルな空間的相互作用を可能にする。 さらに,GraphMLPをビデオ領域に柔軟かつ効率的に拡張し,複雑な時間的ダイナミクスを,列長が無視できる計算コストゲインの簡単な方法で効果的にモデル化できることを提案する。 我々の知る限りでは、これは単一のフレームとビデオシーケンスで3次元のポーズ推定を行う最初のMLPライクなアーキテクチャである。 大規模な実験により、提案したGraphMLPは、Human3.6MとMPI-INF-3DHPの2つのデータセットで最先端のパフォーマンスを達成することが示された。 コードとモデルはhttps://github.com/vegetebird/graphmlpで入手できる。

Modern multi-layer perceptron (MLP) models have shown competitive results in learning visual representations without self-attention. However, existing MLP models are not good at capturing local details and lack prior knowledge of human body configurations, which limits their modeling power for skeletal representation learning. To address these issues, we propose a simple yet effective graph-reinforced MLP-Like architecture, named GraphMLP, that combines MLPs and graph convolutional networks (GCNs) in a global-local-graphical unified architecture for 3D human pose estimation. GraphMLP incorporates the graph structure of human bodies into an MLP model to meet the domain-specific demand of the 3D human pose, while allowing for both local and global spatial interactions. Furthermore, we propose to flexibly and efficiently extend the GraphMLP to the video domain and show that complex temporal dynamics can be effectively modeled in a simple way with negligible computational cost gains in the sequence length. To the best of our knowledge, this is the first MLP-Like architecture for 3D human pose estimation in a single frame and a video sequence. Extensive experiments show that the proposed GraphMLP achieves state-of-the-art performance on two datasets, i.e., Human3.6M and MPI-INF-3DHP. Code and models are available at https://github.com/Vegetebird/GraphMLP.
翻訳日:2023-04-24 18:18:17 公開日:2023-04-21
# 非可換固有状態熱化仮説

Non-Abelian eigenstate thermalization hypothesis ( http://arxiv.org/abs/2206.05310v2 )

ライセンス: Link先を確認
Chaitanya Murthy, Arman Babakhani, Fernando Iniguez, Mark Srednicki, Nicole Yunger Halpern(参考訳) 固有状態熱化仮説 (eth) は、ハミルトニアンが対称性を持たない場合、カオス量子多体系が内部で熱化する理由を説明する。 ハミルトニアンが1つの量(電荷)を保存している場合、ETHは電荷セクター内の熱化を意味する(マイクロカノニカル部分空間)。 しかし、量子系は互いに通勤できない電荷を持ち、固有基底を共有できないため、マイクロカノニカル部分空間は存在しない。 さらに、ハミルトニアンは退化性を持つので、ETHは熱化を暗示する必要はない。 我々は、非アベリアETHを仮定し、量子熱力学で導入された近似マイクロカノニカル部分空間を誘導することにより、ETHを非可換電荷に適応する。 SU(2)対称性を図解し、非アベリア式ETHを局所観測器の時間平均および熱予測値の計算に適用する。 多くの場合、時間の平均は熱化する。 しかし、物理的に妥当な仮定の下では、時間平均が地球系の大きさの関数として異常に熱平均に収束するケースも見いだされる。 この研究は多体物理学の基礎であるETHを非可換電荷へと拡張し、近年は量子熱力学における激しい活動の対象となった。

The eigenstate thermalization hypothesis (ETH) explains why chaotic quantum many-body systems thermalize internally if the Hamiltonian lacks symmetries. If the Hamiltonian conserves one quantity ("charge"), the ETH implies thermalization within a charge sector -- in a microcanonical subspace. But quantum systems can have charges that fail to commute with each other and so share no eigenbasis; microcanonical subspaces may not exist. Furthermore, the Hamiltonian will have degeneracies, so the ETH need not imply thermalization. We adapt the ETH to noncommuting charges by positing a non-Abelian ETH and invoking the approximate microcanonical subspace introduced in quantum thermodynamics. Illustrating with SU(2) symmetry, we apply the non-Abelian ETH in calculating local observables' time-averaged and thermal expectation values. In many cases, we prove, the time average thermalizes. However, we also find cases in which, under a physically reasonable assumption, the time average converges to the thermal average unusually slowly as a function of the global-system size. This work extends the ETH, a cornerstone of many-body physics, to noncommuting charges, recently a subject of intense activity in quantum thermodynamics.
翻訳日:2023-04-24 18:17:53 公開日:2023-04-21
# 画像をどこにでも拡張する:マルチモーダル機械翻訳のための逆知識蒸留

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation ( http://arxiv.org/abs/2210.04468v2 )

ライセンス: Link先を確認
Ru Peng, Yawen Zeng, Junbo Zhao(参考訳) 過去のマルチモーダル機械翻訳(MMT)では、視覚情報を付加することによりバイリンガル設定が高められた。 しかし、マルチモーダルデータセットのイメージマスタ要件は、MTTの開発をほとんど妨げます - すなわち、[画像、ソーステキスト、ターゲットテキスト]の整列形式を必要とするのです。 この制限は、特に通常のNTT設定のように、アライメントされた画像が提供されない場合、一般的に推論フェーズで問題となる。 そこで本研究では, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークであるIKD-MMTを紹介する。 特に、マルチモーダル特徴生成器は知識蒸留モジュールで実行され、入力として(のみ)ソーステキストから直接マルチモーダル特徴を生成する。 機械翻訳のイメージフリー推論をサポートする可能性を享受する先行作品がいくつか存在するが、その性能は画像マスト翻訳に匹敵するものではない。 実験では,この手法を,すべての画像マスフレームワークを包括的に競合あるいは超越する最初の画像フリーアプローチとして認識し,多用されるMulti30kベンチマークで最先端の結果を得た。 私たちのコードとデータは、https://github.com/pengr/ikd-mmt/tree/masterで入手できます。 .

Past works on multimodal machine translation (MMT) elevate bilingual setup by incorporating additional aligned vision information. However, an image-must requirement of the multimodal dataset largely hinders MMT's development -- namely that it demands an aligned form of [image, source text, target text]. This limitation is generally troublesome during the inference phase especially when the aligned image is not provided as in the normal NMT setup. Thus, in this work, we introduce IKD-MMT, a novel MMT framework to support the image-free inference phase via an inversion knowledge distillation scheme. In particular, a multimodal feature generator is executed with a knowledge distillation module, which directly generates the multimodal feature from (only) source texts as the input. While there have been a few prior works entertaining the possibility to support image-free inference for machine translation, their performances have yet to rival the image-must translation. In our experiments, we identify our method as the first image-free approach to comprehensively rival or even surpass (almost) all image-must frameworks, and achieved the state-of-the-art result on the often-used Multi30k benchmark. Our code and data are available at: https://github.com/pengr/IKD-mmt/tree/master..
翻訳日:2023-04-24 18:10:26 公開日:2023-04-21
# バイレベル最適化によるモデルプルーニングの進展

Advancing Model Pruning via Bi-level Optimization ( http://arxiv.org/abs/2210.04092v4 )

ライセンス: Link先を確認
Yihua Zhang, Yuguang Yao, Parikshit Ram, Pu Zhao, Tianlong Chen, Mingyi Hong, Yanzhi Wang, Sijia Liu(参考訳) 実用アプリケーションにおけるデプロイメントの制約は、大規模なディープラーニングモデル、すなわち重量空間の促進を必要とする。 Lottery Ticket hypothesis (LTH)で説明されているように、プルーニングもまた一般化能力を改善する可能性がある。 LTHの中核にあるイテレーティブ・マグニチュード・プルーニング(IMP)は、「勝利のチケット」を見つけるのに成功しているプルーニング法である。 しかし、ターゲットプルーニング比が増加するにつれてIMPの計算コストは著しく増大する。 計算オーバーヘッドを低減するために、様々な効率的な「ワンショット」プルーニング手法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。 これは、プルーニング精度とプルーニング効率のギャップをいかに埋めるかという疑問を提起する。 そこで我々は,モデルプルーニングのアルゴリズムの進歩を追求する。 具体的には、新鮮で新しい2段階最適化(BLO)の観点からプルーニング問題を定式化する。 我々は,BLO解釈がIMPで使用されるプルーニング訓練学習パラダイムの効率的な実装のための技術的基盤となることを示す。 また,提案手法であるbi-level optimization-oriented pruning method (bip) は,双線形問題構造を持つblo問題の特殊クラスであることを示す。 このような双線型性を利用して、理論上BiPが一階最適化と同じくらい容易に解けることを示し、計算効率を継承する。 5つのモデルアーキテクチャと4つのデータセットによる構造化プルーニングと非構造化プルーニングの両方に関する広範な実験を通じて、BiPがIMPよりも優れた当選チケットを得られることを示し、同じモデルの精度と疎度でIMPよりも2-7倍のスピードアップを示した。

The deployment constraints in practical applications necessitate the pruning of large-scale deep learning models, i.e., promoting their weight sparsity. As illustrated by the Lottery Ticket Hypothesis (LTH), pruning also has the potential of improving their generalization ability. At the core of LTH, iterative magnitude pruning (IMP) is the predominant pruning method to successfully find 'winning tickets'. Yet, the computation cost of IMP grows prohibitively as the targeted pruning ratio increases. To reduce the computation overhead, various efficient 'one-shot' pruning methods have been developed, but these schemes are usually unable to find winning tickets as good as IMP. This raises the question of how to close the gap between pruning accuracy and pruning efficiency? To tackle it, we pursue the algorithmic advancement of model pruning. Specifically, we formulate the pruning problem from a fresh and novel viewpoint, bi-level optimization (BLO). We show that the BLO interpretation provides a technically-grounded optimization base for an efficient implementation of the pruning-retraining learning paradigm used in IMP. We also show that the proposed bi-level optimization-oriented pruning method (termed BiP) is a special class of BLO problems with a bi-linear problem structure. By leveraging such bi-linearity, we theoretically show that BiP can be solved as easily as first-order optimization, thus inheriting the computation efficiency. Through extensive experiments on both structured and unstructured pruning with 5 model architectures and 4 data sets, we demonstrate that BiP can find better winning tickets than IMP in most cases, and is computationally as efficient as the one-shot pruning schemes, demonstrating 2-7 times speedup over IMP for the same level of model accuracy and sparsity.
翻訳日:2023-04-24 18:09:43 公開日:2023-04-21
# 付加層表示のためのディープリーフネットワークと重み付きバイナリ画像に基づく新しい光フィールド符号化方式

A Novel Light Field Coding Scheme Based on Deep Belief Network & Weighted Binary Images for Additive Layered Displays ( http://arxiv.org/abs/2210.01447v2 )

ライセンス: Link先を確認
Sally Khaidem and Mansi Sharma(参考訳) 光界ディスプレイは両眼深度感覚と運動視差を提供することで没入感を生み出す。 積層光減衰層は、広い視野深度、広い視野角、高解像度の光界ディスプレイを実装するためのアプローチである。 透明なホログラフィック光学素子(hoe)層により、付加層ディスプレイを拡張現実(ar)ウェアラブルに統合することで、仮想オブジェクトを現実世界にオーバーレイし、シームレスな複合現実(xr)体験を実現することができる。 本稿では,重み付き重み付き2値画像とディープ信条ネットワーク(dbn)を用いた光場表現と符号化のための新しい枠組みを提案する。 レイヤの重み付けされたバイナリ表現により、適応ビットレートエンコーディングのフレームワークはより柔軟になる。 本フレームワークは,光フィールドデータの固有冗長性を効果的に捉え,XR表示に適した光フィールド符号化のためのスケーラブルなソリューションを提供する。 潜在コードはh.265コーデックで符号化され、レートスカラービットストリームを生成する。 最適な再構成品質を維持しつつ、重み付きバイナリ画像数とh.265量子化パラメータを変化させて適応ビットレート復号を実現する。 このフレームワークは,実および合成ベンチマークデータセット上でテストされ,提案手法のレートスケーリング性を検証する。

Light-field displays create an immersive experience by providing binocular depth sensation and motion parallax. Stacking light attenuating layers is one approach to implement a light field display with a broader depth of field, wide viewing angles and high resolution. Due to the transparent holographic optical element (HOE) layers, additive layered displays can be integrated into augmented reality (AR) wearables to overlay virtual objects onto the real world, creating a seamless mixed reality (XR) experience. This paper proposes a novel framework for light field representation and coding that utilizes Deep Belief Network (DBN) and weighted binary images suitable for additive layered displays. The weighted binary representation of layers makes the framework more flexible for adaptive bitrate encoding. The framework effectively captures intrinsic redundancies in the light field data, and thus provides a scalable solution for light field coding suitable for XR display applications. The latent code is encoded by H.265 codec generating a rate-scalable bit-stream. We achieve adaptive bitrate decoding by varying the number of weighted binary images and the H.265 quantization parameter, while maintaining an optimal reconstruction quality. The framework is tested on real and synthetic benchmark datasets, and the results validate the rate-scalable property of the proposed scheme.
翻訳日:2023-04-24 18:09:14 公開日:2023-04-21
# フォトニック回路におけるスピン量子メモリの多重制御

Multiplexed control of spin quantum memories in a photonic circuit ( http://arxiv.org/abs/2209.11853v2 )

ライセンス: Link先を確認
D. Andrew Golter, Genevieve Clark, Tareq El Dandachi, Stefan Krastanov, Andrew J. Leenheer, Noel H. Wan, Hamza Raniwala, Matthew Zimmermann, Mark Dong, Kevin C. Chen, Linsen Li, Matt Eichenfield, Gerald Gilbert, Dirk Englund(参考訳) 多くの量子情報処理アプリケーションにおける中心的なゴールは、高い忠実度で個別に制御され測定されながら互いに絡み合うことができる量子メモリのネットワークである。 この目標は、ダイヤモンド色中心スピン光子インタフェースを用いたスピン量子メモリを集積したプログラマブルフォトニック集積回路(PIC)の開発を動機付けている。 しかし、このアプローチは密集したレジスタ内の個々のスピンのマイクロ波制御に問題をもたらす。 ここでは,量子メモリ統合フォトニクスプラットフォームを提案する。 (i)複数のダイヤモンド色中心のスピンを低温で互換性のある高速プログラマブルPICプラットフォームに統合すること。 (ii)波長可変磁場勾配による個々のスピン量子ビットの選択的操作 (iii) 数値最適化マイクロ波パルス整形による複数の量子ビットの同時制御 PICプラットフォームによって実現された局所光制御と選択的スピン操作の組み合わせは、チップ内およびチップ間プラットフォーム上のスケーラブルな量子ネットワークへの道を開く。

A central goal in many quantum information processing applications is a network of quantum memories that can be entangled with each other while being individually controlled and measured with high fidelity. This goal has motivated the development of programmable photonic integrated circuits (PICs) with integrated spin quantum memories using diamond color center spin-photon interfaces. However, this approach introduces a challenge in the microwave control of individual spins within closely packed registers. Here, we present a quantum-memory-integrated photonics platform capable of (i) the integration of multiple diamond color center spins into a cryogenically compatible, high-speed programmable PIC platform; (ii) selective manipulation of individual spin qubits addressed via tunable magnetic field gradients; and (iii) simultaneous control of multiple qubits using numerically optimized microwave pulse shaping. The combination of localized optical control, enabled by the PIC platform, together with selective spin manipulation opens the path to scalable quantum networks on intra-chip and inter-chip platforms.
翻訳日:2023-04-24 18:08:24 公開日:2023-04-21
# 多成分領域に対するモジュラー共役

Modular conjugation for multicomponent regions ( http://arxiv.org/abs/2209.10711v2 )

ライセンス: Link先を確認
Nicol\'as Abate, David Blanco, Mateo Koifman, Guillem P\'erez-Nadal(参考訳) 我々は質量のないディラック場を1+1ドルの次元で考慮し、真空状態と一般的な多成分時空領域に対応する富田・竹崎モジュラー共役を計算する。 最近計算されたモジュラーフローの解析的継続によって行う。 本稿では,このモデルにおけるhaag双対性の有効性について考察する。

We consider a massless Dirac field in $1+1$ dimensions, and compute the Tomita-Takesaki modular conjugation corresponding to the vacuum state and a generic multicomponent spacetime region. We do it by analytic continuation from the modular flow, which was computed recently. We use our result to discuss the validity of Haag duality in this model.
翻訳日:2023-04-24 18:08:11 公開日:2023-04-21
# ロスランドスケープから見たブートストラップ一般化能力

Bootstrap Generalization Ability from Loss Landscape Perspective ( http://arxiv.org/abs/2209.08473v2 )

ライセンス: Link先を確認
Huanran Chen, Shitong Shao, Ziyi Wang, Zirui Shang, Jin Chen, Xiaofeng Ji, Xinxiao Wu(参考訳) ドメインの一般化は、トレーニングデータセットと異なる分布を持つ、未発見のテストデータセット、すなわち、アウトオブディストリビューションデータに基づいて、うまく一般化できるモデルを学ぶことを目的としています。 コンピュータビジョンにおける領域一般化に対処するために、この分野に損失景観理論を導入する。 具体的には、バックボーン、正規化、トレーニングパラダイム、学習率という4つの側面から、損失景観の観点からディープラーニングモデルの一般化能力をブートストラップする。 NICO++,PACS,VLCSデータセットに関する提案理論を,広範囲にわたるアブレーション研究と可視化により検証した。 さらに,この理論をECCV 2022 NICO Challenge1に適用し,ドメイン不変の手法を使わずに第3位を達成する。

Domain generalization aims to learn a model that can generalize well on the unseen test dataset, i.e., out-of-distribution data, which has different distribution from the training dataset. To address domain generalization in computer vision, we introduce the loss landscape theory into this field. Specifically, we bootstrap the generalization ability of the deep learning model from the loss landscape perspective in four aspects, including backbone, regularization, training paradigm, and learning rate. We verify the proposed theory on the NICO++, PACS, and VLCS datasets by doing extensive ablation studies as well as visualizations. In addition, we apply this theory in the ECCV 2022 NICO Challenge1 and achieve the 3rd place without using any domain invariant methods.
翻訳日:2023-04-24 18:08:05 公開日:2023-04-21
# 多次元経済複雑性と包括的グリーン成長

Multidimensional Economic Complexity and Inclusive Green Growth ( http://arxiv.org/abs/2209.08382v2 )

ライセンス: Link先を確認
Viktor Stojkoski, Philipp Koch, C\'esar A. Hidalgo(参考訳) 包括的グリーン成長を達成するためには、経済、社会、環境要因の多様さを考慮する必要がある。 これらはしばしば貿易の地理に由来する経済的複雑さの指標によって捉えられ、革新的な活動に関する重要な情報が欠落している。 このギャップを埋めるために、貿易データと特許出願や研究出版物のデータを組み合わせたモデルを構築し、包括的グリーン成長における国際的な変化を説明するために、経済複雑性指標の能力を大幅にかつ堅牢に改善する。 貿易と特許データに基づく複雑さの尺度は、将来の経済成長と所得不平等を説明するために組み合わせられ、三つの指標で高いスコアを得た国は、排出強度が低い傾向にあることを示す。 これらの知見は、貿易、技術、研究の地理学が組み合わさって、包括的グリーン成長を説明する方法を示している。

To achieve inclusive green growth, countries need to consider a multiplicity of economic, social, and environmental factors. These are often captured by metrics of economic complexity derived from the geography of trade, thus missing key information on innovative activities. To bridge this gap, we combine trade data with data on patent applications and research publications to build models that significantly and robustly improve the ability of economic complexity metrics to explain international variations in inclusive green growth. We show that measures of complexity built on trade and patent data combine to explain future economic growth and income inequality and that countries that score high in all three metrics tend to exhibit lower emission intensities. These findings illustrate how the geography of trade, technology, and research combine to explain inclusive green growth.
翻訳日:2023-04-24 18:07:52 公開日:2023-04-21
# 対数ガウス過程を用いた能動学習支援中性子分光法

Active learning-assisted neutron spectroscopy with log-Gaussian processes ( http://arxiv.org/abs/2209.00980v3 )

ライセンス: Link先を確認
Mario Teixeira Parente, Georg Brandl, Christian Franz, Uwe Stuhr, Marina Ganeva, Astrid Schneidewind(参考訳) 3軸分光器(TAS)における中性子散乱実験は、材料特性の起源を理解するために強度分布を測定することによって磁気および格子励起を研究する。 しかし、TAS実験における高需要とビームタイムの限られた利用は、その効率を改善し、実験者の時間をうまく活用できるかという自然問題を引き起こす。 実際、信号の探索を必要とする科学的な問題は数多くあるが、これは非形式的領域における測定のために手作業で行う場合、時間がかかり非効率である可能性がある。 本稿では,人間の干渉なしに自律的に実行するだけでなく,ログガウス過程を利用して数学的に健全で方法論的にロバストな方法で情報的測定を行う場所を直接提供できる確率論的アクティブラーニング手法について述べる。 最終的には、実際のTAS実験と多数の異なる励起を含むベンチマークで得られる利点を実証することができる。

Neutron scattering experiments at three-axes spectrometers (TAS) investigate magnetic and lattice excitations by measuring intensity distributions to understand the origins of materials properties. The high demand and limited availability of beam time for TAS experiments however raise the natural question whether we can improve their efficiency and make better use of the experimenter's time. In fact, there are a number of scientific problems that require searching for signals, which may be time consuming and inefficient if done manually due to measurements in uninformative regions. Here, we describe a probabilistic active learning approach that not only runs autonomously, i.e., without human interference, but can also directly provide locations for informative measurements in a mathematically sound and methodologically robust way by exploiting log-Gaussian processes. Ultimately, the resulting benefits can be demonstrated on a real TAS experiment and a benchmark including numerous different excitations.
翻訳日:2023-04-24 18:07:36 公開日:2023-04-21
# CryptOpt: 暗号化プリミティブのランダム化プログラム検索による検証済みコンパイル(フルバージョン)

CryptOpt: Verified Compilation with Randomized Program Search for Cryptographic Primitives (full version) ( http://arxiv.org/abs/2211.10665v2 )

ライセンス: Link先を確認
Joel Kuepper, Andres Erbsen, Jason Gross, Owen Conoly, Chuyue Sun, Samuel Tian, David Wu, Adam Chlipala, Chitchanok Chuengsatiansup, Daniel Genkin, Markus Wagner, Yuval Yarom(参考訳) ほとんどのソフトウェアドメインは、高レベルのコードを複数の異なるマシン言語に翻訳するコンパイラに依存しており、パフォーマンスは開発者がアセンブリ言語で直接書く忍耐力を持つものよりもそれほど悪くはない。 しかし、暗号は例外であり、多くのパフォーマンスクリティカルなルーチンが直接アセンブリ(時にはメタプログラミング層を通して)で書かれてきた。 いくつかの過去の研究は、そのアセンブリの正式な検証方法を示しており、他の研究は、正式な証明とともにCコードを自動的に生成する方法を示している。 我々は、GCCやClangが生成するものよりもはるかに高速なアセンブリコードに高レベルの暗号関数プログラムを専門とする最初のコンパイルパイプラインであるCryptOptを紹介する。 最適化側では、ターゲットcpu上で自動ベンチマークを繰り返して、アセンブリプログラムの空間にランダム検索を適用する。 形式検証側では,関数型プログラムをCライクなIRコードに変換するFiat Cryptographyフレームワークに接続して,SMTソルバとシンボリックエグゼクティブエンジンの既知の特徴の質素なサブセットを組み込んだ,プログラム等価チェッカを新たに正式に認証した。 全体的なプロトタイプは非常に実用的であり、例えばCurve25519(TLS標準の一部)とBitcoin楕円曲線secp256k1(Intel $112^{th}$と13^{th}$世代)の両方に対して、新しい高速な有限フィールド演算の実装を生成する。

Most software domains rely on compilers to translate high-level code to multiple different machine languages, with performance not too much worse than what developers would have the patience to write directly in assembly language. However, cryptography has been an exception, where many performance-critical routines have been written directly in assembly (sometimes through metaprogramming layers). Some past work has shown how to do formal verification of that assembly, and other work has shown how to generate C code automatically along with formal proof, but with consequent performance penalties vs. the best-known assembly. We present CryptOpt, the first compilation pipeline that specializes high-level cryptographic functional programs into assembly code significantly faster than what GCC or Clang produce, with mechanized proof (in Coq) whose final theorem statement mentions little beyond the input functional program and the operational semantics of x86-64 assembly. On the optimization side, we apply randomized search through the space of assembly programs, with repeated automatic benchmarking on target CPUs. On the formal-verification side, we connect to the Fiat Cryptography framework (which translates functional programs into C-like IR code) and extend it with a new formally verified program-equivalence checker, incorporating a modest subset of known features of SMT solvers and symbolic-execution engines. The overall prototype is quite practical, e.g. producing new fastest-known implementations of finite-field arithmetic for both Curve25519 (part of the TLS standard) and the Bitcoin elliptic curve secp256k1 for the Intel $12^{th}$ and $13^{th}$ generations.
翻訳日:2023-04-24 18:01:53 公開日:2023-04-21
# 高エネルギー物理における生成モデルの評価

Evaluating generative models in high energy physics ( http://arxiv.org/abs/2211.10295v2 )

ライセンス: Link先を確認
Raghav Kansal and Anni Li and Javier Duarte and Nadezda Chernyavskaya and Maurizio Pierini and Breno Orzari and Thiago Tomei(参考訳) 高エネルギー物理学(hep)におけるシミュレーションの計算課題に取り組むために、機械学習に基づく生成モデリングの研究が最近急増している。 このような代替シミュレータを実際に使用するためには、異なる生成モデルを比較し、真の分布との違いを評価するための、明確に定義されたメトリクスが必要です。 本稿では,2サンプルの適合性試験の枠組みとHEPの妥当性と有効性を用いて,評価指標とその生成モデルの故障モードに対する感度に関する最初の体系的な検討と検討を行う。 物理とコンピュータビジョンの両方の過去の研究に触発されて、fr\'echetとkernel physics distances(それぞれfpdとkpd)という2つの新しいメトリクスを提案し、単純なガウス分布と高エネルギージェットデータセットの性能を測定する様々な実験を行った。 特に FPD は, 個々の特徴分布間の KPD と Wasserstein 距離とともに, HEP における生成モデルの評価において, 試験された他のジェット分布に対して最も敏感な指標であり, 採用を推奨している。 提案手法の有効性を実証し,新しい注目型生成逆数粒子変換器と最先端のメッセージパス型生成逆数ネットワークジェットシミュレーションモデルとの比較を行った。 提案したメトリクスのコードは、オープンソースのJetNet Pythonライブラリで提供されている。

There has been a recent explosion in research into machine-learning-based generative modeling to tackle computational challenges for simulations in high energy physics (HEP). In order to use such alternative simulators in practice, we need well-defined metrics to compare different generative models and evaluate their discrepancy from the true distributions. We present the first systematic review and investigation into evaluation metrics and their sensitivity to failure modes of generative models, using the framework of two-sample goodness-of-fit testing, and their relevance and viability for HEP. Inspired by previous work in both physics and computer vision, we propose two new metrics, the Fr\'echet and kernel physics distances (FPD and KPD, respectively), and perform a variety of experiments measuring their performance on simple Gaussian-distributed, and simulated high energy jet datasets. We find FPD, in particular, to be the most sensitive metric to all alternative jet distributions tested and recommend its adoption, along with the KPD and Wasserstein distances between individual feature distributions, for evaluating generative models in HEP. We finally demonstrate the efficacy of these proposed metrics in evaluating and comparing a novel attention-based generative adversarial particle transformer to the state-of-the-art message-passing generative adversarial network jet simulation model. The code for our proposed metrics is provided in the open source JetNet Python library.
翻訳日:2023-04-24 18:01:20 公開日:2023-04-21
# RenderDiffusion:3次元再構成・塗装・生成のための画像拡散

RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation ( http://arxiv.org/abs/2211.09869v2 )

ライセンス: Link先を確認
Titas Anciukevicius, Zexiang Xu, Matthew Fisher, Paul Henderson, Hakan Bilen, Niloy J. Mitra, Paul Guerrero(参考訳) 拡散モデルは現在、条件付きおよび無条件画像生成の両方において最先端の性能を達成している。 しかし、これまでの画像拡散モデルは、ビュー一貫性のある3D生成やシングルビューオブジェクト再構成のような3D理解に必要なタスクをサポートしていない。 本稿では,単分子2次元監視のみを用いてトレーニングした3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。 提案手法の中心となるのは,シーンの中間的な3次元表現を生成・描画する新しい画像復調アーキテクチャである。 これは拡散過程の中で強い誘導構造を強制し、2次元の監督しか必要とせず、3次元の一貫した表現を提供する。 得られた3d表現は、任意のビューからレンダリングできる。 FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。 さらに、拡散ベースのアプローチでは、2dインペインティングを使って3dシーンを編集できます。

Diffusion models currently achieve state-of-the-art performance for both conditional and unconditional image generation. However, so far, image diffusion models do not support tasks required for 3D understanding, such as view-consistent 3D generation or single-view object reconstruction. In this paper, we present RenderDiffusion, the first diffusion model for 3D generation and inference, trained using only monocular 2D supervision. Central to our method is a novel image denoising architecture that generates and renders an intermediate three-dimensional representation of a scene in each denoising step. This enforces a strong inductive structure within the diffusion process, providing a 3D consistent representation while only requiring 2D supervision. The resulting 3D representation can be rendered from any view. We evaluate RenderDiffusion on FFHQ, AFHQ, ShapeNet and CLEVR datasets, showing competitive performance for generation of 3D scenes and inference of 3D scenes from 2D images. Additionally, our diffusion-based approach allows us to use 2D inpainting to edit 3D scenes.
翻訳日:2023-04-24 18:00:56 公開日:2023-04-21
# 効率的な体験リプレイのためのイベントテーブル

Event Tables for Efficient Experience Replay ( http://arxiv.org/abs/2211.00576v2 )

ライセンス: Link先を確認
Varun Kompella, Thomas J. Walsh, Samuel Barrett, Peter Wurman, Peter Stone(参考訳) experience replay(er)は、多くの深層強化学習(rl)システムの重要なコンポーネントである。 しかし、ERバッファからの均一サンプリングは、緩やかな収束と不安定な漸近的な振る舞いを引き起こす可能性がある。 本稿では,erバッファをイベントテーブルに分割するイベントテーブル(sset)からの階層化サンプリングについて述べる。 従来のモノリシックバッファアプローチに対する理論的優位性を証明し、SSETと既存の優先サンプリング戦略を組み合わせることにより、学習速度と安定性をさらに向上する。 MiniGridドメイン、ベンチマークRL環境、高忠実度カーレースシミュレータの試行の結果は、既存のERバッファサンプリング手法よりもSSETの利点と汎用性を実証している。

Experience replay (ER) is a crucial component of many deep reinforcement learning (RL) systems. However, uniform sampling from an ER buffer can lead to slow convergence and unstable asymptotic behaviors. This paper introduces Stratified Sampling from Event Tables (SSET), which partitions an ER buffer into Event Tables, each capturing important subsequences of optimal behavior. We prove a theoretical advantage over the traditional monolithic buffer approach and combine SSET with an existing prioritized sampling strategy to further improve learning speed and stability. Empirical results in challenging MiniGrid domains, benchmark RL environments, and a high-fidelity car racing simulator demonstrate the advantages and versatility of SSET over existing ER buffer sampling approaches.
翻訳日:2023-04-24 18:00:21 公開日:2023-04-21
# グラフ表現学習におけるスパーシティと高三角密度の影響

Implications of sparsity and high triangle density for graph representation learning ( http://arxiv.org/abs/2210.15277v2 )

ライセンス: Link先を確認
Hannah Sansford, Alexander Modell, Nick Whiteley, Patrick Rubin-Delanchy(参考訳) 近年の研究では、多くの三角形を含むスパースグラフは、リンク確率が内積であるノードの有限次元表現を使って再現できないことが示されている。 ここでは、ノード表現が低次元多様体上にある無限次元内積モデルを用いてそのようなグラフを再現できることを示す。 多様体の大域的な表現の復元はスパース状態では不可能である。 しかし、低次元表現が可能である局所的な近傍を拡大することができる。 我々の構成では、点が多様体上に一様分布することを許すので、三角形がコミュニティ構造を暗示しているという共通の認識に対する証拠を見出す。

Recent work has shown that sparse graphs containing many triangles cannot be reproduced using a finite-dimensional representation of the nodes, in which link probabilities are inner products. Here, we show that such graphs can be reproduced using an infinite-dimensional inner product model, where the node representations lie on a low-dimensional manifold. Recovering a global representation of the manifold is impossible in a sparse regime. However, we can zoom in on local neighbourhoods, where a lower-dimensional representation is possible. As our constructions allow the points to be uniformly distributed on the manifold, we find evidence against the common perception that triangles imply community structure.
翻訳日:2023-04-24 17:59:43 公開日:2023-04-21
# 深層強化学習剤の適応パッチ飼料化

Adaptive patch foraging in deep reinforcement learning agents ( http://arxiv.org/abs/2210.08085v2 )

ライセンス: Link先を確認
Nathan J. Wispinski, Andrew Butcher, Kory W. Mathewson, Craig S. Chapman, Matthew M. Botvinick, Patrick M. Pilarski(参考訳) パッチ採餌は生物学で最も研究されている行動最適化の課題の1つである。 しかし、生物学的知能に重要であるにもかかわらず、この行動最適化問題は人工知能研究で研究されている。 パッチフォアリングは、既知の最適解を持つため、特に研究に適しており、深層強化学習における現在の技術を見つけるのが困難である。 本稿では,生態パッチ採餌作業における深層強化学習エージェントについて検討する。 そこで,本研究では,機械学習エージェントが生物飼料と類似したパターンに適応して飼料にパッチを施し,時間的ディスカウントを考慮すれば最適なパッチ飼料化行動にアプローチできることを初めて示す。 最後に, 生物捕食の神経機構に関する実験的および理論的研究を補完する, 非ヒト捕食霊長類からの単一細胞記録に類似したエージェントの内部動態を示す。 この研究は、生態学的に有効な圧力と複雑な環境で相互作用するエージェントが共通の解決策に到達し、生物学的および人工的なエージェントの適応的、インテリジェントな振る舞いの背後に基礎的な計算が出現することを示唆している。

Patch foraging is one of the most heavily studied behavioral optimization challenges in biology. However, despite its importance to biological intelligence, this behavioral optimization problem is understudied in artificial intelligence research. Patch foraging is especially amenable to study given that it has a known optimal solution, which may be difficult to discover given current techniques in deep reinforcement learning. Here, we investigate deep reinforcement learning agents in an ecological patch foraging task. For the first time, we show that machine learning agents can learn to patch forage adaptively in patterns similar to biological foragers, and approach optimal patch foraging behavior when accounting for temporal discounting. Finally, we show emergent internal dynamics in these agents that resemble single-cell recordings from foraging non-human primates, which complements experimental and theoretical work on the neural mechanisms of biological foraging. This work suggests that agents interacting in complex environments with ecologically valid pressures arrive at common solutions, suggesting the emergence of foundational computations behind adaptive, intelligent behavior in both biological and artificial agents.
翻訳日:2023-04-24 17:59:18 公開日:2023-04-21
# Differentially Private Bootstrap: 新たなプライバシ分析と推論戦略

Differentially Private Bootstrap: New Privacy Analysis and Inference Strategies ( http://arxiv.org/abs/2210.06140v2 )

ライセンス: Link先を確認
Zhanyu Wang, Guang Cheng, Jordan Awan(参考訳) 統計解析手法にランダム性を導入することにより、個人レベルの情報を保護する。 多くのDPツールが利用可能であるにもかかわらず、DPの下で統計的推論を行うための一般的な技術が不足している。 本研究では,複数のプライベートブートストラップ推定を解放し,サンプリング分布を推定し,信頼区間(CI)を構築するDPブートストラップ手順について検討する。 当社のプライバシ分析では,単一のdpブートストラップ推定のプライバシコストについて,任意のdp機構に適用可能な新たな結果を示し,既存の文献におけるブートストラップの誤適用を識別する。 gaussian-dp (gdp) フレームワーク (dong et al.,2022) を用いて、$(\mu/\sqrt{(2-2/\mathrm{e})b}) を満たすメカニズムから$b$ dp bootstrap のリリースが、$b$ が無限になるにつれて $\mu$-gdp を満たすことを示す。 さらに,dpブートストラップ推定値とのデコンボリューションを用いて,dpで斬新なサンプリング分布を正確に推定する。 我々は,人口平均推定,ロジスティック回帰,量的回帰といったタスクの密度推定からcisを導出し,2016年カナダ国勢調査データにおけるシミュレーションと実世界実験を用いた既存の手法と比較した。 当社のプライベートciは名目カバレッジレベルに達し、質的回帰のプライベート推論への最初のアプローチを提供します。

Differentially private (DP) mechanisms protect individual-level information by introducing randomness into the statistical analysis procedure. Despite the availability of numerous DP tools, there remains a lack of general techniques for conducting statistical inference under DP. We examine a DP bootstrap procedure that releases multiple private bootstrap estimates to infer the sampling distribution and construct confidence intervals (CIs). Our privacy analysis presents new results on the privacy cost of a single DP bootstrap estimate, applicable to any DP mechanisms, and identifies some misapplications of the bootstrap in the existing literature. Using the Gaussian-DP (GDP) framework (Dong et al.,2022), we show that the release of $B$ DP bootstrap estimates from mechanisms satisfying $(\mu/\sqrt{(2-2/\mathrm{e})B})$-GDP asymptotically satisfies $\mu$-GDP as $B$ goes to infinity. Moreover, we use deconvolution with the DP bootstrap estimates to accurately infer the sampling distribution, which is novel in DP. We derive CIs from our density estimate for tasks such as population mean estimation, logistic regression, and quantile regression, and we compare them to existing methods using simulations and real-world experiments on 2016 Canada Census data. Our private CIs achieve the nominal coverage level and offer the first approach to private inference for quantile regression.
翻訳日:2023-04-24 17:58:59 公開日:2023-04-21
# 大規模モデルに対するゼロショット逆ロバストネスの理解

Understanding Zero-Shot Adversarial Robustness for Large-Scale Models ( http://arxiv.org/abs/2212.07016v2 )

ライセンス: Link先を確認
Chengzhi Mao, Scott Geng, Junfeng Yang, Xin Wang, Carl Vondrick(参考訳) CLIPのような事前訓練された大規模視覚言語モデルは、目に見えないタスクに対して強力な一般化を示している。 しかし、認識不能な逆境摂動は、新しいタスクにおけるCLIPの性能を著しく低下させる可能性がある。 本研究では,ゼロショット逆ロバスト性に対する大規模モデル適応の問題を特定し,検討する。 まず,モデル適応における2つの重要な要因(トレーニング損失と適応方法)を特定し,モデルのゼロショット対向ロバスト性に影響を及ぼす。 そこで本研究では,テキスト埋め込みと対角的視覚特徴を,少量のトレーニングデータに対するコントラスト学習と整合させる,テキスト誘導型対向的学習損失を提案する。 このトレーニング損失をモデルファインタニングと視覚的プロンプトチューニングという2つの適応手法に適用する。 テキストの欠如により視覚的なプロンプトチューニングがより効果的であるのに対し、微調整はテキストガイダンスの存在に勝利する。 全体として、私たちのアプローチはCLIPに対するゼロショットの対角性を大幅に改善し、ImageNetと15のゼロショットデータセットを平均31ポイント以上改善しました。 この研究が、大規模モデルのゼロショット対逆ロバスト性を理解することに光を当てることを願っている。

Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of \emph{adapting large-scale models for zero-shot adversarial robustness}. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.
翻訳日:2023-04-24 17:52:00 公開日:2023-04-21
# 木構造パーゼン推定器のタスク類似性に基づくメタラーニングによる多目的非階層ハイパーパラメータ最適化の高速化

Speeding up Multi-objective Non-hierarchical Hyperparameter Optimization by Task Similarity-Based Meta-Learning for the Tree-structured Parzen Estimator ( http://arxiv.org/abs/2212.06751v2 )

ライセンス: Link先を確認
Shuhei Watanabe, Noor Awad, Masaki Onishi, Frank Hutter(参考訳) ハイパーパラメータ最適化(HPO)は,ディープラーニング(DL)の性能向上のための重要なステップである。 実践者は、正確性やレイテンシなど、複数の基準の間のトレードオフに直面します。 DLの高い計算要求と効率的なHPOの需要の増大を考えると、多目的最適化(MO)の加速はますます重要になる。 HPOのメタラーニングに多大な努力を払っているにもかかわらず、既存の手法はMO木構造Parzen estimator (MO-TPE) には適用できない。 本稿では,タスク間のトップドメインの重複によって定義されるタスク類似性を用いて,TPEの取得機能をメタ学習環境に拡張する。 また,タスク類似性の限界を理論的に解析し,対処する。 実験では,表付きHPOベンチマークでMO-TPEを高速化し,最先端性能を実現する。 また, トランスフォーマーのマルチ目的ハイパーパラメータ最適化」に関するautoml 2022コンペティションにおいて, 外部から検証を行った。

Hyperparameter optimization (HPO) is a vital step in improving performance in deep learning (DL). Practitioners are often faced with the trade-off between multiple criteria, such as accuracy and latency. Given the high computational needs of DL and the growing demand for efficient HPO, the acceleration of multi-objective (MO) optimization becomes ever more important. Despite the significant body of work on meta-learning for HPO, existing methods are inapplicable to MO tree-structured Parzen estimator (MO-TPE), a simple yet powerful MO-HPO algorithm. In this paper, we extend TPE's acquisition function to the meta-learning setting using a task similarity defined by the overlap of top domains between tasks. We also theoretically analyze and address the limitations of our task similarity. In the experiments, we demonstrate that our method speeds up MO-TPE on tabular HPO benchmarks and attains state-of-the-art performance. Our method was also validated externally by winning the AutoML 2022 competition on ``Multiobjective Hyperparameter Optimization for Transformers''.
翻訳日:2023-04-24 17:51:40 公開日:2023-04-21
# Biorthogonal renormalization

Biorthogonal Renormalization ( http://arxiv.org/abs/2212.06004v2 )

ライセンス: Link先を確認
Elisabet Edvardsson, J Lukas K K\"onig, Marcus St{\aa}lhammar(参考訳) 生物直交形式は、従来の量子力学を非エルミート領域に拡張する。 しかし、生物rthogonal inner productは固有ベクトルのスケーリングによって変化することが指摘されており、その物理的意義はまだ議論されている。 ここでは、この問題を再検討し、この正規化の選択が物理的に重要である場合について議論する。 本稿では, 予測値や遷移確率などの設定量が固有ベクトルのスケーリングに依存する場合と, 生物rthogonal formalism の設定が不明瞭である場合について述べる。 明らかなスケーリングの曖昧さを解決するため、基底のゲージ選択に依存しない内部積を導入し、それに対応する数学的構造が量子力学と一致することを示す。 この形式主義を用いて、ヒルベルト空間表現の物理性に関するより深い問題を特定し、位置基底を用いて説明する。 多くの物理的結果が依拠する数学的基礎の理解を深めるだけでなく、この発見は非エルミート的ハミルトニアンによって記述されたシステム間の一貫した比較への道を開いた。

The biorthogonal formalism extends conventional quantum mechanics to the non-Hermitian realm. It has, however, been pointed out that the biorthogonal inner product changes with the scaling of the eigenvectors, an ambiguity whose physical significance is still being debated. Here, we revisit this issue and argue when this choice of normalization is of physical importance. We illustrate in which settings quantities such as expectation values and transition probabilities depend on the scaling of eigenvectors, and in which settings the biorthogonal formalism remains unambiguous. To resolve the apparent scaling ambiguity, we introduce an inner product independent of the gauge choice of basis and show that its corresponding mathematical structure is consistent with quantum mechanics. Using this formalism, we identify a deeper problem relating to the physicality of Hilbert space representations, which we illustrate using the position basis. Apart from increasing the understanding of the mathematical foundations upon which many physical results rely, our findings also pave the way towards consistent comparisons between systems described by non-Hermitian Hamiltonians.
翻訳日:2023-04-24 17:51:20 公開日:2023-04-21
# 教えるべきことを教える: データに基づく蒸留法

Teaching What You Should Teach: A Data-Based Distillation Method ( http://arxiv.org/abs/2212.05422v5 )

ライセンス: Link先を確認
Shitong Shao and Huanran Chen and Zhen Huang and Linrui Gong and Shuai Wang and Xinxiao Wu(参考訳) 実教育のシナリオでは、優秀な教師は常に自分が得意とするものを教えるが、生徒はそうではない。 これにより、生徒は自分の(または彼女の)弱点を補い、全体として良い人になるための最善の助けとなる。 そこで本研究では,知識蒸留の枠組みに「教育」戦略を導入するとともに,より効率的かつ合理的な蒸留を支援するために,望ましい増設試料を探索する「TST」というデータベースの蒸留手法を提案する。 具体的には,教師の強みを満たしているものの,生徒の弱みを見出すのに役立つ,事前バイアスを持つニューラルネットワークベースのデータ拡張モジュールを,大きさと確率を学習して適切なデータサンプルを生成する。 データ拡張モジュールと一般化蒸留パラダイムを訓練することにより、学生モデルが優れた一般化能力で学習される。 提案手法の有効性を検証するため,物体認識,検出,セグメンテーションタスクに関する広範な比較実験を行った。 CIFAR-10, ImageNet-1k, MS-COCO, Cityscapesのデータセットで得られた結果から, ほぼすべての教師と生徒のペアに対して, 最先端のパフォーマンスを実現することができた。 さらに,蒸留プロセスにおいてどのような大きさと確率が必要かを検討するために可視化研究を行う。

In real teaching scenarios, an excellent teacher always teaches what he (or she) is good at but the student is not. This gives the student the best assistance in making up for his (or her) weaknesses and becoming a good one overall. Enlightened by this, we introduce the "Teaching what you Should Teach" strategy into a knowledge distillation framework, and propose a data-based distillation method named "TST" that searches for desirable augmented samples to assist in distilling more efficiently and rationally. To be specific, we design a neural network-based data augmentation module with priori bias, which assists in finding what meets the teacher's strengths but the student's weaknesses, by learning magnitudes and probabilities to generate suitable data samples. By training the data augmentation module and the generalized distillation paradigm in turn, a student model is learned with excellent generalization ability. To verify the effectiveness of our method, we conducted extensive comparative experiments on object recognition, detection, and segmentation tasks. The results on the CIFAR-10, ImageNet-1k, MS-COCO, and Cityscapes datasets demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs. Furthermore, we conduct visualization studies to explore what magnitudes and probabilities are needed for the distillation process.
翻訳日:2023-04-24 17:51:02 公開日:2023-04-21
# バックドア拡散モデルはどうすればよいか?

How to Backdoor Diffusion Models? ( http://arxiv.org/abs/2212.05400v2 )

ライセンス: Link先を確認
Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 拡散モデルは最先端のディープラーニングエンパワードジェネレーティブモデルであり、プログレッシブノイズ付加とデノージングを通じて前方および逆拡散プロセスを学習する原理に基づいて訓練される。 そこで本研究では,バックドア攻撃に対する拡散モデルのロバスト性に関する最初の研究を行った。 具体的には,バックドア植込みのモデルトレーニング中に拡散過程を破る新たな攻撃フレームワークであるbaddiffusionを提案する。 推論段階では、バックドア拡散モデルは通常のデータ入力のためのアンタンパードジェネレータのように振る舞うが、埋め込みされたトリガー信号を受け取ると、悪いアクターが設計したターゲット結果が誤って生成される。 このような重大なリスクは、問題のあるモデルの上に構築された下流のタスクやアプリケーションに対して恐れられる。 様々なバックドアアタック設定に関する広範な実験により,baddiffusionは,高い実用性とターゲット特異性を持つ拡散モデルに一貫して影響することが示された。 さらに悪いことに、BadDiffusionは、クリーンなトレーニング済みの拡散モデルをバックドアに移植することで、コスト効率を上げることができる。 リスク軽減対策の可能性についても検討する。 以上より,拡散モデルのリスクと誤用の可能性に注目した。 私たちのコードはhttps://github.com/IBM/BadDiffusion.comで利用可能です。

Diffusion models are state-of-the-art deep learning empowered generative models that are trained based on the principle of learning forward and reverse diffusion processes via progressive noise-addition and denoising. To gain a better understanding of the limitations and potential risks, this paper presents the first study on the robustness of diffusion models against backdoor attacks. Specifically, we propose BadDiffusion, a novel attack framework that engineers compromised diffusion processes during model training for backdoor implantation. At the inference stage, the backdoored diffusion model will behave just like an untampered generator for regular data inputs, while falsely generating some targeted outcome designed by the bad actor upon receiving the implanted trigger signal. Such a critical risk can be dreadful for downstream tasks and applications built upon the problematic model. Our extensive experiments on various backdoor attack settings show that BadDiffusion can consistently lead to compromised diffusion models with high utility and target specificity. Even worse, BadDiffusion can be made cost-effective by simply finetuning a clean pre-trained diffusion model to implant backdoors. We also explore some possible countermeasures for risk mitigation. Our results call attention to potential risks and possible misuse of diffusion models. Our code is available on https://github.com/IBM/BadDiffusion.
翻訳日:2023-04-24 17:50:38 公開日:2023-04-21
# 二次元原子格子におけるフォトニックトポロジカルアンダーソン絶縁体

Photonic topological Anderson insulator in a two-dimensional atomic lattice ( http://arxiv.org/abs/2212.05046v2 )

ライセンス: Link先を確認
Sergey E. Skipetrov and Pierre Wulles(参考訳) 原子位置の異常は位相的に非自明な位相位相トポロジーのアンダーソン絶縁体(tai)を誘導し、不動原子の2次元ハニカム格子の逆電気光学的準モードを誘導する。 TAIは時間反転対称性と反転対称性の両方を同様の程度に分解する必要がある。 非ゼロトポロジカル不変量、状態密度の減少、バルク内の空間局在化擬似デバイス、および伝播エッジ状態によって特徴づけられる。 TAI からトポロジカル絶縁体 (TI) 相への遷移は、トポロジカル不変量の一定値で起こり、TAI と TI は同じトポロジカル位相を表すことを示す。

Disorder in atomic positions can induce a topologically nontrivial phase - topological Anderson insulator (TAI) - for transverse electric optical quasimodes of a two-dimensional honeycomb lattice of immobile atoms. TAI requires both time-reversal and inversion symmetries to be broken to similar extents. It is characterized by a nonzero topological invariant, a reduced density of states and spatially localized quasimodes in the bulk, as well as propagating edge states. A transition from TAI to the topological insulator (TI) phase can take place at a constant value of the topological invariant, showing that TAI and TI represent the same topological phase.
翻訳日:2023-04-24 17:50:16 公開日:2023-04-21
# 膨張する宇宙の境界におけるフェルミオン生成:冷たい原子の重力類似物

Fermion production at the boundary of an expanding universe: a cold-atom gravitational analogue ( http://arxiv.org/abs/2212.01355v5 )

ライセンス: Link先を確認
Carlos Fulgado-Claudio, Jose M. S\'anchez Vel\'azquez, Alejandro Bermudez(参考訳) フリードマン・ロバートソン・ウォーカー時空におけるディラック・フェルミオンの宇宙論的粒子生成現象を,ジャッキー・テイテルボイム重力の方程式によってスケール因子の進化が設定される(1+1)次元の場合に焦点をあてた。 この現象の量子シミュレーションへの第一歩として、2つの格子正則化を考えることにより、粒子生成の相互作用と境界を持つ時空における位相現象を探索することができる。 特に、ディラック場のウィルソン型離散化では、中間拡大によって連結された漸近的ミンコフスキー空隙は対称性で保護された位相基底状態に対応し、空間境界に指数関数的に局在したゼロモードの形で境界を現示する。 また, 粒子生成は粒子生成を伴わないna\"ive-fermion discretizationの状況と対照的に, 粒子生成がこれらのゼロモードをポピュレートできることを示した。 本稿では、ラマン格子の超低温原子を用いたこの重力アナログの量子シミュレーション手法を提案する。これは、シミュレーション時空のスケール係数に応じてラマンビームデチューニングをリアルタイムに制御することと、バンドマッピングの測定を必要とする。

We study the phenomenon of cosmological particle production of Dirac fermions in a Friedman-Robertson-Walker spacetime, focusing on a (1+1)-dimensional case in which the evolution of the scale factor is set by the equations of Jackiw-Teitelboim gravity. As a first step towards a quantum simulation of this phenomenon, we consider two possible lattice regularizations, which allow us to explore the interplay of particle production and topological phenomena in spacetimes with a boundary. In particular, for a Wilson-type discretization of the Dirac field, the asymptotic Minkowski vacua connected by the intermediate expansion corresponds to symmetry-protected topological groundstates, and have a boundary manifestation in the form of zero-modes exponentially localized to the spatial boundaries. We show that particle production can also populate these zero modes, which contrasts with the situation with a na\"ive-fermion discretization, in which conformal zero-mass fields exhibit no particle production. We present a scheme for the quantum simulation of this gravitational analogue by means of ultra-cold atoms in Raman optical lattices, which requires real-time control of the Raman-beam detuning according to the scale factor of the simulated spacetime, as well as band-mapping measurements.
翻訳日:2023-04-24 17:50:03 公開日:2023-04-21
# 複素ウェーブレットに基づくCNNからシフト不変双対モデルへ

From CNNs to Shift-Invariant Twin Models Based on Complex Wavelets ( http://arxiv.org/abs/2212.00394v2 )

ライセンス: Link先を確認
Hubert Leterme, K\'evin Polisano, Val\'erie Perrier, Karteek Alahari(参考訳) 本稿では,畳み込みニューラルネットワークにおけるシフト不変性と予測精度を向上させる新しいアンチエイリアシング手法を提案する。 具体的には、"real-valued convolutions + max pooling" (\mathbb{r}$max) を "complex-valued convolutions + modulus" (\mathbb{c}$mod) に置き換える。 我々のアプローチを正当化するために、$\mathbb{C}$Mod と $\mathbb{R}$Max は、畳み込みカーネルがバンドパスで指向(Gabor-like filter)であるときに、同等の出力を生成する。 この文脈では、$\mathbb{C}$Mod は $\mathbb{R}$Max の安定な代替品とみなすことができる。 したがって、アンチエイリアシングの前に、畳み込み核はそのようなガバーのような構造を採用するよう強制する。 対応するアーキテクチャは数学的双対(英: mathematical twin)と呼ばれ、元の自由学習されたモデルの振る舞いを模倣するためによく定義された数学的演算子を用いる。 我々のアンチエイリアス手法は,イメージネットとCIFAR-10の分類タスクにおいて,低域フィルタリングに基づく先行手法と比較して精度が高い。 いずれにせよ, 高周波の詳細保持に重点を置くアプローチは, シフト不変性と情報保存のバランスが良くなり, 性能が向上する。 さらに、並列処理よりも計算コストとメモリフットプリントが低く、実用的な実装のための有望なソリューションである。

We propose a novel antialiasing method to increase shift invariance and prediction accuracy in convolutional neural networks. Specifically, we replace the first-layer combination "real-valued convolutions + max pooling" ($\mathbb{R}$Max) by "complex-valued convolutions + modulus" ($\mathbb{C}$Mod), which is stable to translations. To justify our approach, we claim that $\mathbb{C}$Mod and $\mathbb{R}$Max produce comparable outputs when the convolution kernel is band-pass and oriented (Gabor-like filter). In this context, $\mathbb{C}$Mod can be considered as a stable alternative to $\mathbb{R}$Max. Thus, prior to antialiasing, we force the convolution kernels to adopt such a Gabor-like structure. The corresponding architecture is called mathematical twin, because it employs a well-defined mathematical operator to mimic the behavior of the original, freely-trained model. Our antialiasing approach achieves superior accuracy on ImageNet and CIFAR-10 classification tasks, compared to prior methods based on low-pass filtering. Arguably, our approach's emphasis on retaining high-frequency details contributes to a better balance between shift invariance and information preservation, resulting in improved performance. Furthermore, it has a lower computational cost and memory footprint than concurrent work, making it a promising solution for practical implementation.
翻訳日:2023-04-24 17:49:39 公開日:2023-04-21
# c-TPE:高パラメータ最適化のための不等式制約付き木構造パーゼン推定器

c-TPE: Tree-structured Parzen Estimator with Inequality Constraints for Expensive Hyperparameter Optimization ( http://arxiv.org/abs/2211.14411v2 )

ライセンス: Link先を確認
Shuhei Watanabe, Frank Hutter(参考訳) ハイパーパラメータ最適化(hpo)は、ディープラーニングアルゴリズムの強力なパフォーマンスに不可欠であり、現実世界のアプリケーションは、しばしばメモリ使用量やパフォーマンス要求の遅延といったいくつかの制約を課す。 本研究では,多用途ベイズ最適化手法である木構造パルゼン推定器(tree-structured parzen estimator, tpe)の拡張である制約付きtpe (c-tpe) を提案する。 提案するエクステンションは,既存の取得関数とオリジナルのTPEの単純な組み合わせに留まらず,パフォーマンスの低下の原因となる問題に対処する修正も含んでいる。 我々はこれらの修正を経験的および理論的に徹底的に分析し、これらの課題を効果的に克服する方法についての洞察を提供する。 実験では, 81 のHPO 設定に対して, 統計的に有意な有意な有意差を有する既存手法の中で, c-TPE が最高の平均ランク性能を示すことを示した。

Hyperparameter optimization (HPO) is crucial for strong performance of deep learning algorithms and real-world applications often impose some constraints, such as memory usage, or latency on top of the performance requirement. In this work, we propose constrained TPE (c-TPE), an extension of the widely-used versatile Bayesian optimization method, tree-structured Parzen estimator (TPE), to handle these constraints. Our proposed extension goes beyond a simple combination of an existing acquisition function and the original TPE, and instead includes modifications that address issues that cause poor performance. We thoroughly analyze these modifications both empirically and theoretically, providing insights into how they effectively overcome these challenges. In the experiments, we demonstrate that c-TPE exhibits the best average rank performance among existing methods with statistical significance on 81 expensive HPO settings.
翻訳日:2023-04-24 17:49:08 公開日:2023-04-21
# pic-score:複数生体認証における最適一致信頼度のための確率的解釈可能な比較スコア

PIC-Score: Probabilistic Interpretable Comparison Score for Optimal Matching Confidence in Single- and Multi-Biometric (Face) Recognition ( http://arxiv.org/abs/2211.12483v3 )

ライセンス: Link先を確認
Pedro C. Neto, Ana F. Sequeira, Jaime S. Cardoso, Philipp Terh\"orst(参考訳) 生体認証学の文脈では、信頼の一致とは、与えられた一致した決定が正しいという自信を指す。 多くの生体認証システムは、法医学的な調査などの重要な意思決定プロセスで運用されているため、信頼の一致を正確かつ確実に述べることが重要となる。 バイオメトリックな信頼度推定に関する以前の研究は、高い信頼度と低い信頼度をよく区別するが、解釈可能性に欠ける。 したがって、決定の正しさの正確な確率的推定は提供されない。 本研究では,確率論的解釈可能比較(PIC)スコアを提案し,そのスコアが同一のアイデンティティのサンプルから生じる確率を正確に反映する。 提案手法が最適一致信頼度をもたらすことを実証する。 他の手法とは対照的に、複数のサンプルを共同PICスコアに最適に組み合わせることで、認識および信頼度推定性能をさらに向上させることができる。 実験では、4つの公開データベースと5つの最先端顔認識システムで利用可能な全ての生体信頼度推定手法と比較した。 その結果、PICは類似したアプローチよりもはるかに正確な確率論的解釈を持ち、マルチバイオメトリック認識に非常に有効であることが示されている。 コードは公開されている。

In the context of biometrics, matching confidence refers to the confidence that a given matching decision is correct. Since many biometric systems operate in critical decision-making processes, such as in forensics investigations, accurately and reliably stating the matching confidence becomes of high importance. Previous works on biometric confidence estimation can well differentiate between high and low confidence, but lack interpretability. Therefore, they do not provide accurate probabilistic estimates of the correctness of a decision. In this work, we propose a probabilistic interpretable comparison (PIC) score that accurately reflects the probability that the score originates from samples of the same identity. We prove that the proposed approach provides optimal matching confidence. Contrary to other approaches, it can also optimally combine multiple samples in a joint PIC score which further increases the recognition and confidence estimation performance. In the experiments, the proposed PIC approach is compared against all biometric confidence estimation methods available on four publicly available databases and five state-of-the-art face recognition systems. The results demonstrate that PIC has a significantly more accurate probabilistic interpretation than similar approaches and is highly effective for multi-biometric recognition. The code is publicly-available.
翻訳日:2023-04-24 17:48:50 公開日:2023-04-21
# ホログラフィック流体:量子物理学への熱力学的道

Holographic fluids: a thermodynamic road to quantum physics ( http://arxiv.org/abs/2301.07177v2 )

ライセンス: Link先を確認
Peter V\'an(参考訳) 量子力学、超流動流体、毛細管流体は密接に関連しており、それらの関係は熱力学である。 本稿では,Liu法を用いて熱力学の要件を解析する。 従来の分岐分離法と比較すると、時空の役割が強調される。 完全コルテヴェーグ流体はホログラフィックであることが示されている。 複素場が流体の密度と速度場を表すことができ、複素スカラー場が量子力学の波動関数となるような条件を考察する。 物理系の場と粒子の表現の間の橋渡しはホログラフィであり、ホログラフィーの鍵となるのは熱力学の第二法則である。

Quantum mechanics, superfluids, and capillary fluids are closely related: it is thermodynamics that links them. In this paper, the Liu procedure is used to analyze the thermodynamic requirements. A comparison with the traditional method of divergence separation highlights the role of spacetime. It is shown that perfect Korteweg fluids are holographic. The conditions under which a complex field can represent the density and velocity fields of the fluid, and where the complex scalar field becomes a wave function of quantum mechanics, are explored. The bridge between the field and particle representations of a physical system is holography, and the key to holography is the Second Law of thermodynamics.
翻訳日:2023-04-24 17:42:18 公開日:2023-04-21
# PyExperimenter: 簡単に実験を配布し、結果を追跡できる

PyExperimenter: Easily distribute experiments and track results ( http://arxiv.org/abs/2301.06348v2 )

ライセンス: Link先を確認
Tanja Tornede, Alexander Tornede, Lukas Fehring, Lukas Gehring, Helena Graf, Jonas Hanselle, Felix Mohr, Marcel Wever(参考訳) PyExperimenterは、アルゴリズムの実験的研究の結果のセットアップ、ドキュメンテーション、実行、そしてその後の評価を容易にするツールであり、特に、関連する手作業を大幅に削減するために設計されている。 人工知能の分野で研究者が使用することを意図しているが、それらに限定されない。

PyExperimenter is a tool to facilitate the setup, documentation, execution, and subsequent evaluation of results from an empirical study of algorithms and in particular is designed to reduce the involved manual effort significantly. It is intended to be used by researchers in the field of artificial intelligence, but is not limited to those.
翻訳日:2023-04-24 17:42:08 公開日:2023-04-21
# tieval: 時間情報抽出システムのための評価フレームワーク

tieval: An Evaluation Framework for Temporal Information Extraction Systems ( http://arxiv.org/abs/2301.04643v2 )

ライセンス: Link先を確認
Hugo Sousa, Al\'ipio Jorge, Ricardo Campos(参考訳) 時間的情報抽出(tie)は過去20年間で大きな関心を集め、膨大な数のデータセットの開発につながった。 その利点にもかかわらず、大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。 一方、異なるデータセットは異なるアノテーションスキームを持つため、異なるコーパス間の競合の比較が妨げられる。 一方、各コーパスが一般的に異なるフォーマットで散布されているという事実は、研究者や専門家がすべてのパーサーを開発するのにかなりのエンジニアリング努力を必要とする。 この制約により、研究者は限られた量のデータセットを選択してシステムを評価することを余儀なくされ、結果としてシステムの互換性が制限される。 しかし、TIEシステムの互換性を妨げるもう1つの障害は、採用される評価基準である。 多くの研究は、精度、リコール、および$f_1$のような伝統的な指標を採用するが、他のいくつかの研究は、時間的認識(temporal awareness)を好んでいる。 ほとんどのシステムの評価において時間的認識が欠如している理由は明らかではないが、この決定に確実に重きを置く要因の1つは、時間的認識を計算するために時間的閉包アルゴリズムを実装する必要があることである。 全体として、これらの問題はアプローチ間の公正な比較を制限しており、その結果、時間的抽出システムの開発に繋がる。 これらの問題を緩和するために,異なるコーパスをインポートするための簡潔なインターフェースを提供し,システム評価を容易にするpythonライブラリであるtievalを開発した。 本稿では,tievalの最初の公開リリースを行い,その最も関連する機能を強調する。

Temporal information extraction (TIE) has attracted a great deal of interest over the last two decades, leading to the development of a significant number of datasets. Despite its benefits, having access to a large volume of corpora makes it difficult when it comes to benchmark TIE systems. On the one hand, different datasets have different annotation schemes, thus hindering the comparison between competitors across different corpora. On the other hand, the fact that each corpus is commonly disseminated in a different format requires a considerable engineering effort for a researcher/practitioner to develop parsers for all of them. This constraint forces researchers to select a limited amount of datasets to evaluate their systems which consequently limits the comparability of the systems. Yet another obstacle that hinders the comparability of the TIE systems is the evaluation metric employed. While most research works adopt traditional metrics such as precision, recall, and $F_1$, a few others prefer temporal awareness -- a metric tailored to be more comprehensive on the evaluation of temporal systems. Although the reason for the absence of temporal awareness in the evaluation of most systems is not clear, one of the factors that certainly weights this decision is the necessity to implement the temporal closure algorithm in order to compute temporal awareness, which is not straightforward to implement neither is currently easily available. All in all, these problems have limited the fair comparison between approaches and consequently, the development of temporal extraction systems. To mitigate these problems, we have developed tieval, a Python library that provides a concise interface for importing different corpora and facilitates system evaluation. In this paper, we present the first public release of tieval and highlight its most relevant features.
翻訳日:2023-04-24 17:42:01 公開日:2023-04-21
# FireFly: 効率的なDSPとメモリ最適化を備えたニューラルネットワークスパイクのための高速ハードウェアアクセラレータ

FireFly: A High-Throughput Hardware Accelerator for Spiking Neural Networks with Efficient DSP and Memory Optimization ( http://arxiv.org/abs/2301.01905v4 )

ライセンス: Link先を確認
Jindong Li and Guobin Shen and Dongcheng Zhao and Qian Zhang and Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)はその強い生物学的解釈性と高いエネルギー効率のために広く利用されている。 バックプロパゲーションアルゴリズムとサロゲート勾配の導入により、スパイクニューラルネットワークの構造はより複雑になり、人工ニューラルネットワークのパフォーマンスギャップは徐々に減少していった。 しかし、フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができず、SNNの開発を著しく制限している。 彼らはバイナリスパイクとシナプス重みの間の算術演算を掘り下げたり、小さなタスクで非常に高価なデバイスを使用することで、チップ上のRAMリソースを無制限に仮定したりしない。 計算効率を向上させるために,スパイキングニューロンの神経動力学を解析し,sn演算を多重蓄積演算に一般化し,xilinx超大規模fpgaにおけるdsp48e2ハードブロックを用いた高性能な演算実装を提案する。 メモリ効率を向上させるため,メモリの省力化を図り,メモリの省力化と膜電圧のメモリアクセスを実現する。 上記の2つの改良を組み合わさって、発火ニューロン(FireFly)が生み出すスパイクを処理できるFPGAアクセラレータを提案する。 FireFlyは、DSP最適化技術をSNNシナプス操作に組み込んだ最初のSNNアクセラレータである。 FireFlyは限られたリソースを持つFPGAエッジデバイスで実装されているが、300MHzでの5.53TOP/sのピーク性能は保証されている。 軽量アクセラレータとしてFireFlyは,大規模FPGAデバイスを用いた既存研究と比較して計算密度効率が最も高い。

Spiking neural networks (SNNs) have been widely used due to their strong biological interpretability and high energy efficiency. With the introduction of the backpropagation algorithm and surrogate gradient, the structure of spiking neural networks has become more complex, and the performance gap with artificial neural networks has gradually decreased. However, most SNN hardware implementations for field-programmable gate arrays (FPGAs) cannot meet arithmetic or memory efficiency requirements, which significantly restricts the development of SNNs. They do not delve into the arithmetic operations between the binary spikes and synaptic weights or assume unlimited on-chip RAM resources by using overly expensive devices on small tasks. To improve arithmetic efficiency, we analyze the neural dynamics of spiking neurons, generalize the SNN arithmetic operation to the multiplex-accumulate operation, and propose a high-performance implementation of such operation by utilizing the DSP48E2 hard block in Xilinx Ultrascale FPGAs. To improve memory efficiency, we design a memory system to enable efficient synaptic weights and membrane voltage memory access with reasonable on-chip RAM consumption. Combining the above two improvements, we propose an FPGA accelerator that can process spikes generated by the firing neuron on-the-fly (FireFly). FireFly is the first SNN accelerator that incorporates DSP optimization techniques into SNN synaptic operations. FireFly is implemented on several FPGA edge devices with limited resources but still guarantees a peak performance of 5.53TOP/s at 300MHz. As a lightweight accelerator, FireFly achieves the highest computational density efficiency compared with existing research using large FPGA devices.
翻訳日:2023-04-24 17:41:17 公開日:2023-04-21
# NeRN - ニューラルネットワークのためのニューラルネットワークの学習

NeRN -- Learning Neural Representations for Neural Networks ( http://arxiv.org/abs/2212.13554v2 )

ライセンス: Link先を確認
Maor Ashkenazi, Zohar Rimon, Ron Vainshtein, Shir Levi, Elad Richardson, Pinchas Mintz, Eran Treister(参考訳) ニューラル表現は、3dメッシュや形状から画像やビデオに至るまで、幅広い信号を効果的に再構築することが最近示されている。 正しく適応すると、事前学習された畳み込みニューラルネットワークの重みを直接表現するためにニューラルネットワーク表現が使用され、ニューラルネットワーク(nern)のためのニューラルネットワーク表現が生成される。 従来のニューラル表現法の座標入力に触発されて,ネットワーク内の各畳み込みカーネルに,アーキテクチャ上の位置に基づいて座標を割り当て,予測器ネットワークを最適化して対応する重み付けに座標をマッピングする。 視覚シーンの空間的平滑性と同様に、元のネットワークの重み付けに滑らかさ制約を組み込むことで、より良い再構築が容易になることを示す。 また,事前学習したモデル重みのわずかな摂動は,相当な精度の損失をもたらす可能性があるため,学習過程の安定化のために知識蒸留の技法を用いる。 CIFAR-10, CIFAR-100, ImageNet上で広く使用されているアーキテクチャの再構築におけるNeRNの有効性を示す。 最後に,nernを用いた2つのアプリケーションを示し,学習表現の能力を示す。

Neural Representations have recently been shown to effectively reconstruct a wide range of signals from 3D meshes and shapes to images and videos. We show that, when adapted correctly, neural representations can be used to directly represent the weights of a pre-trained convolutional neural network, resulting in a Neural Representation for Neural Networks (NeRN). Inspired by coordinate inputs of previous neural representation methods, we assign a coordinate to each convolutional kernel in our network based on its position in the architecture, and optimize a predictor network to map coordinates to their corresponding weights. Similarly to the spatial smoothness of visual scenes, we show that incorporating a smoothness constraint over the original network's weights aids NeRN towards a better reconstruction. In addition, since slight perturbations in pre-trained model weights can result in a considerable accuracy loss, we employ techniques from the field of knowledge distillation to stabilize the learning process. We demonstrate the effectiveness of NeRN in reconstructing widely used architectures on CIFAR-10, CIFAR-100, and ImageNet. Finally, we present two applications using NeRN, demonstrating the capabilities of the learned representations.
翻訳日:2023-04-24 17:40:48 公開日:2023-04-21
# 中性原子2量子ゲートのロバスト制御と最適リドバーグ状態

Robust control and optimal Rydberg states for neutral atom two-qubit gates ( http://arxiv.org/abs/2212.10159v2 )

ライセンス: Link先を確認
Madhav Mohan, Robert de Keijzer, Servaas Kokkelmans(参考訳) Rydberg状態を利用した中性原子プラットフォーム上での実験制御の偏差に対する2量子ゲートの堅牢性について検討する。 我々は,高ベル状態の忠実度を維持できる量子最適制御技術を用いて,結合強度をライドバーグ状態に有意な偏差がある場合に,ロバストなCZゲートを構築する。 このような偏差は、不均一結合場におけるレーザー強度ノイズと原子運動から生じる。 また,レーザデチューニングの偏差による誤差を軽減する手法についても論じる。 設計されたパルスは、自発放射と黒体放射によって設定された基本的な崩壊時間スケールと比較して短い時間スケールで動作する。 我々は、最適化と忠実度計算の両方において、ライドバーグ状態の有限寿命を考慮し、これはゲートをノイズの多い中間スケール量子実験に導出する。 我々は、ストロンチウム88原子の不忠実性に関連する物理的特性(寿命、偏光性、閉塞強度など)を計算し、これらの計算を用いて、我々のプロトコルの最適リドバーグ状態を特定する。

We investigate the robustness of two-qubit gates to deviations of experimental controls, on a neutral atom platform utilizing Rydberg states. We construct robust CZ gates - employing techniques from quantum optimal control - that retain high Bell state fidelity $F > 0.999$ in the presence of significant deviations of the coupling strength to the Rydberg state. Such deviations can arise from laser intensity noise and atomic motion in an inhomogeneous coupling field. We also discuss methods to mitigate errors due to deviations of the laser detuning. The designed pulses operate on timescales that are short compared to the fundamental decay timescale set by spontaneous emission and blackbody radiation. We account for the finite lifetime of the Rydberg state in both the optimisation and fidelity calculations - this makes the gates conducive to noisy intermediate-scale quantum experiments, meaning that our protocols can reduce infidelity on near-term quantum computing devices. We calculate physical properties associated with infidelity for strontium-88 atoms - including lifetimes, polarisabilities and blockade strengths - and use these calculations to identify optimal Rydberg states for our protocols, which allows for further minimisation of infidelity.
翻訳日:2023-04-24 17:40:11 公開日:2023-04-21
# グラフニューラルネットワークの記述的複雑性

The Descriptive Complexity of Graph Neural Networks ( http://arxiv.org/abs/2303.04613v2 )

ライセンス: Link先を確認
Martin Grohe(参考訳) 我々はブール回路の複雑さと記述複雑性の観点からグラフニューラルネットワーク(GNN)のパワーを分析する。 GNNの多項式サイズ境界深度ファミリーで計算できるグラフクエリは、計算と組込み関係を持つ一階述語論理のガード付きフラグメント GFO+C で正確に定義可能であることを証明した。 これにより、GNNは回路複雑性クラスTC^0に入る。 注目すべきことに、GNNファミリーは任意の実重みと、標準ReLU、ロジスティックな「sigmod」、双曲的接形関数を含む幅広い種類の活性化関数を使用することができる。 gnnがランダム初期化とグローバル読み出し(どちらも実際には広く使われているgnnの標準機能)を使用することが許されている場合、それらはしきい値ゲートを持つ有界深さブール回路、すなわちtc^0のクエリと全く同じクエリを計算できる。 さらに,GFO+Cでは,一括線形なアクティベーションと有理重みを持つ単一のGNNで計算可能なクエリが,組込み関係なく定義可能であることを示す。 したがって、それらは一様TC^0に含まれる。

We analyse the power of graph neural networks (GNNs) in terms of Boolean circuit complexity and descriptive complexity. We prove that the graph queries that can be computed by a polynomial-size bounded-depth family of GNNs are exactly those definable in the guarded fragment GFO+C of first-order logic with counting and with built-in relations. This puts GNNs in the circuit complexity class TC^0. Remarkably, the GNN families may use arbitrary real weights and a wide class of activation functions that includes the standard ReLU, logistic "sigmod", and hyperbolic tangent functions. If the GNNs are allowed to use random initialisation and global readout (both standard features of GNNs widely used in practice), they can compute exactly the same queries as bounded depth Boolean circuits with threshold gates, that is, exactly the queries in TC^0. Moreover, we show that queries computable by a single GNN with piecewise linear activations and rational weights are definable in GFO+C without built-in relations. Therefore, they are contained in uniform TC^0.
翻訳日:2023-04-24 17:33:16 公開日:2023-04-21
# 量子アニーラを用いた実世界のビンパッキング問題に対するハイブリッドアプローチ

Hybrid Approach for Solving Real-World Bin Packing Problem Instances Using Quantum Annealers ( http://arxiv.org/abs/2303.01977v2 )

ライセンス: Link先を確認
Sebasti\'an V. Romero, Eneko Osaba, Esther Villar-Rodriguez, Izaskun Oregi and Yue Ban(参考訳) アイテムを箱に効率よく詰め込むのが日常的な作業である。 Bin Packing Problemとして知られ、産業や物流から幅広い関心が寄せられているため、人工知能の分野で集中的に研究されている。 数十年前から多くの変種が提案され、実世界のユースケースに最も近い3次元のBin Packing Problemが提案されている。 本稿では,実世界の3次元ビンパッキング問題(q4realbpp)を解決するためのハイブリッド量子古典フレームワークを提案する。 一 パッケージ及びビン寸法 二 太りすぎの制限、 三 商品のカテゴリー間の親和性及び 四 商品の発注の選好 Q4RealBPPは、3dBPPの現実指向のインスタンスの解決を許可し、産業や物流部門でよく評価されている制限を検討する。

Efficient packing of items into bins is a common daily task. Known as Bin Packing Problem, it has been intensively studied in the field of artificial intelligence, thanks to the wide interest from industry and logistics. Since decades, many variants have been proposed, with the three-dimensional Bin Packing Problem as the closest one to real-world use cases. We introduce a hybrid quantum-classical framework for solving real-world three-dimensional Bin Packing Problems (Q4RealBPP), considering different realistic characteristics, such as: i) package and bin dimensions, ii) overweight restrictions, iii) affinities among item categories and iv) preferences for item ordering. Q4RealBPP permits the solving of real-world oriented instances of 3dBPP, contemplating restrictions well appreciated by industrial and logistics sectors.
翻訳日:2023-04-24 17:32:58 公開日:2023-04-21
# 量子リピータを用いた高速かつ信頼性の高い絡み合い分布:強化学習を用いたプロトコル改善のための原理

Fast and reliable entanglement distribution with quantum repeaters: principles for improving protocols using reinforcement learning ( http://arxiv.org/abs/2303.00777v2 )

ライセンス: Link先を確認
Stav Haldar, Pratik J. Barge, Sumeet Khatri, Hwang Lee(参考訳) 将来の量子通信、量子センシング、分散量子計算といった量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。 本研究では,光子損失,非理想的測定,コヒーレンスタイムの短い量子記憶といった実用上の限界を考慮し,均質かつ不均質なノードの線形鎖に沿った絡み合い分布のプロトコル/ポリティクスの改善を提案する。 幅広いパラメータに対して、我々の政策は、待ち時間とエンドツーエンドの絡み合いの忠実さの両方に関して、 '`swap-as-soon-as-as-possible'' ポリシーのような、これまで知られていた政策を改善している。 この改善は、短いコヒーレンス時間、高いリンク損失、高度に非対称なリンクなど、最も実践的なケースで最大である。 この結果を得るために,マルコフ決定プロセスを用いて絡み合い分布をモデル化し,Q-learning reinforcement learning (RL)アルゴリズムを用いて新しいポリシーを探索する。 これらの新しいポリシーは、動的で状態依存のメモリカットオフとノード間の協調によって特徴づけられる。 特に、ノード間のこのコラボレーションを定量化します。 量子化器は、各ノードが持つネットワークに関する ``global'' の知識を教えてくれる。 最後に、大規模量子ネットワークの性能に対する我々の理解は、rlや他の最適化手法を用いてそれらをシミュレートする計算効率の非効率によって制限されている。 そこで本研究では,大規模なリピータチェーンのポリシーを得るために,ポリシーをネストする手法を提案する。 小さなリピータチェーンのためのrlベースのポリシーをネストすることで、swap-as-soon-as-possibleポリシーを改善する大きなリピータチェーンのポリシーを得ることができ、長距離の絡み合い分散のためのポリシーを得るためのスケーラブルな方法の道を開くことができます。

Future quantum technologies such as quantum communication, quantum sensing, and distributed quantum computation, will rely on networks of shared entanglement between spatially separated nodes. In this work, we provide improved protocols/policies for entanglement distribution along a linear chain of nodes, both homogeneous and inhomogeneous, that take practical limitations such as photon losses, non-ideal measurements, and quantum memories with short coherence times into account. For a wide range of parameters, our policies improve upon previously known policies, such as the ``swap-as-soon-as-possible'' policy, with respect to both the waiting time and the fidelity of the end-to-end entanglement. This improvement is greatest for the most practically relevant cases, namely, for short coherence times, high link losses, and highly asymmetric links. To obtain our results, we model entanglement distribution using a Markov decision process, and then we use the Q-learning reinforcement learning (RL) algorithm to discover new policies. These new policies are characterized by dynamic, state-dependent memory cutoffs and collaboration between the nodes. In particular, we quantify this collaboration between the nodes. Our quantifiers tell us how much ``global'' knowledge of the network every node has. Finally, our understanding of the performance of large quantum networks is currently limited by the computational inefficiency of simulating them using RL or other optimization methods. Thus, in this work, we present a method for nesting policies in order to obtain policies for large repeater chains. By nesting our RL-based policies for small repeater chains, we obtain policies for large repeater chains that improve upon the swap-as-soon-as-possible policy, and thus we pave the way for a scalable method for obtaining policies for long-distance entanglement distribution.
翻訳日:2023-04-24 17:32:36 公開日:2023-04-21
# フェアガード:スマートシティにおけるハーネス論理に基づくフェアネスルール

Fairguard: Harness Logic-based Fairness Rules in Smart Cities ( http://arxiv.org/abs/2302.11137v6 )

ライセンス: Link先を確認
Yiqi Zhao, Ziyan An, Xuqing Gao, Ayan Mukhopadhyay, Meiyi Ma(参考訳) スマートシティは、大規模センサーネットワークからデータを収集、集約、活用する計算予測フレームワークで動作する。 しかし、これらのフレームワークは複数のデータソースとアルゴリズムバイアスの傾向があり、しばしば不公平な予測結果につながる。 そこで本研究では,チャタヌーガの都市データを用いて,時間的・空間的に偏差が持続することを示す。 このようなバイアスの問題を緩和するために、複雑な時間空間領域におけるスマートシティ政策調整と生成のためのマイクロレベルの時間論理に基づくアプローチであるFairguardを導入する。 Fairguardフレームワークは2つのフェーズから構成される: まず、選択した属性間の相関を最小化することにより、時間論理条件に基づいてデータのバイアスを低減できる静的ジェネレータを開発する。 次に、予測アルゴリズムの公平性を保証するために、予測結果を制御し、論理規則を利用して将来の公平な予測を生成する動的コンポーネントを設計する。 動的フェアガードは、全体的なパフォーマンスへの影響を最小限に抑えながら、実行時に保護されたグループに対する公平性を保証することができる。

Smart cities operate on computational predictive frameworks that collect, aggregate, and utilize data from large-scale sensor networks. However, these frameworks are prone to multiple sources of data and algorithmic bias, which often lead to unfair prediction results. In this work, we first demonstrate that bias persists at a micro-level both temporally and spatially by studying real city data from Chattanooga, TN. To alleviate the issue of such bias, we introduce Fairguard, a micro-level temporal logic-based approach for fair smart city policy adjustment and generation in complex temporal-spatial domains. The Fairguard framework consists of two phases: first, we develop a static generator that is able to reduce data bias based on temporal logic conditions by minimizing correlations between selected attributes. Then, to ensure fairness in predictive algorithms, we design a dynamic component to regulate prediction results and generate future fair predictions by harnessing logic rules. Evaluations show that logic-enabled static Fairguard can effectively reduce the biased correlations while dynamic Fairguard can guarantee fairness on protected groups at run-time with minimal impact on overall performance.
翻訳日:2023-04-24 17:32:04 公開日:2023-04-21
# AIとAIの衝突: ソーシャルメディアで機械生成の偽レストランレビュー

Combat AI With AI: Counteract Machine-Generated Fake Restaurant Reviews on Social Media ( http://arxiv.org/abs/2302.07731v3 )

ライセンス: Link先を確認
Alessandro Gambetti, Qiwei Han(参考訳) GPTのような生成モデルの最近の進歩は、識別不能な偽の顧客レビューをはるかに低コストで作成するために使われる可能性があるため、ソーシャルメディアプラットフォームがこれらのマシン生成の偽のレビューを検出する上での課題を提起する。 Yelpが検証した高級レストランレビューを活用して、OpenAI GPTレビュー作成者から偽レビューを生成し、最終的にGPT出力検出器を微調整して、既存のソリューションを著しく上回る偽レビューを予測することを提案する。 さらに,非礼儀正しくないレビューの予測や,レビューやユーザやレストランの特徴,書き方など,複数の次元にわたるパターンの識別にモデルを適用する。 疑わしいレビューをフィルタリングする検出システムを実装する可能性があるが、ソーシャルメディアプラットフォームはマシン生成の偽レビューに継続的に挑戦している。

Recent advances in generative models such as GPT may be used to fabricate indistinguishable fake customer reviews at a much lower cost, thus posing challenges for social media platforms to detect these machine-generated fake reviews. We propose to leverage the high-quality elite restaurant reviews verified by Yelp to generate fake reviews from the OpenAI GPT review creator and ultimately fine-tune a GPT output detector to predict fake reviews that significantly outperform existing solutions. We further apply the model to predict non-elite reviews and identify the patterns across several dimensions, such as review, user and restaurant characteristics, and writing style. We show that social media platforms are continuously challenged by machine-generated fake reviews, although they may implement detection systems to filter out suspicious reviews.
翻訳日:2023-04-24 17:31:46 公開日:2023-04-21
# SoK:画像分類におけるバックドアトリガー特性の体系的評価

SoK: A Systematic Evaluation of Backdoor Trigger Characteristics in Image Classification ( http://arxiv.org/abs/2302.01740v2 )

ライセンス: Link先を確認
Gorka Abad, Jing Xu, Stefanos Koffas, Behrad Tajalli, Stjepan Picek, Mauro Conti(参考訳) ディープラーニングは多くの機械学習タスクで優れた結果を達成します。 それでも、トレーニングセットを変更してトレーニングモデルに秘密機能を埋め込むバックドア攻撃には脆弱である。 修正されたトレーニングサンプルには秘密のプロパティがある。 e. トリガーだ 推論時に、入力がトリガーを含む場合、シークレット機能が起動され、他の場合にはモデルが正しく機能する。 多くの既知のバックドア攻撃(および防御攻撃)があるが、ステルス攻撃の展開はまだまだ容易ではない。 バックドアトリガーの作成は、多くのパラメータに依存する。 残念ながら、どのパラメータが攻撃性能に最も貢献するかはまだ研究されていない。 本稿では,バックドア攻撃の最も関連するパラメータ,すなわちトリガーサイズ,位置,色,中毒率を体系的に解析する。 コンピュータビジョンにおいて非常に一般的な転送学習を用いて、最先端モデル(ResNet、VGG、AlexNet、GoogLeNet)とデータセット(MNIST、CIFAR10、TinyImageNet)に対する攻撃を評価する。 私たちの攻撃は、研究におけるバックドア設定の大部分をカバーし、将来の作業に具体的な方向性を提供します。 私たちのコードは、結果の再現性を促進するために公開されています。

Deep learning achieves outstanding results in many machine learning tasks. Nevertheless, it is vulnerable to backdoor attacks that modify the training set to embed a secret functionality in the trained model. The modified training samples have a secret property, i. e., a trigger. At inference time, the secret functionality is activated when the input contains the trigger, while the model functions correctly in other cases. While there are many known backdoor attacks (and defenses), deploying a stealthy attack is still far from trivial. Successfully creating backdoor triggers depends on numerous parameters. Unfortunately, research has not yet determined which parameters contribute most to the attack performance. This paper systematically analyzes the most relevant parameters for the backdoor attacks, i.e., trigger size, position, color, and poisoning rate. Using transfer learning, which is very common in computer vision, we evaluate the attack on state-of-the-art models (ResNet, VGG, AlexNet, and GoogLeNet) and datasets (MNIST, CIFAR10, and TinyImageNet). Our attacks cover the majority of backdoor settings in research, providing concrete directions for future works. Our code is publicly available to facilitate the reproducibility of our results.
翻訳日:2023-04-24 17:30:59 公開日:2023-04-21
# 反統一と一般化:調査

Anti-unification and Generalization: A Survey ( http://arxiv.org/abs/2302.00277v3 )

ライセンス: Link先を確認
David M. Cerna and Temur Kutsia(参考訳) 反ユニフィケーション(英: anti-unification, AU)は、帰納的推論に使用される基本演算であり、定理証明の基礎における演算である統一に対する二重演算である。 AIとその関連コミュニティからのAUへの関心は高まっているが、この概念の体系的な研究や既存の研究の調査がなければ、調査7はしばしば、既存のアプローチによってカバーされる可能性のあるアプリケーション固有の手法の開発に頼っている。 我々は、AU研究とその応用に関する最初の調査と、現在および将来の開発を分類するための一般的なフレームワークを提供する。

Anti-unification (AU), also known as generalization, is a fundamental operation used for inductive inference and is the dual operation to unification, an operation at the foundation of theorem proving. Interest in AU from the AI and related communities is growing, but without a systematic study of the concept, nor surveys of existing work, investigations7 often resort to developing application-specific methods that may be covered by existing approaches. We provide the first survey of AU research and its applications, together with a general framework for categorizing existing and future developments.
翻訳日:2023-04-24 17:30:38 公開日:2023-04-21
# 大規模言語モデルは、テーブルベースの推論のためのエビデンスと質問を分解する

Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning ( http://arxiv.org/abs/2301.13808v2 )

ライセンス: Link先を確認
Yunhu Ye, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li(参考訳) 表に基づく推論は、深層モデルと離散的推論の組み合わせにおいて顕著な進歩を示しており、自由形式自然言語(NL)問題と構造化表データの両方を推論する必要がある。 しかしながら、従来のテーブルベースの推論ソリューションは通常、巨大なエビデンス(テーブル)の大幅な性能劣化に悩まされる。 さらに、既存のほとんどの手法は、必要な情報が様々な場所に散らばっているため、複雑な問題に対する推論に苦慮している。 上記の課題を緩和するため、我々はテーブルベースの効果的な推論のための分解器として大規模言語モデル(LLM)を利用する。 一 巨大な証拠(巨大な表)を小表(小表)に分解して、無用な情報によるテーブル推論の干渉を緩和すること。 (ii)複雑な質問をテキスト推論のより単純なサブ質問に分解する。 具体的には、まずLLMを使用して、現在の質問に関わる証拠(表)を分解し、関連する証拠を保持し、巨大なテーブルから残りの無関係な証拠を除外します。 さらに,各ステップで論理と数値計算を分離することにより,思考の連鎖の幻覚的ジレンマを軽減する「パーシング・エグゼクティオン・フィリング」戦略を提案する。 本手法は,TabFact,WikiTableQuestion,FetaQAデータセットにおいて,分解されたエビデンスや疑問を効果的に活用し,強力なベースラインを達成できることを示す。 特に、我々のモデルは、TabFactデータセットで人のパフォーマンスを初めて上回ります。

Table-based reasoning has shown remarkable progress in combining deep models with discrete reasoning, which requires reasoning over both free-form natural language (NL) questions and structured tabular data. However, previous table-based reasoning solutions usually suffer from significant performance degradation on huge evidence (tables). In addition, most existing methods struggle to reason over complex questions since the required information is scattered in different places. To alleviate the above challenges, we exploit large language models (LLMs) as decomposers for effective table-based reasoning, which (i) decompose huge evidence (a huge table) into sub-evidence (a small table) to mitigate the interference of useless information for table reasoning; and (ii) decompose complex questions into simpler sub-questions for text reasoning. Specifically, we first use the LLMs to break down the evidence (tables) involved in the current question, retaining the relevant evidence and excluding the remaining irrelevant evidence from the huge table. In addition, we propose a "parsing-execution-filling" strategy to alleviate the hallucination dilemma of the chain of thought by decoupling logic and numerical computation in each step. Extensive experiments show that our method can effectively leverage decomposed evidence and questions and outperforms the strong baselines on TabFact, WikiTableQuestion, and FetaQA datasets. Notably, our model outperforms human performance for the first time on the TabFact dataset.
翻訳日:2023-04-24 17:30:27 公開日:2023-04-21
# ChatGPTのための翻訳プロンプトの設計法 : 実証的研究

How to Design Translation Prompts for ChatGPT: An Empirical Study ( http://arxiv.org/abs/2304.02182v2 )

ライセンス: Link先を確認
Yuan Gao, Ruili Wang, Feng Hou(参考訳) 最近リリースされたChatGPTは、自然言語理解と自然言語生成において驚くべき能力を示している。 機械翻訳は言語理解と生成の能力に大きく依存している。 そこで本稿では,ChatGPTを用いた機械翻訳支援について述べる。 我々は多岐にわたる翻訳に複数の翻訳プロンプトを適用した。 実験の結果,chatgptの翻訳プロンプトの設計により,高リソース言語翻訳における商用翻訳システムと同等あるいは優れた性能が得られることがわかった。 さらに,複数の参照を用いた翻訳品質の評価を行い,chatgptは商用システムよりも優れた性能を実現する。 また、ドメイン特化翻訳の実験を行い、最終結果は、チャットgptが提供されたドメインキーワードを理解でき、適切な翻訳出力に応じて調整できることを示す。 最終的に、異なるベースプロンプト間で一貫した改善を示す、数発のプロンプトを実行します。 私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。

The recently released ChatGPT has demonstrated surprising abilities in natural language understanding and natural language generation. Machine translation relies heavily on the abilities of language understanding and generation. Thus, in this paper, we explore how to assist machine translation with ChatGPT. We adopt several translation prompts on a wide range of translations. Our experimental results show that ChatGPT with designed translation prompts can achieve comparable or better performance over commercial translation systems for high-resource language translations. We further evaluate the translation quality using multiple references, and ChatGPT achieves superior performance compared to commercial systems. We also conduct experiments on domain-specific translations, the final results show that ChatGPT is able to comprehend the provided domain keyword and adjust accordingly to output proper translations. At last, we perform few-shot prompts that show consistent improvement across different base prompts. Our work provides empirical evidence that ChatGPT still has great potential in translations.
翻訳日:2023-04-24 17:24:34 公開日:2023-04-21
# qrs特性に及ぼす心筋梗塞の影響 : シミュレーションによる検討

Influence of Myocardial Infarction on QRS Properties: A Simulation Study ( http://arxiv.org/abs/2304.01796v2 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Zhinuo (Jenny) Wang, Abhirup Banerjee, Blanca Rodriguez, Vicente Grau(参考訳) 心筋梗塞後の心の構造的変化と電気的変化の相互作用は不整脈の開始と維持に重要な役割を果たしている。 傷痕、境界領域、正常心筋の解剖学的および電気生理学的性質は心電図形態を変化させ、臨床で日常的に分析される。 しかし, 各種MI特性がQRSに与える影響は直感的に予測できないため, 本研究では, 前方計算したQRSに対して, 位置, サイズ, 経時的範囲, および導電性レベルのスカーリング領域, 境界領域の影響を系統的に検討した。 Additionally, we have compared the contributions of different QRS score criteria for quantifying post-MI pathophysiology.The propagation of electrical activity in the ventricles is simulated via a Eikonal model on a unified coordinate system.The analysis has been performed on 49 subjects, and the results imply that the QRS is capable of identifying MI, suggesting the feasibility of inversely reconstructing infarct regions from QRS.There exist sensitivity variations of different QRS criteria for identifying 17 MI scenarios, which is informative for solving the inverse problem.

The interplay between structural and electrical changes in the heart after myocardial infarction (MI) plays a key role in the initiation and maintenance of arrhythmia. The anatomical and electrophysiological properties of scar, border zone, and normal myocardium modify the electrocardiographic morphology, which is routinely analysed in clinical settings. However, the influence of various MI properties on the QRS is not intuitively predictable.In this work, we have systematically investigated the effects of 17 post-MI scenarios, varying the location, size, transmural extent, and conductive level of scarring and border zone area, on the forward-calculated QRS. Additionally, we have compared the contributions of different QRS score criteria for quantifying post-MI pathophysiology.The propagation of electrical activity in the ventricles is simulated via a Eikonal model on a unified coordinate system.The analysis has been performed on 49 subjects, and the results imply that the QRS is capable of identifying MI, suggesting the feasibility of inversely reconstructing infarct regions from QRS.There exist sensitivity variations of different QRS criteria for identifying 17 MI scenarios, which is informative for solving the inverse problem.
翻訳日:2023-04-24 17:24:21 公開日:2023-04-21
# 多様体学習におけるno-collision transportation mapsの応用

Applications of No-Collision Transportation Maps in Manifold Learning ( http://arxiv.org/abs/2304.00199v2 )

ライセンス: Link先を確認
Elisa Negrini and Levon Nurbekyan(参考訳) 本研究では,[Nurbekyan et. al., 2020]で導入された非衝突輸送マップの画像データの多様体学習への応用について検討する。 近年,移動や変形などの現象を表すデータに対して,移動距離や特徴を応用する動きが急増している。 実際、固定位置での強度を比較することは、しばしばデータ構造を明らかにしない。 no-collision map and distances in (nurbekyan et. al., 2020) は最適輸送 (ot) マップに似た幾何学的特徴に敏感であるが、最適化の欠如により計算が容易である。 本研究では,非衝突距離が単一確率測度の変換(相対的拡張)とユークリッド距離を備えた変換(相対的拡張)ベクトルとの間の等距離を与えることを示す。 さらに、非衝突輸送写像とOTおよび線形化OT写像が一般に回転の等尺性を提供していないことを証明した。 数値実験により,非衝突距離は計算コストのごく一部で他のot法やユークリッド法と比較して,いくつかの多様体学習タスクにおいて類似あるいは良好な性能が得られることが示された。

In this work, we investigate applications of no-collision transportation maps introduced in [Nurbekyan et. al., 2020] in manifold learning for image data. Recently, there has been a surge in applying transportation-based distances and features for data representing motion-like or deformation-like phenomena. Indeed, comparing intensities at fixed locations often does not reveal the data structure. No-collision maps and distances developed in [Nurbekyan et. al., 2020] are sensitive to geometric features similar to optimal transportation (OT) maps but much cheaper to compute due to the absence of optimization. In this work, we prove that no-collision distances provide an isometry between translations (respectively dilations) of a single probability measure and the translation (respectively dilation) vectors equipped with a Euclidean distance. Furthermore, we prove that no-collision transportation maps, as well as OT and linearized OT maps, do not in general provide an isometry for rotations. The numerical experiments confirm our theoretical findings and show that no-collision distances achieve similar or better performance on several manifold learning tasks compared to other OT and Euclidean-based methods at a fraction of a computational cost.
翻訳日:2023-04-24 17:23:11 公開日:2023-04-21
# 変圧器追跡のための一般化関係モデリング

Generalized Relation Modeling for Transformer Tracking ( http://arxiv.org/abs/2303.16580v3 )

ライセンス: Link先を確認
Shenyuan Gao, Chunluan Zhou, Jun Zhang(参考訳) 以前の2ストリームトラッカーと比較して、テンプレートと検索領域の早期インタラクションを可能にする最近のワンストリームトラッキングパイプラインは、目覚ましいパフォーマンス向上を達成した。 しかし、既存のワンストリームトラッカーは、常にテンプレートをエンコーダ層全体の検索領域内のすべての部分と相互作用させる。 これは、抽出された特徴表現が十分に識別できない場合に、ターゲットと背景の混乱を引き起こす可能性がある。 そこで本研究では,適応トークン分割に基づく一般化関係モデリング手法を提案する。 提案手法は,テンプレートトークンと対話する適切な検索トークンを選択することで,よりフレキシブルな関係モデリングを実現するとともに,従来の2ストリームパイプラインと1ストリームパイプラインの両方の利点を継承する。 トークン分割モジュールの並列計算とエンドツーエンド学習を容易にするために,注意マスキング戦略とgumbel-softmax手法を導入した。 大規模実験により,本手法は2ストリームと1ストリームのパイプラインよりも優れており,実時間実行速度の6つのベンチマークにおいて最先端の性能が得られることを示した。

Compared with previous two-stream trackers, the recent one-stream tracking pipeline, which allows earlier interaction between the template and search region, has achieved a remarkable performance gain. However, existing one-stream trackers always let the template interact with all parts inside the search region throughout all the encoder layers. This could potentially lead to target-background confusion when the extracted feature representations are not sufficiently discriminative. To alleviate this issue, we propose a generalized relation modeling method based on adaptive token division. The proposed method is a generalized formulation of attention-based relation modeling for Transformer tracking, which inherits the merits of both previous two-stream and one-stream pipelines whilst enabling more flexible relation modeling by selecting appropriate search tokens to interact with template tokens. An attention masking strategy and the Gumbel-Softmax technique are introduced to facilitate the parallel computation and end-to-end learning of the token division module. Extensive experiments show that our method is superior to the two-stream and one-stream pipelines and achieves state-of-the-art performance on six challenging benchmarks with a real-time running speed.
翻訳日:2023-04-24 17:22:50 公開日:2023-04-21
# ワッサースタイン自動符号化MDP:多面的保証付き高効率蒸留RL政策の形式的検証

Wasserstein Auto-encoded MDPs: Formal Verification of Efficiently Distilled RL Policies with Many-sided Guarantees ( http://arxiv.org/abs/2303.12558v2 )

ライセンス: Link先を確認
Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez(参考訳) 深層強化学習(DRL)には多くの成功談があるが、安全クリティカルなシナリオにおけるこれらの高度な手法を通じて学んだ政策の大規模展開は、正式な保証の欠如によって妨げられている。 変分マルコフ決定過程(VAE-MDPs)は、任意のRLポリシーから正式な検証可能なコントローラを蒸留するための信頼性の高いフレームワークを提供する離散潜在空間モデルである。 関連する保証は、性能と安全性の満足度などの関連する実用的側面に対処するが、VAEアプローチは、主に遅延最適化をサポートするための抽象化や表現保証が欠如していることから、いくつかの学習欠陥(後方崩壊、遅い学習速度、低速なダイナミクス推定)に悩まされている。 本稿では, 元の政策を実行するエージェントの挙動と, 正式な保証が適用される蒸留政策との間の最適輸送のペナル化形式を最小化し, それらの問題を解決する潜在空間モデルであるWasserstein Auto-encoded MDP(WAE-MDP)を紹介する。 このアプローチは蒸留方針を学習しながらバイシミュレーションを保証し,抽象化と表現モデルの質を具体的に最適化する。 実験の結果, 蒸留法が10倍高速であるのに加えて, 潜水モデルの品質も高いことがわかった。 さらに, 潜在空間上での簡易な時間-損失検証アルゴリズムを用いて実験を行う。 このような簡単な検証手法が実現できたという事実は、その適用性を強調している。

Although deep reinforcement learning (DRL) has many success stories, the large-scale deployment of policies learned through these advanced techniques in safety-critical scenarios is hindered by their lack of formal guarantees. Variational Markov Decision Processes (VAE-MDPs) are discrete latent space models that provide a reliable framework for distilling formally verifiable controllers from any RL policy. While the related guarantees address relevant practical aspects such as the satisfaction of performance and safety properties, the VAE approach suffers from several learning flaws (posterior collapse, slow learning speed, poor dynamics estimates), primarily due to the absence of abstraction and representation guarantees to support latent optimization. We introduce the Wasserstein auto-encoded MDP (WAE-MDP), a latent space model that fixes those issues by minimizing a penalized form of the optimal transport between the behaviors of the agent executing the original policy and the distilled policy, for which the formal guarantees apply. Our approach yields bisimulation guarantees while learning the distilled policy, allowing concrete optimization of the abstraction and representation model quality. Our experiments show that, besides distilling policies up to 10 times faster, the latent model quality is indeed better in general. Moreover, we present experiments from a simple time-to-failure verification algorithm on the latent space. The fact that our approach enables such simple verification techniques highlights its applicability.
翻訳日:2023-04-24 17:22:29 公開日:2023-04-21
# 動的モデル学習のためのベンチマークとしての特定水族館の運用データ:8時間地平線上での有効予測モデル探索

Operating data of a specific Aquatic Center as a Benchmark for dynamic model learning: search for a valid prediction model over an 8-hour horizon ( http://arxiv.org/abs/2303.07195v2 )

ライセンス: Link先を確認
Fran\c{c}ois Gauthier-Clerc, Hoel Le Capitaine, Fabien Claveau, Philippe Chevrel(参考訳) 本稿では,運用中の公営スイミングプールのデータに基づく識別ベンチマークを提案する。 このようなシステムは複雑なプロセスであり、すべての利害関係者が容易に理解できる。 究極の目標は、サービス品質のレベルを維持しながら、エネルギー法案を減らすことである。 この目的は一般に範囲が広く、公共のスイミングプールに限定されない。 これは、経済予測制御と呼ばれる方法で効果的に行うことができる。 この種の高度な制御はプロセスモデルに基づいている。 本稿の目的は,このような動的モデルが動作データから得られることを示すため,検討されたベンチマークである。 そのため、運用データは形式化され、共有され、モデル品質指標が提案される。 この結果に基づいて, 線形多変量モデルとニューラル・ダイナミック・モデルを用いて, 線形多変量モデルにより得られた結果を示す。 ベンチマークでは、他の提案と、コントロールとデータサイエンティストによる比較結果を求めている。

This article presents an identification benchmark based on data from a public swimming pool in operation. Such a system is both a complex process and easily understandable by all with regard to the stakes. Ultimately, the objective is to reduce the energy bill while maintaining the level of quality of service. This objective is general in scope and is not limited to public swimming pools. This can be done effectively through what is known as economic predictive control. This type of advanced control is based on a process model. It is the aim of this article and the considered benchmark to show that such a dynamic model can be obtained from operating data. For this, operational data is formatted and shared, and model quality indicators are proposed. On this basis, the first identification results illustrate the results obtained by a linear multivariable model on the one hand, and by a neural dynamic model on the other hand. The benchmark calls for other proposals and results from control and data scientists for comparison.
翻訳日:2023-04-24 17:21:27 公開日:2023-04-21
# ディフューザによる画像の検出

Detecting Images Generated by Diffusers ( http://arxiv.org/abs/2303.05275v3 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Andrea Esuli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 本稿では,テキスト・画像拡散モデルにより生成された画像を検出するタスクについて検討する。 これを評価するために,MSCOCOおよびWikimediaデータセットのキャプションから生成された画像について,静的拡散とGLIDEの2つの最先端モデルを用いて検討する。 本実験では,クリップや従来の畳み込みニューラルネットワーク(cnns)から抽出した特徴から,単純多層パーセプトロン(mlps)を用いて生成画像の検出が可能であることを示す。 また,安定拡散によって生成した画像にトレーニングされたモデルが比較的よく検出できるのを観察したが,逆は成り立たない。 最後に,画像に関連付けられたテキスト情報を組み込むことで検出結果が著しく向上することは稀であるが,画像に表される被写体の種類が性能に有意な影響を与える可能性があることを見出した。 この研究は、生成された画像の検出可能性に関する洞察を提供し、現実世界のアプリケーションにおけるセキュリティとプライバシの懸念に影響を及ぼす。 結果はhttps://github.com/davide-coccomini/detecting-images-create-by-diffusersで再生できます。

This paper explores the task of detecting images generated by text-to-image diffusion models. To evaluate this, we consider images generated from captions in the MSCOCO and Wikimedia datasets using two state-of-the-art models: Stable Diffusion and GLIDE. Our experiments show that it is possible to detect the generated images using simple Multi-Layer Perceptrons (MLPs), starting from features extracted by CLIP, or traditional Convolutional Neural Networks (CNNs). We also observe that models trained on images generated by Stable Diffusion can detect images generated by GLIDE relatively well, however, the reverse is not true. Lastly, we find that incorporating the associated textual information with the images rarely leads to significant improvement in detection results but that the type of subject depicted in the image can have a significant impact on performance. This work provides insights into the feasibility of detecting generated images, and has implications for security and privacy concerns in real-world applications. The code to reproduce our results is available at: https://github.com/davide-coccomini/Detecting-Images-Generated-by-Diffusers
翻訳日:2023-04-24 17:21:13 公開日:2023-04-21
# samが医用画像に出会うとき:多相肝腫瘍分画におけるsegment anything model(sam)の検討

When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation ( http://arxiv.org/abs/2304.08506v2 )

ライセンス: Link先を確認
Chuanfei Hu, Xinde Li(参考訳) 大規模なサンプルなしでセグメンテーションを学ぶことは、人間の固有の能力である。 最近、segment anything model (sam)は、コンピュータビジョンコミュニティからかなりの注目を集めるゼロショット画像のセグメンテーションを実行する。 本稿では,医療画像解析におけるSAMの有用性,特にMPLiTS(multi-phase liver tumor segmentation)について,プロンプト,データ分解能,位相の観点から検討する。 実験の結果、SAMと期待性能の間に大きなギャップがあることが示されている。 幸いなことに、質的な結果はSAMがインタラクティブな医療画像セグメンテーションのコミュニティにとって強力なアノテーションツールであることを示している。

Learning to segmentation without large-scale samples is an inherent capability of human. Recently, Segment Anything Model (SAM) performs the significant zero-shot image segmentation, attracting considerable attention from the computer vision community. Here, we investigate the capability of SAM for medical image analysis, especially for multi-phase liver tumor segmentation (MPLiTS), in terms of prompts, data resolution, phases. Experimental results demonstrate that there might be a large gap between SAM and expected performance. Fortunately, the qualitative results show that SAM is a powerful annotation tool for the community of interactive medical image segmentation.
翻訳日:2023-04-24 17:14:20 公開日:2023-04-21
# 責任あるAIを実装する:倫理的側面の緊張とトレードオフ

Implementing Responsible AI: Tensions and Trade-Offs Between Ethics Aspects ( http://arxiv.org/abs/2304.08275v2 )

ライセンス: Link先を確認
Conrad Sanderson, David Douglas, Qinghua Lu(参考訳) 責任あるAIに対する多くの倫理原則が、AI/MLシステムの誤用と悪用に関する懸念を和らげるために提案されている。 このような原則の基本的な側面は、プライバシー、正確性、公正性、堅牢性、説明可能性、透明性である。 しかし、これらの側面の間には潜在的な緊張関係があり、これらの原則に従おうとするAI/ML開発者には困難をもたらしている。 例えば、AI/MLシステムの精度を高めることで、その説明可能性を減らすことができる。 この作業では、原則を実践するための継続的な取り組みの一環として、10の顕著な緊張、トレードオフ、および基盤となる側面の間のその他の相互作用のカタログをまとめ、議論します。 主に双方向の対話に焦点を合わせ、さまざまな文献にまたがるサポートを描いています。 このカタログは、倫理原則の側面間の相互作用の認識を高めるとともに、AI/MLシステムのデザイナと開発者による十分に支持された判断を促進するのに役立つ。

Many sets of ethics principles for responsible AI have been proposed to allay concerns about misuse and abuse of AI/ML systems. The underlying aspects of such sets of principles include privacy, accuracy, fairness, robustness, explainability, and transparency. However, there are potential tensions between these aspects that pose difficulties for AI/ML developers seeking to follow these principles. For example, increasing the accuracy of an AI/ML system may reduce its explainability. As part of the ongoing effort to operationalise the principles into practice, in this work we compile and discuss a catalogue of 10 notable tensions, trade-offs and other interactions between the underlying aspects. We primarily focus on two-sided interactions, drawing on support spread across a diverse literature. This catalogue can be helpful in raising awareness of the possible interactions between aspects of ethics principles, as well as facilitating well-supported judgements by the designers and developers of AI/ML systems.
翻訳日:2023-04-24 17:13:58 公開日:2023-04-21
# 中国のオープンインストラクションジェネラリスト:予備リリース

Chinese Open Instruction Generalist: A Preliminary Release ( http://arxiv.org/abs/2304.07987v3 )

ライセンス: Link先を確認
Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wenhao Huang, Jie Fu(参考訳) InstructGPT~\citep{ouyang2022training} と ChatGPT\footnote{\url{https://chat.openai.com/}} のリリースで研究者や一般の注目を集めている。 英語指向の大規模言語モデル (LLM) は目覚ましい進歩を遂げているが, 英語をベースとしたLLMが, 英語タスクと多言語タスクでよく似た機能を発揮するか, チューニングに必要なコーパスを構築するかは, いまだ未定である。 このギャップを解消するために,4つのサブタスクの特徴に適応した様々な手法による中国語命令データセット作成の試みとして提案する。 我々は、品質を保証するために手作業でチェックされた約200万の中国語命令チューニングサンプルを収集した。 また、既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。 得られた \textbf{C}hinese \textbf{O}pen \textbf{I}nstruction \textbf{G}eneralist (\textbf{COIG}) corpora は Huggingface\footnote{\url{https://huggingface.co/datasets/BAAI/COIG}} と Github\footnote{\url{https://github.com/BAAI-Zlab/COIG}} で利用可能で、継続的に更新される。

Instruction tuning is widely recognized as a key technique for building generalist language models, which has attracted the attention of researchers and the public with the release of InstructGPT~\citep{ouyang2022training} and ChatGPT\footnote{\url{https://chat.openai.com/}}. Despite impressive progress in English-oriented large-scale language models (LLMs), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and briefly describe some potential applications of the newly constructed Chinese instruction corpora. The resulting \textbf{C}hinese \textbf{O}pen \textbf{I}nstruction \textbf{G}eneralist (\textbf{COIG}) corpora are available in Huggingface\footnote{\url{https://huggingface.co/datasets/BAAI/COIG}} and Github\footnote{\url{https://github.com/BAAI-Zlab/COIG}}, and will be continuously updated.
翻訳日:2023-04-24 17:13:42 公開日:2023-04-21
# r-softmax:制御可能なスパース率を持つ一般化ソフトマックス

r-softmax: Generalized Softmax with Controllable Sparsity Rate ( http://arxiv.org/abs/2304.05243v3 )

ライセンス: Link先を確認
Klaudia Ba{\l}azy, {\L}ukasz Struski, Marek \'Smieja, Jacek Tabor(参考訳) 近年,ニューラルネットワークモデルが多くの分野において顕著な成果を上げている。 モデルが提供する表現を確率分布にマッピングする関数は、ディープラーニングソリューションの不可分な側面である。 softmaxは機械学習コミュニティで一般的に受け入れられている確率マッピング関数であるが、スパース出力を返すことはできず、常にすべての位置に正の確率を広げる。 本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。 既存のスパース確率写像関数とは対照的に、出力スパース性レベルを制御するための直感的なメカニズムを提供する。 r-softmaxがsoftmaxの他のスパースな代替品よりも優れ、オリジナルのsoftmaxと高い競合性を持つ複数のマルチラベルデータセットを示す。 また,事前学習したトランスフォーマー言語モデルの自己接続モジュールにr-softmaxを適用し,異なる自然言語処理タスクでモデルを微調整した場合の性能向上を実証する。

Nowadays artificial neural network models achieve remarkable results in many disciplines. Functions mapping the representation provided by the model to the probability distribution are the inseparable aspect of deep learning solutions. Although softmax is a commonly accepted probability mapping function in the machine learning community, it cannot return sparse outputs and always spreads the positive probability to all positions. In this paper, we propose r-softmax, a modification of the softmax, outputting sparse probability distribution with controllable sparsity rate. In contrast to the existing sparse probability mapping functions, we provide an intuitive mechanism for controlling the output sparsity level. We show on several multi-label datasets that r-softmax outperforms other sparse alternatives to softmax and is highly competitive with the original softmax. We also apply r-softmax to the self-attention module of a pre-trained transformer language model and demonstrate that it leads to improved performance when fine-tuning the model on different natural language processing tasks.
翻訳日:2023-04-24 17:12:57 公開日:2023-04-21
# YOLOv8アルゴリズムを用いた小児関節外傷X線画像の破壊検出

Fracture Detection in Pediatric Wrist Trauma X-ray Images Using YOLOv8 Algorithm ( http://arxiv.org/abs/2304.05071v2 )

ライセンス: Link先を確認
Rui-Yang Ju, Weiming Cai(参考訳) 病院の救急部門では、多くの骨折が頻繁に発生し、そのほとんどが小児手首外傷骨折である。 小児外科医が手術を行う前は,骨折がどのように発生したか患者に質問し,x線像を解釈して骨折状況を分析する必要がある。 X線画像の解釈は、しばしば放射線医と外科医の技法の組み合わせを必要とする。 コンピュータビジョンの分野におけるディープラーニングの台頭に伴い、破壊検出に適用するネットワークモデルが重要な研究課題となっている。 本稿では,手首外傷患者6,091人のX線画像を含むGRAZPEDWRI-DXデータセット上で,YOLOv8アルゴリズムを用いてモデルをトレーニングする。 実験の結果, YOLOv8lモデルでは平均平均精度が63.6%で, YOLOv8nモデルは1つのCPUで67.4ms/X線画像の推測時間を実現している。 本研究は, YOLOv8アルゴリズムの一般化性が高く, YOLOv8 Appを用いたフラクチャー検出(フラクチャー検出)を作成し, X線画像における骨折の解釈を支援し, エラーの可能性を低減し, 骨折手術に有用な情報を提供する。 実装コードはhttps://github.com/RuiyangJu/Bone_Fracture_Detection_YOLOv8で公開されています。

Hospital emergency departments frequently receive lots of bone fracture cases, with pediatric wrist trauma fracture accounting for the majority of them. Before pediatric surgeons perform surgery, they need to ask patients how the fracture occurred and analyze the fracture situation by interpreting X-ray images. The interpretation of X-ray images often requires a combination of techniques from radiologists and surgeons, which requires time-consuming specialized training. With the rise of deep learning in the field of computer vision, network models applying for fracture detection has become an important research topic. In this paper, YOLOv8 algorithm is used to train models on the GRAZPEDWRI-DX dataset, which includes X-ray images from 6,091 pediatric patients with wrist trauma. The experimental results show that YOLOv8 algorithm models have different advantages for different model sizes, with YOLOv8l model achieving the highest mean average precision (mAP 50) of 63.6%, and YOLOv8n model achieving the inference time of 67.4ms per X-ray image on one single CPU with low computing power. This work demonstrates that YOLOv8 algorithm has good generalizability and creates the "Fracture Detection Using YOLOv8 App" to assist surgeons in interpreting fractures in X-ray images, reducing the probability of error, and providing more useful information for fracture surgery. Our implementation code is released at https://github.com/RuiyangJu/Bone_Fracture_Detection_YOLOv8.
翻訳日:2023-04-24 17:12:41 公開日:2023-04-21
# コンテクスト対応変圧器を用いた高ダイナミックレンジイメージング

High Dynamic Range Imaging with Context-aware Transformer ( http://arxiv.org/abs/2304.04416v4 )

ライセンス: Link先を確認
Fangfang Zhou, Dan Zhang and Zhenming Fu(参考訳) 高ダイナミックレンジ(HDR)画像としてLDR画像を合成する際のゴーストの導入を避けることが課題である。 畳み込みニューラルネットワーク(CNN)は、一般的にHDRゴースト除去に有効であるが、大きな動きや過飽和/下降がある場合、LDR画像に対処することは困難である。 CNNとTransformerを組み合わせた既存のデュアルブランチ方式では、非参照画像から情報の一部を省略する一方、CNNベースのブランチによって抽出された特徴は、劣化と過飽和/過飽和領域の回復に寄与する小さな受容野でカーネルサイズに結合する。 本稿では,グローバル特徴と局所特徴を同時に抽出する,ゴーストフリーhdr(hdt-hdr)画像生成のための階層的二重変換手法を提案する。 まず、空間的注意機構を備えたcnnベースの頭部を用いて、全てのldr画像から特徴を抽出する。 第2に、LDR機能は階層デュアルトランス(HDT)に配信される。 各Dual Transformer(DT)では、グローバルな特徴をウィンドウベースのTransformerによって抽出し、局所的な詳細を変形可能なCNNを用いてチャネルアテンション機構を用いて抽出する。 そして、HDT出力の次元マッピングによりゴーストフリーHDR画像を得る。 既存のHDRゴースト除去法において,HDT-HDRは最先端の性能を発揮することを示した。

Avoiding the introduction of ghosts when synthesising LDR images as high dynamic range (HDR) images is a challenging task. Convolutional neural networks (CNNs) are effective for HDR ghost removal in general, but are challenging to deal with the LDR images if there are large movements or oversaturation/undersaturation. Existing dual-branch methods combining CNN and Transformer omit part of the information from non-reference images, while the features extracted by the CNN-based branch are bound to the kernel size with small receptive field, which are detrimental to the deblurring and the recovery of oversaturated/undersaturated regions. In this paper, we propose a novel hierarchical dual Transformer method for ghost-free HDR (HDT-HDR) images generation, which extracts global features and local features simultaneously. First, we use a CNN-based head with spatial attention mechanisms to extract features from all the LDR images. Second, the LDR features are delivered to the Hierarchical Dual Transformer (HDT). In each Dual Transformer (DT), the global features are extracted by the window-based Transformer, while the local details are extracted using the channel attention mechanism with deformable CNNs. Finally, the ghost free HDR image is obtained by dimensional mapping on the HDT output. Abundant experiments demonstrate that our HDT-HDR achieves the state-of-the-art performance among existing HDR ghost removal methods.
翻訳日:2023-04-24 17:12:16 公開日:2023-04-21
# End-to-End TTSシステムにおける話者独立語句分割モデルの検討

An investigation of speaker independent phrase break models in End-to-End TTS systems ( http://arxiv.org/abs/2304.04157v2 )

ライセンス: Link先を確認
Anandaswarup Vadapalli(参考訳) 本稿では, 終末TSシステムの文脈におけるフレーズブレーク予測に関する研究について, 以下の質問に動機づけられた。 (i)エンド・ツー・エンドのttsシステムに明示的なフラージングモデルを組み込むユーティリティは存在するか? と (II)エンドツーエンドTSシステムにおける表現モデルの有効性をどう評価するか。 特に,子どもの物語合成におけるフレーズブレーク予測モデルの有用性と有効性について,リスナー理解を用いて評価した。 学習したフラージングモデルを用いてフレーズブレークの位置を予測した後、フレーズブレイクの位置を予測せずに直接合成したストーリーよりも、フレーズブレイクの位置を予測した後に合成されたストーリーに明確な好みがあることを知覚的リスニング評価により示す。

This paper presents our work on phrase break prediction in the context of end-to-end TTS systems, motivated by the following questions: (i) Is there any utility in incorporating an explicit phrasing model in an end-to-end TTS system?, and (ii) How do you evaluate the effectiveness of a phrasing model in an end-to-end TTS system? In particular, the utility and effectiveness of phrase break prediction models are evaluated in in the context of childrens story synthesis, using listener comprehension. We show by means of perceptual listening evaluations that there is a clear preference for stories synthesized after predicting the location of phrase breaks using a trained phrasing model, over stories directly synthesized without predicting the location of phrase breaks.
翻訳日:2023-04-24 17:11:50 公開日:2023-04-21
# 近似スタイナー木と最小スパンニング木に対する漸近的に高速な量子分散アルゴリズム

Asymptotically Faster Quantum Distributed Algorithms for Approximate Steiner Trees and Directed Minimum Spanning Trees ( http://arxiv.org/abs/2304.02825v2 )

ライセンス: Link先を確認
Phillip A. Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel(参考訳) CONGESTとCONGEST-CLIQUEモデルは、ネットワーク内のプロセッサ間の通信帯域幅が著しく制限されている状況を表現するために慎重に研究されている。 O(log(n))$ビットの情報のみのメッセージは、各ラウンドのプロセッサ間で送信することができる。 これらのモデルの量子バージョンにより、プロセッサは同じ帯域制限下で量子ビットと通信し、計算することができる。 古典量子モデルよりもこれらの量子モデルでより効率的に解くことができる問題は何か? 既存の作業に基づいて、私たちはこの質問に2つの方法で貢献します。 まず, 分散計算の量子連続格子モデルにおいて, ほぼ最適なスタイナーツリーを生成するためのアルゴリズムと, ネットワーク内のノード数を$n$とする$\tilde{o}(n^{1/4})$ rounds と$\tilde{o}(n^{9/4})$メッセージを使用する完全有向最小スパンニングツリーを生成するアルゴリズムの2つのアルゴリズムを提案する。 したがって、このアルゴリズムは古典集合-ユークリッドモデルにおける既知のアルゴリズムよりも低い漸近的ラウンドとメッセージ複雑性を達成する。 高レベルでは、古典的アルゴリズムフレームワークと量子サブルーチンを組み合わせることで、これらの結果を達成する。 Groverの検索アルゴリズムの分散バージョンを使用して三角形探索を高速化する既存のフレームワークは、漸近的スピードアップの中核にある。 第二に、我々のアルゴリズムと関連するアルゴリズムにかかわる定数と対数要素を慎重に特徴づけるが、そうでなければ$\tilde{O}$表記法でよく分からない。 この分析は、我々の量子アルゴリズムと既存の量子アルゴリズムと古典アルゴリズムの両方を実用的にするためにいくつかの改善が必要であることを示している。

The CONGEST and CONGEST-CLIQUE models have been carefully studied to represent situations where the communication bandwidth between processors in a network is severely limited. Messages of only $O(log(n))$ bits of information each may be sent between processors in each round. The quantum versions of these models allow the processors instead to communicate and compute with quantum bits under the same bandwidth limitations. This leads to the following natural research question: What problems can be solved more efficiently in these quantum models than in the classical ones? Building on existing work, we contribute to this question in two ways. Firstly, we present two algorithms in the Quantum CONGEST-CLIQUE model of distributed computation that succeed with high probability; one for producing an approximately optimal Steiner Tree, and one for producing an exact directed minimum spanning tree, each of which uses $\tilde{O}(n^{1/4})$ rounds of communication and $\tilde{O}(n^{9/4})$ messages, where $n$ is the number of nodes in the network. The algorithms thus achieve a lower asymptotic round and message complexity than any known algorithms in the classical CONGEST-CLIQUE model. At a high level, we achieve these results by combining classical algorithmic frameworks with quantum subroutines. An existing framework for using distributed version of Grover's search algorithm to accelerate triangle finding lies at the core of the asymptotic speedup. Secondly, we carefully characterize the constants and logarithmic factors involved in our algorithms as well as related algorithms, otherwise commonly obscured by $\tilde{O}$ notation. The analysis shows that some improvements are needed to render both our and existing related quantum and classical algorithms practical, as their asymptotic speedups only help for very large values of $n$.
翻訳日:2023-04-24 17:11:35 公開日:2023-04-21
# LARD ランディングアプローチ 滑走路検出 -- ビジョンベースランディングのためのデータセット

LARD - Landing Approach Runway Detection -- Dataset for Vision Based Landing ( http://arxiv.org/abs/2304.09938v2 )

ライセンス: Link先を確認
M\'elanie Ducoffe, Maxime Carrere, L\'eo F\'eliers, Adrien Gauffriau, Vincent Mussot, Claire Pagetti, Thierry Sammour(参考訳) 自律システムへの関心が高まり続けている中、大きな課題の1つは、十分な実世界のデータを集めることだ。 航空宇宙分野における自律着陸システムへの実践的かつ商業的な関心にもかかわらず、オープンソースの航空画像データセットが不足している。 そこで,本研究では,接近・着陸時の滑走路検出を行うための高画質空中画像のデータセットを提案する。 データセットの大部分は合成画像で構成されているが、実際の着陸映像から手動でラベル付けされた画像も提供し、検出タスクをよりリアルな設定に拡張する。 また,このような合成フロントビュー画像を生成可能なジェネレータを提供し,幾何変換による滑走路コーナーの自動アノテーションを実現する。 このデータセットは、データセットの品質の分析や、検出タスクに対処するモデルの開発など、さらなる研究の道を開く。 https://github.com/deel-ai/LARD

As the interest in autonomous systems continues to grow, one of the major challenges is collecting sufficient and representative real-world data. Despite the strong practical and commercial interest in autonomous landing systems in the aerospace field, there is a lack of open-source datasets of aerial images. To address this issue, we present a dataset-lard-of high-quality aerial images for the task of runway detection during approach and landing phases. Most of the dataset is composed of synthetic images but we also provide manually labelled images from real landing footages, to extend the detection task to a more realistic setting. In addition, we offer the generator which can produce such synthetic front-view images and enables automatic annotation of the runway corners through geometric transformations. This dataset paves the way for further research such as the analysis of dataset quality or the development of models to cope with the detection tasks. Find data, code and more up-to-date information at https://github.com/deel-ai/LARD
翻訳日:2023-04-24 17:02:45 公開日:2023-04-21
# ReCEval: 正確性とインフォーマル性による推論チェーンの評価

ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness ( http://arxiv.org/abs/2304.10703v1 )

ライセンス: Link先を確認
Archiki Prasad, Swarnadeep Saha, Xiang Zhou, Mohit Bansal(参考訳) 多段階推論能力は多くの自然言語処理に基本的だが、何が適切な推論連鎖を構成するのか、どのように評価するかは定かではない。 既存の手法のほとんどは、推論チェーンが正しい結論につながるかどうかだけに焦点を当てているが、この回答指向の視点は、答えを予測するために他の散発的な近道と推論の質を結びつけるかもしれない。 このギャップを埋めるために、最終的な答えを導く非公式な証明として、推論連鎖を評価する。 具体的には、(1)正確性、すなわち、各ステップは、ステップ、先行ステップ、入力コンテキストに含まれる情報に基づいて妥当な推論を行い、(2)情報性、すなわち、各ステップは、生成された回答の導出に役立つ新しい情報を提供する、という2つの重要な特性を通して推論チェーンを評価するフレームワークであるreceval(reasoning chain evaluation)を提案する。 自然言語推論モデルと情報理論測度を用いてReCEvalを実装した。 複数のデータセットにおいて、recevalは異なるタイプのエラーを特定するのに非常に効果的であり、以前の方法と比較して顕著な改善をもたらす。 我々は,高品質な推論チェーンにおける情報の流れを計測し,その正しさと報知性を評価するための先行ステップの影響を分析する。 最後に,recevalに基づくスコアリング推論チェインが,推論タスクのダウンストリームパフォーマンスを向上させることを示す。 私たちのコードは、https://github.com/archiki/ReCEvalで公開されています。

Multi-step reasoning ability is fundamental to many natural language tasks, yet it is unclear what constitutes a good reasoning chain and how to evaluate them. Most existing methods focus solely on whether the reasoning chain leads to the correct conclusion, but this answer-oriented view may confound the quality of reasoning with other spurious shortcuts to predict the answer. To bridge this gap, we evaluate reasoning chains by viewing them as informal proofs that derive the final answer. Specifically, we propose ReCEval (Reasoning Chain Evaluation), a framework that evaluates reasoning chains through two key properties: (1) correctness, i.e., each step makes a valid inference based on the information contained within the step, preceding steps, and input context, and (2) informativeness, i.e., each step provides new information that is helpful towards deriving the generated answer. We implement ReCEval using natural language inference models and information-theoretic measures. On multiple datasets, ReCEval is highly effective in identifying different types of errors, resulting in notable improvements compared to prior methods. We demonstrate that our informativeness metric captures the expected flow of information in high-quality reasoning chains and we also analyze the impact of previous steps on evaluating correctness and informativeness. Finally, we show that scoring reasoning chains based on ReCEval can improve downstream performance of reasoning tasks. Our code is publicly available at: https://github.com/archiki/ReCEval
翻訳日:2023-04-24 16:18:16 公開日:2023-04-21
# 応用機械学習における電力グリッドの動作パターンと一般化リスク

Power Grid Behavioral Patterns and Risks of Generalization in Applied Machine Learning ( http://arxiv.org/abs/2304.10702v1 )

ライセンス: Link先を確認
Shimiao Li, Jan Drgona, Shrirang Abhyankar, Larry Pileggi(参考訳) 近年、電力グリッドアプリケーション向けに設計されたデータ駆動アプローチの豊富な文献が見られる。 しかし、ドメイン知識の不十分な考慮は、メソッドの実用性に高いリスクを課す可能性がある。 具体的には、グリッド固有の時空間パターン(負荷、生成、トポロジーなど)を無視して、新しい入力に対して非実用的、実現不可能、あるいは全く意味のない予測を出力する。 この問題に対処するため,本研究では実世界の運用データを調査し,時間変化トポロジ,負荷,発生,および個々の負荷と世代間の空間差(ピーク時,多様なスタイル)など,電力グリッドの挙動パターンの洞察を提供する。 そして,これらの観測結果に基づいて,モデル設計とトレーニングにおけるグリッド固有のパターンを無視した既存ML作業の一般化リスクを評価する。

Recent years have seen a rich literature of data-driven approaches designed for power grid applications. However, insufficient consideration of domain knowledge can impose a high risk to the practicality of the methods. Specifically, ignoring the grid-specific spatiotemporal patterns (in load, generation, and topology, etc.) can lead to outputting infeasible, unrealizable, or completely meaningless predictions on new inputs. To address this concern, this paper investigates real-world operational data to provide insights into power grid behavioral patterns, including the time-varying topology, load, and generation, as well as the spatial differences (in peak hours, diverse styles) between individual loads and generations. Then based on these observations, we evaluate the generalization risks in some existing ML works causedby ignoring these grid-specific patterns in model design and training.
翻訳日:2023-04-24 16:17:50 公開日:2023-04-21
# 生成モデルに対するマッチングに基づくデータ評価

Matching-based Data Valuation for Generative Model ( http://arxiv.org/abs/2304.10701v1 )

ライセンス: Link先を確認
Jiaxi Yang and Wenglong Deng and Benlin Liu and Yangsibo Huang and Xiaoxiao Li(参考訳) データバリュエーションは、モデルの透明性を高め、データプロパティを保護するため、機械学習において重要である。 既存のデータ評価手法は主に差別モデルに焦点を当てており、近年注目されている深層生成モデルを無視している。 識別モデルと同様に、深層生成モデルにおけるデータ寄与度の評価も緊急に必要である。 しかし、従来のデータ評価アプローチは、主に差別的なモデルパフォーマンスメトリクスと必要なモデル再トレーニングに依存していた。 その結果, 直接的かつ効率的に, 生成的対向ネットワークや拡散モデルといった最近の深層生成モデルに適用することはできない。 このギャップを埋めるために、類似性マッチングの観点から生成モデルにおけるデータ評価問題を定式化する。 具体的には、生成モデルに対する最初のモデルに依存しないアプローチである生成モデル評価器(GMValuator)を紹介する。 提案手法の有効性を実証するための広範な実験を行った。 彼らの知る限り、gmvaluatorは、深層生成モデルにトレーニングフリーでポストホックなデータバリュエーション戦略を提供する最初の作品だ。

Data valuation is critical in machine learning, as it helps enhance model transparency and protect data properties. Existing data valuation methods have primarily focused on discriminative models, neglecting deep generative models that have recently gained considerable attention. Similar to discriminative models, there is an urgent need to assess data contributions in deep generative models as well. However, previous data valuation approaches mainly relied on discriminative model performance metrics and required model retraining. Consequently, they cannot be applied directly and efficiently to recent deep generative models, such as generative adversarial networks and diffusion models, in practice. To bridge this gap, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first model-agnostic approach for any generative models, designed to provide data valuation for generation tasks. We have conducted extensive experiments to demonstrate the effectiveness of the proposed method. To the best of their knowledge, GMValuator is the first work that offers a training-free, post-hoc data valuation strategy for deep generative models.
翻訳日:2023-04-24 16:17:35 公開日:2023-04-21
# 拡散モデルを用いた長期光度一貫性新規ビュー合成

Long-Term Photometric Consistent Novel View Synthesis with Diffusion Models ( http://arxiv.org/abs/2304.10700v1 )

ライセンス: Link先を確認
Jason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker(参考訳) 一つの入力画像からの新しい視点合成は難しい課題であり、大きな動きで分離される可能性のある所望のカメラポーズからシーンの新しい視点を生成することが目的である。 この合成タスクの非常に不確実な性質は、シーン内の未観測要素(すなわち、閉塞)と視野外の両方によって、様々な出力を捉えるために魅力的な生成モデルを使用することである。 本稿では、特定のカメラ軌跡と一致したフォトリアリスティックな画像列と、1つのスタート画像とを生成できる新しい生成モデルを提案する。 本手法は,視覚的シーン要素を補間し,未観測領域を幾何学的に一貫した方法で外挿できる自己回帰的条件拡散モデルに基づく。 条件付けは、単一のカメラビューをキャプチャするイメージと、新しいカメラビューの(相対的な)ポーズに限られる。 生成したビューのシーケンス上の一貫性を測定するために、新しいメトリック、しきい値付き対称エピポーラ距離(TSED)を導入し、シーケンス内の一貫したフレームペアの数を測定する。 従来の手法では画質の高い画像と、ビューのペア間で一貫性のあるセマンティクスを生成できることが示されているが、我々の測定値と実証的に比較すると、それらはしばしば所望のカメラのポーズと一致しない。 対照的に,本手法はフォトリアリスティック画像とビュー一貫性画像の両方を生成する。

Novel view synthesis from a single input image is a challenging task, where the goal is to generate a new view of a scene from a desired camera pose that may be separated by a large motion. The highly uncertain nature of this synthesis task due to unobserved elements within the scene (i.e., occlusion) and outside the field-of-view makes the use of generative models appealing to capture the variety of possible outputs. In this paper, we propose a novel generative model which is capable of producing a sequence of photorealistic images consistent with a specified camera trajectory, and a single starting image. Our approach is centred on an autoregressive conditional diffusion-based model capable of interpolating visible scene elements, and extrapolating unobserved regions in a view, in a geometrically consistent manner. Conditioning is limited to an image capturing a single camera view and the (relative) pose of the new camera view. To measure the consistency over a sequence of generated views, we introduce a new metric, the thresholded symmetric epipolar distance (TSED), to measure the number of consistent frame pairs in a sequence. While previous methods have been shown to produce high quality images and consistent semantics across pairs of views, we show empirically with our metric that they are often inconsistent with the desired camera poses. In contrast, we demonstrate that our method produces both photorealistic and view-consistent imagery.
翻訳日:2023-04-24 16:17:15 公開日:2023-04-21
# SkinGPT:視覚大言語モデルを用いた皮膚科診断システム

SkinGPT: A Dermatology Diagnostic System with Vision Large Language Model ( http://arxiv.org/abs/2304.10691v1 )

ライセンス: Link先を確認
Juexiao Zhou, Xin Gao(参考訳) 皮膚と皮下疾患は世界中で非致死性疾患の主な原因の一つであり、人口のかなりの割合に影響を及ぼす。 しかし,皮膚科診断の分野では3つの大きな課題がある。 まず、患者を診断できる皮膚科医が不足している。 第二に、皮膚画像の正確な診断は困難である。 最後に、ユーザフレンドリーな診断レポートの提供は困難である。 近年の大規模言語モデル(LLM)の進歩は臨床応用の可能性を示している。 しかし、現在のLLMは画像の処理が困難であり、ChatGPTのAPIを使ってデータをアップロードする際のプライバシー上の懸念がある。 本稿では,先進的な視覚に基づく大規模言語モデルを用いた皮膚科診断システムであるSkinGPTを提案する。 SkinGPTは、MiniGPT-4の微調整されたバージョンと、医師のメモを添えた大量の社内皮膚疾患画像が組み込まれた最初のシステムである。 SkinGPTを使えば、ユーザーは自身の皮膚写真をアップロードして診断を行うことができ、システムは皮膚の状態の特徴やカテゴリを自律的に決定し、分析を行い、治療勧告を提供することができる。 ローカルにデプロイしてユーザのプライバシを保護することで、skingptは、皮膚状態の正確かつ信頼性の高い診断を求める患者にとって魅力的な選択肢となる。

Skin and subcutaneous diseases are among the major causes of the nonfatal disease burden worldwide, affecting a significant proportion of the population. However, there are three major challenges in the field of dermatology diagnosis. Firstly, there is a shortage of dermatologists available to diagnose patients. Secondly, accurately diagnosing dermatological pictures can be challenging. Lastly, providing user-friendly diagnostic reports can be difficult. Recent advancements in the field of large language models (LLMs) have shown potential for clinical applications. However, current LLMs have difficulty processing images, and there are potential privacy concerns associated with using ChatGPT's API for uploading data. In this paper, we propose SkinGPT, which is the first dermatology diagnostic system that utilizes an advanced vision-based large language model. SkinGPT is the first system of its kind, incorporating a fine-tuned version of MiniGPT-4 with a vast collection of in-house skin disease images, accompanied by doctor's notes. With SkinGPT, users can upload their own skin photos for diagnosis, and the system can autonomously determine the characteristics and categories of skin conditions, perform analysis, and provide treatment recommendations. The ability to deploy it locally and protect user privacy makes SkinGPT an attractive option for patients seeking an accurate and reliable diagnosis of their skin conditions.
翻訳日:2023-04-24 16:16:50 公開日:2023-04-21
# VisFusion: 可視性に対応したオンライン3Dシーンをビデオから再現する

VisFusion: Visibility-aware Online 3D Scene Reconstruction from Videos ( http://arxiv.org/abs/2304.10687v1 )

ライセンス: Link先を確認
Huiyu Gao, Wei Mao, Miaomiao Liu(参考訳) 提案するVisFusionは,モノクラー映像からの3Dシーン再構築手法である。 特に,音量的特徴からシーンを再構築することを目的としている。 入力ビューから各ボクセルの特徴を可視性を考慮せずに集約する従来の再構成手法とは異なり、各画像ペアの投影された特徴から計算した類似度行列からその可視性を明示的に推定することで特徴融合を改善することを目的としている。 これまでの作業に続いて,このモデルはボリュームスパーシフィケーションプロセスを含む粗粒度パイプラインである。 ボクセルを固定占有閾値で世界中に分散させる彼らの作品とは異なり、各視覚線に沿って局所的な特徴量のスカラー化を行い、1光線あたりの少なくとも1つのボクセルをより詳細に保存する。 希少なローカルボリュームは、オンライン再構築のためのグローバルなボリュームと融合する。 さらに, TSDF予測の精度を向上するために, 粒度を粗大に予測する手法を提案する。 ベンチマーク実験の結果,より詳細なシーンで優れた性能が得られることがわかった。 コードは、https://github.com/huiyu-gao/VisFusionで入手できる。

We propose VisFusion, a visibility-aware online 3D scene reconstruction approach from posed monocular videos. In particular, we aim to reconstruct the scene from volumetric features. Unlike previous reconstruction methods which aggregate features for each voxel from input views without considering its visibility, we aim to improve the feature fusion by explicitly inferring its visibility from a similarity matrix, computed from its projected features in each image pair. Following previous works, our model is a coarse-to-fine pipeline including a volume sparsification process. Different from their works which sparsify voxels globally with a fixed occupancy threshold, we perform the sparsification on a local feature volume along each visual ray to preserve at least one voxel per ray for more fine details. The sparse local volume is then fused with a global one for online reconstruction. We further propose to predict TSDF in a coarse-to-fine manner by learning its residuals across scales leading to better TSDF predictions. Experimental results on benchmarks show that our method can achieve superior performance with more scene details. Code is available at: https://github.com/huiyu-gao/VisFusion
翻訳日:2023-04-24 16:16:29 公開日:2023-04-21
# 山火事発生域における多要素深層学習電力負荷予測モデル

A generalised multi-factor deep learning electricity load forecasting model for wildfire-prone areas ( http://arxiv.org/abs/2304.10686v1 )

ライセンス: Link先を確認
Weijia Yang, Sarah N. Sparrow, David C.H. Wallom(参考訳) 本稿では,山火事シーズンにおける配電網の電力負荷を予測するため,GRUに基づく多要素Gated Recurrent Unit(GRU)モデルを提案する。 フレキシブルなモデリング手法は、データ入力構造、カレンダー効果、および相関に基づく先行温度条件を考慮する。 即時温度の通常の使用と比較して,提案した入力特徴選択と先行温度関係を用いて平均絶対パーセンテージ誤差(MAPE)を30.73%減少させる。 本モデルは,2015-2020年の山火事シーズンにオーストラリアのビクトリア州で8つの実配電網に適用された。 我々は,GRUモデルが他のDLモデルであるLong Short-Term Memory(LSTM)を常に上回り,平均二乗誤差(MSE)とMAPEをそれぞれ10.06%,12.86%で平均的に改善することを示した。 El Ni\~no や La Ni\~na years のようなトレーニングデータセットにおける大規模気候変動に対する感度は、負荷予測性能の安定性に対する可能性を理解し、最小限の影響を示すと考えられている。 地域貧困率や大規模オフピーク電力利用などの他の要因は、予測性能をさらに向上させる可能性がある。 提案手法は平均予測MAPEの約3%を達成し、ビクトリア州に年間8億6600万ドルを節約できる可能性がある。

This paper proposes a generalised and robust multi-factor Gated Recurrent Unit (GRU) based Deep Learning (DL) model to forecast electricity load in distribution networks during wildfire seasons. The flexible modelling methods consider data input structure, calendar effects and correlation-based leading temperature conditions. Compared to the regular use of instantaneous temperature, the Mean Absolute Percentage Error (MAPE) is decreased by 30.73% by using the proposed input feature selection and leading temperature relationships. Our model is generalised and applied to eight real distribution networks in Victoria, Australia, during the wildfire seasons of 2015-2020. We demonstrate that the GRU-based model consistently outperforms another DL model, Long Short-Term Memory (LSTM), at every step, giving average improvements in Mean Squared Error (MSE) and MAPE of 10.06% and 12.86%, respectively. The sensitivity to large-scale climate variability in training data sets, e.g. El Ni\~no or La Ni\~na years, is considered to understand the possible consequences for load forecasting performance stability, showing minimal impact. Other factors such as regional poverty rate and large-scale off-peak electricity use are potential factors to further improve forecast performance. The proposed method achieves an average forecast MAPE of around 3%, giving a potential annual energy saving of AU\$80.46 million for the state of Victoria.
翻訳日:2023-04-24 16:16:09 公開日:2023-04-21
# 学習システムにおけるゼムラニタス現象としての単純気泡効果

The simplicity bubble effect as a zemblanitous phenomenon in learning systems ( http://arxiv.org/abs/2304.10681v1 )

ライセンス: Link先を確認
Felipe S. Abrah\~ao, Ricardo P. Cavassane, Michael Winter, Itala M. L. D'Ottaviano(参考訳) 社会におけるビッグデータと機械学習の普及は、その基本的な限界についてさらなる調査の必要性を浮き彫りにしている。 本稿では,法則的宇宙に関する形式的知識や計算可能なデータセットの任意の収集に,<to-much-information-tends-to-behave-like-very-little-information'現象を拡張した。 これは、データセットによって騙されることができる形式理論を備えた学習アルゴリズムを指して、それがグローバルなものであるとみなす局所最適モデルを見つけるという、単純さのバブル問題を引き起こす。 しかし、実際の高複素度大域的最適モデルは、見いだされた低複素度局所最適化から予測不可能に分岐する。 ゼムラン性(zemblanity)は、与えられたモデルや理論の根底にある問題や負の結果を明らかにする望ましくないが期待できる発見によって定義される。 そこで本稿では, 学習アルゴリズムで得られたランダムに生成したデータと形式理論が, 結合複雑性と比較して十分に大きい場合, 公式知識は, ゼムラニアスな発見の確率をさらに下げることができない天井があることを論じる。

The ubiquity of Big Data and machine learning in society evinces the need of further investigation of their fundamental limitations. In this paper, we extend the ``too-much-information-tends-to-behave-like-very-little-information'' phenomenon to formal knowledge about lawlike universes and arbitrary collections of computably generated datasets. This gives rise to the simplicity bubble problem, which refers to a learning algorithm equipped with a formal theory that can be deceived by a dataset to find a locally optimal model which it deems to be the global one. However, the actual high-complexity globally optimal model unpredictably diverges from the found low-complexity local optimum. Zemblanity is defined by an undesirable but expected finding that reveals an underlying problem or negative consequence in a given model or theory, which is in principle predictable in case the formal theory contains sufficient information. Therefore, we argue that there is a ceiling above which formal knowledge cannot further decrease the probability of zemblanitous findings, should the randomly generated data made available to the learning algorithm and formal theory be sufficiently large in comparison to their joint complexity.
翻訳日:2023-04-24 16:15:44 公開日:2023-04-21
# FSNet: 自動走行のための完全な深さ予測のための自己監督型モノディープスを再設計

FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth Prediction for Autonomous Driving ( http://arxiv.org/abs/2304.10719v1 )

ライセンス: Link先を確認
Yuxuan Liu, Zhenhua Xu, Huaiyang Huang, Lujia Wang, Ming Liu(参考訳) 単眼画像による正確な深度予測は、低コストのロボット応用と自律運転において重要である。 本研究では,慣性測定から得られたフレーム間ポーズを用いた自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。 特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。 fsnetは、既存の自己教師モデルに対する4つの重要な改善が含まれている:(1)運転シナリオにおける深度予測の安定したトレーニングのためのマルチチャネル出力表現、(2)動的物体除去のために設計された光フローベースのマスク、(3)訓練プロセスを強化するための自己蒸留訓練戦略、(4)ビジュアルオドメトリーの結果を融合したテスト時間における最適化ベースのポストプロセッシングアルゴリズム。 この枠組みにより、ロボットと車両は1台のカメラしか持たず、訓練用画像フレームとカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。 KITTIデータセット、KITTI-360データセット、nuScenesデータセットに関する大規模な実験は、FSNetの可能性を示している。 さらなる視覚化は \url{https://sites.google.com/view/fsnet/home} に表示される。

Predicting accurate depth with monocular images is important for low-cost robotic applications and autonomous driving. This study proposes a comprehensive self-supervised framework for accurate scale-aware depth prediction on autonomous driving scenes utilizing inter-frame poses obtained from inertial measurements. In particular, we introduce a Full-Scale depth prediction network named FSNet. FSNet contains four important improvements over existing self-supervised models: (1) a multichannel output representation for stable training of depth prediction in driving scenarios, (2) an optical-flow-based mask designed for dynamic object removal, (3) a self-distillation training strategy to augment the training process, and (4) an optimization-based post-processing algorithm in test time, fusing the results from visual odometry. With this framework, robots and vehicles with only one well-calibrated camera can collect sequences of training image frames and camera poses, and infer accurate 3D depths of the environment without extra labeling work or 3D data. Extensive experiments on the KITTI dataset, KITTI-360 dataset and the nuScenes dataset demonstrate the potential of FSNet. More visualizations are presented in \url{https://sites.google.com/view/fsnet/home}
翻訳日:2023-04-24 16:09:09 公開日:2023-04-21
# Navier-Stokes方程式の解法に特性ベーススプリットを併用した物理インフォームニューラルネットワーク

Physics-informed Neural Network Combined with Characteristic-Based Split for Solving Navier-Stokes Equations ( http://arxiv.org/abs/2304.10717v1 )

ライセンス: Link先を確認
Shuang Hu and Meiqin Liu and Senlin Zhang and Shanling Dong and Ronghao Zheng(参考訳) 本稿では,特性ベーススプリット(CBS)に基づく物理インフォームドニューラルネットワーク(PINN)を提案し,時間依存型ナビエ・ストークス方程式(N-S方程式)を解く。 本手法では,出力パラメータと対応する損失を分離し,出力パラメータ間の重みを考慮しない。 すべての部分微分が勾配バックプロパゲーションに関与しているわけではなく、残りの項が再利用される。 ここでは、ラベル付きデータ、物理的制約、およびネットワーク出力を事前情報とみなし、N-S方程式の残余を後続情報とみなす。 したがって、この方法はデータ駆動とデータフリーの両方の問題に対処できる。 結果として、圧縮性 n-s 方程式 ---シュロー水方程式と非圧縮性 n-s 方程式の特別な形式を解くことができる。 境界条件が知られているので、この方法は、過去と将来の流れ場情報を復元するために、一定時間にのみフローフィールド情報を必要とする。 本研究では,海浜への単独波の進行と流れ中の湯の分散を解明し,この手法の海洋工学における可能性を示す。 また、この方法の正しさと普遍性を証明するために、正確な解を持つ非圧縮方程式を用いる。 N-S方程式は有限要素法と比較して計算境界を持たないため, PINNはより厳密な境界条件を必要とする。

In this paper, physics-informed neural network (PINN) based on characteristic-based split (CBS) is proposed, which can be used to solve the time-dependent Navier-Stokes equations (N-S equations). In this method, The output parameters and corresponding losses are separated, so the weights between output parameters are not considered. Not all partial derivatives participate in gradient backpropagation, and the remaining terms will be reused.Therefore, compared with traditional PINN, this method is a rapid version. Here, labeled data, physical constraints and network outputs are regarded as priori information, and the residuals of the N-S equations are regarded as posteriori information. So this method can deal with both data-driven and data-free problems. As a result, it can solve the special form of compressible N-S equations -- -Shallow-Water equations, and incompressible N-S equations. As boundary conditions are known, this method only needs the flow field information at a certain time to restore the past and future flow field information. We solve the progress of a solitary wave onto a shelving beach and the dispersion of the hot water in the flow, which show this method's potential in the marine engineering. We also use incompressible equations with exact solutions to prove this method's correctness and universality. We find that PINN needs more strict boundary conditions to solve the N-S equation, because it has no computational boundary compared with the finite element method.
翻訳日:2023-04-24 16:08:47 公開日:2023-04-21
# 視覚変換器のより攻撃的な圧縮に向けてのジョイントToken PruningとSqueezing

Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers ( http://arxiv.org/abs/2304.10716v1 )

ライセンス: Link先を確認
Siyuan Wei, Tianzhu Ye, Shen Zhang, Yao Tang, Jiajun Liang(参考訳) 近年、視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて有望な結果を示しているが、その高い計算コストは実用性を制限する。 旧来の冗長トークンに対するアプローチは、パフォーマンスと計算コストのトレードオフをよく示していた。 それでも、プルーニング戦略によるエラーは、重大な情報損失につながる可能性がある。 定量的実験により,プルーニングトークンが性能に与える影響が明らかとなった。 そこで,本稿では,視覚トランスフォーマーを高効率に圧縮するための新しいジョイントトークンpruning & squeezing module (tps)を提案する。 まず、tpsはpruningを採用し、reservedとprunedのサブセットを取得する。 第二に、TPSはプルーニングトークンの情報を一方向近傍のマッチングと類似性に基づく融合ステップを介して部分的予約トークンに絞り込む。 最先端の手法と比較して、我々の手法は全てのトークンプルーニング強度でそれらより優れています。 特に、deit-tiny&small計算予算を35%に縮小する一方で、imagenet分類のベースラインと比較すると1%-6%精度が向上する。 提案手法により,DeiT-tinyを超えるスループットが向上し,DeiT-tinyの精度は4.78%向上した。 各種変圧器の実験では本手法の有効性が実証され, 分析実験ではトークンプルーニングポリシーの誤りに対する高いロバスト性が確認された。 コードはhttps://github.com/megvii-research/tps-cvpr2023で入手できる。

Although vision transformers (ViTs) have shown promising results in various computer vision tasks recently, their high computational cost limits their practical applications. Previous approaches that prune redundant tokens have demonstrated a good trade-off between performance and computation costs. Nevertheless, errors caused by pruning strategies can lead to significant information loss. Our quantitative experiments reveal that the impact of pruned tokens on performance should be noticeable. To address this issue, we propose a novel joint Token Pruning & Squeezing module (TPS) for compressing vision transformers with higher efficiency. Firstly, TPS adopts pruning to get the reserved and pruned subsets. Secondly, TPS squeezes the information of pruned tokens into partial reserved tokens via the unidirectional nearest-neighbor matching and similarity-based fusing steps. Compared to state-of-the-art methods, our approach outperforms them under all token pruning intensities. Especially while shrinking DeiT-tiny&small computational budgets to 35%, it improves the accuracy by 1%-6% compared with baselines on ImageNet classification. The proposed method can accelerate the throughput of DeiT-small beyond DeiT-tiny, while its accuracy surpasses DeiT-tiny by 4.78%. Experiments on various transformers demonstrate the effectiveness of our method, while analysis experiments prove our higher robustness to the errors of the token pruning policy. Code is available at https://github.com/megvii-research/TPS-CVPR2023.
翻訳日:2023-04-24 16:08:23 公開日:2023-04-21
# 圧縮画像分類のための量子化ステップのピックアップ

Picking Up Quantization Steps for Compressed Image Classification ( http://arxiv.org/abs/2304.10714v1 )

ライセンス: Link先を確認
Li Ma, Peixi Peng, Guangyao Chen, Yifan Zhao, Siwei Dong and Yonghong Tian(参考訳) 圧縮された画像に対するディープニューラルネットワークの感度は、多くの実アプリケーションでの使用を妨げるため、分類ネットワークはスクリーンショットを撮って圧縮されたファイルとして保存した直後に失敗する可能性がある。 本稿では,圧縮された画像に対するディープニューラルネットワークの感度を低下させるために,圧縮されたファイルに格納される使い捨ての符号化パラメータを欠くことを議論する。 具体的には,代表的なパラメータの一つである量子化ステップを使用して画像分類を行う。 まず,量子化ステップに基づき,量子化がネットワークトレーニングに与える影響を低減すべく,サンプル重みとして利用する量子化認識信頼度(qac)を提案する。 次に,分類ネットワークのバッチ正規化を置き換えるために,量子化対応バッチ正規化(QABN)を提案する。 実験の結果,CIFAR-10,CIFAR-100,ImageNetの分類ネットワークの性能は有意に向上した。 コードはhttps://github.com/LiMaPKU/QSAM.gitで公開されている。

The sensitivity of deep neural networks to compressed images hinders their usage in many real applications, which means classification networks may fail just after taking a screenshot and saving it as a compressed file. In this paper, we argue that neglected disposable coding parameters stored in compressed files could be picked up to reduce the sensitivity of deep neural networks to compressed images. Specifically, we resort to using one of the representative parameters, quantization steps, to facilitate image classification. Firstly, based on quantization steps, we propose a novel quantization aware confidence (QAC), which is utilized as sample weights to reduce the influence of quantization on network training. Secondly, we utilize quantization steps to alleviate the variance of feature distributions, where a quantization aware batch normalization (QABN) is proposed to replace batch normalization of classification networks. Extensive experiments show that the proposed method significantly improves the performance of classification networks on CIFAR-10, CIFAR-100, and ImageNet. The code is released on https://github.com/LiMaPKU/QSAM.git
翻訳日:2023-04-24 16:07:57 公開日:2023-04-21
# 物理世界における熱赤外検出器の摂食

Fooling Thermal Infrared Detectors in Physical World ( http://arxiv.org/abs/2304.10712v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) 赤外線イメージングシステムは歩行者検出や自動運転に多くの応用可能性があり、その安全性は大きな関心事となっている。 しかし、実世界における赤外線イメージングシステムの安全性を探求する研究はほとんどない。 これまでの研究では、小さな電球や熱的なQRコードなどの物理的摂動を利用して赤外線イメージング検出器を攻撃してきたが、そのような手法は見えやすく、ステルス性に欠けていた。 他の研究者は赤外線イメージング検出器を騙すために熱いブロックや冷たいブロックを使っているが、この方法は様々な角度から攻撃を行う能力に限られている。 これらの欠点に対処するために,逆赤外線ブロック(AdvIB)と呼ばれる新しい物理的攻撃を提案する。 逆赤外ブロックの物理パラメータを最適化することにより、様々な角度から熱画像システムに対するステルスブラックボックス攻撃を実行することができる。 提案手法の有効性,ステルス性,堅牢性に基づいて評価を行った。 提案手法は,ほとんどの距離および角度条件下で80%以上の成功率を達成し,その有効性を検証した。 ステルス性には,赤外線ブロックを衣服の内側に装着し,そのステルス性を高めることが必要である。 さらに, 提案手法を先進検出器で試験し, 実験結果から平均攻撃成功率51.2%を示し, その堅牢性を示した。 全体として,提案するadvib手法は,実世界の安全とセキュリティに潜在的に影響するサーマルイメージングシステムに対して,ステルスで効果的で堅牢なブラックボックス攻撃を行うための有望な手段を提供する。

Infrared imaging systems have a vast array of potential applications in pedestrian detection and autonomous driving, and their safety performance is of great concern. However, few studies have explored the safety of infrared imaging systems in real-world settings. Previous research has used physical perturbations such as small bulbs and thermal "QR codes" to attack infrared imaging detectors, but such methods are highly visible and lack stealthiness. Other researchers have used hot and cold blocks to deceive infrared imaging detectors, but this method is limited in its ability to execute attacks from various angles. To address these shortcomings, we propose a novel physical attack called adversarial infrared blocks (AdvIB). By optimizing the physical parameters of the adversarial infrared blocks, this method can execute a stealthy black-box attack on thermal imaging system from various angles. We evaluate the proposed method based on its effectiveness, stealthiness, and robustness. Our physical tests show that the proposed method achieves a success rate of over 80% under most distance and angle conditions, validating its effectiveness. For stealthiness, our method involves attaching the adversarial infrared block to the inside of clothing, enhancing its stealthiness. Additionally, we test the proposed method on advanced detectors, and experimental results demonstrate an average attack success rate of 51.2%, proving its robustness. Overall, our proposed AdvIB method offers a promising avenue for conducting stealthy, effective and robust black-box attacks on thermal imaging system, with potential implications for real-world safety and security applications.
翻訳日:2023-04-24 16:07:38 公開日:2023-04-21
# 巨大原子をもつ構造環境における量子光学の実現

Realizing quantum optics in structured environments with giant atoms ( http://arxiv.org/abs/2304.10710v1 )

ライセンス: Link先を確認
Xin Wang, Huai-Bing Zhu, Tao Liu and Franco Nori(参考訳) 自由空間での量子光学を超越するため、構造フォトニック環境を持つ原子-光界面は、非伝統的な量子電磁力学(qed)現象を実現するためにしばしば用いられる。 しかし、量子バスとして使われる場合、これらの長距離ナノ構造は製造障害によって制限される。 本研究では, 周期構造を持たないハイブリッド巨大原子-大陸環境の多重結合点を工学的に構築することで, 構造的光物質相互作用を実現する方法を提案する。 複数の結合点に対する実空間結合列を得るための一般化最適化法を提案する。 ブロードバンドのカイラル放射を、他の量子配置に類を見ない、非常に広い周波数で報告する。 さらに,バンドギャップ環境におけるQED現象,例えば分数原子崩壊や双極子-双極子相互作用が,境界状態によって媒介されることを示す。 その結果,本提案手法は結合配列の製作障害に対して頑健であることが判明した。 我々の研究は、伝統的でない光-物質相互作用を実現するための新しい道を開く。

To go beyond quantum optics in free-space setups, atom-light interfaces with structured photonic environments are often employed to realize unconventional quantum electrodynamics (QED) phenomena. However, when employed as quantum buses, those long-distance nanostructures are limited by fabrication disorders. In this work, we alternatively propose to realize structured lightmatter interactions by engineering multiple coupling points of hybrid giant atom-conventionalenvironments without any periodic structure. We present a generic optimization method to obtain the real-space coupling sequence for multiple coupling points. We report a broadband chiral emission in a very wide frequency regime, with no analog in other quantum setups. Moreover, we show that the QED phenomena in the band gap environment, such as fractional atomic decay and dipole-dipole interactions mediated by a bound state, can be observed in our setup. Numerical results indicate that our proposal is robust against fabrication disorders of the coupling sequence. Our work opens up a new route for realizing unconventional light-matter interactions.
翻訳日:2023-04-24 16:07:12 公開日:2023-04-21
# 持続的学習型拡散支援エネルギーベースモデル

Persistently Trained, Diffusion-assisted Energy-based Models ( http://arxiv.org/abs/2304.10707v1 )

ライセンス: Link先を確認
Xinwei Zhang, Zhiqiang Tan, Zhijian Ou(参考訳) マルコフ連鎖モンテカルロの非収束のため、エネルギーベースモデル(EBM)の最大確率学習(ML)は困難であり、ML学習の多くのバリエーションが提案されているが、既存の手法はすべて、訓練後の画像生成と適切な密度推定の両方を達成することができない。 我々は,拡散データを導入し,拡散補助型EBMと呼ばれる共同ESMを,複雑なマルチモーダル分布から適切にサンプリングするための改良されたサンプリングアルゴリズムを用いて,持続的トレーニング(永続的コントラスト分散を用いた)を通じて学習することを提案する。 本研究では,2次元図形実験および画像実験の結果を提示し,画像データとして初めて,持続的に訓練されたESMが長時間の安定性,訓練後の画像生成,配当検出に優れることを示す。

Maximum likelihood (ML) learning for energy-based models (EBMs) is challenging, partly due to non-convergence of Markov chain Monte Carlo.Several variations of ML learning have been proposed, but existing methods all fail to achieve both post-training image generation and proper density estimation. We propose to introduce diffusion data and learn a joint EBM, called diffusion assisted-EBMs, through persistent training (i.e., using persistent contrastive divergence) with an enhanced sampling algorithm to properly sample from complex, multimodal distributions. We present results from a 2D illustrative experiment and image experiments and demonstrate that, for the first time for image data, persistently trained EBMs can {\it simultaneously} achieve long-run stability, post-training image generation, and superior out-of-distribution detection.
翻訳日:2023-04-24 16:06:55 公開日:2023-04-21
# TC-GAT:時間的因果発見のためのグラフ注意ネットワーク

TC-GAT: Graph Attention Network for Temporal Causality Discovery ( http://arxiv.org/abs/2304.10706v1 )

ライセンス: Link先を確認
Xiaosong Yuan, Ke Chen, Wanli Zuo, Yijia Zhang(参考訳) 本研究は因果関係抽出の複雑さを探求するものであり,因果関係知識の追求に不可欠な要素である。 因果関係はしばしば時間的要素と絡み合っており、原因から効果への進行は瞬時ではなく、時間的次元に包含される。 したがって、時間的因果関係の抽出はその分野において重要な意味を持つ。 そこで本研究では,時間と因果関係を統合したテキストから因果関係を抽出する手法を提案する。 この目的のために、まず時間的関係を含むデータセットをコンパイルする。 その後、時間的関係に重みを割り当てるグラフアテンション機構を採用し、因果知識グラフを利用して隣接行列を決定する新しいモデルTC-GATを提案する。 さらに,時間関係と因果関係の相互作用を規制する平衡機構を実装した。 実験により,提案手法が因果関係抽出のタスクにおいてベースラインモデルを大幅に上回ることを示した。

The present study explores the intricacies of causal relationship extraction, a vital component in the pursuit of causality knowledge. Causality is frequently intertwined with temporal elements, as the progression from cause to effect is not instantaneous but rather ensconced in a temporal dimension. Thus, the extraction of temporal causality holds paramount significance in the field. In light of this, we propose a method for extracting causality from the text that integrates both temporal and causal relations, with a particular focus on the time aspect. To this end, we first compile a dataset that encompasses temporal relationships. Subsequently, we present a novel model, TC-GAT, which employs a graph attention mechanism to assign weights to the temporal relationships and leverages a causal knowledge graph to determine the adjacency matrix. Additionally, we implement an equilibrium mechanism to regulate the interplay between temporal and causal relations. Our experiments demonstrate that our proposed method significantly surpasses baseline models in the task of causality extraction.
翻訳日:2023-04-24 16:06:40 公開日:2023-04-21
# マルチインスタンスマルチラベル学習のためのグラフベースラベル強調

Graph based Label Enhancement for Multi-instance Multi-label learning ( http://arxiv.org/abs/2304.10705v1 )

ライセンス: Link先を確認
Houcheng Su, Jintao Huang, Daixian Liu, Rui Yan, Jiao Li, Chi-man Vong(参考訳) マルチインスタンス・マルチラベル(MIML)学習は、複数の論理ラベルと同時に相関する複数のインスタンスを含む画像分類など、多くの領域で広く応用されている。 既存のMIMLの関連ラベルはすべて、同じ意味を持つ論理ラベルとして仮定される。 しかし、MIMLの実践的な応用では、バッグごとの複数のインスタンス(画像など)に対するラベルの重要性は著しく異なる。 ラベル付けの重要さを無視すると、オブジェクトの意味情報が大幅に失われ、MIMLは学習性能が劣る複雑な場面では適用できない。 そこで本稿では,グラフラベルの強調,すなわちGLEMIMLに基づく新しいMIMLフレームワークを提案し,ラベルの意義を生かしてMIMLの分類性能を向上させる。 GLEMIMLはまず、グラフを確立することによってインスタンス間の相関を認識し、次に、特徴空間から抽出された暗黙の情報を非線形マッピングによりラベル空間に移行し、ラベルの意義を回復する。 最後に、GLEMIMLはマッチングとインタラクションメカニズムを通じて強化されたデータに基づいて訓練される。 GLEMIML (AvgRank: 1.44) はラベル分布機構をマイニングすることでMIMLの性能を効果的に向上し、複数のベンチマークデータセット上でSOTA法 (AvgRank: 2.92) よりも優れた結果を示す。

Multi-instance multi-label (MIML) learning is widely applicated in numerous domains, such as the image classification where one image contains multiple instances correlated with multiple logic labels simultaneously. The related labels in existing MIML are all assumed as logical labels with equal significance. However, in practical applications in MIML, significance of each label for multiple instances per bag (such as an image) is significant different. Ignoring labeling significance will greatly lose the semantic information of the object, so that MIML is not applicable in complex scenes with a poor learning performance. To this end, this paper proposed a novel MIML framework based on graph label enhancement, namely GLEMIML, to improve the classification performance of MIML by leveraging label significance. GLEMIML first recognizes the correlations among instances by establishing the graph and then migrates the implicit information mined from the feature space to the label space via nonlinear mapping, thus recovering the label significance. Finally, GLEMIML is trained on the enhanced data through matching and interaction mechanisms. GLEMIML (AvgRank: 1.44) can effectively improve the performance of MIML by mining the label distribution mechanism and show better results than the SOTA method (AvgRank: 2.92) on multiple benchmark datasets.
翻訳日:2023-04-24 16:06:25 公開日:2023-04-21
# 対話型システム回り異常検出

Interactive System-wise Anomaly Detection ( http://arxiv.org/abs/2304.10704v1 )

ライセンス: Link先を確認
Guanchu Wang and Ninghao Liu and Daochen Zha and Xia Hu(参考訳) 多数派とは異なる特徴パターンを含むデータインスタンスが検出される異常検出は、さまざまなアプリケーションにおいて基本的な役割を果たす。 しかし、既存の手法では、特性がデータとして容易に観察できないシステムである場合のシナリオを扱うことは困難である。 適切な相互作用は、システムと相互作用し、異常反応のあるものを特定するために必要である。 システム側異常検出問題を形式的に定義する方法、データ収集と検出を漸進的に行うシステムとのインタラクションに有効なアクティベーション信号を見つける方法、リアルタイムインタラクションを伴う非定常シナリオにおける安定したトレーニングの保証方法など、いくつかの理由から、システム側異常検出は難しい課題である。 この課題に対処するため,Interactive System-wise Anomaly Detection (Interactive System-wise Anomaly Detection)を提案する。 具体的には,まず,対話型システムのモデル化にマルコフ決定プロセスを採用し,異常な遷移系と異常な報酬系とを定義する。 次に,システム組込みを学習するエンコーダ・デコーダモジュールと,正規系と異常系の組込みを分離する効果的なアクティベーションを生成するポリシネットワークを含むエンドツーエンド手法を開発した。 最後に,過去のインタラクションデータを格納し,再サンプリングを可能にするリプレイバッファを含む,学習プロセスの安定化のためのトレーニング方法を設計する。 異常ロボットシステムの同定とレコメンデーションモデルにおけるユーザデータ中毒の検出を含む2つのベンチマーク環境における実験は、最先端のベースライン法と比較して、sadの優れていることを示している。

Anomaly detection, where data instances are discovered containing feature patterns different from the majority, plays a fundamental role in various applications. However, it is challenging for existing methods to handle the scenarios where the instances are systems whose characteristics are not readily observed as data. Appropriate interactions are needed to interact with the systems and identify those with abnormal responses. Detecting system-wise anomalies is a challenging task due to several reasons including: how to formally define the system-wise anomaly detection problem; how to find the effective activation signal for interacting with systems to progressively collect the data and learn the detector; how to guarantee stable training in such a non-stationary scenario with real-time interactions? To address the challenges, we propose InterSAD (Interactive System-wise Anomaly Detection). Specifically, first, we adopt Markov decision process to model the interactive systems, and define anomalous systems as anomalous transition and anomalous reward systems. Then, we develop an end-to-end approach which includes an encoder-decoder module that learns system embeddings, and a policy network to generate effective activation for separating embeddings of normal and anomaly systems. Finally, we design a training method to stabilize the learning process, which includes a replay buffer to store historical interaction data and allow them to be re-sampled. Experiments on two benchmark environments, including identifying the anomalous robotic systems and detecting user data poisoning in recommendation models, demonstrate the superiority of InterSAD compared with state-of-the-art baselines methods.
翻訳日:2023-04-24 16:06:03 公開日:2023-04-21
# テキストと数値データストリームを用いたクレジットレーティング予測のためのマルチモーダルディープラーニング

Multi-Modal Deep Learning for Credit Rating Prediction Using Text and Numerical Data Streams ( http://arxiv.org/abs/2304.10740v1 )

ライセンス: Link先を確認
Mahsa Tavakoli, Rohitash Chandra, Fengrui Tian, Cristi\'an Bravo(参考訳) 信用格付けの課題において重要な要因を知ることは、より良い意思決定につながる。 しかし、これまでの文献の焦点は主に構造化データであり、非構造化データセットやマルチモーダルデータセットに対処する研究は少ない。 本稿では,企業信用格付けクラスの予測のための深層学習モデルの融合のための最も効果的なアーキテクチャを,異なるタイプの構造化データセットと非構造化データセットを用いて分析する。 これらのモデルでは,CNN,LSTM,GRU,BERTなど,異なる深層学習モデルとの融合戦略の組み合わせを検討した。 我々は,データ融合戦略を,(初期および中期融合を含む)レベルと技術(連結と交差注意を含む)レベルで研究した。 その結果,二つの融合戦略を持つcnnベースのマルチモーダルモデルは,他のマルチモーダル手法よりも優れていた。 さらに、単純なアーキテクチャとより複雑なアーキテクチャを比較することで、より高度なディープラーニングモデルが必ずしも最高のパフォーマンスをもたらすとは限らないことが分かりましたが、注意に基づくモデルが最良の結果を生み出している場合、融合戦略として相互注意が必要であることがわかりました。 最後に、短期的・中長期的評価における格付け機関の比較から、ムーディーの格付けはスタンダード・アンド・プアーズやフィッチ・レーティングズのような他の格付け機関よりも優れていることが分かる。

Knowing which factors are significant in credit rating assignment leads to better decision-making. However, the focus of the literature thus far has been mostly on structured data, and fewer studies have addressed unstructured or multi-modal datasets. In this paper, we present an analysis of the most effective architectures for the fusion of deep learning models for the prediction of company credit rating classes, by using structured and unstructured datasets of different types. In these models, we tested different combinations of fusion strategies with different deep learning models, including CNN, LSTM, GRU, and BERT. We studied data fusion strategies in terms of level (including early and intermediate fusion) and techniques (including concatenation and cross-attention). Our results show that a CNN-based multi-modal model with two fusion strategies outperformed other multi-modal techniques. In addition, by comparing simple architectures with more complex ones, we found that more sophisticated deep learning models do not necessarily produce the highest performance; however, if attention-based models are producing the best results, cross-attention is necessary as a fusion strategy. Finally, our comparison of rating agencies on short-, medium-, and long-term performance shows that Moody's credit ratings outperform those of other agencies like Standard & Poor's and Fitch Ratings.
翻訳日:2023-04-24 15:59:38 公開日:2023-04-21
# KitchenScale: レシピのコンテキストから成分量を予測する学習

KitchenScale: Learning to predict ingredient quantities from recipe contexts ( http://arxiv.org/abs/2304.10739v1 )

ライセンス: Link先を確認
Donghee Choi, Mogan Gim, Samy Badreddine, Hajung Kim, Donghyeon Park, Jaewoo Kang(参考訳) 食味を豊かにし、健康を増進する観点から、原料の適切な量を決定することは料理の実践の不可欠な部分である。 そこで本研究では,対象成分の量と測定単位をレシピのコンテキストから予測する,微調整事前学習言語モデル(PLM)について紹介する。 キッチンスケールモデルを効果的に訓練するために,成分測定型分類,単位分類,量回帰課題の3つのサブタスクからなる成分量予測タスクを定式化する。 さらに,レシピテキストからplmへの料理知識の転送学習を利用した。 我々は,レシピコーパスにおける数値スケールのばらつきに対処するため,離散潜在指数法(DExp)を採用した。 新たに構築したデータセットとレコメンデーション例を用いた実験では,KitchenScaleが様々なレシピのコンテキストを理解し,成分量を予測するための一般化可能性を示した。 我々は,kitchenscaleのwebアプリケーションを実装し,数量(例えば,2)で表される成分量を単位(例えば,オンス)で推奨する機能を実証した。

Determining proper quantities for ingredients is an essential part of cooking practice from the perspective of enriching tastiness and promoting healthiness. We introduce KitchenScale, a fine-tuned Pre-trained Language Model (PLM) that predicts a target ingredient's quantity and measurement unit given its recipe context. To effectively train our KitchenScale model, we formulate an ingredient quantity prediction task that consists of three sub-tasks which are ingredient measurement type classification, unit classification, and quantity regression task. Furthermore, we utilized transfer learning of cooking knowledge from recipe texts to PLMs. We adopted the Discrete Latent Exponent (DExp) method to cope with high variance of numerical scales in recipe corpora. Experiments with our newly constructed dataset and recommendation examples demonstrate KitchenScale's understanding of various recipe contexts and generalizability in predicting ingredient quantities. We implemented a web application for KitchenScale to demonstrate its functionality in recommending ingredient quantities expressed in numerals (e.g., 2) with units (e.g., ounce).
翻訳日:2023-04-24 15:59:15 公開日:2023-04-21
# 愚かな契約を利用するための教育

Schooling to Exploit Foolish Contracts ( http://arxiv.org/abs/2304.10737v1 )

ライセンス: Link先を確認
Tamer Abdelaziz and Aquinas Hobor(参考訳) 当社のスマートコントラクト学習(semi-supervised)エンジンであるscoolsを紹介します。 SCooLSは、ニューラルネットワークを使用してEthereumコントラクトバイトコードを分析し、特定の脆弱な機能を特定する。 SCooLSには、セミ教師付き学習とグラフニューラルネットワーク(GNN)という2つの重要な要素が含まれている。 半教師付き学習は教師なし学習よりも正確なモデルを生成するが、教師付き学習に必要な大きなオラクルラベルのトレーニングセットは必要ない。 GNNは、手動の機能エンジニアリング、事前に定義されたパターン、専門家のルールなしで、スマートコントラクトバイトコードを直接分析できる。 SCooLSは、スマートコントラクト脆弱性分析への半教師付き学習の最初の応用であり、特定の脆弱性機能を特定するための、ディープラーニングベースの脆弱性分析器である。 SCooLSのパフォーマンスは既存のツールよりも優れており、精度は98.4%、F1スコアは90.5%、偽陽性率は0.8%と極めて低い。 さらにSCooLSは高速で、典型的な関数を0.05秒で解析する。 我々はSCooLSの特定の脆弱な機能を特定してエクスプロイトジェネレータを構築する能力を活用し、真の正の76.9%からEtherを盗むことに成功した。

We introduce SCooLS, our Smart Contract Learning (Semi-supervised) engine. SCooLS uses neural networks to analyze Ethereum contract bytecode and identifies specific vulnerable functions. SCooLS incorporates two key elements: semi-supervised learning and graph neural networks (GNNs). Semi-supervised learning produces more accurate models than unsupervised learning, while not requiring the large oracle-labeled training set that supervised learning requires. GNNs enable direct analysis of smart contract bytecode without any manual feature engineering, predefined patterns, or expert rules. SCooLS is the first application of semi-supervised learning to smart contract vulnerability analysis, as well as the first deep learning-based vulnerability analyzer to identify specific vulnerable functions. SCooLS's performance is better than existing tools, with an accuracy level of 98.4%, an F1 score of 90.5%, and an exceptionally low false positive rate of only 0.8%. Furthermore, SCooLS is fast, analyzing a typical function in 0.05 seconds. We leverage SCooLS's ability to identify specific vulnerable functions to build an exploit generator, which was successful in stealing Ether from 76.9% of the true positives.
翻訳日:2023-04-24 15:58:58 公開日:2023-04-21
# 神経信号を私から生成する:個人から個人までの脳波コンバータ

Generate your neural signals from mine: individual-to-individual EEG converters ( http://arxiv.org/abs/2304.10736v1 )

ライセンス: Link先を確認
Zitong Lu and Julie D. Golomb(参考訳) 認知神経科学と計算神経科学のほとんどのモデルは、個人差により他の被験者に一般化されない。 理想的個人間ニューラルネットワーク変換器は、ある被験者の実際の神経信号を他の被験者の神経信号から生成することが期待されており、認知モデルや計算モデルにおける個人差の問題を克服することができる。 本研究では,コンピュータビジョンにおける生成モデルに触発された脳波変換器であるEEG2EEGを提案する。 対象者72対に対応する72個の独立した脳波2EEGモデルのトレーニングとテストにTHINGS EEG2データセットを適用した。 以上の結果から,eeg2eegは脳波信号の神経表現のマッピングを効果的に学習でき,高い変換性能が得られることが示された。 さらに、生成された脳波信号は、実データから得られるものよりも視覚情報の明確な表現を含んでいる。 脳波信号のニューラルトランスフォーメーションのための新しい最先端の枠組みを確立し、個人から個人への柔軟かつ高性能なマッピングを実現し、ニューラルエンジニアリングと認知神経科学の両方に洞察を与える。

Most models in cognitive and computational neuroscience trained on one subject do not generalize to other subjects due to individual differences. An ideal individual-to-individual neural converter is expected to generate real neural signals of one subject from those of another one, which can overcome the problem of individual differences for cognitive and computational models. In this study, we propose a novel individual-to-individual EEG converter, called EEG2EEG, inspired by generative models in computer vision. We applied THINGS EEG2 dataset to train and test 72 independent EEG2EEG models corresponding to 72 pairs across 9 subjects. Our results demonstrate that EEG2EEG is able to effectively learn the mapping of neural representations in EEG signals from one subject to another and achieve high conversion performance. Additionally, the generated EEG signals contain clearer representations of visual information than that can be obtained from real data. This method establishes a novel and state-of-the-art framework for neural conversion of EEG signals, which can realize a flexible and high-performance mapping from individual to individual and provide insight for both neural engineering and cognitive neuroscience.
翻訳日:2023-04-24 15:58:41 公開日:2023-04-21
# 巨大電気双極子モーメントの人工原子系

Engineering artificial atomic systems of giant electric dipole moment ( http://arxiv.org/abs/2304.10735v1 )

ライセンス: Link先を確認
Baiyi Yu, Yaoming Chu, Ralf Betzholz, Shaoliang Zhang, and Jianming Cai(参考訳) 電気双極子モーメント(EDM)は、原子と電場との相互作用強度を決定する上で重要な役割を担い、コヒーレントな原子制御に基づく量子技術に最重要である。 本稿では、ポールトラップのポテンシャルを工学的に設計し、トラップされた電子の運動状態によって形成される巨大なEDMを持つ2レベル量子システムを実現する手法を提案する。 現実的な実験条件下では、EDMはリドベルク原子で達成できるものよりもかなり高い値を示す。 さらに、このような人工原子双極子を効率よく初期化、読み出し、コヒーレントに制御できることを示し、超高感度電場センシングのような量子技術のための潜在的プラットフォームを提供する。

The electric dipole moment (EDM) plays a crucial role in determining the interaction strength of an atom with electric fields, making it paramount to quantum technologies based on coherent atomic control. We propose a scheme for engineering the potential in a Paul trap to realize a two-level quantum system with a giant EDM formed by the motional states of a trapped electron. We show that, under realistic experimental conditions, the EDM can significantly exceed the ones attainable with Rydberg atoms. Furthermore, we show that such artificial atomic dipoles can be efficiently initialized, readout, and coherently controlled, thereby providing a potential platform for quantum technologies such as ultrahigh-sensitivity electric-field sensing.
翻訳日:2023-04-24 15:58:21 公開日:2023-04-21
# 空間知識グラフを用いた線形建築パターン認識

Linear building pattern recognition via spatial knowledge graph ( http://arxiv.org/abs/2304.10733v1 )

ライセンス: Link先を確認
Wei Zhiwei, Xiao Yi, Tong Ying, Xu Wenjia, Wang Yang(参考訳) 建築パターンは、都市物質と社会経済の影響を反映した重要な都市構造である。 従来の研究は主にグラフ同型法に基づいており、効率的でない建築パターンを認識するためにルールを使用している。 知識グラフは、グラフを用いてエンティティ間の関係をモデル化し、関連する推論ツールを用いて、特定のサブグラフパターンを効率的に得ることができる。 そこで,我々は知識グラフを用いて線形構築パターンの認識を試みる。 まず, 特徴グラフを用いて, 建物間の空間的関係, 類似性, 線形配置を表現し, 第二に, 線形パターン認識の規則を知識グラフ推論の規則として表現し, 最後に, 構築した知識グラフの規則に基づく推論を用いて線形構造パターンを認識させる。 1289の建物を含むデータセットにおける実験結果から,本論文の手法は既存の手法と同じ精度とリコールが可能であり,一方,認識効率は5.98倍向上した。

Building patterns are important urban structures that reflect the effect of the urban material and social-economic on a region. Previous researches are mostly based on the graph isomorphism method and use rules to recognize building patterns, which are not efficient. The knowledge graph uses the graph to model the relationship between entities, and specific subgraph patterns can be efficiently obtained by using relevant reasoning tools. Thus, we try to apply the knowledge graph to recognize linear building patterns. First, we use the property graph to express the spatial relations in proximity, similar and linear arrangement between buildings; secondly, the rules of linear pattern recognition are expressed as the rules of knowledge graph reasoning; finally, the linear building patterns are recognized by using the rule-based reasoning in the built knowledge graph. The experimental results on a dataset containing 1289 buildings show that the method in this paper can achieve the same precision and recall as the existing methods; meanwhile, the recognition efficiency is improved by 5.98 times.
翻訳日:2023-04-24 15:58:08 公開日:2023-04-21
# RoCOCO: 画像テキストマッチングモデルのストレステストロバスト性に対するロバストベンチマークMS-COCO

RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text Matching Models ( http://arxiv.org/abs/2304.10727v1 )

ライセンス: Link先を確認
Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun and Jin Young Choi(参考訳) 近年,MS COCO 5Kテストセットにおける画像テキストマッチング(ITM)の精度が大幅に向上した。 しかし、これらの最先端(SOTA)モデルが野生で使用する場合、どれほど堅牢かは明らかではない。 本稿では,IMMモデルのロバスト性を評価するための新しい評価ベンチマークを提案する。 この目的のために,検索プールに様々な騙し画像とキャプションを追加する。 具体的には、無関係な画像を挿入して画像を変更し、文の意味を変えることができる名詞を代用して字幕を変更する。 これらの新たに作成されたイメージとキャプションをテストセットに追加するだけで、幅広いSOTAモデルのパフォーマンス(例えば、81.9%$\rightarrow$64.5%、66.1%$\rightarrow$37.5%、VSE$\infty$など)を低下させることができる。 我々は,視覚言語モデルのロバスト性向上のための洞察を提供し,クロスモーダル検索タスクにおいてより多様なストレステスト手法を考案できることを期待している。 ソースコードとデータセットはhttps://github.com/pseulki/rococoで入手できる。

Recently, large-scale vision-language pre-training models and visual semantic embedding methods have significantly improved image-text matching (ITM) accuracy on MS COCO 5K test set. However, it is unclear how robust these state-of-the-art (SOTA) models are when using them in the wild. In this paper, we propose a novel evaluation benchmark to stress-test the robustness of ITM models. To this end, we add various fooling images and captions to a retrieval pool. Specifically, we change images by inserting unrelated images, and change captions by substituting a noun, which can change the meaning of a sentence. We discover that just adding these newly created images and captions to the test set can degrade performances (i.e., Recall@1) of a wide range of SOTA models (e.g., 81.9% $\rightarrow$ 64.5% in BLIP, 66.1% $\rightarrow$ 37.5% in VSE$\infty$). We expect that our findings can provide insights for improving the robustness of the vision-language models and devising more diverse stress-test methods in cross-modal retrieval task. Source code and dataset will be available at https://github.com/pseulki/rococo.
翻訳日:2023-04-24 15:57:52 公開日:2023-04-21
# 愚かな契約を見つけるためのスマート学習

Smart Learning to Find Dumb Contracts ( http://arxiv.org/abs/2304.10726v1 )

ライセンス: Link先を確認
Tamer Abdelaziz and Aquinas Hobor(参考訳) 我々は、バイトコードに適応したシーケンシャルデータのための強力なディープラーニング技術に基づくethereumスマートコントラクトの脆弱性検出ツールであるdeep learning vulnerability analyzer(dlva)を紹介する。 我々はDLVAをトレーニングしてバイトコードを判定するが、監視するオラクルであるSlitherはソースコードのみを判断できる。 DLVAのトレーニングアルゴリズムは一般的なもので、手動のフィーチャエンジニアリング、事前定義されたパターン、専門家のルールなしでソースコード解析をバイトコードに"拡張"します。 dlvaのトレーニングアルゴリズムも頑健であり、1.25%の誤記契約を上回り、生徒が教師を上回り、スライサーが誤記した脆弱な契約を見つけた。 DLVAはソースコードアナライザをバイトコードに拡張するだけでなく、形式的なメソッドに基づいたスマートコントラクトの脆弱性検出のための従来のツールよりもはるかに高速である。 DLVAには3つの重要なコンポーネントがある。 Smart Contract to Vector (SC2V) はニューラルネットワークを用いて任意のスマートコントラクトバイトコードを高次元浮動小数点ベクトルにマッピングする。 姉妹検出器(sd)は、対象契約のベクトルが訓練セット内のラベル付き契約ベクトルとユークリッド的に近い場合の契約を分類するが、テストセットの契約の55.7%しか判断できないが、平均精度97.4%であり、偽陽性率は0.1%である。 最後に、コア分類器(CC)はニューラルネットワークを使用して、ベクトル距離に関係なく脆弱な制約を推測する。 DLVAの全体的な精度は96.6%で、偽陽性率はわずか3.7%である。

We introduce Deep Learning Vulnerability Analyzer (DLVA), a vulnerability detection tool for Ethereum smart contracts based on powerful deep learning techniques for sequential data adapted for bytecode. We train DLVA to judge bytecode even though the supervising oracle, Slither, can only judge source code. DLVA's training algorithm is general: we "extend" a source code analysis to bytecode without any manual feature engineering, predefined patterns, or expert rules. DLVA's training algorithm is also robust: it overcame a 1.25% error rate mislabeled contracts, and the student surpassing the teacher; found vulnerable contracts that Slither mislabeled. In addition to extending a source code analyzer to bytecode, DLVA is much faster than conventional tools for smart contract vulnerability detection based on formal methods: DLVA checks contracts for 29 vulnerabilities in 0.2 seconds, a speedup of 10-500x+ compared to traditional tools. DLVA has three key components. Smart Contract to Vector (SC2V) uses neural networks to map arbitrary smart contract bytecode to an high-dimensional floating-point vector. Sibling Detector (SD) classifies contracts when a target contract's vector is Euclidian-close to a labeled contract's vector in a training set; although only able to judge 55.7% of the contracts in our test set, it has an average accuracy of 97.4% with a false positive rate of only 0.1%. Lastly, Core Classifier (CC) uses neural networks to infer vulnerable contracts regardless of vector distance. DLVA has an overall accuracy of 96.6% with an associated false positive rate of only 3.7%.
翻訳日:2023-04-24 15:57:29 公開日:2023-04-21
# 混合整数ブラックボックス最適化のための自然進化戦略

Natural Evolution Strategy for Mixed-Integer Black-Box Optimization ( http://arxiv.org/abs/2304.10724v1 )

ライセンス: Link先を確認
Koki Ikeda and Isao Ono(参考訳) 本稿では,機械学習のハイパーパラメータ最適化や材料設計といった現実的な問題に現れる混合整数ブラックボックス最適化(MI-BBO)のための自然進化戦略を提案する。 この問題は、整数変数が連続変数に緩和されたときに値が変化しない高原が現れるため、最適化が難しい。 CMA-ES w。 台地に対処したマージンはMI-BBOベンチマーク問題で優れた性能を示したと伝えられている。 しかし, CMA-ES w の探索性能は良好であった。 連続変数が整数値よりも目的関数値に寄与する場合、Marginは劣化する。 CMA-ES w の問題に対処する。 本稿では,Implicit Constraint and Integer(DX-NES-ICI)を考慮した距離重み付きeXponential Natural Evolution Strategyを提案する。 我々は,DX-NES-ICIの検索性能をCMA-ES wと比較した。 数値実験によるマージン。 その結果、DX-NES-ICIはCMA-ES wの3.7倍に向上した。 連続変数が整数値よりも目的関数値に寄与するベンチマーク問題における最適解を見つける率の点でマージンである。 DX-NES-ICI も CMA-ES w を上回った。 CMA-ES が問題となる。 マージンは元々良い成績を示した。

This paper proposes a natural evolution strategy (NES) for mixed-integer black-box optimization (MI-BBO) that appears in real-world problems such as hyperparameter optimization of machine learning and materials design. This problem is difficult to optimize because plateaus where the values do not change appear when the integer variables are relaxed to the continuous ones. CMA-ES w. Margin that addresses the plateaus reportedly showed good performance on MI-BBO benchmark problems. However, it has been observed that the search performance of CMA-ES w. Margin deteriorates when continuous variables contribute more to the objective function value than integer ones. In order to address the problem of CMA-ES w. Margin, we propose Distance-weighted eXponential Natural Evolution Strategy taking account of Implicit Constraint and Integer (DX-NES-ICI). We compare the search performance of DX-NES-ICI with that of CMA-ES w. Margin through numerical experiments. As a result, DX-NES-ICI was up to 3.7 times better than CMA-ES w. Margin in terms of a rate of finding the optimal solutions on benchmark problems where continuous variables contribute more to the objective function value than integer ones. DX-NES-ICI also outperformed CMA-ES w. Margin on problems where CMA-ES w. Margin originally showed good performance.
翻訳日:2023-04-24 15:56:59 公開日:2023-04-21
# 欠落データに基づく交通信号制御のための強化学習手法

Reinforcement Learning Approaches for Traffic Signal Control under Missing Data ( http://arxiv.org/abs/2304.10722v1 )

ライセンス: Link先を確認
Hao Mei, Junxian Li, Bin Shi, Hua Wei(参考訳) 信号制御タスクにおける強化学習(RL)手法の出現は,従来のルールベース手法よりも優れた性能を実現している。 ほとんどのRLアプローチでは、エージェントが長期的な報酬に最適なアクションを決定するために環境を観察する必要がある。 しかし、現実の都市では、センサの欠如により交通状態の観察が欠如することがあるため、既存のRL法を道路網に適用できず、観測が欠如している。 本研究では,道路網の交差点の一部にセンサを装着せず,その周辺を直接観測することなく,実環境において交通信号を制御することを目的とする。 我々の知る限りでは、実世界の交通信号制御問題に対処するためにRL法を最初に利用した人物である。 具体的には,第1に適応制御を実現するために交通状態をインプットし,第2に適応制御とRLエージェントのトレーニングを可能にするために,状態と報酬の両方をインプットする。 本手法は,合成と実世界の道路網トラフィックの両方について広範な実験を行い,従来の手法よりも優れており,異なる欠落率で一貫した性能を示す。 また,データの欠落がモデルの性能に与える影響についてもさらなる調査を行う。

The emergence of reinforcement learning (RL) methods in traffic signal control tasks has achieved better performance than conventional rule-based approaches. Most RL approaches require the observation of the environment for the agent to decide which action is optimal for a long-term reward. However, in real-world urban scenarios, missing observation of traffic states may frequently occur due to the lack of sensors, which makes existing RL methods inapplicable on road networks with missing observation. In this work, we aim to control the traffic signals in a real-world setting, where some of the intersections in the road network are not installed with sensors and thus with no direct observations around them. To the best of our knowledge, we are the first to use RL methods to tackle the traffic signal control problem in this real-world setting. Specifically, we propose two solutions: the first one imputes the traffic states to enable adaptive control, and the second one imputes both states and rewards to enable adaptive control and the training of RL agents. Through extensive experiments on both synthetic and real-world road network traffic, we reveal that our method outperforms conventional approaches and performs consistently with different missing rates. We also provide further investigations on how missing data influences the performance of our model.
翻訳日:2023-04-24 15:56:39 公開日:2023-04-21
# GeoLayoutLM:ビジュアル情報抽出のための幾何学的事前学習

GeoLayoutLM: Geometric Pre-training for Visual Information Extraction ( http://arxiv.org/abs/2304.10759v1 )

ライセンス: Link先を確認
Chuwei Luo, Changxu Cheng, Qi Zheng, Cong Yao(参考訳) 視覚情報抽出(VIE)はドキュメントインテリジェンスにおいて重要な役割を果たす。 一般に、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分けられる。 近年、文書の事前学習モデルは、特にSERにおいて、VIEにおいてかなりの進歩を遂げている。 しかし,既存のモデルでは幾何学的表現が暗黙的に学習されており,特にREにとって幾何学的情報が不可欠であることから,REタスクでは不十分であることが判明している。 また、REの学習前フェーズとREの微調整フェーズとの客観的ギャップにREの性能を制限する別の要因を明らかにする。 このような問題に対処するため,本稿ではGeoLayoutLMというマルチモーダルフレームワークをVIE向けに提案する。 geolayoutlm は事前学習における幾何学的関係を明示的にモデル化している。 幾何学的事前訓練は、3つの特別に設計された幾何学的関連事前訓練タスクによって達成される。 さらに、幾何学的事前学習タスクによって事前訓練され、REのために微調整された新しい関係ヘッドは、特徴表現の強化と強化を念頭に設計されている。 標準VIEベンチマークの広範な実験によると、GeoLayoutLMはSERタスクにおいて非常に競争力のあるスコアを達成し、以前のREの最先端よりも大幅に向上している(FUNSD上のREのF1スコアは80.35\%から89.45\%に向上している)。 コードとモデルはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayo utLMで公開されている。

Visual information extraction (VIE) plays an important role in Document Intelligence. Generally, it is divided into two tasks: semantic entity recognition (SER) and relation extraction (RE). Recently, pre-trained models for documents have achieved substantial progress in VIE, particularly in SER. However, most of the existing models learn the geometric representation in an implicit way, which has been found insufficient for the RE task since geometric information is especially crucial for RE. Moreover, we reveal another factor that limits the performance of RE lies in the objective gap between the pre-training phase and the fine-tuning phase for RE. To tackle these issues, we propose in this paper a multi-modal framework, named GeoLayoutLM, for VIE. GeoLayoutLM explicitly models the geometric relations in pre-training, which we call geometric pre-training. Geometric pre-training is achieved by three specially designed geometry-related pre-training tasks. Additionally, novel relation heads, which are pre-trained by the geometric pre-training tasks and fine-tuned for RE, are elaborately designed to enrich and enhance the feature representation. According to extensive experiments on standard VIE benchmarks, GeoLayoutLM achieves highly competitive scores in the SER task and significantly outperforms the previous state-of-the-arts for RE (\eg, the F1 score of RE on FUNSD is boosted from 80.35\% to 89.45\%). The code and models are publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayo utLM
翻訳日:2023-04-24 15:51:13 公開日:2023-04-21
# 半教師付きマルチモーダル意味セグメンテーションにおける不確かさの欠如

Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic Segmentation ( http://arxiv.org/abs/2304.10756v1 )

ライセンス: Link先を確認
Harsh Maheshwari, Yen-Cheng Liu, Zsolt Kira(参考訳) 複数の空間的モダリティを使用することでセマンティックセグメンテーションの性能を向上させることが証明されている。 しかし、まだ解決されていない現実の課題がいくつかある。 (a)ラベル効率の向上及び b) テスト時にモダリティが欠落している現実的なシナリオにおける堅牢性の向上。 これらの課題に対処するため,我々はまず,限られた監督のもとでも最先端のマルチモーダルモデルよりも優れた性能を持つ,単純で効率的なマルチモーダル融合機構線形融合を提案する。 マルチモーダル・モダリティ・ラーニング(M3L: Multi-modal Teacher for Masked Modality Learning)は、マルチモーダル・パフォーマンスを向上するだけでなく、ラベルのないデータを用いた現実的なモダリティ・シナリオに頑健にする半教師付きフレームワークである。 我々は,半教師付きマルチモーダルセマンティクスセグメンテーションのための最初のベンチマークを作成し,欠落したモダリティに対するロバスト性について報告する。 我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%改善したことを示す。 私たちのコードはhttps://github.com/harshm121/M3Lで利用可能です。

Using multiple spatial modalities has been proven helpful in improving semantic segmentation performance. However, there are several real-world challenges that have yet to be addressed: (a) improving label efficiency and (b) enhancing robustness in realistic scenarios where modalities are missing at the test time. To address these challenges, we first propose a simple yet efficient multi-modal fusion mechanism Linear Fusion, that performs better than the state-of-the-art multi-modal models even with limited supervision. Second, we propose M3L: Multi-modal Teacher for Masked Modality Learning, a semi-supervised framework that not only improves the multi-modal performance but also makes the model robust to the realistic missing modality scenario using unlabeled data. We create the first benchmark for semi-supervised multi-modal semantic segmentation and also report the robustness to missing modalities. Our proposal shows an absolute improvement of up to 10% on robust mIoU above the most competitive baselines. Our code is available at https://github.com/harshm121/M3L
翻訳日:2023-04-24 15:50:44 公開日:2023-04-21
# EEGシステムにおける解釈AIとロバストAI:サーベイ

Interpretable and Robust AI in EEG Systems: A Survey ( http://arxiv.org/abs/2304.10755v1 )

ライセンス: Link先を確認
Xinliang Zhou, Chenyu Liu, Liming Zhai, Ziyu Jia, Cuntai Guan and Yang Liu(参考訳) 人工知能(AI)と脳波(EEG)の密結合は、AI時代において人間とコンピュータの相互作用(HCI)技術を大幅に進歩させた。 従来の脳波システムとは異なり、AIベースの脳波システムの解釈可能性と堅牢性は特に重要になっている。 解釈可能性は、AIモデルの内部動作メカニズムを明確にし、それによってユーザの信頼を得ることができる。 堅牢性は、敏感で脆弱な脳波信号に不可欠な攻撃や摂動に対するaiの信頼性を反映している。 このように、脳波システムにおけるAIの解釈可能性と堅牢性は注目され、その研究は近年大きな進歩を遂げている。 しかし、この分野の最近の進歩についてはまだ調査されていない。 本稿では,脳波システムのための解釈可能な,堅牢なAI技術について概説する。 具体的には, バックプロパゲーション, 摂動, 本質的に解釈可能な手法の3つのタイプに特徴付けることにより, 解釈可能性の分類法を提案する。 次に、ロバスト性メカニズムを、ノイズとアーティファクト、人間の可変性、データ取得不安定性、敵攻撃の4つのクラスに分類する。 最後に、脳波システムにおけるAIの解釈と堅牢性に関するいくつかの重要かつ未解決の課題を特定し、今後の方向性についてさらに議論する。

The close coupling of artificial intelligence (AI) and electroencephalography (EEG) has substantially advanced human-computer interaction (HCI) technologies in the AI era. Different from traditional EEG systems, the interpretability and robustness of AI-based EEG systems are becoming particularly crucial. The interpretability clarifies the inner working mechanisms of AI models and thus can gain the trust of users. The robustness reflects the AI's reliability against attacks and perturbations, which is essential for sensitive and fragile EEG signals. Thus the interpretability and robustness of AI in EEG systems have attracted increasing attention, and their research has achieved great progress recently. However, there is still no survey covering recent advances in this field. In this paper, we present the first comprehensive survey and summarize the interpretable and robust AI techniques for EEG systems. Specifically, we first propose a taxonomy of interpretability by characterizing it into three types: backpropagation, perturbation, and inherently interpretable methods. Then we classify the robustness mechanisms into four classes: noise and artifacts, human variability, data acquisition instability, and adversarial attacks. Finally, we identify several critical and unresolved challenges for interpretable and robust AI in EEG systems and further discuss their future directions.
翻訳日:2023-04-24 15:50:25 公開日:2023-04-21
# 予測エルゴディディティ:アルゴリズム情報理論を用いた予測モデル

Forecast Ergodicity: Prediction Modeling Using Algorithmic Information Theory ( http://arxiv.org/abs/2304.10752v1 )

ライセンス: Link先を確認
Glauco Amigo, Daniel Andr\'es D\'iaz-Pach\'on, Robert J. Marks(参考訳) マシンインテリジェンスの能力は、未来を予測するために過去のデータの可能性に縛られている。 ディープラーニングツールは、将来を予測するために利用可能なデータ構造を見つけるために使用される。 このような構造は、そもそも利用可能なデータの中に存在しなければならず、将来的には適用できなければならない。 予測エルゴード性は、過去のデータから将来の事象を予測する能力の尺度である。 利用可能なデータのアルゴリズム的な複雑さによって、これをモデル化します。

The capabilities of machine intelligence are bounded by the potential of data from the past to forecast the future. Deep learning tools are used to find structures in the available data to make predictions about the future. Such structures have to be present in the available data in the first place and they have to be applicable in the future. Forecast ergodicity is a measure of the ability to forecast future events from data in the past. We model this bound by the algorithmic complexity of the available data.
翻訳日:2023-04-24 15:50:05 公開日:2023-04-21
# ヘルプフィードバックによるエージェントとの対話による協調環境における接地言語理解の改善

Improving Grounded Language Understanding in a Collaborative Environment by Interacting with Agents Through Help Feedback ( http://arxiv.org/abs/2304.10750v1 )

ライセンス: Link先を確認
Nikhil Mehta, Milagro Teruel, Patricio Figueroa Sanz, Xin Deng, Ahmed Hassan Awadallah, and Julia Kiseleva(参考訳) 自然言語処理(nlp)タスクに対する多くのアプローチは、エージェントが命令を受け取り、実行し、最終的な結果に基づいて評価するシングルステップ問題として扱うことが多い。 しかし、人間の言語は本質的に対話的であり、人間の会話の前後の性質によって証明される。 これを踏まえて、人間とAIのコラボレーションも対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきであると仮定する。 さらに、AIエージェントは追加情報が必要なタイミングを検出し、積極的に助けを求めることができる必要がある。 このシナリオを実現することで、より自然で効率的で魅力的な人間とAIのコラボレーションが可能になる。 本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。 さまざまなタイプのヘルププレーヤがAIに与えてガイドし、AI行動におけるこのヘルプの影響を分析し、結果としてパフォーマンスが向上します。

Many approaches to Natural Language Processing (NLP) tasks often treat them as single-step problems, where an agent receives an instruction, executes it, and is evaluated based on the final outcome. However, human language is inherently interactive, as evidenced by the back-and-forth nature of human conversations. In light of this, we posit that human-AI collaboration should also be interactive, with humans monitoring the work of AI agents and providing feedback that the agent can understand and utilize. Further, the AI agent should be able to detect when it needs additional information and proactively ask for help. Enabling this scenario would lead to more natural, efficient, and engaging human-AI collaborations. In this work, we explore these directions using the challenging task defined by the IGLU competition, an interactive grounded language understanding task in a MineCraft-like world. We explore multiple types of help players can give to the AI to guide it and analyze the impact of this help in AI behavior, resulting in performance improvements.
翻訳日:2023-04-24 15:49:56 公開日:2023-04-21
# ディープスパイクニューラルネットワークのためのマルチスケール進化的ニューラルネットワーク探索

Multi-scale Evolutionary Neural Architecture Search for Deep Spiking Neural Networks ( http://arxiv.org/abs/2304.10749v1 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Guobin Shen, Bing Han, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、離散的な信号処理によるエネルギー効率の優位性だけでなく、マルチスケールの生物学的可塑性を統合する自然的適合性にも大きな注目を集めている。 しかし、ほとんどのSNNは、よく確立されたDNNの構造をそのまま採用しており、SNNのために自動的にNAS(Neural Architecture Search)を設計することは滅多にない。 神経モチーフのトポロジー、モジュール型地域構造、人間の脳のグローバルな横断脳領域接続は自然進化の産物であり、脳にインスパイアされたSNNアーキテクチャを設計するための完璧なリファレンスとなる。 本稿では,マイクロ,メソ,マクロの脳トポロジを進化探索空間として考慮し,SNNのためのマルチスケール進化型ニューラルネットワーク探索(MSE-NAS)を提案する。 MSE-NASは、個々のニューロンの操作、複数の回路モチーフの自己組織化の統合、脳にインスパイアされた間接的評価機能であるRepresentational Dissimilarity Matrices (RDMs)を通じて、グローバルなモチーフ間の接続を進化させる。 このトレーニング不要な適合関数は、計算消費とNASの時間を大幅に削減し、そのタスク非依存性により、検索されたSNNが優れた転送性とスケーラビリティを示すことができる。 提案アルゴリズムは静的データセット (CIFAR10, CIFAR100) とニューロモルフィックデータセット (CIFAR10-DVS, DVS128-Gesture) のシミュレーションステップを短縮して, 最先端 (SOTA) 性能を実現することを示した。 網羅的な分析はまた、異なるスケールでのトポロジ的進化とRDMの適合関数から導かれる顕著な性能改善と一貫した生体解釈可能性を示している。

Spiking Neural Networks (SNNs) have received considerable attention not only for their superiority in energy efficient with discrete signal processing, but also for their natural suitability to integrate multi-scale biological plasticity. However, most SNNs directly adopt the structure of the well-established DNN, rarely automatically design Neural Architecture Search (NAS) for SNNs. The neural motifs topology, modular regional structure and global cross-brain region connection of the human brain are the product of natural evolution and can serve as a perfect reference for designing brain-inspired SNN architecture. In this paper, we propose a Multi-Scale Evolutionary Neural Architecture Search (MSE-NAS) for SNN, simultaneously considering micro-, meso- and macro-scale brain topologies as the evolutionary search space. MSE-NAS evolves individual neuron operation, self-organized integration of multiple circuit motifs, and global connectivity across motifs through a brain-inspired indirect evaluation function, Representational Dissimilarity Matrices (RDMs). This training-free fitness function could greatly reduce computational consumption and NAS's time, and its task-independent property enables the searched SNNs to exhibit excellent transferbility and scalability. Extensive experiments demonstrate that the proposed algorithm achieves state-of-the-art (SOTA) performance with shorter simulation steps on static datasets (CIFAR10, CIFAR100) and neuromorphic datasets (CIFAR10-DVS and DVS128-Gesture). The thorough analysis also illustrates the significant performance improvement and consistent bio-interpretability deriving from the topological evolution at different scales and the RDMs fitness function.
翻訳日:2023-04-24 15:49:39 公開日:2023-04-21
# オープンシステムにおける高忠実状態伝送の最適化制御

Optimized control for high-fidelity state transmission in open systems ( http://arxiv.org/abs/2304.10748v1 )

ライセンス: Link先を確認
Yang-Yang Xie, Feng-Hua Ren, Arapat Ablimit, Xiang-Han Liang, Zhao-Ming Wang(参考訳) スピン鎖による量子状態転移(qst)は広く研究されている。 完全状態伝達(PST)のための結合セットと漏れ除去演算子(LEO)を付加する2つのスキームが提案されている。 しかし、これらの理想的なスキームは閉系にのみ適合し、開系において有効性を失う。 本研究では,pst結合とleoの応用範囲をオープンシステムに拡張するために,よく検討された最適化アルゴリズムadamを起動する。 その結果, システムバス結合強度, マルコビアン性, 温度が増大するにつれて透過性は低下するが, 最適化されたスキームによって得られるフィデリティは常に理想的なケースを上回っていることがわかった。 強化された浴槽はより強くなり、より強い浴槽はアダムが最適化する余地を提供する。 本手法は,環境下での忠実な情報伝達を実現するのに有用である。

Quantum state transfer (QST) through spin chains has been extensively investigated. Two schemes, the coupling set for perfect state transfer (PST) or adding a leakage elimination operator (LEO) Hamiltonian have been proposed to boost the transmission fidelity. However, these ideal schemes are only suitable for closed systems and will lose their effectiveness in open ones. In this work, we invoke a well explored optimization algorithm, Adam, to expand the applicable range of PST couplings and LEO to the open systems. Our results show that although the transmission fidelity decreases with increasing system-bath coupling strength, Markovianity and temperature for both ideal and optimized cases, the fidelities obtained by the optimized schemes always outweigh the ideal cases. The enhancement becomes more bigger for a stronger bath, indicating a stronger bath provides more space for the Adam to optimize. This method will be useful for the realization of high-fidelity information transfer in the presence of environment.
翻訳日:2023-04-24 15:49:03 公開日:2023-04-21
# エージェントのインテリジェント配置によるオピニオンエコーチェンバの低減

Reducing Opinion Echo-Chambers by Intelligent Placement of Moderate-Minded Agents ( http://arxiv.org/abs/2304.10745v1 )

ライセンス: Link先を確認
Prithwish Jana, Romit Roy Choudhury and Niloy Ganguly(参考訳) ソーシャルメディアの時代、人々は様々な問題について自分の意見をオンラインで共有することが多く、その過程で他人の意見に触れる。 ニュースフィードのレコメンデーションアルゴリズムや、私たちの意見を支持する意見を聞く傾向を選択的に露呈するために、その結果、私たちの意見に近付くようになるのです。 さらに、どの人口も本質的に異質である。つまり、人々はトピックに関するさまざまな意見を持ち、他人の影響を受けるために様々な範囲のオープンさを示す。 本稿では,オープン・クローズ・マインドドエージェントによる問題に対する行動の相違を,自由に相互混合し,コミュニケーションできる場合に示す。 我々は,意見の混ざり合いが意見の反響室,すなわち類似の意見を持ち,ネットワーク外の意見の影響を受けない少人数の閉じたネットワークの形成に繋がることを示した。 エコーチェンバーは、すべての人の自由な健全なコミュニケーションを阻害し、意見の交換を防ぎ、誤った情報を広め、過激な信念を増すので、社会にとって明らかに有害である。 これは、意見の総和は不可能であり、歓迎されないため、エコーチャンバーの縮小を要求する。 エコーチャンバーの数は近心エージェントの数に依存しており,開心エージェントの数を増やすことで低減できないことを示す。 我々は、エコーチャンバーを操作・縮小する能力を有する特定の「モデレート」志向のエージェントを同定する。 本稿では,意見エコーチャンバーを最大に削減できる,意見時間スペクトルにおける中等感性エージェントのインテリジェント配置アルゴリズムを提案する。 実験により,提案手法は,他のエージェントの配置(オープンまたはクローズマインド)や「モデレート」のエージェントのランダム配置と比較すると良好であることを示す。

In the era of social media, people frequently share their own opinions online on various issues and also in the way, get exposed to others' opinions. Be it for selective exposure of news feed recommendation algorithms or our own inclination to listen to opinions that support ours, the result is that we get more and more exposed to opinions closer to ours. Further, any population is inherently heterogeneous i.e. people will hold a varied range of opinions regarding a topic and showcase a varied range of openness to get influenced by others. In this paper, we demonstrate the different behavior put forward by open- and close-minded agents towards an issue, when allowed to freely intermix and communicate. We have shown that the intermixing among people leads to formation of opinion echo chambers i.e. a small closed network of people who hold similar opinions and are not affected by opinions of people outside the network. Echo chambers are evidently harmful for a society because it inhibits free healthy communication among all and thus, prevents exchange of opinions, spreads misinformation and increases extremist beliefs. This calls for reduction in echo chambers, because a total consensus of opinion is neither possible nor is welcome. We show that the number of echo chambers depends on the number of close-minded agents and cannot be lessened by increasing the number of open-minded agents. We identify certain 'moderate'-minded agents, who possess the capability of manipulating and reducing the number of echo chambers. The paper proposes an algorithm for intelligent placement of moderate-minded agents in the opinion-time spectrum by which the opinion echo chambers can be maximally reduced. With various experimental setups, we demonstrate that the proposed algorithm fares well when compared to placement of other agents (open- or close-minded) and random placement of 'moderate'-minded agents.
翻訳日:2023-04-24 15:48:46 公開日:2023-04-21
# 間接コミュニケーションフェデレーション学習のための共同顧客割り当てとUAV経路計画

Joint Client Assignment and UAV Route Planning for Indirect-Communication Federated Learning ( http://arxiv.org/abs/2304.10744v1 )

ライセンス: Link先を確認
Jieming Bian, Cong Shen, Jie Xu(参考訳) フェデレーション学習(federated learning, fl)は、強力なアプリケーションのための共有モデルの作成と、デバイス上でのデータ保持を可能にする、マシンラーニングのアプローチである。 このアプローチは、データプライバシの改善、セキュリティ、レイテンシ低減といったメリットを提供する。 しかし、一部のシステムでは、適切な通信インフラのない遠隔地など、クライアントとサーバ間の直接通信ができない場合がある。 この課題を克服するため、FedEx (Federated Learning via Model Express Delivery)と呼ばれる新しいフレームワークが提案されている。 このフレームワークは、UAVのような移動体トランスポーターを使用して、サーバとクライアント間の間接的な通信チャネルを確立する。 これらのトランスポーターは仲介役となり、モデル情報交換を可能にする。 間接通信の利用は,グローバルモデルの普及と局所モデル収集の両面において,トランスポーターの動きによる遅延が問題となるため,収束解析と最適化に新たな課題をもたらす。 これを解決するために,FedEx-SyncとFedEx-Asyncという2つのアルゴリズムを提案する。 さらに,クライアント割当と経路計画の問題を解くために,biレベル最適化アルゴリズムを提案する。 シミュレーションネットワークにおける2つの公開データセットを用いた実験的検証により,fedexの有効性が実証された。

Federated Learning (FL) is a machine learning approach that enables the creation of shared models for powerful applications while allowing data to remain on devices. This approach provides benefits such as improved data privacy, security, and reduced latency. However, in some systems, direct communication between clients and servers may not be possible, such as remote areas without proper communication infrastructure. To overcome this challenge, a new framework called FedEx (Federated Learning via Model Express Delivery) is proposed. This framework employs mobile transporters, such as UAVs, to establish indirect communication channels between the server and clients. These transporters act as intermediaries and allow for model information exchange. The use of indirect communication presents new challenges for convergence analysis and optimization, as the delay introduced by the transporters' movement creates issues for both global model dissemination and local model collection. To address this, two algorithms, FedEx-Sync and FedEx-Async, are proposed for synchronized and asynchronized learning at the transporter level. Additionally, a bi-level optimization algorithm is proposed to solve the joint client assignment and route planning problem. Experimental validation using two public datasets in a simulated network demonstrates consistent results with the theory, proving the efficacy of FedEx.
翻訳日:2023-04-24 15:48:14 公開日:2023-04-21
# AI生成マップの倫理 : DALLE 2とカルトグラフィーへの応用

The Ethics of AI-Generated Maps: A Study of DALLE 2 and Implications for Cartography ( http://arxiv.org/abs/2304.10743v1 )

ライセンス: Link先を確認
Yuhao Kang and Qianheng Zhang and Robert Roth(参考訳) ChatGPTやDALLE 2といった大規模言語モデルの出現など、人工知能(AI)の急速な進歩は、生産性の向上と倫理的懸念の高まりをもたらす。 本稿では,地図学における人工知能(ai)活用の倫理について,特にdalle 2を用いた地図生成に焦点をあてて検討する。 これを実現するために、まず、さまざまな設定で複数のスケールで合成(AI生成)と実世界の(人間設計)マップを含むオープンソースのデータセットを作成します。 次に, dalle 2 生成地図の特徴, 不正確性, 誤解を招く情報, 予期せぬ特徴, 再現性から生じる4つの潜在的な倫理的懸念について検討した。 次に、AI生成マップを識別する深層学習に基づく倫理検査システムを開発する。 本研究は,地図学におけるAI技術の発展と活用における倫理的配慮の重要性を強調し,信頼性の高い地図の開発に寄与する。 我々は、AI生成マップに関連する潜在的なリスクに対する大衆の認識を高め、将来の利用のための倫理ガイドラインの開発を支援することを目的としている。

The rapid advancement of artificial intelligence (AI) such as the emergence of large language models including ChatGPT and DALLE 2 has brought both opportunities for improving productivity and raised ethical concerns. This paper investigates the ethics of using artificial intelligence (AI) in cartography, with a particular focus on the generation of maps using DALLE 2. To accomplish this, we first create an open-sourced dataset that includes synthetic (AI-generated) and real-world (human-designed) maps at multiple scales with a variety settings. We subsequently examine four potential ethical concerns that may arise from the characteristics of DALLE 2 generated maps, namely inaccuracies, misleading information, unanticipated features, and reproducibility. We then develop a deep learning-based ethical examination system that identifies those AI-generated maps. Our research emphasizes the importance of ethical considerations in the development and use of AI techniques in cartography, contributing to the growing body of work on trustworthy maps. We aim to raise public awareness of the potential risks associated with AI-generated maps and support the development of ethical guidelines for their future use.
翻訳日:2023-04-24 15:47:52 公開日:2023-04-21
# 全体形状再構成のための全視線イメージング

Omni-Line-of-Sight Imaging for Holistic Shape Reconstruction ( http://arxiv.org/abs/2304.10780v1 )

ライセンス: Link先を確認
Binbin Huang, Xingyue Peng, Siyuan Shen, Suan Xia, Ruiqian Li, Yanhua Yu, Yuehan Wang, Shenghua Gao, Wenzheng Chen, Shiying Li, Jingyi Yu(参考訳) 本稿では,単光子アバランシェダイオード(spad)を用いた飛行時間センサを用いた複合物体の全体形状再構成(hsr)を行う,神経計算イメージング手法であるomni-losを提案する。 図1に示すように、この手法では、1つのスキャンスポットからオブジェクトの周囲形状を約$360^\circ$で再構成することができる。 このようなシナリオでは、従来のlos(line-of-sight)イメージング手法では、対象の前方部分のみを視認し、通常、遮蔽された後方領域を回復できない。 近年のnlos(non-line-of-sight)イメージング技術の進歩に触発されて、omni-losはロスとnlosを共に結婚させ、単一のスキャン位置から物体の全体像を復元する補完的な利点を生かした。 本手法のコアとなるのは,被写体を周囲の拡散壁の近傍に配置し,周囲の壁からのNLOSスキャンでLOSスキャンを前面に拡大し,物体に向かって光をトラップする仮想「鏡」として機能させることである。 我々はLOS信号とNLOS信号を別々に復元する代わりに、暗黙のニューラルネットワークを用いて物体を表現し、NeRFやNeTFと類似する。 NLOS の球面波面上ではなく直列光線に沿って過渡度を計測する一方で、NLOS の直列光線を同時にモデル化し、NLOS の再構成も直接LOS の測定を考慮し、その逆も考慮する。 さらに,概念実証のためのOmni-LOSハードウェアプロトタイプを開発した。 Omni-LOSは, 閉塞による形状のあいまいさの解消に成功し, 高忠実度3Dスキャン品質を実現し, 様々なスケールや複雑さの物体の回収に成功した。

We introduce Omni-LOS, a neural computational imaging method for conducting holistic shape reconstruction (HSR) of complex objects utilizing a Single-Photon Avalanche Diode (SPAD)-based time-of-flight sensor. As illustrated in Fig. 1, our method enables new capabilities to reconstruct near-$360^\circ$ surrounding geometry of an object from a single scan spot. In such a scenario, traditional line-of-sight (LOS) imaging methods only see the front part of the object and typically fail to recover the occluded back regions. Inspired by recent advances of non-line-of-sight (NLOS) imaging techniques which have demonstrated great power to reconstruct occluded objects, Omni-LOS marries LOS and NLOS together, leveraging their complementary advantages to jointly recover the holistic shape of the object from a single scan position. The core of our method is to put the object nearby diffuse walls and augment the LOS scan in the front view with the NLOS scans from the surrounding walls, which serve as virtual ``mirrors'' to trap lights toward the object. Instead of separately recovering the LOS and NLOS signals, we adopt an implicit neural network to represent the object, analogous to NeRF and NeTF. While transients are measured along straight rays in LOS but over the spherical wavefronts in NLOS, we derive differentiable ray propagation models to simultaneously model both types of transient measurements so that the NLOS reconstruction also takes into account the direct LOS measurements and vice versa. We further develop a proof-of-concept Omni-LOS hardware prototype for real-world validation. Comprehensive experiments on various wall settings demonstrate that Omni-LOS successfully resolves shape ambiguities caused by occlusions, achieves high-fidelity 3D scan quality, and manages to recover objects of various scales and complexity.
翻訳日:2023-04-24 15:40:51 公開日:2023-04-21
# redditのcovid-19時代

Reddit in the Time of COVID ( http://arxiv.org/abs/2304.10777v1 )

ライセンス: Link先を確認
Veniamin Veselovsky and Ashton Anderson(参考訳) 新型コロナウイルス(COVID-19)が流行すると、生活の多くはオンラインで移動した。 あらゆるタイプのプラットフォームが活動の急増を報告し、オンラインプラットフォームが突然実現した様々な重要な機能について言及した。 しかし、研究者は、パンデミックが社会プラットフォームに与える影響、一時的なものなのか長期的なのかについて厳格に理解していない。 我々は,ソーシャルプラットフォームの大規模発展を研究するための概念的枠組みを提案し,特にcovid-19パンデミックに焦点をあてたredditの歴史研究に適用する。 我々は、構造対コンテンツとマクロ対マイクロレベル分析という2つの重要な側面を通してプラットフォーム進化を研究する。 構造信号は、どれだけの振る舞いが変わったかの定量化に役立ち、コンテンツ分析はどのように変化したかを明確にする。 マクロレベルでの適用はプラットフォーム全体の変更を照らす一方、マイクロレベルでは個々のユーザへの影響を研究する。 パンデミックでRedditが経験した異常かつ普通の変化を示すことで、このアプローチの価値を説明します。 まず, 急激な成長が起こると, 少数の集中したコミュニティと, 言語使用の狭いスライスによって駆動されることを示す。 しかし、Redditの成長は、異なるコミュニティや言語に広がった。 第二に、すべてのグループは関心の変化に等しく影響したが、ベテランユーザーは新しいユーザーよりも新型コロナウイルス関連の言語を呼び出す傾向があった。 第三に、新型コロナウイルス(COVID-19)以降に登場した新しいユーザーの波は、興味、活動、そしてプラットフォーム上で活動を続ける可能性という点で、以前のユーザーのコホートと根本的に異なる。 これらの発見は、世界的なパンデミックの間、オンラインプラットフォームがどのように変化したかについてより厳密な理解を与える。

When the COVID-19 pandemic hit, much of life moved online. Platforms of all types reported surges of activity, and people remarked on the various important functions that online platforms suddenly fulfilled. However, researchers lack a rigorous understanding of the pandemic's impacts on social platforms, and whether they were temporary or long-lasting. We present a conceptual framework for studying the large-scale evolution of social platforms and apply it to the study of Reddit's history, with a particular focus on the COVID-19 pandemic. We study platform evolution through two key dimensions: structure vs. content and macro- vs. micro-level analysis. Structural signals help us quantify how much behavior changed, while content analysis clarifies exactly how it changed. Applying these at the macro-level illuminates platform-wide changes, while at the micro-level we study impacts on individual users. We illustrate the value of this approach by showing the extraordinary and ordinary changes Reddit went through during the pandemic. First, we show that typically when rapid growth occurs, it is driven by a few concentrated communities and within a narrow slice of language use. However, Reddit's growth throughout COVID-19 was spread across disparate communities and languages. Second, all groups were equally affected in their change of interest, but veteran users tended to invoke COVID-related language more than newer users. Third, the new wave of users that arrived following COVID-19 was fundamentally different from previous cohorts of new users in terms of interests, activity, and likelihood of staying active on the platform. These findings provide a more rigorous understanding of how an online platform changed during the global pandemic.
翻訳日:2023-04-24 15:40:16 公開日:2023-04-21
# 正規化8点アルゴリズムと自己教師付き深解法の再検討

A Revisit to the Normalized Eight-Point Algorithm and A Self-Supervised Deep Solution ( http://arxiv.org/abs/2304.10771v1 )

ライセンス: Link先を確認
Bin Fan, Yuchao Dai, Yongduek Seo, Mingyi He(参考訳) 正規化八点アルゴリズムは、2次元幾何学計算の基盤として広く見なされており、半正規化は直線形変換(DLT)アルゴリズムの性能を大幅に向上させる。 自然な疑問は、入力サンプルごとにさらに性能を向上させるであろう他の正規化方法が存在するかどうかである。 本稿では、新しい視点を提供し、この根本的な問題に2つの貢献をする。 1) 正規化された8点アルゴリズムを再検討し, より優れた正規化アルゴリズムの存在を示すことによって理論的貢献を行う。 2) 自己教師型学習戦略を正規化に適用した深層畳み込みニューラルネットワークを提案する。 8対の対応が与えられると、ネットワークは正規化行列を直接予測し、各入力サンプルの正規化を学習する。 私たちの学習ベースの正規化モジュールは、最小限の努力で、従来の(例えば、RANSAC)とディープラーニングフレームワークの両方に統合できます。 合成画像と実画像の両方について広範な実験を行い,提案手法の有効性を示した。

The Normalized Eight-Point algorithm has been widely viewed as the cornerstone in two-view geometry computation, where the seminal Hartley's normalization greatly improves the performance of the direct linear transformation (DLT) algorithm. A natural question is, whether there exists and how to find other normalization methods that may further improve the performance as per each input sample. In this paper, we provide a novel perspective and make two contributions towards this fundamental problem: 1) We revisit the normalized eight-point algorithm and make a theoretical contribution by showing the existence of different and better normalization algorithms; 2) We present a deep convolutional neural network with a self-supervised learning strategy to the normalization. Given eight pairs of correspondences, our network directly predicts the normalization matrices, thus learning to normalize each input sample. Our learning-based normalization module could be integrated with both traditional (e.g., RANSAC) and deep learning framework (affording good interpretability) with minimal efforts. Extensive experiments on both synthetic and real images show the effectiveness of our proposed approach.
翻訳日:2023-04-24 15:39:49 公開日:2023-04-21
# deir: 識別モデルに基づく内因性報酬による効率的かつロバストな探索

DEIR: Efficient and Robust Exploration through Discriminative-Model-Based Episodic Intrinsic Rewards ( http://arxiv.org/abs/2304.10770v1 )

ライセンス: Link先を確認
Shanchuan Wan, Yujin Tang, Yingtao Tian, Tomoyuki Kaneko(参考訳) 探索は強化学習(RL)の基本的側面であり、その効果はRLアルゴリズムの性能を決定的に決定する。 最近の研究では、観察のノベルティから推定した内在的な報酬で探索を促進する効果が示されている。 しかし, 環境の確率性と, エージェントの挙動が観察に影響を及ぼす可能性があるため, 観察の斬新さと一般の探索との間にはギャップがある。 探索行動を正確に推定するために,エージェント探索に寄与する新規性に主にスケールする条件付き相互情報項から内在的な報酬を理論的に導出する新しい手法であるdeirを提案し,その報酬を識別的フォワードモデルで実現する。 我々はMiniGridの標準および強化された探索ゲームにおいて、DEIRがベースラインよりもすぐれたポリシーを学習していることを示す広範な実験を行った。 ProcGenにおける我々の評価は、一般化能力と本質的な報酬の適用性の両方を示している。

Exploration is a fundamental aspect of reinforcement learning (RL), and its effectiveness crucially decides the performance of RL algorithms, especially when facing sparse extrinsic rewards. Recent studies showed the effectiveness of encouraging exploration with intrinsic rewards estimated from novelty in observations. However, there is a gap between the novelty of an observation and an exploration in general, because the stochasticity in the environment as well as the behavior of an agent may affect the observation. To estimate exploratory behaviors accurately, we propose DEIR, a novel method where we theoretically derive an intrinsic reward from a conditional mutual information term that principally scales with the novelty contributed by agent explorations, and materialize the reward with a discriminative forward model. We conduct extensive experiments in both standard and hardened exploration games in MiniGrid to show that DEIR quickly learns a better policy than baselines. Our evaluations in ProcGen demonstrate both generalization capabilities and the general applicability of our intrinsic reward.
翻訳日:2023-04-24 15:39:31 公開日:2023-04-21
# クラスタ割り当ての対比によるディープマルチビュークラスタリング

Deep Multiview Clustering by Contrasting Cluster Assignments ( http://arxiv.org/abs/2304.10769v1 )

ライセンス: Link先を確認
Jie Chen, Hua Mao, Wai Lok Woo, and Xi Peng(参考訳) マルチビュークラスタリング(MVC)は、データサンプルをクラスタに分類することで、マルチビューデータの基盤構造を明らかにすることを目的としている。 ディープラーニングベースの手法は、大規模データセットに強力な特徴学習能力を示す。 既存の多くのディープMVCメソッドでは、複数のビューの不変表現を探索することは、いまだに難解な問題である。 本稿では,複数ビュー間のクラスタ割り当てを対比することにより,ビュー不変表現を学習し,クラスタリング結果を生成するクロスビューコントラスト学習(cvcl)手法を提案する。 具体的には、まず、事前学習段階におけるビュー依存の特徴を抽出するために、ディープオートエンコーダを用いる。 次に、クラスタレベルのCVCL戦略を示し、微調整段階における複数のビュー間の一貫性のあるセマンティックラベル情報を探索する。 そこで,提案手法は,この学習戦略を活かして,より識別的なクラスタ割り当てを生成することができる。 さらに,ソフトクラスタ割り当てアライメントの理論解析を行う。 複数のデータセットで得られた広範囲な実験結果から,提案手法が最先端手法よりも優れていることが示された。

Multiview clustering (MVC) aims to reveal the underlying structure of multiview data by categorizing data samples into clusters. Deep learning-based methods exhibit strong feature learning capabilities on large-scale datasets. For most existing deep MVC methods, exploring the invariant representations of multiple views is still an intractable problem. In this paper, we propose a cross-view contrastive learning (CVCL) method that learns view-invariant representations and produces clustering results by contrasting the cluster assignments among multiple views. Specifically, we first employ deep autoencoders to extract view-dependent features in the pretraining stage. Then, a cluster-level CVCL strategy is presented to explore consistent semantic label information among the multiple views in the fine-tuning stage. Thus, the proposed CVCL method is able to produce more discriminative cluster assignments by virtue of this learning strategy. Moreover, we provide a theoretical analysis of soft cluster assignment alignment. Extensive experimental results obtained on several datasets demonstrate that the proposed CVCL method outperforms several state-of-the-art approaches.
翻訳日:2023-04-24 15:39:13 公開日:2023-04-21
# トランスファー学習における変分オートエンコーダはどの程度優れているか?

How good are variational autoencoders at transfer learning? ( http://arxiv.org/abs/2304.10767v1 )

ライセンス: Link先を確認
Lisa Bonheme, Marek Grzes(参考訳) 変分オートエンコーダ (VAE) は、音楽生成や医用画像解析などの様々な研究領域における伝達学習に用いられる。 しかし、どのコンポーネントをリトレーニングするか、あるいは移行学習が目的のタスクに役立ちそうなのかを、移行前に評価する原則的な方法はない。 我々はこの問題を表現的類似性のレンズを通して探求する。 具体的には、CKA(Central Kernel Alignment)を用いて、異なるデータセットでトレーニングされたVAEの類似性を評価することにより、エンコーダの表現が汎用的であるがデコーダ特有のものであることを示す。 これらの知見に基づいて,VAEのどのコンポーネントを再訓練するかを選択することの意味を考察し,伝達学習が分類タスクに役立つかどうかを視覚的に評価する手法を提案する。

Variational autoencoders (VAEs) are used for transfer learning across various research domains such as music generation or medical image analysis. However, there is no principled way to assess before transfer which components to retrain or whether transfer learning is likely to help on a target task. We propose to explore this question through the lens of representational similarity. Specifically, using Centred Kernel Alignment (CKA) to evaluate the similarity of VAEs trained on different datasets, we show that encoders' representations are generic but decoders' specific. Based on these insights, we discuss the implications for selecting which components of a VAE to retrain and propose a method to visually assess whether transfer learning is likely to help on classification tasks.
翻訳日:2023-04-24 15:38:56 公開日:2023-04-21
# BPJDet:ジェネリックボディ部分関節検出のための拡張オブジェクト表現

BPJDet: Extended Object Representation for Generic Body-Part Joint Detection ( http://arxiv.org/abs/2304.10765v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Jiaxin Si, Yue Ding, and Hongtao Lu(参考訳) 人体とその部分(例えば頭や手)の検出は集中的に研究されている。 しかし、これらのcnnsベースの検出器のほとんどは独立して訓練されており、検出された部品を身体と関連付けることが困難である。 本稿では,人体とその対応する部分の関節検出に焦点をあてる。 具体的には,身体部位の中心オフセットを統合する新しい拡張オブジェクト表現を提案し,高密度1段汎用体部関節検出器(bpjdet)を構築する。 このように、ボディーパートの関連は、意味的および幾何学的内容の両方を含む統一オブジェクト表現に巧みに埋め込まれる。 したがって、マルチタスクを相乗的に扱うためにマルチロス最適化を行うことができる。 BPJDetは、エラーを起こしやすいポストマッチングに悩まされず、スピードと精度のトレードオフを良好に保ちます。 さらに、BPJDetは1つ以上の身体部分を検出するために一般化することができる。 BPJDetの優位性を検証するため,3つのボディパーツデータセット(CityPersons,CrowdHuman,BodyHands)と1つのボディパーツデータセットCOCOHumanPartsについて実験を行った。 BPJDetは高い検出精度を維持しながら、すべてのデータセットで最先端のアソシエーションパフォーマンスを達成する。 また, 高精度群頭検出とハンドコンタクト推定の2つの代表的な下流アプリケーションの性能向上により, 高度な身体関連能力の利点を示す。 コードはhttps://github.com/hnuzhy/bpjdetでリリースされる。

Detection of human body and its parts (e.g., head or hands) has been intensively studied. However, most of these CNNs-based detectors are trained independently, making it difficult to associate detected parts with body. In this paper, we focus on the joint detection of human body and its corresponding parts. Specifically, we propose a novel extended object representation integrating center-offsets of body parts, and construct a dense one-stage generic Body-Part Joint Detector (BPJDet). In this way, body-part associations are neatly embedded in a unified object representation containing both semantic and geometric contents. Therefore, we can perform multi-loss optimizations to tackle multi-tasks synergistically. BPJDet does not suffer from error-prone post matching, and keeps a better trade-off between speed and accuracy. Furthermore, BPJDet can be generalized to detect any one or more body parts. To verify the superiority of BPJDet, we conduct experiments on three body-part datasets (CityPersons, CrowdHuman and BodyHands) and one body-parts dataset COCOHumanParts. While keeping high detection accuracy, BPJDet achieves state-of-the-art association performance on all datasets comparing with its counterparts. Besides, we show benefits of advanced body-part association capability by improving performance of two representative downstream applications: accurate crowd head detection and hand contact estimation. Code is released in https://github.com/hnuzhy/BPJDet.
翻訳日:2023-04-24 15:38:43 公開日:2023-04-21
# コンピュータビジョンにおける双曲幾何学:調査

Hyperbolic Geometry in Computer Vision: A Survey ( http://arxiv.org/abs/2304.10764v1 )

ライセンス: Link先を確認
Pengfei Fang, Mehrtash Harandi, Trung Le, Dinh Phung(参考訳) 定区間の負曲率を持つリーマン多様体である双曲幾何学は、データの階層構造(不規則グラフや木のようなデータなど)を符号化する興味深い性質の結果として、多くの学習シナリオにおいて代替的な埋め込み空間として考えられている。 近年の研究では、このようなデータ階層が視覚データセットにも存在し、古典的画像分類から高度なモデル適応学習まで、コンピュータビジョン(cv)環境における双曲幾何学の成功した実践を検証している。 本稿では,CV 用ハイパーボリック空間について,最新の文献を初めて紹介する。 この目的のために、まず双曲幾何学の背景を紹介し、続いて視覚的応用の文脈において双曲空間に先立つ幾何学的なアルゴリズムを包括的に研究する。 また、この写本を結論付け、将来の可能性を探る。

Hyperbolic geometry, a Riemannian manifold endowed with constant sectional negative curvature, has been considered an alternative embedding space in many learning scenarios, \eg, natural language processing, graph learning, \etc, as a result of its intriguing property of encoding the data's hierarchical structure (like irregular graph or tree-likeness data). Recent studies prove that such data hierarchy also exists in the visual dataset, and investigate the successful practice of hyperbolic geometry in the computer vision (CV) regime, ranging from the classical image classification to advanced model adaptation learning. This paper presents the first and most up-to-date literature review of hyperbolic spaces for CV applications. To this end, we first introduce the background of hyperbolic geometry, followed by a comprehensive investigation of algorithms, with geometric prior of hyperbolic space, in the context of visual applications. We also conclude this manuscript and identify possible future directions.
翻訳日:2023-04-24 15:38:20 公開日:2023-04-21
# ラベル付きターゲットサンプルの価値の実現に向けて:半教師付きドメイン適応のための2段階アプローチ

Towards Realizing the Value of Labeled Target Samples: a Two-Stage Approach for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2304.10762v1 )

ライセンス: Link先を確認
mengqun Jin, Kai Li, Shuyan Li, Chunming He, Xiu Li(参考訳) Semi-Supervised Domain Adaptation (SSDA)は、広く研究されているUnsupervised Domain Adaptation (UDA)から、さらにいくつかのターゲットサンプル、すなわちラベル付きソースサンプル、ラベルなしターゲットサンプル、ラベル付きターゲットサンプルをトレーニングすることで拡張された最近の研究トピックである。 UDAと比較すると、SSDAの鍵は、数少ないラベル付きターゲットサンプルを効果的に活用する方法にある。 既存のsssaアプローチは、少数の貴重なラベル付きターゲットサンプルを巨大なラベル付きソースサンプルにマージするか、さらにそれらを調整するだけで、ラベル付きターゲットサンプルの値を希釈し、バイアス付きモデルを得る。 そこで本研究では,まずラベル付きソースとラベル付きターゲットサンプルを用いてUDAモデルを学習し,ラベル付きターゲットサンプルとラベル付きターゲットサンプルを用いて学習されたUDAモデルを半教師付き方法で適応する,半教師付き学習問題としてSSDAを分離することを提案する。 ラベル付きソースサンプルとターゲットサンプルを別々に利用することにより、バイアス問題を緩和することができる。 さらに,ラベル付きおよびラベルなしのターゲットサンプルを用いて学習したudaモデルを効果的に適応する,一貫性学習に基づく平均教師モデルを提案する。 実験により、我々のアプローチは既存の手法より優れていることが示された。

Semi-Supervised Domain Adaptation (SSDA) is a recently emerging research topic that extends from the widely-investigated Unsupervised Domain Adaptation (UDA) by further having a few target samples labeled, i.e., the model is trained with labeled source samples, unlabeled target samples as well as a few labeled target samples. Compared with UDA, the key to SSDA lies how to most effectively utilize the few labeled target samples. Existing SSDA approaches simply merge the few precious labeled target samples into vast labeled source samples or further align them, which dilutes the value of labeled target samples and thus still obtains a biased model. To remedy this, in this paper, we propose to decouple SSDA as an UDA problem and a semi-supervised learning problem where we first learn an UDA model using labeled source and unlabeled target samples and then adapt the learned UDA model in a semi-supervised way using labeled and unlabeled target samples. By utilizing the labeled source samples and target samples separately, the bias problem can be well mitigated. We further propose a consistency learning based mean teacher model to effectively adapt the learned UDA model using labeled and unlabeled target samples. Experiments show our approach outperforms existing methods.
翻訳日:2023-04-24 15:38:03 公開日:2023-04-21
# キャビティ-マグノン-クビット系における量子ビットの2トーン駆動によるマグノンスクイーズ

Magnon squeezing by two-tone driving of a qubit in cavity-magnon-qubit systems ( http://arxiv.org/abs/2304.10760v1 )

ライセンス: Link先を確認
Qi Guo, Da Xu, Jiong Cheng, Huatang Tan, Jie Li(参考訳) ハイブリッドキャビティ-マグノン-量子ビット系におけるマグノン圧縮状態の生成手法を提案する。 このシステムは、磁気双極子相互作用を介してマクロイットリウム-鉄-ガーネット(YIG)球のマグノンモードと同時に結合するマイクロ波空洞と、電気双極子相互作用を介してトランスモン型超伝導量子ビットからなる。 マグノン量子系から遠く離れることで、マイクロ波空洞は断熱的に除去される。 マグノンモードと量子ビットはマイクロ波共振器の仮想光子の仲介によって効果的に結合される。 2つのマイクロ波場で量子ビットを駆動し、駆動周波数と強度を適切に選択することで、マグノニックパラメトリック増幅を実現し、真空ゆらぎ以下のノイズでマグノン二次スクイーズを生じさせることを示した。 我々は,マグノンスクイーズを実現するための最適条件を提案し,現在利用可能なパラメータを用いて適度なスクイーズを得ることができる。 生成したスクイーズ状態は10^{18}$スピン以上を含むマグノンモードであり、従ってマクロ量子状態である。 この研究は、マグノンに基づく量子情報処理と高精度測定、およびマクロ量子状態の研究に有望な応用を見出すことができる。

We propose a scheme for preparing magnon squeezed states in a hybrid cavity-magnon-qubit system. The system consists of a microwave cavity that simultaneously couples to a magnon mode of a macroscopic yttrium-iron-garnet (YIG) sphere via the magnetic-dipole interaction and to a transmon-type superconducting qubit via the electric-dipole interaction. By far detuning from the magnon-qubit system, the microwave cavity is adiabatically eliminated. The magnon mode and the qubit then get effectively coupled via the mediation of virtual photons of the microwave cavity. We show that by driving the qubit with two microwave fields and by appropriately choosing the drive frequencies and strengths, magnonic parametric amplification can be realized, which leads to magnon quadrature squeezing with the noise below vacuum fluctuation. We provide optimal conditions for achieving magnon squeezing, and moderate squeezing can be obtained using currently available parameters. The generated squeezed states are of a magnon mode involving more than $10^{18}$ spins and thus macroscopic quantum states. The work may find promising applications in quantum information processing and high-precision measurements based on magnons and in the study of macroscopic quantum states.
翻訳日:2023-04-24 15:37:37 公開日:2023-04-21
# 人間と機械学習モデルのためのトークン化トラクタビリティ:注釈研究

Tokenization Tractability for Human and Machine Learning Model: An Annotation Study ( http://arxiv.org/abs/2304.10813v1 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Tomoya Iwakura(参考訳) 抽出可能なトークン化は、機械学習モデルにも適用できるのか? 本研究では,人間の抽出可能なトークン化(例えば,適切性と可読性)と機械学習モデル(例えば,NLPタスクのパフォーマンス)の関係について検討する。 日本語コモンセンス質問応答データセット(JGLUEのJCommmonsenseQA)のトークン化手法を6つ比較した。 我々はQAデータセットの質問テキストを異なるトークン化器でトークン化し、人間のアノテーションと機械学習モデルの性能を比較した。 さらに,性能,トークン化の適切性,質問に対する応答時間との関係を解析した。 本稿では,人間と機械学習モデルの抽出可能なトークン化が必ずしも同一ではないことを示す定量的研究結果を提供する。

Is tractable tokenization for humans also tractable for machine learning models? This study investigates relations between tractable tokenization for humans (e.g., appropriateness and readability) and one for models of machine learning (e.g., performance on an NLP task). We compared six tokenization methods on the Japanese commonsense question-answering dataset (JCommmonsenseQA in JGLUE). We tokenized question texts of the QA dataset with different tokenizers and compared the performance of human annotators and machine-learning models. Besides,we analyze relationships among the performance, appropriateness of tokenization, and response time to questions. This paper provides a quantitative investigation result that shows the tractable tokenizations for humans and machine learning models are not necessarily the same as each other.
翻訳日:2023-04-24 15:31:46 公開日:2023-04-21
# 語彙制限を考慮した下流タスク指向ニューラルトケナイザ最適化

Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing ( http://arxiv.org/abs/2304.10808v1 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Tomoya Iwakura(参考訳) 本稿では,すでに訓練済みの下流モデルの性能向上のためにトークン化を最適化する手法を提案する。 本手法は,語彙制限のための訓練データ上で,所定の下流モデルの損失値が低いトークン化結果を生成し,トークン化結果を再現するトークン化子を訓練する。 したがって,提案手法は様々なトークン化手法に適用できるが,既存の作業はトークン化器と下流モデルの同時学習によるものではない。 本稿では,既存の作業で使用される非神経的トークン化手法よりも,トークン化プロセスのコンテキスト情報をより広くキャプチャできる,語彙制限付きBiLSTMベースのトークン化手法の例を提案する。 日本語,中国語,英語のテキスト分類タスクにおけるテキスト分類実験の結果,既存のトークン化最適化手法に比べて性能が向上した。

This paper proposes a method to optimize tokenization for the performance improvement of already trained downstream models. Our method generates tokenization results attaining lower loss values of a given downstream model on the training data for restricting vocabularies and trains a tokenizer reproducing the tokenization results. Therefore, our method can be applied to variety of tokenization methods, while existing work cannot due to the simultaneous learning of the tokenizer and the downstream model. This paper proposes an example of the BiLSTM-based tokenizer with vocabulary restriction, which can capture wider contextual information for the tokenization process than non-neural-based tokenization methods used in existing work. Experimental results on text classification in Japanese, Chinese, and English text classification tasks show that the proposed method improves performance compared to the existing methods for tokenization optimization.
翻訳日:2023-04-24 15:31:35 公開日:2023-04-21
# RPLKG: 知識グラフによるロバストなプロンプト学習

RPLKG: Robust Prompt Learning with Knowledge Graph ( http://arxiv.org/abs/2304.10805v1 )

ライセンス: Link先を確認
Yewon Kim, YongTaek Lim, Dokyung Yoon and KyungWoo Song(参考訳) 大規模な事前学習モデルは転送可能であることが知られており、目に見えないデータセットでよく一般化されている。 近年,クリップなどのマルチモーダル事前学習モデルが様々な実験において有意な性能向上を示した。 しかし、ラベル付きデータセットが限定されている場合、新しいデータセットやドメインの一般化は依然として難しい。 単発学習の一般化性能を向上させるため、プロンプト学習やアダプタなど、さまざまな取り組みがなされている。 しかし、現在の数発適応法は解釈不可能であり、適応には高い計算コストが必要となる。 本研究では,知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。 知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。 我々のモデルは、大きな事前学習モデルから1回のフォワード後のプロンプトセットのキャッシュ埋め込みを得る。 その後、モデルはGumbelSoftmaxでプロンプト選択プロセスを最適化する。 このようにして、モデルは比較的少ないメモリと学習時間でトレーニングされます。 また、RPLKGはデータセットに応じて最適な解釈可能なプロンプトを自動的に選択する。 まとめると、RPLKGは i) 解釈可能な 二 少額の計算資源を必要とし、かつ 三 事前の人間の知識を取り入れやすいこと。 rplkgの有効性を検証するため,少人数学習,ドメイン一般化,新しいクラス一般化設定に関する総合的な実験結果を提供する。 rplkgは、ゼロショット学習に比べて大きなパフォーマンス向上を示し、より低いリソースを用いたいくつかのプロンプト学習方法に対する競合性を示している。

Large-scale pre-trained models have been known that they are transferable, and they generalize well on the unseen dataset. Recently, multimodal pre-trained models such as CLIP show significant performance improvement in diverse experiments. However, when the labeled dataset is limited, the generalization of a new dataset or domain is still challenging. To improve the generalization performance on few-shot learning, there have been diverse efforts, such as prompt learning and adapter. However, the current few-shot adaptation methods are not interpretable, and they require a high computation cost for adaptation. In this study, we propose a new method, robust prompt learning with knowledge graph (RPLKG). Based on the knowledge graph, we automatically design diverse interpretable and meaningful prompt sets. Our model obtains cached embeddings of prompt sets after one forwarding from a large pre-trained model. After that, model optimizes the prompt selection processes with GumbelSoftmax. In this way, our model is trained using relatively little memory and learning time. Also, RPLKG selects the optimal interpretable prompt automatically, depending on the dataset. In summary, RPLKG is i) interpretable, ii) requires small computation resources, and iii) easy to incorporate prior human knowledge. To validate the RPLKG, we provide comprehensive experimental results on few-shot learning, domain generalization and new class generalization setting. RPLKG shows a significant performance improvement compared to zero-shot learning and competitive performance against several prompt learning methods using much lower resources.
翻訳日:2023-04-24 15:31:20 公開日:2023-04-21
# マルチアクセスチャネルのためのネットワーク符号化における非ローカル・量子アドバンテージ

Non-Local and Quantum Advantages in Network Coding for Multiple Access Channels ( http://arxiv.org/abs/2304.10792v1 )

ライセンス: Link先を確認
Jiyoung Yun, Ashutosh Rai, Joonwoo Bae(参考訳) 複数の送信機と受信機からなるネットワークにおける効率的な通信の実現は、通信理論において非常に重要な問題である。 興味深いことに、量子世界の資源は通信ネットワークの性能を高めるのに非常に効果的であることが示されている。 本研究では,古典的ネットワークチャネル上での絡み合い支援通信について検討する。 チャネルによって導入されたノイズが入力アルファベットに依存するような非対称性が存在する場合、非通信送信者は共有絡み状態を利用してノイズを克服することができる。 多くの複雑なネットワークにとって不可欠な構成要素である複数のアクセスチャネルを検討し、非ローカルゲームに基づくn-senderと1-receiverのマルチアクセスチャネルのための広範なフレームワークを開発する。 これらのチャネルの総和容量の相関計算のための一般的な結果を得る。 考慮されたチャネルは、勝利のノイズが少なく、負けたときのノイズも少なくなり、相関アシストは局所(L)、量子(Q)、無信号(NS)に分類される。 さらに,一定の確率で均一な雑音を混合する非分極化チャネルなど,複数のアクセスチャネルの広いクラスを検討し,その総和容量に関する一般的な結果を示す。 最後に,Cluser-Horne-Shimony-Holt,Magic Square,Mermin-GHZの非ローカルゲームに基づく3つの非分極多重アクセスチャネルに適用する。 いずれの場合も,非局所相関を用いた場合の総和能力は著しく向上する。 要約能力の正確な表現を得るか、それらに対する適切な上下境界を得る。 この研究で開発された一般的なフレームワークは適用性が非常に広く、詳細で研究された特異性はこの方向の最近の研究と比較するためのいくつかの例である。

Devising efficient communication in a network consisting of multiple transmitters and receivers is a problem of immense importance in communication theory. Interestingly, resources in the quantum world have been shown to be very effective in enhancing the performance of communication networks. In this work, we study entanglement-assisted communication over classical network channels. When there is asymmetry such that noise introduced by the channel depends on the input alphabets, non communicating senders may exploit shared entangled states to overcome the noise. We consider multiple access channels, an essential building block for many complex networks, and develop an extensive framework for n-senders and 1-receiver multiple access channels based on nonlocal games. We obtain generic results for computing correlation assisted sum-capacities of these channels. The considered channels introduce less noise on winning and more noise on losing the game, and the correlation assistance is classified as local (L), quantum (Q), or no-signaling (NS). Furthermore, we consider a broad class of multiple access channels such as depolarizing ones that admix a uniform noise with some probability and prove general results on their sum-capacities. Finally, we apply our analysis to three specific depolarizing multiple access channels based on Clauser-Horne-Shimony-Holt, magic square, and Mermin-GHZ nonlocal games. In all three cases we find significant enhancements in sum-capacities on using nonlocal correlations. We obtain either exact expressions for sum-capacities or suitable upper and lower bounds on them. The general framework developed in this work has much wider applicability and the specificity studied in details are some illustrative examples to compare with recent studies in this direction.
翻訳日:2023-04-24 15:31:02 公開日:2023-04-21
# DeformableFormer:膵疾患における内視鏡的超音波ガイド下針生検の分類

DeformableFormer: Classification of Endoscopic Ultrasound Guided Fine Needle Biopsy in Pancreatic Diseases ( http://arxiv.org/abs/2304.10791v1 )

ライセンス: Link先を確認
Taiji Kurami, Takuya Ishikawa, Kazuhiro Hotta(参考訳) 膵癌検査にはEUS-FNA(endoscopic Ultrasound-Fine Needle Aspiration)が用いられる。 EUS-FNAは、EUSを用いて腫瘍に薄い針を挿入し、膵組織断片を採取する検査である。 その後、収集された膵組織断片を染色して膵癌かどうかを分類する。 しかし、染色と視覚検査は時間がかかる。 また, 染色後の膵組織破片の検査ができない場合は, その間, 回収を再開しなければならない。 そこで,本研究の目的は,検査可能か否かに関わらず画像から分類し,専門医による視覚的分類の精度を超過することである。 染色前の画像分類は、染色に要する時間と患者の負担を軽減することができる。 しかし,本研究で用いた膵組織断片の像は,膵組織断片は画像の一部に過ぎず,全体像を処理して分類することは不可能である。 そこで我々は,MetaFormerフレームワークでDeformable Convolutionを利用するDeformableFormerを提案する。 アーキテクチャは vision transformer の一般化モデルで構成されており、tokenmixer で変形可能な畳み込みを使用する。 既存のアプローチとは対照的に,提案したDeformableFormerは,Deformable Convolutionによってより局所的かつ動的に機能抽出を行うことができる。 したがって、ターゲットの分類に適した特徴抽出を行うことができる。 本手法を評価するために,膵組織フラグメントの2つのカテゴリを分類した。 本手法は,専門医や従来手法の精度に優れていた。

Endoscopic Ultrasound-Fine Needle Aspiration (EUS-FNA) is used to examine pancreatic cancer. EUS-FNA is an examination using EUS to insert a thin needle into the tumor and collect pancreatic tissue fragments. Then collected pancreatic tissue fragments are then stained to classify whether they are pancreatic cancer. However, staining and visual inspection are time consuming. In addition, if the pancreatic tissue fragment cannot be examined after staining, the collection must be done again on the other day. Therefore, our purpose is to classify from an unstained image whether it is available for examination or not, and to exceed the accuracy of visual classification by specialist physicians. Image classification before staining can reduce the time required for staining and the burden of patients. However, the images of pancreatic tissue fragments used in this study cannot be successfully classified by processing the entire image because the pancreatic tissue fragments are only a part of the image. Therefore, we propose a DeformableFormer that uses Deformable Convolution in MetaFormer framework. The architecture consists of a generalized model of the Vision Transformer, and we use Deformable Convolution in the TokenMixer part. In contrast to existing approaches, our proposed DeformableFormer is possible to perform feature extraction more locally and dynamically by Deformable Convolution. Therefore, it is possible to perform suitable feature extraction for classifying target. To evaluate our method, we classify two categories of pancreatic tissue fragments; available and unavailable for examination. We demonstrated that our method outperformed the accuracy by specialist physicians and conventional methods.
翻訳日:2023-04-24 15:30:35 公開日:2023-04-21
# ゲノム学における古典的量子配列符号化

Classical-to-Quantum Sequence Encoding in Genomics ( http://arxiv.org/abs/2304.10786v1 )

ライセンス: Link先を確認
Nouhaila Innan and Muhammad Al-Zafar Khan(参考訳) dnaシークエンシングは生物の遺伝コードの決定を可能にするため、医学、生命科学、進化生物学、食品科学と技術、農業に応用できる必須のツールである。 本稿では, 生物情報学において, 様々な数学的分野にインスパイアされた古典-量子データの符号化を行う新しい手法を提案する。 特に,電気・電子工学,情報理論,微分幾何学,ニューラルネットワークアーキテクチャといった多様な分野から着想を得たアルゴリズムを紹介する。 我々は、既存のデータエンコーディング方式の完全な概要を提供し、ゲノム学におけるそれらの使い方を示す。 アルゴリズムは、ロスレス圧縮、ウェーブレットベースのエンコーディング、情報エントロピーを利用した。 さらに,Quantum Boltzmann Machinesを用いてエンコードされたDNA配列をテストする手法を提案する。 提案アルゴリズムの有効性を評価するために,実世界のシナリオに対してテストするためのサンドボックス環境として機能する潜在的なデータセットについて検討する。 本研究は,多様な分野と高度な技術を活用する革新的なアルゴリズムを導入することにより,生物情報科学における古典から量子へのデータ符号化手法の開発に寄与する。 本研究は,バイオインフォマティクスにおける量子コンピューティングの可能性について考察し,今後の研究に示唆を与えるものである。

DNA sequencing allows for the determination of the genetic code of an organism, and therefore is an indispensable tool that has applications in Medicine, Life Sciences, Evolutionary Biology, Food Sciences and Technology, and Agriculture. In this paper, we present several novel methods of performing classical-to-quantum data encoding inspired by various mathematical fields, and we demonstrate these ideas within Bioinformatics. In particular, we introduce algorithms that draw inspiration from diverse fields such as Electrical and Electronic Engineering, Information Theory, Differential Geometry, and Neural Network architectures. We provide a complete overview of the existing data encoding schemes and show how to use them in Genomics. The algorithms provided utilise lossless compression, wavelet-based encoding, and information entropy. Moreover, we propose a contemporary method for testing encoded DNA sequences using Quantum Boltzmann Machines. To evaluate the effectiveness of our algorithms, we discuss a potential dataset that serves as a sandbox environment for testing against real-world scenarios. Our research contributes to developing classical-to-quantum data encoding methods in the science of Bioinformatics by introducing innovative algorithms that utilise diverse fields and advanced techniques. Our findings offer insights into the potential of Quantum Computing in Bioinformatics and have implications for future research in this area.
翻訳日:2023-04-24 15:30:12 公開日:2023-04-21
# 自然言語生成対話サービスのチャット体験を予測する要因は何か?

Which Factors Predict the Chat Experience of a Natural Language Generation Dialogue Service? ( http://arxiv.org/abs/2304.10785v1 )

ライセンス: Link先を確認
Eason Chen(参考訳) 本稿では,自然言語生成ダイアログシステムにおけるチャット体験を予測するための概念モデルを提案する。 部分最小方形構造方程式モデリング (PLS-SEM) を用いた120人の被験者によるモデルの評価を行い, R-square (R2) を0.541で取得した。 モデルは、生成に使用するプロンプト、会話におけるコヒーレンス、感情、類似性、ユーザの認識するダイアログエージェントの好適性など、さまざまな要因を考察する。 次に,提案モデルのサブセットの有効性をさらに検討する。 その結果,対話におけるユーザの好適性,一貫性,感情,類似性は,ユーザのチャット体験の肯定的な予測要因であることがわかった。 さらに,外向性,開放性,良心性,同意性,非ニューロティシズムなどの特徴を持つ対話エージェントが好まれる可能性が示唆された。 本研究を通じて,アダプティブダイアログシステムでは,収集したデータを用いてモデル内の要因を推測し,これらの要因によりユーザのチャット体験を予測し,プロンプトを調整して最適化する。

In this paper, we proposed a conceptual model to predict the chat experience in a natural language generation dialog system. We evaluated the model with 120 participants with Partial Least Squares Structural Equation Modeling (PLS-SEM) and obtained an R-square (R2) with 0.541. The model considers various factors, including the prompts used for generation; coherence, sentiment, and similarity in the conversation; and users' perceived dialog agents' favorability. We then further explore the effectiveness of the subset of our proposed model. The results showed that users' favorability and coherence, sentiment, and similarity in the dialogue are positive predictors of users' chat experience. Moreover, we found users may prefer dialog agents with characteristics of Extroversion, Openness, Conscientiousness, Agreeableness, and Non-Neuroticism. Through our research, an adaptive dialog system might use collected data to infer factors in our model, predict the chat experience for users through these factors, and optimize it by adjusting prompts.
翻訳日:2023-04-24 15:29:52 公開日:2023-04-21
# 目視: 注意に基づく読解時の人間のスキャンパス予測のためのデュアルシーケンスモデル

Eyettention: An Attention-based Dual-Sequence Model for Predicting Human Scanpaths during Reading ( http://arxiv.org/abs/2304.10784v1 )

ライセンス: Link先を確認
Shuwen Deng, David R. Reich, Paul Prasse, Patrick Haller, Tobias Scheffer and Lena A. J\"ager(参考訳) 読書中の眼球運動は、読み手の認知過程と読み上げられているテキストの特徴の両方について洞察を与える。 したがって、読書におけるスカンパスの分析は、言語学よりも認知科学からコンピュータ科学まで、様々な分野に注目が集まっている。 特に、視線追跡読取データは、機械学習に基づく言語モデルがより人間らしい言語行動を示す可能性を秘めていると論じられている。 しかし、人間の読みにおけるスカンパスのモデル化における主な課題の1つは、その二列性である: 単語は言語の文法規則に従って順序づけされるが、固定は時系列的に順序付けされる。 人間は左から右へ厳密に読み込むのではなく、単語をスキップまたは修正し、前の単語に回帰するので、言語と時間列のアライメントは自明ではない。 本稿では,単語列と固定の時系列列を同時に処理する最初の二重系列モデルであるeyettentionを開発した。 2つのシーケンスのアライメントは、クロスシーケンスアテンション機構によって達成される。 眼球運動はスキャンパスの予測において最先端のモデルを上回る。 異なる言語に対する広範囲な内部およびデータ集合の評価を提供する。 アブレーション研究と定性的分析は、モデルの振舞いの深い理解を支持する。

Eye movements during reading offer insights into both the reader's cognitive processes and the characteristics of the text that is being read. Hence, the analysis of scanpaths in reading have attracted increasing attention across fields, ranging from cognitive science over linguistics to computer science. In particular, eye-tracking-while-reading data has been argued to bear the potential to make machine-learning-based language models exhibit a more human-like linguistic behavior. However, one of the main challenges in modeling human scanpaths in reading is their dual-sequence nature: the words are ordered following the grammatical rules of the language, whereas the fixations are chronologically ordered. As humans do not strictly read from left-to-right, but rather skip or refixate words and regress to previous words, the alignment of the linguistic and the temporal sequence is non-trivial. In this paper, we develop Eyettention, the first dual-sequence model that simultaneously processes the sequence of words and the chronological sequence of fixations. The alignment of the two sequences is achieved by a cross-sequence attention mechanism. We show that Eyettention outperforms state-of-the-art models in predicting scanpaths. We provide an extensive within- and across-data set evaluation on different languages. An ablation study and qualitative analysis support an in-depth understanding of the model's behavior.
翻訳日:2023-04-24 15:29:32 公開日:2023-04-21
# サービス拒否とファイングラインド制御--フレキシブルモデルによるフェデレート学習への攻撃に向けて

Denial-of-Service or Fine-Grained Control: Towards Flexible Model Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2304.10783v1 )

ライセンス: Link先を確認
Hangtao Zhang, Zeming Yao, Leo Yu Zhang, Shengshan Hu, Chao Chen, Alan Liew, Zhetao Li(参考訳) フェデレーション学習(fl)は中毒攻撃に対して脆弱であり、敵はグローバルな集約結果を破壊し、dos(denial-of-service)を引き起こす。 特定方向の悪意的摂動の振幅を最適化してDoSを発生させる最近のモデル中毒攻撃とは違って,汎用的な攻撃目標を達成するフレキシブルモデル中毒攻撃(FMPA)を提案する。 我々は、FLシステムに関する余分な知識(例えば、良性のデバイスに関する集約ルールや更新)が敵に利用できない現実的な脅威シナリオを考える。 FMPAは、グローバルな歴史的情報を利用して、グローバルモデルの次のラウンドを良心的な参照として予測する推定器を構築する。 その後、基準モデルを微調整し、低い精度と小さな摂動で所望の有毒モデルを得る。 DoSを発生させる目的の他に、FMPAを自然に拡張して、きめ細かい制御可能な攻撃を発射することで、グローバルな精度を正確に低減することができる。 厳格なコントロールで武装した悪意のあるFLサービスプロバイダは、注意を払わずに競合相手に対してアドバンテージを得られるため、DoS以外のFLに新たな攻撃サーフェスを開くことができる。 DoSの目的においても、FMPAは世界の精度を著しく低下させ、最先端の6つの攻撃を上回ります。

Federated learning (FL) is vulnerable to poisoning attacks, where adversaries corrupt the global aggregation results and cause denial-of-service (DoS). Unlike recent model poisoning attacks that optimize the amplitude of malicious perturbations along certain prescribed directions to cause DoS, we propose a Flexible Model Poisoning Attack (FMPA) that can achieve versatile attack goals. We consider a practical threat scenario where no extra knowledge about the FL system (e.g., aggregation rules or updates on benign devices) is available to adversaries. FMPA exploits the global historical information to construct an estimator that predicts the next round of the global model as a benign reference. It then fine-tunes the reference model to obtain the desired poisoned model with low accuracy and small perturbations. Besides the goal of causing DoS, FMPA can be naturally extended to launch a fine-grained controllable attack, making it possible to precisely reduce the global accuracy. Armed with precise control, malicious FL service providers can gain advantages over their competitors without getting noticed, hence opening a new attack surface in FL other than DoS. Even for the purpose of DoS, experiments show that FMPA significantly decreases the global accuracy, outperforming six state-of-the-art attacks.
翻訳日:2023-04-24 15:29:12 公開日:2023-04-21
# ロボット学習のためのコントラスト言語、行動、状態事前学習

Contrastive Language, Action, and State Pre-training for Robot Learning ( http://arxiv.org/abs/2304.10782v1 )

ライセンス: Link先を確認
Krishan Rana, Andrew Melnik and Niko S\"underhauf(参考訳) 本稿では,ロボット学習におけるダウンストリームタスクを効率化するために,共有埋め込み空間における言語,動作,状態情報を統一する手法を提案する。 提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。 テキストエンコーダとビヘイビアエンコーダの両方に分散出力を使用することで,多種多様なテキストコマンドと単一のビヘイビアと,その逆を効果的に関連付ける。 提案手法は,ゼロショットテキストの検索,無意味なロボット行動のキャプション,言語条件付き強化学習に先立つ行動の学習など,下流課題に対する有用性を示す。 分布エンコーダは、未知のデータセットに対してより優れた検索とキャプション性能を示し、テキストコマンドから有意義な探索行動を生成し、言語、行動、状態間の複雑な関係をキャプチャする。 この研究は、ロボット工学のための統一された事前訓練モデルを開発するための最初のステップであり、幅広い下流タスクに一般化する可能性がある。

In this paper, we introduce a method for unifying language, action, and state information in a shared embedding space to facilitate a range of downstream tasks in robot learning. Our method, Contrastive Language, Action, and State Pre-training (CLASP), extends the CLIP formulation by incorporating distributional learning, capturing the inherent complexities and one-to-many relationships in behaviour-text alignment. By employing distributional outputs for both text and behaviour encoders, our model effectively associates diverse textual commands with a single behaviour and vice-versa. We demonstrate the utility of our method for the following downstream tasks: zero-shot text-behaviour retrieval, captioning unseen robot behaviours, and learning a behaviour prior for language-conditioned reinforcement learning. Our distributional encoders exhibit superior retrieval and captioning performance on unseen datasets, and the ability to generate meaningful exploratory behaviours from textual commands, capturing the intricate relationships between language, action, and state. This work represents an initial step towards developing a unified pre-trained model for robotics, with the potential to generalise to a broad range of downstream tasks.
翻訳日:2023-04-24 15:28:46 公開日:2023-04-21
# 3次元楕円PDEの有限要素解法における代数的乗法を高速化するディープラーニングアルゴリズム

A Deep Learning algorithm to accelerate Algebraic Multigrid methods in Finite Element solvers of 3D elliptic PDEs ( http://arxiv.org/abs/2304.10832v1 )

ライセンス: Link先を確認
Matteo Caldana, Paola F. Antonietti, Luca Dede'(参考訳) 代数的乗法(英語版)(AMG)は方程式の線形系の最も効率的な解法の一つであり、偏微分方程式(PDE)の離散化に起因する問題の解法として広く用いられている。 AMG法の最も厳しい制限は、微調整を必要とするパラメータへの依存である。 特に、強いしきい値パラメータは、AMG法で必要とされる連続的に粗い格子の構成に基づくため、最も関連性が高い。 本稿では,有限要素解法として用いる場合のAMG法の計算コストを最小化する新しいDeep Learningアルゴリズムを提案する。 我々のアルゴリズムは既存のコードに対して最小限の変更を必要とする。 提案するニューラルネットワーク(ann)は、線形システムのスパース行列を白黒画像として解釈し、プール演算子を利用して小さなマルチチャネル画像に変換することにより、強しきい値パラメータの値をチューニングする。 実験により,プーリングは大きなスパース行列を処理する計算コストを低減し,手前の回帰タスクに必要な特徴を保存できることを実証した。 提案アルゴリズムは, 異なる3次元空間で定義される高次拡散係数を持つ問題と非構造格子で離散化し, 高度不均一ヤング率を持つ線形弾性問題を含む大規模データセット上で学習する。 トレーニングデータセットに存在しない係数やジオメトリの問題に対して,本手法は計算時間を最大30%削減する。

Algebraic multigrid (AMG) methods are among the most efficient solvers for linear systems of equations and they are widely used for the solution of problems stemming from the discretization of Partial Differential Equations (PDEs). The most severe limitation of AMG methods is the dependence on parameters that require to be fine-tuned. In particular, the strong threshold parameter is the most relevant since it stands at the basis of the construction of successively coarser grids needed by the AMG methods. We introduce a novel Deep Learning algorithm that minimizes the computational cost of the AMG method when used as a finite element solver. We show that our algorithm requires minimal changes to any existing code. The proposed Artificial Neural Network (ANN) tunes the value of the strong threshold parameter by interpreting the sparse matrix of the linear system as a black-and-white image and exploiting a pooling operator to transform it into a small multi-channel image. We experimentally prove that the pooling successfully reduces the computational cost of processing a large sparse matrix and preserves the features needed for the regression task at hand. We train the proposed algorithm on a large dataset containing problems with a highly heterogeneous diffusion coefficient defined in different three-dimensional geometries and discretized with unstructured grids and linear elasticity problems with a highly heterogeneous Young's modulus. When tested on problems with coefficients or geometries not present in the training dataset, our approach reduces the computational time by up to 30%.
翻訳日:2023-04-24 15:21:57 公開日:2023-04-21
# より良いサブグラフで顔のクラスタ化を学ぶ

Learn to Cluster Faces with Better Subgraphs ( http://arxiv.org/abs/2304.10831v1 )

ライセンス: Link先を確認
Yuan Cao, Di Jiang, Guanqun Hou, Fan Deng, Xinjia Chen, Qiang Yang(参考訳) 顔クラスタリングは、大量のラベルのない顔データに擬似ラベルを提供し、異なる顔認識モデルのパフォーマンスを向上させることができる。 既存のクラスタリング手法は一般に、均一な閾値や学習されたカットオフ位置に基づいてしばしば実装されるサブグラフ内で特徴を集約する。 これによりサブグラフのリコールが減少し、クラスタリング性能が低下する可能性がある。 本研究は、ノイズを著しく低減し、サブグラフのリコールを改善するため、遠方のノードを同じ中心に向かって収束させることができる効率的な近傍認識サブグラフ調整手法を提案する。 より具体的には、提案手法は、近傍からの埋め込みを用いた顔埋め込み強化と、構造情報抽出のためのノードペアの閉部分グラフ構成の2つの構成要素から構成される。 組込みを組み合わせることで、全てのノードペアの結合確率を予測し、コサインの類似性を置き換え、gcnsや他のクラスタリングメソッドの集約に使用できる新しいサブグラフを生成する。 提案手法は,3つのベンチマークデータセットを用いたクラスタリングソリューションに対する広範囲な実験により検証され,一般化能力の面ではsomaソリューションを上回っていることを確認した。

Face clustering can provide pseudo-labels to the massive unlabeled face data and improve the performance of different face recognition models. The existing clustering methods generally aggregate the features within subgraphs that are often implemented based on a uniform threshold or a learned cutoff position. This may reduce the recall of subgraphs and hence degrade the clustering performance. This work proposed an efficient neighborhood-aware subgraph adjustment method that can significantly reduce the noise and improve the recall of the subgraphs, and hence can drive the distant nodes to converge towards the same centers. More specifically, the proposed method consists of two components, i.e. face embeddings enhancement using the embeddings from neighbors, and enclosed subgraph construction of node pairs for structural information extraction. The embeddings are combined to predict the linkage probabilities for all node pairs to replace the cosine similarities to produce new subgraphs that can be further used for aggregation of GCNs or other clustering methods. The proposed method is validated through extensive experiments against a range of clustering solutions using three benchmark datasets and numerical results confirm that it outperforms the SOTA solutions in terms of generalization capability.
翻訳日:2023-04-24 15:21:29 公開日:2023-04-21
# 最適分類木のためのローリングルックアヘッド学習

Rolling Lookahead Learning for Optimal Classification Trees ( http://arxiv.org/abs/2304.10830v1 )

ライセンス: Link先を確認
Zeynel Batuhan Organ, Enis Kay{\i}\c{s}, Taghi Khaniyev(参考訳) 分類木は、本質的に解釈可能な性質とスケーラビリティのため、機械学習アプリケーションで広く採用されている。 本稿では,木構築における最適手法の展望と,ミオピックアプローチの相対的拡張性を組み合わせた転がりサブツリールックアヘッドアルゴリズムを提案する。 アルゴリズムに埋め込まれた限定的なforesightは、最適なアプローチで観察される学習病理を緩和する。 アルゴリズムの核心には,任意の損失関数を柔軟に処理可能な,新しい2次元最適二分分類木定式化法がある。 この定式化の可能な領域は、積分多面体であり、LP緩和解が最適であることを示す。 広範な計算分析により,提案手法は1330個の問題のうち808個の問題のうち,最適と近視のアプローチを上回り,23.6%,14.4%の精度向上を示した。

Classification trees continue to be widely adopted in machine learning applications due to their inherently interpretable nature and scalability. We propose a rolling subtree lookahead algorithm that combines the relative scalability of the myopic approaches with the foresight of the optimal approaches in constructing trees. The limited foresight embedded in our algorithm mitigates the learning pathology observed in optimal approaches. At the heart of our algorithm lies a novel two-depth optimal binary classification tree formulation flexible to handle any loss function. We show that the feasible region of this formulation is an integral polyhedron, yielding the LP relaxation solution optimal. Through extensive computational analyses, we demonstrate that our approach outperforms optimal and myopic approaches in 808 out of 1330 problem instances, improving the out-of-sample accuracy by up to 23.6% and 14.4%, respectively.
翻訳日:2023-04-24 15:21:09 公開日:2023-04-21
# Deep Attention Unet:グローバルな特徴認識能力を持つネットワークモデル

Deep Attention Unet: A Network Model with Global Feature Perception Ability ( http://arxiv.org/abs/2304.10829v1 )

ライセンス: Link先を確認
Jiacheng Li(参考訳) リモートセンシング画像分割は、リモートセンシング画像解釈の特定のタスクである。 良質なリモートセンシングイメージセグメンテーションアルゴリズムは、環境保護、農業生産、都市建設のためのガイダンスを提供することができる。 本稿では,チャネル自己注意機構と残差接続に基づく新しいタイプのunet画像分割アルゴリズムを提案する。 私の実験では、新しいネットワークモデルは、FoodNetデータセット上の従来のUNetと比較して、mIOUを2.48%改善しました。 本論文で提案する画像分割アルゴリズムは,画像内の異なる項目間の内部接続を強化し,咬合を伴うリモートセンシング画像の分割精度を向上させる。

Remote sensing image segmentation is a specific task of remote sensing image interpretation. A good remote sensing image segmentation algorithm can provide guidance for environmental protection, agricultural production, and urban construction. This paper proposes a new type of UNet image segmentation algorithm based on channel self attention mechanism and residual connection called . In my experiment, the new network model improved mIOU by 2.48% compared to traditional UNet on the FoodNet dataset. The image segmentation algorithm proposed in this article enhances the internal connections between different items in the image, thus achieving better segmentation results for remote sensing images with occlusion.
翻訳日:2023-04-24 15:20:55 公開日:2023-04-21
# ベイズ型ニューラルネットワークにおける個性公平性

Individual Fairness in Bayesian Neural Networks ( http://arxiv.org/abs/2304.10828v1 )

ライセンス: Link先を確認
Alice Doherty, Matthew Wicker, Luca Laurenti, Andrea Patane(参考訳) ベイズニューラルネットワーク(BNN)における個人公正性(IF)について検討する。 Specifically, we consider the $\epsilon$-$\delta$-individual fairness notion, which requires that, for any pair of input points that are $\epsilon$-similar according to a given similarity metrics, the output of the BNN is within a given tolerance $\delta>0.$ We leverage bounds on statistical sampling over the input space and the relationship between adversarial robustness and individual fairness to derive a framework for the systematic estimation of $\epsilon$-$\delta$-IF, designing Fair-FGSM and Fair-PGD as global,fairness-aware extensions to gradient-based attacks for BNNs. フェアネスベンチマークにおいて,様々なアーキテクチャを持つ近似BNNのIFを実験的に検討し,頻繁な手法を用いて学習した決定論的モデルと比較した。 興味深いことに、近似ベイズ推論によって訓練されたbnnは、決定論的な比較よりも明らかに個々に公平である傾向がある。

We study Individual Fairness (IF) for Bayesian neural networks (BNNs). Specifically, we consider the $\epsilon$-$\delta$-individual fairness notion, which requires that, for any pair of input points that are $\epsilon$-similar according to a given similarity metrics, the output of the BNN is within a given tolerance $\delta>0.$ We leverage bounds on statistical sampling over the input space and the relationship between adversarial robustness and individual fairness to derive a framework for the systematic estimation of $\epsilon$-$\delta$-IF, designing Fair-FGSM and Fair-PGD as global,fairness-aware extensions to gradient-based attacks for BNNs. We empirically study IF of a variety of approximately inferred BNNs with different architectures on fairness benchmarks, and compare against deterministic models learnt using frequentist techniques. Interestingly, we find that BNNs trained by means of approximate Bayesian inference consistently tend to be markedly more individually fair than their deterministic counterparts.
翻訳日:2023-04-24 15:20:46 公開日:2023-04-21
# 間違いを心配するな! 誤り訂正によるガラスセグメンテーションネットワーク

Don't worry about mistakes! Glass Segmentation Network via Mistake Correction ( http://arxiv.org/abs/2304.10825v1 )

ライセンス: Link先を確認
Chengyu Zheng, Peng Li, Xiao-Ping Zhang, Xuequan Lu, Mingqiang Wei(参考訳) 私たちが不慣れなショッピングモールにいたとき、一度リコールします。 私たちは誤って、目の前にガラスがある、あるいは存在しないと考えるかもしれません。 このようなミスは、より安全で自由に、同じ場所や同じ場所で歩くことを思い出させるでしょう。 人間の誤り訂正知恵を吸収するために,ガラスセグネットと呼ばれる透明ガラスを検出する新しいガラスセグメンテーションネットワークを提案する。 この人間の行動によって動機づけられたGlassSegNetは、識別段階(IS)と修正段階(CS)の2つの重要な段階を利用する。 ISは、グローバルコンテキストとエッジ情報による透明ガラスの識別のために、人間の認識の検出手順をシミュレートするために設計されている。 そして、CSは、得られた経験に基づいて誤り領域を補正することにより、粗い予測を段階的に洗練する。 大規模な実験により、3つのベンチマークデータセット上での304の最先端メソッドに対するGlassSegNetの明確な改善が示された。

Recall one time when we were in an unfamiliar mall. We might mistakenly think that there exists or does not exist a piece of glass in front of us. Such mistakes will remind us to walk more safely and freely at the same or a similar place next time. To absorb the human mistake correction wisdom, we propose a novel glass segmentation network to detect transparent glass, dubbed GlassSegNet. Motivated by this human behavior, GlassSegNet utilizes two key stages: the identification stage (IS) and the correction stage (CS). The IS is designed to simulate the detection procedure of human recognition for identifying transparent glass by global context and edge information. The CS then progressively refines the coarse prediction by correcting mistake regions based on gained experience. Extensive experiments show clear improvements of our GlassSegNet over thirty-four state-of-the-art methods on three benchmark datasets.
翻訳日:2023-04-24 15:20:31 公開日:2023-04-21
# クロスモーダル画像テキスト検索のためのベンチマーク再考

Rethinking Benchmarks for Cross-modal Image-text Retrieval ( http://arxiv.org/abs/2304.10824v1 )

ライセンス: Link先を確認
Weijing Chen, Linli Yao, Qin Jin(参考訳) 情報検索の基本的かつ重要な分野である画像テキスト検索は、幅広い研究の注目を集めている。 このタスクの主な課題は、クロスモーダルなセマンティック理解とマッチングである。 最近のいくつかの研究は、より細かなクロスモーダルセマンティクスマッチングに焦点を当てている。 大規模マルチモーダル事前トレーニングモデルの普及に伴い、いくつかの最先端モデル(例えばX-VLM)は、広く使用されている画像テキスト検索ベンチマーク、すなわちMSCOCO-Test-5KとFlickr30K-Test-1Kでほぼ完全な性能を達成した。 本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度相互意味マッチングにおける真の能力を評価するには不十分であることを考察する。 理由は、ベンチマーク中の大量の画像とテキストが粗いからだ。 本研究は,従来のベンチマークの粗粒度画像とテキストを改良し,MSCOCO-FGおよびFlickr30K-FGと呼ばれる改良されたベンチマークを確立する。 具体的には、画像側では、より類似した画像を採用して元の画像プールを拡大する。 テキスト側では,粗粒文を人間の努力の少ない細粒文に洗練するための,新しい半自動的修正手法を提案する。 さらに,本手法の有効性を示すために,新たなベンチマークで代表的画像テキスト検索モデルを評価する。 また,詳細なセマンティック理解におけるモデルの有効性を,広範囲な実験を通して解析する。 その結果、最先端モデルでさえ、細粒度のセマンティック理解、特に画像中の近接物体の属性の識別に多くの改善の余地があることが示されている。 私たちのコードと改善されたベンチマークデータセットは、https://github.com/cwj1412/MSCOCO-Flikcr30K_FGで公開されています。

Image-text retrieval, as a fundamental and important branch of information retrieval, has attracted extensive research attentions. The main challenge of this task is cross-modal semantic understanding and matching. Some recent works focus more on fine-grained cross-modal semantic matching. With the prevalence of large scale multimodal pretraining models, several state-of-the-art models (e.g. X-VLM) have achieved near-perfect performance on widely-used image-text retrieval benchmarks, i.e. MSCOCO-Test-5K and Flickr30K-Test-1K. In this paper, we review the two common benchmarks and observe that they are insufficient to assess the true capability of models on fine-grained cross-modal semantic matching. The reason is that a large amount of images and texts in the benchmarks are coarse-grained. Based on the observation, we renovate the coarse-grained images and texts in the old benchmarks and establish the improved benchmarks called MSCOCO-FG and Flickr30K-FG. Specifically, on the image side, we enlarge the original image pool by adopting more similar images. On the text side, we propose a novel semi-automatic renovation approach to refine coarse-grained sentences into finer-grained ones with little human effort. Furthermore, we evaluate representative image-text retrieval models on our new benchmarks to demonstrate the effectiveness of our method. We also analyze the capability of models on fine-grained semantic comprehension through extensive experiments. The results show that even the state-of-the-art models have much room for improvement in fine-grained semantic understanding, especially in distinguishing attributes of close objects in images. Our code and improved benchmark datasets are publicly available at: https://github.com/cwj1412/MSCOCO-Flikcr30K_FG, which we hope will inspire further in-depth research on cross-modal retrieval.
翻訳日:2023-04-24 15:20:16 公開日:2023-04-21
# 制御可能な信頼トレードオフによる合成データの監査と生成

Auditing and Generating Synthetic Data with Controllable Trust Trade-offs ( http://arxiv.org/abs/2304.10819v1 )

ライセンス: Link先を確認
Brian Belgodere, Pierre Dognin, Adam Ivankay, Igor Melnyk, Youssef Mroueh, Aleksandra Mojsilovic, Jiri Navartil, Apoorva Nitsure, Inkit Padhi, Mattia Rigotti, Jerret Ross, Yair Schiff, Radhika Vedpathak, and Richard A. Young(参考訳) 現実世界から収集されたデータはバイアスがかかり、バランスが取れず、機密情報や個人情報が漏洩するリスクがある。 この現実は、実際のデータに固有のリスク、バイアス、危害、プライバシーの懸念を軽減するために、合成データセットを作成するというアイデアを生み出した。 このコンセプトは、生成AIモデルを使用して、実際のデータに忠実なまま、バイアスのないプライバシー保護された合成データを生成する。 この新しいパラダイムでは、このアプローチが約束を果たすかどうかをどうやって判断すればよいのか? 本稿では,それらのデータセットとaiモデルを総合的に評価し,バイアスと差別防止,実データへの忠実性,実用性,堅牢性,プライバシ保護を中心に評価する監査フレームワークを提案する。 我々は,教育,医療,銀行,人的資源,そして表形式から時系列,自然言語に至るまで,さまざまな形態のさまざまなユースケースにおいて,複数の生成モデルを監査することによって,我々の枠組みを実証する。 当社のユースケースは、規制当局や政策立案者がますます実施している社会技術保護へのコンプライアンスを確保するために、総合的な評価の重要性を示すものである。 そこで本研究では,複数の合成データセットを所定のセーフガードと所望のトレードオフに基づいて分類する信頼指数を提案する。 さらに,我々は,異なるモダリティにまたがって,信頼者を引き合いに出すトランスフォーマーのクラスで紹介するトレーニングループの監査を通じて,信頼インデックス駆動モデル選択と相互評価手順を考案する。 この信頼駆動モデルの選択は、結果の合成データで制御可能な信頼トレードオフを可能にする。 当社の監査フレームワークには,モデル開発から監査,認定に至るまで,さまざまな利害関係者を合成データ監査レポートを通じて接続するワークフローが組み込まれています。

Data collected from the real world tends to be biased, unbalanced, and at risk of exposing sensitive and private information. This reality has given rise to the idea of creating synthetic datasets to alleviate risk, bias, harm, and privacy concerns inherent in the real data. This concept relies on Generative AI models to produce unbiased, privacy-preserving synthetic data while being true to the real data. In this new paradigm, how can we tell if this approach delivers on its promises? We present an auditing framework that offers a holistic assessment of synthetic datasets and AI models trained on them, centered around bias and discrimination prevention, fidelity to the real data, utility, robustness, and privacy preservation. We showcase our framework by auditing multiple generative models on diverse use cases, including education, healthcare, banking, human resources, and across different modalities, from tabular, to time-series, to natural language. Our use cases demonstrate the importance of a holistic assessment in order to ensure compliance with socio-technical safeguards that regulators and policymakers are increasingly enforcing. For this purpose, we introduce the trust index that ranks multiple synthetic datasets based on their prescribed safeguards and their desired trade-offs. Moreover, we devise a trust-index-driven model selection and cross-validation procedure via auditing in the training loop that we showcase on a class of transformer models that we dub TrustFormers, across different modalities. This trust-driven model selection allows for controllable trust trade-offs in the resulting synthetic data. We instrument our auditing framework with workflows that connect different stakeholders from model development to audit and certification via a synthetic data auditing report.
翻訳日:2023-04-24 15:19:41 公開日:2023-04-21
# SAMは何でもできるのか? SAM計数に関する実証的研究

Can SAM Count Anything? An Empirical Study on SAM Counting ( http://arxiv.org/abs/2304.10817v1 )

ライセンス: Link先を確認
Zhiheng Ma and Xiaopeng Hong and Qinnan Shangguan(参考訳) Meta AIは最近Segment Anything Model(SAM)をリリースした。 本研究では,いくつかの実例を例に示して,未知のカテゴリのオブジェクトを数えることを含む,少数ショットオブジェクトカウントの難題に対するSAMの利用について検討する。 我々はSAMの性能を他の数ショットカウント法と比較し、特に小さくて混み合ったオブジェクトに対して、さらなる微調整をすることなく、現在満足できないことを発見した。 コードは \url{https://github.com/Vision-Intelligence-and-Robots-Group/count-anything} で見ることができる。

Meta AI recently released the Segment Anything model (SAM), which has garnered attention due to its impressive performance in class-agnostic segmenting. In this study, we explore the use of SAM for the challenging task of few-shot object counting, which involves counting objects of an unseen category by providing a few bounding boxes of examples. We compare SAM's performance with other few-shot counting methods and find that it is currently unsatisfactory without further fine-tuning, particularly for small and crowded objects. Code can be found at \url{https://github.com/Vision-Intelligence-and-Robots-Group/count-anything}.
翻訳日:2023-04-24 15:19:13 公開日:2023-04-21
# インテリジェント車両を用いた自動静的カメラキャリブレーション

Automated Static Camera Calibration with Intelligent Vehicles ( http://arxiv.org/abs/2304.10814v1 )

ライセンス: Link先を確認
Alexander Tsaregorodtsev, Adrian Holzbock, Jan Strohbeck, Michael Buchholz, and Vasileios Belagiannis(参考訳) コネクテッド・アンド・コラボレーティブ・ドライブは、信頼できる知覚システムを持つために、路側インフラの正確なキャリブレーションを必要とする。 この要件を自動で解決するために,自動ジオレファレンスカメラキャリブレーションのための頑健な外部キャリブレーション手法を提案する。 本手法では,GNSS/RTK受信機と慣性測定ユニット(IMU)を併用して自己位置測定を行うキャリブレーション車両が必要である。 対象者の外観や交通状況に対する要求をなくすため,仮説フィルタリングを用いた新しい手法を提案する。 我々の手法は、インフラと車両の両方で記録された情報と人間のインタラクションを必要としない。 また、キャリブレーション時に他の道路利用者の道路アクセスを制限しない。 本稿では,合成データセットと実世界接続交差点のアプローチを評価し,実インフラにキャリブレーションを配置することで,その実現可能性と精度を示す。 ソースコードは公開されています。

Connected and cooperative driving requires precise calibration of the roadside infrastructure for having a reliable perception system. To solve this requirement in an automated manner, we present a robust extrinsic calibration method for automated geo-referenced camera calibration. Our method requires a calibration vehicle equipped with a combined GNSS/RTK receiver and an inertial measurement unit (IMU) for self-localization. In order to remove any requirements for the target's appearance and the local traffic conditions, we propose a novel approach using hypothesis filtering. Our method does not require any human interaction with the information recorded by both the infrastructure and the vehicle. Furthermore, we do not limit road access for other road users during calibration. We demonstrate the feasibility and accuracy of our approach by evaluating our approach on synthetic datasets as well as a real-world connected intersection, and deploying the calibration on real infrastructure. Our source code is publicly available.
翻訳日:2023-04-24 15:19:00 公開日:2023-04-21
# 実生活学習アルゴリズムにおける探索の重要性について

On the Importance of Exploration for Real Life Learned Algorithms ( http://arxiv.org/abs/2304.10860v1 )

ライセンス: Link先を確認
Steffen Gracla, Carsten Bockelmann, Armin Dekorsy(参考訳) データ駆動学習アルゴリズムの品質は、データの品質とともに大幅にスケールする。 よいデータを生成する最も直接的な方法の1つは、データソースをインテリジェントにサンプリングまたは探索することです。 スマートサンプリングは、サンプル取得のコストを削減し、学習の計算コストを削減し、予期せぬイベントに学習アルゴリズムを適応させることができる。 本稿では,異なる探索戦略を持つ3つの深層q-networks (dqn) を用いて,urllc メッセージの送信を継続する問題を解く。 偏差に基づく探索と最大エントロピーに基づく探索の2つの適応探索の効率を,標準的なエプシロングレーディ探索法と比較した。

The quality of data driven learning algorithms scales significantly with the quality of data available. One of the most straight-forward ways to generate good data is to sample or explore the data source intelligently. Smart sampling can reduce the cost of gaining samples, reduce computation cost in learning, and enable the learning algorithm to adapt to unforeseen events. In this paper, we teach three Deep Q-Networks (DQN) with different exploration strategies to solve a problem of puncturing ongoing transmissions for URLLC messages. We demonstrate the efficiency of two adaptive exploration candidates, variance-based and Maximum Entropy-based exploration, compared to the standard, simple epsilon-greedy exploration approach.
翻訳日:2023-04-24 15:13:41 公開日:2023-04-21
# Text2Time: Transformerベースの記事時間予測器

Text2Time: Transformer-based article time period predictor ( http://arxiv.org/abs/2304.10859v1 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran, B Chase Babrich, Saurabh Shirodkar, Hee Hwang(参考訳) 我々は,その文書からのテキストを用いて,ニュース記事などのテキスト文書の出版期間を予測する問題について検討する。 そのために私たちは、New York Timesが60年以上にわたって発行した35万以上のニュース記事のラベル付きデータセットを作りました。 次に,本手法では,テキスト分類のタスクに対して,事前学習したBERTモデルを用いて,驚くほど高い精度で性能を達成できる簡易なNaive Bayesベースラインモデルの実装を行う。 このモデルは私たちの期待を超越し、ニュース記事の正確な分類に関して非常に印象的な結果をもたらす。 この結果は、テキストによる比較的未熟な時間予測のために、以前試したモデルのパフォーマンスを上回った。

We explore the problem of predicting the publication period of text document, such as a news article, using the text from that document. In order to do so, we created our own extensive labeled dataset of over 350,000 news articles published by The New York Times over six decades. We then provide an implementation of a simple Naive Bayes baseline model, which surprisingly achieves decent performance in terms of accuracy.Finally, for our approach, we use a pretrained BERT model fine-tuned for the task of text classification. This model exceeds our expectations and provides some very impressive results in terms of accurately classifying news articles into their respective publication decades. The results beat the performance of the few previously tried models for this relatively unexplored task of time prediction from text.
翻訳日:2023-04-24 15:13:19 公開日:2023-04-21
# SequeL: PyTorchとJAXの継続的な学習ライブラリ

SequeL: A Continual Learning Library in PyTorch and JAX ( http://arxiv.org/abs/2304.10857v1 )

ライセンス: Link先を確認
Nikolaos Dimitriadis, Francois Fleuret, Pascal Frossard(参考訳) 継続的学習は、モデルが事前に獲得した知識を忘れることなく、新しいデータの連続的なストリームに適応しなければならない機械学習において、重要かつ困難な問題である。 既存のフレームワークはPyTorch上に構築されているが、JAXの人気が高まり、コードベースが多様化し、再現性と進歩が妨げられる可能性がある。 この問題に対処するために、PyTorchとJAXフレームワークの両方をサポートする連続学習のための柔軟で拡張可能なライブラリであるSequeLを紹介します。 SequeLは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。 このライブラリはモジュール性とシンプルさを念頭に設計されており、研究者と実践者の両方に適している。 SequeL\footnote{\url{https://github.com/nik-dim/sequel}}をオープンソースライブラリとしてリリースしました。

Continual Learning is an important and challenging problem in machine learning, where models must adapt to a continuous stream of new data without forgetting previously acquired knowledge. While existing frameworks are built on PyTorch, the rising popularity of JAX might lead to divergent codebases, ultimately hindering reproducibility and progress. To address this problem, we introduce SequeL, a flexible and extensible library for Continual Learning that supports both PyTorch and JAX frameworks. SequeL provides a unified interface for a wide range of Continual Learning algorithms, including regularization-based approaches, replay-based approaches, and hybrid approaches. The library is designed towards modularity and simplicity, making the API suitable for both researchers and practitioners. We release SequeL\footnote{\url{https://github.com/nik-dim/sequel}} as an open-source library, enabling researchers and developers to easily experiment and extend the library for their own purposes.
翻訳日:2023-04-24 15:13:07 公開日:2023-04-21
# HabitatDynデータセット:動的物体検出と運動学推定

HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation ( http://arxiv.org/abs/2304.10854v1 )

ライセンス: Link先を確認
Zhengcheng Shen, Yi Gao, Linh K\"astner, Jens Lambrecht(参考訳) コンピュータビジョンと機械学習の進歩により、データセットはさらなる研究と応用にとって重要な要素となった。 しかし、高度な認識能力を持つロボットの作成と開発は、適切なデータセットの欠如によって妨げられている。 既存の画像や映像処理データセットは、移動ロボットからの観察を正確に描写できず、ロボットタスクに必要な運動情報を含んでいない。 一方、合成データはコスト効率が高く、様々なアプリケーションに適応するための柔軟性を提供する。 そのため、研究と産業の両方で広く利用されている。 本稿では,合成rgbビデオ,意味ラベル,奥行き情報,および動力学的情報を含むデータセットhabitatdynを提案する。 HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。 データセットのユーザビリティを示すために,既存の2つのアルゴリズムを用いて評価を行い,これらのセグメンテーション手法に基づいてオブジェクトとカメラの距離を推定し,データセットを通じて評価する。 このデータセットが利用可能になったことで、モバイルロボティクスの分野におけるさらなる進歩を促進し、より有能でインテリジェントなロボットがより効率的に環境をナビゲートし、対話できるようになります。 コードはhttps://github.com/ignc-research/HabitatDynで公開されている。

The advancement of computer vision and machine learning has made datasets a crucial element for further research and applications. However, the creation and development of robots with advanced recognition capabilities are hindered by the lack of appropriate datasets. Existing image or video processing datasets are unable to accurately depict observations from a moving robot, and they do not contain the kinematics information necessary for robotic tasks. Synthetic data, on the other hand, are cost-effective to create and offer greater flexibility for adapting to various applications. Hence, they are widely utilized in both research and industry. In this paper, we propose the dataset HabitatDyn, which contains both synthetic RGB videos, semantic labels, and depth information, as well as kinetics information. HabitatDyn was created from the perspective of a mobile robot with a moving camera, and contains 30 scenes featuring six different types of moving objects with varying velocities. To demonstrate the usability of our dataset, two existing algorithms are used for evaluation and an approach to estimate the distance between the object and camera is implemented based on these segmentation methods and evaluated through the dataset. With the availability of this dataset, we aspire to foster further advancements in the field of mobile robotics, leading to more capable and intelligent robots that can navigate and interact with their environments more effectively. The code is publicly available at https://github.com/ignc-research/HabitatDyn.
翻訳日:2023-04-24 15:12:38 公開日:2023-04-21
# 極小キタエフ連鎖における量子ドットの逆ハミルトン学習

Adversarial Hamiltonian learning of quantum dots in a minimal Kitaev chain ( http://arxiv.org/abs/2304.10852v1 )

ライセンス: Link先を確認
Rouven Koch, David van Driel, Alberto Bordin, Jose L. Lado, and Eliska Greplova(参考訳) 雑音のある実験的測定からハミルトンパラメータを決定することは、実験量子システムの制御の鍵となる課題である。 最近出現し、ハミルトンパラメータの知識がシステムの微調整に不可欠である実験的なプラットフォームは、量子ドットベースの北エフ連鎖である。 本研究では,量子ドット型北エフ連鎖のパラメータを決定するための逆機械学習アルゴリズムを実演する。 本研究では,差分コンダクタンスデータを用いた畳み込み条件生成対向ニューラルネットワーク(Conv-cGAN)を訓練し,モデルを用いてマヨラナ境界状態の出現を予測したパラメータを予測する。 特に、Conv-cGANモデルは、弾性共振器とアンドレーフ反射器間の遷移を記述する位相図の迅速かつ数値的に効率的な探索を容易にする。 超伝導体-半導体ハイブリッドを結合した2つのスピン分極量子ドットからなる極小キタエフ鎖から得られた実験的なコンダクタンスに適用して、モデルの理論予測を検証する。 モデルでは,平均成功確率が9,7$\%で,弾性共トンネル法かアンドレーエフ反射支配法で測定されたかを正確に予測した。 我々の研究は、量子ドット系を異なるハミルトン系にチューニングするための高速で信頼性の高いパラメータ予測に向けた足掛かりを構成する。 最終的に、我々の結果は、より長いチェーンにスケーラブルな北エフ連鎖チューニングをサポートする戦略をもたらす。

Determining Hamiltonian parameters from noisy experimental measurements is a key task for the control of experimental quantum systems. An experimental platform that recently emerged, and where knowledge of Hamiltonian parameters is crucial to fine-tune the system, is that of quantum dot-based Kitaev chains. In this work, we demonstrate an adversarial machine learning algorithm to determine the parameters of a quantum dot-based Kitaev chain. We train a convolutional conditional generative adversarial neural network (Conv-cGAN) with simulated differential conductance data and use the model to predict the parameters at which Majorana bound states are predicted to appear. In particular, the Conv-cGAN model facilitates a rapid, numerically efficient exploration of the phase diagram describing the transition between elastic co-tunneling and crossed Andreev reflection regimes. We verify the theoretical predictions of the model by applying it to experimentally measured conductance obtained from a minimal Kitaev chain consisting of two spin-polarized quantum dots coupled by a superconductor-semiconductor hybrid. Our model accurately predicts, with an average success probability of $97$\%, whether the measurement was taken in the elastic co-tunneling or crossed Andreev reflection-dominated regime. Our work constitutes a stepping stone towards fast, reliable parameter prediction for tuning quantum-dot systems into distinct Hamiltonian regimes. Ultimately, our results yield a strategy to support Kitaev chain tuning that is scalable to longer chains.
翻訳日:2023-04-24 15:11:59 公開日:2023-04-21
# GNNは実際に何を学ぶのか? 表現の理解に向けて

What Do GNNs Actually Learn? Towards Understanding their Representations ( http://arxiv.org/abs/2304.10851v1 )

ライセンス: Link先を確認
Giannis Nikolentzos, Michail Chatzianastasis, Michalis Vazirgiannis(参考訳) 近年,グラフニューラルネットワーク (GNN) はグラフ表現学習の分野で大きな成功を収めている。 以前の研究は、これらのモデルの表現性(非同型グラフのペアを区別できるかどうか)に光を当てているが、これらのモデルによって学習されたノード表現にどのような構造情報がエンコードされているかは明らかになっていない。 本稿では,ノード属性が存在しない場合,これらのモデルによってグラフのどの特性を純粋にキャプチャするかを検討する。 具体的には、4つの人気のあるGNNモデルについて検討し、2つのノードが同じ特徴ベクトルに埋め込まれていることを示し、他の2つのモデルは入力グラフ上のウォーキング数に関連する表現を生成する。 厳密に言うと、構造的に異なるノードは、同じ長さのウォーク数を持つ場合、ある層$k>1$で同様の表現を持つことができる。 実データセットに関する理論的知見を実証的に検証する。

In recent years, graph neural networks (GNNs) have achieved great success in the field of graph representation learning. Although prior work has shed light into the expressiveness of those models (\ie whether they can distinguish pairs of non-isomorphic graphs), it is still not clear what structural information is encoded into the node representations that are learned by those models. In this paper, we investigate which properties of graphs are captured purely by these models, when no node attributes are available. Specifically, we study four popular GNN models, and we show that two of them embed all nodes into the same feature vector, while the other two models generate representations that are related to the number of walks over the input graph. Strikingly, structurally dissimilar nodes can have similar representations at some layer $k>1$, if they have the same number of walks of length $k$. We empirically verify our theoretical findings on real datasets.
翻訳日:2023-04-24 15:11:30 公開日:2023-04-21
# metropolisアルゴリズムは、ローカルオプティマに対してどの程度うまく対処できるのか?

How Well Does the Metropolis Algorithm Cope With Local Optima? ( http://arxiv.org/abs/2304.10848v1 )

ライセンス: Link先を確認
Benjamin Doerr, Taha El Ghazi El Houssaini, Amirhossein Rajabi, and Carsten Wit(参考訳) メトロポリスアルゴリズム (MA) は古典的な確率的局所探索ヒューリスティックである。 時折劣る解を受け入れることにより、局所最適状態に陥ることを避ける。 厳密な方法でこの能力を理解するために,我々はCLIFFベンチマーク上でMAの数学的ランタイム解析を行う。 1つの局所的な最適性とは別に、崖関数はグローバルな最適性に向かって単調に増大している。 したがって、崖関数を最適化するためには、MAは一度だけ劣る解を受け入れる必要がある。 MAが主要な動作原理から利益を得るための理想的なベンチマークであるように見えるが、数学的ランタイム分析は、この望みが実現していないことを示している。 最適温度(MAの唯一のパラメータ)であっても、MAは単純なエリート主義進化アルゴリズム(EA)よりも効率の悪い崖関数を最適化する。 この結果は、MAが実際に非常に成功した理由に関する我々の理解が、まだ完了していないことを示唆している。 私たちの研究はまた、maにグローバル変異演算子を装備することを提案しています。

The Metropolis algorithm (MA) is a classic stochastic local search heuristic. It avoids getting stuck in local optima by occasionally accepting inferior solutions. To better and in a rigorous manner understand this ability, we conduct a mathematical runtime analysis of the MA on the CLIFF benchmark. Apart from one local optimum, cliff functions are monotonically increasing towards the global optimum. Consequently, to optimize a cliff function, the MA only once needs to accept an inferior solution. Despite seemingly being an ideal benchmark for the MA to profit from its main working principle, our mathematical runtime analysis shows that this hope does not come true. Even with the optimal temperature (the only parameter of the MA), the MA optimizes most cliff functions less efficiently than simple elitist evolutionary algorithms (EAs), which can only leave the local optimum by generating a superior solution possibly far away. This result suggests that our understanding of why the MA is often very successful in practice is not yet complete. Our work also suggests to equip the MA with global mutation operators, an idea supported by our preliminary experiments.
翻訳日:2023-04-24 15:11:14 公開日:2023-04-21
# 単言語データによる手話翻訳の改善

Better Sign Language Translation with Monolingual Data ( http://arxiv.org/abs/2304.10844v1 )

ライセンス: Link先を確認
Ru Peng, Yawen Zeng, Junbo Zhao(参考訳) 手話翻訳(slt)システムは、しばしばv2g(video-to-gloss)認識とg2t(gloss-to-text)翻訳に分解され、大規模並列g2tペアの可用性に大きく依存する。 しかし、署名された順に書き起こされた単語のシーケンスであるピボットグロスのマニュアルアノテーションは、さらにSLTのデータ不足を悪化させる。 そこで本研究では,SLT翻訳の高速化のために,大規模対象単言語データを擬似グルースに自動で書き起こし,簡易かつ効率的なルール変換手法を提案する。 実験の結果,提案手法はSLTの性能を著しく向上させ,特に2つのSLTベンチマークデータセットPHEONIX-WEATHER 2014TとASLG-PC12の最先端化を実現している。 私たちのコードは、https://github.com/pengr/Mono\_SLTでリリースされました。

Sign language translation (SLT) systems, which are often decomposed into video-to-gloss (V2G) recognition and gloss-to-text (G2T) translation through the pivot gloss, heavily relies on the availability of large-scale parallel G2T pairs. However, the manual annotation of pivot gloss, which is a sequence of transcribed written-language words in the order in which they are signed, further exacerbates the scarcity of data for SLT. To address this issue, this paper proposes a simple and efficient rule transformation method to transcribe the large-scale target monolingual data into its pseudo glosses automatically for enhancing the SLT translation. Empirical results show that the proposed approach can significantly improve the performance of SLT, especially achieving state-of-the-art results on two SLT benchmark datasets PHEONIX-WEATHER 2014T and ASLG-PC12. Our code has been released at: https://github.com/pengr/Mono\_SLT.
翻訳日:2023-04-24 15:10:55 公開日:2023-04-21
# 麻痺患者がインターネットを介して医師に信号を送るためのiotベースのソリューション

IoT-Based Solution for Paraplegic Sufferer to Send Signals to Physician via Internet ( http://arxiv.org/abs/2304.10840v1 )

ライセンス: Link先を確認
L. Srinivasan, D. Selvaraj, D. Dhinakaran, T. P. Anish(参考訳) 麻痺発作で体力のほとんどまたは一部が無力化した麻痺患者をケアする病院や非営利団体に遭遇する。 心による運動調整の欠如により、これらの人は、明確に話すか手話を使うことができるため、要求を伝えることができない。 このような場合、障害者が身体の任意の領域を移動してLCDでテキストを放送できるシステムを提案する。 この方法は、患者が直接出席できない状況にも対処し、代わりにGSMを使用してSMSメッセージを送信する。 ユーザの傾き方向を検出することで,提案するシステムが動作する。 その結果、患者は自宅で医師、セラピスト、あるいは愛する患者とコミュニケーションしたり、ウェブ上で仕事をすることができる。 心拍数などのケース固有のデータは、健康センターで継続的に報告されなければならない。 提案した手法は、ケースのパルスレートと他の同等のデータの身体を追跡する。 例えば、フォトプレチスモグラフィーは心拍数を評価するために用いられる。 復号された周期データは、送信モジュールに結合されたマイクロコントローラを介して連続的に送信される。 クローカーのキャビンには、データを取得、解読すると共に、ラップトップで閲覧可能なグラフィカルインターフェース上で常に表示する受信装置が含まれている。 その結果、クローカは複数の状況を監視し、同時に処理することができる。

We come across hospitals and non-profit organizations that care for people with paralysis who have experienced all or portion of their physique being incapacitated by the paralyzing attack. Due to a lack of motor coordination by their mind, these persons are typically unable to communicate their requirements because they can speak clearly or use sign language. In such a case, we suggest a system that enables a disabled person to move any area of his body capable of moving to broadcast a text on the LCD. This method also addresses the circumstance in which the patient cannot be attended to in person and instead sends an SMS message using GSM. By detecting the user part's tilt direction, our suggested system operates. As a result, patients can communicate with physicians, therapists, or their loved ones at home or work over the web. Case-specific data, such as heart rate, must be continuously reported in health centers. The suggested method tracks the body of the case's pulse rate and other comparable data. For instance, photoplethysmography is used to assess heart rate. The decoded periodic data is transmitted continually via a Microcontroller coupled to a transmitting module. The croaker's cabin contains a receiver device that obtains and deciphers data as well as constantly exhibits it on Graphical interfaces viewable on the laptop. As a result, the croaker can monitor and handle multiple situations at once.
翻訳日:2023-04-24 15:10:36 公開日:2023-04-21
# 低線量ctのためのマルチフレーム・クロスドメイン画像デノージング

Multi-frame-based Cross-domain Image Denoising for Low-dose Computed Tomography ( http://arxiv.org/abs/2304.10839v1 )

ライセンス: Link先を確認
Yucheng Lu, Zhixin Xu, Moon Hyung Choi, Jimin Kim, and Seung-Won Jung(参考訳) CT(Computed tomography)は、診断支援において最も重要な非侵襲的検査の1つである。 しかしながら、X線被曝の電離性は、がんのような潜在的な健康リスクへの懸念を引き起こす。 放射線線量を減らすという欲求は、特にノイズやアーティファクトを除去することで、研究者に再建の質を改善するよう促した。 従来の低線量CT(LDCT)デノナイズによる研究は,学習に基づく手法の有効性を示したが,そのほとんどはRadon変換を用いて収集したシミュレーションデータに基づいて開発された。 しかし、実世界のシナリオはシミュレーション領域とは大きく異なり、現代のCT画像再構成パイプラインとの協調最適化はいまだに欠落している。 本稿では,市販の第3世代マルチスライス・スパイラルCTスキャナに対して,異なる領域をまたがるLDCTの完全再構成パイプラインをよりよく活用する2段階の手法を提案する。 本手法は,従来のカスケードフレームワークにおける情報の崩壊を回避しつつ,マルチスライス射影とボリュームリコンストラクションの高冗長性を有効活用する。 専用設計はワークフローのより明確な解釈も提供する。 広範な評価を通じて,最先端手法に対する優れた性能を示す。

Computed tomography (CT) has been used worldwide for decades as one of the most important non-invasive tests in assisting diagnosis. However, the ionizing nature of X-ray exposure raises concerns about potential health risks such as cancer. The desire for lower radiation dose has driven researchers to improve the reconstruction quality, especially by removing noise and artifacts. Although previous studies on low-dose computed tomography (LDCT) denoising have demonstrated the effectiveness of learning-based methods, most of them were developed on the simulated data collected using Radon transform. However, the real-world scenario significantly differs from the simulation domain, and the joint optimization of denoising with modern CT image reconstruction pipeline is still missing. In this paper, for the commercially available third-generation multi-slice spiral CT scanners, we propose a two-stage method that better exploits the complete reconstruction pipeline for LDCT denoising across different domains. Our method makes good use of the high redundancy of both the multi-slice projections and the volumetric reconstructions while avoiding the collapse of information in conventional cascaded frameworks. The dedicated design also provides a clearer interpretation of the workflow. Through extensive evaluations, we demonstrate its superior performance against state-of-the-art methods.
翻訳日:2023-04-24 15:10:20 公開日:2023-04-21
# FindVehicle and VehicleFinder: 自然言語による車両検索のためのNERデータセットとキーワードに基づくクロスモーダル車両検索システム

FindVehicle and VehicleFinder: A NER dataset for natural language-based vehicle retrieval and a keyword-based cross-modal vehicle retrieval system ( http://arxiv.org/abs/2304.10893v1 )

ライセンス: Link先を確認
Runwei Guan, Ka Lok Man, Feifan Chen, Shanliang Yao, Rongsheng Hu, Xiaohui Zhu, Jeremy Smith, Eng Gee Lim and Yutao Yue(参考訳) 自然言語(NL)に基づく車両検索は,すべての候補車から与えられたNLクエリに最も整合した車両の検索を目的としたタスクである。 NLクエリは容易に取得できるため、対話型インテリジェント交通システム(ITS)を構築する上で有望な可能性を持っている。 現在のソリューションは主にテキストと画像の特徴を抽出し、類似性を比較するためにそれらを同じ潜在空間にマッピングすることに焦点を当てている。 しかしながら、既存のメソッドは通常、依存分析やセマンティックロールラベル技術を使用して、車両属性に関連するキーワードを見つける。 これらのテクニックは、多くの前処理と後処理を必要とし、また、NLクエリが複雑であるときに間違ったキーワードを抽出するのに苦労する。 これらの問題に対処し、単純化するために、名前付きエンティティ認識(NER)からアイデアを借り、トラフィック領域におけるNERデータセットであるFindVehicleを構築します。 車両の軌跡のnl記述は42.3kで、車両の位置、方向、種類、色などの情報を含んでいる。 FindVehicleはまた、さらなる要件を満たすために重複するエンティティときめ細かいエンティティも採用している。 本手法の有効性を検証するために,VantureFinderと呼ばれるベースラインNLに基づく車両検索モデルを提案する。 本実験では,findvehicleで事前学習したテキストエンコーダを用いて,ua-detracに基づく自製データセット上で,目標車両をテキストコマンドで検索した場合,87.7\%精度と89.4\%リコールを実現する。 VehicleFinderの時間費用はARM v8.2 CPUで279.35ms、RTX A4000 GPUで93.72msであり、Transformerベースのシステムよりはるかに高速である。 データセットはhttps://github.com/GuanRunwei/FindVehicleのリンクでオープンソース化されており、実装はhttps://github.com/GuanRunwei/VehicleFinder-CTIMで確認できる。

Natural language (NL) based vehicle retrieval is a task aiming to retrieve a vehicle that is most consistent with a given NL query from among all candidate vehicles. Because NL query can be easily obtained, such a task has a promising prospect in building an interactive intelligent traffic system (ITS). Current solutions mainly focus on extracting both text and image features and mapping them to the same latent space to compare the similarity. However, existing methods usually use dependency analysis or semantic role-labelling techniques to find keywords related to vehicle attributes. These techniques may require a lot of pre-processing and post-processing work, and also suffer from extracting the wrong keyword when the NL query is complex. To tackle these problems and simplify, we borrow the idea from named entity recognition (NER) and construct FindVehicle, a NER dataset in the traffic domain. It has 42.3k labelled NL descriptions of vehicle tracks, containing information such as the location, orientation, type and colour of the vehicle. FindVehicle also adopts both overlapping entities and fine-grained entities to meet further requirements. To verify its effectiveness, we propose a baseline NL-based vehicle retrieval model called VehicleFinder. Our experiment shows that by using text encoders pre-trained by FindVehicle, VehicleFinder achieves 87.7\% precision and 89.4\% recall when retrieving a target vehicle by text command on our homemade dataset based on UA-DETRAC. The time cost of VehicleFinder is 279.35 ms on one ARM v8.2 CPU and 93.72 ms on one RTX A4000 GPU, which is much faster than the Transformer-based system. The dataset is open-source via the link https://github.com/GuanRunwei/FindVehicle, and the implementation can be found via the link https://github.com/GuanRunwei/VehicleFinder-CTIM.
翻訳日:2023-04-24 15:03:28 公開日:2023-04-21
# 推論サービスシステムの高精度、コスト効率、低レイテンシの調整

Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems ( http://arxiv.org/abs/2304.10892v1 )

ライセンス: Link先を確認
Mehran Salmani (1), Saeid Ghafouri (2 and 4), Alireza Sanaee (2), Kamran Razavi (3), Max M\"uhlh\"auser (3), Joseph Doyle (2), Pooyan Jamshidi (4), Mohsen Sharif (1) ((1) Iran University of Science and Technology, (2) Queen Mary University of London, (3) Technical University of Darmstadt, (4) University of South Carolina)(参考訳) さまざまなアプリケーションに対する機械学習(ML)推論の利用は、急速に増加している。 ML推論サービスは、ユーザに直接関与し、迅速かつ正確な応答を必要とする。 さらに、これらのサービスは要求の動的ワークロードに直面し、コンピューティングリソースの変更を暗示します。 適切なサイズのコンピューティングリソースに失敗すると、レイテンシサービスレベル目標(SLO)違反または無駄なコンピューティングリソースが発生します。 正確性、レイテンシ、リソースコストのすべての柱を考慮した動的ワークロードへの適応は困難である。 InfAdapterは、そのリソース割り当てでMLモデルの変種を積極的に選択してレイテンシSLOを満たすとともに、精度とコストからなる目的関数を最大化する。 InfAdapterは、人気の業界オートスケーラ(Kubernetes Vertical Pod Autoscaler)と比較して、SLO違反を減らし、それぞれ65%と33%のコストを削減している。

The use of machine learning (ML) inference for various applications is growing drastically. ML inference services engage with users directly, requiring fast and accurate responses. Moreover, these services face dynamic workloads of requests, imposing changes in their computing resources. Failing to right-size computing resources results in either latency service level objectives (SLOs) violations or wasted computing resources. Adapting to dynamic workloads considering all the pillars of accuracy, latency, and resource cost is challenging. In response to these challenges, we propose InfAdapter, which proactively selects a set of ML model variants with their resource allocations to meet latency SLO while maximizing an objective function composed of accuracy and cost. InfAdapter decreases SLO violation and costs up to 65% and 33%, respectively, compared to a popular industry autoscaler (Kubernetes Vertical Pod Autoscaler).
翻訳日:2023-04-24 15:02:51 公開日:2023-04-21
# 自律運転におけるトランスフォーマーモデルとハードウェアアクセラレーション分析

Transformer-based models and hardware acceleration analysis in autonomous driving: A survey ( http://arxiv.org/abs/2304.10891v1 )

ライセンス: Link先を確認
Juan Zhong, Zheng Liu, Xi Chen(参考訳) 近年、トランスフォーマーアーキテクチャは様々な自動運転アプリケーションで有望な性能を示している。 一方、ポータブルな計算プラットフォーム上でのハードウェアアクセラレーションは、実車への実用的展開における次の重要なステップとなっている。 本稿では,車線検出,セグメンテーション,追跡,計画,意思決定などの自律運転に適したトランスフォーマーモデルの概要,ベンチマーク,分析を行う。 本稿では,エンコーダ・デコーダやエンコーダのみの構造など,トランスフォーマーの入力と出力を整理するための異なるアーキテクチャについて検討し,それぞれの利点と欠点について考察する。 さらに、量子化や実行といった重要な要素を考慮して、Transformer関連演算子とそのハードウェアアクセラレーションスキームを深く議論する。 具体的には,畳み込みニューラルネットワーク,スウィントランスフォーマ,および4次元エンコーダを用いたトランスフォーマの層間の演算子レベル比較について述べる。 この記事では、Transformerベースのモデルにおける課題、トレンド、現在の洞察を強調し、長期的な自動運転アプリケーションのコンテキストにおけるハードウェアデプロイメントとアクセラレーションの問題に対処する。

Transformer architectures have exhibited promising performance in various autonomous driving applications in recent years. On the other hand, its dedicated hardware acceleration on portable computational platforms has become the next critical step for practical deployment in real autonomous vehicles. This survey paper provides a comprehensive overview, benchmark, and analysis of Transformer-based models specifically tailored for autonomous driving tasks such as lane detection, segmentation, tracking, planning, and decision-making. We review different architectures for organizing Transformer inputs and outputs, such as encoder-decoder and encoder-only structures, and explore their respective advantages and disadvantages. Furthermore, we discuss Transformer-related operators and their hardware acceleration schemes in depth, taking into account key factors such as quantization and runtime. We specifically illustrate the operator level comparison between layers from convolutional neural network, Swin-Transformer, and Transformer with 4D encoder. The paper also highlights the challenges, trends, and current insights in Transformer-based models, addressing their hardware deployment and acceleration issues within the context of long-term autonomous driving applications.
翻訳日:2023-04-24 15:02:35 公開日:2023-04-21
# amp in the wild: 堅牢でアジャイル、自然な足の歩行スキルを学ぶ

AMP in the wild: Learning robust, agile, natural legged locomotion skills ( http://arxiv.org/abs/2304.10888v1 )

ライセンス: Link先を確認
Yikai Wang, Zheyuan Jiang, Jianyu Chen(参考訳) ロボットのシミュレーションから実世界への学習コントローラの移動に成功するためには,システムを特定するだけでなく,ロボットの状態の正確な推定も必要である。 本稿では,動的システムのパラメータに関する情報を推測するだけでなく,過去の観測からロボットの状態に関する重要な情報を推定するアルゴリズムを提案する。 我々は,我々のアルゴリズムをAdversarial Motion Priorsと統合し,実世界のUnitree A1四足ロボットとシミュレーションの両方において,堅牢でアジャイルで自然な歩行を実現する。 実験により,提案アルゴリズムは,ベースラインに比べて消費電力の少ない挑戦的な地形をトラバースできることを示した。 本稿では質的および定量的な結果について述べる。

The successful transfer of a learned controller from simulation to the real world for a legged robot requires not only the ability to identify the system, but also accurate estimation of the robot's state. In this paper, we propose a novel algorithm that can infer not only information about the parameters of the dynamic system, but also estimate important information about the robot's state from previous observations. We integrate our algorithm with Adversarial Motion Priors and achieve a robust, agile, and natural gait in both simulation and on a Unitree A1 quadruped robot in the real world. Empirical results demonstrate that our proposed algorithm enables traversing challenging terrains with lower power consumption compared to the baselines. Both qualitative and quantitative results are presented in this paper.
翻訳日:2023-04-24 15:02:16 公開日:2023-04-21
# Med-Tuning:医療用ボリュームセグメンテーションのためのパラメータ効率の良い伝達学習の探索

Med-Tuning: Exploring Parameter-Efficient Transfer Learning for Medical Volumetric Segmentation ( http://arxiv.org/abs/2304.10880v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jiachen Shen, Chen Chen, Jianbo Jiao, Yan Zhang, Shanshan Song, Jiangyun Li(参考訳) 深層学習に基づく医学ボリュームセグメンテーション手法は、モデルをスクラッチからトレーニングするか、あるいは標準の"事前トレーニングから微調整"パラダイムに従う。 下流タスクで十分に訓練されたモデルを微調整することは表現力を利用することができるが、標準的な完全微調整は計算とメモリフットプリントの点でコストがかかる。 本稿では,医療用ボリュームセグメンテーションのためのパラメータ効率変換学習に関する最初の研究を行い,段階内特徴強調と段階間特徴相互作用に基づくMed-Tuningという新しいフレームワークを提案する。 本手法は,2次元の自然画像に対する大規模事前学習モデルにより,画像スライスに沿った空間的特徴表現と時間的相関を両立させることができる。 3つのベンチマークデータセット(CTやMRIを含む)の広範囲な実験により、従来のパラメータ効率変換学習法よりも優れた結果が得られ、パラメータの調整コストが大幅に低減された。 本手法は, 完全微調整と比較して, モデルパラメータを最大4倍に減らし, セグメンテーション性能を向上する。

Deep learning based medical volumetric segmentation methods either train the model from scratch or follow the standard "pre-training then finetuning" paradigm. Although finetuning a well pre-trained model on downstream tasks can harness its representation power, the standard full finetuning is costly in terms of computation and memory footprint. In this paper, we present the first study on parameter-efficient transfer learning for medical volumetric segmentation and propose a novel framework named Med-Tuning based on intra-stage feature enhancement and inter-stage feature interaction. Given a large-scale pre-trained model on 2D natural images, our method can exploit both the multi-scale spatial feature representations and temporal correlations along image slices, which are crucial for accurate medical volumetric segmentation. Extensive experiments on three benchmark datasets (including CT and MRI) show that our method can achieve better results than previous state-of-the-art parameter-efficient transfer learning methods and full finetuning for the segmentation task, with much less tuned parameter costs. Compared to full finetuning, our method reduces the finetuned model parameters by up to 4x, with even better segmentation performance.
翻訳日:2023-04-24 15:02:02 公開日:2023-04-21
# Ultra Sharp : Residual Dense Network を用いた単一画像超解像

Ultra Sharp : Single Image Super Resolution using Residual Dense Network ( http://arxiv.org/abs/2304.10870v1 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran(参考訳) 長い間、Single Image Super resolution(SISR)はコンピュータビジョンの興味深い問題であり、不適切な問題であった。 従来のスーパーレゾリューション(sr)イメージングアプローチは、補間、再構成、学習に基づく手法である。 補間メソッドは高速で計算に複雑ではないが、正確で信頼性に欠ける。 再構成に基づく手法は補間法より優れているが,スケーリングの増加に伴って時間と品質が低下する。 しかし、マルコフランダムチェインのような学習ベースの手法の方がはるかに優れており、以前の方法ではSISRのディープラーニングモデルのパフォーマンスと一致しない。 このプロジェクトでは、Yhang et al \cite{srrdn} によって提案されたResidual Dense Networks アーキテクチャが拡張され、新しいコンポーネントとアーキテクチャにおけるコンポーネントの重要性が分析される。 このアーキテクチャは、元の低解像度(LR)画像からの階層的特徴をフル活用して、より高い性能を実現する。 ネットワーク構造は4つの主要ブロックから構成される。 アーキテクチャの中核は残留密度ブロック(rdb)であり、そこでは局所的な特徴を抽出し、高密度畳み込み層を介して利用する。 本研究では,各ブロックについて調査を行い,各モジュールの効果を調査し分析した。 このプロジェクトでは様々な損失指標を用いた分析も行われた。 また、建築や構成要素によって大きく異なる芸術モデルの様々な状態と比較した。 モデル内のモジュールはゼロから構築され、トレーニングとテストが行われた。 各種スケーリング因子について, トレーニングおよび試験を行い, 性能評価を行った。

For years Single Image Super resolution(SISR) is an interesting and ill posed problem in Computer Vision. The traditional Super Resolution(SR) imaging approaches involve Interpolation, Reconstruction and Learning based methods. Interpolation methods are fast and uncomplicated to compute but they are not so accurate and reliable. Reconstruction based methods are better compared with Interpolation methods but are time consuming and quality degrades as the scaling increases. Even though, Learning based methods like Markov random chain are far better then all the previous they are unable to match the performance of deep learning models for SISR. In this project, Residual Dense Networks architecture proposed by Yhang et al \cite{srrdn} was extended to involve novel components and the importance of components in this architecture will be analysed. This architecture makes full use of hierarchial features from original low-resolution (LR) images to achieve higher performance. The network structure consists of four main blocks. The core of the architecture is the residual dense block(RDB) where the local features are extracted and made use of via dense convolutional layers. In this work, investigation of each block was performed and effect of each modules was be studied and analyzed. Analyses by use various loss metric was also carried out in this project. Also a comparison was made with various state of the art models which highly differ by architecture and components. The modules in the model were be built from scratch and were trained and tested. The training and testing was be carried out for various scaling factors and the performance was be evaluated.
翻訳日:2023-04-24 15:01:38 公開日:2023-04-21
# 重力変調量子相関:ベル非局所性を持つ超コンパクト物体の古典的および量子モデル判別

Gravitationally modulated quantum correlations: Discriminating classical and quantum models of ultra-compact objects with Bell nonlocality ( http://arxiv.org/abs/2304.10868v1 )

ライセンス: Link先を確認
Luciano Petruzziello, Fabrizio Illuminati(参考訳) 量子非局所性と重力の関係を、古典的および量子的状態の両方において研究する。 超コンパクト物体の強い重力場を公転する粒子対を考えると、ベルの不等式を破ることで、重力源の性質に強く依存する角変調係数が得られることが分かる。 このような重力によって引き起こされる量子非局所性の変調は、ブラックホール(古典的かつ量子補正を含む)と弦ファズボール(弦理論による超コンパクト物体の真の量子記述)の間で容易に区別できることを示す。 これらの発見はベル非局所性(英語版)を古典重力と量子重力の異なるモデルを比較し、それらをテストに移すための鍵となる道具として促進する。

We investigate the relation between quantum nonlocality and gravity at the astrophysical scale, both in the classical and quantum regimes. Considering particle pairs orbiting in the strong gravitational field of ultra-compact objects, we find that the violation of Bell inequality acquires an angular modulation factor that strongly depends on the nature of the gravitational source. We show how such gravitationally-induced modulation of quantum nonlocality readily discriminates between black holes (both classical and inclusive of quantum corrections) and string fuzzballs, i.e., the true quantum description of ultra-compact objects according to string theory. These findings promote Bell nonlocality as a potentially key tool in comparing different models of classical and quantum gravity and putting them to the test.
翻訳日:2023-04-24 15:01:14 公開日:2023-04-21
# 量子インスパイア生成モデルの小分子データセットへの応用

Application of quantum-inspired generative models to small molecular datasets ( http://arxiv.org/abs/2304.10867v1 )

ライセンス: Link先を確認
C. Moussa, H. Wang, M. Araya-Polo, T. B\"ack, V. Dunjko(参考訳) 量子と量子にインスパイアされた機械学習は、量子コンピューティング、特に短期デバイスの普及により、有望で挑戦的な研究分野として登場した。 理論的なコントリビューションは、これらの技術から現実の量子アドバンテージの最初の例を実現するための有望な方向として生成モデリングに向けられている。 いくつかの経験的研究は、特にテンソルネットワークに基づく量子インスピレーションモデルを考える際に、そのような可能性を示す。 本研究では,分子発見問題にテンソルネットワークに基づく生成モデルを適用する。 アプローチでは、QM9データセットから4989ドルの分子のサブセットとTotalEnergiesから516ドルの抗酸化剤の小さな社内データセットの2つの小さな分子データセットを利用する。 我々は,各タスクにおける学習性能を反映した異なるサンプルベースメトリクスと,関連する3ドルの分子メトリクスを用いた多目的性能を用いて,複数のテンソルネットワークモデルを比較した。 また,モデルのアウトプットを組み合わせることで,古典的・量子的(インスパイアされた)生成的学習の統一を提唱し,そのような組み合わせが有益であることを実証的に証明した。

Quantum and quantum-inspired machine learning has emerged as a promising and challenging research field due to the increased popularity of quantum computing, especially with near-term devices. Theoretical contributions point toward generative modeling as a promising direction to realize the first examples of real-world quantum advantages from these technologies. A few empirical studies also demonstrate such potential, especially when considering quantum-inspired models based on tensor networks. In this work, we apply tensor-network-based generative models to the problem of molecular discovery. In our approach, we utilize two small molecular datasets: a subset of $4989$ molecules from the QM9 dataset and a small in-house dataset of $516$ validated antioxidants from TotalEnergies. We compare several tensor network models against a generative adversarial network using different sample-based metrics, which reflect their learning performances on each task, and multiobjective performances using $3$ relevant molecular metrics per task. We also combined the output of the models and demonstrate empirically that such a combination can be beneficial, advocating for the unification of classical and quantum(-inspired) generative learning.
翻訳日:2023-04-24 15:00:58 公開日:2023-04-21
# 群場理論における絡み合い構造からの創発重力

Emergent Gravity from the Entanglement Structure in Group Field Theory ( http://arxiv.org/abs/2304.10865v1 )

ライセンス: Link先を確認
Jinglong Liu, Stephon Alexander, Antonino Marciano and Roman Pasechnik(参考訳) 多様体サイトと群場理論(GFT)の間の絡み合いを符号化するスカラー場を結合する。 スカラー場は、gft作用からシステムのハミルトニアンの導出を可能にする関係時計を提供する。 このハミルトニアンを検査すると、創発重力の理論が生まれ、この理論は一般相対性理論のアシュテカール変数の定式化と等価であることを示す。 GFTにおける系の進化は、単純化されたリッチフローに対応する再正規化群(RG)フローであり、その生成元はハミルトニアンであり、対応するフロー方程式はShroedinger方程式によって制御される。 量子化手順の結果、ハミルトニアンは非エルミート的となり、系の初期条件と関連する将来の進化が作用の虚部によって決定される複素作用形式論と関連付けられる。

We couple a scalar field encoding the entanglement between manifold sites to group field theory (GFT). The scalar field provides a relational clock that enables the derivation of the Hamiltonian of the system from the GFT action. Inspecting this Hamiltonian, we show that a theory of emergent gravity arises, and that the theory is equivalent to the Ashtekar variables' formulation of general relativity. The evolution of the system in GFT is a renormalization group (RG) flow, which corresponds to a simplified Ricci flow, the generator of which is the Hamiltonian, and the corresponding flow equation is regulated by the Shroedinger equation. As a consequence of the quantization procedure, the Hamiltonian is recovered to be non-Hermitian, and can be related to the complex action formalism, in which the initial conditions and the related future evolution of the systems are dictated by the imaginary part of the action.
翻訳日:2023-04-24 15:00:38 公開日:2023-04-21
# FreMAE:フーリエ変換で医療用自動エンコーダーが登場

FreMAE: Fourier Transform Meets Masked Autoencoders for Medical Image Segmentation ( http://arxiv.org/abs/2304.10864v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jing Wang, Chen Chen, Jianbo Jiao, Lichao Sun, Yuanxiu Cai, Shanshan Song, Jiangyun Li(参考訳) 研究コミュニティは、ラベルのないデータから視覚的表現を学習できるモデルを可能にする、自己監督型マスク付き画像モデリング(MIM)の強力な可能性を見出した。 本稿では,重度予測タスクにおける重要なグローバル構造情報と局所的詳細情報の両方を組み込むため,周波数領域に対する視点を変更し,医用画像セグメンテーションのための自己教師付き事前トレーニングのためのFreMAEという新しいMIMベースのフレームワークを提案する。 詳細な構造情報は、主に高周波成分に関係しており、低周波成分には高レベルの意味が豊富であるという観測に基づいて、事前学習期間中の表現学習を指導するための多段階監視を更に取り入れる。 3つのベンチマークデータセットに対する大規模な実験は、従来のMIM法よりもFreMAEの方が優れていることを示している。 スクラッチからトレーニングされたさまざまなベースラインと比較すると、fremaeは一貫してモデルパフォーマンスを改善できるでしょう。 私たちの知る限りでは、医療画像のセグメンテーションにおけるフーリエ変換によるmimへの最初の試みです。

The research community has witnessed the powerful potential of self-supervised Masked Image Modeling (MIM), which enables the models capable of learning visual representation from unlabeled data. In this paper, to incorporate both the crucial global structural information and local details for dense prediction tasks, we alter the perspective to the frequency domain and present a new MIM-based framework named FreMAE for self-supervised pre-training for medical image segmentation. Based on the observations that the detailed structural information mainly lies in the high-frequency components and the high-level semantics are abundant in the low-frequency counterparts, we further incorporate multi-stage supervision to guide the representation learning during the pre-training phase. Extensive experiments on three benchmark datasets show the superior advantage of our proposed FreMAE over previous state-of-the-art MIM methods. Compared with various baselines trained from scratch, our FreMAE could consistently bring considerable improvements to the model performance. To the best our knowledge, this is the first attempt towards MIM with Fourier Transform in medical image segmentation.
翻訳日:2023-04-24 15:00:20 公開日:2023-04-21
# 色における自己注意:変圧器におけるグラフ構造の符号化

Self-Attention in Colors: Another Take on Encoding Graph Structure in Transformers ( http://arxiv.org/abs/2304.10933v1 )

ライセンス: Link先を確認
Romain Menegaux and Emmanuel Jehanno and Margot Selosse and Julien Mairal(参考訳) 我々はCSA(Chromatic Self-Attention)と呼ばれる新しい自己注意機構を導入し、注意スコアの概念を注意_filters_に拡張し、特徴チャネルを独立に調節する。 我々はCSAを,グラフ構造情報とエッジ機能を統合した全アテンショナルグラフ変換器CGT(Chromatic Graph Transformer)で紹介し,局所的なメッセージパッシングコンポーネントの必要性を完全に回避した。 本手法では,ノード間相互作用によるグラフ構造を柔軟にエンコードし,相対的な位置符号化方式を用いて元のエッジ特性を拡張できる。 本研究では,構造情報と位置情報の両方をエンコードするランダムウォークに基づく新しいスキームを提案し,分子グラフにリングなどの高次位相情報を組み込む方法を示す。 本手法は,グラフ構造をエンコードし,高次トポロジを組み込む柔軟なフレームワークを提供しながら,亜鉛ベンチマークデータセットで最先端の結果を得る。

We introduce a novel self-attention mechanism, which we call CSA (Chromatic Self-Attention), which extends the notion of attention scores to attention _filters_, independently modulating the feature channels. We showcase CSA in a fully-attentional graph Transformer CGT (Chromatic Graph Transformer) which integrates both graph structural information and edge features, completely bypassing the need for local message-passing components. Our method flexibly encodes graph structure through node-node interactions, by enriching the original edge features with a relative positional encoding scheme. We propose a new scheme based on random walks that encodes both structural and positional information, and show how to incorporate higher-order topological information, such as rings in molecular graphs. Our approach achieves state-of-the-art results on the ZINC benchmark dataset, while providing a flexible framework for encoding graph structure and incorporating higher-order topology.
翻訳日:2023-04-24 14:54:09 公開日:2023-04-21
# 物理ベース補間による水ネットワークリーク定位のための辞書の学習

Learning Dictionaries from Physical-Based Interpolation for Water Network Leak Localization ( http://arxiv.org/abs/2304.10932v1 )

ライセンス: Link先を確認
Paul Irofti and Luis Romero-Ben and Florin Stoican and Vicen\c{c} Puig(参考訳) 本稿では,状態推定と学習に基づくリークローカライズ手法を提案する。 第1は補間方式で処理されるが、第2段階では辞書学習が考慮される。 新たに提案する補間手法は, 配水ネットワークにおける隣接ノードの油圧ヘッド間の相互接続の物理を活用している。 さらに、残差は油圧ヘッド値の代わりに直接補間される。 よく知られているケーススタディ (modena) に本手法を適用した結果, 補間誤差(配位状態と残差推定)と後方位置推定の両面で, 新たな補間法の改善が示された。

This article presents a leak localization methodology based on state estimation and learning. The first is handled by an interpolation scheme, whereas dictionary learning is considered for the second stage. The novel proposed interpolation technique exploits the physics of the interconnections between hydraulic heads of neighboring nodes in water distribution networks. Additionally, residuals are directly interpolated instead of hydraulic head values. The results of applying the proposed method to a well-known case study (Modena) demonstrated the improvements of the new interpolation method with respect to a state-of-the-art approach, both in terms of interpolation error (considering state and residual estimation) and posterior localization.
翻訳日:2023-04-24 14:53:49 公開日:2023-04-21
# ポリトープ互換性 --量子測定から魔法の正方形まで-

Polytope compatibility -- from quantum measurements to magic squares ( http://arxiv.org/abs/2304.10920v1 )

ライセンス: Link先を確認
Andreas Bluhm, Ion Nechita, Simon Schmidt(参考訳) 量子情報理論におけるいくつかの中心的な問題(測定整合性や量子ステアリングなど)は、特別なポリトープ(ハイパーキューブや双対など)に対応する最小の行列凸集合のメンバシップとして表現できる。 本稿では、この概念を一般化し、任意のポリトープを考慮し、ポリトープ互換の概念を導入する。 半古典的な魔法の正方形は birkhoff polytope compatibility に対応する。 一般に、測定値が共通な要素を持ち、関節計測の後処理が制限されている場合、ポリトープの整合性は測定値の整合性と一対一で一致していることが証明される。 最後に, ポリトープ互換となるために, 線形計画に基づく解析的十分条件と数値条件の両方を与えるために, 適切な結合数値範囲のタプル作用素を, 最悪の場合にどの程度スケールする必要があるかを考察する。

Several central problems in quantum information theory (such as measurement compatibility and quantum steering) can be rephrased as membership in the minimal matrix convex set corresponding to special polytopes (such as the hypercube or its dual). In this article, we generalize this idea and introduce the notion of polytope compatibility, by considering arbitrary polytopes. We find that semiclassical magic squares correspond to Birkhoff polytope compatibility. In general, we prove that polytope compatibility is in one-to-one correspondence with measurement compatibility, when the measurements have some elements in common and the post-processing of the joint measurement is restricted. Finally, we consider how much tuples operators with appropriate joint numerical range have to be scaled in the worst case in order to become polytope compatible and give both analytical sufficient conditions and numerical ones based on linear programming.
翻訳日:2023-04-24 14:53:39 公開日:2023-04-21
# 自己監督型対人模倣学習

Self-Supervised Adversarial Imitation Learning ( http://arxiv.org/abs/2304.10914v1 )

ライセンス: Link先を確認
Juarez Monteiro, Nathan Gavenski, Felipe Meneguzzi and Rodrigo C. Barros(参考訳) 行動クローン(Behavioural cloning)は、エージェントに専門家によるデモンストレーションを通じて行動を教える模倣学習技術である。 最近のアプローチでは、状態ペアをアクションにデコードするために、完全な監視不能な状態スナップショットの自己スーパービジョンを使用する。 しかし,これらの手法を応用した反復学習方式は,悪質な局所性ミニマに陥りやすい。 以前の作業では、この問題を解決するためにゴールアウェア戦略を使用している。 しかし、エージェントがその目標に達したかどうかを確認するには手動で介入する必要がある。 差別化を元のフレームワークに組み込むことによって、この制限に対処し、2つの重要な利点を提供し、以前の作業が抱えていた学習問題を直接解決する。 第一に、手動介入要件を廃止する。 第二に、専門家の軌跡の状態遷移に基づいて関数近似を導くことで学習を支援する。 第3に、判別器はポリシーモデルに共通する学習問題を解決し、エージェントが最終的に停止するまで、時には環境内で「ノーアクション」を行う。

Behavioural cloning is an imitation learning technique that teaches an agent how to behave via expert demonstrations. Recent approaches use self-supervision of fully-observable unlabelled snapshots of the states to decode state pairs into actions. However, the iterative learning scheme employed by these techniques is prone to get trapped into bad local minima. Previous work uses goal-aware strategies to solve this issue. However, this requires manual intervention to verify whether an agent has reached its goal. We address this limitation by incorporating a discriminator into the original framework, offering two key advantages and directly solving a learning problem previous work had. First, it disposes of the manual intervention requirement. Second, it helps in learning by guiding function approximation based on the state transition of the expert's trajectories. Third, the discriminator solves a learning issue commonly present in the policy model, which is to sometimes perform a `no action' within the environment until the agent finally halts.
翻訳日:2023-04-24 14:53:23 公開日:2023-04-21
# データ経済におけるポリシー設計: 公共のオンラインニュース(eco)システムが必要か?

Policy design in data economy: In need for a public online news (eco)system? ( http://arxiv.org/abs/2304.10911v1 )

ライセンス: Link先を確認
Viktoria Horn and Claude Draude(参考訳) 社会技術設計は、社会調査と調査を(情報)技術設計プロセスに組み込む。 本稿では,先述したアプローチを用いて,技術と政策の設計が相互に同時に通知できることを提案する。 さらに,政策ニーズや設計可能性のユースケースとして,データ経済,特にオンラインジャーナリズムプラットフォームを提示する。

Socio-technical design embeds social investigations and inquiries into (Information) Technology Design processes. In this position paper, we propose, by using the aforementioned approach the design of technology and policies can simultaneously inform each other. Additionally we present data economy and particularly anchored online journalism platforms as use cases of policy need and design potentials.
翻訳日:2023-04-24 14:53:08 公開日:2023-04-21
# MIMIC-IIIとMIMIC-IVによる医用コードの自動符号化 : 批判的レビューと再現性の検討

Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review and Replicability Study ( http://arxiv.org/abs/2304.10909v1 )

ライセンス: Link先を確認
Joakim Edin, Alexander Junge, Jakob D. Havtorn, Lasse Borgholt, Maria Maistro, Tuukka Ruotsalo, Lars Maal{\o}e(参考訳) 医学的コーディングは、臨床自由テキスト文書に医療コードを割り当てるタスクである。 医療専門家は、患者の診断と治療を追跡するために、手動でこのようなコードを割り当てる。 自動化された医療コーディングは、この管理上の負担を大幅に軽減することができる。 本稿では,最先端の医療用自動コーディング機械学習モデルを再現,比較,分析する。 その結果,弱体化,粗弱な列車試験分割,不十分な評価などにより,いくつかのモデルが過小評価されることが判明した。 前回の研究では、マクロF1スコアが準最適に計算され、補正によって2倍になる。 階層化サンプリングと、ハイパーパラメータと決定境界チューニングを含む同一の実験装置を用いて、モデル比較を改訂した。 予測誤差を分析し,先行研究の仮説を検証・検証する。 分析によれば、全てのモデルはレアコードに苦しむが、長い文書は無視できない影響しか与えない。 最後に、再生モデルを用いたMIMIC-IVデータセットの総合的な結果を示す。 我々のコード、モデルパラメータ、新しいMIMIC-IIIおよびMIMIC-IVトレーニングおよび評価パイプラインをリリースし、将来の公正な比較に適合する。

Medical coding is the task of assigning medical codes to clinical free-text documentation. Healthcare professionals manually assign such codes to track patient diagnoses and treatments. Automated medical coding can considerably alleviate this administrative burden. In this paper, we reproduce, compare, and analyze state-of-the-art automated medical coding machine learning models. We show that several models underperform due to weak configurations, poorly sampled train-test splits, and insufficient evaluation. In previous work, the macro F1 score has been calculated sub-optimally, and our correction doubles it. We contribute a revised model comparison using stratified sampling and identical experimental setups, including hyperparameters and decision boundary tuning. We analyze prediction errors to validate and falsify assumptions of previous works. The analysis confirms that all models struggle with rare codes, while long documents only have a negligible impact. Finally, we present the first comprehensive results on the newly released MIMIC-IV dataset using the reproduced models. We release our code, model parameters, and new MIMIC-III and MIMIC-IV training and evaluation pipelines to accommodate fair future comparisons.
翻訳日:2023-04-24 14:53:03 公開日:2023-04-21
# SILVR: 分子生成のための誘導拡散

SILVR: Guided Diffusion for Molecule Generation ( http://arxiv.org/abs/2304.10905v1 )

ライセンス: Link先を確認
Nicholas T. Runcie, Antonia S. J. S. Mey(参考訳) 高い親和性と毒性の低い新規な合成可能な化合物を計算的に生成することは、医薬品設計において大きな課題である。 従来の製薬法を超越した機械学習モデルは、新しい小さな分子化合物を生成することに有望であるが、特定のタンパク質標的に対してかなりのチューニングを必要とする。 本稿では,既存の拡散型同変生成モデルを再学習せずに条件付けするためのSILVR法を提案する。 このモデルでは、フラグメントヒットに基づいてタンパク質の結合部位に適合する新しい分子を生成することができる。 我々は、分子生成の条件付けのための基準データセットとして、COVID Moonshotプロジェクトの一部を構成するDiamond X-ChemのSARS-CoV-2主プロテアーゼ断片を使用する。 SILVR速度は条件付けの程度を制御し、中程度のSILVR速度は元の断片と類似した形の新しい分子を生成できることを示し、新しい分子はタンパク質を知らずに結合部位に適合する。 生成モデルによって生成された分子の品質に影響を与えることなく、最大3個の断片を新しい分子にマージすることもできる。 本手法は既知のフラグメントを持つ任意のタンパク質ターゲットと分子生成のための拡散ベースのモデルに一般化できる。

Computationally generating novel synthetically accessible compounds with high affinity and low toxicity is a great challenge in drug design. Machine-learning models beyond conventional pharmacophoric methods have shown promise in generating novel small molecule compounds, but require significant tuning for a specific protein target. Here, we introduce a method called selective iterative latent variable refinement (SILVR) for conditioning an existing diffusion-based equivariant generative model without retraining. The model allows the generation of new molecules that fit into a binding site of a protein based on fragment hits. We use the SARS-CoV-2 Main protease fragments from Diamond X-Chem that form part of the COVID Moonshot project as a reference dataset for conditioning the molecule generation. The SILVR rate controls the extent of conditioning and we show that moderate SILVR rates make it possible to generate new molecules of similar shape to the original fragments, meaning that the new molecules fit the binding site without knowledge of the protein. We can also merge up to 3 fragments into a new molecule without affecting the quality of molecules generated by the underlying generative model. Our method is generalizable to any protein target with known fragments and any diffusion-based model for molecule generation.
翻訳日:2023-04-24 14:52:46 公開日:2023-04-21
# 非凸PLミニマックス問題に対する準最適分散モーメント法

Near-Optimal Decentralized Momentum Method for Nonconvex-PL Minimax Problems ( http://arxiv.org/abs/2304.10902v1 )

ライセンス: Link先を確認
Feihu Huang and Songcan Chen(参考訳) ミニマックス最適化は、GAN(Generative Adversarial Network)や逆トレーニングなど、多くの機械学習タスクにおいて重要な役割を果たす。 近年、minimax問題を解決するために様々な最適化手法が提案されているが、そのほとんどは、データが複数のワーカーに分散される分散設定を無視している。 一方、既存の分散化ミニマックス最適化法は(強く)凹凸や変分不等式のような厳密な仮定に依存している。 そこで本論文では,分散非凸plミニマックス最適化のための分散モメンタベース勾配勾配降下法(dm-gda)を提案し,本手法はプライマル変数が非凸で双対変数が非凸であり,ポリak-lojasiewicz (pl) 条件を満たす。 特に,dm-gda法は運動量に基づく手法を併用し,変数の更新と確率勾配の推定を行う。 さらに, DM-GDA法に対してソリッドコンバージェンス解析を行い, 非凸-PL確率最小値問題に対する$O(\epsilon^{-3})$のほぼ最適勾配の解を求め, 非凸確率最適化の下位境界に達することを証明した。 我々の知る限り、ネットワーク上の非凸PL確率最小値最適化のための分散アルゴリズムを最初に研究する。

Minimax optimization plays an important role in many machine learning tasks such as generative adversarial networks (GANs) and adversarial training. Although recently a wide variety of optimization methods have been proposed to solve the minimax problems, most of them ignore the distributed setting where the data is distributed on multiple workers. Meanwhile, the existing decentralized minimax optimization methods rely on the strictly assumptions such as (strongly) concavity and variational inequality conditions. In the paper, thus, we propose an efficient decentralized momentum-based gradient descent ascent (DM-GDA) method for the distributed nonconvex-PL minimax optimization, which is nonconvex in primal variable and is nonconcave in dual variable and satisfies the Polyak-Lojasiewicz (PL) condition. In particular, our DM-GDA method simultaneously uses the momentum-based techniques to update variables and estimate the stochastic gradients. Moreover, we provide a solid convergence analysis for our DM-GDA method, and prove that it obtains a near-optimal gradient complexity of $O(\epsilon^{-3})$ for finding an $\epsilon$-stationary solution of the nonconvex-PL stochastic minimax problems, which reaches the lower bound of nonconvex stochastic optimization. To the best of our knowledge, we first study the decentralized algorithm for Nonconvex-PL stochastic minimax optimization over a network.
翻訳日:2023-04-24 14:52:24 公開日:2023-04-21
# 機械学習モデルを用いたオンライン実験におけるよくある誤解

A Common Misassumption in Online Experiments with Machine Learning Models ( http://arxiv.org/abs/2304.10900v1 )

ライセンス: Link先を確認
Olivier Jeunen(参考訳) Randomized Controlled Trials (RCTs) や A/B-tests といったオンライン実験は、ウェブ上のモダンなプラットフォームのパンとバターである。 システムの変種「A」を変種「B」に置き換えることによる因果効果を、ある利害関係の指標で推定するために、連続的に実施される。 これらの変種は多くの点で異なる。 本稿では,機械学習モデルに対応する共通ユースケースに注目した。 オンライン実験は、どのモデルが優れているかを決定する最終的なアービターとして機能する。 RCTの因果効果推定に関する統計文献は、この「金の基準」評価の実践者が信頼する研究者や実践者のレベルにふさわしい、かなりの歴史を持っている。 それでも、機械学習実験の特定のケースでは、いくつかの重要な問題が残っている。 特に、A/Bテストが因果効果の偏りのない見積もりをもたらすことを確かめるために必要な仮定は、実際的な応用ではめったに満たされない。 変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。 これは、機械学習モデルによるオンライン実験から得られる結論を損なう。 このことが実践者や研究文献に与える影響について論じる。

Online experiments such as Randomised Controlled Trials (RCTs) or A/B-tests are the bread and butter of modern platforms on the web. They are conducted continuously to allow platforms to estimate the causal effect of replacing system variant "A" with variant "B", on some metric of interest. These variants can differ in many aspects. In this paper, we focus on the common use-case where they correspond to machine learning models. The online experiment then serves as the final arbiter to decide which model is superior, and should thus be shipped. The statistical literature on causal effect estimation from RCTs has a substantial history, which contributes deservedly to the level of trust researchers and practitioners have in this "gold standard" of evaluation practices. Nevertheless, in the particular case of machine learning experiments, we remark that certain critical issues remain. Specifically, the assumptions that are required to ascertain that A/B-tests yield unbiased estimates of the causal effect, are seldom met in practical applications. We argue that, because variants typically learn using pooled data, a lack of model interference cannot be guaranteed. This undermines the conclusions we can draw from online experiments with machine learning models. We discuss the implications this has for practitioners, and for the research literature.
翻訳日:2023-04-24 14:51:59 公開日:2023-04-21
# GCNH: ヘテロ親和性グラフ上での表現学習の簡易化

GCNH: A Simple Method For Representation Learning On Heterophilous Graphs ( http://arxiv.org/abs/2304.10896v1 )

ライセンス: Link先を確認
Andrea Cavallo, Claas Grohnfeldt, Michele Russo, Giulio Lovisotto and Luca Vassio(参考訳) グラフニューラルネットワーク(GNN)は、ホモフィルグラフ(すなわち、エッジが同じタイプのノードに接続する傾向があるグラフ)の学習に適している。 しかし、異種グラフ上での一貫したGNN性能の達成は、依然としてオープンな研究課題である。 最近の研究は、不均一グラフのパフォーマンスを改善するために標準gnnアーキテクチャの拡張を提案し、予測精度のためにモデルの単純さをトレードオフしている。 しかし、これらのモデルは学習の基本となる近傍ラベル分布のような基本的なグラフ特性を捉えることができない。 本稿では,ヘテロフィリィ(GCNH)のためのGCNを提案し,ヘテロフィリィおよびホモフィリィシナリオの両方に適用できる簡易かつ効果的なGNNアーキテクチャを提案する。 gcnhはノードとその近傍の別々の表現を学習し結合し、中心ノードと近傍の貢献のバランスをとるために1層あたりの重要度係数を学習する。 我々は,8つの実世界のグラフと,多様なヘテロフィリ度を持つ合成グラフの集合に関する広範な実験を行い,GCNHの設計選択が,バニラGCNよりも大きな改善をもたらすことを示す。 さらに、GCNHは8つのベンチマークのうち4つで非常に高い複雑さの最先端モデルよりも優れており、残りのデータセットでは同等の結果が得られている。 最後に, トレーニング可能なパラメータが少なく, 訓練時間も他の手法よりも速くなるGCNHの複雑さを論じ, 解析し, 過度な問題に対するGCNHの緩和効果を示す。

Graph Neural Networks (GNNs) are well-suited for learning on homophilous graphs, i.e., graphs in which edges tend to connect nodes of the same type. Yet, achievement of consistent GNN performance on heterophilous graphs remains an open research problem. Recent works have proposed extensions to standard GNN architectures to improve performance on heterophilous graphs, trading off model simplicity for prediction accuracy. However, these models fail to capture basic graph properties, such as neighborhood label distribution, which are fundamental for learning. In this work, we propose GCN for Heterophily (GCNH), a simple yet effective GNN architecture applicable to both heterophilous and homophilous scenarios. GCNH learns and combines separate representations for a node and its neighbors, using one learned importance coefficient per layer to balance the contributions of center nodes and neighborhoods. We conduct extensive experiments on eight real-world graphs and a set of synthetic graphs with varying degrees of heterophily to demonstrate how the design choices for GCNH lead to a sizable improvement over a vanilla GCN. Moreover, GCNH outperforms state-of-the-art models of much higher complexity on four out of eight benchmarks, while producing comparable results on the remaining datasets. Finally, we discuss and analyze the lower complexity of GCNH, which results in fewer trainable parameters and faster training times than other methods, and show how GCNH mitigates the oversmoothing problem.
翻訳日:2023-04-24 14:51:40 公開日:2023-04-21
# 不完全テンソルタッカー分解に基づく交通速度予測法

An Incomplete Tensor Tucker decomposition based Traffic Speed Prediction Method ( http://arxiv.org/abs/2304.10961v1 )

ライセンス: Link先を確認
Jiajia Mi(参考訳) インテリジェントトランスポートシステムでは、データの欠如は一般的で避けられない。 完全かつ有効な交通速度データは、インテリジェント交通システムにとって非常に重要である。 遅延因数分解(LFT)モデルは、その高いスケーリング性のために欠落したトラフィックデータリカバリを解決するための最も魅力的なアプローチの1つである。 LFTモデルは通常、確率勾配降下(SGD)解法によって最適化されるが、SGDに基づくLFTは緩やかな収束に苦しむ。 この問題に対処するため、この研究は比例積分微分(PID)コントローラのユニークな利点をタッカー分解に基づくLFTモデルに統合した。 考え方は2つあります。 a) より良好な回復精度を達成するためのLFTモデルを構築するためにタッカー分解を採用すること。 b) PID制御理論に基づく調整済みインスタンスエラーをSGD解決器に取り込み、収束率を効果的に向上させる。 2つの主要都市交通道路速度データセットに関する実験研究により,提案モデルが有意な効率向上と高い競合予測精度を実現することを示す。

In intelligent transport systems, it is common and inevitable with missing data. While complete and valid traffic speed data is of great importance to intelligent transportation systems. A latent factorization-of-tensors (LFT) model is one of the most attractive approaches to solve missing traffic data recovery due to its well-scalability. A LFT model achieves optimization usually via a stochastic gradient descent (SGD) solver, however, the SGD-based LFT suffers from slow convergence. To deal with this issue, this work integrates the unique advantages of the proportional-integral-derivative (PID) controller into a Tucker decomposition based LFT model. It adopts two-fold ideas: a) adopting tucker decomposition to build a LFT model for achieving a better recovery accuracy. b) taking the adjusted instance error based on the PID control theory into the SGD solver to effectively improve convergence rate. Our experimental studies on two major city traffic road speed datasets show that the proposed model achieves significant efficiency gain and highly competitive prediction accuracy.
翻訳日:2023-04-24 14:44:13 公開日:2023-04-21
# 非分極雑音を有するグラフ状態の最も簡単な忠実度推定法

Simplest fidelity-estimation method for graph states with depolarizing noise ( http://arxiv.org/abs/2304.10952v1 )

ライセンス: Link先を確認
Tomonori Tanizawa, Yuki Takeuchi, Shion Yamashika, Ryosuke Yoshii, and Shunji Tsuchiya(参考訳) グラフ状態は、測定に基づく量子計算や量子メトロロジーのようないくつかの量子情報処理タスクに有用な絡み合った状態である。 実験で実現されるグラフ状態の大きさが大きくなるにつれて、理想グラフ状態と実験的に実現された実状態との間の忠実度を推定する効率的な手法を考案することがより不可欠となる。 効率的な忠実度推定法は、一般に複数の実験的な設定、すなわち少なくとも2つの測定を切り替える必要がある。 近年,位相フリップ誤差としてノイズをモデル化できる場合には,単一の測定で十分であることが示されている。 ビットフリップ誤差もいくつかの実験で発生すべきであるため、この最も単純な手法を位相とビットフリップ誤差を含むノイズモデルに拡張することが望まれる。 しかし、この結果は位相フリップ誤差の性質に強く依存するため、非自明であると思われる。 本稿では,グラフ状態の安定化演算子に対するビットフリップ誤差の影響を解析することにより,位相とビットフリップ誤差を含む主要なノイズモデルである偏極雑音の拡張を実現する。 また,位相ゆらぎと非分極化ノイズを補間するノイズモデルについて,最も簡単な手法を数値的に評価した。

Graph states are entangled states useful for several quantum information processing tasks such as measurement-based quantum computation and quantum metrology. As the size of graph states realized in experiments increases, it becomes more essential to devise efficient methods estimating the fidelity between the ideal graph state and an experimentally-realized actual state. Any efficient fidelity-estimation method, in general, must use multiple experimental settings, i.e., needs to switch between at least two measurements. Recently, it has been shown that a single measurement is sufficient if the noise can be modeled as the phase-flip error. Since the bit-flip error should also occur in several experiments, it is desired to extend this simplest method to noise models that include phase and bit-flip errors. However, it seems to be nontrivial because their result strongly depends on properties of the phase-flip error. In this paper, by analyzing effects of the bit-flip error on stabilizer operators of graph states, we achieve the extension to the depolarizing noise, which is a major noise model including phase and bit-flip errors. We also numerically evaluate our simplest method for noise models interpolating between the phase-flip and depolarizing noises.
翻訳日:2023-04-24 14:43:55 公開日:2023-04-21
# 強化学習のための立方体正規化ポリシーニュートンアルゴリズム

A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning ( http://arxiv.org/abs/2304.10951v1 )

ライセンス: Link先を確認
Mizhaan Prajit Maniyar, Akash Mondal, Prashanth L.A., Shalabh Bhatnagar(参考訳) モデル情報が得られない強化学習(RL)の設定における制御の問題を考える。 ポリシー勾配アルゴリズムはこの問題に対する一般的な解法であり、通常は値関数の定常点に収束することが示される。 本稿では,立方正則化を組み込んだ2つのポリシーニュートンアルゴリズムを提案する。 どちらのアルゴリズムも、サンプル軌跡を用いて値関数の勾配とヘッシアンの推定値を形成するためにラピッド比法を用いる。 第1のアルゴリズムは各繰り返しにおける立方正規化問題の正確な解を必要とし、第2のアルゴリズムは立方正規化問題に対する効率的な勾配降下に基づく近似を用いる。 本研究では,提案アルゴリズムを値関数の2次定常点(SOSP)に収束させることにより,サドル点の形でのトラップ回避を実現する。 特に、$\epsilon$-SOSPを求めるアルゴリズムのサンプル複雑性は$O(\epsilon^{-3.5})$であり、これは最先端のサンプル複雑性の$O(\epsilon^{-4.5})$よりも改善されている。

We consider the problem of control in the setting of reinforcement learning (RL), where model information is not available. Policy gradient algorithms are a popular solution approach for this problem and are usually shown to converge to a stationary point of the value function. In this paper, we propose two policy Newton algorithms that incorporate cubic regularization. Both algorithms employ the likelihood ratio method to form estimates of the gradient and Hessian of the value function using sample trajectories. The first algorithm requires an exact solution of the cubic regularized problem in each iteration, while the second algorithm employs an efficient gradient descent-based approximation to the cubic regularized problem. We establish convergence of our proposed algorithms to a second-order stationary point (SOSP) of the value function, which results in the avoidance of traps in the form of saddle points. In particular, the sample complexity of our algorithms to find an $\epsilon$-SOSP is $O(\epsilon^{-3.5})$, which is an improvement over the state-of-the-art sample complexity of $O(\epsilon^{-4.5})$.
翻訳日:2023-04-24 14:43:36 公開日:2023-04-21
# シーン理解のための因子的ニューラル表現

Factored Neural Representation for Scene Understanding ( http://arxiv.org/abs/2304.10950v1 )

ライセンス: Link先を確認
Yu-Shiang Wong, Niloy J. Mitra(参考訳) シーン理解における長年の目標は、ハードウェアの設定や事前設定を必要とせずに、生のrgb-dビデオから直接構築できる解釈可能で編集可能な表現を得ることである。 この問題は、複数の移動や変形する物体の存在において、はるかに難しい。 従来の手法では、単純化、シーン先行、事前訓練されたテンプレート、既知の変形モデルを組み合わせてセットアップにアプローチしている。 神経表現の出現、特に神経暗黙的表現と放射場は、集合的な幾何学、外観、物体の動きを捉えるエンドツーエンド最適化の可能性を開く。 しかし、現在のアプローチでは、グローバルなシーンエンコーディングが実現され、シーン内の動きが制限された、あるいは全くないマルチビューキャプチャーが想定される。 本研究では,単眼のRGB-Dビデオから直接学習し,物体の運動(剛性軌道)や変形(非剛性運動など)を明示的に符号化した物体レベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。 我々は、合成データと実データの両方における一連のニューラルアプローチを評価し、表現が効率的で、解釈可能で、編集可能であることを示す(例えば、オブジェクトの軌跡を変更する)。 プロジェクトwebページは、$\href{https://yushiangw.github.io/factorednerf/}{\text{link}}$で入手できる。

A long-standing goal in scene understanding is to obtain interpretable and editable representations that can be directly constructed from a raw monocular RGB-D video, without requiring specialized hardware setup or priors. The problem is significantly more challenging in the presence of multiple moving and/or deforming objects. Traditional methods have approached the setup with a mix of simplifications, scene priors, pretrained templates, or known deformation models. The advent of neural representations, especially neural implicit representations and radiance fields, opens the possibility of end-to-end optimization to collectively capture geometry, appearance, and object motion. However, current approaches produce global scene encoding, assume multiview capture with limited or no motion in the scenes, and do not facilitate easy manipulation beyond novel view synthesis. In this work, we introduce a factored neural scene representation that can directly be learned from a monocular RGB-D video to produce object-level neural presentations with an explicit encoding of object movement (e.g., rigid trajectory) and/or deformations (e.g., nonrigid movement). We evaluate ours against a set of neural approaches on both synthetic and real data to demonstrate that the representation is efficient, interpretable, and editable (e.g., change object trajectory). The project webpage is available at: $\href{https://yushiangw.github.io/factorednerf/}{\text{link}}$.
翻訳日:2023-04-24 14:43:16 公開日:2023-04-21
# 量子状態推定におけるモデル選択のための量子情報基準

Quantum information criteria for model selection in quantum state estimation ( http://arxiv.org/abs/2304.10949v1 )

ライセンス: Link先を確認
Hiroshi Yano and Naoki Yamamoto(参考訳) 量子状態推定(または状態トモグラフィー)は、量子情報処理において不可欠なタスクである。 密度行列のすべての要素を決定する完全状態トモグラフィーは計算的に要求されるので、通常、ある量子状態のモデルを仮定し、モデルパラメータを同定する戦略を取る。 しかし,量子状態に対する事前知識がほとんど与えられていないという正当な仮定を行うことは困難であり,量子状態推定には合理的なモデル選択法が必要である。 実際、古典統計推定理論では、いくつかの種類の情報基準が確立され、古典統計モデルを適切に選択するために広く用いられている。 本研究では,量子相対エントロピー(kullback-leibler divergence)を用いて定義される古典的情報量規準の自然量子類似性)を用いて,推定量子状態の品質を評価する量子情報基準を提案する。 特に、量子相対エントロピーのエスティメータの種類に応じて2つの量子情報基準を導出する。 情報基準の一般的な役割は、サンプルデータのみの機能であるにもかかわらず、未確認データに対する推定モデルの性能を予測することであり、提案した量子情報基準の一般化能力は数値シミュレーションで評価される。

Quantum state estimation (or state tomography) is an indispensable task in quantum information processing. Because full state tomography that determines all elements of the density matrix is computationally demanding, one usually takes the strategy of assuming a certain model of quantum states and identifying the model parameters. However, it is difficult to make a valid assumption given little prior knowledge on a quantum state of interest, and thus we need a reasonable model selection method for quantum state estimation. Actually, in the classical statistical estimation theory, several types of information criteria have been established and widely used in practice for appropriately choosing a classical statistical model. In this study, we propose quantum information criteria for evaluating the quality of the estimated quantum state in terms of the quantum relative entropy, which is a natural quantum analogue of the classical information criterion defined in terms of Kullback-Leibler divergence. In particular, we derive two quantum information criteria depending on the type of estimator for the quantum relative entropy; one uses the log-likelihood and the other uses the classical shadow. The general role of information criteria is to predict the performance of an estimated model for unseen data, although it is a function of only sampled data; this generalization capability of the proposed quantum information criteria is evaluated in numerical simulations.
翻訳日:2023-04-24 14:42:52 公開日:2023-04-21
# 量子作用素上のマイクロカノニカルウィンドウ

Microcanonical windows on quantum operators ( http://arxiv.org/abs/2304.10948v1 )

ライセンス: Link先を確認
Silvia Pappalardi, Laura Foini and Jorge Kurchan(参考訳) 量子作用素 O のマイクロカノニカル射影 WOW の構成,そのスペクトル,およびそれからの正準時間相関の検索について論じる。

We discuss a construction of a microcanonical projection WOW of a quantum operator O, its spectrum, and the retrieval of canonical many-time correlations from it.
翻訳日:2023-04-24 14:42:31 公開日:2023-04-21
# 最大絡み合った多成分状態における相関と射影計測

Correlations and projective measurements in maximally entangled multipartite states ( http://arxiv.org/abs/2304.10944v1 )

ライセンス: Link先を確認
Arthur Vesperini(参考訳) 多部量子状態は、量子計算の鍵となる資源を構成する。 したがって、内部構造を理解することは量子情報の分野で非常に重要である。 本研究の目的は, 単純かつ直感的な物理的意味を持つツール,すなわち射影的計測と相関を用いて, 最大交絡状態の構造を調べることである。 このような状態では、測定後の期待値と測定前の相関の間に非常に単純な関係が生じることを最初に示す。 次に、この関係が最近導入された \textit{entanglement metric} の構造に与える影響を推測し、この関係が entanglement} の \textit{persistency の上限を与えることができる。 これらの特徴を選択された測定軸に依存させ, 相関を最大化するための2つの簡単な最適化手法を提案する。 最後に、プロシージャをいくつかのプロトタイプの例に適用する。

Multipartite quantum states constitute the key resource for quantum computation. The understanding of their internal structure is thus of great importance in the field of quantum information. This paper aims at examining the structure of multipartite maximally entangled pure states, using tools with a simple and intuitive physical meaning, namely, projective measurements and correlations. We first show how, in such states, a very simple relation arises between post-measurement expectation values and pre-measurement correlations. We then infer the consequences of this relation on the structure of the recently introduced \textit{entanglement metric}, allowing us to provide an upper bound for the \textit{persistency of entanglement}. The dependence of these features on the chosen measurement axis is underlined, and two simple optimization procedures are proposed, to find those maximizing the correlations. Finally, we apply our procedures onto some prototypical examples.
翻訳日:2023-04-24 14:42:27 公開日:2023-04-21
# 電圧プロベ量子熱エンジンの最適性能

Optimal performance of voltage-probe quantum heat engines ( http://arxiv.org/abs/2304.10942v1 )

ライセンス: Link先を確認
Zahra Sartipi, Javad Vahedi(参考訳) 外部磁場に曝露された電圧プローブ型熱エンジンの出力出力における熱電特性を線形不可逆熱力学において検討した。 モデルでは、非対称パラメータ、与えられた出力パワーにおける一般的なメリットと効率の数値を解析的に導出する。 その結果、効率と出力パワーのトレードオフを示し、特性パラメータである$d_m$の存在により、与えられた出力電力における最適効率値をb\"uttiker-probeヒートエンジンと比較して高める。 さらに、B\ "uttiker-probe" ヒートエンジンと同様、効率の普遍的な境界が得られ、与えられた出力パワーの効率はカーゾン=アルボーン限界を超えることができる。 これらの結果は現実的なヒートエンジンと冷蔵庫の最適化に実際的な意味を持つ。 非対称パラメータ、メリットの数値、および$d_m$の値を制御することで、より効率的で強力な熱電デバイスを設計することができる。

The thermoelectric performance at a given output power of a voltage-probe heat engine, exposed to an external magnetic field, is investigated in linear irreversible thermodynamics. For the model, asymmetric parameter, general figures of merit and efficiency at a given output power are analytically derived. Results show a trade-off between efficiency and output power, and we recognize optimum-efficiency values at a given output power are enhanced compared to a B\"uttiker-probe heat engine due to the presence of a characteristic parameter, namely $d_m$. Moreover, similar to a B\"uttiker-probe heat engine, the universal bounds on the efficiency are obtained, and the efficiency at a given output power can exceed the Curzon-Ahlborn limit. These findings have practical implications for the optimization of realistic heat engines and refrigerators. By controlling the values of the asymmetric parameter, the figures of merit, and $d_m$, it may be possible to design more efficient and powerful thermoelectric devices.
翻訳日:2023-04-24 14:42:13 公開日:2023-04-21
# 半教師付き学習視点における内分散支援による深層メトリック学習

Deep Metric Learning Assisted by Intra-variance in A Semi-supervised View of Learning ( http://arxiv.org/abs/2304.10941v1 )

ライセンス: Link先を確認
Liu Pingping, Liu Zetong, Lang Yijun, Zhou Qiuzhan, Li Qingliang(参考訳) deep metric learningは、同じクラスのサンプルが互いに近く、異なるクラスのサンプルが互いに遠く離れている埋め込み空間を構築することを目的としている。 既存のディープメトリック学習法のほとんどは、クラス間特徴の差を最大化しようと試みている。 そして、埋め込み空間における異なるクラスのサンプル間の距離を増やすことで意味関連情報を得る。 しかし、全ての正のサンプルを圧縮し、異なるクラス間で大きな縁をつくりながら、同じサンプル間の局所構造を無意識に破壊する。 類似したサンプル間の局所構造に含まれるクラス内分散を無視すると、トレーニングから得られる埋め込み空間は、目に見えないクラスよりも低い一般化性を受け、トレーニングセットに適合し、テストセットにクラッシュするネットワークにつながる。 そこで,本研究では,一般的な教師付き深層メトリック学習のためのクラス内分散学習スキームの半教師付き視点を提供する,自己教師付き生成支援ランキングフレームワークを提案する。 具体的には,クラス内サンプルの複雑な変換をシミュレートするために,特定の条件を満たす試料の強度と多様性の異なる試料合成を行う。 また、自己教師型学習のアイデアを用いて、クラス内分布の微妙な分散を捕捉する訓練過程において、クラス内分布の維持をネットワークに制約するクラス内ランキング損失関数を設計する。 このアプローチにより、サンプルのグローバル構造とローカル構造が十分に保存されたより現実的な埋め込み空間が得られ、下流タスクの有効性が向上する。 4つのベンチマークの大規模な実験は、このアプローチが最先端の手法を超えることを示した。

Deep metric learning aims to construct an embedding space where samples of the same class are close to each other, while samples of different classes are far away from each other. Most existing deep metric learning methods attempt to maximize the difference of inter-class features. And semantic related information is obtained by increasing the distance between samples of different classes in the embedding space. However, compressing all positive samples together while creating large margins between different classes unconsciously destroys the local structure between similar samples. Ignoring the intra-class variance contained in the local structure between similar samples, the embedding space obtained from training receives lower generalizability over unseen classes, which would lead to the network overfitting the training set and crashing on the test set. To address these considerations, this paper designs a self-supervised generative assisted ranking framework that provides a semi-supervised view of intra-class variance learning scheme for typical supervised deep metric learning. Specifically, this paper performs sample synthesis with different intensities and diversity for samples satisfying certain conditions to simulate the complex transformation of intra-class samples. And an intra-class ranking loss function is designed using the idea of self-supervised learning to constrain the network to maintain the intra-class distribution during the training process to capture the subtle intra-class variance. With this approach, a more realistic embedding space can be obtained in which global and local structures of samples are well preserved, thus enhancing the effectiveness of downstream tasks. Extensive experiments on four benchmarks have shown that this approach surpasses state-of-the-art methods
翻訳日:2023-04-24 14:41:55 公開日:2023-04-21
# グラフ注意ネットワークにおける学習可能なパラメータの勾配導出

Gradient Derivation for Learnable Parameters in Graph Attention Networks ( http://arxiv.org/abs/2304.10939v1 )

ライセンス: Link先を確認
Marion Neumeier, Andreas Tollk\"uhn, Sebastian Dorn, Michael Botsch, Wolfgang Utschick(参考訳) この研究は、グラフ注意ネットワーク(GAT)の実装として広く使われているGATv2[4]のパラメータ勾配の包括的導出を提供する。 GATはグラフ構造化データを処理するための強力なフレームワークであることが証明されており、様々なアプリケーションで使われている。 しかし、これらの試みによって達成されたパフォーマンスは、異なるデータセット間で一貫性がないことが判明しており、その理由は未解決な研究課題である。 勾配流は統計的学習モデルのトレーニング力学に関する貴重な洞察を与えるため、この研究はGATv2のトレーニング可能なモデルパラメータの勾配を求める。 勾配の導出は、GATv2の潜在的な落とし穴を研究する[2]の努力を補う。

This work provides a comprehensive derivation of the parameter gradients for GATv2 [4], a widely used implementation of Graph Attention Networks (GATs). GATs have proven to be powerful frameworks for processing graph-structured data and, hence, have been used in a range of applications. However, the achieved performance by these attempts has been found to be inconsistent across different datasets and the reasons for this remains an open research question. As the gradient flow provides valuable insights into the training dynamics of statistically learning models, this work obtains the gradients for the trainable model parameters of GATv2. The gradient derivations supplement the efforts of [2], where potential pitfalls of GATv2 are investigated.
翻訳日:2023-04-24 14:41:28 公開日:2023-04-21
# BERTを用いたバイオメディカル知識グラフの構築と解析のための臨床知識抽出

BERT Based Clinical Knowledge Extraction for Biomedical Knowledge Graph Construction and Analysis ( http://arxiv.org/abs/2304.10996v1 )

ライセンス: Link先を確認
Ayoub Harnoune and Maryem Rhanoui and Mounia Mikram and Siham Yousfi and Zineb Elkaimbillah and Bouchra El Asri(参考訳) 背景:知識は時間とともに進化しており、しばしば新しい発見や推論の方法の変更の結果である。 また、新たな事実や証拠が利用可能になり、複雑な現象に対する新たな理解がもたらされる。 これは、科学者や医師が常に新しい診断方法、治療方法、最終的に治療方法を見つけようと努力している生体医学分野において特に当てはまる。 知識グラフ(KG)は、大量のバイオメディカル知識を組織化し、取り出すための真の方法を提供する。 目的:両方向エンコーダ表現(BERT)モデルと条件付ランダムフィールド(CRF)レイヤを用いて,バイオメディカル臨床ノートから知識抽出と分析を行うエンド・ツー・エンドアプローチを提案する。 アプローチは知識グラフに基づいており、医療機関間の関係や相互作用といった抽象的な生体医学概念を効果的に処理することができる。 これらの概念を直感的に視覚化するだけでなく、kgsはより単純な表現に単純化したり、問題を異なる視点から表現に変換することで、より複雑な知識検索問題を解決できる。 我々は、名前付きエンティティ認識と関係抽出に自然言語処理モデルを用いたバイオメディカル知識グラフを構築した。 生成された生物医学知識グラフ(KG)は質問応答に使用される。 結果】本研究の枠組みは,実世界505例の生体医学的非構造化臨床ノートに基づく実験結果に基づき,高精度な構造情報抽出(名前付きエンティティ認識(ner)90.7%,関係抽出(re)88%)が可能である。 結論:本論文では,BERTモデルのバリエーションを用いた臨床テキストからのバイオメディカル知識グラフ構築のための新しいエンドツーエンドシステムを提案する。

Background : Knowledge is evolving over time, often as a result of new discoveries or changes in the adopted methods of reasoning. Also, new facts or evidence may become available, leading to new understandings of complex phenomena. This is particularly true in the biomedical field, where scientists and physicians are constantly striving to find new methods of diagnosis, treatment and eventually cure. Knowledge Graphs (KGs) offer a real way of organizing and retrieving the massive and growing amount of biomedical knowledge. Objective : We propose an end-to-end approach for knowledge extraction and analysis from biomedical clinical notes using the Bidirectional Encoder Representations from Transformers (BERT) model and Conditional Random Field (CRF) layer. Methods : The approach is based on knowledge graphs, which can effectively process abstract biomedical concepts such as relationships and interactions between medical entities. Besides offering an intuitive way to visualize these concepts, KGs can solve more complex knowledge retrieval problems by simplifying them into simpler representations or by transforming the problems into representations from different perspectives. We created a biomedical Knowledge Graph using using Natural Language Processing models for named entity recognition and relation extraction. The generated biomedical knowledge graphs (KGs) are then used for question answering. Results : The proposed framework can successfully extract relevant structured information with high accuracy (90.7% for Named-entity recognition (NER), 88% for relation extraction (RE)), according to experimental findings based on real-world 505 patient biomedical unstructured clinical notes. Conclusions : In this paper, we propose a novel end-to-end system for the construction of a biomedical knowledge graph from clinical textual using a variation of BERT models.
翻訳日:2023-04-24 14:35:48 公開日:2023-04-21
# 文書からの情報抽出:実世界における質問応答とトークン分類

Information Extraction from Documents: Question Answering vs Token Classification in real-world setups ( http://arxiv.org/abs/2304.10994v1 )

ライセンス: Link先を確認
Laurent Lam, Pirashanth Ratnamogan, Jo\"el Tang, William Vanhuffel and Fabien Caspani(参考訳) 文書情報,特に文書鍵情報抽出(Dockie)の研究は,主にトークン分類問題として解決されている。 自然言語処理(NLP)とコンピュータビジョンの両方の最近の進歩は、文書テキスト、レイアウト、画像モダリティのマルチモーダル理解を活用して、文書中心の事前学習手法の構築に寄与した。 しかし、これらのブレークスルーは、Machine Reading Comprehension (MRC)研究分野の一部として、新しいDocKIEサブタスクの抽出文書質問回答(DocQA)の出現につながった。 本研究では,質問応答アプローチと,文書鍵情報抽出のための古典的なトークン分類手法を比較した。 我々は,5種類の実験装置のベンチマーク実験を設計した。生のパフォーマンス,ノイズ環境に対する堅牢性,長いエンティティ抽出能力,Few-Shot Learningの微調整速度,そしてZero-Shot Learningである。 我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類ベースのアプローチは依然として最適である一方で、QAアプローチはノイズの多い環境や長いエンティティのユースケースに最適な代替手段であることを示した。

Research in Document Intelligence and especially in Document Key Information Extraction (DocKIE) has been mainly solved as Token Classification problem. Recent breakthroughs in both natural language processing (NLP) and computer vision helped building document-focused pre-training methods, leveraging a multimodal understanding of the document text, layout and image modalities. However, these breakthroughs also led to the emergence of a new DocKIE subtask of extractive document Question Answering (DocQA), as part of the Machine Reading Comprehension (MRC) research field. In this work, we compare the Question Answering approach with the classical token classification approach for document key information extraction. We designed experiments to benchmark five different experimental setups : raw performances, robustness to noisy environment, capacity to extract long entities, fine-tuning speed on Few-Shot Learning and finally Zero-Shot Learning. Our research showed that when dealing with clean and relatively short entities, it is still best to use token classification-based approach, while the QA approach could be a good alternative for noisy environment or long entities use-cases.
翻訳日:2023-04-24 14:35:16 公開日:2023-04-21
# 駆動型量子対称単純排他過程における特殊絡み合い

Exact Entanglement in the Driven Quantum Symmetric Simple Exclusion Process ( http://arxiv.org/abs/2304.10988v1 )

ライセンス: Link先を確認
Denis Bernard and Ludwig Hruza(参考訳) 駆動量子系の絡み合い特性は、長距離コヒーレンスによる平衡状態とは異なる可能性がある。 メソスコピック輸送に適した玩具モデルであるオープン量子対称単純排他過程(qssep)の研究により,この観察を確認した。 定常状態におけるオープンQSSEPの平均的相互情報が体積法則を満たすことを証明し、システムの異なる領域間の相互情報の正確な公式を導出する。 QSSEPのフリー確率構造をエクスプロイトし、これらの結果を得るため、ランダム行列の理論に潜在的に適用可能な数学的結果である、いわゆる局所的自由累積からランダム行列のサブブロックの固有値スペクトルを決定する新しい方法を開発した。 この方法の例示として,局所自由積から固有状態熱化仮説 (eth) を満たす系における可観測性の期待値を計算する方法を示す。

Entanglement properties of driven quantum systems can potentially differ from the equilibrium situation due to long range coherences. We confirm this observation by studying a suitable toy model for mesoscopic transport: the open quantum symmetric simple exclusion process (QSSEP). We prove that the average mutual information of the open QSSEP in the steady state satisfies a volume law, and derive exact formulae for the mutual information between different regions of the system. Exploiting the free probability structure of QSSEP, we obtain these results by developing a new method to determine the eigenvalue spectrum of sub-blocks of random matrices from their so-called local free cumulants -- a mathematical result on its own with potential applications in the theory of random matrices. As an illustration of this method, we show how to compute expectation values of observables in systems satisfying the Eigenstate Thermalization Hypothesis (ETH) from the local free cumulants.
翻訳日:2023-04-24 14:34:56 公開日:2023-04-21
# 制約付きシナリオによるロバストバックドアアタックの起動

Launching a Robust Backdoor Attack under Capability Constrained Scenarios ( http://arxiv.org/abs/2304.10985v1 )

ライセンス: Link先を確認
Ming Yi, Yixiao Xu, Kangyi Ding, Mingyong Yin, Xiaolei Liu(参考訳) 深いニューラルネットワークが重要なドメインで使われ続けているため、セキュリティに対する懸念が浮上している。 ディープラーニングモデルは、透明性の欠如によるバックドア攻撃に対して脆弱である。 有害なバックドアモデルは通常、通常の環境で実行されるが、入力にトリガーが含まれていると悪意のある振る舞いを示す。 バックドア攻撃に関する現在の研究はトリガーのステルスネスの改善に焦点を当てており、ほとんどのアプローチではモデル構造やトレーニングプロセスの制御といった強力な攻撃能力を必要としている。 これらの攻撃は、ほとんどの場合、攻撃者の能力に制限があるため、実用的でない。 さらに、モデルロバスト性の問題には十分な注意が払われていない。 例えば、モデル蒸留は、パラメータの数が指数関数的に増加するにつれてモデルサイズを効率化するために一般的に使われ、以前のバックドア攻撃のほとんどはモデル蒸留後に失敗した。 本研究では,ブラックボックスのバックドア攻撃を能力制約内で実施することを検討する。 攻撃者は、訓練過程や対象モデルの構造に関する知識に関わらず、画像注釈器または画像提供者として行動することで、そのような攻撃を行うことができる。 バックドアトリガーの設計を通じて,モデル蒸留と画像増量後の攻撃は有効であり,より脅威的で実用的である。 実験により,ブラックボックスシナリオにおける攻撃成功率が向上し,最先端のバックドア防御を回避することができた。

As deep neural networks continue to be used in critical domains, concerns over their security have emerged. Deep learning models are vulnerable to backdoor attacks due to the lack of transparency. A poisoned backdoor model may perform normally in routine environments, but exhibit malicious behavior when the input contains a trigger. Current research on backdoor attacks focuses on improving the stealthiness of triggers, and most approaches require strong attacker capabilities, such as knowledge of the model structure or control over the training process. These attacks are impractical since in most cases the attacker's capabilities are limited. Additionally, the issue of model robustness has not received adequate attention. For instance, model distillation is commonly used to streamline model size as the number of parameters grows exponentially, and most of previous backdoor attacks failed after model distillation; the image augmentation operations can destroy the trigger and thus disable the backdoor. This study explores the implementation of black-box backdoor attacks within capability constraints. An attacker can carry out such attacks by acting as either an image annotator or an image provider, without involvement in the training process or knowledge of the target model's structure. Through the design of a backdoor trigger, our attack remains effective after model distillation and image augmentation, making it more threatening and practical. Our experimental results demonstrate that our method achieves a high attack success rate in black-box scenarios and evades state-of-the-art backdoor defenses.
翻訳日:2023-04-24 14:34:41 公開日:2023-04-21
# IBBT:不確実性下での運動計画のためのインフォームドバッチリーフツリー

IBBT: Informed Batch Belief Trees for Motion Planning Under Uncertainty ( http://arxiv.org/abs/2304.10984v1 )

ライセンス: Link先を確認
Dongliang Zheng, Panagiotis Tsiotras(参考訳) 本研究では,動作中の動作計画と不確かさを検知するためのインフォームド・バッチ・信念木(ibbt)アルゴリズムを提案する。 元の確率的動き計画問題は、決定論的動き計画問題とグラフ探索問題に分けられる。 PRM や RRG のようなサンプリングに基づく手法を用いて,名目軌道グラフを構築する決定論的計画問題を解く。 次に,原問題に対する情報的コスト対ゴーヒューリスティックを名目軌道グラフに基づいて計算する。 最後に,提案するヒューリスティックを用いてグラフを探索することで,信念木を成長させる。 IBBTは、バッチ状態サンプリング、名目的軌道グラフ構築、ヒューリスティックコンピューティング、およびグラフを探索して信念空間の運動計画を見つける。 IBBTは任意の段階的アルゴリズムである。 グラフに追加されるサンプルのバッチ数が増加すると、アルゴリズムは最適なものに収束する動き計画を見つける。 IBBTは逐次イテレーション間の結果を再利用することで効率が良い。 信仰木探索は情報ヒューリスティックによって導かれる順序付き探索である。 IBBTをさまざまな計画環境でテストします。 IBBTは非自明な動作計画を発見し,従来の類似手法と比較して高速であることを確認した。

In this work, we propose the Informed Batch Belief Trees (IBBT) algorithm for motion planning under motion and sensing uncertainties. The original stochastic motion planning problem is divided into a deterministic motion planning problem and a graph search problem. We solve the deterministic planning problem using sampling-based methods such as PRM or RRG to construct a graph of nominal trajectories. Then, an informed cost-to-go heuristic for the original problem is computed based on the nominal trajectory graph. Finally, we grow a belief tree by searching over the graph using the proposed heuristic. IBBT interleaves between batch state sampling, nominal trajectory graph construction, heuristic computing, and search over the graph to find belief space motion plans. IBBT is an anytime, incremental algorithm. With an increasing number of batches of samples added to the graph, the algorithm finds motion plans that converge to the optimal one. IBBT is efficient by reusing results between sequential iterations. The belief tree searching is an ordered search guided by an informed heuristic. We test IBBT in different planning environments. Our numerical investigation confirms that IBBT finds non-trivial motion plans and is faster compared with previous similar methods.
翻訳日:2023-04-24 14:34:18 公開日:2023-04-21
# バランスシミュレーションに基づく保守的後肢の推論

Balancing Simulation-based Inference for Conservative Posteriors ( http://arxiv.org/abs/2304.10978v1 )

ライセンス: Link先を確認
Arnaud Delaunoy, Benjamin Kurt Miller, Patrick Forr\'e, Christoph Weniger, Gilles Louppe(参考訳) 保守的推論はシミュレーションに基づく推論において主要な関心事である。 一般的に使用されるアルゴリズムは、自信過剰な後方近似を生成できることが示されている。 バランスをとることがこの問題を軽減する効果的な方法であると実証されている。 しかし、その応用は神経比の推定に限定されている。 本研究では,後方密度を提供する任意のアルゴリズムにバランスを延ばす。 特に、神経後部推定と対照的神経比推定のバランスの取れたバージョンを導入する。 バランスの取れたバージョンは、様々なベンチマークで保守的な後続近似を生成する傾向があることを実証的に示す。 さらに、$\chi^2$の発散という観点から、バランス条件の代替解釈を提供する。

Conservative inference is a major concern in simulation-based inference. It has been shown that commonly used algorithms can produce overconfident posterior approximations. Balancing has empirically proven to be an effective way to mitigate this issue. However, its application remains limited to neural ratio estimation. In this work, we extend balancing to any algorithm that provides a posterior density. In particular, we introduce a balanced version of both neural posterior estimation and contrastive neural ratio estimation. We show empirically that the balanced versions tend to produce conservative posterior approximations on a wide variety of benchmarks. In addition, we provide an alternative interpretation of the balancing condition in terms of the $\chi^2$ divergence.
翻訳日:2023-04-24 14:33:57 公開日:2023-04-21
# 数分解を用いた算術演算におけるトランスフォーマー言語モデルの評価

Evaluating Transformer Language Models on Arithmetic Operations Using Number Decomposition ( http://arxiv.org/abs/2304.10977v1 )

ライセンス: Link先を確認
Matteo Muffo, Aldo Cocco, Enrico Bertino(参考訳) 近年、GPT-3のような大規模言語モデルでは、ゼロと少ないショット設定でNLPタスクを実行する際、顕著な機能を示した。 一方,実験では算術演算のようなある程度の推論を必要とするタスクの実行におけるgpt-3の難しさが強調された。 本稿では,トランスフォーマー言語モデルが演算処理を行う前に,単位数やテン数などの数値を分解するパイプラインに追従して算術演算を行う能力を評価する。 我々は、このパイプラインで微調整されたモデルをCalculonと表現し、GPT-3の同じテストセット上で加算、減算、乗算を行うタスクでそれらをテストする。 その結果,5桁加算作業では63%の精度向上が認められた。 さらに、数値を分解せずに同じ言語モデルを微調整することで、5桁加算タスクにおいて0%の精度が得られる分解パイプラインの重要性を示す。

In recent years, Large Language Models such as GPT-3 showed remarkable capabilities in performing NLP tasks in the zero and few shot settings. On the other hand, the experiments highlighted the difficulty of GPT-3 in carrying out tasks that require a certain degree of reasoning, such as arithmetic operations. In this paper we evaluate the ability of Transformer Language Models to perform arithmetic operations following a pipeline that, before performing computations, decomposes numbers in units, tens, and so on. We denote the models fine-tuned with this pipeline with the name Calculon and we test them in the task of performing additions, subtractions and multiplications on the same test sets of GPT-3. Results show an increase of accuracy of 63% in the five-digit addition task. Moreover, we demonstrate the importance of the decomposition pipeline introduced, since fine-tuning the same Language Model without decomposing numbers results in 0% accuracy in the five-digit addition task.
翻訳日:2023-04-24 14:33:49 公開日:2023-04-21
# 最寄り(qarn)の研究のための量子アルゴリズム

Quantum Algorithm for Researching the Nearest (QARN) ( http://arxiv.org/abs/2304.10976v1 )

ライセンス: Link先を確認
Karina Reshetova(参考訳) 大量のデータを今日まで処理することは、電力資源の不足によって困難を引き起こす。 古典的なアルゴリズムは一連のアクションを実装し、実行には一定の時間とRAMの形での空間を必要とする。 並列化は使用可能な場合、時間を取得するだけでなく、すべての並列アクションのバッファリングも必要である。 量子コンピューティングは、qubits、qudits、およびそれらの特性を持つ並列コンピューティングの魅力的な代替として機能する。 本論文で提案する量子アルゴリズムは, 初期要素を重ね合わせに格納することにより, 与えられた値に最も近い) 要素をランダムなデータ配列で探索することを可能にする。 これにより、すべての要素に対して同時に検索操作を実行でき、RAMの量を節約できる。

Processing large amounts of data to this day causes difficulties due to the lack of power resources. Classical algorithms implement a chain of actions, requiring a certain time to execute, as well as space in the form of RAM. Parallelization, if it can be used, allows to gain time, but also needs buffering of all parallel actions. Quantum computing acts as an attractive alternative to parallel computing with qubits, qudits and their distinctive properties. The quantum algorithm proposed in this paper allows to search for the best (closest to a given) element in a random data array by storing all its initial elements in a superposition. This allows to perform the search operations on all elements at the same time and due to the same to save the amount of RAM.
翻訳日:2023-04-24 14:33:34 公開日:2023-04-21
# LEIA: 影響の同定のための言語的埋め込み

LEIA: Linguistic Embeddings for the Identification of Affect ( http://arxiv.org/abs/2304.10973v1 )

ライセンス: Link先を確認
Segun Taofeek Aroyehun, Lukas Malik, Hannah Metzler, Nikolas Haimerl, Anna Di Natale, David Garcia(参考訳) ソーシャルメディアが生成するテキストデータの豊富さにより、言語モデルによる感情の分析が可能になった。 これらのモデルは、ソーシャルメディア投稿で他の人が表現した感情を推測する読者によって作成された、小さくて高価なテキストアノテーションのデータセットで訓練されることが多い。 これは、モデル開発に使用されるラベルの生成において、データサイズ制限とノイズの訓練による感情識別手法の品質に影響する。 我々は、幸福、愛情、悲しみ、怒り、恐怖のための自己アノテートされた感情ラベルを持つ600万以上の投稿のデータセットで訓練されたテキスト中の感情識別モデルであるLEIAを提示する。 LEIAは、モデル事前学習中の感情語の学習を強化する単語マスキング法に基づいている。 LEIAは3つのドメイン内テストデータセットで約73のマクロF1値を達成し、強いベンチマークで他の教師付きおよび教師なしのメソッドよりも優れており、LEIAがポスト、ユーザ、タイムをまたいで一般化していることを示している。 さらに,ソーシャルメディアと他のソースの5つの異なるデータセットについてドメイン外評価を行い,メディア間におけるleiaの堅牢なパフォーマンス,データ収集手法,アノテーションスキームを示す。 以上の結果から, LEIAは, 訓練対象領域を超えて, 怒り, 幸福, 悲しみの分類を一般化していることがわかった。 LEIAは、作家の視点からテキスト中の感情をよりよく識別するために将来の研究に応用できる。 この記事のために作成されたモデルはhttps://huggingface.co/LEIAで公開されている。

The wealth of text data generated by social media has enabled new kinds of analysis of emotions with language models. These models are often trained on small and costly datasets of text annotations produced by readers who guess the emotions expressed by others in social media posts. This affects the quality of emotion identification methods due to training data size limitations and noise in the production of labels used in model development. We present LEIA, a model for emotion identification in text that has been trained on a dataset of more than 6 million posts with self-annotated emotion labels for happiness, affection, sadness, anger, and fear. LEIA is based on a word masking method that enhances the learning of emotion words during model pre-training. LEIA achieves macro-F1 values of approximately 73 on three in-domain test datasets, outperforming other supervised and unsupervised methods in a strong benchmark that shows that LEIA generalizes across posts, users, and time periods. We further perform an out-of-domain evaluation on five different datasets of social media and other sources, showing LEIA's robust performance across media, data collection methods, and annotation schemes. Our results show that LEIA generalizes its classification of anger, happiness, and sadness beyond the domain it was trained on. LEIA can be applied in future research to provide better identification of emotions in text from the perspective of the writer. The models produced for this article are publicly available at https://huggingface.co/LEIA
翻訳日:2023-04-24 14:33:22 公開日:2023-04-21
# GPT-4はニューラルネットワーク検索を実現できるか?

Can GPT-4 Perform Neural Architecture Search? ( http://arxiv.org/abs/2304.10970v1 )

ライセンス: Link先を確認
Mingkai Zheng, Xiu Su, Shan You, Fei Wang, Chen Qian, Chang Xu, Samuel Albanie(参考訳) gpt-4~\cite{gpt4}のニューラルネットワーク探索(nas)を行う可能性について検討した。 提案手法である \textbf{g}pt-4 \textbf{i}nformed \textbf{n}eural \textbf{a}rchitecture \textbf{s}earch (ginas) では,gpt-4の生成能力をブラックボックスオプティマイザとして推定し,アーキテクチャ検索空間を高速にナビゲートし,有望な候補を特定し,それらの候補を反復的に洗練し,パフォーマンス向上を図る。 最先端のパフォーマンスを目標とするのではなく、比較的限定的なドメイン専門知識を必要とする単純なプロンプトスキームを通じて、gpt-4の技術的課題の研究を支援する可能性を強調します。 より広範に、我々の予備的な結果は、多種多様な最適化タスクに汎用言語モデルを活用する将来の研究を指すと信じている。 また、研究における重要な制限を強調し、AIの安全性に影響を及ぼす点にも注目します。

We investigate the potential of GPT-4~\cite{gpt4} to perform Neural Architecture Search (NAS) -- the task of designing effective neural architectures. Our proposed approach, \textbf{G}PT-4 \textbf{I}nformed \textbf{N}eural \textbf{A}rchitecture \textbf{S}earch (GINAS),leverages the generative capabilities of GPT-4 as a black-box optimiser to quickly navigate the architecture search space, pinpoint promising candidates, and iteratively refine these candidates to improve performance.We assess GINAS across several benchmarks, comparing it with existing state-of-the-art NAS techniques to illustrate its effectiveness. Rather than targeting state-of-the-art performance, our objective is to highlight GPT-4's potential to assist research on a challenging technical problem through a simple prompting scheme that requires relatively limited domain expertise. More broadly, we believe our preliminary results point to future research that harnesses general purpose language models for diverse optimisation tasks. We also highlight important limitations to our study, and note implications for AI safety.
翻訳日:2023-04-24 14:32:57 公開日:2023-04-21
# アナログコンテンツアドレスメモリのためのアナログフィードバック制御メムリスタプログラミング回路

Analog Feedback-Controlled Memristor programming Circuit for analog Content Addressable Memory ( http://arxiv.org/abs/2304.11030v1 )

ライセンス: Link先を確認
Jiaao Yu, Paul-Philipp Manea, Sara Ameli, Mohammad Hizzani, Amro Eldebiky, John Paul Strachan(参考訳) 近年の連想記憶におけるブレークスルーは、シリコン記憶が人間の記憶に近づきつつあることを示唆している。 しかし、最先端のmemristorプログラミングアルゴリズムであるProgram-Verifyアルゴリズムは、検証とプログラムのmemristorコンダクタンスを頻繁に切り替える必要があり、高い動的パワーや長いプログラミング時間などの多くの欠陥をもたらす。 本稿では,新しいルックアップテーブルベース(lutベース)プログラミングアルゴリズムを用いたアナログフィードバック制御型memristorプログラミング回路を提案する。 提案アルゴリズムでは,メムリスタのプログラミングと検証を一方向逐次プロセスで行うことができる。 さらに、8つのアナログCAM(aCAM)セルを1つのプログラミング回路に統合し、aCAMアレイを構築する。 TSMC 28nmプロセスにおけるSPICEシミュレーションについて述べる。 理論的分析によると 1. aCAMセル内の膜コンダクタンスを、aCAM探索動作において出力境界電圧に変換することができる。 2) aCAM検索操作における出力境界電圧を、aCAMプログラミング操作におけるプログラムデータライン電圧に変換することができる。 提案したプログラム回路のシミュレーション結果は理論解析を証明し,コンダクタンスの検証とプログラミングを頻繁に切り替えることなく,メムリスタをプログラム可能か検証する。 さらに,提案したaCAMアレイのシミュレーション結果から,提案したプログラミング回路を大規模配列アーキテクチャに統合できることを示す。

Recent breakthroughs in associative memories suggest that silicon memories are coming closer to human memories, especially for memristive Content Addressable Memories (CAMs) which are capable to read and write in analog values. However, the Program-Verify algorithm, the state-of-the-art memristor programming algorithm, requires frequent switching between verifying and programming memristor conductance, which brings many defects such as high dynamic power and long programming time. Here, we propose an analog feedback-controlled memristor programming circuit that makes use of a novel look-up table-based (LUT-based) programming algorithm. With the proposed algorithm, the programming and the verification of a memristor can be performed in a single-direction sequential process. Besides, we also integrated a single proposed programming circuit with eight analog CAM (aCAM) cells to build an aCAM array. We present SPICE simulations on TSMC 28nm process. The theoretical analysis shows that 1. A memristor conductance within an aCAM cell can be converted to an output boundary voltage in aCAM searching operations and 2. An output boundary voltage in aCAM searching operations can be converted to a programming data line voltage in aCAM programming operations. The simulation results of the proposed programming circuit prove the theoretical analysis and thus verify the feasibility to program memristors without frequently switching between verifying and programming the conductance. Besides, the simulation results of the proposed aCAM array show that the proposed programming circuit can be integrated into a large array architecture.
翻訳日:2023-04-24 14:26:06 公開日:2023-04-21
# 予測における外因性データ: FARM -- 関連性評価のためのアプローチ

Exogenous Data in Forecasting: FARM -- An Approach for Relevance Evaluation ( http://arxiv.org/abs/2304.11028v1 )

ライセンス: Link先を確認
Ram\'on Christen and Luca Mazzola and Alexander Denzler and Edy Portmann(参考訳) 外因性データは予測精度を高める上で重要な役割を果たしていると考えられている。 適切な選択のために、網羅的関連分析は、参照時系列と外因性データ類似性から始まる基本的な第一歩である。 時系列の類似性に関する既存のメトリクスにヒントを得て、リアルタイムデータストリームを効果的に処理できる、FARM - Forward Angular Relevance Measureという新しいアプローチを導入しました。 我々のフォワード法は、その後のデータポイントの変化を効率よく時系列を整列するために比較する角的特徴に依存している。 提案アルゴリズムは局所的および大域的尺度を組み合わせることで、バランスの取れた妥当性尺度を提供する。 これにより、部分的な中間一致も外因性データ系列の意義を示す指標として考慮される。 第1の検証ステップとして、合成信号と実世界の時系列記録の両方にFARMアプローチを適用することを提案する。 既存のアプローチに関して改善された能力を示す一方で、私たちのアイデアの既存の制約や制限についても議論する。

Exogenous data is believed to play a key role for increasing forecasting accuracy. For an appropriate selection, a throughout relevance analysis is a fundamental first step, starting from the exogenous data similarity with the reference time series. Inspired by existing metrics for time series similarity, we introduce a new approach named FARM - Forward Angular Relevance Measure, able to effectively deal with real-time data streams. Our forward method relies on an angular feature that compares changes in subsequent data points to align time-warped series in an efficient way. The proposed algorithm combines local and global measures to provide a balanced relevance measure. This results in considering also partial, intermediate matches as relevant indicators for exogenous data series significance. As a first validation step, we present the application of our FARM approach to both synthetic but representative signals and real-world time series recordings. While demonstrating the improved capabilities with respect to existing approaches, we also discuss existing constraints and limitations of our idea.
翻訳日:2023-04-24 14:25:41 公開日:2023-04-21
# UKRmol-scripts:光イオン化と電子/陽電子散乱スイートUKRmol+の自動動作のためのPerlベースのシステム

UKRmol-scripts: a Perl-based system for the automated operation of the photoionization and electron/positron scattering suite UKRmol+ ( http://arxiv.org/abs/2304.11019v1 )

ライセンス: Link先を確認
Karel Houfek, Jakub Benda, Zden\v{e}k Ma\v{s}\'in, Alex Harvey, Thomas Meltzer, Vincent Graves, Jimena D. Gorfinkiel(参考訳) UKRmol-scriptsは、ポリ原子分子の固定核光イオン化と電子・陽電子散乱を計算するR-matrix法に基づく複雑なソフトウェアスイートであるUKRmol+コードを自動的に実行するPerlスクリプトのセットである。 いくつかの基本的なパラメータから始めると、スクリプトはすべての必要な入力ファイルを生成し、電子構造と散乱計算のためのすべてのコードを実行する。 スクリプトは、多くの分子のジオメトリに対して、その計算を同時に実行し、結果のデータを収集して、後処理や視覚化を簡単にする簡単な方法を提供する。 スクリプトの構造と入力パラメータについて述べるとともに、光イオン化や電子および陽電子の分子との衝突の例を示す。 コードはzenodoから無料で入手できる。

UKRmol-scripts is a set of Perl scripts to automatically run the UKRmol+ codes, a complex software suite based on the R-matrix method to calculate fixed-nuclei photoionization and electron- and positron-scattering for polyatomic molecules. Starting with several basic parameters, the scripts operatively produce all necessary input files and run all codes for electronic structure and scattering calculations as well as gather the more frequently required outputs. The scripts provide a simple way to run such calculations for many molecular geometries concurrently and collect the resulting data for easier post-processing and visualization. We describe the structure of the scripts and the input parameters as well as provide examples for photoionization and electron and positron collisions with molecules. The codes are freely available from Zenodo.
翻訳日:2023-04-24 14:25:27 公開日:2023-04-21
# ChatGPT: RoboGPTに基づく自動シーケンス計画によるロボット実現型構築組立

Robot-Enabled Construction Assembly with Automated Sequence Planning based on ChatGPT: RoboGPT ( http://arxiv.org/abs/2304.11018v1 )

ライセンス: Link先を確認
Hengxu You, Yang Ye, Tianyu Zhou, Qi Zhu, Jing Du(参考訳) ロボットによる組立は、コストの増加、労働力不足、安全で効率的な建設プロセスの需要など、多くの課題に対処するための有望な解決策として浮上している。 これらのロボットシステムの完全な可能性を実現する上での最大の障害の1つは、建設作業の効率的かつ効率的なシーケンス計画の必要性である。 数学的およびヒューリスティックなテクニックや機械学習手法を含む現在のアプローチは、動的構築環境への適応性とスケーラビリティの制限に直面している。 本稿では,大規模言語モデルであるChatGPTの高度な推論機能を活用し,建設作業に適用したロボットによる自動シーケンス計画システムであるRoboGPTを紹介する。 提案システムでは,ChatGPTを構築シーケンス計画に適用し,実施工作業に関する2つのケーススタディと80の試行を含む実験的な評価を通じて,その実現可能性と有効性を示す。 その結果,ロボット駆動ロボットは複雑な構造操作を処理し,その場で変化に適応できることがわかった。 本論文は,建設産業におけるロボット組立システムの能力と性能向上に向けた継続的な取り組みに寄与し,建設ロボティクス分野における大規模言語モデル技術のさらなる統合への道を開く。

Robot-based assembly in construction has emerged as a promising solution to address numerous challenges such as increasing costs, labor shortages, and the demand for safe and efficient construction processes. One of the main obstacles in realizing the full potential of these robotic systems is the need for effective and efficient sequence planning for construction tasks. Current approaches, including mathematical and heuristic techniques or machine learning methods, face limitations in their adaptability and scalability to dynamic construction environments. To expand the ability of the current robot system in sequential understanding, this paper introduces RoboGPT, a novel system that leverages the advanced reasoning capabilities of ChatGPT, a large language model, for automated sequence planning in robot-based assembly applied to construction tasks. The proposed system adapts ChatGPT for construction sequence planning and demonstrate its feasibility and effectiveness through experimental evaluation including Two case studies and 80 trials about real construction tasks. The results show that RoboGPT-driven robots can handle complex construction operations and adapt to changes on the fly. This paper contributes to the ongoing efforts to enhance the capabilities and performance of robot-based assembly systems in the construction industry, and it paves the way for further integration of large language model technologies in the field of construction robotics.
翻訳日:2023-04-24 14:25:11 公開日:2023-04-21
# DIN-SQL: 自己補正によるテキストからSQLへのインコンテキスト学習

DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction ( http://arxiv.org/abs/2304.11015v1 )

ライセンス: Link先を確認
Mohammadreza Pourreza, Davood Rafiei(参考訳) 複雑なテキストからスカルタスクを小さなサブタスクに分解する問題と、そのような分解が推論過程におけるLarge Language Models (LLMs) の性能を大幅に向上させる方法について検討する。 現在、微調整されたモデルのパフォーマンスと、Spiderのようなテキスト間データセットに挑戦するLLMを使ったアプローチの間には、大きなギャップがある。 宣言的構造にもかかわらず、SQLクエリはサブプロブレムに分解でき、それらのサブプロブレムのソリューションはLLMに供給され、パフォーマンスを著しく向上させることができる。 3つのLLMを用いた実験により、このアプローチはおよそ10%の性能向上を図り、LLMの精度を最先端に向けて押し上げ、さらにはホールドアウトスパイダーデータセット上での大きめの微調整モデルを打ち負かした。

We study the problem of decomposing a complex text-to-sql task into smaller sub-tasks and how such a decomposition can significantly improve the performance of Large Language Models (LLMs) in the reasoning process. There is currently a significant gap between the performance of fine-tuned models and prompting approaches using LLMs on challenging text-to-sql datasets such as Spider. We show that SQL queries, despite their declarative structure, can be broken down into sub-problems and the solutions of those sub-problems can be fed into LLMs to significantly improve their performance. Our experiments with three LLMs show that this approach consistently improves their performance by roughly 10%, pushing the accuracy of LLMs towards state-of-the-art, and even beating large fine-tuned models on the holdout Spider dataset.
翻訳日:2023-04-24 14:24:49 公開日:2023-04-21
# 時間依存ハミルトニアンモデルを用いたトランスモン系のリアルタイムシミュレーション

Real-time simulations of transmon systems with time-dependent Hamiltonian models ( http://arxiv.org/abs/2304.11009v1 )

ライセンス: Link先を確認
Hannes Lagemann(参考訳) 本論文では,トランスモン系の時間発展に影響を与えるハミルトニアモデルについて考察する。 我々は,時間依存schr\"odinger方程式 (tdse) を数値解いて,各システムの時間発展を一元的リアルタイムプロセスとしてモデル化する。 トランスモンは通常、超伝導ゲートベース量子コンピュータ(PGQC)のトランスモン量子ビットとして使用されるため、対応するコンピュータモデルを非理想ゲートベース量子コンピュータ(NIGQC)モデルと表現する。 まず、理想ゲート型量子コンピュータ(igqc)モデルをレビューし、igqc、pgqcs、および本論文で検討するnigqcモデルを区別する。 次に、固定周波数および磁束可変トランスモンのダイナミクスを生成する回路ハミルトニアンを導出する。 さらに,両種類のトランスモンに対して有効ハミルトニアンの明確かつ簡潔な導出を与える。 我々は、回路と有効ハミルトニアンを用いて、2つの多粒子ハミルトニアン、すなわち回路と関連する有効ハミルトニアンを定義する。 異なるサブシステム間の相互作用は双極子-双極子相互作用としてモデル化される。 次に、定義したハミルトニアンのTDSEを解く2つの製品形式アルゴリズムを開発する。 その後,これらのアルゴリズムを用いて,制御パルス印加時の多粒子有効ハミルトニアンをモデルとしたトランスモン系の時間発展に,各種の頻繁な仮定が与える影響について検討する。 ここでは、実効および回路ハミルトニアンによって生成される時間進化を比較する。 検討した仮定は、我々がモデル化する確率振幅の時間発展に大きく影響する。 次に,nigqcモデルを構成する仮定に対するゲートエラー量化器の感受性について検討する。 この仮定は、ダイヤモンド距離や平均不忠実性などのゲートエラー量化器に明確に影響を及ぼす。

In this thesis we study aspects of Hamiltonian models which can affect the time evolution of transmon systems. We model the time evolution of various systems as a unitary real-time process by numerically solving the time-dependent Schr\"odinger equation (TDSE). We denote the corresponding computer models as non-ideal gate-based quantum computer (NIGQC) models since transmons are usually used as transmon qubits in superconducting prototype gate-based quantum computers (PGQCs).We first review the ideal gate-based quantum computer (IGQC) model and provide a distinction between the IGQC, PGQCs and the NIGQC models we consider in this thesis. Then, we derive the circuit Hamiltonians which generate the dynamics of fixed-frequency and flux-tunable transmons. Furthermore, we also provide clear and concise derivations of effective Hamiltonians for both types of transmons. We use the circuit and effective Hamiltonians we derived to define two many-particle Hamiltonians, namely a circuit and an associated effective Hamiltonian. The interactions between the different subsystems are modelled as dipole-dipole interactions. Next, we develop two product-formula algorithms which solve the TDSE for the Hamiltonians we defined. Afterwards, we use these algorithms to investigate how various frequently applied assumptions affect the time evolution of transmon systems modelled with the many-particle effective Hamiltonian when a control pulse is applied. Here we also compare the time evolutions generated by the effective and circuit Hamiltonian. We find that the assumptions we investigate can substantially affect the time evolution of the probability amplitudes we model. Next, we investigate how susceptible gate-error quantifiers are to assumptions which make up the NIGQC model. We find that the assumptions we consider clearly affect gate-error quantifiers like the diamond distance and the average infidelity.
翻訳日:2023-04-24 14:24:31 公開日:2023-04-21
# ベイズアクティブラーニングによる自己補正ベイズ最適化

Self-Correcting Bayesian Optimization through Bayesian Active Learning ( http://arxiv.org/abs/2304.11005v1 )

ライセンス: Link先を確認
Carl Hvarfner, Erik Hellsten, Frank Hutter, Luigi Nardi(参考訳) ガウス過程はベイズ最適化とアクティブラーニングにおいて選択モデルとして固められている。 しかし、彼らは十分に選択されたハイパーパラメーターに強く依存しており、文献の中で適切なハイパーパラメーターを見つけることにはほとんど注力していない。 本稿では,GPに対する優れたハイパーパラメータの選択の影響を実証し,この目標を明示的に優先する2つの獲得関数を提案する。 統計的距離に基づくアクティブラーニング(SAL)は、統計的距離によって測定された後部からのサンプル間の平均的な不一致を考察する。 多くのテスト関数でベイズアクティブラーニングの最先端を上回っていることが示されている。 次に、SALを拡張してベイズ最適化とアクティブハイパーパラメータ学習を同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。 SCoreBOは、バニラBOと比べて改善された速度でモデルハイパーパラメータを学習し、従来のベンチマークで最新のベイズ最適化手法より優れている。 さらに、エキゾチックなベイズ最適化タスクの配列に自己補正の重要性が示される。

Gaussian processes are cemented as the model of choice in Bayesian optimization and active learning. Yet, they are severely dependent on cleverly chosen hyperparameters to reach their full potential, and little effort is devoted to finding the right hyperparameters in the literature. We demonstrate the impact of selecting good hyperparameters for GPs and present two acquisition functions that explicitly prioritize this goal. Statistical distance-based Active Learning (SAL) considers the average disagreement among samples from the posterior, as measured by a statistical distance. It is shown to outperform the state-of-the-art in Bayesian active learning on a number of test functions. We then introduce Self-Correcting Bayesian Optimization (SCoreBO), which extends SAL to perform Bayesian optimization and active hyperparameter learning simultaneously. SCoreBO learns the model hyperparameters at improved rates compared to vanilla BO, while outperforming the latest Bayesian optimization methods on traditional benchmarks. Moreover, the importance of self-correction is demonstrated on an array of exotic Bayesian optimization tasks
翻訳日:2023-04-24 14:24:04 公開日:2023-04-21
# de Broglie-Bohm の視点からのUnruh効果

The Unruh effect under the de Broglie-Bohm perspective ( http://arxiv.org/abs/2304.10997v1 )

ライセンス: Link先を確認
Matheus M. A. Paix\~ao, Olesya Galkina, Nelson Pinto-Neto(参考訳) 実質量を持たないスカラー場に付随するミンコフスキー基底状態について、ド・ブロイ=ボーム量子論の観点で加速観測者により検討する。 リンドラー座標におけるミンコフスキー真空に付随する波動汎関数を求めるためにschr\"odinger像を用い、ボームの誘導方程式を用いて場の軌道を計算する。 ウンルー温度は平均エネルギーの計算から自然に現れるが、ボヘミアのアプローチは量子的成分と古典的成分を正確に区別し、温度効果の主要な原因として定期的に役割を交換し、赤外線状態の急激な跳躍を示す。 また、パワースペクトルを計算し、顕著な物理特性を持つ非常に特殊なボヘミア体構成を示す。

We investigate the Minkowski ground state associated with a real massless scalar field as seen by an accelerated observer under the perspective of the de Broglie-Bohm quantum theory. We use the Schr\"odinger picture to obtain the wave functional associated with the Minkowski vacuum in Rindler coordinates, and we calculate the field trajectories through the Bohmian guidance equations. The Unruh temperature naturally emerges from the calculus of the average energy, but the Bohmian approach precisely distinguishes between its quantum and classical components, showing that they periodically interchange their roles as the dominant cause for the temperature effects, with abrupt jumps in the infrared regime. We also compute the power spectra, and we exhibit a very special Bohmian field configuration with remarkable physical properties.
翻訳日:2023-04-24 14:23:09 公開日:2023-04-21
# 予測・学習・一様収束・スケール感応次元

Prediction, Learning, Uniform Convergence, and Scale-sensitive Dimensions ( http://arxiv.org/abs/2304.11059v1 )

ライセンス: Link先を確認
Peter L. Bartlett and Philip M. Long(参考訳) 予測モデルの一般化における$[0,1]$値関数のクラスを学習するための新しい汎用アルゴリズムを提案し、Alon, Ben-David, Cesa-Bianchi, Hausslerによって提案されたVapnik次元のスケール敏感な一般化の観点から、このアルゴリズムの予測絶対誤差の一般上限を証明した。 下限を与えるということは、上限は一般に定数因子以上では改善できないことを意味する。 この結果とハウスラーとベネデックとイタイによる手法を併用して、このスケールに敏感な次元の概念を用いて、荷造り数上の新たな上限を求める。 異なる手法を用いて、カーンズとシャファイアの脂肪散乱関数の観点から、パッキング数に関する新しい境界を求める。 そこで本研究では,パッキン境界とパッキング境界の両方を適用し,無知学習のサンプル複雑性に対する一般境界の改善について述べる。 それぞれの $\epsilon > 0$ に対して、$[0,1]$-valued 関数が $\epsilon$ 内で不可知的に学習され、$\epsilon$-uniform Glivenko-Cantelli クラスとなるために、より弱くより強い必要条件を確立する。 これはjcssが修正とともに受け入れた写本である。

We present a new general-purpose algorithm for learning classes of $[0,1]$-valued functions in a generalization of the prediction model, and prove a general upper bound on the expected absolute error of this algorithm in terms of a scale-sensitive generalization of the Vapnik dimension proposed by Alon, Ben-David, Cesa-Bianchi and Haussler. We give lower bounds implying that our upper bounds cannot be improved by more than a constant factor in general. We apply this result, together with techniques due to Haussler and to Benedek and Itai, to obtain new upper bounds on packing numbers in terms of this scale-sensitive notion of dimension. Using a different technique, we obtain new bounds on packing numbers in terms of Kearns and Schapire's fat-shattering function. We show how to apply both packing bounds to obtain improved general bounds on the sample complexity of agnostic learning. For each $\epsilon > 0$, we establish weaker sufficient and stronger necessary conditions for a class of $[0,1]$-valued functions to be agnostically learnable to within $\epsilon$, and to be an $\epsilon$-uniform Glivenko-Cantelli class. This is a manuscript that was accepted by JCSS, together with a correction.
翻訳日:2023-04-24 14:17:00 公開日:2023-04-21
# ピギーバックモデルによる拡散画像のカラー化の改良

Improved Diffusion-based Image Colorization via Piggybacked Models ( http://arxiv.org/abs/2304.11105v1 )

ライセンス: Link先を確認
Hanyuan Liu, Jinbo Xing, Minshan Xie, Chengze Li, Tien-Tsin Wong(参考訳) 画像の着色は何十年もの間、コミュニティの研究の関心を惹きつけてきた。 しかし、既存の方法では、人間の色に関するグローバルな理解が欠如しているため、グレースケールの画像に対して満足のいく色付け結果の提供に苦慮している。 近年,テキストプロンプトから画像領域に意味情報を転送するために,大規模なテキスト・ツー・イメージ(T2I)モデルが利用されている。 本研究では,既存の強力なT2I拡散モデルに基づくカラー化モデルを提案する。 我々のキーとなるアイデアは、事前訓練されたT2I拡散モデルにおける事前知識を利用して、現実的で多様な色付けを行うことである。 拡散誘導器は、潜在拡散モデルの事前訓練された重みを組み込んで、グレースケール入力の視覚的意味に合致した潜在色を出力するように設計されている。 次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。 我々のモデルは、追加の入力(例えばユーザヒントやテキスト)で条件付き色付けも実現できる。 広汎な実験により,本手法は知覚的品質の面で最先端の性能を達成することが示された。

Image colorization has been attracting the research interests of the community for decades. However, existing methods still struggle to provide satisfactory colorized results given grayscale images due to a lack of human-like global understanding of colors. Recently, large-scale Text-to-Image (T2I) models have been exploited to transfer the semantic information from the text prompts to the image domain, where text provides a global control for semantic objects in the image. In this work, we introduce a colorization model piggybacking on the existing powerful T2I diffusion model. Our key idea is to exploit the color prior knowledge in the pre-trained T2I diffusion model for realistic and diverse colorization. A diffusion guider is designed to incorporate the pre-trained weights of the latent diffusion model to output a latent color prior that conforms to the visual semantics of the grayscale input. A lightness-aware VQVAE will then generate the colorized result with pixel-perfect alignment to the given grayscale image. Our model can also achieve conditional colorization with additional inputs (e.g. user hints and texts). Extensive experiments show that our method achieves state-of-the-art performance in terms of perceptual quality.
翻訳日:2023-04-24 14:06:50 公開日:2023-04-21
# 安全探査のためのアタリ剤の近似遮蔽

Approximate Shielding of Atari Agents for Safe Exploration ( http://arxiv.org/abs/2304.11104v1 )

ライセンス: Link先を確認
Alexander W. Goodall and Francesco Belardinelli(参考訳) 実世界で意味のあるタスクに強化学習を利用する場合、制約された環境での探索と保守のバランスをとることが重要な問題である。 本稿では,遮蔽の概念に基づく安全探査のための原理的アルゴリズムを提案する。 従来の遮蔽手法では、環境の安全関連抽象化や高忠実度シミュレータへのアクセスを前提としている。 その代わり、我々の研究は、学習された動的モデルの潜在領域におけるポリシーのロールアウトを検証するために、世界モデルを活用する潜伏遮蔽アプローチに基づいている。 提案手法は,本手法の安定性と遠近性を改善するために,安全性評価とその他の追加機能を用いて,この先行研究に基づいて構築する。 状態依存型安全ラベルを持つ小さなアタリゲーム上で実験を行うことにより,本手法の有効性を示す。 そこで本研究では,提案手法が安全性違反率を効果的に低減し,最終エージェントの収束速度と品質を改善できることを示す予備的結果を示す。

Balancing exploration and conservatism in the constrained setting is an important problem if we are to use reinforcement learning for meaningful tasks in the real world. In this paper, we propose a principled algorithm for safe exploration based on the concept of shielding. Previous approaches to shielding assume access to a safety-relevant abstraction of the environment or a high-fidelity simulator. Instead, our work is based on latent shielding - another approach that leverages world models to verify policy roll-outs in the latent space of a learned dynamics model. Our novel algorithm builds on this previous work, using safety critics and other additional features to improve the stability and farsightedness of the algorithm. We demonstrate the effectiveness of our approach by running experiments on a small set of Atari games with state dependent safety labels. We present preliminary results that show our approximate shielding algorithm effectively reduces the rate of safety violations, and in some cases improves the speed of convergence and quality of the final agent.
翻訳日:2023-04-24 14:06:32 公開日:2023-04-21
# 強結合領域における2量子ビットからの距離依存放出スペクトル

Distance-dependent emission spectrum from two qubits in a strong-coupling regime ( http://arxiv.org/abs/2304.11103v1 )

ライセンス: Link先を確認
Rongzhen Hu, JunYan Luo, Yiying Yan(参考訳) 我々はマルコフ近似と回転波近似(RWA)を超えた数値的および解析的アプローチを用いて、導波路に強く結合した2つの遠方量子ビットの放射スペクトルについて検討した。 数値的なアプローチは、ディラック=フランケル時間依存変分原理と多重ダヴィドフ$D_{1}$アンザッツを組み合わせる。 rwa (trwa) の変換処理と標準摂動 (sp) を用いて放射スペクトルを解析的に計算する。 その結果,SPが崩壊している間に,ある強い結合状態下での2つの遠方量子ビットの正確な放射スペクトルが得られることがわかった。 放射スペクトルは2キュービット距離によらず非対称であり、2キュービット距離と初期状態に応じて1つのピーク、ダブルト、マルチピークを示す。 単一量子ビットの場合と鋭く対照的に、2つの量子ビットの励起状態の人口は、強い量子-導波路結合の存在下でもサブラグランスにより極端に減衰し、結果として超低周波放出線を生成する。 本研究は, 強光子結合系における2つの遠方量子ビットの放射スペクトル特性に関する知見を提供する。

We study the emission spectrum of two distant qubits strongly coupled to a waveguide by using the numerical and analytical approaches, which are beyond the Markovian approximation and the rotating-wave approximation (RWA). The numerical approach combines the Dirac-Frenkel time-dependent variational principle with the multiple Davydov $D_{1}$ ansatz. A transformed RWA (TRWA) treatment and a standard perturbation (SP) are used to analytically calculate the emission spectrum. It is found that the variational approach and the TRWA treatment yield accurate emission spectra of the two distant qubits in certain strong coupling regimes while the SP breaks down. The emission spectrum is found to be asymmetric irrespective of the two-qubit distance and exhibits a single peak, doublet, and multipeaks depending on the two-qubit distance as well as the initial states. In sharply contrast with the single-qubit case, the excited-state populations of the two qubits can ultraslowly decay due to the subradiance even in the presence of a strong qubit-waveguide coupling, which in turn yields ultranarrow emission line. Our results provide insights into the emission spectral features of the two distant qubits in the strong light-matter coupling regime.
翻訳日:2023-04-24 14:06:16 公開日:2023-04-21
# 産業応用における予測保守・品質検査のためのフェデレーション学習

Federated Learning for Predictive Maintenance and Quality Inspection in Industrial Applications ( http://arxiv.org/abs/2304.11101v1 )

ライセンス: Link先を確認
Viktorija Pruckovskaja, Axel Weissenfeld, Clemens Heistracher, Anita Graser, Julia Kafka, Peter Leputsch, Daniel Schall, Jana Kemnitz(参考訳) データ駆動機械学習は、特に予測メンテナンスと品質検査の強化において、業界4.0の発展において重要な役割を担っている。 フェデレーション学習(fl)は、複数の参加者が、データのプライバシーと機密性を損なうことなく、マシンラーニングモデルの開発を可能にする。 本稿では,異なるfl集約手法の性能を評価し,それらを中央訓練および局所訓練法と比較する。 本研究は,データ分布の異なる4つのデータセットに基づく。 その結果,flの性能はデータとクライアント間の分散に大きく依存することがわかった。 いくつかのシナリオでは、FLは従来の中央訓練法や局所訓練法に代わる効果的な代替となる。 さらに,実世界の品質検査環境から新たなフェデレーション学習データセットを導入する。

Data-driven machine learning is playing a crucial role in the advancements of Industry 4.0, specifically in enhancing predictive maintenance and quality inspection. Federated learning (FL) enables multiple participants to develop a machine learning model without compromising the privacy and confidentiality of their data. In this paper, we evaluate the performance of different FL aggregation methods and compare them to central and local training approaches. Our study is based on four datasets with varying data distributions. The results indicate that the performance of FL is highly dependent on the data and its distribution among clients. In some scenarios, FL can be an effective alternative to traditional central or local training methods. Additionally, we introduce a new federated learning dataset from a real-world quality inspection setting.
翻訳日:2023-04-24 14:05:55 公開日:2023-04-21
# クリティカルコンピューティング教育への概念化アプローチ--探究・設計・再想像

Conceptualizing Approaches to Critical Computing Education: Inquiry, Design and Reimagination ( http://arxiv.org/abs/2304.11069v1 )

ライセンス: Link先を確認
Luis Morales-Navarro and Yasmin B. Kafai(参考訳) アルゴリズムバイアス、差別的慣行、テクノソリューション主義などのコンピューティングにおけるいくつかの重要な課題がより目に見えるようになり、K-16コンピューティング教育における臨界性を統合するための多くの取り組みが提案されている。 しかし、これらの取り組みがいかに臨界に対処し、それを教室のプラクティスに翻訳するかは明確ではない。 本稿では,批判的コンピュータ教育における現在の取り組みが,批判的分析と生産を通じて学習者のエンパワーメントを促進する先行研究にどのように影響するかを初めて示す。 次に,(1)問合せ,(2)設計,(3)コンピュータ教育におけるこれらの重要な伝統を生かして拡大する再想像の3つの創発的アプローチを明らかにする。 最後に,これらのアプローチが課題をどのように浮き彫りにするかを議論し,今後のコンピュータ教育研究の方向性について述べる。

As several critical issues in computing such as algorithmic bias, discriminatory practices, and techno-solutionism have become more visible, numerous efforts are being proposed to integrate criticality in K-16 computing education. Yet, how exactly these efforts address criticality and translate it into classroom practice is not clear. In this conceptual paper, we first historicize how current efforts in critical computing education draw on previous work which has promoted learner empowerment through critical analysis and production. We then identify three emergent approaches: (1) inquiry, (2) design and (3) reimagination that build on and expand these critical traditions in computing education. Finally, we discuss how these approaches highlight issues to be addressed and provide directions for further computing education research.
翻訳日:2023-04-24 14:04:22 公開日:2023-04-21
# 木構造Parzen推定器:アルゴリズム成分の理解と実験性能向上のための役割

Tree-structured Parzen estimator: Understanding its algorithm components and their roles for better empirical performance ( http://arxiv.org/abs/2304.11127v1 )

ライセンス: Link先を確認
Shuhei Watanabe(参考訳) 多くの領域における最近の進歩は、より複雑な実験設計を必要とする。 このような複雑な実験は、しばしばパラメータチューニングを必要とする多くのパラメータを持つ。 ベイズ最適化手法であるTPE(Tree-structured Parzen estimator)は,最近のパラメータチューニングフレームワークで広く利用されている。 その人気にもかかわらず、制御パラメータとアルゴリズム直観の役割については議論されていない。 本チュートリアルでは,多種多様なベンチマークを用いて,各制御パラメータの役割とハイパーパラメータ最適化への影響を明らかにする。 アブレーション研究から得られた推奨設定とベースライン手法を比較し,提案設定がTPEの性能を向上させることを示す。 tpeの実装はhttps://github.com/nabenabe0928/tpe/tree/single-optで利用可能です。

Recent advances in many domains require more and more complicated experiment design. Such complicated experiments often have many parameters, which necessitate parameter tuning. Tree-structured Parzen estimator (TPE), a Bayesian optimization method, is widely used in recent parameter tuning frameworks. Despite its popularity, the roles of each control parameter and the algorithm intuition have not been discussed so far. In this tutorial, we will identify the roles of each control parameter and their impacts on hyperparameter optimization using a diverse set of benchmarks. We compare our recommended setting drawn from the ablation study with baseline methods and demonstrate that our recommended setting improves the performance of TPE. Our TPE implementation is available at https://github.com/nabenabe0928/tpe/tree/single-opt.
翻訳日:2023-04-24 13:58:13 公開日:2023-04-21
# 意味論・オントロジー・説明

Semantics, Ontology and Explanation ( http://arxiv.org/abs/2304.11124v1 )

ライセンス: Link先を確認
Giancarlo Guizzardi, Nicola Guarino(参考訳) セマンティック」と「オントロジー」という用語は、科学文献だけでなく、組織コミュニケーションにおいても「説明」とともに現れつつある。 しかし、これら全ての用語は大幅に過負荷になっている。 本稿では,その強い関係を,特定の解釈の下で論じる。 具体的には, 概念的ドメイン記述(概念モデル, 知識グラフ, 論理的仕様)を説明することを目的とした, 概念的ドメイン記述(概念的モデル, 知識グラフ, 論理的仕様)と呼ばれる説明概念について論じる。 この概念を説明するために、私たちは、標準モデリング言語umlでエンコードされる非常に単純なシンボリックモデルを説明する(隠れた意味を明らかにすることによって)関係のオントロジ理論を用いています。 また、オントロジ駆動の概念モデル(この説明プロセスから導かれる)が意味的相互運用タスクを適切にサポートする上で果たす重要な役割についても論じる。 最後に, オントロジアンパックと哲学, 科学, 人工知能分野における他の形態の説明との関係について論じる。

The terms 'semantics' and 'ontology' are increasingly appearing together with 'explanation', not only in the scientific literature, but also in organizational communication. However, all of these terms are also being significantly overloaded. In this paper, we discuss their strong relation under particular interpretations. Specifically, we discuss a notion of explanation termed ontological unpacking, which aims at explaining symbolic domain descriptions (conceptual models, knowledge graphs, logical specifications) by revealing their ontological commitment in terms of their assumed truthmakers, i.e., the entities in one's ontology that make the propositions in those descriptions true. To illustrate this idea, we employ an ontological theory of relations to explain (by revealing the hidden semantics of) a very simple symbolic model encoded in the standard modeling language UML. We also discuss the essential role played by ontology-driven conceptual models (resulting from this form of explanation processes) in properly supporting semantic interoperability tasks. Finally, we discuss the relation between ontological unpacking and other forms of explanation in philosophy and science, as well as in the area of Artificial Intelligence.
翻訳日:2023-04-24 13:58:00 公開日:2023-04-21
# 中国と米国は協力してより影響力のあるAI研究を行う

China and the U.S. produce more impactful AI research when collaborating together ( http://arxiv.org/abs/2304.11123v1 )

ライセンス: Link先を確認
Bedoor AlShebli, Shahan Ali Memon, James A. Evans, Talal Rahwan(参考訳) 人工知能(AI)は破壊的な技術となり、その力を利用する国に経済的、戦略的優位性を与えることを約束している。 中国は最近、AIの採用を推し進め、この分野の世界的リーダーとしての米国の立場に挑戦している。 AIの膨大な可能性と両国間の激しい地政学的緊張を考えると、AI科学者が他国への移住や協力を阻止する政策がいくつも実施されている。 しかし、こうした脳排水量と国境を越えた協調の程度は、完全には理解されていない。 ここでは、35万人以上のAI科学者と5000,000のAI論文のデータセットを分析します。 2000年以降、中国と米国は、影響、ノベルティ、生産性、労働力の観点からこの分野をリードしてきた。 中国に移住するほとんどのai科学者は米国出身であり、米国に移住するほとんどの人は中国出身であり、両方面で注目すべき脳の排水が浮かび上がっている。 ある国から別の国に移ると、科学者は原産地と頻繁に協力し続けます。 両国間の協力関係は千年紀の夜明けから増え続けているが、このような協力関係は比較的稀である。 一致する実験によると、両国は互いに協力し合う場合よりも、互いに協力し合う場合の方が常に影響が大きい。 これらの結果は、国境を越えた移住や両国間の協力を抑える代わりに、そのような活動の促進の恩恵を受けることを示唆している。

Artificial Intelligence (AI) has become a disruptive technology, promising to grant a significant economic and strategic advantage to the nations that harness its power. China, with its recent push towards AI adoption, is challenging the U.S.'s position as the global leader in this field. Given AI's massive potential, as well as the fierce geopolitical tensions between the two nations, a number of policies have been put in place that discourage AI scientists from migrating to, or collaborating with, the other country. However, the extents of such brain drain and cross-border collaboration are not fully understood. Here, we analyze a dataset of over 350,000 AI scientists and 5,000,000 AI papers. We find that, since the year 2000, China and the U.S. have been leading the field in terms of impact, novelty, productivity, and workforce. Most AI scientists who migrate to China come from the U.S., and most who migrate to the U.S. come from China, highlighting a notable brain drain in both directions. Upon migrating from one country to the other, scientists continue to collaborate frequently with the origin country. Although the number of collaborations between the two countries has been increasing since the dawn of the millennium, such collaborations continue to be relatively rare. A matching experiment reveals that the two countries have always been more impactful when collaborating than when each of them works without the other. These findings suggest that instead of suppressing cross-border migration and collaboration between the two nations, the field could benefit from promoting such activities.
翻訳日:2023-04-24 13:57:37 公開日:2023-04-21
# ランダム回路サンプリングにおける位相遷移

Phase transition in Random Circuit Sampling ( http://arxiv.org/abs/2304.11119v1 )

ライセンス: Link先を確認
A. Morvan, B. Villalonga, X. Mi, S. Mandr\`a, A. Bengtsson, P. V. Klimov, Z. Chen, S. Hong, C. Erickson, I. K. Drozdov, J. Chau, G. Laun, R. Movassagh, A. Asfaw, L. T.A.N. Brand\~ao, R. Peralta, D. Abanin, R. Acharya, R. Allen, T. I. Andersen, K. Anderson, M. Ansmann, F. Arute, K. Arya, J. Atalaya, J. C. Bardin, A. Bilmes, G. Bortoli, A. Bourassa, J. Bovaird, L. Brill, M. Broughton, B. B. Buckley, D. A. Buell, T. Burger, B. Burkett, N. Bushnell, J. Campero, H. S. Chang, B. Chiaro, D. Chik, C. Chou, J. Cogan, R. Collins, P. Conner, W. Courtney, A. L. Crook, B. Curtin, D. M. Debroy, A. Del Toro Barba, S. Demura, A. Di Paolo, A. Dunsworth, L. Faoro, E. Farhi, R. Fatemi, V. S. Ferreira, L. Flores Burgos, E. Forati, A. G. Fowler, B. Foxen, G. Garcia, E. Genois, W. Giang, C. Gidney, D. Gilboa, M. Giustina, R. Gosula, A. Grajales Dau, J. A. Gross, S. Habegger, M. C. Hamilton, M. Hansen, M. P. Harrigan, S. D. Harrington, P. Heu, M. R. Hoffmann, T. Huang, A. Huff, W. J. Huggins, L. B. Ioffe, S. V. Isakov, J. Iveland, E. Jeffrey, Z. Jiang, C. Jones, P. Juhas, D. Kafri, T. Khattar, M. Khezri, M. Kieferov\'a, S. Kim, A. Kitaev, A. R. Klots, A. N. Korotkov, F. Kostritsa, J. M. Kreikebaum, D. Landhuis, P. Laptev, K.-M. Lau, L. Laws, J. Lee, K. W. Lee, Y. D. Lensky, B. J. Lester, A. T. Lill, W. Liu, A. Locharla, F. D. Malone, O. Martin, S. Martin, J. R. McClean, M. McEwen, K. C. Miao, A. Mieszala, S. Montazeri, W. Mruczkiewicz, O. Naaman, M. Neeley, C. Neill, A. Nersisyan, M. Newman, J. H. Ng, A. Nguyen, M. Nguyen, M. Yuezhen Niu, T. E. O'Brien, S. Omonije, A. Opremcak, A. Petukhov, R. Potter, L. P. Pryadko, C. Quintana, D. M. Rhodes, C. Rocque, P. Roushan, N. C. Rubin, N. Saei, D. Sank, K. Sankaragomathi, K. J. Satzinger, H. F. Schurkus, C. Schuster, M. J. Shearn, A. Shorter, N. Shutty, V. Shvarts, V. Sivak, J. Skruzny, W. C. Smith, R. D. Somma, G. Sterling, D. Strain, M. Szalay, D. Thor, A. Torres, G. Vidal, C. Vollgraff Heidweiller, T. White, B. W. K. Woo, C. Xing, Z. J. Yao, P. Yeh, J. Yoo, G. Young, A. Zalcman, Y. Zhang, N. Zhu, N. Zobrist, E. G. Rieffel, R. Biswas, R. Babbush, D. Bacon, J. Hilton, E. Lucero, H. Neven, A. Megrant, J. Kelly, I. Aleiner, V. Smelyanskiy, K. Kechedzhi, Y. Chen, S. Boixo(参考訳) 量子コンピュータは、古典的なコンピュータの能力を超えたタスクを実行するという約束を持っている。 ノイズはコヒーレントな進化と競合し、長い範囲の相関関係を破壊する。 我々はランダム回路サンプリング(RCS)実験を行い、量子力学と雑音の相互作用によって駆動される異なる位相を特定する。 クロスエントロピーベンチマークを用いて、ノイズ量子進化の計算複雑性を定義できる位相境界を観測する。 我々は,70量子ビットのRCS実験を24サイクルで行った。 改良された古典的手法に対する計算コストを推定し、我々の実験が既存の古典的スーパーコンピュータの能力を超えることを実証する。

Quantum computers hold the promise of executing tasks beyond the capability of classical computers. Noise competes with coherent evolution and destroys long-range correlations, making it an outstanding challenge to fully leverage the computation power of near-term quantum processors. We report Random Circuit Sampling (RCS) experiments where we identify distinct phases driven by the interplay between quantum dynamics and noise. Using cross-entropy benchmarking, we observe phase boundaries which can define the computational complexity of noisy quantum evolution. We conclude by presenting an RCS experiment with 70 qubits at 24 cycles. We estimate the computational cost against improved classical methods and demonstrate that our experiment is beyond the capabilities of existing classical supercomputers.
翻訳日:2023-04-24 13:57:15 公開日:2023-04-21
# BoDiffusion:フルボディモーション合成のためのスパース観察の拡散

BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion Synthesis ( http://arxiv.org/abs/2304.11118v1 )

ライセンス: Link先を確認
Angela Castillo, Maria Escobar, Guillaume Jeanneret, Albert Pumarola, Pablo Arbel\'aez, Ali Thabet, Artsiom Sanakoyeu(参考訳) 混合現実アプリケーションは、没入的な体験を可能にするためにユーザーの全身の動きを追跡する必要がある。 しかし、頭部装着装置は頭部と手の動きのみを追跡できるため、下肢構成の変動により全身の動きが制限される。 そこで本研究では,動き合成のための生成拡散モデルbodiffusionを提案する。 本稿では,スムーズで現実的なフルボディモーションシーケンスを生成しつつ,スパーストラッキング入力をBoDiffusionが活用できる時間空間調和方式を提案する。 我々の知る限りでは、これは逆拡散法を用いて全体追跡を条件付きシーケンス生成タスクとしてモデル化する最初のアプローチである。 我々は,大規模モーションキャプチャデータセットamassの実験を行い,本手法が実物体動作現実主義と関節再構築誤差の点で,最先端のアプローチを著しく上回っていることを示す。

Mixed reality applications require tracking the user's full-body motion to enable an immersive experience. However, typical head-mounted devices can only track head and hand movements, leading to a limited reconstruction of full-body motion due to variability in lower body configurations. We propose BoDiffusion -- a generative diffusion model for motion synthesis to tackle this under-constrained reconstruction problem. We present a time and space conditioning scheme that allows BoDiffusion to leverage sparse tracking inputs while generating smooth and realistic full-body motion sequences. To the best of our knowledge, this is the first approach that uses the reverse diffusion process to model full-body tracking as a conditional sequence generation task. We conduct experiments on the large-scale motion-capture dataset AMASS and show that our approach outperforms the state-of-the-art approaches by a significant margin in terms of full-body motion realism and joint reconstruction error.
翻訳日:2023-04-24 13:57:04 公開日:2023-04-21
# ベクトル量子化マスク自動符号化による音声認識

A vector quantized masked autoencoder for speech emotion recognition ( http://arxiv.org/abs/2304.11117v1 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Renaud S\'eguier(参考訳) 近年,深層学習技術の進歩により,音声感情認識(SER)が著しく進歩している。 しかし、ラベル付きデータの可用性の制限は、この分野において依然として大きな課題である。 自己教師型学習はこの課題に対処するための有望なソリューションとして最近登場した。 本稿では,音声信号から感情を認識するために微調整された自己教師付きモデルvq-mae-sを提案する。 vq-mae-sモデルはベクトル量子化変分オートエンコーダの離散的潜在空間で動作するマスク付きオートエンコーダ(mae)に基づいている。 実験の結果,voxceleb2データセットに事前学習し,感情音声データに微調整したvq-mae-sモデルが,生のスペクトログラム表現やserの最先端手法に匹敵することがわかった。

Recent years have seen remarkable progress in speech emotion recognition (SER), thanks to advances in deep learning techniques. However, the limited availability of labeled data remains a significant challenge in the field. Self-supervised learning has recently emerged as a promising solution to address this challenge. In this paper, we propose the vector quantized masked autoencoder for speech (VQ-MAE-S), a self-supervised model that is fine-tuned to recognize emotions from speech signals. The VQ-MAE-S model is based on a masked autoencoder (MAE) that operates in the discrete latent space of a vector-quantized variational autoencoder. Experimental results show that the proposed VQ-MAE-S model, pre-trained on the VoxCeleb2 dataset and fine-tuned on emotional speech data, outperforms an MAE working on the raw spectrogram representation and other state-of-the-art methods in SER.
翻訳日:2023-04-24 13:56:48 公開日:2023-04-21
# 制御可能な局所変形場による入射ニューラルヘッド合成

Implicit Neural Head Synthesis via Controllable Local Deformation Fields ( http://arxiv.org/abs/2304.11113v1 )

ライセンス: Link先を確認
Chuhan Chen, Matthew O'Toole, Gaurav Bharaj, Pablo Garrido(参考訳) 2dビデオからの制御可能な3dヘッドアバターの高品質な再構築は、映画、ゲーム、テレプレゼンスにおける仮想人間の応用に非常に望ましい。 ニューラルな暗黙のフィールドは、形状、表情、顔の部分(例えば、髪と口の内部)が線形な3Dフォーマブルモデル(3DMM)を越えている3Dヘッドアバターをモデル化する強力な表現を提供する。 しかし、既存の手法では、顔の微細な特徴や、モノクロビデオから非対称表現を外挿する顔部分の局所的な制御をモデル化していない。 さらに、ほとんどの条件は(er)局所性の低い3dmmパラメータにのみ依存し、局所的な特徴をグローバルニューラルネットワークで解決する。 我々は,大域的変形場を局所的に分解する部分的暗黙形状モデルを構築した。 3dmmパラメータによる局所的な意味リグ様制御と顔ランドマークを用いた複数の暗黙的変形場モデルを構築した。 さらに,各学習した変形場の空間性を促進する局所制御損失とアテンションマスク機構を提案する。 従来の暗黙の単眼的アプローチ,特に口内,非対称表現,顔の細部よりも,局所的に制御可能な非線形変形を鋭く表現する。

High-quality reconstruction of controllable 3D head avatars from 2D videos is highly desirable for virtual human applications in movies, games, and telepresence. Neural implicit fields provide a powerful representation to model 3D head avatars with personalized shape, expressions, and facial parts, e.g., hair and mouth interior, that go beyond the linear 3D morphable model (3DMM). However, existing methods do not model faces with fine-scale facial features, or local control of facial parts that extrapolate asymmetric expressions from monocular videos. Further, most condition only on 3DMM parameters with poor(er) locality, and resolve local features with a global neural field. We build on part-based implicit shape models that decompose a global deformation field into local ones. Our novel formulation models multiple implicit deformation fields with local semantic rig-like control via 3DMM-based parameters, and representative facial landmarks. Further, we propose a local control loss and attention mask mechanism that promote sparsity of each learned deformation field. Our formulation renders sharper locally controllable nonlinear deformations than previous implicit monocular approaches, especially mouth interior, asymmetric expressions, and facial details.
翻訳日:2023-04-24 13:56:31 公開日:2023-04-21
# 大規模言語モデルにおける不安誘発は探索とバイアスを増加させる

Inducing anxiety in large language models increases exploration and bias ( http://arxiv.org/abs/2304.11111v1 )

ライセンス: Link先を確認
Julian Coda-Forno, Kristin Witte, Akshay K. Jagadish, Marcel Binz, Zeynep Akata, Eric Schulz(参考訳) 大規模な言語モデルは、公開討論の場を広げながら、機械学習の研究を変革している。 これらのモデルがうまく機能し、成功したときだけでなく、なぜ失敗し、失敗するかを理解することは、社会的関連性が高い。 本稿では, 異常な振る舞いを計算的に記述し, 修正するフレームワークである計算精神医学のレンズを, これらのモデルによって生成された出力に変換することを提案する。 我々は、生成事前学習型トランスフォーマー3.5に着目し、精神医学でよく研究される課題に焦点をあてる。 以上の結果から, GPT-3.5は共通の不安アンケートに強く反応し, 被験者よりも高い不安スコアが得られた。 さらに、GPT-3.5の応答は感情誘導プロンプトを用いて予測可能に変更できる。 感情誘導は、探索的意思決定を測定する認知タスクにおけるGPT-3.5の行動に影響を及ぼすだけでなく、人種差別や能力主義のようなバイアスを測定する以前に確立されたタスクにおける行動にも影響を及ぼす。 重要なことに、GPT-3.5は不安を誘発するテキストによってバイアスが強く増加する。 したがって、プロンプトが大規模言語モデルにどのように伝達されるかは、適用された環境での行動に強い影響を与える可能性が高い。 これらの結果は,即座工学の理解を前進させ,権威と自律性を委譲する有能なアルゴリズムを研究するための計算心理学から取られた手法の有用性を実証する。

Large language models are transforming research on machine learning while galvanizing public debates. Understanding not only when these models work well and succeed but also why they fail and misbehave is of great societal relevance. We propose to turn the lens of computational psychiatry, a framework used to computationally describe and modify aberrant behavior, to the outputs produced by these models. We focus on the Generative Pre-Trained Transformer 3.5 and subject it to tasks commonly studied in psychiatry. Our results show that GPT-3.5 responds robustly to a common anxiety questionnaire, producing higher anxiety scores than human subjects. Moreover, GPT-3.5's responses can be predictably changed by using emotion-inducing prompts. Emotion-induction not only influences GPT-3.5's behavior in a cognitive task measuring exploratory decision-making but also influences its behavior in a previously-established task measuring biases such as racism and ableism. Crucially, GPT-3.5 shows a strong increase in biases when prompted with anxiety-inducing text. Thus, it is likely that how prompts are communicated to large language models has a strong influence on their behavior in applied settings. These results progress our understanding of prompt engineering and demonstrate the usefulness of methods taken from computational psychiatry for studying the capable algorithms to which we increasingly delegate authority and autonomy.
翻訳日:2023-04-24 13:56:09 公開日:2023-04-21
# ChatABL: ChatGPTとの自然言語インタラクションによる帰納的学習

ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT ( http://arxiv.org/abs/2304.11107v1 )

ライセンス: Link先を確認
Tianyang Zhong, Yaonai Wei, Li Yang, Zihao Wu, Zhengliang Liu, Xiaozheng Wei, Wenjun Li, Junjie Yao, Chong Ma, Xiang Li, Dajiang Zhu, Xi Jiang, Junwei Han, Dinggang Shen, Tianming Liu, Tuo Zhang(参考訳) ChatGPTのような大規模言語モデル(LLM)は、最近、人間の自然言語と整合した価値ある推論パラダイムを提供する数学的能力において大きな可能性を証明している。 しかし、LLMは、その間の情報フローの非互換性のため、認識、言語理解、推論能力のブリッジ化が難しいため、タスクを自律的に達成することは困難である。 一方で、認識と推論の2つの能力を統合するアブダクティブ・ラーニング(abl)フレームワークは、不完全な事実の逆解読において大きな成功を収めているが、論理的推論ルールの意味的理解の欠如と複雑なドメイン知識表現への依存によって制限されている。 本稿では,よりユーザフレンドリで理解しやすい方法で3つの能力を統合することを目的とした,ALMをABLフレームワークに統合するための新しい手法(ChatABL)を提案する。 提案手法は,LLMの理解と論理的推論の強みを用いて,自然言語形式で表現される推論規則の要約と再編成により,知覚モジュールの性能を最適化する不完全な論理的事実を補正する。 同様に、知覚モジュールは自然言語形式でLLMに必要な推論例を提供する。 マヤ暦復号の抽象的な表現である可変長手書き式解読タスクは、ChatABLが既存の最先端手法以上の推論能力を持っていることを示すテストベッドとして使用されるが、これは比較研究でよく支持されている。 我々の知る限り、ChatABLはChatGPTとの自然言語インタラクションを通じて、人間レベルの認知能力にさらに近づくための新しいパターンを探求する最初の試みである。

Large language models (LLMs) such as ChatGPT have recently demonstrated significant potential in mathematical abilities, providing valuable reasoning paradigm consistent with human natural language. However, LLMs currently have difficulty in bridging perception, language understanding and reasoning capabilities due to incompatibility of the underlying information flow among them, making it challenging to accomplish tasks autonomously. On the other hand, abductive learning (ABL) frameworks for integrating the two abilities of perception and reasoning has seen significant success in inverse decipherment of incomplete facts, but it is limited by the lack of semantic understanding of logical reasoning rules and the dependence on complicated domain knowledge representation. This paper presents a novel method (ChatABL) for integrating LLMs into the ABL framework, aiming at unifying the three abilities in a more user-friendly and understandable manner. The proposed method uses the strengths of LLMs' understanding and logical reasoning to correct the incomplete logical facts for optimizing the performance of perceptual module, by summarizing and reorganizing reasoning rules represented in natural language format. Similarly, perceptual module provides necessary reasoning examples for LLMs in natural language format. The variable-length handwritten equation deciphering task, an abstract expression of the Mayan calendar decoding, is used as a testbed to demonstrate that ChatABL has reasoning ability beyond most existing state-of-the-art methods, which has been well supported by comparative studies. To our best knowledge, the proposed ChatABL is the first attempt to explore a new pattern for further approaching human-level cognitive ability via natural language interaction with ChatGPT.
翻訳日:2023-04-24 13:55:46 公開日:2023-04-21
# 脳-コンピュータインタフェースにおけるジェスチャー認識のための畳み込みスパイクネットワーク

A Convolutional Spiking Network for Gesture Recognition in Brain-Computer Interfaces ( http://arxiv.org/abs/2304.11106v1 )

ライセンス: Link先を確認
Yiming Ai, Bipin Rajendran(参考訳) 脳-コンピューターインターフェースは、様々な治療用途のために研究されている。 通常、これは外部装置を駆動するために、脳波(ECoG)や脳波(EEG)などの技術を用いて、連続的な脳活動を測定し、分析する。 しかし、測定結果のノイズや変動性から、これらの信号の分析は困難であり、重要な計算資源を持つオフライン処理を必要とする。 本稿では,脳信号に基づく手ジェスチャー分類の例題問題に対する,シンプルながら効率的な機械学習に基づくアプローチを提案する。 スパイク領域で符号化されたアナログ信号の教師なし特徴学習に、生体インスパイアされたイベント駆動シナプス可塑性規則を用いた畳み込みスパイクニューラルネットワークを用いたハイブリッド機械学習手法を用いる。 本手法は脳波データとECoGデータの両方で異なる対象に一般化し,手動作のクラスや運動画像のタスクを識別する上で,92.74-97.07%の範囲で優れた精度を実現する。

Brain-computer interfaces are being explored for a wide variety of therapeutic applications. Typically, this involves measuring and analyzing continuous-time electrical brain activity via techniques such as electrocorticogram (ECoG) or electroencephalography (EEG) to drive external devices. However, due to the inherent noise and variability in the measurements, the analysis of these signals is challenging and requires offline processing with significant computational resources. In this paper, we propose a simple yet efficient machine learning-based approach for the exemplary problem of hand gesture classification based on brain signals. We use a hybrid machine learning approach that uses a convolutional spiking neural network employing a bio-inspired event-driven synaptic plasticity rule for unsupervised feature learning of the measured analog signals encoded in the spike domain. We demonstrate that this approach generalizes to different subjects with both EEG and ECoG data and achieves superior accuracy in the range of 92.74-97.07% in identifying different hand gesture classes and motor imagery tasks.
翻訳日:2023-04-24 13:55:14 公開日:2023-04-21
# 指数的家族推定のための等速的メカニズム

The Isotonic Mechanism for Exponential Family Estimation ( http://arxiv.org/abs/2304.11160v1 )

ライセンス: Link先を確認
Yuling Yan, Weijie J. Su, Jianqing Fan(参考訳) 2023年、ICML(International Conference on Machine Learning)は、複数の投稿者に対して、認識された品質に基づいて応募をランク付けするよう要求した。 本稿では,これらの著者特定ランキングを用いて,等張機構(su,2021,2022)を指数関数的家族分布に拡張することにより,機械学習および人工知能会議におけるピアレビューを強化することを目的とする。 この機構は、著者特定ランキングに固執しながら、原譜と密接に整合した調整スコアを生成する。 指数関数分布の幅広いスペクトルに適用できるにもかかわらず、この機構の実装は特定の分布形式に関する知識を必要としない。 著者は,調整済みレビュースコアの凸付加関数の形式を取ると,正確なランク付けを行うようにインセンティブが付与される。 指数関数的家族分布のある種のサブクラスについて、著者が真に報告するのは、その質問が提出物間のペア比較のみを含む場合に限り、真に情報を引き出す際のランク付けの最適性を示す。 最後に、調整されたスコアが元のスコアの精度を劇的に改善し、真のスコアが総変動の有界な場合、統計的成分で真のスコアを推定する最小限の最適性を達成することを示す。

In 2023, the International Conference on Machine Learning (ICML) required authors with multiple submissions to rank their submissions based on perceived quality. In this paper, we aim to employ these author-specified rankings to enhance peer review in machine learning and artificial intelligence conferences by extending the Isotonic Mechanism (Su, 2021, 2022) to exponential family distributions. This mechanism generates adjusted scores closely align with the original scores while adhering to author-specified rankings. Despite its applicability to a broad spectrum of exponential family distributions, this mechanism's implementation does not necessitate knowledge of the specific distribution form. We demonstrate that an author is incentivized to provide accurate rankings when her utility takes the form of a convex additive function of the adjusted review scores. For a certain subclass of exponential family distributions, we prove that the author reports truthfully only if the question involves only pairwise comparisons between her submissions, thus indicating the optimality of ranking in truthful information elicitation. Lastly, we show that the adjusted scores improve dramatically the accuracy of the original scores and achieve nearly minimax optimality for estimating the true scores with statistical consistecy when true scores have bounded total variation.
翻訳日:2023-04-24 13:48:00 公開日:2023-04-21
# 最適制御によるトランスモン計算の探索

Exploring Ququart Computation on a Transmon using Optimal Control ( http://arxiv.org/abs/2304.11159v1 )

ライセンス: Link先を確認
Lennart Maximilian Seifert, Ziqian Li, Tanay Roy, David I. Schuster, Frederic T. Chong, Jonathan M. Baker(参考訳) 現代の量子コンピュータは、量子情報をバイナリ量子ビット (d = 2) でエンコードし処理する。 しかし、多くのアーキテクチャは未使用の計算資源として残されるより高いエネルギーレベルを含んでいる。 超伝導クォータート (d = 4) プロセッサを実演し、量子最適制御と効率的なゲート分解を組み合わせて高忠実度クォータートゲートを実装した。 我々は、ququart を一般化された 4 レベル量子ビットと符号化された qubit のペアとして見ることと区別し、各ケースで得られたゲートを特徴付ける。 ランダム化ベンチマーク実験では、ゲートフィダリティを95%以上観測し、コヒーレンスを主要な制限因子として認識する。 量子情報処理のための有効なツールとしてququartsを検証した。

Contemporary quantum computers encode and process quantum information in binary qubits (d = 2). However, many architectures include higher energy levels that are left as unused computational resources. We demonstrate a superconducting ququart (d = 4) processor and combine quantum optimal control with efficient gate decompositions to implement high-fidelity ququart gates. We distinguish between viewing the ququart as a generalized four-level qubit and an encoded pair of qubits, and characterize the resulting gates in each case. In randomized benchmarking experiments we observe gate fidelities greater 95% and identify coherence as the primary limiting factor. Our results validate ququarts as a viable tool for quantum information processing.
翻訳日:2023-04-24 13:47:36 公開日:2023-04-21
# 大規模言語モデルにおける創発的および予測可能な記憶

Emergent and Predictable Memorization in Large Language Models ( http://arxiv.org/abs/2304.11158v1 )

ライセンス: Link先を確認
Stella Biderman and USVSN Sai Prashanth and Lintang Sutawika and Hailey Schoelkopf and Quentin Anthony and Shivanshu Purohit and Edward Raf(参考訳) 言語モデルが安全にデプロイされる上では、暗記化や、トレーニングデータからシーケンス全体を出力するllm(large language model)の傾向が重要な関心事である。 特に、個人識別情報(PII)を含むモデルにおいて、機密データポイントの記憶を最小化することが不可欠である。 このような望ましくない記憶の頻度は、モデルトレーナーに問題を引き起こす可能性があり、そうでない機能モデルを捨てる必要さえある。 そこで,本研究では,大規模モデルのフルトレインタイム前に,低速トライアルの記憶動作を補間することにより,どのシーケンスが記憶されるかを予測する。 我々は,Pythiaモデルスイートの記憶度を測定し,中間チェックポイントが,より小さな完全学習モデルよりもモデルの記憶挙動の予測因子として優れていることを発見した。 さらに、モデルとデータ間での暗記スコアの分布に関する新たな発見も提供する。

Memorization, or the tendency of large language models (LLMs) to output entire sequences from their training data verbatim, is a key concern for safely deploying language models. In particular, it is vital to minimize a model's memorization of sensitive datapoints such as those containing personal identifiable information (PII). The prevalence of such undesirable memorization can pose issues for model trainers, and may even require discarding an otherwise functional model. We therefore seek to predict which sequences will be memorized before a large model's full train-time by extrapolating the memorization behavior of lower-compute trial runs. We measure memorization of the Pythia model suite, and find that intermediate checkpoints are better predictors of a model's memorization behavior than smaller fully-trained models. We additionally provide further novel discoveries on the distribution of memorization scores across models and data.
翻訳日:2023-04-24 13:47:24 公開日:2023-04-21
# ES-Singleを用いたアンロール計算グラフの低分散勾配推定

Low-Variance Gradient Estimation in Unrolled Computation Graphs with ES-Single ( http://arxiv.org/abs/2304.11153v1 )

ライセンス: Link先を確認
Paul Vicol, Zico Kolter, Kevin Swersky(参考訳) 我々は,es-singleと呼ばれる未ロール計算グラフの勾配を推定する進化戦略に基づくアルゴリズムを提案する。 最近発表された Persistent Evolution Strategies (PES) と同様に、ES-Single は不偏であり、メタロスの風景を滑らかにすることで再帰関数アプリケーションから生じるカオスを克服する。 ES-Singleは粒子ごとの単一摂動をサンプリングし、内部問題(例えば、各部分的アンロールに対して摂動は再サンプリングされない)の過程で固定される。 PES と比較して ES-Single は実装が簡単で分散が小さい: ES-Single の分散は truncated unroll の数に対して一定であり、ショート・トランニケーションを用いて長い内部問題に ES-Single を適用する際の重要な障壁を取り除く。 ES-Single は二次的内部問題に対して非バイアスであり、その分散が PES よりもかなり低いことを実証的に示す。 ES-Singleは、総合ベンチマークタスク、ハイパーパラメータ最適化、リカレントニューラルネットワークのトレーニング、学習されたオプティマイザなど、さまざまなタスクでPESを一貫して上回る。

We propose an evolution strategies-based algorithm for estimating gradients in unrolled computation graphs, called ES-Single. Similarly to the recently-proposed Persistent Evolution Strategies (PES), ES-Single is unbiased, and overcomes chaos arising from recursive function applications by smoothing the meta-loss landscape. ES-Single samples a single perturbation per particle, that is kept fixed over the course of an inner problem (e.g., perturbations are not re-sampled for each partial unroll). Compared to PES, ES-Single is simpler to implement and has lower variance: the variance of ES-Single is constant with respect to the number of truncated unrolls, removing a key barrier in applying ES to long inner problems using short truncations. We show that ES-Single is unbiased for quadratic inner problems, and demonstrate empirically that its variance can be substantially lower than that of PES. ES-Single consistently outperforms PES on a variety of tasks, including a synthetic benchmark task, hyperparameter optimization, training recurrent neural networks, and training learned optimizers.
翻訳日:2023-04-24 13:47:09 公開日:2023-04-21
# 量子輸送における多体コヒーレンス

Many-Body Coherence in Quantum Transport ( http://arxiv.org/abs/2304.11151v1 )

ライセンス: Link先を確認
Ching-Chi Hang, Liang-Yan Hsu(参考訳) 本研究では,多体系における電子輸送を制御するために,量子コヒーレンスを利用する概念を提案する。 ハバード作用素に基づくオープン量子システム手法を組み合わせることで,多体コヒーレンスが有名なクーロン階段を取り除き,強い負の差動抵抗を引き起こすことを示した。 この機構を解明するため、ゼロ電子-フォノンカップリング限界における電流-コヒーレンス関係を解析的に導出する。 さらに,ゲートフィールドを組み込むことで,コヒーレンス制御トランジスタ構築の可能性を示す。 この開発は、多体コヒーレンスに基づく量子電子デバイスを作成するための新しい方向を開く。

In this study, we propose the concept of harnessing quantum coherence to control electron transport in a many-body system. Combining an open quantum system technique based on Hubbard operators, we show that many-body coherence can eliminate the well-known Coulomb staircase and cause strong negative differential resistance. To explore the mechanism, we analytically derive the current-coherence relationship in the zero electron-phonon coupling limit. Furthermore, by incorporating a gate field, we demonstrate the possibility of constructing a coherence-controlled transistor. This development opens up a new direction for creating quantum electronic devices based on many-body coherence.
翻訳日:2023-04-24 13:46:44 公開日:2023-04-21
# ハイパースペクトル像のH2TF:階層的非線形変換と階層的行列分解

H2TF for Hyperspectral Image Denoising: Where Hierarchical Nonlinear Transform Meets Hierarchical Matrix Factorization ( http://arxiv.org/abs/2304.11141v1 )

ライセンス: Link先を確認
Jiayi Li, Jinyu Xie, Yisi Luo, Xile Zhao, Jianli Wang(参考訳) 近年,高スペクトル画像(HSI)処理のためのツールとして,テンソル特異値分解(t-SVD)が登場している。 t-SVDには2つの重要なビルディングブロックがある。 (i)低ランク化変換、及び (ii)前頭切片の低ランク化に伴う特徴付け 従来のt-SVD法は主に開発に焦点をあてる (i) その他の重要な側面、すなわち前頭切片の正確な特徴を無視しながら。 このレターでは、両ブロックのポテンシャルを、非直交型非線形変換(英語版)と非直交型非直交型行列分解(英語版)を用いて、新しい非直交型行列分解(英語版)(h2tf)を確立することにより活用する。 低ランク行列分解や凸置換体のような浅いカウンターパートナーと比較して、H2TFは階層的なモデリング能力により変換された前頭切片の複雑な構造をよりよく捉えることができる。 次に、H2TFに基づくHSI復調モデルを提案し、乗算器に基づくアルゴリズムの交互方向法を開発し、結果モデルに対処する。 本手法が最先端HSI復調法よりも優れていることを検証する。

Recently, tensor singular value decomposition (t-SVD) has emerged as a promising tool for hyperspectral image (HSI) processing. In the t-SVD, there are two key building blocks: (i) the low-rank enhanced transform and (ii) the accompanying low-rank characterization of transformed frontal slices. Previous t-SVD methods mainly focus on the developments of (i), while neglecting the other important aspect, i.e., the exact characterization of transformed frontal slices. In this letter, we exploit the potentiality in both building blocks by leveraging the \underline{\bf H}ierarchical nonlinear transform and the \underline{\bf H}ierarchical matrix factorization to establish a new \underline{\bf T}ensor \underline{\bf F}actorization (termed as H2TF). Compared to shallow counter partners, e.g., low-rank matrix factorization or its convex surrogates, H2TF can better capture complex structures of transformed frontal slices due to its hierarchical modeling abilities. We then suggest the H2TF-based HSI denoising model and develop an alternating direction method of multipliers-based algorithm to address the resultant model. Extensive experiments validate the superiority of our method over state-of-the-art HSI denoising methods.
翻訳日:2023-04-24 13:46:33 公開日:2023-04-21
# 大規模ランダムグラフ上のジェネリックアグリゲーションを用いたメッセージパッシンググラフニューラルネットワークの収束性

Convergence of Message Passing Graph Neural Networks with Generic Aggregation On Large Random Graphs ( http://arxiv.org/abs/2304.11140v1 )

ライセンス: Link先を確認
Matthieu Cordonnier, Nicolas Keriven, Nicolas Tremblay, Samuel Vaiter(参考訳) 本研究では,ランダムグラフモデル上でのメッセージパッシンググラフニューラルネットワークの収束について,ノード数が無限になりがちであることを示す。 これまでこの収束は、次数正規化手段の形で集約関数を持つアーキテクチャでのみ知られていた。 我々は、これらの結果を非常に大きな集約関数クラスに拡張し、(度数正規化)畳み込みメッセージパッシングの上に、注意に基づくメセージパッシングやmax畳み込みメッセージパッシングといった、古典的に使用されるすべてのメッセージパッシンググラフニューラルネットワークを包含する。 穏やかな仮定の下で、この収束を定量化する確率の高い非漸近境界を与える。 主な結果はmcdiarmid不等式に基づいている。 興味深いことに、アグリゲーションが座標ワイドの最大値である場合、それは全く異なる証明手法を必要とし、定性的に異なる収束率が得られる。

We study the convergence of message passing graph neural networks on random graph models to their continuous counterpart as the number of nodes tends to infinity. Until now, this convergence was only known for architectures with aggregation functions in the form of degree-normalized means. We extend such results to a very large class of aggregation functions, that encompasses all classically used message passing graph neural networks, such as attention-based mesage passing or max convolutional message passing on top of (degree-normalized) convolutional message passing. Under mild assumptions, we give non asymptotic bounds with high probability to quantify this convergence. Our main result is based on the McDiarmid inequality. Interestingly, we treat the case where the aggregation is a coordinate-wise maximum separately, at it necessitates a very different proof technique and yields a qualitatively different convergence rate.
翻訳日:2023-04-24 13:46:10 公開日:2023-04-21
# オール・トゥ・オール系の深いヒルベルト空間におけるサプライズ:超指数スクランブルからスロー・エンタングルメント成長へ

Surprises in the Deep Hilbert Space of all-to-all systems: From super-exponential scrambling to slow entanglement growth ( http://arxiv.org/abs/2304.11138v1 )

ライセンス: Link先を確認
Zihao Qi and Thomas Scaffidi and Xiangyu Cao(参考訳) 一様全対全相互作用を持つスピン系の量子力学は、最大全スピンの完全対称空間(TSS)でしばしば研究される。 しかし、TSS状態は全多体ヒルベルト空間において非定型である。 本研究では,tssから遠ざかる全量子力学のいくつかの側面を探索し,dhs(deep hilbert space)の驚くべき特徴を明らかにする。 我々は、全ヒルベルト空間の無限温度アンサンブルにおける時間外順序コリレータ(otoc)について研究する。 DHS OTOC の位相空間表現を導出し、非有界位相空間の高速なダイナミクスにより、OTOC は大きな$N$制限で超指数的に成長可能であることを示す。 同様の機構により、クリロフの複雑性は爆発的に増大する。 また、dhs積状態から量子クエンチにおける絡み合い成長、すなわち集合スピンの統計に関してdhs無限温度アンサンブルに類似した非アライメントスピンの1つを研究する。 場の理論的手法を用いて、大きな$N$極限における絡み合いエントロピーを正確に計算する。 以上の結果から,DHS では OTOC の急激な成長は,TSS 由来の Zurek-Paz 関係とは対照的に,急速に絡み合う成長を示唆しないことが示された。

The quantum dynamics of spin systems with uniform all-to-all interaction are often studied in the totally symmetric space (TSS) of maximal total spin. However the TSS states are atypical in the full many-body Hilbert space. In this work, we explore several aspects of the all-to-all quantum dynamics away from the TSS, and reveal surprising features of the "deep Hilbert space" (DHS). We study the out-of-time order correlator (OTOC) in the infinite-temperature ensemble of the full Hilbert space. We derive a phase-space representation of the DHS OTOC and show that the OTOC can grow super-exponentially in the large $N$ limit, due to the fast dynamics in an unbounded phase space. By a similar mechanism, the Krylov complexity grows explosively. We also study the entanglement growth in a quantum quench from a DHS product state, i.e., one of non-aligned spins that resemble the DHS infinite-temperature ensemble with respect to the statistics of the collective spins. Using a field-theoretical method, We exactly calculate the entanglement entropy in the large $N$ limit. We show that, in the DHS, fast OTOC growth does not imply fast entanglement growth, in contrast to the Zurek-Paz relation derived in the TSS.
翻訳日:2023-04-24 13:45:52 公開日:2023-04-21
# 肺癌における3次元CTの高速・高精度画像登録

Deep-Learning-based Fast and Accurate 3D CT Deformable Image Registration in Lung Cancer ( http://arxiv.org/abs/2304.11135v1 )

ライセンス: Link先を確認
Yuzhen Ding, Hongying Feng, Yunze Yang, Jason Holmes, Zhengliang Liu, David Liu, William W. Wong, Nathan Y. Yu, Terence T. Sio, Steven E. Schild, Baoxin Li, Wei Liu(参考訳) 目的: いくつかのプロトン治療施設では, 患者アライメントは2つの2次元直交kv像に依存しており, 3d on-the-bed imagingは使用できない。 kV画像における腫瘍の視認性は、特に骨などの高密度構造の背後にある場合、患者の3D解剖が2次元平面に投影されるため制限される。 これにより、患者のセットアップエラーが大きくなる可能性がある。 治療位置において、治療アイソセンタで得られたkV画像から3DCT画像を再構成する。 方法:視覚変換ブロックを用いた非対称オートエンコーダライクネットワークを開発した。 2つの直交kv画像(1024x1024voxels)、1つの3dctとパディング(512x512x512)が、kvs撮影前に室内ct-on-railsから取得され、2つのデジタルリコンストラクテッドラジオグラフ(drr)画像(512x512)がctに基づいて収集された。 我々は,8ボクセル毎のkV画像と4ボクセル毎のDRRおよびCT画像を再サンプリングし,262,144サンプルからなるデータセットを作成し,各方向の寸法は128である。 トレーニングでは、kVとDRRの両方の画像を使用し、エンコーダは、kVとDRRの両方の画像から結合した特徴マップを学習するよう奨励された。 テストでは、独立したkV画像のみが使用された。 モデルが生成したsCTを空間情報に応じて連結することにより, 完全合成CT(sCT)を実現する。 合成CT(sCT)の画質は,平均絶対誤差 (MAE) とVVH (per-voxel-absolute-CT-number-Difference volume histogram) を用いて評価した。 結果: モデルが2.1秒, MAEが40HUであった。 CDVHはボクセルあたりの絶対CT数差が185HU以上であった。 結語:kV画像から3次元CT画像の再構成を高精度かつ効率的に行うために,患者固有の視覚変換器ネットワークを開発した。

Purpose: In some proton therapy facilities, patient alignment relies on two 2D orthogonal kV images, taken at fixed, oblique angles, as no 3D on-the-bed imaging is available. The visibility of the tumor in kV images is limited since the patient's 3D anatomy is projected onto a 2D plane, especially when the tumor is behind high-density structures such as bones. This can lead to large patient setup errors. A solution is to reconstruct the 3D CT image from the kV images obtained at the treatment isocenter in the treatment position. Methods: An asymmetric autoencoder-like network built with vision-transformer blocks was developed. The data was collected from 1 head and neck patient: 2 orthogonal kV images (1024x1024 voxels), 1 3D CT with padding (512x512x512) acquired from the in-room CT-on-rails before kVs were taken and 2 digitally-reconstructed-radiograph (DRR) images (512x512) based on the CT. We resampled kV images every 8 voxels and DRR and CT every 4 voxels, thus formed a dataset consisting of 262,144 samples, in which the images have a dimension of 128 for each direction. In training, both kV and DRR images were utilized, and the encoder was encouraged to learn the jointed feature map from both kV and DRR images. In testing, only independent kV images were used. The full-size synthetic CT (sCT) was achieved by concatenating the sCTs generated by the model according to their spatial information. The image quality of the synthetic CT (sCT) was evaluated using mean absolute error (MAE) and per-voxel-absolute-CT-number-difference volume histogram (CDVH). Results: The model achieved a speed of 2.1s and a MAE of <40HU. The CDVH showed that <5% of the voxels had a per-voxel-absolute-CT-number-difference larger than 185 HU. Conclusion: A patient-specific vision-transformer-based network was developed and shown to be accurate and efficient to reconstruct 3D CT images from kV images.
翻訳日:2023-04-24 13:45:27 公開日:2023-04-21
# Plug-and-Play split Gibbs sampler: Embeded Deep Generative priors in Bayesian inference (特集:バイオサイバネティックスとバイオサイバネティックス)

Plug-and-Play split Gibbs sampler: embedding deep generative priors in Bayesian inference ( http://arxiv.org/abs/2304.11134v1 )

ライセンス: Link先を確認
Florentin Coeurdoux, Nicolas Dobigeon, Pierre Chainais(参考訳) 本稿では,確率的プラグ・アンド・プレイ(PnP)サンプリングアルゴリズムを提案する。 分割ギブスサンプリング(SGS)に基づくアルゴリズムは乗算器の交互方向法(ADMM)からインスピレーションを得ている。 後方サンプリングの課題を2つの単純なサンプリング問題に分割する。 第1の問題は確率関数に依存し、第2の問題は、深い生成モデルによって容易に実行可能なベイズ偏執問題として解釈される。 具体的には,提案手法を最先端の拡散型生成モデルを用いて実装した。 決定論的PnPに基づく手法と同様に、提案手法は事前学習された生成モデルに符号化された事前分布の明示的な選択を必要としないという大きな利点を示す。 しかし、一般に点推定のみを提供する最適化手法(例えば、PnP-ADMM)とは異なり、提案手法は従来のベイズ推定器に妥当な計算コストで信頼区間を伴わせることを可能にする。 一般に研究されている画像処理問題に関する実験は、提案するサンプリング戦略の効率を示す。 その性能は最近の最先端の最適化とサンプリング手法と比較される。

This paper introduces a stochastic plug-and-play (PnP) sampling algorithm that leverages variable splitting to efficiently sample from a posterior distribution. The algorithm based on split Gibbs sampling (SGS) draws inspiration from the alternating direction method of multipliers (ADMM). It divides the challenging task of posterior sampling into two simpler sampling problems. The first problem depends on the likelihood function, while the second is interpreted as a Bayesian denoising problem that can be readily carried out by a deep generative model. Specifically, for an illustrative purpose, the proposed method is implemented in this paper using state-of-the-art diffusion-based generative models. Akin to its deterministic PnP-based counterparts, the proposed method exhibits the great advantage of not requiring an explicit choice of the prior distribution, which is rather encoded into a pre-trained generative model. However, unlike optimization methods (e.g., PnP-ADMM) which generally provide only point estimates, the proposed approach allows conventional Bayesian estimators to be accompanied by confidence intervals at a reasonable additional computational cost. Experiments on commonly studied image processing problems illustrate the efficiency of the proposed sampling strategy. Its performance is compared to recent state-of-the-art optimization and sampling methods.
翻訳日:2023-04-24 13:44:47 公開日:2023-04-21
# 2次元非可換アノンに対する生成と消滅作用素

Creation and annihilation operators for 2D non-abelian anyons ( http://arxiv.org/abs/2304.10462v2 )

ライセンス: Link先を確認
Nicetu Tibau Vidal and Lucia Vilchez-Estevez(参考訳) 我々は、任意の2次元非アーベル・アノン理論に対する生成および消滅作用素を、アノン図形形式から代数構造を研究することによって定義する。 我々は fibonacci anyons の生成演算子を明示的に構築する。 粒子タイプごとの単一の生成演算子だけでは不十分であり、全ての代替核融合チャネルに対して追加生成演算子が必要である。 これらの生成および消滅演算子の観点から、物理的に許容される任意の可観測性を表現する。 最後に、2D Fibonacci Hubbard Hamiltonian を Fibonacci の生成と消滅演算子の観点から表現し、これらの生成と消滅演算子に基づくシミュレーション手法の開発についてコメントする。

We define creation and annihilation operators for any 2D non-abelian anyon theory by studying the algebraic structure from the anyon diagrammatic formalism. We construct the creation operators for Fibonacci anyons explicitly. We obtain that a single creation operator per particle type is not enough; we need an extra creation operator for every alternative fusion channel. We express any physically allowed observable in terms of these creation and annihilation operators. Finally, we express the 2D Fibonacci Hubbard Hamiltonian in terms of the Fibonacci creation and annihilation operators, and we comment on developing methods for simulation based on these creation and annihilation operators.
翻訳日:2023-04-24 11:24:30 公開日:2023-04-21
# 双線形リスク関数評価における二次量子スピードアップ

Quadratic quantum speedup in evaluating bilinear risk functions ( http://arxiv.org/abs/2304.10385v2 )

ライセンス: Link先を確認
Gabriele Agliardi, Corey O'Meara, Kavitha Yogaraj, Kumar Ghosh, Piergiacomo Sabino, Marina Fern\'andez-Campoamor, Giorgio Cortiana, Juan Bernab\'e-Moreno, Francesco Tacchino, Antonio Mezzacapo, and Omar Shehab(参考訳) 多重線型形式上の非線形関数の計算は、リスク解析の応用における一般的な問題である。 例えば、エネルギー経済学の分野では、数百万のシナリオを効率的にシミュレーションするための正確でタイムリーなリスク管理が要求される。 非線形関数の多項式近似に基づく新しいハイブリッド量子古典アルゴリズムを開発し,実装の相違点の比較を行った。 入力データセットに効率的なローディングユニタリがある場合、形式が双線型で近似多項式が第二次であるとき、多対数因子まで、二次量子速度アップが証明される。 また,回路の深さと幅のバランスを調整できる双方向符号化も強化し,内部積の計算に活用可能な改良版を提案する。 最後に、最近IBMの量子デバイスに導入された動的回路機能を利用して、量子アダマール製品回路の平均深度を下げる。 原理の証明はIBM Quantumシステム上で実装され、検証される。

Computing nonlinear functions over multilinear forms is a general problem with applications in risk analysis. For instance in the domain of energy economics, accurate and timely risk management demands for efficient simulation of millions of scenarios, largely benefiting from computational speedups. We develop a novel hybrid quantum-classical algorithm based on polynomial approximation of nonlinear functions and compare different implementation variants. We prove a quadratic quantum speedup, up to polylogarithmic factors, when forms are bilinear and approximating polynomials have second degree, if efficient loading unitaries are available for the input data sets. We also enhance the bidirectional encoding, that allows tuning the balance between circuit depth and width, proposing an improved version that can be exploited for the calculation of inner products. Lastly, we exploit the dynamic circuit capabilities, recently introduced on IBM Quantum devices, to reduce the average depth of the Quantum Hadamard Product circuit. A proof of principle is implemented and validated on IBM Quantum systems.
翻訳日:2023-04-24 11:24:18 公開日:2023-04-21
# 確率過程学習のための条件生成モデル

Conditional Generative Models for Learning Stochastic Processes ( http://arxiv.org/abs/2304.10382v2 )

ライセンス: Link先を確認
Salvatore Certo, Anh Pham, Nicolas Robles, Andrew Vlasic(参考訳) マルチモーダル分布を学習するための枠組みが提案され、条件付き量子生成逆逆ネットワーク (c-qgan) と呼ばれる。 ニューラルネットワークの構造は厳密に量子回路内にあり、その結果、現在の方法よりも効率的な状態準備手順を示すことが示される。 この手法はモンテカルロ解析のようなアルゴリズムを高速化する可能性がある。 特に、学習課題におけるネットワークの有効性を実証した後、アジアオプションデリバティブの価格設定に適用し、他の経路に依存した選択肢についてさらなる研究を行う基盤を提供する。

A framework to learn a multi-modal distribution is proposed, denoted as the Conditional Quantum Generative Adversarial Network (C-qGAN). The neural network structure is strictly within a quantum circuit and, as a consequence, is shown to represent a more efficient state preparation procedure than current methods. This methodology has the potential to speed-up algorithms, such as Monte Carlo analysis. In particular, after demonstrating the effectiveness of the network in the learning task, the technique is applied to price Asian option derivatives, providing the foundation for further research on other path-dependent options.
翻訳日:2023-04-24 11:24:01 公開日:2023-04-21
# 人間と機械の科学的理解のためのベンチマークに向けて

Towards a Benchmark for Scientific Understanding in Humans and Machines ( http://arxiv.org/abs/2304.10327v2 )

ライセンス: Link先を確認
Kristian Gonzalez Barman, Sascha Caron, Tom Claassen, Henk de Regt(参考訳) 科学的理解は科学の基本的な目標であり、世界を説明することができる。 現在、エージェントの科学的理解を計測する方法は、人間であれ、人工知能システムであれ、存在しない。 明確なベンチマークがなければ、異なるレベルの科学的理解とアプローチを評価し比較することは困難である。 本稿では,科学哲学のツールを活用した科学的理解のためのベンチマークを作成するためのフレームワークを提案する。 我々は、真の理解を特定のタスクを実行する能力として認識すべき行動概念を採用する。 我々は、科学的理解の異なるレベルを計測できる質問セット、情報検索、説明を作成するための情報を整理する能力、異なる状況下での物事の違いを推測する能力を考えることで、この概念を拡張した。 これらの一連のテストによって形成されるScientific Understanding Benchmark (SUB)は、異なるアプローチの評価と比較を可能にする。 ベンチマークは、信頼の確立、品質管理の確保、パフォーマンス評価の基盤を提供する上で、重要な役割を果たす。 機械と人間の科学的理解を一致させることで、その有用性を改善し、究極的には科学的理解を前進させ、機械内の新しい洞察を見つけるのに役立つ。

Scientific understanding is a fundamental goal of science, allowing us to explain the world. There is currently no good way to measure the scientific understanding of agents, whether these be humans or Artificial Intelligence systems. Without a clear benchmark, it is challenging to evaluate and compare different levels of and approaches to scientific understanding. In this Roadmap, we propose a framework to create a benchmark for scientific understanding, utilizing tools from philosophy of science. We adopt a behavioral notion according to which genuine understanding should be recognized as an ability to perform certain tasks. We extend this notion by considering a set of questions that can gauge different levels of scientific understanding, covering information retrieval, the capability to arrange information to produce an explanation, and the ability to infer how things would be different under different circumstances. The Scientific Understanding Benchmark (SUB), which is formed by a set of these tests, allows for the evaluation and comparison of different approaches. Benchmarking plays a crucial role in establishing trust, ensuring quality control, and providing a basis for performance evaluation. By aligning machine and human scientific understanding we can improve their utility, ultimately advancing scientific understanding and helping to discover new insights within machines.
翻訳日:2023-04-24 11:23:52 公開日:2023-04-21
# ビデオによる決定木におけるコントラスト学習:行動認識から自閉症診断まで

Video-based Contrastive Learning on Decision Trees: from Action Recognition to Autism Diagnosis ( http://arxiv.org/abs/2304.10073v2 )

ライセンス: Link先を確認
Mindi Ruan, Xiangxu Yu, Na Zhang, Chuanbo Hu, Shuo Wang, Xin Li(参考訳) コンピュータに1万の異なる行動を認識させる方法 ディープラーニングは、教師なしと教師なしのアプローチから自己監督のアプローチへと進化してきた。 本稿では,人-人-物間相互作用(HHI)や人-物間相互作用(HOI)を含む,決定木に基づく行動分類のための新しいコントラスト学習ベースのフレームワークを提案する。 キーとなるアイデアは、元のマルチクラスアクション認識を、事前構築された決定木上の一連のバイナリ分類タスクに変換することである。 対照的学習の新たな枠組みとして,周期性や対称性などの行動関連属性をモデル化するためのバックボーンとして,スケルトングラフと相互作用隣接行列(IAM)の設計を提案する。 様々なプレテキストタスクの構築を通じて、より高度な認識タスクをサポートするために組み合わせることができる決定ツリー上の一連のバイナリ分類ノードを得る。 実世界の応用における我々のアプローチの可能性の実験的正当化は、インタラクション認識から対称性検出まで幅広い。 特に,CalTechインタビュービデオデータベースにおいて,ビデオベース自閉症スペクトラム障害 (ASD) 診断の有望な性能を実証した。

How can we teach a computer to recognize 10,000 different actions? Deep learning has evolved from supervised and unsupervised to self-supervised approaches. In this paper, we present a new contrastive learning-based framework for decision tree-based classification of actions, including human-human interactions (HHI) and human-object interactions (HOI). The key idea is to translate the original multi-class action recognition into a series of binary classification tasks on a pre-constructed decision tree. Under the new framework of contrastive learning, we present the design of an interaction adjacent matrix (IAM) with skeleton graphs as the backbone for modeling various action-related attributes such as periodicity and symmetry. Through the construction of various pretext tasks, we obtain a series of binary classification nodes on the decision tree that can be combined to support higher-level recognition tasks. Experimental justification for the potential of our approach in real-world applications ranges from interaction recognition to symmetry detection. In particular, we have demonstrated the promising performance of video-based autism spectrum disorder (ASD) diagnosis on the CalTech interview video database.
翻訳日:2023-04-24 11:23:32 公開日:2023-04-21
# スペクトル保存データ圧縮による高速化支援ベクトルクラスタリング

Accelerate Support Vector Clustering via Spectrum-Preserving Data Compression ( http://arxiv.org/abs/2304.09868v2 )

ライセンス: Link先を確認
Yuxuan Song, Yongyu Wang(参考訳) サポートベクタークラスタリングは重要なクラスタリング手法である。 しかし、計算コストのかかるクラスタ割り当てステップのためにスケーラビリティの問題に悩まされている。 本稿では,スペクトル保存データ圧縮によるサポートベクタークラスタリングを認証する。 具体的には、まず最初のデータセットを少数のスペクトル的に代表される集約されたデータポイントに圧縮する。 次に,圧縮データセット上で標準サポートベクトルクラスタリングを行う。 最後に、圧縮されたデータセットのクラスタリング結果をマッピングして、元のデータセット内のクラスタを検出する。 実世界のデータセットに関する広範な実験結果は、クラスタリングの品質を犠牲にすることなく、標準サポートベクタークラスタリングよりも劇的にスピードアップすることを示している。

Support vector clustering is an important clustering method. However, it suffers from a scalability issue due to its computational expensive cluster assignment step. In this paper we accelertate the support vector clustering via spectrum-preserving data compression. Specifically, we first compress the original data set into a small amount of spectrally representative aggregated data points. Then, we perform standard support vector clustering on the compressed data set. Finally, we map the clustering results of the compressed data set back to discover the clusters in the original data set. Our extensive experimental results on real-world data set demonstrate dramatically speedups over standard support vector clustering without sacrificing clustering quality.
翻訳日:2023-04-24 11:23:16 公開日:2023-04-21
# DiFaReli: 拡散面のリライト

DiFaReli: Diffusion Face Relighting ( http://arxiv.org/abs/2304.09479v2 )

ライセンス: Link先を確認
Puntawat Ponglertnapakorn, Nontawat Tritrong, Supasorn Suwajanakorn(参考訳) 野生での単眼の顔のリライティングに新しいアプローチを提案する。 グローバル照明やキャストシャドウなどの非拡散効果を扱うことは、長い間、顔を照らすことの難題だった。 以前の研究では、ランバート面、簡易照明モデル、あるいは3次元形状、アルベド、シャドウマップを推定するものだった。 しかし、この推定は誤りやすいため、十分な一般化のために多くの訓練例が必要となる。 本研究は,内在的成分を正確に推定する必要性を回避し,光ステージデータや多視点画像,あるいは地上の真理を照らすことなく2d画像のみを訓練できる。 我々のキーとなるアイデアは、拡散暗黙モデル(DDIM)を用いて、オフザシェルフ推定器から推定される3次元形状と顔の同一性に関連する他のエンコーディングと共に、歪んだ光符号化を復号することである。 また,ddimを空間的に変調するレンダリングシェーディング参照を用いて,光と幾何学の複雑な相互作用のモデル化を容易にする新しい条件付け手法を提案する。 我々は,標準ベンチマークマルチパイで最先端のパフォーマンスを実現し,実写画像のフォトリアリスティックなリライトを実現する。 https://diffusion-face-relighting.github.io

We present a novel approach to single-view face relighting in the wild. Handling non-diffuse effects, such as global illumination or cast shadows, has long been a challenge in face relighting. Prior work often assumes Lambertian surfaces, simplified lighting models or involves estimating 3D shape, albedo, or a shadow map. This estimation, however, is error-prone and requires many training examples with lighting ground truth to generalize well. Our work bypasses the need for accurate estimation of intrinsic components and can be trained solely on 2D images without any light stage data, multi-view images, or lighting ground truth. Our key idea is to leverage a conditional diffusion implicit model (DDIM) for decoding a disentangled light encoding along with other encodings related to 3D shape and facial identity inferred from off-the-shelf estimators. We also propose a novel conditioning technique that eases the modeling of the complex interaction between light and geometry by using a rendered shading reference to spatially modulate the DDIM. We achieve state-of-the-art performance on standard benchmark Multi-PIE and can photorealistically relight in-the-wild images. Please visit our page: https://diffusion-face-relighting.github.io
翻訳日:2023-04-24 11:23:08 公開日:2023-04-21
# 古典的なOracleの下での古典的対量子的アドバイスと証明

Classical vs Quantum Advice and Proofs under Classically-Accessible Oracle ( http://arxiv.org/abs/2303.04298v3 )

ライセンス: Link先を確認
Xingjian Li, Qipeng Liu, Angelos Pelecanos, Takashi Yamakawa(参考訳) BQP/qpoly $\neq$ BQP/poly あるいは QMA $\neq$ QCMA が関係する古典的なオラクルを構築することは、長い間公然とされてきた問題である。 本稿では,BQP/qpoly $\neq$ BQP/poly と QMA $\neq$ QCMA に比較して古典的アクセス可能な古典的オラクルを構築する。 ここでは、古典的アクセス可能な古典的オラクルは、量子アルゴリズムでも古典的にのみアクセス可能なオラクルである。 同様の手法に基づき、最近ナタラジャンとニルケによって示された分散量子アクセス可能な古典オラクルに対して、QMAとQCMAの分離の代替的証明を示す。

It is a long-standing open question to construct a classical oracle relative to which BQP/qpoly $\neq$ BQP/poly or QMA $\neq$ QCMA. In this paper, we construct classically-accessible classical oracles relative to which BQP/qpoly $\neq$ BQP/poly and QMA $\neq$ QCMA. Here, classically-accessible classical oracles are oracles that can be accessed only classically even for quantum algorithms. Based on a similar technique, we also show an alternative proof for the separation of QMA and QCMA relative to a distributional quantumly-accessible classical oracle, which was recently shown by Natarajan and Nirkhe.
翻訳日:2023-04-24 11:22:49 公開日:2023-04-21
# コヒーレントマルチスタート最適化による量子回路の効率的な変分合成

Efficient variational synthesis of quantum circuits with coherent multi-start optimization ( http://arxiv.org/abs/2205.01121v3 )

ライセンス: Link先を確認
Nikita A. Nemkov, Evgeniy O. Kiktenko, Ilia A. Luchnikov, Aleksey K. Fedorov(参考訳) 我々は、cnotゲートと任意の単一量子ビット (1q) ゲートからなるゲート集合への変分量子回路合成の問題を考える。 まず、複雑性の組合せ爆発に苦しむ離散的なアーキテクチャ探索とともに、1qゲートの最適化は局所的最小値の不完全性(変分量子アルゴリズムの文脈ではよく知られているが、変分コンパイルの文脈では過小評価されている)のために重要な障害となる。 この問題を真剣に受け止めるため、初期条件に関する広範囲な調査を私たちのアプローチの重要な部分としています。 もう一つの重要なアイデアは、パラメータ化された2量子ビット(2q)制御相ゲートを使用することで、IDゲートとCNOTゲートの間を補間し、1qゲートの最適化と共同で実行できる離散アーキテクチャ探索を連続的に緩和することである。 このアーキテクチャの一貫性のある最適化と1qゲートは、実際は驚くほどうまく機能し、時には1qゲート単独での最適化(固定された最適アーキテクチャの場合)よりも優れています。 8 cnot と t depth 3 を最近傍トポロジー上の 3q toffoli ゲートの分解、星型トポロジー上の 1 cnot ゲート改良を含む全 4q トポロジー上の 4q toffoli ゲートの既知の最良の分解を再発見し、48 cnot ゲートを持つ最近傍トポロジー上の 5q toffoli ゲートの分解を提案する。 また、ibm_qx_mappingデータベースから得られた5q量子回路の性能をベンチマークし、既存のソフトウェアと高い競合性を示している。 この研究で開発されたアルゴリズムはPythonパッケージCPFlowとして利用可能である。

We consider the problem of the variational quantum circuit synthesis into a gate set consisting of the CNOT gate and arbitrary single-qubit (1q) gates with the primary target being the minimization of the CNOT count. First we note that along with the discrete architecture search suffering from the combinatorial explosion of complexity, optimization over 1q gates can also be a crucial roadblock due to the omnipresence of local minimums (well known in the context of variational quantum algorithms but apparently underappreciated in the context of the variational compiling). Taking the issue seriously, we make an extensive search over the initial conditions an essential part of our approach. Another key idea we propose is to use parametrized two-qubit (2q) controlled phase gates, which can interpolate between the identity gate and the CNOT gate, and allow a continuous relaxation of the discrete architecture search, which can be executed jointly with the optimization over 1q gates. This coherent optimization of the architecture together with 1q gates appears to work surprisingly well in practice, sometimes even outperforming optimization over 1q gates alone (for fixed optimal architectures). As illustrative examples and applications we derive 8 CNOT and T depth 3 decomposition of the 3q Toffoli gate on the nearest-neighbor topology, rediscover known best decompositions of the 4q Toffoli gate on all 4q topologies including a 1 CNOT gate improvement on the star-shaped topology, and propose decomposition of the 5q Toffoli gate on the nearest-neighbor topology with 48 CNOT gates. We also benchmark the performance of our approach on a number of 5q quantum circuits from the ibm_qx_mapping database showing that it is highly competitive with the existing software. The algorithm developed in this work is available as a Python package CPFlow.
翻訳日:2023-04-24 11:22:33 公開日:2023-04-21
# 量子遅延トレーニング

Quantum Lazy Training ( http://arxiv.org/abs/2202.08232v7 )

ライセンス: Link先を確認
Erfan Abedi, Salman Beigi, Leila Taghavi(参考訳) 勾配降下による過度パラメータ化モデル関数の訓練では、パラメータが大きく変化せず、初期値に近づかないことがある。 この現象は遅延トレーニングと呼ばれ、初期パラメータ周辺のモデル関数の線形近似を考える動機付けとなる。 遅延状態において、この線形近似は、関連するカーネルである接カーネルと呼ばれるパラメータ化関数の挙動を模倣し、モデルのトレーニング性能を規定する。 遅延トレーニングは、幅が大きい(古典的)ニューラルネットワークの場合に発生することが知られている。 本稿では、幾何学的に局所的なパラメータ化された量子回路のトレーニングが、大量の量子ビットの遅延レジームに入ることを示す。 より正確には、トレーニング過程におけるそのような幾何学的局所的なパラメータ化量子回路のパラメータの変化率と、関連する量子モデル関数の線形近似の精度のバウンダリを証明し、これらのバウンダリは、キュービットの数が増加するにつれてゼロになる傾向がある。 我々は数値シミュレーションを用いて解析結果を支持する。

In the training of over-parameterized model functions via gradient descent, sometimes the parameters do not change significantly and remain close to their initial values. This phenomenon is called lazy training, and motivates consideration of the linear approximation of the model function around the initial parameters. In the lazy regime, this linear approximation imitates the behavior of the parameterized function whose associated kernel, called the tangent kernel, specifies the training performance of the model. Lazy training is known to occur in the case of (classical) neural networks with large widths. In this paper, we show that the training of geometrically local parameterized quantum circuits enters the lazy regime for large numbers of qubits. More precisely, we prove bounds on the rate of changes of the parameters of such a geometrically local parameterized quantum circuit in the training process, and on the precision of the linear approximation of the associated quantum model function; both of these bounds tend to zero as the number of qubits grows. We support our analytic results with numerical simulations.
翻訳日:2023-04-24 11:21:58 公開日:2023-04-21