このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230328となっている論文です。

PDF登録状況(公開日: 20230328)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチエージェントシステムによるスマートホーム環境のモデル化

Smart Home Environment Modelled with a Multi-Agent System ( http://arxiv.org/abs/2304.08494v1 )

ライセンス: Link先を確認
Mohammad Rasras, Iuliana Marin, Serban Radu(参考訳) スマートホームは、家電やシステムの管理が自動化された技術によって日々の生活を支援できる住宅の場所と見なすことができる。 本稿では,スマートホームで開発されたコンテキスト認識環境をシミュレートするプロトタイプについて述べる。 スマートホーム環境は、自宅内の3つのエージェントと5つのロケーションを使ってシミュレートされている。 コンテキスト対応エージェントは、日々のアクティビティ用に設計された事前定義されたルールに基づいて振る舞う。 本提案は,動作装置の運用コストを削減することを目的とする。 将来は、住民の健康状態のモニターが健康的な生活を毎日維持するようになる。

A smart home can be considered a place of residence that enables the management of appliances and systems to help with day-to-day life by automated technology. In the current paper is described a prototype that simulates a context-aware environment, developed in a designed smart home. The smart home environment has been simulated using three agents and five locations in a house. The context-aware agents behave based on predefined rules designed for daily activities. Our proposal aims to reduce operational cost of running devices. In the future, monitors of health aspects belonging to home residents will sustain their healthy life daily.
翻訳日:2023-04-23 04:26:49 公開日:2023-03-28
# リアクティブIn situ可視化のための分散ニューラル表現

Distributed Neural Representation for Reactive in situ Visualization ( http://arxiv.org/abs/2304.10516v1 )

ライセンス: Link先を確認
Qi Wu, Joseph A. Insley, Victor A. Mateevitsi, Silvio Rizzi, Michael E. Papka, Kwan-Liu Ma(参考訳) 動的ワークフローを作成するために時間的抽象化とデータキャッシュ機構を活用するリアクティブプログラミングを使うことで、計算モデリングのその場での可視化とステアリングを効果的に実現できる。 しかし,大規模シミュレーションのためのテンポラリキャッシュの実装は困難である。 暗黙のニューラルネットワークは大量のデータを圧縮するのに有効であることが証明されている。 しかし、彼らの分散データへの応用はまだ完全には研究されていない。 本研究では,分散ボリュームデータに対する暗黙的なニューラル表現を開発し,DIVAリアクティブプログラミングシステムに組み込む。 この実装により,従来よりも100倍のキャパシティを持つその場時間キャッシュシステムを構築することができる。 実装をAscentインフラストラクチャに統合し,実世界のシミュレーションによる性能評価を行う。

In situ visualization and steering of computational modeling can be effectively achieved using reactive programming, which leverages temporal abstraction and data caching mechanisms to create dynamic workflows. However, implementing a temporal cache for large-scale simulations can be challenging. Implicit neural networks have proven effective in compressing large volume data. However, their application to distributed data has yet to be fully explored. In this work, we develop an implicit neural representation for distributed volume data and incorporate it into the DIVA reactive programming system. This implementation enables us to build an in situ temporal caching system with a capacity 100 times larger than previously achieved. We integrate our implementation into the Ascent infrastructure and evaluate its performance using real-world simulations.
翻訳日:2023-04-23 03:59:40 公開日:2023-03-28
# 位置 denoising による容易に観測できる幾何学による量子化学特性の予測

Predicting quantum chemical property with easy-to-obtain geometry via positional denoising ( http://arxiv.org/abs/2304.03724v1 )

ライセンス: Link先を確認
Hyeonsu Kim, Jeheon Woo, Seonghwan Kim, Seokhyun Moon, Jun Hyeong Kim, Woo Youn Kim(参考訳) 量子化学特性はジオメトリに大きく依存するので、3次元幾何情報を用いたグラフニューラルネットワーク(gnns)は多くのタスクで高い予測精度を達成している。 しかし、それらはしばしば高レベルの量子力学計算から得られる3次元測度を必要とし、現実の問題に適用性を制限する。 そこで本研究では, 比較的容易なジオメトリ(分子力場から最適化されたジオメトリなど)を用いて, 特性を正確に予測する手法を提案する。 この方法では、入力幾何は正しい幾何の腐敗した幾何と見なされ、積み重ねられた装飾層を通過するにつれて徐々に正しい幾何に近づく。 分子特性と化学反応特性の2つの予測課題に対して,3次元メッセージパッシングアーキテクチャを用いて提案手法の性能を検討した。 消音過程による位置誤差の低減は、補正されたジオメトリと破損したジオメトリの相互情報の増加による性能向上に寄与した。 さらに, 発振パワーと予測精度の相関関係を解析した結果, 発振プロセスの有効性が示された。

As quantum chemical properties have a significant dependence on their geometries, graph neural networks (GNNs) using 3D geometric information have achieved high prediction accuracy in many tasks. However, they often require 3D geometries obtained from high-level quantum mechanical calculations, which are practically infeasible, limiting their applicability in real-world problems. To tackle this, we propose a method to accurately predict the properties with relatively easy-to-obtain geometries (e.g., optimized geometries from the molecular force field). In this method, the input geometry, regarded as the corrupted geometry of the correct one, gradually approaches the correct one as it passes through the stacked denoising layers. We investigated the performance of the proposed method using 3D message-passing architectures for two prediction tasks: molecular properties and chemical reaction property. The reduction of positional errors through the denoising process contributed to performance improvement by increasing the mutual information between the correct and corrupted geometries. Moreover, our analysis of the correlation between denoising power and predictive accuracy demonstrates the effectiveness of the denoising process.
翻訳日:2023-04-16 22:35:09 公開日:2023-03-28
# 睡眠ステージスコアリングモデルの伝達性に及ぼすデータ特性の影響の定量化

Quantifying the Impact of Data Characteristics on the Transferability of Sleep Stage Scoring Models ( http://arxiv.org/abs/2304.06033v1 )

ライセンス: Link先を確認
Akara Supratak, Peter Haddawy(参考訳) 単一チャネル脳波に基づく睡眠ステージ評価のための深層学習モデルが,遠隔睡眠モニタリングの有望な手法として提案されている。 しかし、これらのモデルを新しいデータセット、特にウェアラブルデバイスに適用すると、2つの疑問が生じる。 第一に、ターゲットデータセットのアノテーションが利用できない場合、どの異なるデータ特性が睡眠ステージスコアのパフォーマンスに最も影響し、どの程度影響するか? 第二に、アノテーションが利用できる場合、パフォーマンスを最適化するために転送学習のソースとして使用するデータセットはありますか? 本稿では,異なるデータ特性が深層学習モデルの伝達性に与える影響を計算的に定量化する新しい手法を提案する。 TinySleepNetとU-Timeは、ソースとターゲットのデータセットが異なる記録チャネル、記録環境、および被写体条件を持つ様々な転送構成の下で、重要なアーキテクチャ上の違いを持つ2つのモデルのトレーニングと評価によって達成される。 最初の質問では、この環境が睡眠ステージスコアリングのパフォーマンスに最も影響し、睡眠アノテーションが利用できない場合、パフォーマンスは14%以上低下した。 第2の質問は、tinysleepnetとu-timeモデルの最も有用な転送源はmass-ss1とisruc-sg1であり、他のモデルと比較して高いn1(最も稀な睡眠ステージ)を含む。 前頭脳波と中枢脳波はTinySleepNetに好まれた。 提案手法では,既存の睡眠データセットをトレーニングおよび計画モデル転送にフル活用し,睡眠アノテーションの制限や使用不能時の目標問題に対する睡眠ステージスコアリング性能を最大化し,遠隔睡眠モニタリングを実現する。

Deep learning models for scoring sleep stages based on single-channel EEG have been proposed as a promising method for remote sleep monitoring. However, applying these models to new datasets, particularly from wearable devices, raises two questions. First, when annotations on a target dataset are unavailable, which different data characteristics affect the sleep stage scoring performance the most and by how much? Second, when annotations are available, which dataset should be used as the source of transfer learning to optimize performance? In this paper, we propose a novel method for computationally quantifying the impact of different data characteristics on the transferability of deep learning models. Quantification is accomplished by training and evaluating two models with significant architectural differences, TinySleepNet and U-Time, under various transfer configurations in which the source and target datasets have different recording channels, recording environments, and subject conditions. For the first question, the environment had the highest impact on sleep stage scoring performance, with performance degrading by over 14% when sleep annotations were unavailable. For the second question, the most useful transfer sources for TinySleepNet and the U-Time models were MASS-SS1 and ISRUC-SG1, containing a high percentage of N1 (the rarest sleep stage) relative to the others. The frontal and central EEGs were preferred for TinySleepNet. The proposed approach enables full utilization of existing sleep datasets for training and planning model transfer to maximize the sleep stage scoring performance on a target problem when sleep annotations are limited or unavailable, supporting the realization of remote sleep monitoring.
翻訳日:2023-04-16 22:05:35 公開日:2023-03-28
# ECGタスク固有特徴抽出のための$\beta$-VAEの合同最適化

Joint optimization of a $\beta$-VAE for ECG task-specific feature extraction ( http://arxiv.org/abs/2304.06476v1 )

ライセンス: Link先を確認
Viktor van der Valk, Douwe Atsma, Roderick Scherptong, and Marius Staring(参考訳) 心電図は、心臓のリズムと電気活動の観察を通して、診断とモニタリングの目的で心臓の状態を調べる最も一般的な方法である。 心電図(ECG)の分析は、訓練医によって視覚的に認識され、心機能障害を反映することが知られている特定のパターンの調査を通じて一般的に行われている。 本研究では,説明可能な特徴抽出器として$\beta$-variational autoencoders (VAEs) を用い,信号再構成と心機能予測を併用することにより,予測能力の向上を図る。 抽出された特徴はロジスティック回帰を用いた心機能予測に使用される。 2010年から2021年にかけてライデン大学医療センターで急性冠症候群の治療を受けた7255人の患者を対象に、この方法の訓練と検査を行った。 その結果,バニラ$\beta$-VAEに比べて予測と説明性が有意に向上し,再現性も良好であった。

Electrocardiography is the most common method to investigate the condition of the heart through the observation of cardiac rhythm and electrical activity, for both diagnosis and monitoring purposes. Analysis of electrocardiograms (ECGs) is commonly performed through the investigation of specific patterns, which are visually recognizable by trained physicians and are known to reflect cardiac (dis)function. In this work we study the use of $\beta$-variational autoencoders (VAEs) as an explainable feature extractor, and improve on its predictive capacities by jointly optimizing signal reconstruction and cardiac function prediction. The extracted features are then used for cardiac function prediction using logistic regression. The method is trained and tested on data from 7255 patients, who were treated for acute coronary syndrome at the Leiden University Medical Center between 2010 and 2021. The results show that our method significantly improved prediction and explainability compared to a vanilla $\beta$-VAE, while still yielding similar reconstruction performance.
翻訳日:2023-04-16 21:58:49 公開日:2023-03-28
# 新型コロナウイルスパンデミック中の喘息患者に対するスマートセンサを用いたIoTによる遠隔健康モニタリングシステム

IoT-Based Remote Health Monitoring System Employing Smart Sensors for Asthma Patients during COVID-19 Pandemic ( http://arxiv.org/abs/2304.06511v1 )

ライセンス: Link先を確認
Nafisa Shamim Rafa, Basma Binte Azmal, Abdur Rab Dhruba, Mohammad Monirujjaman Khan, Turki M. Alanazi, Faris A. Almalki, Othman AlOmeir(参考訳) COVID19と喘息は、コントロールされていない状況で生命を脅かし、継続的な監視を必要とする呼吸器疾患である。 バングラデシュのような南アジアの貧困国は、新型コロナウイルス(covid-19)のパンデミックの始まり以来、猛威を振るってきた。 人口の大半は農村部に居住しており、適切な医療機関へのアクセスが困難である。 これは遠隔医療の必要性を強調し、バングラデシュで現在開発中のIoT(Internet of Things)の概念を実装している。 本稿では,医療システムにおける現在の課題が,遠隔医療・環境モニタリングシステムの設計を通じて解決可能であること,特にCOVID-19のリスクが高い喘息患者について述べる。 オンタイム治療が不可欠であるため、医師や医療スタッフはリアルタイムで患者情報を受信し、位置に関係なく直ちに患者にサービスを提供することができる。 提案システムは, 心拍数, 体温, 環境温度, 湿度, 空気質データを収集し, Arduinoマイクロコントローラで処理する各種センサで構成されている。 モバイルアプリケーションと統合されている。 これらのデータはbluetoothモジュールを通じてモバイルアプリに送信され、数秒ごとに更新されるので、医療スタッフは即座に患者の状態や緊急事態を追跡できる。 開発されたプロトタイプはポータブルで、誰でも簡単に使える。 この制度は、特定の期間にわたって、異なる年齢と医療史を持つ5人に適用される。 すべてのデータを分析すると、どの参加者が特に健康悪化に弱いかが明らかになり、常に観察が必要となった。 この研究を通じて、喘息症状に対する意識は改善し、いつでもどこでも効果的な治療を通じて重症度を防ぎます。

COVID19 and asthma are respiratory diseases that can be life threatening in uncontrolled circumstances and require continuous monitoring. A poverty stricken South Asian country like Bangladesh has been bearing the brunt of the COVID19 pandemic since its beginning. The majority of the country's population resides in rural areas, where proper healthcare is difficult to access. This emphasizes the necessity of telemedicine, implementing the concept of the Internet of Things (IoT), which is still under development in Bangladesh. This paper demonstrates how the current challenges in the healthcare system are resolvable through the design of a remote health and environment monitoring system, specifically for asthma patients who are at an increased risk of COVID19. Since on-time treatment is essential, this system will allow doctors and medical staff to receive patient information in real time and deliver their services immediately to the patient regardless of their location. The proposed system consists of various sensors collecting heart rate, body temperature, ambient temperature, humidity, and air quality data and processing them through the Arduino Microcontroller. It is integrated with a mobile application. All this data is sent to the mobile application via a Bluetooth module and updated every few seconds so that the medical staff can instantly track patients' conditions and emergencies. The developed prototype is portable and easily usable by anyone. The system has been applied to five people of different ages and medical histories over a particular period. Upon analyzing all their data, it became clear which participants were particularly vulnerable to health deterioration and needed constant observation. Through this research, awareness about asthmatic symptoms will improve and help prevent their severity through effective treatment anytime, anywhere.
翻訳日:2023-04-16 21:38:45 公開日:2023-03-28
# 予期せぬパーティのクイットに対する学習のロバスト化とIP保護

Robust and IP-Protecting Vertical Federated Learning against Unexpected Quitting of Parties ( http://arxiv.org/abs/2303.18178v1 )

ライセンス: Link先を確認
Jingwei Sun, Zhixu Du, Anna Dai, Saleh Baghersalimi, Alireza Amirshahi, David Atienza, Yiran Chen(参考訳) 垂直連合学習(VFL)は、ラベル付き機能を所有するサービスプロバイダ(すなわち、アクティブパーティ)が、補助的機能を持つ受動的関係者と協力してモデルパフォーマンスを向上させることを可能にする。 しかしながら、既存のVFLアプローチでは、VFLの展開フェーズにおいて、パッシブパーティが予期せず停止したときの2つの大きな脆弱性がある。 本稿では,VFLモデルにおける受動的離脱に対するロバスト性向上のための「textbf{Party-wise Dropout}」と,展開フェーズにおけるアクティブパーティのIPを保護する「textbf{DIMIP}」という防衛手法を提案する。 提案手法を複数のデータセット上で異なる推論攻撃に対して評価する。 その結果,パッシブパーティが終了しても,パーティ毎のドロップアウトはモデル性能を効果的に維持でき,dimipはパッシブパーティの特徴抽出器からラベル情報を偽装してipリークを軽減できた。

Vertical federated learning (VFL) enables a service provider (i.e., active party) who owns labeled features to collaborate with passive parties who possess auxiliary features to improve model performance. Existing VFL approaches, however, have two major vulnerabilities when passive parties unexpectedly quit in the deployment phase of VFL - severe performance degradation and intellectual property (IP) leakage of the active party's labels. In this paper, we propose \textbf{Party-wise Dropout} to improve the VFL model's robustness against the unexpected exit of passive parties and a defense method called \textbf{DIMIP} to protect the active party's IP in the deployment phase. We evaluate our proposed methods on multiple datasets against different inference attacks. The results show that Party-wise Dropout effectively maintains model performance after the passive party quits, and DIMIP successfully disguises label information from the passive party's feature extractor, thereby mitigating IP leakage.
翻訳日:2023-04-09 05:54:54 公開日:2023-03-28
# スマートグリッドにおける故障予測システムに対する機械誘導逆攻撃

Machine-learned Adversarial Attacks against Fault Prediction Systems in Smart Electrical Grids ( http://arxiv.org/abs/2303.18136v1 )

ライセンス: Link先を確認
Carmelo Ardito, Yashar Deldjoo, Tommaso Di Noia, Eugenio Di Sciascio, Fatemeh Nazary, Giovanni Servedio(参考訳) スマートな電気グリッドでは、障害検出タスクは経済的かつ重要な意味を持つため、社会に大きな影響を与える可能性がある。 近年、欠陥検出や負荷予測といった多くのスマートグリッドアプリケーションが、データ駆動手法を採用しています。 本研究の目的は、スマートグリッドシナリオにおける機械学習(ML)アプリケーションのセキュリティに関する課題を検討することである。 実際、これらのデータ駆動アルゴリズムの堅牢性とセキュリティは、すべての電力グリッドアプリケーションに関して広く研究されていない。 まず,スマートグリッドにおけるディープニューラルネットワーク手法が,逆摂動の影響を受けやすいことを示す。 そこで我々は,スマートグリッドにおける現在のMLアルゴリズムの弱点を,障害の局所化と型分類で示す方法を強調した。

In smart electrical grids, fault detection tasks may have a high impact on society due to their economic and critical implications. In the recent years, numerous smart grid applications, such as defect detection and load forecasting, have embraced data-driven methodologies. The purpose of this study is to investigate the challenges associated with the security of machine learning (ML) applications in the smart grid scenario. Indeed, the robustness and security of these data-driven algorithms have not been extensively studied in relation to all power grid applications. We demonstrate first that the deep neural network method used in the smart grid is susceptible to adversarial perturbation. Then, we highlight how studies on fault localization and type classification illustrate the weaknesses of present ML algorithms in smart grids to various adversarial attacks
翻訳日:2023-04-09 05:54:34 公開日:2023-03-28
# 多エージェント値分解における冗長性の課題

The challenge of redundancy on multi-agent value factorisation ( http://arxiv.org/abs/2304.00009v1 )

ライセンス: Link先を確認
Siddarth Singh and Benjamin Rosman(参考訳) 協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは、中央批判者が中央状態に基づいて協調エージェントの政策を条件付ける集中型トレーニングと分散実行の使用である。 多くの冗長エージェントの場合、これらのメソッドは効果が低下することが示されている。 より一般的な場合、タスクの解決に必要なものよりも多くのエージェントが環境に存在している可能性が高い。 これらの冗長なエージェントは、状態空間の両次元を拡大し、環境解決に使用される共同ポリシーのサイズを増やすことで性能を低下させる。 本稿では,結合値関数の学習と局所報酬信号の生成を分離し,新しいMARLアルゴリズムであるRelevance decomposition Network(RDN)を作成するために,レイヤワイズ関連伝搬(LRP)を活用することを提案する。 VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。

In the field of cooperative multi-agent reinforcement learning (MARL), the standard paradigm is the use of centralised training and decentralised execution where a central critic conditions the policies of the cooperative agents based on a central state. It has been shown, that in cases with large numbers of redundant agents these methods become less effective. In a more general case, there is likely to be a larger number of agents in an environment than is required to solve the task. These redundant agents reduce performance by enlarging the dimensionality of both the state space and and increasing the size of the joint policy used to solve the environment. We propose leveraging layerwise relevance propagation (LRP) to instead separate the learning of the joint value function and generation of local reward signals and create a new MARL algorithm: relevance decomposition network (RDN). We find that although the performance of both baselines VDN and Qmix degrades with the number of redundant agents, RDN is unaffected.
翻訳日:2023-04-09 05:43:58 公開日:2023-03-28
# Sejarah dan Perkembangan Teknik Natural Language Processing (NLP) Bahasa Indonesia: Tinjauan tentang sejarah, perkembangan teknologi, dan aplikasi NLP dalam bahasa Indonesia

Sejarah dan Perkembangan Teknik Natural Language Processing (NLP) Bahasa Indonesia: Tinjauan tentang sejarah, perkembangan teknologi, dan aplikasi NLP dalam bahasa Indonesia ( http://arxiv.org/abs/2304.02746v1 )

ライセンス: Link先を確認
Mukhlis Amien(参考訳) 本研究は,インドネシア語の文脈における自然言語処理(nlp)開発の歴史を概観し,開発されてきた基礎技術,手法,実践的応用に焦点をあてたものである。 本稿では,steming,part-of-speech tagging,および関連する手法,言語間情報検索システム,情報抽出,感情分析における実践的応用,およびインドネシア語nlp研究における機械学習,統計に基づく機械翻訳,コンフリクトベースアプローチなどの手法と手法について述べる。 本研究は,インドネシア語産業におけるNLPの適用について検討し,インドネシア語NLPの研究開発における課題と機会を明らかにする。 将来のインドネシア語によるNLP研究・開発への勧告には、より効率的な方法や技術の開発、NLPアプリケーションの拡大、持続可能性の向上、NLPの可能性のさらなる研究、学際協力の促進などが含まれる。 このレビューは、インドネシア語nlpの発展を理解し、さらなる研究と発展の機会を特定するために、研究者、実践者、政府に役立つと期待されている。

This study provides an overview of the history of the development of Natural Language Processing (NLP) in the context of the Indonesian language, with a focus on the basic technologies, methods, and practical applications that have been developed. This review covers developments in basic NLP technologies such as stemming, part-of-speech tagging, and related methods; practical applications in cross-language information retrieval systems, information extraction, and sentiment analysis; and methods and techniques used in Indonesian language NLP research, such as machine learning, statistics-based machine translation, and conflict-based approaches. This study also explores the application of NLP in Indonesian language industry and research and identifies challenges and opportunities in Indonesian language NLP research and development. Recommendations for future Indonesian language NLP research and development include developing more efficient methods and technologies, expanding NLP applications, increasing sustainability, further research into the potential of NLP, and promoting interdisciplinary collaboration. It is hoped that this review will help researchers, practitioners, and the government to understand the development of Indonesian language NLP and identify opportunities for further research and development.
翻訳日:2023-04-09 05:25:56 公開日:2023-03-28
# CHATGPTの比較分析と言語モデルの進化

Comparative Analysis of CHATGPT and the evolution of language models ( http://arxiv.org/abs/2304.02468v1 )

ライセンス: Link先を確認
Oluwatosin Ogundare, Gustavo Quiros Araya(参考訳) 大規模言語モデル(LLM)への関心は、ChatGPTの出現と、自然言語処理(NLP)におけるタスクの実行容易性に対する顕著な肯定的な社会的反応から、飛躍的に高まっている。 しかし、ChatGPTの勝利は、言語生成と知識モデルとの相違をシームレスに橋渡しする方法である。 場合によっては、知識領域に人間の直感を複製する枠組みの逸話的な証拠を提供する。 本稿では, 機械翻訳, 機械要約, 質問応答, 言語生成など, NLPにおける一般的な概念を取り上げ, それぞれのカテゴリにおけるChatGPTの性能を, 自発品質(SQ)スコアを用いて比較する。 安全かつ大規模なLLMの導入例として,ChatGPTの議論と結果を検証するための戦略をまとめて提示する。

Interest in Large Language Models (LLMs) has increased drastically since the emergence of ChatGPT and the outstanding positive societal response to the ease with which it performs tasks in Natural Language Processing (NLP). The triumph of ChatGPT, however, is how it seamlessly bridges the divide between language generation and knowledge models. In some cases, it provides anecdotal evidence of a framework for replicating human intuition over a knowledge domain. This paper highlights the prevailing ideas in NLP, including machine translation, machine summarization, question-answering, and language generation, and compares the performance of ChatGPT with the major algorithms in each of these categories using the Spontaneous Quality (SQ) score. A strategy for validating the arguments and results of ChatGPT is presented summarily as an example of safe, large-scale adoption of LLMs.
翻訳日:2023-04-09 05:24:21 公開日:2023-03-28
# FeDiSa: 電力系統故障とサイバー攻撃識別のための半非同期フェデレーションラーニングフレームワーク

FeDiSa: A Semi-asynchronous Federated Learning Framework for Power System Fault and Cyberattack Discrimination ( http://arxiv.org/abs/2303.16956v1 )

ライセンス: Link先を確認
Muhammad Akbar Husnoo, Adnan Anwar, Haftu Tasew Reda, Nasser Hosseizadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss(参考訳) スマートグリッドドメインにおけるセキュリティとプライバシの懸念が高まり、重要なエネルギーインフラへの侵入検知が近年重要になっている。 戦略的データ所有者によるプライバシ保護と分散パワーゾーンの課題に対処するため、フェデレーション学習(fl)は同時に、生データの共有を必要とせず、攻撃検出モデルの協調的なトレーニングを可能にする、現実的なプライバシ保存代替手段として浮上してきた。 従来の同期flに関連する技術的課題のいくつかに対処するため,本稿では,通信遅延やストラグラーを考慮した,電力系統障害とサイバー攻撃識別のための新しい半同期フェデレーション学習フレームワークfedisaを提案する。 具体的には,ローカルモデル更新を制御センタにアップロードし,バッファシステムとプリセットカットオフ時間に基づいて,新たなグローバルモデルパラメータに対して半同期モデル集約を行う,監督制御とデータ取得サブシステムによるディープオートエンコーダの協調トレーニングを提案する。 産業用制御システムデータセットを用いた提案フレームワークの実験により,データ機密性を維持しつつ,通信遅延やストラグラーの悪影響を最小限に抑えながら,攻撃検出精度が向上した。 さらに,トレーニング時間の35%の改善が見られ,提案手法の堅牢性を検証する。

With growing security and privacy concerns in the Smart Grid domain, intrusion detection on critical energy infrastructure has become a high priority in recent years. To remedy the challenges of privacy preservation and decentralized power zones with strategic data owners, Federated Learning (FL) has contemporarily surfaced as a viable privacy-preserving alternative which enables collaborative training of attack detection models without requiring the sharing of raw data. To address some of the technical challenges associated with conventional synchronous FL, this paper proposes FeDiSa, a novel Semi-asynchronous Federated learning framework for power system faults and cyberattack Discrimination which takes into account communication latency and stragglers. Specifically, we propose a collaborative training of deep auto-encoder by Supervisory Control and Data Acquisition sub-systems which upload their local model updates to a control centre, which then perform a semi-asynchronous model aggregation for a new global model parameters based on a buffer system and a preset cut-off time. Experiments on the proposed framework using publicly available industrial control systems datasets reveal superior attack detection accuracy whilst preserving data confidentiality and minimizing the adverse effects of communication latency and stragglers. Furthermore, we see a 35% improvement in training time, thus validating the robustness of our proposed method.
翻訳日:2023-03-31 15:32:57 公開日:2023-03-28
# モバイルソーシャルネットワーク不正検出のためのコスト感性GNNに基づく不均衡学習

Cost Sensitive GNN-based Imbalanced Learning for Mobile Social Network Fraud Detection ( http://arxiv.org/abs/2303.17486v1 )

ライセンス: Link先を確認
Xinxin Hu, Haotian Chen, Hongchang Chen, Shuxin Liu, Xing Li, Shibo Zhang, Yahui Wang, and Xiangyang Xue(参考訳) モバイルネットワークの急速な発展に伴い、人々の社会的接触は大幅に促進された。 しかし、これらのネットワークに対するモバイルソーシャルネットワーク詐欺の台頭は、個人や社会の富を枯渇させ、経済的に重大な損害を与える可能性がある場合に、大きな苦痛を引き起こした。 不正ユーザを検出するために,モバイルネットワークにおけるユーザの社会的行動を表すコールディテールレコード(CDR)データが広く利用されている。 しかし、前述のデータにおける不均衡問題は、グラフニューラルネットワーク(GNN)に基づく不正検出の有効性を著しく阻害する可能性があるため、これまでの研究ではほとんど解決されていない。 本稿では,コストに敏感な学習とグラフニューラルネットワークを創造的に組み合わせ,コストに敏感なグラフニューラルネットワーク(csgnn)を提案する。 我々は,オープンソースの2つの実世界のモバイルネットワーク詐欺データセットについて広範な実験を行う。 その結果,csgnnはグラフの不均衡問題を効果的に解決し,最先端アルゴリズムよりも優れた検出性能を実現することができた。 我々の研究は、他の分野におけるグラフの不均衡問題の解決に応用できると信じている。 CSGNNのコードとデータセットはhttps://github.com/xxhu94/CSGNNで公開されている。

With the rapid development of mobile networks, the people's social contacts have been considerably facilitated. However, the rise of mobile social network fraud upon those networks, has caused a great deal of distress, in case of depleting personal and social wealth, then potentially doing significant economic harm. To detect fraudulent users, call detail record (CDR) data, which portrays the social behavior of users in mobile networks, has been widely utilized. But the imbalance problem in the aforementioned data, which could severely hinder the effectiveness of fraud detectors based on graph neural networks(GNN), has hardly been addressed in previous work. In this paper, we are going to present a novel Cost-Sensitive Graph Neural Network (CSGNN) by creatively combining cost-sensitive learning and graph neural networks. We conduct extensive experiments on two open-source realworld mobile network fraud datasets. The results show that CSGNN can effectively solve the graph imbalance problem and then achieve better detection performance than the state-of-the-art algorithms. We believe that our research can be applied to solve the graph imbalance problems in other fields. The CSGNN code and datasets are publicly available at https://github.com/xxhu94/CSGNN.
翻訳日:2023-03-31 13:03:18 公開日:2023-03-28
# オープン量子ダイナミクスの限界を探る I: モチベーション, トイモデルから応用への新たな成果

Exploring the Limits of Open Quantum Dynamics I: Motivation, New Results from Toy Models to Applications ( http://arxiv.org/abs/2003.06018v4 )

ライセンス: Link先を確認
Thomas Schulte-Herbr\"uggen, Frederik vom Ende, Gunther Dirr(参考訳) オープンマルコビアン$n$レベルの量子システムを制御することで、どの量子状態に到達できるのか? ここでは、コヒーレントに制御可能な量子系の到達可能な集合を、温度t$の熱浴に交換可能な結合で扱う。 中心的な問題は、標準的なシンプルさの点を研究するおもちゃモデルに還元され、2種類の制御が可能になった。 i) 単純体内の置換 (ii)散逸半群による収縮。 図示により、この問題を文脈に置き、元の制御されたマルコフ量子系の到達可能な集合にどう関係するかを示す。 例の$t=0$ (振幅減衰) の他に、$d$-majorization のメソッドを使って $0 <t < \infty$ の新しい結果を示す。

Which quantum states can be reached by controlling open Markovian $n$-level quantum systems? Here, we address reachable sets of coherently controllable quantum systems with switchable coupling to a thermal bath of temperature $T$. The core problem reduces to a toy model of studying points in the standard simplex allowing for two types of controls: (i) permutations within the simplex, (ii) contractions by a dissipative semigroup. By illustration, we put the problem into context and show how toy-model solutions pertain to the reachable set of the original controlled Markovian quantum system. Beyond the case $T=0$ (amplitude damping) we present new results for $0 <T < \infty$ using methods of $d$-majorisation.
翻訳日:2023-03-30 20:16:39 公開日:2023-03-28
# オープン量子ダイナミクスの限界を探る II: 正規化の観点からのギブス保存マップ

Exploring the Limits of Open Quantum Dynamics II: Gibbs-Preserving Maps from the Perspective of Majorization ( http://arxiv.org/abs/2003.04164v5 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 熱浴に結合したコヒーレントに制御されたオープン量子システムにおける到達可能性の問題と、熱・ベクトル大乗化の分野の最近の進歩により、古典的メジャー化を単位的量子チャネルから任意の不動点$d$のチャネルへ一般化する。 そのようなチャネルはギブス状態を保持し、量子熱力学、特に熱大化の資源理論において重要な役割を果たす。 これに基づいて、一意の極大元や極小元の存在など、その位相的および順序的性質の観点から行列上のD$-majorizationを調査する。 さらに、トレースノルムを通したqubitの場合の$D$-majorizationを特徴付け、これが2次元を越える上で難しい課題である理由を詳述する。

Motivated by reachability questions in coherently controlled open quantum systems coupled to a thermal bath, as well as recent progress in the field of thermo-/vector-majorization we generalize classical majorization from unital quantum channels to channels with an arbitrary fixed point $D$ of full rank. Such channels preserve some Gibbs-state and thus play an important role in the resource theory of quantum thermodynamics, in particular in thermo-majorization. Based on this we investigate $D$-majorization on matrices in terms of its topological and order properties, such as existence of unique maximal and minimal elements, etc. Moreover we characterize $D$-majorization in the qubit case via the trace norm and elaborate on why this is a challenging task when going beyond two dimensions.
翻訳日:2023-03-30 20:16:26 公開日:2023-03-28
# Scenic4RL:強化学習環境のモデリングと生成

Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments ( http://arxiv.org/abs/2106.10365v2 )

ライセンス: Link先を確認
Abdus Salam Azad, Edward Kim, Qiancheng Wu, Kimin Lee, Ion Stoica, Pieter Abbeel, and Sanjit A. Seshia(参考訳) 強化学習エージェント(RL)の能力は、環境によって生成される学習シナリオの多様性に大きく依存する。 リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。 RTS環境は、知的実体/非RLエージェントが長い時間にわたってRLエージェントと協力し、大きな状態とアクション空間と競合することで特徴づけられ、結果として、RLエージェントと非RLエージェントの間で複雑な相互作用を伴う無限の現実的空間が生まれる。 しかし、既存のシミュレータのほとんどは、事前定義された設定/レイアウトに基づいて環境をランダムに生成することに依存しており、研究者が要求に応じて多様で現実的なシナリオを生成するために、環境ダイナミクスの柔軟性と制御が限定されている。 この問題に対処するために,我々は,rts環境における多様なシナリオを柔軟かつ体系的かつプログラム的にモデル化・生成するための,既存の形式的シナリオ仕様言語であるsportableの採用の利点を初めて正式に紹介する。 この利点を示すために、SCENICを既存のRTS環境であるGoogle Research Football(GRF)シミュレータにインターフェースし、SCENICでエンコードされた32の現実シナリオからなるベンチマークを導入し、RLエージェントのトレーニングと一般化機能のテストを行った。 また、SCENICを用いて確率的プログラムポリシーを直感的にモデル化することにより、研究者やRL実践者がドメイン知識を組み込んでトレーニングプロセスの迅速化を図る方法を示す。

The capability of a reinforcement learning (RL) agent heavily depends on the diversity of the learning scenarios generated by the environment. Generation of diverse realistic scenarios is challenging for real-time strategy (RTS) environments. The RTS environments are characterized by intelligent entities/non-RL agents cooperating and competing with the RL agents with large state and action spaces over a long period of time, resulting in an infinite space of feasible, but not necessarily realistic, scenarios involving complex interaction among different RL and non-RL agents. Yet, most of the existing simulators rely on randomly generating the environments based on predefined settings/layouts and offer limited flexibility and control over the environment dynamics for researchers to generate diverse, realistic scenarios as per their demand. To address this issue, for the first time, we formally introduce the benefits of adopting an existing formal scenario specification language, SCENIC, to assist researchers to model and generate diverse scenarios in an RTS environment in a flexible, systematic, and programmatic manner. To showcase the benefits, we interfaced SCENIC to an existing RTS environment Google Research Football(GRF) simulator and introduced a benchmark consisting of 32 realistic scenarios, encoded in SCENIC, to train RL agents and testing their generalization capabilities. We also show how researchers/RL practitioners can incorporate their domain knowledge to expedite the training process by intuitively modeling stochastic programmatic policies with SCENIC.
翻訳日:2023-03-30 19:30:13 公開日:2023-03-28
# 最大絡み合った状態を用いた非局所ゲームに対するラウンドング準最適量子戦略

Rounding near-optimal quantum strategies for nonlocal games to strategies using maximally entangled states ( http://arxiv.org/abs/2203.02525v2 )

ライセンス: Link先を確認
Connor Paddock(参考訳) 同期系、二項制約系、および XOR の非局所ゲームに対して、任意の状態を持つ準最適有限次元量子戦略がそれらの非局所ゲーム代数の近似表現であることを示す。 また、これらの非局所ゲーム代数の有限次元近似表現は、プレイヤーが最大交絡状態を使用するような準最適戦略に近いことを示す。 共役として、準最適量子戦略は最大に絡み合った状態を用いる準最適量子戦略に近いことを示す。

For the classes of synchronous, binary constraint systems, and XOR nonlocal games, we show that near-optimal finite-dimensional quantum strategies with arbitrary states are approximate representations of their affiliated nonlocal game algebra. We also show that finite-dimensional approximate representations of these nonlocal game algebras are close to near-optimal strategies where the players employ a maximally entangled state. As a corollary, we show that near-optimal quantum strategies are close to a near-optimal quantum strategy that uses a maximally entangled state.
翻訳日:2023-03-30 19:21:49 公開日:2023-03-28
# HARPS:人間支援ロボット計画とセンシングのためのオンラインPOMDPフレームワーク

HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and Sensing ( http://arxiv.org/abs/2110.10324v4 )

ライセンス: Link先を確認
Luke Burks, Hunter M. Ray, Jamison McGinley, Sousheel Vunnam, and Nisar Ahmed(参考訳) 自律ロボットは、不確実なタスク環境や状態の人間が提供するセマンティックな特徴から大きな恩恵を受けることができる。 しかし,ロボットがこのような「ソフトデータ」をモデル化し,伝達し,動作させることができる統合戦略の開発はいまだに困難である。 そこで,HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは,オンラインサンプリングベースのPOMDPポリシ,マルチモーダルセマンティックインタラクション,ベイズデータ融合のメリットを正式に組み合わせることで,ロボットチームにおけるアクティブなセマンティックセンシングとプランニングを実現する。 このアプローチは、人間が任意のランドマークをスケッチし、ラベリングすることで、不確定な環境でモデル構造を付加し、セマンティックなソフトデータの範囲を拡張できる。 探索中の環境モデルの動的更新により、ロボットエージェントは人間に新しい意味的データを積極的にクエリし、未知の環境や状態の信念を改善し、オンライン計画を改善することができる。 大規模部分構造環境におけるuav対応目標探索アプリケーションのシミュレーションは、ロボットセンシングのみに基づく従来の計画に比べて、インターセプションに必要な時間と信念状態の推定が大幅に改善している。 同じ環境(n = 36)における人間の被験者研究は、単独のロボットの場合と比較して、動的目標捕捉率の平均倍率を示し、ユーザ特性やインタラクションのモダリティを越えて、アクティブな確率的推論とセマンティックセンシングの堅牢性を強調している。

Autonomous robots can benefit greatly from human-provided semantic characterizations of uncertain task environments and states. However, the development of integrated strategies which let robots model, communicate, and act on such 'soft data' remains challenging. Here, the Human Assisted Robotic Planning and Sensing (HARPS) framework is presented for active semantic sensing and planning in human-robot teams to address these gaps by formally combining the benefits of online sampling-based POMDP policies, multimodal semantic interaction, and Bayesian data fusion. This approach lets humans opportunistically impose model structure and extend the range of semantic soft data in uncertain environments by sketching and labeling arbitrary landmarks across the environment. Dynamic updating of the environment model while during search allows robotic agents to actively query humans for novel and relevant semantic data, thereby improving beliefs of unknown environments and states for improved online planning. Simulations of a UAV-enabled target search application in a large-scale partially structured environment show significant improvements in time and belief state estimates required for interception versus conventional planning based solely on robotic sensing. Human subject studies in the same environment (n = 36) demonstrate an average doubling in dynamic target capture rate compared to the lone robot case, and highlight the robustness of active probabilistic reasoning and semantic sensing over a range of user characteristics and interaction modalities.
翻訳日:2023-03-30 19:19:29 公開日:2023-03-28
# Squeeze All: 線形コンテキスト帯域に対する新しい推定器と自己正規化境界

Squeeze All: Novel Estimator and Self-Normalized Bound for Linear Contextual Bandits ( http://arxiv.org/abs/2206.05404v3 )

ライセンス: Link先を確認
Wonyoung Kim, Myunghee Cho Paik, Min-hwan Oh(参考訳) 我々は、$o(\sqrt{dt\log t})$ regret bound の線形文脈バンディットアルゴリズムを提案し、ここで$d$はコンテキストの次元であり、$t$は時間軸である。 提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。 ランダム化によって,提案した推定器は,すべてのアームのコンテキストから,選択したコンテキストからコントリビューションを受ける。 我々は、推定子に対する自己正規化境界を確立し、乗法項の代わりに累積後悔を \textit{additive} 次元依存項に分解することができる。 また、問題設定の下では$\Omega(\sqrt{dT})$という新しい下界も証明する。 したがって,提案アルゴリズムの後悔は対数因子に対する下限に一致する。 数値実験は理論的保証をサポートし,提案手法が既存の線形バンディットアルゴリズムより優れていることを示す。

We propose a linear contextual bandit algorithm with $O(\sqrt{dT\log T})$ regret bound, where $d$ is the dimension of contexts and $T$ isthe time horizon. Our proposed algorithm is equipped with a novel estimator in which exploration is embedded through explicit randomization. Depending on the randomization, our proposed estimator takes contributions either from contexts of all arms or from selected contexts. We establish a self-normalized bound for our estimator, which allows a novel decomposition of the cumulative regret into \textit{additive} dimension-dependent terms instead of multiplicative terms. We also prove a novel lower bound of $\Omega(\sqrt{dT})$ under our problem setting. Hence, the regret of our proposed algorithm matches the lower bound up to logarithmic factors. The numerical experiments support the theoretical guarantees and show that our proposed method outperforms the existing linear bandit algorithms.
翻訳日:2023-03-30 19:12:39 公開日:2023-03-28
# MobileOne:改善された1ミリ秒のモバイルバックボーン

MobileOne: An Improved One millisecond Mobile Backbone ( http://arxiv.org/abs/2206.04040v2 )

ライセンス: Link先を確認
Pavan Kumar Anasosalu Vasu and James Gabriel and Jeff Zhu and Oncel Tuzel and Anurag Ranjan(参考訳) モバイルデバイス用の効率的なニューラルネットワークバックボーンは、FLOPやパラメータカウントなどのメトリクスに最適化されることが多い。 しかし、これらのメトリクスは、モバイルデバイスにデプロイされるネットワークのレイテンシとよく相関しないかもしれない。 そこで我々は,複数のモバイルフレンドリなネットワークをモバイルデバイス上に配置することで,さまざまな指標を広範囲に分析する。 我々は、最近の効率的なニューラルネットワークにおけるアーキテクチャおよび最適化ボトルネックを特定し、分析し、これらのボトルネックを緩和する方法を提供する。 この目的のために、iPhone12上で1ミリ秒未満の推論時間を実現し、ImageNet上で75.9%の精度で、効率的なバックボーンMobileOneを設計する。 我々はmobileoneが効率の良いアーキテクチャで最先端のパフォーマンスを達成し、モバイルで何倍も速くなることを示す。 我々の最良のモデルは、ImageNetとMobileFormerで38倍高速なパフォーマンスを得る。 我々のモデルは、同様のレイテンシで、ImageNetでEfficientNetよりも2.3%優れたトップ1の精度を得る。 さらに,本モデルは,モバイル機器にデプロイする際の既存の効率的なアーキテクチャと比較して,レイテンシと精度が大幅に向上し,画像分類,オブジェクト検出,意味セグメンテーションといった複数のタスクに一般化することを示す。 コードとモデルはhttps://github.com/apple/ml-mobileoneで入手できる。

Efficient neural network backbones for mobile devices are often optimized for metrics such as FLOPs or parameter count. However, these metrics may not correlate well with latency of the network when deployed on a mobile device. Therefore, we perform extensive analysis of different metrics by deploying several mobile-friendly networks on a mobile device. We identify and analyze architectural and optimization bottlenecks in recent efficient neural networks and provide ways to mitigate these bottlenecks. To this end, we design an efficient backbone MobileOne, with variants achieving an inference time under 1 ms on an iPhone12 with 75.9% top-1 accuracy on ImageNet. We show that MobileOne achieves state-of-the-art performance within the efficient architectures while being many times faster on mobile. Our best model obtains similar performance on ImageNet as MobileFormer while being 38x faster. Our model obtains 2.3% better top-1 accuracy on ImageNet than EfficientNet at similar latency. Furthermore, we show that our model generalizes to multiple tasks - image classification, object detection, and semantic segmentation with significant improvements in latency and accuracy as compared to existing efficient architectures when deployed on a mobile device. Code and models are available at https://github.com/apple/ml-mobileone
翻訳日:2023-03-30 19:12:23 公開日:2023-03-28
# 原子干渉計によるT^{3}$スケールの普遍性試験

Universality-of-clock-rates test using atom interferometry with $T^{3}$ scaling ( http://arxiv.org/abs/2204.02156v3 )

ライセンス: Link先を確認
Fabio Di Pumpo, Alexander Friedrich, Christian Ufrecht, Enno Giese(参考訳) 重力の計量的記述は、今日の確立された理論として一般相対性理論として、アインシュタイン同値原理(EEP)によって要約された仮定に基づいている。 その違反は未知の物理学を示唆し、量子重力の発展のレバレッジとなる可能性がある。 原子時計は、(適切な)時間に接続された脳波の側面を探査する優れたシステムであり、局所的な位置不変性(LPI)をテストするための作業馬に進化した。 時間の操作的定義は局所化と理想化のクロックを必要とするが、原子のような量子系は本質的に非局所化される空間的重ね合わせを可能にする。 量子実験はEEPの他の側面を試験しているが、LPIの競合試験は行われていない。 我々は、クロックレート(LPIの1面)の普遍性をテストするための概念を、非局在量子時計を生成する原子干渉計に拡張する。 提案されたテストは適切な時間と適切なスケーリングに依存しており、ファウンテンクロックとは対照的に初期条件や反動効果に対して頑健である。 これは光学周波数を可能にし、投影された感度は最先端のローカライズクロックの1つを超える。 これらの結果は、古典的および局所的な哲学から切り離された時間の概念を拡張している。

Metric descriptions of gravitation, among them general relativity as today's established theory, are founded on assumptions summarized by the Einstein equivalence principle (EEP). Its violation would hint at unknown physics and could be a leverage for the development of quantum gravity. Atomic clocks are excellent systems to probe aspects of EEP connected to (proper) time and have evolved into a working horse for tests of local position invariance (LPI). Even though the operational definition of time requires localized and idealized clocks, quantum systems like atoms allow for spatial superpositions that are inherently delocalized. While quantum experiments have tested other aspects of EEP, no competitive test of LPI has been performed or proposed allowing for an intrinsic delocalization. We extend the concepts for tests of the universality of clock rates (one facet of LPI) to atom interferometry generating delocalized quantum clocks. The proposed test depends on proper time with a favorable scaling and is, in contrast to fountain clocks, robust against initial conditions and recoil effects. It enables optical frequencies so that the projected sensitivity exceeds the one of state-of-the-art localized clocks. These results extend our notion of time, detached from classical and localized philosophies.
翻訳日:2023-03-30 19:10:22 公開日:2023-03-28
# エンタングルマルチモード圧縮光を用いたラベルフリー量子超解像

Label-free quantum super-resolution imaging using entangled multi-mode squeezed light ( http://arxiv.org/abs/2207.10826v3 )

ライセンス: Link先を確認
Daniel Soh and Eric Chatterjee(参考訳) 本研究では,無ラベル光超解像イメージングにおけるマルチモード励起光の理論的応用について検討する。 バランスのとれたビームスプリッタの配列を通して、非常に絡み合ったマルチモードスプリッター光を生成し、シングルモードスプリット光入力を用いて、ショットノイズレベル以下のノイズ抑制と異常な絡み合いを持つマルチモード量子光状態を生成する。 これにより、撮像試料に同じ数の光子を用いる場合、古典的コヒーレント状態の撮像と比較して撮像誤差が大幅に減少する。 本研究では,画像システムのパラメータを最適化してハイゼンベルク画像の誤差限界を達成する方法を示し,エンタングルモードや光子の数を考慮した。 また,撮像系における光損失の影響についても検討し,光損失の程度に基づいて最適化パラメータの調整を要した。 現実的な応用として、この新しい量子イメージングアプローチは、非絡み合った非定常状態光を使用する古典的な撮像法と比較して、同じ画質を達成するために必要な光子の数を2桁に削減する。

In this study, we explore the theoretical application of entangled multi-mode squeezed light for label-free optical super-resolution imaging. By generating massively entangled multi-mode squeezed light through an array of balanced beam splitters, using a single-mode squeezed light input, we create a multi-mode quantum light state with exceptional entanglement and noise suppression below the shot noise level. This significantly reduces imaging measurement errors compared to classical coherent state light imaging when the same number of photons are used on the imaging sample. We demonstrate how to optimize the imaging system's parameters to achieve the Heisenberg imaging error limit, taking into account the number of entangled modes and photons used. We also examine the effects of optical losses in the imaging system, necessitating adjustments to the optimized parameters based on the degree of optical loss. In practical applications, this new quantum imaging approach reduces the number of photons needed to achieve the same image quality by two orders of magnitude compared to classical imaging methods that use non-entangled, non-squeezed coherent state light.
翻訳日:2023-03-30 19:03:42 公開日:2023-03-28
# ラテンアメリカの自然言語処理におけるバイアスと有害なステレオタイプを特徴付ける手法

A methodology to characterize bias and harmful stereotypes in natural language processing in Latin America ( http://arxiv.org/abs/2207.06591v3 )

ライセンス: Link先を確認
Laura Alonso Alemany, Luciana Benotti, Hern\'an Maina, Luc\'ia Gonz\'alez, Mariela Rajngewerc, Lautaro Mart\'inez, Jorge S\'anchez, Mauro Schilman, Guido Ivetta, Alexia Halvorsen, Amanda Mata Rojo, Mat\'ias Bordone, Beatriz Busaniche(参考訳) 自動意思決定システム、特に自然言語処理に基づくシステムは、私たちの生活に浸透しています。 それらは、毎日使っているインターネット検索エンジンの背後にあるだけでなく、仕事の候補者の選択、犯罪の容疑者の特定、自閉症の診断など、より重要な役割も担っている。 このような自動システムは、多くの点で有害なエラーを発生させるが、それは(健康上の問題のように)結果の重大さや、影響する人の数が多いためである。 自動システムによるエラーが他のシステムよりも人口に影響を与える場合、システムを「textit{biased}」と呼ぶ。 現代の自然言語技術のほとんどは、機械学習、すなわち言語モデルと単語埋め込みを用いて大量のテキストから得られた人工物に基づいている。 サブシンボリック機械学習(主に人工知能ニューラルネットワーク)を適用することで生成されるため、直接検査によって不透明で事実上解釈できないため、監査は非常に困難である。 本稿では,社会科学者,ドメイン専門家,機械学習の専門家が,単語埋め込みや大規模言語モデルにおいて,バイアスや有害なステレオタイプを協調的に探究する手法を提案する。 我々の方法論は以下の原則に基づいている: * 単語埋め込みと言語モデルに対する差別の言語的表現に焦点をあてる モデルの数学的性質ではなく、モデルの数学的特性に焦点をあてる * 差別専門家の技術的な障壁を減らす % 社会科学者、ドメインエキスパート、その他は、計量に基づくアプローチに加えて、定性的探索プロセスを通じて特徴づける * 後述のプロセスとしてではなく、トレーニングプロセスの一部としてのアドレス緩和に対処する

Automated decision-making systems, especially those based on natural language processing, are pervasive in our lives. They are not only behind the internet search engines we use daily, but also take more critical roles: selecting candidates for a job, determining suspects of a crime, diagnosing autism and more. Such automated systems make errors, which may be harmful in many ways, be it because of the severity of the consequences (as in health issues) or because of the sheer number of people they affect. When errors made by an automated system affect a population more than others, we call the system \textit{biased}. Most modern natural language technologies are based on artifacts obtained from enormous volumes of text using machine learning, namely language models and word embeddings. Since they are created by applying subsymbolic machine learning, mostly artificial neural networks, they are opaque and practically uninterpretable by direct inspection, thus making it very difficult to audit them. In this paper, we present a methodology that spells out how social scientists, domain experts, and machine learning experts can collaboratively explore biases and harmful stereotypes in word embeddings and large language models. Our methodology is based on the following principles: * focus on the linguistic manifestations of discrimination on word embeddings and language models, not on the mathematical properties of the models * reduce the technical barrier for discrimination experts%, be it social scientists, domain experts or other * characterize through a qualitative exploratory process in addition to a metric-based approach * address mitigation as part of the training process, not as an afterthought
翻訳日:2023-03-30 19:03:08 公開日:2023-03-28
# NovelCraft: オープンワールドにおけるノベルティ検出と発見のためのデータセット

NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds ( http://arxiv.org/abs/2206.11736v3 )

ライセンス: Link先を確認
Patrick Feeney, Sarah Schneider, Panagiotis Lymperopoulos, Li-Ping Liu, Matthias Scheutz, Michael C. Hughes(参考訳) 人工エージェントが環境変化におけるタスクを成功させるためには、新規性の検出と適応が可能である必要がある。 しかし、視覚ノベルティ検出研究は、もともとオブジェクト分類を意図したcifar-10のような再利用可能なデータセットのみを評価することが多い。 新しいベンチマークは、オープン世界の複雑なシーンをナビゲートする上での課題を表すために必要である。 新しいノベルクラフトデータセットは、イメージのマルチモーダルエピソードデータと、修正マインクラフト環境内でpogoスティックアセンブリタスクを完了するエージェントが見るシンボリックワールドステートを含む。 いくつかのエピソードでは、ゲームプレイに影響を与える可能性のある複雑な3dシーンに、さまざまなサイズの新しいオブジェクトを挿入する。 我々の視覚的ノベルティ検出ベンチマークは、偽陽性を制御する場合、より単純な代替手段によって、最もよく評価される手法が最も重要であることを発見した。 さらにマルチモーダルなノベルティ検出実験により、視覚情報とシンボル情報を融合する手法は、検出までの時間と全体的な識別を改善することが示唆された。 最後に,最近の一般化されたカテゴリ発見手法の評価から,複雑なシーンにおける新しい不均衡カテゴリへの適応はいまだにエキサイティングな問題であることが示唆された。

In order for artificial agents to successfully perform tasks in changing environments, they must be able to both detect and adapt to novelty. However, visual novelty detection research often only evaluates on repurposed datasets such as CIFAR-10 originally intended for object classification, where images focus on one distinct, well-centered object. New benchmarks are needed to represent the challenges of navigating the complex scenes of an open world. Our new NovelCraft dataset contains multimodal episodic data of the images and symbolic world-states seen by an agent completing a pogo stick assembly task within a modified Minecraft environment. In some episodes, we insert novel objects of varying size within the complex 3D scene that may impact gameplay. Our visual novelty detection benchmark finds that methods that rank best on popular area-under-the-curve metrics may be outperformed by simpler alternatives when controlling false positives matters most. Further multimodal novelty detection experiments suggest that methods that fuse both visual and symbolic information can improve time until detection as well as overall discrimination. Finally, our evaluation of recent generalized category discovery methods suggests that adapting to new imbalanced categories in complex scenes remains an exciting open problem.
翻訳日:2023-03-30 19:01:21 公開日:2023-03-28
# RMSEを超えて: 道路ユーザインタラクションのマシン学習モデルは、人間のような振る舞いを生み出すか?

Beyond RMSE: Do machine-learned models of road user interaction produce human-like behavior? ( http://arxiv.org/abs/2206.11110v2 )

ライセンス: Link先を確認
Aravinda Ramakrishnan Srinivasan, Yi-Shin Lin, Morris Antonello, Anthony Knittel, Mohamed Hasan, Majd Hawasly, John Redford, Subramanian Ramamoorthy, Matteo Leonetti, Jac Billington, Richard Romano, Gustav Markkula(参考訳) 自動運転車は、周囲の道路利用者の行動を予測するために、さまざまなセンサーとマシン学習モデルを使用する。 文学における機械学習モデルのほとんどは、モデルの能力を学習し報告するためのルート平均二乗誤差(RMSE)のような量的エラーメトリクスに焦点を当てている。 定量的エラーメトリクスにフォーカスすることは、モデルのより重要な振る舞いの側面を無視する傾向があり、これらのモデルが実際に人間のような振る舞いを予測するかどうかという疑問を提起する。 そこで本研究では,従来の行動研究で人間のデータを分析するように,機械学習モデルの出力を分析することを提案する。 自然主義高速道路運転データセットにおける3つの異なる行動現象の存在を示す定量的指標を導入する。 1)マージングポイントを最初に通過した者のキネマティクス依存性 2高速車両の車線変更による車線変更 3)幹線道路での車両衝突を避けるため、車線変更を行う。 そして,同じ指標を用いて3つの機械学習モデルの挙動を解析する。 モデルのrmse値は異なっていたが、全てのモデルはキネマティック依存のマージ行動を捉えたが、より微妙な礼儀正しい車線変更と高速道路の車線変更の挙動を捉えるのに苦労した。 さらに、車線変更時の衝突回避分析により、モデルが人間の運転の物理的側面を捉えるのに苦労したことが明らかとなった。 そこで本研究では,人間の運転予測の機械学習モデルの解析において,単純な量的指標の不十分さと,より広い行動観を捉える必要性を強調した。

Autonomous vehicles use a variety of sensors and machine-learned models to predict the behavior of surrounding road users. Most of the machine-learned models in the literature focus on quantitative error metrics like the root mean square error (RMSE) to learn and report their models' capabilities. This focus on quantitative error metrics tends to ignore the more important behavioral aspect of the models, raising the question of whether these models really predict human-like behavior. Thus, we propose to analyze the output of machine-learned models much like we would analyze human data in conventional behavioral research. We introduce quantitative metrics to demonstrate presence of three different behavioral phenomena in a naturalistic highway driving dataset: 1) The kinematics-dependence of who passes a merging point first 2) Lane change by an on-highway vehicle to accommodate an on-ramp vehicle 3) Lane changes by vehicles on the highway to avoid lead vehicle conflicts. Then, we analyze the behavior of three machine-learned models using the same metrics. Even though the models' RMSE value differed, all the models captured the kinematic-dependent merging behavior but struggled at varying degrees to capture the more nuanced courtesy lane change and highway lane change behavior. Additionally, the collision aversion analysis during lane changes showed that the models struggled to capture the physical aspect of human driving: leaving adequate gap between the vehicles. Thus, our analysis highlighted the inadequacy of simple quantitative metrics and the need to take a broader behavioral perspective when analyzing machine-learned models of human driving predictions.
翻訳日:2023-03-30 19:00:59 公開日:2023-03-28
# 圧縮VFL:垂直分割データによるコミュニケーション効率の高い学習

Compressed-VFL: Communication-Efficient Learning with Vertically Partitioned Data ( http://arxiv.org/abs/2206.08330v2 )

ライセンス: Link先を確認
Timothy Castiglia, Anirban Das, Shiqiang Wang, Stacy Patterson(参考訳) 垂直分割データにおける通信効率向上のための圧縮垂直フェデレート学習(C-VFL)を提案する。 C-VFLでは、サーバと複数のパーティが、複数のローカルイテレーションを使用して各機能のモデルを協調的にトレーニングし、定期的に圧縮された中間結果を共有する。 本研究は,メッセージ圧縮が垂直分割データに対する分散トレーニングに与える影響について,最初の理論的解析を提供する。 圧縮誤差がトレーニングの過程で限定されている場合、非凸対象の収束率を$o(\frac{1}{\sqrt{t}})$で証明する。 量子化やトップ$k$のスパーシフィケーションといった一般的な圧縮技術と収束するための特別な要件を提供する。 最後に, 圧縮なしでVFLの精度を著しく低下させることなく, 圧縮により通信コストを90 %以上削減できることを示す。

We propose Compressed Vertical Federated Learning (C-VFL) for communication-efficient training on vertically partitioned data. In C-VFL, a server and multiple parties collaboratively train a model on their respective features utilizing several local iterations and sharing compressed intermediate results periodically. Our work provides the first theoretical analysis of the effect message compression has on distributed training over vertically partitioned data. We prove convergence of non-convex objectives at a rate of $O(\frac{1}{\sqrt{T}})$ when the compression error is bounded over the course of training. We provide specific requirements for convergence with common compression techniques, such as quantization and top-$k$ sparsification. Finally, we experimentally show compression can reduce communication by over $90\%$ without a significant decrease in accuracy over VFL without compression.
翻訳日:2023-03-30 19:00:33 公開日:2023-03-28
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成

State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v5 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage(参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。 この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。 小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。 トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。

An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics.
翻訳日:2023-03-30 18:43:51 公開日:2023-03-28
# 明るい周波数コムを用いた量子増幅吸収分光

Quantum-enhanced absorption spectroscopy with bright squeezed frequency combs ( http://arxiv.org/abs/2209.15628v2 )

ライセンス: Link先を確認
Alexandre Belsley(参考訳) 吸収分光法は、低濃度でガス種を検出・評価する技術として広く用いられている。 本稿では、周波数変調分光の利点と、プローブ状態のスクイーズによるノイズ特性の低減を併用したセンシング戦略を提案する。 ホモダイン検出方式により、複数の周波数での吸収の同時測定が可能となり、吸収プロファイル間の分散に対して堅牢である。 我々は,スクイーズ係数に指数関数的にスケールする信号対雑音比の大幅な向上を予測した。 標準的な量子限界を超える等級の改善が可能で、最先端のスクイージングレベルにより高精度なガスセンシングが容易になる。

Absorption spectroscopy is a widely used technique that permits the detection and characterization of gas species at low concentrations. We propose a sensing strategy combining the advantages of frequency modulation spectroscopy with the reduced noise properties accessible by squeezing the probe state. A homodyne detection scheme allows the simultaneous measurement of the absorption at multiple frequencies and is robust against dispersion across the absorption profile. We predict a significant enhancement of the signal-to-noise ratio that scales exponentially with the squeezing factor. An order of magnitude improvement beyond the standard quantum limit is possible with state-of-the-art squeezing levels facilitating high precision gas sensing.
翻訳日:2023-03-30 18:42:57 公開日:2023-03-28
# SmallCap: 検索機能を強化した軽量画像キャプション

SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation ( http://arxiv.org/abs/2209.15323v2 )

ライセンス: Link先を確認
Rita Ramos, Bruno Martins, Desmond Elliott, Yova Kementchedjhieva(参考訳) 画像キャプションの最近の進歩は、データとモデルサイズをスケールすることに集中しており、事前学習と微調整のコストを大幅に高めている。 大規模モデルの代替として,入力画像に条件付きキャプションと,データストアから取得した関連キャプションを生成するSmallCapを提案する。 既存のCLIPエンコーダとGPT-2デコーダの間に新たに導入されたクロスアテンション層に唯一学習パラメータが存在するため,本モデルは軽量かつ高速にトレーニングできる。 SmallCapは、追加の微調整なしで新しいドメインに転送でき、データストアの内容を簡単に交換できるため、トレーニング不要で大規模データを活用できる。 実験の結果,COCOのみをトレーニングしたSmallCapは,このベンチマーク上での競合性能と,ターゲットドメインデータからの検索のみを通じて,再トレーニングなしで他のドメインに転送可能であることがわかった。 nocapsベンチマークなど、目に見えない視覚概念への一般化をテストするために設計されたさまざまなドメインに対して有効であることを証明した、多様な人間ラベルとwebデータのトレーニングフリーな活用によって、さらなる改善が達成されている。

Recent advances in image captioning have focused on scaling the data and model size, substantially increasing the cost of pre-training and finetuning. As an alternative to large models, we present SmallCap, which generates a caption conditioned on an input image and related captions retrieved from a datastore. Our model is lightweight and fast to train, as the only learned parameters are in newly introduced cross-attention layers between a pre-trained CLIP encoder and GPT-2 decoder. SmallCap can transfer to new domains without additional finetuning and can exploit large-scale data in a training-free fashion since the contents of the datastore can be readily replaced. Our experiments show that SmallCap, trained only on COCO, has competitive performance on this benchmark, and also transfers to other domains without retraining, solely through retrieval from target-domain data. Further improvement is achieved through the training-free exploitation of diverse human-labeled and web data, which proves to be effective for a range of domains, including the nocaps benchmark, designed to test generalization to unseen visual concepts.
翻訳日:2023-03-30 18:42:30 公開日:2023-03-28
# コード生成モデルの多言語評価

Multi-lingual Evaluation of Code Generation Models ( http://arxiv.org/abs/2210.14868v3 )

ライセンス: Link先を確認
Ben Athiwaratkun, Sanjay Krishna Gouda, Zijian Wang, Xiaopeng Li, Yuchen Tian, Ming Tan, Wasi Uddin Ahmad, Shiqi Wang, Qing Sun, Mingyue Shang, Sujan Kumar Gonugondla, Hantian Ding, Varun Kumar, Nathan Fulton, Arash Farahani, Siddhartha Jain, Robert Giaquinto, Haifeng Qian, Murali Krishna Ramanathan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang(参考訳) 本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。 これらのデータセットは10以上のプログラミング言語をカバーし、元のPythonデータセットからターゲット言語の対応するデータにプロンプトとテストケースをトランスパイルするスケーラブルな変換フレームワークを使用して生成される。 これらのベンチマークを用いて、コード生成モデルの性能を多言語方式で評価し、ドメイン外言語における言語モデルの一般化能力、単言語に対する多言語モデルの利点、モデルに新しい言語を教えるための数ショットプロンプト能力、単言語環境においてもゼロショット翻訳能力を見出した。 さらに,コード生成モデルを用いて大規模ブートストラップを行い,コード挿入やロバスト性,要約タスクなどのコード関連評価に使用可能な,いくつかの言語における合成正準解を得る。 全体的に、私たちのベンチマークは、言語モデルのコード生成能力をより深く理解するための重要なステップを示しています。 コードとデータセットはhttps://github.com/amazon-research/mxeval.comで公開しています。

We present new benchmarks on evaluation code generation models: MBXP and Multilingual HumanEval, and MathQA-X. These datasets cover over 10 programming languages and are generated using a scalable conversion framework that transpiles prompts and test cases from the original Python datasets into the corresponding data in the target language. Using these benchmarks, we are able to assess the performance of code generation models in a multi-lingual fashion, and discovered generalization ability of language models on out-of-domain languages, advantages of multi-lingual models over mono-lingual, the ability of few-shot prompting to teach the model new languages, and zero-shot translation abilities even on mono-lingual settings. Furthermore, we use our code generation model to perform large-scale bootstrapping to obtain synthetic canonical solutions in several languages, which can be used for other code-related evaluations such as code insertion, robustness, or summarization tasks. Overall, our benchmarks represents a significant step towards a deeper understanding of language models' code generation abilities. We publicly release our code and datasets at https://github.com/amazon-research/mxeval.
翻訳日:2023-03-30 18:34:33 公開日:2023-03-28
# FLEX:フルボディグラスなしフルボディグラス

FLEX: Full-Body Grasping Without Full-Body Grasps ( http://arxiv.org/abs/2211.11903v2 )

ライセンス: Link先を確認
Purva Tendulkar and D\'idac Sur\'is and Carl Vondrick(参考訳) シーンとリアルに対話する3dアバターの合成は、ar/vr、ビデオゲーム、ロボット工学のアプリケーションにとって重要な問題である。 この目標に向けて、私たちは仮想的な人間 -- 手と全身 -- が日常の物体をつかむタスクに対処します。 既存の手法では、オブジェクトと対話する人間の3Dデータセットを収集し、このデータをトレーニングすることでこの問題に対処する。 しかし、 1)これらの方法は,異なる対象の位置や方向,又は場面における家具の存在に一般化しない。 2) 生成する全身ポーズの多様性は極めて限定的である。 本研究は,3次元フルボディグリーティングデータを必要とせずに,現実的で多様なフルボディグリーティングを日常のシーンで生成する上での課題に対処する。 私たちの重要な洞察は、フルボディポーズとハンドグラブ前後の両方の存在を活用し、それらを3次元幾何学的制約を用いて構成し、フルボディグラブを得ることである。 我々は,これらの制約が,定量的にも定性的にも基準線よりも優れた,多種多様な人間の握力を生み出すことを実証的に検証した。 詳細は、私たちのWebページを参照してください。

Synthesizing 3D human avatars interacting realistically with a scene is an important problem with applications in AR/VR, video games and robotics. Towards this goal, we address the task of generating a virtual human -- hands and full body -- grasping everyday objects. Existing methods approach this problem by collecting a 3D dataset of humans interacting with objects and training on this data. However, 1) these methods do not generalize to different object positions and orientations, or to the presence of furniture in the scene, and 2) the diversity of their generated full-body poses is very limited. In this work, we address all the above challenges to generate realistic, diverse full-body grasps in everyday scenes without requiring any 3D full-body grasping data. Our key insight is to leverage the existence of both full-body pose and hand grasping priors, composing them using 3D geometrical constraints to obtain full-body grasps. We empirically validate that these constraints can generate a variety of feasible human grasps that are superior to baselines both quantitatively and qualitatively. See our webpage for more details: https://flex.cs.columbia.edu/.
翻訳日:2023-03-30 18:26:37 公開日:2023-03-28
# CRAFT: 説明可能性のための再帰的活性化FacTorization

CRAFT: Concept Recursive Activation FacTorization for Explainability ( http://arxiv.org/abs/2211.10154v2 )

ライセンス: Link先を確認
Thomas Fel, Agustin Picard, Louis Bethune, Thibaut Boissin, David Vigouroux, Julien Colin, R\'emi Cad\`ene, Thomas Serre(参考訳) モデル決定に影響を及ぼす画像の最も影響力のある領域を特定するためにヒートマップを使用する帰属法が、説明可能性のタイプとして広く普及している。 しかし、最近の研究では、これらの方法の限られた実用的価値が露呈されている。その一部は、画像の最も顕著な領域に焦点を絞っている -- モデルが「どこに」見えるかを明確にするが、その領域でモデルが見る「何」を解明できないためである。本研究では、このギャップをcraftで埋めようとしている。これは概念に基づく説明を生成することで「何」と「どこ」の両方を識別する新しいアプローチである。 自動概念抽出文献に新しい3つの要素を紹介する。 (i)レイヤ間の概念を検出し分解する再帰的戦略。 (ii)sobolインデックスを用いた概念重要度をより忠実に推定するための新しい方法 (三)概念属性マップのアンロックに暗黙の差別を用いること。 提案手法の利点を実証するために,人間とコンピュータの視覚実験を行った。 提案手法は,従来の手法よりもモデルに忠実であることを示す。 人間中心の実用ベンチマークで人間実験者の有用性を評価すると、3つのテストシナリオのうち2つで、このアプローチが大幅に改善することがわかった。 私たちのコードはgithub.com/deel-ai/Craftで無料で利用できます。

Attribution methods, which employ heatmaps to identify the most influential regions of an image that impact model decisions, have gained widespread popularity as a type of explainability method. However, recent research has exposed the limited practical value of these methods, attributed in part to their narrow focus on the most prominent regions of an image -- revealing "where" the model looks, but failing to elucidate "what" the model sees in those areas. In this work, we try to fill in this gap with CRAFT -- a novel approach to identify both "what" and "where" by generating concept-based explanations. We introduce 3 new ingredients to the automatic concept extraction literature: (i) a recursive strategy to detect and decompose concepts across layers, (ii) a novel method for a more faithful estimation of concept importance using Sobol indices, and (iii) the use of implicit differentiation to unlock Concept Attribution Maps. We conduct both human and computer vision experiments to demonstrate the benefits of the proposed approach. We show that the proposed concept importance estimation technique is more faithful to the model than previous methods. When evaluating the usefulness of the method for human experimenters on a human-centered utility benchmark, we find that our approach significantly improves on two of the three test scenarios. Our code is freely available at github.com/deel-ai/Craft.
翻訳日:2023-03-30 18:25:29 公開日:2023-03-28
# VGFlow: 可視性誘導型リポジショニングのためのフローネットワーク

VGFlow: Visibility guided Flow Network for Human Reposing ( http://arxiv.org/abs/2211.08540v4 )

ライセンス: Link先を確認
Rishabh Jain, Krishna Kumar Singh, Mayur Hemani, Jingwan Lu, Mausoom Sarkar, Duygu Ceylan, Balaji Krishnamurthy(参考訳) 人間の再現のタスクは、任意の知覚可能なポーズで立っている人の現実的なイメージを生成することである。 知覚的に正確な画像を生成するには複数の困難があり、既存の方法はテクスチャの保存、パターンコヒーレンス維持、布の境界の尊重、オクルージョンの扱い、皮膚生成の操作などの制限に悩まされている。 これらの困難は、人間のポーズ指向の可能な空間が大きくて可変であり、衣料品の性質は非常に非剛性であり、身体形状の多様性は人口によって大きく異なるという事実によってさらに悪化する。 これらの困難を緩和し、知覚的精度の高い画像を合成するために、VGFlowを提案する。 本モデルでは,視認性制御フローモジュールを用いて,ターゲットの可視・視認性を分離し,テクスチャ保存とスタイル操作を同時に行う。 さらに,異なる体型に取り組み,ネットワークアーティファクトを回避するために,自己教師付きパッチワイズによる「リアルネス」損失を取り入れ,出力を改善する。 VGFlowは、画像品質の指標(SSIM、LPIPS、FID)の質的、定量的に観察される最先端の結果を達成する。

The task of human reposing involves generating a realistic image of a person standing in an arbitrary conceivable pose. There are multiple difficulties in generating perceptually accurate images, and existing methods suffer from limitations in preserving texture, maintaining pattern coherence, respecting cloth boundaries, handling occlusions, manipulating skin generation, etc. These difficulties are further exacerbated by the fact that the possible space of pose orientation for humans is large and variable, the nature of clothing items is highly non-rigid, and the diversity in body shape differs largely among the population. To alleviate these difficulties and synthesize perceptually accurate images, we propose VGFlow. Our model uses a visibility-guided flow module to disentangle the flow into visible and invisible parts of the target for simultaneous texture preservation and style manipulation. Furthermore, to tackle distinct body shapes and avoid network artifacts, we also incorporate a self-supervised patch-wise "realness" loss to improve the output. VGFlow achieves state-of-the-art results as observed qualitatively and quantitatively on different image quality metrics (SSIM, LPIPS, FID).
翻訳日:2023-03-30 18:24:41 公開日:2023-03-28
# slicematch:クロスビューポーズ推定のための幾何誘導アグリゲーション

SliceMatch: Geometry-guided Aggregation for Cross-View Pose Estimation ( http://arxiv.org/abs/2211.14651v3 )

ライセンス: Link先を確認
Ted Lentsch, Zimin Xia, Holger Caesar, Julian F. P. Kooij(参考訳) 本研究は、局地画像の3Degrees-of-Freedomカメラポーズ、すなわち局所領域の空中画像の3Degrees-of-Freedomカメラポーズを判定するクロスビューカメラポーズ推定に対処する。 本研究では,地上および空中の特徴抽出器,特徴集約器,ポーズ予測器からなるSliceMatchを提案する。 特徴抽出器は、地上および空中画像から密集した特徴を抽出する。 候補となるカメラのポーズのセットが与えられたとき、フィーチャーアグリゲータは1つのグラウンドディスクリプタとポーズ依存の空中ディスクリプタを構成する。 特に,新しい空中機能アグリゲータは,地上視点誘導空中特徴選択のためのクロスビューアテンションモジュールを備え,地上画像における地上カメラの視聴フラスタムの幾何学的投影を利用して特徴をプールする。 航空ディスクリプタの効率的な構築は、事前に計算されたマスクを用いて達成される。 SliceMatchは対照的な学習を用いて訓練され、地上記述子と空中記述子との類似性比較としてポーズ推定が定式化される。 最先端と比較してslicematchは、同じvgg16バックボーンを毎秒150フレーム、resnet50バックボーンを使用する場合のエラーを50%削減して、vigorベンチマークで中央値のローカライズエラーを19%低減する。

This work addresses cross-view camera pose estimation, i.e., determining the 3-Degrees-of-Freedom camera pose of a given ground-level image w.r.t. an aerial image of the local area. We propose SliceMatch, which consists of ground and aerial feature extractors, feature aggregators, and a pose predictor. The feature extractors extract dense features from the ground and aerial images. Given a set of candidate camera poses, the feature aggregators construct a single ground descriptor and a set of pose-dependent aerial descriptors. Notably, our novel aerial feature aggregator has a cross-view attention module for ground-view guided aerial feature selection and utilizes the geometric projection of the ground camera's viewing frustum on the aerial image to pool features. The efficient construction of aerial descriptors is achieved using precomputed masks. SliceMatch is trained using contrastive learning and pose estimation is formulated as a similarity comparison between the ground descriptor and the aerial descriptors. Compared to the state-of-the-art, SliceMatch achieves a 19% lower median localization error on the VIGOR benchmark using the same VGG16 backbone at 150 frames per second, and a 50% lower error when using a ResNet50 backbone.
翻訳日:2023-03-30 18:16:36 公開日:2023-03-28
# 非連続学習によるリンク予測

Link Prediction with Non-Contrastive Learning ( http://arxiv.org/abs/2211.14394v2 )

ライセンス: Link先を確認
William Shiao, Zhichun Guo, Tong Zhao, Evangelos E. Papalexakis, Yozen Liu, Neil Shah(参考訳) グラフニューラルネットワーク(GNN)の空間における最近の焦点領域は、ラベル付きデータなしで有用なノード表現を導出することを目的としたグラフ自己教師型学習(SSL)である。 特に、最先端のグラフSSLメソッドの多くは、正と負のサンプルを組み合わせてノード表現を学習するコントラスト的手法である。 負のサンプリング(スローネスとモデル感度)の課題のため、最近の文献では非競合的手法を導入し、代わりに正のサンプルのみを使用した。 このような手法はノードレベルのタスクで有望な性能を示すが、ノードのペア間のリンク存在の予測(およびレコメンデーションシステムコンテキストへの幅広い適用性)にかかわるリンク予測タスクへの適合性はまだ未解明である。 本研究では,トランスダクティブ設定とインダクティブ設定の両方において,リンク予測のための既存の非連続的手法の性能を広範囲に評価する。 既存の非推移的手法のほとんどは全体的な性能が悪いが、驚くべきことに、bgrlは一般的にトランスダクティブな設定でよく機能する。 しかし、モデルが見当たらないノードへのリンクを一般化する必要がある、より現実的なインダクティブな設定ではうまく機能しない。 我々は、非矛盾モデルがトレーニンググラフに過剰に適合する傾向にあり、この分析を用いて、モデルの一般化能力を改善するために、安価な腐敗を組み込んだ新しい非矛盾フレームワークであるt-bgrlを提案する。 この単純な修正によって、データセットの5/6でのインダクティブパフォーマンスが大幅に向上し、Hits@50の最大120%の改善が、他の非コントラストベースラインと同等の速度で、最高のパフォーマンスのコントラストベースラインよりも最大14倍高速になった。 我々の研究は、リンク予測のための非コントラスト学習に関する興味深い知見を与え、将来研究者がこの領域をさらに拡大する道を開く。

A recent focal area in the space of graph neural networks (GNNs) is graph self-supervised learning (SSL), which aims to derive useful node representations without labeled data. Notably, many state-of-the-art graph SSL methods are contrastive methods, which use a combination of positive and negative samples to learn node representations. Owing to challenges in negative sampling (slowness and model sensitivity), recent literature introduced non-contrastive methods, which instead only use positive samples. Though such methods have shown promising performance in node-level tasks, their suitability for link prediction tasks, which are concerned with predicting link existence between pairs of nodes (and have broad applicability to recommendation systems contexts) is yet unexplored. In this work, we extensively evaluate the performance of existing non-contrastive methods for link prediction in both transductive and inductive settings. While most existing non-contrastive methods perform poorly overall, we find that, surprisingly, BGRL generally performs well in transductive settings. However, it performs poorly in the more realistic inductive settings where the model has to generalize to links to/from unseen nodes. We find that non-contrastive models tend to overfit to the training graph and use this analysis to propose T-BGRL, a novel non-contrastive framework that incorporates cheap corruptions to improve the generalization ability of the model. This simple modification strongly improves inductive performance in 5/6 of our datasets, with up to a 120% improvement in Hits@50--all with comparable speed to other non-contrastive baselines and up to 14x faster than the best-performing contrastive baseline. Our work imparts interesting findings about non-contrastive learning for link prediction and paves the way for future researchers to further expand upon this area.
翻訳日:2023-03-30 18:16:10 公開日:2023-03-28
# マグネメカニクスを回避した動的バックアクション

Dynamical Backaction Evading Magnomechanics ( http://arxiv.org/abs/2211.13766v3 )

ライセンス: Link先を確認
C. A. Potts, Y. Huang, V. A. S. V Bittencourt, S. Viola Kusminskiy, J. P. Davis(参考訳) マグノンと機械振動の相互作用は、機械振動子の周波数や減衰速度などの特性を動的に変化させる。 動的バックアクション(Dynamical backaction)として知られるこの効果は、絡み合い発生や機械的基底状態冷却などの多くの理論的プロトコルの基礎となっている。 しかし、動的バックアクションは特定の用途にも有害である。 本稿では,動的バックアクション効果を完全に回避するキャビティマグノメカニカル計測の実装を示す。 注意深いエンジニアリングにより、ハイブリッドマグノン光子モードへのマグノメカニカル散乱速度は正確に一致し、動的バックアクション減衰を排除できる。 駆動力非依存の機械的線幅の測定により、バックアクション回避が確認される。

The interaction between magnons and mechanical vibrations dynamically modify the properties of the mechanical oscillator, such as its frequency and decay rate. Known as dynamical backaction, this effect is the basis for many theoretical protocols, such as entanglement generation or mechanical ground-state cooling. However, dynamical backaction is also detrimental for specific applications. Here, we demonstrate the implementation of a cavity magnomechanical measurement that fully evades dynamical backaction effects. Through careful engineering, the magnomechanical scattering rate into the hybrid magnon-photon modes can be precisely matched, eliminating dynamical backaction damping. Backaction evasion is confirmed via the measurement of a drive-power-independent mechanical linewidth.
翻訳日:2023-03-30 18:14:50 公開日:2023-03-28
# 自己教師型音声モデルの文脈認識微調整

Context-aware Fine-tuning of Self-supervised Speech Models ( http://arxiv.org/abs/2212.08542v2 )

ライセンス: Link先を確認
Suwon Shon, Felix Wu, Kwangyoun Kim, Prashant Sridhar, Karen Livescu, Shinji Watanabe(参考訳) 自己教師付き事前訓練型トランスフォーマーは、様々な音声タスクにおける技術状況を改善した。 自己アテンションの二次時間と空間複雑性のために、それらは通常比較的短いセグメント(例えば発話)のレベルで作用する。 本稿では, ファインチューニングにおけるコンテキスト, 周辺セグメントの利用について検討し, コンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。 事前学習したモデルの最後のレイヤの上にコンテキストモジュールをアタッチして、セグメント全体をコンテキスト埋め込みベクトルにエンコードし、最終予測のための追加機能として使用します。 微調整の段階では、このコンテキスト埋め込みベクトルを周囲のセグメントのコンテキストベクトルに類似させる補助的損失を導入する。 これにより、モデルが推論時にこれらの周辺セグメントにアクセスせずに予測を行うことができ、標準の微調整モデルに比べてほんの少しのオーバーヘッドしか必要としない。 SLUE と Libri-light のベンチマークを用いて,音声認識 (ASR), 名前付きエンティティ認識 (NER), 感情分析 (SA) の4つのダウンストリームタスクに対して提案手法を評価する。 その結果、文脈認識による微調整は、標準的な微調整ベースラインを上回るだけでなく、推論中に隣接する音声セグメントを使用する強い文脈注入ベースラインと競合することがわかった。

Self-supervised pre-trained transformers have improved the state of the art on a variety of speech tasks. Due to the quadratic time and space complexity of self-attention, they usually operate at the level of relatively short (e.g., utterance) segments. In this paper, we study the use of context, i.e., surrounding segments, during fine-tuning and propose a new approach called context-aware fine-tuning. We attach a context module on top of the last layer of a pre-trained model to encode the whole segment into a context embedding vector which is then used as an additional feature for the final prediction. During the fine-tuning stage, we introduce an auxiliary loss that encourages this context embedding vector to be similar to context vectors of surrounding segments. This allows the model to make predictions without access to these surrounding segments at inference time and requires only a tiny overhead compared to standard fine-tuned models. We evaluate the proposed approach using the SLUE and Libri-light benchmarks for several downstream tasks: Automatic speech recognition (ASR), named entity recognition (NER), and sentiment analysis (SA). The results show that context-aware fine-tuning not only outperforms a standard fine-tuning baseline but also rivals a strong context injection baseline that uses neighboring speech segments during inference.
翻訳日:2023-03-30 18:07:14 公開日:2023-03-28
# GazeNeRF:ニューラルラジアンス場を用いた3次元視線リダイレクト

GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields ( http://arxiv.org/abs/2212.04823v2 )

ライセンス: Link先を確認
Alessandro Ruzzi, Xiangwei Shi, Xi Wang, Gengyan Li, Shalini De Mello, Hyung Jin Chang, Xucong Zhang, Otmar Hilliges(参考訳) 視線リダイレクトのための3D認識手法であるGazeNeRFを提案する。 既存の視線リダイレクト法は2次元画像上で動作し、3次元一貫した結果を生成するのに苦労する。 その代わり、顔領域と眼球は3D構造であり、協調しているが独立して動くという直感に基づいている。 本手法は条件付き画像ベースニューラルラジアンスフィールドの最近の進歩を活用し,顔領域と眼領域の体積特性を別々に予測する2ストリームアーキテクチャを提案する。 3次元回転行列によって目の特徴を巧みに変換することで、所望の視角をきめ細かな制御が可能となる。 そして、最終的なリダイレクト画像は、微分可能なボリューム合成によって達成される。 実験の結果, この構造は, 鼻条件のNeRFベースラインと, 従来の2次元視線リダイレクト法を, リダイレクト精度とアイデンティティ保存の観点から上回ることがわかった。

We propose GazeNeRF, a 3D-aware method for the task of gaze redirection. Existing gaze redirection methods operate on 2D images and struggle to generate 3D consistent results. Instead, we build on the intuition that the face region and eyeballs are separate 3D structures that move in a coordinated yet independent fashion. Our method leverages recent advancements in conditional image-based neural radiance fields and proposes a two-stream architecture that predicts volumetric features for the face and eye regions separately. Rigidly transforming the eye features via a 3D rotation matrix provides fine-grained control over the desired gaze angle. The final, redirected image is then attained via differentiable volume compositing. Our experiments show that this architecture outperforms naively conditioned NeRF baselines as well as previous state-of-the-art 2D gaze redirection methods in terms of redirection accuracy and identity preservation.
翻訳日:2023-03-30 18:05:15 公開日:2023-03-28
# Jaccard Metric Losses: ソフトラベルによるJaccard Indexの最適化

Jaccard Metric Losses: Optimizing the Jaccard Index with Soft Labels ( http://arxiv.org/abs/2302.05666v2 )

ライセンス: Link先を確認
Zifu Wang and Matthew B. Blaschko(参考訳) IoU損失はJaccardインデックスを直接最適化するサロゲートである。 セグメンテーションにおいて、損失関数の一部としてIoU損失を活用することは、クロスエントロピー損失のみのような画素単位の損失を最適化するよりも、ジャカード指数測度に関して優れていることを示す。 IoUの最大の損失は、ソフトなジャカードの損失とロバスツ・ソフトマックスの損失である。 しかし、これらの損失は機械学習においてユビキタスなソフトラベルとは相容れない。 本稿では、ハードラベルの標準設定において、ソフトなジャカード損失と同一であるがソフトなラベルと互換性のあるジャカード計量損失(JML)を提案する。 JMLでは,ラベルスムース化と知識蒸留という,ソフトラベルの最も一般的な2つのユースケースについて検討した。 様々なアーキテクチャを用いて,3つの意味セグメンテーションデータセット (cityscapes, pascal voc, deepglobe land) におけるクロスエントロピー損失を大幅に改善した。 コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。

IoU losses are surrogates that directly optimize the Jaccard index. In semantic segmentation, leveraging IoU losses as part of the loss function is shown to perform better with respect to the Jaccard index measure than optimizing pixel-wise losses such as the cross-entropy loss alone. The most notable IoU losses are the soft Jaccard loss and the Lovasz-Softmax loss. However, these losses are incompatible with soft labels which are ubiquitous in machine learning. In this paper, we propose Jaccard metric losses (JMLs), which are identical to the soft Jaccard loss in a standard setting with hard labels, but are compatible with soft labels. With JMLs, we study two of the most popular use cases of soft labels: label smoothing and knowledge distillation. With a variety of architectures, our experiments show significant improvements over the cross-entropy loss on three semantic segmentation datasets (Cityscapes, PASCAL VOC and DeepGlobe Land), and our simple approach outperforms state-of-the-art knowledge distillation methods by a large margin. Code is available at: \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}.
翻訳日:2023-03-30 17:59:03 公開日:2023-03-28
# hac-net:高精度タンパク質結合親和性予測のための注意型畳み込みニューラルネットワーク

HAC-Net: A Hybrid Attention-Based Convolutional Neural Network for Highly Accurate Protein-Ligand Binding Affinity Prediction ( http://arxiv.org/abs/2212.12440v4 )

ライセンス: Link先を確認
Gregory W. Kyro, Rafael I. Brent, Victor S. Batista(参考訳) 画像検出とグラフ理論から深層学習の概念を適用することで、タンパク質-リガンド結合親和性予測が大幅に進歩し、薬物の発見とタンパク質工学の両方に多大な影響がもたらされた。 本研究では,チャネルワイズを利用した3次元畳み込みニューラルネットワークと,ノード特徴のアグリゲーションを利用した2つのグラフ畳み込みネットワークからなる,新しいディープラーニングアーキテクチャを設計することによって,これらの進歩の上に構築する。 HAC-Net(Hybrid Attention-Based Convolutional Neural Network)は、PDBbind v.2016コアセットの最先端の結果を得る。 実験と試験セットにおける複合体のタンパク質構造,タンパク質配列,リガンド拡張結合性指紋の差を最大化する複数の試験分割を用いて,我々のモデルの一般化可能性を評価する。 さらに、トレーニングおよびテストセットにおいて、SMILES文字列間の類似性の遮断を施した10倍のクロスバリデーションを行い、低品質データ上でのHAC-Netの性能を評価する。 我々は,このモデルを,構造に基づく生体分子特性予測に関連する幅広い教師付き学習問題に拡張できると考えている。 すべてのソフトウェアはhttps://github.com/gregory-kyro/HAC-Net/でオープンソースとして公開されています。

Applying deep learning concepts from image detection and graph theory has greatly advanced protein-ligand binding affinity prediction, a challenge with enormous ramifications for both drug discovery and protein engineering. We build upon these advances by designing a novel deep learning architecture consisting of a 3-dimensional convolutional neural network utilizing channel-wise attention and two graph convolutional networks utilizing attention-based aggregation of node features. HAC-Net (Hybrid Attention-Based Convolutional Neural Network) obtains state-of-the-art results on the PDBbind v.2016 core set, the most widely recognized benchmark in the field. We extensively assess the generalizability of our model using multiple train-test splits, each of which maximizes differences between either protein structures, protein sequences, or ligand extended-connectivity fingerprints of complexes in the training and test sets. Furthermore, we perform 10-fold cross-validation with a similarity cutoff between SMILES strings of ligands in the training and test sets, and also evaluate the performance of HAC-Net on lower-quality data. We envision that this model can be extended to a broad range of supervised learning problems related to structure-based biomolecular property prediction. All of our software is available as open source at https://github.com/gregory-kyro/HAC-Net/, and the HACNet Python package is available through PyPI.
翻訳日:2023-03-30 17:57:12 公開日:2023-03-28
# 決定論的不確実性手法の訓練, アーキテクチャ, 事前

Training, Architecture, and Prior for Deterministic Uncertainty Methods ( http://arxiv.org/abs/2303.05796v2 )

ライセンス: Link先を確認
Bertrand Charpentier, Chenxiang Zhang, Stephan G\"unnemann(参考訳) 信頼性の高い機械学習(ml)モデルを構築するには、正確で効率的な不確実性推定が不可欠であり、不確実性を校正し、分散(ood)データセットを一般化し、検出することができる。 この目的のために、決定論的不確実性法(dums)は、1回のフォワードパスで不確実性推定を行う有望なモデルファミリである。 本研究は,DUMにおける重要な設計選択について考察する。(1)コアアーキテクチャと不確実性ヘッドを分離したトレーニングスキームは,不確実性性能を大幅に改善できることを示す。 2) コアアーキテクチャ表現性は不確実性向上に不可欠であり, 機能崩壊を避けるためのアーキテクチャ制約がOODの一般化と検出のトレードオフを悪化させる可能性があることを示す。 (3) 他のベイズモデルとは対照的に, DUM が定義した事前定義が最終性能に強い影響を及ぼさないことを示す。

Accurate and efficient uncertainty estimation is crucial to build reliable Machine Learning (ML) models capable to provide calibrated uncertainty estimates, generalize and detect Out-Of-Distribution (OOD) datasets. To this end, Deterministic Uncertainty Methods (DUMs) is a promising model family capable to perform uncertainty estimation in a single forward pass. This work investigates important design choices in DUMs: (1) we show that training schemes decoupling the core architecture and the uncertainty head schemes can significantly improve uncertainty performances. (2) we demonstrate that the core architecture expressiveness is crucial for uncertainty performance and that additional architecture constraints to avoid feature collapse can deteriorate the trade-off between OOD generalization and detection. (3) Contrary to other Bayesian models, we show that the prior defined by DUMs do not have a strong effect on the final performances.
翻訳日:2023-03-30 17:38:34 公開日:2023-03-28
# 直接反復によるインバージョン:画像復元における拡散の代替

Inversion by Direct Iteration: An Alternative to Denoising Diffusion for Image Restoration ( http://arxiv.org/abs/2303.11435v2 )

ライセンス: Link先を確認
Mauricio Delbracio and Peyman Milanfar(参考訳) inversion by direct iteration (indi) は、いわゆる ‘regression to the mean' 効果を回避し、既存の回帰ベースの方法よりもリアルで詳細な画像を生成する、教師あり画像復元の新しい定式化である。 これは、生成的ノイズ拡散モデルと同様に、小さなステップで画像品質を徐々に改善することで実現している。 画像復元は、複数の高品質画像が与えられた低品質入力を再現できるような不適切な問題である。 したがって、単一の段階回帰モデルの結果は、通常、全ての可能な説明の集まりであり、したがって詳細と現実主義を欠いている。 InDIの主な利点は、単一のステップでクリーンなターゲット画像を予測するのではなく、小さなステップで徐々に画像を改善し、知覚的品質を向上させることである。 生成的減数化拡散モデルも小さなステップで作用するが、この定式化は分解過程の分析形式に関する知識を必要としないという点で異なる。 代わりに、低品質で高品質なペアリング例から反復的な復元プロセスを直接学習します。 InDIは、ペアのトレーニングデータから、事実上どんな画像劣化にも適用できる。 条件付き復調拡散画像復元において、劣化した入力に基づいて条件付き純雑音の初期画像を繰り返し復調して復調した画像を生成する。 条件付きデノージングの定式化とは対照的に、indiは入力された低品質の画像を反復的に復元し、動きや焦点外デブローリング、超解像、圧縮アーティファクト除去、デノージングなど様々な画像復元タスクで高品質な結果を生成することで直接進行する。

Inversion by Direct Iteration (InDI) is a new formulation for supervised image restoration that avoids the so-called ``regression to the mean'' effect and produces more realistic and detailed images than existing regression-based methods. It does this by gradually improving image quality in small steps, similar to generative denoising diffusion models. Image restoration is an ill-posed problem where multiple high-quality images are plausible reconstructions of a given low-quality input. Therefore, the outcome of a single step regression model is typically an aggregate of all possible explanations, therefore lacking details and realism. The main advantage of InDI is that it does not try to predict the clean target image in a single step but instead gradually improves the image in small steps, resulting in better perceptual quality. While generative denoising diffusion models also work in small steps, our formulation is distinct in that it does not require knowledge of any analytic form of the degradation process. Instead, we directly learn an iterative restoration process from low-quality and high-quality paired examples. InDI can be applied to virtually any image degradation, given paired training data. In conditional denoising diffusion image restoration the denoising network generates the restored image by repeatedly denoising an initial image of pure noise, conditioned on the degraded input. Contrary to conditional denoising formulations, InDI directly proceeds by iteratively restoring the input low-quality image, producing high-quality results on a variety of image restoration tasks, including motion and out-of-focus deblurring, super-resolution, compression artifact removal, and denoising.
翻訳日:2023-03-30 17:30:12 公開日:2023-03-28
# NAISR: 解釈可能な形状表現のための3次元ニューラル付加モデル

NAISR: A 3D Neural Additive Model for Interpretable Shape Representation ( http://arxiv.org/abs/2303.09234v3 )

ライセンス: Link先を確認
Yining Jiao, Carlton Zdanski, Julia Kimbell, Andrew Prince, Cameron Worden, Samuel Kirse, Christopher Rutter, Benjamin Shields, William Dunn, Jisan Mahmud, Marc Niethammer(参考訳) 深暗黙の関数(DIF)は、3次元形状の再構成、生成、登録、完了、編集、理解といった多くのコンピュータビジョンタスクの強力なパラダイムとして登場した。 しかし、関連する共変量を持つ一連の3次元形状が与えられると、各共変量に対する個々の依存を捉えながら正確に形状を表現できる形状表現法は存在しない。 このような手法は、形状の集団に隠された知識を発見する研究者にとって有用である。 直交共変量の影響に応じて形状アトラスを変形させることにより個々の形状を記述した3次元ニューラル付加モデル(NAISR)を提案する。 このアプローチは形状人口の傾向を捉え、形状伝達を通じて患者固有の予測を可能にする。 NAISRは、深い暗黙の形状表現の利点を特定の共変量に従って変形するアトラスと組み合わせる最初のアプローチである。 我々の運転問題は気道アトラスの構築であるが、AISRは形状の個体群をモデル化し、表現し、調査するための一般的なアプローチである。 小児上気道の形状再構成, 形状異方性, 形状変化, 形状移動について, NAISRを評価した。 実験により,NAAISRは解釈可能性を維持しながら,競争力のある形状復元性能を実現することを示した。

Deep implicit functions (DIFs) have emerged as a powerful paradigm for many computer vision tasks such as 3D shape reconstruction, generation, registration, completion, editing, and understanding. However, given a set of 3D shapes with associated covariates there is at present no shape representation method which allows to precisely represent the shapes while capturing the individual dependencies on each covariate. Such a method would be of high utility to researchers to discover knowledge hidden in a population of shapes. We propose a 3D Neural Additive Model for Interpretable Shape Representation (NAISR) which describes individual shapes by deforming a shape atlas in accordance to the effect of disentangled covariates. Our approach captures shape population trends and allows for patient-specific predictions through shape transfer. NAISR is the first approach to combine the benefits of deep implicit shape representations with an atlas deforming according to specified covariates. Although our driving problem is the construction of an airway atlas, NAISR is a general approach for modeling, representing, and investigating shape populations. We evaluate NAISR with respect to shape reconstruction, shape disentanglement, shape evolution, and shape transfer for the pediatric upper airway. Our experiments demonstrate that NAISR achieves competitive shape reconstruction performance while retaining interpretability.
翻訳日:2023-03-30 17:28:04 公開日:2023-03-28
# 多出力回帰タスクにおける深いアンサンブルによる校正不確かさの定量化に向けて

Towards Quantifying Calibrated Uncertainty via Deep Ensembles in Multi-output Regression Task ( http://arxiv.org/abs/2303.16210v1 )

ライセンス: Link先を確認
Sunwoong Yang, Kwanjung Yee(参考訳) ディープアンサンブルはベイズ推論を近似するための単純で単純なアプローチであり、多くの分類タスクにうまく適用されている。 本研究の目的は、多出力回帰タスクにおけるこのアプローチを包括的に検討し、ミサイル構成の空力性能を予測することである。 アンサンブルで使用されるニューラルネットワークの数の影響を精査することにより、推定不確実性における自信不足に対する明らかな傾向が観察される。 本研究では,ポストホック校正法を適用した深層アンサンブルフレームワークを提案し,その不確実性定量化性能の向上を実証する。 工学における不確実性定量化の最も一般的なモデルであるガウス過程回帰と比較され、回帰精度、推定不確実性の信頼性、訓練効率において優れた性能を持つことが証明されている。 最後に,提案手法がベイズ最適化の結果に及ぼす影響について検討し,深部アンサンブルが校正されるか否かが全く異なる探査特性をもたらすことを示した。 このフレームワークは、この研究で使われる特定の問題に対して特別な仮定がなされていないため、任意の回帰タスクにシームレスに適用および拡張することができる。

Deep ensemble is a simple and straightforward approach for approximating Bayesian inference and has been successfully applied to many classification tasks. This study aims to comprehensively investigate this approach in the multi-output regression task to predict the aerodynamic performance of a missile configuration. By scrutinizing the effect of the number of neural networks used in the ensemble, an obvious trend toward underconfidence in estimated uncertainty is observed. In this context, we propose the deep ensemble framework that applies the post-hoc calibration method, and its improved uncertainty quantification performance is demonstrated. It is compared with Gaussian process regression, the most prevalent model for uncertainty quantification in engineering, and is proven to have superior performance in terms of regression accuracy, reliability of estimated uncertainty, and training efficiency. Finally, the impact of the suggested framework on the results of Bayesian optimization is examined, showing that whether or not the deep ensemble is calibrated can result in completely different exploration characteristics. This framework can be seamlessly applied and extended to any regression task, as no special assumptions have been made for the specific problem used in this study.
翻訳日:2023-03-30 17:22:53 公開日:2023-03-28
# アクティブサンプリングを用いた病理組織学におけるデータ効率の良いコントラスト学習

Data Efficient Contrastive Learning in Histopatholgy using Active Sampling ( http://arxiv.org/abs/2303.16247v1 )

ライセンス: Link先を確認
Tahsin Reasat and David S. Smith(参考訳) ディープラーニングに基づく診断システムは、デジタル病理学において正確で堅牢な定量的分析を提供することができる。 これらのアルゴリズムの訓練には大量の注釈データが必要であり、病理組織像の分解能が高いため、病理学では非現実的である。 そこで,アドホックなプレテキストタスクを用いて特徴を学習するための自己指導手法が提案されている。 自己教師型トレーニングプロセスは時間がかかり、学習した特徴空間、特にデータ不均衡の下で顕著な制約が欠如しているため、しばしばサブパー機能表現につながる。 本研究では,少数のラベルと小さなプロキシネットワークを用いてトレーニングセットを積極的にサンプリングし,サンプル要求を93%削減し,トレーニング時間を99%削減することを提案する。

Deep Learning based diagnostics systems can provide accurate and robust quantitative analysis in digital pathology. Training these algorithms requires large amounts of annotated data which is impractical in pathology due to the high resolution of histopathological images. Hence, self-supervised methods have been proposed to learn features using ad-hoc pretext tasks. The self-supervised training process is time consuming and often leads to subpar feature representation due to a lack of constrain on the learnt feature space, particularly prominent under data imbalance. In this work, we propose to actively sample the training set using a handful of labels and a small proxy network, decreasing sample requirement by 93% and training time by 99%.
翻訳日:2023-03-30 17:11:49 公開日:2023-03-28
# ytopt:大規模エネルギー効率のための科学応用の自動化

ytopt: Autotuning Scientific Applications for Energy Efficiency at Large Scales ( http://arxiv.org/abs/2303.16245v1 )

ライセンス: Link先を確認
Xingfu Wu, Prasanna Balaprakash, Michael Kruse, Jaehoon Koo, Brice Videau, Paul Hovland, Valerie Taylor, Brad Geltz, Siddhartha Jana, and Mary Hall(参考訳) エクサスケールコンピューティング時代に入るにつれて、電力とエネルギーの制約の下での科学応用の効率と性能の最適化が重要かつ困難になっている。 本稿では,多種多様なハイブリッドMPI/OpenMP科学アプリケーションの性能とエネルギを大規模に自動チューニングする低オーバーヘッド自動チューニングフレームワークを提案し,アプリケーションランタイムと省エネアプリケーション実行のパワー/エネルギのトレードオフを探索し,このフレームワークを用いて4つのECPプロキシアプリケーション(XSBench,AMG,SWFFT,SW4lite)を自動チューニングする。 本手法は,ランダムフォレストサーロゲートモデルを用いたベイズ最適化を用いて,アルゴンヌ国立研究所のthetaとオークリッジ国立研究所のsummitという2つの大規模生産システム上で,600万以上の異なる構成のパラメータ空間を効果的に探索する。 実験の結果,大規模自動チューニングフレームワークのオーバーヘッドは低く,スケーラビリティも良好であることが判明した。 提案する自動チューニングフレームワークを用いて、最大91.59%のパフォーマンス改善、最大21.2%の省エネ、最大4,096ノードでの37.84%のedp改善を実現しました。

As we enter the exascale computing era, efficiently utilizing power and optimizing the performance of scientific applications under power and energy constraints has become critical and challenging. We propose a low-overhead autotuning framework to autotune performance and energy for various hybrid MPI/OpenMP scientific applications at large scales and to explore the tradeoffs between application runtime and power/energy for energy efficient application execution, then use this framework to autotune four ECP proxy applications -- XSBench, AMG, SWFFT, and SW4lite. Our approach uses Bayesian optimization with a Random Forest surrogate model to effectively search parameter spaces with up to 6 million different configurations on two large-scale production systems, Theta at Argonne National Laboratory and Summit at Oak Ridge National Laboratory. The experimental results show that our autotuning framework at large scales has low overhead and achieves good scalability. Using the proposed autotuning framework to identify the best configurations, we achieve up to 91.59% performance improvement, up to 21.2% energy savings, and up to 37.84% EDP improvement on up to 4,096 nodes.
翻訳日:2023-03-30 17:11:37 公開日:2023-03-28
# OCL生成のためのコーデックスプロンプトエンジニアリングについて:実証的研究

On Codex Prompt Engineering for OCL Generation: An Empirical Study ( http://arxiv.org/abs/2303.16244v1 )

ライセンス: Link先を確認
Seif Abukhalaf, Mohammad Hamdaqa, Foutse Khomh(参考訳) Object Constraint Language (OCL)は、MOFモデルに制約とオブジェクトクエリ式を追加する宣言型言語である。 UMLモデルに精度と簡潔性を提供する可能性にもかかわらず、OCLの馴染みのない構文は採用を妨げる。 GPT-3のような最近のLCMの進歩は、意味解析やテキスト生成を含む多くのNLPタスクにおいてその能力を示している。 gpt-3の子孫であるcodexはgithubから公開されているコードで微調整されており、多くのプログラミング言語でコードを生成することができる。 自然言語仕様からCodexが生成するOCL制約の信頼性について検討する。 これを実現するために、15のUMLモデルと168の仕様のデータセットをコンパイルし、ゼロショットと少数ショットの両方の学習手法を用いて、UML情報とターゲットタスクを投入するためのスロット付きプロンプトテンプレートを作成しました。 生成したOCL制約の構文的妥当性と実行精度の測定により,UML情報によるプロンプトの充実と,少数ショット学習の実現により,生成されたOCL制約の信頼性が向上することを発見した。 さらに, 生成したOCL制約と人間による制約との文の埋め込みから, コーデックスによる生成したOCL制約の明快さと理解可能性のレベルを示唆する文との密接な類似性を明らかにした。

The Object Constraint Language (OCL) is a declarative language that adds constraints and object query expressions to MOF models. Despite its potential to provide precision and conciseness to UML models, the unfamiliar syntax of OCL has hindered its adoption. Recent advancements in LLMs, such as GPT-3, have shown their capability in many NLP tasks, including semantic parsing and text generation. Codex, a GPT-3 descendant, has been fine-tuned on publicly available code from GitHub and can generate code in many programming languages. We investigate the reliability of OCL constraints generated by Codex from natural language specifications. To achieve this, we compiled a dataset of 15 UML models and 168 specifications and crafted a prompt template with slots to populate with UML information and the target task, using both zero- and few-shot learning methods. By measuring the syntactic validity and execution accuracy metrics of the generated OCL constraints, we found that enriching the prompts with UML information and enabling few-shot learning increases the reliability of the generated OCL constraints. Furthermore, the results reveal a close similarity based on sentence embedding between the generated OCL constraints and the human-written ones in the ground truth, implying a level of clarity and understandability in the generated OCL constraints by Codex.
翻訳日:2023-03-30 17:11:12 公開日:2023-03-28
# CuNeRF:Zero-Shot Medical Image Arbitrary-Scale Super Resolutionのための立方体型ニューラルネットワーク

CuNeRF: Cube-Based Neural Radiance Field for Zero-Shot Medical Image Arbitrary-Scale Super Resolution ( http://arxiv.org/abs/2303.16242v1 )

ライセンス: Link先を確認
Zixuan Chen, Jianhuang Lai, Lingxiao Yang, Xiaohua Xie(参考訳) 医用画像任意スケール超解像 (MIASSR) が最近注目され, 任意のスケールの医用ボリュームを1つのモデルで測定することを目指している。 しかし、既存のMIASSRメソッドには2つの大きな制限がある。 (i)高分解能(HR)ボリュームに依存して (ii)様々なシナリオでの応用を制限する一般化能力の制限。 これらの制限を克服するため、連続領域における任意のスケールと視点で医療画像を得ることができるゼロショットMIASSRフレームワークCuNeRF(Cue-based Neural Radiance Field)を提案する。 低分解能(LR)とHRボリュームのマッピングに適合する既存のMIASSR法とは異なり、CuNeRFはHR参照を必要とせずにLRボリュームから座標強度連続表現を構築することに焦点を当てている。 これは、キューブベースのサンプリング、等方性ボリュームレンダリング、キューブベースの階層的レンダリングを含む、提案された微分可能なモジュールによって達成される。 磁気リソースイメージング(MRI)とCTモダリティの広範な実験を通じて、CuNeRFは最先端MIASSR法より優れていることを示した。 CuNeRFは、より優れた視覚的Verisimilitudeをもたらし、様々なアップサンプリング要因におけるアーティファクトのエイリアスを低減する。 さらに、我々のCuNeRFはLR-HRトレーニングペアを一切必要とせず、他のものよりも柔軟で使いやすくなります。 私たちのコードはまもなく公開されます。

Medical image arbitrary-scale super-resolution (MIASSR) has recently gained widespread attention, aiming to super sample medical volumes at arbitrary scales via a single model. However, existing MIASSR methods face two major limitations: (i) reliance on high-resolution (HR) volumes and (ii) limited generalization ability, which restricts their application in various scenarios. To overcome these limitations, we propose Cube-based Neural Radiance Field (CuNeRF), a zero-shot MIASSR framework that can yield medical images at arbitrary scales and viewpoints in a continuous domain. Unlike existing MIASSR methods that fit the mapping between low-resolution (LR) and HR volumes, CuNeRF focuses on building a coordinate-intensity continuous representation from LR volumes without the need for HR references. This is achieved by the proposed differentiable modules: including cube-based sampling, isotropic volume rendering, and cube-based hierarchical rendering. Through extensive experiments on magnetic resource imaging (MRI) and computed tomography (CT) modalities, we demonstrate that CuNeRF outperforms state-of-the-art MIASSR methods. CuNeRF yields better visual verisimilitude and reduces aliasing artifacts at various upsampling factors. Moreover, our CuNeRF does not need any LR-HR training pairs, which is more flexible and easier to be used than others. Our code will be publicly available soon.
翻訳日:2023-03-30 17:10:48 公開日:2023-03-28
# Batch Updating および/または Approximate Gradients を用いたモーメントベースヘビーボール法の収束性

Convergence of Momentum-Based Heavy Ball Method with Batch Updating and/or Approximate Gradients ( http://arxiv.org/abs/2303.16241v1 )

ライセンス: Link先を確認
Tadipatri Uday Kiran Reddy and Mathukumalli Vidyasagar(参考訳) 本稿では,1964年に polyak が導入した凸および非凸最適化のための有名な "heavy ball" 法について検討し,その収束を様々な状況下で確立する。 伝統的に、ほとんどのアルゴリズムは「完全なコーディネート更新(full-coordinate update)」を使用しており、各ステップにおいて、引数の非常に重要なコンポーネントが更新される。 しかし、引数の次元が非常に高い場合、各イテレーションで引数のすべてのコンポーネントを更新するよりも効率的である。 本論文では,これを"バッチ更新"と呼ぶ。 勾配に基づくアルゴリズムがバッチ更新と共に使用される場合、原則として、引数が更新される勾配のコンポーネントのみを計算するのに十分である。 しかし、これらのコンポーネントの計算にバックプロパゲーションのような手法を使用する場合、勾配のいくつかのコンポーネントのみを計算すれば、勾配全体の計算よりも多くの節約が得られない。 したがって、各ステップにおけるCPU使用量の顕著な削減を実現するため、勾配を近似するために一階差を用いることができる。 結果の見積もりは偏りがあり、非有界な分散も持つ。 したがって、完全座標更新の代わりにバッチ更新を使用する場合、hbアルゴリズムが収束することを保証するには、いくつかの微妙な解析が必要であり、真の勾配の代わりに近似勾配を用いる。 本稿では、目的関数の定常点への反復のほぼ確実な収束を確立するだけでなく、収束率の上限を導出する。 私たちの知る限りでは、これらの機能をすべて組み合わせた論文は他にありません。

In this paper, we study the well-known "Heavy Ball" method for convex and nonconvex optimization introduced by Polyak in 1964, and establish its convergence under a variety of situations. Traditionally, most algorthms use "full-coordinate update," that is, at each step, very component of the argument is updated. However, when the dimension of the argument is very high, it is more efficient to update some but not all components of the argument at each iteration. We refer to this as "batch updating" in this paper. When gradient-based algorithms are used together with batch updating, in principle it is sufficient to compute only those components of the gradient for which the argument is to be updated. However, if a method such as back propagation is used to compute these components, computing only some components of gradient does not offer much savings over computing the entire gradient. Therefore, to achieve a noticeable reduction in CPU usage at each step, one can use first-order differences to approximate the gradient. The resulting estimates are biased, and also have unbounded variance. Thus some delicate analysis is required to ensure that the HB algorithm converge when batch updating is used instead of full-coordinate updating, and/or approximate gradients are used instead of true gradients. In this paper, we not only establish the almost sure convergence of the iterations to the stationary point(s) of the objective function, but also derive upper bounds on the rate of convergence. To the best of our knowledge, there is no other paper that combines all of these features.
翻訳日:2023-03-30 17:10:23 公開日:2023-03-28
# 野生の点雲に対する時空間自己教師学習

Spatiotemporal Self-supervised Learning for Point Clouds in the Wild ( http://arxiv.org/abs/2303.16235v1 )

ライセンス: Link先を確認
Yanhao Wu, Tong Zhang, Wei Ke, Sabine S\"usstrunk, Mathieu Salzmann(参考訳) 自己教師付き学習(ssl)は、多くのアプリケーション、特に手動でデータアノテートが面倒なアプリケーションに役立つ可能性がある。 そのような状況の1つは、点雲のセグメンテーションである。 この文脈では、既存の手法では対照的な学習戦略を採用し、1つのフレームで様々な点クラスタの強化を行うことで正のペアを定義する。 そのため、これらの手法はLiDARデータの時間的特性を生かしていない。 本稿では,空間領域と時間領域の両方で正のペアを利用するSSL戦略を提案する。 この目的のために、我々は設計する (i)物体を識別するために空間情報を集約するクラスタ間学習戦略 (II)時間対応を利用した教師なしオブジェクト追跡に基づくクラスタ間学習戦略。 2つの大規模LiDARデータセット上で自己教師型トレーニングを行い、その結果モデルを他のポイントクラウドセグメンテーションベンチマークに転送することで、我々のアプローチの利点を実証する。 提案手法は最先端のクラウドSSL方式よりも優れていることを示す。

Self-supervised learning (SSL) has the potential to benefit many applications, particularly those where manually annotating data is cumbersome. One such situation is the semantic segmentation of point clouds. In this context, existing methods employ contrastive learning strategies and define positive pairs by performing various augmentation of point clusters in a single frame. As such, these methods do not exploit the temporal nature of LiDAR data. In this paper, we introduce an SSL strategy that leverages positive pairs in both the spatial and temporal domain. To this end, we design (i) a point-to-cluster learning strategy that aggregates spatial information to distinguish objects; and (ii) a cluster-to-cluster learning strategy based on unsupervised object tracking that exploits temporal correspondences. We demonstrate the benefits of our approach via extensive experiments performed by self-supervised training on two large-scale LiDAR datasets and transferring the resulting models to other point cloud segmentation benchmarks. Our results evidence that our method outperforms the state-of-the-art point cloud SSL methods.
翻訳日:2023-03-30 17:09:57 公開日:2023-03-28
# 量子ガス顕微鏡による正弦-ゴードンモデルにおけるソリトンの作製と解析

Preparing and Analyzing Solitons in the sine-Gordon Model with Quantum Gas Microscopes ( http://arxiv.org/abs/2303.16221v1 )

ライセンス: Link先を確認
Elisabeth Wybo, Alvise Bastianello, Monika Aidelsburger, Immanuel Bloch, Michael Knap(参考訳) sine-Gordonモデルは、多くの量子多体系において低エネルギー理論として現れる。 ここでは, 強い反発相互作用を持つトンネル結合Bose-Hubbard鎖を, 量子状態の深いSine-Gordonモデルの実現として理論的に検討する。 超低温原子の量子ガス顕微鏡によるソリトンの生成と解析のためのプロトコルを提案する。 行列の積状態に基づく数値シミュレーションにより, 生成プロトコルと検出プロトコルを特徴付け, 実験要件を考察した。

The sine-Gordon model emerges as a low-energy theory in a plethora of quantum many-body systems. Here, we theoretically investigate tunnel-coupled Bose-Hubbard chains with strong repulsive interactions as a realization of the sine-Gordon model deep in the quantum regime. We propose protocols for quantum gas microscopes of ultracold atoms to prepare and analyze solitons, that are the fundamental topological excitations of the emergent sine-Gordon theory. With numerical simulations based on matrix product states we characterize the preparation and detection protocols and discuss the experimental requirements.
翻訳日:2023-03-30 17:09:42 公開日:2023-03-28
# Tetra-AML: テンソルネットワークによる自動機械学習

Tetra-AML: Automatic Machine Learning via Tensor Networks ( http://arxiv.org/abs/2303.16214v1 )

ライセンス: Link先を確認
A. Naumov, Ar. Melnikov, V. Abronin, F. Oxanichenko, K. Izmailov, M. Pflitsch, A. Melnikov, M. Perelshtein(参考訳) ニューラルネットワークは社会の多くの側面に革命をもたらしたが、数十億のパラメータを持つ巨大なモデルの時代には、それらを商用アプリケーションに最適化し、デプロイするにはかなりの計算と財務資源が必要になる。 これらの課題に対処するために,独自のブラックボックスTensor Train OptimizationアルゴリズムであるTetraOptを用いて,ニューラルネットワーク検索とハイパーパラメータ最適化を自動化するTetra-AMLツールボックスを紹介した。 ツールボックスはまた、テンソルネットワークを使用した圧縮によって強化された量子化とプルーニングによるモデル圧縮も提供する。 本稿では、コンピュータビジョンタスクにおけるニューラルネットワーク最適化のための統一ベンチマークを分析し、cifar-10データセットにおけるベイズ最適化と比較して、我々のアプローチの優れた性能を示す。 また、resnet-18ニューラルネットワークの圧縮を実証し、わずか3.2%の精度を失わずに14.5倍のメモリを使用することを示した。 提示されたフレームワークは汎用的で、コンピュータビジョンの問題に制限されず、ハードウェアアクセラレーション(GPUやTPUなど)をサポートし、量子ハードウェアやハイブリッド量子機械学習モデルにさらに拡張することができる。

Neural networks have revolutionized many aspects of society but in the era of huge models with billions of parameters, optimizing and deploying them for commercial applications can require significant computational and financial resources. To address these challenges, we introduce the Tetra-AML toolbox, which automates neural architecture search and hyperparameter optimization via a custom-developed black-box Tensor train Optimization algorithm, TetraOpt. The toolbox also provides model compression through quantization and pruning, augmented by compression using tensor networks. Here, we analyze a unified benchmark for optimizing neural networks in computer vision tasks and show the superior performance of our approach compared to Bayesian optimization on the CIFAR-10 dataset. We also demonstrate the compression of ResNet-18 neural networks, where we use 14.5 times less memory while losing just 3.2% of accuracy. The presented framework is generic, not limited by computer vision problems, supports hardware acceleration (such as with GPUs and TPUs) and can be further extended to quantum hardware and to hybrid quantum machine learning models.
翻訳日:2023-03-30 17:09:33 公開日:2023-03-28
# 複数のサブネットワークを用いたemo継手プルーニング:高速化と効果

An EMO Joint Pruning with Multiple Sub-networks: Fast and Effect ( http://arxiv.org/abs/2303.16212v1 )

ライセンス: Link先を確認
Ronghua Shang, Songling Zhu, Licheng Jiao, Songhua Xu(参考訳) 進化的マルチオブジェクト(EMO)に基づくネットワークプルーニングアルゴリズムは、ネットワークのプルーニング率と性能のバランスをとることができる。 しかし、その人口ベースの性質は、複雑な刈り取り最適化空間と、その適用を制限するリソース消費の高い刈り取り構造検証プロセスに苦しむことが多い。 そこで本研究では,複数のサブネットワーク(EMO-PMS)を併用したEMOジョイントプルーニングを提案し,空間の複雑さと資源消費を低減する。 まず,ネットワーク全体の複雑なEMOプルーニングタスクを,複数のサブネットワーク上でより簡単なサブタスクに分解する,分割型EMOネットワークプルーニングフレームワークを提案する。 一方、この分解はプルーニング最適化空間を減少させ、最適化の難しさを減少させ、一方、より小さなネットワーク構造はより高速に収束するので、提案アルゴリズムの計算資源消費量は小さくなる。 第2に,クロスネットワーク制約に基づくサブネットワークトレーニング手法を設計し,そのサブネットワークが,前者が生成した機能を機能制約によって処理できるようにした。 この方法により、サブネットワークが独立に最適化され、協調性が向上し、刈り取られたネットワーク全体の性能が向上する。 最後に,EMOに基づく複数サブネットワーク共同プルーニング手法を提案する。 ひとつは、事前訓練された機能セレクタでサブネットワークの機能処理能力を正確に測定できることです。 別の方法として、グローバルパフォーマンス障害ランキングを通じて複数のサブネットワーク上でのマルチ目的プラニング結果を組み合わせることで、共同プラニングスキームを設計することができる。 提案するアルゴリズムは3つのデータセットで検証される。 15の高度な刈り取りアルゴリズムと比較すると,提案手法の有効性と有効性を示す実験結果が得られた。

The network pruning algorithm based on evolutionary multi-objective (EMO) can balance the pruning rate and performance of the network. However, its population-based nature often suffers from the complex pruning optimization space and the highly resource-consuming pruning structure verification process, which limits its application. To this end, this paper proposes an EMO joint pruning with multiple sub-networks (EMO-PMS) to reduce space complexity and resource consumption. First, a divide-and-conquer EMO network pruning framework is proposed, which decomposes the complex EMO pruning task on the whole network into easier sub-tasks on multiple sub-networks. On the one hand, this decomposition reduces the pruning optimization space and decreases the optimization difficulty; on the other hand, the smaller network structure converges faster, so the computational resource consumption of the proposed algorithm is lower. Secondly, a sub-network training method based on cross-network constraints is designed so that the sub-network can process the features generated by the previous one through feature constraints. This method allows sub-networks optimized independently to collaborate better and improves the overall performance of the pruned network. Finally, a multiple sub-networks joint pruning method based on EMO is proposed. For one thing, it can accurately measure the feature processing capability of the sub-networks with the pre-trained feature selector. For another, it can combine multi-objective pruning results on multiple sub-networks through global performance impairment ranking to design a joint pruning scheme. The proposed algorithm is validated on three datasets with different challenging. Compared with fifteen advanced pruning algorithms, the experiment results exhibit the effectiveness and efficiency of the proposed algorithm.
翻訳日:2023-03-30 17:09:15 公開日:2023-03-28
# 単語の組合せ畳み込みニューラルネットワーク

Combinatorial Convolutional Neural Networks for Words ( http://arxiv.org/abs/2303.16211v1 )

ライセンス: Link先を確認
Karen Sargsyan(参考訳) 本稿では,データエントリの単射変換の下で不変な特徴を識別・活用する深層学習モデルの限界について論じる。 このようなパターンの特定は、特定のアプリケーションにとって重要であり、ニューラルネットワークに入力エントリの組合せパターンを完全に記述した情報を提供し、ネットワークが予測に何に関連するかを決定することを推奨する。 このアプローチの実現可能性を示すために,単語分類のための組合せ畳み込みニューラルネットワークを提案する。

The paper discusses the limitations of deep learning models in identifying and utilizing features that remain invariant under a bijective transformation on the data entries, which we refer to as combinatorial patterns. We argue that the identification of such patterns may be important for certain applications and suggest providing neural networks with information that fully describes the combinatorial patterns of input entries and allows the network to determine what is relevant for prediction. To demonstrate the feasibility of this approach, we present a combinatorial convolutional neural network for word classification.
翻訳日:2023-03-30 17:08:47 公開日:2023-03-28
# 翻訳アシスタントは言語の社会的要因をモデル化すべきである

Writing Assistants Should Model Social Factors of Language ( http://arxiv.org/abs/2303.16275v1 )

ライセンス: Link先を確認
Vivek Kulkarni and Vipul Raheja(参考訳) 大規模言語モデル(LLM)を利用したインテリジェントな書き込みアシスタントは、これまで以上に人気があるが、その普及はサブ最適性能によって妨げられている。 本稿では,この部分最適性能と採用の大きな理由は,その社会的側面を無視しつつ,言語の情報内容にのみ焦点をあてることである,と論じる。 我々は,これらの社会的要因の異なる次元を分析し,より賢く,より効果的で,真にパーソナライズされたライティング・アシスタントの構築への統合を提案する。

Intelligent writing assistants powered by large language models (LLMs) are more popular today than ever before, but their further widespread adoption is precluded by sub-optimal performance. In this position paper, we argue that a major reason for this sub-optimal performance and adoption is a singular focus on the information content of language while ignoring its social aspects. We analyze the different dimensions of these social factors in the context of writing assistants and propose their incorporation into building smarter, more effective, and truly personalized writing assistants that would enrich the user experience and contribute to increased user adoption.
翻訳日:2023-03-30 17:03:33 公開日:2023-03-28
# 多要素深層流速学習モデルによる風力発電ヨーの加速とレイアウト最適化

Accelerated wind farm yaw and layout optimisation with multi-fidelity deep transfer learning wake models ( http://arxiv.org/abs/2303.16274v1 )

ライセンス: Link先を確認
Sokratis Anagnostopoulos, Jens Bauer, Mariana C. A. Clare, Matthew D. Piggott(参考訳) 風力発電のモデリングは、多くの分析的手法と、風力発電効率の限界を広げ、電力生産を最大化するために開発された計算に基づくアプローチによって、急速に関心を集めている分野である。 本研究では, 風速, 乱流強度 (tis) の広い範囲にわたって, hub-height における一般化された2次元タービン後流速度場を再現し, 風速モデリングソフトウェア floris を用いて計算した解と比較して, 平均99.8%の精度で再現できる新規な ml フレームワーク wakenet を提案する。 ネットワークトレーニング目的の十分な高忠実度データの生成はコストを抑えることができるため,多忠実度変換学習の有用性も検討されている。 具体的には、低忠実度ガウスウェイクモデルで事前訓練されたネットワークを微調整し、中忠実度カールウェイクモデルに対する正確なウェイク結果を得る。 様々なウェイクステアリング制御およびレイアウト最適化シナリオにおけるWakeNetの堅牢性と全体的な性能は、電力利得ヒートマップを通じて検証され、FLORISで直接実行される最適化によって得られる電力の少なくとも90%が得られた。 また、curlモデルを利用することで、wakenetは2桁の高速化(最適化ケース毎に10分対36時間など)であるflorisに同様のパワー向上を提供できることも示しています。 高忠実度CFDデータセットでトレーニングした場合のwakeNetのウェイク評価時間は類似しており、計算時間の増加が期待できる。 これらの有望な結果は、mlツールによる一般化されたウェイクモデリングは、アクティブなyawとレイアウトの最適化に貢献できるほど正確であると同時に、計算コストのごく一部で現実的な最適化構成を生成できることを示している。

Wind farm modelling has been an area of rapidly increasing interest with numerous analytical as well as computational-based approaches developed to extend the margins of wind farm efficiency and maximise power production. In this work, we present the novel ML framework WakeNet, which can reproduce generalised 2D turbine wake velocity fields at hub-height over a wide range of yaw angles, wind speeds and turbulence intensities (TIs), with a mean accuracy of 99.8% compared to the solution calculated using the state-of-the-art wind farm modelling software FLORIS. As the generation of sufficient high-fidelity data for network training purposes can be cost-prohibitive, the utility of multi-fidelity transfer learning has also been investigated. Specifically, a network pre-trained on the low-fidelity Gaussian wake model is fine-tuned in order to obtain accurate wake results for the mid-fidelity Curl wake model. The robustness and overall performance of WakeNet on various wake steering control and layout optimisation scenarios has been validated through power-gain heatmaps, obtaining at least 90% of the power gained through optimisation performed with FLORIS directly. We also demonstrate that when utilising the Curl model, WakeNet is able to provide similar power gains to FLORIS, two orders of magnitude faster (e.g. 10 minutes vs 36 hours per optimisation case). The wake evaluation time of wakeNet when trained on a high-fidelity CFD dataset is expected to be similar, thus further increasing computational time gains. These promising results show that generalised wake modelling with ML tools can be accurate enough to contribute towards active yaw and layout optimisation, while producing realistic optimised configurations at a fraction of the computational cost, hence making it feasible to perform real-time active yaw control as well as robust optimisation under uncertainty.
翻訳日:2023-03-30 17:03:22 公開日:2023-03-28
# 重複サンプルを限定したコミュニケーション効率の高い垂直フェデレーション学習

Communication-Efficient Vertical Federated Learning with Limited Overlapping Samples ( http://arxiv.org/abs/2303.16270v1 )

ライセンス: Link先を確認
Jingwei Sun, Ziyue Xu, Dong Yang, Vishwesh Nath, Wenqi Li, Can Zhao, Daguang Xu, Yiran Chen, Holger R. Roth(参考訳) フェデレーション学習(federated learning)は、クライアントがローカルデータを共有せずにグローバルモデルをトレーニングできる、一般的なコラボレーティブ学習アプローチである。 垂直連合学習(VFL)は、クライアント上のデータが異なる特徴空間を持つが、重複するサンプルを共有するシナリオを扱う。 既存のvflアプローチは高い通信コストを被り、現実世界で一般的に見られる重複したサンプルを効率的に処理できない。 本稿では,半教師付き学習に基づく通信ボトルネックとサンプル重複問題を同時に解決可能な,実用的な垂直フェデレート学習(vfl)フレームワークである \textbf{one-shot vfl}を提案する。 また,サーバとクライアント間の通信ラウンドを1回だけ行うことで,さらに精度を向上させるために, \textbf{few-shot vfl}を提案する。 提案するフレームワークでは,クライアントはサーバとの通信を1回,あるいは数回のみ行わなければなりません。 提案するVFLフレームワークを画像と表のデータセットの両方で評価する。 提案手法は, CIFAR-10で評価した場合, 精度を46.5\%以上向上し, 通信コストを330$\times$以上削減できる。 我々のコードは \url{https://nvidia.github.io/NVFlare/research/one-shot-vfl} で公開されます。

Federated learning is a popular collaborative learning approach that enables clients to train a global model without sharing their local data. Vertical federated learning (VFL) deals with scenarios in which the data on clients have different feature spaces but share some overlapping samples. Existing VFL approaches suffer from high communication costs and cannot deal efficiently with limited overlapping samples commonly seen in the real world. We propose a practical vertical federated learning (VFL) framework called \textbf{one-shot VFL} that can solve the communication bottleneck and the problem of limited overlapping samples simultaneously based on semi-supervised learning. We also propose \textbf{few-shot VFL} to improve the accuracy further with just one more communication round between the server and the clients. In our proposed framework, the clients only need to communicate with the server once or only a few times. We evaluate the proposed VFL framework on both image and tabular datasets. Our methods can improve the accuracy by more than 46.5\% and reduce the communication cost by more than 330$\times$ compared with state-of-the-art VFL methods when evaluated on CIFAR-10. Our code will be made publicly available at \url{https://nvidia.github.io/NVFlare/research/one-shot-vfl}.
翻訳日:2023-03-30 17:02:44 公開日:2023-03-28
# TimeBalance: 半監督行動認識のための時間的不変および時間的識別ビデオ表現

TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition ( http://arxiv.org/abs/2303.16268v1 )

ライセンス: Link先を確認
Ishan Rajendrakumar Dave, Mamshad Nayeem Rizve, Chen Chen, Mubarak Shah(参考訳) 半教師付き学習は、注釈コストと次元性が高いため、画像に比べてビデオ領域に有益である。 さらに、ビデオ理解タスクは、空間的次元と時間的次元の両方を推論する必要がある。 半教師付き動作認識タスクの静的および動きに関連した特徴を学習するために、既存の手法では、2つのモード(RGBと光フロー)または異なる再生レートの2ストリームを使用するようなハード入力誘導バイアスに依存している。 多様な入力ストリームを通じてラベル付けされていないビデオを利用する代わりに、自己教師付きビデオ表現に依存し、特に時間的不変および時間的特定表現を利用する。 我々は、これらの表現が作用の性質に応じて互いに補完することを観察する。 本研究では,時間的不変性と時間的識別性のある教師から知識を抽出する,学生教師による半教師型学習フレームワークであるTimeBalanceを提案する。 ラベルのない映像の性質に応じて,新しい時間的類似性に基づく再重み付け方式に基づいて,この2つの教師の知識を動的に結合する。 提案手法は,UCF101,HMDB51,Kineetics400の3つの動作認識ベンチマークにおける最先端性能を実現する。 コード:https://github.com/DAVEISHAN/TimeBalance

Semi-Supervised Learning can be more beneficial for the video domain compared to images because of its higher annotation cost and dimensionality. Besides, any video understanding task requires reasoning over both spatial and temporal dimensions. In order to learn both the static and motion related features for the semi-supervised action recognition task, existing methods rely on hard input inductive biases like using two-modalities (RGB and Optical-flow) or two-stream of different playback rates. Instead of utilizing unlabeled videos through diverse input streams, we rely on self-supervised video representations, particularly, we utilize temporally-invariant and temporally-distinctive representations. We observe that these representations complement each other depending on the nature of the action. Based on this observation, we propose a student-teacher semi-supervised learning framework, TimeBalance, where we distill the knowledge from a temporally-invariant and a temporally-distinctive teacher. Depending on the nature of the unlabeled video, we dynamically combine the knowledge of these two teachers based on a novel temporal similarity-based reweighting scheme. Our method achieves state-of-the-art performance on three action recognition benchmarks: UCF101, HMDB51, and Kinetics400. Code: https://github.com/DAVEISHAN/TimeBalance
翻訳日:2023-03-30 17:02:23 公開日:2023-03-28
# エネルギー取引戦略最適化のための強化学習

Reinforcement learning for optimization of energy trading strategy ( http://arxiv.org/abs/2303.16266v1 )

ライセンス: Link先を確認
{\L}ukasz Lepak, Pawe{\l} Wawrzy\'nski(参考訳) エネルギーの増大は再生可能エネルギー源から多くの小規模生産者によって生産される。 これらの源の効率は不安定であり、ある程度ランダムにエネルギー市場のバランス問題を悪化させる。 多くの国では、そのバランスはデイアヘッド(DA)エネルギー市場で行われる。 本稿では,中規模プロシューマーによるDAエネルギー市場における自動取引について考察する。 我々は,この活動をマルコフ決定プロセスとしてモデル化し,実生活データで活用可能な戦略を最適化する枠組みを定式化する。 パラメトリック取引戦略を合成し,進化的アルゴリズムを用いて最適化する。 我々はまた、最先端の強化学習アルゴリズムを使用して、将来の価格に影響を及ぼす可能性のある環境から利用可能な情報を供給されたブラックボックス取引戦略を最適化する。

An increasing part of energy is produced from renewable sources by a large number of small producers. The efficiency of these sources is volatile and, to some extent, random, exacerbating the energy market balance problem. In many countries, that balancing is performed on day-ahead (DA) energy markets. In this paper, we consider automated trading on a DA energy market by a medium size prosumer. We model this activity as a Markov Decision Process and formalize a framework in which a ready-to-use strategy can be optimized with real-life data. We synthesize parametric trading strategies and optimize them with an evolutionary algorithm. We also use state-of-the-art reinforcement learning algorithms to optimize a black-box trading strategy fed with available information from the environment that can impact future prices.
翻訳日:2023-03-30 17:02:04 公開日:2023-03-28
# 符号化による最適化:再正規化群の観点から

Optimisation via encodings: a renormalisation group perspective ( http://arxiv.org/abs/2303.16258v1 )

ライセンス: Link先を確認
Konstantin Klemm and Anita Mehta and Peter F. Stadler(参考訳) 離散最適化問題に対処する従来の方法は、コストやフィットネスの風景を局所的に探索することである。 しかし、そのようなアプローチは、典型的な荒れ果てた風景の特徴である局所的なミニマが探索過程の進行を妨げているときに起こる減速によって制限される。 最適化問題に取り組む別の方法は、大域的コスト最小を見積もるためにヒューリスティック近似を用いることである。 本稿では,より広い探索空間から元の検索空間の部分集合にプロセスをマッピングするカバーエンコーディングマップを用いて,これら2つの手法の組み合わせを示す。 鍵となる考え方は、最適なヒューリスティックの助けを借りてカバーエンコーディングマップを構築することである。 一般的に用いられるプロセスは粗粒化の一種であり、ここでは再正規化群変換のアバターと見なせることを示唆する。

The traditional way of tackling discrete optimization problems is by using local search on suitably defined cost or fitness landscapes. Such approaches are however limited by the slowing down that occurs when local minima, that are a feature of the typically rugged landscapes encountered, arrest the progress of the search process. Another way of tackling optimization problems is by the use of heuristic approximations to estimate a global cost minimum. Here we present a combination of these two approaches by using cover-encoding maps which map processes from a larger search space to subsets of the original search space. The key idea is to construct cover-encoding maps with the help of suitable heuristics that single out near-optimal solutions and result in landscapes on the larger search space that no longer exhibit trapping local minima. The processes that are typically employed involve some form of coarse-graining, and we suggest here that they can be viewed as avatars of renormalisation group transformations.
翻訳日:2023-03-30 17:01:54 公開日:2023-03-28
# 言語とアルファベットの辞書ソースのためのスケーラブルな手書き文字認識システム

Scalable handwritten text recognition system for lexicographic sources of under-resourced languages and alphabets ( http://arxiv.org/abs/2303.16256v1 )

ライセンス: Link先を確認
Jan Idziak, Artjoms \v{S}e\c{l}a, Micha{\l} Wo\'zniak, Albert Le\'sniak, Joanna Byszuk, Maciej Eder(参考訳) 本稿では,歴史辞書の手書きインデックスカードの膨大なコレクションを解読する手法について述べる。 本研究は,280万のインデックスカードを構成する17世紀のポーランド語辞典(dictionary of the 17thand 18th century polish)に対して,カードを読み,その補題を検索可能な辞書項目のリストにリンクする作業ソリューションを提供する。 We apply a tailored handwritten text recognition (HTR) solution that involves (1) an optimized detection model; (2) a recognition model to decipher the handwritten content, designed as a spatial transformer network (STN) followed by convolutional neural network (RCNN) with a connectionist temporal classification layer (CTC), trained using a synthetic set of 500,000 generated Polish words of different length; (3) a post-processing step using constrained Word Beam Search (WBC): the predictions were matched against a list of dictionary entries known in advance. 本モデルは単語レベルで0.881の精度を達成し,rcnnモデルよりも優れていた。 本研究では,将来のベンチマークや変換学習用HTRアプリケーションに使用可能な2万個の手動注釈付きインデックスカードを作成した。

The paper discusses an approach to decipher large collections of handwritten index cards of historical dictionaries. Our study provides a working solution that reads the cards, and links their lemmas to a searchable list of dictionary entries, for a large historical dictionary entitled the Dictionary of the 17th- and 18th-century Polish, which comprizes 2.8 million index cards. We apply a tailored handwritten text recognition (HTR) solution that involves (1) an optimized detection model; (2) a recognition model to decipher the handwritten content, designed as a spatial transformer network (STN) followed by convolutional neural network (RCNN) with a connectionist temporal classification layer (CTC), trained using a synthetic set of 500,000 generated Polish words of different length; (3) a post-processing step using constrained Word Beam Search (WBC): the predictions were matched against a list of dictionary entries known in advance. Our model achieved the accuracy of 0.881 on the word level, which outperforms the base RCNN model. Within this study we produced a set of 20,000 manually annotated index cards that can be used for future benchmarks and transfer learning HTR applications.
翻訳日:2023-03-30 17:01:36 公開日:2023-03-28
# CryoFormer: Transformer-based Neural Representation を用いたCryo-EMデータからの3次元構造の連続的再構成

CryoFormer: Continuous Reconstruction of 3D Structures from Cryo-EM Data using Transformer-based Neural Representations ( http://arxiv.org/abs/2303.16254v1 )

ライセンス: Link先を確認
Xinhang Liu, Yan Zeng, Yifan Qin, Hao Li, Jiakai Zhang, Lan Xu, Jingyi Yu(参考訳) cryo-electron microscope (cryo-em) を用いたタンパク質およびその他の生体分子の3次元構造の高分解能不均質再構成は生命の基本的な過程を理解するのに不可欠である。 しかし,無作為かつ無作為な2次元cryo-em画像から3次元構造物の連続運動を再構築することは依然として困難である。 座標に基づくニューラルネットワークに基づく既存の手法は、フーリエ領域における3次元構造の連続的なコンフォーメーションをモデル化するための魅力的な結果を示すが、局所的なフレキシブル領域をモデル化する能力に制限があり、解釈性に欠ける。 本稿では,変圧器をベースとしたネットワークアーキテクチャを用いて連続的ヘテロジニアスCreo-EM再構成を行う新しい手法であるCryoFormerを提案する。 3次元空間領域における暗黙的特徴量を用いて, 3次元構造の連続構造を初めて直接再構成した。 新規な変形変圧器デコーダは、再構成品質をさらに向上し、さらに重要なことは、コンフォーメーションによる柔軟な3D領域の配置とロバスト化である。 実験では、3つのパブリックデータセット(1つの合成データと2つの実験データ)と、pedvスパイクタンパク質の新しい合成データセットに対する現在のアプローチよりも優れています。 コードと新しい合成データセットがリリースされ、結果の再現性が向上します。 プロジェクトページ: https://cryoformer.github.io

High-resolution heterogeneous reconstruction of 3D structures of proteins and other biomolecules using cryo-electron microscopy (cryo-EM) is essential for understanding fundamental processes of life. However, it is still challenging to reconstruct the continuous motions of 3D structures from hundreds of thousands of noisy and randomly oriented 2D cryo-EM images. Existing methods based on coordinate-based neural networks show compelling results to model continuous conformations of 3D structures in the Fourier domain, but they suffer from a limited ability to model local flexible regions and lack interpretability. We propose a novel approach, cryoFormer, that utilizes a transformer-based network architecture for continuous heterogeneous cryo-EM reconstruction. We for the first time directly reconstruct continuous conformations of 3D structures using an implicit feature volume in the 3D spatial domain. A novel deformation transformer decoder further improves reconstruction quality and, more importantly, locates and robustly tackles flexible 3D regions caused by conformations. In experiments, our method outperforms current approaches on three public datasets (1 synthetic and 2 experimental) and a new synthetic dataset of PEDV spike protein. The code and new synthetic dataset will be released for better reproducibility of our results. Project page: https://cryoformer.github.io.
翻訳日:2023-03-30 17:01:16 公開日:2023-03-28
# コンテキスト要約とドメインスキーマを用いたゼロショット一般化型タスク指向対話システム

Zero-Shot Generalizable End-to-End Task-Oriented Dialog System using Context Summarization and Domain Schema ( http://arxiv.org/abs/2303.16252v1 )

ライセンス: Link先を確認
Adib Mosharrof, M.H. Maqbool, A.B. Siddique(参考訳) タスク指向ダイアログシステムは、直感的で表現力のある自然言語インタラクションを促進することによって、ユーザが目標を達成することを可能にする。 タスク指向対話システムにおける最先端のアプローチは、条件付きシーケンス生成タスクと教師付き設定における微調整済み因果言語モデルとして問題を定式化する。 これは、新しいドメインやタスクごとにラベル付きトレーニングデータを必要とするため、そのようなデータを取得するのは、極めて困難でコストがかかるため、システムを幅広いドメインにスケーリングする上でボトルネックとなる。 この課題を克服するために、ドメインスキーマを活用して、未確認領域への堅牢な一般化を可能にし、ダイアログ履歴を効果的に要約するZES-ToDを提案する。 GPT-2をバックボーンモデルとし、第1ステップの目標はダイアログデータの一般的な構造を学習することであり、第2ステップはダイアログ状態やシステム動作などの中間出力だけでなく、応答生成を最適化する2段階のトレーニングプロセスを導入する。 与えられたドメイン内の特定の意図を満たし、タスク固有の会話パターンを記憶するように訓練された最先端のシステムとは対照的に、ZS-ToDはドメインスキーマを介してドメインセマンティクスを解釈し、目に見えないドメインにシームレスに一般化することで、汎用的なタスク補完スキルを学ぶ。 sgd と sgd-x データセットについて,最大 20 個の固有ドメインと zs-tod が主要メトリクスの最先端システムよりも優れており,共同目標精度が +17%,インフォメーションが +5 で改善されている。 さらに,提案するコンポーネントの有効性とトレーニングメカニズムについて,詳細なアブレーション研究を行った。

Task-oriented dialog systems empower users to accomplish their goals by facilitating intuitive and expressive natural language interactions. State-of-the-art approaches in task-oriented dialog systems formulate the problem as a conditional sequence generation task and fine-tune pre-trained causal language models in the supervised setting. This requires labeled training data for each new domain or task, and acquiring such data is prohibitively laborious and expensive, thus making it a bottleneck for scaling systems to a wide range of domains. To overcome this challenge, we introduce a novel Zero-Shot generalizable end-to-end Task-oriented Dialog system, ZS-ToD, that leverages domain schemas to allow for robust generalization to unseen domains and exploits effective summarization of the dialog history. We employ GPT-2 as a backbone model and introduce a two-step training process where the goal of the first step is to learn the general structure of the dialog data and the second step optimizes the response generation as well as intermediate outputs, such as dialog state and system actions. As opposed to state-of-the-art systems that are trained to fulfill certain intents in the given domains and memorize task-specific conversational patterns, ZS-ToD learns generic task-completion skills by comprehending domain semantics via domain schemas and generalizing to unseen domains seamlessly. We conduct an extensive experimental evaluation on SGD and SGD-X datasets that span up to 20 unique domains and ZS-ToD outperforms state-of-the-art systems on key metrics, with an improvement of +17% on joint goal accuracy and +5 on inform. Additionally, we present a detailed ablation study to demonstrate the effectiveness of the proposed components and training mechanism
翻訳日:2023-03-30 17:00:53 公開日:2023-03-28
# 近似モデル参照適応制御のためのランダム初期化ニューラルネットワークによる関数近似

Function Approximation with Randomly Initialized Neural Networks for Approximate Model Reference Adaptive Control ( http://arxiv.org/abs/2303.16251v1 )

ライセンス: Link先を確認
Tyler Lekang and Andrew Lamperski(参考訳) ニューラルネットワーク近似理論における古典的な結果は、活性化関数の軽度な仮定の下で、任意の連続関数が単一の隠蔽層を持つネットワークによってどのように近似されるかを示す。 しかし、古典理論は、望ましい精度を達成するネットワークパラメータを生成するための構成的手段を与えていない。 近年の研究では、ReLUや分析関数のクラスのような特殊活性化関数に対して、ランダムに初期化されたアクティベーションの線形結合によって高い精度が得られることが示されている。 最近の研究では、特定のアクティベーション関数に依存するターゲット関数の特別な積分表現を利用している。 本稿では, 直接積分表現が知られていないアクティベーションを用いて, 対象関数の積分表現を形成する手段を提供する。 この新しい構成は、様々な広く使われているアクティベーション関数に対するランダム初期化ネットワークに対する近似保証を可能にする。

Classical results in neural network approximation theory show how arbitrary continuous functions can be approximated by networks with a single hidden layer, under mild assumptions on the activation function. However, the classical theory does not give a constructive means to generate the network parameters that achieve a desired accuracy. Recent results have demonstrated that for specialized activation functions, such as ReLUs and some classes of analytic functions, high accuracy can be achieved via linear combinations of randomly initialized activations. These recent works utilize specialized integral representations of target functions that depend on the specific activation functions used. This paper defines mollified integral representations, which provide a means to form integral representations of target functions using activations for which no direct integral representation is currently known. The new construction enables approximation guarantees for randomly initialized networks for a variety of widely used activation functions.
翻訳日:2023-03-30 17:00:09 公開日:2023-03-28
# スライディングウインドウを用いたストリーミングモデルの確率ロバスト性

Provable Robustness for Streaming Models with a Sliding Window ( http://arxiv.org/abs/2303.16308v1 )

ライセンス: Link先を確認
Aounon Kumar, Vinu Sankar Sadasivan and Soheil Feizi(参考訳) 機械学習における証明可能な堅牢性に関する文献は、主に画像分類などの静的予測問題に焦点を当てており、入力サンプルは独立であると仮定され、モデル性能は入力分布に対する期待値として測定される。 モデルが各インスタンスで別々に評価されるという仮定で、個々の入力インスタンスに対してロバスト性証明書が導出される。 しかし、オンラインコンテンツレコメンデーションや株式市場分析のような多くのディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。 独立した入力サンプルの仮定に基づく堅牢性証明書は、そのようなシナリオでは直接適用できない。 本研究では、データストリームのコンテキストにおける機械学習モデルの証明可能な堅牢性に注目し、入力を潜在的に相関する項目のシーケンスとして提示する。 入力ストリーム上の固定サイズのスライディングウィンドウを使用するモデルに対して,堅牢性証明書を導出する。 私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。 我々は,音声検出と人間活動認識タスクの実験を行い,敵の摂動に対して有意義な性能保証を得られることを示す。

The literature on provable robustness in machine learning has primarily focused on static prediction problems, such as image classification, in which input samples are assumed to be independent and model performance is measured as an expectation over the input distribution. Robustness certificates are derived for individual input instances with the assumption that the model is evaluated on each instance separately. However, in many deep learning applications such as online content recommendation and stock market analysis, models use historical data to make predictions. Robustness certificates based on the assumption of independent input samples are not directly applicable in such scenarios. In this work, we focus on the provable robustness of machine learning models in the context of data streams, where inputs are presented as a sequence of potentially correlated items. We derive robustness certificates for models that use a fixed-size sliding window over the input stream. Our guarantees hold for the average model performance across the entire stream and are independent of stream size, making them suitable for large data streams. We perform experiments on speech detection and human activity recognition tasks and show that our certificates can produce meaningful performance guarantees against adversarial perturbations.
翻訳日:2023-03-30 16:53:27 公開日:2023-03-28
# 機械学習の展望:グローバル中規模予測のポストプロセッシング

A Machine Learning Outlook: Post-processing of Global Medium-range Forecasts ( http://arxiv.org/abs/2303.16301v1 )

ライセンス: Link先を確認
Shreya Agrawal, Rob Carver, Cenk Gazen, Eric Maddy, Vladimir Krasnopolsky, Carla Bromberg, Zack Ontiveros, Tyler Russell, Jason Hickey, and Sid Boukabara(参考訳) ポストプロセッシングは通常、数値気象予測(nwp)モデルの出力を受け取り、線形統計手法を適用して、追加の観測を含む、あるいはより細かいスケールで系統的なエラーを決定することにより、局所的な予測を改善する。 本研究では,非線形ニューラルネットワーク(NN)を用いた複数の気象特性(温度,湿度,風,地磁気高度,降水量)を,地球上およびリードタイムで最大7日間にわたって30の垂直レベルで処理する手法の利点と課題について検討する。 850hpaの温度などの分野において、7日間の予測で最大12% (rmse) の精度向上を達成できることを示した。 しかし,鋭利で正確な予測を客観的に測定するための基礎的作業の強化の必要性を認識した。 我々は、線形統計モデルからより複雑な非線形機械学習アプローチに移行する際に、ルート平均二乗誤差 (RMSE) や異常相関係数 (ACC) などの標準メトリクスを使用する際の課題について議論する。

Post-processing typically takes the outputs of a Numerical Weather Prediction (NWP) model and applies linear statistical techniques to produce improve localized forecasts, by including additional observations, or determining systematic errors at a finer scale. In this pilot study, we investigate the benefits and challenges of using non-linear neural network (NN) based methods to post-process multiple weather features -- temperature, moisture, wind, geopotential height, precipitable water -- at 30 vertical levels, globally and at lead times up to 7 days. We show that we can achieve accuracy improvements of up to 12% (RMSE) in a field such as temperature at 850hPa for a 7 day forecast. However, we recognize the need to strengthen foundational work on objectively measuring a sharp and correct forecast. We discuss the challenges of using standard metrics such as root mean squared error (RMSE) or anomaly correlation coefficient (ACC) as we move from linear statistical models to more complex non-linear machine learning approaches for post-processing global weather forecasts.
翻訳日:2023-03-30 16:53:08 公開日:2023-03-28
# 複数のランダム化実験データを組み合わせた不均一処理効果推定のための機械学習手法の比較

Comparing Machine Learning Methods for Estimating Heterogeneous Treatment Effects by Combining Data from Multiple Randomized Controlled Trials ( http://arxiv.org/abs/2303.16299v1 )

ライセンス: Link先を確認
Carly Lupton Brantner, Trang Quynh Nguyen, Tengjie Tang, Congwen Zhao, Hwanhee Hong, Elizabeth A. Stuart(参考訳) 個別化された治療決定は、健康的な結果を改善するが、データを使用して、信頼できる、正確で、一般化可能な方法で決定を行うことは、単一のデータセットでは困難である。 複数のランダム化制御試験を活用することで、データセットと未確立の処理課題を組み合わせることで、不均一な処理効果を推定する能力を向上させることができる。 本稿では,複数試行データを用いて不均一な治療効果を推定するための非パラメトリックアプローチについて述べる。 我々は,複数回の試行で単一研究手法をシナリオに拡張し,その性能をシミュレーション実験により検証し,各分野の異種性の異なるデータ生成シナリオについて検討する。 シミュレーションにより, 治験間での処理効果の均一性を直接許容する手法は, 実施しない方法よりも優れており, 単一研究方法の選択は, 処理効果の機能形式に基づいて重要であることが示された。 最後に、どの方法が各設定でうまく機能するかを検討し、4つのランダム化対照試験に適用し、大うつ病障害に対する治療の効果の多様性について検討する。

Individualized treatment decisions can improve health outcomes, but using data to make these decisions in a reliable, precise, and generalizable way is challenging with a single dataset. Leveraging multiple randomized controlled trials allows for the combination of datasets with unconfounded treatment assignment to improve the power to estimate heterogeneous treatment effects. This paper discusses several non-parametric approaches for estimating heterogeneous treatment effects using data from multiple trials. We extend single-study methods to a scenario with multiple trials and explore their performance through a simulation study, with data generation scenarios that have differing levels of cross-trial heterogeneity. The simulations demonstrate that methods that directly allow for heterogeneity of the treatment effect across trials perform better than methods that do not, and that the choice of single-study method matters based on the functional form of the treatment effect. Finally, we discuss which methods perform well in each setting and then apply them to four randomized controlled trials to examine effect heterogeneity of treatments for major depressive disorder.
翻訳日:2023-03-30 16:52:48 公開日:2023-03-28
# Dice Semimetric Losses: ソフトラベルによるDice Scoreの最適化

Dice Semimetric Losses: Optimizing the Dice Score with Soft Labels ( http://arxiv.org/abs/2303.16296v1 )

ライセンス: Link先を確認
Zifu Wang, Teodora Popordanoska, Jeroen Bertels, Robin Lemmens, Matthew B. Blaschko(参考訳) 軟Dice損失(SDL)は、医療画像コミュニティにおける多くの自動セグメンテーションパイプラインにおいて重要な役割を担っている。 ここ数年、その優れた機能を支えるいくつかの理由が明らかにされ、さらなる最適化が検討されている。 しかしながら、ソフトラベルを使った設定での直接使用をサポートする実装は今のところ存在しない。 したがって、SDLの使用とソフトラベルの利用による研究の相乗効果は、モデルキャリブレーションの文脈においても、いまだに欠落している。 本稿では,Dice semimetric loss (DML)を紹介する。 (i) ハードラベルの標準設定でSDLと同一の設計であるが、 (ii)はソフトラベルの設定で使用することができる。 公的なQUBIQ、LiTS、KiTSベンチマークに関する我々の実験は、ハードラベル(多数投票やランダム選択など)に対するソフトラベル(平均化、ラベルの平滑化、知識蒸留など)とのDMLのシナジーの可能性を確認する。 その結果,dmlの普及を支援する優れたdiceスコアとモデルキャリブレーションを得た。 コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。

The soft Dice loss (SDL) has taken a pivotal role in many automated segmentation pipelines in the medical imaging community. Over the last years, some reasons behind its superior functioning have been uncovered and further optimizations have been explored. However, there is currently no implementation that supports its direct use in settings with soft labels. Hence, a synergy between the use of SDL and research leveraging the use of soft labels, also in the context of model calibration, is still missing. In this work, we introduce Dice semimetric losses (DMLs), which (i) are by design identical to SDL in a standard setting with hard labels, but (ii) can be used in settings with soft labels. Our experiments on the public QUBIQ, LiTS and KiTS benchmarks confirm the potential synergy of DMLs with soft labels (e.g. averaging, label smoothing, and knowledge distillation) over hard labels (e.g. majority voting and random selection). As a result, we obtain superior Dice scores and model calibration, which supports the wider adoption of DMLs in practice. Code is available at \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}.
翻訳日:2023-03-30 16:52:29 公開日:2023-03-28
# SnakeVoxFormer: 実行長符号化によるトランスフォーマーベースシングルイメージ\\Voxel再構成

SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding ( http://arxiv.org/abs/2303.16293v1 )

ライセンス: Link先を確認
Jae Joong Lee, Bedrich Benes(参考訳) 深層学習に基づく3Dオブジェクト再構成は前例のない成果を上げている。 その中でも、トランスフォーマーディープニューラルモデルはコンピュータビジョンの多くの応用において優れた性能を示した。 SnakeVoxFormerは、トランスを用いた単一の画像から、ボクセル空間における新しい3次元オブジェクト再構成である。 SnakeVoxFormerへの入力は2D画像であり、結果は3Dボクセルモデルである。 本手法の重要な特徴は,voxel空間を(蛇のように)横断し,トランスフォーマーエンコーディングに適した1次元構造に広い空間差を符号化するラン長エンコーディングを使用することである。 次に辞書エンコーディングを用いて、発見したRLEブロックを変換器に使用するトークンに変換する。 1D表現は、元のデータサイズの約1%しか使用していない1Dデータに変換する、ロスレスな3D形状データ圧縮方法である。 異なるボクセルトラバース戦略がエンコーディングと再構築の効果に与える影響を示す。 本手法は画像からの3次元ボクセル再構成のための最先端技術と比較し,少なくとも2.8%,最大19.8%改善した。

Deep learning-based 3D object reconstruction has achieved unprecedented results. Among those, the transformer deep neural model showed outstanding performance in many applications of computer vision. We introduce SnakeVoxFormer, a novel, 3D object reconstruction in voxel space from a single image using the transformer. The input to SnakeVoxFormer is a 2D image, and the result is a 3D voxel model. The key novelty of our approach is in using the run-length encoding that traverses (like a snake) the voxel space and encodes wide spatial differences into a 1D structure that is suitable for transformer encoding. We then use dictionary encoding to convert the discovered RLE blocks into tokens that are used for the transformer. The 1D representation is a lossless 3D shape data compression method that converts to 1D data that use only about 1% of the original data size. We show how different voxel traversing strategies affect the effect of encoding and reconstruction. We compare our method with the state-of-the-art for 3D voxel reconstruction from images and our method improves the state-of-the-art methods by at least 2.8% and up to 19.8%.
翻訳日:2023-03-30 16:52:07 公開日:2023-03-28
# XAIR:拡張現実における説明可能なAIフレームワーク

XAIR: A Framework of Explainable AI in Augmented Reality ( http://arxiv.org/abs/2303.16292v1 )

ライセンス: Link先を確認
Xuhai Xu, Mengjie Yu, Tanya R. Jonker, Kashyap Todi, Feiyu Lu, Xun Qian, Jo\~ao Marcelo Evangelista Belo, Tianyi Wang, Michelle Li, Aran Mun, Te-Yen Wu, Junxiao Shen, Ting Zhang, Narine Kokhlikyan, Fulton Wang, Paul Sorenson, Sophie Kahyun Kim, Hrvoje Benko(参考訳) 説明可能なAI(XAI)は、AI駆動インタラクティブシステムの重要なコンポーネントとしての地位を確立している。 Augmented Reality(AR)が日々の生活にますます統合されるにつれて、XAIの役割はARにおいても不可欠になる。 しかし、ARに有効なXAI体験をどのように設計するかは明らかになっていない。 我々は、ARにおけるAI出力の説明を提供するために、"いつ"、"何"、"方法"に対処する設計フレームワークであるXAIRを提案する。 このフレームワークは、XAIとHCIの研究に関する複数の学際的な文献レビュー、500人以上のエンドユーザによるARベースの説明の好みを調査する大規模な調査、12人の専門家によるワークショップ、そしてARにおけるXAI設計に関する洞察を集めた。 XAIRの有用性と有効性は、10人のデザイナーによる研究と12人のエンドユーザによる別の研究によって検証された。 XAIRはデザイナーにガイドラインを提供し、新しいデザインの機会を特定し、ARで効果的なXAIデザインを達成するよう促すことができる。

Explainable AI (XAI) has established itself as an important component of AI-driven interactive systems. With Augmented Reality (AR) becoming more integrated in daily lives, the role of XAI also becomes essential in AR because end-users will frequently interact with intelligent services. However, it is unclear how to design effective XAI experiences for AR. We propose XAIR, a design framework that addresses "when", "what", and "how" to provide explanations of AI output in AR. The framework was based on a multi-disciplinary literature review of XAI and HCI research, a large-scale survey probing 500+ end-users' preferences for AR-based explanations, and three workshops with 12 experts collecting their insights about XAI design in AR. XAIR's utility and effectiveness was verified via a study with 10 designers and another study with 12 end-users. XAIR can provide guidelines for designers, inspiring them to identify new design opportunities and achieve effective XAI designs in AR.
翻訳日:2023-03-30 16:51:47 公開日:2023-03-28
# 量子技術応用のための半導体点欠陥特性データベース

Database of semiconductor point-defect properties for applications in quantum technologies ( http://arxiv.org/abs/2303.16283v1 )

ライセンス: Link先を確認
Vsevolod Ivanov and Alexander Ivanov and Jacopo Simoni and Prabin Parajuli and Boubacar Kant\'e and Thomas Schenkel and Liang Tan(参考訳) ソリッドステートの点欠陥は量子情報科学の分野で注目を集めている。量子コンピューティング、センシング、ネットワークのアプリケーションに使われている量子情報の保存と転送を行うデバイスにおいて、その局所状態がスピン光子インターフェースとして機能する可能性があるからだ。 本研究では, ダイヤモンド, 炭化ケイ素, シリコンなどの半導体における5万点欠陥の高スループット計算を行った。 量子応用に焦点を当てて, 生成エネルギー, スピン特性, 遷移双極子モーメント, ゼロフォノン線など, これらの欠陥の光学的および電子的性質を特徴付ける。 内在シリコンで安定な2331個の複合欠陥が検出され、光に輝く多くのスピン量子ビット候補と単一光子源を特定するためにフィルタされる。 計算結果と緩和された欠陥構造はすべてquantumdefects.comで公開されている。これは欠陥特性の生きたデータベースであり、新たな欠陥や特性によって継続的に拡張され、研究者がアプリケーションに合わせた欠陥を選択することができる。

Solid-state point defects are attracting increasing attention in the field of quantum information science, because their localized states can act as a spin-photon interface in devices that store and transfer quantum information, which have been used for applications in quantum computing, sensing, and networking. In this work we have performed high-throughput calculations of over 50,000 point defects in various semiconductors including diamond, silicon carbide, and silicon. Focusing on quantum applications, we characterize the relevant optical and electronic properties of these defects, including formation energies, spin characteristics, transition dipole moments, zero-phonon lines. We find 2331 composite defects which are stable in intrinsic silicon, which are then filtered to identify many new optically bright telecom spin qubit candidates and single-photon sources. All computed results and relaxed defect structures are made publicly available online at quantumdefects.com, a living database of defect characteristics which will be continually expanded with new defects and properties, and will enable researchers to select defects tailored to their applications.
翻訳日:2023-03-30 16:51:29 公開日:2023-03-28
# Google, ChatGPT, Wikipedia, YouTubeにおける言語バイアスの調査

A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube ( http://arxiv.org/abs/2303.16281v1 )

ライセンス: Link先を確認
Queenie Luo, Michael J. Puett, Michael D. Smith(参考訳) グーグル検索が「世界を理解するために多くの角度」から情報を提供するというミッションとは対照的に、グーグルとその最も顕著な成果は「バッダーリズム」や「リベリズム」、「コロン化」、「イラン」、そして「アメリカ」といった複雑なトピックの検索言語に結びついている文化的なステレオタイプを反映している。 簡単に言えば、彼らは異なる言語で同じ検索をまたいだ異なる情報を提示する(我々はそれを「言語バイアス」と呼んでいる)。 複雑なトピックのグローバルなイメージを提示する代わりに、私たちのオンライン検索は、他の文化的視点の存在に無関係に、象の小さな部分に触れる、実証的な盲人になるのです。 私たちが検索に使用する言語は、個人が自身の文化に基づいて他人やアイデアを評価する、エスノセントリックな見解を促進するための文化フィルターとして使われます。 また、言語バイアスがChatGPTに深く埋め込まれていることもわかりました。 主に英語のデータに基づいて訓練されているため、英米の視点を規範的な視点として示し、多面的な問題の複雑さを単一英米標準に還元する。 本稿では,言語バイアスの証拠と分析を行い,そのより大きな社会的影響について議論する。 論文の最後には,言語バイアスを活用するために自動翻訳を利用する可能性があり,また,象の真の描写をまとめる作業は,NLPの新たな研究分野にふさわしい課題であり,倫理的に健全で社会的に責任のある技術を生み出すためには,人文科学の研究者との協力が必要である,と論じている。

Contrary to Google Search's mission of delivering information from "many angles so you can form your own understanding of the world," we find that Google and its most prominent returned results -- Wikipedia and YouTube, simply reflect the narrow set of cultural stereotypes tied to the search language for complex topics like "Buddhism," "Liberalism," "colonization," "Iran" and "America." Simply stated, they present, to varying degrees, distinct information across the same search in different languages (we call it 'language bias'). Instead of presenting a global picture of a complex topic, our online searches turn us into the proverbial blind person touching a small portion of an elephant, ignorant of the existence of other cultural perspectives. The language we use to search ends up as a cultural filter to promote ethnocentric views, where a person evaluates other people or ideas based on their own culture. We also find that language bias is deeply embedded in ChatGPT. As it is primarily trained on English language data, it presents the Anglo-American perspective as the normative view, reducing the complexity of a multifaceted issue to the single Anglo-American standard. In this paper, we present evidence and analysis of language bias and discuss its larger social implications. Toward the end of the paper, we propose a potential framework of using automatic translation to leverage language bias and argue that the task of piecing together a genuine depiction of the elephant is a challenging and important endeavor that deserves a new area of research in NLP and requires collaboration with scholars from the humanities to create ethically sound and socially responsible technology together.
翻訳日:2023-03-30 16:51:10 公開日:2023-03-28
# cyclegan: 画像対画像変換のためのganの品質向上

Rethinking CycleGAN: Improving Quality of GANs for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2303.16280v1 )

ライセンス: Link先を確認
Dmitrii Torbunov, Yi Huang, Huan-Hsin Tseng, Haiwang Yu, Jin Huang, Shinjae Yoo, Meifeng Lin, Brett Viren, Yihui Ren(参考訳) unpaired image-to-image (i2i) 変換技術は、2つのドメイン間のマッピングを完全に教師なしで探す。 I2I問題に対する最初の解決策はGAN(Generative Adversarial Neural Network)によって提供されたが、現在は拡散モデル(DM)がFIDの観点からI2I翻訳ベンチマークの最先端を保っている。 しかし、トレーニング中にソースドメインのデータを使用しない、あるいは単純なピクセル単位のエラーによってのみソースと変換画像の一貫性を維持する、といった制限がある。 この研究は、古典的なCycleGANモデルを再検討し、モデルアーキテクチャとモデルトレーニング手順の最近の進歩を取り入れている。 改訂されたモデルは、様々なベンチマークで他の先進的なGANやDMベースの競合より大幅に優れている。 CelebA の Male2Female 翻訳の場合、このモデルは最先端の結果と比較して FID スコアが40%以上改善されている。 この研究は、ピクセル単位のi2i翻訳の忠実性指標の非効率性を示し、その修正を提案する。 コードとトレーニングされたモデルはhttps://github.com/ls4gan/uvcgan2で入手できる。

An unpaired image-to-image (I2I) translation technique seeks to find a mapping between two domains of data in a fully unsupervised manner. While the initial solutions to the I2I problem were provided by the generative adversarial neural networks (GANs), currently, diffusion models (DM) hold the state-of-the-art status on the I2I translation benchmarks in terms of FID. Yet, they suffer from some limitations, such as not using data from the source domain during the training, or maintaining consistency of the source and translated images only via simple pixel-wise errors. This work revisits the classic CycleGAN model and equips it with recent advancements in model architectures and model training procedures. The revised model is shown to significantly outperform other advanced GAN- and DM-based competitors on a variety of benchmarks. In the case of Male2Female translation of CelebA, the model achieves over 40% improvement in FID score compared to the state-of-the-art results. This work also demonstrates the ineffectiveness of the pixel-wise I2I translation faithfulness metrics and suggests their revision. The code and trained models are available at https://github.com/LS4GAN/uvcgan2
翻訳日:2023-03-30 16:50:37 公開日:2023-03-28
# 複合凸最適化のための外挿によるサイクル座標平均化

Accelerated Cyclic Coordinate Dual Averaging with Extrapolation for Composite Convex Optimization ( http://arxiv.org/abs/2303.16279v1 )

ライセンス: Link先を確認
Cheuk Yin Lin, Chaobing Song, Jelena Diakonikolas(参考訳) 部分一階情報を循環的に活用することは、スケーラブルな一階法を得るための最も自然な戦略であることは間違いない。 しかし、実際に広く使われているにもかかわらず、循環スキームは、ランダム化されたスキームよりも理論的な観点からは理解されていない。 一般化変分不等式に対する外挿的巡回スキームの解析が最近成功したことに動機づけられて,複合凸最適化のための外挿法 (a-coder) を用いた高速化巡回座標双対平均化を提案する。 A-CODERは,前処理よりもブロック数に依存して最適な収束率が得られることを示す。 さらに, 目的関数の滑らかな成分が有限和形式で表現可能な設定に対しては, A-CODER, VR-A-CODERの分散還元変種を導入する。 最後に,数値実験によるアルゴリズムの有効性を示す。

Exploiting partial first-order information in a cyclic way is arguably the most natural strategy to obtain scalable first-order methods. However, despite their wide use in practice, cyclic schemes are far less understood from a theoretical perspective than their randomized counterparts. Motivated by a recent success in analyzing an extrapolated cyclic scheme for generalized variational inequalities, we propose an Accelerated Cyclic Coordinate Dual Averaging with Extrapolation (A-CODER) method for composite convex optimization, where the objective function can be expressed as the sum of a smooth convex function accessible via a gradient oracle and a convex, possibly nonsmooth, function accessible via a proximal oracle. We show that A-CODER attains the optimal convergence rate with improved dependence on the number of blocks compared to prior work. Furthermore, for the setting where the smooth component of the objective function is expressible in a finite sum form, we introduce a variance-reduced variant of A-CODER, VR-A-CODER, with state-of-the-art complexity guarantees. Finally, we demonstrate the effectiveness of our algorithms through numerical experiments.
翻訳日:2023-03-30 16:50:15 公開日:2023-03-28
# 変形性NeRFのための流れの監視

Flow supervision for Deformable NeRF ( http://arxiv.org/abs/2303.16333v1 )

ライセンス: Link先を確認
Chaoyang Wang, Lachlan Ewen MacDonald, Laszlo A. Jeni, Simon Lucey(参考訳) 本稿では,光学フローを直接監視できる変形可能なNeRFの新たな手法を提案する。 我々は,変形可能なNeRFを用いて,流れの制約を後方変形場に強制する際の計算的非効率性に関して,大きな課題を克服する。 具体的には,フレーム間のシーンフローを計算するためには逆変形関数は不要であることを示す。 この洞察は、解析的に逆転できる変形関数に制約されないため、問題を劇的に単純化する。 代わりに、逆関数定理に基づく導出によって要求される弱い仮定のおかげで、このアプローチは一般的に使われる逆変形場の広いクラスに拡張することができる。 本稿では,高速物体移動を伴う単眼的新規ビュー合成の結果を示し,フロー監視を伴わないベースラインに対して有意な改善を示す。

In this paper we present a new method for deformable NeRF that can directly use optical flow as supervision. We overcome the major challenge with respect to the computationally inefficiency of enforcing the flow constraints to the backward deformation field, used by deformable NeRFs. Specifically, we show that inverting the backward deformation function is actually not needed for computing scene flows between frames. This insight dramatically simplifies the problem, as one is no longer constrained to deformation functions that can be analytically inverted. Instead, thanks to the weak assumptions required by our derivation based on the inverse function theorem, our approach can be extended to a broad class of commonly used backward deformation field. We present results on monocular novel view synthesis with rapid object motion, and demonstrate significant improvements over baselines without flow supervision.
翻訳日:2023-03-30 16:44:06 公開日:2023-03-28
# 誤差の存在下でのステアリングによる量子状態工学

Quantum state engineering by steering in the presence of errors ( http://arxiv.org/abs/2303.16329v1 )

ライセンス: Link先を確認
E. Medina-Guerra, Parveen Kumar, I. V. Gornyi, and Yuval Gefen(参考訳) 量子状態工学は、量子情報分野における様々な応用において重要な役割を果たす。 運転・散逸、断熱冷却、測定に基づくステアリングなど、異なる戦略が過去に提案されており、それぞれが上向きと下向きで、状態生成と操作のために提案されてきた。 本稿では,量子システムを目的とする状態に向けて制御するために,一般化された測定のシーケンスを用いる計測ベースの状態工学プロトコルのクラスについて述べる。 従来、測定ベースのプロトコルは理想的な手順に依存しており、実験的な実現と外部ノイズの不完全性から生じる様々なエラーの影響の探索を避けていた。 我々は,これらのステアリングプロトコルの各種誤差に対するロバスト性に関する詳細な解析を行うために,量子軌道形式を用いる。 プロトコルの実行中に変更が残らないかによって、動的または静的に分類できる一連のエラーについて検討する。 具体的には, システム-検出器結合の誤選択, 測定ステップ後の検出器状態の再初期化, 操舵方向の変動, システム-検出器相互作用における環境負荷の影響について検討する。 このプロトコルは,システム検出器結合パラメータの誤選択に対して完全に堅牢であり,他の誤りに対して合理的な頑健性を示す。 我々は,プロトコルのロバスト性を特徴づけ,解析結果を提供するために,忠実度,トレース距離,線形エントロピーなどの様々な量化器を用いる。 その後,乗算ホワイトノイズを持つハミルトニアンの指数関数の古典的期待値と時間順序演算子の交換と,検出結果に対する期待値と部分的トレースの交換を実演する。

Quantum state engineering plays a vital role in various applications in the field of quantum information. Different strategies, including drive-and-dissipation, adiabatic cooling, and measurement-based steering, have been proposed in the past for state generation and manipulation, each with its upsides and downsides. Here, we address a class of measurement-based state engineering protocols where a sequence of generalized measurements is employed to steer a quantum system toward a desired target state. Previously studied measurement-based protocols relied on idealized procedures and avoided exploration of the effects of various errors stemming from imperfections of experimental realizations and external noise. We employ the quantum trajectory formalism to provide a detailed analysis of the robustness of these steering protocols against various errors. We study a set of errors that can be classified as dynamic or static, depending on whether they remain unchanged while running the protocol. More specifically, we investigate the impact of erroneous choice of system-detector coupling, re-initialization of the detector state following a measurement step, fluctuating steering directions, and environmentally induced errors in the system-detector interaction. We show that the protocol remains fully robust against the erroneous choice of system-detector coupling parameters and presents reasonable robustness against other errors. We employ various quantifiers such as fidelity, trace distance, and linear entropy to characterize the protocol's robustness and provide analytical results. Subsequently, we demonstrate the commutation between the classical expectation value and the time-ordering operator of the exponential of a Hamiltonian with multiplicative white noise, as well as the commutation of the expectation value and the partial trace with respect to detector outcomes.
翻訳日:2023-03-30 16:43:53 公開日:2023-03-28
# ファジィ時空:量子光学ホログラフィックバルク再構成の基本限界

Fuzzy spacetime: fundamental limits of quantum-optical holographic bulk reconstruction ( http://arxiv.org/abs/2303.16326v1 )

ライセンス: Link先を確認
Erickson Tjoa(参考訳) このエッセイでは、局所化された量子力学的プローブを用いた時空計量再構成に量子論と熱力学によって課される基本的な限界があると主張する。 我々は、相対論的量子情報における粒子検出器の量子光学モデルを用いたメートル法再構成の具体的かつ非摂動的実現を提供することによりこれを行う。 非摂動的アプローチにより、ケンプの「短距離物理学は統計学の貧弱さに対応している」という考え方を実現できるが、これはプランクスケールを超える。 これらの基本的な制限は、漸近的に平坦な時空におけるスカラー相関子間のバルク対境界対応を用いたホログラフィック双対解釈を与えることができる。

In this Essay we argue that there are fundamental limits imposed by quantum theory and thermodynamics on spacetime metric reconstruction using localized quantum-mechanical probes: the "fuzziness" of spacetime that arise from operational measurement protocols is already present before one reaches the quantum-gravitational regime. We do this by providing a concrete, non-perturbative realization of metric reconstruction using quantum-optical model of particle detectors in relativistic quantum information. The non-perturbative approach allows us to realize a version of "short-distance physics corresponds to poor statistics" idea by Kempf, but this occurs way above the Planck scale. These fundamental limitations can be given a holographic dual interpretation using bulk-to-boundary correspondence between scalar correlators in asymptotically flat spacetimes.
翻訳日:2023-03-30 16:43:26 公開日:2023-03-28
# FMAS: セマンティックセグメンテーションのための高速多目的スーパーネットアーキテクチャ検索

FMAS: Fast Multi-Objective SuperNet Architecture Search for Semantic Segmentation ( http://arxiv.org/abs/2303.16322v1 )

ライセンス: Link先を確認
Zhuoran Xiong, Marihan Amein, Olivier Therrien, Warren J. Gross, Brett H. Meyer(参考訳) 本稿では,セマンティックセグメンテーションのための高速多目的ニューラルアーキテクチャ探索フレームワークFMASを提案する。 FMASはDeepLabV3+の構造と事前訓練されたパラメータを微調整することなくサブサンプリングし、検索中のトレーニング時間を劇的に短縮する。 候補評価時間をさらに短縮するために、探索中に検証データセットのサブセットを使用する。 最終候補であるPareto非支配の候補者のみが、最終的に完全なトレーニングセットを使用して微調整される。 我々は,PASCAL VOC 2012データセット上で精度と計算コストを効果的に交換するモデルを探索し,FMASを評価する。 例えば、0.5GPUでFLOPとパラメータをそれぞれ10$\%$と20$\%$に減らし、3$\%$以上のエラーを発生させるDeepLabV3+を発見できる。 また、gap8と呼ばれるエッジデバイスを検索し、そのレイテンシを測定基準として使用します。 FMASは7.61$\%のMIoU損失を持つ2.2$\times$高速ネットワークを見つけることができる。

We present FMAS, a fast multi-objective neural architecture search framework for semantic segmentation. FMAS subsamples the structure and pre-trained parameters of DeepLabV3+, without fine-tuning, dramatically reducing training time during search. To further reduce candidate evaluation time, we use a subset of the validation dataset during the search. Only the final, Pareto non-dominated, candidates are ultimately fine-tuned using the complete training set. We evaluate FMAS by searching for models that effectively trade accuracy and computational cost on the PASCAL VOC 2012 dataset. FMAS finds competitive designs quickly, e.g., taking just 0.5 GPU days to discover a DeepLabV3+ variant that reduces FLOPs and parameters by 10$\%$ and 20$\%$ respectively, for less than 3$\%$ increased error. We also search on an edge device called GAP8 and use its latency as the metric. FMAS is capable of finding 2.2$\times$ faster network with 7.61$\%$ MIoU loss.
翻訳日:2023-03-30 16:43:14 公開日:2023-03-28
# 無限時間ホリゾン上の部分観測を用いた最悪ケース制御と学習

Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon ( http://arxiv.org/abs/2303.16321v1 )

ライセンス: Link先を確認
Aditya Dave, Ioannis Faros, Nishanth Venkatesh, and Andreas A. Malikopoulos(参考訳) 安全クリティカルなサイバー物理システムは、敵の妨害や不確実性のモデリングに対して最悪のパフォーマンスが堅牢な制御戦略を必要とする。 本稿では,半観測システムにおける近似制御と学習の枠組みを提案し,無限時間ホリゾンに対する最悪の割引コストを最小化する。 確率分布が未知な有限値不確実変数として系に障害をモデル化する。 既知のシステムダイナミクスの問題に対して,最適制御戦略を計算するために動的プログラミング(dp)分解を構築する。 最初のコントリビューションは、最適性を失うことなくDPの計算的トラクタビリティを向上させる情報状態を定義することです。 次に,各時間に発生したコストが観測可能な問題に対する単純化について述べる。 第2の貢献は,可観測コストの問題に対して,観測データから直接構築あるいは学習可能な近似情報状態の定義である。 得られた近似制御戦略の性能損失の限界を導出する。

Safety-critical cyber-physical systems require control strategies whose worst-case performance is robust against adversarial disturbances and modeling uncertainties. In this paper, we present a framework for approximate control and learning in partially observed systems to minimize the worst-case discounted cost over an infinite time-horizon. We model disturbances to the system as finite-valued uncertain variables with unknown probability distributions. For problems with known system dynamics, we construct a dynamic programming (DP) decomposition to compute the optimal control strategy. Our first contribution is to define information states that improve the computational tractability of this DP without loss of optimality. Then, we describe a simplification for a class of problems where the incurred cost is observable at each time-instance. Our second contribution is a definition of approximate information states that can be constructed or learned directly from observed data for problems with observable costs. We derive bounds on the performance loss of the resulting approximate control strategy.
翻訳日:2023-03-30 16:42:56 公開日:2023-03-28
# SynthRAD2023 グランドチャレンジデータセット:放射線治療のための合成CTの作成

SynthRAD2023 Grand Challenge dataset: generating synthetic CT for radiotherapy ( http://arxiv.org/abs/2303.16320v1 )

ライセンス: Link先を確認
Adrian Thummerer, Erik van der Bijl, Arthur Jr Galapon, Joost JC Verhoeff, Johannes A Langendijk, Stefan Both, Cornelis (Nico) AT van den Berg, Matteo Maspero(参考訳) 目的: 腫瘍患者の診断と治療, 特に放射線治療において, 画像診断がますます重要になっている。 合成ct(sct)生成の最近の進歩は、異なるアプローチをオープンに比較するためのデータと評価指標を提供するパブリックな課題に対する関心を高めている。 本稿では,放射線治療計画のための sCT の生成と評価を容易にするため,厳格に登録された CBCT 画像と MRI 画像を用いた脳・骨盤CT 画像のデータセットについて述べる。 取得と検証方法: このデータセットは、オランダの3つの大学医療センターから540個の脳と540個の骨盤放射線治療患者のCT、CBCT、MRIから成り立っている。 年齢は3歳から93歳まで変化し、平均年齢は60歳であった。 様々なスキャナーモデルと取得設定が3つのデータ提供センターの患者間で使用された。 詳細はデータセットを備えたCSVファイルで確認できる。 データはsynthrad2023のコレクションでzenodo(https://doi.org/10.5281/zenodo.7260705)で利用可能である。 各主題のイメージは nifti フォーマットで利用可能である。 潜在的な応用: このデータセットは、様々な取得プロトコルを持つ現実的なマルチセンターデータセット上で、放射線治療目的の画像合成アルゴリズムの評価と開発を可能にする。 合成CT生成は、診断、治療計画、治療モニタリング、手術計画など、放射線治療に多くの応用がある。

Purpose: Medical imaging has become increasingly important in diagnosing and treating oncological patients, particularly in radiotherapy. Recent advances in synthetic computed tomography (sCT) generation have increased interest in public challenges to provide data and evaluation metrics for comparing different approaches openly. This paper describes a dataset of brain and pelvis computed tomography (CT) images with rigidly registered CBCT and MRI images to facilitate the development and evaluation of sCT generation for radiotherapy planning. Acquisition and validation methods: The dataset consists of CT, CBCT, and MRI of 540 brains and 540 pelvic radiotherapy patients from three Dutch university medical centers. Subjects' ages ranged from 3 to 93 years, with a mean age of 60. Various scanner models and acquisition settings were used across patients from the three data-providing centers. Details are available in CSV files provided with the datasets. Data format and usage notes: The data is available on Zenodo (https://doi.org/10.5281/zenodo.7260705) under the SynthRAD2023 collection. The images for each subject are available in nifti format. Potential applications: This dataset will enable the evaluation and development of image synthesis algorithms for radiotherapy purposes on a realistic multi-center dataset with varying acquisition protocols. Synthetic CT generation has numerous applications in radiation therapy, including diagnosis, treatment planning, treatment monitoring, and surgical planning.
翻訳日:2023-03-30 16:42:43 公開日:2023-03-28
# 可変量子マルチブロックADMMアルゴリズムによる生成スケジューリング

Trainable Variational Quantum-Multiblock ADMM Algorithm for Generation Scheduling ( http://arxiv.org/abs/2303.16318v1 )

ライセンス: Link先を確認
Reza Mahroo, Amin Kargarian(参考訳) 量子コンピューティングの出現は、複雑な問題の解決方法に革命をもたらす可能性がある。 本稿では,量子コンピューティング,機械学習,分散最適化を融合して生成スケジューリングを行う2ループ量子古典解アルゴリズムを提案する。 本研究の目的は,生成スケジューリングなどの実用的な電力系統最適化問題を解決するために,量子ビット数に制限のあるノイズの多い近距離量子マシンの導入を容易にすることである。 外ループは、生成スケジューリング問題を3つのサブプロブレムに分解する乗算器(QADMM)アルゴリズムの3ブロック量子代替方向法であり、1つの2次非制約バイナリ最適化(QUBO)と2つの非QUBOを含む。 内部ループは量子コンピュータ上でQUBOを解くためのトレーニング可能な量子近似最適化アルゴリズム(T-QAOA)である。 提案したT-QAOAは、量子古典機械の相互作用を逐次情報として翻訳し、リカレントニューラルネットワークを用いて、適切なサンプリング手法を用いて量子回路の変動パラメータを推定する。 T-QAOAは量子古典解法に必要な数百の反復ではなく、数回の量子ラーナー反復でQUBO解を決定する。 外部3ブロックADMMはQUBOと非QUBOを座標し、元の問題の解を得る。 提案したQADMMが収束することが保証されている条件について論じる。 2つの数学的および3世代スケジューリングケースが研究されている。 量子シミュレータと古典コンピュータを用いた解析により,提案アルゴリズムの有効性が示された。 T-QAOAの利点について,確率勾配降下に基づく最適化を用いたQAOAと比較検討した。

The advent of quantum computing can potentially revolutionize how complex problems are solved. This paper proposes a two-loop quantum-classical solution algorithm for generation scheduling by infusing quantum computing, machine learning, and distributed optimization. The aim is to facilitate employing noisy near-term quantum machines with a limited number of qubits to solve practical power system optimization problems such as generation scheduling. The outer loop is a 3-block quantum alternative direction method of multipliers (QADMM) algorithm that decomposes the generation scheduling problem into three subproblems, including one quadratically unconstrained binary optimization (QUBO) and two non-QUBOs. The inner loop is a trainable quantum approximate optimization algorithm (T-QAOA) for solving QUBO on a quantum computer. The proposed T-QAOA translates interactions of quantum-classical machines as sequential information and uses a recurrent neural network to estimate variational parameters of the quantum circuit with a proper sampling technique. T-QAOA determines the QUBO solution in a few quantum-learner iterations instead of hundreds of iterations needed for a quantum-classical solver. The outer 3-block ADMM coordinates QUBO and non-QUBO solutions to obtain the solution to the original problem. The conditions under which the proposed QADMM is guaranteed to converge are discussed. Two mathematical and three generation scheduling cases are studied. Analyses performed on quantum simulators and classical computers show the effectiveness of the proposed algorithm. The advantages of T-QAOA are discussed and numerically compared with QAOA which uses a stochastic gradient descent-based optimizer.
翻訳日:2023-03-30 16:42:18 公開日:2023-03-28
# PCA-Netによる演算子学習--上と下の境界

Operator learning with PCA-Net: upper and lower complexity bounds ( http://arxiv.org/abs/2303.16317v1 )

ライセンス: Link先を確認
Samuel Lanthaler(参考訳) ニューラル演算子は計算科学と工学で注目を集めている。 pca-netは、主成分分析(pca)とニューラルネットワークを組み合わせた最近提案されたニューラルネットワークアーキテクチャである。 本研究は,このアプローチの近似理論を展開し,従来の研究を改良し,その方向に大きく拡張する。 定性的境界に関して、本論文は、基礎となる演算子とデータ生成分布に関する最小の仮定の下で、新しい普遍近似結果を導出する。 定量的境界に関して、PCA-Netを用いた効率的な演算子学習のための2つの潜在的障害を特定し、より低い複雑性境界の導出により厳密にし、第1に、PCA固有値の緩やかな減衰によって測定された出力分布の複雑さに関連する。 もう1つの障害は、無限次元の入力空間と出力空間の間の作用素空間の固有の複雑さに関係し、その結果、厳密で定量化可能な次元の呪いのステートメントをもたらす。 これらの下界に加えて、上述の複雑性境界が導出され、第一に、pca固有値の代数的減衰を保証する適切な滑らかさ基準が示される。 そこで,PCA-Netは,ダーシー流とナビエ・ストークス方程式から生じる,特定の操作者に対する次元性の一般的な呪いを克服できることを示した。

Neural operators are gaining attention in computational science and engineering. PCA-Net is a recently proposed neural operator architecture which combines principal component analysis (PCA) with neural networks to approximate an underlying operator. The present work develops approximation theory for this approach, improving and significantly extending previous work in this direction. In terms of qualitative bounds, this paper derives a novel universal approximation result, under minimal assumptions on the underlying operator and the data-generating distribution. In terms of quantitative bounds, two potential obstacles to efficient operator learning with PCA-Net are identified, and made rigorous through the derivation of lower complexity bounds; the first relates to the complexity of the output distribution, measured by a slow decay of the PCA eigenvalues. The other obstacle relates the inherent complexity of the space of operators between infinite-dimensional input and output spaces, resulting in a rigorous and quantifiable statement of the curse of dimensionality. In addition to these lower bounds, upper complexity bounds are derived; first, a suitable smoothness criterion is shown to ensure a algebraic decay of the PCA eigenvalues. Then, it is shown that PCA-Net can overcome the general curse of dimensionality for specific operators of interest, arising from the Darcy flow and Navier-Stokes equations.
翻訳日:2023-03-30 16:41:54 公開日:2023-03-28
# チュートリアル:非線形マグノニクス

Tutorial: Nonlinear magnonics ( http://arxiv.org/abs/2303.16313v1 )

ライセンス: Link先を確認
Shasha Zheng, Zhenyu Wang, Yipu Wang, Fengxiao Sun, Qiongyi He, Peng Yan, and H. Y. Yuan(参考訳) 非線形マグノニクスは、マグノンと他の物理プラットフォーム(フォノン、フォトン、クビット、スピンテクスチャ)の間の非線形相互作用を研究し、情報処理のための新しいマグノン状態を生成する。 本チュートリアルでは, 純磁性系におけるマグノンの非線形相互作用と, ハイブリッドマグノンフォノンおよびマグノンフォトン系について紹介する。 次に、これらの非線形相互作用がいかにエキゾチックなマグノニック現象を生じさせるかを示す。 古典的体制では、マグノンのパラメトリック励起、不安定性と多重性、およびマグノン周波数コムをカバーする。 量子状態においては、単一のマグノン状態、Schr\"{o}dinger cat状態、およびマグノン、光子、フォノン間の絡み合いと量子ステアリングについて議論する。 量子トランスデューサとセンシングにおけるハイブリッドマグノニクス系の応用についても述べる。 最後に,非線形マグノニクスの今後の発展方向を概観する。

Nonlinear magnonics studies the nonlinear interaction between magnons and other physical platforms (phonon, photon, qubit, spin texture) to generate novel magnon states for information processing. In this tutorial, we first introduce the nonlinear interactions of magnons in pure magnetic systems and hybrid magnon-phonon and magnon-photon systems. Then we show how these nonlinear interactions can generate exotic magnonic phenomena. In the classical regime, we will cover the parametric excitation of magnons, bistability and multistability, and the magnonic frequency comb. In the quantum regime, we will discuss the single magnon state, Schr\"{o}dinger cat state and the entanglement and quantum steering among magnons, photons and phonons. The applications of the hybrid magnonics systems in quantum transducer and sensing will also be presented. Finally, we outlook the future development direction of nonlinear magnonics.
翻訳日:2023-03-30 16:41:31 公開日:2023-03-28
# 機械学習とディープラーニングによる犯罪予測 : 体系的レビューと今後の方向性

Crime Prediction Using Machine Learning and Deep Learning: A Systematic Review and Future Directions ( http://arxiv.org/abs/2303.16310v1 )

ライセンス: Link先を確認
Varun Mandalapu, Lavanya Elluri, Piyush Vyas and Nirmalya Roy(参考訳) 近年,機械学習と深層学習技術を用いた犯罪予測は,犯罪発生のパターンや傾向の特定に焦点をあてて,研究者から大きな注目を集めている。 本稿では,犯罪予測に応用されるさまざまな機械学習と深層学習アルゴリズムについて,150以上の論文を考察する。 この研究は、研究者による犯罪予測に使用されるデータセットへのアクセスを提供し、犯罪を予測する機械学習およびディープラーニングアルゴリズムに適用される顕著なアプローチを分析し、犯罪活動に関連するさまざまな傾向や要因に関する洞察を提供する。 さらに,犯罪予測の精度を高めるための潜在的なギャップと今後の方向性を強調した。 最後に,機械学習と深層学習を用いた犯罪予測の総合的な研究概要は,この分野の研究者にとって貴重な資料である。 犯罪予測手法のより深い理解を得ることで、法執行機関は犯罪行為の防止と対応をより効果的に進めることができる。

Predicting crime using machine learning and deep learning techniques has gained considerable attention from researchers in recent years, focusing on identifying patterns and trends in crime occurrences. This review paper examines over 150 articles to explore the various machine learning and deep learning algorithms applied to predict crime. The study provides access to the datasets used for crime prediction by researchers and analyzes prominent approaches applied in machine learning and deep learning algorithms to predict crime, offering insights into different trends and factors related to criminal activities. Additionally, the paper highlights potential gaps and future directions that can enhance the accuracy of crime prediction. Finally, the comprehensive overview of research discussed in this paper on crime prediction using machine learning and deep learning approaches serves as a valuable reference for researchers in this field. By gaining a deeper understanding of crime prediction techniques, law enforcement agencies can develop strategies to prevent and respond to criminal activities more effectively.
翻訳日:2023-03-30 16:41:13 公開日:2023-03-28
# 新しいタスクをポップクイズとして合成するブロックベースプログラミングにおける適応スキャッフィング

Adaptive Scaffolding in Block-Based Programming via Synthesizing New Tasks as Pop Quizzes ( http://arxiv.org/abs/2303.16359v1 )

ライセンス: Link先を確認
Ahana Ghosh, Sebastian Tschiatschek, Sam Devlin, Adish Singla(参考訳) ブロックベースのプログラミング環境は、初心者にコンピューティングの概念を導入するためにますます使われている。 しかし、初等生はプログラミングタスクの概念的かつオープンな性質から、これらの環境に苦しむことが多い。 課題解決に苦しむ学生を効果的に支援するためには、生徒をソリューションへと導く適応的な足場を提供することが重要である。 マルチチョイスプログラミングタスクとして提示されるポップクイズに基づく足場構築フレームワークを提案する。 これらのポップクイズを自動的に生成するために,新しいアルゴリズムであるpquizsynを提案する。 より正式には、ソリューションコードと学生の現在の試みによる参照タスクが与えられた場合、PQuizSynは以下の機能でポップクイズのための新しいタスクを合成する。 (a)適応(すなわち、学生の現在の試みに個別化された) (b)理解し易く(すなわち理解し易く、解き易い)、 (c) 取得する(すなわち、解決コードを公開しない)。 本アルゴリズムは,記号推論とグラフに基づくコード表現に基づく手法を用いてこれらのタスクを合成する。 提案アルゴリズムは,Hour of Code: Maze Challenge と Karel からの参照タスクに対して,何百ものポップクイズを生成することができることを示す。 評価用ルーブリックを用いて,専門家評価によるポップクイズの品質評価を行った。 さらに,ポップクイズに基づくフィードバックによるブロックベースのプログラミングタスクを実践するオンラインプラットフォームを構築し,ユーザ調査の結果を報告する。

Block-based programming environments are increasingly used to introduce computing concepts to beginners. However, novice students often struggle in these environments, given the conceptual and open-ended nature of programming tasks. To effectively support a student struggling to solve a given task, it is important to provide adaptive scaffolding that guides the student towards a solution. We introduce a scaffolding framework based on pop quizzes presented as multi-choice programming tasks. To automatically generate these pop quizzes, we propose a novel algorithm, PQuizSyn. More formally, given a reference task with a solution code and the student's current attempt, PQuizSyn synthesizes new tasks for pop quizzes with the following features: (a) Adaptive (i.e., individualized to the student's current attempt), (b) Comprehensible (i.e., easy to comprehend and solve), and (c) Concealing (i.e., do not reveal the solution code). Our algorithm synthesizes these tasks using techniques based on symbolic reasoning and graph-based code representations. We show that our algorithm can generate hundreds of pop quizzes for different student attempts on reference tasks from Hour of Code: Maze Challenge and Karel. We assess the quality of these pop quizzes through expert ratings using an evaluation rubric. Further, we have built an online platform for practicing block-based programming tasks empowered via pop quiz based feedback, and report results from an initial user study.
翻訳日:2023-03-30 16:34:09 公開日:2023-03-28
# 閉じ込められたイオンによる量子コンピューティング:初心者のガイド

Quantum computing with trapped ions: a beginner's guide ( http://arxiv.org/abs/2303.16358v1 )

ライセンス: Link先を確認
Francesco Bernardini, Abhijit Chakraborty, and Carlos Ord\'o\~nez(参考訳) この教育的な記事では、スケーラブルな量子コンピュータのための最もよく使われるプラットフォームであるイオンを捕捉する量子コンピューティングの基礎を説明します。 ソリューションの適合性は、DiVincenzo基準に対する性能を示すことで解決される。

This pedagogical article explains the basics of quantum computing using one of the most-used platform for scalable quantum computers: trapped ions. The suitability of the solution is addressed by showing its performance towards DiVincenzo criteria.
翻訳日:2023-03-30 16:33:50 公開日:2023-03-28
# 半変態アンザッツ:量子相空間におけるクォーコニウムダイナミクス

The Half Transform Ansatz: Quarkonium Dynamics in Quantum Phase Space ( http://arxiv.org/abs/2303.16356v1 )

ライセンス: Link先を確認
Gabriel Nowaskie(参考訳) Torres-VegaとFrederickによる基礎研究以来、量子位相空間表現(Quantum Phase Space Representation, QPSR)は様々な物理系を解く方法として研究されてきた。 最近、valentino a. simpao は qpsr における時間依存シュロディンガー方程式 (tdse) を解くためのheaviside operational ansatz 法を開発したが、qpsr における時間依存シュロディンガー方程式を解くための一般的な直接法は存在しない。 相空間におけるクォーコニウムの現在の定式化も存在しない。 本論文では、コーネルポテンシャルを用いた非相対論的重クォークの強い相互作用を記述し、ニキフォロフ・ウバロフ法による位相空間波関数とそのエネルギー固有値の解法として、シュロディンガー方程式を超幾何学形式にキャストする手法であるハーフ変換アンザッツを提案する。 この解は多項式と相互項からなる硬化ポテンシャルを持つ任意の2つの粒子系に対して一般化することができる。 これらの結果は実験結果や他の理論モデルと比較される。 また,これらの波動関数の挙動を解析し,円周運動量とチャームアンチチャーム中間子の存在限界との関係を示唆する。

Since the groundwork published by Torres-Vega and Frederick, the Quantum Phase Space Representation (QPSR) has been explored as a method for solving a multitude of physical systems and describing phenomena. Most recently, Valentino A. Simpao has developed a method, the Heaviside Operational Ansatz, to solve the Time Dependent Schrodinger Equation (TDSE) in the QPSR, but there are still no general, direct methods to solve the Time Independent Schrodinger Equation in the QPSR. There is also no current formulation of quarkonium in phase space. In this paper, we describe the strong interactions of non-relativistic heavy quarks using the Cornell potential, and present a method, the Half-Transform Ansatz, to cast the Schrodinger Equation into a hyper-geometric form which can be solved for the phase space wave function and its energy eigenvalues using the Nikiforov-Uvarov method. This solution can be generalized for any two particle system with a scleronomic potential made up of polynomial and reciprocal terms. These results are compared to experimental results and other theoretical models. We also analyze the behavior of these wave functions, which suggest a correlation between radial momentum and the upper limit of existence in charm-anticharm mesons.
翻訳日:2023-03-30 16:33:47 公開日:2023-03-28
# チャットGPTか学術科学者か? 市販機械学習ツールを用いた99%以上の精度で著者の識別

ChatGPT or academic scientist? Distinguishing authorship with over 99% accuracy using off-the-shelf machine learning tools ( http://arxiv.org/abs/2303.16352v1 )

ライセンス: Link先を確認
Heather Desaire, Aleesa E. Chua, Madeline Isom, Romana Jarosova, and David Hua(参考訳) chatgptは、大衆のためにaiが生成した文章へのアクセスを可能にし、わずか数ヶ月のうちにこの製品は知識経済を混乱させ、人々の働き方、学び、書く方法の文化的な変化を引き起こした。 AIから人間の文章を識別する必要性は、特に高度な教育や学術的な執筆のような分野において、現在、批判的かつ緊急的なものとなっている。 そこで本研究では, (人間) 学術研究者の chatgpt が生成するテキストを, 広範かつアクセス可能な教師付き分類法に依拠して識別する手法を開発した。 対象とするアプローチは、aiから人間を識別するための新しい機能の発見につながった。例えば、科学者は長い段落を書き、エクセプショナル言語のためのペンチャントを持ち、しかし、しかしながら、しばしば単語を使用する。 前述のものなどを含む20の機能をセットとして,著者を人間あるいはAIとして,99%以上の精度で割り当てるモデルを構築しました。 このAIから書かれた特定の人間の集団を識別するための戦略は、教師付き分類における基本的なスキルを持つ他の人によってさらに適応され、開発され、学術的な文章などにおけるAIの使用を検出するための、多くの高精度でターゲットとしたモデルへのアクセスが可能になる。

ChatGPT has enabled access to AI-generated writing for the masses, and within just a few months, this product has disrupted the knowledge economy, initiating a culture shift in the way people work, learn, and write. The need to discriminate human writing from AI is now both critical and urgent, particularly in domains like higher education and academic writing, where AI had not been a significant threat or contributor to authorship. Addressing this need, we developed a method for discriminating text generated by ChatGPT from (human) academic scientists, relying on prevalent and accessible supervised classification methods. We focused on how a particular group of humans, academic scientists, write differently than ChatGPT, and this targeted approach led to the discovery of new features for discriminating (these) humans from AI; as examples, scientists write long paragraphs and have a penchant for equivocal language, frequently using words like but, however, and although. With a set of 20 features, including the aforementioned ones and others, we built a model that assigned the author, as human or AI, at well over 99% accuracy, resulting in 20 times fewer misclassified documents compared to the field-leading approach. This strategy for discriminating a particular set of humans writing from AI could be further adapted and developed by others with basic skills in supervised classification, enabling access to many highly accurate and targeted models for detecting AI usage in academic writing and beyond.
翻訳日:2023-03-30 16:33:20 公開日:2023-03-28
# 顔認識技術は、人口統計や自己表現をコントロールしても、顔画像から政治的指向を露呈できる

Facial recognition technology can expose political orientation from facial images even when controlling for demographics and self-presentation ( http://arxiv.org/abs/2303.16343v1 )

ライセンス: Link先を確認
Michal Kosinski, Poruz Khambatta, Yilun Wang(参考訳) 研究室で撮影された591枚の中性顔の画像から顔ディスクリプタを抽出するために顔認識アルゴリズムを用いた。 顔記述者は、年齢、性別、民族をコントロールしながら、政治的指向尺度 (cronbach's alpha=.94) で参加者のスコアを予測するために、横断評価線形回帰(cross-validated linear regression)に入力された。 モデルのパフォーマンスは、人間のレイターよりもr=.20以上で、就職面接が仕事の成功、アルコールの攻撃性、心理的治療がメンタルヘルスを改善するのと同等である。 さらに,米国,英国,カナダの3,401人の政治家の自然主義的イメージのサンプルにおいて,標準化された画像から得られたモデル(r=.12)が良好な結果を示した。 政治的指向に関連する顔の特徴の分析では、保守派はより低い顔を持つが、政治的指向は身体質量指数(BMI)と弱い関係しか持たなかった。 標準化された画像から政治的指向を予測することは、プライバシー、顔認識技術の規制、および政治的指向の起源と結果の理解に重要な意味を持つ。

A facial recognition algorithm was used to extract face descriptors from carefully standardized images of 591 neutral faces taken in the laboratory setting. Face descriptors were entered into a cross-validated linear regression to predict participants' scores on a political orientation scale (Cronbach's alpha=.94) while controlling for age, gender, and ethnicity. The model's performance exceeded r=.20: much better than that of human raters and on par with how well job interviews predict job success, alcohol drives aggressiveness, or psychological therapy improves mental health. Moreover, the model derived from standardized images performed well (r=.12) in a sample of naturalistic images of 3,401 politicians from the U.S., UK, and Canada, suggesting that the associations between facial appearance and political orientation generalize beyond our sample. The analysis of facial features associated with political orientation revealed that conservatives had larger lower faces, although political orientation was only weakly associated with body mass index (BMI). The predictability of political orientation from standardized images has critical implications for privacy, regulation of facial recognition technology, as well as the understanding the origins and consequences of political orientation.
翻訳日:2023-03-30 16:32:56 公開日:2023-03-28
# Trimodal Consistencyによる言語誘導型オーディオ・ビジュアル音源分離

Language-Guided Audio-Visual Source Separation via Trimodal Consistency ( http://arxiv.org/abs/2303.16342v1 )

ライセンス: Link先を確認
Reuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon, Oriol Nieto, Bryan Russell, Kate Saenko(参考訳) 学習データとしてラベル付きビデオと音声ペアのみを使用して,自然言語クエリに基づく映像の音源分離を行うための自己教師あり学習手法を提案する。 この課題の重要な課題は、発音対象の言語記述とその視覚的特徴と対応する音響波形の構成要素を、トレーニング中にアノテーションにアクセスせずに関連付けることである。 この課題を克服するために,本研究は,既成の視覚言語基礎モデルを用いて,2つの新たな損失関数による擬似的目標監視を行い,音声,視覚,自然言語との整合性の強化を図る。 提案手法は,テキスト入力,ビデオ入力,音声入力,あるいはテキスト入力と音声入力のみを分離する。 音楽、ソロ、オーディオセットを含む3つの音声・視覚分離データセットにおいて、トレーニング中にオブジェクト検出器やテキストラベルを使用しないにもかかわらず、最先端の教師付きアプローチを上回って、自己教師付きアプローチの有効性を実証する。

We propose a self-supervised approach for learning to perform audio source separation in videos based on natural language queries, using only unlabeled video and audio pairs as training data. A key challenge in this task is learning to associate the linguistic description of a sound-emitting object to its visual features and the corresponding components of the audio waveform, all without access to annotations during training. To overcome this challenge, we adapt off-the-shelf vision-language foundation models to provide pseudo-target supervision via two novel loss functions and encourage a stronger alignment between the audio, visual and natural language modalities. During inference, our approach can separate sounds given text, video and audio input, or given text and audio input alone. We demonstrate the effectiveness of our self-supervised approach on three audio-visual separation datasets, including MUSIC, SOLOS and AudioSet, where we outperform state-of-the-art strongly supervised approaches despite not using object detectors or text labels during training.
翻訳日:2023-03-30 16:32:33 公開日:2023-03-28
# テキストグラウンドティングによる時空間識別型ビデオランゲージ事前学習

Spatiotemporally Discriminative Video-Language Pre-Training with Text Grounding ( http://arxiv.org/abs/2303.16341v1 )

ライセンス: Link先を確認
Yuanhao Xiong, Long Zhao, Boqing Gong, Ming-Hsuan Yang, Florian Schroff, Ting Liu, Cho-Jui Hsieh, Liangzhe Yuan(参考訳) 既存のビデオ言語事前学習手法のほとんどは、グローバルコントラスト学習によるビデオクリップとキャプションのインスタンスレベルのアライメントに重点を置いているが、リッチなきめ細かな局所情報を無視している。 本研究では,識別時空間の特徴を学習するための,ビデオ言語事前学習フレームワークG-ViLMを提案する。 時空間的接地と時空間的グルーピングを含む2つの新しいデザインは,学習地域・名詞のアライメントと時間的認識の特徴を同時に促進する。 具体的には、時空間的接頭辞は意味的に類似したビデオトークンを集約し、キャプションから抽出された名詞句とアライメントし、局所的な地域名詞対応を促進する。 さらに、時間的グループ化はカット・アンド・ペーストを利用して、時間的シーンの変更を手作業で生成し、異なるシーンから識別可能な特徴を学習する。 総合評価の結果、G-ViLMは、テキストビデオ検索、ビデオ質問応答、ビデオ行動認識、時間的行動ローカライゼーションを含む4つの下流タスクにおいて、既存のアプローチに対して好適に機能することが示された。 G-ViLMは評価された全てのタスクに対して競争力を発揮し、特にゼロショットMSR-VTT検索において65.1のR@10を達成する。

Most of existing video-language pre-training methods focus on instance-level alignment between video clips and captions via global contrastive learning but neglect rich fine-grained local information, which is of importance to downstream tasks requiring temporal localization and semantic reasoning. In this work, we propose a simple yet effective video-language pre-training framework, namely G-ViLM, to learn discriminative spatiotemporal features. Two novel designs involving spatiotemporal grounding and temporal grouping promote learning local region-noun alignment and temporal-aware features simultaneously. Specifically, spatiotemporal grounding aggregates semantically similar video tokens and aligns them with noun phrases extracted from the caption to promote local region-noun correspondences. Moreover, temporal grouping leverages cut-and-paste to manually create temporal scene changes and then learns distinguishable features from different scenes. Comprehensive evaluations demonstrate that G-ViLM performs favorably against existing approaches on four representative downstream tasks, covering text-video retrieval, video question answering, video action recognition and temporal action localization. G-ViLM performs competitively on all evaluated tasks and in particular achieves R@10 of 65.1 on zero-shot MSR-VTT retrieval, over 9% higher than the state-of-the-art method.
翻訳日:2023-03-30 16:32:14 公開日:2023-03-28
# ストリーミングフェデレーション学習におけるローカルキャッシュ更新ルールについて

On the Local Cache Update Rules in Streaming Federated Learning ( http://arxiv.org/abs/2303.16340v1 )

ライセンス: Link先を確認
Heqiang Wang, Jieming Bian, Jie Xu(参考訳) 本研究では,ストリーミングフェデレーション学習(SFL)の新たな分野に取り組み,動的データ分散と限られたキャッシュ容量を管理するためのローカルキャッシュ更新ルールを提案する。 従来のフェデレーション学習は、固定データセットに依存するが、SFLでは、データはストリーミングされ、その分散は時間とともに変化するため、ローカルトレーニングデータセットと長期分布の相違が生じる。 この問題を軽減するため,我々は,キャッシュ容量の制限を考慮しつつ,各クライアントのローカルキャッシュを更新する3つのローカルキャッシュ更新ルール – First-In-First-Out (FIFO), Static Ratio Selective Replacement (SRSR), Dynamic Ratio Selective Replacement (DRSR) – を提案する。 さらに,提案したSFLアルゴリズムの収束バウンダリを,長期データ分布とクライアントのローカルトレーニングデータセットとの分布差の関数として導出する。 次に,提案アルゴリズムを,ネットワークトラフィック分類データセットと画像分類データセットの2つのデータセット上で評価する。 実験の結果,提案するローカルキャッシュ更新ルールは,分散のばらつきを著しく低減し,ベースラインメソッドを上回った。 本研究は,SFLの分野を進歩させ,フェデレート学習における実用的なキャッシュ管理ソリューションを提供する。

In this study, we address the emerging field of Streaming Federated Learning (SFL) and propose local cache update rules to manage dynamic data distributions and limited cache capacity. Traditional federated learning relies on fixed data sets, whereas in SFL, data is streamed, and its distribution changes over time, leading to discrepancies between the local training dataset and long-term distribution. To mitigate this problem, we propose three local cache update rules - First-In-First-Out (FIFO), Static Ratio Selective Replacement (SRSR), and Dynamic Ratio Selective Replacement (DRSR) - that update the local cache of each client while considering the limited cache capacity. Furthermore, we derive a convergence bound for our proposed SFL algorithm as a function of the distribution discrepancy between the long-term data distribution and the client's local training dataset. We then evaluate our proposed algorithm on two datasets: a network traffic classification dataset and an image classification dataset. Our experimental results demonstrate that our proposed local cache update rules significantly reduce the distribution discrepancy and outperform the baseline methods. Our study advances the field of SFL and provides practical cache management solutions in federated learning.
翻訳日:2023-03-30 16:31:47 公開日:2023-03-28
# エージェント存在下での協調型多エージェントシステムの階層型ゲーム理論決定法

A Hierarchical Game-Theoretic Decision-Making for Cooperative Multi-Agent Systems Under the Presence of Adversarial Agents ( http://arxiv.org/abs/2303.16641v1 )

ライセンス: Link先を確認
Qin Yang and Ramviyas Parasuraman(参考訳) 危険シナリオにおけるマルチエージェントシステム(MAS)間の関係をゲーム理論モデルとして表現することができる。 本稿では,協調的mas決定のための高レベル戦略を実行可能な低レベルアクションに分解する,ゲーム理論ユーティリティツリー(gut)と呼ばれる新しい階層的ネットワークベースモデルを提案する。 これは、リアルタイム戦略ゲームのためのエージェントのニーズに基づく新しいペイオフ指標と組み合わせられる。 そこで本研究では,成功確率とシステムコストのバランスの観点からmas達成タスクの性能を計測する探索ゲーム領域を提案する。 我々は,複合行動の報酬に優しく依存する最先端手法に対するGUTアプローチを評価する。 広範な数値シミュレーションの結果は、GUTがより複雑なMAS協力関係を整理し、より低コストで高い勝利率で挑戦的なタスクを達成できることを示している。 さらに,シミュレータハードウェアテストベッドであるRobotariumを用いて,GUTの適用性を示した。 実際のロボットアプリケーションにおけるGUTの有効性を検証し、GUTがMAS協力戦略を効果的に組織化できることを検証した。

Underlying relationships among Multi-Agent Systems (MAS) in hazardous scenarios can be represented as Game-theoretic models. This paper proposes a new hierarchical network-based model called Game-theoretic Utility Tree (GUT), which decomposes high-level strategies into executable low-level actions for cooperative MAS decisions. It combines with a new payoff measure based on agent needs for real-time strategy games. We present an Explore game domain, where we measure the performance of MAS achieving tasks from the perspective of balancing the success probability and system costs. We evaluate the GUT approach against state-of-the-art methods that greedily rely on rewards of the composite actions. Conclusive results on extensive numerical simulations indicate that GUT can organize more complex relationships among MAS cooperation, helping the group achieve challenging tasks with lower costs and higher winning rates. Furthermore, we demonstrated the applicability of the GUT using the simulator-hardware testbed - Robotarium. The performances verified the effectiveness of the GUT in the real robot application and validated that the GUT could effectively organize MAS cooperation strategies, helping the group with fewer advantages achieve higher performance.
翻訳日:2023-03-30 14:50:11 公開日:2023-03-28
# DRGのための中国の電子医療記録から、書き込みミスによる追加診断をディープラーニングで検索する方法

How can Deep Learning Retrieve the Write-Missing Additional Diagnosis from Chinese Electronic Medical Record For DRG ( http://arxiv.org/abs/2303.16757v1 )

ライセンス: Link先を確認
Shaohui Liu, Xien Liu, Ji Wu(参考訳) 書面欠落診断の目的は、医療記録から明確に診断されているが、退院診断で見逃されている疾患を見つけることである。 欠失診断の定義とは違って, 読影診断は, さらなる推論を伴わずに, 医療記録に明確に現れる。 書き込みミスの診断は一般的な問題であり、しばしば医師の怠慢によって引き起こされる。 書き込みを欠く診断は、医療記録の不完全な診断をもたらす。 DRGグループ化中は、ライトミス診断は重要な追加診断(CC、MCC)を欠くため、DRGの登録率に影響を及ぼす。 各国が一般的にDRGの加入と支払いを取り入れ始める状況下では、読み書き診断の問題は一般的で深刻な問題である。 現在のマニュアルベースの方法は、全医療記録の複雑な内容のため高価である。 我々はこの問題を自然言語処理として解くのに適していると考えている。 しかし、我々の知る限りでは、自然言語処理手法に基づくこの問題の研究を行った研究者はいない。 本稿では,疾患リコールモジュール,疾患コンテキスト論理判断モジュール,疾患関連比較モジュールの3つのモジュールを含む,書き込みミス診断の問題を解決するためのフレームワークを提案する。 この枠組みにより,書き込みミス診断の問題点を十分に解決でき,その結果を解釈可能であることを検証した。 同時に,同一問題の主流手法と比較して明らかなアドバンテージを持つ疾患コンテキスト論理判断モジュールと疾患関係比較モジュールの先進的な解を提案する。 最後に,第3次病院におけるDRG医療保険給付の枠組みの有効性を検証した。

The purpose of write-missing diagnosis detection is to find diseases that have been clearly diagnosed from medical records but are missed in the discharge diagnosis. Unlike the definition of missed diagnosis, the write-missing diagnosis is clearly manifested in the medical record without further reasoning. The write-missing diagnosis is a common problem, often caused by physician negligence. The write-missing diagnosis will result in an incomplete diagnosis of medical records. While under DRG grouping, the write-missing diagnoses will miss important additional diagnoses (CC, MCC), thus affecting the correct rate of DRG enrollment. Under the circumstance that countries generally start to adopt DRG enrollment and payment, the problem of write-missing diagnosis is a common and serious problem. The current manual-based method is expensive due to the complex content of the full medical record. We think this problem is suitable to be solved as natural language processing. But to the best of our knowledge, no researchers have conducted research on this problem based on natural language processing methods. We propose a framework for solving the problem of write-missing diagnosis, which mainly includes three modules: disease recall module, disease context logic judgment module, and disease relationship comparison module. Through this framework, we verify that the problem of write-missing diagnosis can be solved well, and the results are interpretable. At the same time, we propose advanced solutions for the disease context logic judgment module and disease relationship comparison module, which have obvious advantages compared with the mainstream methods of the same type of problems. Finally, we verified the value of our proposed framework under DRG medical insurance payment in a tertiary hospital.
翻訳日:2023-03-30 14:22:18 公開日:2023-03-28
# 大規模言語フィードバックによる言語モデルの訓練

Training Language Models with Language Feedback at Scale ( http://arxiv.org/abs/2303.16755v1 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Jon Ander Campos, Tomasz Korbak, Jun Shern Chan, Angelica Chen, Kyunghyun Cho, Ethan Perez(参考訳) 事前訓練された言語モデルは、有害なテキストや事実的に誤った要約など、人間の好みと一致しない出力を生成することが多い。 最近の研究は、人間のフィードバックの単純な形式から学習することで、上記の問題にアプローチしている。 しかし、比較フィードバックは人間の好みに関する限られた情報しか伝達しない。 本稿では,より情報的な言語フィードバックを利用する新しいアプローチであるImitation Learning from Language Feedback (ILF)を紹介する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。 次に、最もフィードバックを取り入れた改善を選択する。 第三に、入力によって選択された洗練の可能性を最大化するために言語モデルを微調整する。 理論的には、ILFは人間のフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。 ilfの有効性を注意深く制御した玩具タスクと現実的な要約タスクで評価する。 実験では,大規模言語モデルがフィードバックを正確に組み込んでおり,iffによる微調整はデータセットサイズとよく一致し,人間のサマリーの微調整よりも優れています。 言語と比較フィードバックの両方から学ぶことは、個人で学ぶことよりも優れ、人間レベルの要約性能を達成する。

Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.
翻訳日:2023-03-30 14:21:53 公開日:2023-03-28
# 自然言語フィードバックによるトレーニングによるコード生成の改善

Improving Code Generation by Training with Natural Language Feedback ( http://arxiv.org/abs/2303.16749v1 )

ライセンス: Link先を確認
Angelica Chen, J\'er\'emy Scheurer, Tomasz Korbak, Jon Ander Campos, Jun Shern Chan, Samuel R. Bowman, Kyunghyun Cho, Ethan Perez(参考訳) 推論時に自然言語フィードバックを使用するための事前訓練済みの大規模言語モデル(LLM)の可能性は、最近のエキサイティングな開発である。 我々は、学習時の自然言語フィードバックから学習するためのアルゴリズムを定式化し、これを言語フィードバックから模倣学習(ilf)と呼ぶ。 ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。 さらに、ilfを基底真理分布へのklの発散を最小化し、神経プログラム合成タスクにおける概念実証を実証する形態と捉えることができることを示した。 ilfを使って、ほとんど基本的なpython問題(mbpp)ベンチマークでcodegen-mono 6.1bモデルのpass@1レートを38%(そして10%絶対)向上させ、mbppでの微調整と、人間が書いたプログラムの微調整を両立させました。 総じて,人間による自然言語フィードバックからの学習は,コード生成タスクにおけるllmのパフォーマンス向上のためのデモンストレーションのみを対象とするトレーニングよりも効率的かつサンプル効率が高いことが示唆された。

The potential for pre-trained large language models (LLMs) to use natural language feedback at inference time has been an exciting recent development. We build upon this observation by formalizing an algorithm for learning from natural language feedback at training time instead, which we call Imitation learning from Language Feedback (ILF). ILF requires only a small amount of human-written feedback during training and does not require the same feedback at test time, making it both user-friendly and sample-efficient. We further show that ILF can be seen as a form of minimizing the KL divergence to the ground truth distribution and demonstrate a proof-of-concept on a neural program synthesis task. We use ILF to improve a Codegen-Mono 6.1B model's pass@1 rate by 38% relative (and 10% absolute) on the Mostly Basic Python Problems (MBPP) benchmark, outperforming both fine-tuning on MBPP and fine-tuning on repaired programs written by humans. Overall, our results suggest that learning from human-written natural language feedback is both more effective and sample-efficient than training exclusively on demonstrations for improving an LLM's performance on code generation tasks.
翻訳日:2023-03-30 14:20:59 公開日:2023-03-28
# メディアダイエットで訓練された言語モデルは、世論を予測できる

Language Models Trained on Media Diets Can Predict Public Opinion ( http://arxiv.org/abs/2303.16779v1 )

ライセンス: Link先を確認
Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy(参考訳) 世論は社会的行動を反映し形作るが、それを測定する伝統的な調査ベースのツールは限られている。 オンラインニュース、テレビ放送、ラジオ番組コンテンツに適応した言語モデルであるメディアダイエットモデルを調べるための新しいアプローチを導入し、一連のメディアを消費したサブ人口の意見をエミュレートする。 この方法を検証するため、米国代表による新型コロナウイルスと消費者の信頼度に関する調査で示された意見を根拠として利用する。 本研究は,(1)質問応答分布における人的判断の予測,およびメディア露出の表現や流路への頑健性,(2)メディアをフォローする人をより正確にモデル化すること,(3)メディア消費にどのような意見が影響されるかの文献に一致していることを示す。 言語モデルを探索することは、メディア効果を研究するための強力な新しい方法を提供し、世論の補足や世論の予測に実践的な応用をもたらし、ニューラルネットワークモデルが人間の反応を予測できる驚くべき忠実さのさらなる研究の必要性を示唆している。

Public opinion reflects and shapes societal behavior, but the traditional survey-based tools to measure it are limited. We introduce a novel approach to probe media diet models -- language models adapted to online news, TV broadcast, or radio show content -- that can emulate the opinions of subpopulations that have consumed a set of media. To validate this method, we use as ground truth the opinions expressed in U.S. nationally representative surveys on COVID-19 and consumer confidence. Our studies indicate that this approach is (1) predictive of human judgements found in survey response distributions and robust to phrasing and channels of media exposure, (2) more accurate at modeling people who follow media more closely, and (3) aligned with literature on which types of opinions are affected by media consumption. Probing language models provides a powerful new method for investigating media effects, has practical applications in supplementing polls and forecasting public opinion, and suggests a need for further study of the surprising fidelity with which neural language models can predict human responses.
翻訳日:2023-03-30 14:13:09 公開日:2023-03-28
# 卓球試合予測のための教師付き学習

Supervised Learning for Table Tennis Match Prediction ( http://arxiv.org/abs/2303.16776v1 )

ライセンス: Link先を確認
Sophie Chiang, Gyorgy Denes(参考訳) 機械学習、分類、予測モデルは様々な分野に応用されている。 スポーツ分析はますます普及しつつあるアプリケーションであるが、既存の研究のほとんどは、メインストリームスポーツにおける自動審判と怪我予防に焦点を当てている。 卓球など他のスポーツの研究は、最近になってさらに勢いを増し始めている。 本稿では,卓球単独試合の結果を予測するための機械学習の利用を提案する。 プレイヤーとマッチ統計を特徴とし,その相対的重要性をアブレーション研究で評価する。 モデルに関して、いくつかの人気のあるモデルが探索された。 モデルの性能向上には5倍のクロスバリデーションとハイパーパラメータチューニングが不可欠であることがわかった。 アブレーション研究において,モデルの堅牢性を示すために異なる特徴集約戦略を検討した。 異なるモデルは、テニスのような同等のスポーツにおいて、結果の精度(61~70%)で比較可能であった。 結果は、将来の卓球予測モデルのベースラインとなり、同様のボールスポーツにおける予測研究にフィードバックすることができる。

Machine learning, classification and prediction models have applications across a range of fields. Sport analytics is an increasingly popular application, but most existing work is focused on automated refereeing in mainstream sports and injury prevention. Research on other sports, such as table tennis, has only recently started gaining more traction. This paper proposes the use of machine learning to predict the outcome of table tennis single matches. We use player and match statistics as features and evaluate their relative importance in an ablation study. In terms of models, a number of popular models were explored. We found that 5-fold cross-validation and hyperparameter tuning was crucial to improve model performance. We investigated different feature aggregation strategies in our ablation study to demonstrate the robustness of the models. Different models performed comparably, with the accuracy of the results (61-70%) matching state-of-the-art models in comparable sports, such as tennis. The results can serve as a baseline for future table tennis prediction models, and can feed back to prediction research in similar ball sports.
翻訳日:2023-03-30 14:11:59 公開日:2023-03-28
# 深部生成モデルを用いた特異分布の非パラメトリック推定への可能性

A likelihood approach to nonparametric estimation of a singular distribution using deep generative models ( http://arxiv.org/abs/2105.04046v3 )

ライセンス: Link先を確認
Minwoo Chae, Dongha Kim, Yongdai Kim, Lizhen Lin(参考訳) 深部生成モデルを用いた特異分布の非パラメトリック推定に対する確率的アプローチの統計的特性について検討する。 より具体的には、ある低次元構造の周りに集中すると仮定される高次元データをモデル化するために、深い生成モデルが用いられる。 低次元多様体のようなこの低次元構造上で支持される分布の推定は、周囲空間におけるルベーグ測度に対する特異性のために難しい。 検討されたモデルでは、通常の確率的アプローチは特異性のために目標分布を常に推定できない。 そこで,本論文では,データに雑音を伴って摂動することで,収束速度が望ましい分布を一貫した推定を行うことによって,新しい効率的な解が存在することを示す。 また,深層生成モデルを用いて効率的に推定できる分布のクラスを特徴付ける。 このクラスは、積分布、古典的に滑らかな分布、低次元多様体上で支持される分布といった様々な構造化分布を含むのに十分一般的である。 本解析は,非パラメトリック分布推定における次元の呪いを避けるための深い生成モデルに関する知見を与える。 提案手法が推定性能を大幅に向上することを示すために,詳細なシミュレーション研究と実データ解析を行い,実データ解析を行った。

We investigate statistical properties of a likelihood approach to nonparametric estimation of a singular distribution using deep generative models. More specifically, a deep generative model is used to model high-dimensional data that are assumed to concentrate around some low-dimensional structure. Estimating the distribution supported on this low-dimensional structure, such as a low-dimensional manifold, is challenging due to its singularity with respect to the Lebesgue measure in the ambient space. In the considered model, a usual likelihood approach can fail to estimate the target distribution consistently due to the singularity. We prove that a novel and effective solution exists by perturbing the data with an instance noise, which leads to consistent estimation of the underlying distribution with desirable convergence rates. We also characterize the class of distributions that can be efficiently estimated via deep generative models. This class is sufficiently general to contain various structured distributions such as product distributions, classically smooth distributions and distributions supported on a low-dimensional manifold. Our analysis provides some insights on how deep generative models can avoid the curse of dimensionality for nonparametric distribution estimation. We conduct a thorough simulation study and real data analysis to empirically demonstrate that the proposed data perturbation technique improves the estimation performance significantly.
翻訳日:2023-03-29 21:18:13 公開日:2023-03-28
# 半教師付き複数ショット学習のための反復ラベルクリーニング

Iterative label cleaning for transductive and semi-supervised few-shot learning ( http://arxiv.org/abs/2012.07962v3 )

ライセンス: Link先を確認
Michalis Lazarou, Tania Stathaki, Yannis Avrithis(参考訳) わずかなショット学習は、新しいタスクが監督とデータの両方を制限することで解決されるような、学習表現と知識の獲得にかかっている。 トランスダクティブ推論(Transductive Inference)ではテストセット全体が同時に利用可能になり、半教師付き学習ではラベルなしのデータも利用可能になる。 これら2つの設定に着目して,ラベル付きおよび未ラベル付きデータ分布の多様体構造を利用して擬似ラベルを予測し,クラス間のバランスを保ちながら,最小容量の分類器の損失値分布を用いて擬似ラベルの質を反復的に向上するアルゴリズムを提案する。 当社のソリューションは,4つのベンチマークデータセット,すなわち miniImageNet, tieredImageNet, CUB, CIFAR-FS に対して,機能領域の事前処理と利用可能なデータの量に対して堅牢でありながら,成果を上回るか,あるいは一致させる。 公開されているソースコードはhttps://github.com/MichalisLazarou/iLPCにある。

Few-shot learning amounts to learning representations and acquiring knowledge such that novel tasks may be solved with both supervision and data being limited. Improved performance is possible by transductive inference, where the entire test set is available concurrently, and semi-supervised learning, where more unlabeled data is available. Focusing on these two settings, we introduce a new algorithm that leverages the manifold structure of the labeled and unlabeled data distribution to predict pseudo-labels, while balancing over classes and using the loss value distribution of a limited-capacity classifier to select the cleanest labels, iteratively improving the quality of pseudo-labels. Our solution surpasses or matches the state of the art results on four benchmark datasets, namely miniImageNet, tieredImageNet, CUB and CIFAR-FS, while being robust over feature space pre-processing and the quantity of available data. The publicly available source code can be found in https://github.com/MichalisLazarou/iLPC.
翻訳日:2023-03-29 21:17:29 公開日:2023-03-28
# 意味画像合成のためのコントラスト学習を用いたエッジ誘導gan

Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis ( http://arxiv.org/abs/2003.13898v3 )

ライセンス: Link先を確認
Hao Tang, Xiaojuan Qi, Guolei Sun, Dan Xu, Nicu Sebe, Radu Timofte, Luc Van Gool(参考訳) 本稿では,semantic image synthesisタスクに挑戦する新しいecganを提案する。 かなりの改善が達成されているが、合成画像の品質は3つの大きな未解決課題のために満足には程遠い。 1) セマンティックラベルは詳細な構造情報を提供しておらず, 局所的な詳細や構造を合成することが困難である。 2) 畳み込み, ダウンサンプリング, 正規化などの広く採用されているCNN操作は, 通常, 空間分解能の喪失を引き起こすため, 本来の意味情報を完全に保存できないため, 意味的に矛盾する結果をもたらす。 3)既存のセマンティック画像合成手法は,単一入力セマンティックレイアウトから局所セマンティック情報をモデル化することに焦点を当てている。 しかし、複数の入力セマンティックレイアウト、すなわち異なる入力レイアウトにわたる画素間のセマンティックな相互関係のグローバルな意味情報を無視する。 1)に取り組むために,提案する注意誘導型エッジ転送モジュールによる画像生成のガイドとして,edgeを中間表現として用いることを提案する。 エッジ情報は畳み込み発生器によって生成され、詳細な構造情報を導入する。 2)に取り組むために,意味情報を保存するために,クラス依存の機能マップを本来の意味レイアウトに従って選択的にハイライトする効果的なモジュールを設計した。 コントラスト学習における現在の手法に着想を得て,同じセマンティッククラスに属する画素埋め込みを強制し,異なるクラスに属するものよりも類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。 複数の入力セマンティックレイアウトからラベル付きピクセルの構造を明示的に探索することで、よりセマンティックな関係を捉えることができる。 3つの挑戦的なデータセットの実験により、ECGANは最先端の手法よりもはるかに優れた結果が得られることが示された。

We propose a novel ECGAN for the challenging semantic image synthesis task. Although considerable improvement has been achieved, the quality of synthesized images is far from satisfactory due to three largely unresolved challenges. 1) The semantic labels do not provide detailed structural information, making it difficult to synthesize local details and structures. 2) The widely adopted CNN operations such as convolution, down-sampling, and normalization usually cause spatial resolution loss and thus cannot fully preserve the original semantic information, leading to semantically inconsistent results. 3) Existing semantic image synthesis methods focus on modeling local semantic information from a single input semantic layout. However, they ignore global semantic information of multiple input semantic layouts, i.e., semantic cross-relations between pixels across different input layouts. To tackle 1), we propose to use edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. Edge information is produced by a convolutional generator and introduces detailed structure information. To tackle 2), we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout to preserve the semantic information. To tackle 3), inspired by current methods in contrastive learning, we propose a novel contrastive learning method, which aims to enforce pixel embeddings belonging to the same semantic class to generate more similar image content than those from different classes. Doing so can capture more semantic relations by explicitly exploring the structures of labeled pixels from multiple input semantic layouts. Experiments on three challenging datasets show that our ECGAN achieves significantly better results than state-of-the-art methods.
翻訳日:2023-03-29 21:17:09 公開日:2023-03-28
# 相関源を用いた量子鍵分布

Quantum key distribution with correlated sources ( http://arxiv.org/abs/1908.08261v5 )

ライセンス: Link先を確認
Margarida Pereira, Go Kato, Akihiro Mizutani, Marcos Curty, Kiyoshi Tamaki(参考訳) 理論上、量子鍵分布(QKD)は情報理論のセキュリティを提供する。 しかし、実際には、セキュリティ証明で使われる仮定と実際の装置の動作の相違によるものではない。 近年、このギャップを埋める努力が盛んに行われているが、パルス間の相関関係の処理は依然として大きな問題となっている。 ここでは、任意の長距離パルス相関によるQKDの安全性を証明するための、単純だが一般的な方法を導入することにより、このギャップを埋める。 我々の手法は、他の一般的なデバイス不完全性に対応するセキュリティ証明と互換性があり、任意の欠陥のあるデバイスでQKDの実装セキュリティを達成するための道を開く。 また,セキュリティ証明のための新しいフレームワークを導入し,その手法を参照手法と呼ぶ。 このフレームワークには、特別なケースとして既存のセキュリティ証明が含まれており、多くのQKDプロトコルに広く適用することができる。

In theory, quantum key distribution (QKD) offers information-theoretic security. In practice, however, it does not due to the discrepancies between the assumptions used in the security proofs and the behaviour of the real apparatuses. Recent years have witnessed a tremendous effort to fill the gap, but the treatment of correlations among pulses has remained a major elusive problem. Here, we close this gap by introducing a simple yet general method to prove the security of QKD with arbitrarily long-range pulse correlations. Our method is compatible with those security proofs that accommodate all the other typical device imperfections, thus paving the way towards achieving implementation security in QKD with arbitrary flawed devices. Moreover, we introduce a new framework for security proofs, which we call the reference technique. This framework includes existing security proofs as special cases and it can be widely applied to a number of QKD protocols.
翻訳日:2023-03-29 21:16:24 公開日:2023-03-28
# landauer vs. nernst: 量子システムを冷却する真のコストは何ですか?

Landauer vs. Nernst: What is the True Cost of Cooling a Quantum System? ( http://arxiv.org/abs/2106.05151v3 )

ライセンス: Link先を確認
Philip Taranto, Faraj Bakhshinezhad, Andreas Bluhm, Ralph Silva, Nicolai Friis, Maximilian P. E. Lock, Giuseppe Vitagliano, Felix C. Binder, Tiago Debarba, Emanuel Schwarzhans, Fabien Clivaz, Marcus Huber(参考訳) 熱力学は世界の知識と、操作し、制御する能力を結びつける。 制御のこの重要な役割は、熱力学の第三法則(ネルンストの不持続性原理)によって例示され、無限の資源は絶対零温度まで冷却するために必要となる。 しかし、これらのリソースは何で、どのように活用すべきか? これは、情報と熱力学をつなぐランダウアーの原理とどのように関係していますか? 我々は、純粋な量子状態の生成を可能にするリソースを識別するためのフレームワークを提供することで、これらの質問に答える。 無限の時間や制御の複雑さによって、ランドーアーエネルギーコストで完全冷却が可能となる。 しかし、このような最適なプロトコルは、外部のワークソースによって生成される複雑なユニタリを必要とする。 熱エンジンのみで実行できるユニタリに制限されるため、飽和のためのプロトコルとともに、新しいCarnot-Landauer制限を導出します。 これはランダウアーの原理を完全に熱力学的な設定に一般化し、第三法則と統一し、量子熱力学における制御の重要性を強調する。

Thermodynamics connects our knowledge of the world to our capability to manipulate and thus to control it. This crucial role of control is exemplified by the third law of thermodynamics, Nernst's unattainability principle, which states that infinite resources are required to cool a system to absolute zero temperature. But what are these resources and how should they be utilized? And how does this relate to Landauer's principle that famously connects information and thermodynamics? We answer these questions by providing a framework for identifying the resources that enable the creation of pure quantum states. We show that perfect cooling is possible with Landauer energy cost given infinite time or control complexity. However, such optimal protocols require complex unitaries generated by an external work source. Restricting to unitaries that can be run solely via a heat engine, we derive a novel Carnot-Landauer limit, along with protocols for its saturation. This generalizes Landauer's principle to a fully thermodynamic setting, leading to a unification with the third law and emphasizes the importance of control in quantum thermodynamics.
翻訳日:2023-03-29 20:33:54 公開日:2023-03-28
# 滑らかな粒子流体力学を用いた物理情報機械学習:ラグランジアン乱流モデルの階層化

Physics informed machine learning with smoothed particle hydrodynamics: Hierarchy of reduced Lagrangian models of turbulence ( http://arxiv.org/abs/2110.13311v6 )

ライセンス: Link先を確認
Michael Woodward, Yifeng Tian, Criston Hyett, Chris Fryer, Daniel Livescu, Mikhail Stepanov, Michael Chertkov(参考訳) 発達した乱流の効率的で正確で一般化可能な縮小秩序モデルの構築は大きな課題である。 本論文は,乱流に対するパラメータ化還元ラグランジアンモデルの階層化によってこの問題にアプローチし,Smoothed Particledynamicdynamics (SPH) による物理構造強化の効果と,ニューラルネットワーク(NN) を普遍関数近似器として利用することによる影響を考察する。 ラグランジアン加速作用素のニューラルネットワーク(NN)パラメータ化から始めると、モデルのこの階層は徐々に弱い圧縮性とパラメータ化のSPHフレームワークを取り入れ、ガリレオ、回転、変換不変性などの物理対称性を強制する。 この階層内では、学習可能なSPHシミュレータの柔軟性を高めるために、2つの新しいパラメータ化平滑化カーネルが開発された。 各モデルに対して、勾配に基づく最適化を用いて最小限の損失関数を実験し、自動微分 (AD) と感度解析 (SA) を用いて勾配の効率的な計算を求める。 階層内の各モデルは,(1)弱圧縮性sphを用いた検証セット,(2)直接数値シミュレーション(dns)による高忠実度セットという,週次圧縮性等方性乱流(hit)に関連する2つのデータセットで訓練される。 数値的な証拠は、より多くのSPH構造を符号化することで、異なる乱流マッハ数や時間シフトへの一般化性が向上し、新しいパラメータ化平滑化カーネルを含むと、解決スケールでのSPHの精度が向上することを示している。

Building efficient, accurate and generalizable reduced order models of developed turbulence remains a major challenge. This manuscript approaches this problem by developing a hierarchy of parameterized reduced Lagrangian models for turbulent flows, and investigates the effects of enforcing physical structure through Smoothed Particle Hydrodynamics (SPH) versus relying on neural networks (NN)s as universal function approximators. Starting from Neural Network (NN) parameterizations of a Lagrangian acceleration operator, this hierarchy of models gradually incorporates a weakly compressible and parameterized SPH framework, which enforces physical symmetries, such as Galilean, rotational and translational invariances. Within this hierarchy, two new parameterized smoothing kernels are developed in order to increase the flexibility of the learn-able SPH simulators. For each model we experiment with different loss functions which are minimized using gradient based optimization, where efficient computations of gradients are obtained by using Automatic Differentiation (AD) and Sensitivity Analysis (SA). Each model within the hierarchy is trained on two data sets associated with weekly compressible Homogeneous Isotropic Turbulence (HIT): (1) a validation set using weakly compressible SPH; and (2) a high fidelity set from Direct Numerical Simulations (DNS). Numerical evidence shows that encoding more SPH structure improves generalizability to different turbulent Mach numbers and time shifts, and that including the novel parameterized smoothing kernels improves the accuracy of SPH at the resolved scales.
翻訳日:2023-03-29 20:23:33 公開日:2023-03-28
# ホログラフィック双対性における量子系とブラックホール内部の因果接続性

Causal connectability between quantum systems and the black hole interior in holographic duality ( http://arxiv.org/abs/2110.05497v3 )

ライセンス: Link先を確認
Samuel Leutheusser and Hong Liu(参考訳) ホログラフィック双対性では、永遠のアドスブラックホールは熱場二重状態における境界cftの2つのコピーによって記述される。 この同定には、事象の地平線の境界記述、ブラックホールの内部、特異点など、多くのパズルがある。 これらの謎の複合化は、cftの間には相互作用がないが、それらの観察者はブラックホールに落ちて相互作用することができるという事実である。 本稿ではこれらの問題に対処する。 特に私たちは (i) 落下するバルクオブザーバのクラスの境界定式化を示す。 (ii) 急なバルク事象の地平線は境界理論の無限の$N$極限にしか現れないという主張を示す。 (iii)バルクインフォールディングオブザーバのための進化作用素の境界理論における明示的な構成を与え、ブラックホールの地平線、内部、それに付随する因果構造の境界の出現を明示する。 副生成物は因果接続性(Cousal Connectability)と呼ばれる概念であり、2つの量子系(既知の重力双対を持つ必要はない)が創発的な鋭い水平構造を持つための基準である。

In holographic duality an eternal AdS black hole is described by two copies of the boundary CFT in the thermal field double state. This identification has many puzzles, including the boundary descriptions of the event horizons, the interiors of the black hole, and the singularities. Compounding these mysteries is the fact that, while there is no interaction between the CFTs, observers from them can fall into the black hole and interact. We address these issues in this paper. In particular, we (i) present a boundary formulation of a class of in-falling bulk observers; (ii) present an argument that a sharp bulk event horizon can only emerge in the infinite $N$ limit of the boundary theory; (iii) give an explicit construction in the boundary theory of an evolution operator for a bulk in-falling observer, making manifest the boundary emergence of the black hole horizons, the interiors, and the associated causal structure. A by-product is a concept called causal connectability, which is a criterion for any two quantum systems (which do not need to have a known gravity dual) to have an emergent sharp horizon structure.
翻訳日:2023-03-29 20:23:02 公開日:2023-03-28
# 複雑なデータと関係のためのマッパー型アルゴリズム

Mapper-type algorithms for complex data and relations ( http://arxiv.org/abs/2109.00831v2 )

ライセンス: Link先を確認
Pawe{\l} D{\l}otko, Davide Gurnari and Radmila Sazdanovic(参考訳) MapperとBall Mapperは、高次元のポイントクラウドを探索し、それらのポイントクラウド上のスカラー値関数を視覚化するために使用されるトポロジカルデータ分析ツールである。 結び目理論のオープン質問に触発されて、点雲の構造、内部関係、対称性のエンコーディングを可能にするボールマッパーに新機能が追加された。 さらに、マッパーとボールマッパーの構成の強みを組み合わせることで、単一のデータセットの高次元データ記述子を比較するツールを作成する。 この新しいハイブリッドアルゴリズムであるMapper on Ball Mapperは高次元レンズ関数に適用可能である。 概念実証として、結び目やゲーム理論、物質科学やがん研究への応用も含んでいる。

Mapper and Ball Mapper are Topological Data Analysis tools used for exploring high dimensional point clouds and visualizing scalar-valued functions on those point clouds. Inspired by open questions in knot theory, new features are added to Ball Mapper that enable encoding of the structure, internal relations and symmetries of the point cloud. Moreover, the strengths of Mapper and Ball Mapper constructions are combined to create a tool for comparing high dimensional data descriptors of a single dataset. This new hybrid algorithm, Mapper on Ball Mapper, is applicable to high dimensional lens functions. As a proof of concept we include applications to knot and game theory, as well as material science and cancer research.
翻訳日:2023-03-29 20:22:43 公開日:2023-03-28
# ブロック・トゥープリッツ行列からグラフ上の微分方程式へ:スケーラブルマスク変換器の一般理論に向けて

From block-Toeplitz matrices to differential equations on graphs: towards a general theory for scalable masked Transformers ( http://arxiv.org/abs/2107.07999v8 )

ライセンス: Link先を確認
Krzysztof Choromanski, Han Lin, Haoxian Chen, Tianyi Zhang, Arijit Sehanobish, Valerii Likhosherstov, Jack Parker-Holder, Tamas Sarlos, Adrian Weller, Thomas Weingarten(参考訳) 本稿では,我々の知識を最大限に活用し,様々なマスキング機構をスケーラブルな方法でトランスフォーマーアーキテクチャに組み込むための,最初の包括的アプローチを提案する。 近年の線形因果注意(choromanski et al., 2021)と対数線形rpe-attention(luo et al., 2021)は,この一般的なメカニズムの特別な例である。 しかし,未発見の注意を位相的(グラフベース)に変調させることにより,d-次元の効率的なrpeマスキングやグラフケネルマスキングなど,以前に不明ないくつかの結果が得られる。 我々は、スペクトル解析から動的プログラミング、ランダムウォーク、マルコフ過程をグラフ上で解くための新しいアルゴリズムまで、多くの数学的手法を活用している。 我々は対応する経験的評価を提供する。

In this paper we provide, to the best of our knowledge, the first comprehensive approach for incorporating various masking mechanisms into Transformers architectures in a scalable way. We show that recent results on linear causal attention (Choromanski et al., 2021) and log-linear RPE-attention (Luo et al., 2021) are special cases of this general mechanism. However by casting the problem as a topological (graph-based) modulation of unmasked attention, we obtain several results unknown before, including efficient d-dimensional RPE-masking and graph-kernel masking. We leverage many mathematical techniques ranging from spectral analysis through dynamic programming and random walks to new algorithms for solving Markov processes on graphs. We provide a corresponding empirical evaluation.
翻訳日:2023-03-29 20:22:06 公開日:2023-03-28
# データダイエットのディープラーニング: トレーニングの初期段階で重要な例を見つける

Deep Learning on a Data Diet: Finding Important Examples Early in Training ( http://arxiv.org/abs/2107.07075v2 )

ライセンス: Link先を確認
Mansheej Paul, Surya Ganguli, Gintare Karolina Dziugaite(参考訳) ディープラーニングの最近の成功は、さらに大きなデータセット上の過小評価されたネットワークのトレーニングによって部分的に推進されている。 したがって、データのうちどのくらいが過剰であるか、どの例が一般化に重要であるか、どのように見つけられるのか、という問いは自然である。 この研究では、標準的なビジョンデータセットでは、いくつかの重み初期化の平均値が、トレーニングの非常に早い段階で重要な例を特定するのに利用できるという驚くべき観察を行ないます。 We propose two such scores -- the Gradient Normed (GraNd) and the Error L2-Norm (EL2N) scores -- and demonstrate their efficacy on a range of architectures and datasets by pruning significant fractions of training data without sacrificing test accuracy. In fact, using EL2N scores calculated a few epochs into training, we can prune half of the CIFAR10 training set while slightly improving test accuracy. Furthermore, for a given dataset, EL2N scores from one architecture or hyperparameter configuration generalize to other configurations. Compared to recent work that prunes data by discarding examples that are rarely forgotten over the course of training, our scores use only local information early in training. We also use our scores to detect noisy examples and study training dynamics through the lens of important examples -- we investigate how the data distribution shapes the loss surface and identify subspaces of the model's data representation that are relatively stable over training.

Recent success in deep learning has partially been driven by training increasingly overparametrized networks on ever larger datasets. It is therefore natural to ask: how much of the data is superfluous, which examples are important for generalization, and how do we find them? In this work, we make the striking observation that, in standard vision datasets, simple scores averaged over several weight initializations can be used to identify important examples very early in training. We propose two such scores -- the Gradient Normed (GraNd) and the Error L2-Norm (EL2N) scores -- and demonstrate their efficacy on a range of architectures and datasets by pruning significant fractions of training data without sacrificing test accuracy. In fact, using EL2N scores calculated a few epochs into training, we can prune half of the CIFAR10 training set while slightly improving test accuracy. Furthermore, for a given dataset, EL2N scores from one architecture or hyperparameter configuration generalize to other configurations. Compared to recent work that prunes data by discarding examples that are rarely forgotten over the course of training, our scores use only local information early in training. We also use our scores to detect noisy examples and study training dynamics through the lens of important examples -- we investigate how the data distribution shapes the loss surface and identify subspaces of the model's data representation that are relatively stable over training.
翻訳日:2023-03-29 20:21:50 公開日:2023-03-28
# 臨界パラメトリック量子センシング

Critical parametric quantum sensing ( http://arxiv.org/abs/2107.04503v2 )

ライセンス: Link先を確認
R. Di Candia, F. Minganti, K. V. Petrovnin, G. S. Paraoanu and S. Felicetti(参考訳) 臨界量子システム(Critical quantum systems)は、相転移に近接して発達する拡散感受性のため、量子力学応用の有望な資源である。 ここでは、駆動散逸位相遷移中のパラメトリックカー共振器のメトロジーパワーを評価する。 周波数推定のための量子フィッシャー情報と周波数識別のためのヘルストロムバウンドを完全に特徴付ける。 漸近的な状態を超えて、実験的な到達可能なパラメータでハイゼンベルク精度を達成できることが示される。 我々は、非線形共振器の臨界挙動を利用して量子磁気センサの精度と超伝導量子ビット読み出しの忠実性を高めるプロトコルを設計する。

Critical quantum systems are a promising resource for quantum metrology applications, due to the diverging susceptibility developed in proximity of phase transitions. Here, we assess the metrological power of parametric Kerr resonators undergoing driven-dissipative phase transitions. We fully characterize the quantum Fisher information for frequency estimation, and the Helstrom bound for frequency discrimination. By going beyond the asymptotic regime, we show that the Heisenberg precision can be achieved with experimentally reachable parameters. We design protocols that exploit the critical behavior of nonlinear resonators to enhance the precision of quantum magnetometers and the fidelity of superconducting qubit readout.
翻訳日:2023-03-29 20:21:31 公開日:2023-03-28
# Repulsive Deep Ensembles are Bayesian

Repulsive Deep Ensembles are Bayesian ( http://arxiv.org/abs/2106.11642v3 )

ライセンス: Link先を確認
Francesco D'Angelo, Vincent Fortuin(参考訳) 深層アンサンブルは最近、概念の単純さと効率性によって、ディープラーニングコミュニティで人気を集めている。 しかし、勾配降下で独立に訓練されたアンサンブルメンバー間の機能的多様性を維持することは困難である。 これは、単一のモデルのパフォーマンスに収束するアンサンブルパフォーマンスの飽和など、より多くのアンサンブルメンバーを追加する際の病理につながる可能性がある。 さらに、これは予測の品質に影響を及ぼすだけでなく、アンサンブルの不確実性の推定にも影響を及ぼし、アウト・オブ・ディストリビューション・データの性能も向上する。 この制限は、異なるアンサンブルメンバーを同じ機能に崩壊させることによって克服できると仮定する。 この目的のために, ディープアンサンブルの更新規則において, カーネル化反発項を導入する。 この単純な修正は、メンバー間の多様性を強制し維持するだけでなく、さらに重要なことは、最大後の推論を適切なベイズ推論に変換することである。 すなわち,提案する反発型アンサンブルのトレーニングダイナミクスは,真後方のkl分岐のwasserstein勾配流に従うことを示した。 重みと関数空間における反発項を研究し,その性能を合成および実世界の予測タスクにおける標準アンサンブルおよびベイズ基準と比較した。

Deep ensembles have recently gained popularity in the deep learning community for their conceptual simplicity and efficiency. However, maintaining functional diversity between ensemble members that are independently trained with gradient descent is challenging. This can lead to pathologies when adding more ensemble members, such as a saturation of the ensemble performance, which converges to the performance of a single model. Moreover, this does not only affect the quality of its predictions, but even more so the uncertainty estimates of the ensemble, and thus its performance on out-of-distribution data. We hypothesize that this limitation can be overcome by discouraging different ensemble members from collapsing to the same function. To this end, we introduce a kernelized repulsive term in the update rule of the deep ensembles. We show that this simple modification not only enforces and maintains diversity among the members but, even more importantly, transforms the maximum a posteriori inference into proper Bayesian inference. Namely, we show that the training dynamics of our proposed repulsive ensembles follow a Wasserstein gradient flow of the KL divergence with the true posterior. We study repulsive terms in weight and function space and empirically compare their performance to standard ensembles and Bayesian baselines on synthetic and real-world prediction tasks.
翻訳日:2023-03-29 20:21:06 公開日:2023-03-28
# マルチビュー3次元再構成のためのマルチセンサ大規模データセット

Multi-sensor large-scale dataset for multi-view 3D reconstruction ( http://arxiv.org/abs/2203.06111v4 )

ライセンス: Link先を確認
Oleg Voynov, Gleb Bobrovskikh, Pavel Karpyshev, Saveliy Galochkin, Andrei-Timotei Ardelean, Arseniy Bozhenko, Ekaterina Karmanova, Pavel Kopanev, Yaroslav Labutin-Rymsho, Ruslan Rakhimov, Aleksandr Safin, Valerii Serpiva, Alexey Artemov, Evgeny Burnaev, Dzmitry Tsetserukou, Denis Zorin(参考訳) マルチビュー3次元表面再構成のための新しいマルチセンサデータセットを提案する。 そこには、スマートフォン、intel realsense、microsoft kinect、産業用カメラ、構造化光スキャナーなど、さまざまな解像度とモードのセンサーからの登録されたrgbと深度データが含まれている。 シーンは、既存のアルゴリズムに挑戦するさまざまな材料特性を強調するために選択される。 14の照明条件下で100方向から取得した107シーンの約140万画像を提供する。 我々のデータセットは3次元再構成アルゴリズムの評価と訓練、および関連するタスクに役立ちます。 データセットはskoltech3d.appliedai.techで入手できる。

We present a new multi-sensor dataset for multi-view 3D surface reconstruction. It includes registered RGB and depth data from sensors of different resolutions and modalities: smartphones, Intel RealSense, Microsoft Kinect, industrial cameras, and structured-light scanner. The scenes are selected to emphasize a diverse set of material properties challenging for existing algorithms. We provide around 1.4 million images of 107 different scenes acquired from 100 viewing directions under 14 lighting conditions. We expect our dataset will be useful for evaluation and training of 3D reconstruction algorithms and for related tasks. The dataset is available at skoltech3d.appliedai.tech.
翻訳日:2023-03-29 20:14:40 公開日:2023-03-28
# ロバストPAC$^m$:モデルミス種別と外乱下でのアンサンブルモデルの訓練

Robust PAC$^m$: Training Ensemble Models Under Model Misspecification and Outliers ( http://arxiv.org/abs/2203.01859v2 )

ライセンス: Link先を確認
Matteo Zecchin, Sangwoo Park, Osvaldo Simeone, Marios Kountouris, David Gesbert(参考訳) 標準ベイズ学習は、モデル不特定性および外れ値の存在下で最適部分一般化能力を有することが知られている。 pac-bayes理論は、ベイズ学習によって最小化される自由エネルギーの基準が、異常値によって汚染されないサンプリング分布の仮定の下でギブス予測器(すなわち、後からランダムに描画された単一モデル)の一般化誤差に縛られることを証明している。 この視点は、モデルが誤って特定され、アンサンブルが必要であり、データが外れ値に影響された場合にベイズ学習の限界を正当化する。 最近の研究で、PAC-Bayes境界(PAC$^m$)は、アンサンブル予測器の性能を考慮に入れた自由エネルギー指標を導入し、不特定条件下での性能を向上させるために導出された。 本研究は,一般化対数スコア関数とpac$^m$アンサンブル境界を組み合わせた,新しいロバストな自由エネルギー基準を提案する。 提案する自由エネルギー訓練基準は,モデル不特定化と異常値の有害な効果を相殺する予測分布を生成する。

Standard Bayesian learning is known to have suboptimal generalization capabilities under model misspecification and in the presence of outliers. PAC-Bayes theory demonstrates that the free energy criterion minimized by Bayesian learning is a bound on the generalization error for Gibbs predictors (i.e., for single models drawn at random from the posterior) under the assumption of sampling distributions uncontaminated by outliers. This viewpoint provides a justification for the limitations of Bayesian learning when the model is misspecified, requiring ensembling, and when data is affected by outliers. In recent work, PAC-Bayes bounds - referred to as PAC$^m$ - were derived to introduce free energy metrics that account for the performance of ensemble predictors, obtaining enhanced performance under misspecification. This work presents a novel robust free energy criterion that combines the generalized logarithm score function with PAC$^m$ ensemble bounds. The proposed free energy training criterion produces predictive distributions that are able to concurrently counteract the detrimental effects of model misspecification and outliers.
翻訳日:2023-03-29 20:14:31 公開日:2023-03-28
# FedREP:小売エネルギープロバイダ向け水平フェデレート負荷予測に向けて

FedREP: Towards Horizontal Federated Load Forecasting for Retail Energy Providers ( http://arxiv.org/abs/2203.00219v2 )

ライセンス: Link先を確認
Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss(参考訳) スマートメータは家庭用エネルギー消費データを小売エネルギープロバイダ(rep)に収集し、送信しているため、データプライバシを確保しながら、きめ細かい消費者データの有効利用を確保することが主な課題である。 本稿では,エネルギー需要管理,負荷切り換え,インフラ開発に不可欠なrepについて,エネルギー負荷消費量予測のためのこの課題に取り組む。 具体的には、既存のエネルギー負荷予測は集中的であり、スケーラビリティがなく、最も重要なのは、データプライバシの脅威に弱いことだ。 さらに、REPは個々の市場参加者であり、自身の顧客のプライバシーを確保する責任がある。 この問題に対処するため、我々はREPのエネルギー負荷予測、すなわちFedREPのための水平プライバシー保護フェデレーション学習フレームワークを提案する。 データを共有することなく、複数のREPが共通の堅牢な機械学習モデルを構築し、データプライバシやデータセキュリティ、スケーラビリティといった重要な問題に対処することで、制御センタと複数の小売業者からなる連合学習システムを考える。 予測には,最先端のlong short-term memory(lstm)ニューラルネットワークを用いる。これは,観測の長期シーケンスを学習する能力と,消失する勾配問題を解きながら時系列データによる精度向上が期待できるためである。 最後に,実エネルギー消費データセットを用いて広範なデータ駆動実験を行う。 実験の結果,提案する連合学習フレームワークは0.3~0.4の範囲のmseで十分な性能を達成でき,プライバシを保ちスケーラビリティを向上しつつ,集中型アプローチのそれと比較的類似していることがわかった。

As Smart Meters are collecting and transmitting household energy consumption data to Retail Energy Providers (REP), the main challenge is to ensure the effective use of fine-grained consumer data while ensuring data privacy. In this manuscript, we tackle this challenge for energy load consumption forecasting in regards to REPs which is essential to energy demand management, load switching and infrastructure development. Specifically, we note that existing energy load forecasting is centralized, which are not scalable and most importantly, vulnerable to data privacy threats. Besides, REPs are individual market participants and liable to ensure the privacy of their own customers. To address this issue, we propose a novel horizontal privacy-preserving federated learning framework for REPs energy load forecasting, namely FedREP. We consider a federated learning system consisting of a control centre and multiple retailers by enabling multiple REPs to build a common, robust machine learning model without sharing data, thus addressing critical issues such as data privacy, data security and scalability. For forecasting, we use a state-of-the-art Long Short-Term Memory (LSTM) neural network due to its ability to learn long term sequences of observations and promises of higher accuracy with time-series data while solving the vanishing gradient problem. Finally, we conduct extensive data-driven experiments using a real energy consumption dataset. Experimental results demonstrate that our proposed federated learning framework can achieve sufficient performance in terms of MSE ranging between 0.3 to 0.4 and is relatively similar to that of a centralized approach while preserving privacy and improving scalability.
翻訳日:2023-03-29 20:14:06 公開日:2023-03-28
# 3次元物体検出と位置推定のためのLiDARビーム構成のエンドツーエンド最適化

End-To-End Optimization of LiDAR Beam Configuration for 3D Object Detection and Localization ( http://arxiv.org/abs/2201.03860v2 )

ライセンス: Link先を確認
Niclas V\"odisch, Ozan Unal, Ke Li, Luc Van Gool, Dengxin Dai(参考訳) lidarベースのアプリケーションのための既存の学習方法は、あらかじめ決められたビーム構成の下でスキャンされた3dポイントを使用する。 これらの固定構成はタスクに依存しないため、単純に使用すればサブ最適パフォーマンスにつながる可能性がある。 本研究では,あるアプリケーションに対して,lidarビーム構成の最適化を学ぶための新しい経路を提案する。 具体的には、異なるLiDARベースのアプリケーションに対して、ビーム構成を自動的にエンドツーエンドに最適化する強化学習ベースの学習最適化(RL-L2O)フレームワークを提案する。 この最適化は,目標タスクの最終的な性能によって導かれるので,簡単なドロップインモジュールとして任意のLiDARアプリケーションと容易に統合できる。 この方法は、例えば大規模なシステム展開において、低解像度(低コスト)のLiDARが必要な場合に特に有用である。 我々は,低分解能LiDARのビーム構成を3次元物体検出と局所化という2つの重要なタスクに対して探索する。 実験の結果,RL-L2O法はベースライン法に比べて両タスクの性能が有意に向上することがわかった。 我々は,プログラム可能なLiDARの最近の進歩と組み合わせることで,LiDARをベースとしたアクティブな知覚のための新たな研究方向を創出できると考えている。 コードはhttps://github.com/vniclas/lidar_beam_selectionで公開されている。

Existing learning methods for LiDAR-based applications use 3D points scanned under a pre-determined beam configuration, e.g., the elevation angles of beams are often evenly distributed. Those fixed configurations are task-agnostic, so simply using them can lead to sub-optimal performance. In this work, we take a new route to learn to optimize the LiDAR beam configuration for a given application. Specifically, we propose a reinforcement learning-based learning-to-optimize (RL-L2O) framework to automatically optimize the beam configuration in an end-to-end manner for different LiDAR-based applications. The optimization is guided by the final performance of the target task and thus our method can be integrated easily with any LiDAR-based application as a simple drop-in module. The method is especially useful when a low-resolution (low-cost) LiDAR is needed, for instance, for system deployment at a massive scale. We use our method to search for the beam configuration of a low-resolution LiDAR for two important tasks: 3D object detection and localization. Experiments show that the proposed RL-L2O method improves the performance in both tasks significantly compared to the baseline methods. We believe that a combination of our method with the recent advances of programmable LiDARs can start a new research direction for LiDAR-based active perception. The code is publicly available at https://github.com/vniclas/lidar_beam_selection
翻訳日:2023-03-29 20:13:36 公開日:2023-03-28
# 重イオン衝突におけるねじれ粒子の生成

Production of twisted particles in heavy-ion collisions ( http://arxiv.org/abs/2112.12404v4 )

ライセンス: Link先を確認
Liping Zou, Pengming Zhang, Alexander J. Silenko(参考訳) 非中央重イオン衝突におけるツイスト状(渦)粒子の発生率を示した。 このような衝突では、電荷の回転によって放出される光子は非常にねじれている。 荷電粒子は非散逸なマルチウェーブ状態で生成され、軌道角モーメントを持つ。 特定の効果で自分自身に現れる任意のねじれた粒子の放出は、かなりユビキタスであることが期待できる。

A prevalence of production of twisted (vortex) particles in noncentral heavy-ion collisions is shown. In such collisions, photons emitted due to the rotation of charges are highly twisted. Charged particles are produced in nonspreading multiwave states and have significant orbital angular momenta. It can be expected that an emission of any twisted particles manifesting themselves in specific effects is rather ubiquitous.
翻訳日:2023-03-29 20:13:19 公開日:2023-03-28
# AtteSTNet -- コード切替テキストヘイトスピーチ検出のための注目とサブワードトークン化に基づくアプローチ

AtteSTNet -- An attention and subword tokenization based approach for code-switched text hate speech detection ( http://arxiv.org/abs/2112.11479v3 )

ライセンス: Link先を確認
Geet Shingi, Vedangi Wagh, Kishor Wagh, Sharmila Wagh(参考訳) 近年の技術進歩はソーシャルメディアの利用を加速させ、最終的にはヘイトや攻撃的なスピーチを含む大量のユーザー生成データを生み出している。 ソーシャルメディアで使われる言語は、しばしば地域の英語と母語の組み合わせである。 インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。 異なる機械学習とディープラーニングに基づく手法を用いて、コード混合hinglishヘイトスピーチを分類する様々なアプローチが過去に行われてきた。 しかし,これらの手法は,計算コストが高く,メモリ要求も高い畳み込み機構の繰り返しを利用する。 過去の技術は複雑なデータ処理も利用しており、既存の技術は非常に複雑で、データの変更が持続できない。 提案された作業は、これらの複雑なネットワークに匹敵するだけでなく、BPEやUnigramのようなサブワードのトークン化アルゴリズムとマルチヘッドアテンションベースの技術を用いることでパフォーマンスを上回り、精度は87.41%、F1スコアは0.851である。 BPEアルゴリズムとUnigramアルゴリズムの効率的な利用は、非伝統的なヒングリッシュ語彙を扱うのに役立つ。

Recent advancements in technology have led to a boost in social media usage which has ultimately led to large amounts of user-generated data which also includes hateful and offensive speech. The language used in social media is often a combination of English and the native language in the region. In India, Hindi is used predominantly and is often code-switched with English, giving rise to the Hinglish (Hindi+English) language. Various approaches have been made in the past to classify the code-mixed Hinglish hate speech using different machine learning and deep learning-based techniques. However, these techniques make use of recurrence on convolution mechanisms which are computationally expensive and have high memory requirements. Past techniques also make use of complex data processing making the existing techniques very complex and non-sustainable to change in data. Proposed work gives a much simpler approach which is not only at par with these complex networks but also exceeds performance with the use of subword tokenization algorithms like BPE and Unigram, along with multi-head attention-based techniques, giving an accuracy of 87.41% and an F1 score of 0.851 on standard datasets. Efficient use of BPE and Unigram algorithms help handle the nonconventional Hinglish vocabulary making the proposed technique simple, efficient and sustainable to use in the real world.
翻訳日:2023-03-29 20:13:05 公開日:2023-03-28
# qudit表面コードとハイパーマップコード

Qudit surface code and hypermap code ( http://arxiv.org/abs/2112.01752v3 )

ライセンス: Link先を確認
Zihan Lei(参考訳) 本稿では、ホモロジー量子コードを任意のqudit次元$D\geq{2}$で定義し、2-複素$\Sigma$上でCSS演算子を直接定義する。 2-コンプレックスが曲面から来ると、qudit曲面コードが得られる。 次に、定義したコードの次元が常に $\sigma$ の最初のホモロジー群のサイズに等しいことを証明する。 次に、martin leslie が提案したハイパーマップホモロジー量子コードを qudit のケースに拡張し、そのようなすべてのハイパーマップコードに対して、我々が定義したホモロジー量子コードがそれと等しくなるような抽象的2-複体を構築した。

In this article, we define homological quantum code in arbitrary qudit dimension $D\geq{2}$ by directly defining CSS operators on a 2-complex $\Sigma$. When the 2-complex is from a surface, we get a qudit surface code. Then we prove that the dimension of the code we defined always equals the size of the first homology group of $\Sigma$. Next, we expand the hypermap-homology quantum code proposed by Martin Leslie to the qudit's case, and for every such hypermap code, we constructed an abstract 2-complex whose homological quantum code we just defined equals it.
翻訳日:2023-03-29 20:12:41 公開日:2023-03-28
# 非可換加法観測による位相共存状態の統計的アンサンブル

Statistical ensembles for phase coexistence states specified by noncommutative additive observables ( http://arxiv.org/abs/2111.10532v3 )

ライセンス: Link先を確認
Yasushi Yoneta, Akira Shimizu(参考訳) 相共存状態は、すべての相が同じ値を取るため、温度や磁場などの集中的なパラメータによって一意に特定することはできない。 それは適切な加法観測器のセットによってのみ一意に指定できる。 したがって、位相共存を解析するために、添加物によって特定される統計アンサンブル(マイクロカノニカルや制限されたアンサンブルなど)が採用されている。 しかし、これらのアンサンブルは、いくつかの付加的な可観測性が相互に可換でない場合に不定義または非可換である。 本稿では、非可換加法的可観測性によって特定される位相共存状態に適用できるように一般化アンサンブルを拡張して、この基本問題を解く。 このアンサンブルにより、一般量子系の位相共存状態と熱力学的関数に対応する密度行列が正しく与えられることが証明される。 さらに、これらのアンサンブルは、優れた解析的性質と、加法観測器の期待値から温度やその他の集中パラメータを直接得られる有用な公式により、実用的な計算に有用である。 実演として、ハミルトニアンと可換でない加法的可観測(次数パラメータ)により位相共存状態が指定される2次元系に我々の定式化を適用する。

A phase coexistence state cannot be specified uniquely by any intensive parameters, such as the temperature and the magnetic field, because they take the same values over all coexisting phases. It can be specified uniquely only by an appropriate set of additive observables. Hence, to analyze phase coexistence states the statistical ensembles that are specified by additive observables have been employed, such as the microcanonical and restricted ensembles. However, such ensembles are ill-defined or ill-behaved when some of the additive observables do not commute with each other. Here, we solve this fundamental problem by extending a generalized ensemble in such a way that it is applicable to phase coexistence states which are specified by noncommutative additive observables. We prove that this ensemble correctly gives the density matrix corresponding to phase coexistence states of general quantum systems as well as the thermodynamic functions. Furthermore, these ensembles are convenient for practical calculations because of good analytic properties and useful formulas by which temperature and other intensive parameters are directly obtained from the expectation values of the additive observables. As a demonstration, we apply our formulation to a two-dimensional system whose phase coexistence states are specified by an additive observable (order parameter) that does not commute with the Hamiltonian.
翻訳日:2023-03-29 20:12:25 公開日:2023-03-28
# cores: stationarity による互換表現

CoReS: Compatible Representations via Stationarity ( http://arxiv.org/abs/2111.07632v3 )

ライセンス: Link先を確認
Niccolo Biondi and Federico Pernici and Matteo Bruni and Alberto Del Bimbo(参考訳) 互換性のある機能により、古い機能と新しい機能を直接比較することができる。 ビジュアル検索システムでは,表現モデルを新しいデータでアップグレードする場合に,ギャラリーセットから新機能を抽出する必要がなくなる。 これは、ギャラリーセットの再インデクシングは、ギャラリーセットが大きければ計算的にコストがかかる可能性があるため、実際のアプリケーションにおいて大きな価値を持つ。 本稿では, ポリトープに基づく固定分類器によって提供される特徴の定常性に基づいて, 以前に学習した表現と \textit{compatible} の表現を学習するための新しい学習手順であるcoresを提案する。 このソリューションでは、クラスは表現空間内で最大に分離され、新しいクラスが追加されるにつれて空間的構成が定常的に維持されるため、表現間のマッピングを学習したり、以前に学習したモデルとペアワイズトレーニングを課したりする必要がなくなる。 実際のアプリケーションでは典型例であるトレーニングセットを複数アップグレードする場合,トレーニング手順が現在の技術を大きく上回っており,特に効果的であることを示す。

Compatible features enable the direct comparison of old and new learned features allowing to use them interchangeably over time. In visual search systems, this eliminates the need to extract new features from the gallery-set when the representation model is upgraded with novel data. This has a big value in real applications as re-indexing the gallery-set can be computationally expensive when the gallery-set is large, or even infeasible due to privacy or other concerns of the application. In this paper, we propose CoReS, a new training procedure to learn representations that are \textit{compatible} with those previously learned, grounding on the stationarity of the features as provided by fixed classifiers based on polytopes. With this solution, classes are maximally separated in the representation space and maintain their spatial configuration stationary as new classes are added, so that there is no need to learn any mappings between representations nor to impose pairwise training with the previously learned model. We demonstrate that our training procedure largely outperforms the current state of the art and is particularly effective in the case of multiple upgrades of the training-set, which is the typical case in real applications.
翻訳日:2023-03-29 20:12:04 公開日:2023-03-28
# 個人推定のための新しい下肢境界と一般化フィンガープリントレンマ

New Lower Bounds for Private Estimation and a Generalized Fingerprinting Lemma ( http://arxiv.org/abs/2205.08532v5 )

ライセンス: Link先を確認
Gautam Kamath, Argyris Mouzakis and Vikrant Singhal(参考訳) 我々は、$(\varepsilon, \delta)$-differential privacy という制約の下で統計量推定タスクの新たな下限を証明する。 まず, ガウス分布のプライベート共分散推定のための厳密な下限を与える。 フロベニウスノルムにおける共分散行列の推定には$\omega(d^2)$のサンプルが必要であり、スペクトルノルムでは$\omega(d^{3/2})$のサンプルが必要であり、どちらも対数因子の上限に一致する。 後者の境界は、ガウス共分散のスペクトル推定のために、プライベートと非プライベートサンプル複素量の間の予想された統計的ギャップの存在を検証する。 我々はこれらの境界を主要な技術的貢献によって証明し、指数関数系へのフィンガープリンティング法を広範に一般化した。 さらに、Acharya, Sun, Zhangのプライベートなアスード法を用いて、$\ell_2$-distanceで$\alpha$-errorに有界な共分散を持つ分布の平均を推定するための$\Omega(d/(\alpha^2 \varepsilon))$低い境界を示す。 これらの問題の既知の下限は、多項式的に弱いか、$(\varepsilon, 0)$-differential privacyという厳密な条件で保持されていた。

We prove new lower bounds for statistical estimation tasks under the constraint of $(\varepsilon, \delta)$-differential privacy. First, we provide tight lower bounds for private covariance estimation of Gaussian distributions. We show that estimating the covariance matrix in Frobenius norm requires $\Omega(d^2)$ samples, and in spectral norm requires $\Omega(d^{3/2})$ samples, both matching upper bounds up to logarithmic factors. The latter bound verifies the existence of a conjectured statistical gap between the private and the non-private sample complexities for spectral estimation of Gaussian covariances. We prove these bounds via our main technical contribution, a broad generalization of the fingerprinting method to exponential families. Additionally, using the private Assouad method of Acharya, Sun, and Zhang, we show a tight $\Omega(d/(\alpha^2 \varepsilon))$ lower bound for estimating the mean of a distribution with bounded covariance to $\alpha$-error in $\ell_2$-distance. Prior known lower bounds for all these problems were either polynomially weaker or held under the stricter condition of $(\varepsilon, 0)$-differential privacy.
翻訳日:2023-03-29 20:06:02 公開日:2023-03-28
# 周波数注意インフォームドグラフ畳み込みネットワークを用いた脳性麻痺の予測

Cerebral Palsy Prediction with Frequency Attention Informed Graph Convolutional Networks ( http://arxiv.org/abs/2204.10997v2 )

ライセンス: Link先を確認
Haozheng Zhang, Hubert P. H. Shum and Edmond S. L. Ho(参考訳) 早期診断と介入は脳性麻痺 (cp) の治療の最重要部分と考えられているため, 効率的かつ解釈可能なcpの自動予測システムの設計が不可欠である。 cp児のヒト運動頻度と健常群との有意差を強調し, 予測性能の向上に寄与した。 しかし,既存の深層学習に基づく手法では,CP予測に幼児の動きの周波数情報を使用しなかった。 本稿では,周波数注意インフォームドグラフ畳み込みネットワークを提案し,消費者級rgbビデオデータセットであるmini-rgbdとrvi-38を用いて検証を行う。 提案する周波数アテンションモジュールは,分類性能とシステム解釈性の両方を改善する。 さらに、ノイズをフィルタリングしながら人間の関節位置データの臨界周波数を保持する周波数結合法を設計する。 我々の予測性能は、両方のデータセットに関する最先端の研究を実現する。 本研究は,cpの非侵襲的予測支援における周波数情報の有効性を示し,臨床資源が乏しい地域においてcpの早期診断を支援する手段を提供する。

Early diagnosis and intervention are clinically considered the paramount part of treating cerebral palsy (CP), so it is essential to design an efficient and interpretable automatic prediction system for CP. We highlight a significant difference between CP infants' frequency of human movement and that of the healthy group, which improves prediction performance. However, the existing deep learning-based methods did not use the frequency information of infants' movement for CP prediction. This paper proposes a frequency attention informed graph convolutional network and validates it on two consumer-grade RGB video datasets, namely MINI-RGBD and RVI-38 datasets. Our proposed frequency attention module aids in improving both classification performance and system interpretability. In addition, we design a frequency-binning method that retains the critical frequency of the human joint position data while filtering the noise. Our prediction performance achieves state-of-the-art research on both datasets. Our work demonstrates the effectiveness of frequency information in supporting the prediction of CP non-intrusively and provides a way for supporting the early diagnosis of CP in the resource-limited regions where the clinical resources are not abundant.
翻訳日:2023-03-29 20:04:50 公開日:2023-03-28
# クラウドソーシングにおける空間的未報告格差の定量化

Quantifying Spatial Under-reporting Disparities in Resident Crowdsourcing ( http://arxiv.org/abs/2204.08620v2 )

ライセンス: Link先を確認
Zhi Liu, Nikhil Garg(参考訳) 現代の都市統治は、倒木や電力線といった問題を特定するためにクラウドソーシング(共同生産)に大きく依存している。 主な懸念は、住民が同じ率で問題を報告しないことであり、インシデントへの対処の迅速さにおいて、下流の格差に直結する異質性を報告していることである。 このようなアンダーレポートの測定は、定義上、報告されていないインシデントや報告されたインシデントの発生を観測しないため、難しい統計的タスクである。 したがって、報告率の低さと地中インシデント率の低さは、内在的に区別できない。 外部の事実データを用いずに(ヘテロジェンシーな)報告率を識別する手法を開発した。 我々の洞察では、同じインシデントに関する$\textit{duplicate}$のレポートは、インシデントが発生した時にその報告レートで発生したかどうかを曖昧にするために利用することができる。 Using this idea, we reduce the question to a standard Poisson rate estimation task -- even though the full incident reporting interval is also unobserved. We apply our method to over 100,000 resident reports made to the New York City Department of Parks and Recreation and to over 900,000 reports made to the Chicago Department of Transportation and Department of Water Management, finding that there are substantial spatial disparities in reporting rates even after controlling for incident characteristics -- some neighborhoods report three times as quickly as do others. これらの空間的格差は社会経済的特徴に対応しており、ニューヨーク市では人口密度が高く、大学の学位を持つ人の比率、収入、人口の比率は報告率と正の相関がある。

Modern city governance relies heavily on crowdsourcing ("co-production") to identify problems such as downed trees and power lines. A major concern is that residents do not report problems at the same rates, with reporting heterogeneity directly translating to downstream disparities in how quickly incidents can be addressed. Measuring such under-reporting is a difficult statistical task, as, by definition, we do not observe incidents that are not reported or when reported incidents first occurred. Thus, low reporting rates and low ground-truth incident rates cannot be naively distinguished. We develop a method to identify (heterogeneous) reporting rates, without using external ground truth data. Our insight is that rates on $\textit{duplicate}$ reports about the same incident can be leveraged to disambiguate whether an incident has occurred with its reporting rate once it has occurred. Using this idea, we reduce the question to a standard Poisson rate estimation task -- even though the full incident reporting interval is also unobserved. We apply our method to over 100,000 resident reports made to the New York City Department of Parks and Recreation and to over 900,000 reports made to the Chicago Department of Transportation and Department of Water Management, finding that there are substantial spatial disparities in reporting rates even after controlling for incident characteristics -- some neighborhoods report three times as quickly as do others. These spatial disparities correspond to socio-economic characteristics: in NYC, higher population density, fraction of people with college degrees, income, and fraction of population that is White all positively correlate with reporting rates.
翻訳日:2023-03-29 20:04:30 公開日:2023-03-28
# ランクの公平性に対する一般化されたジーニ指標の最適化

Optimizing generalized Gini indices for fairness in rankings ( http://arxiv.org/abs/2204.06521v4 )

ライセンス: Link先を確認
Virginie Do and Nicolas Usunier(参考訳) 商品生産者や未満足のユーザを公平に対象とするレコメンデーションシステムの設計への関心が高まっている。 経済学における不平等測定の領域に触発された本論文では,推奨システムが最適化すべき規範的基準を特定する手段として,一般化されたジニ福祉機能(GGF)の利用について検討する。 GGFは人口の階級によって個人を重くし、平等を促進するために悪質な個人に重みを与える。 これらの重みによって、GGFはアイテム露光のギニ指数を最小化し、アイテム間の平等を促進したり、満足度の低い特定の量子化に注目する。 ランク付けのためのGGFは、差別化できないため最適化が難しい。 我々は,微分可能ソートに使用される非スムース最適化と投影演算子のツールを活用することで,この課題を解決した。 提案手法は,最大15万のユーザとアイテムの実際のデータセットを用いて実験を行い,様々なレコメンデーションタスクや公正基準のベースラインよりも優れたトレードオフが得られることを示す。

There is growing interest in designing recommender systems that aim at being fair towards item producers or their least satisfied users. Inspired by the domain of inequality measurement in economics, this paper explores the use of generalized Gini welfare functions (GGFs) as a means to specify the normative criterion that recommender systems should optimize for. GGFs weight individuals depending on their ranks in the population, giving more weight to worse-off individuals to promote equality. Depending on these weights, GGFs minimize the Gini index of item exposure to promote equality between items, or focus on the performance on specific quantiles of least satisfied users. GGFs for ranking are challenging to optimize because they are non-differentiable. We resolve this challenge by leveraging tools from non-smooth optimization and projection operators used in differentiable sorting. We present experiments using real datasets with up to 15k users and items, which show that our approach obtains better trade-offs than the baselines on a variety of recommendation tasks and fairness criteria.
翻訳日:2023-03-29 20:04:03 公開日:2023-03-28
# 意味セグメンテーションのための動的フォーカスアウェアな位置問合せ

Dynamic Focus-aware Positional Queries for Semantic Segmentation ( http://arxiv.org/abs/2204.01244v3 )

ライセンス: Link先を確認
Haoyu He, Jianfei Cai, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao, Bohan Zhuang(参考訳) detrライクなセグメンタは、クラスプロトタイプやターゲットセグメンテーションを表す一連のクエリをエンドツーエンドでトレーニングするセマンティックセグメンテーションの、最新のブレークスルーの基礎となっている。 近年,先行するデコーダブロックが予測する前景領域のみに問い合わせを限定し,最適化を容易にするマスク付き注意が提案されている。 有望ではあるが、データセット統計をエンコードする傾向にある学習可能なパラメータ化位置クエリに依存しており、個々のクエリの非正確なローカライゼーションにつながる。 本稿では,先述のデコーダブロックと対応する画像特徴に対する位置符号化とから,クロスアテンションスコアを条件とした位置クエリを動的に生成する,意味セグメンテーション用語dfpq(dynamic focus-aware positional query)の簡易かつ効果的なクエリ設計を提案する。 したがって、DFPQは、ターゲットセグメントのリッチなローカライゼーション情報を保存し、高精度できめ細かな位置先情報を提供する。 さらに,低解像度のクロスアテンションスコアに基づいてコンテキストトークンを集約し,局所的な関係アグリゲーションを実行することで,高解像度のクロスアテンションを効率的に扱うことを提案する。 ADE20KとCityscapesの大規模な実験により,Msk2formerの2つの改良により,Msk2formerのSOTA性能をそれぞれ1.1%,1.9%,1.1%の単一スケールmIoU,ResNet-50,Swin-T,Swin-Bの検証セットで達成した。 ソースコードはhttps://github.com/ziplab/FASegで入手できる。

The DETR-like segmentors have underpinned the most recent breakthroughs in semantic segmentation, which end-to-end train a set of queries representing the class prototypes or target segments. Recently, masked attention is proposed to restrict each query to only attend to the foreground regions predicted by the preceding decoder block for easier optimization. Although promising, it relies on the learnable parameterized positional queries which tend to encode the dataset statistics, leading to inaccurate localization for distinct individual queries. In this paper, we propose a simple yet effective query design for semantic segmentation termed Dynamic Focus-aware Positional Queries (DFPQ), which dynamically generates positional queries conditioned on the cross-attention scores from the preceding decoder block and the positional encodings for the corresponding image features, simultaneously. Therefore, our DFPQ preserves rich localization information for the target segments and provides accurate and fine-grained positional priors. In addition, we propose to efficiently deal with high-resolution cross-attention by only aggregating the contextual tokens based on the low-resolution cross-attention scores to perform local relation aggregation. Extensive experiments on ADE20K and Cityscapes show that with the two modifications on Mask2former, our framework achieves SOTA performance and outperforms Mask2former by clear margins of 1.1%, 1.9%, and 1.1% single-scale mIoU with ResNet-50, Swin-T, and Swin-B backbones on the ADE20K validation set, respectively. Source code is available at https://github.com/ziplab/FASeg
翻訳日:2023-03-29 20:03:30 公開日:2023-03-28
# SERA:非構造環境における協調型ロボット計画のための安全かつ効率的なリアクティブ障害物回避

SERA: Safe and Efficient Reactive Obstacle Avoidance for Collaborative Robotic Planning in Unstructured Environments ( http://arxiv.org/abs/2203.13821v2 )

ライセンス: Link先を確認
Apan Dastider and Mingjie Lin(参考訳) 産業4.0の時代には、非構造環境における複数のロボット間の安全で効率的なコラボレーションがますます重要になっている。 しかしながら、人間や他のロボット間の堅牢で自律的な協調を実現するためには、現代のロボットシステムは効果的な近接認識と反応性障害物回避を要求される。 本稿では,動的環境においてもコンフリクトフリーなロボットとロボットのインタラクションを保証する,リアクティブな全身障害物回避手法を提案する。 ヤコビアン型,サンプリングベース,幾何学的手法に基づく既存の手法とは異なり,我々の手法は最新の深層学習とトポロジカル多様体学習を活用し,高い計算効率と高速グラフトラバース技術を備えた他の問題設定に容易に一般化することができる。 我々のアプローチでは、ロボットアームが直接接触することなく任意の3D形状の障害物を積極的に回避することができる。 このアプローチを検証するために,我々は,近接センサ配置を最適化した2つの6自由度ロボットアームからなるロボットプラットフォームに実装した。 特に、一方の腕は、予め決められた目標を達成しながら、反応的な全身障害物回避を行い、もう一方の腕は、独立して潜在的に敵対的な動きを持つ人間の協力者の存在を模倣する。 本手法は,非定常環境における安全ロボット協調のための堅牢で効果的なソリューションを提供する。

Safe and efficient collaboration among multiple robots in unstructured environments is increasingly critical in the era of Industry 4.0. However, achieving robust and autonomous collaboration among humans and other robots requires modern robotic systems to have effective proximity perception and reactive obstacle avoidance. In this paper, we propose a novel methodology for reactive whole-body obstacle avoidance that ensures conflict-free robot-robot interactions even in dynamic environment. Unlike existing approaches based on Jacobian-type, sampling based or geometric techniques, our methodology leverages the latest deep learning advances and topological manifold learning, enabling it to be readily generalized to other problem settings with high computing efficiency and fast graph traversal techniques. Our approach allows a robotic arm to proactively avoid obstacles of arbitrary 3D shapes without direct contact, a significant improvement over traditional industrial cobot settings. To validate our approach, we implement it on a robotic platform consisting of dual 6-DoF robotic arms with optimized proximity sensor placement, capable of working collaboratively with varying levels of interference. Specifically, one arm performs reactive whole-body obstacle avoidance while achieving its pre-determined objective, while the other arm emulates the presence of a human collaborator with independent and potentially adversarial movements. Our methodology provides a robust and effective solution for safe human-robot collaboration in non-stationary environments.
翻訳日:2023-03-29 20:02:51 公開日:2023-03-28
# スポンジ中毒によるエネルギーレイテンシー攻撃

Energy-Latency Attacks via Sponge Poisoning ( http://arxiv.org/abs/2203.08147v4 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) spongeの例としては、ハードウェアアクセラレータにデプロイされたニューラルネットワークのエネルギー消費量とレイテンシを最適化したテスト時間入力がある。 本研究は,スポンジ中毒(sponge poisoning)と呼ばれる攻撃によって,スポンジのサンプルを訓練時に注入できることを示す最初の試みである。 この攻撃により、各テスト時間入力に対して無差別に機械学習モデルのエネルギー消費とレイテンシを増加させることができる。 テストタイムスポンジ事例の最適化に関する制限を克服し,攻撃者がいくつかのモデル更新のみを制御する場合,例えば,モデルトレーニングが信頼できないサードパーティにアウトソースされた場合,あるいはフェデレート学習を通じて配布された場合,この攻撃が可能であることを示す。 我々はスポンジ中毒がハードウェア・アクセラレーターの効果をほぼ完全に消し去ることを実証した。 また、毒物モデルのアクティベーションを分析し、この攻撃に対してより脆弱なコンポーネントを特定します。 最後に,スポンジ中毒対策がエネルギー消費を減少させる可能性について検討した。

Sponge examples are test-time inputs carefully optimized to increase energy consumption and latency of neural networks when deployed on hardware accelerators. In this work, we are the first to demonstrate that sponge examples can also be injected at training time, via an attack that we call sponge poisoning. This attack allows one to increase the energy consumption and latency of machine-learning models indiscriminately on each test-time input. We present a novel formalization for sponge poisoning, overcoming the limitations related to the optimization of test-time sponge examples, and show that this attack is possible even if the attacker only controls a few model updates; for instance, if model training is outsourced to an untrusted third-party or distributed via federated learning. Our extensive experimental analysis shows that sponge poisoning can almost completely vanish the effect of hardware accelerators. We also analyze the activations of poisoned models, identifying which components are more vulnerable to this attack. Finally, we examine the feasibility of countermeasures against sponge poisoning to decrease energy consumption, showing that sanitization methods may be overly expensive for most of the users.
翻訳日:2023-03-29 20:02:26 公開日:2023-03-28
# megaportraits: メガピクセルのニューラルネットワークのアバター

MegaPortraits: One-shot Megapixel Neural Head Avatars ( http://arxiv.org/abs/2207.07621v2 )

ライセンス: Link先を確認
Nikita Drobyshev, Jenya Chelishev, Taras Khakhulin, Aleksei Ivakhnenko, Victor Lempitsky and Egor Zakharov(参考訳) そこで本研究では, クロスドライブ合成の課題, すなわち, 映像の外観がアニメーション画像と大きく異なる場合に注目しながら, ニューラルネットワークアバター技術をメガピクセル解像度に進化させる。 本研究では,中分解能映像データと高分解能画像データの両方を活用し,所望のレンダリング画質と新たな視点や動きへの一般化を実現する,新たなニューラルアーキテクチャとトレーニング手法を提案する。 提案するアーキテクチャと手法が説得力のある高解像度のニューラルアバターを生み出し、クロスドライブのシナリオでライバルより優れていることを示す。 最後に、トレーニングされた高分解能ニューラルアバターモデルを、リアルタイムで動作し、ニューラルネットワークアバターのアイデンティティを数十の事前定義されたソースイメージにロックする軽量の学生モデルに蒸留する方法を示す。 リアルタイム操作とIDロックは多くの実用的アバターシステムに必須である。

In this work, we advance the neural head avatar technology to the megapixel resolution while focusing on the particularly challenging task of cross-driving synthesis, i.e., when the appearance of the driving image is substantially different from the animated source image. We propose a set of new neural architectures and training methods that can leverage both medium-resolution video data and high-resolution image data to achieve the desired levels of rendered image quality and generalization to novel views and motion. We demonstrate that suggested architectures and methods produce convincing high-resolution neural avatars, outperforming the competitors in the cross-driving scenario. Lastly, we show how a trained high-resolution neural avatar model can be distilled into a lightweight student model which runs in real-time and locks the identities of neural avatars to several dozens of pre-defined source images. Real-time operation and identity lock are essential for many practical applications head avatar systems.
翻訳日:2023-03-29 19:56:39 公開日:2023-03-28
# 擬似ラベルを用いた半教師付きメタトレーニング

Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning ( http://arxiv.org/abs/2207.06817v2 )

ライセンス: Link先を確認
Xingping Dong, Shengcai Liao, Bo Du, Ling Shao(参考訳) 既存の少数ショット学習(FSL)手法の多くは、メタトレーニングにおいて大量のラベル付きデータを必要とする。 ラベルの要件を軽減するため, FSL では,少数のラベル付きサンプルと未ラベル付きサンプル数を含む半教師付きメタトレーニング (SSMT) 設定が提案されている。 しかし、既存の手法では、未ラベル集合の仮定に反する未ラベル集合からのクラス対応サンプル選択が必要となる。 本稿では,実シナリオにおけるFSLの適用を促進するために,実際にラベルのないデータを用いた半教師付きメタトレーニング環境を提案する。 ラベル付きデータと真にラベル付きデータの両方をより有効に利用するために、擬似ラベルベースのメタ学習(plml)と呼ばれる、シンプルで効果的なメタトレーニングフレームワークを提案する。 まず、共通半教師付き学習(ssl)を通じて分類器を訓練し、ラベルなしデータの擬似ラベルを取得する。 次に,ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し,ノイズラベルからFSLモデルをよりよく学習するための特徴平滑化とノイズ抑圧を備えた新しいファインタニング手法を設計する。 驚くべきことに、2つのFSLデータセットにわたる広範な実験により、この単純なメタトレーニングフレームワークは、制限付きラベル付きデータの下での様々なFSLモデルの性能劣化を効果的に防止し、また最先端のSSMTモデルよりも大幅に優れていることがわかった。 さらに,メタトレーニングの利点により,提案手法は2つの代表的なSSLアルゴリズムも改善する。

Most existing few-shot learning (FSL) methods require a large amount of labeled data in meta-training, which is a major limit. To reduce the requirement of labels, a semi-supervised meta-training (SSMT) setting has been proposed for FSL, which includes only a few labeled samples and numbers of unlabeled samples in base classes. However, existing methods under this setting require class-aware sample selection from the unlabeled set, which violates the assumption of unlabeled set. In this paper, we propose a practical semi-supervised meta-training setting with truly unlabeled data to facilitate the applications of FSL in realistic scenarios. To better utilize both the labeled and truly unlabeled data, we propose a simple and effective meta-training framework, called pseudo-labeling based meta-learning (PLML). Firstly, we train a classifier via common semi-supervised learning (SSL) and use it to obtain the pseudo-labels of unlabeled data. Then we build few-shot tasks from labeled and pseudo-labeled data and design a novel finetuning method with feature smoothing and noise suppression to better learn the FSL model from noise labels. Surprisingly, through extensive experiments across two FSL datasets, we find that this simple meta-training framework effectively prevents the performance degradation of various FSL models under limited labeled data, and also significantly outperforms the state-of-the-art SSMT models. Besides, benefiting from meta-training, our method also improves two representative SSL algorithms as well.
翻訳日:2023-03-29 19:56:24 公開日:2023-03-28
# 量子ビット伝送の古典的コスト

Classical Cost of Transmitting a Qubit ( http://arxiv.org/abs/2207.02244v2 )

ライセンス: Link先を確認
Martin J. Renner, Armin Tavakoli and Marco T\'ulio Quintino(参考訳) 我々は,Aliceが正の演算子評価測度(POVM)の形で一般的な測定を行うことのできる,キュービット状態のBobへの送信が可能な一般的な準備と測定シナリオを考える。 このような量子プロトコルで得られる統計は、純粋に古典的な共有ランダム性と2ビットの通信によってシミュレートできることを示す。 さらに、2ビットの通信が完全な古典的シミュレーションの最小コストであることを証明する。 さらに,よく知られている toner と bacon プロトコルを拡張した bell シナリオにも本手法を適用した。 特に、2ビットの通信は、任意の2量子状態に適用された任意の局所POVMに関連する全ての量子相関をシミュレートするのに十分である。

We consider general prepare-and-measure scenarios in which Alice can transmit qubit states to Bob, who can perform general measurements in the form of positive operator-valued measures (POVMs). We show that the statistics obtained in any such quantum protocol can be simulated by the purely classical means of shared randomness and two bits of communication. Furthermore, we prove that two bits of communication is the minimal cost of a perfect classical simulation. In addition, we apply our methods to Bell scenarios, which extends the well-known Toner and Bacon protocol. In particular, two bits of communication are enough to simulate all quantum correlations associated to arbitrary local POVMs applied to any entangled two-qubit state.
翻訳日:2023-03-29 19:55:54 公開日:2023-03-28
# xr用エッジaiハードウェアのメモリ指向設計空間探索

Memory-Oriented Design-Space Exploration of Edge-AI Hardware for XR Applications ( http://arxiv.org/abs/2206.06780v3 )

ライセンス: Link先を確認
Vivek Parmar, Syed Shakib Sarwar, Ziyun Li, Hsien-Hsin S. Lee, Barbara De Salvo, Manan Suri(参考訳) 低消費電力エッジAI機能は、Metaverseのビジョンをサポートするためにデバイス上の拡張現実(XR)アプリケーションに不可欠である。 本稿では,2つの代表的なXRワークロードについて検討する。 (i)手の検出及び (ii)ハードウェアデザイン空間探査のためのアイセグメンテーション。 どちらのアプリケーションでも、ディープニューラルネットワークをトレーニングし、量子化とハードウェア固有のボトルネックの影響を分析します。 シミュレーションにより,CPUと2つのシストリック推論アクセラレータの実装を評価する。 次に、これらのハードウェアソリューションを高度な技術ノードと比較する。 最先端の非揮発性メモリ技術(STT/SOT/VGSOT MRAM)をXR-AI推論パイプラインに統合した影響を評価した。 その結果,7nmノードで設計したメモリ階層に不揮発性メモリを導入することで,手指検出(IPS=10)と目指分割(IPS=0.1)に有意なエネルギー利得(>=24%)を達成できることがわかった。 さらに,従来のSRAMと比較して,MRAMの形状因子が小さいため,面積(>=30%)を大幅に削減できる。

Low-Power Edge-AI capabilities are essential for on-device extended reality (XR) applications to support the vision of Metaverse. In this work, we investigate two representative XR workloads: (i) Hand detection and (ii) Eye segmentation, for hardware design space exploration. For both applications, we train deep neural networks and analyze the impact of quantization and hardware specific bottlenecks. Through simulations, we evaluate a CPU and two systolic inference accelerator implementations. Next, we compare these hardware solutions with advanced technology nodes. The impact of integrating state-of-the-art emerging non-volatile memory technology (STT/SOT/VGSOT MRAM) into the XR-AI inference pipeline is evaluated. We found that significant energy benefits (>=24%) can be achieved for hand detection (IPS=10) and eye segmentation (IPS=0.1) by introducing non-volatile memory in the memory hierarchy for designs at 7nm node while meeting minimum IPS (inference per second). Moreover, we can realize substantial reduction in area (>=30%) owing to the small form factor of MRAM compared to traditional SRAM.
翻訳日:2023-03-29 19:55:40 公開日:2023-03-28
# DSCA: がん予後のための全スライディング画像ピラミッドをクロスアテンションしたデュアルストリームネットワーク

DSCA: A Dual-Stream Network with Cross-Attention on Whole-Slide Image Pyramids for Cancer Prognosis ( http://arxiv.org/abs/2206.05782v4 )

ライセンス: Link先を確認
Pei Liu, Bo Fu, Feng Ye, Rui Yang, Bin Xu, and Luping Ji(参考訳) ギガピクセル全スライド画像(WSI)のガン予後は、常に困難な課題である。 WSIの視覚的表現をさらに強化するため、既存の手法では単一解像度の画像ではなく、画像ピラミッドをWSIで探索している。 それにもかかわらず、彼らは高い計算コストと、マルチレゾリューション機能融合における意味的ギャップという2つの大きな問題に直面している。 このような問題に対処するために, クロスアテンション(DSCA)を用いた二ストリームネットワーク, 新たな視点からWSIピラミッドを効率的に利用することを提案する。 提案手法では,2つのサブストリームを用いて2つの解像度でwsiパッチを処理し,正方形プーリングを高分解能ストリームで考案し,計算コストを大幅に削減し,デュアルストリーム機能の融合を適切に処理するためのクロス・アテンション・ベースの手法を提案する。 1,911人の患者から3,101wsisの公開データセットをdscaで検証した。 我々の実験とアブレーションの研究は i)提案したDSCAは,C-Indexの平均改善率約4.6%により,がん予後における既存の最先端の手法より優れる可能性がある。 (ii)我々のdscaネットワークは計算効率が良く、従来のマルチレゾリューションネットワークに比べて学習可能なパラメータ(6.31m対860.18k)は少ないが、計算コストは2.51g対4.94g)である。 3) DSCA, デュアルストリーム, クロスアテンションのキーコンポーネントは, 比較的小さな計算負荷を維持しながら, 平均C-Indexの上昇率を約2.0%とすることで, モデルの性能に寄与する。 我々のDSCAは、WSIベースのがん予後の代替的で効果的なツールとなり得る。

The cancer prognosis on gigapixel Whole-Slide Images (WSIs) has always been a challenging task. To further enhance WSI visual representations, existing methods have explored image pyramids, instead of single-resolution images, in WSIs. In spite of this, they still face two major problems: high computational cost and the unnoticed semantical gap in multi-resolution feature fusion. To tackle these problems, this paper proposes to efficiently exploit WSI pyramids from a new perspective, the dual-stream network with cross-attention (DSCA). Our key idea is to utilize two sub-streams to process the WSI patches with two resolutions, where a square pooling is devised in a high-resolution stream to significantly reduce computational costs, and a cross-attention-based method is proposed to properly handle the fusion of dual-stream features. We validate our DSCA on three publicly-available datasets with a total number of 3,101 WSIs from 1,911 patients. Our experiments and ablation studies verify that (i) the proposed DSCA could outperform existing state-of-the-art methods in cancer prognosis, by an average C-Index improvement of around 4.6%; (ii) our DSCA network is more efficient in computation -- it has more learnable parameters (6.31M vs. 860.18K) but less computational costs (2.51G vs. 4.94G), compared to a typical existing multi-resolution network. (iii) the key components of DSCA, dual-stream and cross-attention, indeed contribute to our model's performance, gaining an average C-Index rise of around 2.0% while maintaining a relatively-small computational load. Our DSCA could serve as an alternative and effective tool for WSI-based cancer prognosis.
翻訳日:2023-03-29 19:55:22 公開日:2023-03-28
# ボソニック浴中における多体結合状態と荷電不純物の相互作用

Many-body bound states and induced interactions of charged impurities in a bosonic bath ( http://arxiv.org/abs/2206.03476v3 )

ライセンス: Link先を確認
G. E. Astrakharchik, L. A. Pe\~na Ardila, K. Jachymski and A. Negretti(参考訳) 量子媒体に浸漬した電荷キャリアの誘起相互作用と境界状態は、量子輸送の研究に不可欠である。 超低温原子イオンシステムは、この問題を研究するのに便利なプラットフォームを提供することができる。 本稿では,量子モンテカルロ法によるボソニック浴中におけるイオン性不純物の静的性質について検討する。 我々は、原子イオンポテンシャルの強さと2体境界状態の数に依存する3つの双極子状態、すなわち、中性不純物の対の状況に類似した摂動的状態、前者の準粒子特性を失う非摂動的状態、および2体ポテンシャルの有界状態の存在下でのみ生じる多体境界状態状態、を同定する。 さらに, 2つのイオンポーラロン間の強い入浴誘起相互作用を明らかにした。 この結果から,高相関不純物モデルの記述には数値シミュレーションが不可欠であることが示唆された。

Induced interactions and bound states of charge carriers immersed in a quantum medium are crucial for the investigation of quantum transport. Ultracold atom-ion systems can provide a convenient platform for studying this problem. Here, we investigate the static properties of one and two ionic impurities in a bosonic bath using quantum Monte Carlo methods. We identify three bipolaronic regimes depending on the strength of the atom-ion potential and the number of its two-body bound states: a perturbative regime resembling the situation of a pair of neutral impurities, a non-perturbative regime that loses the quasi-particle character of the former, and a many-body bound state regime that can arise only in the presence of a bound state in the two-body potential. We further reveal strong bath-induced interactions between the two ionic polarons. Our findings show that numerical simulations are indispensable for describing highly correlated impurity models.
翻訳日:2023-03-29 19:54:49 公開日:2023-03-28
# 擬似データに基づく自己監督型フェデレーション学習による病理像の分類

Pseudo-Data based Self-Supervised Federated Learning for Classification of Histopathological Images ( http://arxiv.org/abs/2205.15530v2 )

ライセンス: Link先を確認
Jun Shi, Yuanming Zhang, Zheng Li, Xiangmin Han, Saisai Ding, Jun Wang, Shihui Ying(参考訳) コンピュータ支援診断(CAD)は、がんに対する一貫性と再現性とともに、病理医が診断精度を向上させるのに役立つ。 しかし, 単一中心(ホスピタル)からのみ組織像で訓練したCADモデルは, 異なる中心間の歪みの不整合により, 一般に一般化問題に悩まされる。 本研究では,cadモデルの診断精度と一般化の両方を改善するために,擬似データに基づく自己教師付きフェデレーション学習(fl)フレームワークであるssl-ft-btを提案する。 具体的には、このセンターの実際の画像に対応する固有の特性と特定の特性を含むが、プライバシ情報は含まない、各センターから擬似病理像を生成する。 これらの擬似イメージは、自己教師付き学習(SSL)のために中央サーバで共有される。 マルチタスクSSLは、データ特性に応じて、センター固有の情報と共通の固有表現の両方を完全に学習するように設計される。 さらに,各中心におけるCADモデルの局所的訓練を改善するために,新たなバーロウツイン系FL(FL-BT)アルゴリズムを提案する。 3つの病理組織像データセットの実験結果から,SSL-FL-BTが診断精度および一般化に与える影響が示唆された。

Computer-aided diagnosis (CAD) can help pathologists improve diagnostic accuracy together with consistency and repeatability for cancers. However, the CAD models trained with the histopathological images only from a single center (hospital) generally suffer from the generalization problem due to the straining inconsistencies among different centers. In this work, we propose a pseudo-data based self-supervised federated learning (FL) framework, named SSL-FT-BT, to improve both the diagnostic accuracy and generalization of CAD models. Specifically, the pseudo histopathological images are generated from each center, which contains inherent and specific properties corresponding to the real images in this center, but does not include the privacy information. These pseudo images are then shared in the central server for self-supervised learning (SSL). A multi-task SSL is then designed to fully learn both the center-specific information and common inherent representation according to the data characteristics. Moreover, a novel Barlow Twins based FL (FL-BT) algorithm is proposed to improve the local training for the CAD model in each center by conducting contrastive learning, which benefits the optimization of the global model in the FL procedure. The experimental results on three public histopathological image datasets indicate the effectiveness of the proposed SSL-FL-BT on both diagnostic accuracy and generalization.
翻訳日:2023-03-29 19:54:32 公開日:2023-03-28
# 機械学習による四ビット交絡状態の分類

Classification of four-qubit entangled states via Machine Learning ( http://arxiv.org/abs/2205.11512v2 )

ライセンス: Link先を確認
S. V. Vintskevich, N. Bao, A. Nomerotski, P. Stankus, D.A. Grigoriev(参考訳) サポートベクターマシン (svm) アルゴリズムを適用し, 4量子状態の族における絡み合いパターンを同定するために, 絡み合い証人集合 (ew) を導出する。 実用EW実装におけるSVMの有効性は、等価な絡み合った量子状態の族を粗く記述することに由来する。 本研究における等価性基準は,確率的局所演算と古典的通信(SLOCC)分類と,四ビット交絡Werner状態の記述に基づく。 我々は,svmアプローチが,与えられた家族状態の粗粒度記述が利用可能である場合に,絡み合い証人問題に対処する効果的なツールであることを数値的に検証する。 また, 非線形カーネルsvm法の効率を, 4量子ビットエンタングル状態分類に適用して議論し, 実証する。

We apply the support vector machine (SVM) algorithm to derive a set of entanglement witnesses (EW) to identify entanglement patterns in families of four-qubit states. The effectiveness of SVM for practical EW implementations stems from the coarse-grained description of families of equivalent entangled quantum states. The equivalence criteria in our work is based on the stochastic local operations and classical communication (SLOCC) classification and the description of the four-qubit entangled Werner states. We numerically verify that the SVM approach provides an effective tool to address the entanglement witness problem when the coarse-grained description of a given family state is available. We also discuss and demonstrate the efficiency of nonlinear kernel SVM methods as applied to four-qubit entangled state classification.
翻訳日:2023-03-29 19:54:12 公開日:2023-03-28
# sept-angle合成波長干渉計

Swept-Angle Synthetic Wavelength Interferometry ( http://arxiv.org/abs/2205.10655v3 )

ライセンス: Link先を確認
Alankar Kotwal and Anat Levin and Ioannis Gkioulekas(参考訳) フルフィールドミクロンスケール3Dセンシングのための新しいイメージング技術であるスワップアングル合成波長干渉法を提案する。 従来の合成波長インターフェロメトリと同様に、2つの狭分割光学波長からなる光を使用し、その位相がシーン深度をエンコードするピクセル単位のインターフェロメトリー測定を行う。 さらに, 空間的に不連続な照明をエミュレートすることで, 干渉計測が収差や(サブ) 表面散乱に影響を受けず, 位相測定が損なうような新しいタイプの光源を用いる。 その結果得られた手法は、スキャニング干渉計の設定の破壊とフルフィールド干渉計の設定の速度とを組み合わせる。 総じて, 強い周囲光の下でも, フレームレート5Hz, 横方向および軸方向の分解能5μnで全フレーム深度を復元することができる。 実験的なプロトタイプを構築し、様々なオブジェクトをスキャンして、検査や製造における応用を表すオブジェクトや、難解な光散乱効果を含むオブジェクトを含む、これらの機能を実証する。

We present a new imaging technique, swept-angle synthetic wavelength interferometry, for full-field micron-scale 3D sensing. As in conventional synthetic wavelength interferometry, our technique uses light consisting of two narrowly-separated optical wavelengths, resulting in per-pixel interferometric measurements whose phase encodes scene depth. Our technique additionally uses a new type of light source that, by emulating spatially-incoherent illumination, makes interferometric measurements insensitive to aberrations and (sub)surface scattering, effects that corrupt phase measurements. The resulting technique combines the robustness to such corruptions of scanning interferometric setups, with the speed of full-field interferometric setups. Overall, our technique can recover full-frame depth at a lateral and axial resolution of 5 microns, at frame rates of 5 Hz, even under strong ambient light. We build an experimental prototype, and use it to demonstrate these capabilities by scanning a variety of objects, including objects representative of applications in inspection and fabrication, and objects that contain challenging light scattering effects.
翻訳日:2023-03-29 19:54:00 公開日:2023-03-28
# PointVector:ポイントクラウド分析におけるベクトル表現

PointVector: A Vector Representation In Point Cloud Analysis ( http://arxiv.org/abs/2205.10528v3 )

ライセンス: Link先を確認
Xin Deng, WenYu Zhang, Qing Ding, XinMing Zhang(参考訳) ポイントクラウド分析では,近年,ポイントベース手法が急速に発展している。 これらの手法は、最近、畳み込み構造やトランスフォーマー構造との競合性を実証したPointNeXtのような簡潔なMLP構造に焦点を当てている。 しかし、標準的なMLPは局所的な特徴を効果的に抽出する能力に制限されている。 この制限に対処するために,高次元ベクトルを通して隣接特徴を集約できるベクトル指向点集合抽象化を提案する。 ネットワーク最適化を容易にするために, 3次元ベクトル回転に基づく独立角度を用いたスカラーからベクトルへの変換を行う。 最後に、PointNeXtの構造に従うPointVectorモデルを開発する。 実験の結果,PointVector は S3DIS Area 5 上で,S3DIS 上では $\textbf{72.3\% mIOU}$,S3DIS では $\textbf{78.4\% mIOU}$,PointNeXt のモデルパラメータでは $\textbf{58\%}$ しか得られていないことがわかった。 私たちの仕事が,簡潔で効果的な機能表現の探求に役立てることを願っています。 コードはまもなくリリースされる。

In point cloud analysis, point-based methods have rapidly developed in recent years. These methods have recently focused on concise MLP structures, such as PointNeXt, which have demonstrated competitiveness with Convolutional and Transformer structures. However, standard MLPs are limited in their ability to extract local features effectively. To address this limitation, we propose a Vector-oriented Point Set Abstraction that can aggregate neighboring features through higher-dimensional vectors. To facilitate network optimization, we construct a transformation from scalar to vector using independent angles based on 3D vector rotations. Finally, we develop a PointVector model that follows the structure of PointNeXt. Our experimental results demonstrate that PointVector achieves state-of-the-art performance $\textbf{72.3\% mIOU}$ on the S3DIS Area 5 and $\textbf{78.4\% mIOU}$ on the S3DIS (6-fold cross-validation) with only $\textbf{58\%}$ model parameters of PointNeXt. We hope our work will help the exploration of concise and effective feature representations. The code will be released soon.
翻訳日:2023-03-29 19:53:40 公開日:2023-03-28
# 住宅短期負荷予測のためのセキュアなフェデレーション学習フレームワーク

A Secure Federated Learning Framework for Residential Short Term Load Forecasting ( http://arxiv.org/abs/2209.14547v2 )

ライセンス: Link先を確認
Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood and Robin Doss(参考訳) スマートメータの測定は、正確な需要予測には不可欠だが、消費者のプライバシー、データ漏洩問題などいくつかの欠点に直面している。 近年の文献では、フェデレートラーニング(FL)を、短期的な負荷予測のためにプライベートな生データを公開することなく、モデルの協調学習を可能にする、将来性のあるプライバシー保護機械学習代替手段として検討している。 その美徳にもかかわらず、スタンダードflは、欠陥および/または悪意のあるクライアントによって実行されるビザンチン攻撃として知られる難解なサイバー脅威に対して依然として脆弱である。 したがって、ビザンチン脅威に対するフェデレートされた短期的負荷予測のロバスト性を向上させるため、我々は、flモデルとアーキテクチャのセキュリティを保護しつつ、個々のスマートメータのデータのプライバシを保証する、最先端のプライベートなflベースのフレームワークを開発した。 提案手法では,局所モデルトレーニング後に,クライアントが勾配の「符号」のみを制御センタに送信するサイン確率勾配降下(signsgd)アルゴリズムを用いて,勾配量子化の考え方を活用している。 ベンチマークニューラルネットワークと一連のビザンチン攻撃モデルを用いた実験で強調したように、提案手法はそのような脅威を効果的に軽減し、従来のFed-SGDモデルより優れている。

Smart meter measurements, though critical for accurate demand forecasting, face several drawbacks including consumers' privacy, data breach issues, to name a few. Recent literature has explored Federated Learning (FL) as a promising privacy-preserving machine learning alternative which enables collaborative learning of a model without exposing private raw data for short term load forecasting. Despite its virtue, standard FL is still vulnerable to an intractable cyber threat known as Byzantine attack carried out by faulty and/or malicious clients. Therefore, to improve the robustness of federated short-term load forecasting against Byzantine threats, we develop a state-of-the-art differentially private secured FL-based framework that ensures the privacy of the individual smart meter's data while protect the security of FL models and architecture. Our proposed framework leverages the idea of gradient quantization through the Sign Stochastic Gradient Descent (SignSGD) algorithm, where the clients only transmit the `sign' of the gradient to the control centre after local model training. As we highlight through our experiments involving benchmark neural networks with a set of Byzantine attack models, our proposed approach mitigates such threats quite effectively and thus outperforms conventional Fed-SGD models.
翻訳日:2023-03-29 19:47:33 公開日:2023-03-28
# 安全・共安全言語の一階述語論理

A first-order logic characterization of safety and co-safety languages ( http://arxiv.org/abs/2209.02307v3 )

ライセンス: Link先を確認
Alessandro Cimatti and Luca Geatti and Nicola Gigante and Angelo Montanari and Stefano Tonetta(参考訳) LTL(Linear Temporal Logic)は、コンピュータ科学の様々な分野において、最も一般的な時間論理の1つである。 LTL は反自由オメガオートマタ、星のないオメガ正規表現、(カンプの定理により)一階線形順序理論(FO-TLO)と等価である。 安全性(safety)とコセーフティ(co-safety)言語は、単語がそれぞれ言語に属さないか属さないかを確立するために有限プレフィックスが十分であり、モデル検査やltlのリアクティブ合成のような問題の複雑さを低下させる上で重要な役割を果たす。 SafetyLTL (resp., coSafetyLTL) はLTLの断片であり、安全(resp., co-safety)言語のみを認識する普遍的(resp., existential)時間的モダリティのみを許容する。 この論文の主な貢献は、safetyfoと呼ばれるfo-tloの断片と、ltl-definable safetyとco-safety languageに関して表現的に完結した2つのcosafetyfoの導入である。 我々は,これらがそれぞれSafetyLTLとcoSafetyLTLを正確に特徴付けることを証明し,その結果がカンプの定理に一致することを証明し,一階言語の観点からLTLの特徴付け(フラグメント)をより明確にする。 さらに、ltlで定義可能な安全言語がsafetyltlでも定義可能であることを直接的でコンパクトで自己完結した証明を与える。 副産物として,有限語および無限語で解釈された,明日の弱作用素SafetyLTLの表現力に関する興味深い結果が得られる。 さらに、有限語を解釈すると、明日の(弱明日)演算子を欠いたsafetyltl (resp. cosafetyltl) が有限語上のltlの安全(resp., co-safety)フラグメントをキャプチャする。

Linear Temporal Logic (LTL) is one of the most popular temporal logics, that comes into play in a variety of branches of computer science. Among the various reasons of its widespread use there are its strong foundational properties: LTL is equivalent to counter-free omega-automata, to star-free omega-regular expressions, and (by Kamp's theorem) to the First-Order Theory of Linear Orders (FO-TLO). Safety and co-safety languages, where a finite prefix suffices to establish whether a word does not belong or belongs to the language, respectively, play a crucial role in lowering the complexity of problems like model checking and reactive synthesis for LTL. SafetyLTL (resp., coSafetyLTL) is a fragment of LTL where only universal (resp., existential) temporal modalities are allowed, that recognises safety (resp., co-safety) languages only. The main contribution of this paper is the introduction of a fragment of FO-TLO, called SafetyFO, and of its dual coSafetyFO, which are expressively complete with respect to the LTL-definable safety and co-safety languages. We prove that they exactly characterize SafetyLTL and coSafetyLTL, respectively, a result that joins Kamp's theorem, and provides a clearer view of the characterization of (fragments of) LTL in terms of first-order languages. In addition, it gives a direct, compact, and self-contained proof that any safety language definable in LTL is definable in SafetyLTL as well. As a by-product, we obtain some interesting results on the expressive power of the weak tomorrow operator of SafetyLTL, interpreted over finite and infinite words. Moreover, we prove that, when interpreted over finite words, SafetyLTL (resp. coSafetyLTL) devoid of the tomorrow (resp., weak tomorrow) operator captures the safety (resp., co-safety) fragment of LTL over finite words.
翻訳日:2023-03-29 19:46:45 公開日:2023-03-28
# consistent-teacher:半教師付き物体検出における一貫性のない疑似目標の削減に向けて

Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection ( http://arxiv.org/abs/2209.01589v3 )

ライセンス: Link先を確認
Xinjiang Wang, Xingyi Yang, Shilong Zhang, Yijiang Li, Litong Feng, Shijie Fang, Chengqi Lyu, Kai Chen, Wayne Zhang(参考訳) 本研究では,半教師対象検出(SSOD)における疑似目標の不整合を深く掘り下げる。 我々の中核的な観察は、振動する擬似ターゲットが正確な検出器の訓練を損なうことである。 生徒のトレーニングにノイズを注入し、深刻な過度な問題を引き起こす。 そこで我々は,一貫性を損なうための体系的な解法であるconsistentteacherを提案する。 まず、適応アンカー代入~(ASA)は静的IoUベースの戦略を代用し、学生ネットワークはノイズの多い疑似バウンディングボックスに耐性を持つ。 次に,3次元特徴アライメントモジュール~(FAM-3D)を設計することにより,サブタスク予測の校正を行う。 これにより、各分類機能は任意のスケールと位置で回帰タスクの最適な特徴ベクトルを適応的にクエリできる。 最後に、ガウス混合モデル(GMM)は、擬似ボックスのスコア閾値を動的に修正し、早期の地上真実数を安定化し、訓練中に信頼できない監視信号を修正する。 ConsistentTeacherは、幅広いSSOD評価に対して強力な結果を提供する。 ResNet-50のバックボーンで40.0mAPを達成し、注釈付きMS-COCOデータの10%しか与えられていない。 完全な注釈付きMS-COCOにラベルなしのデータを追加すると、パフォーマンスはさらに47.7 mAPに向上する。 私たちのコードは \url{https://github.com/Adamdad/ConsistentTeacher} で利用可能です。

In this study, we dive deep into the inconsistency of pseudo targets in semi-supervised object detection (SSOD). Our core observation is that the oscillating pseudo-targets undermine the training of an accurate detector. It injects noise into the student's training, leading to severe overfitting problems. Therefore, we propose a systematic solution, termed ConsistentTeacher, to reduce the inconsistency. First, adaptive anchor assignment~(ASA) substitutes the static IoU-based strategy, which enables the student network to be resistant to noisy pseudo-bounding boxes. Then we calibrate the subtask predictions by designing a 3D feature alignment module~(FAM-3D). It allows each classification feature to adaptively query the optimal feature vector for the regression task at arbitrary scales and locations. Lastly, a Gaussian Mixture Model (GMM) dynamically revises the score threshold of pseudo-bboxes, which stabilizes the number of ground truths at an early stage and remedies the unreliable supervision signal during training. ConsistentTeacher provides strong results on a large range of SSOD evaluations. It achieves 40.0 mAP with ResNet-50 backbone given only 10% of annotated MS-COCO data, which surpasses previous baselines using pseudo labels by around 3 mAP. When trained on fully annotated MS-COCO with additional unlabeled data, the performance further increases to 47.7 mAP. Our code is available at \url{https://github.com/Adamdad/ConsistentTeacher}.
翻訳日:2023-03-29 19:45:59 公開日:2023-03-28
# エンコード強化:トレーニングラベルのエンコードによる新しいアンバランスな分類手法

Enhancement Encoding: A Novel Imbalanced Classification Approach via Encoding the Training Labels ( http://arxiv.org/abs/2208.11056v2 )

ライセンス: Link先を確認
Jia-Chen Zhao(参考訳) クラス不均衡(クラス不均衡)は、機械学習に基づく分類タスクにおいて一般的な問題である。 もしそうなれば、マイノリティデータは多数派に圧倒され、データサイエンスにとってかなりの課題となる。 クラス不均衡問題に対処するため、研究者は、データセットをバランスよくする(SMOTE)、損失関数を洗練させる(Focal Loss)、ラベルの価値がクラス不均衡学習に影響を与えることに気付いた(YangとXu)、といった方法も提案されている。また、クラス不均衡学習を改善するためのラベルの価値を再考する。NeurIPS 2020では、まだラベルをエンコードする方法は変更されていない。 現在、ラベルをエンコードする最も一般的なテクニックは、一般的な状況でパフォーマンスが良いため、ワンホットエンコーディングである。 しかし、分類器は多数派と少数派のサンプルを等しく扱うので、不均衡なデータには適さない。 本稿では,不均衡分類のために特別に設計されたエンハンスエンコーディング手法を革新的に提案する。 エンコーディングの強化は、再重み付けとコスト感受性を組み合わせることで、ハードクラスとマイノリティークラスの違いを反映することができる。 検証サンプルの数と計算コストを削減するため,より小さな検証セットでよりよく動作する新しいソフトコンフュージョンマトリックスを混同行列に置き換える。 実験では,3種類の損失を伴うエンハンスメント符号化の評価を行った。 また,エンハンスエンコーディングは,不均衡データでトレーニングしたネットワークの性能を向上させるのに非常に有効であることを示した。 特に、マイノリティクラスのパフォーマンスはずっと良いです。

Class imbalance, which is also called long-tailed distribution, is a common problem in classification tasks based on machine learning. If it happens, the minority data will be overwhelmed by the majority, which presents quite a challenge for data science. To address the class imbalance problem, researchers have proposed lots of methods: some people make the data set balanced (SMOTE), some others refine the loss function (Focal Loss), and even someone has noticed the value of labels influences class-imbalanced learning (Yang and Xu. Rethinking the value of labels for improving class-imbalanced learning. In NeurIPS 2020), but no one changes the way to encode the labels of data yet. Nowadays, the most prevailing technique to encode labels is the one-hot encoding due to its nice performance in the general situation. However, it is not a good choice for imbalanced data, because the classifier will treat majority and minority samples equally. In this paper, we innovatively propose the enhancement encoding technique, which is specially designed for the imbalanced classification. The enhancement encoding combines re-weighting and cost-sensitiveness, which can reflect the difference between hard and easy (or minority and majority) classes. To reduce the number of validation samples and the computation cost, we also replace the confusion matrix with a novel soft-confusion matrix which works better with a small validation set. In the experiments, we evaluate the enhancement encoding with three different types of loss. And the results show that enhancement encoding is very effective to improve the performance of the network trained with imbalanced data. Particularly, the performance on minority classes is much better.
翻訳日:2023-03-29 19:45:15 公開日:2023-03-28
# スターク多体局在による離散時間結晶

Discrete time crystal enabled by Stark many-body localization ( http://arxiv.org/abs/2208.02866v2 )

ライセンス: Link先を確認
Shuo Liu, Shi-Xin Zhang, Chang-Yu Hsieh, Shengyu Zhang, and Hong Yao(参考訳) 離散時間結晶(DTC)は近年注目されているが、ほとんどのDTCモデルとその特性は障害平均後にのみ明らかにされている。 本稿では,スターク多体ローカライゼーション(MBL)により安定化された非自明なDTC順序を示す単純な障害のない周期駆動モデルを提案する。 摂動論の解析的解析と観測力学からの数値的証拠の説得により,dtc相の存在を実証する。 新しいDTCモデルは、さらなる実験を行い、DTCの理解を深めるための新しい有望な方法を舗装する。 DTCオーダーは特別な量子状態の準備や強い障害平均を必要としないため、資源や繰り返しの少ないノイズの多い中間スケール量子(NISQ)ハードウェアで自然に実現することができる。 さらに、ロバストなサブハーモニック応答に加えて、ランダムまたは準周期的なMBL DTCに欠けるスターク-MBL DTC相には、他の新しい強震動振動が存在する。

Discrete time crystal (DTC) has recently attracted increasing attention, but most DTC models and their properties are only revealed after disorder average. In this Letter, we propose a simple disorder-free periodically driven model that exhibits nontrivial DTC order stabilized by Stark many-body localization (MBL). We demonstrate the existence of DTC phase by analytical analysis from perturbation theory and convincing numerical evidence from observable dynamics. The new DTC model paves a new promising way for further experiments and deepens our understanding of DTC. Since the DTC order doesn't require special quantum state preparation and the strong disorder average, it can be naturally realized on the noisy intermediate-scale quantum (NISQ) hardware with much fewer resources and repetitions. Moreover, besides the robust subharmonic response, there are other novel robust beating oscillations in Stark-MBL DTC phase which are absent in random or quasi-periodic MBL DTC.
翻訳日:2023-03-29 19:44:43 公開日:2023-03-28
# 散逸性予熱離散時間結晶

Dissipative prethermal discrete time crystal ( http://arxiv.org/abs/2208.01055v3 )

ライセンス: Link先を確認
DinhDuy Vu, Sankar Das Sarma(参考訳) 外部周期駆動を受けるエルゴード系は、一般に無限温度に加熱される。 しかし、適用周波数が局所ハミルトニアンの典型的なエネルギースケールよりも大きい場合、この加熱は周波数に指数関数的に広がる熱前の期間で停止する。 この熱前周期の間、系は自発的に破れれば離散時間結晶(dtc)のサブハーモニック振動を起こす創発的対称性を示すかもしれない。 熱前dtcの生存時間における散逸の役割について検討した。 一方、入浴カップリングは、予熱を阻害するエラーの蓄積を遅くすることで、予熱周期を増大させる。 一方,自然対称性の破れは環境との相互作用によって不安定化する。 この競合の結果は非単調な変動であり、すなわち、予熱DTCの生存時間が最初に増加し、環境結合が強くなるにつれて減少する。

An ergodic system subjected to an external periodic drive will be generically heated to infinite temperature. However, if the applied frequency is larger than the typical energy scale of the local Hamiltonian, this heating stops during a prethermal period that extends exponentially with the frequency. During this prethermal period, the system may manifest an emergent symmetry that, if spontaneously broken, will produce sub-harmonic oscillation of the discrete time crystal (DTC). We study the role of dissipation on the survival time of the prethermal DTC. On one hand, a bath coupling increases the prethermal period by slowing down the accumulation of errors that eventually destroy prethermalization. On the other hand, the spontaneous symmetry breaking is destabilized by interaction with environment. The result of this competition is a non-monotonic variation, i.e. the survival time of the prethermal DTC first increases and then decreases as the environment coupling gets stronger.
翻訳日:2023-03-29 19:44:26 公開日:2023-03-28
# Task Phasing: デモから学ぶカリキュラムの自動化

Task Phasing: Automated Curriculum Learning from Demonstrations ( http://arxiv.org/abs/2210.10999v2 )

ライセンス: Link先を確認
Vaibhav Bajaj, Guni Sharon, Peter Stone(参考訳) 報酬領域のスパースに強化学習(RL)を適用することは、ガイド信号が不十分なため、非常に難しい。 このようなドメインに対処する一般的なRL技術には、(1)実演からの学習、(2)カリキュラム学習がある。 これら2つのアプローチは詳細に研究されているが、共に検討されることはめったにない。 本稿では,実演を用いてカリキュラム列を自動的に生成する原則付きタスクファッシング手法を導入することで,その実現を目指す。 証明から逆 RL を用いることで、簡単な初期タスクを定義します。 タスク処理アプローチは、各処理イテレーションでRLエージェントを調整しながら、目標タスクまでタスクの複雑さを徐々に増加させるフレームワークを提供します。 1) rlエージェントが制御している時間ステップの割合を徐々に増加させ, (2) 誘導的情報報酬関数を強調する2つのアプローチが検討されている。 最適政策へのこれらのアプローチの収束を保証する条件を提案する。 3つのスパース報酬領域に対する実験結果から,我々の課題処理アプローチは漸近的パフォーマンスに関して最先端のアプローチより優れていることが示された。

Applying reinforcement learning (RL) to sparse reward domains is notoriously challenging due to insufficient guiding signals. Common RL techniques for addressing such domains include (1) learning from demonstrations and (2) curriculum learning. While these two approaches have been studied in detail, they have rarely been considered together. This paper aims to do so by introducing a principled task phasing approach that uses demonstrations to automatically generate a curriculum sequence. Using inverse RL from (suboptimal) demonstrations we define a simple initial task. Our task phasing approach then provides a framework to gradually increase the complexity of the task all the way to the target task, while retuning the RL agent in each phasing iteration. Two approaches for phasing are considered: (1) gradually increasing the proportion of time steps an RL agent is in control, and (2) phasing out a guiding informative reward function. We present conditions that guarantee the convergence of these approaches to an optimal policy. Experimental results on 3 sparse reward domains demonstrate that our task phasing approaches outperform state-of-the-art approaches with respect to asymptotic performance.
翻訳日:2023-03-29 19:38:39 公開日:2023-03-28
# 非安全領域の安全バイアス近似のための放射基底ニューラルネットワークの幾何学

Geometry of Radial Basis Neural Networks for Safety Biased Approximation of Unsafe Regions ( http://arxiv.org/abs/2210.05596v2 )

ライセンス: Link先を確認
Ahmad Abuaish, Mohit Srinivasan, Patricio A. Vela(参考訳) バリア関数に基づく不等式制約は、制御システムの安全仕様を強制する手段である。 凸最適化プログラムと併用すると、一般的な制御アフィンシステムの安全性を強制する計算効率の良い方法が提供される。 このアプローチをとる際の主要な仮定の1つは障壁関数自体の事前知識、すなわち安全な集合の知識である。 局所安全集合が時間とともに進化する未知の環境を通るナビゲーションの文脈では、そのような知識は存在しない。 この原稿は、ナビゲーションアプリケーションにおける知覚データから、安全で安全でないサンプル測定に基づいて安全なセットを特徴付けるゼロリングバリア関数の合成に焦点を当てている。 先行研究は、特定のレベルセット特性を持つゼロリングバリア関数の構築を保証した教師付き機械学習アルゴリズムを定式化した。 しかし、合成プロセスに使用されるニューラルネットワーク設計の幾何学を探求することはなかった。 この原稿は、障壁関数のゼロ化に使用されるニューラルネットワークの特定の形状を記述し、ネットワークが状態空間を安全で安全でない領域に分割するために必要な表現を提供する方法を示している。

Barrier function-based inequality constraints are a means to enforce safety specifications for control systems. When used in conjunction with a convex optimization program, they provide a computationally efficient method to enforce safety for the general class of control-affine systems. One of the main assumptions when taking this approach is the a priori knowledge of the barrier function itself, i.e., knowledge of the safe set. In the context of navigation through unknown environments where the locally safe set evolves with time, such knowledge does not exist. This manuscript focuses on the synthesis of a zeroing barrier function characterizing the safe set based on safe and unsafe sample measurements, e.g., from perception data in navigation applications. Prior work formulated a supervised machine learning algorithm whose solution guaranteed the construction of a zeroing barrier function with specific level-set properties. However, it did not explore the geometry of the neural network design used for the synthesis process. This manuscript describes the specific geometry of the neural network used for zeroing barrier function synthesis, and shows how the network provides the necessary representation for splitting the state space into safe and unsafe regions.
翻訳日:2023-03-29 19:37:28 公開日:2023-03-28
# 1つのトランスフォーマーは2Dと3Dの分子データの両方を理解できる

One Transformer Can Understand Both 2D & 3D Molecular Data ( http://arxiv.org/abs/2210.01765v4 )

ライセンス: Link先を確認
Shengjie Luo, Tianlang Chen, Yixian Xu, Shuxin Zheng, Tie-Yan Liu, Liwei Wang, Di He(参考訳) 通常独自の形式を持つ視覚や言語データとは異なり、分子は異なる化学式を用いて自然に特徴付けられる。 分子を2次元グラフと見なすこともできるし、3次元空間にある原子の集まりと定義することもできる。 分子表現学習のために、ほとんどの先行研究はニューラルネットワークを特定のデータ形式のみのために設計しており、学習されたモデルは他のデータ形式では失敗する可能性が高い。 化学のための汎用ニューラルネットワークモデルは、データモダリティを越えて分子タスクを処理できるべきだと考えています。 そこで本研究では, 2次元および3次元の分子データを入力として, 意味的意味表現を生成するトランスフォーマ1分子モデルであるtransformer-mを開発した。 Transformer-M は標準的な Transformer をバックボーンアーキテクチャとして使用し、2D と 3D の構造情報をエンコードし、それらをネットワークモジュールの原子機能に組み込む2つの分離チャネルを開発した。 入力データが特定のフォーマットにある場合、対応するチャネルがアクティベートされ、もう一方が無効になる。 適切に設計された教師付き信号で2Dおよび3D分子データをトレーニングすることにより、Transformer-Mは、異なるデータモダリティからの知識を活用して、表現を正しくキャプチャする。 我々はtransformer-mの広範な実験を行った。 実験結果から,Transformer-Mは2次元および3次元のタスクに対して高い性能を同時に達成できることが示唆された。 コードとモデルはhttps://github.com/lsj2408/Transformer-Mで公開される。

Unlike vision and language data which usually has a unique format, molecules can naturally be characterized using different chemical formulations. One can view a molecule as a 2D graph or define it as a collection of atoms located in a 3D space. For molecular representation learning, most previous works designed neural networks only for a particular data format, making the learned models likely to fail for other data formats. We believe a general-purpose neural network model for chemistry should be able to handle molecular tasks across data modalities. To achieve this goal, in this work, we develop a novel Transformer-based Molecular model called Transformer-M, which can take molecular data of 2D or 3D formats as input and generate meaningful semantic representations. Using the standard Transformer as the backbone architecture, Transformer-M develops two separated channels to encode 2D and 3D structural information and incorporate them with the atom features in the network modules. When the input data is in a particular format, the corresponding channel will be activated, and the other will be disabled. By training on 2D and 3D molecular data with properly designed supervised signals, Transformer-M automatically learns to leverage knowledge from different data modalities and correctly capture the representations. We conducted extensive experiments for Transformer-M. All empirical results show that Transformer-M can simultaneously achieve strong performance on 2D and 3D tasks, suggesting its broad applicability. The code and models will be made publicly available at https://github.com/lsj2408/Transformer-M.
翻訳日:2023-03-29 19:37:09 公開日:2023-03-28
# 平面深度:直交平面による自己監督深度推定

PlaneDepth: Self-supervised Depth Estimation via Orthogonal Planes ( http://arxiv.org/abs/2210.01612v3 )

ライセンス: Link先を確認
Ruoyu Wang, Zehao Yu and Shenghua Gao(参考訳) 複数の前頭平行面に基づく深度表現は、自己教師付き単眼深度推定(MDE)において顕著な結果を示した。 一方、このような表現は、前方-平行平面に垂直な地面の不連続性を引き起こし、これは自律運転における乾燥可能な空間の同定に有害である。 本稿では,垂直平面と接地平面を含む,新しい直交平面に基づくプレゼンテーションであるplanedepthを提案する。 平面Depthは入力画像の直交平面に基づくラプラシアン混合モデルを用いて深度分布を推定する。 これらの平面は、自己超越信号を提供するために参照ビューを合成するために使用される。 さらに,広範に使用されるリサイズおよびクロッピングデータ拡張が直交性仮定を損なうことから,平面予測が劣ることがわかった。 本稿では,事前定義された平面と予測カメラのポーズを補正するために,再サイズトリミング変換を明示的に構築することでこの問題に対処する。 さらに, 咬合面表現のロバスト性を高めるため, 両側咬合マスクを併用した拡張自己蒸留損失法を提案する。 直交平面の表現により、無人運転において重要な、教師なしの方法で地上平面を抽出することができる。 KITTIデータセットの大規模な実験により,本手法の有効性と有効性を示した。 コードはhttps://github.com/svip-lab/planedepthで入手できる。

Multiple near frontal-parallel planes based depth representation demonstrated impressive results in self-supervised monocular depth estimation (MDE). Whereas, such a representation would cause the discontinuity of the ground as it is perpendicular to the frontal-parallel planes, which is detrimental to the identification of drivable space in autonomous driving. In this paper, we propose the PlaneDepth, a novel orthogonal planes based presentation, including vertical planes and ground planes. PlaneDepth estimates the depth distribution using a Laplacian Mixture Model based on orthogonal planes for an input image. These planes are used to synthesize a reference view to provide the self-supervision signal. Further, we find that the widely used resizing and cropping data augmentation breaks the orthogonality assumptions, leading to inferior plane predictions. We address this problem by explicitly constructing the resizing cropping transformation to rectify the predefined planes and predicted camera pose. Moreover, we propose an augmented self-distillation loss supervised with a bilateral occlusion mask to boost the robustness of orthogonal planes representation for occlusions. Thanks to our orthogonal planes representation, we can extract the ground plane in an unsupervised manner, which is important for autonomous driving. Extensive experiments on the KITTI dataset demonstrate the effectiveness and efficiency of our method. The code is available at https://github.com/svip-lab/PlaneDepth.
翻訳日:2023-03-29 19:36:42 公開日:2023-03-28
# LPT:画像分類のための長い尾のプロンプトチューニング

LPT: Long-tailed Prompt Tuning for Image Classification ( http://arxiv.org/abs/2210.01033v2 )

ライセンス: Link先を確認
Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo(参考訳) ロングテール分類の場合、ほとんどの作業は大規模データセット上で大きなモデルを事前トレーニングし、ロングテールデータへの適応のためにモデル全体を微調整する。 有望ではあるが、事前訓練されたモデル全体の微調整は、異なるタスクのための異なるモデルの計算とデプロイのコストが高く、長い尾を持つデータの特定の特徴に過度に適合する一般化能力が弱まる傾向にある。 これらの問題を緩和するために、長い尾の分類に有効な長尾のプロンプトチューニング法を提案する。 lptは、複数のトレーニング可能なプロンプトを凍結した事前学習モデルに導入して、ロングテールデータに適応させる。 より良い効果を得るために、プロンプトを2つのグループに分けます。 1)ロングテールデータセット全体の共有プロンプトは、一般的な特徴を学習し、事前訓練されたモデルを対象領域に適応させる。 2) 類似した特徴を持つサンプルに対してグループ固有の特徴を収集し, 識別能力を有する事前学習モデルの強化を図る。 そして、これらのプロンプトを学習するための2段階の訓練パラダイムを設計する。 フェーズ1では、教師付きプロンプトチューニングを通じて共有プロンプトをトレーニングし、事前訓練されたモデルを所望の長尾領域に適応させる。 第2相では、学習した共有プロンプトをクエリとして使用し、グループ固有のプロンプトセットから、類似したサンプルの小さなベストマッチセットを選択して、類似するサンプルの共通特徴を掘り下げ、これらのプロンプトを二重サンプリング戦略と非対称GCL損失で最適化する。 事前訓練されたモデルの修正中にいくつかのプロンプトを微調整するだけで、LPTはいくつかのプロンプトを格納することでトレーニングとデプロイメントのコストを削減し、事前訓練されたモデルの強力な一般化能力を享受できる。 実験によれば、ロングテールの様々なベンチマークでは、パラメータがわずか1.1%で、lptは以前のモデル全体の微調整方法と同等の性能を達成し、ドメインシフトよりも堅牢である。

For long-tailed classification, most works often pretrain a big model on a large-scale dataset, and then fine-tune the whole model for adapting to long-tailed data. Though promising, fine-tuning the whole pretrained model tends to suffer from high cost in computation and deployment of different models for different tasks, as well as weakened generalization ability for overfitting to certain features of long-tailed data. To alleviate these issues, we propose an effective Long-tailed Prompt Tuning method for long-tailed classification. LPT introduces several trainable prompts into a frozen pretrained model to adapt it to long-tailed data. For better effectiveness, we divide prompts into two groups: 1) a shared prompt for the whole long-tailed dataset to learn general features and to adapt a pretrained model into target domain; and 2) group-specific prompts to gather group-specific features for the samples which have similar features and also to empower the pretrained model with discrimination ability. Then we design a two-phase training paradigm to learn these prompts. In phase 1, we train the shared prompt via supervised prompt tuning to adapt a pretrained model to the desired long-tailed domain. In phase 2, we use the learnt shared prompt as query to select a small best matched set for a group of similar samples from the group-specific prompt set to dig the common features of these similar samples, then optimize these prompts with dual sampling strategy and asymmetric GCL loss. By only fine-tuning a few prompts while fixing the pretrained model, LPT can reduce training and deployment cost by storing a few prompts, and enjoys a strong generalization ability of the pretrained model. Experiments show that on various long-tailed benchmarks, with only ~1.1% extra parameters, LPT achieves comparable performance than previous whole model fine-tuning methods, and is more robust to domain-shift.
翻訳日:2023-03-29 19:36:22 公開日:2023-03-28
# 多視点変分オートエンコーダを用いた多視点情報融合による大腿骨近位強度の予測

Multi-view information fusion using multi-view variational autoencoders to predict proximal femoral strength ( http://arxiv.org/abs/2210.00674v2 )

ライセンス: Link先を確認
Chen Zhao, Joyce H Keyak, Xuewei Cao, Qiuying Sha, Li Wu, Zhe Luo, Lanjuan Zhao, Qing Tian, Chuan Qiu, Ray Su, Hui Shen, Hong-Wen Deng, Weihua Zhou(参考訳) 本研究の目的は,多視点情報融合を用いた大腿骨近位強度予測のための深層学習モデルの設計である。 方法: 特徴表現学習のための多視点変分オートエンコーダ(MVAE)と多視点情報融合のための専門家モデル(PoE)を用いた新しいモデルを開発した。 提案モデルは, アフリカ系アメリカ人345名, 白人586名を含む, 男性931名を対象に, ルイジアナ州で実施したosteporosis study (los) に応用した。 ガウス分布の積の解析解を用いて、設計したMVAE-PoEモデルをトレーニングし、一般的な潜在特徴抽出を行う。 近位大腿部強度と統合全ゲノム配列(wgs)の特徴とdxa由来の画像特徴から最下位のp値を持つ256種類の遺伝子変異を選定し,近位大腿部強度を予測するためにゲノムワイド関連研究(gwas)を行った。 結果: 落下破壊荷重の最適予測モデルは, wgs機能とdxa画像機能の統合により得られた。 設計されたモデルでは, 転倒荷重の線形モデル, 転倒荷重の非線形モデル, 転倒荷重の非線形モデルを用いて大腿骨近位部荷重の予測に平均18.04%, 6.84%, 7.95%の絶対誤差を達成した。 既存のマルチビュー情報融合法と比較して,提案手法は最適性能を得た。 結論: 提案モデルでは, WGS特徴とDXA像を用いた大腿骨近位部強度の予測が可能であった。 qct画像を用いたfeaに代わるものではないが、qctによる放射線量の増加や臨床費用の増大を回避しつつ、より広く大腿骨骨折リスクの評価を改善することができる。

The aim of this paper is to design a deep learning-based model to predict proximal femoral strength using multi-view information fusion. Method: We developed new models using multi-view variational autoencoder (MVAE) for feature representation learning and a product of expert (PoE) model for multi-view information fusion. We applied the proposed models to an in-house Louisiana Osteoporosis Study (LOS) cohort with 931 male subjects, including 345 African Americans and 586 Caucasians. With an analytical solution of the product of Gaussian distribution, we adopted variational inference to train the designed MVAE-PoE model to perform common latent feature extraction. We performed genome-wide association studies (GWAS) to select 256 genetic variants with the lowest p-values for each proximal femoral strength and integrated whole genome sequence (WGS) features and DXA-derived imaging features to predict proximal femoral strength. Results: The best prediction model for fall fracture load was acquired by integrating WGS features and DXA-derived imaging features. The designed models achieved the mean absolute percentage error of 18.04%, 6.84% and 7.95% for predicting proximal femoral fracture loads using linear models of fall loading, nonlinear models of fall loading, and nonlinear models of stance loading, respectively. Compared to existing multi-view information fusion methods, the proposed MVAE-PoE achieved the best performance. Conclusion: The proposed models are capable of predicting proximal femoral strength using WGS features and DXA-derived imaging features. Though this tool is not a substitute for FEA using QCT images, it would make improved assessment of hip fracture risk more widely available while avoiding the increased radiation dosage and clinical costs from QCT.
翻訳日:2023-03-29 19:35:45 公開日:2023-03-28
# FINDE:不変量の探索と保存のためのニューラルネットワーク微分方程式

FINDE: Neural Differential Equations for Finding and Preserving Invariant Quantities ( http://arxiv.org/abs/2210.00272v2 )

ライセンス: Link先を確認
Takashi Matsubara, Takaharu Yaguchi(参考訳) 多くの実世界の力学系は、時間とともに変化しない量である第一積分(すなわち不変量)と関連している。 第一積分の発見と理解は、自然科学と産業応用の両方において、基本的で重要なトピックである。 第一積分は系エネルギー、運動量、質量の保存則と状態の制約から生じ、これらは典型的には支配方程式の特定の幾何学的構造に関係している。 このような最初の積分を保証するために設計された既存のニューラルネットワークは、データからのモデリングにおいて優れた精度を示している。 しかしながら、これらのモデルには基盤構造が含まれており、ニューラルネットワークが未知のシステムを学ぶほとんどの状況では、これらの構造も未知である。 この制限は未知のシステムの科学的発見とモデリングのために克服する必要がある。 そこで本研究では,第一積分保存型ニューラル微分方程式(FINDE)を提案する。 プロジェクション法と離散勾配法を利用して、FINDEは基礎構造に関する事前の知識がなくても、データから最初の積分を発見し保存する。 実験の結果,fingeは目標系の将来状態をずっと長く予測でき,よく知られた第一積分と統一的に一致する様々な量を見出すことができた。

Many real-world dynamical systems are associated with first integrals (a.k.a. invariant quantities), which are quantities that remain unchanged over time. The discovery and understanding of first integrals are fundamental and important topics both in the natural sciences and in industrial applications. First integrals arise from the conservation laws of system energy, momentum, and mass, and from constraints on states; these are typically related to specific geometric structures of the governing equations. Existing neural networks designed to ensure such first integrals have shown excellent accuracy in modeling from data. However, these models incorporate the underlying structures, and in most situations where neural networks learn unknown systems, these structures are also unknown. This limitation needs to be overcome for scientific discovery and modeling of unknown systems. To this end, we propose first integral-preserving neural differential equation (FINDE). By leveraging the projection method and the discrete gradient method, FINDE finds and preserves first integrals from data, even in the absence of prior knowledge about underlying structures. Experimental results demonstrate that FINDE can predict future states of target systems much longer and find various quantities consistent with well-known first integrals in a unified manner.
翻訳日:2023-03-29 19:35:09 公開日:2023-03-28
# UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン

UMFuse: Unified Multi View Fusion for Human Editing applications ( http://arxiv.org/abs/2211.10157v4 )

ライセンス: Link先を確認
Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan Lu, Mausoom Sarkar, Balaji Krishnamurthy(参考訳) 様々なポーズガイドによる人間の編集手法が視覚コミュニティによって研究されてきた。 しかし、これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を用いる。 この目的は、ターゲットのポーズが入力のポーズと大きく異なる場合において不定義となる。 既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。 本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。 複数の視点から知識を融合するために,複数のソース画像からポーズキーポイントとテクスチャを取り,説明可能なピクセル単位の出現検索マップを生成するマルチビュー融合ネットワークを設計した。 その後、別個のネットワーク(単視点のヒューマンレポジトリタスクでトレーニングされた)からのエンコーディングを潜在空間にマージする。 これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。 本稿では,新たに提案する2つのタスク,マルチビューのヒューマンレポジトリとmix&matchの人間画像生成に適用する。 さらに,単一ビュー編集の限界と,マルチビューがより良い代替手段を提供するシナリオについても検討した。

Numerous pose-guided human editing methods have been explored by the vision community due to their extensive practical applications. However, most of these methods still use an image-to-image formulation in which a single image is given as input to produce an edited image as output. This objective becomes ill-defined in cases when the target pose differs significantly from the input pose. Existing methods then resort to in-painting or style transfer to handle occlusions and preserve content. In this paper, we explore the utilization of multiple views to minimize the issue of missing information and generate an accurate representation of the underlying human model. To fuse knowledge from multiple viewpoints, we design a multi-view fusion network that takes the pose key points and texture from multiple source images and generates an explainable per-pixel appearance retrieval map. Thereafter, the encodings from a separate network (trained on a single-view human reposing task) are merged in the latent space. This enables us to generate accurate, precise, and visually coherent images for different editing tasks. We show the application of our network on two newly proposed tasks - Multi-view human reposing and Mix&Match Human Image generation. Additionally, we study the limitations of single-view editing and scenarios in which multi-view provides a better alternative.
翻訳日:2023-03-29 19:28:55 公開日:2023-03-28
# verisparse: ローカルなロバストなスパースニューラルネットワークをスクラッチからトレーニングする

VeriSparse: Training Verified Locally Robust Sparse Neural Networks from Scratch ( http://arxiv.org/abs/2211.09945v5 )

ライセンス: Link先を確認
Sawinder Kaur, Yi Xiao, Asif Salekin(参考訳) セルフナビゲーション、医療、産業制御システムなどの安全クリティカルなアプリケーションでは、組み込みシステムをコアとして使用している。 複雑な関数の近似におけるニューラルネットワーク(NN)の最近の進歩は、これらの領域に適している。 しかし、NNの計算集約性は、計算能力と記憶能力に制限のある組み込みシステムでのデプロイメントとトレーニングを制限する。 さらに、NNの敵対的脆弱性は、安全クリティカルなシナリオにおける彼らの使用に挑戦する。 したがって、トレーニング中にリソースを少ない値で活用しながら堅牢性を保証するスパースモデルの開発は、nnsの安全性クリティカルな組み込みシステム設定における使用拡大に不可欠である。 本稿では,ランダムなスパース初期化(スクラッチ)から始まる,局所的に堅牢なスパースネットワークを探索するフレームワークであるVeriSparseを提案する。 VeriSparseは、最先端のアプローチと比較してトレーニング時間の3分の1を要し、同じまたは高い検証されたローカルロバスト性を示すスパースNNを取得する。 さらに、verisparseは構造化と非構造化の両方のスパーシフィケーションを実行し、ストレージ、計算リソース、計算時間の削減を可能にする。 これにより、リソース制約の組込みプラットフォームが信頼性の高い堅牢なNNモデルを活用し、そのスコープを安全クリティカル、リアルタイム、エッジアプリケーションに拡張する。 様々なモデルアーキテクチャにまたがる様々なベンチマークおよびアプリケーション固有のデータセットを評価し,verisparseの有効性と汎用性について徹底的に検討した。

Several safety-critical applications such as self-navigation, health care, and industrial control systems use embedded systems as their core. Recent advancements in Neural Networks (NNs) in approximating complex functions make them well-suited for these domains. However, the compute-intensive nature of NNs limits their deployment and training in embedded systems with limited computation and storage capacities. Moreover, the adversarial vulnerability of NNs challenges their use in safety-critical scenarios. Hence, developing sparse models having robustness guarantees while leveraging fewer resources during training is critical in expanding NNs' use in safety-critical and resource-constrained embedding system settings. This paper presents 'VeriSparse'-- a framework to search verified locally robust sparse networks starting from a random sparse initialization (i.e., scratch). VeriSparse obtains sparse NNs exhibiting similar or higher verified local robustness, requiring one-third of the training time compared to the state-of-the-art approaches. Furthermore, VeriSparse performs both structured and unstructured sparsification, enabling storage, computing-resource, and computation time reduction during inference generation. Thus, it facilitates the resource-constraint embedding platforms to leverage verified robust NN models, expanding their scope to safety-critical, real-time, and edge applications. We exhaustively investigated VeriSparse's efficacy and generalizability by evaluating various benchmark and application-specific datasets across several model architectures.
翻訳日:2023-03-29 19:28:35 公開日:2023-03-28
# promptcap:プロンプトガイド付きタスクアウェア画像キャプション

PromptCap: Prompt-Guided Task-Aware Image Captioning ( http://arxiv.org/abs/2211.09699v3 )

ライセンス: Link先を確認
Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo(参考訳) 知識に基づく視覚的質問応答(VQA)は、正しい回答を得るために、画像以外の世界の知識を必要とする質問を含む。 GPT-3のような大規模言語モデル(LM)は、強力な知識検索と推論能力のため、このタスクに特に有用である。 LMが画像を理解するために、以前の作業ではキャプションモデルを使用して画像をテキストに変換する。 しかし、説明すべき視覚的実体である一文のイメージを要約する場合は、しばしば不明確である。 ジェネリックイメージキャプションは、視覚的な疑問に正しく答えるために、LMに必要な視覚的詳細を見逃すことが多い。 この課題に対処するために,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCap(Prompt-Guided Image Captioning)を提案する。 一般的なキャプションとは異なり、PromptCapは、生成したキャプションで記述される視覚エンティティを制御するために自然言語プロンプトを使用する。 プロンプトには、キャプションが回答を助けるべきだという質問が含まれている。 追加のアノテーションを避けるため、PromptCapはGPT-3と既存のデータセットで合成された例によって訓練されている。 本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。 PromptCapは一般的なキャプションを大きなマージンで上回り、知識ベースのVQAタスク(OK-VQAは60.4%、A-OKVQAは59.6%)で最先端の精度を達成する。 WebQAのゼロショットの結果は、PromptCapが見えないドメインによく一般化していることを示している。

Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.
翻訳日:2023-03-29 19:28:10 公開日:2023-03-28
# 動的エージェントの将来動作予測のための2段階文脈認識モデル

Two-Stage Context-Aware model for Predicting Future Motion of Dynamic Agents ( http://arxiv.org/abs/2211.08609v4 )

ライセンス: Link先を確認
Sehwan Choi, Jungho Kim, Junyong Yun, Jun Won Choi(参考訳) 自律ロボットの動作計画における安全性の確保やリスク評価には,動的エージェントの今後の動きを予測することが極めて重要である。 本稿では,最初の軌道提案ネットワークと軌道修正ネットワークのカスケードを用いて,シーンとインタラクションの両方を効果的に活用する,R-Predと呼ばれる2段階の動作予測手法を提案する。 初期軌道提案ネットワークは、将来の軌道分布のmモードに対応するm軌道提案を生成する。 軌道修正ネットワークは、m提案のそれぞれを改良する 1)チューブ検索シーンアテンション(tqsa)および 2)提案レベルのインタラクションアテンション(PIA)。 tqsaはチューブキューを使用して、興味のある軌道提案の周辺からプールされたローカルなシーンコンテキストを集約する。 PIAはさらに、隣接するエージェントからの距離に基づいて選択された一連の軌道提案を用いて、エージェント間相互作用をモデル化することで、軌道提案をさらに強化する。 Argoverse および nuScenes データセットを用いて行った実験により,提案する改良ネットワークは,単段ベースラインと比較して大幅な性能向上を実現し,R-Pred がベンチマークのいくつかのカテゴリで最先端のパフォーマンスを達成することを示した。

Predicting the future motion of dynamic agents is of paramount importance to ensure safety or assess risks in motion planning for autonomous robots. In this paper, we propose a two-stage motion prediction method, referred to as R-Pred, that effectively utilizes both the scene and interaction context using a cascade of the initial trajectory proposal network and the trajectory refinement network. The initial trajectory proposal network produces M trajectory proposals corresponding to M modes of a future trajectory distribution. The trajectory refinement network enhances each of M proposals using 1) the tube-query scene attention (TQSA) and 2) the proposal-level interaction attention (PIA). TQSA uses tube-queries to aggregate the local scene context features pooled from proximity around the trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected based on their distances from neighboring agents. Our experiments conducted on the Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmark.
翻訳日:2023-03-29 19:27:41 公開日:2023-03-28
# DeS3: ViT類似性とカラーコンバージェンスを用いたアテンション駆動型自己およびソフトシャドウ除去

DeS3: Attention-driven Self and Soft Shadow Removal using ViT Similarity and Color Convergence ( http://arxiv.org/abs/2211.08089v2 )

ライセンス: Link先を確認
Yeying Jin, Wenhan Yang, Wei Ye, Yuan Yuan and Robby T. Tan(参考訳) 単一の画像から明確な境界を欠いているソフトとセルフの影を取り除くことは、依然として難しい。 自己影は、オブジェクト自体に投射される影である。 既存の方法の多くは、ソフトシャドウとセルフシャドウの境界を曖昧に考慮せずに、バイナリシャドウマスクに依存している。 本稿では, 自己調整型ViTの特徴的類似性と色収束性に基づいて, ハード, ソフト, セルフシャドウを除去するDeS3を提案する。 我々の新しいViT類似度損失は、事前訓練された視覚変換器から抽出した特徴を利用する。 この損失は、逆拡散過程をシーン構造を回復させるのに役立つ。 また,色変化を避けるために,逆推論過程における表面色を制約するために色収束損失を導入する。 私たちのDeS3は、影の領域を下層のオブジェクトと区別することができ、影の領域を影をキャストするオブジェクトと区別することができます。 この能力により、DeS3は影によって部分的に隠されている場合でも、オブジェクトの構造をよりよく回復することができる。 トレーニング段階における制約に依存する既存の手法とは異なり、サンプリング段階におけるViT類似性と色収束損失を取り入れる。 これにより、私たちのDeS3モデルは、強力なモデリング機能と入力固有の知識を自己調整で効果的に統合できます。 本手法は, SRD, AISTD, LRSS, USR, UIUCデータセットの最先端手法より優れ, ハード, ソフト, セルフシャドウを頑健に除去する。 具体的には、SRDデータセット上の画像全体のRMSEの20%でSOTA法より優れている。

Removing soft and self shadows that lack clear boundaries from a single image is still challenging. Self shadows are shadows that are cast on the object itself. Most existing methods rely on binary shadow masks, without considering the ambiguous boundaries of soft and self shadows. In this paper, we present DeS3, a method that removes hard, soft and self shadows based on the self-tuned ViT feature similarity and color convergence. Our novel ViT similarity loss utilizes features extracted from a pre-trained Vision Transformer. This loss helps guide the reverse diffusion process towards recovering scene structures. We also introduce a color convergence loss to constrain the surface colors in the reverse inference process to avoid any color shifts. Our DeS3 is able to differentiate shadow regions from the underlying objects, as well as shadow regions from the object casting the shadow. This capability enables DeS3 to better recover the structures of objects even when they are partially occluded by shadows. Different from existing methods that rely on constraints during the training phase, we incorporate the ViT similarity and color convergence loss during the sampling stage. This enables our DeS3 model to effectively integrate its strong modeling capabilities with input-specific knowledge in a self-tuned manner. Our method outperforms state-of-the-art methods on the SRD, AISTD, LRSS, USR and UIUC datasets, removing hard, soft, and self shadows robustly. Specifically, our method outperforms the SOTA method by 20% of the RMSE of the whole image on the SRD dataset.
翻訳日:2023-03-29 19:27:22 公開日:2023-03-28
# Imaginary aubry-Andre-Harper 電位による位相遷移

Topological Transitions with an Imaginary Aubry-Andre-Harper Potential ( http://arxiv.org/abs/2211.07853v2 )

ライセンス: Link先を確認
Bofeng Zhu, Li-Jun Lang, Qiang Wang, Qi Jie Wang and Y. D. Chong(参考訳) 本研究では,Aubry-Andre-Harper(AAH)ポテンシャルを持つ一次元格子について検討する。 このような格子は、エルミート AAH モデルのエッジ状態と異なり、非エルミート粒子ホール対称性によって安定化される純粋に想像上の固有エネルギーを持つエッジ状態をホストすることができる。 エッジ状態は、虚ポテンシャルの周期が4つの格子定数の倍数であるときに生じる。 それらはトポロジカルな起源を持ち、バルク偏極不変量によって予測されるように、変調周期と位相の異なる格子の間のドメインウォールに現れる。 興味深いことに、実線ギャップが閉じてもエッジ状態は持続し、ローカライズされる。 これらの特徴はレーザーアレイで空間的に拡張されたポンプの下でトポロジカルラシングモードを選択するのに使うことができる。

We study one-dimensional lattices with imaginary-valued Aubry-Andre-Harper (AAH) potentials. Such lattices can host edge states with purely imaginary eigenenergies, which differ from the edge states of the Hermitian AAH model and are stabilized by a non-Hermitian particle-hole symmetry. The edge states arise when the period of the imaginary potential is a multiple of four lattice constants. They are topological in origin, and can manifest on domain walls between lattices with different modulation periods and phases, as predicted by a bulk polarization invariant. Interestingly, the edge states persist and remain localized even if the real line gap closes. These features can be used in laser arrays to select topological lasing modes under spatially extended pumping.
翻訳日:2023-03-29 19:26:55 公開日:2023-03-28
# パラメータ効率の良いチューニングによる優れた分類ヘッド

Parameter-Efficient Tuning Makes a Good Classification Head ( http://arxiv.org/abs/2210.16771v2 )

ライセンス: Link先を確認
Zhuoyi Yang, Ming Ding, Yanhui Guo, Qingsong Lv, Jie Tang(参考訳) 近年、事前訓練されたモデルは自然言語理解(NLU)のパラダイムに革命をもたらし、事前訓練されたバックボーン(例えばBERT)の後、ランダムに初期化された分類ヘッドを付加し、モデル全体を微調整する。 トレーニング済みのバックボーンは改善に大きく貢献するので,優れたトレーニング済みの分類ヘッドがトレーニングに役立てられることを自然に期待する。 しかし、バックボーンの最終層出力、すなわち分類ヘッドの入力は微調整中に大きく変化するため、通常のヘッドのみの事前訓練(LP-FT)は非効率である。 本稿では,パラメータ効率のよいチューニングにより,ランダムに初期化したヘッドを置き換えて,安定した性能向上を実現することができることを示す。 本実験では,パラメータ効率の調整を併用した分類ヘッドが,グルーとスーパーグルーの9タスクの性能を一貫して向上させることを示す。

In recent years, pretrained models revolutionized the paradigm of natural language understanding (NLU), where we append a randomly initialized classification head after the pretrained backbone, e.g. BERT, and finetune the whole model. As the pretrained backbone makes a major contribution to the improvement, we naturally expect a good pretrained classification head can also benefit the training. However, the final-layer output of the backbone, i.e. the input of the classification head, will change greatly during finetuning, making the usual head-only pretraining (LP-FT) ineffective. In this paper, we find that parameter-efficient tuning makes a good classification head, with which we can simply replace the randomly initialized heads for a stable performance gain. Our experiments demonstrate that the classification head jointly pretrained with parameter-efficient tuning consistently improves the performance on 9 tasks in GLUE and SuperGLUE.
翻訳日:2023-03-29 19:26:15 公開日:2023-03-28
# ERNIE-ViLG 2.0:知識強化型混合型画像拡散モデルの改良

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts ( http://arxiv.org/abs/2210.15257v2 )

ライセンス: Link先を確認
Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, Yu Sun, Li Chen, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 拡散モデルの最近の進歩は、テキスト・画像生成の一般的な技術に革命をもたらした。 既存のアプローチでは、テキスト条件でフォトリアリスティックな高解像度画像を生成することができるが、解決すべき未解決の問題がいくつかあるため、画像の忠実度とテキスト関連性のさらなる改善が制限されている。 本稿では,(1)シーンにおける重要要素の細かなテキスト的,視覚的な知識を組み込んだ画像の品質向上と,(2)異なるデノベーション段階における異なるデノベーション専門家の活用により,生成画像の品質を段階的に向上させる,大規模中国語テキスト間拡散モデルであるernie-vilg 2.0を提案する。 提案したメカニズムにより,ERNIE-ViLG 2.0 はゼロショット FID スコア 6.75 の MS-COCO 上で新たな最先端技術を達成するだけでなく,画像の忠実度や画像テキストのアライメントにおいて,バイリンガルプロンプトセット ViLG-300 を並べて評価することで,最近のモデルよりも大幅に優れていた。

Recent progress in diffusion models has revolutionized the popular technology of text-to-image generation. While existing approaches could produce photorealistic high-resolution images with text conditions, there are still several open problems to be solved, which limits the further improvement of image fidelity and text relevancy. In this paper, we propose ERNIE-ViLG 2.0, a large-scale Chinese text-to-image diffusion model, to progressively upgrade the quality of generated images by: (1) incorporating fine-grained textual and visual knowledge of key elements in the scene, and (2) utilizing different denoising experts at different denoising stages. With the proposed mechanisms, ERNIE-ViLG 2.0 not only achieves a new state-of-the-art on MS-COCO with zero-shot FID score of 6.75, but also significantly outperforms recent models in terms of image fidelity and image-text alignment, with side-by-side human evaluation on the bilingual prompt set ViLG-300.
翻訳日:2023-03-29 19:25:58 公開日:2023-03-28
# スピノル双極子超低温原子を用いたリンクモデルの量子シミュレータ

Quantum simulator of link models using spinor dipolar ultracold atoms ( http://arxiv.org/abs/2210.14836v2 )

ライセンス: Link先を確認
Pierpaolo Fontana, Joao C. Pinto Barros, Andrea Trombettoni(参考訳) 二次元格子における量子リンクモデルの量子シミュレーションのためのスキームを提案する。 提案手法では, スピノル双極子気体を適切な形状の格子上に配置し, ガスの超微粒子準位が異なる粒子のダイナミクスを, 双極子相互作用に結合した一次元鎖で行う。 少なくとも4つのレベルが必要です。 このスキームはパラメータの特定の微調整を必要としない。 2つの異なるアプローチ、角運動量保存に結びついた非摂動的手法、および摂動的手法を用いて量子リンクモデルのパラメータの導出を行う。 文献に存在する$(2+1)$次元量子リンクモデルに対する他のスキームとの比較について述べる。 最後に三次元格子の拡張を示し、その微妙な点を指摘する。

We propose a scheme for the quantum simulation of quantum link models in two-dimensional lattices. Our approach considers spinor dipolar gases on a suitably shaped lattice, where the dynamics of particles in the different hyperfine levels of the gas takes place in one-dimensional chains coupled by the dipolar interactions. We show that at least four levels are needed. The present scheme does not require any particular fine-tuning of the parameters. We perform the derivation of the parameters of the quantum link models by means of two different approaches, a non-perturbative one tied to angular momentum conservation, and a perturbative one. A comparison with other schemes for $(2+1)$-dimensional quantum link models present in literature is discussed. Finally, the extension to three-dimensional lattices is presented, and its subtleties are pointed out.
翻訳日:2023-03-29 19:25:34 公開日:2023-03-28
# パリティを持つ量子ビット状態間の量子仮説試験

Quantum hypothesis testing between qubit states with parity ( http://arxiv.org/abs/2212.01766v2 )

ライセンス: Link先を確認
Yi Shen and Carlo Maria Scandolo and Lin Chen(参考訳) 量子仮説テスト(QHT)は、2つの量子状態を2つの正の演算子値測度(POVM)を用いて識別する有効な方法を提供する。 QHTにおける2種類の決定エラーが発生する。 本稿では,カイラリティの基準フレームの欠如から生じる運用上の制約を考慮して,2種類の決定誤差を不等に扱うQHTの非対称設定に着目した。 この参照フレームは、恒等変換とパリティ変換からなる群 $\bbZ_2$ に関連付けられている。 したがって、$\bbZ_2$-invariant POVMsのみを実行することで、2つの量子状態の区別を行う必要がある。 私たちは2つの純粋状態の区別から始めます。 特定の最適化問題を解くことで、偽の場合にヌル仮説が受け入れられたときに発生するタイプIIエラーの最小確率の漸近挙動を完全に特徴づける。 我々の結果は、そのような2つの純粋な状態の$\bbZ_2$-twirlingsが異なる場合、最小確率が有限個のコピーでゼロに減少することを示した。 さらに、最小確率がゼロとなるようなコピーの臨界数を導出する。 最後に、2つの純状態のうちの1つを最大混合状態に置き換え、同様にタイプII誤差の最小確率の漸近挙動を特徴づける。

Quantum hypothesis testing (QHT) provides an effective method to discriminate between two quantum states using a two-outcome positive operator-valued measure (POVM). Two types of decision errors in a QHT can occur. In this paper we focus on the asymmetric setting of QHT, where the two types of decision errors are treated unequally, considering the operational limitations arising from the lack of a reference frame for chirality. This reference frame is associated with the group $\bbZ_2$ consisting of the identity transformation and the parity transformation. Thus, we have to discriminate between two qubit states by performing the $\bbZ_2$-invariant POVMs only. We start from the discrimination between two pure states. By solving the specific optimization problem we completely characterize the asymptotic behavior of the minimal probability of type-II error which occurs when the null hypothesis is accepted when it is false. Our results reveal that the minimal probability reduces to zero in a finite number of copies, if the $\bbZ_2$-twirlings of such two pure states are different. We further derive the critical number of copies such that the minimal probability reduces to zero. Finally, we replace one of the two pure states with a maximally mixed state, and similarly characterize the asymptotic behavior of the minimal probability of type-II error.
翻訳日:2023-03-29 19:19:33 公開日:2023-03-28
# プラトー還元型微分可能経路追跡

Plateau-reduced Differentiable Path Tracing ( http://arxiv.org/abs/2211.17263v2 )

ライセンス: Link先を確認
Michael Fischer, Tobias Ritschel(参考訳) 現在の微分可能なレンダラーは任意のシーンパラメータに対して光輸送勾配を提供する。 しかし、これらの勾配の存在は最適化において有用な更新ステップを保証するものではない。 代わりに、逆レンダリングは、目的関数内の固有の高原、すなわちゼロ勾配の領域のために収束しないかもしれない。 そこで本稿では,シーンパラメータを画像にマッピングする高次元レンダリング関数と,パラメータ空間を曖昧にする追加のカーネルを組み合わせることで,この軽減を図る。 そこで,2つのモンテカルロ推定器を用いて,低分散の平坦な勾配を効率的に計算し,最適化誤差と実行時性能においてネットゲインに変換することを示す。 我々のアプローチは、ブラックボックスと微分可能レンダラの両方への直接的な拡張であり、コースティックスやグローバル照明のような複雑な光移動に関する問題を最適化することができ、既存の微分可能レンダラが収束しない。

Current differentiable renderers provide light transport gradients with respect to arbitrary scene parameters. However, the mere existence of these gradients does not guarantee useful update steps in an optimization. Instead, inverse rendering might not converge due to inherent plateaus, i.e., regions of zero gradient, in the objective function. We propose to alleviate this by convolving the high-dimensional rendering function that maps scene parameters to images with an additional kernel that blurs the parameter space. We describe two Monte Carlo estimators to compute plateau-free gradients efficiently, i.e., with low variance, and show that these translate into net-gains in optimization error and runtime performance. Our approach is a straightforward extension to both black-box and differentiable renderers and enables optimization of problems with intricate light transport, such as caustics or global illumination, that existing differentiable renderers do not converge on.
翻訳日:2023-03-29 19:19:11 公開日:2023-03-28
# DiffPose: より信頼性の高い3D Pose推定を目指して

DiffPose: Toward More Reliable 3D Pose Estimation ( http://arxiv.org/abs/2211.16940v2 )

ライセンス: Link先を確認
Jia Gong, Lin Geng Foo, Zhipeng Fan, Qiuhong Ke, Hossein Rahmani, Jun Liu(参考訳) 単眼の3次元ポーズ推定は、固有の曖昧さと閉塞性のため、しばしば高い不確実性と不確定性をもたらすため、非常に難しい。 一方,拡散モデルは最近,ノイズから高品質な画像を生成する有効なツールとして登場した。 その能力に触発されて、3次元ポーズ推定を逆拡散過程として定式化する新しいポーズ推定フレームワーク(DiffPose)を探索する。 本研究では, 3次元ポーズ推定のための拡散過程, ポーズ不確かさ分布のポーズ特異的初期化, ガウス混合モデルに基づく前方拡散過程, 文脈条件付き逆拡散過程など, 新たな設計を取り入れた。 提案手法は,ヒューマン3.6mおよびmpi-inf-3dhpのポーズ推定ベンチマークにおいて,従来の手法を大きく上回っている。 プロジェクトページ: https://gongjia0208.github.io/diffpose/

Monocular 3D human pose estimation is quite challenging due to the inherent ambiguity and occlusion, which often lead to high uncertainty and indeterminacy. On the other hand, diffusion models have recently emerged as an effective tool for generating high-quality images from noise. Inspired by their capability, we explore a novel pose estimation framework (DiffPose) that formulates 3D pose estimation as a reverse diffusion process. We incorporate novel designs into our DiffPose to facilitate the diffusion process for 3D pose estimation: a pose-specific initialization of pose uncertainty distributions, a Gaussian Mixture Model-based forward diffusion process, and a context-conditioned reverse diffusion process. Our proposed DiffPose significantly outperforms existing methods on the widely used pose estimation benchmarks Human3.6M and MPI-INF-3DHP. Project page: https://gongjia0208.github.io/Diffpose/.
翻訳日:2023-03-29 19:18:57 公開日:2023-03-28
# ドット接続:2レベルクエリを用いたフロアプラン再構築

Connecting the Dots: Floorplan Reconstruction Using Two-Level Queries ( http://arxiv.org/abs/2211.15658v2 )

ライセンス: Link先を確認
Yuanwen Yue, Theodora Kontogianni, Konrad Schindler, Francis Engelmann(参考訳) 3次元スキャンによる2次元フロアプラン再構成について述べる。 既存のアプローチは通常、ヒューリスティックに設計されたマルチステージパイプラインを使用する。 代わりに、フロアプラン再構築を単一段階構造予測タスクとして定式化し、可変サイズの多角形の集合を見つけ、これは順序付けられた頂点の可変長列である。 そこで本研究では,複数の部屋の多角形を並列に,手作り中間段を使わずに総合的に生成する新しい変圧器アーキテクチャを開発した。 モデルには、多角形と角形の2レベルクエリと、ネットワークをエンドツーエンドでトレーニング可能にする多角形マッチングが含まれている。 提案手法は,Structured3DとSceneCADという2つの挑戦的データセットに対して,従来の手法よりもはるかに高速な推論を実現する。 さらに、セマンティックルームタイプやドアや窓のようなアーキテクチャ要素などの追加情報を予測するために簡単に拡張できる。 私たちのコードとモデルは、https://github.com/ywyue/RoomFormer.comで利用可能です。

We address 2D floorplan reconstruction from 3D scans. Existing approaches typically employ heuristically designed multi-stage pipelines. Instead, we formulate floorplan reconstruction as a single-stage structured prediction task: find a variable-size set of polygons, which in turn are variable-length sequences of ordered vertices. To solve it we develop a novel Transformer architecture that generates polygons of multiple rooms in parallel, in a holistic manner without hand-crafted intermediate stages. The model features two-level queries for polygons and corners, and includes polygon matching to make the network end-to-end trainable. Our method achieves a new state-of-the-art for two challenging datasets, Structured3D and SceneCAD, along with significantly faster inference than previous methods. Moreover, it can readily be extended to predict additional information, i.e., semantic room types and architectural elements like doors and windows. Our code and models are available at: https://github.com/ywyue/RoomFormer.
翻訳日:2023-03-29 19:18:41 公開日:2023-03-28
# Deep Curvilinear Editing:Pretrained Deep Generative Modelのための圧縮および非線形画像操作

Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model ( http://arxiv.org/abs/2211.14573v2 )

ライセンス: Link先を確認
Takehiro Aoshima, Takashi Matsubara(参考訳) 画像のセマンティック編集はコンピュータビジョンの基本的な目標である。 generative adversarial network(gans)のようなディープラーニング手法は高品質な画像を生成することができるが、生成した画像をセマンティックに編集する固有の方法を持たないことが多い。 近年の研究では、生成する画像を決定するために潜在変数を操作する方法が研究されている。 しかし、線形意味算術を仮定する手法は画像編集の品質に関して一定の制限があるが、非線形意味論経路を探索する手法は非可換な編集を提供するが、異なる順序で適用すると矛盾する。 本研究では,DeCurvEd(Deep curvilinear editing)と呼ばれる新しい手法を提案し,潜在空間上の意味交換ベクトル場を決定する。 理論的には、可換性のため、複数の属性の編集は量にのみ依存し、順序には依存しない。 さらに,従来の手法と比較して,DeCurvEdの非線形および可換性は画像属性の歪みを緩和し,高品質な編集を可能にすることを示した。

Semantic editing of images is the fundamental goal of computer vision. Although deep learning methods, such as generative adversarial networks (GANs), are capable of producing high-quality images, they often do not have an inherent way of editing generated images semantically. Recent studies have investigated a way of manipulating the latent variable to determine the images to be generated. However, methods that assume linear semantic arithmetic have certain limitations in terms of the quality of image editing, whereas methods that discover nonlinear semantic pathways provide non-commutative editing, which is inconsistent when applied in different orders. This study proposes a novel method called deep curvilinear editing (DeCurvEd) to determine semantic commuting vector fields on the latent space. We theoretically demonstrate that owing to commutativity, the editing of multiple attributes depends only on the quantities and not on the order. Furthermore, we experimentally demonstrate that compared to previous methods, the nonlinear and commutative nature of DeCurvEd facilitates the disentanglement of image attributes and provides higher-quality editing.
翻訳日:2023-03-29 19:18:24 公開日:2023-03-28
# Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト

Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization ( http://arxiv.org/abs/2211.14053v2 )

ライセンス: Link先を確認
Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem(参考訳) 時間的行動定位(tal)は、様々な持続時間と複雑な内容の行動を予測するために長い形式の推論を必要とする。 GPUメモリが限られているため、長いビデオでTALのエンドツーエンド(ビデオから予測まで)をトレーニングすることは大きな課題である。 ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。 本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。 Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。 我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。 これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。 RGBモードのみを使用するRe2TALは、新しい最先端記録であるActivityNet-v1.3で37.01%平均mAP、THUMOS-14でtIoU=0.5でmAP 64.9%に達し、他のRGBのみの手法よりも優れている。

Temporal action localization (TAL) requires long-form reasoning to predict actions of various durations and complex content. Given limited GPU memory, training TAL end to end (i.e., from videos to predictions) on long videos is a significant challenge. Most methods can only train on pre-extracted features without optimizing them for the localization problem, consequently limiting localization performance. In this work, to extend the potential in TAL networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone with reversible modules, where the input can be recovered from the output such that the bulky intermediate activations can be cleared from memory during training. Instead of designing one single type of reversible module, we propose a network rewiring mechanism, to transform any module with a residual connection to a reversible module without changing any parameters. This provides two benefits: (1) a large variety of reversible networks are easily obtained from existing and even future model designs, and (2) the reversible models require much less training effort as they reuse the pre-trained parameters of their original non-reversible versions. Re2TAL, only using the RGB modality, reaches 37.01% average mAP on ActivityNet-v1.3, a new state-of-the-art record, and mAP 64.9% at tIoU=0.5 on THUMOS-14, outperforming all other RGB-only methods.
翻訳日:2023-03-29 19:18:02 公開日:2023-03-28
# PermutoSDF: Permutohedral Lattices を用いた多面体高速再構成

PermutoSDF: Fast Multi-View Reconstruction with Implicit Surfaces using Permutohedral Lattices ( http://arxiv.org/abs/2211.12562v2 )

ライセンス: Link先を確認
Radu Alexandru Rosu and Sven Behnke(参考訳) ニューラルレイディアンス-密度場法は、新規なビューレンダリングのタスクにおいて、ますます人気が高まっている。 ハッシュベースの位置エンコーディングへの最近の拡張により、迅速なトレーニングと視覚的に喜ぶ結果による推論が保証される。 しかし密度に基づく手法は正確な表面形状の復元に苦慮している。 ハイブリッド手法は基礎となるsdfに基づいて密度を最適化することでこの問題を軽減する。 しかし、現在のSDF法は過度に滑らかであり、微妙な幾何学的詳細を見逃している。 本研究では,これらの2つの作業の強みを,ハッシュに基づく新しい暗黙的表面表現で結合する。 本稿では,voxelハッシュ符号化をより高速に最適化するpermutohedral latticeに置き換えることにより,この2領域の改良を提案する。 さらに,高周波幾何学的詳細の復元に不可欠な正規化スキームを提案する。 提案手法を複数のデータセット上で評価し,RGB画像のみを用いて細孔やしわの程度で幾何的細部を復元できることを示す。 さらに、スフィアトレースを使うことで、RTX 3090上で30fpsで新しいビューを描画できる。 コードは、https://radualexandru.github.io/permuto_sdfで公開されている。

Neural radiance-density field methods have become increasingly popular for the task of novel-view rendering. Their recent extension to hash-based positional encoding ensures fast training and inference with visually pleasing results. However, density-based methods struggle with recovering accurate surface geometry. Hybrid methods alleviate this issue by optimizing the density based on an underlying SDF. However, current SDF methods are overly smooth and miss fine geometric details. In this work, we combine the strengths of these two lines of work in a novel hash-based implicit surface representation. We propose improvements to the two areas by replacing the voxel hash encoding with a permutohedral lattice which optimizes faster, especially for higher dimensions. We additionally propose a regularization scheme which is crucial for recovering high-frequency geometric detail. We evaluate our method on multiple datasets and show that we can recover geometric detail at the level of pores and wrinkles while using only RGB images for supervision. Furthermore, using sphere tracing we can render novel views at 30 fps on an RTX 3090. Code is publicly available at: https://radualexandru.github.io/permuto_sdf
翻訳日:2023-03-29 19:17:33 公開日:2023-03-28
# 深部異方性拡散による奥行き超解像

Guided Depth Super-Resolution by Deep Anisotropic Diffusion ( http://arxiv.org/abs/2211.11592v3 )

ライセンス: Link先を確認
Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler(参考訳) RGB画像からのガイダンスを用いた深度画像の超解像化は、ロボット工学、医用画像、リモートセンシングなど、いくつかの分野に関わる問題である。 ディープラーニングの手法はこの問題で良い結果を得たが、最近の研究は、モダンなメソッドとより正式なフレームワークを組み合わせることの価値を強調した。 本研究では, 誘導異方性拡散と深部畳み込みネットワークを組み合わせた新しい手法を提案し, 誘導深度超解像技術の現状を推し進める。 拡散のエッジ転送/エンハンシング特性は、現代のネットワークの文脈推論能力によって強化され、厳格な調整ステップにより、ソースイメージへの完全準拠が保証される。 誘導深度超解像のための3つの一般的なベンチマークで前例のない結果を得た。 他の方法と比較してパフォーマンスの向上は、x32スケーリングなど、より大きなスケールで最大である。 提案手法のコード (https://github.com/prs-eth/Diffusion-Super-Resolution) を用いて再現性を向上する。

Performing super-resolution of a depth image using the guidance from an RGB image is a problem that concerns several fields, such as robotics, medical imaging, and remote sensing. While deep learning methods have achieved good results in this problem, recent work highlighted the value of combining modern methods with more formal frameworks. In this work, we propose a novel approach which combines guided anisotropic diffusion with a deep convolutional network and advances the state of the art for guided depth super-resolution. The edge transferring/enhancing properties of the diffusion are boosted by the contextual reasoning capabilities of modern networks, and a strict adjustment step guarantees perfect adherence to the source image. We achieve unprecedented results in three commonly used benchmarks for guided depth super-resolution. The performance gain compared to other methods is the largest at larger scales, such as x32 scaling. Code (https://github.com/prs-eth/Diffusion-Super-Resolution) for the proposed method is available to promote reproducibility of our results.
翻訳日:2023-03-29 19:17:02 公開日:2023-03-28
# 太陽光干渉計を用いたパッシブマイクロンスケール飛行時間

Passive Micron-scale Time-of-Flight with Sunlight Interferometry ( http://arxiv.org/abs/2211.10732v2 )

ライセンス: Link先を確認
Alankar Kotwal and Anat Levin and Ioannis Gkioulekas(参考訳) 微視的軸方向分解能における受動飛行時間イメージングと深度センシングのための干渉計測手法を提案する。 我々の技術は、日光を唯一の光源として使うように修正されたフルフィールドマイケルソン干渉計を使用する。 日光のスペクトル帯域が大きいため、簡単な軸走査操作により、マイクロメートル分解能の時間分解能シーン応答を得ることができる。 さらに、太陽光の角帯域幅は、反射や地下散乱のような間接的な照明効果に敏感な飛行時間の測定を捉えることができる。 我々は,屋外,直射日光の下で,機械振動や車両交通などの環境条件下での運転を行う実験プロトタイプを構築した。 このプロトタイプを用いて,マイクロメータの奥行き検出による間接照明のロバスト化,直接撮像,ディフューザによるイメージングなどのパッシブイメージング機能を初めて実証した。

We introduce an interferometric technique for passive time-of-flight imaging and depth sensing at micrometer axial resolutions. Our technique uses a full-field Michelson interferometer, modified to use sunlight as the only light source. The large spectral bandwidth of sunlight makes it possible to acquire micrometer-resolution time-resolved scene responses, through a simple axial scanning operation. Additionally, the angular bandwidth of sunlight makes it possible to capture time-of-flight measurements insensitive to indirect illumination effects, such as interreflections and subsurface scattering. We build an experimental prototype that we operate outdoors, under direct sunlight, and in adverse environment conditions such as machine vibrations and vehicle traffic. We use this prototype to demonstrate, for the first time, passive imaging capabilities such as micrometer-scale depth sensing robust to indirect illumination, direct-only imaging, and imaging through diffusers.
翻訳日:2023-03-29 19:16:45 公開日:2023-03-28
# fake it until you make: learning transferable representations from synthetic imagenet clones (英語)

Fake it till you make it: Learning transferable representations from synthetic ImageNet clones ( http://arxiv.org/abs/2212.08420v2 )

ライセンス: Link先を確認
Mert Bulent Sariyildiz, Karteek Alahari, Diane Larlus, Yannis Kalantidis(参考訳) 安定拡散のような最近の画像生成モデルは、単純なテキストプロンプトからかなりリアルな画像を生成する素晴らしい能力を示した。 このようなモデルは、画像予測モデルをトレーニングするために、実際のイメージを時代遅れにするだろうか? 本稿では,イメージネット分類のためのトレーニングモデルにおいて,実画像の必要性を調査することで,この挑発的疑問に答える。 データセットの構築に使用されているクラス名のみを考慮すれば,imagenetの合成クローンを生成するための安定拡散の能力と,これらがスクラッチから分類モデルのトレーニングにどの程度有用かを測定することができる。 本研究では,最小限かつクラスに依存しないプロンプトエンジニアリングにより,画像クローンは合成画像によるモデルと実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。 さらに,合成画像にトレーニングされたモデルが強い一般化特性を示し,実データでトレーニングしたモデルと同等の性能を持つことを示す。 プロジェクトページ: https://europe.naverlabs.com/imagenet-sd/

Recent image generation models such as Stable Diffusion have exhibited an impressive ability to generate fairly realistic images starting from a simple text prompt. Could such models render real images obsolete for training image prediction models? In this paper, we answer part of this provocative question by investigating the need for real images when training models for ImageNet classification. Provided only with the class names that have been used to build the dataset, we explore the ability of Stable Diffusion to generate synthetic clones of ImageNet and measure how useful these are for training classification models from scratch. We show that with minimal and class-agnostic prompt engineering, ImageNet clones are able to close a large part of the gap between models produced by synthetic images and models trained with real images, for the several standard classification benchmarks that we consider in this study. More importantly, we show that models trained on synthetic images exhibit strong generalization properties and perform on par with models trained on real data for transfer. Project page: https://europe.naverlabs.com/imagenet-sd/
翻訳日:2023-03-29 19:10:12 公開日:2023-03-28
# DeepLSD:Deep Image Gradientsを用いた線分検出と微細化

DeepLSD: Line Segment Detection and Refinement with Deep Image Gradients ( http://arxiv.org/abs/2212.07766v3 )

ライセンス: Link先を確認
R\'emi Pautrat, Daniel Barath, Viktor Larsson, Martin R. Oswald, Marc Pollefeys(参考訳) ラインセグメントは、私たちの人工世界においてユビキタスであり、視覚タスクでますます使われています。 それらは空間的範囲とそれらが提供する構造的情報のおかげで特徴点を補完する。 従来の画像勾配に基づく線検出器は非常に高速で精度が高いが、ノイズ画像や困難な条件では頑健性に欠ける。 彼らの学習した画像はより再現性が高く、挑戦的な画像を扱うことができるが、精度は低く、ワイヤーフレーム線への偏りがある。 我々は、両方の世界を最大限に活用するために、伝統的なアプローチと学習されたアプローチを組み合わせることを提案する。 われわれの新しい線分検出器DeepLSDは、深層ネットワークで画像を処理し、ラインアトラクション場を生成し、それを代理画像勾配度と角度に変換し、既存の手作り線分検出器に供給する。 さらに,アトラクション場と消滅点に基づいて線分を洗練するための新しい最適化ツールを提案する。 この改良により、電流深度検出器の精度が大幅に向上する。 低レベルライン検出メトリクスおよび複数のダウンストリームタスクにおける複数のチャレンジデータセットを用いた手法の性能を実証する。 ソースコードとモデルはhttps://github.com/cvg/deeplsdで入手できる。

Line segments are ubiquitous in our human-made world and are increasingly used in vision tasks. They are complementary to feature points thanks to their spatial extent and the structural information they provide. Traditional line detectors based on the image gradient are extremely fast and accurate, but lack robustness in noisy images and challenging conditions. Their learned counterparts are more repeatable and can handle challenging images, but at the cost of a lower accuracy and a bias towards wireframe lines. We propose to combine traditional and learned approaches to get the best of both worlds: an accurate and robust line detector that can be trained in the wild without ground truth lines. Our new line segment detector, DeepLSD, processes images with a deep network to generate a line attraction field, before converting it to a surrogate image gradient magnitude and angle, which is then fed to any existing handcrafted line detector. Additionally, we propose a new optimization tool to refine line segments based on the attraction field and vanishing points. This refinement improves the accuracy of current deep detectors by a large margin. We demonstrate the performance of our method on low-level line detection metrics, as well as on several downstream tasks using multiple challenging datasets. The source code and models are available at https://github.com/cvg/DeepLSD.
翻訳日:2023-03-29 19:09:54 公開日:2023-03-28
# Few-Shot分類における一般化予測の統計的モデル

A Statistical Model for Predicting Generalization in Few-Shot Classification ( http://arxiv.org/abs/2212.06461v2 )

ライセンス: Link先を確認
Yassir Bendou, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Stefan Uhlich, Fabien Cardinaux, Ghouthi Boukli Hacene, Javier Alonso Garcia(参考訳) 分類器の一般化誤差の推定は、しばしば検証セットに依存する。 このようなセットは、現場では非常に無視されている欠点である、数ショットの学習シナリオではほとんど利用できない。 これらのシナリオでは、事前学習されたニューラルネットワークから抽出された特徴と、最も近いクラス平均のような距離ベースの分類器を組み合わせることが一般的である。 本研究では,特徴分布のガウスモデルを提案する。 このモデルのパラメータを推定することにより、サンプルが少ない新しい分類タスクの一般化誤差を予測できる。 一般化性能の正確な推定には,クラス条件密度間の正確な距離推定が重要であることを確かめた。 そこで,これらの距離に対する偏りのない推定器を提案し,数値解析に組み込む。 我々は,我々のアプローチが,離脱一貫のクロスバリデーション戦略などの代替案よりも優れていることを実証的に示す。

The estimation of the generalization error of classifiers often relies on a validation set. Such a set is hardly available in few-shot learning scenarios, a highly disregarded shortcoming in the field. In these scenarios, it is common to rely on features extracted from pre-trained neural networks combined with distance-based classifiers such as nearest class mean. In this work, we introduce a Gaussian model of the feature distribution. By estimating the parameters of this model, we are able to predict the generalization error on new classification tasks with few samples. We observe that accurate distance estimates between class-conditional densities are the key to accurate estimates of the generalization performance. Therefore, we propose an unbiased estimator for these distances and integrate it in our numerical analysis. We empirically show that our approach outperforms alternatives such as the leave-one-out cross-validation strategy.
翻訳日:2023-03-29 19:09:34 公開日:2023-03-28
# InferEM:共感的対話生成のための話者意図の推測

InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation ( http://arxiv.org/abs/2212.06373v3 )

ライセンス: Link先を確認
Guoqing Lv, Jiang Li, Xiaoping Wang(参考訳) 共感応答生成に対する現在のアプローチは、一般的に対話履歴全体をエンコードし、出力をデコーダに入れてフレンドリーなフィードバックを生成する。 これらの手法は文脈情報のモデル化に焦点をあてるが、話者の直接の意図を捉えることは無視する。 我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。 そこで本研究では,共感応答生成のための新しいモデルInferEMを提案する。 我々は,最後の発話を別々に符号化し,多面的注意に基づく意図融合モジュールを通して対話全体と融合し,話者の意図を捉える。 さらに,先行した発話を用いて最後の発話を予測し,人間の心理をシミュレートし,対話者が事前に何を話すのかを推測する。 発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。 実験の結果,inferemの共感性発現改善における可能性と妥当性が示された。

Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through the multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression.
翻訳日:2023-03-29 19:09:23 公開日:2023-03-28
# ビデオオブジェクトセグメンテーションにおける「オブジェクト」の分解

Breaking the "Object" in Video Object Segmentation ( http://arxiv.org/abs/2212.06200v2 )

ライセンス: Link先を確認
Pavel Tokmakov, Jie Li, Adrien Gaidon(参考訳) 物体の外観は、それが変形するときに浮かび上がることがある。 卵が折れたり、紙が破れてしまうと、その色、形、テクスチャが劇的に変化し、アイデンティティ自体を除いてオリジナルのものはほとんど保存されない。 しかし、この重要な現象は既存のvos(video object segmentation)ベンチマークにはほとんど及ばない。 本研究では,ビデオオブジェクトセグメンテーションのための新しいデータセットを変換(VOST)下で収集することで,そのギャップを埋める。 700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、インスタンスマスクでラベル付けされている。 これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。 次に、最先端のVOS手法を広く評価し、多くの重要な発見を行う。 特に,本課題に適用された場合,既存の手法は困難であり,その主な限界は静的な外観上の過度な信頼にあることを示す。 これにより、時空間情報のモデリングを改善することにより、その能力を改善するトップパフォーマンスベースラインのいくつかの変更を提案する動機付けとなります。 しかし、より広範に、より堅牢なビデオオブジェクト表現の学習に関する議論を刺激することを期待している。

The appearance of an object can be fleeting when it transforms. As eggs are broken or paper is torn, their color, shape and texture can change dramatically, preserving virtually nothing of the original except for the identity itself. Yet, this important phenomenon is largely absent from existing video object segmentation (VOS) benchmarks. In this work, we close the gap by collecting a new dataset for Video Object Segmentation under Transformations (VOST). It consists of more than 700 high-resolution videos, captured in diverse environments, which are 21 seconds long on average and densely labeled with instance masks. A careful, multi-step approach is adopted to ensure that these videos focus on complex object transformations, capturing their full temporal extent. We then extensively evaluate state-of-the-art VOS methods and make a number of important discoveries. In particular, we show that existing methods struggle when applied to this novel task and that their main limitation lies in over-reliance on static appearance cues. This motivates us to propose a few modifications for the top-performing baseline that improve its capabilities by better modeling spatio-temporal information. But more broadly, the hope is to stimulate discussion on learning more robust video object representations.
翻訳日:2023-03-29 19:09:06 公開日:2023-03-28
# 編集可能なNeRF: トポロジカルに可変なニューラルラジアンスフィールドをキーポイントで編集する

EditableNeRF: Editing Topologically Varying Neural Radiance Fields by Key Points ( http://arxiv.org/abs/2212.04247v2 )

ライセンス: Link先を確認
Chengwei Zheng, Wenbin Lin, Feng Xu(参考訳) ニューラルレイディアンス場(NeRF)は、高光写実的ノベルビュー合成を実現するが、特にダイナミックシーンにおいて、NeRFベースの手法でモデル化されたシーンを編集することは難しい問題である。 本稿では,動的シーンの編集やトポロジ的変化の支援などが可能な編集可能なニューラルレイディアンスフィールドを提案する。 一つのカメラから画像シーケンスを入力すると、ネットワークは完全に自動的に訓練され、選択した表面キーポイントを用いて位相的に変化するダイナミクスをモデル化する。 そして、エンドユーザーは、キーポイントを必要な新しい位置にドラッグするだけでシーンを編集できる。 そこで本研究では,シーン内のダイナミクスを考慮し,キーポイントの検出と初期化を行うシーン分析手法と,結合キーポイントと重み付け最適化による位相変化ダイナミクスをモデル化する重み付きキーポイント戦略を提案する。 提案手法は直感的な多次元編集(最大3次元)をサポートし,入力シーケンスにない斬新なシーンを生成する。 実験により,様々な動的シーンで高品質な編集が可能となり,最先端を上回っていることを示す。 私たちのコードとキャプチャーデータはhttps://chengwei-zheng.github.io/editablenerf/で入手できます。

Neural radiance fields (NeRF) achieve highly photo-realistic novel-view synthesis, but it's a challenging problem to edit the scenes modeled by NeRF-based methods, especially for dynamic scenes. We propose editable neural radiance fields that enable end-users to easily edit dynamic scenes and even support topological changes. Input with an image sequence from a single camera, our network is trained fully automatically and models topologically varying dynamics using our picked-out surface key points. Then end-users can edit the scene by easily dragging the key points to desired new positions. To achieve this, we propose a scene analysis method to detect and initialize key points by considering the dynamics in the scene, and a weighted key points strategy to model topologically varying dynamics by joint key points and weights optimization. Our method supports intuitive multi-dimensional (up to 3D) editing and can generate novel scenes that are unseen in the input sequence. Experiments demonstrate that our method achieves high-quality editing on various dynamic scenes and outperforms the state-of-the-art. Our code and captured data are available at https://chengwei-zheng.github.io/EditableNeRF/.
翻訳日:2023-03-29 19:08:26 公開日:2023-03-28
# 合成視点からの弱スーパービジョンによる注視推定の一般化

Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views ( http://arxiv.org/abs/2212.02997v2 )

ライセンス: Link先を確認
Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Michail Christos Doukas, Jia Guo, Stefanos Zafeiriou(参考訳) 未発見領域や野生条件によく一般化した視線推定モデルの開発は、既知の最善の解決法がない課題である。 これは主に、現実世界に存在する可能性のある顔、頭ポーズ、環境条件の分布をカバーする地上の真実データを取得するのが難しいためである。 本研究では,インターネット上に豊富に存在する任意の顔画像から抽出した3次元幾何認識型擬似アノテーションに基づいて,一般的な視線推定モデルを訓練することを提案する。 さらに,頭部,体,手の位置推定は,これらを高密度な3次元座標予測として再検討することの利点を生かし,同様に高密度な3次元眼網の回帰として視線推定を表現する。 既存の視線データセットに剛性のある3d眼球を取り付け、トレーニング中の擬似ラベルの効果をバランスさせるマルチビュー監視フレームワークを設計することで、互換性のある地上真実の欠如を克服する。 本手法を視線一般化のタスクでテストし,真理データが得られない場合の最先端技術と比較して最大30 %$,真理データが得られない場合は最大10 %$であることを示す。 プロジェクト資料は研究目的で利用可能になります。

Developing gaze estimation models that generalize well to unseen domains and in-the-wild conditions remains a challenge with no known best solution. This is mostly due to the difficulty of acquiring ground truth data that cover the distribution of possible faces, head poses and environmental conditions that exist in the real world. In this work, we propose to train general gaze estimation models based on 3D geometry-aware gaze pseudo-annotations which we extract from arbitrary unlabelled face images, which are abundantly available in the internet. Additionally, we leverage the observation that head, body and hand pose estimation benefit from revising them as dense 3D coordinate prediction, and similarly express gaze estimation as regression of dense 3D eye meshes. We overcome the absence of compatible ground truth by fitting rigid 3D eyeballs on existing gaze datasets and design a multi-view supervision framework to balance the effect of pseudo-labels during training. We test our method in the task of gaze generalization, in which we demonstrate improvement of up to $30\%$ compared to state-of-the-art when no ground truth data are available, and up to $10\%$ when they are. The project material will become available for research purposes.
翻訳日:2023-03-29 19:08:03 公開日:2023-03-28
# 皮膚局在のない非エルミタン端バースト

Non-Hermitian edge burst without skin localizations ( http://arxiv.org/abs/2212.02879v2 )

ライセンス: Link先を確認
C. Yuce, H. Ramezani(参考訳) 開境界条件を持つ損失格子における非エルミート量子ウォークのクラスでは、崩壊確率の分布の予期せぬピークがエッジバーストと呼ばれるエッジに現れる。 エッジバーストは非エルミート皮膚効果 (nhse) とスペクトルの空隙性 (wen-tan xue et al., phys. rev. lett. 128, 120401 (2022)) に起因していることが示唆された。 非一様損失率を持つ特定の1次元損失格子を用いて,nhse が存在しない場合にもエッジバーストが発生することを示す。 さらに,スペクトルが虚ギャップ条件を満たす場合,エッジバーストは現れない可能性があることを考察する。 その基本的な重要性とは別に、エッジバースト効果の観測に関する制限を取り除き、エッジバースト効果の将来の応用のためのより広い設計空間への扉を開く。

In a class of non-Hermitian quantum walk in lossy lattices with open boundary conditions, an unexpected peak in the distribution of the decay probabilities appears at the edge, dubbed edge burst. It is proposed that the edge burst is originated jointly from the non-Hermitian skin effect (NHSE) and the imaginary gaplessness of the spectrum [Wen-Tan Xue et al., Phys. Rev. Lett. 128, 120401 (2022)]. Using a particular one-dimensional lossy lattice with a nonuniform loss rate, we show that the edge burst can occur even in the absence of NHSE. Furthermore, we discuss that the edge burst may not appear if the spectrum satisfies the imaginary gaplesness condition. Aside from its fundamental importance, by removing the restrictions on observing the edge burst effect, our results open the door to broader design space for future applications of the edge burst effect.
翻訳日:2023-03-29 19:07:40 公開日:2023-03-28
# 目に見えないシナリオにおけるドメイン一般の群衆数

Domain-General Crowd Counting in Unseen Scenarios ( http://arxiv.org/abs/2212.02573v2 )

ライセンス: Link先を確認
Zhipeng Du, Jiankang Deng, Miaojing Shi(参考訳) 群集データ間のドメインシフトは、群集数モデルが目に見えないシナリオに一般化するのを著しく妨げます。 ドメイン適応的な集団カウントのアプローチはこのギャップをある程度閉じるが、ターゲットのドメインデータに依存してモデルを特定のドメインに適応させる(ファイントゥンなど)。 本稿では,任意の未確認領域に対してよく一般化可能な単一ソースドメインに基づくモデルをトレーニングすることを目的とする。 これは、群衆数では未解決の領域一般化の領域に属する。 まず、ソースドメインを複数のサブドメインに分割する動的サブドメイン分割スキームを導入し、ドメイン一般化のためのメタラーニングフレームワークを開始する。 サブドメイン分割はメタラーニング中に動的に洗練される。 次に、画像特徴量におけるドメイン固有情報からドメイン不変情報を分離するために、画像特徴を再エンコードするためにドメイン不変および特定のクラウドメモリモジュールを設計する。 特徴再構成と直交損失の2種類の損失が、この混乱を可能にするために考案された。 SHA,SHB,QNRF,NWPUなどの標準群カウントベンチマークによる大規模な実験は,本手法の強い一般化性を示している。

Domain shift across crowd data severely hinders crowd counting models to generalize to unseen scenarios. Although domain adaptive crowd counting approaches close this gap to a certain extent, they are still dependent on the target domain data to adapt (e.g. finetune) their models to the specific domain. In this paper, we aim to train a model based on a single source domain which can generalize well on any unseen domain. This falls into the realm of domain generalization that remains unexplored in crowd counting. We first introduce a dynamic sub-domain division scheme which divides the source domain into multiple sub-domains such that we can initiate a meta-learning framework for domain generalization. The sub-domain division is dynamically refined during the meta-learning. Next, in order to disentangle domain-invariant information from domain-specific information in image features, we design the domain-invariant and -specific crowd memory modules to re-encode image features. Two types of losses, i.e. feature reconstruction and orthogonal losses, are devised to enable this disentanglement. Extensive experiments on several standard crowd counting benchmarks i.e. SHA, SHB, QNRF, and NWPU, show the strong generalizability of our method.
翻訳日:2023-03-29 19:07:21 公開日:2023-03-28
# Modiff:拡散確率モデルを用いたアクションコンディション3次元運動生成

Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.03949v2 )

ライセンス: Link先を確認
Mengyi Zhao, Mengyuan Liu, Bin Ren, Shuling Dai, and Nicu Sebe(参考訳) 拡散に基づく生成モデルは最近、複数の領域における高品質な合成のための強力な解として登場している。 双方向マルコフ連鎖を利用する拡散確率モデルは、前方拡散過程における学習分布写像に基づいて逆マルコフ連鎖を推定することによりサンプルを生成する。 本研究では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,DDPM(Denoising diffusion Probabilistic Model)の利点を生かした条件付きパラダイムであるModiffを提案する。 我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。 我々は,大規模NTU RGB+Dデータセットに対するアプローチを評価し,最先端のモーション生成手法の改善を示す。

Diffusion-based generative models have recently emerged as powerful solutions for high-quality synthesis in multiple domains. Leveraging the bidirectional Markov chains, diffusion probabilistic models generate samples by inferring the reversed Markov chain based on the learned distribution mapping at the forward diffusion process. In this work, we propose Modiff, a conditional paradigm that benefits from the denoising diffusion probabilistic model (DDPM) to tackle the problem of realistic and diverse action-conditioned 3D skeleton-based motion generation. We are a pioneering attempt that uses DDPM to synthesize a variable number of motion sequences conditioned on a categorical action. We evaluate our approach on the large-scale NTU RGB+D dataset and show improvements over state-of-the-art motion generation methods.
翻訳日:2023-03-29 19:01:13 公開日:2023-03-28
# プレートから予防へ:シンガポールにおける健康増進のための栄養管理プラットフォーム

From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore ( http://arxiv.org/abs/2301.03829v2 )

ライセンス: Link先を確認
Kaiping Zheng, Thao Nguyen, Jesslyn Hwei Sing Chong, Charlene Enhui Goh, Melanie Herschel, Hee Hoon Lee, Changshuo Liu, Beng Chin Ooi, Wei Wang and James Yip(参考訳) シンガポールは、国民への医療サービスの提供を改善する努力を続けている。 このコースでは、慢性疾患の発症に寄与する要因として認識されている栄養素摂取の規制・監視の欠如に注目している。 その結果、この問題に大きな注目を集めた。 本稿では,この問題に対処し,シンガポール人に対して異なる側面の医療用栄養素摂取情報を得るための経験について紹介する。 この目的のために,シンガポールにおける多様なヘルスケア指向アプリケーションをサービスとしてインキュベーションするFoodSGプラットフォームを開発した。 さらに,シンガポールの食品データセットであるFoodSG-233の系統的クリーン化とキュレートを行った。 シンガポールの多孔食料理がもたらす認知能力のハードルを克服するため,食品認識モデルであるFoodSG-SCLに教師付きコントラスト学習を統合して,固い正・負のサンプルを抽出し,精度を高めることを提案する。 包括的評価を通じて,提案モデルの性能評価と食品関連医療応用に関する知見を示す。 FoodSG-233データセットはhttps://foodlg.comp.nus.edu.sg/でリリースされた。

Singapore has been striving to improve the provision of healthcare services to her people. In this course, the government has taken note of the deficiency in regulating and supervising people's nutrient intake, which is identified as a contributing factor to the development of chronic diseases. Consequently, this issue has garnered significant attention. In this paper, we share our experience in addressing this issue and attaining medical-grade nutrient intake information to benefit Singaporeans in different aspects. To this end, we develop the FoodSG platform to incubate diverse healthcare-oriented applications as a service in Singapore, taking into account their shared requirements. We further identify the profound meaning of localized food datasets and systematically clean and curate a localized Singaporean food dataset FoodSG-233. To overcome the hurdle in recognition performance brought by Singaporean multifarious food dishes, we propose to integrate supervised contrastive learning into our food recognition model FoodSG-SCL for the intrinsic capability to mine hard positive/negative samples and therefore boost the accuracy. Through a comprehensive evaluation, we present performance results of the proposed model and insights on food-related healthcare applications. The FoodSG-233 dataset has been released in https://foodlg.comp.nus.edu.sg/.
翻訳日:2023-03-29 19:01:00 公開日:2023-03-28
# 量子ニューマン・ムーア模型における相転移の境界条件依存性

Boundary conditions dependence of the phase transition in the quantum Newman-Moore model ( http://arxiv.org/abs/2301.02826v3 )

ライセンス: Link先を確認
Konstantinos Sfairopoulos, Luke Causer, Jamie F. Mair, Juan P. Garrahan(参考訳) 本研究では,2次元の周期的境界を持つ格子上に横磁場が存在する場合の三角形プラケットモデル(TPM,Newman-Mooreモデルとも呼ばれる)について検討する。 本稿では, この量子TPM(QTPM, 量子ニューマン・ムーアモデル)の基底状態相転移へのアプローチを, システムサイズと境界条件のタイプとして検討する。 セルセルオートマトン法を用いて,任意のトーラスサイズに対してTPMの最小エネルギー構成をフルに評価する。 QTPMでは、これらのサイクルパターンを用いてモデルの対称性を求め、量子相転移を決定する。 数値がアクセス可能なサイズについては、この分類が正確な対角化、行列積状態、量子モンテカルロシミュレーションと一致することも分かる。

We study the triangular plaquette model (TPM, also known as the Newman-Moore model) in the presence of a transverse magnetic field on a lattice with periodic boundaries in both spatial dimensions. We consider specifically the approach to the ground state phase transition of this quantum TPM (QTPM, or quantum Newman-Moore model) as a function of the system size and type of boundary conditions. Using cellular automata methods, we obtain a full characterization of the minimum energy configurations of the TPM for arbitrary tori sizes. For the QTPM, we use these cycle patterns to obtain the symmetries of the model, which we argue determine its quantum phase transition: we find it to be a first-order phase transition, with the addition of spontaneous symmetry breaking for system sizes which have degenerate classical ground states. For sizes accessible to numerics, we also find that this classification is consistent with exact diagonalization, Matrix Product States and Quantum Monte Carlo simulations.
翻訳日:2023-03-29 19:00:37 公開日:2023-03-28
# Anchor3DLane:モノクロ3Dレーン検出のための3Dアンカーの学習

Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane Detection ( http://arxiv.org/abs/2301.02371v2 )

ライセンス: Link先を確認
Shaofei Huang, Zhenwei Shen, Zehao Huang, Zi-han Ding, Jiao Dai, Jizhong Han, Naiyan Wang, Si Liu(参考訳) 深さ情報がないため,単眼3次元レーン検出は難しい課題である。 一般的な解決策は、まずフロントビュー(FV)画像や特徴を逆視点マッピング(IPM)で鳥眼(BEV)空間に変換し、BEV特徴から車線を検出することである。 しかし、IPMが平らな地上での仮定やコンテキスト情報の喪失に依存しているため、BEV表現から3D情報を復元するには不正確である。 BEVを排除し、FV表現から直接3Dレーンを予測する試みがなされているが、3Dレーンの構造的表現が欠如していることから、他のBEVベースの方法よりも性能が低い。 本稿では,3d空間における3dレーンアンカーを定義し,fv表現から直接3dレーンを予測するためのアンカー3dlane法を提案する。 3DレーンアンカーはFV機能に投影され、正確な予測を行うための優れた構造情報とコンテキスト情報の両方を含む特徴を抽出する。 さらに,車線間の等幅特性を利用した大域的最適化手法も開発し,予測の側方誤差を低減する。 3つの人気のある3Dレーン検出ベンチマークの大規模な実験により、我々のAnchor3DLaneは従来のBEVベースの手法より優れ、最先端のパフォーマンスを実現しています。 コードはhttps://github.com/tusen-ai/anchor3dlaneで入手できる。

Monocular 3D lane detection is a challenging task due to its lack of depth information. A popular solution is to first transform the front-viewed (FV) images or features into the bird-eye-view (BEV) space with inverse perspective mapping (IPM) and detect lanes from BEV features. However, the reliance of IPM on flat ground assumption and loss of context information make it inaccurate to restore 3D information from BEV representations. An attempt has been made to get rid of BEV and predict 3D lanes from FV representations directly, while it still underperforms other BEV-based methods given its lack of structured representation for 3D lanes. In this paper, we define 3D lane anchors in the 3D space and propose a BEV-free method named Anchor3DLane to predict 3D lanes directly from FV representations. 3D lane anchors are projected to the FV features to extract their features which contain both good structural and context information to make accurate predictions. In addition, we also develop a global optimization method that makes use of the equal-width property between lanes to reduce the lateral error of predictions. Extensive experiments on three popular 3D lane detection benchmarks show that our Anchor3DLane outperforms previous BEV-based methods and achieves state-of-the-art performances. The code is available at: https://github.com/tusen-ai/Anchor3DLane.
翻訳日:2023-03-29 19:00:22 公開日:2023-03-28
# textdescriptives: テキストから多種多様なメトリクスを計算するためのpythonパッケージ

TextDescriptives: A Python package for calculating a large variety of metrics from text ( http://arxiv.org/abs/2301.02057v3 )

ライセンス: Link先を確認
Lasse Hansen, Ludvig Renbo Olsen, Kenneth Enevoldsen(参考訳) TextDescriptivesは、テキストからさまざまなメトリクスを計算するためのPythonパッケージである。 SpaCy上に構築されており、既存のワークフローに簡単に統合できる。 このパッケージは、すでに臨床テキストの言語的安定性の分析、神経精神医学的状態の予測、小学生の言語的目標の分析に使われている。 本稿では,パッケージとその特徴について述べる。

TextDescriptives is a Python package for calculating a large variety of metrics from text. It is built on top of spaCy and can be easily integrated into existing workflows. The package has already been used for analysing the linguistic stability of clinical texts, creating features for predicting neuropsychiatric conditions, and analysing linguistic goals of primary school students. This paper describes the package and its features.
翻訳日:2023-03-29 18:59:54 公開日:2023-03-28
# 知覚理解による視覚表現学習の改善

Improving Visual Representation Learning through Perceptual Understanding ( http://arxiv.org/abs/2212.14504v2 )

ライセンス: Link先を確認
Samyakh Tukra, Frederick Hoffman, Ken Chatfield(参考訳) 本稿では,より高次なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習される表現を改良したマスキングオートエンコーダ(mae)の拡張を提案する。 私たちはこうしています (i)生成画像と実画像との知覚的類似性用語の導入 (II) マルチスケールトレーニングや適応型識別器増強を含む, 対人訓練文献からのいくつかのテクニックを取り入れた。 これらの組み合わせにより、ピクセル再構成だけでなく、画像内のより高レベルな詳細をキャプチャーする表現も改善される。 さらに,提案手法である知覚的maeが,従来の手法よりも下流タスクの方が優れた性能をもたらすことを示す。 我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%まで到達し、他の下流タスクでも同様の結果が得られる。

We present an extension to masked autoencoders (MAE) which improves on the representations learnt by the model by explicitly encouraging the learning of higher scene-level features. We do this by: (i) the introduction of a perceptual similarity term between generated and real images (ii) incorporating several techniques from the adversarial training literature including multi-scale training and adaptive discriminator augmentation. The combination of these results in not only better pixel reconstruction but also representations which appear to capture better higher-level details within images. More consequentially, we show how our method, Perceptual MAE, leads to better performance when used for downstream tasks outperforming previous methods. We achieve 78.1% top-1 accuracy linear probing on ImageNet-1K and up to 88.1% when fine-tuning, with similar results for other downstream tasks, all without use of additional pre-trained models or data.
翻訳日:2023-03-29 18:59:13 公開日:2023-03-28
# Feynmanの$i\eta$述語を用いた非バイアス量子シミュレーションのためのコンパクトノイズ耐性アルゴリズム

A Compact Noise-Tolerant Algorithm for Unbiased Quantum Simulation Using Feynman's $i\eta$ Prescription ( http://arxiv.org/abs/2212.14039v2 )

ライセンス: Link先を確認
Woo-Ram Lee, Ryan Scott, V. W. Scarola(参考訳) 古典的なメモリ制限に対する量子シミュレーションの利点は、コンパクトな量子回路が難解な量子多体問題に対する洞察を得ることができることである。 しかし、量子時間進化とノイズにおける大きな回路深度の相互関係の障害は、近い将来に非バイアス量子シミュレーションを排除しているように見える。 Feynmanの$i\eta$は、量子時間進化に必要な回路深さを指数関数的に改善することを証明する。 提案手法をハイブリッド量子/古典的アルゴリズムの構築に適用し,有用で観測可能なエネルギーギャップを推定する。 一般的なマルコフノイズチャネルに対するアルゴリズムの許容性を証明する。 我々は,IBMQデバイスと関連するノイズモデルを用いて,横フィールドIsingモデルの非バイアス有限サイズスケーリングを行うために,演算ウィンドウ内でのアルゴリズムの成功を実証する。 本研究は,非マルコフ雑音を許容範囲以下に抑える早期耐故障機械の量子誤り訂正符号を実装せずに,非バイアス量子ギャップ推定のステージを設定した。

Quantum simulation advantage over classical memory limitations would allow compact quantum circuits to yield insight into intractable quantum many-body problems. But the interrelated obstacles of large circuit depth in quantum time evolution and noise seem to rule out unbiased quantum simulation in the near term. We prove that Feynman's $i\eta$ prescription exponentially improves the circuit depth needed for quantum time evolution. We apply the prescription to the construction of a hybrid quantum/classical algorithm to estimate a useful observable, energy gap. We prove the algorithm's tolerance to all common Markovian noise channels. We demonstrate the success of the algorithm within an operation window by using it to perform unbiased finite-size scaling of the transverse-field Ising model using an IBMQ device and related noise models. Our findings set the stage for unbiased quantum gap estimation without implementing quantum error-correcting codes on early fault-tolerant machines where non-Markovian noise is kept below tolerances.
翻訳日:2023-03-29 18:58:58 公開日:2023-03-28
# 脳波復号のための深いリーマンネットワーク

Deep Riemannian Networks for EEG Decoding ( http://arxiv.org/abs/2212.10426v4 )

ライセンス: Link先を確認
Daniel Wilson, Robin Tibor Schirrmeister, Lukas Alexander Wilhelm Gemein, Tonio Ball(参考訳) 電子脳波(EEG)復号処理の最先端性能は、現在Deep-Learning または Riemannian-Geometry ベースの復号器を用いて達成されている。 近年,Deep Riemannian Networks (DRN) への関心が高まっている。 しかし、より広範なDRNをEEGに応用するには、さらなる洞察が必要である、というトピックは、まだたくさんある。 これにはネットワークサイズやエンドツーエンドの能力といったアーキテクチャ設計の問題や、モデルのトレーニングに関する質問が含まれる。 これらの要因がモデルのパフォーマンスにどのように影響するかは検討されていない。 さらに、これらのネットワーク内のデータがどのように変換され、それが従来の脳波デコードと相関するかは明らかではない。 本研究の目的は,脳波のDRNを多種多様なパラメーターで解析することで,これらのトピックの領域の基盤となることにある。 ネットワークは2つのパブリックEEGデータセットでテストされ、最先端のConvNetと比較された。 本稿では、エンド・ツー・エンドの脳波spdnet(ee(g)-spdnet)を提案し、この広範囲のエンド・ツー・エンドのdrmが、コンブネットよりも優れており、生理学的に妥当な周波数領域を用いていることを示す。 また、エンド・ツー・エンドの手法は、脳波の古典的アルファ、ベータ、ガンマ周波数帯域を対象とする従来の帯域通過フィルタよりも複雑なフィルタを学習し、チャネル固有のフィルタリング手法の恩恵を受けることを示す。 さらに、アーキテクチャ解析により、ネットワーク全体のリーマン固有情報が失われる可能性があるため、さらなる改善が図られた。 そこで本研究では,手作りのフィルタバンクを必要とせずに,生の脳波からタスク関連情報を推測するためのDRNの設計と訓練方法を示し,高性能な脳波復号のためのEE(G)-SPDNetなどのエンドツーエンドDRNの可能性を強調した。

State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning or Riemannian-Geometry-based decoders. Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability as well as model training questions. How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding.
翻訳日:2023-03-29 18:58:39 公開日:2023-03-28
# 非エルミート非相反系における輸送効果:一般アプローチ

Transport effects in non-Hermitian nonreciprocal systems: General approach ( http://arxiv.org/abs/2302.03240v2 )

ライセンス: Link先を確認
Hamed Ghaemi-Dizicheh(参考訳) 本稿では,非エルミート非相互系における反射・透明輸送,ラシング,コヒーレント完全吸収などの輸送効果の条件を一般化的伝達行列法を用いて同定するための統一解析フレームワークを提案する。 これは、高次元モデルや内部自由度を持つものを含む、密結合プラットフォームの輸送を研究するための普遍的なアプローチを提供する。 密結合モデルの特定のクラスでは、関連する輸送条件とその非エルミート的、非相反的、位相的挙動のシグネチャは、一般の観点から解析的に説明可能である。 システムパラメータをチューニングして輸送効果と位相位相位相を調整できるパラダイム的ラダーモデルにおいて、このクラスを調査し、形式性を説明する。

In this paper, we present a unifying analytical framework for identifying conditions for transport effects such as reflectionless and transparent transport, lasing, and coherent perfect absorption in non-Hermitian nonreciprocal systems using a generalized transfer matrix method. This provides a universal approach to studying the transport of tight-binding platforms, including higher-dimensional models and those with an internal degree of freedom going beyond the previously studied case of one-dimensional chains with nearest-neighbor couplings. For a specific class of tight-binding models, the relevant transport conditions and their signatures of non-Hermitian, nonreciprocal, and topological behavior are analytically tractable from a general perspective. We investigate this class and illustrate our formalism in a paradigmatic ladder model where the system's parameters can be tuned to adjust the transport effect and topological phases.
翻訳日:2023-03-29 18:51:17 公開日:2023-03-28
# 自由形電磁逆設計のためのニューラルネットワークに基づくサロゲート解法

A neural operator-based surrogate solver for free-form electromagnetic inverse design ( http://arxiv.org/abs/2302.01934v2 )

ライセンス: Link先を確認
Yannick Augenstein, Taavi Rep\"an, Carsten Rockstuhl(参考訳) ニューラルネットワークは、科学機械学習の文脈で偏微分方程式を解く強力なツールとして登場した。 本稿では,改良したフーリエニューラル演算子を電磁散乱問題のサロゲート解法として実装し,そのデータ効率を既存の手法と比較する。 さらに,自由形,完全3次元電磁散乱器の勾配に基づくナノフォトニクス逆設計への応用を実証する。

Neural operators have emerged as a powerful tool for solving partial differential equations in the context of scientific machine learning. Here, we implement and train a modified Fourier neural operator as a surrogate solver for electromagnetic scattering problems and compare its data efficiency to existing methods. We further demonstrate its application to the gradient-based nanophotonic inverse design of free-form, fully three-dimensional electromagnetic scatterers, an area that has so far eluded the application of deep learning techniques.
翻訳日:2023-03-29 18:51:01 公開日:2023-03-28
# レーティング予測のための意味的符号化のKNN

KNNs of Semantic Encodings for Rating Prediction ( http://arxiv.org/abs/2302.00412v2 )

ライセンス: Link先を確認
L\'eo Laugier, Raghuram Vadapalli, Thomas Bonald, Lucas Dixon(参考訳) 本稿では,テキストのセマンティックな類似性を利用した評価予測手法を提案する。 このアプローチは、エッジが意味的類似性によって定義されるレビューテキストからのテキストスニペットのグラフとして、ユーザの好みを表す。 このテキストによるメモリベースの評価予測アプローチは、レコメンデーションのためのレビューベースの説明を可能にする。 この手法は定量的に評価され、この方法でテキストを活用すると、強いメモリベースとモデルベースの協調フィルタリングベースラインの両方で性能が向上する。

This paper explores a novel application of textual semantic similarity to user-preference representation for rating prediction. The approach represents a user's preferences as a graph of textual snippets from review text, where the edges are defined by semantic similarity. This textual, memory-based approach to rating prediction enables review-based explanations for recommendations. The method is evaluated quantitatively, highlighting that leveraging text in this way outperforms both strong memory-based and model-based collaborative filtering baselines.
翻訳日:2023-03-29 18:50:52 公開日:2023-03-28
# DRIMET: タグ付きMRIにおける3次元非圧縮性運動推定のための深い登録と舌への応用

DRIMET: Deep Registration for 3D Incompressible Motion Estimation in Tagged-MRI with Application to the Tongue ( http://arxiv.org/abs/2301.07234v2 )

ライセンス: Link先を確認
Zhangxing Bian, Fangxu Xing, Jinglun Yu, Muhan Shao, Yihao Liu, Aaron Carass, Jiachen Zhuo, Jonghye Woo, Jerry L. Prince(参考訳) タグ付きMRI(Tagged magnetic resonance imaging)は、変形組織の詳細な動きを観察し定量化するために何十年も使われてきた。 しかし, この手法は, タグフェーディングや大きな動き, 長時間の計算時間, 微分同相非圧縮性流れ場獲得の困難といった課題に直面している。 そこで本稿では,タグ付きmriのための教師なし位相に基づく3次元運動推定手法を提案する。 2つの重要なイノベーションを紹介します まず、調和位相入力に正弦波変換を適用し、エンドツーエンドのトレーニングを可能にし、位相補間の必要性を回避する。 第二に, 生体組織を変形させるための非圧縮性流れ場を促すジャコビアン決定式に基づく学習目標を提案する。 本手法は, 高精度で密度が高く, ほぼ微分可能で非圧縮な3次元運動場を効率的に推定する。 この方法の有効性は、発話中の人間の舌の動きを用いて評価され、正常なコントロールと舌郭清を行った患者の両方を含む。 提案手法は既存の手法よりも優れており,また,タグフェージングに対する速度,頑健性,舌の動きが向上していることを示す。

Tagged magnetic resonance imaging (MRI) has been used for decades to observe and quantify the detailed motion of deforming tissue. However, this technique faces several challenges such as tag fading, large motion, long computation times, and difficulties in obtaining diffeomorphic incompressible flow fields. To address these issues, this paper presents a novel unsupervised phase-based 3D motion estimation technique for tagged MRI. We introduce two key innovations. First, we apply a sinusoidal transformation to the harmonic phase input, which enables end-to-end training and avoids the need for phase interpolation. Second, we propose a Jacobian determinant-based learning objective to encourage incompressible flow fields for deforming biological tissues. Our method efficiently estimates 3D motion fields that are accurate, dense, and approximately diffeomorphic and incompressible. The efficacy of the method is assessed using human tongue motion during speech, and includes both healthy controls and patients that have undergone glossectomy. We show that the method outperforms existing approaches, and also exhibits improvements in speed, robustness to tag fading, and large tongue motion.
翻訳日:2023-03-29 18:50:02 公開日:2023-03-28
# ビデオグラウンド用プロンプトキャプションの爆発

Exploiting Prompt Caption for Video Grounding ( http://arxiv.org/abs/2301.05997v2 )

ライセンス: Link先を確認
Hongxiang Li, Meng Cao, Xuxin Cheng, Zhihong Zhu, Yaowei Li, Yuexian Zou(参考訳) ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。 以前の作業では、ビデオアノテーションの「emph{sparsity dilemma}」を無視しており、潜在的なイベントとデータセットのクエリ文の間のコンテキスト情報の提供に失敗している。 本稿では,本論文で定義した一般的な動作を記述したキャプション(PC)を活用すれば,性能が大幅に向上すると主張している。 そこで本稿では,ビデオグラウンドのためのPCNet(Prompt Caption Network)を提案する。 具体的には,まず,高密度キャプションを生成して,非プロンプトキャプション抑制(NPCS)によるプロンプトキャプションを得る。 そこで我々は,アクセプションとクエリ文のセマンティックな関係を時間空間に投影し,それらを視覚表現に融合させるCGA(Caption Guided Attention)を提案する。 そこで我々は, よりネガティブなペアを構築し, 相互情報を最大化するための非対称なクロスモーダルコントラスト学習(ACCL)を提案する。 ベルやホイッスルがなければ,3つの公開データセット(\ie, ActivityNet Captions, TACoS, ActivityNet-CG)の広範な実験により,我々の手法が最先端の手法よりも優れていることが示された。

Video grounding aims to locate a moment of interest matching the given query sentence from an untrimmed video. Previous works ignore the \emph{sparsity dilemma} in video annotations, which fails to provide the context information between potential events and query sentences in the dataset. In this paper, we contend that exploiting easily available captions which describe general actions \ie, prompt captions (PC) defined in our paper, will significantly boost the performance. To this end, we propose a Prompt Caption Network (PCNet) for video grounding. Specifically, we first introduce dense video captioning to generate dense captions and then obtain prompt captions by Non-Prompt Caption Suppression (NPCS). To capture the potential information in prompt captions, we propose Caption Guided Attention (CGA) project the semantic relations between prompt captions and query sentences into temporal space and fuse them into visual representations. Considering the gap between prompt captions and ground truth, we propose Asymmetric Cross-modal Contrastive Learning (ACCL) for constructing more negative pairs to maximize cross-modal mutual information. Without bells and whistles, extensive experiments on three public datasets (\ie, ActivityNet Captions, TACoS and ActivityNet-CG) demonstrate that our method significantly outperforms state-of-the-art methods.
翻訳日:2023-03-29 18:49:42 公開日:2023-03-28
# jana: 複雑なベイズ模型の合同不定形ニューラルネットワーク近似

JANA: Jointly Amortized Neural Approximation of Complex Bayesian Models ( http://arxiv.org/abs/2302.09125v2 )

ライセンス: Link先を確認
Stefan T. Radev, Marvin Schmitt, Valentin Pratz, Umberto Picchini, Ullrich K\"othe, Paul-Christian B\"urkner(参考訳) 本研究は,ベイジアン・サロゲート・モデリングとシミュレーションに基づく推論において生じる難解な確率関数と後方密度の'jointly amortized neural approximation''(jana)を提案する。 エンドツーエンドで3つの補完ネットワークをトレーニングします。 1)個々のデータポイント,集合又は時系列を情報埋め込みベクトルに圧縮する要約ネットワーク 2) 補修後部を学習するための後部ネットワーク,及び 3) 修復された近似確率を学習する確率ネットワーク。 彼らの相互作用は、償却限界の確率と後続予測推定への新たな道を開き、ベイズワークフローの重要な2つの要素は、標準的手法には高すぎることが多い。 我々は,JANAの精度を,最先端ベイズ法に対する様々なシミュレーションモデルで評価し,関節校正のための強力かつ解釈可能な診断法を提案する。 さらに,手作り要約統計に頼らずに,複雑な時系列モデルをエミュレートする確率ネットワークについて検討した。

This work proposes ''jointly amortized neural approximation'' (JANA) of intractable likelihood functions and posterior densities arising in Bayesian surrogate modeling and simulation-based inference. We train three complementary networks in an end-to-end fashion: 1) a summary network to compress individual data points, sets, or time series into informative embedding vectors; 2) a posterior network to learn an amortized approximate posterior; and 3) a likelihood network to learn an amortized approximate likelihood. Their interaction opens a new route to amortized marginal likelihood and posterior predictive estimation -- two important ingredients of Bayesian workflows that are often too expensive for standard methods. We benchmark the fidelity of JANA on a variety of simulation models against state-of-the-art Bayesian methods and propose a powerful and interpretable diagnostic for joint calibration. In addition, we investigate the ability of recurrent likelihood networks to emulate complex time series models without resorting to hand-crafted summary statistics.
翻訳日:2023-03-29 18:42:25 公開日:2023-03-28
# adaptersoup: 事前学習された言語モデルの一般化を改善するための重量平均化

AdapterSoup: Weight Averaging to Improve Generalization of Pretrained Language Models ( http://arxiv.org/abs/2302.07027v3 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Matthew E. Peters, Alexander Fraser, Jesse Dodge(参考訳) 事前訓練された言語モデル(PLM)は大量のコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。 パラメータ効率の良い適応方法は、言語モデリングのタスクで各ドメインのアダプタをトレーニングすることを提案する。 ドメイン内スコアは良好だが、ドメイン内設定やリソース制限設定では実用的ではない。 解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。 本稿では,異なるドメインでトレーニングされたアダプタの重み空間平均化を行う手法であるadaptersoupを提案する。 まず、ドメイン固有のアダプタのセットをトレーニングします。次に、新しいドメイン毎に、テスト時にどのアダプタを平均化すべきかを決定します。 本稿では、AdapterSoupが追加トレーニングなしで新しいドメインのパフォーマンスを継続的に改善することを示す広範な実験を示す。 また、異なるハイパーパラメータを持つ同じドメインでトレーニングされたアダプタの重量平均化についても検討し、新しいドメインでのplmのパフォーマンスを保ちつつ、強いドメイン内結果を得ることができることを示した。 テキストクラスタリングや意味的類似性など,どのアダプタを組み合わせるかを選択するためのさまざまなアプローチを検討する。 クラスタリングを使うことで、新しいドメイン上で最も競争力のある結果が得られます。

Pretrained language models (PLMs) are trained on massive corpora, but often need to specialize to specific domains. A parameter-efficient adaptation method suggests training an adapter for each domain on the task of language modeling. This leads to good in-domain scores but can be impractical for domain- or resource-restricted settings. A solution is to use a related-domain adapter for the novel domain at test time. In this paper, we introduce AdapterSoup, an approach that performs weight-space averaging of adapters trained on different domains. Our approach is embarrassingly parallel: first, we train a set of domain-specific adapters; then, for each novel domain, we determine which adapters should be averaged at test time. We present extensive experiments showing that AdapterSoup consistently improves performance to new domains without extra training. We also explore weight averaging of adapters trained on the same domain with different hyper-parameters, and show that it preserves the performance of a PLM on new domains while obtaining strong in-domain results. We explore various approaches for choosing which adapters to combine, such as text clustering and semantic similarity. We find that using clustering leads to the most competitive results on novel domains.
翻訳日:2023-03-29 18:41:22 公開日:2023-03-28
# スティッチブルニューラルネットワーク

Stitchable Neural Networks ( http://arxiv.org/abs/2302.06586v3 )

ライセンス: Link先を確認
Zizheng Pan, Jianfei Cai, Bohan Zhuang(参考訳) 巨大な事前訓練されたモデルファミリー(例えばResNet/DeiT)を含むパブリックモデル動物園は、これまでになく前例のない範囲に達し、ディープラーニングの成功に大きく貢献している。 各モデルファミリは、様々なスケール(例えば、DeiT-Ti/S/B)で事前訓練されたモデルで構成されているため、実行時に動的精度と効率のトレードオフのために、これらの容易なモデルをファミリにどのように効率的に組み立てるかという根本的な問題が発生する。 この目的のために、モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。 トレーニング済みニューラルネットワークのファミリーによって、さまざまな複雑さとパフォーマンスのトレードオフを持つ多数のネットワークを安価に生成します。 具体的には、SN-Netはアンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。 SN-Netはトレーニングのごく一部で、様々なスケールのアンカーのパフォーマンスを効果的に補間する。 実行時にSN-Netは、縫合位置を切り替えることで、動的リソース制約に即座に適応できる。 ImageNet分類に関する大規模な実験では、SN-Netは、さまざまなデプロイメントシナリオをサポートしながら、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。 例えば、Swin Transformerを縫い合わせることで、単一のネットワークを持つTimモデル動物園の数百のモデルに挑戦する。 この新しい弾力性モデルフレームワークは、より広いコミュニティにおけるさらなる研究の強力なベースラインとなると信じています。

The public model zoo containing enormous powerful pretrained model families (e.g., ResNet/DeiT) has reached an unprecedented scope than ever, which significantly contributes to the success of deep learning. As each model family consists of pretrained models with diverse scales (e.g., DeiT-Ti/S/B), it naturally arises a fundamental question of how to efficiently assemble these readily available models in a family for dynamic accuracy-efficiency trade-offs at runtime. To this end, we present Stitchable Neural Networks (SN-Net), a novel scalable and efficient framework for model deployment. It cheaply produces numerous networks with different complexity and performance trade-offs given a family of pretrained neural networks, which we call anchors. Specifically, SN-Net splits the anchors across the blocks/layers and then stitches them together with simple stitching layers to map the activations from one anchor to another. With only a few epochs of training, SN-Net effectively interpolates between the performance of anchors with varying scales. At runtime, SN-Net can instantly adapt to dynamic resource constraints by switching the stitching positions. Extensive experiments on ImageNet classification demonstrate that SN-Net can obtain on-par or even better performance than many individually trained networks while supporting diverse deployment scenarios. For example, by stitching Swin Transformers, we challenge hundreds of models in Timm model zoo with a single network. We believe this new elastic model framework can serve as a strong baseline for further research in wider communities.
翻訳日:2023-03-29 18:41:03 公開日:2023-03-28
# 衝突型貯水池の熱処理と脱落

Thermalization and dephasing in collisional reservoirs ( http://arxiv.org/abs/2302.06429v2 )

ライセンス: Link先を確認
Jorge Tabanera-Bravo, Juan M.R. Parrondo, Massimiliano Esposito, Felipe Barra(参考訳) 衝突貯水池で発生する幅広い量子マップを導入し,追加のデファッショニング機構と連動して動作する場合,システムを熱分解することができる。 これらの地図は衝突の影響を記述し、詳細なバランスに従う集団間の遷移を誘導するだけでなく、システムの熱化を防ぐコヒーレンスも生成する。 これらの地図と、衝突の間のポアソニアン時間のランダムに作用するユニタリ進化を組み合わせることで、デファスメントを引き起こす。 衝突率が低ければ、この2つの効果の非自明な組み合わせが系の熱化を引き起こすことが分かる。 このシナリオは平衡での衝突貯水池のモデル化に適している。 このような写像が散乱理論のアプローチで生じる条件を特定してこの主張を正当化し、得られた熱化過程を徹底的に評価する。

We introduce a wide class of quantum maps that arise in collisional reservoirs and are able to thermalize a system if they operate in conjunction with an additional dephasing mechanism. These maps describe the effect of collisions and induce transitions between populations that obey detailed balance, but also create coherences that prevent the system from thermalizing. We combine these maps with a unitary evolution acting during random Poissonian times between collisions and causing dephasing. We find that, at a low collision rate, the nontrivial combination of these two effects causes thermalization in the system. This scenario is suitable for modeling collisional reservoirs at equilibrium. We justify this claim by identifying the conditions for such maps to arise within a scattering theory approach and provide a thorough characterization of the resulting thermalization process.
翻訳日:2023-03-29 18:40:35 公開日:2023-03-28
# BEST: Coupling Tokenizationによる手話認識のためのBERT事前学習

BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization ( http://arxiv.org/abs/2302.05075v3 )

ライセンス: Link先を確認
Weichao Zhao, Hezhen Hu, Wengang Zhou, Jiaxin Shi, Houqiang Li(参考訳) 本研究では,bertプリトレーニングの成功を活用し,手話認識モデル(slr)を成熟させるためにドメイン固有統計をモデル化する。 手と体が手話表現の優位性を考えると、それらを3重奏単位として整理し、フレームワイドでトランスフォーマーのバックボーンに供給する。 マスク付き三重項ユニットを破損した入力シーケンスから再構成し、内部および外部三重項ユニット間の階層的相関コンテキストキューを学習する。 特に、BERTの高度に意味のある単語トークンとは異なり、ポーズユニットはもともと連続空間に位置する低レベル信号であり、BERTのクロスエントロピー目的の直接適用を防止する。 この目的のために、三重項単位の結合トークン化により、この意味ギャップを橋渡しする。 意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。 事前学習後、下流SLRタスクの事前学習エンコーダを、新たに追加されたタスク固有層と共に微調整する。 提案手法の有効性を検証し,4つのベンチマークで新たな最先端性能を実現し,有意な評価を得た。

In this work, we are dedicated to leveraging the BERT pre-training success and modeling the domain-specific statistics to fertilize the sign language recognition~(SLR) model. Considering the dominance of hand and body in sign language expression, we organize them as pose triplet units and feed them into the Transformer backbone in a frame-wise manner. Pre-training is performed via reconstructing the masked triplet unit from the corrupted input sequence, which learns the hierarchical correlation context cues among internal and external triplet units. Notably, different from the highly semantic word token in BERT, the pose unit is a low-level signal originally located in continuous space, which prevents the direct adoption of the BERT cross-entropy objective. To this end, we bridge this semantic gap via coupling tokenization of the triplet unit. It adaptively extracts the discrete pseudo label from the pose triplet unit, which represents the semantic gesture/body state. After pre-training, we fine-tune the pre-trained encoder on the downstream SLR task, jointly with the newly added task-specific layer. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain.
翻訳日:2023-03-29 18:40:20 公開日:2023-03-28
# ユーザプライバシを意識したモバイルゲームアプリインストール予測モデルの実現に向けて

Towards a User Privacy-Aware Mobile Gaming App Installation Prediction Model ( http://arxiv.org/abs/2302.03332v2 )

ライセンス: Link先を確認
Ido Zehori, Nevo Itzhak, Yuval Shahar and Mia Dor Schiller(参考訳) 過去10年間、プログラム型広告はオンライン広告業界で大きな注目を集めてきた。 リアルタイム入札(RTB)システムは、オンライン広告インプレッションを売買する最も一般的な方法になりつつある。 RTBシステム内では、需要側プラットフォーム(DSP)は、広告主のキャンペーン予算を効率よく消費し、利益を最大化し、クリックやインストールのような高いユーザー反応をもたらすインプレッションを求める。 本研究では,モバイルゲームアプリのインストールを特定のDSPの観点から予測し,ユーザのプライバシに注意を払って,プライバシ保護とモデルパフォーマンスのトレードオフを探るプロセスについて検討する。 データ変換や匿名化など、データ共有プロセスに関連するプライバシリークに依存するため、ユーザプライバシに対する潜在的な脅威には、さまざまなレベルがあります。 これらの懸念に対処するため、プライバシーを意識した機械学習モデルをトレーニングするための暗号アプローチのようなプライバシー保護技術が提案された。 しかし、ユーザレベルのデータを使用しないモバイルゲームアプリのインストール予測モデルをトレーニングする能力は、予測能力に障害があったとしても、これらの脅威を防止し、ユーザのプライバシを保護することができる。 さらに、現在の法律では、企業はデータ収集を宣言し、ユーザーレベルのデータの収集と利用に依存するデジタル広告における企業のビジネスモデルを脅かすようなデータ収集からオプトアウトするオプションをユーザーに与えることさえあるかもしれない。 プライバシを意識したモデルは依然として重要な機能を保持しており、企業はそれぞれのケースのプライバシー効率のトレードオフユーティリティ機能に依存して、より良い意思決定をすることができる。

Over the past decade, programmatic advertising has received a great deal of attention in the online advertising industry. A real-time bidding (RTB) system is rapidly becoming the most popular method to buy and sell online advertising impressions. Within the RTB system, demand-side platforms (DSP) aim to spend advertisers' campaign budgets efficiently while maximizing profit, seeking impressions that result in high user responses, such as clicks or installs. In the current study, we investigate the process of predicting a mobile gaming app installation from the point of view of a particular DSP, while paying attention to user privacy, and exploring the trade-off between privacy preservation and model performance. There are multiple levels of potential threats to user privacy, depending on the privacy leaks associated with the data-sharing process, such as data transformation or de-anonymization. To address these concerns, privacy-preserving techniques were proposed, such as cryptographic approaches, for training privacy-aware machine-learning models. However, the ability to train a mobile gaming app installation prediction model without using user-level data, can prevent these threats and protect the users' privacy, even though the model's ability to predict may be impaired. Additionally, current laws might force companies to declare that they are collecting data, and might even give the user the option to opt out of such data collection, which might threaten companies' business models in digital advertising, which are dependent on the collection and use of user-level data. We conclude that privacy-aware models might still preserve significant capabilities, enabling companies to make better decisions, dependent on the privacy-efficacy trade-off utility function of each case.
翻訳日:2023-03-29 18:39:58 公開日:2023-03-28
# ACL-SPC:セルフスーパービジョンポイントクラウドコンプリートのための適応クローズドループシステム

ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion ( http://arxiv.org/abs/2303.01979v3 )

ライセンス: Link先を確認
Sangmin Hong, Mohsen Yavartanoo, Reyhaneh Neshatavar, Kyoung Mu Lee(参考訳) 点雲完了は、深さセンサーから得られる部分点雲の欠落部分を満たし、完全な点雲を生成する。 合成ポイントクラウド補完タスクでは教師あり手法が急速に進歩してきたが、合成と実世界のデータセット間のドメインギャップや事前情報要件のため、現実のシナリオでは適用できない。 これらの制約を克服するために、同一データ上でのトレーニングとテストのためのポイントクラウド補完のための、新しい自己管理フレームワーク ACL-SPC を提案する。 ACL-SPCは1つの部分入力を受け取り、入力の変動に対して同じ出力を強制する適応クローズドループ(ACL)システムを用いて完全点クラウドを出力しようとする。 提案したACL-SPCを各種データセット上で評価し,最初の自己教師型スキームとして部分点雲を完遂できることを証明する。 その結果,本手法は教師なし手法と同等であり,合成データセット上で訓練された教師付き手法と比較して実世界のデータセットで優れた性能を発揮することがわかった。 大規模実験は,自己指導型学習の必要性を正当化し,提案手法の有効性を実証するものである。 コードはhttps://github.com/Sangminhong/ACL-SPC_PyTorchから公開されている。

Point cloud completion addresses filling in the missing parts of a partial point cloud obtained from depth sensors and generating a complete point cloud. Although there has been steep progress in the supervised methods on the synthetic point cloud completion task, it is hardly applicable in real-world scenarios due to the domain gap between the synthetic and real-world datasets or the requirement of prior information. To overcome these limitations, we propose a novel self-supervised framework ACL-SPC for point cloud completion to train and test on the same data. ACL-SPC takes a single partial input and attempts to output the complete point cloud using an adaptive closed-loop (ACL) system that enforces the output same for the variation of an input. We evaluate our proposed ACL-SPC on various datasets to prove that it can successfully learn to complete a partial point cloud as the first self-supervised scheme. Results show that our method is comparable with unsupervised methods and achieves superior performance on the real-world dataset compared to the supervised methods trained on the synthetic dataset. Extensive experiments justify the necessity of self-supervised learning and the effectiveness of our proposed method for the real-world point cloud completion task. The code is publicly available from https://github.com/Sangminhong/ACL-SPC_PyTorch
翻訳日:2023-03-29 18:33:12 公開日:2023-03-28
# 奥行き画像からの高精度・詳細な顔再構成のための階層的表現ネットワーク

A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images ( http://arxiv.org/abs/2302.14434v2 )

ライセンス: Link先を確認
Biwen Lei, Jianqiang Ren, Mengyang Feng, Miaomiao Cui, Xuansong Xie(参考訳) 3DMMの低次元表現能力の性質により、ほとんどの3DMMベースの顔再構成(FR)法は、シワ、ディアンプなどの高周波顔の細部を回復できない。 詳細マップや非線形操作を導入してこの問題を解決する試みもあるが、その結果はまだ鮮明ではない。 そこで本研究では,単一の画像から顔の正確な再現を実現するために,新しい階層型表現ネットワーク(HRN)を提案する。 具体的には,幾何学的絡み合いを実装し,詳細な顔モデルを実現するために階層表現を導入する。 一方,再建結果の正確性と信頼性を高めるため,顔詳細の3次元前処理が組み込まれている。 また,形状と外観の疎結合性を向上するデタッチモジュールを提案する。 異なるビューの詳細な一貫性を考慮して、フレームワークをマルチビューに拡張できることは注目に値する。 2つのシングルビューFRベンチマークと2つのマルチビューFRベンチマークの大規模な実験により、提案手法は再現精度と視覚効果の両方において既存の手法よりも優れていることが示された。 最後に,高品質な3d顔データセットfacehd-100を導入し,高忠実度顔再構成の研究を促進する。 プロジェクトのホームページはhttps://younglbw.github.io/HRN-homepage/にある。

Limited by the nature of the low-dimensional representational capacity of 3DMM, most of the 3DMM-based face reconstruction (FR) methods fail to recover high-frequency facial details, such as wrinkles, dimples, etc. Some attempt to solve the problem by introducing detail maps or non-linear operations, however, the results are still not vivid. To this end, we in this paper present a novel hierarchical representation network (HRN) to achieve accurate and detailed face reconstruction from a single image. Specifically, we implement the geometry disentanglement and introduce the hierarchical representation to fulfill detailed face modeling. Meanwhile, 3D priors of facial details are incorporated to enhance the accuracy and authenticity of the reconstruction results. We also propose a de-retouching module to achieve better decoupling of the geometry and appearance. It is noteworthy that our framework can be extended to a multi-view fashion by considering detail consistency of different views. Extensive experiments on two single-view and two multi-view FR benchmarks demonstrate that our method outperforms the existing methods in both reconstruction accuracy and visual effects. Finally, we introduce a high-quality 3D face dataset FaceHD-100 to boost the research of high-fidelity face reconstruction. The project homepage is at https://younglbw.github.io/HRN-homepage/.
翻訳日:2023-03-29 18:32:49 公開日:2023-03-28
# 量子力学における多光子次元の呪いに対処する光学系の高速シミュレーション

Fast simulation for optical systems addressing the curse of dimensionality of multi-photons in quantum mechanics ( http://arxiv.org/abs/2302.13953v2 )

ライセンス: Link先を確認
Junpei Oba, Seiji Kajita, Akihito Soeda(参考訳) 光子は光の基本粒子であり、その詳細な理解は量子力学の謎を解く上で鍵となる。 しかし、その直観に反する量子の性質は、その力学、特に複素系に対する洞察を得ることを困難にしている。 シミュレーションはこの問題を解決するための有望なツールであるが、以前の手法は次元の呪い、すなわち光子数でベース数が指数関数的に増加することによる制限がある。 本稿では,線形光学対象からなる光学系に着目して,この次元スケールを緩和する。 複数の光子上の時間進化作用素を、単一の光子に作用する時間進化作用素のグループに分解する。 単一光子時間発展演算子の次元は光子数において多光子演算子の次元よりも指数関数的に小さいので、この分解により多光子シミュレーションは計算コストをはるかに低くすることができる。 本手法は,Hong-Ou-Mandel干渉やBell-CHSH不等式違反などの基本的な単光子・多光子現象に適用し,計算特性が実験結果と定量的に比較できることを確認する。 さらに,光子の空間伝播を可視化し,量子化技術の実験設計を支援する知見を提供する。

Photons are an elementary particle of light, whose detailed understanding plays a key in unraveling the mysteries of quantum mechanics. However, its counter-intuitive quantum nature makes it challenging to gain insights into its dynamics, particularly in complex systems. Simulation is a promising tool to resolve this issue, but previous methods are limited by the curse of dimensionality, namely, that the number of bases increases exponentially in the number of photons. Here we mitigate this dimensionality scaling by focusing on optical system composed of linear-optical objects. We decompose the time evolutionary operator on multiple photons into a group of time evolution operators acting on a single photon. Since the dimension of a single-photon time evolution operator is exponentially smaller than that of a multi-photon one in the number of photons, the decomposition enables the multi-photon simulations to be performed at a much lower computational cost. We apply this method to basic single- and multi-photon phenomena, such as Hong-Ou-Mandel interference and violation of the Bell-CHSH inequality, and confirm that the calculated properties are quantitatively comparable to the experimental results. Furthermore, our method visualizes the spatial propagation of photons hence provides insights that aid experiment designs for quantum-enabled technologies.
翻訳日:2023-03-29 18:32:28 公開日:2023-03-28
# 生成可能可逆量子ニューラルネットワーク

Generative Invertible Quantum Neural Networks ( http://arxiv.org/abs/2302.12906v2 )

ライセンス: Link先を確認
Armand Rousselot and Michael Spannowsky(参考訳) Invertible Neural Networks (INN)は、高度に複雑なデータのシミュレーションと生成のためのツールとして確立されている。 本稿では,量子可逆ニューラルネットワーク(QINN)の量子ゲートアルゴリズムを提案し,これを粒子衝突精度測定の標準ろうそくプロセスであるレプトンに崩壊するZボソンのジェット関連生成のLHCデータに適用する。 異なる損失関数とトレーニングシナリオに対するQINNのパフォーマンスを比較した。 この課題に対して、ハイブリッドQINNは、より大規模な純粋に古典的な INN の性能と、複雑なデータの学習と生成において一致している。

Invertible Neural Networks (INN) have become established tools for the simulation and generation of highly complex data. We propose a quantum-gate algorithm for a Quantum Invertible Neural Network (QINN) and apply it to the LHC data of jet-associated production of a Z-boson that decays into leptons, a standard candle process for particle collider precision measurements. We compare the QINN's performance for different loss functions and training scenarios. For this task, we find that a hybrid QINN matches the performance of a significantly larger purely classical INN in learning and generating complex data.
翻訳日:2023-03-29 18:32:06 公開日:2023-03-28
# $\phi$-mixingデータに基づく確率勾配法による統計的推測

Statistical Inference with Stochastic Gradient Methods under $\phi$-mixing Data ( http://arxiv.org/abs/2302.12717v2 )

ライセンス: Link先を確認
Ruiqi Liu, Xi Chen, Zuofeng Shang(参考訳) 確率勾配降下(sgd)は大規模データセットとストリームデータに対するスケーラブルでメモリ効率のよい最適化アルゴリズムであり、多くの注目と人気を集めている。 間隔推定などの統計的推測へのSGDに基づく推定法の応用も大きな成功を収めた。 しかし、関連する研究の多くは、i.d.観測やマルコフ連鎖に基づいている。 観測が混合時系列から来るとき、妥当な統計推論の方法はまだ未定である。 実のところ、観測間の一般的な相関は、間隔推定に課題を課している。 既存の手法はこの相関を無視し、不確実な信頼区間につながる。 本稿では,データが$\phi$-mixingの場合の統計的推測のためのミニバッチSGD推定器を提案する。 信頼区間は、関連するミニバッチブートストラップSGD手順を用いて構成される。 そこで, \cite{yu1994rates} の `independent block'' トリックを用いて,提案する推定器は漸近的に正規であり,その制限分布はブートストラップ法によって効果的に近似できることを示す。 提案手法はメモリ効率が高く,実装が容易である。 合成データに関するシミュレーション研究と実世界のデータセットへの応用により,この理論が裏付けられる。

Stochastic gradient descent (SGD) is a scalable and memory-efficient optimization algorithm for large datasets and stream data, which has drawn a great deal of attention and popularity. The applications of SGD-based estimators to statistical inference such as interval estimation have also achieved great success. However, most of the related works are based on i.i.d. observations or Markov chains. When the observations come from a mixing time series, how to conduct valid statistical inference remains unexplored. As a matter of fact, the general correlation among observations imposes a challenge on interval estimation. Most existing methods may ignore this correlation and lead to invalid confidence intervals. In this paper, we propose a mini-batch SGD estimator for statistical inference when the data is $\phi$-mixing. The confidence intervals are constructed using an associated mini-batch bootstrap SGD procedure. Using ``independent block'' trick from \cite{yu1994rates}, we show that the proposed estimator is asymptotically normal, and its limiting distribution can be effectively approximated by the bootstrap procedure. The proposed method is memory-efficient and easy to implement in practice. Simulation studies on synthetic data and an application to a real-world dataset confirm our theory.
翻訳日:2023-03-29 18:31:55 公開日:2023-03-28
# Coxモデルに対する通信効率の良い分散推定と推定

Communication-Efficient Distributed Estimation and Inference for Cox's Model ( http://arxiv.org/abs/2302.12111v2 )

ライセンス: Link先を確認
Pierre Bayle, Jianqing Fan, Zhipeng Lou(参考訳) プライバシとオーナシップの懸念から個々のデータを共有できない多施設生物医学研究に動機づけられ,高次元スパースcox比例ハザードモデルにおける推定と推論のためのコミュニケーション効率の高い反復分散アルゴリズムを開発した。 我々の推定器は、比較的少ないイテレーションでも、非常に穏やかな条件下で理想的な全サンプル推定器と同じ収束率を達成できることを実証する。 高次元ハザード回帰係数の線形結合に対する信頼区間を構築するために,新しい縮退法を導入し,中心極限定理を確立し,漸近的に有効な分散信頼区間を生成する一貫した分散確率推定器を提供する。 さらに,decorrelated score testに基づく任意の座標要素に対して,有効かつ強力な分散仮説テストを提供する。 我々は、時間依存の共変量と検閲された生存時間を許容する。 シミュレーションデータと実データの両方に関する広範囲な数値実験は、我々の理論をさらに支持し、通信効率の高い分散推定器、信頼区間、仮説テストが代替手法によって改善することを示す。

Motivated by multi-center biomedical studies that cannot share individual data due to privacy and ownership concerns, we develop communication-efficient iterative distributed algorithms for estimation and inference in the high-dimensional sparse Cox proportional hazards model. We demonstrate that our estimator, even with a relatively small number of iterations, achieves the same convergence rate as the ideal full-sample estimator under very mild conditions. To construct confidence intervals for linear combinations of high-dimensional hazard regression coefficients, we introduce a novel debiased method, establish central limit theorems, and provide consistent variance estimators that yield asymptotically valid distributed confidence intervals. In addition, we provide valid and powerful distributed hypothesis tests for any coordinate element based on a decorrelated score test. We allow time-dependent covariates as well as censored survival times. Extensive numerical experiments on both simulated and real data lend further support to our theory and demonstrate that our communication-efficient distributed estimators, confidence intervals, and hypothesis tests improve upon alternative methods.
翻訳日:2023-03-29 18:31:39 公開日:2023-03-28
# 学習を最適化するための学習

Learning to Generalize Provably in Learning to Optimize ( http://arxiv.org/abs/2302.11085v2 )

ライセンス: Link先を確認
Junjie Yang, Tianlong Chen, Mingkang Zhu, Fengxiang He, Dacheng Tao, Yingbin Liang, Zhangyang Wang(参考訳) 最適化のための学習(l2o)が人気を集め、データ駆動アプローチによる最適化の設計が自動化されている。 しかし、現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。 i) L2O 学習オプティマイザを未確認最適化に適用し、損失関数の値(最適化一般化、もしくは「最適化者の一般化可能な学習」)を下げる。 (ii)オプティマイザによって訓練されたオプティマイザ(それ自体は機械学習モデルとして)の非知覚データに対する精度(一般化の最適化、あるいは「一般化のための学習」)の試験性能 近年,最適化の一般化が研究されているが,L2Oコンテキストにおいて最適化の一般化(あるいは一般化の学習)は厳密には研究されていない。 まず,局所エントロピーとヘシアンの間の暗黙的な関係を理論的に確立し,それらの役割を一般化可能な最適化器のハンドクラフト設計において,損失関数のランドスケープ平坦性の等価な指標として統一する。 次に、これらの2つの指標をフラットネス対応正規化器としてL2Oフレームワークに組み込んで、メタトレーニングオプティマイザの一般化を学習し、L2Oメタトレーニングプロセス中にそのような一般化能力を学習し、最適化ロス関数に変換できることを理論的に示す。 複数の高度L2Oモデルの一般化と多種多様な最適化により,提案手法の有効性を一貫して検証した。 私たちのコードは、https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropyで利用可能です。

Learning to optimize (L2O) has gained increasing popularity, which automates the design of optimizers by data-driven approaches. However, current L2O methods often suffer from poor generalization performance in at least two folds: (i) applying the L2O-learned optimizer to unseen optimizees, in terms of lowering their loss function values (optimizer generalization, or ``generalizable learning of optimizers"); and (ii) the test performance of an optimizee (itself as a machine learning model), trained by the optimizer, in terms of the accuracy over unseen data (optimizee generalization, or ``learning to generalize"). While the optimizer generalization has been recently studied, the optimizee generalization (or learning to generalize) has not been rigorously studied in the L2O context, which is the aim of this paper. We first theoretically establish an implicit connection between the local entropy and the Hessian, and hence unify their roles in the handcrafted design of generalizable optimizers as equivalent metrics of the landscape flatness of loss functions. We then propose to incorporate these two metrics as flatness-aware regularizers into the L2O framework in order to meta-train optimizers to learn to generalize, and theoretically show that such generalization ability can be learned during the L2O meta-training process and then transformed to the optimizee loss function. Extensive experiments consistently validate the effectiveness of our proposals with substantially improved generalization on multiple sophisticated L2O models and diverse optimizees. Our code is available at: https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropy.
翻訳日:2023-03-29 18:31:21 公開日:2023-03-28
# SU-Net:非協調宇宙船の軌道上での姿勢推定ネットワーク

SU-Net: Pose estimation network for non-cooperative spacecraft on-orbit ( http://arxiv.org/abs/2302.10602v2 )

ライセンス: Link先を確認
Hu Gao and Zhihui Li and Depeng Dang and Ning Wang and Jingfan Yang(参考訳) 宇宙船のポーズ推定は、ランデブーやドッキング、残骸の除去、軌道上のメンテナンスなど、多くの軌道上の宇宙ミッションにおいて重要な役割を果たす。 現在、宇宙画像には様々な照明条件、高コントラスト、低解像度が含まれており、宇宙物体のポーズ推定は地球上の物体よりも難しい。 本稿では,衛星軌道上でのレーダ画像の特徴を解析し,Dense Residual U-shaped Network (DR-U-Net) と呼ばれる新しいディープラーニングニューラルネットワーク構造を提案する。 さらに, DR-U-Netに基づく新しいニューラルネットワーク,すなわち, 宇宙機U字型ネットワーク(SU-Net)を導入し, 非協調宇宙船のエンドツーエンドのポーズ推定を実現する。 具体的には、SU-Netはまず非協力宇宙船のイメージを前処理し、次に転送学習を事前訓練に使用した。 その後、レーダー画像のぼかしと宇宙船の輪郭認識能力の低さを解消するために、バックボーンネットワークU-Netに残差接続と密結合を加え、DR-U-Netと名付けた。 このようにして、モデルの特徴損失と複雑さを低減し、トレーニング中のディープニューラルネットワークの劣化を回避することができる。 最後に、非協調的な宇宙船の軌道上でのポーズ推定にフィードフォワードニューラルネットワークの層を用いる。 実験により,提案手法は手作りのオブジェクト特有の特徴に頼らず,頑健なロバスト性を持ち,計算精度は最先端のポーズ推定法より優れていることが示された。 絶対誤差は 0.1557 から 0.4491 であり、平均誤差は 0.302 であり、標準偏差は 0.065 である。

Spacecraft pose estimation plays a vital role in many on-orbit space missions, such as rendezvous and docking, debris removal, and on-orbit maintenance. At present, space images contain widely varying lighting conditions, high contrast and low resolution, pose estimation of space objects is more challenging than that of objects on earth. In this paper, we analyzing the radar image characteristics of spacecraft on-orbit, then propose a new deep learning neural Network structure named Dense Residual U-shaped Network (DR-U-Net) to extract image features. We further introduce a novel neural network based on DR-U-Net, namely Spacecraft U-shaped Network (SU-Net) to achieve end-to-end pose estimation for non-cooperative spacecraft. Specifically, the SU-Net first preprocess the image of non-cooperative spacecraft, then transfer learning was used for pre-training. Subsequently, in order to solve the problem of radar image blur and low ability of spacecraft contour recognition, we add residual connection and dense connection to the backbone network U-Net, and we named it DR-U-Net. In this way, the feature loss and the complexity of the model is reduced, and the degradation of deep neural network during training is avoided. Finally, a layer of feedforward neural network is used for pose estimation of non-cooperative spacecraft on-orbit. Experiments prove that the proposed method does not rely on the hand-made object specific features, and the model has robust robustness, and the calculation accuracy outperforms the state-of-the-art pose estimation methods. The absolute error is 0.1557 to 0.4491 , the mean error is about 0.302 , and the standard deviation is about 0.065 .
翻訳日:2023-03-29 18:30:37 公開日:2023-03-28
# 深部ニューラルネットワークのための関数結合型透かしについて

On Function-Coupled Watermarks for Deep Neural Networks ( http://arxiv.org/abs/2302.10296v2 )

ライセンス: Link先を確認
Xiangyu Wen, Yu Li, Wei Jiang, Qiang Xu(参考訳) DNN(well-performed Deep Neural Network)は、トレーニングに大量のラベル付きデータと計算リソースを必要とする。 このような知的財産権(IP)を保護するために様々な透かし技術が提案され、DNNプロバイダが秘密情報をモデルに埋め込んで、専用のトリガー入力で埋め込んだ透かしを取得することで、後にIP所有権を主張できるようにしている。 文献では有望な結果が報告されているが、既存のソリューションは、モデルファインチューニングやモデルプルーニングなどのウォーターマーク除去攻撃に悩まされている。 本稿では,上記の攻撃に対して効果的に防御できる新しいDNN透かし手法を提案する。 我々の重要な洞察は、ウォーターマークの結合とモデル機能の強化であり、ウォーターマークの除去は、必然的に通常の入力でモデルのパフォーマンスを低下させる。 そこで,本手法は,分散データから学習した機密機能に依存する従来の手法とは異なり,分散データから学習した機能のみを使用する。 具体的には、元のトレーニングデータセットからの入力をサンプル化して、ウォーターマークトリガーとして融合する手法を提案する。 一方で,トレーニング中にモデル重みをランダムにマスクすることにより,ネットワーク内に埋め込まれた透かしの情報を広げる。 そうすることで、モデルの微調整/プルニングは、関数結合したウォーターマークを忘れません。 画像分類タスクの評価結果から, 攻撃的な透かし除去攻撃による透かし認証の成功率は100 %であり, 既存の解よりも有意に優れていた。 コードはhttps://github.com/cure-lab/function-coupled-watermark。

Well-performed deep neural networks (DNNs) generally require massive labelled data and computational resources for training. Various watermarking techniques are proposed to protect such intellectual properties (IPs), wherein the DNN providers implant secret information into the model so that they can later claim IP ownership by retrieving their embedded watermarks with some dedicated trigger inputs. While promising results are reported in the literature, existing solutions suffer from watermark removal attacks, such as model fine-tuning and model pruning. In this paper, we propose a novel DNN watermarking solution that can effectively defend against the above attacks. Our key insight is to enhance the coupling of the watermark and model functionalities such that removing the watermark would inevitably degrade the model's performance on normal inputs. To this end, unlike previous methods relying on secret features learnt from out-of-distribution data, our method only uses features learnt from in-distribution data. Specifically, on the one hand, we propose to sample inputs from the original training dataset and fuse them as watermark triggers. On the other hand, we randomly mask model weights during training so that the information of our embedded watermarks spreads in the network. By doing so, model fine-tuning/pruning would not forget our function-coupled watermarks. Evaluation results on various image classification tasks show a 100\% watermark authentication success rate under aggressive watermark removal attacks, significantly outperforming existing solutions. Code is available: https://github.com/cure-lab/Function-Coupled-Watermark.
翻訳日:2023-03-29 18:30:06 公開日:2023-03-28
# ロバスト微調整のためのトレーサブルプロジェクテッドグラデーション法

Trainable Projected Gradient Method for Robust Fine-tuning ( http://arxiv.org/abs/2303.10720v2 )

ライセンス: Link先を確認
Junjiao Tian, Xiaoliang Dai, Chih-Yao Ma, Zecheng He, Yen-Cheng Liu, Zsolt Kira(参考訳) トランスファーラーニングの最近の研究は、各レイヤのサブセットを選択的に微調整したり、各レイヤごとに異なる学習率をカスタマイズすることで、アウト・オブ・ディストリビューション(OOD)データに対するロバスト性を大幅に改善し、事前訓練されたモデルにおける一般化能力を維持できることを示した。 しかし、これらの手法のほとんどは手作業によるヒューリスティックスや高価なハイパーパラメータ検索を採用しており、大規模なデータセットやニューラルネットワークにスケールアップできない。 そこで本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するためのTPGMを提案する。 これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。 具体的には、TPGMは、各層に対して細調整されたモデルと事前訓練されたモデルの間の距離制約という一連の射影半径を維持し、それらを重み予測によって強制する。 制約を学習するために,最善の射影radiiをエンドツーエンドで自動学習する2レベル最適化を提案する。 理論的には、二段階最適化の定式化はTPGMの正規化能力を説明することができる。 実証的には、超パラメータ探索コストが少なく、TPGMはOOD性能において既存の微調整方法よりも優れており、ID性能が最適である。 例えば、DomainNet-RealとImageNetで微調整された場合、バニラの微調整と比較して、TPGMはスケッチでそれぞれ22\%と10\%のOOD改善を示している。 コードは \url{https://github.com/PotatoTian/TPGM} で入手できる。

Recent studies on transfer learning have shown that selectively fine-tuning a subset of layers or customizing different learning rates for each layer can greatly improve robustness to out-of-distribution (OOD) data and retain generalization capability in the pre-trained models. However, most of these methods employ manually crafted heuristics or expensive hyper-parameter searches, which prevent them from scaling up to large datasets and neural networks. To solve this problem, we propose Trainable Projected Gradient Method (TPGM) to automatically learn the constraint imposed for each layer for a fine-grained fine-tuning regularization. This is motivated by formulating fine-tuning as a bi-level constrained optimization problem. Specifically, TPGM maintains a set of projection radii, i.e., distance constraints between the fine-tuned model and the pre-trained model, for each layer, and enforces them through weight projections. To learn the constraints, we propose a bi-level optimization to automatically learn the best set of projection radii in an end-to-end manner. Theoretically, we show that the bi-level optimization formulation could explain the regularization capability of TPGM. Empirically, with little hyper-parameter search cost, TPGM outperforms existing fine-tuning methods in OOD performance while matching the best in-distribution (ID) performance. For example, when fine-tuned on DomainNet-Real and ImageNet, compared to vanilla fine-tuning, TPGM shows $22\%$ and $10\%$ relative OOD improvement respectively on their sketch counterparts. Code is available at \url{https://github.com/PotatoTian/TPGM}.
翻訳日:2023-03-29 18:23:59 公開日:2023-03-28
# 臨界横場イジング鎖の固有状態が地域法則を満たすことはない

No eigenstate of the critical transverse-field Ising chain satisfies the area law ( http://arxiv.org/abs/2303.09525v2 )

ライセンス: Link先を確認
Saverio Bocini, Maurizio Fagotti(参考訳) 我々は、すべての一点シフト不変保存電荷に共通する基礎において、基底状態が半整数中心電荷を持つ場合、領域法則を満たす非相互作用局所スピン1/2鎖ハミルトニアンの固有状態は存在しないと主張する。 つまり、これらのモデルでは、すべての(quasi)局所一点シフト不変保存作用素はギャップなしである。 両部交絡特性の観点からは、実際には3つの異なる1サイトシフト不変非相互作用モデルが存在し、そのうちの2つはXXモデルと等価である(そのうちの1つは、変換が1サイトシフト不変性を破る)。 前者のクラスは、領域法則を満たす局所的に異なる2つの1サイトシフト不変励起状態を持つ。

We argue that, in a basis common to all one-site shift invariant conserved charges, there is no eigenstate of a noninteracting local spin-1/2 chain Hamiltonian that satisfies the area law if the ground state has half-integer central charge. That is to say, in those models all (quasi)local one-site shift invariant conserved operators are gapless. From the standpoint of bipartite entanglement properties, we show indeed that there are three distinct one-site shift invariant noninteracting models, two of which are equivalent to the XX model (for one of them the transformation breaks one-site shift invariance) and the other to the critical Ising model. The former class has two locally distinct one-site shift invariant excited states satisfying the area law; the latter two classes have none.
翻訳日:2023-03-29 18:23:28 公開日:2023-03-28
# coganppis:タンパク質-タンパク質相互作用サイト予測のための共進化強化グローバルアテンションニューラルネットワーク

CoGANPPIS: Coevolution-enhanced Global Attention Neural Network for Protein-Protein Interaction Site Prediction ( http://arxiv.org/abs/2303.06945v2 )

ライセンス: Link先を確認
Jiaxing Guo, Xuening Zhu, Zixin Hu, Xiaoxi Hu(参考訳) タンパク質とタンパク質の相互作用は生化学的プロセスにおいて必須である。 タンパク質-タンパク質相互作用部位(PPI)の正確な予測は、我々の生物学的メカニズムの理解を深め、新しい医薬品設計に不可欠である。 しかし、従来のPPI予測実験手法はコストと時間を要するため、近年多くの計算手法、特にMLベースの手法が開発されている。 これらの手法は, 満足度の高い結果を得たものの, 1) 多くのモデルでは有用な入力特徴を発掘しているが, 共進化的特徴を考慮に入れられなかった。(2) 注意ベースモデルでは, 対象残差から遠く離れた残差も考慮せず, 近隣残差に対してのみ注意重みを割り当てている。 我々は,CGANPPISと呼ばれるPPI予測のためのシーケンスベースディープラーニングモデルである,共進化型グローバルアテンションニューラルネットワークを提案する。 It utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all the residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. そして、3つの出力が連結され、最終予測のために複数の完全連結層に渡される。 2つのベンチマークデータセット上のアプリケーションは、このモデルの最先端のパフォーマンスを実証しました。 ソースコードはhttps://github.com/Slam1423/CoGANPPIS_source_codeで公開されている。

Protein-protein interactions are essential in biochemical processes. Accurate prediction of the protein-protein interaction sites (PPIs) deepens our understanding of biological mechanism and is crucial for new drug design. However, conventional experimental methods for PPIs prediction are costly and time-consuming so that many computational approaches, especially ML-based methods, have been developed recently. Although these approaches have achieved gratifying results, there are still two limitations: (1) Most models have excavated some useful input features, but failed to take coevolutionary features into account, which could provide clues for inter-residue relationships; (2) The attention-based models only allocate attention weights for neighboring residues, instead of doing it globally, neglecting that some residues being far away from the target residues might also matter. We propose a coevolution-enhanced global attention neural network, a sequence-based deep learning model for PPIs prediction, called CoGANPPIS. It utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all the residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. Then, the three outputs are concatenated and passed into several fully connected layers for the final prediction. Application on two benchmark datasets demonstrated a state-of-the-art performance of our model. The source code is publicly available at https://github.com/Slam1423/CoGANPPIS_source_code.
翻訳日:2023-03-29 18:23:14 公開日:2023-03-28
# TranSG: 人物再同定のための構造トラジェクトリ・プロンプト再構成を用いたトランスフォーマーベースのスケルトングラフ原型コントラスト学習

TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning with Structure-Trajectory Prompted Reconstruction for Person Re-Identification ( http://arxiv.org/abs/2303.06819v2 )

ライセンス: Link先を確認
Haocong Rao, Chunyan Miao(参考訳) 3Dスケルトンデータによる人物再識別(re-ID)は、顕著な優位性を持つ新興トピックである。 既存の手法は通常、体関節を持つ骨格記述子を設計したり、骨格配列表現学習を行う。 しかし、それらは通常、異なる体-成分関係を同時モデル化することはできず、身体関節の細粒度表現から有用な意味論を探索することが滅多にない。 本稿では,骨格関係と空間-時空間意味論を完全に捉えるための構造-軌跡誘導型コントラスト・ラーニング(transg)アプローチを提案する。 具体的には、スケルトングラフ変換器(SGT)を用いて、骨格グラフ内の身体と運動の関係を同時に学習し、キー相関ノードの特徴をグラフ表現に集約する。 そこで我々は,グラフ表現と異なるプロトタイプの類似性を比較検討し,識別グラフ表現を学習するために,グラフプロトタイプ学習(GPC)を提案する。 最後に、グラフノードの空間的および時間的コンテキストを利用して、スケルトングラフ再構成を促進するために、stpr(graph structure-trajectoryinduced reconstruction)メカニズムが提案されている。 実証的な評価は、TranSGが既存の最先端手法を著しく上回っていることを示している。 さらに、異なるグラフモデリング、RGB推定スケルトン、教師なしシナリオの下で、その一般化を示す。

Person re-identification (re-ID) via 3D skeleton data is an emerging topic with prominent advantages. Existing methods usually design skeleton descriptors with raw body joints or perform skeleton sequence representation learning. However, they typically cannot concurrently model different body-component relations, and rarely explore useful semantics from fine-grained representations of body joints. In this paper, we propose a generic Transformer-based Skeleton Graph prototype contrastive learning (TranSG) approach with structure-trajectory prompted reconstruction to fully capture skeletal relations and valuable spatial-temporal semantics from skeleton graphs for person re-ID. Specifically, we first devise the Skeleton Graph Transformer (SGT) to simultaneously learn body and motion relations within skeleton graphs, so as to aggregate key correlative node features into graph representations. Then, we propose the Graph Prototype Contrastive learning (GPC) to mine the most typical graph features (graph prototypes) of each identity, and contrast the inherent similarity between graph representations and different prototypes from both skeleton and sequence levels to learn discriminative graph representations. Last, a graph Structure-Trajectory Prompted Reconstruction (STPR) mechanism is proposed to exploit the spatial and temporal contexts of graph nodes to prompt skeleton graph reconstruction, which facilitates capturing more valuable patterns and graph semantics for person re-ID. Empirical evaluations demonstrate that TranSG significantly outperforms existing state-of-the-art methods. We further show its generality under different graph modeling, RGB-estimated skeletons, and unsupervised scenarios.
翻訳日:2023-03-29 18:22:48 公開日:2023-03-28
# 非定常帯域問題に対するエネルギー正規化RNN

Energy Regularized RNNs for Solving Non-Stationary Bandit Problems ( http://arxiv.org/abs/2303.06552v2 )

ライセンス: Link先を確認
Michael Rotman, Lior Wolf(参考訳) 我々は,報酬が非定常であり,過去の行動や過去の状況に依存する可能性があるマルチアームのバンディット問題を考える。 提案手法の核心には,これらのシーケンスをモデル化するリカレントニューラルネットワークを用いる。 探索と利用のバランスをとるために,ニューラルネットワークが特定の行動を支援する上で自信過剰になることを防ぐエネルギー最小化用語を提案する。 この用語は、ネットワークによって割り当てられた最大確率と最小確率の間のギャップを確実に制限する。 種々の実験において,本手法はロッティング帯域のサブプロブレムを解く方法と同じくらい有効であり,様々なベンチマーク問題の直感的な拡張を解くことができることを示す。 実装はhttps://github.com/rotmanmi/Energy-Regularized-RNNで公開しています。

We consider a Multi-Armed Bandit problem in which the rewards are non-stationary and are dependent on past actions and potentially on past contexts. At the heart of our method, we employ a recurrent neural network, which models these sequences. In order to balance between exploration and exploitation, we present an energy minimization term that prevents the neural network from becoming too confident in support of a certain action. This term provably limits the gap between the maximal and minimal probabilities assigned by the network. In a diverse set of experiments, we demonstrate that our method is at least as effective as methods suggested to solve the sub-problem of Rotting Bandits, and can solve intuitive extensions of various benchmark problems. We share our implementation at https://github.com/rotmanmi/Energy-Regularized-RNN.
翻訳日:2023-03-29 18:22:20 公開日:2023-03-28
# HyT-NAS:エッジデバイスのためのハイブリッドトランスフォーマーニューラルアーキテクチャ検索

HyT-NAS: Hybrid Transformers Neural Architecture Search for Edge Devices ( http://arxiv.org/abs/2303.04440v2 )

ライセンス: Link先を確認
Lotfi Abdelkrim Mecharbat, Hadjer Benmeziane, Hamza Ouarnoughi and Smail Niar(参考訳) ビジョントランスフォーマーは近年,コンピュータビジョン(CV)タスクにおいて,注目度に基づくディープラーニング(DL)アーキテクチャを実現する。 しかし、膨大な計算資源を必要とするため、これらのアーキテクチャはリソース制約のあるプラットフォーム上ではほとんど実装されない。 画像分類や物体検出などのCVタスクに対する手作り畳み込みと注意に基づくハイブリッドモデルについて検討している。 本稿では,小型デバイス上での視覚タスクを対象とするハイブリッドアーキテクチャを含む,効率的なハードウェアアウェアニューラルアーキテクチャ探索(hw-nas)であるhyt-nasを提案する。 HyT-NASは、検索空間を充実させ、検索戦略と性能予測器を強化することにより、最先端のHW-NASを改善する。 実験の結果,HyT-NASは5倍以下のトレーニング評価で同様のハイパーボリュームを実現することがわかった。 その結果、MLPerf MobileNetV1の精度は6.3%向上し、Visual Wake Wordsのパラメータ数は3.5倍減少した。

Vision Transformers have enabled recent attention-based Deep Learning (DL) architectures to achieve remarkable results in Computer Vision (CV) tasks. However, due to the extensive computational resources required, these architectures are rarely implemented on resource-constrained platforms. Current research investigates hybrid handcrafted convolution-based and attention-based models for CV tasks such as image classification and object detection. In this paper, we propose HyT-NAS, an efficient Hardware-aware Neural Architecture Search (HW-NAS) including hybrid architectures targeting vision tasks on tiny devices. HyT-NAS improves state-of-the-art HW-NAS by enriching the search space and enhancing the search strategy as well as the performance predictors. Our experiments show that HyT-NAS achieves a similar hypervolume with less than ~5x training evaluations. Our resulting architecture outperforms MLPerf MobileNetV1 by 6.3% accuracy improvement with 3.5x less number of parameters on Visual Wake Words.
翻訳日:2023-03-29 18:21:53 公開日:2023-03-28
# スケルトンに基づく行動認識のための学習識別表現

Learning Discriminative Representations for Skeleton Based Action Recognition ( http://arxiv.org/abs/2303.03729v3 )

ライセンス: Link先を確認
Huanyu Zhou, Qingjie Liu, Yunhong Wang(参考訳) 人間の行動認識は、ビデオのセグメントから人間の行動のカテゴリを分類することを目的としている。 近年, 骨格表現がRGBフレームなどの他のモダリティよりも効率的で堅牢であるため, 骨格から特徴を抽出するGCNベースのモデルの設計に注目が集まっている。 しかし、スケルトンデータを使用する場合、関連する項目などの重要な手がかりも廃棄される。 その結果、区別が困難で、誤分類される傾向がある曖昧な行動が発生する。 この問題を軽減するために,空間的時間的疎結合とコントラスト的特徴精錬からなる補助的特徴精錬ヘッド(FRヘッド)を提案し,骨格の識別的表現を得る。 異常サンプルは特徴空間で動的に発見され、校正される。 さらに、FRヘッドはGCNの様々な段階に課せられ、より強力な監督のための多段改良が図られた。 NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットに対して大規模な実験を行った。 提案したモデルでは,最先端手法による競合結果が得られ,あいまいなサンプルの識別に役立てることができる。 コードはhttps://github.com/zhysora/fr-headで入手できる。

Human action recognition aims at classifying the category of human action from a segment of a video. Recently, people have dived into designing GCN-based models to extract features from skeletons for performing this task, because skeleton representations are much more efficient and robust than other modalities such as RGB frames. However, when employing the skeleton data, some important clues like related items are also discarded. It results in some ambiguous actions that are hard to be distinguished and tend to be misclassified. To alleviate this problem, we propose an auxiliary feature refinement head (FR Head), which consists of spatial-temporal decoupling and contrastive feature refinement, to obtain discriminative representations of skeletons. Ambiguous samples are dynamically discovered and calibrated in the feature space. Furthermore, FR Head could be imposed on different stages of GCNs to build a multi-level refinement for stronger supervision. Extensive experiments are conducted on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets. Our proposed models obtain competitive results from state-of-the-art methods and can help to discriminate those ambiguous samples. Codes are available at https://github.com/zhysora/FR-Head.
翻訳日:2023-03-29 18:21:37 公開日:2023-03-28
# 多言語方言検出のための2段階パイプライン

Two-stage Pipeline for Multilingual Dialect Detection ( http://arxiv.org/abs/2303.03487v2 )

ライセンス: Link先を確認
Ankit Vaidya and Aditya Kane(参考訳) 方言識別は、様々な大規模言語モデルをローカライズするための重要なタスクである。 本稿では,VarDial 2023共有タスクに対する我々のアプローチの概要を紹介する。 ここでは、3つの言語から3つまたは2つの方言を識別し、それぞれトラック1の9方向分類とトラック2の6方向分類を導出する。 提案手法は,2段階のシステムで構成され,他の参加者のシステムや過去の研究よりも優れている。 トラック1では58.54%、トラック2では85.61%となる。 私たちのコードベースは公開されています(https://github.com/ankit-vaidya19/EACL_VarDial2023)。

Dialect Identification is a crucial task for localizing various Large Language Models. This paper outlines our approach to the VarDial 2023 shared task. Here we have to identify three or two dialects from three languages each which results in a 9-way classification for Track-1 and 6-way classification for Track-2 respectively. Our proposed approach consists of a two-stage system and outperforms other participants' systems and previous works in this domain. We achieve a score of 58.54% for Track-1 and 85.61% for Track-2. Our codebase is available publicly (https://github.com/ankit-vaidya19/EACL_VarDial2023).
翻訳日:2023-03-29 18:21:17 公開日:2023-03-28
# 短期量子ハードウェアにおける正確な量子化学を実現するAb Initio Transcorrelated Method

Ab Initio Transcorrelated Method enabling accurate Quantum Chemistry on near-term Quantum Hardware ( http://arxiv.org/abs/2303.02007v2 )

ライセンス: Link先を確認
Werner Dobrautz, Igor O. Sokolov, Ke Liao, Pablo L\'opez R\'ios, Martin Rahm, Ali Alavi, Ivano Tavernelli(参考訳) 量子コンピューティングは新しい計算パラダイムとして登場し、量子化学を含むいくつかの研究分野を変革する可能性がある。 しかし、現在のハードウェア制限(コヒーレンス時間制限、ゲート不完全性、接続性制限を含む)は、ほとんどの量子アルゴリズムの直接的な実装を妨げ、よりノイズ耐性のソリューションを要求する。 量子化学において、利用可能な量子ビットとゲート演算の数に制限があるのは、分子軌道ごとに2つの量子ビットを必要とするためである。 本研究では, 波動関数から直接ハミルトニアンへの相関関係を近似することなく, トランスコリニアス(tc)法に基づく明示的に相関したアンサッツを提案し, ノイズの多い近距離量子デバイスで正確な結果を得るのに必要なリソースを削減した。 特に, 正確なトランスコリックス手法により, より浅い回路を実現できるだけでなく, いわゆる基底集合極限への収束性も向上し, より小さな基底集合を実験するための化学的精度内でのエネルギーを提供し, 従ってより少ない量子ビットを与える。 本研究では, 水素二量体と水素化リチウムの実験結果に近い結合長, 解離エネルギー, 振動周波数をそれぞれ4および6キュービットで計算し, 本手法を実証した。 従来の方法では同じ精度で少なくとも10倍の量子ビットを必要とする。

Quantum computing is emerging as a new computational paradigm with the potential to transform several research fields, including quantum chemistry. However, current hardware limitations (including limited coherence times, gate infidelities, and limited connectivity) hamper the straightforward implementation of most quantum algorithms and call for more noise-resilient solutions. In quantum chemistry, the limited number of available qubits and gate operations is particularly restrictive since, for each molecular orbital, one needs, in general, two qubits. In this study, we propose an explicitly correlated Ansatz based on the transcorrelated (TC) approach, which transfers -- without any approximation -- correlation from the wavefunction directly into the Hamiltonian, thus reducing the number of resources needed to achieve accurate results with noisy, near-term quantum devices. In particular, we show that the exact transcorrelated approach not only allows for more shallow circuits but also improves the convergence towards the so-called basis set limit, providing energies within chemical accuracy to experiment with smaller basis sets and, therefore, fewer qubits. We demonstrate our method by computing bond lengths, dissociation energies, and vibrational frequencies close to experimental results for the hydrogen dimer and lithium hydride using just 4 and 6 qubits, respectively. Conventional methods require at least ten times more qubits for the same accuracy.
翻訳日:2023-03-29 18:21:08 公開日:2023-03-28
# シーケンスビデオのためのアンアライメントテキストを用いた弱教師付きビデオ表現学習

Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos ( http://arxiv.org/abs/2303.12370v2 )

ライセンス: Link先を確認
Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian, Shenghua Gao(参考訳) シーケンシャルビデオ理解は、新たなビデオ理解タスクとして、ゴール指向の性質から多くの研究者の注目を集めている。 本稿では,正確なタイムスタンプレベルのテキスト・ビデオアライメントが提供されないような逐次的ビデオ理解について検討する。 私たちはこの課題をCLIPからアイデアを借りて解決する。 具体的には,映像表現のためのフレームレベル特徴の集約にトランスフォーマを使用して,予め学習したテキストエンコーダを使用して,各アクションとビデオ全体に対応するテキストをエンコードする。 テキストと映像の対応をモデル化するために,ビデオ・パラグラフのコントラストロスが全映像と全スクリプトのマッチングを強制し,細粒度フレーム・センスのコントラストロスが各アクションとその記述とのマッチングを強制する多粒度損失を提案する。 フレーム・センテンス対応が利用できないため、ビデオアクションが時間領域内で順次発生するという事実を利用して疑似フレーム・センテンス対応を生成し、ネットワークトレーニングを疑似ラベルで監督する。 ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの大規模な実験により,提案手法はベースラインを大きなマージンで上回り,提案手法の有効性を検証した。 コードはhttps://github.com/svip-lab/WeakSVRで入手できる。

Sequential video understanding, as an emerging video understanding task, has driven lots of researchers' attention because of its goal-oriented nature. This paper studies weakly supervised sequential video understanding where the accurate time-stamp level text-video alignment is not provided. We solve this task by borrowing ideas from CLIP. Specifically, we use a transformer to aggregate frame-level features for video representation and use a pre-trained text encoder to encode the texts corresponding to each action and the whole video, respectively. To model the correspondence between text and video, we propose a multiple granularity loss, where the video-paragraph contrastive loss enforces matching between the whole video and the complete script, and a fine-grained frame-sentence contrastive loss enforces the matching between each action and its description. As the frame-sentence correspondence is not available, we propose to use the fact that video actions happen sequentially in the temporal domain to generate pseudo frame-sentence correspondence and supervise the network training with the pseudo labels. Extensive experiments on video sequence verification and text-to-video matching show that our method outperforms baselines by a large margin, which validates the effectiveness of our proposed approach. Code is available at https://github.com/svip-lab/WeakSVR
翻訳日:2023-03-29 18:14:30 公開日:2023-03-28
# マイナショット学習を改善するためのメタ推論プロンプトチューニング

Meta-augmented Prompt Tuning for Better Few-shot Learning ( http://arxiv.org/abs/2303.12314v2 )

ライセンス: Link先を確認
Kaihang Pan, Juncheng Li, Hongye Song, Jun Lin, Xiaozhong Liu, Siliang Tang(参考訳) プロンプトチューニングはパラメータ効率のよい手法であり、全てのPLMパラメータを凍結し、入力テキストにソフトプロンプトと呼ばれる追加の調整可能なトークンのみをプリペイドする。 しかし、ソフトプロンプトはイニシャライズに強く依存しており、数ショット設定でオーバーフィットする可能性があるため、微調整よりもプロンプトチューニングの実行がはるかに悪くなる。 上記の課題に対処するために,数ショット一般化(SUMMER)のためのMetagradient Regularizationを用いた自己改善メタプロンプト学習フレームワークを提案する。 我々は,自己教師付きメタラーニングを利用してソフトプロンプトをより早く初期化し,カリキュラムに基づくタスク拡張によりメタタスク分布を豊かにする。 また,メタプロンプト学習フレームワークにメタグラディエント正規化手法を組み込んだメタプロンプト学習手法により,数ショット学習時に生勾配をドメイン一般化可能な方向に変換し,オーバーフィッティングの問題を緩和する。 広範囲な実験により、サマーは異なるマイナショットダウンストリームタスクのパフォーマンスが向上し、ドメインの一般化能力も向上することが示された。

Prompt tuning is a parameter-efficient method, which freezes all PLM parameters and only prepends some additional tunable tokens called soft prompts to the input text. However, soft prompts heavily rely on a better initialization and may easily result in overfitting under few-shot settings, which causes prompt-tuning performing much worse than fine-tuning. To address the above issues, this paper proposes a novel Self-sUpervised Meta-prompt learning framework with MEtagradient Regularization for few shot generalization (SUMMER). We leverage self-supervised meta-learning to better initialize soft prompts and curriculum-based task augmentation is further proposed to enrich the meta-task distribution. Besides, a novel meta-gradient regularization method is integrated into the meta-prompt learning framework, which meta-learns to transform the raw gradient during few-shot learning into a domain-generalizable direction, thus alleviating the problem of overfitting. Extensive experiments show that SUMMER achieves better performance for different few-shot downstream tasks, and also exhibits a stronger domain generalization ability.
翻訳日:2023-03-29 18:14:07 公開日:2023-03-28
# ゴムの手の錯覚を再現する脳誘発自己知覚モデル

Brain-inspired bodily self-perception model that replicates the rubber hand illusion ( http://arxiv.org/abs/2303.12259v2 )

ライセンス: Link先を確認
Yuxuan Zhao, Enmeng Lu, Yi Zeng(参考訳) 身体的自意識の核心は、自分の身体の所有に対する認識である。 近年、脳の自己のエンコーディングのメカニズムをより深く理解しようとする試みは、関連する行動と神経生理学的現象を説明するための統一的な理論的枠組みを開発する様々な試みにつながった。 説明すべき中心的な問題は、ゴムの手の錯覚のような身体錯覚が実際にどのように起こるかである。 身体的自己意識のメカニズムと関連する脳領域の概念的な記述にもかかわらず、既存の理論モデルは、脳が身体の知覚をエンコードする計算メカニズムと、私たちの主観的に知覚される身体の錯覚がニューラルネットワークによってどのように生成されるかの説明をまだ欠いている。 ここでは、身体自己意識の生物学的な知見を統合し、脳に触発された身体自己受容モデルを提案し、身体自己の知覚を監督信号なしで自律的に構築する。 我々は,icubヒューマノイドロボットやシミュレーション環境を含むプラットフォーム上での6つのゴムハンドイリュージョン実験により,計算モデルの有効性を検証した。 実験結果から, サルの行動と神経のデータを生物学的実験で十分に再現できるだけでなく, 生物学的解釈の優位性から, 神経レベルでのゴムの手の錯覚の原因と結果が合理的に説明でき, ゴムの手の錯覚の発生の根底にある計算と神経機構の解明に寄与することが示唆された。

At the core of bodily self-consciousness is the perception of the ownership of one's body. Recent efforts to gain a deeper understanding of the mechanisms behind the brain's encoding of the self-body have led to various attempts to develop a unified theoretical framework to explain related behavioral and neurophysiological phenomena. A central question to be explained is how body illusions such as the rubber hand illusion actually occur. Despite the conceptual descriptions of the mechanisms of bodily self-consciousness and the possible relevant brain areas, the existing theoretical models still lack an explanation of the computational mechanisms by which the brain encodes the perception of one's body and how our subjectively perceived body illusions can be generated by neural networks. Here we integrate the biological findings of bodily self-consciousness to propose a Brain-inspired bodily self-perception model, by which perceptions of bodily self can be autonomously constructed without any supervision signals. We successfully validated our computational model with six rubber hand illusion experiments on platforms including a iCub humanoid robot and simulated environments. The experimental results show that our model can not only well replicate the behavioral and neural data of monkeys in biological experiments, but also reasonably explain the causes and results of the rubber hand illusion from the neuronal level due to advantages in biological interpretability, thus contributing to the revealing of the computational and neural mechanisms underlying the occurrence of the rubber hand illusion.
翻訳日:2023-03-29 18:13:45 公開日:2023-03-28
# 量子場理論におけるマーミンの不等式

Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2303.12195v2 )

ライセンス: Link先を確認
Philipe De Fabritiis, Itzhak Roditi, Silvio Paolo Sorella(参考訳) 相対論的量子場理論の枠組みはマーミンの不等式のために考案された。 スミア化されたディラックスピノル場を利用することで、ミンコフスキー真空$\vert 0 \rangle$, GHZ型状態から生成するユニタリ作用素を導入することができる。 このようにして、真空中におけるメルミン作用素の期待値とGHZ型状態との関係を得ることができる。 メルミンの不等式がこれらの州で評価された場合、最大で違反されることが示される。

A relativistic Quantum Field Theory framework is devised for Mermin's inequalities. By employing smeared Dirac spinor fields, we are able to introduce unitary operators which create, out of the Minkowski vacuum $\vert 0 \rangle$, GHZ-type states. In this way, we are able to obtain a relation between the expectation value of Mermin's operators in the vacuum and in the GHZ-type states. We show that Mermin's inequalities turn out to be maximally violated when evaluated on these states.
翻訳日:2023-03-29 18:13:20 公開日:2023-03-28
# TIFA:質問応答によるテキストから画像への忠実度の評価

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering ( http://arxiv.org/abs/2303.11897v2 )

ライセンス: Link先を確認
Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A. Smith(参考訳) 何千もの研究者、エンジニア、アーティストが、テキストから画像への生成モデルの改善に積極的に取り組んでいるが、システムはしばしば、テキスト入力と正確に一致する画像の生成に失敗している。 本稿では,視覚的質問応答(VQA)によるテキスト入力に対して生成画像の忠実度を測定する自動評価指標であるTIFA(Text-to- Image Faithfulness Evaluation with question Answering)を紹介する。 具体的には,テキスト入力が与えられた場合,言語モデルを用いて質問応答ペアを自動的に生成する。 既存のVQAモデルが生成した画像を用いてこれらの疑問に答えられるかどうかを確認することにより、画像忠実度を算出する。 TIFAは参照なしの計量であり、生成した画像のきめ細やかで解釈可能な評価を可能にする。 TIFAは既存の指標よりも人間の判断と相関性が高い。 このアプローチに基づいて,12カテゴリ(オブジェクト,カウントなど)にわたる4Kの多様なテキスト入力と25Kの質問からなるベンチマークであるTIFA v1.0を紹介する。 本稿では,tifa v1.0を用いた既存のテキスト対画像モデルの包括的評価を行い,現行モデルの限界と課題を強調する。 例えば、現在のテキストから画像へのモデルは、色や素材ではうまく機能しているが、数え上げや空間的関係、複数のオブジェクトの作成に苦労している。 われわれのベンチマークは、テキストと画像の合成における研究の進捗を注意深く測定し、さらなる研究に有用な洞察を提供することを期待している。

Despite thousands of researchers, engineers, and artists actively working on improving text-to-image generation models, systems often fail to produce images that accurately align with the text inputs. We introduce TIFA (Text-to-Image Faithfulness evaluation with question Answering), an automatic evaluation metric that measures the faithfulness of a generated image to its text input via visual question answering (VQA). Specifically, given a text input, we automatically generate several question-answer pairs using a language model. We calculate image faithfulness by checking whether existing VQA models can answer these questions using the generated image. TIFA is a reference-free metric that allows for fine-grained and interpretable evaluations of generated images. TIFA also has better correlations with human judgments than existing metrics. Based on this approach, we introduce TIFA v1.0, a benchmark consisting of 4K diverse text inputs and 25K questions across 12 categories (object, counting, etc.). We present a comprehensive evaluation of existing text-to-image models using TIFA v1.0 and highlight the limitations and challenges of current models. For instance, we find that current text-to-image models, despite doing well on color and material, still struggle in counting, spatial relations, and composing multiple objects. We hope our benchmark will help carefully measure the research progress in text-to-image synthesis and provide valuable insights for further research.
翻訳日:2023-03-29 18:13:12 公開日:2023-03-28
# 不完全情報下における市場均衡価格のオンライン学習

Online Learning for Equilibrium Pricing in Markets under Incomplete Information ( http://arxiv.org/abs/2303.11522v2 )

ライセンス: Link先を確認
Devansh Jalota, Haoyuan Sun, Navid Azizan(参考訳) 市場均衡の研究は経済理論の中心であり、特に希少資源を効率的に割り当てる。 しかし、商品の供給が需要に合致する均衡価格の計算は、一般的に、サプライヤのコスト関数など、実際に利用できないエージェントの個人的属性に関する完全な情報にアクセスすることに依存している。 この実践的考察に動機づけられたのは、市場オペレータが、市場オペレータに未知の民間的コスト機能を有する競合サプライヤーから必要な金額を購入して商品に対する顧客需要を満足させようとする不完全な情報設定において、均衡価格を設定する問題である。 この不完全な情報設定では、時間とともに均衡価格を学習するオンライン学習問題を考察し、共同して3つのパフォーマンス指標、すなわち不測の需要、コストの後悔、支払いの後悔を最適化する。 まず、サプライヤのコスト関数が固定されたときに設定し、顧客の要求が経時的に一定であれば$o(\log \log t)$、あるいは需要が経時的に変化した場合に$o(\sqrt{t} \log \log t)$となるアルゴリズムを開発する。 次に,サプライヤのコスト関数が時間とともに変化するような設定について考察し,マーケットオペレータがコスト関数の時間的変化に関する情報を持っていない場合に,オンラインアルゴリズムが3つの指標すべてに対してサブ線形後悔を達成できないことを示す。 そこで,コスト関数の完全な仕様を明かさずに時間経過に伴うコスト関数の変動を反映するヒント/コンテキストへのアクセスをオペレータが有する拡張設定を考察し,この拡張設定においてサブリニアな後悔を伴うアルゴリズムを提案する。

The study of market equilibria is central to economic theory, particularly in efficiently allocating scarce resources. However, the computation of equilibrium prices at which the supply of goods matches their demand typically relies on having access to complete information on private attributes of agents, e.g., suppliers' cost functions, which are often unavailable in practice. Motivated by this practical consideration, we consider the problem of setting equilibrium prices in the incomplete information setting wherein a market operator seeks to satisfy the customer demand for a commodity by purchasing the required amount from competing suppliers with privately known cost functions unknown to the market operator. In this incomplete information setting, we consider the online learning problem of learning equilibrium prices over time while jointly optimizing three performance metrics -- unmet demand, cost regret, and payment regret -- pertinent in the context of equilibrium pricing over a horizon of $T$ periods. We first consider the setting when suppliers' cost functions are fixed and develop algorithms that achieve a regret of $O(\log \log T)$ when the customer demand is constant over time, or $O(\sqrt{T} \log \log T)$ when the demand is variable over time. Next, we consider the setting when the suppliers' cost functions can vary over time and illustrate that no online algorithm can achieve sublinear regret on all three metrics when the market operator has no information about how the cost functions change over time. Thus, we consider an augmented setting wherein the operator has access to hints/contexts that, without revealing the complete specification of the cost functions, reflect the variation in the cost functions over time and propose an algorithm with sublinear regret in this augmented setting.
翻訳日:2023-03-29 18:12:48 公開日:2023-03-28
# ADCNet:生のレーダーADCデータによるエンドツーエンドの認識

ADCNet: End-to-end perception with raw radar ADC data ( http://arxiv.org/abs/2303.11420v2 )

ライセンス: Link先を確認
Bo Yang, Ishan Khatri, Michael Happold, Chulong Chen(参考訳) 自動運転業界ではレーダーセンサーへの関心が再び高まっている。 比較的成熟した技術として、レーダーはここ数年着実に改良され、一般的なlidarの代替品や補完品となっている。 新たなトレンドは、リッチで低レベルのレーダーデータを知覚に活用することです。 本研究では,この傾向を極端に推し進めて,生のレーダアナログ・デジタル(ADC)データに基づいてエンドツーエンドの学習を行う手法を提案する。 具体的には,ニューラルネットワーク内の学習可能な信号処理モジュールと,従来の信号処理アルゴリズムによる事前学習手法を設計する。 実験結果から,エンド・ツー・エンド・ラーニング手法の総合的効果が相関し,アブレーション研究は個人のイノベーションの有効性を検証した。

There is a renewed interest in radar sensors in the autonomous driving industry. As a relatively mature technology, radars have seen steady improvement over the last few years, making them an appealing alternative or complement to the commonly used LiDARs. An emerging trend is to leverage rich, low-level radar data for perception. In this work we push this trend to the extreme -- we propose a method to perform end-to-end learning on the raw radar analog-to-digital (ADC) data. Specifically, we design a learnable signal processing module inside the neural network, and a pre-training method guided by traditional signal processing algorithms. Experiment results corroborate the overall efficacy of the end-to-end learning method, while an ablation study validates the effectiveness of our individual innovations.
翻訳日:2023-03-29 18:12:18 公開日:2023-03-28
# less is more: 3d point cloudセマンティックセグメンテーションのためのタスクとモデルの複雑さの削減

Less is More: Reducing Task and Model Complexity for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2303.11203v2 )

ライセンス: Link先を確認
Li Li, Hubert P. H. Shum, Toby P. Breckon(参考訳) 近年,3D LiDARポイントクラウドデータの可用性は著しく向上しているが,アノテーションは高価で時間を要するため,自律運転などのアプリケーションドメインによる半教師付きセマンティックセグメンテーション手法が求められている。 既存の作業は、計算コストを犠牲にして、セグメント化精度を向上させるために比較的大きなセグメント化バックボーンネットワークを使用することが多い。 さらに、必要となる学習のための基礎的真理データ要求を減らすために、均一なサンプリングを使用することが多い。 これらの問題に対処するため,従来のアプローチに比べてセグメント化精度が向上するために,より小さなアーキテクチャを採用するパイプラインを提案する。 これはSparse Depthwise Separable Convolutionモジュールによって実現され、タスク全体のパフォーマンスを維持しながら、ネットワークパラメータの数を著しく削減する。 トレーニングデータを効果的にサブサンプリングするために,環境内におけるセンサモーションの知識を活用して,より多様なトレーニングデータフレームサンプルを抽出する,時空間冗長フレームダウンサンプリング(ST-RFD)手法を提案する。 限られた注釈付きデータサンプルの利用を活用するために,LiDAR反射率を指標としたソフトな擬似ラベル手法を提案する。 本手法は,モデルパラメータの2.3倍の削減と641倍の乗算演算に基づくSemanticKITTI (59.5@5%) およびScribbleKITTI (58.1@5%) ベンチマークデータセットにおいて,ラベル付きデータの少ない使用により,従来の半教師付き作業よりも優れ,同時に限られたトレーニングデータ(例:Less is More)に対して大幅な性能向上を示す。

Whilst the availability of 3D LiDAR point cloud data has significantly grown in recent years, annotation remains expensive and time-consuming, leading to a demand for semi-supervised semantic segmentation methods with application domains such as autonomous driving. Existing work very often employs relatively large segmentation backbone networks to improve segmentation accuracy, at the expense of computational costs. In addition, many use uniform sampling to reduce ground truth data requirements for learning needed, often resulting in sub-optimal performance. To address these issues, we propose a new pipeline that employs a smaller architecture, requiring fewer ground-truth annotations to achieve superior segmentation accuracy compared to contemporary approaches. This is facilitated via a novel Sparse Depthwise Separable Convolution module that significantly reduces the network parameter count while retaining overall task performance. To effectively sub-sample our training data, we propose a new Spatio-Temporal Redundant Frame Downsampling (ST-RFD) method that leverages knowledge of sensor motion within the environment to extract a more diverse subset of training data frame samples. To leverage the use of limited annotated data samples, we further propose a soft pseudo-label method informed by LiDAR reflectivity. Our method outperforms contemporary semi-supervised work in terms of mIoU, using less labeled data, on the SemanticKITTI (59.5@5%) and ScribbleKITTI (58.1@5%) benchmark datasets, based on a 2.3x reduction in model parameters and 641x fewer multiply-add operations whilst also demonstrating significant performance improvement on limited training data (i.e., Less is More).
翻訳日:2023-03-29 18:12:05 公開日:2023-03-28
# LiDAR強度を用いた教師なし内在画像分解

Unsupervised Intrinsic Image Decomposition with LiDAR Intensity ( http://arxiv.org/abs/2303.10820v2 )

ライセンス: Link先を確認
Shogo Sato, Yasuhiro Yao, Taiga Yoshida, Takuhiro Kaneko, Shingo Ando, Jun Shimamura(参考訳) 固有画像分解(IID)は、自然な画像をアルベドとシェードに分解するタスクである。 IIDは典型的には教師付き学習法によって解決されるが、地上の真理アルベドや日陰の観察が難しいため理想的ではない。 逆に,教師なし学習法では,問題解決の基準がないため,教師なし学習法が過小評価されている。 近年,高精度な距離測定が可能となり,光検出・測位(lidar)が広く用いられている。 そこで我々は,この問題に対処するために,LiDAR,特にLiDAR強度の利用に焦点を当てた。 本稿では,LiDAR強度(IID-LI)を用いた教師なし固有画像分解法を提案する。 従来の教師なし学習手法は画像から画像への変換から成り立っているため、LiDARの強度を入力するだけでは効果的ではない。 そこで本研究では,lidar強度とグレースケールアルベドの誤差を計算した強度一貫性損失を設計し,不適切な問題に対する基準を与える。 また,lidar強度は,その分散性や閉塞性から処理が困難であるため,lidar強度密度モジュールが提案されている。 我々は、RGB画像、LiDAR強度、人間の判断アノテーションを含むデータセットを用いて、評価品質を検証した。 その結果,従来の教師なし学習法を上回って推定精度が向上した。 Dataset link : (https://github.com/ntthilab-cv/NTT-inrinsic-dataset)。

Intrinsic image decomposition (IID) is the task that decomposes a natural image into albedo and shade. While IID is typically solved through supervised learning methods, it is not ideal due to the difficulty in observing ground truth albedo and shade in general scenes. Conversely, unsupervised learning methods are currently underperforming supervised learning methods since there are no criteria for solving the ill-posed problems. Recently, light detection and ranging (LiDAR) is widely used due to its ability to make highly precise distance measurements. Thus, we have focused on the utilization of LiDAR, especially LiDAR intensity, to address this issue. In this paper, we propose unsupervised intrinsic image decomposition with LiDAR intensity (IID-LI). Since the conventional unsupervised learning methods consist of image-to-image transformations, simply inputting LiDAR intensity is not an effective approach. Therefore, we design an intensity consistency loss that computes the error between LiDAR intensity and gray-scaled albedo to provide a criterion for the ill-posed problem. In addition, LiDAR intensity is difficult to handle due to its sparsity and occlusion, hence, a LiDAR intensity densification module is proposed. We verified the estimating quality using our own dataset, which include RGB images, LiDAR intensity and human judged annotations. As a result, we achieved an estimation accuracy that outperforms conventional unsupervised learning methods. Dataset link : (https://github.com/ntthilab-cv/NTT-intrinsic-dataset).
翻訳日:2023-03-29 18:11:29 公開日:2023-03-28
# 深部画像指紋 : 高精度・低予算合成画像検出装置

Deep Image Fingerprint: Accurate And Low Budget Synthetic Image Detector ( http://arxiv.org/abs/2303.10762v2 )

ライセンス: Link先を確認
Sergey Sinitsa and Ohad Fried(参考訳) 高品質な画像の生成は、広くアクセスしやすくなり、急速に進化するプロセスである。 その結果、誰でも実際のものと区別できない画像を生成することができる。 これは幅広いアプリケーションにつながり、詐欺を念頭において悪意のある使用法も含んでいる。 生成画像の検出技術の進歩にもかかわらず、ロバストな検出手法はいまだに我々を導いてくれる。 本研究では,畳み込みニューラルネットワーク(cnns)のインダクティブバイアスを利用して,少量のトレーニングサンプルを必要とする新しい検出法を開発し,現在の最先端手法と同等以上の精度を達成する。

The generation of high-quality images has become widely accessible and is a rapidly evolving process. As a result, anyone can generate images that are indistinguishable from real ones. This leads to a wide range of applications, which also include malicious usage with deception in mind. Despite advances in detection techniques for generated images, a robust detection method still eludes us. In this work, we utilize the inductive bias of convolutional neural networks (CNNs) to develop a new detection method that requires a small amount of training samples and achieves accuracy that is on par or better than current state-of-the-art methods.
翻訳日:2023-03-29 18:11:07 公開日:2023-03-28
# DBLP-QuAD:DBLP Scholarly Knowledge Graph上の質問応答データセット

DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph ( http://arxiv.org/abs/2303.13351v2 )

ライセンス: Link先を確認
Debayan Banerjee, Sushil Awale, Ricardo Usbeck, Chris Biemann(参考訳) 本研究では,DBLP学術知識グラフ(KG)上で質問応答データセットを作成する。 dblpは、2200万以上の著者が出版した440万以上の出版物をインデックス化する主要なコンピュータサイエンス出版物の書誌情報のオンラインリファレンスである。 我々のデータセットは1万の質問応答対と対応するSPARQLクエリで構成されており、DBLP KG上で実行して正しい回答を取得することができる。 DBLP-QuADは学術的な質問応答データセットとしては最大である。

In this work we create a question answering dataset over the DBLP scholarly knowledge graph (KG). DBLP is an on-line reference for bibliographic information on major computer science publications that indexes over 4.4 million publications published by more than 2.2 million authors. Our dataset consists of 10,000 question answer pairs with the corresponding SPARQL queries which can be executed over the DBLP KG to fetch the correct answer. DBLP-QuAD is the largest scholarly question answering dataset.
翻訳日:2023-03-29 18:04:24 公開日:2023-03-28
# フォトニックGKP状態との自由電子相互作用:普遍制御と量子誤り訂正

Free-electron interactions with photonic GKP states: universal control and quantum error correction ( http://arxiv.org/abs/2303.13244v2 )

ライセンス: Link先を確認
Gefen Baranes, Shiran Even-Haim, Ron Ruimy, Alexey Gorlach, Raphael Dahan, Asaf A. Diringer, Shay Hacohen-Gourgy, and Ido Kaminer(参考訳) 自由電子と光子のコヒーレント相互作用は、GKP(Gottesman-Kitaev-Preskill)量子ビットの形で連続可変フォトニック量子状態の普遍的な制御に利用できることを示す。 具体的には、電子エネルギーコムはフォトニック状態の非破壊的な測定を可能にし、任意のゲートを誘導することができる。 さらに、複数のフォトニックモードと相互作用する単一の電子は、グリーンベルガー=ホルン=ザイリンガー状態やGKPのクラスター状態のような非常に絡み合った状態を生成することができる。

We show that the coherent interaction between free electrons and photons can be used for universal control of continuous-variable photonic quantum states in the form of Gottesman-Kitaev-Preskill (GKP) qubits. Specifically, we find that electron energy combs enable non-destructive measurements of the photonic state and can induce arbitrary gates. Moreover, a single electron interacting with multiple photonic modes can create highly entangled states such as Greenberger-Horne-Zeilinger states and cluster states of GKPs.
翻訳日:2023-03-29 18:04:15 公開日:2023-03-28
# 機械学習による心原性ショックの早期予測のための動的リスクスコア

A dynamic risk score for early prediction of cardiogenic shock using machine learning ( http://arxiv.org/abs/2303.12888v2 )

ライセンス: Link先を確認
Yuxuan Hu, Albert Lui, Mark Goldstein, Mukund Sudarshan, Andrea Tinsay, Cindy Tsui, Samuel Maidman, John Medamana, Neil Jethani, Aahlad Puli, Vuthy Nguy, Yindalon Aphinyanaphongs, Nicholas Kiefer, Nathaniel Smilowitz, James Horowitz, Tania Ahuja, Glenn I Fishman, Judith Hochman, Stuart Katz, Samuel Bernard, Rajesh Ranganath(参考訳) 心筋梗塞と心不全は、米国の何百万人もの人々に影響を及ぼす主要な心血管疾患である。 心原性ショックを発症する患者では死亡率と死亡率が高い。 心原性ショックの早期認識は重要である。 治療の迅速な実施は、虚血の有害なスパイラル、低血圧、心原性ショックによる心臓出力の低下を防ぐことができる。 しかし、心原性ショックの早期発見は、心臓集中治療ユニット(ICU)に膨大な量のデータを処理できないことや、効果的なリスク階層化ツールがないために困難である。 心原性ショックの発症を予知するために,急性心不全と心筋梗塞を併発した心ICU患者を対象に,深層学習型リスク層化ツールCShockを開発した。 CShockの開発と評価を行うため, 心ICUデータセットのアノテートを行った。 CShock は 0.820 のレシーバ演算子特性曲線 (AUROC) の下の領域を達成し、CardShock (AUROC 0.519) は心原性ショック予後の優れたリスクスコアである。 CShockは、独立した患者のコホートで外部から検証され、AUROCの0.800を達成し、他の心ICUの一般化可能性を示した。

Myocardial infarction and heart failure are major cardiovascular diseases that affect millions of people in the US. The morbidity and mortality are highest among patients who develop cardiogenic shock. Early recognition of cardiogenic shock is critical. Prompt implementation of treatment measures can prevent the deleterious spiral of ischemia, low blood pressure, and reduced cardiac output due to cardiogenic shock. However, early identification of cardiogenic shock has been challenging due to human providers' inability to process the enormous amount of data in the cardiac intensive care unit (ICU) and lack of an effective risk stratification tool. We developed a deep learning-based risk stratification tool, called CShock, for patients admitted into the cardiac ICU with acute decompensated heart failure and/or myocardial infarction to predict onset of cardiogenic shock. To develop and validate CShock, we annotated cardiac ICU datasets with physician adjudicated outcomes. CShock achieved an area under the receiver operator characteristic curve (AUROC) of 0.820, which substantially outperformed CardShock (AUROC 0.519), a well-established risk score for cardiogenic shock prognosis. CShock was externally validated in an independent patient cohort and achieved an AUROC of 0.800, demonstrating its generalizability in other cardiac ICUs.
翻訳日:2023-03-29 18:04:06 公開日:2023-03-28
# 量子フォトニクスチャネルの忠実度曲線に基づく絡み合いルーティング

Entanglement Routing Based on Fidelity Curves for Quantum Photonics Channels ( http://arxiv.org/abs/2303.12864v2 )

ライセンス: Link先を確認
Bruno C. Coutinho, Raul Monteiro, Lu\'is Bugalho, Francisco A. Monteiro(参考訳) 量子インターネットは、近くの隣接ノードからネットワーク内の任意の2つのノードへの絡み合い相関を拡張することを約束している。 大規模ネットワーク上での絡み合いを効率的に分散する方法は、検討した技術に大きく依存するオープンな問題である。 本研究では,絡み合い生成率と忠実度とのトレードオフを特徴とするフォトニックチャネルからなる量子ネットワークを考える。 このようなネットワークについては、ネットワークの2部絡みルーティングにおいて与えられた2つのノードを接続する最善の経路を見つけることと、ネットワークの3つのノードを複数部絡みルーティングで接続するために最善のスタートノードを見つける問題という2つの問題に目を向ける。 エンタングルメント分布モデルとしては,エンタングル量子ビットが一度に1つずつ分布するフローモデルと,多数のエンタングル量子ビットが同時に分布するフローモデルがある。 連続的忠実度曲線(つまり、絡み合い生成忠実度とレート)を主要なルーティング指標として用いることを提案する。 多目的パスフィニングアルゴリズムと組み合わせて、各リンクを記述する忠実度曲線は、エンドツーエンドの忠実度と絡み合い生成率の両方を最大化するパスの集合を見つけることができる。 検討したモデルとネットワークに対しては,アルゴリズムが常に最適解に収束することを証明し,その実行時間がネットワーク内のノード数とともに多項式を増大させることを示す。 私たちの実装は、ネットワークによっては1ドルから14ドルのパワーを持つノードの数で成長します。 本研究は、複雑な絡み合い分布プロトコルを持つネットワークのためのパスフィニングアルゴリズムの開発方法、特に、リピータ・アンド・パーフィケーションプロトコルのような、世代密度とレートのトレードオフを示す他のプロトコルの開発方法である。

The quantum internet promises to extend entanglement correlations from nearby neighbors to any two nodes in a network. How to efficiently distribute entanglement over large-scale networks is still an open problem that greatly depends on the technology considered. In this work, we consider quantum networks composed of photonic channels characterized by a trade-off between the entanglement generation rate and fidelity. For such networks we look at the two following problems: the one of finding the best path to connect any two given nodes in the network bipartite entanglement routing, and the problem of finding the best starting node in order to connect three nodes in the network multipartite entanglement routing. We consider two entanglement distribution models: one where entangled qubit are distributed one at a time, and a flow model where a large number of entangled qubits are distributed simultaneously. We propose the use of continuous fidelity curves (i.e., entanglement generation fidelity vs rate) as the main routing metric. Combined with multi-objective path-finding algorithms, the fidelity curves describing each link allow finding a set of paths that maximize both the end-to-end fidelity and the entanglement generation rate. For the models and networks considered, we prove that the algorithm always converges to the optimal solution, and we show through simulation that its execution time grows polynomial with the number of nodes in the network. Our implementation grows with the number of nodes with a power between $1$ and $1.4$ depending on the network. This work paves the way for the development of path-finding algorithms for networks with complex entanglement distribution protocols, in particular for other protocols that exhibit a trade-off between generation fidelity and rate, such as repeater-and-purify protocols.
翻訳日:2023-03-29 18:03:43 公開日:2023-03-28
# $(d-1)$-WLテストの3つの反復は、$d$-次元点の非等尺雲を区別する

Three iterations of $(d-1)$-WL test distinguish non isometric clouds of $d$-dimensional points ( http://arxiv.org/abs/2303.12853v2 )

ライセンス: Link先を確認
Valentino Delle Rose, Alexander Kozachinskiy, Crist\'obal Rojas, Mircea Petrache and Pablo Barcel\'o(参考訳) Weisfeiler--Lehman (WL) テストはグラフの同型性をチェックするための基本的な反復アルゴリズムである。 また、このテストの表現力の観点から、能力と性能を理解できるいくつかのグラフニューラルネットワークアーキテクチャの設計の基礎となることも観察されている。 三次元オブジェクトを含むデータセットへの機械学習応用の最近の発展により、完全距離グラフで表されるユークリッド点の雲に対するWLテストがいつ完備になるか、すなわち、等距離まで、任意の任意の雲を区別できるかが研究されている。 我々の主な結果は、d 次元ユークリッド空間における点雲に対する $(d-1) 次元 wl テストは、任意の $d\ge 2$ に対して完備であり、テスト suffice の3つの反復のみである。 我々の結果は$d = 2, 3$に対してきつい。 また、$d$-dimensional WL テストは完全性を達成するために 1 つの反復しか必要としない。

The Weisfeiler--Lehman (WL) test is a fundamental iterative algorithm for checking isomorphism of graphs. It has also been observed that it underlies the design of several graph neural network architectures, whose capabilities and performance can be understood in terms of the expressive power of this test. Motivated by recent developments in machine learning applications to datasets involving three-dimensional objects, we study when the WL test is {\em complete} for clouds of euclidean points represented by complete distance graphs, i.e., when it can distinguish, up to isometry, any arbitrary such cloud. Our main result states that the $(d-1)$-dimensional WL test is complete for point clouds in $d$-dimensional Euclidean space, for any $d\ge 2$, and that only three iterations of the test suffice. Our result is tight for $d = 2, 3$. We also observe that the $d$-dimensional WL test only requires one iteration to achieve completeness.
翻訳日:2023-03-29 18:03:12 公開日:2023-03-28
# マルチタスク学習による早期新生児の予後予測

Predicting Adverse Neonatal Outcomes for Preterm Neonates with Multi-Task Learning ( http://arxiv.org/abs/2303.15656v1 )

ライセンス: Link先を確認
Jingyang Lin, Junyu Chen, Hanjia Lyu, Igor Khodak, Divya Chhabra, Colby L Day Richardson, Irina Prelipcean, Andrew M Dylag, Jiebo Luo(参考訳) 新生児の予後不良の診断は、医師がタイムリーな治療を提供できるため、短期的生存には不可欠である。 機械学習(ML)アルゴリズムは新生児の悪影響を予測するのに有効であることが示されている。 しかし、これまでのMLベースのほとんどの手法は、1つの結果を予測することだけに集中しており、異なる結果間の潜在的な相関を無視し、潜在的に最適以下の結果と過度な問題につながる可能性がある。 本研究は,まず3つの有害な新生児予後の相関関係を分析し,マルチタスク学習(mtl)問題として複数の新生児成果の診断を定式化する。 次に,多発性新生児の予後を予測するためのMTLフレームワークを提案する。 特に、MTLフレームワークは共有の隠れレイヤと複数のタスク固有のブランチを含んでいる。 初期新生児121例のElectronic Health Records (EHRs) を用いて広範囲にわたる実験を行った。 実験結果はmtlフレームワークの有効性を示す。 さらに、新生児の成果ごとに機能の重要性を分析し、モデル解釈可能性に関する洞察を提供する。

Diagnosis of adverse neonatal outcomes is crucial for preterm survival since it enables doctors to provide timely treatment. Machine learning (ML) algorithms have been demonstrated to be effective in predicting adverse neonatal outcomes. However, most previous ML-based methods have only focused on predicting a single outcome, ignoring the potential correlations between different outcomes, and potentially leading to suboptimal results and overfitting issues. In this work, we first analyze the correlations between three adverse neonatal outcomes and then formulate the diagnosis of multiple neonatal outcomes as a multi-task learning (MTL) problem. We then propose an MTL framework to jointly predict multiple adverse neonatal outcomes. In particular, the MTL framework contains shared hidden layers and multiple task-specific branches. Extensive experiments have been conducted using Electronic Health Records (EHRs) from 121 preterm neonates. Empirical results demonstrate the effectiveness of the MTL framework. Furthermore, the feature importance is analyzed for each neonatal outcome, providing insights into model interpretability.
翻訳日:2023-03-29 17:00:26 公開日:2023-03-28
# リンク予測のための階層的距離への結合埋め込みと意味表現学習

Joint embedding in Hierarchical distance and semantic representation learning for link prediction ( http://arxiv.org/abs/2303.15655v1 )

ライセンス: Link先を確認
Jin Liu and Jianye Chen and Chongfeng Fan and Fengyu Zhou(参考訳) リンク予測タスクは、知識グラフに欠けているエンティティや関係を予測することを目的としており、下流アプリケーションに必須である。 既存のよく知られたモデルは、主に距離空間や意味空間における知識グラフ三重項を表現することに焦点を当てて、このタスクに対処する。 しかし、頭と尾の情報を完全に捉えることはできず、階層的なレベルの情報をうまく利用することもできない。 そこで本稿では,リンク予測タスクのための新しい知識グラフ埋め込みモデル,すなわちHIEを提案し,各三重項(\textit{h}, \textit{r}, \textit{t})を距離測定空間と意味測定空間に同時にモデル化する。 さらに、HIEは階層的な空間に導入され、より優れた表現学習のためにエンティティや関係の豊富な階層情報を活用する。 具体的には、距離空間のヘッドエンティティに距離変換演算を適用し、翻訳や回転に基づくアプローチの代わりにテールエンティティを求める。 実世界の4つのデータセットに対するHIEの実験結果から、HIEはリンク予測タスクに既存の知識グラフを埋め込む方法よりも優れており、複雑な関係を正確に扱うことができる。

The link prediction task aims to predict missing entities or relations in the knowledge graph and is essential for the downstream application. Existing well-known models deal with this task by mainly focusing on representing knowledge graph triplets in the distance space or semantic space. However, they can not fully capture the information of head and tail entities, nor even make good use of hierarchical level information. Thus, in this paper, we propose a novel knowledge graph embedding model for the link prediction task, namely, HIE, which models each triplet (\textit{h}, \textit{r}, \textit{t}) into distance measurement space and semantic measurement space, simultaneously. Moreover, HIE is introduced into hierarchical-aware space to leverage rich hierarchical information of entities and relations for better representation learning. Specifically, we apply distance transformation operation on the head entity in distance space to obtain the tail entity instead of translation-based or rotation-based approaches. Experimental results of HIE on four real-world datasets show that HIE outperforms several existing state-of-the-art knowledge graph embedding methods on the link prediction task and deals with complex relations accurately.
翻訳日:2023-03-29 17:00:11 公開日:2023-03-28
# 階層化クラス特異的注意型トランスフォーマーネットワークによる3dポイントクラウド意味セグメンテーション

Few-Shot 3D Point Cloud Semantic Segmentation via Stratified Class-Specific Attention Based Transformer Network ( http://arxiv.org/abs/2303.15654v1 )

ライセンス: Link先を確認
Canyu Zhang, Zhenyao Wu, Xinyi Wu, Ziyu Zhao, Song Wang(参考訳) 3d point cloud semantic segmentationはすべてのポイントを異なるセマンティックカテゴリにグループ化することを目的としている。 既存の教師付きポイントクラウドセマンティックセグメンテーション手法では、トレーニングには大規模なアノテートポイントクラウドが必要であり、新しいカテゴリを扱えない。 この2つの問題に対処するために, 数発学習法が最近提案されているが, グラフ構築による計算複雑性や, プーリング操作による点間のきめ細かな関係を学習できないなど, 高い計算量に苦しむ。 本稿では,クラウドセマンティクスセグメンテーションのための新しい多層トランスフォーマネットワークの開発により,この問題をさらに解決する。 提案するネットワークでは、クエリポイントクラウド機能は、異なるスケールのクラス固有のサポート機能に基づいて集約される。 本手法では, プール操作を使わずに, サポートサンプルからすべての画素レベルの特徴をフル活用する。 S3DISデータセットとScanNetデータセットの既存のショット3Dポイントクラウドセグメンテーションモデルよりも15倍少ない推論時間で、最新の最先端のパフォーマンスを実現する。

3D point cloud semantic segmentation aims to group all points into different semantic categories, which benefits important applications such as point cloud scene reconstruction and understanding. Existing supervised point cloud semantic segmentation methods usually require large-scale annotated point clouds for training and cannot handle new categories. While a few-shot learning method was proposed recently to address these two problems, it suffers from high computational complexity caused by graph construction and inability to learn fine-grained relationships among points due to the use of pooling operations. In this paper, we further address these problems by developing a new multi-layer transformer network for few-shot point cloud semantic segmentation. In the proposed network, the query point cloud features are aggregated based on the class-specific support features in different scales. Without using pooling operations, our method makes full use of all pixel-level features from the support samples. By better leveraging the support features for few-shot learning, the proposed method achieves the new state-of-the-art performance, with 15\% less inference time, over existing few-shot 3D point cloud segmentation models on the S3DIS dataset and the ScanNet dataset.
翻訳日:2023-03-29 16:59:46 公開日:2023-03-28
# 構造化動的価格:グローバル収縮モデルにおける最適後悔

Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model ( http://arxiv.org/abs/2303.15652v1 )

ライセンス: Link先を確認
Rashmi Ranjan Bhuyan, Adel Javanmard, Sungchul Kim, Gourab Mukherjee, Ryan A. Rossi, Tong Yu, Handong Zhao(参考訳) 我々は,多数の顧客セグメントにまたがる累積利益を最大化することが目的のストリーム縦型データ集合における動的価格戦略を検討する。 消費者の好みと価格の感度が時間とともに変化する動的プロビットモデルを考える。 類似した特性を共有する消費者が同様の方法で行動するというよく知られた発見に基づき、異なるセグメントをまたいだ消費者の嗜好を空間的自己回帰(sar)モデルによってよく近似できると仮定するグローバルな収縮構造を考える。 このようなストリーム型縦型設定では,モデルパラメータのシーケンスを事前に知っている透視型と比較して,予測した収益損失を後悔して,動的価格政策のパフォーマンスを計測する。 本稿では,ペナルティ化された確率的勾配降下(psgd)に基づく価格政策を提案し,その後悔を時間関数,モデルパラメータの時間変動性,および顧客セグメントにまたがる自己相関ネットワーク構造の強度として明確に特徴付ける。 提案した政策の漸近的最適性を示すだけでなく,未解決モデルに基づく政策として利用可能な構造情報を組み込むことが,上記の設定において極めて最適であることを示す。

We consider dynamic pricing strategies in a streamed longitudinal data set-up where the objective is to maximize, over time, the cumulative profit across a large number of customer segments. We consider a dynamic probit model with the consumers' preferences as well as price sensitivity varying over time. Building on the well-known finding that consumers sharing similar characteristics act in similar ways, we consider a global shrinkage structure, which assumes that the consumers' preferences across the different segments can be well approximated by a spatial autoregressive (SAR) model. In such a streamed longitudinal set-up, we measure the performance of a dynamic pricing policy via regret, which is the expected revenue loss compared to a clairvoyant that knows the sequence of model parameters in advance. We propose a pricing policy based on penalized stochastic gradient descent (PSGD) and explicitly characterize its regret as functions of time, the temporal variability in the model parameters as well as the strength of the auto-correlation network structure spanning the varied customer segments. Our regret analysis results not only demonstrate asymptotic optimality of the proposed policy but also show that for policy planning it is essential to incorporate available structural information as policies based on unshrunken models are highly sub-optimal in the aforementioned set-up.
翻訳日:2023-03-29 16:59:21 公開日:2023-03-28
# 不変および等変場予測としての4次元パノプティカルセグメンテーション

4D Panoptic Segmentation as Invariant and Equivariant Field Prediction ( http://arxiv.org/abs/2303.15651v1 )

ライセンス: Link先を確認
Minghan Zhu, Shizong Han, Hong Cai, Shubhankar Borse, Maani Ghaffari Jadidi, Fatih Porikli(参考訳) 本稿では,4次元パノプティックセグメンテーションのための回転同変ニューラルネットワークを開発する。 4d panoptic segmentation(4d panoptic segmentation)は、lidarスキャンに基づいて道路上のセマンティッククラスとオブジェクトインスタンスを認識すると同時に、時間を越えたインスタンスに時間的一貫性のあるidを割り当てる、自動運転のための最近確立されたベンチマークタスクである。 運転シナリオは地上面上の回転と対称であることが観察された。 したがって、回転等価性はより良い一般化とより堅牢な特徴学習をもたらす。 具体的には,オブジェクトインスタンスのクラスタリング戦略を考察し,不変スカラー場と等価ベクトル場の予測として,中心性に基づくアプローチとオフセットに基づくアプローチを復元する。 他のサブタスクもこの観点からも統一されており、異なる不変および同変層はそれらの予測を容易にするように設計されている。 本研究では,Semantic KITTIの標準4Dパノプティクスセグメンテーションベンチマークを用いて,同変モデルが非等変モデルと比較して計算コストを低くして高い精度を達成することを示す。 さらに,本手法は,新しい最先端性能を設定し,SemanticKITTI 4D Panoptic Segmentation Leaderboardで1位を獲得している。

In this paper, we develop rotation-equivariant neural networks for 4D panoptic segmentation. 4D panoptic segmentation is a recently established benchmark task for autonomous driving, which requires recognizing semantic classes and object instances on the road based on LiDAR scans, as well as assigning temporally consistent IDs to instances across time. We observe that the driving scenario is symmetric to rotations on the ground plane. Therefore, rotation-equivariance could provide better generalization and more robust feature learning. Specifically, we review the object instance clustering strategies, and restate the centerness-based approach and the offset-based approach as the prediction of invariant scalar fields and equivariant vector fields. Other sub-tasks are also unified from this perspective, and different invariant and equivariant layers are designed to facilitate their predictions. Through evaluation on the standard 4D panoptic segmentation benchmark of SemanticKITTI, we show that our equivariant models achieve higher accuracy with lower computational costs compared to their non-equivariant counterparts. Moreover, our method sets the new state-of-the-art performance and achieves 1st place on the SemanticKITTI 4D Panoptic Segmentation leaderboard.
翻訳日:2023-03-29 16:58:59 公開日:2023-03-28
# stylediffusion:テキストベースの編集のためのプロンプトエンベディングインバージョン

StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing ( http://arxiv.org/abs/2303.15649v1 )

ライセンス: Link先を確認
Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, Jian Yang(参考訳) 重要な研究は、画像編集のための事前訓練された拡散モデルの驚くべきキャパシティを活用することに焦点を当てている。 彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。 しかし,(1)選抜地域における不満足な結果と,非選抜地域における予期せぬ変化の2つの問題に苦しむ。 2) 入力画像にすべての視覚オブジェクトを含める場合には, 注意深いテキストプロンプトの編集が必要である。 そこで本研究では,(1)有向層における値線形ネットワークの入力を最適化するだけで,実画像の再構成に十分強力である,という2つの改良点を提案する。 2) 対象に類似した注意図を編集後保存するための注意規則化を提案し, 重要な構造的変化を招くことなく, 正確なスタイルの編集を行えるようにした。 さらに,分類器なし指導の無条件分岐に用いる編集技術や,p2pが使用する条件分岐技術も改良した。 様々な画像に対する広範囲な実験的なプロンプト編集結果から,本手法が既存および同時処理よりも優れた編集能力を有することを示す。

A significant research effort is focused on exploiting the amazing capacities of pretrained diffusion models for the editing of images. They either finetune the model, or invert the image in the latent space of the pretrained model. However, they suffer from two problems: (1) Unsatisfying results for selected regions, and unexpected changes in nonselected regions. (2) They require careful text prompt editing where the prompt should include all visual objects in the input image. To address this, we propose two improvements: (1) Only optimizing the input of the value linear network in the cross-attention layers, is sufficiently powerful to reconstruct a real image. (2) We propose attention regularization to preserve the object-like attention maps after editing, enabling us to obtain accurate style editing without invoking significant structural changes. We further improve the editing technique which is used for the unconditional branch of classifier-free guidance, as well as the conditional one as used by P2P. Extensive experimental prompt-editing results on a variety of images, demonstrate qualitatively and quantitatively that our method has superior editing capabilities than existing and concurrent works.
翻訳日:2023-03-29 16:58:38 公開日:2023-03-28
# スケールダウンからスケールアップ:パラメータ効率の良いファインチューニングのガイド

Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2303.15647v1 )

ライセンス: Link先を確認
Vladislav Lialin, Vijeta Deshpande, Anna Rumshisky(参考訳) 本稿では,2019年2月から2023年2月までに発行された40以上の論文を対象としたパラメータ効率の良い微調整手法の概要と比較を行った。 これらの手法は,少数のパラメータのみを訓練することで,微調整された大規模言語モデルの実用性と非現実性を解決することを目的としている。 幅広い方法をカバーする分類法を提供し、実生活効率と微調整された数十億規模の言語モデルに特定の焦点をあてた詳細な比較方法を提案する。

This paper presents a systematic overview and comparison of parameter-efficient fine-tuning methods covering over 40 papers published between February 2019 and February 2023. These methods aim to resolve the infeasibility and impracticality of fine-tuning large language models by only training a small set of parameters. We provide a taxonomy that covers a broad range of methods and present a detailed method comparison with a specific focus on real-life efficiency and fine-tuning multibillion-scale language models.
翻訳日:2023-03-29 16:58:18 公開日:2023-03-28
# DisWOT: 学生がトレーニングなしで蒸留するアーキテクチャ検索

DisWOT: Student Architecture Search for Distillation WithOut Training ( http://arxiv.org/abs/2303.15678v1 )

ライセンス: Link先を確認
Peijie Dong, Lujun Li, Zimian Wei(参考訳) 知識蒸留(KD)は,教師の指導のもと,軽量な学生モデルを改善するための効果的な訓練戦略である。 しかし、教師と学生のペア間で大きなアーキテクチャの違いは蒸留効果を制限している。 教師と学生のギャップを減らすための従来の適応蒸留法とは対照的に,教師にとって最高の学生アーキテクチャを探すための新しい学習自由フレームワークを探索する。 まず,バニラトレーニングの最適モデルは蒸留の勝者にはなれないことを実証的に示した。 第2に,教師-学生間の特徴意味論の類似性とサンプル関係が,最終蒸留性能と良好な相関関係があることを見出した。 そこで本研究では, セマンティックアクティベーションマップに条件付き類似度行列を効率的に測定し, 進化的アルゴリズムを用いて最適な学生を選択する。 このようにして、学生によるDisWOT(Distillation WithOut Training)の探索は、蒸留段階におけるモデルの性能を少なくとも180$\times$トレーニングアクセラレーションで大幅に向上させる。 さらに,新しい蒸留器やkdベースのゼロプロキシとして,類似度指標をdiswotに拡張した。 CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。 私たちのプロジェクトとコードはhttps://lilujunai.github.io/DisWOT-CVPR2023/で利用可能です。

Knowledge distillation (KD) is an effective training strategy to improve the lightweight student models under the guidance of cumbersome teachers. However, the large architecture difference across the teacher-student pairs limits the distillation gains. In contrast to previous adaptive distillation methods to reduce the teacher-student gap, we explore a novel training-free framework to search for the best student architectures for a given teacher. Our work first empirically show that the optimal model under vanilla training cannot be the winner in distillation. Secondly, we find that the similarity of feature semantics and sample relations between random-initialized teacher-student networks have good correlations with final distillation performances. Thus, we efficiently measure similarity matrixs conditioned on the semantic activation maps to select the optimal student via an evolutionary algorithm without any training. In this way, our student architecture search for Distillation WithOut Training (DisWOT) significantly improves the performance of the model in the distillation stage with at least 180$\times$ training acceleration. Additionally, we extend similarity metrics in DisWOT as new distillers and KD-based zero-proxies. Our experiments on CIFAR, ImageNet and NAS-Bench-201 demonstrate that our technique achieves state-of-the-art results on different search spaces. Our project and code are available at https://lilujunai.github.io/DisWOT-CVPR2023/.
翻訳日:2023-03-29 16:51:29 公開日:2023-03-28
# 屋外拡張現実のためのクロスビュービジュアルジオローカライズ

Cross-View Visual Geo-Localization for Outdoor Augmented Reality ( http://arxiv.org/abs/2303.15676v1 )

ライセンス: Link先を確認
Niluthpol Chowdhury Mithun, Kshitij Minhas, Han-Pang Chiu, Taragay Oskiper, Mikhail Sizintsev, Supun Samarasekera, Rakesh Kumar(参考訳) アウトドア拡張現実(ar)体験を確実にするためには、グローバルオリエンテーションとロケーションの正確な推定が不可欠である。 地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。 近年,ニューラルネットワークに基づく手法がクロスビューマッチングにおいて最先端のパフォーマンスを示している。 しかし、以前の作業のほとんどは位置推定にのみ焦点を合わせ、方向を無視し、屋外arアプリケーションでは要件を満たせない。 本稿では,新しいトランスフォーマリン・ニューラル・ネットワークに基づくモデルと,位置推定と方向推定のための修正三重項ランキングロスを提案する。 いくつかのベンチマーククロスビュージオローカライズデータセットにおける実験は、このモデルが最先端のパフォーマンスを達成していることを示している。 さらに,ロバストな連続的ジオローカライズのためにナビゲーションパイプラインからの時間情報を活用することにより,単一の画像クエリに基づくジオローカライズ手法を拡張する手法を提案する。 大規模実世界の複数の映像を実験した結果,本手法は高精度で安定したar挿入が可能となった。

Precise estimation of global orientation and location is critical to ensure a compelling outdoor Augmented Reality (AR) experience. We address the problem of geo-pose estimation by cross-view matching of query ground images to a geo-referenced aerial satellite image database. Recently, neural network-based methods have shown state-of-the-art performance in cross-view matching. However, most of the prior works focus only on location estimation, ignoring orientation, which cannot meet the requirements in outdoor AR applications. We propose a new transformer neural network-based model and a modified triplet ranking loss for joint location and orientation estimation. Experiments on several benchmark cross-view geo-localization datasets show that our model achieves state-of-the-art performance. Furthermore, we present an approach to extend the single image query-based geo-localization approach by utilizing temporal information from a navigation pipeline for robust continuous geo-localization. Experimentation on several large-scale real-world video sequences demonstrates that our approach enables high-precision and stable AR insertion.
翻訳日:2023-03-29 16:51:09 公開日:2023-03-28
# 凸多段確率最適化の数値解法

Numerical Methods for Convex Multistage Stochastic Optimization ( http://arxiv.org/abs/2303.15672v1 )

ライセンス: Link先を確認
Guanghui Lan and Alexander Shapiro(参考訳) 確率的プログラミング(SP)、確率的最適制御(SOC)、マルコフ決定過程(MDP)において、確率的環境における逐次決定を伴う最適化問題を検討した。 本稿では主にSPとSOCのモデリング手法に焦点を当てる。 これらのフレームワークでは、考慮された問題が凸している自然な状況がある。 逐次最適化に対する古典的なアプローチは動的プログラミングに基づいている。 いわゆる「次元の曲線」の問題があり、状態変数の次元が増加するにつれて計算の複雑さが指数関数的に増加する。 凸多段確率問題の解法における最近の進歩は、動的プログラミング方程式のコスト対ゴ(値)関数を近似した切断平面に基づいている。 動的設定における切削平面型アルゴリズムは,本論文の主要な話題の一つである。 また,多段階確率最適化問題に適用した確率近似型手法についても論じる。 計算複雑性の観点からは、これらの2種類の手法は互いに補完的であるように見える。 切断平面型メソッドは、多数のステージを持つが、比較的少ない状態(決定)変数を持つ多段問題を扱うことができる。 一方、確率近似型法は少数の段階のみを扱うことができるが、多数の決定変数を扱うことができる。

Optimization problems involving sequential decisions in a stochastic environment were studied in Stochastic Programming (SP), Stochastic Optimal Control (SOC) and Markov Decision Processes (MDP). In this paper we mainly concentrate on SP and SOC modelling approaches. In these frameworks there are natural situations when the considered problems are convex. Classical approach to sequential optimization is based on dynamic programming. It has the problem of the so-called ``Curse of Dimensionality", in that its computational complexity increases exponentially with increase of dimension of state variables. Recent progress in solving convex multistage stochastic problems is based on cutting planes approximations of the cost-to-go (value) functions of dynamic programming equations. Cutting planes type algorithms in dynamical settings is one of the main topics of this paper. We also discuss Stochastic Approximation type methods applied to multistage stochastic optimization problems. From the computational complexity point of view, these two types of methods seem to be complimentary to each other. Cutting plane type methods can handle multistage problems with a large number of stages, but a relatively smaller number of state (decision) variables. On the other hand, stochastic approximation type methods can only deal with a small number of stages, but a large number of decision variables.
翻訳日:2023-03-29 16:50:55 公開日:2023-03-28
# colo-scrl:大腸内視鏡ビデオ検索のための自己教師付きコントラスト表現学習

Colo-SCRL: Self-Supervised Contrastive Representation Learning for Colonoscopic Video Retrieval ( http://arxiv.org/abs/2303.15671v1 )

ライセンス: Link先を確認
Qingzhong Chen, Shilun Cai, Crystal Cai, Zefang Yu, Dahong Qian, Suncheng Xiang(参考訳) ポリープ治療の重要な部分である大腸内視鏡ビデオ検索は,大腸癌の予防と治療において大きな臨床的意義を持っている。 しかし,行動認識データセットで訓練された検索モデルは,その間の領域ギャップが大きいため,大腸鏡下データセットでは不十分な検索結果を生成することが多い。 この問題を解決するために,coro-pairという大規模大腸内視鏡データセットを構築した。 このデータセットに基づいて、より堅牢な表現学習のために、Colo-SCRLと呼ばれるシンプルで効果的なトレーニング手法を提案する。 マスキングオートエンコーダを用いた再構築と運動量コントラストにより, 大腸の一般知識を洗練し, 検索性能を向上させることを目的としている。 私たちの知る限りでは、これは医療ビデオ検索にコントラスト学習パラダイムを採用する最初の試みです。 その結果,本手法は大腸内視鏡的ビデオ検索作業における最先端の手法よりも優れていた。

Colonoscopic video retrieval, which is a critical part of polyp treatment, has great clinical significance for the prevention and treatment of colorectal cancer. However, retrieval models trained on action recognition datasets usually produce unsatisfactory retrieval results on colonoscopic datasets due to the large domain gap between them. To seek a solution to this problem, we construct a large-scale colonoscopic dataset named Colo-Pair for medical practice. Based on this dataset, a simple yet effective training method called Colo-SCRL is proposed for more robust representation learning. It aims to refine general knowledge from colonoscopies through masked autoencoder-based reconstruction and momentum contrast to improve retrieval performance. To the best of our knowledge, this is the first attempt to employ the contrastive learning paradigm for medical video retrieval. Empirical results show that our method significantly outperforms current state-of-the-art methods in the colonoscopic video retrieval task.
翻訳日:2023-03-29 16:50:37 公開日:2023-03-28
# 低リソース言語におけるデータ効率の良いテキスト音声の教師なし事前学習

Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low Resource Languages ( http://arxiv.org/abs/2303.15669v1 )

ライセンス: Link先を確認
Seongyeon Park, Myungseo Song, Bohyung Kim and Tae-Hyun Oh(参考訳) ニューラルテキスト音声モデル(TTS)は、大量の転写音声で訓練されたときに、自然な人間の音声を合成することができる。 しかし、このような大規模な転写データの収集は高価である。 本稿では,大規模音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。 事前トレーニングを行うことで、ターゲット下流TSタスクのモデルをトレーニングするために必要なペア書き起こしデータの量を大幅に削減できる。 主なアイデアは、非ワープされたメル-スペクトログラムを歪んだものから再構成するためにモデルを事前訓練することであり、入力シーケンスと出力シーケンスの間の適切な時間的割り当て関係を学習することができる。 さらに,微調整におけるデータ効率をさらに向上するデータ拡張手法を提案する。 提案手法の低リソース言語シナリオにおける有効性を実証的に実証し,競合する手法と比較して優れた性能を実現する。 コードとオーディオのサンプルは、https://github.com/cnaigithub/speechdewarpingで入手できる。

Neural text-to-speech (TTS) models can synthesize natural human speech when trained on large amounts of transcribed speech. However, collecting such large-scale transcribed data is expensive. This paper proposes an unsupervised pre-training method for a sequence-to-sequence TTS model by leveraging large untranscribed speech data. With our pre-training, we can remarkably reduce the amount of paired transcribed data required to train the model for the target downstream TTS task. The main idea is to pre-train the model to reconstruct de-warped mel-spectrograms from warped ones, which may allow the model to learn proper temporal assignment relation between input and output sequences. In addition, we propose a data augmentation method that further improves the data efficiency in fine-tuning. We empirically demonstrate the effectiveness of our proposed method in low-resource language scenarios, achieving outstanding performance compared to competing methods. The code and audio samples are available at: https://github.com/cnaigithub/SpeechDewarping
翻訳日:2023-03-29 16:50:22 公開日:2023-03-28
# 局所変分量子コンパイルによるグリーン関数の計算

Computation of Green's function by local variational quantum compilation ( http://arxiv.org/abs/2303.15667v1 )

ライセンス: Link先を確認
Shota Kanasugi, Shoichiro Tsutsui, Yuya O. Nakagawa, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato(参考訳) グリーン関数の計算は、強い相関系のような量子多体系の性質を研究するために重要である。 グリーン関数の高精度な計算は古典的コンピュータでは非常に難しい作業であるが、量子コンピュータの開発により、古典的でない大規模システムでもグリーン関数を高い精度で計算できる可能性がある。 本稿では,小型サブシステムの最適化によって構築された低深度量子回路を用いて,大規模量子システムの時間発展をシミュレートする局所変分量子コンパイル(LVQC)アルゴリズムに基づく実時間グリーン関数の効率的な計算法を提案する。 提案手法では,グリーン関数の計算に浅部量子回路が必要であり,計算資源に依存して,短期雑音や長期故障耐性の量子コンピュータに利用することができる。 本研究では, 1 次元および 2 次元フェルミ・ハバードモデルのグリーン関数を最大 4\times4$ site lattice (32 qubits) まで数値シミュレーションし,トロッター分解に基づく標準法と比較し,プロトコルの有効性を示す。 最後に,大規模Fermi-Hubbardモデルに対するゲート数を詳細に推定し,トロッター分解に対する手法の利点を示す。

Computation of the Green's function is crucial to study the properties of quantum many-body systems such as strongly correlated systems. Although the high-precision calculation of the Green's function is a notoriously challenging task on classical computers, the development of quantum computers may enable us to compute the Green's function with high accuracy even for classically-intractable large-scale systems. Here, we propose an efficient method to compute the real-time Green's function based on the local variational quantum compilation (LVQC) algorithm, which simulates the time evolution of a large-scale quantum system using a low-depth quantum circuit constructed through optimization on a smaller-size subsystem. Our method requires shallow quantum circuits to calculate the Green's function and can be utilized on both near-term noisy intermediate-scale and long-term fault-tolerant quantum computers depending on the computational resources we have. We perform a numerical simulation of the Green's function for the one- and two-dimensional Fermi-Hubbard model up to $4\times4$ sites lattice (32 qubits) and demonstrate the validity of our protocol compared to a standard method based on the Trotter decomposition. We finally present a detailed estimation of the gate count for the large-scale Fermi-Hubbard model, which also illustrates the advantage of our method over the Trotter decomposition.
翻訳日:2023-03-29 16:50:04 公開日:2023-03-28
# 量子データの特徴マップ:確率的操作

Feature Map for Quantum Data: Probabilistic Manipulation ( http://arxiv.org/abs/2303.15665v1 )

ライセンス: Link先を確認
Hyeokjea Kwon, Hojun Lee, and Joonwoo Bae(参考訳) 教師付き学習におけるカーネルトリックは、特徴写像によって内部積の変換を示し、与えられた内部積に従ってより大きなヒルベルト空間でのトレーニングデータを再構成する。 量子特徴写像は、量子資源をMLアルゴリズムに燃やすことにより、量子状態のヒルベルト空間を持つインスタンスに対応する。 本研究では, 量子状態空間は, 測定仮定が内積を特徴づけること, 古典的データから生成した量子状態の操作がデータ点の識別可能性を高めることができないことを指摘した。 本稿では,教師付き学習アルゴリズムを改善するために,量子状態の確率的操作として量子データの特徴マップを提案する。

The kernel trick in supervised learning signifies transformations of an inner product by a feature map, which then restructures training data in a larger Hilbert space according to an endowed inner product. A quantum feature map corresponds to an instance with a Hilbert space of quantum states by fueling quantum resources to ML algorithms. In this work, we point out that the quantum state space is specific such that a measurement postulate characterizes an inner product and that manipulation of quantum states prepared from classical data cannot enhance the distinguishability of data points. We present a feature map for quantum data as a probabilistic manipulation of quantum states to improve supervised learning algorithms.
翻訳日:2023-03-29 16:49:40 公開日:2023-03-28
# レーザー粉末層核融合添加剤製造におけるビスマステルリドの熱電率の予測

Predicting Thermoelectric Power Factor of Bismuth Telluride During Laser Powder Bed Fusion Additive Manufacturing ( http://arxiv.org/abs/2303.15663v1 )

ライセンス: Link先を確認
Ankita Agarwal (1), Tanvi Banerjee (1), Joy Gockel (2), Saniya LeBlanc (3), Joe Walker (4), John Middendorf (4) ((1) Wright State University, (2) Colorado School of Mines, (3) The George Washington University, (4) Open Additive, LLC)(参考訳) レーザー粉体層融合のような添加物製造(am)プロセスは、フリーフォーム部分形状が形成されるまで粉体を層状に拡散・溶融させることで、物体を作製することができる。 AMプロセスに関わる材料の特性を改善するためには, 材料特性を処理条件の関数として予測することが重要である。 熱電材料において、動力係数(英: power factor)とは、材料の熱を電気に変換する効率の指標である。 従来, 各種熱電材料の材料特性を様々な手法で予測してきたが, AM過程におけるビスマステルル化ビスマス(Bi2Te3)のパワーファクターを予測する機械学習モデルの実装は検討されていない。 これはBi2Te3が低温応用の標準材料であるため重要である。 そこで我々は,Bi2Te3のAM中に収集した製造処理パラメータとセンサ内モニタリングデータを用いて,その熱電率を予測するために,異なる機械学習モデルをトレーニングした。 80%のトレーニングと20%のテストデータを用いて教師あり機械学習手法を実装し,さらに,材料のパワーファクタの予測に最も適した重要な処理パラメータとその場センサ特徴を特定するために置換特徴重要度法を応用した。 ランダムフォレスト,アダブースト分類器,袋詰め分類器などのアンサンブルに基づく手法は,袋詰め分類器モデルにより最大90%の精度で電力係数の予測に最適であった。 さらに,電力係数などの材料製造特性を特徴付けるために,トップ15の処理パラメータとその場センサ機能を見出した。 これらの特徴は、熱電材料のパワーファクターを最大化し、この材料を用いた製品の品質を向上させるためにさらに最適化される。

An additive manufacturing (AM) process, like laser powder bed fusion, allows for the fabrication of objects by spreading and melting powder in layers until a freeform part shape is created. In order to improve the properties of the material involved in the AM process, it is important to predict the material characterization property as a function of the processing conditions. In thermoelectric materials, the power factor is a measure of how efficiently the material can convert heat to electricity. While earlier works have predicted the material characterization properties of different thermoelectric materials using various techniques, implementation of machine learning models to predict the power factor of bismuth telluride (Bi2Te3) during the AM process has not been explored. This is important as Bi2Te3 is a standard material for low temperature applications. Thus, we used data about manufacturing processing parameters involved and in-situ sensor monitoring data collected during AM of Bi2Te3, to train different machine learning models in order to predict its thermoelectric power factor. We implemented supervised machine learning techniques using 80% training and 20% test data and further used the permutation feature importance method to identify important processing parameters and in-situ sensor features which were best at predicting power factor of the material. Ensemble-based methods like random forest, AdaBoost classifier, and bagging classifier performed the best in predicting power factor with the highest accuracy of 90% achieved by the bagging classifier model. Additionally, we found the top 15 processing parameters and in-situ sensor features to characterize the material manufacturing property like power factor. These features could further be optimized to maximize power factor of the thermoelectric material and improve the quality of the products built using this material.
翻訳日:2023-03-29 16:49:29 公開日:2023-03-28
# chatgpt4pcgコンペティション:science birdsのキャラクターライクなレベル生成

ChatGPT4PCG Competition: Character-like Level Generation for Science Birds ( http://arxiv.org/abs/2303.15662v1 )

ライセンス: Link先を確認
Pittawat Taveekitworachai, Febri Abdullah, Mury F. Dewantoro, Ruck Thawonmas, Julian Togelius, Jochen Renz(参考訳) 本稿では2023年のIEEE Conference on GamesでChatGPT4PCGコンペティションを開催する。 このコンペティションの目的は、参加者がChatGPTの効果的なプロンプトを作成することであり、高い安定性とキャラクタライクな品質でScience Birdsレベルを創出することである。 ChatGPTはOpenAIが開発した会話エージェントである。 Science Birdsは、Angry Birdsのようなレベルを設計することはゲーム内重力による簡単な作業ではないため、競争プラットフォームとして選択される。 競争への参入障壁を低くするため、我々はこの課題を大文字化英字文字の生成に限定する。 ここで、生成されたレベルの品質は、与えられた文字の安定性と類似性によって決定される。 参加者に参照のためのサンプルプロンプトが提供される。 複数の文字でテストすることで,修正版がレベル安定性と類似性に及ぼす影響を判定する実験を行った。 私たちの知る限り、ChatGPT4PCGはこの種のコンペティションとしては初めてであり、手続き的コンテンツ生成における迅速なエンジニアリングに対する熱意を刺激することを期待しています。

This paper presents the first ChatGPT4PCG Competition at the 2023 IEEE Conference on Games. The objective of this competition is for participants to create effective prompts for ChatGPT--enabling it to generate Science Birds levels with high stability and character-like qualities--fully using their creativity as well as prompt engineering skills. ChatGPT is a conversational agent developed by OpenAI. Science Birds is selected as the competition platform because designing an Angry Birds-like level is not a trivial task due to the in-game gravity; the playability of the levels is determined by their stability. To lower the entry barrier to the competition, we limit the task to the generation of capitalized English alphabetical characters. Here, the quality of the generated levels is determined by their stability and similarity to the given characters. A sample prompt is provided to participants for their reference. An experiment is conducted to determine the effectiveness of its modified versions on level stability and similarity by testing them on several characters. To the best of our knowledge, we believe that ChatGPT4PCG is the first competition of its kind and hope to inspire enthusiasm for prompt engineering in procedural content generation.
翻訳日:2023-03-29 16:48:59 公開日:2023-03-28
# トット盆地における地下水流動の境界-溶出マッピング

Boundary-to-Solution Mapping for Groundwater Flows in a Toth Basin ( http://arxiv.org/abs/2303.15659v1 )

ライセンス: Link先を確認
Jingwei Sun, Jun Li, Yonghong Hao, Cuiting Qi, Chunmei Ma, Huazhi Sun, Negash Begashaw, Gurcan Comet, Yi Sun and Qi Wang(参考訳) 本稿では, 深層学習を用いた任意の上層および下層地形のトート盆地における地下水流動方程式の解法を提案する。 従来の数値解法の代わりに、DeepONetを使って境界-解法マッピングを生成する。 このマッピングは、物理領域の幾何学と境界条件を入力として地下水流動方程式の定常解を出力する。 DeepONetを実装するために、著者らは、truncated Fourierシリーズまたは断片的線形表現を用いて、トップとボトムの境界を近似した。 彼らはDeepONetの2つの異なる実装を提示する: 1つはトース盆地を矩形計算領域に埋め込むもので、もう1つは任意の上と下の境界を持つトース盆地を非線形変換によって矩形計算領域にマッピングするものである。 彼らは上部のディリクレとロビン境界条件についてディープネットを実装し、下部境界のノイマン境界条件をそれぞれ実装した。 筆者らは, この深層学習ツールを用いて, 表層と底部の境界面の流動パターンに対する表面地形の影響を任意の測地線で検討した。 地表面の平均勾配が長距離輸送を促進するのに対し、局所曲率は局所的な循環を制御する。 さらに,底面の斜面が地下水流の長距離輸送に重大な影響を与えることを発見した。 そこで本研究では, 深層学習による地下水流動方程式の解法を考案し, 地表地形が地下水流動に及ぼす影響について検討する。

In this paper, the authors propose a new approach to solving the groundwater flow equation in the Toth basin of arbitrary top and bottom topographies using deep learning. Instead of using traditional numerical solvers, they use a DeepONet to produce the boundary-to-solution mapping. This mapping takes the geometry of the physical domain along with the boundary conditions as inputs to output the steady state solution of the groundwater flow equation. To implement the DeepONet, the authors approximate the top and bottom boundaries using truncated Fourier series or piecewise linear representations. They present two different implementations of the DeepONet: one where the Toth basin is embedded in a rectangular computational domain, and another where the Toth basin with arbitrary top and bottom boundaries is mapped into a rectangular computational domain via a nonlinear transformation. They implement the DeepONet with respect to the Dirichlet and Robin boundary condition at the top and the Neumann boundary condition at the impervious bottom boundary, respectively. Using this deep-learning enabled tool, the authors investigate the impact of surface topography on the flow pattern by both the top surface and the bottom impervious boundary with arbitrary geometries. They discover that the average slope of the top surface promotes long-distance transport, while the local curvature controls localized circulations. Additionally, they find that the slope of the bottom impervious boundary can seriously impact the long-distance transport of groundwater flows. Overall, this paper presents a new and innovative approach to solving the groundwater flow equation using deep learning, which allows for the investigation of the impact of surface topography on groundwater flow patterns.
翻訳日:2023-03-29 16:48:35 公開日:2023-03-28
# 歌の美しさを翻訳する:共同学習してメロディを調整し、歌詞を翻訳する

Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics ( http://arxiv.org/abs/2303.15705v1 )

ライセンス: Link先を確認
Chengxi Li, Kai Fan, Jiajun Bu, Boxing Chen, Zhongqiang Huang, Zhi Yu(参考訳) 歌の翻訳は、歌詞の翻訳と音符のアライメントの両方を必要とするため、歌詞を伴奏のメロディに合わせて歌うことができる。 本稿では,歌詞翻訳と歌詞・メロディアライメントを共同でモデル化し,自動翻訳に対する包括的解法である適応型グループ化(ltag)による歌詞・メロディ翻訳を提案する。 これは、ソース歌詞を同時に翻訳し、アダプティブノートグルーピングモジュールを通じて各デコードステップにおけるアライメントノートの数を決定することができる、新しいエンコーダ・デコーダフレームワークである。 データの不足に対処するため、我々はこのタスク用にアノテートされた少量のトレーニングデータを委託し、バックトランスレーションを通じて大量の拡張データを使用しました。 英語と中国語の翻訳データを用いた実験では, 自動評価と人間評価の両方において, モデルの有効性が示された。

Song translation requires both translation of lyrics and alignment of music notes so that the resulting verse can be sung to the accompanying melody, which is a challenging problem that has attracted some interests in different aspects of the translation process. In this paper, we propose Lyrics-Melody Translation with Adaptive Grouping (LTAG), a holistic solution to automatic song translation by jointly modeling lyrics translation and lyrics-melody alignment. It is a novel encoder-decoder framework that can simultaneously translate the source lyrics and determine the number of aligned notes at each decoding step through an adaptive note grouping module. To address data scarcity, we commissioned a small amount of training data annotated specifically for this task and used large amounts of augmented data through back-translation. Experiments conducted on an English-Chinese song translation data set show the effectiveness of our model in both automatic and human evaluation.
翻訳日:2023-03-29 16:43:01 公開日:2023-03-28
# 情報指向ランダムウォークを用いた分散グラフ埋め込み

Distributed Graph Embedding with Information-Oriented Random Walks ( http://arxiv.org/abs/2303.15702v1 )

ライセンス: Link先を確認
Peng Fang, Arijit Khan, Siqiang Luo, Fang Wang, Dan Feng, Zhenli Li, Wei Yin, Yuchao Cao(参考訳) グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。 10億を超えるエッジを持つTwitter上のリンク予測など、大規模なグラフに効率よく効果的な埋め込みを学習することの重要性が強調されている。 既存のグラフ埋め込みメソッドの多くは、高いデータスケーラビリティに到達できない。 本稿では,数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークDistGERを提案する。 DistGERは情報中心のランダムウォークを漸進的に計算する。 さらに、マルチプロキシ対応、ストリーミング、並列グラフパーティショニング戦略を活用し、高いローカルパーティショニング品質とマシン間のワークロード分散を同時に達成する。 DistGERはまた、分散Skip-Gram学習モデルを改善し、アクセス局所性、CPUスループット、同期効率を最適化することでノード埋め込みを生成する。 実世界のグラフの実験では、KnightKing、DistDGL、Pytorch-BigGraphといった最先端の分散グラフ埋め込みフレームワークと比較して、DistGERは2.33x-129xの加速、マシン間通信の45%の削減、そして、ダウンストリームタスクにおける10%の有効性向上を示している。

Graph embedding maps graph nodes to low-dimensional vectors, and is widely adopted in machine learning tasks. The increasing availability of billion-edge graphs underscores the importance of learning efficient and effective embeddings on large graphs, such as link prediction on Twitter with over one billion edges. Most existing graph embedding methods fall short of reaching high data scalability. In this paper, we present a general-purpose, distributed, information-centric random walk-based graph embedding framework, DistGER, which can scale to embed billion-edge graphs. DistGER incrementally computes information-centric random walks. It further leverages a multi-proximity-aware, streaming, parallel graph partitioning strategy, simultaneously achieving high local partition quality and excellent workload balancing across machines. DistGER also improves the distributed Skip-Gram learning model to generate node embeddings by optimizing the access locality, CPU throughput, and synchronization efficiency. Experiments on real-world graphs demonstrate that compared to state-of-the-art distributed graph embedding frameworks, including KnightKing, DistDGL, and Pytorch-BigGraph, DistGER exhibits 2.33x-129x acceleration, 45% reduction in cross-machines communication, and > 10% effectiveness improvement in downstream tasks.
翻訳日:2023-03-29 16:42:43 公開日:2023-03-28
# 事前画像の導入による乳癌リスク予測の強化

Enhancing Breast Cancer Risk Prediction by Incorporating Prior Images ( http://arxiv.org/abs/2303.15699v1 )

ライセンス: Link先を確認
Hyeonsoo Lee, Junha Kim, Eunkyung Park, Minjeong Kim, Taesoo Kim, Thijs Kooi(参考訳) 近年, 深層学習モデルでは乳がんリスクを予測し, スクリーニング戦略を可能にする可能性が示されたが, 乳がんの経時的変化は考慮されていない。 本稿では,乳がんリスク予測のための新しい手法 prime+ を提案する。この手法はトランスフォーマデコーダを用いて乳がんリスク予測を行う。 16,113件の検診をデータセット上で検証し,乳房密度の変化などの乳房x線写真の変化パターンを効果的に捉えることにより,乳がんリスク予測の短期的・長期的改善が期待できることを示した。 実験結果から,C-インデックスは0.68から0.73(p < 0.05)に増加し,最先端モデルよりも統計的に顕著な性能向上が得られた。

Recently, deep learning models have shown the potential to predict breast cancer risk and enable targeted screening strategies, but current models do not consider the change in the breast over time. In this paper, we present a new method, PRIME+, for breast cancer risk prediction that leverages prior mammograms using a transformer decoder, outperforming a state-of-the-art risk prediction method that only uses mammograms from a single time point. We validate our approach on a dataset with 16,113 exams and further demonstrate that it effectively captures patterns of changes from prior mammograms, such as changes in breast density, resulting in improved short-term and long-term breast cancer risk prediction. Experimental results show that our model achieves a statistically significant improvement in performance over the state-of-the-art based model, with a C-index increase from 0.68 to 0.73 (p < 0.05) on held-out test sets.
翻訳日:2023-03-29 16:42:15 公開日:2023-03-28
# TFS-ViT:ドメイン一般化のためのトークンレベル機能スティル化

TFS-ViT: Token-Level Feature Stylization for Domain Generalization ( http://arxiv.org/abs/2303.15698v1 )

ライセンス: Link先を確認
Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Gustavo A. Vargas Hakim, David Osowiechi, Ismail Ben Ayed, Christian Desrosiers(参考訳) 畳み込みニューラルネットワーク(cnns)のような標準的なディープラーニングモデルは、トレーニング中に見られない領域に一般化する能力がない。 この問題は、ソースとターゲットデータが同一の i.d. 分布から来るようなモデルの一般的な仮定がしばしば間違っているためである。 近年、視覚変換器(ViT)は幅広いコンピュータビジョンタスクにおいて優れた性能を示している。 しかし、新しい領域に一般化する能力についての研究はほとんどない。 本稿では,新たなドメインを合成することで,vitsの性能を向上し,データを非認識化するための第1のトークンレベル特徴スタイライゼーション(tfs-vit)手法を提案する。 本手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。 さらに,クラス (cls) トークンのアテンションマップを用いて,異なる画像領域に対応するトークンの正規化統計の計算と混合を行う,アテンションアウェアスタイライゼーションの新たな戦略により,このアプローチをさらに改善する。 提案手法はバックボーンモデルの選択に柔軟であり、計算複雑性が無視できる任意のvitベースのアーキテクチャに容易に適用できる。 総合的な実験により、ドメイン一般化のための5つの挑戦的なベンチマークにおいて、我々のアプローチが最先端のパフォーマンスを達成できることを示し、異なるタイプのドメインシフトに対処する能力を示す。 実装は以下の通りである。 {https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization}。

Standard deep learning models such as convolutional neural networks (CNNs) lack the ability of generalizing to domains which have not been seen during training. This problem is mainly due to the common but often wrong assumption of such models that the source and target data come from the same i.i.d. distribution. Recently, Vision Transformers (ViTs) have shown outstanding performance for a broad range of computer vision tasks. However, very few studies have investigated their ability to generalize to new domains. This paper presents a first Token-level Feature Stylization (TFS-ViT) approach for domain generalization, which improves the performance of ViTs to unseen data by synthesizing new domains. Our approach transforms token features by mixing the normalization statistics of images from different domains. We further improve this approach with a novel strategy for attention-aware stylization, which uses the attention maps of class (CLS) tokens to compute and mix normalization statistics of tokens corresponding to different image regions. The proposed method is flexible to the choice of backbone model and can be easily applied to any ViT-based architecture with a negligible increase in computational complexity. Comprehensive experiments show that our approach is able to achieve state-of-the-art performance on five challenging benchmarks for domain generalization, and demonstrate its ability to deal with different types of domain shifts. The implementation is available at: {https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization}.
翻訳日:2023-03-29 16:41:50 公開日:2023-03-28
# モデルと評価:多言語テキスト分類における公平性に向けて

Model and Evaluation: Towards Fairness in Multilingual Text Classification ( http://arxiv.org/abs/2303.15697v1 )

ライセンス: Link先を確認
Nankai Lin, Junheng He, Zhenghang Tang, Dong Zhou, Aimin Yang(参考訳) 近年,テキスト分類モデルにおけるバイアスに対処する研究が増えている。 しかし、既存の研究は主に単言語テキスト分類モデルの公平性に焦点を当てており、多言語テキスト分類の公平性の研究はいまだに限られている。 本稿では,多言語テキスト分類の課題に着目し,コントラスト学習に基づく多言語テキスト分類のためのデバイアスフレームワークを提案する。 提案手法はいかなる外部言語リソースにも依存せず,他の言語にも拡張可能である。 このモデルは、多言語テキスト表現モジュール、language fusionモジュール、text debiasingモジュール、text classificationモジュールの4つのモジュールを含んでいる。 多言語テキスト表現モジュールは、テキストを表現するために多言語事前訓練された言語モデルを使用し、言語融合モジュールは、異なる言語のセマンティックスペースをコントラスト学習を通じて一貫性のあるものにし、テキストデバイアスモジュールはコントラスト学習を使用して、モデルに機密属性の情報を特定することができないようにする。 テキスト分類モジュールは、多言語テキスト分類の基本タスクを完成させる。 また,多言語テキスト分類の公平性に関する既存の研究は,評価モードでは比較的単純である。 公平性の評価方法は単言語同値差評価方法と同じであり、単一の言語で評価を行う。 本稿では,多言語間等性差,多言語間等性差,多言語間等性性能差,公平性戦略の破壊性を評価する多言語テキスト分類のための多次元公平性評価フレームワークを提案する。 我々は,多言語テキストフェアネスタスクに対して,より汎用的なデバイアス手法とより包括的な評価フレームワークを提供できることを願っている。

Recently, more and more research has focused on addressing bias in text classification models. However, existing research mainly focuses on the fairness of monolingual text classification models, and research on fairness for multilingual text classification is still very limited. In this paper, we focus on the task of multilingual text classification and propose a debiasing framework for multilingual text classification based on contrastive learning. Our proposed method does not rely on any external language resources and can be extended to any other languages. The model contains four modules: multilingual text representation module, language fusion module, text debiasing module, and text classification module. The multilingual text representation module uses a multilingual pre-trained language model to represent the text, the language fusion module makes the semantic spaces of different languages tend to be consistent through contrastive learning, and the text debiasing module uses contrastive learning to make the model unable to identify sensitive attributes' information. The text classification module completes the basic tasks of multilingual text classification. In addition, the existing research on the fairness of multilingual text classification is relatively simple in the evaluation mode. The evaluation method of fairness is the same as the monolingual equality difference evaluation method, that is, the evaluation is performed on a single language. We propose a multi-dimensional fairness evaluation framework for multilingual text classification, which evaluates the model's monolingual equality difference, multilingual equality difference, multilingual equality performance difference, and destructiveness of the fairness strategy. We hope that our work can provide a more general debiasing method and a more comprehensive evaluation framework for multilingual text fairness tasks.
翻訳日:2023-03-29 16:41:06 公開日:2023-03-28
# 病理画像の大規模事前トレーニングによる小診断基準の微調整

Large-scale pretraining on pathological images for fine-tuning of small pathological benchmarks ( http://arxiv.org/abs/2303.15693v1 )

ライセンス: Link先を確認
Masataka Kawai, Noriaki Ota, Shinsuke Yamaoka(参考訳) 大規模な画像データセット上でディープラーニングモデルを事前トレーニングすることは、小さなターゲットデータセット上でモデルを微調整する標準的なステップである。 大きなデータセットは通常一般的なイメージ(例: imagenet2012)であり、小さなデータセットは大きなデータセットとは異なる分布を持つ特殊なデータセットである。 しかし、この「大規模から小規模な」戦略は、大きなデータセットが特殊化され、小さなデータセットに類似した分布を持つ場合、十分に検証されない。 我々は新たに3つのヘマトキシリンとエオシンに安定な画像データセット,1つの大きなPTCGA200と2つの倍率調整された小さなデータセット(PCam200とsegPANDA200)をコンパイルした。 主要なディープラーニングモデルは、教師付きおよび自己教師付き学習法で訓練され、腫瘍分類および組織分割ベンチマークのための小さなデータセットを微調整した。 MoCov2、SimCLR、BYOLで事前訓練されたResNet50は、PTCGA200で微調整されたときのイメージネット2012より優れていた(それぞれ83.94%、86.41%、84.91%、82.72%)。 mocov2でptcga200で事前トレーニングされたresnet50は、cocotrain2017でトレーニングされたベースラインを上回り、resnet50では組織分割ベンチマーク(miouは63.53%と63.22%)で最高であった。 PTCGA200のダウンストリームベンチマークでは,イメージネット事前学習モデル (ResNet50, BiT-M-R50x1, ViT-S/16) が改良された。

Pretraining a deep learning model on large image datasets is a standard step before fine-tuning the model on small targeted datasets. The large dataset is usually general images (e.g. imagenet2012) while the small dataset can be specialized datasets that have different distributions from the large dataset. However, this 'large-to-small' strategy is not well-validated when the large dataset is specialized and has a similar distribution to small datasets. We newly compiled three hematoxylin and eosin-stained image datasets, one large (PTCGA200) and two magnification-adjusted small datasets (PCam200 and segPANDA200). Major deep learning models were trained with supervised and self-supervised learning methods and fine-tuned on the small datasets for tumor classification and tissue segmentation benchmarks. ResNet50 pretrained with MoCov2, SimCLR, and BYOL on PTCGA200 was better than imagenet2012 pretraining when fine-tuned on PTCGA200 (accuracy of 83.94%, 86.41%, 84.91%, and 82.72%, respectively). ResNet50 pre-trained on PTCGA200 with MoCov2 exceeded the COCOtrain2017-pretrained baseline and was the best in ResNet50 for the tissue segmentation benchmark (mIoU of 63.53% and 63.22%). We found re-training imagenet-pretrained models (ResNet50, BiT-M-R50x1, and ViT-S/16) on PTCGA200 improved downstream benchmarks.
翻訳日:2023-03-29 16:40:35 公開日:2023-03-28
# クロスビュー部分サンプルとプロトタイプアライメントを用いたディープ不完全マルチビュークラスタリング

Deep Incomplete Multi-view Clustering with Cross-view Partial Sample and Prototype Alignment ( http://arxiv.org/abs/2303.15689v1 )

ライセンス: Link先を確認
Jiaqi Jin, Siwei Wang, Zhibin Dong, Xinwang Liu, En Zhu(参考訳) 既存のマルチビュークラスタリングの成功は、複数のビューにわたるサンプル整合性の仮定に依存する。 しかし、実世界のシナリオでは、データの破損やセンサーの故障によってマルチビューのサンプルが部分的に利用可能であり、不完全なマルチビュークラスタリング研究(IMVC)につながる。 IMVCに対処する試みはいくつか提案されているが、以下の欠点に悩まされている。 一 既存の方法は、主に、各サンプルの表示を全く同じように強制する対面的学習を採用しており、表示の相違や柔軟性を無視することができる。 二 複数のビューにわたって観測されていないサンプルがないため、得られたクラスターのプロトタイプは、不整合で偏りがあり、誤った融合につながる可能性がある。 上記の問題に対処するため,我々は,ディープ不完全マルチビュークラスタリングのためのクロスビュー部分サンプルおよびプロトタイプアライメントネットワーク(cpspan)を提案する。 まず,既存のコントラストベース手法とは異なり,ペアオブザーバデータアライメントを「プロキシ教師信号」として採用し,ビュー間のインスタンス間対応構成をガイドする。 次に,imvcにおけるシフトプロトタイプについて,ビュー間の不完全分布校正を実現するためのプロトタイプアライメントモジュールを提案する。 大規模な実験結果から提案モジュールの有効性が明らかとなり,既存のIMVCのベンチマークデータセットと比較すると,注目すべき性能向上が得られた。

The success of existing multi-view clustering relies on the assumption of sample integrity across multiple views. However, in real-world scenarios, samples of multi-view are partially available due to data corruption or sensor failure, which leads to incomplete multi-view clustering study (IMVC). Although several attempts have been proposed to address IMVC, they suffer from the following drawbacks: i) Existing methods mainly adopt cross-view contrastive learning forcing the representations of each sample across views to be exactly the same, which might ignore view discrepancy and flexibility in representations; ii) Due to the absence of non-observed samples across multiple views, the obtained prototypes of clusters might be unaligned and biased, leading to incorrect fusion. To address the above issues, we propose a Cross-view Partial Sample and Prototype Alignment Network (CPSPAN) for Deep Incomplete Multi-view Clustering. Firstly, unlike existing contrastive-based methods, we adopt pair-observed data alignment as 'proxy supervised signals' to guide instance-to-instance correspondence construction among views. Then, regarding of the shifted prototypes in IMVC, we further propose a prototype alignment module to achieve incomplete distribution calibration across views. Extensive experimental results showcase the effectiveness of our proposed modules, attaining noteworthy performance improvements when compared to existing IMVC competitors on benchmark datasets.
翻訳日:2023-03-29 16:40:02 公開日:2023-03-28
# tube mpc誘導データ拡張を用いたロバスト適応ポリシーの効率的な深層学習

Efficient Deep Learning of Robust, Adaptive Policies using Tube MPC-Guided Data Augmentation ( http://arxiv.org/abs/2303.15688v1 )

ライセンス: Link先を確認
Tong Zhao, Andrea Tagliabue, Jonathan P. How(参考訳) 困難な非構造環境でのアジャイルな自律システムの展開には、不確実性への適応性と堅牢性が必要です。 既存のロバストでアダプティブなコントローラ(mpcベースのコントローラなど)は、オンライン上の重い計算コストで素晴らしいパフォーマンスを実現できます。 MPCからの堅牢でデプロイ可能なポリシを効率的に学習する戦略が登場したが、基本的な適応能力は欠如している。 本研究では,MPC からの堅牢な政策学習のための既存の効率的な IL アルゴリズムを拡張し,挑戦的モデル/環境不確実性に適応する政策学習能力を提供する。 提案手法の鍵となる考え方は,オンラインで効率的に推定できる学習された低次元モデル/環境表現にポリシーを条件付けることで,IL手順を変更することである。 我々は,マルチロケータ上での課題外乱下での軌跡追跡のための適応的位置と姿勢制御ポリシーの学習課題へのアプローチを調整した。 評価は高忠実度シミュレーション環境で行われ、高品質な適応ポリシーを約1.3ドルの時間で得られることを示す。 また, トレーニング中の最大風速よりも約50\%, 最大風速よりも36\%の風乱下で平均位置誤差6.1$cmを達成し, トレーニング中およびトレーニング外分布の不確実性への迅速な適応を実証的に実証した。

The deployment of agile autonomous systems in challenging, unstructured environments requires adaptation capabilities and robustness to uncertainties. Existing robust and adaptive controllers, such as the ones based on MPC, can achieve impressive performance at the cost of heavy online onboard computations. Strategies that efficiently learn robust and onboard-deployable policies from MPC have emerged, but they still lack fundamental adaptation capabilities. In this work, we extend an existing efficient IL algorithm for robust policy learning from MPC with the ability to learn policies that adapt to challenging model/environment uncertainties. The key idea of our approach consists in modifying the IL procedure by conditioning the policy on a learned lower-dimensional model/environment representation that can be efficiently estimated online. We tailor our approach to the task of learning an adaptive position and attitude control policy to track trajectories under challenging disturbances on a multirotor. Our evaluation is performed in a high-fidelity simulation environment and shows that a high-quality adaptive policy can be obtained in about $1.3$ hours. We additionally empirically demonstrate rapid adaptation to in- and out-of-training-distribution uncertainties, achieving a $6.1$ cm average position error under a wind disturbance that corresponds to about $50\%$ of the weight of the robot and that is $36\%$ larger than the maximum wind seen during training.
翻訳日:2023-03-29 16:39:40 公開日:2023-03-28
# 知識グラフ完成のための事前学習トランスフォーマー

Pre-training Transformers for Knowledge Graph Completion ( http://arxiv.org/abs/2303.15682v1 )

ライセンス: Link先を確認
Sanxing Chen, Hao Cheng, Xiaodong Liu, Jian Jiao, Yangfeng Ji and Jianfeng Gao(参考訳) 知識グラフの伝達可能な表現(KGs)の学習は、グラフ構造の異質な多重関係性のために困難である。 トランスフォーマティブな事前学習言語モデルによるテキストの転送可能表現の学習に着想を得て,大規模事前学習によるkg補完のための新しいインダクティブkg表現モデル(iht)を提案する。 iHT はエンティティエンコーダ (BERT など) と、Transformer によってパラメータ化される隣り合うリレーショナルスコアリング関数からなる。 我々はまず、大規模なKGデータセットWikidata5MでiHTを事前訓練する。 提案手法は,従来のsomaモデルと比較して,25%以上の相対ランクの相対的改善を行い,一致した評価で新たな最先端結果を得る。 FB15K-237 と WN18RR では, より小さな KG に対してより微調整を行うと, 事前訓練した iHT 表現が転送可能であることが示され, 性能が大幅に向上した。

Learning transferable representation of knowledge graphs (KGs) is challenging due to the heterogeneous, multi-relational nature of graph structures. Inspired by Transformer-based pretrained language models' success on learning transferable representation for texts, we introduce a novel inductive KG representation model (iHT) for KG completion by large-scale pre-training. iHT consists of a entity encoder (e.g., BERT) and a neighbor-aware relational scoring function both parameterized by Transformers. We first pre-train iHT on a large KG dataset, Wikidata5M. Our approach achieves new state-of-the-art results on matched evaluations, with a relative improvement of more than 25% in mean reciprocal rank over previous SOTA models. When further fine-tuned on smaller KGs with either entity and relational shifts, pre-trained iHT representations are shown to be transferable, significantly improving the performance on FB15K-237 and WN18RR.
翻訳日:2023-03-29 16:39:16 公開日:2023-03-28
# 時間非依存PDEのためのGNN物理解法

GNN-based physics solver for time-independent PDEs ( http://arxiv.org/abs/2303.15681v1 )

ライセンス: Link先を確認
Rini Jasmine Gladstone, Helia Rahmani, Vishvas Suryakumar, Hadi Meidani, Marta D'Elia, Ahmad Zareei(参考訳) 物理ベースのディープラーニングフレームワークは、問題入力をまたがる一般化機能を備えた複雑な物理システムのダイナミクスを正確にモデル化するのに有効であることが示されている。 しかし、時間に依存しない問題は、正確な予測を得るために計算領域全体の情報の長距離交換を必要とする。 グラフニューラルネットワーク(GNN)のコンテキストでは、より深いネットワークが要求される。 本稿では,Edge Augmented GNNとMulti-GNNの2つのGNNアーキテクチャを提案する。 両ネットワークは,時間非依存の固体力学問題に適用した場合,ベースライン法よりも(1.5~2の係数で)有意に優れた性能を示した。 さらに,提案するアーキテクチャは,未知の領域,境界条件,材料によく一般化する。 ここで、可変領域の処理は、回転および変換不変性を可能にする新しい座標変換によって促進される。 グラフニューラルネットワークに基づくニューラルネットワークが取り組むことができる問題の範囲を広げることにより、本論文は、複雑な科学的および工業的な設定に応用するための基礎となるものを提供する。

Physics-based deep learning frameworks have shown to be effective in accurately modeling the dynamics of complex physical systems with generalization capability across problem inputs. However, time-independent problems pose the challenge of requiring long-range exchange of information across the computational domain for obtaining accurate predictions. In the context of graph neural networks (GNNs), this calls for deeper networks, which, in turn, may compromise or slow down the training process. In this work, we present two GNN architectures to overcome this challenge - the Edge Augmented GNN and the Multi-GNN. We show that both these networks perform significantly better (by a factor of 1.5 to 2) than baseline methods when applied to time-independent solid mechanics problems. Furthermore, the proposed architectures generalize well to unseen domains, boundary conditions, and materials. Here, the treatment of variable domains is facilitated by a novel coordinate transformation that enables rotation and translation invariance. By broadening the range of problems that neural operators based on graph neural networks can tackle, this paper provides the groundwork for their application to complex scientific and industrial settings.
翻訳日:2023-03-29 16:38:56 公開日:2023-03-28
# iquantum:量子コンピューティング環境のモデリングとシミュレーションのケース

iQuantum: A Case for Modeling and Simulation of Quantum Computing Environments ( http://arxiv.org/abs/2303.15729v1 )

ライセンス: Link先を確認
Hoa T. Nguyen, Muhammad Usman, Rajkumar Buyya(参考訳) 今日の量子コンピュータは主にクラウドを通じてアクセスでき、将来的にはエッジネットワークに移行する可能性がある。 世界中の量子コンピューティング研究の急速な発展と普及に伴い、クラウドベースの量子計算リソースの利用に対する需要が大幅に増加した。 この需要は、量子コンピューティングのための効率的で適応可能なリソース管理戦略とサービスモデルの設計の必要性を強調している。 しかし、量子資源の量、品質、アクセシビリティの制限は、量子ソフトウェアやシステムにおける実用的な研究に重大な課題をもたらす。 これらの課題に対処するために,システム設計とスケジューリングアルゴリズムをプロトタイプ化し評価するために,ハイブリッド量子古典計算環境をモデル化できる最初のits-kindシミュレーションツールキット iquantum を提案する。 本稿では,量子コンピューティングシステムモデル,アーキテクチャ設計,概念実証実装,潜在的なユースケース,今後のiQuantumの開発について述べる。 提案するiquantumシミュレータは,特にエッジとクラウドを統合した量子コンピューティング環境において,リソース管理,ジョブスケジューリング,ハイブリッド量子古典的タスクオーケストレーションのためのポリシとアルゴリズムの作成と評価において,量子ソフトウェアやシステムの研究を促進することが期待されている。

Today's quantum computers are primarily accessible through the cloud and potentially shifting to the edge network in the future. With the rapid advancement and proliferation of quantum computing research worldwide, there has been a considerable increase in demand for using cloud-based quantum computation resources. This demand has highlighted the need for designing efficient and adaptable resource management strategies and service models for quantum computing. However, the limited quantity, quality, and accessibility of quantum resources pose significant challenges to practical research in quantum software and systems. To address these challenges, we propose iQuantum, a first-of-its-kind simulation toolkit that can model hybrid quantum-classical computing environments for prototyping and evaluating system design and scheduling algorithms. This paper presents the quantum computing system model, architectural design, proof-of-concept implementation, potential use cases, and future development of iQuantum. Our proposed iQuantum simulator is anticipated to boost research in quantum software and systems, particularly in the creation and evaluation of policies and algorithms for resource management, job scheduling, and hybrid quantum-classical task orchestration in quantum computing environments integrating edge and cloud resources.
翻訳日:2023-03-29 16:33:03 公開日:2023-03-28
# NLPを用いたメンタルヘルス応用のためのChatGPTの評価

Evaluation of ChatGPT for NLP-based Mental Health Applications ( http://arxiv.org/abs/2303.15727v1 )

ライセンス: Link先を確認
Bishal Lamichhane(参考訳) 大規模言語モデル(LLM)はいくつかの自然言語理解タスクで成功しており、自然言語処理(NLP)に基づくメンタルヘルスアプリケーション研究に関係している可能性がある。 本研究では、ストレス検出(2クラス分類)、抑うつ検出(2クラス分類)、自殺検出(5クラス分類)の3つのテキストベースのメンタルヘルス分類タスクにおけるLCMベースのChatGPT(gpt-3.5-turboバックエンド)の性能について報告する。 公開データセットから3つの分類タスクの注釈付きソーシャルメディア投稿を得た。 そして、ChatGPT APIは、ソーシャルメディア投稿を分類のための入力プロンプトで分類した。 ストレス検出,抑うつ検出,自殺検出でそれぞれ0.73,0.86,0.37のF1値を得た。 支配的なクラスを常に予測するベースラインモデルでは、f1スコアは0.35、0.60、0.19であった。 ChatGPTで得られたゼロショット分類精度は、メンタルヘルス分類タスクに言語モデルを使用することの可能性を示している。

Large language models (LLM) have been successful in several natural language understanding tasks and could be relevant for natural language processing (NLP)-based mental health application research. In this work, we report the performance of LLM-based ChatGPT (with gpt-3.5-turbo backend) in three text-based mental health classification tasks: stress detection (2-class classification), depression detection (2-class classification), and suicidality detection (5-class classification). We obtained annotated social media posts for the three classification tasks from public datasets. Then ChatGPT API classified the social media posts with an input prompt for classification. We obtained F1 scores of 0.73, 0.86, and 0.37 for stress detection, depression detection, and suicidality detection, respectively. A baseline model that always predicted the dominant class resulted in F1 scores of 0.35, 0.60, and 0.19. The zero-shot classification accuracy obtained with ChatGPT indicates a potential use of language models for mental health classification tasks.
翻訳日:2023-03-29 16:32:43 公開日:2023-03-28
# 正規化exp, cosh, sinh回帰問題の解法

Solving Regularized Exp, Cosh and Sinh Regression Problems ( http://arxiv.org/abs/2303.15725v1 )

ライセンス: Link先を確認
Zhihang Li, Zhao Song, Tianyi Zhou(参考訳) 現代の機械学習では、注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルを訓練するための基本的なタスクである。 本研究では,大規模言語モデルにおける注意機構におけるsoftmax/exp単位に触発された指数回帰問題について検討する。 標準指数回帰は非凸である。 凸問題である指数回帰問題の正規化バージョンについて検討する。 入力間隔時間において近似ニュートン法を用いて解く。 形式的には、この問題において、行列 $a \in \mathbb{r}^{n \times d}$, $b \in \mathbb{r}^n$, $w \in \mathbb{r}^n$ と任意の関数 $\exp, \cosh$, $\sinh$ が与えられる。 目標は、$ 0.5 \| f(ax) - b \|_2^2 + 0.5 \| \mathrm{diag}(w) ax \|_2^2$ を最小化する最適な$x$を見つけることである。 単純な方法は、ネイブ・ニュートンのメソッドを使用することである。 $\mathrm{nnz}(A)$ は行列 $A$ における 0 でないエントリの数を表す。 行列乗算の指数を$\omega$ とする。 現在、$\omega \approx 2.373$である。 精度エラーを表す$\epsilon$ とします。 本稿では,1回の反復時間あたり$\log ( \|x_0 - x^*\|_2 / \epsilon)$と$\widetilde{o}(\mathrm{nnz}(a) + d^{\omega} )$を用いて解くアルゴリズムの入力スパーシティと目的について述べる。

In modern machine learning, attention computation is a fundamental task for training large language models such as Transformer, GPT-4 and ChatGPT. In this work, we study exponential regression problem which is inspired by the softmax/exp unit in the attention mechanism in large language models. The standard exponential regression is non-convex. We study the regularization version of exponential regression problem which is a convex problem. We use approximate newton method to solve in input sparsity time. Formally, in this problem, one is given matrix $A \in \mathbb{R}^{n \times d}$, $b \in \mathbb{R}^n$, $w \in \mathbb{R}^n$ and any of functions $\exp, \cosh$ and $\sinh$ denoted as $f$. The goal is to find the optimal $x$ that minimize $ 0.5 \| f(Ax) - b \|_2^2 + 0.5 \| \mathrm{diag}(w) A x \|_2^2$. The straightforward method is to use the naive Newton's method. Let $\mathrm{nnz}(A)$ denote the number of non-zeros entries in matrix $A$. Let $\omega$ denote the exponent of matrix multiplication. Currently, $\omega \approx 2.373$. Let $\epsilon$ denote the accuracy error. In this paper, we make use of the input sparsity and purpose an algorithm that use $\log ( \|x_0 - x^*\|_2 / \epsilon)$ iterations and $\widetilde{O}(\mathrm{nnz}(A) + d^{\omega} )$ per iteration time to solve the problem.
翻訳日:2023-03-29 16:32:28 公開日:2023-03-28
# スケーラブルで詳細かつマスクフリーのユニバーサル測光ステレオ

Scalable, Detailed and Mask-Free Universal Photometric Stereo ( http://arxiv.org/abs/2303.15724v1 )

ライセンス: Link先を確認
Satoshi Ikehata(参考訳) 本稿では,SDM-UniPS,画期的なスケーラブル,詳細,マスクフリー,ユニバーサル・フォトメトリック・ステレオネットワークを紹介する。 画像が未知の、空間的に不安定な照明条件下で撮影された場合でも、3dスキャナの品質に匹敵する、驚くほど複雑な表面正常マップを復元することができる。 我々は,従来のユニバーサルフォトメトリックステレオネットワークを拡張し,空間光の特徴を抽出し,高分解能入力画像における利用可能な情報をすべて活用し,表面点間の非局所的相互作用を計算した。 さらに,実世界のシーンに見られる様々な形状,材料,照明シナリオを包含する新しい合成学習データセットを提案する。 広汎な評価により,本手法は,公開ベンチマーク上での校正,照明固有の技術に勝るだけでなく,オブジェクトマスクを使わずとも,はるかに少ない入力画像に優れることを示した。

In this paper, we introduce SDM-UniPS, a groundbreaking Scalable, Detailed, Mask-free, and Universal Photometric Stereo network. Our approach can recover astonishingly intricate surface normal maps, rivaling the quality of 3D scanners, even when images are captured under unknown, spatially-varying lighting conditions in uncontrolled environments. We have extended previous universal photometric stereo networks to extract spatial-light features, utilizing all available information in high-resolution input images and accounting for non-local interactions among surface points. Moreover, we present a new synthetic training dataset that encompasses a diverse range of shapes, materials, and illumination scenarios found in real-world scenes. Through extensive evaluation, we demonstrate that our method not only surpasses calibrated, lighting-specific techniques on public benchmarks, but also excels with a significantly smaller number of input images even without object masks.
翻訳日:2023-03-29 16:31:54 公開日:2023-03-28
# MeMaHand: シングルイメージ2ハンド再構築のためのメッシュ-マンノインタラクションの爆発

MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction ( http://arxiv.org/abs/2303.15718v1 )

ライセンス: Link先を確認
Congyi Wang, Feida Zhu, Shilei Wen(参考訳) 手指再建作業のための既存の手法は、通常、ジェネリック3Dハンドモデルをパラメータ化したり、手指のメッシュ位置を直接予測する。 手形と回転ポーズからなるパラメトリック表現はより安定であり、非パラメトリック法はより正確なメッシュ位置を予測することができる。 本稿では,2種類の手表現の利点を利用するために,単一のRGB画像からメッシュを再構築し,二つの手のMANOパラメータを同時に推定する。 この目的を達成するために、メッシュ頂点の位置とMANOパラメータを2種類のクエリトークンとして扱う新しいメッシュ-マノ相互作用ブロック(MMIB)を提案する。 MMIBは、局所情報を集約するために1つのグラフ残差ブロックと、長距離依存をモデル化するために2つのトランスフォーマーエンコーダから構成される。 トランスエンコーダは、それぞれ手内および手間の注意をモデル化する異なる非対称注意マスクを備える。 さらに,メッシュ画像アライメントをさらに強化するために,メッシュアライメントアライメントアライメントモジュールを導入する。 interhand2.6mベンチマークの広範な実験は、最先端のハンドレコンストラクション手法に対して有望な結果を示している。

Existing methods proposed for hand reconstruction tasks usually parameterize a generic 3D hand model or predict hand mesh positions directly. The parametric representations consisting of hand shapes and rotational poses are more stable, while the non-parametric methods can predict more accurate mesh positions. In this paper, we propose to reconstruct meshes and estimate MANO parameters of two hands from a single RGB image simultaneously to utilize the merits of two kinds of hand representations. To fulfill this target, we propose novel Mesh-Mano interaction blocks (MMIBs), which take mesh vertices positions and MANO parameters as two kinds of query tokens. MMIB consists of one graph residual block to aggregate local information and two transformer encoders to model long-range dependencies. The transformer encoders are equipped with different asymmetric attention masks to model the intra-hand and inter-hand attention, respectively. Moreover, we introduce the mesh alignment refinement module to further enhance the mesh-image alignment. Extensive experiments on the InterHand2.6M benchmark demonstrate promising results over the state-of-the-art hand reconstruction methods.
翻訳日:2023-03-29 16:31:37 公開日:2023-03-28
# 磁場をもつ動的ホログラフィックqcdモデルによる懸濁弦の異方性とフレーム依存性のカオス

Anisotropic and frame dependent chaos of suspended strings from a dynamical holographic QCD model with magnetic field ( http://arxiv.org/abs/2303.15716v1 )

ライセンス: Link先を確認
Bhaskar Shukla, David Dudal, Subhash Mahapatra(参考訳) 本研究では, 定性的かつ定量的な視点から, ホログラフィの観点から磁場中におけるQCD閉包弦のカオスの発生について検討した。 我々は、QCDとその熱力学をよく模倣するアインシュタイン・マクスウェル・ディラトン作用の初期のボトムアップ解を用いている。 磁場は弦のフレームの磁場に対して垂直方向と平行方向の両方のカオスを抑制する傾向があるが、アインシュタインのフレームではカオスの抑制は垂直方向にのみ起こり、磁場に沿って強化されたカオスが発生する。 両方のフレームにおける抑制/強調の量は、弦と磁場の相対方向に依存する。

We investigate both from a qualitative as well as quantitative perspective the emergence of chaos in the QCD confining string in a magnetic field from a holographic viewpoint. We use an earlier developed bottom-up solution of the Einstein-Maxwell-Dilaton action that mimics QCD and its thermodynamics quite well. Surprisingly, our predictions depend on the used frame: the magnetic field tends to suppress the chaos in both perpendicular and parallel directions relative to the magnetic field in the string frame whilst in the Einstein frame, the chaos suppression only happens in the perpendicular direction, with an enhanced chaos along the magnetic field. The amount of suppression/enhancement in both frames does depend on the relative orientation of the string and magnetic field.
翻訳日:2023-03-29 16:31:19 公開日:2023-03-28
# 基礎モデルとフェアユース

Foundation Models and Fair Use ( http://arxiv.org/abs/2303.15715v1 )

ライセンス: Link先を確認
Peter Henderson, Xuechen Li, Dan Jurafsky, Tatsunori Hashimoto, Mark A. Lemley, Percy Liang(参考訳) 既存の基礎モデルは著作権のある素材で訓練されている。 これらのモデルのデプロイは、データ作成者が適切な属性や報酬を受け取れない場合に、法的および倫理的リスクをもたらす可能性がある。 米国や他のいくつかの国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。 特にそのデータの市場に影響を与えるシナリオにおいて、モデルが著作権付きデータに類似した出力を生成する場合、モデルの出力にフェアユースが適用されなくなる可能性がある。 本研究では、フェアユースを保証せず、フェアユースの観点からモデル開発とデプロイメントを正方形に保つために追加の作業が必要であることを強調する。 まず,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。 我々は、テキスト、ソースコード、ビジュアルアートを生成するための既存および潜在的なアプリケーションと並行して、関連するアメリカの事例法をレビューする。 実験により、人気のある基礎モデルが著作権素材とかなり類似したコンテンツを生成できることが確認された。 第二に、基礎モデルが公正な使用に沿うのに役立つ技術的緩和について論じる。 我々は、緩和戦略を現行法に合わせるためには、さらなる研究が必要であると主張している。 最後に、法律と技術的緩和は共進化すべきだと提案する。 例えば、他の政策機構と組み合わせることで、法律は、侵害の被害を軽減するために強力な技術ツールを使用する場合に、より明確に安全な港を考えることができる。 この共同進化は、知的財産とイノベーションのバランスを取るのに役立つかもしれない。 しかし、ここで述べる戦略は万能ではなく、基礎モデルの潜在的な害に対処する政策を開発するためにより多くの作業が必要であることを強調する。

Existing foundation models are trained on copyrighted material. Deploying these models can pose both legal and ethical risks when data creators fail to receive appropriate attribution or compensation. In the United States and several other countries, copyrighted content may be used to build foundation models without incurring liability due to the fair use doctrine. However, there is a caveat: If the model produces output that is similar to copyrighted data, particularly in scenarios that affect the market of that data, fair use may no longer apply to the output of the model. In this work, we emphasize that fair use is not guaranteed, and additional work may be necessary to keep model development and deployment squarely in the realm of fair use. First, we survey the potential risks of developing and deploying foundation models based on copyrighted content. We review relevant U.S. case law, drawing parallels to existing and potential applications for generating text, source code, and visual art. Experiments confirm that popular foundation models can generate content considerably similar to copyrighted material. Second, we discuss technical mitigations that can help foundation models stay in line with fair use. We argue that more research is needed to align mitigation strategies with the current state of the law. Lastly, we suggest that the law and technical mitigations should co-evolve. For example, coupled with other policy mechanisms, the law could more explicitly consider safe harbors when strong technical tools are used to mitigate infringement harms. This co-evolution may help strike a balance between intellectual property and innovation, which speaks to the original goal of fair use. But we emphasize that the strategies we describe here are not a panacea and more work is needed to develop policies that address the potential harms of foundation models.
翻訳日:2023-03-29 16:31:07 公開日:2023-03-28
# 論理推論における言語モデルを支援する明示的計画法

Explicit Planning Helps Language Models in Logical Reasoning ( http://arxiv.org/abs/2303.15714v1 )

ライセンス: Link先を確認
Hongyu Zhao, Kangrui Wang, Mo Yu, Hongyuan Mei(参考訳) 言語モデルは、幅広い自然言語処理タスクで驚くほどよく機能することが示されている。 本稿では,多段階論理推論を行うために言語モデルを用いた新しいシステムを提案する。 本システムでは,明示的な計画手法を推論手順に組み込むことで,各ステップにおける推論決定をより情報的に行うことができる。 私たちの実験では、システム全体が他の競合システムを大幅に上回っています。 複数選択質問応答タスクでは,約1.5Bのパラメータしか持たないにもかかわらず,GPT-3-davinciと競合する。 我々は,明示的な計画がシステムの性能に重要な役割を担っていることを示すため,いくつかのアブレーション研究を行う。

Language models have been shown to perform remarkably well on a wide range of natural language processing tasks. In this paper, we propose a novel system that uses language models to perform multi-step logical reasoning. Our system incorporates explicit planning into its inference procedure, thus able to make more informed reasoning decisions at each step by looking ahead into their future effects. In our experiments, our full system significantly outperforms other competing systems. On a multiple-choice question answering task, our system performs competitively compared to GPT-3-davinci despite having only around 1.5B parameters. We conduct several ablation studies to demonstrate that explicit planning plays a crucial role in the system's performance.
翻訳日:2023-03-29 16:30:38 公開日:2023-03-28
# RGB-サーマル知覚課題に対する明示的注意強化融合

Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks ( http://arxiv.org/abs/2303.15710v1 )

ライセンス: Link先を確認
Mingjian Liang, Junjie Hu, Chenyu Bao, Hua Feng, Fuqin Deng and Tin Lun Lam(参考訳) 近年,RGBをベースとした知覚は大きな進歩を見せている。 熱情報は、視界カメラが低照度や霧などの照明条件に苦しむときに有用な手がかりとなる。 しかし、RGB画像と熱データを効果的に融合する方法は、依然としてオープンな課題である。 以前の研究では、入力でそれらをマージしたり、モデル内のマルチモダリティ機能を結合したり、各データモダリティに注意を向けたりといった、ナイーブな融合戦略を含んでいる。 これらの融合戦略は単純だが不十分である。 本稿では,各種類のデータを完全に活用する Explicit Attention-Enhanced Fusion (EAEF) という新しい融合法を提案する。 具体的には,以下の事例を考察する。 一 RGBデータ及び熱データの両方 二 データの種類の1つに過ぎず、 三 識別的特徴を生じさせないこと。 EAEFは1つのブランチを使って特徴抽出を強化する i (複数形 is) 三 不足表現の救済のための他の支店 i)。 2つの分岐の出力は融合して相補的な特徴を形成する。 その結果,提案手法は,意味セグメンテーションではmiouで1.6\%,サルエント物体検出ではmaeで3.1\%,物体検出では2.3\%,群衆数ではmaeで8.1\%の最先端技術を上回る。 コードはhttps://github.com/FreeformRobotics/EAEFNetで公開されている。

Recently, RGB-Thermal based perception has shown significant advances. Thermal information provides useful clues when visual cameras suffer from poor lighting conditions, such as low light and fog. However, how to effectively fuse RGB images and thermal data remains an open challenge. Previous works involve naive fusion strategies such as merging them at the input, concatenating multi-modality features inside models, or applying attention to each data modality. These fusion strategies are straightforward yet insufficient. In this paper, we propose a novel fusion method named Explicit Attention-Enhanced Fusion (EAEF) that fully takes advantage of each type of data. Specifically, we consider the following cases: i) both RGB data and thermal data, ii) only one of the types of data, and iii) none of them generate discriminative features. EAEF uses one branch to enhance feature extraction for i) and iii) and the other branch to remedy insufficient representations for ii). The outputs of two branches are fused to form complementary features. As a result, the proposed fusion method outperforms state-of-the-art by 1.6\% in mIoU on semantic segmentation, 3.1\% in MAE on salient object detection, 2.3\% in mAP on object detection, and 8.1\% in MAE on crowd counting. The code is available at https://github.com/FreeformRobotics/EAEFNet.
翻訳日:2023-03-29 16:30:27 公開日:2023-03-28
# バイアスか多様性か? 米国ニュース見出しにおける意味的不一致の解消

Bias or Diversity? Unraveling Semantic Discrepancy in U.S. News Headlines ( http://arxiv.org/abs/2303.15708v1 )

ライセンス: Link先を確認
Jinsheng Pan, Weihong Qi, Zichen Wang, Hanjia Lyu, Jiebo Luo(参考訳) ニュースメディアがニュース記事にイデオロギー的偏見を取り入れているという意見は広く一致している。 しかし, メディア間の差異を計測し, セマンティックな違いの出自を明らかにするための先行研究は, サンプルサイズが小さく, 範囲が限られている。 本研究では,2014年から2022年にかけて,米国の大手メディアから180万のニュース見出しの大規模なデータセットを収集し,米国のニュースメディアにおける意味的不一致を徹底的に追跡し,分析する。 我々は、国内政治、経済問題、社会問題、外交の4つの主要なトピックに関する意味的不一致を定量化するために、複数の対応分析(MCA)を用いる。 さらに、メディア見出しで最も頻度の高いn-gramを比較し、分析にさらなる質的洞察を与えます。 以上の結果から,国内政治や社会問題においては,一定のメディア偏見が原因であることが示唆された。 一方、外交報告の不一致は、個々のジャーナリストのスタイルの多様性によるところが大きい。 最後に、米国のメディアは経済問題に関する報道において一貫性と高い類似性を示している。

There is a broad consensus that news media outlets incorporate ideological biases in their news articles. However, prior studies on measuring the discrepancies among media outlets and further dissecting the origins of semantic differences suffer from small sample sizes and limited scope. In this study, we collect a large dataset of 1.8 million news headlines from major U.S. media outlets spanning from 2014 to 2022 to thoroughly track and dissect the semantic discrepancy in U.S. news media. We employ multiple correspondence analysis (MCA) to quantify the semantic discrepancy relating to four prominent topics - domestic politics, economic issues, social issues, and foreign affairs. Additionally, we compare the most frequent n-grams in media headlines to provide further qualitative insights into our analysis. Our findings indicate that on domestic politics and social issues, the discrepancy can be attributed to a certain degree of media bias. Meanwhile, the discrepancy in reporting foreign affairs is largely attributed to the diversity in individual journalistic styles. Finally, U.S. media outlets show consistency and high similarity in their coverage of economic issues.
翻訳日:2023-03-29 16:30:05 公開日:2023-03-28
# tabret: unseen列のためのトランスフォーマティブベースの表モデル

TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns ( http://arxiv.org/abs/2303.15747v1 )

ライセンス: Link先を確認
Soma Onishi, Kenta Oono, and Kohei Hayashi(参考訳) 表データのためのトレーニング済みトランスフォーマーモデルである \emph{TabRet} を提示する。 TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。 他の方法とは異なり、TabRetは‘emph{retokenizing}’と呼ばれる微調整の前に余分な学習ステップを持ち、マスク付き自動エンコーディング損失に基づいて機能の埋め込みを校正する。 実験では,公衆衛生調査を多数収集したタブレットを事前学習し,医療における分類タスクを微調整し,4つのデータセットで最高のauc性能を得た。 さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。

We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains.
翻訳日:2023-03-29 16:23:21 公開日:2023-03-28
# qEUBO: 優先ベイズ最適化のための決定論的獲得関数

qEUBO: A Decision-Theoretic Acquisition Function for Preferential Bayesian Optimization ( http://arxiv.org/abs/2303.15746v1 )

ライセンス: Link先を確認
Raul Astudillo, Zhiyuan Jerry Lin, Eytan Bakshy, Peter I. Frazier(参考訳) preferential bayesian optimization (pbo) は、選好フィードバックを用いて意思決定者の潜在ユーティリティ機能を最適化するためのフレームワークである。 本研究は, PBO の新たな獲得機能として, ベストオプション (qEUBO) の期待される実用性を紹介する。 意思決定者の応答がノイズフリーである場合、qEUBOは1ステップのベイズ最適であり、一般的な知識勾配獲得関数と等価であることを示す。 また,qeuboは,意思決定者の応答がノイズによって損なわれた場合,一段階ベイズ最適方針に対して付加的定数近似の保証を享受していることを示す。 我々はqEUBOを広範囲に評価し、PBOの最先端の取得機能よりも多くの設定で優れていることを示す。 最後に、十分な正則性条件下では、qEUBOのベイズ的単純後悔は、クエリの数、$n$が無限に近づくにつれて、o(1/n)$でゼロに収束することを示す。 対照的に、PBOによく使われる標準BOの一般的な取得関数qEIの下での単純な後悔は、0に収束しないことを示す。 優れた性能、単純な計算、決定論的正当化を楽しみ、qEUBOはPBOの有望な獲得機能である。

Preferential Bayesian optimization (PBO) is a framework for optimizing a decision maker's latent utility function using preference feedback. This work introduces the expected utility of the best option (qEUBO) as a novel acquisition function for PBO. When the decision maker's responses are noise-free, we show that qEUBO is one-step Bayes optimal and thus equivalent to the popular knowledge gradient acquisition function. We also show that qEUBO enjoys an additive constant approximation guarantee to the one-step Bayes-optimal policy when the decision maker's responses are corrupted by noise. We provide an extensive evaluation of qEUBO and demonstrate that it outperforms the state-of-the-art acquisition functions for PBO across many settings. Finally, we show that, under sufficient regularity conditions, qEUBO's Bayesian simple regret converges to zero at a rate $o(1/n)$ as the number of queries, $n$, goes to infinity. In contrast, we show that simple regret under qEI, a popular acquisition function for standard BO often used for PBO, can fail to converge to zero. Enjoying superior performance, simple computation, and a grounded decision-theoretic justification, qEUBO is a promising acquisition function for PBO.
翻訳日:2023-03-29 16:23:07 公開日:2023-03-28
# 再帰的特徴マシンの機能スケーリングについて

On Feature Scaling of Recursive Feature Machines ( http://arxiv.org/abs/2303.15745v1 )

ライセンス: Link先を確認
Arunav Gupta, Rohit Mishra, William Luu, Mehdi Bouassami(参考訳) 本報告では,回帰データセットに関する一連の実験を通じて,平均勾配外積を用いて再帰的に特徴を学習する,新しいカーネルマシンの一種である再帰的特徴機械(rfms)の挙動を考察する。 データセットにランダムノイズ特徴を連続的に付加すると、平均正方形誤差曲線(MSE)の興味深いパターンが観察され、MSEは減少・減少パターンを示す。 この振る舞いは、異なるデータセットサイズ、ノイズパラメータ、ターゲット関数間で一貫性がある。 興味深いことに、観測されたmse曲線はディープニューラルネットワークで観測される「二重降下」現象と類似しており、rfmとニューラルネットワークの振る舞いの新たな関係を示唆している。 この報告は、この特異な行動に関する今後の研究の土台となるものである。

In this technical report, we explore the behavior of Recursive Feature Machines (RFMs), a type of novel kernel machine that recursively learns features via the average gradient outer product, through a series of experiments on regression datasets. When successively adding random noise features to a dataset, we observe intriguing patterns in the Mean Squared Error (MSE) curves with the test MSE exhibiting a decrease-increase-decrease pattern. This behavior is consistent across different dataset sizes, noise parameters, and target functions. Interestingly, the observed MSE curves show similarities to the "double descent" phenomenon observed in deep neural networks, hinting at new connection between RFMs and neural network behavior. This report lays the groundwork for future research into this peculiar behavior.
翻訳日:2023-03-29 16:22:42 公開日:2023-03-28
# HS-Pose:カテゴリーレベルのオブジェクト位置推定のためのハイブリッドスコープ特徴抽出

HS-Pose: Hybrid Scope Feature Extraction for Category-level Object Pose Estimation ( http://arxiv.org/abs/2303.15743v1 )

ライセンス: Link先を確認
Linfang Zheng, Chen Wang, Yinghan Sun, Esha Dasgupta, Hua Chen, Ales Leonardis, Wei Zhang, Hyung Jin Chang(参考訳) 本稿では,カテゴリー内形状の変化が大きいため,カテゴリレベルのオブジェクトポーズ推定の問題に焦点をあてる。 3次元グラフ畳み込み(3D-GC)に基づく手法は局所的な幾何学的特徴を抽出するために広く用いられているが、複雑な形状の物体には制限があり、ノイズに敏感である。 さらに、3D-GCのスケールと翻訳不変性は、物体のサイズと翻訳情報の知覚を制限する。 本稿では3D-GCを拡張して,カテゴリレベルのオブジェクトポーズ推定タスクのためのポイントクラウドデータからハイブリッドスコープ潜在特徴を抽出する,シンプルなネットワーク構造HS層を提案する。 HS層の提案 1)地域・グローバルな幾何学的構造とグローバルな情報を知覚することができる。 2)雑音に対して頑健であり, 3)サイズと翻訳情報をエンコードできる。 5d2cmで14.5%, IoU75で10.3%向上し, 3D-GC層をベースライン法(GPV-Pose)上のHS層に簡易に置き換えることにより, 大幅な改善が得られた。 提案手法はREAL275データセットにおいて,最先端の手法よりも大きなマージン(5d2cmが8.3%,IoU75が6.9%)で,リアルタイム(50FPS)で動作する。

In this paper, we focus on the problem of category-level object pose estimation, which is challenging due to the large intra-category shape variation. 3D graph convolution (3D-GC) based methods have been widely used to extract local geometric features, but they have limitations for complex shaped objects and are sensitive to noise. Moreover, the scale and translation invariant properties of 3D-GC restrict the perception of an object's size and translation information. In this paper, we propose a simple network structure, the HS-layer, which extends 3D-GC to extract hybrid scope latent features from point cloud data for category-level object pose estimation tasks. The proposed HS-layer: 1) is able to perceive local-global geometric structure and global information, 2) is robust to noise, and 3) can encode size and translation information. Our experiments show that the simple replacement of the 3D-GC layer with the proposed HS-layer on the baseline method (GPV-Pose) achieves a significant improvement, with the performance increased by 14.5% on 5d2cm metric and 10.3% on IoU75. Our method outperforms the state-of-the-art methods by a large margin (8.3% on 5d2cm, 6.9% on IoU75) on the REAL275 dataset and runs in real-time (50 FPS).
翻訳日:2023-03-29 16:22:30 公開日:2023-03-28
# オンラインストリーミング映像理解のためのシステム統計対応適応ネットワーク

System-status-aware Adaptive Network for Online Streaming Video Understanding ( http://arxiv.org/abs/2303.15742v1 )

ライセンス: Link先を確認
Lin Geng Foo, Jia Gong, Zhipeng Fan, Jun Liu(参考訳) 近年、リアルタイムアプリケーションのためのディープニューラルネットワークは大きな進歩を遂げている。 しかしながら、既存のほとんどの研究は、デバイスの状態と利用可能なリソースが時間とともに変動する一般的なケースを明示的に考慮していない。 本稿では,装置のリアルタイム状態を考慮したシステム統計対応適応ネットワーク(SAN, System-status-aware Adaptive Network)を提案する。 エージェントのポリシーの使用は、システム状態の変動に対する効率とロバスト性を向上させる。 2つの広く使われているビデオ理解タスクにおいて、SANは処理遅延を常に低く保ちながら最先端のパフォーマンスを得る。 さらに,各種ハードウェア構成のエージェントをトレーニングするのは,ラベル付きトレーニングデータが入手できない場合や,計算が禁止される場合など,容易ではない。 この課題に対処するために,テスト時にエージェントのポリシーを新しいハードウェア構成に適応させるメタ自己監督適応 (msa) 手法を提案する。

Recent years have witnessed great progress in deep neural networks for real-time applications. However, most existing works do not explicitly consider the general case where the device's state and the available resources fluctuate over time, and none of them investigate or address the impact of varying computational resources for online video understanding tasks. This paper proposes a System-status-aware Adaptive Network (SAN) that considers the device's real-time state to provide high-quality predictions with low delay. Usage of our agent's policy improves efficiency and robustness to fluctuations of the system status. On two widely used video understanding tasks, SAN obtains state-of-the-art performance while constantly keeping processing delays low. Moreover, training such an agent on various types of hardware configurations is not easy as the labeled training data might not be available, or can be computationally prohibitive. To address this challenging problem, we propose a Meta Self-supervised Adaptation (MSA) method that adapts the agent's policy to new hardware configurations at test-time, allowing for easy deployment of the model onto other unseen hardware platforms.
翻訳日:2023-03-29 16:22:02 公開日:2023-03-28
# 収縮確率近似の濃度:加算音と乗算音

Concentration of Contractive Stochastic Approximation: Additive and Multiplicative Noise ( http://arxiv.org/abs/2303.15740v1 )

ライセンス: Link先を確認
Zaiwei Chen, Siva Theja Maguluri, and Martin Zubeldia(参考訳) 本研究では,任意のノルムに対する契約演算子の下での確率近似(SA)アルゴリズムの濃度挙動について検討する。 本稿では,(1)有界乗法雑音,(2)加法的部分ガウス雑音の2つの条件について考察する。 我々は収束誤差の最大濃度不等式を求め,これらの誤差が加法雑音設定における準ガウス尾と乗法雑音設定における超多項式テール(多項式減衰よりも速い)を有することを示す。 さらに,乗法雑音を伴うsaのサブ指数尾部を実現することは一般に不可能であることを示す。 これらの結果を確立するために,誤りの一般化モロー包絡のモーメント生成関数と,ville の極大不等式を有効活用するための指数関数スーパーマーチンゲールの構成を境界とする新しいブートストラップ法を考案する。 理論的な結果の適用性を実証するために,線形関数近似を用いたオンラインTD学習,一般化された重要サンプリング因子を用いたオフポリティクスTD学習,および$Q$ラーニングを含む,大規模な強化学習アルゴリズムに対して,最大濃度境界を提供する。 最善の知識として,非拘束イテレートと乗法雑音の組み合わせを扱うという課題から,オフポリティカルtd学習のための超多項濃度境界は文献に確立されていない。

In this work, we study the concentration behavior of a stochastic approximation (SA) algorithm under a contractive operator with respect to an arbitrary norm. We consider two settings where the iterates are potentially unbounded: (1) bounded multiplicative noise, and (2) additive sub-Gaussian noise. We obtain maximal concentration inequalities on the convergence errors, and show that these errors have sub-Gaussian tails in the additive noise setting, and super-polynomial tails (faster than polynomial decay) in the multiplicative noise setting. In addition, we provide an impossibility result showing that it is in general not possible to achieve sub-exponential tails for SA with multiplicative noise. To establish these results, we develop a novel bootstrapping argument that involves bounding the moment generating function of the generalized Moreau envelope of the error and the construction of an exponential supermartingale to enable using Ville's maximal inequality. To demonstrate the applicability of our theoretical results, we use them to provide maximal concentration bounds for a large class of reinforcement learning algorithms, including but not limited to on-policy TD-learning with linear function approximation, off-policy TD-learning with generalized importance sampling factors, and $Q$-learning. To the best of our knowledge, super-polynomial concentration bounds for off-policy TD-learning have not been established in the literature due to the challenge of handling the combination of unbounded iterates and multiplicative noise.
翻訳日:2023-03-29 16:21:44 公開日:2023-03-28
# オーバーパラメトリズドケースにおける深部ReLUニューラルネットワークのベイズ自由エネルギー

Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized Cases ( http://arxiv.org/abs/2303.15739v1 )

ライセンス: Link先を確認
Shuya Nagayasu, Sumio Watanabe(参考訳) 人工知能の多くの研究分野において、深層ニューラルネットワークは高次元入力空間上で未知の関数を推定するのに有用であることが示されている。 しかし、その一般化性能は、識別不能で特異な学習機械であるため、理論的な観点からはまだ完全には解明されていない。 さらに、ReLU関数は微分不可能であり、特異学習理論における代数的あるいは解析的手法は適用できない。 本稿では,過度にパラメータ化された場合の深部ReLUニューラルネットワークについて検討し,未知のデータ生成関数を推定するために必要な層数より大きい場合においても,ベイズ自由エネルギーがベイズ確率のマイナス対数限界確率に等しいことを証明した。 ベイジアン一般化誤差は標本サイズの関数としての自由エネルギーの増加と等しいため, 深部ReLUニューラルネットワークが十分に大きければ, あるいは超並列化状態であってもベイジアン一般化誤差は増加しないことを示す。

In many research fields in artificial intelligence, it has been shown that deep neural networks are useful to estimate unknown functions on high dimensional input spaces. However, their generalization performance is not yet completely clarified from the theoretical point of view because they are nonidentifiable and singular learning machines. Moreover, a ReLU function is not differentiable, to which algebraic or analytic methods in singular learning theory cannot be applied. In this paper, we study a deep ReLU neural network in overparametrized cases and prove that the Bayesian free energy, which is equal to the minus log marginal likelihoodor the Bayesian stochastic complexity, is bounded even if the number of layers are larger than necessary to estimate an unknown data-generating function. Since the Bayesian generalization error is equal to the increase of the free energy as a function of a sample size, our result also shows that the Bayesian generalization error does not increase even if a deep ReLU neural network is designed to be sufficiently large or in an opeverparametrized state.
翻訳日:2023-03-29 16:21:18 公開日:2023-03-28
# 任意形状テキスト検出のための変形可能なカーネル拡張モデル

Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene Text Detection ( http://arxiv.org/abs/2303.15737v1 )

ライセンス: Link先を確認
Tao He and Sheng Huang and Wenhao Tang and Bo Liu(参考訳) シーンのテキスト検出は、テキストの形状や比率のばらつきが高いため、コンピュータビジョンの課題である。 本研究では,セグメンテーションと輪郭に基づく検出器を併用したdeformable kernel expansion (dke) というシーンテキスト検出器を提案する。 DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、次にテキストカーネルの輪郭を拡張して頂点方向オフセットを回帰することでテキスト境界を得る。 セグメント化によるテキストカーネルの生成により、DKEはセグメント化ベースの検出器の任意の形のテキスト領域モデリング能力を継承できる。 カーネルの輪郭をサンプルの頂点で回帰することで、DKEは複雑なピクセルレベルの後処理を避け、輪郭ベースの検出器として輪郭変形を学習することができる。 さらに、予測された輪郭と地上の真実との一致誤差を計測し、グローバルな輪郭マッチング距離を効率的に最小化する最適二部グラフマッチング損失(OBGML)を提案する。 CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の大規模な実験により,DKE がシーンテキスト検出における精度と効率のトレードオフを達成できることが示された。

Scene text detection is a challenging computer vision task due to the high variation in text shapes and ratios. In this work, we propose a scene text detector named Deformable Kernel Expansion (DKE), which incorporates the merits of both segmentation and contour-based detectors. DKE employs a segmentation module to segment the shrunken text region as the text kernel, then expands the text kernel contour to obtain text boundary by regressing the vertex-wise offsets. Generating the text kernel by segmentation enables DKE to inherit the arbitrary-shaped text region modeling capability of segmentation-based detectors. Regressing the kernel contour with some sampled vertices enables DKE to avoid the complicated pixel-level post-processing and better learn contour deformation as the contour-based detectors. Moreover, we propose an Optimal Bipartite Graph Matching Loss (OBGML) that measures the matching error between the predicted contour and the ground truth, which efficiently minimizes the global contour matching distance. Extensive experiments on CTW1500, Total-Text, MSRA-TD500, and ICDAR2015 demonstrate that DKE achieves a good tradeoff between accuracy and efficiency in scene text detection.
翻訳日:2023-03-29 16:21:00 公開日:2023-03-28
# パス拡張法による対向サンプルの転送性の向上

Improving the Transferability of Adversarial Samples by Path-Augmented Method ( http://arxiv.org/abs/2303.15735v1 )

ライセンス: Link先を確認
Jianping Zhang, Jen-tse Huang, Wenxuan Wang, Yichen Li, Weibin Wu, Xiaosen Wang, Yuxin Su, Michael R. Lyu(参考訳) 深層ニューラルネットワークは多様な視覚タスクにおいて前例のない成功を収めた。 しかし、人間には受け入れられない敵の騒音に弱い。 この現象は、現実のシナリオ、特にセキュリティ関連のシナリオでのデプロイメントに悪影響を及ぼす。 実際にターゲットモデルのロバスト性を評価するため,トランスファーベースアタックは局所モデルを用いて敵のサンプルを抽出し,高い効率で研究者の注目を集めた。 最先端の転送ベースの攻撃は、一般的にデータ拡張に基づいており、通常、敵対的なサンプルを学習する際に、線形パスから複数のトレーニングイメージを増強する。 しかし、このような手法は画像拡張パスをヒューリスティックに選択し、対象画像と相容れないイメージを増大させ、生成した対向サンプルの転送性に悪影響を及ぼす可能性がある。 この落とし穴を克服するため,我々はPath-Augmented Method (PAM)を提案する。 具体的には、まず、PAMが候補拡張パスプールを構築する。 そして、グリーディ探索による逆サンプル生成中に採用される増強経路を解決する。 さらに,セマンティクスに一貫性のない画像の強調を避けるために,セマンティクス予測子(sp)を訓練し,加算経路の長さを制約する。 大規模な実験により、PAMは攻撃成功率の点で最先端のベースラインと比較して平均4.8%以上の改善を達成できることを確認した。

Deep neural networks have achieved unprecedented success on diverse vision tasks. However, they are vulnerable to adversarial noise that is imperceptible to humans. This phenomenon negatively affects their deployment in real-world scenarios, especially security-related ones. To evaluate the robustness of a target model in practice, transfer-based attacks craft adversarial samples with a local model and have attracted increasing attention from researchers due to their high efficiency. The state-of-the-art transfer-based attacks are generally based on data augmentation, which typically augments multiple training images from a linear path when learning adversarial samples. However, such methods selected the image augmentation path heuristically and may augment images that are semantics-inconsistent with the target images, which harms the transferability of the generated adversarial samples. To overcome the pitfall, we propose the Path-Augmented Method (PAM). Specifically, PAM first constructs a candidate augmentation path pool. It then settles the employed augmentation paths during adversarial sample generation with greedy search. Furthermore, to avoid augmenting semantics-inconsistent images, we train a Semantics Predictor (SP) to constrain the length of the augmentation path. Extensive experiments confirm that PAM can achieve an improvement of over 4.8% on average compared with the state-of-the-art baselines in terms of the attack success rates.
翻訳日:2023-03-29 16:20:35 公開日:2023-03-28
# 対戦ゲームのための適応的バックグラウンド音楽:多楽器ボリューム変調アプローチ

Adaptive Background Music for a Fighting Game: A Multi-Instrument Volume Modulation Approach ( http://arxiv.org/abs/2303.15734v1 )

ライセンス: Link先を確認
Ibrahim Khan, Thai Van Nguyen, Chollakorn Nimpattanavong, Ruck Thawonmas(参考訳) 本稿では,適応的なBGMを追加することで,DareFightingICEのバックグラウンド音楽(BGM)を強化する取り組みについて述べる。 適応的なBGMは、"Air on G-String"と呼ばれるクラシック曲を演奏する5つの異なる楽器で構成されている。 bgmは、楽器のボリュームを変化させて適応する。 各楽器はゲームの異なる要素に接続されている。 次に、音声のみを入力として使用する深層強化学習AI(Blind DL AI)を用いて、適応的BGMを評価する実験を行う。 その結果,適応的BGMを使わずにプレイするよりも,適応的BGMを併用したBlind DL AIの性能が向上した。

This paper presents our work to enhance the background music (BGM) in DareFightingICE by adding an adaptive BGM. The adaptive BGM consists of five different instruments playing a classical music piece called "Air on G-String." The BGM adapts by changing the volume of the instruments. Each instrument is connected to a different element of the game. We then run experiments to evaluate the adaptive BGM by using a deep reinforcement learning AI that only uses audio as input (Blind DL AI). The results show that the performance of the Blind DL AI improves while playing with the adaptive BGM as compared to playing without the adaptive BGM.
翻訳日:2023-03-29 16:20:16 公開日:2023-03-28
# 動的量子熱エンジンの効率と熱力学的不確かさの関係

Efficiency and thermodynamic uncertainty relations of a dynamical quantum heat engine ( http://arxiv.org/abs/2303.15773v1 )

ライセンス: Link先を確認
Luca Razzoli, Fabio Cavaliere, Matteo Carrega, Maura Sassetti, Giuliano Benenti(参考訳) 高性能量子熱機械の探求において、最適熱力学効率を求めることは問題の一部である。 実際、量子デバイスのレベルでは、変動は非常に関連性が高く、考慮する必要がある。 本稿では,量子高調波発振器を作動媒とする量子熱機械の熱力学的不確実性関係について検討する。 計算機が量子エンジンまたは冷凍機として動作し、小型化と小型化の両面からパラメータを見つけることができることを示す。

In the quest for high-performance quantum thermal machines, looking for an optimal thermodynamic efficiency is only part of the issue. Indeed, at the level of quantum devices, fluctuations become extremely relevant and need to be taken into account. In this paper we study the thermodynamic uncertainty relations for a quantum thermal machine with a quantum harmonic oscillator as a working medium, connected to two thermal baths, one of which is dynamically coupled. We show that parameters can be found such that the machine operates both as a quantum engine or refrigerator, with both sizeable efficiency and small fluctuations.
翻訳日:2023-03-29 16:14:49 公開日:2023-03-28
# Ecosystem Graphs: 基礎モデルのソーシャルフットプリント

Ecosystem Graphs: The Social Footprint of Foundation Models ( http://arxiv.org/abs/2303.15772v1 )

ライセンス: Link先を確認
Rishi Bommasani and Dilara Soylu and Thomas I. Liao and Kathleen A. Creel and Percy Liang(参考訳) 基礎モデル(例えばchatgpt、stablediffusion)は社会に広く影響を与え、すぐに社会の注意を喚起する。 モデル自体が、その影響を正確に特徴づけるためには、より広範な社会技術エコシステムを考える必要がある。 このエコシステムの知識を透過的に集中化するためのドキュメンテーションフレームワークとして,Ecosystem Graphsを提案する。 Ecosystem Graphs は、技術的(例えば Bing は GPT-4 に依存している)と社会的(例えば Microsoft は OpenAI に依存している)の関係を示す依存関係によってリンクされた資産(データセット、モデル、アプリケーション)で構成されている。 グラフ構造を補完するため、各アセットはさらに細かなメタデータ(ライセンスやトレーニングエミッションなど)を豊かにします。 エコシステムはhttps://crfm.stanford.edu/ecosystem-graphs/で広くドキュメント化されています。 2023年3月16日現在、63の組織から262の資産(64のデータセット、128のモデル、70のアプリケーション)を356の依存関係でアノテートしています。 Ecosystem Graphs関数は、無数のユースケースに対処するために必要な最小限の透明性を達成するための強力な抽象化とインターフェースであることを示す。 したがって、エコシステムグラフは、ai研究者、業界専門家、社会科学者、監査人、政策立案者など幅広い利害関係者に価値を提供する、コミュニティが維持するリソースになると考えています。

Foundation models (e.g. ChatGPT, StableDiffusion) pervasively influence society, warranting immediate social attention. While the models themselves garner much attention, to accurately characterize their impact, we must consider the broader sociotechnical ecosystem. We propose Ecosystem Graphs as a documentation framework to transparently centralize knowledge of this ecosystem. Ecosystem Graphs is composed of assets (datasets, models, applications) linked together by dependencies that indicate technical (e.g. how Bing relies on GPT-4) and social (e.g. how Microsoft relies on OpenAI) relationships. To supplement the graph structure, each asset is further enriched with fine-grained metadata (e.g. the license or training emissions). We document the ecosystem extensively at https://crfm.stanford.edu/ecosystem-graphs/. As of March 16, 2023, we annotate 262 assets (64 datasets, 128 models, 70 applications) from 63 organizations linked by 356 dependencies. We show Ecosystem Graphs functions as a powerful abstraction and interface for achieving the minimum transparency required to address myriad use cases. Therefore, we envision Ecosystem Graphs will be a community-maintained resource that provides value to stakeholders spanning AI researchers, industry professionals, social scientists, auditors and policymakers.
翻訳日:2023-03-29 16:14:36 公開日:2023-03-28
# DDMM-Synth:スパースビュー計測埋め込みを用いたクロスモーダル医用画像合成のためのノイズ拡散モデル

DDMM-Synth: A Denoising Diffusion Model for Cross-modal Medical Image Synthesis with Sparse-view Measurement Embedding ( http://arxiv.org/abs/2303.15770v1 )

ライセンス: Link先を確認
Xiaoyue Li, Kai Shang, Gaoang Wang and Mark D. Butala(参考訳) CT(Computed tomography)における放射線線量削減は,放射線誘発リスクを軽減するために重要である。 1つの選択肢は、不完全な情報とスパースビューの測定をCT再構成にマッピングするために、よく訓練されたモデルを使用することである。 しかし, 対象物をCTで一意に特徴付けるには, 微量試料からの再構成が不十分であり, 未診断症例に対しては学習前のモデルが不十分である可能性がある。 磁気共鳴画像(MRI)からCTへの医療用モーダルトランスフォーメーションは代替であるが, 合成CT画像に誤った情報を導入する可能性があり, それらの関連性を示す明示的な変換は存在しない。 これらの課題に対処するため,医療画像合成のためのデノナイズ拡散モデル (DDMM-Synth) と呼ばれる新しいフレームワークを提案する。 このフレームワークはMRI誘導拡散モデルと新しいCT計測埋め込み逆サンプリングスキームを組み合わせたものである。 具体的には、MRI誘導データ分布により、1ステップの復調結果のヌルスペース内容が洗練され、明示的な演算子行列から導出されるレンジスペース成分とスパースビューCT測定が推論ステージに直接統合される。 DDMM-Synthは特定の臨床応用のためのCTの投射数を調整することができ、その修正版はノイズのある症例に対して結果を著しく改善することができる。 その結果,DDMM-Synth は他の最先端の教師あり学習ベースラインよりも高い性能を示した。

Reducing the radiation dose in computed tomography (CT) is important to mitigate radiation-induced risks. One option is to employ a well-trained model to compensate for incomplete information and map sparse-view measurements to the CT reconstruction. However, reconstruction from sparsely sampled measurements is insufficient to uniquely characterize an object in CT, and a learned prior model may be inadequate for unencountered cases. Medical modal translation from magnetic resonance imaging (MRI) to CT is an alternative but may introduce incorrect information into the synthesized CT images in addition to the fact that there exists no explicit transformation describing their relationship. To address these issues, we propose a novel framework called the denoising diffusion model for medical image synthesis (DDMM-Synth) to close the performance gaps described above. This framework combines an MRI-guided diffusion model with a new CT measurement embedding reverse sampling scheme. Specifically, the null-space content of the one-step denoising result is refined by the MRI-guided data distribution prior, and its range-space component derived from an explicit operator matrix and the sparse-view CT measurements is directly integrated into the inference stage. DDMM-Synth can adjust the projection number of CT a posteriori for a particular clinical application and its modified version can even improve the results significantly for noisy cases. Our results show that DDMM-Synth outperforms other state-of-the-art supervised-learning-based baselines under fair experimental conditions.
翻訳日:2023-03-29 16:14:12 公開日:2023-03-28
# RobustSwap: 属性漏洩に対するシンプルだがロバストな顔スワッピングモデル

RobustSwap: A Simple yet Robust Face Swapping Model against Attribute Leakage ( http://arxiv.org/abs/2303.15768v1 )

ライセンス: Link先を確認
Jaeseong Lee, Taewoo Kim, Sunghyun Park, Younggun Lee, Jaegul Choo(参考訳) フェイススワッピングは、ターゲットイメージにソースイメージのアイデンティティ(すなわち顔の特徴)を注入することを目的としているが、アイデンティティとは無関係なターゲットの属性を厳密に保持する。 しかし,これまでのアプローチでは,対象画像の属性に干渉するソース属性のリークが問題視されていた。 本稿では,スタイルガンの潜在空間を分析し,フェイススワッピングタスク用に用意された潜在空間の適切な組み合わせを求める。 本研究は,ロバスト・スワップ (RobustSwap) の簡易な顔交換モデルを構築し, 情報源属性の漏洩に対する耐性を示す。 さらに,3dmmの暗黙的および明示的な情報の協調を,音源画像の構造と対象画像の正確なポーズを組み込むためのガイダンスとして活用する。 本手法は,識別ラベルのない画像データセットのみをトレーニングに利用するが,高忠実度で時間的一貫性のある映像を生成できる。 本研究では,画像とビデオの合成において,従来の顔交換モデルと比較して,定性的,定量的な評価を行った。 プロジェクトページはhttps://robustswap.github.io/にある。

Face swapping aims at injecting a source image's identity (i.e., facial features) into a target image, while strictly preserving the target's attributes, which are irrelevant to identity. However, we observed that previous approaches still suffer from source attribute leakage, where the source image's attributes interfere with the target image's. In this paper, we analyze the latent space of StyleGAN and find the adequate combination of the latents geared for face swapping task. Based on the findings, we develop a simple yet robust face swapping model, RobustSwap, which is resistant to the potential source attribute leakage. Moreover, we exploit the coordination of 3DMM's implicit and explicit information as a guidance to incorporate the structure of the source image and the precise pose of the target image. Despite our method solely utilizing an image dataset without identity labels for training, our model has the capability to generate high-fidelity and temporally consistent videos. Through extensive qualitative and quantitative evaluations, we demonstrate that our method shows significant improvements compared with the previous face swapping models in synthesizing both images and videos. Project page is available at https://robustswap.github.io/
翻訳日:2023-03-29 16:13:47 公開日:2023-03-28
# X-Mesh: 動的テキスト誘導によるテキスト駆動型3Dスティル化の高速化

X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance ( http://arxiv.org/abs/2303.15764v1 )

ライセンス: Link先を確認
Yiwei Ma, Xiaioqing Zhang, Xiaoshuai Sun, Jiayi Ji, Haowei Wang, Guannan Jiang, Weilin Zhuang, Rongrong Ji(参考訳) テキスト駆動3dスタイライゼーション(英: text-driven 3d styleylization)は、コンピュータビジョン(cv)とコンピュータグラフィックス(cg)の分野において複雑かつ重要なタスクである。 従来の手法ではテキスト非依存の多層パーセプトロン(MLP)を使用して、CLIP損失の監視によってターゲットメッシュの属性を予測する。 しかし、このようなテキストに依存しないアーキテクチャは属性を予測する際にテキストのガイダンスを欠いているため、不十分なスタイライゼーションと緩やかな収束に繋がる。 これらの制約に対処するために,新しいテキスト誘導動的注意モジュール(TDAM)を組み込んだ,革新的なテキスト駆動型3DスタイリングフレームワークであるX-Meshを紹介する。 TDAMは、頂点特徴抽出時のテキスト関連空間的およびチャネル的注意力を利用してターゲットテキストのガイダンスを動的に統合し、より正確な属性予測とより高速な収束速度を実現する。 さらに、既存の作品には標準ベンチマークや評価のための自動測定基準が欠如しており、定型化された3dアセットの品質を評価するために、主観的および非再現的なユーザー研究に頼っていることが多い。 この制限を克服するために、mit-30と2つの自動メトリクスという新しい標準テキストメッシュベンチマークを導入し、将来の研究が公平で客観的な比較を可能にする。 X-Meshは従来の最先端手法よりも優れていることを示す。

Text-driven 3D stylization is a complex and crucial task in the fields of computer vision (CV) and computer graphics (CG), aimed at transforming a bare mesh to fit a target text. Prior methods adopt text-independent multilayer perceptrons (MLPs) to predict the attributes of the target mesh with the supervision of CLIP loss. However, such text-independent architecture lacks textual guidance during predicting attributes, thus leading to unsatisfactory stylization and slow convergence. To address these limitations, we present X-Mesh, an innovative text-driven 3D stylization framework that incorporates a novel Text-guided Dynamic Attention Module (TDAM). The TDAM dynamically integrates the guidance of the target text by utilizing text-relevant spatial and channel-wise attentions during vertex feature extraction, resulting in more accurate attribute prediction and faster convergence speed. Furthermore, existing works lack standard benchmarks and automated metrics for evaluation, often relying on subjective and non-reproducible user studies to assess the quality of stylized 3D assets. To overcome this limitation, we introduce a new standard text-mesh benchmark, namely MIT-30, and two automated metrics, which will enable future research to achieve fair and objective comparisons. Our extensive qualitative and quantitative experiments demonstrate that X-Mesh outperforms previous state-of-the-art methods.
翻訳日:2023-03-29 16:13:24 公開日:2023-03-28
# 効率的な対応処理のための2次注意文脈の学習

Learning Second-Order Attentive Context for Efficient Correspondence Pruning ( http://arxiv.org/abs/2303.15761v1 )

ライセンス: Link先を確認
Xinyi Ye, Weiyue Zhao, Hao Lu, Zhiguo Cao(参考訳) 対応プルーニングは、一貫した対応 (inliers) の集合から一貫した対応 (inliers) を探索することを目的としている。 多くの外れ値の分散した空間分布のため、特に配置対応が大半が外れ値に支配されている場合、それは困難である。 効率を保ちながら有効性を確保することはもっと難しい。 本稿では, 効果的かつ効率的な対応プルーニング手法を提案する。 対応問題における注意コンテキストの成功に触発されて,まず注意コンテキストを一階注意コンテキストに拡張し,次に注意コンテキストの概念(ana)を導入し,対応プラニングのための二階注意コンテキストをモデル化する。 特徴一貫性のある文脈に焦点をあてた一階の注意に比べ、二階の注意は注意重みそのものに注力し、注意マップから一貫したコンテキストをエンコードするための追加の情報源を提供する。 効率向上のために,2次注意の単純実装のための2つの近似式を導出し,2次注意を無視可能な計算オーバーヘッドで使用できるように,3次複雑さを線形複雑性に最適化する。 さらに,この定式化を2階のコンテキスト層に実装し,その層をanaブロックに組み込む。 広範囲にわたる実験により,本手法は,特に高出力比の場合において,外れ値の刈り出しにおいて効果的かつ効率的であることが証明された。 LMCNetと比較して,提案手法は競合精度を維持しつつ,14倍高速に動作可能である。

Correspondence pruning aims to search consistent correspondences (inliers) from a set of putative correspondences. It is challenging because of the disorganized spatial distribution of numerous outliers, especially when putative correspondences are largely dominated by outliers. It's more challenging to ensure effectiveness while maintaining efficiency. In this paper, we propose an effective and efficient method for correspondence pruning. Inspired by the success of attentive context in correspondence problems, we first extend the attentive context to the first-order attentive context and then introduce the idea of attention in attention (ANA) to model second-order attentive context for correspondence pruning. Compared with first-order attention that focuses on feature-consistent context, second-order attention dedicates to attention weights itself and provides an additional source to encode consistent context from the attention map. For efficiency, we derive two approximate formulations for the naive implementation of second-order attention to optimize the cubic complexity to linear complexity, such that second-order attention can be used with negligible computational overheads. We further implement our formulations in a second-order context layer and then incorporate the layer in an ANA block. Extensive experiments demonstrate that our method is effective and efficient in pruning outliers, especially in high-outlier-ratio cases. Compared with the state-of-the-art correspondence pruning approach LMCNet, our method runs 14 times faster while maintaining a competitive accuracy.
翻訳日:2023-03-29 16:12:57 公開日:2023-03-28
# 自由電子レーザーの量子状態における多光子過程と高共鳴

Multiphoton processes and higher resonances in the quantum regime of the free-electron laser ( http://arxiv.org/abs/2303.15757v1 )

ライセンス: Link先を確認
Peter Kling and Enno Giese(参考訳) 新たな放射特性を示すにもかかわらず、提案された量子自由電子レーザーの動作は、放出された光子の数が1電子当たり1個に制限されるという欠点があり、そのような装置の出力パワーは著しく低下する。 電子の初期運動量の異なる共鳴に依存すると、放出される光子の数は増加するが、同時に、外周的な実現を妨げるアンデュレータの必要長も増加する。 さらに,多光子過程が深部量子状態の力学に与える影響について検討する。

Despite exhibiting novel radiation features, the operation of the proposed quantum free-electron laser would have the drawback that the number of emitted photons is limited by one per electron, significantly reducing the output power of such a device. We show that relying on different resonances of the initial momentum of the electrons increases the number of emitted photons, but also increases the required length of the undulator impeding an experimetal realization. Moreover, we investigate how multiphoton processes influence the dynamics in the deep quantum regime.
翻訳日:2023-03-29 16:12:27 公開日:2023-03-28
# トークン勾配正規化を用いた視覚トランスフォーマの転送可能逆攻撃

Transferable Adversarial Attacks on Vision Transformers with Token Gradient Regularization ( http://arxiv.org/abs/2303.15754v1 )

ライセンス: Link先を確認
Jianping Zhang, Yizhan Huang, Weibin Wu, Michael R. Lyu(参考訳) ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。 転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。 転送ベースの攻撃の効率が高いため、ViTベースのアプリケーションにとって深刻なセキュリティ上の脅威となる。 したがって、セキュリティに敏感なシナリオにおいて、ViTの欠陥を事前に識別するために、効果的な転送ベースの攻撃を設計することが不可欠である。 既存の取り組みは一般的に、反対サンプルの更新方向を安定させるために入力勾配の規則化に重点を置いている。 しかし、ViTsの中間ブロックにおけるバックプロパゲート勾配のばらつきは依然として大きいため、生成した逆数サンプルはいくつかのモデル固有の特徴に焦点を合わせ、局所的最適度が劣る可能性がある。 既存のアプローチの欠点を克服するため,Token Gradient Regularization (TGR)法を提案する。 ViTsの構造的特性により、TGRはViTsの各内部ブロックにおけるバックプロパゲート勾配の分散をトークン的に低減し、正則化勾配を用いて反対サンプルを生成する。 ViTとCNNの両方を攻撃するための大規模な実験により、我々のアプローチの優位性が確認された。 特に、最先端の転送ベースの攻撃と比較して、私たちのTGRは平均8.8%のパフォーマンス改善を提供します。

Vision transformers (ViTs) have been successfully deployed in a variety of computer vision tasks, but they are still vulnerable to adversarial samples. Transfer-based attacks use a local model to generate adversarial samples and directly transfer them to attack a target black-box model. The high efficiency of transfer-based attacks makes it a severe security threat to ViT-based applications. Therefore, it is vital to design effective transfer-based attacks to identify the deficiencies of ViTs beforehand in security-sensitive scenarios. Existing efforts generally focus on regularizing the input gradients to stabilize the updated direction of adversarial samples. However, the variance of the back-propagated gradients in intermediate blocks of ViTs may still be large, which may make the generated adversarial samples focus on some model-specific features and get stuck in poor local optima. To overcome the shortcomings of existing approaches, we propose the Token Gradient Regularization (TGR) method. According to the structural characteristics of ViTs, TGR reduces the variance of the back-propagated gradient in each internal block of ViTs in a token-wise manner and utilizes the regularized gradient to generate adversarial samples. Extensive experiments on attacking both ViTs and CNNs confirm the superiority of our approach. Notably, compared to the state-of-the-art transfer-based attacks, our TGR offers a performance improvement of 8.8% on average.
翻訳日:2023-03-29 16:12:16 公開日:2023-03-28
# 全スライド画像分類のためのインスタンスからバッグ分類器への反復結合多重インスタンス学習

Iteratively Coupled Multiple Instance Learning from Instance to Bag Classifier for Whole Slide Image Classification ( http://arxiv.org/abs/2303.15749v1 )

ライセンス: Link先を確認
Hongyi Wang, Luyang Luo, Fang Wang, Ruofeng Tong, Yen-Wei Chen, Hongjie Hu, Lanfen Lin, and Hao Chen(参考訳) Whole Slide Image (WSI)分類は、非常に高解像度であり、きめ細かいラベルがないため、依然として課題である。 現在、WSIは通常、スライドレベルラベルのみが利用可能である場合、多重インスタンス学習(MIL)問題に分類される。 MILメソッドにはパッチの埋め込みプロセスとバッグレベルの分類プロセスが含まれるが、エンドツーエンドでトレーニングされることは違法に高価である。 したがって、既存のメソッドは通常、個別にトレーニングするか、あるいは埋め込み器のトレーニングを直接スキップする。 このようなスキームは、パッチ埋め込み者のスライドレベルラベルへのアクセスを妨げるため、MILパイプライン全体の不整合をもたらす。 この問題を解決するために,バッグレベルの分類器からパッチ埋め込み装置への損失バックプロパゲーションプロセスをブリッジするICMIL (Iteratively Coupled MIL) という新しいフレームワークを提案する。 icmilでは,バグレベル分類器のカテゴリ情報を用いてパッチ特徴抽出器のパッチレベルの微調整を行う。 洗練された埋め込み器は、より正確なバッグレベルの分類器を達成するためのより良いインスタンス表現を生成する。 パッチ埋め込み器とバッグ分類器を低コストで結合することにより、提案フレームワークは2つのプロセス間の情報交換を可能にし、MIL分類モデル全体の恩恵を受けることができる。 我々は3つの異なるバックボーンを用いて2つのデータセット上でフレームワークをテストし、実験の結果、最先端のMIL法よりも一貫した性能改善が示された。 コードは受理次第利用可能になる。

Whole Slide Image (WSI) classification remains a challenge due to their extremely high resolution and the absence of fine-grained labels. Presently, WSIs are usually classified as a Multiple Instance Learning (MIL) problem when only slide-level labels are available. MIL methods involve a patch embedding process and a bag-level classification process, but they are prohibitively expensive to be trained end-to-end. Therefore, existing methods usually train them separately, or directly skip the training of the embedder. Such schemes hinder the patch embedder's access to slide-level labels, resulting in inconsistencies within the entire MIL pipeline. To overcome this issue, we propose a novel framework called Iteratively Coupled MIL (ICMIL), which bridges the loss back-propagation process from the bag-level classifier to the patch embedder. In ICMIL, we use category information in the bag-level classifier to guide the patch-level fine-tuning of the patch feature extractor. The refined embedder then generates better instance representations for achieving a more accurate bag-level classifier. By coupling the patch embedder and bag classifier at a low cost, our proposed framework enables information exchange between the two processes, benefiting the entire MIL classification model. We tested our framework on two datasets using three different backbones, and our experimental results demonstrate consistent performance improvements over state-of-the-art MIL methods. Code will be made available upon acceptance.
翻訳日:2023-03-29 16:11:50 公開日:2023-03-28
# SVD-DIP : DIPによるCT再建におけるオーバーフィッティングの克服

SVD-DIP: Overcoming the Overfitting Problem in DIP-based CT Reconstruction ( http://arxiv.org/abs/2303.15748v1 )

ライセンス: Link先を確認
Marco Nittscher, Michael Lameter, Riccardo Barbano, Johannes Leuschner, Bangti Jin, Peter Maass(参考訳) deep image prior(dip)は、画像再構成のためのよく確立された教師なしのディープラーニング手法である。 ディップは、早期停止でなければノイズに過度に適合し、あるいは正規化された目的によって最適化される。 我々は、学習を特異値の適応に制限する新しい戦略を採用することにより、事前訓練されたDIPの規則化された微調整を構築する。 提案するsvd-dipは,事前学習パラメータが特異値分解によって分解されるアドホック畳み込み層を用いる。 このときの DIP の最適化は、左特異ベクトルと右特異ベクトルを固定しながら、特異値の微調整のみからなる。 ロータス根の実測値$\mu$ctデータと2つの医療データセット(lodopabとmayo)について,提案手法を徹底的に検証した。 オーバーフィットを克服することにより,ディップ最適化の安定性が大幅に向上した。

The deep image prior (DIP) is a well-established unsupervised deep learning method for image reconstruction; yet it is far from being flawless. The DIP overfits to noise if not early stopped, or optimized via a regularized objective. We build on the regularized fine-tuning of a pretrained DIP, by adopting a novel strategy that restricts the learning to the adaptation of singular values. The proposed SVD-DIP uses ad hoc convolutional layers whose pretrained parameters are decomposed via the singular value decomposition. Optimizing the DIP then solely consists in the fine-tuning of the singular values, while keeping the left and right singular vectors fixed. We thoroughly validate the proposed method on real-measured $\mu$CT data of a lotus root as well as two medical datasets (LoDoPaB and Mayo). We report significantly improved stability of the DIP optimization, by overcoming the overfitting to noise.
翻訳日:2023-03-29 16:11:25 公開日:2023-03-28
# 量子エミッタ鎖からのトポロジカル単一光子放出

Topological Single Photon Emission from Quantum Emitter Chains ( http://arxiv.org/abs/2303.15807v1 )

ライセンス: Link先を確認
Yubin Wang, Huawen Xu, Xinyi Deng, Timothy Liew, Sanjib Ghosh, and Qihua Xiong(参考訳) 本研究では, 雑音量子エミッタの集合体から作製した活性量子su-schrieffer-heeger鎖から, 識別不能な単一光子を生成する手法を開発した。 驚くべきことに、活性量子鎖の単一光子放出スペクトルは、単一のエミッタや位相的に自明な鎖に比べて非常に狭い。 さらに、この効果は非自明から自明な相転移点に劇的に近くなる。 この効果を用いて、長いトポロジカル量子鎖の単一光子線幅が任意に狭くなり、識別不能な単一光子の理想的な源となることを示す。 最後に、実際の量子エミッタの具体例から、このモデルの微視的・定量的解析を行い、実験的な実現の観点から最も重要なパラメータを分析する。

We develop a scheme of generating highly indistinguishable single photons from an active quantum Su-Schrieffer-Heeger chain made from a collection of noisy quantum emitters. Surprisingly, the single photon emission spectrum of the active quantum chain is extremely narrow compared to that of a single emitter or topologically trivial chain. Moreover, this effect becomes dramatically strong close to the non-trivial-to-trivial phase transition point. Using this effect, we show that the single photon linewidth of a long topological quantum chain can become arbitrarily narrow, constituting an ideal source of indistinguishable single photons. Finally, taking specific examples of actual quantum emitters, we provide a microscopic and quantitative analysis of our model and analyze the most important parameters in view of the experimental realization.
翻訳日:2023-03-29 16:04:57 公開日:2023-03-28
# StarNet:スタイル対応の3Dポイントクラウド生成

StarNet: Style-Aware 3D Point Cloud Generation ( http://arxiv.org/abs/2303.15805v1 )

ライセンス: Link先を確認
Yunfan Zhang, Hao Wang, Guosheng Lin, Vun Chan Hua Nicholas, Zhiqi Shen, Chunyan Miao(参考訳) 本稿では,3次元点雲の再構築と生成に関するオープン研究課題について検討する。 既存の3D生成モデルのほとんどの研究は、デコーダが3Dポイントクラウドを生成するための入力としてガウス先行を直接受け取っている。 GANベースのモデルのほとんどは局所的なジオメトリーの識別に失敗し、結果として物体表面に均等に分布しない点雲が生成され、点雲生成の品質が低下する。 さらに、一般的な手法では、フローベースのモデルやマルコフ連鎖といった計算集約的なフレームワークを採用しており、トレーニングフェーズでは多くの時間とリソースを必要とする。 これらの制約を解決するために,本研究では,高忠実度および3次元点群を再構成・生成可能なStarNetと,マップ付き潜時空間における入力の高次属性からガウスを効果的に切り離し,現実的な補間オブジェクトを生成することができる3次元点群を統合したスタイルアウェアネットワークアーキテクチャを提案する。 実験の結果,我々のフレームワークは,point cloudの再構築および生成タスクにおいて,さまざまな指標で同等のパフォーマンスを達成しているが,モデルサイズではより軽量であり,パラメータも少なく,モデルトレーニングに要する時間も少ないことがわかった。

This paper investigates an open research task of reconstructing and generating 3D point clouds. Most existing works of 3D generative models directly take the Gaussian prior as input for the decoder to generate 3D point clouds, which fail to learn disentangled latent codes, leading noisy interpolated results. Most of the GAN-based models fail to discriminate the local geometries, resulting in the point clouds generated not evenly distributed at the object surface, hence degrading the point cloud generation quality. Moreover, prevailing methods adopt computation-intensive frameworks, such as flow-based models and Markov chains, which take plenty of time and resources in the training phase. To resolve these limitations, this paper proposes a unified style-aware network architecture combining both point-wise distance loss and adversarial loss, StarNet which is able to reconstruct and generate high-fidelity and even 3D point clouds using a mapping network that can effectively disentangle the Gaussian prior from input's high-level attributes in the mapped latent space to generate realistic interpolated objects. Experimental results demonstrate that our framework achieves comparable state-of-the-art performance on various metrics in the point cloud reconstruction and generation tasks, but is more lightweight in model size, requires much fewer parameters and less time for model training.
翻訳日:2023-03-29 16:04:45 公開日:2023-03-28
# Aggregated Gradientsを用いた高速収束フェデレーション学習

Fast Convergence Federated Learning with Aggregated Gradients ( http://arxiv.org/abs/2303.15799v1 )

ライセンス: Link先を確認
Wenhao Yuan and Xuehe Wang(参考訳) フェデレーション・ラーニング(federated learning, fl)は、複数の分散デバイスが、プライベートデータをローカルに保護しながら、中央サーバがスケジュールした共有モデルを協調的にトレーニングできる、新しい機械学習フレームワークである。 しかし,非独立分散(Non-IID)データサンプルと参加者間の頻繁なコミュニケーションは収束率を低下させ,通信コストを増大させる。 高速収束を実現するために,各局所更新期間に集約勾配を導入することにより,従来の局所更新ルールにおける局所勾配降下アプローチを改善し,各イテレーションで局所パラメータと大域パラメータの偏差をさらに考慮した適応学習率アルゴリズムを提案する。 上記の戦略では、各ローカルイテレーションにおいて、すべてのクライアントのローカルパラメータと勾配が必要である。 したがって,各ローカル更新時においてクライアントが相互にプライベート情報を交換する必要のない平均局所パラメータと勾配を推定するために,平均場項を2つ導入することで平均場アプローチを利用する。 解析の結果,提案手法はIIDおよび非IIDデータセットのモデル精度と収束率において,最先端の手法よりも優れていることがわかった。

Federated Learning (FL) is a novel machine learning framework, which enables multiple distributed devices cooperatively training a shared model scheduled by a central server while protecting private data locally. However, the non-independent-and-identically-distributed (Non-IID) data samples and frequent communication among participants will slow down the convergent rate and increase communication costs. To achieve fast convergence, we ameliorate the local gradient descend approach in conventional local update rule by introducing the aggregated gradients at each local update epoch, and propose an adaptive learning rate algorithm that further takes the deviation of local parameter and global parameter into consideration at each iteration. The above strategy requires all clients' local parameters and gradients at each local iteration, which is challenging as there is no communication during local update epochs. Accordingly, we utilize mean field approach by introducing two mean field terms to estimate the average local parameters and gradients respectively, which does not require clients to exchange their private information with each other at each local update epoch. Numerical results show that our proposed framework is superior to the state-of-art schemes in model accuracy and convergent rate on both IID and Non-IID dataset.
翻訳日:2023-03-29 16:04:18 公開日:2023-03-28
# KERM:視覚・言語ナビゲーションのための知識強化推論

KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation ( http://arxiv.org/abs/2303.15796v1 )

ライセンス: Link先を確認
Xiangyang Li, Zihan Wang, Jiahao Yang, Yaowei Wang, Shuqiang Jiang(参考訳) VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。 以前のアプローチのほとんどは、ナビゲーション可能な候補を表現するために、機能全体またはオブジェクト中心の機能を利用する。 しかしながら、これらの表現は、エージェントがターゲット位置に到達するためのアクションを実行するのに十分な効率ではない。 本稿では,視覚的コンテンツを補完する重要な情報を提供するため,エージェントナビゲーション能力を向上させるために知識を活用する知識強化推論モデル(KERM)を提案する。 具体的には,まず,構築した知識ベースから,地域情報に基づくナビゲーションビューの事実(言語記述による知識)を検索する。 得られた事実は、単一のオブジェクト(色、形状など)の特性から、オブジェクト間の関係(アクション、空間位置など)まで、VLNにとって重要な情報を提供する。 さらに,視覚的,歴史的,命令的,事実的特徴を統合するために,精製,事実認識インタラクション,命令誘導集約モジュールを含むKERMについて述べる。 提案するkermは,重要かつ関連する手がかりを自動選択して収集し,より正確な行動予測を行うことができる。 提案手法の有効性を示すために,REVERIE,R2R,SOONデータセットの実験的検討を行った。

Vision-and-language navigation (VLN) is the task to enable an embodied agent to navigate to a remote location following the natural language instruction in real scenes. Most of the previous approaches utilize the entire features or object-centric features to represent navigable candidates. However, these representations are not efficient enough for an agent to perform actions to arrive the target location. As knowledge provides crucial information which is complementary to visible content, in this paper, we propose a Knowledge Enhanced Reasoning Model (KERM) to leverage knowledge to improve agent navigation ability. Specifically, we first retrieve facts (i.e., knowledge described by language descriptions) for the navigation views based on local regions from the constructed knowledge base. The retrieved facts range from properties of a single object (e.g., color, shape) to relationships between objects (e.g., action, spatial position), providing crucial information for VLN. We further present the KERM which contains the purification, fact-aware interaction, and instruction-guided aggregation modules to integrate visual, history, instruction, and fact features. The proposed KERM can automatically select and gather crucial and relevant cues, obtaining more accurate action prediction. Experimental results on the REVERIE, R2R, and SOON datasets demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-29 16:03:58 公開日:2023-03-28
# 1000kmのファイバー距離におけるツインフィールド量子鍵分布の実験

Experimental Twin-Field Quantum Key Distribution Over 1000 km Fiber Distance ( http://arxiv.org/abs/2303.15795v1 )

ライセンス: Link先を確認
Yang Liu, Wei-Jun Zhang, Cong Jiang, Jiu-Peng Chen, Chi Zhang, Wen-Xin Pan, Di Ma, Hao Dong, Jia-Min Xiong, Cheng-Jun Zhang, Hao Li, Rui-Chun Wang, Jun Wu, Teng-Yun Chen, Lixing You, Xiang-Bin Wang, Qiang Zhang, and Jian-Wei Pan(参考訳) qkd(quantum key distribution)は、2つのリモートパーティが共有するセキュアなプライベートキーの生成を目的とする。 セキュリティは量子力学の原理によって保護されているため、いくつかの技術課題はQKDの実用化に向けて残っている。 主なものは距離制限であり、これは光ファイバーの光子伝送距離に比例してチャネル損失が指数関数的である間に量子信号が増幅できないことに起因する。 ここでは,アクティブodd-parity-pairing法を用いた3-intensity send-or-not-sendingプロトコルを用いて,1002km以上のファイバベースのツインフィールドqkdを実演する。 実験では, システムノイズを0.02Hzに抑えるために, デュアルバンド位相推定と超低雑音超伝導ナノワイヤ単光子検出器を開発した。 安全な鍵レートは、無症状状態において1002kmの繊維を介して1パルスあたり9.53\times10^{-12}$であり、有限サイズ効果を考慮して952kmで8.75\times10^{-12}$である。 我々の研究は、将来の大規模量子ネットワークに向けた重要なステップを構成する。

Quantum key distribution (QKD) aims to generate secure private keys shared by two remote parties. With its security being protected by principles of quantum mechanics, some technology challenges remain towards practical application of QKD. The major one is the distance limit, which is caused by the fact that a quantum signal cannot be amplified while the channel loss is exponential with the distance for photon transmission in optical fiber. Here using the 3-intensity sending-or-not-sending protocol with the actively-odd-parity-pairing method, we demonstrate a fiber-based twin-field QKD over 1002 km. In our experiment, we developed a dual-band phase estimation and ultra-low noise superconducting nanowire single-photon detectors to suppress the system noise to around 0.02 Hz. The secure key rate is $9.53\times10^{-12}$ per pulse through 1002 km fiber in the asymptotic regime, and $8.75\times10^{-12}$ per pulse at 952 km considering the finite size effect. Our work constitutes a critical step towards the future large-scale quantum network.
翻訳日:2023-03-29 16:03:36 公開日:2023-03-28
# ネットを最大限に活用する: 画像のデモサイシングを改善するためのcanonicalとhardのデータセットを交互に切り替える

Make the Most Out of Your Net: Alternating Between Canonical and Hard Datasets for Improved Image Demosaicing ( http://arxiv.org/abs/2303.15792v1 )

ライセンス: Link先を確認
Yuval Becker, Raz Z. Nossek, Tomer Peleg(参考訳) 画像復調はデジタルカメラの画像処理パイプラインにおいて重要なステップであり、画像復元の分野における多くのタスクの1つである。 自然画像のよく知られた特徴は、ほとんどのパッチは滑らかであるが、テクスチャや反復パターンのような高濃度のパッチはより稀であり、長い尾の分布をもたらすことである。 この分布は、画像復元タスクや特に画像復調のための機械学習アルゴリズムをトレーニングする場合、帰納的バイアスを生じさせる。 特定の損失の活用や特別なネットワークアーキテクチャの設計など、この課題に対処するためのさまざまなアプローチがある。 私たちの仕事は、トレーニングプロトコルの観点から問題に取り組むという点でユニークなものです。 提案するトレーニング体制は,2つの重要なステップから構成される。 最初のステップは、サブカテゴリが作成され、削除プロセスを通じて洗練され、最も有用なサブカテゴリのみを保持するデータマイニングステージである。 第2のステップは、ニューラルネットワークがマイニングされたサブカテゴリとオリジナルのデータセットの両方でトレーニングされる、循環トレーニングプロセスである。 画像復調作業におけるトレーニング手法の有効性を示すため,様々な実験を行った。 本手法は,cnnやトランスフォーマーなど,さまざまなアーキテクチャサイズやタイプにおいて,標準的なトレーニングよりも優れることを示す。 さらに,従来の最先端手法と比較して,はるかに小さなニューラルネットワークで最先端の成果を得ることができる。

Image demosaicing is an important step in the image processing pipeline for digital cameras, and it is one of the many tasks within the field of image restoration. A well-known characteristic of natural images is that most patches are smooth, while high-content patches like textures or repetitive patterns are much rarer, which results in a long-tailed distribution. This distribution can create an inductive bias when training machine learning algorithms for image restoration tasks and for image demosaicing in particular. There have been many different approaches to address this challenge, such as utilizing specific losses or designing special network architectures. What makes our work is unique in that it tackles the problem from a training protocol perspective. Our proposed training regime consists of two key steps. The first step is a data-mining stage where sub-categories are created and then refined through an elimination process to only retain the most helpful sub-categories. The second step is a cyclic training process where the neural network is trained on both the mined sub-categories and the original dataset. We have conducted various experiments to demonstrate the effectiveness of our training method for the image demosaicing task. Our results show that this method outperforms standard training across a range of architecture sizes and types, including CNNs and Transformers. Moreover, we are able to achieve state-of-the-art results with a significantly smaller neural network, compared to previous state-of-the-art methods.
翻訳日:2023-03-29 16:03:15 公開日:2023-03-28
# HOICLIP:視覚言語モデルを用いたHOI検出のための効率的な知識伝達

HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models ( http://arxiv.org/abs/2303.15786v1 )

ライセンス: Link先を確認
Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He(参考訳) human-object interaction(hoi)検出は、人間とオブジェクトのペアをローカライズし、それらの相互作用を認識することを目的としている。 近年,コントラスト言語-画像事前学習 (CLIP) は,知識蒸留によるHOI検出器の操作に先立って大きな可能性を示している。 しかしながら、このようなアプローチは大規模トレーニングデータに依存することが多く、少数/ゼロショットのシナリオではパフォーマンスが劣る。 本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。 具体的には,まず,クロスアテンション機構を介してクリップの視覚特徴マップから情報領域を抽出する新しいインタラクションデコーダを導入し,より正確な人間と対象のペア検出のための知識統合ブロックによって検出バックボーンと融合する。 さらに、CLIPテキストエンコーダの事前知識を利用して、HOI記述を埋め込んで分類器を生成する。 詳細なインタラクションを識別するために,視覚的意味演算と軽量動詞表現アダプタを用いて,訓練データから動詞分類器を構築する。 さらに,CLIPのグローバルHOI予測を利用した学習自由化を提案する。 HICO-Det上の+4.04 mAPなど,様々な設定において,本手法が最先端の手法であることを示す。 ソースコードはhttps://github.com/Artanic30/HOICLIPで入手できる。

Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions. Recently, Contrastive Language-Image Pre-training (CLIP) has shown great potential in providing interaction prior for HOI detectors via knowledge distillation. However, such approaches often rely on large-scale training data and suffer from inferior performance under few/zero-shot scenarios. In this paper, we propose a novel HOI detection framework that efficiently extracts prior knowledge from CLIP and achieves better generalization. In detail, we first introduce a novel interaction decoder to extract informative regions in the visual feature map of CLIP via a cross-attention mechanism, which is then fused with the detection backbone by a knowledge integration block for more accurate human-object pair detection. In addition, prior knowledge in CLIP text encoder is leveraged to generate a classifier by embedding HOI descriptions. To distinguish fine-grained interactions, we build a verb classifier from training data via visual semantic arithmetic and a lightweight verb representation adapter. Furthermore, we propose a training-free enhancement to exploit global HOI predictions from CLIP. Extensive experiments demonstrate that our method outperforms the state of the art by a large margin on various settings, e.g. +4.04 mAP on HICO-Det. The source code is available in https://github.com/Artanic30/HOICLIP.
翻訳日:2023-03-29 16:02:50 公開日:2023-03-28
# CARTO:人工物体のカテゴリーと関節解剖学的再構成

CARTO: Category and Joint Agnostic Reconstruction of ARTiculated Objects ( http://arxiv.org/abs/2303.15782v1 )

ライセンス: Link先を確認
Nick Heppert, Muhammad Zubair Irshad, Sergey Zakharov, Katherine Liu, Rares Andrei Ambrus, Jeannette Bohg, Abhinav Valada, Thomas Kollar(参考訳) CARTO(CARTO)は,単一のステレオRGB観測から複数物体を再構成する手法である。 我々は暗黙のオブジェクト中心表現を使い、複数のオブジェクトカテゴリに対して単一の幾何学と調音デコーダを学習する。 複数カテゴリのトレーニングにもかかわらず,各カテゴリごとに別々に復号器を訓練する手法に比較して,復号器の再現精度が向上する。 ステレオ画像エンコーダと組み合わせることで, 3次元形状, 6次元ポーズ, サイズ, ジョイントタイプ, および単一フォワードパスにおける複数の未知物体のジョイント状態を推定する。 提案手法は,2段パイプラインと比較して,新しいインスタンスに対するmAP 3D IOU50を20.4%向上させる。 推論時間は高速で、NVIDIA TITAN XP GPUで8つ以下のオブジェクトを1HZで実行することができる。 シミュレーションデータのみをトレーニングしながら、CARTOは現実世界のオブジェクトインスタンスに転送する。 コードと評価データは以下の通りである。

We present CARTO, a novel approach for reconstructing multiple articulated objects from a single stereo RGB observation. We use implicit object-centric representations and learn a single geometry and articulation decoder for multiple object categories. Despite training on multiple categories, our decoder achieves a comparable reconstruction accuracy to methods that train bespoke decoders separately for each category. Combined with our stereo image encoder we infer the 3D shape, 6D pose, size, joint type, and the joint state of multiple unknown objects in a single forward pass. Our method achieves a 20.4% absolute improvement in mAP 3D IOU50 for novel instances when compared to a two-stage pipeline. Inference time is fast and can run on a NVIDIA TITAN XP GPU at 1 HZ for eight or less objects present. While only trained on simulated data, CARTO transfers to real-world object instances. Code and evaluation data is available at: http://carto.cs.uni-freiburg.de
翻訳日:2023-03-29 16:02:28 公開日:2023-03-28
# 多光子対生成における渦の再検討

Vortices in multiphoton pair production revisited ( http://arxiv.org/abs/2303.15781v1 )

ライセンス: Link先を確認
Li-Na Hu, Orkash Amat, Li Wang, Adiljan Sawut, Hong-Hao Fan and B. S. Xie(参考訳) 多光子対生成における渦はパルスの異なるサイクルの時間遅延を持つ2つの反回転場によって再燃される。 新たな知見として, サブサイクル場においては, 運動量スペクトルの顕著な渦構造は, 小さい時間遅延で生成し易いスーパーサイクルの場合に比べて大きな時間遅延によっても引き起こされることがわかった。 また、異なる周期数に対応する渦の出現に対する臨界偏極値の範囲が存在する。 2つの場の相対的な位相差は、運動量スペクトルパターンと渦の深刻な対称性の破れを引き起こすだけでなく、渦スパイラルの形状と数に大きな変化をもたらす。 数密度が大きくなるとサイクル数に敏感になり、特に小さなサイクルパルスでは1桁以上増大する一方、時間遅延が小さい場合には数倍に増大する。 これらの結果は、将来多光子対生成の実験的な観測が可能な豊富な理論的試験ベッドを提供する。 一方、粒子運動量シグネチャは真空からのレーザ場情報に対する新しいプローブとして適用可能である。

Vortices in multiphoton pair production are revisited by two counter-rotating fields with time delay for different cycles in pulse. Novel findings include that for subcycle fields, the remarkable vortex structure in the momentum spectrum can be still caused by a large time delay compared to the previous study for supercycle case where it is easier to be generated by a small time delay. And also there exist a range of critical polarization values for the vortices appearance corresponding to the different cycle number. The relative phase difference between two fields causes not only severe symmetry breaking of the momentum spectra pattern and vortex, but also a significant change for the shape and the number of vortex spiral. Upon the number density, it is found a more sensitive to the cycle number, in particularly, it is enhanced by more than one order of magnitude for small cycle pulse, while it is increased about few times when the time delay is small. These results provide an abundant theoretical testbed for the possible experimental observation on the multiphoton pair production in future. Meanwhile, it is applicable to regard the particles momentum signatures as a new probing to the laser field information with it from the vacuum.
翻訳日:2023-03-29 16:02:14 公開日:2023-03-28
# instruct 3d-to-3d: テキスト命令による3d-to-3d変換

Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion ( http://arxiv.org/abs/2303.15780v1 )

ライセンス: Link先を確認
Hiromichi Kamata, Yuiko Sakuma, Akio Hayakawa, Masato Ishii, Takuya Narihira(参考訳) 高品質な3D-to-3D変換手法であるインストラクション3D-to-3Dを提案する。 本手法は,テキストの指示に従って,与えられた3次元シーンを別のシーンに変換する新しいタスクのために設計されている。 instruct 3d-to-3dは、3d-to-3d変換に事前訓練された画像から画像への拡散モデルを適用する。 これにより、各視点画像の最大化と高品質な3D生成が可能となる。 さらに,提案手法は,ソース3Dシーンを条件として明示的に入力し,ソース3Dシーン構造がどの程度反映されているかの3D一貫性と制御性を高める。 また,形状変換の強度を調整する動的スケーリングを提案する。 定量および定性評価を行い,提案手法がベースライン法よりも高品質な3D-3D変換を実現することを示した。

We propose a high-quality 3D-to-3D conversion method, Instruct 3D-to-3D. Our method is designed for a novel task, which is to convert a given 3D scene to another scene according to text instructions. Instruct 3D-to-3D applies pretrained Image-to-Image diffusion models for 3D-to-3D conversion. This enables the likelihood maximization of each viewpoint image and high-quality 3D generation. In addition, our proposed method explicitly inputs the source 3D scene as a condition, which enhances 3D consistency and controllability of how much of the source 3D scene structure is reflected. We also propose dynamic scaling, which allows the intensity of the geometry transformation to be adjusted. We performed quantitative and qualitative evaluations and showed that our proposed method achieves higher quality 3D-to-3D conversions than baseline methods.
翻訳日:2023-03-29 16:01:57 公開日:2023-03-28
# 流体力学実験のための機械学習の変換可能性

The transformative potential of machine learning for experiments in fluid mechanics ( http://arxiv.org/abs/2303.15832v1 )

ライセンス: Link先を確認
Ricardo Vinuesa, Steven L. Brunton and Beverley J. McKeon(参考訳) 機械学習の分野は、初期のビッグデータ分野の一つである実験流体力学を含む、科学と工学の多くの分野において、急速に技術の現状を進歩させてきた。 この視点は、機械学習の進歩の恩恵を受けるための実験流体力学のいくつかの側面を強調します。 1)測定技術の忠実度と質を高めること。 2 実験設計の改善及びデジタル双対モデルのサロゲート 3)リアルタイム推定と制御を可能にする。 いずれの場合も、近年の成功談や進行中の課題について、注意点や限界とともに論じ、ML強化およびML対応実験流体力学の新しい手法の可能性について概説する。

The field of machine learning has rapidly advanced the state of the art in many fields of science and engineering, including experimental fluid dynamics, which is one of the original big-data disciplines. This perspective will highlight several aspects of experimental fluid mechanics that stand to benefit from progress advances in machine learning, including: 1) augmenting the fidelity and quality of measurement techniques, 2) improving experimental design and surrogate digital-twin models and 3) enabling real-time estimation and control. In each case, we discuss recent success stories and ongoing challenges, along with caveats and limitations, and outline the potential for new avenues of ML-augmented and ML-enabled experimental fluid mechanics.
翻訳日:2023-03-29 15:56:23 公開日:2023-03-28
# PDExplain: 野生におけるPDEのコンテキストモデリング

PDExplain: Contextual Modeling of PDEs in the Wild ( http://arxiv.org/abs/2303.15827v1 )

ライセンス: Link先を確認
Ori Linial, Orly Avner, Dotan Di Castro(参考訳) PDExplainと呼ばれる文脈的スキームを用いて部分微分方程式の解法を提案する。 訓練段階では,操作者が定義したpsdファミリーから収集したデータに,このファミリーの一般的な形式を伴って供給される。 推論段階では、現象から収集された最小限のサンプルが設けられ、このサンプルはPDEファミリーと関係があるが、トレーニングフェーズで見られる特定のPDEのセットには必ずしも関連しない。 アルゴリズムがpdeソリューションを将来の時間ステップで予測する方法を示す。 さらに,本手法は物理科学におけるデータに基づく現象のモデル化を支援する特性であるPDEの説明可能な形式を提供する。 提案手法を検証するために,予測誤差と説明可能性の両方の観点から,その品質を検証した。

We propose an explainable method for solving Partial Differential Equations by using a contextual scheme called PDExplain. During the training phase, our method is fed with data collected from an operator-defined family of PDEs accompanied by the general form of this family. In the inference phase, a minimal sample collected from a phenomenon is provided, where the sample is related to the PDE family but not necessarily to the set of specific PDEs seen in the training phase. We show how our algorithm can predict the PDE solution for future timesteps. Moreover, our method provides an explainable form of the PDE, a trait that can assist in modelling phenomena based on data in physical sciences. To verify our method, we conduct extensive experimentation, examining its quality both in terms of prediction error and explainability.
翻訳日:2023-03-29 15:56:10 公開日:2023-03-28
# MS-MT:クロスモーダル前庭腺腫とコクリーセグメンテーションに対するコントラストアンペア翻訳を用いたマルチスケール平均教師

MS-MT: Multi-Scale Mean Teacher with Contrastive Unpaired Translation for Cross-Modality Vestibular Schwannoma and Cochlea Segmentation ( http://arxiv.org/abs/2303.15826v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Kaixin Xu, Huai Zhe Yeo, Xulei Yang, and Cuntai Guan(参考訳) 領域シフトは、医用画像セグメンテーションの長年の問題である。 近年,unsupervised domain adaptation (uda)法がラベルのない対象領域にラベルリッチなソースドメインから知識を蒸留することで,相互モダリティセグメント化性能を期待できる。 本研究では,高分解能T2画像上の2つの主要な脳構造,すなわちVestibular Schwannoma(VS)とCochleaの自動セグメンテーションのための,マルチスケールの自己組織化に基づくUDAフレームワークを提案する。 まず、セグメンテーションエンハンスドコントラストアンペア画像変換モジュールを、ソースt1からターゲットt2への画像レベル領域適応のために設計する。 次に,自己感覚学習のための平均的教師ネットワークに,マルチスケールの深い監督と一貫性の正規化を導入し,さらにドメインギャップを縮める。 さらに、ラベルの不足を軽減し、モダリティのセグメンテーション性能を高めるために、自己学習および強度増強技術を利用する。 提案手法は,CrossMoDA 2022チャレンジの検証段階において,平均Diceスコア83.8%,81.4%,VSとCochleaの平均非対称表面距離0.55mm,0.26mmで有望なセグメンテーション性能を示す。

Domain shift has been a long-standing issue for medical image segmentation. Recently, unsupervised domain adaptation (UDA) methods have achieved promising cross-modality segmentation performance by distilling knowledge from a label-rich source domain to a target domain without labels. In this work, we propose a multi-scale self-ensembling based UDA framework for automatic segmentation of two key brain structures i.e., Vestibular Schwannoma (VS) and Cochlea on high-resolution T2 images. First, a segmentation-enhanced contrastive unpaired image translation module is designed for image-level domain adaptation from source T1 to target T2. Next, multi-scale deep supervision and consistency regularization are introduced to a mean teacher network for self-ensemble learning to further close the domain gap. Furthermore, self-training and intensity augmentation techniques are utilized to mitigate label scarcity and boost cross-modality segmentation performance. Our method demonstrates promising segmentation performance with a mean Dice score of 83.8% and 81.4% and an average asymmetric surface distance (ASSD) of 0.55 mm and 0.26 mm for the VS and Cochlea, respectively in the validation phase of the crossMoDA 2022 challenge.
翻訳日:2023-03-29 15:55:57 公開日:2023-03-28
# レーザーウェイクフィールド加速器のパレート最適化

Pareto Optimization of a Laser Wakefield Accelerator ( http://arxiv.org/abs/2303.15825v1 )

ライセンス: Link先を確認
F. Irshad, C. Eberle, F.M. Foerster, K. v. Grafenstein, F. Haberstroh, E. Travac, N. Weisse, S. Karsch, and A. D\"opp(参考訳) アクセル性能パラメータの最適化は多くのトレードオフによって制限され、未知のシステムの最適化目標間の適切なバランスを見つけるのは困難である。 ここでは、多目的ベイズ最適化がレーザーウェイクフィールド加速器の解空間を非常に効率的な方法でマッピングできることを示す。 ガウス混合モデルを用いて、特定のエネルギーで電子束に関連する寄与を分離し、同様のレーザー-ビーム効率でビームエネルギーと電荷を交換するパレート最適解が存在することを観察する。 しかし、光源のような多くの応用は特定の目標エネルギーで粒子ビームを必要とする。 このような制約が導入されたら、エネルギー拡散と加速器効率の直接的なトレードオフを観察する。 さらに,目的のスキャラライゼーションを用いて,特定の解をどのように活用できるかを実証し,探索と利用フェーズを効率的に分割する。

Optimization of accelerator performance parameters is limited by numerous trade-offs and finding the appropriate balance between optimization goals for an unknown system is challenging to achieve. Here we show that multi-objective Bayesian optimization can map the solution space of a laser wakefield accelerator in a very sample-efficient way. Using a Gaussian mixture model, we isolate contributions related to an electron bunch at a certain energy and we observe that there exists a wide range of Pareto-optimal solutions that trade beam energy versus charge at similar laser-to-beam efficiency. However, many applications such as light sources require particle beams at a certain target energy. Once such a constraint is introduced we observe a direct trade-off between energy spread and accelerator efficiency. We furthermore demonstrate how specific solutions can be exploited using \emph{a posteriori} scalarization of the objectives, thereby efficiently splitting the exploration and exploitation phases.
翻訳日:2023-03-29 15:55:29 公開日:2023-03-28
# 野生生物の自動画像分類:生態学応用のためのアクティブラーニングツール

Automated wildlife image classification: An active learning tool for ecological applications ( http://arxiv.org/abs/2303.15823v1 )

ライセンス: Link先を確認
Ludwig Bothmann, Lisa Wimmer, Omid Charrakh, Tobias Weber, Hendrik Edelhoff, Wibke Peters, Hien Nguyen, Caryl Benjamin, Annette Menzel(参考訳) 野生生物のカメラトラップ画像は、動物の存在、生息地の関連、行動を調べるために広く使われており、専門家がまず手動で分類しなければならないという事実によって複雑である。 人工知能システムは、このタスクを引き継ぐことができるが、通常は十分なパフォーマンスを達成するために、既にラベル付けされた多数のトレーニングイメージを必要とする。 この要件は、人間の専門家の労力を必要とし、カメラや短い期間のプロジェクトにとって特別な課題となる。 本研究では,中小規模の画像データベースを用いた研究者が現代の機械学習の可能性を活用できるようなラベル効率の高い学習戦略を提案する。 提案手法は,(1)物体検出と画像分類を両モデルのハイパーパラメータの調整により組み合わせる現在の戦略を改善する。 2)人間ラベルトレーニング画像を用いて,ディープラーニングモデルのトレーニングを極めて効率的に行うことができるアクティブラーニング(al)システムを提供する。 我々は,これらの手法を直接利用して,提案手法が生態学的実践において広く適用可能であることを保証するソフトウェアパッケージを提供する。 チューニング戦略が予測性能を向上させることを示す。 我々は、ALパイプラインが特定の予測性能を達成するのに必要なラベル付きデータの量を減らし、特にサンプル外予測性能を改善する上で価値があることを実証する。 チューニングとalの組み合わせは予測性能を大幅に向上させると結論づけた。 さらに、当社の作業は、提供済みのソフトウェアパッケージを通じて、コミュニティに幅広い影響を及ぼす可能性があると論じています。 最後に、欧州の野生動物データに合わせたモデルを公開することで、アフリカと北米のデータに基づいてトレーニングされた既存のモデルベースを豊かにします。

Wildlife camera trap images are being used extensively to investigate animal abundance, habitat associations, and behavior, which is complicated by the fact that experts must first classify the images manually. Artificial intelligence systems can take over this task but usually need a large number of already-labeled training images to achieve sufficient performance. This requirement necessitates human expert labor and poses a particular challenge for projects with few cameras or short durations. We propose a label-efficient learning strategy that enables researchers with small or medium-sized image databases to leverage the potential of modern machine learning, thus freeing crucial resources for subsequent analyses. Our methodological proposal is two-fold: (1) We improve current strategies of combining object detection and image classification by tuning the hyperparameters of both models. (2) We provide an active learning (AL) system that allows training deep learning models very efficiently in terms of required human-labeled training images. We supply a software package that enables researchers to use these methods directly and thereby ensure the broad applicability of the proposed framework in ecological practice. We show that our tuning strategy improves predictive performance. We demonstrate how the AL pipeline reduces the amount of pre-labeled data needed to achieve a specific predictive performance and that it is especially valuable for improving out-of-sample predictive performance. We conclude that the combination of tuning and AL increases predictive performance substantially. Furthermore, we argue that our work can broadly impact the community through the ready-to-use software package provided. Finally, the publication of our models tailored to European wildlife data enriches existing model bases mostly trained on data from Africa and North America.
翻訳日:2023-03-29 15:55:16 公開日:2023-03-28
# すべてのプログラミング言語のアダプタは? コード検索と要約のためのアダプタチューニング

One Adapter for All Programming Languages? Adapter Tuning for Code Search and Summarization ( http://arxiv.org/abs/2303.15822v1 )

ライセンス: Link先を確認
Deze Wang, Boxing Chen, Shanshan Li, Wei Luo, Shaoliang Peng, Wei Dong, Xiangke Liao(参考訳) 事前訓練されたモデルが多くのコードインテリジェンスタスクを自動化するため、広く使われているパラダイムは、各プログラミング言語のタスクデータセットにモデルを微調整することである。 最近の研究では、多言語微調整は様々なタスクやモデルに役立つと報告されている。 しかし,最近のUniXcoderやCodeT5では,多言語微調整により性能が低下している。 多言語モデルにおける致命的な忘れの問題を軽減するため、事前訓練されたモデルパラメータを全て修正し、パラメータ効率の高い構造アダプタを挿入し、微調整する。 各プログラミング言語のフルモデルファインチューニングと比較して、全体的なパラメータの0.6\%だけを更新すると、アダプタチューニングはコード検索と要約タスクを一貫した改善をもたらし、最先端の結果を達成する。 さらに,言語間および低リソースシナリオにおいて,その効果を実験的に示す。 プログラム言語毎の200サンプルによる多言語微調整は、コード要約に関するデータセット全体を微調整した結果にアプローチする。 3つの探索課題に関する実験により、アダプタチューニングはフルモデルの微調整を著しく上回り、破滅的な忘れを効果的に克服することを示した。

As pre-trained models automate many code intelligence tasks, a widely used paradigm is to fine-tune a model on the task dataset for each programming language. A recent study reported that multilingual fine-tuning benefits a range of tasks and models. However, we find that multilingual fine-tuning leads to performance degradation on recent models UniXcoder and CodeT5. To alleviate the potentially catastrophic forgetting issue in multilingual models, we fix all pre-trained model parameters, insert the parameter-efficient structure adapter, and fine-tune it. Updating only 0.6\% of the overall parameters compared to full-model fine-tuning for each programming language, adapter tuning yields consistent improvements on code search and summarization tasks, achieving state-of-the-art results. In addition, we experimentally show its effectiveness in cross-lingual and low-resource scenarios. Multilingual fine-tuning with 200 samples per programming language approaches the results fine-tuned with the entire dataset on code summarization. Our experiments on three probing tasks show that adapter tuning significantly outperforms full-model fine-tuning and effectively overcomes catastrophic forgetting.
翻訳日:2023-03-29 15:54:52 公開日:2023-03-28
# 空間離散化に基づく進化探索による多目的セキュリティゲームのスケーリング

Scaling Multi-Objective Security Games Provably via Space Discretization Based Evolutionary Search ( http://arxiv.org/abs/2303.15821v1 )

ライセンス: Link先を確認
Yu-Peng Wu, Hong Qian, Rong-Jun Qin, Yi Chen, Aimin Zhou(参考訳) セキュリティの分野では、マルチオブジェクトセキュリティゲーム(MOSG)により、ディフェンダーは複数の異種攻撃者からターゲットを同時に保護することができる。 MOSGは、不均一な攻撃者をマージすることなく、生命、金、犯罪率などの不均一な支払いを同時に最大化する。 現実のシナリオでは、保護される異種攻撃者や標的の数は、既存の最先端手法の能力を超え、すなわち、MOSGはスケーラビリティの問題によって制限される。 そこで本稿では,MOSGを大規模ターゲットや異種攻撃にスケールアップする多目的進化探索に基づくSDESと呼ばれる汎用フレームワークを提案する。 SDESは4つのキーコンポーネント、すなわち、離散化、最適化、復元と評価、改良で構成されている。 具体的には、SDES はゲーム理論における最大差分性により、元々の高次元連続解空間を低次元離散空間に初めて離散化する。 この性質は、進化アルゴリズム(EA)が高次元ステップ関数をバイパスし、よく収束したパレートフロントを確保するのに役立つ。 次に、多目的EAを用いて低次元離散解空間の最適化を行い、よく空間化されたパレートフロントを得る。 解を評価するために、SDESは、新しい解の発散をビットワイズで最適化することで、解を元の空間に戻す。 最後に、SDESの改良により、最適化性能が許容コストで向上する。 理論的には、SDESの最適化一貫性と収束性を証明する。 実験結果から,SDESは大規模攻撃者および標的双方にとって初めての線形時間MOSGアルゴリズムであることがわかった。 SDESは最大で20人の攻撃者、100人のMOSG問題の解決が可能で、最先端の手法では最大8人の攻撃者、25人の攻撃者しか解決できない。 アブレーション研究はSDESにおける全てのコンポーネントの必要性を検証する。

In the field of security, multi-objective security games (MOSGs) allow defenders to simultaneously protect targets from multiple heterogeneous attackers. MOSGs aim to simultaneously maximize all the heterogeneous payoffs, e.g., life, money, and crime rate, without merging heterogeneous attackers. In real-world scenarios, the number of heterogeneous attackers and targets to be protected may exceed the capability of most existing state-of-the-art methods, i.e., MOSGs are limited by the issue of scalability. To this end, this paper proposes a general framework called SDES based on many-objective evolutionary search to scale up MOSGs to large-scale targets and heterogeneous attackers. SDES consists of four consecutive key components, i.e., discretization, optimization, restoration and evaluation, and refinement. Specifically, SDES first discretizes the originally high-dimensional continuous solution space to the low-dimensional discrete one by the maximal indifference property in game theory. This property helps evolutionary algorithms (EAs) bypass the high-dimensional step function and ensure a well-convergent Pareto front. Then, a many-objective EA is used for optimization in the low-dimensional discrete solution space to obtain a well-spaced Pareto front. To evaluate solutions, SDES restores solutions back to the original space via bit-wisely optimizing a novel solution divergence. Finally, the refinement in SDES boosts the optimization performance with acceptable cost. Theoretically, we prove the optimization consistency and convergence of SDES. Experiment results show that SDES is the first linear-time MOSG algorithm for both large-scale attackers and targets. SDES is able to solve up to 20 attackers and 100 targets MOSG problems, while the state-of-the-art methods can only solve up to 8 attackers and 25 targets ones. Ablation study verifies the necessity of all components in SDES.
翻訳日:2023-03-29 15:54:34 公開日:2023-03-28
# 顔の認識に有効な3次元テクスチャメッシュの実現に向けて

Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition ( http://arxiv.org/abs/2303.15818v1 )

ライセンス: Link先を確認
Xiao Yang, Chang Liu, Longlong Xu, Yikai Wang, Yinpeng Dong, Ning Chen, Hang Su, Jun Zhu(参考訳) 顔認識は多くの生体認証アプリケーションにおいて一般的な認証ソリューションである。 物理的敵対攻撃は、重要な代理として、顔認識システムの弱点を特定し、展開前にその堅牢性を評価することができる。 しかし、既存の物理的攻撃の多くは、容易に検出できるか、商業的な認識システムに対して効果的ではない。 この研究の目標は、商用システムにおける敵対的ロバストネスをエンドツーエンドで評価できる、より信頼性の高い技術を開発することである。 この技術は、ブラックボックス認識モデルと防御機構を同時に欺くことができる。 これを実現するために,人間の顔に精巧なトポロジーを施した3Dメッシュ(AT3D)を設計し,攻撃者の顔に3Dプリント&ペーストして防御を回避した。 しかし、メッシュベースの最適化方式は、高次元メッシュ空間の勾配を計算し、不満足な転送性で局所最適に閉じ込めることができる。 メッシュをベースとした空間から逸脱するために,3次元Morphable Modelに基づく低次元係数空間の摂動を提案し,より高速な探索効率と視覚的品質を享受しながら,ブラックボックス転送性を大幅に向上させる。 3つの認識API,4つのアンチ・スプーフィングAPI,2つの携帯電話と2つの自動アクセス制御システムを含む,一般的な商用サービスのセキュリティ脆弱性を効果的に調査することを示す。

Face recognition is a prevailing authentication solution in numerous biometric applications. Physical adversarial attacks, as an important surrogate, can identify the weaknesses of face recognition systems and evaluate their robustness before deployed. However, most existing physical attacks are either detectable readily or ineffective against commercial recognition systems. The goal of this work is to develop a more reliable technique that can carry out an end-to-end evaluation of adversarial robustness for commercial systems. It requires that this technique can simultaneously deceive black-box recognition models and evade defensive mechanisms. To fulfill this, we design adversarial textured 3D meshes (AT3D) with an elaborate topology on a human face, which can be 3D-printed and pasted on the attacker's face to evade the defenses. However, the mesh-based optimization regime calculates gradients in high-dimensional mesh space, and can be trapped into local optima with unsatisfactory transferability. To deviate from the mesh-based space, we propose to perturb the low-dimensional coefficient space based on 3D Morphable Model, which significantly improves black-box transferability meanwhile enjoying faster search efficiency and better visual quality. Extensive experiments in digital and physical scenarios show that our method effectively explores the security vulnerabilities of multiple popular commercial services, including three recognition APIs, four anti-spoofing APIs, two prevailing mobile phones and two automated access control systems.
翻訳日:2023-03-29 15:54:03 公開日:2023-03-28
# OODアクションのないオフラインRL:暗黙の値規則化によるサンプル内学習

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization ( http://arxiv.org/abs/2303.15810v1 )

ライセンス: Link先を確認
Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor Wai Kin Chan, Xianyuan Zhan(参考訳) ほとんどのオフライン強化学習(RL)手法は、行動ポリシーを超越する政策の改善と、行動ポリシーからの逸脱を制限する政策の制約のトレードオフに悩まされる。 最近提案された \textit{in-sample learning}パラダイム(すなわち、iql)は、データサンプルのみを使用して回帰を定量化することで、ポリシーを改善する。 しかし,この手法が値関数の学習における分布シフトをどのように扱うかは,まだ不明である。 本研究では,インサンプル学習パラダイムが<textit{Implicit Value Regularization} (IVR) フレームワークの下で発生することを明らかにする。 このことは、なぜサンプル内学習パラダイムが機能するのか、すなわち、政策に暗黙の値正規化を適用するのかを深く理解する。 IVRフレームワークをベースとして,既存の作業で使用されているのと同じ値正規化を採用したSparse $Q$-learning (SQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。 IQLと比較すると、私たちのアルゴリズムはバリュー関数の学習に疎結合を導入し、ノイズの多いデータ構造においてより堅牢になる。 また、D4RLベンチマークデータセットにおけるSQLとEQLの有効性を検証するとともに、小さなデータ構造におけるCQLと比較することで、サンプル内学習のメリットを示す。

Most offline reinforcement learning (RL) methods suffer from the trade-off between improving the policy to surpass the behavior policy and constraining the policy to limit the deviation from the behavior policy as computing $Q$-values using out-of-distribution (OOD) actions will suffer from errors due to distributional shift. The recently proposed \textit{In-sample Learning} paradigm (i.e., IQL), which improves the policy by quantile regression using only data samples, shows great promise because it learns an optimal policy without querying the value function of any unseen actions. However, it remains unclear how this type of method handles the distributional shift in learning the value function. In this work, we make a key finding that the in-sample learning paradigm arises under the \textit{Implicit Value Regularization} (IVR) framework. This gives a deeper understanding of why the in-sample learning paradigm works, i.e., it applies implicit value regularization to the policy. Based on the IVR framework, we further propose two practical algorithms, Sparse $Q$-learning (SQL) and Exponential $Q$-learning (EQL), which adopt the same value regularization used in existing works, but in a complete in-sample manner. Compared with IQL, we find that our algorithms introduce sparsity in learning the value function, making them more robust in noisy data regimes. We also verify the effectiveness of SQL and EQL on D4RL benchmark datasets and show the benefits of in-sample learning by comparing them with CQL in small data regimes.
翻訳日:2023-03-29 15:53:39 公開日:2023-03-28
# カーネル補間は貧弱を一般化する

Kernel interpolation generalizes poorly ( http://arxiv.org/abs/2303.15809v1 )

ライセンス: Link先を確認
Yicheng Li, Haobo Zhang and Qian Lin(参考訳) カーネルレグレッションにおける最近の研究のルネサンスにおける最も興味深い問題の1つは、ディープネットワークの文献で報告されている「良性過剰なヘノメノン」を理解するのに役立つので、カーネル補間がうまく一般化できるかどうかである。 本稿では、穏やかな条件下では、任意の$\varepsilon>0$に対して、カーネル補間一般化誤差が$\Omega(n^{-\varepsilon})$で下界であることが示される。 言い換えると、カーネル補間は、大きなクラスのカーネルに対して不十分に一般化する。 直系系として,球面上に定義された広帯域ニューラルネットワークの一般化が不十分であることを示すことができる。

One of the most interesting problems in the recent renaissance of the studies in kernel regression might be whether the kernel interpolation can generalize well, since it may help us understand the `benign overfitting henomenon' reported in the literature on deep networks. In this paper, under mild conditions, we show that for any $\varepsilon>0$, the generalization error of kernel interpolation is lower bounded by $\Omega(n^{-\varepsilon})$. In other words, the kernel interpolation generalizes poorly for a large class of kernels. As a direct corollary, we can show that overfitted wide neural networks defined on sphere generalize poorly.
翻訳日:2023-03-29 15:53:07 公開日:2023-03-28
# プライマリケアフリーテキストオランダ医学ノートを用いた肺癌予測のためのソフトプロパントチューニング

Soft-prompt tuning to predict lung cancer using primary care free-text Dutch medical notes ( http://arxiv.org/abs/2303.15846v1 )

ライセンス: Link先を確認
Auke Elfrink, Iacopo Vagliano, Ameen Abu-Hanna, Iacer Calixto(参考訳) オランダのプライマリケア医のフリーテキスト患者医療ノートを用いて,早期肺癌の予測問題に対する文脈的表現に基づく異なる自然言語処理(NLP)アプローチについて検討した。 肺癌はプライマリケアの頻度が低いため,高度不均衡クラスにおける分類の問題にも対処する。 具体的には, 大規模トランスフォーマー型事前学習言語モデル (plms) を用いて検討を行う。 1) <textit{soft prompt-tuning} -- PLMを少量のトレーニングデータで適用するためのNLPテクニック -- は、標準モデルの微調整と比較する。 2) 単純な静的単語埋め込みモデル(WEM)が、高度に不均衡な環境でのPLMよりも堅牢であるかどうか。 3)少数の患者から音符を習う際にどのようなモデルをとるか。 私たちはそれを見つけ 1)ソフトプロンプトチューニングは,標準モデルの微調整に代わる効率的な方法である。 2) PLMは, 分類問題がより不均衡になるにつれて, 単純な静的単語埋め込みモデルと比較して, 識別性が向上するが, キャリブレーションが悪くなる。 3) 少数の患者のトレーニングモデルが混合され, PLMとWEMの明確な相違は認められなかった。 すべてのコードは、 \url{https://bitbucket.org/aumc-kik/prompt_tuning_cancer_prediction/}で公開されている。

We investigate different natural language processing (NLP) approaches based on contextualised word representations for the problem of early prediction of lung cancer using free-text patient medical notes of Dutch primary care physicians. Because lung cancer has a low prevalence in primary care, we also address the problem of classification under highly imbalanced classes. Specifically, we use large Transformer-based pretrained language models (PLMs) and investigate: 1) how \textit{soft prompt-tuning} -- an NLP technique used to adapt PLMs using small amounts of training data -- compares to standard model fine-tuning; 2) whether simpler static word embedding models (WEMs) can be more robust compared to PLMs in highly imbalanced settings; and 3) how models fare when trained on notes from a small number of patients. We find that 1) soft-prompt tuning is an efficient alternative to standard model fine-tuning; 2) PLMs show better discrimination but worse calibration compared to simpler static word embedding models as the classification problem becomes more imbalanced; and 3) results when training models on small number of patients are mixed and show no clear differences between PLMs and WEMs. All our code is available open source in \url{https://bitbucket.org/aumc-kik/prompt_tuning_cancer_prediction/}.
翻訳日:2023-03-29 15:46:33 公開日:2023-03-28
# 条件付き生成モデルはおそらくロバストである:ベイズ逆問題に対するポイントワイズ保証

Conditional Generative Models are Provably Robust: Pointwise Guarantees for Bayesian Inverse Problems ( http://arxiv.org/abs/2303.15845v1 )

ライセンス: Link先を確認
Fabian Altekr\"uger, Paul Hagemann, Gabriele Steidl(参考訳) 条件生成モデルはベイズ逆問題後部から非常に強力なツールとなった。 古典ベイズ文学では、後方測度は、観測の摂動を含む先行測度と負の対数類似度の両方の摂動に関して非常に頑健であることが知られている。 しかしながら、我々の知る限りでは、観測の摂動に関して条件付き生成モデルのロバスト性は未だ調査されていない。 本稿では,適切な条件付き生成モデルが単一観測に対して堅牢な結果をもたらすことを初めて証明する。

Conditional generative models became a very powerful tool to sample from Bayesian inverse problem posteriors. It is well-known in classical Bayesian literature that posterior measures are quite robust with respect to perturbations of both the prior measure and the negative log-likelihood, which includes perturbations of the observations. However, to the best of our knowledge, the robustness of conditional generative models with respect to perturbations of the observations has not been investigated yet. In this paper, we prove for the first time that appropriately learned conditional generative models provide robust results for single observations.
翻訳日:2023-03-29 15:46:14 公開日:2023-03-28
# CREATED:予測プロセス分析のための有効な逆配列の生成

CREATED: Generating Viable Counterfactual Sequences for Predictive Process Analytics ( http://arxiv.org/abs/2303.15844v1 )

ライセンス: Link先を確認
Olusanmi Hundogan, Xixi Lu, Yupei Du and Hajo A. Reijers(参考訳) 予測プロセス分析は、プロセスインスタンスの実行結果など、将来の状態を予測することに焦点を当てる。 これらの技術は機械学習モデルや深層学習モデル(LSTMなど)を使って予測を行うことが多い。 しかし、これらの深いモデルはユーザーが理解するのが複雑で難しい。 カウンターファクトリーは、予測の背後にある推論を理解するために使われる「What-if'」質問に答える。 例えば、顧客にメールする代わりに、顧客が呼ばれるとしたらどうだろう? この代替案は異なる結果をもたらすだろうか? 現在の偽りのシーケンスを生成する方法は、プロセスの振舞いを考慮せず、無効または実現不可能な偽りのプロセスインスタンスを生成するか、ドメインの知識に大きく依存する。 本研究では,進化的手法を用いて反事実列を生成する汎用フレームワークを提案する。 我々のフレームワークはドメインの知識を必要としない。 代わりに,生成した反事実列の実現可能性を計算するためにマルコフモデルを訓練し,他の3つの指標(結果予測のデルタ,類似性,スパーシティ)を適応させ,全体の生存性を確保する。 評価の結果,本手法は実効的対位法,生存性におけるベースライン法よりも優れており,ドメイン知識を必要とする最先端の手法と比較しても同様の結果が得られた。

Predictive process analytics focuses on predicting future states, such as the outcome of running process instances. These techniques often use machine learning models or deep learning models (such as LSTM) to make such predictions. However, these deep models are complex and difficult for users to understand. Counterfactuals answer ``what-if'' questions, which are used to understand the reasoning behind the predictions. For example, what if instead of emailing customers, customers are being called? Would this alternative lead to a different outcome? Current methods to generate counterfactual sequences either do not take the process behavior into account, leading to generating invalid or infeasible counterfactual process instances, or heavily rely on domain knowledge. In this work, we propose a general framework that uses evolutionary methods to generate counterfactual sequences. Our framework does not require domain knowledge. Instead, we propose to train a Markov model to compute the feasibility of generated counterfactual sequences and adapt three other measures (delta in outcome prediction, similarity, and sparsity) to ensure their overall viability. The evaluation shows that we generate viable counterfactual sequences, outperform baseline methods in viability, and yield similar results when compared to the state-of-the-art method that requires domain knowledge.
翻訳日:2023-03-29 15:46:04 公開日:2023-03-28
# ブロックチェーン型医療システムにおけるセキュリティ・レイテンシ・計算コストのモデリングと共同最適化

Modeling and Joint Optimization of Security, Latency, and Computational Cost in Blockchain-based Healthcare Systems ( http://arxiv.org/abs/2303.15842v1 )

ライセンス: Link先を確認
Zukai Li, Wei Tian, Jingjin Wu(参考訳) IoT(Internet of Things)の時代において、ブロックチェーンは、IoTデバイスによって収集されたリアルタイムヘルスデータのセキュアなストレージ、管理、共有を可能にするため、医療システムの効率を改善するための有望な技術である。 ブロックチェーンベースの医療システムの実装は、通常、複数の競合するメトリクスを含むため、特定のシナリオの要求に応じてそれらのバランスをとることが不可欠である。 本稿では,IoT対応医療において特に重要な,レイテンシ,セキュリティ,計算コストの3つの指標を用いた共同最適化モデルを定式化する。 しかしながら、実用規模のシステムにおけるこの問題の厳密な最適解を特定することは計算上は難解である。 そこで本研究では,適応離散粒子群アルゴリズム(adpsa)と呼ばれるアルゴリズムを提案する。 古典的なパーティクルスワーム最適化(PSO)アルゴリズムのルーツにより,提案したADPSAは定式化における多数のバイナリ変数と整数変数を効果的に管理できる。 我々は、ADPSAが従来のPSO、網羅的な検索、シミュレートされたアナリングなど、様々なシナリオにおいて、既存のベンチマーク手法よりも一貫して優れていることを示す。

In the era of the Internet of Things (IoT), blockchain is a promising technology for improving the efficiency of healthcare systems, as it enables secure storage, management, and sharing of real-time health data collected by the IoT devices. As the implementations of blockchain-based healthcare systems usually involve multiple conflicting metrics, it is essential to balance them according to the requirements of specific scenarios. In this paper, we formulate a joint optimization model with three metrics, namely latency, security, and computational cost, that are particularly important for IoT-enabled healthcare. However, it is computationally intractable to identify the exact optimal solution of this problem for practical sized systems. Thus, we propose an algorithm called the Adaptive Discrete Particle Swarm Algorithm (ADPSA) to obtain near-optimal solutions in a low-complexity manner. With its roots in the classical Particle Swarm Optimization (PSO) algorithm, our proposed ADPSA can effectively manage the numerous binary and integer variables in the formulation. We demonstrate by extensive numerical experiments that the ADPSA consistently outperforms existing benchmark approaches, including the original PSO, exhaustive search and Simulated Annealing, in a wide range of scenarios.
翻訳日:2023-03-29 15:45:43 公開日:2023-03-28
# Ethereumのマネーロンダリングには伝統があるのか?

Does Money Laundering on Ethereum Have Traditional Traits? ( http://arxiv.org/abs/2303.15841v1 )

ライセンス: Link先を確認
Qishuang Fu, Dan Lin, Yiyue Cao, Jiajing Wu(参考訳) スマートコントラクトをサポートする最大のブロックチェーンプラットフォームであるEthereumは、信じられないスピードで開発されている。 しかし、ブロックチェーンの匿名性のため、ethereumの人気は、不正な資金から現金への転換によって、さまざまな違法な活動や資金洗浄の出現を促している。 従来のマネーロンダリングのシナリオでは、研究者はマネーロンダリングの一般的な特徴を明らかにした。 しかし、Ethereumのマネーロンダリングは新たな手段であるため、Ethereumのマネーロンダリングについてはほとんど知られていない。 このギャップを埋めるために、本稿では、textit{Upbit Exchange}上の代表的なセキュリティイベントのレンズを通してEthereumマネーロンダリングネットワークの詳細な研究を行い、Ethereum上でのマネーロンダリングが従来の特徴を持つかどうかを調査する。 具体的には,<textit{Upbit Hack} のトランザクションレコードをクロールすることで,Ethereum 上でマネーロンダリングネットワークを構築する。 次に,従来のマネーロンダリングネットワークの特徴に基づく5つの質問を提示する。 ネットワーク分析を活用することで、ethereumのマネーロンダリングネットワークを特徴付け、これらの質問に答える。 最終的に、Ethereum上でのマネーロンダリングネットワークの発見を要約し、Ethereum上でのマネーロンダリング検出の基礎を築いた。

As the largest blockchain platform that supports smart contracts, Ethereum has developed with an incredible speed. Yet due to the anonymity of blockchain, the popularity of Ethereum has fostered the emergence of various illegal activities and money laundering by converting ill-gotten funds to cash. In the traditional money laundering scenario, researchers have uncovered the prevalent traits of money laundering. However, since money laundering on Ethereum is an emerging means, little is known about money laundering on Ethereum. To fill the gap, in this paper, we conduct an in-depth study on Ethereum money laundering networks through the lens of a representative security event on \textit{Upbit Exchange} to explore whether money laundering on Ethereum has traditional traits. Specifically, we construct a money laundering network on Ethereum by crawling the transaction records of \textit{Upbit Hack}. Then, we present five questions based on the traditional traits of money laundering networks. By leveraging network analysis, we characterize the money laundering network on Ethereum and answer these questions. In the end, we summarize the findings of money laundering networks on Ethereum, which lay the groundwork for money laundering detection on Ethereum.
翻訳日:2023-03-29 15:45:21 公開日:2023-03-28
# 深度補修のための多視点監視蒸留法

Multi-view Improved Monitored Distillation for Depth Completion ( http://arxiv.org/abs/2303.15840v1 )

ライセンス: Link先を確認
Jia-Wei Guo, Cong Li, Sen-Hua Zhu, Chang-Zheng Zhang, Ming Ouyang, Ning Ding, Hung-Chyun Chou(参考訳) 本稿では, マルチビュー改良型監視蒸留法に基づく新しい深度補完法を提案し, より正確な深度マップを生成する。 アンサンブル蒸留という最先端の奥行き補完法に基づいて,既存のステレオベースのモデルを教師モデルとして紹介し,アンサンブル蒸留精度を向上させるとともに,コンプリートベースの教師の固有エラーモードを回避し,所定の画像の復元誤差を最小限に抑えることにより,より正確な学生モデルを生成する。 また,マルチビューの奥行き一貫性と,マルチスケールの最小再投影を活用し,自己監視情報を提供する。 これらの手法では,既存の構造制約を生かして,学習者のモデル学習における教師付き信号を得る。 提案手法は, 監視蒸留のベースライン法の精度を効果的に向上できることを示す。

This paper proposes a new depth completion method based on multi-view improved monitored distillation to generate more accurate depth maps. Based on the state-of-the-art depth completion method named ensemble distillation, we introduce an existing stereo-based model as a teacher model to improve ensemble distillation accuracy and generate a more accurate student model in training by avoiding inherent error modes of completion-based teachers as well as minimizing the reconstruction error for a given image. We also leverage multi-view depth consistency and multi-scale minimum reprojection to provide self-supervised information. These methods use the existing structure constraints to yield supervised signals for student model training without great expense on gathering ground truth information of depth. Our extensive experimental evaluation demonstrates that our proposed method can effectively improve the accuracy of baseline method of monitored distillation.
翻訳日:2023-03-29 15:45:03 公開日:2023-03-28
# AutoKary2022: 染色体インスタンスセグメンテーションのための大規模アノテーション付き日付セット

AutoKary2022: A Large-Scale Densely Annotated Dateset for Chromosome Instance Segmentation ( http://arxiv.org/abs/2303.15839v1 )

ライセンス: Link先を確認
Dan You, Pengcheng Xia, Qiuzhu Chen, Minghui Wu, Suncheng Xiang, Jun Wang(参考訳) 染色体異常 (karyotype analysis) の診断には, 異相細胞顕微鏡画像からの染色体インスタンスの自動分割が重要である。 しかし、高い注釈付きデータセットの欠如や染色体の複雑な形態、例えば、密度分布、任意の方向、幅広い長さがあるため、依然として困難な課題である。 この領域の開発を容易にするために、我々は、50人の患者から612の顕微鏡画像に27,000以上の染色体インスタンスを含むautokary2022という、大規模な密注釈付きデータセットを手作業で構築する。 具体的には、各インスタンスにポリゴンマスクとクラスラベルをアノテートして、正確な染色体の検出とセグメンテーションを支援する。 その上で,本データセットの代表的な手法を体系的に検討し,多くの興味深い知見を得た。 このデータセットが医学的理解に向けて研究を進めることを願っている。 データセットは、https://github.com/wangjuncongyu/chromosome-instance-segmentation-datasetで利用できる。

Automated chromosome instance segmentation from metaphase cell microscopic images is critical for the diagnosis of chromosomal disorders (i.e., karyotype analysis). However, it is still a challenging task due to lacking of densely annotated datasets and the complicated morphologies of chromosomes, e.g., dense distribution, arbitrary orientations, and wide range of lengths. To facilitate the development of this area, we take a big step forward and manually construct a large-scale densely annotated dataset named AutoKary2022, which contains over 27,000 chromosome instances in 612 microscopic images from 50 patients. Specifically, each instance is annotated with a polygonal mask and a class label to assist in precise chromosome detection and segmentation. On top of it, we systematically investigate representative methods on this dataset and obtain a number of interesting findings, which helps us have a deeper understanding of the fundamental problems in chromosome instance segmentation. We hope this dataset could advance research towards medical understanding. The dataset can be available at: https://github.com/wangjuncongyu/chromosome-instance-segmentation-dataset.
翻訳日:2023-03-29 15:44:44 公開日:2023-03-28
# 量子計測における仮想浄化に基づく誤差緩和の効果

Efficacy of virtual purification-based error mitigation on quantum metrology ( http://arxiv.org/abs/2303.15838v1 )

ライセンス: Link先を確認
Hyukgun Kwon, Changhun Oh, Youngrong Lim, Hyunseok Jeong, Liang Jiang(参考訳) ノイズは、様々な量子情報処理において量子の利点を完全に活用することを妨げる主な原因である。 しかし, 騒音の影響をキャラクタライズし, 校正することは必ずしも不可能ではない。 特に量子パラメータ推定では、ノイズの正確な知識を持たない推定器は避けられないバイアスを伴う。 近年,未知ノイズから発生するバイアスを低減するために,仮想浄化に基づく誤差緩和法(vpem)が提案されている。 特定のケースで機能することが実証されたが、VPEMが常に一般的な推定スキームのバイアスを減少させるかどうかはまだ分かっていない。 量子力学へのVPEMのより一般的な応用については、VPEMがバイアスを低減できるかどうかを決定する因子について検討する。 雑音状態の優占固有ベクトルと観測可能に対する理想量子プローブ(ノイズなし)との近接性は、vpemによるバイアスの還元量を決定する。 次に, 対象パラメータの基準点を慎重に選択し, バイアスが基準点に依存するため, 最小のバイアスを与えることを示す。 そうでなければ、支配的固有ベクトルと理想量子プローブが近くても、緩和された場合のバイアスは、非緩和の場合よりも大きい可能性がある。 % 最適基準点は量子距離論の特徴から生じる特異な特徴である,と我々は強調する。 最後に,様々な雑音下での位相推定手法の誤差低減について解析する。 分析から,VPEMがバイアスを効果的に低減し,その結果を数値的に検証できるかどうかを予測する。

Noise is the main source that hinders us from fully exploiting quantum advantages in various quantum informational tasks. However, characterizing and calibrating the effect of noise is not always feasible in practice. Especially for quantum parameter estimation, an estimator constructed without precise knowledge of noise entails an inevitable bias. Recently, virtual purification-based error mitigation (VPEM) has been proposed to apply for quantum metrology to reduce such a bias occurring from unknown noise. While it was demonstrated to work for particular cases, whether VPEM always reduces a bias for general estimation schemes is unclear yet. For more general applications of VPEM to quantum metrology, we study factors determining whether VPEM can reduce the bias. We find that the closeness between the dominant eigenvector of a noisy state and the ideal quantum probe (without noise) with respect to an observable determines the reducible amount of bias by VPEM. Next, we show that one should carefully choose the reference point of the target parameter, which gives the smallest bias because the bias depends on the reference point. Otherwise, even if the dominant eigenvector and the ideal quantum probe are close, the bias of the mitigated case could be larger than the non-mitigated one. %We emphasize that the optimal reference point is a unique feature that comes from the characteristic of quantum metrology. Finally, we analyze the error mitigation for a phase estimation scheme under various noises. Based on our analysis, we predict whether VPEM can effectively reduce a bias and numerically verify our results.
翻訳日:2023-03-29 15:44:24 公開日:2023-03-28
# メタ機械学習によるビジネスネットワークにおける組織間分析の実現

Enabling Inter-organizational Analytics in Business Networks Through Meta Machine Learning ( http://arxiv.org/abs/2303.15834v1 )

ライセンス: Link先を確認
Robin Hirt, Niklas K\"uhl, Dominik Martin, Gerhard Satzger(参考訳) 貴重な洞察を提供する分析ソリューションが成功し、さまざまなデータソースの接続をヒンジすることが多い。 組織内で大きなデータプールを生成することはしばしば可能だが、(組織間)ビジネスネットワーク内の分析の応用は、いまだに厳しく制限されている。 データが複数の法律単位に分散し、場合によっては各国にまたがる可能性があるため、機密情報を開示することを恐れたり、交換する必要があるデータの量が膨大になることは、効果的なシステム全体のソリューションを作る上で重要な阻害要因となる。 本研究では,これらの障害に対処し,ビジネスネットワーク内の包括的分析を可能にするメタ機械学習手法を提案する。 我々は, 設計科学研究のアプローチに従い, 産業用途における実現可能性と性能について評価する。 まず,データ機密性およびデータ転送量を制限するネットワーク全体の解析を行うことが可能であることを示す。 第2に,本手法は,従来の分離分析よりも優れており,ネットワーク内ですべてのデータが共有可能な(仮説的な)シナリオに近づくことさえある。 したがって、ネットワーク全体に散らばっているデータから学習する膨大な可能性を活用するための重要な障害を取り除くことにより、ビジネスネットワークをより効果的にするための基本的な貢献を提供する。

Successful analytics solutions that provide valuable insights often hinge on the connection of various data sources. While it is often feasible to generate larger data pools within organizations, the application of analytics within (inter-organizational) business networks is still severely constrained. As data is distributed across several legal units, potentially even across countries, the fear of disclosing sensitive information as well as the sheer volume of the data that would need to be exchanged are key inhibitors for the creation of effective system-wide solutions -- all while still reaching superior prediction performance. In this work, we propose a meta machine learning method that deals with these obstacles to enable comprehensive analyses within a business network. We follow a design science research approach and evaluate our method with respect to feasibility and performance in an industrial use case. First, we show that it is feasible to perform network-wide analyses that preserve data confidentiality as well as limit data transfer volume. Second, we demonstrate that our method outperforms a conventional isolated analysis and even gets close to a (hypothetical) scenario where all data could be shared within the network. Thus, we provide a fundamental contribution for making business networks more effective, as we remove a key obstacle to tap the huge potential of learning from data that is scattered throughout the network.
翻訳日:2023-03-29 15:44:01 公開日:2023-03-28
# 教師なし連続ドメインシフト学習のための補完ドメイン適応と一般化

Complementary Domain Adaptation and Generalization for Unsupervised Continual Domain Shift Learning ( http://arxiv.org/abs/2303.15833v1 )

ライセンス: Link先を確認
Wonguk Cho, Jinha Park, Taesup Kim(参考訳) 連続的なドメインシフトは、特にラベル付きデータが新しいドメインで利用できない状況において、現実世界のアプリケーションにおいて大きな課題となる。 この問題における知識獲得の課題は、教師なし連続的ドメインシフト学習と呼ばれる。 既存のドメイン適応と一般化の方法は、特定のドメインへの適応か、見えないドメインへの一般化に重点を置いているが、両方ではないため、この問題に対処する上での制限がある。 本稿では,非教師なし連続的なドメインシフト学習の3つの主要な目標を達成するために,ドメイン適応と一般化を相補的に組み合わせたシンプルかつ効果的な学習フレームワークである補完的ドメイン適応・一般化(CoDAG)を提案する。 我々のアプローチはモデルに依存しないため、既存のドメイン適応および一般化アルゴリズムと互換性がある。 我々はCoDAGをいくつかのベンチマークデータセットで評価し、我々のモデルはすべてのデータセットや評価指標において最先端のモデルよりも優れており、教師なし連続的なドメインシフト学習を扱う上での有効性と堅牢性を強調している。

Continual domain shift poses a significant challenge in real-world applications, particularly in situations where labeled data is not available for new domains. The challenge of acquiring knowledge in this problem setting is referred to as unsupervised continual domain shift learning. Existing methods for domain adaptation and generalization have limitations in addressing this issue, as they focus either on adapting to a specific domain or generalizing to unseen domains, but not both. In this paper, we propose Complementary Domain Adaptation and Generalization (CoDAG), a simple yet effective learning framework that combines domain adaptation and generalization in a complementary manner to achieve three major goals of unsupervised continual domain shift learning: adapting to a current domain, generalizing to unseen domains, and preventing forgetting of previously seen domains. Our approach is model-agnostic, meaning that it is compatible with any existing domain adaptation and generalization algorithms. We evaluate CoDAG on several benchmark datasets and demonstrate that our model outperforms state-of-the-art models in all datasets and evaluation metrics, highlighting its effectiveness and robustness in handling unsupervised continual domain shift learning.
翻訳日:2023-03-29 15:43:41 公開日:2023-03-28
# STMixer: 1段階スパースアクション検出器

STMixer: A One-Stage Sparse Action Detector ( http://arxiv.org/abs/2303.15879v1 )

ライセンス: Link先を確認
Tao Wu and Mengqi Cao and Ziteng Gao and Gangshan Wu and Limin Wang(参考訳) 従来のビデオアクション検出器では、まずアクターボックスを生成するために人検出装置を使用し、次に3D RoIAlignを使用してアクター固有の特徴を抽出する。 この検出パラダイムでは、多段階のトレーニングと推論が必要であり、境界ボックス外のコンテキスト情報をキャプチャできない。 近年、エンドツーエンドでアクションインスタンスを予測するために、クエリベースのアクション検出器がいくつか提案されている。 しかし、機能サンプリングやデコードにはまだ適応性がないため、パフォーマンスの低下や収束の遅い問題に悩まされている。 本稿では,stmixerと呼ばれる新しい一段階スパース動作検出器を提案する。 STMixerは2つのコア設計に基づいている。 まず,時空間領域全体から識別的特徴のセットをマイニングする柔軟性により,stmixerを内包するクエリベースの適応的特徴サンプリングモジュールを提案する。 第2に,スミキサが空間的および時間的次元に沿って動的に映像的特徴を混合することにより,特徴のデコード性が向上する,デュアルブランチ機能混合モジュールを考案した。 これら2つの設計をビデオバックボーンと組み合わせることで、効率的なエンドツーエンドのアクション検出器が得られる。 我々のSTMixerは、ベルとホイッスルなしで、AVA、UCF101-24、JHMDBのデータセットの最先端の結果を得る。

Traditional video action detectors typically adopt the two-stage pipeline, where a person detector is first employed to generate actor boxes and then 3D RoIAlign is used to extract actor-specific features for classification. This detection paradigm requires multi-stage training and inference, and cannot capture context information outside the bounding box. Recently, a few query-based action detectors are proposed to predict action instances in an end-to-end manner. However, they still lack adaptability in feature sampling and decoding, thus suffering from the issues of inferior performance or slower convergence. In this paper, we propose a new one-stage sparse action detector, termed STMixer. STMixer is based on two core designs. First, we present a query-based adaptive feature sampling module, which endows our STMixer with the flexibility of mining a set of discriminative features from the entire spatiotemporal domain. Second, we devise a dual-branch feature mixing module, which allows our STMixer to dynamically attend to and mix video features along the spatial and the temporal dimension respectively for better feature decoding. Coupling these two designs with a video backbone yields an efficient end-to-end action detector. Without bells and whistles, our STMixer obtains the state-of-the-art results on the datasets of AVA, UCF101-24, and JHMDB.
翻訳日:2023-03-29 15:37:53 公開日:2023-03-28
# E-Commerce Retrievalにおけるクエリインテント分類のためのマルチグラニュリティマッチング注意ネットワーク

A Multi-Granularity Matching Attention Network for Query Intent Classification in E-commerce Retrieval ( http://arxiv.org/abs/2303.15870v1 )

ライセンス: Link先を確認
Chunyuan Yuan, Yiming Qiu, Mingming Li, Haiqing Hu, Songlin Wang, Sulong Xu(参考訳) 顧客が希望する製品を見つけるのを支援することを目的としたクエリインテント分類は、eコマース検索の重要なコンポーネントとなっている。 既存のクエリインテント分類モデルは、クエリの表現学習を強化するためにより優れたモデルを設計するか、モデルが外部情報を学ぶのを容易にするためにラベルグラフとマルチタスクを探索する。 しかし、これらのモデルはクエリやカテゴリから複数の粒度マッチング機能をキャプチャできないため、非公式なクエリとカテゴリ間の表現のギャップを緩和することは困難である。 本稿では,MMAN(Multi-granularity Matching Attention Network)を提案する。MMAN(Multi-granularity Matching Attention Network)は,クエリから特徴を包括的に抽出する自己マッチングモジュール,シャルレベルマッチングモジュール,セマンティックレベルマッチングモジュールの3つのモジュールを含む。 このようにして、このモデルはクエリとクエリ意図分類のカテゴリ間の表現の違いを取り除くことができる。 大規模なオフラインおよびオンラインA/B実験を行い、MMANがMMANの優位性と有効性を示す強力なベースラインを著しく上回ることを示す。 MMANは本番環境にデプロイされ、当社にとって大きな商業的価値をもたらしています。

Query intent classification, which aims at assisting customers to find desired products, has become an essential component of the e-commerce search. Existing query intent classification models either design more exquisite models to enhance the representation learning of queries or explore label-graph and multi-task to facilitate models to learn external information. However, these models cannot capture multi-granularity matching features from queries and categories, which makes them hard to mitigate the gap in the expression between informal queries and categories. This paper proposes a Multi-granularity Matching Attention Network (MMAN), which contains three modules: a self-matching module, a char-level matching module, and a semantic-level matching module to comprehensively extract features from the query and a query-category interaction matrix. In this way, the model can eliminate the difference in expression between queries and categories for query intent classification. We conduct extensive offline and online A/B experiments, and the results show that the MMAN significantly outperforms the strong baselines, which shows the superiority and effectiveness of MMAN. MMAN has been deployed in production and brings great commercial value for our company.
翻訳日:2023-03-29 15:37:30 公開日:2023-03-28
# ワイナー多視点教師なし学習のための効率的な交代最小化解法

Efficient Alternating Minimization Solvers for Wyner Multi-View Unsupervised Learning ( http://arxiv.org/abs/2303.15866v1 )

ライセンス: Link先を確認
Teng-Hui Huang and Hesham El Gamal(参考訳) 本研究では,教師なし多視点表現学習にWyner共通情報フレームワークを採用する。 本枠組みでは, 交代最小化原理に基づく計算効率の高い解法の開発を可能にする2つの新しい定式化を提案する。 第1の定式化は「変分形式」と呼ばれ、ビューの数とともに線形に増大する複雑性を享受し、ラグランジュ最適化目的関数と結合した変分推論の強い代理関数に基づいている。 第2の定式化、すなわち表現形式は、特別な場合として既知の結果を含むことが示されている。 そこで本研究では,非凸最適化問題の解法として,乗算器の交互方向法(ADMM)アルゴリズムを用いた調整版を開発する。 二つの場合において、提案する解法の収束は、ある関係の領域において確立される。 さらに,提案手法の有効性を,最先端解法との比較により実証した。 一言で言えば、提案する解法は計算効率、理論的収束保証、ビュー数によるスケーラブルな複雑性、最先端技術と比較して非常に精度が高い。 ここでの私たちの焦点は離散的なケースに当てられ、連続分布に対する結果が他の場所で報告されます。

In this work, we adopt Wyner common information framework for unsupervised multi-view representation learning. Within this framework, we propose two novel formulations that enable the development of computational efficient solvers based on the alternating minimization principle. The first formulation, referred to as the {\em variational form}, enjoys a linearly growing complexity with the number of views and is based on a variational-inference tight surrogate bound coupled with a Lagrangian optimization objective function. The second formulation, i.e., the {\em representational form}, is shown to include known results as special cases. Here, we develop a tailored version from the alternating direction method of multipliers (ADMM) algorithm for solving the resulting non-convex optimization problem. In the two cases, the convergence of the proposed solvers is established in certain relevant regimes. Furthermore, our empirical results demonstrate the effectiveness of the proposed methods as compared with the state-of-the-art solvers. In a nutshell, the proposed solvers offer computational efficiency, theoretical convergence guarantees, scalable complexity with the number of views, and exceptional accuracy as compared with the state-of-the-art techniques. Our focus here is devoted to the discrete case and our results for continuous distributions are reported elsewhere.
翻訳日:2023-03-29 15:37:08 公開日:2023-03-28
# 教師なし多層無線指紋認証のためのwyner変分オートエンコーダ

The Wyner Variational Autoencoder for Unsupervised Multi-Layer Wireless Fingerprinting ( http://arxiv.org/abs/2303.15860v1 )

ライセンス: Link先を確認
Teng-Hui Huang, Thilini Dahanayaka, Kanchana Thilakarathna, Philip H.W. Leong and Hesham El Gamal(参考訳) 無線指紋認証は、ハードウェアの欠陥と無線チャネルのバリエーションをシグネチャとして活用するデバイス識別手法である。 物理層特性以外にも、最近の研究では、ペイロードの復号化なしに、パケット長などのネットワークトラフィックを通じてユーザ動作を識別できることが示されている。 これらの結果に触発された多層指紋認証フレームワークは,複数層署名を共同で考慮し,識別性能を向上させる。 従来の研究とは対照的に、近年のマルチビュー機械学習パラダイム、すなわち複数のフォームを持つデータを活用することで、我々の手法は、監視なしで多層機能間で共有されるデバイス情報をクラスタ化することができる。 我々の情報理論アプローチは、直接的な導出を伴う教師付きおよび半教師付き設定にまで拡張することができる。 定式化問題を解く際に,効率的な最適化のために変分推論を用いた厳密なサロゲート境界を求める。 共有デバイス情報を抽出する際,Wyner共通情報法に基づくアルゴリズムを開発し,既存の手法と比較して計算複雑性の低減を図った。 このアルゴリズムは指数関数族に属するデータ分布に適用することができる。 実世界のビデオトラフィックと物理層特性をシミュレートした合成データセットによるアルゴリズムの評価を行った。 実験の結果,提案手法は教師なし設定と教師なし設定の両方において,最先端のベースラインよりも優れていた。

Wireless fingerprinting refers to a device identification method leveraging hardware imperfections and wireless channel variations as signatures. Beyond physical layer characteristics, recent studies demonstrated that user behaviours could be identified through network traffic, e.g., packet length, without decryption of the payload. Inspired by these results, we propose a multi-layer fingerprinting framework that jointly considers the multi-layer signatures for improved identification performance. In contrast to previous works, by leveraging the recent multi-view machine learning paradigm, i.e., data with multiple forms, our method can cluster the device information shared among the multi-layer features without supervision. Our information-theoretic approach can be extended to supervised and semi-supervised settings with straightforward derivations. In solving the formulated problem, we obtain a tight surrogate bound using variational inference for efficient optimization. In extracting the shared device information, we develop an algorithm based on the Wyner common information method, enjoying reduced computation complexity as compared to existing approaches. The algorithm can be applied to data distributions belonging to the exponential family class. Empirically, we evaluate the algorithm in a synthetic dataset with real-world video traffic and simulated physical layer characteristics. Our empirical results show that the proposed method outperforms the state-of-the-art baselines in both supervised and unsupervised settings.
翻訳日:2023-03-29 15:36:47 公開日:2023-03-28
# openinst: オープンワールドインスタンスセグメンテーションのための単純なクエリベースメソッド

OpenInst: A Simple Query-Based Method for Open-World Instance Segmentation ( http://arxiv.org/abs/2303.15859v1 )

ライセンス: Link先を確認
Cheng Wang, Guoli Wang, Qian Zhang, Peng Guo, Wenyu Liu, Xinggang Wang(参考訳) オープンワールドのインスタンスセグメンテーションは、自動運転、ロボット認識、リモートセンシングなど、多くの現実のアプリケーションでの重要性のおかげで、最近大きな人気を得ている。 しかし、従来の手法では不十分な結果が得られたか、複雑なシステムやパラダイムに依存していた。 最先端の結果を得る簡単な方法があるのだろうか。 幸いなことに、私たちは両方の世界のベストを達成するのに役立つ2つの観察を特定しました。 1)クエリベースの手法は,オープンワールドインスタンスセグメンテーションにおける高密度な提案ベースの手法よりも優れていることを示す。 2)オープンワールドのインスタンスセグメンテーションには,ローカライゼーションの習得が十分である。 これらの観察に基づいて,openworldインスタンスセグメンテーションのための単純なクエリベース手法openinstを提案する。 OpenInstはQueryInstのような高度なクエリベースのメソッドを活用し、ローカライゼーションの学習に重点を置いている。 特にopeninstは、補助モジュールやポストプロセッシングなしで非常にシンプルで簡単なフレームワークですが、複数のベンチマークで最先端の結果を達成しています。 具体的には、coco$\to$uvo のシナリオでは、openinst は 53.3 のマスク ar を達成し、より単純な構造を持つ2.0 ar で以前のベストメソッドを上回っている。 OpenInstが今後の研究の確かなベースラインになることを期待しています。

Open-world instance segmentation has recently gained significant popularitydue to its importance in many real-world applications, such as autonomous driving, robot perception, and remote sensing. However, previous methods have either produced unsatisfactory results or relied on complex systems and paradigms. We wonder if there is a simple way to obtain state-of-the-art results. Fortunately, we have identified two observations that help us achieve the best of both worlds: 1) query-based methods demonstrate superiority over dense proposal-based methods in open-world instance segmentation, and 2) learning localization cues is sufficient for open world instance segmentation. Based on these observations, we propose a simple query-based method named OpenInst for open world instance segmentation. OpenInst leverages advanced query-based methods like QueryInst and focuses on learning localization cues. Notably, OpenInst is an extremely simple and straightforward framework without any auxiliary modules or post-processing, yet achieves state-of-the-art results on multiple benchmarks. Specifically, in the COCO$\to$UVO scenario, OpenInst achieves a mask AR of 53.3, outperforming the previous best methods by 2.0 AR with a simpler structure. We hope that OpenInst can serve as a solid baselines for future research in this area.
翻訳日:2023-03-29 15:36:24 公開日:2023-03-28
# 単一光子源を用いたデバイス非依存量子セキュア直接通信

Device-independent quantum secure direct communication with single photon sources ( http://arxiv.org/abs/2303.15858v1 )

ライセンス: Link先を確認
Lan Zhou, Bao-Wen Xu, Wei Zhong, Yu-Bo Sheng(参考訳) 量子セキュアダイレクト通信(QSDC)は、秘密メッセージを直接量子チャネルを介して送信することができる。 デバイス非依存(DI) QSDCは、ベルの不等式違反の観察のみに依存する通信セキュリティを保証するが、ユーザのデバイスの内部動作の詳細な説明や信頼性には依存しない。 本稿では,高効率単一光子源を用いたdi-qsdcプロトコルを提案する。 通信相手は、隠蔽されたアーキテクチャを採用して単一の光子から絡み合うチャネルを構築し、光子伝送損失とは無関係なメッセージ漏洩率を実現する。 現在のDI-QSDCプロトコルの安全な通信距離と実用的な通信効率は、元のDI-QSDCプロトコルの約6倍、600倍である。 エンタングルメント浄化と組み合わせることで、ほぼ完全なエンタングルメントチャネルを構築し、メッセージリークを完全に排除することができる。 このDI-QSDCプロトコルは将来の量子通信分野において重要な応用となるかもしれない。

Quantum secure direct communication (QSDC) can directly transmit secrete messages through quantum channel. Device-independent (DI) QSDC can guarantee the communication security relying only on the observation of the Bell inequality violation, but not on any detailed description or trust of the inner workings of users' devices. In the paper, we propose a DI-QSDC protocol with practical high-efficient single photon sources. The communication parties construct the entanglement channel from single photons by adopting the heralded architecture, which makes the message leakage rate independent of the photon transmission loss. The secure communication distance and the practical communication efficiency of the current DI-QSDC protocol are about 6 times and 600 times of those in the original DI-QSDC protocol. Combining with the entanglement purification, the parties can construct the nearly perfect entanglement channel and completely eliminate the message leakage. This DI-QSDC protocol may have important application in future quantum communication field.
翻訳日:2023-03-29 15:36:04 公開日:2023-03-28
# SAR画像の分類のための深層学習手法の探索:トランスフォーマーによる次世代コンボリューションに向けて

Exploring Deep Learning Methods for Classification of SAR Images: Towards NextGen Convolutions via Transformers ( http://arxiv.org/abs/2303.15852v1 )

ライセンス: Link先を確認
Aakash Singh and Vivek Kumar Singh(参考訳) 高分解能SARによって生成された画像は、光や天候の悪条件でよりよく機能するので、幅広い用途がある。 そのような応用分野の一つが軍事システムである。 本研究は、SARターゲット分類(MSTAR)のためのコンピュータビジョンの領域で導入された現在の最先端モデルの適合性を探る試みである。 軍事システムのためのあらゆるソリューションの適用は戦略的かつリアルタイムであるため、その性能を測定するための基準は正確性だけではない。 予測時間や入力レジリエンスといった他の重要なパラメータも同様に重要である。 本論文は,これらの問題をSAR画像の文脈で扱う。 実験結果から,SAR画像分類の領域において,所望の性能レベルでの深層学習モデルを適宜適用できることが示唆された。

Images generated by high-resolution SAR have vast areas of application as they can work better in adverse light and weather conditions. One such area of application is in the military systems. This study is an attempt to explore the suitability of current state-of-the-art models introduced in the domain of computer vision for SAR target classification (MSTAR). Since the application of any solution produced for military systems would be strategic and real-time, accuracy is often not the only criterion to measure its performance. Other important parameters like prediction time and input resiliency are equally important. The paper deals with these issues in the context of SAR images. Experimental results show that deep learning models can be suitably applied in the domain of SAR image classification with the desired performance levels.
翻訳日:2023-03-29 15:35:50 公開日:2023-03-28
# そのラベルのゴットスタイル:不確実なイメージセグメンテーションのためのラベルスタイルのバイアス処理

That Label's Got Style: Handling Label Style Bias for Uncertain Image Segmentation ( http://arxiv.org/abs/2303.15850v1 )

ライセンス: Link先を確認
Kilian Zepf, Eike Petersen, Jes Frellsen, Aasa Feragen(参考訳) セグメンテーション不確実性モデルは、与えられた入力に対する可算セグメンテーションの分布を予測し、トレーニングセットのアノテータ変動から学習する。 しかし、実際にはこれらのアノテーションは、例えば異なるラベリングツールを使用することによって、生成の仕方で体系的に異なる可能性がある。 これにより、データバリアビリティと異なるラベルスタイルの両方を含むデータセットが生成される。 本稿では,このようなデータセットに最先端セグメンテーションの不確実性モデルを適用することで,ラベルの異なるスタイルによるモデルバイアスが生じることを示す。 本稿では,アレータ的不確実性推定のためのラベル付けスタイルに基づくモデリング対象条件の更新と,セグメンテーションの不確実性評価のための2つの最先端アーキテクチャの修正について述べる。 本手法は,セグメンテーション性能を改善しつつラベルスタイルバイアスを低減し,野生におけるセグメンテーションの不確かさモデルの適用性を高めることを示す。 2つのデータセットを異なるラベルスタイルのアノテーションでキュレートし、公開時にコードとともに公開します。

Segmentation uncertainty models predict a distribution over plausible segmentations for a given input, which they learn from the annotator variation in the training set. However, in practice these annotations can differ systematically in the way they are generated, for example through the use of different labeling tools. This results in datasets that contain both data variability and differing label styles. In this paper, we demonstrate that applying state-of-the-art segmentation uncertainty models on such datasets can lead to model bias caused by the different label styles. We present an updated modelling objective conditioning on labeling style for aleatoric uncertainty estimation, and modify two state-of-the-art-architectures for segmentation uncertainty accordingly. We show with extensive experiments that this method reduces label style bias, while improving segmentation performance, increasing the applicability of segmentation uncertainty models in the wild. We curate two datasets, with annotations in different label styles, which we will make publicly available along with our code upon publication.
翻訳日:2023-03-29 15:35:37 公開日:2023-03-28
# ガス:ガウス混合分布に基づくピンの適応サンプリング法

GAS: A Gaussian Mixture Distribution-Based Adaptive Sampling Method for PINNs ( http://arxiv.org/abs/2303.15849v1 )

ライセンス: Link先を確認
Yuling Jiao, Di Li, Xiliang Lu, Jerry Zhijian Yang, Cheng Yuan(参考訳) 科学計算における深層学習の最近の研究により、PINN法はPDEの解法に広く注目を集めている。 従来の方法と比較してピンは高次元の問題を効率的に処理できるが、特に不規則な問題の場合、精度は比較的低い。 適応有限要素法とインクリメンタル学習のアイデアに触発されて,ガウス混合分布に基づくピンの適応サンプリング法であるgasを提案する。 訓練中、ガスは電流残差情報を用いて追加点のサンプリングのためにガウス混合分布を生成し、履歴データと共に訓練し、損失の収束を高速化し、高い精度を達成する。 2次元から10次元の問題に関するいくつかの数値シミュレーションは、ガスが従来の数値解法に匹敵しながら、ディープソルバーの最先端精度を達成する有望な方法であることを示している。

With recent study of the deep learning in scientific computation, the PINNs method has drawn widespread attention for solving PDEs. Compared with traditional methods, PINNs can efficiently handle high-dimensional problems, while the accuracy is relatively low, especially for highly irregular problems. Inspired by the idea of adaptive finite element methods and incremental learning, we propose GAS, a Gaussian mixture distribution-based adaptive sampling method for PINNs. During the training procedure, GAS uses the current residual information to generate a Gaussian mixture distribution for the sampling of additional points, which are then trained together with history data to speed up the convergence of loss and achieve a higher accuracy. Several numerical simulations on 2d to 10d problems show that GAS is a promising method which achieves the state-of-the-art accuracy among deep solvers, while being comparable with traditional numerical solvers.
翻訳日:2023-03-29 15:35:19 公開日:2023-03-28
# 4K-HAZE:4K解像度とヘイズフリー画像のベンチマーク

4K-HAZE: A Dehazing Benchmark with 4K Resolution Hazy and Haze-Free Images ( http://arxiv.org/abs/2303.15848v1 )

ライセンス: Link先を確認
Zhuoran Zheng and Xiuyi Jia(参考訳) 現在、モバイルとIoTデバイスは、限られたリソース支出で4K画像を強化する一連の方法を必要としている。 大規模な4kベンチマークデータセットがないことは、この分野、特にデハジングの進展を妨げている。 UHDデハージングデータセットを構築する上での課題は、UHD深度マップの推定方法がないこと、高品質な4K深度推定データセット、UHDヘイズ画像の合成ドメインから実際のドメインへのマイグレーション戦略である。 これらの問題に対処するために,まずシーンの奥行きを推定し,光線と物体反射をシミュレートし,次にganを用いて合成画像を実領域に移動させ,最終的に4k解像度画像にハザイ効果を与える,明画像から4kハザイ画像(夜間および昼間シーンを含む)をシミュレートする新しい合成手法を開発した。 これらの合成画像を4K-HAZEデータセットと呼ばれるベンチマークにラップする。 具体的には、cs-mixer( \textbf{c}hannelドメインと \textbf{s}patialドメインを統合したmlpベースのモデル)を設計し、4kクリアイメージの深さマップを推定し、gu-netは4k合成画像を実際のhazyドメインに移行する。 このアプローチの最も魅力的な側面(詳細な推定とドメインマイグレーション)は、24G RAMをリアルタイム(33fps)で1つのGPU上で4Kイメージを実行する能力です。 さらに,4k-hazeデータセットを用いて評価した,最先端の単一画像デハジング手法を客観的に評価する。 論文の最後には,4K-HAZEデータセットの限界とその社会的意味について論じる。

Currently, mobile and IoT devices are in dire need of a series of methods to enhance 4K images with limited resource expenditure. The absence of large-scale 4K benchmark datasets hampers progress in this area, especially for dehazing. The challenges in building ultra-high-definition (UHD) dehazing datasets are the absence of estimation methods for UHD depth maps, high-quality 4K depth estimation datasets, and migration strategies for UHD haze images from synthetic to real domains. To address these problems, we develop a novel synthetic method to simulate 4K hazy images (including nighttime and daytime scenes) from clear images, which first estimates the scene depth, simulates the light rays and object reflectance, then migrates the synthetic images to real domains by using a GAN, and finally yields the hazy effects on 4K resolution images. We wrap these synthesized images into a benchmark called the 4K-HAZE dataset. Specifically, we design the CS-Mixer (an MLP-based model that integrates \textbf{C}hannel domain and \textbf{S}patial domain) to estimate the depth map of 4K clear images, the GU-Net to migrate a 4K synthetic image to the real hazy domain. The most appealing aspect of our approach (depth estimation and domain migration) is the capability to run a 4K image on a single GPU with 24G RAM in real-time (33fps). Additionally, this work presents an objective assessment of several state-of-the-art single-image dehazing methods that are evaluated using the 4K-HAZE dataset. At the end of the paper, we discuss the limitations of the 4K-HAZE dataset and its social implications.
翻訳日:2023-03-29 15:35:03 公開日:2023-03-28
# コンピュータビジョンにおける双曲幾何学:畳み込みニューラルネットワークの新しいフレームワーク

Hyperbolic Geometry in Computer Vision: A Novel Framework for Convolutional Neural Networks ( http://arxiv.org/abs/2303.15919v1 )

ライセンス: Link先を確認
Ahmad Bdeir and Kristian Schwethelm and Niels Landwehr(参考訳) 実世界のビジュアルデータは、双曲空間において効果的に表現できる固有の階層構造を示す。 双曲型ニューラルネットワーク(HNN)は、そのような空間における特徴表現を学習するための有望なアプローチである。 しかし、現在のコンピュータビジョンの手法はユークリッドのバックボーンに依存しており、タスクヘッドの双曲空間にのみ特徴を投影し、双曲幾何学の利点を十分に活用する能力を制限する。 これを解決するために、コンピュータビジョンタスク用に設計された最初の完全双曲畳み込みニューラルネットワーク(CNN)であるHCNNを紹介する。 ローレンツモデルに基づいて,CNNの基本成分を一般化し,畳み込み層,バッチ正規化,多項ロジスティック回帰(MLR)の新たな定式化を提案する。 標準的な視覚タスクの実験は、HCNNフレームワークとローレンツモデルの有効性をハイブリッドおよび完全に双曲的な設定で示す。 全体として,視覚データの解釈と解析のための新たなパラダイムを提供することで,双曲型コンピュータビジョンの今後の研究の道を開くことを目指している。 私たちのコードはhttps://github.com/kschwethelm/HyperbolicCVで公開されています。

Real-world visual data exhibit intrinsic hierarchical structures that can be represented effectively in hyperbolic spaces. Hyperbolic neural networks (HNNs) are a promising approach for learning feature representations in such spaces. However, current methods in computer vision rely on Euclidean backbones and only project features to the hyperbolic space in the task heads, limiting their ability to fully leverage the benefits of hyperbolic geometry. To address this, we present HCNN, the first fully hyperbolic convolutional neural network (CNN) designed for computer vision tasks. Based on the Lorentz model, we generalize fundamental components of CNNs and propose novel formulations of the convolutional layer, batch normalization, and multinomial logistic regression (MLR). Experimentation on standard vision tasks demonstrates the effectiveness of our HCNN framework and the Lorentz model in both hybrid and fully hyperbolic settings. Overall, we aim to pave the way for future research in hyperbolic computer vision by offering a new paradigm for interpreting and analyzing visual data. Our code is publicly available at https://github.com/kschwethelm/HyperbolicCV.
翻訳日:2023-03-29 15:28:54 公開日:2023-03-28
# プライベートからパブリックへ:プライベート時系列分類におけるGANのベンチマーク

From Private to Public: Benchmarking GANs in the Context of Private Time Series Classification ( http://arxiv.org/abs/2303.15916v1 )

ライセンス: Link先を確認
Dominique Mercier, Andreas Dengel, Sheraz Ahmed(参考訳) ディープラーニングはさまざまなドメインやさまざまなタスクで成功している。 しかし、プライベートデータに関しては、いくつかの制限があるため、これらのアプリケーションフィールドでディープラーニングアプローチを使用するのは難しい。 最近のアプローチでは、分類器の上にプライバシー保護機構を直接適用するのではなく、プライベートにデータを生成する。 解決策は、データのプライバシを保存する方法で、プライベートデータから公開データを作成することである。 本研究では,プライベート時系列分類の文脈において,非常に顕著な2つのGANアーキテクチャを評価した。 主にイメージドメインに限定された以前の作業とは対照的に、このベンチマークの範囲は時系列ドメインだった。 実験によると、特にGSWGANは、競合するDPWGANよりも優れた、さまざまな公開データセットでよく機能している。 生成されたデータセットの分析により、時系列生成の文脈におけるGSWGANの優位性をさらに検証する。

Deep learning has proven to be successful in various domains and for different tasks. However, when it comes to private data several restrictions are making it difficult to use deep learning approaches in these application fields. Recent approaches try to generate data privately instead of applying a privacy-preserving mechanism directly, on top of the classifier. The solution is to create public data from private data in a manner that preserves the privacy of the data. In this work, two very prominent GAN-based architectures were evaluated in the context of private time series classification. In contrast to previous work, mostly limited to the image domain, the scope of this benchmark was the time series domain. The experiments show that especially GSWGAN performs well across a variety of public datasets outperforming the competitor DPWGAN. An analysis of the generated datasets further validates the superiority of GSWGAN in the context of time series generation.
翻訳日:2023-03-29 15:28:36 公開日:2023-03-28
# マスクフリービデオインスタンスセグメンテーション

Mask-Free Video Instance Segmentation ( http://arxiv.org/abs/2303.15904v1 )

ライセンス: Link先を確認
Lei Ke, Martin Danelljan, Henghui Ding, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu(参考訳) ビデオインスタンスセグメンテーション(VIS)の最近の進歩は、より深く、ますますデータハングリーなトランスフォーマーベースのモデルを使用することによって大きく推進されている。 しかし、ビデオマスクは、注釈をつけるのが面倒で高価であり、既存のVISデータセットのスケールと多様性を制限する。 本研究は,マスクアノテーションの要件を取り除くことを目的としている。 我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。 我々は,tk-loss(temporal knn-patch loss)を導入することで,ビデオの時間的マスク一貫性制約を生かした。 tk-lossは、効率的なパッチマッチングステップとk-nearestの隣人選択を通じて、フレーム間で1対1のマッチを見つけます。 そして、見つけたマッチに一貫性の損失を強制する。 我々のマスクフリーな目的は実装が簡単で、訓練可能なパラメータがなく、計算効率が良いが、例えば、時間的マスク一貫性を強制するために最先端の光学フローを使用するベースラインよりも優れている。 YouTube-VIS 2019/2021、OVIS、BDD100K MOTSベンチマークでMaskFreeVISを検証する。 その結果,完全教師付きvis性能と弱教師付きvis性能のギャップを極端に狭めることにより,本手法の有効性を明確に示した。 私たちのコードとトレーニングされたモデルはhttps://github.com/SysCV/MaskFreeVis.comで利用可能です。

The recent advancement in Video Instance Segmentation (VIS) has largely been driven by the use of deeper and increasingly data-hungry transformer-based models. However, video masks are tedious and expensive to annotate, limiting the scale and diversity of existing VIS datasets. In this work, we aim to remove the mask-annotation requirement. We propose MaskFreeVIS, achieving highly competitive VIS performance, while only using bounding box annotations for the object state. We leverage the rich temporal mask consistency constraints in videos by introducing the Temporal KNN-patch Loss (TK-Loss), providing strong mask supervision without any labels. Our TK-Loss finds one-to-many matches across frames, through an efficient patch-matching step followed by a K-nearest neighbor selection. A consistency loss is then enforced on the found matches. Our mask-free objective is simple to implement, has no trainable parameters, is computationally efficient, yet outperforms baselines employing, e.g., state-of-the-art optical flow to enforce temporal mask consistency. We validate MaskFreeVIS on the YouTube-VIS 2019/2021, OVIS and BDD100K MOTS benchmarks. The results clearly demonstrate the efficacy of our method by drastically narrowing the gap between fully and weakly-supervised VIS performance. Our code and trained models are available at https://github.com/SysCV/MaskFreeVis.
翻訳日:2023-03-29 15:28:24 公開日:2023-03-28
# 対向ロバスト性アルゴリズムとしての自己エンコーダに基づく防御蒸留

Denoising Autoencoder-based Defensive Distillation as an Adversarial Robustness Algorithm ( http://arxiv.org/abs/2303.15901v1 )

ライセンス: Link先を確認
Bakary Badjie, Jos\'e Cec\'ilio, Ant\'onio Casimiro(参考訳) 敵対的攻撃はディープニューラルネットワーク(DNN)の堅牢性を著しく脅かす。 複数の防御手法が採用されているにもかかわらず、攻撃者は初期訓練データに干渉する毒物攻撃に弱い。 このような敵対的攻撃からdnnを防御するために,本研究では,防御蒸留機構と消音オートエンコーダ(dae)を組み合わせた新しい方法を提案する。 本手法は, トレーニングデータに有毒な敵意入力を検出・再構成することにより, 蒸留モデルの中毒攻撃に対する感受性を低下させる。 提案手法の性能を評価するため, 初期訓練データに, 慎重に作成した逆サンプルを付加した。 以上の結果から,本手法はDNNのレジリエンスの向上を考慮しつつ,有毒な入力を同定および再構成することに成功した。 提案手法は、データ中毒攻撃が懸念される様々なアプリケーションにおいて、DNNに対して強力で堅牢な防御メカニズムを提供する。 これにより, 有害な対人攻撃による防衛蒸留技術による限界が克服される。

Adversarial attacks significantly threaten the robustness of deep neural networks (DNNs). Despite the multiple defensive methods employed, they are nevertheless vulnerable to poison attacks, where attackers meddle with the initial training data. In order to defend DNNs against such adversarial attacks, this work proposes a novel method that combines the defensive distillation mechanism with a denoising autoencoder (DAE). This technique tries to lower the sensitivity of the distilled model to poison attacks by spotting and reconstructing poisonous adversarial inputs in the training data. We added carefully created adversarial samples to the initial training data to assess the proposed method's performance. Our experimental findings demonstrate that our method successfully identified and reconstructed the poisonous inputs while also considering enhancing the DNN's resilience. The proposed approach provides a potent and robust defense mechanism for DNNs in various applications where data poisoning attacks are a concern. Thus, the defensive distillation technique's limitation posed by poisonous adversarial attacks is overcome.
翻訳日:2023-03-29 15:27:43 公開日:2023-03-28
# 2次元最適化による高効率3次元建築物の多様性最適化

Efficient Quality Diversity Optimization of 3D Buildings through 2D Pre-optimization ( http://arxiv.org/abs/2303.15896v1 )

ライセンス: Link先を確認
Alexander Hagg, Martin L. Kliemank, Alexander Asteroth, Dominik Wilde, Mario C. Bedrunka, Holger Foysi, Dirk Reith(参考訳) 品質多様性アルゴリズムは、エンジニアの直感を伝える様々なソリューションセットを効率的に作成するために使用することができる。 しかし、品質の多様性は非常に高価な問題では効率的ではない。 代理モデルの助けを借りても、品質の多様性には100や1000の評価が必要です。 本研究では,低次元最適化問題に対する事前最適化戦略を用いてこの問題に取り組み,その解を高次元ケースにマッピングする。 風量を最小限に抑える建築設計のユースケースとして,3次元建物周辺の流動特性を,建物足跡周辺の2次元流動特性から予測できることを示す。 多様な建築設計において、品質多様性アルゴリズムを用いて2次元フットプリントの空間をサンプリングすることにより、ソボルシーケンスのような空間充填アルゴリズムで選択されたフットプリントのセットでトレーニングされた場合よりも、より正確な予測モデルを訓練することができる。 16棟の建物を3Dで再現し、1024棟の建物を風のニュアンスを低く予測して設計する。 一般的なサンプリング手法を使わずに、品質の多様性のあるトレーニングデータを生成することで、より良い機械学習モデルを作ることができることを示す。 この手法は、計算コストのかかる3Dドメインで生成設計をブートストラップし、設計空間を網羅し、初期の設計フェーズにおける風のニュアンスを理解する。

Quality diversity algorithms can be used to efficiently create a diverse set of solutions to inform engineers' intuition. But quality diversity is not efficient in very expensive problems, needing 100.000s of evaluations. Even with the assistance of surrogate models, quality diversity needs 100s or even 1000s of evaluations, which can make it use infeasible. In this study we try to tackle this problem by using a pre-optimization strategy on a lower-dimensional optimization problem and then map the solutions to a higher-dimensional case. For a use case to design buildings that minimize wind nuisance, we show that we can predict flow features around 3D buildings from 2D flow features around building footprints. For a diverse set of building designs, by sampling the space of 2D footprints with a quality diversity algorithm, a predictive model can be trained that is more accurate than when trained on a set of footprints that were selected with a space-filling algorithm like the Sobol sequence. Simulating only 16 buildings in 3D, a set of 1024 building designs with low predicted wind nuisance is created. We show that we can produce better machine learning models by producing training data with quality diversity instead of using common sampling techniques. The method can bootstrap generative design in a computationally expensive 3D domain and allow engineers to sweep the design space, understanding wind nuisance in early design phases.
翻訳日:2023-03-29 15:27:17 公開日:2023-03-28
# VIVE3D: 3D-Aware GANを用いた視点に依存しないビデオ編集

VIVE3D: Viewpoint-Independent Video Editing using 3D-Aware GANs ( http://arxiv.org/abs/2303.15893v1 )

ライセンス: Link先を確認
Anna Fr\"uhst\"uck, Nikolaos Sarafianos, Yuanlu Xu, Peter Wonka, Tony Tung(参考訳) VIVE3Dは画像ベースの3D GANをビデオ編集に拡張し、アイデンティティ保存と時間的に一貫した方法で入力された映像を表現できる新しいアプローチである。 我々は2つの新しいビルディングブロックを提案する。 まず,複数のフレームを共同で埋め込み,カメラパラメータを最適化することにより,GANを3D GANに特化させる新しい手法を提案する。 第2に,従来の意味的顔編集(年齢や表情など)の他に,3d ganの固有特性と光フロー誘導合成技術を用いて頭部と背景映像を組み合わせることで,頭部の斬新な視点を示す編集例を初めて紹介する。 実験により, vive3dは, 時間的かつ空間的に一貫した方法でオリジナル映像と合成されたカメラ視点から, 一定品質で高精細な顔編集を生成できることを実証した。

We introduce VIVE3D, a novel approach that extends the capabilities of image-based 3D GANs to video editing and is able to represent the input video in an identity-preserving and temporally consistent way. We propose two new building blocks. First, we introduce a novel GAN inversion technique specifically tailored to 3D GANs by jointly embedding multiple frames and optimizing for the camera parameters. Second, besides traditional semantic face edits (e.g. for age and expression), we are the first to demonstrate edits that show novel views of the head enabled by the inherent properties of 3D GANs and our optical flow-guided compositing technique to combine the head with the background video. Our experiments demonstrate that VIVE3D generates high-fidelity face edits at consistent quality from a range of camera viewpoints which are composited with the original video in a temporally and spatially consistent manner.
翻訳日:2023-03-29 15:26:41 公開日:2023-03-28
# Head3D:トリプレーン機能蒸留による完全3Dヘッドジェネレーション

Head3D: Complete 3D Head Generation via Tri-plane Feature Distillation ( http://arxiv.org/abs/2303.15892v1 )

ライセンス: Link先を確認
Yuhao Cheng and Yichao Yan and Wenhan Zhu and Ye Pan and Bowen Pan and Xiaokang Yang(参考訳) 多様なアイデンティティを持つヘッドジェネレーションは、マルチメディアアプリケーションで広く使われているコンピュータビジョンとコンピュータグラフィックスにおいて重要なタスクである。 しかし、現在のフルヘッド生成手法では、モデルをトレーニングするために大量の3dスキャンやマルチビュー画像を必要とするため、高価なデータ取得コストがかかる。 この問題に対処するため,我々は,マルチビュー画像に制限のあるフル3dヘッドを生成するhead3dを提案する。 具体的には、まず3d認識生成モデルeg3dで学習した三面体に代表される顔前野を抽出し、次に3d前頭面を完全頭部に移植する機能蒸留を提案する。 顔モデルと頭部モデルの領域ギャップを緩和するために,両判別器を用いて前頭と後頭の生成を誘導する。 本モデルは,写真リアルなレンダリングと高品質な幾何表現により,コスト効率と多種多様な完全ヘッド生成を実現する。 提案するhead3dの有効性を,質的および定量的に実証した。

Head generation with diverse identities is an important task in computer vision and computer graphics, widely used in multimedia applications. However, current full head generation methods require a large number of 3D scans or multi-view images to train the model, resulting in expensive data acquisition cost. To address this issue, we propose Head3D, a method to generate full 3D heads with limited multi-view images. Specifically, our approach first extracts facial priors represented by tri-planes learned in EG3D, a 3D-aware generative model, and then proposes feature distillation to deliver the 3D frontal faces into complete heads without compromising head integrity. To mitigate the domain gap between the face and head models, we present dual-discriminators to guide the frontal and back head generation, respectively. Our model achieves cost-efficient and diverse complete head generation with photo-realistic renderings and high-quality geometry representations. Extensive experiments demonstrate the effectiveness of our proposed Head3D, both qualitatively and quantitatively.
翻訳日:2023-03-29 15:26:24 公開日:2023-03-28
# Dataset Demographic Bias の指標 : 表情認識を事例として

Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition ( http://arxiv.org/abs/2303.15889v1 )

ライセンス: Link先を確認
Iris Dominguez-Catena, Daniel Paternain, Mikel Galar(参考訳) ソースデータセットの人口バイアスは、機械学習モデルの予測における不公平と差別の原因の1つとして示されている。 人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。 本稿では,他の分野から借用できる指標を含む既存の指標を見直し,これらのバイアスの測定について検討する。 これらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。 筆者らは,このフレームワークの有用性を説明し,メトリクスの実践的特徴をさらに理解するために,顔の感情認識(FER)に使用される20のデータセットのケーススタディを行い,そのバイアスを分析した。 実験の結果,多くの指標は冗長であり,指標のサブセットは人口統計バイアスの量を測定するのに十分であることがわかった。 この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。 コードはhttps://github.com/irisdominguez/dataset_bias_metricsで入手できる。

Demographic biases in source datasets have been shown as one of the causes of unfairness and discrimination in the predictions of Machine Learning models. One of the most prominent types of demographic bias are statistical imbalances in the representation of demographic groups in the datasets. In this paper, we study the measurement of these biases by reviewing the existing metrics, including those that can be borrowed from other disciplines. We develop a taxonomy for the classification of these metrics, providing a practical guide for the selection of appropriate metrics. To illustrate the utility of our framework, and to further understand the practical characteristics of the metrics, we conduct a case study of 20 datasets used in Facial Emotion Recognition (FER), analyzing the biases present in them. Our experimental results show that many metrics are redundant and that a reduced subset of metrics may be sufficient to measure the amount of demographic bias. The paper provides valuable insights for researchers in AI and related fields to mitigate dataset bias and improve the fairness and accuracy of AI models. The code is available at https://github.com/irisdominguez/dataset_bias_metrics.
翻訳日:2023-03-29 15:26:05 公開日:2023-03-28
# 分散連続学習におけるデータ非依存統合のための投影型潜在蒸留

Projected Latent Distillation for Data-Agnostic Consolidation in Distributed Continual Learning ( http://arxiv.org/abs/2303.15888v1 )

ライセンス: Link先を確認
Antonio Carta, Andrea Cossu, Vincenzo Lomonaco, Davide Bacciu, Joost van de Weijer(参考訳) エッジ上の分散学習は、ローカルタスクを独立して学習し、他のSDCのパフォーマンスに寄与することを望まない自己中心型デバイス(SCD)を含むことが多い。 単一SCDの転送をゼロコストで行うにはどうすればよいか? SCDがローカルなタスクに適応し、CLモデルがSCDのプライベートデータを見ることなく、結果のモデルストリームからの知識を集約する分散連続学習シナリオとして、この問題を形式化する。 残念ながら、現在のCLメソッドはこのシナリオに直接適用できない。 本研究では,従来のデータを用いずにSCモデルのストリームを集約する新しい二重知識蒸留法であるData-Agnostic Consolidation (DAC)を提案する。 DACは、新しい射影潜水蒸留損失を通じて潜水空間で蒸留を行う。 実験結果から,DACはスプリットCIFAR100,CORe50,およびスプリットTinyImageNetにおいて,リハーサルフリーおよび分散CLシナリオの両方において,SCD間の転送と最先端の精度に達することができることがわかった。 多少意外なことに、単一の分散イメージでさえ、統合中の唯一のデータソースとして十分である。

Distributed learning on the edge often comprises self-centered devices (SCD) which learn local tasks independently and are unwilling to contribute to the performance of other SDCs. How do we achieve forward transfer at zero cost for the single SCDs? We formalize this problem as a Distributed Continual Learning scenario, where SCD adapt to local tasks and a CL model consolidates the knowledge from the resulting stream of models without looking at the SCD's private data. Unfortunately, current CL methods are not directly applicable to this scenario. We propose Data-Agnostic Consolidation (DAC), a novel double knowledge distillation method that consolidates the stream of SC models without using the original data. DAC performs distillation in the latent space via a novel Projected Latent Distillation loss. Experimental results show that DAC enables forward transfer between SCDs and reaches state-of-the-art accuracy on Split CIFAR100, CORe50 and Split TinyImageNet, both in reharsal-free and distributed CL scenarios. Somewhat surprisingly, even a single out-of-distribution image is sufficient as the only source of data during consolidation.
翻訳日:2023-03-29 15:25:48 公開日:2023-03-28
# 微分可能レンダリングを用いたヒトの新しいビュー合成

Novel View Synthesis of Humans using Differentiable Rendering ( http://arxiv.org/abs/2303.15880v1 )

ライセンス: Link先を確認
Guillaume Rochette, Chris Russell, Richard Bowden(参考訳) 本稿では,新しいポーズの人々の新しい視点を合成する新しいアプローチを提案する。 新たな微分可能レンダラにより,任意の視点から高精細な画像の合成が可能となる。 我々のレンダラーはメッシュベースの構造を操作するのではなく、人間の骨格構造を直接表現する拡散ガウス的プリミティブを利用する。 これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。 この定式化は、エンドツーエンドでトレーニング可能な、完全に微分可能なフレームワークを生み出します。 本研究では,human3.6mとpanoptic studioデータセットにおける画像再構成手法の有効性を示す。 本稿では, 個人間の動きの伝達, 単一のカメラから捉えた個人の新しい視点合成, 仮想的な視点から個人を合成, 新規なポーズで人々を再レンダリングする方法について述べる。 コードとビデオの結果はhttps://github.com/guillaumerochette/humanview synthesisで入手できる。

We present a new approach for synthesizing novel views of people in new poses. Our novel differentiable renderer enables the synthesis of highly realistic images from any viewpoint. Rather than operating over mesh-based structures, our renderer makes use of diffuse Gaussian primitives that directly represent the underlying skeletal structure of a human. Rendering these primitives gives results in a high-dimensional latent image, which is then transformed into an RGB image by a decoder network. The formulation gives rise to a fully differentiable framework that can be trained end-to-end. We demonstrate the effectiveness of our approach to image reconstruction on both the Human3.6M and Panoptic Studio datasets. We show how our approach can be used for motion transfer between individuals; novel view synthesis of individuals captured from just a single camera; to synthesize individuals from any virtual viewpoint; and to re-render people in novel poses. Code and video results are available at https://github.com/GuillaumeRochette/HumanViewSynthesis.
翻訳日:2023-03-29 15:25:22 公開日:2023-03-28
# Deep Selection: 手術記録のための完全な監視カメラ選択ネットワーク

Deep Selection: A Fully Supervised Camera Selection Network for Surgery Recordings ( http://arxiv.org/abs/2303.15947v1 )

ライセンス: Link先を確認
Ryo Hachiuma, Tomohiro Shimizu, Hideo Saito, Hiroki Kajita, Yoshifumi Takatsume(参考訳) 手術室での手術記録は,医療の教育・評価に欠かせない課題である。 しかし, 手術現場, 手術器具, 医師の手などの所望の目標を記録することは, 手術中, 目標がかなり遮蔽されているため困難である。 我々は,複数のカメラを手術用ランプに埋め込んだ記録システムを用いて,少なくとも1台のカメラが任意の時間に閉塞なくターゲットを記録していると仮定する。 組込みカメラは複数のビデオシーケンスを取得できるため,手術の最良の視点でカメラを選択する作業に対処する。 手術現場の面積の大きさに基づいてカメラを選択する従来の方法とは異なり、専門家アノテーションの監督を学習し、複数のビデオシーケンスからカメラ選択確率を予測するディープニューラルネットワークを提案する。 我々は6種類のプラスティック手術を記録するデータセットを作成し、カメラスイッチングのアノテーションを提供した。 実験の結果,提案手法は3つのベースライン法を上回ってカメラを切り替えることに成功した。

Recording surgery in operating rooms is an essential task for education and evaluation of medical treatment. However, recording the desired targets, such as the surgery field, surgical tools, or doctor's hands, is difficult because the targets are heavily occluded during surgery. We use a recording system in which multiple cameras are embedded in the surgical lamp, and we assume that at least one camera is recording the target without occlusion at any given time. As the embedded cameras obtain multiple video sequences, we address the task of selecting the camera with the best view of the surgery. Unlike the conventional method, which selects the camera based on the area size of the surgery field, we propose a deep neural network that predicts the camera selection probability from multiple video sequences by learning the supervision of the expert annotation. We created a dataset in which six different types of plastic surgery are recorded, and we provided the annotation of camera switching. Our experiments show that our approach successfully switched between cameras and outperformed three baseline methods.
翻訳日:2023-03-29 15:20:05 公開日:2023-03-28
# インダクティブレコメンデーションのための項目グラフ畳み込み協調フィルタリング

Item Graph Convolution Collaborative Filtering for Inductive Recommendations ( http://arxiv.org/abs/2303.15946v1 )

ライセンス: Link先を確認
Edoardo D'Amico, Khalil Muhammad, Elias Tragos, Barry Smyth, Neil Hurley, Aonghus Lawlor(参考訳) グラフ畳み込みネットワーク(GCN)は、最近、リコメンダシステムアルゴリズムの構築においてコアコンポーネントとして採用され、二部グラフのエッジとしてユーザ間相互作用を解釈している。 しかし、副次的な情報がない場合、既存のモデルのほとんどは、ユーザ埋め込みをランダムに初期化し、トレーニングプロセスを通して最適化するアプローチを採用している。 この戦略は、これらのアルゴリズムを本質的にトランスダクティブにし、トレーニング時に目に見えないユーザのための予測を生成する能力を縮める。 この問題に対処するために,暗黙のユーザ・イテムインタラクションデータのみに依存する畳み込みに基づくアルゴリズムを提案する。 本稿では,両部相互作用ネットワークの重み付き投影による項目図の構築と,アイテムの埋め込みに高次関連を注入するための畳み込みを,相互作用した項目の重み付き和としてユーザ表現を構築しながら提案する。 ユーザ毎に個別の埋め込みをトレーニングしていないにもかかわらず、このアプローチは4つの実世界のデータセットのトランスダクティブベースラインに関して最先端のレコメンデーションパフォーマンスを達成し、同時に堅牢なインダクティブパフォーマンスを示します。

Graph Convolutional Networks (GCN) have been recently employed as core component in the construction of recommender system algorithms, interpreting user-item interactions as the edges of a bipartite graph. However, in the absence of side information, the majority of existing models adopt an approach of randomly initialising the user embeddings and optimising them throughout the training process. This strategy makes these algorithms inherently transductive, curtailing their ability to generate predictions for users that were unseen at training time. To address this issue, we propose a convolution-based algorithm, which is inductive from the user perspective, while at the same time, depending only on implicit user-item interaction data. We propose the construction of an item-item graph through a weighted projection of the bipartite interaction network and to employ convolution to inject higher order associations into item embeddings, while constructing user representations as weighted sums of the items with which they have interacted. Despite not training individual embeddings for each user our approach achieves state of-the-art recommendation performance with respect to transductive baselines on four real-world datasets, showing at the same time robust inductive performance.
翻訳日:2023-03-29 15:19:47 公開日:2023-03-28
# クラスタ型非教師付きドメイン適応によるディープスピーカー埋め込み

Cluster-Guided Unsupervised Domain Adaptation for Deep Speaker Embedding ( http://arxiv.org/abs/2303.15944v1 )

ライセンス: Link先を確認
Haiquan Mao, Feng Hong, Man-wai Mak(参考訳) 近年の研究では、擬似ラベルが話者認証のための教師なしドメイン適応(UDA)に寄与することが示されている。 既存の分類器を使ってラベルなしデータをラベル付けして再トレーニングするセルフトレーニング戦略に触発されて、ターゲットドメインデータをクラスタリングしてラベル付けし、ラベル付きソースドメインデータと擬似ラベル付きターゲットドメインデータを組み合わせて、話者埋め込みネットワークをトレーニングするクラスタ誘導型udaフレームワークを提案する。 クラスタ品質を向上させるために,クラスタ化専用の話者埋め込みネットワークを,コントラスト的中心損失を最小化することによりトレーニングする。 目標は、埋め込みと割り当てられたクラスタセンターの間の距離を減らし、埋め込みと他のクラスタセンターの間の距離を拡大することである。 提案手法は,ソースドメインとしてVoxCeleb2,ターゲットドメインとしてCN-Celeb1を用いて,対象ドメインからのラベルを使わずに,CN-Celeb1評価セット上で8.10%の誤差率(EER)が得られることを示す。 この結果、教師付きベースラインを39.6%上回り、このコーパスにおける最先端のUDAパフォーマンスである。

Recent studies have shown that pseudo labels can contribute to unsupervised domain adaptation (UDA) for speaker verification. Inspired by the self-training strategies that use an existing classifier to label the unlabeled data for retraining, we propose a cluster-guided UDA framework that labels the target domain data by clustering and combines the labeled source domain data and pseudo-labeled target domain data to train a speaker embedding network. To improve the cluster quality, we train a speaker embedding network dedicated for clustering by minimizing the contrastive center loss. The goal is to reduce the distance between an embedding and its assigned cluster center while enlarging the distance between the embedding and the other cluster centers. Using VoxCeleb2 as the source domain and CN-Celeb1 as the target domain, we demonstrate that the proposed method can achieve an equal error rate (EER) of 8.10% on the CN-Celeb1 evaluation set without using any labels from the target domain. This result outperforms the supervised baseline by 39.6% and is the state-of-the-art UDA performance on this corpus.
翻訳日:2023-03-29 15:19:25 公開日:2023-03-28
# ディジタル画像相関データ生成のための物理誘導対向ネットワーク

Physics-guided adversarial networks for artificial digital image correlation data generation ( http://arxiv.org/abs/2303.15939v1 )

ライセンス: Link先を確認
David Melching, Erik Schultheis, Eric Breitbarth(参考訳) デジタル画像相関(DIC)は, 機械的実験, 特に疲労き裂進展実験の評価において重要なツールとなっている。 この評価には亀裂経路と亀裂先端位置の正確な情報が必要である。 機械学習モデルは、ラベル付きDIC変位データから得られた関連情報を認識することに成功している。 十分に一般化された堅牢なモデルのトレーニングには、ビッグデータが必要です。 しかし、実験は高価で時間がかかるため、材料科学や工学の分野ではデータが不足することが多い。 物理誘導判別器を用いた生成逆数ネットワークを用いた合成DIC変位データを生成する。 データサンプルが実物か偽物かを決定するために、この判別器は、派生したvon Mises等価ひずみを受信する。 この物理誘導アプローチは, 試料の視覚的品質, スライスワッサースタイン距離, 幾何スコアの点で, よりよい結果をもたらすことが示されている。

Digital image correlation (DIC) has become a valuable tool in the evaluation of mechanical experiments, particularly fatigue crack growth experiments. The evaluation requires accurate information of the crack path and crack tip position, which is difficult to obtain due to inherent noise and artefacts. Machine learning models have been extremely successful in recognizing this relevant information given labelled DIC displacement data. For the training of robust models, which generalize well, big data is needed. However, data is typically scarce in the field of material science and engineering because experiments are expensive and time-consuming. We present a method to generate synthetic DIC displacement data using generative adversarial networks with a physics-guided discriminator. To decide whether data samples are real or fake, this discriminator additionally receives the derived von Mises equivalent strain. We show that this physics-guided approach leads to improved results in terms of visual quality of samples, sliced Wasserstein distance, and geometry score.
翻訳日:2023-03-29 15:19:01 公開日:2023-03-28
# 医用画像翻訳のためのK空間損失正規化fRegGAN

fRegGAN with K-space Loss Regularization for Medical Image Translation ( http://arxiv.org/abs/2303.15938v1 )

ライセンス: Link先を確認
Ivo M. Baltruschat, Felix Kreis, Alexander Hoelscher, Melanie Dohmen, Matthias Lenga(参考訳) GAN(Generative Adversarial Network)は、現実的な画像の生成において顕著な成功を示し、画像から画像への変換タスクの医療画像にますます利用されている。 しかし、GANは低周波の周波数バイアスに悩まされる傾向にあり、それによって生成された画像の重要な構造が取り除かれる。 この問題に対処するために、教師付きRegGANアプローチに基づく新しい周波数対応画像・画像翻訳フレームワーク(fRegGAN)を提案する。 このフレームワークは、生成した画像の周波数内容の規則化にK空間ロスを使用し、MRI K空間幾何のよく知られた特性を取り入れ、ネットワークトレーニングプロセスのガイドとなる。 この手法をRegGANアプローチと組み合わせることで、不整合データと周波数バイアスによるトレーニングの効果を同時に緩和することができる。 我々は,T1重み付きMR画像からT2重み付きT2重み付きを合成する際に,この手法をパブリックBraTSデータセット上で評価し,定量値と定性値の両方でベースライン法より優れていることを示す。 それぞれの修正が最終的なパフォーマンスに与える影響を理解するための詳細なアブレーション研究が提供される。 提案手法は,医用領域における画像間翻訳・合成の性能向上に向けたステップであり,画像処理・生成分野における他の応用への期待を示すものである。

Generative adversarial networks (GANs) have shown remarkable success in generating realistic images and are increasingly used in medical imaging for image-to-image translation tasks. However, GANs tend to suffer from a frequency bias towards low frequencies, which can lead to the removal of important structures in the generated images. To address this issue, we propose a novel frequency-aware image-to-image translation framework based on the supervised RegGAN approach, which we call fRegGAN. The framework employs a K-space loss to regularize the frequency content of the generated images and incorporates well-known properties of MRI K-space geometry to guide the network training process. By combine our method with the RegGAN approach, we can mitigate the effect of training with misaligned data and frequency bias at the same time. We evaluate our method on the public BraTS dataset and outperform the baseline methods in terms of both quantitative and qualitative metrics when synthesizing T2-weighted from T1-weighted MR images. Detailed ablation studies are provided to understand the effect of each modification on the final performance. The proposed method is a step towards improving the performance of image-to-image translation and synthesis in the medical domain and shows promise for other applications in the field of image processing and generation.
翻訳日:2023-03-29 15:18:46 公開日:2023-03-28
# PosterLayout:コンテンツ対応ビジュアルテキストプレゼンテーションレイアウトの新しいベンチマークとアプローチ

PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout ( http://arxiv.org/abs/2303.15937v1 )

ライセンス: Link先を確認
HsiaoYuan Hsu, Xiangteng He, Yuxin Peng, Hao Kong and Qing Zhang(参考訳) content-aware visual-textual presentation layoutは、テキスト、ロゴ、アンダーレイといった、テンプレートフリーなクリエイティブグラフィックデザインの鍵となる既定要素のための、与えられたキャンバス上の空間空間を配置することを目的としている。 ポスターデザインのような実用的な用途では、キャンバスは元々空っぽであり、要素間の関係と層間関係の両方が適切なレイアウトを生成する際に考慮されるべきである。 最近の作品ではこれらを同時に扱うが、レイアウトの多様性や空間的非アライメントの欠如など、グラフィック性能の低下に悩まされている。 コンテンツ対応のビジュアルテキスト表示レイアウトは新しいタスクであるため、まずPosterLayoutという新しいデータセットを構築し、9,974枚のポスターレイアウトペアと905枚の画像、すなわち空でないキャンバスで構成されている。 レイアウトのバラエティ、ドメインの多様性、コンテンツの多様性はより困難で便利です。 そこで我々は, 設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案し, 新しいCNN-LSTMベースの条件生成対向ネットワーク(GAN)を提案し, 適切なレイアウトを生成する。 具体的には、識別器は設計シーケンスを意識し、ジェネレータの「設計」プロセスを監督する。 実験により,新しいベンチマークの有用性と提案手法の有効性を検証し,多様なキャンバスに適したレイアウトを生成することにより,最適な性能を実現する。

Content-aware visual-textual presentation layout aims at arranging spatial space on the given canvas for pre-defined elements, including text, logo, and underlay, which is a key to automatic template-free creative graphic design. In practical applications, e.g., poster designs, the canvas is originally non-empty, and both inter-element relationships as well as inter-layer relationships should be concerned when generating a proper layout. A few recent works deal with them simultaneously, but they still suffer from poor graphic performance, such as a lack of layout variety or spatial non-alignment. Since content-aware visual-textual presentation layout is a novel task, we first construct a new dataset named PosterLayout, which consists of 9,974 poster-layout pairs and 905 images, i.e., non-empty canvases. It is more challenging and useful for greater layout variety, domain diversity, and content diversity. Then, we propose design sequence formation (DSF) that reorganizes elements in layouts to imitate the design processes of human designers, and a novel CNN-LSTM-based conditional generative adversarial network (GAN) is presented to generate proper layouts. Specifically, the discriminator is design-sequence-aware and will supervise the "design" process of the generator. Experimental results verify the usefulness of the new benchmark and the effectiveness of the proposed approach, which achieves the best performance by generating suitable layouts for diverse canvases.
翻訳日:2023-03-29 15:18:22 公開日:2023-03-28
# 長方形の天文学的高エネルギー過渡現象の探索:データ駆動アプローチ

Searching for long faint astronomical high energy transients: a data driven approach ( http://arxiv.org/abs/2303.15936v1 )

ライセンス: Link先を確認
Riccardo Crupi, Giuseppe Dilillo, Elisabetta Bissaldi, Fabrizio Fiore, Andrea Vacchi(参考訳) hermes (high energy rapid modular ensemble of satellites) pathfinderは6つの3uナノサテライトの星座で構成され、宇宙の高エネルギー過渡現象を監視するためのシンプルだが革新的な検出器をホストしている。 HERMESパスファインダーの主な目的は、小型ハードウェアを用いて高エネルギーの宇宙遷移物の正確な位置を求めることである。 過渡位置は、低軌道上でナノサテライトがホストする異なる検出器への信号の到着の遅延時間を調べることによって得られる。 この目的のために、目標は1マイクロ秒の精度を全体として達成することである。 この文脈では、HERMES Pathfinderの今後の科学的データ出力を完全に活用するための新しいツールを開発する必要がある。 本稿では,宇宙起源の高エネルギー検出器のバックグラウンドカウント率を評価するための新しい枠組みを提案する。 異なる時間スケールで背景光曲線を推定するためにニューラルネットワーク(nn)を用いる。 次に, 背景推定値に対して統計的に有意な超過が存在する観察セグメントを分離するために, 高速変化点および異常検出手法を用いた。 今回、nasaのファーミ・ガンマ線バーストモニター(gbm)から得られたアーカイブデータから、hermesパスファインダーと同じ大きさの収集エリアと背景レベルを持つ新しいソフトウェアをテストした。 NNの性能は高太陽活動と低太陽活動の両方の期間にわたって議論され分析された。 私たちはFermi/GBMカタログのイベントを確認することができ、Fermi/GBMデータベースには存在しないイベントを発見した。 さらに7つが選択され分析され、局所化の見積もりと暫定分類が提供される。

HERMES (High Energy Rapid Modular Ensemble of Satellites) pathfinder is an in-orbit demonstration consisting of a constellation of six 3U nano-satellites hosting simple but innovative detectors for the monitoring of cosmic high-energy transients. The main objective of HERMES Pathfinder is to prove that accurate position of high-energy cosmic transients can be obtained using miniaturized hardware. The transient position is obtained by studying the delay time of arrival of the signal to different detectors hosted by nano-satellites on low Earth orbits. To this purpose, the goal is to achive an overall accuracy of a fraction of a micro-second. In this context, we need to develop novel tools to fully exploit the future scientific data output of HERMES Pathfinder. In this paper, we introduce a new framework to assess the background count rate of a space-born, high energy detector; a key step towards the identification of faint astrophysical transients. We employ a Neural Network (NN) to estimate the background lightcurves on different timescales. Subsequently, we employ a fast change-point and anomaly detection technique to isolate observation segments where statistically significant excesses in the observed count rate relative to the background estimate exist. We test the new software on archival data from the NASA Fermi Gamma-ray Burst Monitor (GBM), which has a collecting area and background level of the same order of magnitude to those of HERMES Pathfinder. The NN performances are discussed and analyzed over period of both high and low solar activity. We were able to confirm events in the Fermi/GBM catalog and found events, not present in Fermi/GBM database, that could be attributed to Solar Flares, Terrestrial Gamma-ray Flashes, Gamma-Ray Bursts, Galactic X-ray flash. Seven of these are selected and analyzed further, providing an estimate of localisation and a tentative classification.
翻訳日:2023-03-29 15:17:56 公開日:2023-03-28
# 脳にインスパイアされたAIがAGIと出会う

When Brain-inspired AI Meets AGI ( http://arxiv.org/abs/2303.15935v1 )

ライセンス: Link先を確認
Lin Zhao, Lu Zhang, Zihao Wu, Yuzhong Chen, Haixing Dai, Xiaowei Yu, Zhengliang Liu, Tuo Zhang, Xintao Hu, Xi Jiang, Xiang Li, Dajiang Zhu, Dinggang Shen, Tianming Liu(参考訳) 人工知能(agi、artificial general intelligence)は、人類の長年の目標であり、人間ができるあらゆる知的タスクを遂行できる機械を作ることを目標としている。 そこでAGIの研究者たちは、人間の脳からインスピレーションを得て、その原理をインテリジェントマシンに再現しようとしている。 脳に触発された人工知能は、神経科学、心理学、コンピュータ科学の知見を組み合わせて、より効率的で強力なAIシステムを開発する、この取り組みから生まれた分野である。 本稿では,脳に触発されたAIについて,AGIの観点から概観する。 我々は、脳にインスパイアされたAIの現在の進歩と、AGIとの広範な関係から始める。 次に、人間の知性とAGI(例えば、スケーリング、マルチモーダリティ、推論)の両方の重要な特徴を取り上げます。 本稿では,現在のAIシステムにおけるAGIの実現に向けた重要な技術について論じる。 また,アルゴリズムとインフラの両面からAGIシステムの進化を考察する。 最後に,AGIの限界と将来について考察する。

Artificial General Intelligence (AGI) has been a long-standing goal of humanity, with the aim of creating machines capable of performing any intellectual task that humans can do. To achieve this, AGI researchers draw inspiration from the human brain and seek to replicate its principles in intelligent machines. Brain-inspired artificial intelligence is a field that has emerged from this endeavor, combining insights from neuroscience, psychology, and computer science to develop more efficient and powerful AI systems. In this article, we provide a comprehensive overview of brain-inspired AI from the perspective of AGI. We begin with the current progress in brain-inspired AI and its extensive connection with AGI. We then cover the important characteristics for both human intelligence and AGI (e.g., scaling, multimodality, and reasoning). We discuss important technologies toward achieving AGI in current AI systems, such as in-context learning and prompt tuning. We also investigate the evolution of AGI systems from both algorithmic and infrastructural perspectives. Finally, we explore the limitations and future of AGI.
翻訳日:2023-03-29 15:17:25 公開日:2023-03-28
# Sparse Blossom:最小ウェイトマッチングでコア毎秒100万エラーを修正する

Sparse Blossom: correcting a million errors per core second with minimum-weight matching ( http://arxiv.org/abs/2303.15933v1 )

ライセンス: Link先を確認
Oscar Higgott and Craig Gidney(参考訳) 本稿では,表面符号を含む数種類の量子誤り訂正符号に対して,最も広く使われているデコーダであるmwpm(minimum-weight perfect matching)デコーダの高速実装を提案する。 我々のアルゴリズムはスパース・フラワーと呼ばれ、量子誤り訂正に関連する復号問題を直接解決するフラワー・アルゴリズムの変種である。 Sparse flowerは、MWPMデコーダ実装に共通するオールツーオールのDijkstraサーチの必要性を回避する。 0.1%の回路レベルの偏光ノイズに対して、スパース・スパーク・シンドロームは、量子コンピュータによってシンドロームデータが生成される速度と一致する単一のコア上のシンドローム抽出の1ラウンドあたり1マイクロ秒未満で距離17のサーフェスコード回路のベースをX$とZ$で処理する。 当社の実装はオープンソースで,pymatchingライブラリのバージョン2でリリースされています。

In this work, we introduce a fast implementation of the minimum-weight perfect matching (MWPM) decoder, the most widely used decoder for several important families of quantum error correcting codes, including surface codes. Our algorithm, which we call sparse blossom, is a variant of the blossom algorithm which directly solves the decoding problem relevant to quantum error correction. Sparse blossom avoids the need for all-to-all Dijkstra searches, common amongst MWPM decoder implementations. For 0.1% circuit-level depolarising noise, sparse blossom processes syndrome data in both $X$ and $Z$ bases of distance-17 surface code circuits in less than one microsecond per round of syndrome extraction on a single core, which matches the rate at which syndrome data is generated by superconducting quantum computers. Our implementation is open-source, and has been released in version 2 of the PyMatching library.
翻訳日:2023-03-29 15:17:07 公開日:2023-03-28
# Unify, Align and Refine:マルチレベルセマンティックアライメントによる放射線診断レポート生成

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation ( http://arxiv.org/abs/2303.15932v1 )

ライセンス: Link先を確認
Yaowei L, Bang Yang, Xuxin Cheng, Zhihong Zhu, Hongxiang Li, Yuexian Zou(参考訳) 自動放射線学レポート生成は, 放射線技師の作業負荷軽減の実践的価値から, 膨大な研究関心を集めている。 しかし、画像(例えば、Chest X-ray)とその関連レポートと画像パッチとキーワードの局所的なアライメントのグローバルな対応を同時に確立することは困難である。 この目的のために,多段階のクロスモーダルアライメントを学習し,LSU(Latent Space Unifier),CRA(Cross-modal Representation Aligner),TIR(Text-to-Image Refiner)の3つの新しいモジュールを導入するためのUnify,Align, then Refine (UAR)アプローチを提案する。 特に、LSUはマルチモーダルデータを離散トークンに統一し、共有ネットワークを用いてモダリティ間の共通知識を学習する。 モダリティ非依存 cra は、まず正規直交基底と双対ゲート機構のセットを通して識別的特徴を学習し、次に三重項コントラスト損失の下で視覚的およびテキスト的表現をグローバルに調整する。 TIRは、学習可能なマスクでテキストと画像の注意を校正することでトークンレベルの局所アライメントを高める。 さらに,2段階の学習手順をデザインし,uarが様々なレベルにおけるクロスモーダルアライメントを徐々に把握できるようにし,放射線科医のワークフローを模倣した。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの大規模な実験と解析により、UARの様々な最先端手法に対する優位性を示す。

Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.
翻訳日:2023-03-29 15:16:48 公開日:2023-03-28
# SFHarmony:分散神経画像解析のためのソースフリードメイン適応

SFHarmony: Source Free Domain Adaptation for Distributed Neuroimaging Analysis ( http://arxiv.org/abs/2303.15965v1 )

ライセンス: Link先を確認
Nicola K Dinsdale, Mark Jenkinson, Ana IL Namburete(参考訳) 臨床画像集団の生物学的多様性を表現するためには,スキャナと研究をまたいだデータを組み合わせることが不可欠である。 しかし、異なるMRIスキャナは異なる特徴を持つ画像を生成するため、「調和問題」と呼ばれる領域シフトが生じる。 さらに、Neuroimaging dataは本質的に個人的であり、データを共有する際のプライバシー上の懸念につながります。 これらの障壁を克服するため,SFHarmony を用いた Unsupervised Source-Free Domain Adaptation (SFDA) 手法を提案する。 画像特徴をガウス混合モデルとしてモデル化し、ソースとターゲット特徴の間の適応したバッタリア距離を最小化することにより、適応やターゲットラベルのソースデータにアクセスすることなく、データ領域間で共有された特徴表現を持ちながら、ターゲットデータに対して良好に機能するモデルを作成することができる。 シミュレーションおよび実領域シフトにおける本手法の性能を実証し,アルゴリズムの変更を必要とせず,分類,セグメント化,回帰処理に適用可能であることを示す。 提案手法は,MRIの調和や一般のSFDA問題に対するアプローチの有用性を実証し,既存のSFDAアプローチよりも優れていることを示す。 私たちのコードは \url{https://github.com/nkdinsdale/SFHarmony} で利用可能です。

To represent the biological variability of clinical neuroimaging populations, it is vital to be able to combine data across scanners and studies. However, different MRI scanners produce images with different characteristics, resulting in a domain shift known as the `harmonisation problem'. Additionally, neuroimaging data is inherently personal in nature, leading to data privacy concerns when sharing the data. To overcome these barriers, we propose an Unsupervised Source-Free Domain Adaptation (SFDA) method, SFHarmony. Through modelling the imaging features as a Gaussian Mixture Model and minimising an adapted Bhattacharyya distance between the source and target features, we can create a model that performs well for the target data whilst having a shared feature representation across the data domains, without needing access to the source data for adaptation or target labels. We demonstrate the performance of our method on simulated and real domain shifts, showing that the approach is applicable to classification, segmentation and regression tasks, requiring no changes to the algorithm. Our method outperforms existing SFDA approaches across a range of realistic data scenarios, demonstrating the potential utility of our approach for MRI harmonisation and general SFDA problems. Our code is available at \url{https://github.com/nkdinsdale/SFHarmony}.
翻訳日:2023-03-29 15:09:43 公開日:2023-03-28
# 深部生成モデルによるマルチモーダル・マルチコントラスト画像融合

Multimodal and multicontrast image fusion via deep generative models ( http://arxiv.org/abs/2303.15963v1 )

ライセンス: Link先を確認
Giovanna Maria Dimitri, Simeon Spasov, Andrea Duggento, Luca Passamonti, Pietro Li`o, Nicola Toschi(参考訳) 近年,古典的診断ラベルが,いくつかの臨床表現型の複雑さや多様性を確実に記述できないことが次第に明らかになっている。 これは、幅広い神経精神医学疾患(うつ病、不安障害、行動表現型など)に対して特に当てはまる。 患者の不均一性は、伝統的なカテゴリー境界を越えて広がる横断性連続体の経験的に派生したセクションに基づいて、個人を新しいカテゴリに分類することでより良く説明できる。 この文脈では、神経画像データは各患者の脳に関する時空間的に解決された豊富な情報を運ぶ。 しかしながら、通常は、モデルトレーニングの一部としては学習されず、結果として下流予測タスクに最適化されない手順を通じて、優先度が大幅に崩れる。 これは、通常、各被験者は複数の脳の3D画像モダリティを伴い、しばしば深い遺伝子型と表現型の特徴が伴うため、重大な計算課題が生じるためである。 本稿では,モジュラーアプローチと分離可能な畳み込みブロックに根ざした生成モデルに基づくディープラーニングアーキテクチャを設計する。 a) ボクセルレベルで複数の3次元神経画像のモダリティを融合させる b) 重次元の縮小により情報を潜伏埋め込みに変換すること。 c) 良好な一般化性と情報損失を最小限に抑えること。 概念実証として, 優れた特徴を持つHuman Connectome Projectデータベース上でアーキテクチャを検証し, 潜伏埋め込みが容易に分離可能な対象層にクラスタ化され, 組込み生成プロセスに含まれない表現型情報にマップされることを示した。 これは、疾患の進化と薬物反応を予測する助けとなり、したがって機械的疾患の理解と臨床試験の強化を支援する。

Recently, it has become progressively more evident that classic diagnostic labels are unable to reliably describe the complexity and variability of several clinical phenotypes. This is particularly true for a broad range of neuropsychiatric illnesses (e.g., depression, anxiety disorders, behavioral phenotypes). Patient heterogeneity can be better described by grouping individuals into novel categories based on empirically derived sections of intersecting continua that span across and beyond traditional categorical borders. In this context, neuroimaging data carry a wealth of spatiotemporally resolved information about each patient's brain. However, they are usually heavily collapsed a priori through procedures which are not learned as part of model training, and consequently not optimized for the downstream prediction task. This is because every individual participant usually comes with multiple whole-brain 3D imaging modalities often accompanied by a deep genotypic and phenotypic characterization, hence posing formidable computational challenges. In this paper we design a deep learning architecture based on generative models rooted in a modular approach and separable convolutional blocks to a) fuse multiple 3D neuroimaging modalities on a voxel-wise level, b) convert them into informative latent embeddings through heavy dimensionality reduction, c) maintain good generalizability and minimal information loss. As proof of concept, we test our architecture on the well characterized Human Connectome Project database demonstrating that our latent embeddings can be clustered into easily separable subject strata which, in turn, map to different phenotypical information which was not included in the embedding creation process. This may be of aid in predicting disease evolution as well as drug response, hence supporting mechanistic disease understanding and empowering clinical trials.
翻訳日:2023-03-29 15:09:21 公開日:2023-03-28
# ascnet-ecg:ecgフィルタリングのための注意意識型スキップ接続ネットワーク

ASCNet-ECG: Deep Autoencoder based Attention aware Skip Connection network for ECG filtering ( http://arxiv.org/abs/2303.15960v1 )

ライセンス: Link先を確認
Raghavendra Badiger, M. Prabhakar(参考訳) 現在、遠隔医療モニタリング分野は、日々の生活で注目すべき用途のために、大きな注目を集めている。 この進歩により、電気生理学的信号のデータ収集が増加した。 この進歩により、心電図(ECG)信号監視が医療分野における主要な課題となっている。 心電図は心臓生理学や異常を解析することで医療分野で重要な役割を担っている。 しかし、これらの信号は、診断精度に影響を及ぼす電極運動、ベースラインワンダング、ホワイトノイズなど、様々なノイズの影響を受けている。 そのため、ECG信号のフィルタリングは重要な課題となった。 現在、ディープラーニングスキームは、特徴学習の効率的なアーキテクチャのため、信号フィルタリングタスクに広く採用されている。 本稿では,深層オートエンコーダモジュールに基づくecg信号フィルタリングのための深層学習に基づくスキームを提案する。 この方式により、データはエンコーダおよびデコーダ層を通して処理され、ノイズを除去して再構築される。 提案したディープラーニングアーキテクチャは、標準のReLUが大きなバリエーションに適応できないため、属性の学習を改善するために修正されたReLU関数を使用する。 さらに、これらの機能をデコーダ層にマッピングしながら、エンコーダ層の鍵となる特徴を保持するアーキテクチャにもスキップ接続が組み込まれている。 同様に、チャネルおよび空間的注意を行う注意モデルも含まれており、チャネルおよび平均プーリング操作を用いてロバストマップを生成し、学習性能を向上させる。 提案手法は、電極運動、ベースライン水、モーションアーティファクトなど、さまざまな種類のノイズがSNRレベルの元の信号に追加される、公開されているMIT-BIHデータセット上でテストされる。

Currently, the telehealth monitoring field has gained huge attention due to its noteworthy use in day-to-day life. This advancement has led to an increase in the data collection of electrophysiological signals. Due to this advancement, electrocardiogram (ECG) signal monitoring has become a leading task in the medical field. ECG plays an important role in the medical field by analysing cardiac physiology and abnormalities. However, these signals are affected due to numerous varieties of noises, such as electrode motion, baseline wander and white noise etc., which affects the diagnosis accuracy. Therefore, filtering ECG signals became an important task. Currently, deep learning schemes are widely employed in signal-filtering tasks due to their efficient architecture of feature learning. This work presents a deep learning-based scheme for ECG signal filtering, which is based on the deep autoencoder module. According to this scheme, the data is processed through the encoder and decoder layer to reconstruct by eliminating noises. The proposed deep learning architecture uses a modified ReLU function to improve the learning of attributes because standard ReLU cannot adapt to huge variations. Further, a skip connection is also incorporated in the proposed architecture, which retains the key feature of the encoder layer while mapping these features to the decoder layer. Similarly, an attention model is also included, which performs channel and spatial attention, which generates the robust map by using channel and average pooling operations, resulting in improving the learning performance. The proposed approach is tested on a publicly available MIT-BIH dataset where different types of noise, such as electrode motion, baseline water and motion artifacts, are added to the original signal at varied SNR levels.
翻訳日:2023-03-29 15:08:55 公開日:2023-03-28
# イジン・ハイゼンベルク・ダイヤモンドスピン1/2クラスターの進化における絡み合い

Entanglement of the Ising-Heisenberg diamond spin-1/2 cluster in evolution ( http://arxiv.org/abs/2303.15955v1 )

ライセンス: Link先を確認
A. R. Kuzmak(参考訳) 過去20年間、ダイヤモンドスピンクラスターと鎖の磁気的、熱力学的性質と二成分熱的絡み合いが研究されてきた。 このようなスピン構造は様々な化合物で示される。 天然鉱物のアズライト中のCu^{2+}$のイオンはダイヤモンドスピン鎖に配置される。 このような系の量子進化における絡み合い挙動の研究は存在しない。 ここでは、ダイヤモンドスピン1/2クラスターにおける絡み合いの進化について考察する。 このクラスターは、イジング相互作用を介して2つの側スピンと相互作用する異方性ハイゼンベルクモデルによって記述された2つの中心スピンからなる。 中心スピンの絡み合いに及ぼす側スピンとの相互作用結合の影響について検討した。 この結合の値を選択することで、中心スピン間の絡み合いの挙動を制御できることが示されている。 その結果,エンタングルメントの最大値を達成する条件が得られた。 さらに, 側スピン, 中心スピン, 側スピン間の絡み合い挙動と, 系の他の部分との絡み合いについて検討した。 これらの場合、最大エンタングルメントを達成するための条件も得られる。

In the last two decades, magnetic, thermodynamic properties and bipartite thermal entanglement in diamond spin clusters and chains have been studied. Such spin structures are presented in various compounds. The ions of $Cu^{2+}$ in the natural mineral azurite are arranged in a diamond spin chain. There are no studies of the entanglement behaviour during the quantum evolution of such systems. Herein, we consider the evolution of entanglement in the diamond spin-1/2 cluster. This cluster consists of two central spins described by the anisotropic Heisenberg model, which interact with two side spins via Ising interaction. The influence of the interaction coupling with side spins on the entanglement of central spins is investigated. It is shown that choosing the value of this coupling allows us to control the behaviour of entanglement between central spins. As a result, we find conditions for achieving the maximal values of entanglement. In addition, the entanglement behaviour between the side spins, central and side spins, and between a certain spin and the rest of the system is studied. In these cases, the conditions for achieving maximal entanglement are also obtained.
翻訳日:2023-03-29 15:08:29 公開日:2023-03-28
# TraffNet: ロードネットワークディジタル双生児のためのトラフィック生成の因果関係の学習

TraffNet: Learning Causality of Traffic Generation for Road Network Digital Twins ( http://arxiv.org/abs/2303.15954v1 )

ライセンス: Link先を確認
Ming Xu, Yunyi Ma, Ruimin Li, Geqi Qi, Xiangfu Meng, Haibo Jin(参考訳) 道路ネットワークデジタルツイン(RNDT)は、次世代のインテリジェント交通システムの開発において重要な役割を担い、より正確な交通計画と制御を可能にしている。 ジャスト・イン・タイム(JIT)意思決定をサポートするため、RNDTはオンラインセンサデータからトラフィックパターンを動的に学習し、高忠実度シミュレーション結果を生成するモデルを必要とする。 グラフニューラルネットワークに基づく現在の交通予測技術は、最先端の性能を達成したが、これらの手法は、交通需要や経路選択といった交通発生の原因を無視して、過去の交通データのマイニング相関によって、将来の交通を予測するだけである。 したがって、そのパフォーマンスはJITの判断には信頼できない。 このギャップを埋めるために,車両軌道データから交通量の因果関係を学習するtraffnetと呼ばれる新しいディープラーニングフレームワークを提案する。 まず,ヘテロジニアスグラフを用いて道路網を表現し,モデルが交通量の因果的特徴を取り入れられるようにした。 次に、交通分野の知識を活かした交通因果学習手法を提案し、各道路区間の走行要求と経路レベルの依存性を符号化した埋め込みベクトルを学習する。 そして、トラフィック生成の基盤となるプロセスに適合するように、時間的依存関係をモデル化する。 最後に、実験はTraffNetの有効性を検証する。 traffnetのコードはhttps://github.com/mayunyi-1999/traffnet_code.gitで入手できる。

Road network digital twins (RNDTs) play a critical role in the development of next-generation intelligent transportation systems, enabling more precise traffic planning and control. To support just-in-time (JIT) decision making, RNDTs require a model that dynamically learns the traffic patterns from online sensor data and generates high-fidelity simulation results. Although current traffic prediction techniques based on graph neural networks have achieved state-of-the-art performance, these techniques only predict future traffic by mining correlations in historical traffic data, disregarding the causes of traffic generation, such as traffic demands and route selection. Therefore, their performance is unreliable for JIT decision making. To fill this gap, we introduce a novel deep learning framework called TraffNet that learns the causality of traffic volume from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic volumes. Next, motivated by the traffic domain knowledge, we propose a traffic causality learning method to learn an embedding vector that encodes travel demands and path-level dependencies for each road segment. Then, we model temporal dependencies to match the underlying process of traffic generation. Finally, the experiments verify the utility of TraffNet. The code of TraffNet is available at https://github.com/mayunyi-1999/TraffNet_code.git.
翻訳日:2023-03-29 15:08:14 公開日:2023-03-28
# 繰り返し再資源化によるランダム初期化サブネット

Randomly Initialized Subnetworks with Iterative Weight Recycling ( http://arxiv.org/abs/2303.15953v1 )

ライセンス: Link先を確認
Matt Gorbett, Darrell Whitley(参考訳) マルチプライズ抽選券仮説は、ランダムに初期化されたニューラルネットワークには、同じアーキテクチャの完全に訓練されたモデルと同等の精度を達成するいくつかのサブネットワークが含まれていると仮定している。 しかし、現在の手法ではネットワークが十分に過度にパラメータ化されている必要がある。 本研究では,2つの最先端アルゴリズム(Edge-PopupとBiprop)を改良し,ストレージコストやスケーリングを伴わない高精度サブネットワークを提案する。 このアルゴリズムは、層内再利用のためにランダムに初期化されたネットワーク内で重要な重みのサブセットを同定する。 経験的に、より小さなネットワークアーキテクチャとより高いプーンレートの改善を示し、既存の重みの「リサイクル」によってモデル空間が拡大できることを見出した。 繰り返し重みのリサイクルに加えて,マルチプライズ抽選券仮説を補完し,高精度,ランダム初期化サブネットワークは,同一のハイパーパラメータとプルーニング戦略で生成されたにもかかわらず,多様なマスクを生産する。 我々はこれらのマスクの景観を探索し、高い変動性を示す。

The Multi-Prize Lottery Ticket Hypothesis posits that randomly initialized neural networks contain several subnetworks that achieve comparable accuracy to fully trained models of the same architecture. However, current methods require that the network is sufficiently overparameterized. In this work, we propose a modification to two state-of-the-art algorithms (Edge-Popup and Biprop) that finds high-accuracy subnetworks with no additional storage cost or scaling. The algorithm, Iterative Weight Recycling, identifies subsets of important weights within a randomly initialized network for intra-layer reuse. Empirically we show improvements on smaller network architectures and higher prune rates, finding that model sparsity can be increased through the "recycling" of existing weights. In addition to Iterative Weight Recycling, we complement the Multi-Prize Lottery Ticket Hypothesis with a reciprocal finding: high-accuracy, randomly initialized subnetwork's produce diverse masks, despite being generated with the same hyperparameter's and pruning strategy. We explore the landscapes of these masks, which show high variability.
翻訳日:2023-03-29 15:07:50 公開日:2023-03-28
# F$^{2}$-NeRF:自由カメラ軌道を用いた高速神経放射場訓練

F$^{2}$-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories ( http://arxiv.org/abs/2303.15951v1 )

ライセンス: Link先を確認
Peng Wang, Yuan Liu, Zhaoxi Chen, Lingjie Liu, Ziwei Liu, Taku Komura, Christian Theobalt, Wenping Wang(参考訳) 本稿では,新しいビュー合成のためのグリッドベースの新しいNeRFF2-NeRF(Fast-Free-NeRF)を提案する。 Instant-NGP、Plenoxels、DVGO、TensoRFといった既存の高速グリッドベースのNeRFトレーニングフレームワークは、主に有界シーン用に設計されており、無界シーンを扱うためにスペースワープに依存している。 既存の2つの空間ウォーピング法は前方の軌道や360度物体中心軌道のためにしか設計されていないが、任意の軌道を処理できない。 本稿では,境界のないシーンを扱うために,空間ウォーピングのメカニズムを深く掘り下げる。 そこで本研究では, グリッドベースのnrfフレームワークにおいて任意の軌道を処理できる, パースペクティブウォーピングと呼ばれる新しい空間ウォーピング法を提案する。 大規模な実験により、F2-NeRFは2つの標準データセットと、私たちによって収集された新しい自由軌跡データセットに高品質な画像をレンダリングするために、同じ視点のワープを利用できることが示された。 プロジェクトページ: https://totoro97.github.io/projects/f2-nerf。

This paper presents a novel grid-based NeRF called F2-NeRF (Fast-Free-NeRF) for novel view synthesis, which enables arbitrary input camera trajectories and only costs a few minutes for training. Existing fast grid-based NeRF training frameworks, like Instant-NGP, Plenoxels, DVGO, or TensoRF, are mainly designed for bounded scenes and rely on space warping to handle unbounded scenes. Existing two widely-used space-warping methods are only designed for the forward-facing trajectory or the 360-degree object-centric trajectory but cannot process arbitrary trajectories. In this paper, we delve deep into the mechanism of space warping to handle unbounded scenes. Based on our analysis, we further propose a novel space-warping method called perspective warping, which allows us to handle arbitrary trajectories in the grid-based NeRF framework. Extensive experiments demonstrate that F2-NeRF is able to use the same perspective warping to render high-quality images on two standard datasets and a new free trajectory dataset collected by us. Project page: https://totoro97.github.io/projects/f2-nerf.
翻訳日:2023-03-29 15:07:29 公開日:2023-03-28
# コンピュータネットワークのための時間グラフモデリングのための音源分離手法

A source separation approach to temporal graph modelling for computer networks ( http://arxiv.org/abs/2303.15950v1 )

ライセンス: Link先を確認
Corentin Larroche(参考訳) エンタープライズコンピュータネットワーク内の悪意のあるアクティビティを検出することは、時間的リンク予測タスクとしてフレーム化することができる。 時間とともにホスト間の通信を表す一連のグラフが与えられると、どのエッジを予測すべきか、あるいは、将来は不正確なのか、といったことが目標である。 しかし、標準的な時間的リンク予測アルゴリズムは、鋭い季節変動を示すコンピュータネットワークアクティビティの特異な短期的ダイナミクスを考慮していないため、コンピュータネットワーク監視には不向きである。 より優れたモデルを構築するために,コンピュータネットワーク活動のソース分離に触発された記述法を提案する。各ステップにおいて観測されたグラフは,様々な活動源を表すサブグラフと,混合係数の変化による短期的ダイナミクスの混合である。 定性的かつ定量的な実験は、我々のアプローチの有効性を示す。

Detecting malicious activity within an enterprise computer network can be framed as a temporal link prediction task: given a sequence of graphs representing communications between hosts over time, the goal is to predict which edges should--or should not--occur in the future. However, standard temporal link prediction algorithms are ill-suited for computer network monitoring as they do not take account of the peculiar short-term dynamics of computer network activity, which exhibits sharp seasonal variations. In order to build a better model, we propose a source separation-inspired description of computer network activity: at each time step, the observed graph is a mixture of subgraphs representing various sources of activity, and short-term dynamics result from changes in the mixing coefficients. Both qualitative and quantitative experiments demonstrate the validity of our approach.
翻訳日:2023-03-29 15:07:05 公開日:2023-03-28
# 微分とKMS-対称量子マルコフ半群

Derivations and KMS-Symmetric Quantum Markov Semigroups ( http://arxiv.org/abs/2303.15949v1 )

ライセンス: Link先を確認
Matthijs Vernooij and Melchior Wirth(参考訳) 我々は、KMS対称量子マルコフ半群の$L^2$実装の生成元がヒルベルト双加群における値を持つ導出の正方形として表現できることを証明し、Cipriani と Sauvageot によるトランザクシャル対称半群に対する以前の結果と GNS 対称半群に対する二番目の著者について拡張する。 この結果は GNS ヒルベルト空間上の有界作用素の代数上の新しい完全正の写像の導入によるものである。 この変換は対称マルコフ作用素を対称マルコフ作用素に写像し、ヒルベルト双加群上の必要内積を得るのに必須である。

We prove that the generator of the $L^2$ implementation of a KMS-symmetric quantum Markov semigroup can be expressed as the square of a derivation with values in a Hilbert bimodule, extending earlier results by Cipriani and Sauvageot for tracially symmetric semigroups and the second-named author for GNS-symmetric semigroups. This result hinges on the introduction of a new completely positive map on the algebra of bounded operators on the GNS Hilbert space. This transformation maps symmetric Markov operators to symmetric Markov operators and is essential to obtain the required inner product on the Hilbert bimodule.
翻訳日:2023-03-29 15:06:50 公開日:2023-03-28
# 球面高調波を再訪したスパースガウス過程

Sparse Gaussian Processes with Spherical Harmonic Features Revisited ( http://arxiv.org/abs/2303.15948v1 )

ライセンス: Link先を確認
Stefanos Eleftheriadis, Dominic Richards, James Hensman(参考訳) 球面調和特性を持つガウス過程モデルを再検討し、関連するRKHS、固有構造および深部モデル間の接続を研究する。 これに基づいて、連続深さの深いモデルに対応する新しいカーネルのクラスを導入する。 我々の定式化では、証拠を下限に最適化することで、深さをカーネルハイパーパラメータとして推定することができる。 さらに,球面調和位相の変動学習により固有基底のスパース性を導入する。 これにより、従来よりも大きな入力次元へのスケーリングが可能になると同時に、高周波変動の学習も可能になる。 機械学習ベンチマークデータセットに対するアプローチを検証する。

We revisit the Gaussian process model with spherical harmonic features and study connections between the associated RKHS, its eigenstructure and deep models. Based on this, we introduce a new class of kernels which correspond to deep models of continuous depth. In our formulation, depth can be estimated as a kernel hyper-parameter by optimizing the evidence lower bound. Further, we introduce sparseness in the eigenbasis by variational learning of the spherical harmonic phases. This enables scaling to larger input dimensions than previously, while also allowing for learning of high frequency variations. We validate our approach on machine learning benchmark datasets.
翻訳日:2023-03-29 15:06:35 公開日:2023-03-28
# 半教師付き回帰深層学習モデルを用いた古絵画の平織りにおけるスレッドカウント

Thread Counting in Plain Weave for Old Paintings Using Semi-Supervised Regression Deep Learning Models ( http://arxiv.org/abs/2303.15999v1 )

ライセンス: Link先を確認
A. D. Benjarano, Juan J. Murillo-Fuentes, and Laura Alba-Carcelen(参考訳) 本研究では, 深層学習に基づく回帰手法を開発し, 平織りキャンバス解析のためのスレッド密度推定を行う。 以前のアプローチはフーリエ解析に基づいており、これはいくつかのシナリオでは非常に堅牢だが、他のいくつかの機械学習ツールでは失敗し、手前の絵を事前にラベル付けしたり、事前にラベル付けする必要のないすべてのシナリオにおいて適切な推定を提供するスレッド交差点のセグメンテーションを含む。 交差点の特定後に密度の推定を行うため,セグメント化手法は時間を要する。 本稿では、回帰ディープラーニングモデルを用いて、画像から直接スレッドの密度を計算することにより、このステップを回避する。 また、入力画像の初期前処理にいくつかの改善を加え、最終的なエラーに影響を及ぼす。 いくつかのモデルが提案され、最良のモデルを維持するために分析されます。 さらに,半教師付きアプローチを導入することで,密度推定誤差をさらに低減する。 提案アルゴリズムの性能は,Ribera,Vel\azquez,Poussinの3つの手法を用いて解析し,従来の手法と比較した。 最後に、この手法は、プラド美術館の著者や傑作の変更を支援するために実践されている。

In this work the authors develop regression approaches based on deep learning to perform thread density estimation for plain weave canvas analysis. Previous approaches were based on Fourier analysis, that are quite robust for some scenarios but fail in some other, in machine learning tools, that involve pre-labeling of the painting at hand, or the segmentation of thread crossing points, that provides good estimations in all scenarios with no need of pre-labeling. The segmentation approach is time-consuming as estimation of the densities is performed after locating the crossing points. In this novel proposal, we avoid this step by computing the density of threads directly from the image with a regression deep learning model. We also incorporate some improvements in the initial preprocessing of the input image with an impact on the final error. Several models are proposed and analyzed to retain the best one. Furthermore, we further reduce the density estimation error by introducing a semi-supervised approach. The performance of our novel algorithm is analyzed with works by Ribera, Vel\'azquez, and Poussin where we compare our results to the ones of previous approaches. Finally, the method is put into practice to support the change of authorship or a masterpiece at the Museo del Prado.
翻訳日:2023-03-29 15:00:30 公開日:2023-03-28
# HiLo:unbiased Panoptic Scene Graph 生成のための高周波数関係の爆発

HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic Scene Graph Generation ( http://arxiv.org/abs/2303.15994v1 )

ライセンス: Link先を確認
Zijian Zhou, Miaojing Shi, Holger Caesar(参考訳) パノプティック・シーングラフ生成(PSG)は画像シーン理解において最近提案された課題であり、被験者、対象物、それらの関係を分割してシーングラフを構築することを目的としている。 この課題は2つの理由から特に難しい。 第一に、関係カテゴリーの長い問題に悩まされ、偏りのある手法が高周波関係に傾いている。 既存の非バイアス法は、低周波関係を好むデータ/損失再バランスによって、ロングテール問題に取り組む。 第二に、対象と対象のペアは2つ以上の意味的に重なり合う関係を持つことができる。 既存の手法は相互に有利だが,提案するHiLoフレームワークでは,低周波・高周波関係に特化して,その一貫性を強制し,結果を融合させる。 我々の知る限りでは、我々は最初に明らかに偏りのないPSG法を提案する。 広範にわたる実験により,我々のHiLoフレームワークはPSGタスクにおける最先端の処理結果が得られることを示した。 また、マスクの代わりにボックスを予測するScene Graph Generationタスクにもメソッドを適用し、すべてのベースラインメソッドの改善を確認します。

Panoptic Scene Graph generation (PSG) is a recently proposed task in image scene understanding that aims to segment the image and extract triplets of subjects, objects and their relations to build a scene graph. This task is particularly challenging for two reasons. First, it suffers from a long-tail problem in its relation categories, making naive biased methods more inclined to high-frequency relations. Existing unbiased methods tackle the long-tail problem by data/loss rebalancing to favor low-frequency relations. Second, a subject-object pair can have two or more semantically overlapping relations. While existing methods favor one over the other, our proposed HiLo framework lets different network branches specialize on low and high frequency relations, enforce their consistency and fuse the results. To the best of our knowledge we are the first to propose an explicitly unbiased PSG method. In extensive experiments we show that our HiLo framework achieves state-of-the-art results on the PSG task. We also apply our method to the Scene Graph Generation task that predicts boxes instead of masks and see improvements over all baseline methods.
翻訳日:2023-03-29 15:00:10 公開日:2023-03-28
# SELF-VS:ビデオ要約のための自己教師型エンコーディング学習

SELF-VS: Self-supervised Encoding Learning For Video Summarization ( http://arxiv.org/abs/2303.15993v1 )

ライセンス: Link先を確認
Hojjat Mokhtarabadi, Kave Bahraman, Mehrdad HosseinZadeh, Mahdi Eftekhari(参考訳) 幅広い応用にもかかわらず、ビデオ要約は、フレームレベルのアノテーションの労働集約的かつコストのかかる性質のため、広範囲なデータセットの不足によって、いまだに抑制されている。 その結果、既存のビデオ要約手法は過度に適合しがちである。 この課題を軽減するために,知識蒸留を用いた自己教師付きビデオ表現学習手法を提案し,トランスフォーマーエンコーダの事前学習を行う。 本手法は,映像分類を訓練したcnnから得られた表現と,フレーム重要度スコアに基づいて構築した意味的映像表現と一致する。 Kendallの$\tau$やSpearmanの$\rho$のような相関に基づくメトリクスに関する実証的な評価は、入力フレームに相対スコアを割り当てる既存の最先端手法と比較して、我々のアプローチの優位性を示している。

Despite its wide range of applications, video summarization is still held back by the scarcity of extensive datasets, largely due to the labor-intensive and costly nature of frame-level annotations. As a result, existing video summarization methods are prone to overfitting. To mitigate this challenge, we propose a novel self-supervised video representation learning method using knowledge distillation to pre-train a transformer encoder. Our method matches its semantic video representation, which is constructed with respect to frame importance scores, to a representation derived from a CNN trained on video classification. Empirical evaluations on correlation-based metrics, such as Kendall's $\tau$ and Spearman's $\rho$ demonstrate the superiority of our approach compared to existing state-of-the-art methods in assigning relative scores to the input frames.
翻訳日:2023-03-29 14:59:49 公開日:2023-03-28
# Webにおけるモロッコ方言テキストの感性分類に関する実験的研究

An Experimental Study on Sentiment Classification of Moroccan dialect texts in the web ( http://arxiv.org/abs/2303.15987v1 )

ライセンス: Link先を確認
Mouad Jbel, Imad Hafidi, Abdulmutallib Metrane(参考訳) ソーシャルメディアの利用が急速に増加し,利用者のフィードバックがオンライン上での傾向や行動を評価する上で重要な課題となった。 この膨大な情報とアラビア語利用者の増加にもかかわらず、アラビア語方言を扱った研究は少ない。 本研究の目的は,実モロッコ語テキストで表現された意見と感情を,感情分析によく知られた手法を用いてyoutubeコメントで正確に検討することである。 本稿では,機械学習(ML)モデルを用いたモロッコ語の方言コメント分類について,収集および手動注釈付きYouTubeモロッコ語の方言データセットに基づいて述べる。 k-nearest neighbors (KNN)、Support Vector Machine (SVM)、Naive Bayes (NB)、Deep Learning (DL)、Convolutional Neural Network (CNN)、Long Short-Term Memory (LTSM)といった多くのテキスト前処理とデータ表現技術を用いて分類結果を比較することを目的としている。 生データと前処理データの両方を用いて,前処理の重要性を示す実験を行った。 実際、実験の結果、DLモデルは古典的アプローチよりもモロッコ方言の方が優れた性能を示し、90%の精度を達成した。

With the rapid growth of the use of social media websites, obtaining the users' feedback automatically became a crucial task to evaluate their tendencies and behaviors online. Despite this great availability of information, and the increasing number of Arabic users only few research has managed to treat Arabic dialects. The purpose of this paper is to study the opinion and emotion expressed in real Moroccan texts precisely in the YouTube comments using some well-known and commonly used methods for sentiment analysis. In this paper, we present our work of Moroccan dialect comments classification using Machine Learning (ML) models and based on our collected and manually annotated YouTube Moroccan dialect dataset. By employing many text preprocessing and data representation techniques we aim to compare our classification results utilizing the most commonly used supervised classifiers: k-nearest neighbors (KNN), Support Vector Machine (SVM), Naive Bayes (NB), and deep learning (DL) classifiers such as Convolutional Neural Network (CNN) and Long Short-Term Memory (LTSM). Experiments were performed using both raw and preprocessed data to show the importance of the preprocessing. In fact, the experimental results prove that DL models have a better performance for Moroccan Dialect than classical approaches and we achieved an accuracy of 90%.
翻訳日:2023-03-29 14:59:09 公開日:2023-03-28
# 1次元および準1次元Aubry-Andr\'{e}-Harper格子の電気的アナログ

Electrical analogue of one-dimensional and quasi-one-dimensional Aubry-Andr\'{e}-Harper lattices ( http://arxiv.org/abs/2303.15983v1 )

ライセンス: Link先を確認
Sudin Ganguly and Santanu K. Maiti(参考訳) 本研究は,電気回路における相関障害を実現する可能性について考察し,2ポートインピーダンスの観点から局所化現象を研究する。 相関障害は、Aubry-Andr\'{e}-Harper(AAH)モデルを用いて取り込まれる。 1次元および準1次元のAAH構造を探索し、その密結合アナログで直接マッピングする。 回路には、高導電相から低導電相への遷移が観察される。

The present work discusses the possibility to realize correlated disorder in electrical circuits and studies the localization phenomena in terms of two-port impedance. The correlated disorder is incorporated using the Aubry-Andr\'{e}-Harper (AAH) model. One-dimensional and quasi-one-dimensional AAH structures are explored and directly mapped with their tight-binding analogues. Transitions from the high-conducting phase to the low-conducting one are observed for the circuits.
翻訳日:2023-03-29 14:58:47 公開日:2023-03-28
# 量子ウォーク(quantum walk on the line) - 乱れ、絡み合い、局在

Coined Quantum Walks on the Line: Disorder, Entanglement and Localization ( http://arxiv.org/abs/2303.15978v1 )

ライセンス: Link先を確認
Louie Hong Yao and Sascha Wald(参考訳) 量子ウォークの拡散・絡み合い特性に及ぼす乱れの影響について検討した。 具体的には、量子ウォークをライン上で考慮し、コイン操作におけるクエンチド障害の影響を探究する。 コインの乱れは, 量子ウォークの通常の弾道輸送特性を大きく変化させ, 局所化挙動の強い証拠とともに, 極めて遅いダイナミクスをもたらすことが判明した。 歩行確率の異なる特性を標準ハダマール歩行と比較し, このスローダイナミクスについて検討した。 ウォーカー分布とそれに関連する多くの特性は、コイン障害によって著しく変化していることがわかった。 硬貨の乱れが絡み合い特性に及ぼす影響に特に焦点が当てられている。 一般に、コイン障害はコインウォーカーの絡み合いを減少させる。 エンタングルメント特性の挙動は、コイン障害がコイン量子ウォークにおける局在化を引き起こすという前提をさらに支持する。

We investigate the influence of disorder on the spreading and entanglement properties of coined quantum walks. Specifically, we consider quantum walks on the line and explore the effects of quenched disorder in the coin operations. We find that coin disorder alters the usual ballistic transport properties of coined quantum walks considerably and yields an extremely slow dynamics with strong evidence for localization behavior. We investigate this slow dynamics by comparing different properties of the walker occupation probability with the standard Hadamard walk. We find that the walker distribution, and a number of properties associated with it, are significantly altered by the coin disorder. Special focus is given to the influence of coin disorder on entanglement properties. We observe that generically, coin disorder decreases the coin-walker entanglement. The behavior of the entanglement properties further supports the premise that coin disorder induces localization in coined quantum walks.
翻訳日:2023-03-29 14:58:41 公開日:2023-03-28
# 大規模事前学習モデルの創発的新発見は驚くほど強力である

Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery ( http://arxiv.org/abs/2303.15975v1 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) ラベルのないデータから新しい概念を連続的に発見することは、生涯学習者にとって重要なデシドラタムである。 文献では、そのような問題は、新しい概念(例えば、NCD)を発見するためにラベル付きデータへのアクセスを提供するか、限られた段階(例えば、クラス-iNCD)で学習を行う、非常に制限された設定の下で部分的に解決されている。 本研究では,現状に挑戦し,msc-incdと呼ばれる,大規模事前学習モデルからの豊富な事前知識を活用しながら,継続的にかつ教師なしに学習を行う,より挑戦的で実践的な学習パラダイムを提案する。 この目的のために,より長い学習シナリオ下ではレジリエンスであるだけでなく,高度な最先端手法と比較して驚くほど強い,シンプルなベースラインを提案する。 我々は、多数のベンチマークで広範な実験的な評価を行い、提案したベースラインの有効性を示し、バーを著しく高めている。

Discovering novel concepts from unlabelled data and in a continuous manner is an important desideratum of lifelong learners. In the literature such problems have been partially addressed under very restricted settings, where either access to labelled data is provided for discovering novel concepts (e.g., NCD) or learning occurs for a limited number of incremental steps (e.g., class-iNCD). In this work we challenge the status quo and propose a more challenging and practical learning paradigm called MSc-iNCD, where learning occurs continuously and unsupervisedly, while exploiting the rich priors from large-scale pre-trained models. To this end, we propose simple baselines that are not only resilient under longer learning scenarios, but are surprisingly strong when compared with sophisticated state-of-the-art methods. We conduct extensive empirical evaluation on a multitude of benchmarks and show the effectiveness of our proposed baselines, which significantly raises the bar.
翻訳日:2023-03-29 14:58:28 公開日:2023-03-28
# 脳磁図用全光非零場ベクトル磁気センサ

All-Optical Nonzero-Field Vector Magnetic Sensor For Magnetoencephalography ( http://arxiv.org/abs/2303.15974v1 )

ライセンス: Link先を確認
Mikhail V. Petrenko, Anatoly S. Pazgalev, and Anton K. Vershovskii(参考訳) 非ゼロ磁場脳磁図や心磁図などの生体応用のために開発された全光ベクトル磁界センサ方式のコンセプトと成果について述べる。 The scheme differs from the classical two-beam Bell-Bloom scheme in that the detecting laser beam is split into two beams, which are introduced into the cell in orthogonal directions, and the ratio of the amplitudes of the magnetic resonance signals in these beams and their phase difference are measured; strong optical pumping from the lower hyperfine level of the ground state ensures the resonance line narrowing, and detection in two beams is carried out in a balanced schemes by measuring the beam polarization rotation. 提案センサは, 8x8x8mm3セルにおける16 fT/Hz1/2のスカラー感度を推定し, 4x10-7 rad, 0.08'の角度感度を示した。

We present the concept and the results of an investigation of an all-optical vector magnetic field sensor scheme developed for biological applications such as non-zero field magnetoencephalography and magnetocardiography. The scheme differs from the classical two-beam Bell-Bloom scheme in that the detecting laser beam is split into two beams, which are introduced into the cell in orthogonal directions, and the ratio of the amplitudes of the magnetic resonance signals in these beams and their phase difference are measured; strong optical pumping from the lower hyperfine level of the ground state ensures the resonance line narrowing, and detection in two beams is carried out in a balanced schemes by measuring the beam polarization rotation. The proposed sensor is compact, resistant to variations of parameters of laser radiation and highly sensitive to the angle of deflection of the magnetic field vector - with an estimated scalar sensitivity of the order of 16 fT/Hz1/2 in 8x8x8 mm3 cell, an angular sensitivity of 4x10-7 rad, or 0.08'', was demonstrated.
翻訳日:2023-03-29 14:58:11 公開日:2023-03-28
# ニューラルトピックモデルは本当にドロップアウトが必要なのか? トピックモデリングにおけるドロップアウトの効果の分析

Do Neural Topic Models Really Need Dropout? Analysis of the Effect of Dropout in Topic Modeling ( http://arxiv.org/abs/2303.15973v1 )

ライセンス: Link先を確認
Suman Adhya, Avishek Lahiri, Debarshi Kumar Sanyal(参考訳) dropoutは、小さなデータセットでトレーニングされた大規模フィードフォワードニューラルネットワークのオーバーフィット問題を解決するために広く使われている正規化トリックである。 この正規化手法の有効性は畳み込みニューラルネットワークで広く研究されているが、教師なしモデル、特にvaeベースのニューラルネットワークのトピックモデルでは解析が不十分である。 本稿では,エンコーダのドロップアウトとvaeアーキテクチャのデコーダについて,コンテキスト化トピックモデル(ctm),prodlda(prodlda),組込みトピックモデル(etm)という,広く使用されている3つのトピックモデルについて,4つのデータセットを用いて分析した。 生成したトピックの品質と予測性能の観点から,これらのモデルに対するドロップアウト効果を特徴付ける。

Dropout is a widely used regularization trick to resolve the overfitting issue in large feedforward neural networks trained on a small dataset, which performs poorly on the held-out test subset. Although the effectiveness of this regularization trick has been extensively studied for convolutional neural networks, there is a lack of analysis of it for unsupervised models and in particular, VAE-based neural topic models. In this paper, we have analyzed the consequences of dropout in the encoder as well as in the decoder of the VAE architecture in three widely used neural topic models, namely, contextualized topic model (CTM), ProdLDA, and embedded topic model (ETM) using four publicly available datasets. We characterize the dropout effect on these models in terms of the quality and predictive performance of the generated topics.
翻訳日:2023-03-29 14:57:57 公開日:2023-03-28
# よいスパース一般化付加モデルの全集合の理解と探索

Understanding and Exploring the Whole Set of Good Sparse Generalized Additive Models ( http://arxiv.org/abs/2303.16047v1 )

ライセンス: Link先を確認
Zhi Chen, Chudi Zhong, Margo Seltzer, Cynthia Rudin(参考訳) 実際のアプリケーションでは、機械学習モデルとドメインエキスパートの相互作用が重要であるが、通常は単一のモデルのみを生成する古典的な機械学習パラダイムはそのような相互作用を促進するものではない。 ラショモン集合の近似と探索、すなわちすべての近似最適化モデルの集合は、ドメインの専門家が選択できる多様なモデルの集合を含む検索可能な空間をユーザに提供することで、この実用的な課題に対処できる。 本稿では,Rashomon集合のスパース一般化加法モデル (GAM) を効率よく正確に近似する手法を提案する。 我々は,GAMのラショウモン集合を固定支持集合の楕円体と近似し,これらの楕円体を用いて多数の異なる支持集合のラショウモン集合を近似するアルゴリズムを提案する。 近似ラショモン集合は,(1)モデルクラスにおける変数重要度の研究,(2)ユーザ指定制約(単調性,直接編集)下でのモデル探索,(3)突然の形状関数の変化など,実用上の課題を解決するための基礎となる。 近似ラショモン集合の忠実性とその実用的課題解決効果を実証する実験を行った。

In real applications, interaction between machine learning model and domain experts is critical; however, the classical machine learning paradigm that usually produces only a single model does not facilitate such interaction. Approximating and exploring the Rashomon set, i.e., the set of all near-optimal models, addresses this practical challenge by providing the user with a searchable space containing a diverse set of models from which domain experts can choose. We present a technique to efficiently and accurately approximate the Rashomon set of sparse, generalized additive models (GAMs). We present algorithms to approximate the Rashomon set of GAMs with ellipsoids for fixed support sets and use these ellipsoids to approximate Rashomon sets for many different support sets. The approximated Rashomon set serves as a cornerstone to solve practical challenges such as (1) studying the variable importance for the model class; (2) finding models under user-specified constraints (monotonicity, direct editing); (3) investigating sudden changes in the shape functions. Experiments demonstrate the fidelity of the approximated Rashomon set and its effectiveness in solving practical challenges.
翻訳日:2023-03-29 14:51:27 公開日:2023-03-28
# 大規模モデル生成モデルからの最適空間デコンボリューションとメッセージ再構成

Optimal Spatial Deconvolution and Message Reconstruction from a Large Generative Model of Models ( http://arxiv.org/abs/2303.16045v1 )

ライセンス: Link先を確認
Hector Zenil, Alyssa Adams, and Felipe S. Abrah\~ao(参考訳) 本稿では,人工知能へのアプローチの原理に基づく汎用不定形信号デコンボリューション法を提案する。 このアプローチは、確率分布に依存しないモデルの汎用モデルを構築するために「普遍分布」の推定の大規模な計算を必要とする情報理論とアルゴリズム確率を組み合わせた生成モデルに基づいている。 これは、信号やメッセージが元々エンコードされたり、埋め込まれたり、生成されたりする次元や長さといった物理的性質に関する情報を、非ランダムデータがどのようにエンコードするかを調べるために用いられた。 この多次元空間再構成法は情報理論とアルゴリズム的確率に基づいており、選択された計算可能あるいは半計算可能近似法や符号化復号方式に関して非依存であるが独立ではない。 本論文は, 符号化理論の応用, 特にゼロ知識の1方向通信チャネルにおいて, 事前知識が得られない未知の性質の発生源生成によって送信されるメッセージの復号化に有用である。 これは、暗号、信号処理、因果分解、生命、テクノ署名検出に強い可能性を持っていると我々は主張する。

We introduce a general-purpose univariate signal deconvolution method based on the principles of an approach to Artificial General Intelligence. This approach is based on a generative model that combines information theory and algorithmic probability that required a large calculation of an estimation of a `universal distribution' to build a general-purpose model of models independent of probability distributions. This was used to investigate how non-random data may encode information about the physical properties such as dimension and length scales in which a signal or message may have been originally encoded, embedded, or generated. This multidimensional space reconstruction method is based on information theory and algorithmic probability, and it is agnostic, but not independent, with respect to the chosen computable or semi-computable approximation method or encoding-decoding scheme. The results presented in this paper are useful for applications in coding theory, particularly in zero-knowledge one-way communication channels, such as in deciphering messages sent by generating sources of unknown nature for which no prior knowledge is available. We argue that this can have strong potential for cryptography, signal processing, causal deconvolution, life, and techno signature detection.
翻訳日:2023-03-29 14:51:05 公開日:2023-03-28
# gkpquditsを用いた誤り訂正量子リピータ

Error-corrected quantum repeaters with GKP qudits ( http://arxiv.org/abs/2303.16034v1 )

ライセンス: Link先を確認
Frank Schmidt, Daniel Miller, Peter van Loock(参考訳) Gottesman-Kitaev-Preskill (GKP) コードは、例えばフォトニック励起を用いて、高次元のクイディットを個々のボソニックモードにエンコードする機能を提供する。 光子は長距離で量子情報の信頼できる伝送を可能にするため、光子損失を受けるGKP状態はある程度回復できるため、GKP符号は量子通信プロトコルの理論的研究において近年応用されている。 これまでの研究は主にGKP量子ビットに焦点をあててきたが、高次元のGKP量子ビットの実用的利点は広く研究されていない。 本稿では,gkp quditに基づく3つの量子リピータプロトコルの性能解析を行い,マルチキュート量子多項式コードとの結合を含む性能解析を行う。 クォーディットの潜在的なデータ伝送利得は、GKP誤り訂正能力の低下によってしばしば妨げられる。 また,モード毎の量子レベル数が増加すると,量子リピータの理論的に実現可能な秘密鍵レートが向上するパラメータレジームを同定する。 いくつかのプロトコルは、ローカル処理と完全エラーシンドロームの識別がオンライン検索なしで実現可能であるという魅力的な特徴を共有している。 適切なマルチモードgkp状態の供給が可能であれば、論理quditが多くの物理quditからなる場合でも、受動的線形光学演算の最小セットで実現することができる。

The Gottesman-Kitaev-Preskill (GKP) code offers the possibility to encode higher-dimensional qudits into individual bosonic modes with, for instance, photonic excitations. Since photons enable the reliable transmission of quantum information over long distances and since GKP states subject to photon loss can be recovered to some extent, the GKP code has found recent applications in theoretical investigations of quantum communication protocols. While previous studies have primarily focused on GKP qubits, the possible practical benefits of higher-dimensional GKP qudits are hitherto widely unexplored. In this paper, we carry out performance analyses for three quantum repeater protocols based on GKP qudits including concatenations with a multi-qudit quantum polynomial code. We find that the potential data transmission gains for qudits are often hampered by their decreased GKP error-correcting capabilities. However, we also identify parameter regimes in which having access to an increased number of quantum levels per mode can enhance the theoretically achievable secret-key rate of the quantum repeater. Some of our protocols share the attractive feature that local processing and complete error syndrome identification are realizable without online squeezing. Provided a supply of suitable multi-mode GKP states is available, this can be realized with a minimal set of passive linear optical operations, even when the logical qudits are composed of many physical qudits.
翻訳日:2023-03-29 14:50:46 公開日:2023-03-28
# 教師付きテキスト分析のための合成テキスト

Synthetically generated text for supervised text analysis ( http://arxiv.org/abs/2303.16028v1 )

ライセンス: Link先を確認
Andrew Halterman(参考訳) 改訂されたテキストモデルは、政治科学者にとって貴重なツールであるが、手書き文書の費用、注釈のための稀な関連文書の検索の難しさ、注釈付き文書の共有に関わる著作権とプライバシーに関する懸念など、それらの使用にいくつかの障害をもたらす。 本稿では,これら3つの問題に対する部分解を,大規模言語モデルを用いた合成テキストの制御形式として提案する。 テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。 ウクライナにおける戦闘を表現した合成ツイートの作成,イベント検出システムを訓練するための特定の政治イベントを記述した合成ニュース記事,文レベルのポピュリズム分類子を訓練するための多言語コーパスの3つのアプリケーションを用いて,合成テキストの有用性を実証する。

Supervised text models are a valuable tool for political scientists but present several obstacles to their use, including the expense of hand-labeling documents, the difficulty of retrieving rare relevant documents for annotation, and copyright and privacy concerns involved in sharing annotated documents. This article proposes a partial solution to these three issues, in the form of controlled generation of synthetic text with large language models. I provide a conceptual overview of text generation, guidance on when researchers should prefer different techniques for generating synthetic text, a discussion of ethics, and a simple technique for improving the quality of synthetic text. I demonstrate the usefulness of synthetic text with three applications: generating synthetic tweets describing the fighting in Ukraine, synthetic news articles describing specified political events for training an event detection system, and a multilingual corpus of populist manifesto statements for training a sentence-level populism classifier.
翻訳日:2023-03-29 14:50:23 公開日:2023-03-28
# 会話における自己中心性聴覚注意の定位

Egocentric Auditory Attention Localization in Conversations ( http://arxiv.org/abs/2303.16024v1 )

ライセンス: Link先を確認
Fiona Ryan, Hao Jiang, Abhinav Shukla, James M. Rehg, Vamsi Krishna Ithapu(参考訳) ディナーパーティーのような騒々しい会話環境において、人々は選択的な聴覚的注意や、他の人をチューニングしながら特定の話者に集中する能力を示すことが多い。 会話の中で誰が聴いているかを認識することは、社会的行動や、特定の音源を増幅することで人間の聴覚を増強するデバイスを理解する技術を開発する上で不可欠である。 コンピュータビジョンと音声研究コミュニティは、シーン内の音源やスピーカーを認識することに大きな進歩を遂げた。 本研究は,エゴセントリックビデオにおける聴覚注意目標の局所化や,カメラ装着者の視野内の誰を検知する問題に着目し,さらに一歩前進する。 そこで本稿では,エゴセントリック・ビデオとマルチチャンネル・オーディオを用いて,カメラ装着者の聴覚注意のヒートマップを予測するエンド・ツー・エンドの深層学習手法を提案する。 提案手法では,時空間的音声視覚特徴とシーンに関する総合的推論を活用して予測を行い,多話者対話データセットのベースラインを上回っている。 プロジェクトページ: https://fkryan.github.io/saal

In a noisy conversation environment such as a dinner party, people often exhibit selective auditory attention, or the ability to focus on a particular speaker while tuning out others. Recognizing who somebody is listening to in a conversation is essential for developing technologies that can understand social behavior and devices that can augment human hearing by amplifying particular sound sources. The computer vision and audio research communities have made great strides towards recognizing sound sources and speakers in scenes. In this work, we take a step further by focusing on the problem of localizing auditory attention targets in egocentric video, or detecting who in a camera wearer's field of view they are listening to. To tackle the new and challenging Selective Auditory Attention Localization problem, we propose an end-to-end deep learning approach that uses egocentric video and multichannel audio to predict the heatmap of the camera wearer's auditory attention. Our approach leverages spatiotemporal audiovisual features and holistic reasoning about the scene to make predictions, and outperforms a set of baselines on a challenging multi-speaker conversation dataset. Project page: https://fkryan.github.io/saal
翻訳日:2023-03-29 14:50:06 公開日:2023-03-28
# リンドラーフレームにおける場の理論と熱場二重形式主義の対応

Correspondence between field theory in Rindler frame and thermofield-double formalism ( http://arxiv.org/abs/2303.16022v1 )

ライセンス: Link先を確認
Dipankar Barman, Bibhas Ranjan Majhi(参考訳) リンドラーフレームの2つの時間的に同じ加速度を持つ2つの加速された観測者を考えると、ミンコフスキー真空に関する実際のスカラー場に対する熱的ファインマンプロパゲータを全て計算する。 同じウェッジ相関器のみが熱浴とウンルー熱浴と引き換えに対称である。 興味深いことに、それらは加速と場の熱的性質の集団効果であるクロス項を含んでいる。 零温度記述は、通常の熱電場二重形式に相当する。 しかし、後の定式化とは異なり、2つのフィールドは元のシステムの一部となっている。 さらに、それぞれのリンドラーのリンドラー時間に沿ってケルディッシュ輪郭が特定の複雑な時間内接続子を介して移動する閉時間形式主義の時空的ケースの特徴も持つ。 したがって、リンドラーフレーム場理論は場の熱理論を扱うための有効な候補であり、通常の形式の間の橋の探索を照らすことができる。

Considering two accelerated observers with same acceleration in two timelike wedges of Rindler frame we calculate all the thermal Feynmann propagators for a real scalar field with respect to the Minkowski vacuum. Only the same wedge correlators are symmetric in exchange of thermal bath and Unruh thermal bath. Interestingly, they contains a cross term which is a collective effects of acceleration and thermal nature of field. Partucularly the zero temperature description corresponds to usual thermofield double formalism. However, unlike in later formulation, the two fields are now parts of the original system. Moreover it bears the features of a spacial case of closed time formalism where the Keldysh contour is along the increasing Rindler time in the respective Rindler wedges through a specific complex time intra-connector. Hence Rindler frame field theory seems to be a viable candidate to deal thermal theory of fields and may illuminate the search for a bridge between the usual existing formalims.
翻訳日:2023-03-29 14:49:47 公開日:2023-03-28
# 欠落パターンの解明:軌道インプットと予測に向けた統一フレームワーク

Uncovering the Missing Pattern: Unified Framework Towards Trajectory Imputation and Prediction ( http://arxiv.org/abs/2303.16005v1 )

ライセンス: Link先を確認
Yi Xu, Armin Bazarjani, Hyung-gun Chi, Chiho Choi, Yun Fu(参考訳) 軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。 しかしながら、現在の手法では、観測されたシーケンスが完了していると仮定し、オブジェクトの閉塞、スコープ制限、センサーの故障などによる欠落した値の可能性を無視する。 この制限は必然的に軌道予測の精度を妨げる。 この問題に対処するため,本稿では,グラフベース条件変動リカレントニューラルネットワーク (gc-vrnn) という統一フレームワークを提案する。 具体的には、不完全な観測から空間的特徴を抽出し、欠落パターンを活用できる新しいマルチスペースグラフニューラルネットワーク(MS-GNN)を提案する。 さらに,時間的依存や時間的欠落パターンを不完全な軌道で捉えるために,TDモジュールを特別に設計した条件付きVRNNを用いる。 TDモジュールを含めることで、時間の流れを通じて貴重な情報を伝達することができる。 また,軌道インプテーションと予測の合同問題に対する3つの実用的なデータセットの検証とベンチマークを行った。 広範な実験により,提案手法の異常な性能が検証された。 われわれが知る限り、これは軌跡計算と予測を統一的に行うためのベンチマークとテクニックの欠如に対処する最初の試みである。

Trajectory prediction is a crucial undertaking in understanding entity movement or human behavior from observed sequences. However, current methods often assume that the observed sequences are complete while ignoring the potential for missing values caused by object occlusion, scope limitation, sensor failure, etc. This limitation inevitably hinders the accuracy of trajectory prediction. To address this issue, our paper presents a unified framework, the Graph-based Conditional Variational Recurrent Neural Network (GC-VRNN), which can perform trajectory imputation and prediction simultaneously. Specifically, we introduce a novel Multi-Space Graph Neural Network (MS-GNN) that can extract spatial features from incomplete observations and leverage missing patterns. Additionally, we employ a Conditional VRNN with a specifically designed Temporal Decay (TD) module to capture temporal dependencies and temporal missing patterns in incomplete trajectories. The inclusion of the TD module allows for valuable information to be conveyed through the temporal flow. We also curate and benchmark three practical datasets for the joint problem of trajectory imputation and prediction. Extensive experiments verify the exceptional performance of our proposed method. As far as we know, this is the first work to address the lack of benchmarks and techniques for trajectory imputation and prediction in a unified manner.
翻訳日:2023-03-29 14:49:31 公開日:2023-03-28
# グラフ表現学習によるマルウェア検出に関する調査

A Survey on Malware Detection with Graph Representation Learning ( http://arxiv.org/abs/2303.16004v1 )

ライセンス: Link先を確認
Tristan Bilot, Nour El Madhoun, Khaldoun Al Agha, Anis Zouaoui(参考訳) マルウェア検出は、マルウェアの数と複雑さの増加によって大きな懸念となっている。 従来のシグネチャとヒューリスティックに基づく検出手法はマルウェア検出に使用されるが、残念ながら未知の攻撃への一般化が不十分であり、難読化技術を使って容易に回避できる。 近年、機械学習(ML)、特にディープラーニング(DL)は、データから有用な表現を学習することで、マルウェア検出において印象的な成果を上げ、従来の方法よりも好まれるソリューションとなった。 近年,グラフ構造化データへのこのような手法の適用は,様々な領域で最先端のパフォーマンスを達成し,マルウェアからより堅牢な表現を学習するための有望な成果を実証している。 しかし、マルウェア検出のためのグラフベースのディープラーニングに焦点を当てた文献レビューは存在しない。 本調査では,既存の作品を共通アプローチとアーキテクチャの下で要約し,統一するための詳細な文献レビューを行う。 グラフニューラルネットワーク(GNN)が表現型グラフ構造として表されるマルウェアからの堅牢な埋め込みを学習することで、下流の分類器による効率的な検出が可能となることを示す。 本稿では,グラフに基づく検出手法を騙すために使用される敵攻撃についても検討する。 論文の最後に課題と今後の研究の方向性について述べる。

Malware detection has become a major concern due to the increasing number and complexity of malware. Traditional detection methods based on signatures and heuristics are used for malware detection, but unfortunately, they suffer from poor generalization to unknown attacks and can be easily circumvented using obfuscation techniques. In recent years, Machine Learning (ML) and notably Deep Learning (DL) achieved impressive results in malware detection by learning useful representations from data and have become a solution preferred over traditional methods. More recently, the application of such techniques on graph-structured data has achieved state-of-the-art performance in various domains and demonstrates promising results in learning more robust representations from malware. Yet, no literature review focusing on graph-based deep learning for malware detection exists. In this survey, we provide an in-depth literature review to summarize and unify existing works under the common approaches and architectures. We notably demonstrate that Graph Neural Networks (GNNs) reach competitive results in learning robust embeddings from malware represented as expressive graph structures, leading to an efficient detection by downstream classifiers. This paper also reviews adversarial attacks that are utilized to fool graph-based detection methods. Challenges and future research directions are discussed at the end of the paper.
翻訳日:2023-03-29 14:49:08 公開日:2023-03-28
# 非マルコフデコヒーレンスによる量子演算の性能最適化-トルトーズかハレか?

Optimizing performance of quantum operations with non-Markovian decoherence: the tortoise or the hare? ( http://arxiv.org/abs/2303.16002v1 )

ライセンス: Link先を確認
Eoin P. Butler, Gerald Fux, Brendon W. Lovett, Jonathan Keeling, Paul R. Eastham(参考訳) 量子システムと環境の間の相互作用は、それを制御し、その上で量子演算を実行する能力を制限する。 目的関数の勾配を計算するためにプロセステンソルを用いて,非マルコフ環境に結合した量子システムの最適制御を求める効率的な方法を提案する。 ボソニック環境に結合した駆動型2レベルシステムの状態伝達を考慮し,速度と忠実性の観点から性能を特徴付ける。 したがって、最善の達成可能な忠実度をプロセス持続時間の関数として決定する。 速度と忠実度の間にはトレードオフがあり、非マルコフ効果を利用して遅いプロセスの方が忠実度が高いことを示す。

The interaction between a quantum system and its environment limits our ability to control it and perform quantum operations on it. We present an efficient method to find optimal controls for quantum systems coupled to non-Markovian environments, by using the process tensor to compute the gradient of an objective function. We consider state transfer for a driven two-level system coupled to a bosonic environment, and characterize performance in terms of speed and fidelity. We thus determine the best achievable fidelity as a function of process duration. We show there is a trade-off between speed and fidelity, and that slower processes can have higher fidelity by exploiting non-Markovian effects.
翻訳日:2023-03-29 14:48:47 公開日:2023-03-28
# Adaptive Voronoi NeRFs

Adaptive Voronoi NeRFs ( http://arxiv.org/abs/2303.16001v1 )

ライセンス: Link先を確認
Tim Elsner, Victor Czech, Julia Berger, Zain Selman, Isaak Lim, Leif Kobbelt(参考訳) neural radiance fields(nerfs)は、登録された画像のセットから3dシーンを表現することを学ぶ。 シーンのサイズが大きくなると、すべての詳細を捉えるために、一般的にニューラルネットワークによって表現されるより複雑な関数が要求される。 トレーニングと推論は、画像当たり何百万回もニューラルネットワークをクエリし、非現実的に遅くなります。 このような複雑な関数は、速度を改善するために複数の単純関数に置き換えることができるので、ボロノイ図形の階層構造がシーンを分割するのに適切な選択であることを示す。 それぞれのVoronoiセルに独自のNeRFを組み込むことで,シーン表現を迅速に学習することができる。 本稿では,ネットワーク間で情報を均等に分配することで,トレーニング中の品質向上を向上する空間の直感的な分割と,トップダウン適応改良によるアーティファクトの回避を提案する。 我々のフレームワークは基礎となるNeRF法とは無関係で実装が容易であり、学習とレンダリングの高速化のために様々なNeRF変種に適用することができる。

Neural Radiance Fields (NeRFs) learn to represent a 3D scene from just a set of registered images. Increasing sizes of a scene demands more complex functions, typically represented by neural networks, to capture all details. Training and inference then involves querying the neural network millions of times per image, which becomes impractically slow. Since such complex functions can be replaced by multiple simpler functions to improve speed, we show that a hierarchy of Voronoi diagrams is a suitable choice to partition the scene. By equipping each Voronoi cell with its own NeRF, our approach is able to quickly learn a scene representation. We propose an intuitive partitioning of the space that increases quality gains during training by distributing information evenly among the networks and avoids artifacts through a top-down adaptive refinement. Our framework is agnostic to the underlying NeRF method and easy to implement, which allows it to be applied to various NeRF variants for improved learning and rendering speeds.
翻訳日:2023-03-29 14:48:35 公開日:2023-03-28
# 仮想対応を用いた4点からの3つのキャリブレーションカメラの相対姿勢の効率的な解法

Efficient solutions to the relative pose of three calibrated cameras from four points using virtual correspondences ( http://arxiv.org/abs/2303.16078v1 )

ライセンス: Link先を確認
Charalambos Tzamos, Daniel Barath, Torsten Sattler, Zuzana Kukelova(参考訳) 本研究では,3つのキャリブレーションカメラの相対姿勢推定における課題について検討する。 4p3v問題として知られる3つの視点で4点の配置が難しいという悪名高い2つの新しい解を提案する。 提案手法は,2つのビューに1つの仮想点対応を生成するという単純なアイデアに基づいて,3つのビューにおける4つの入力対応の位置からの情報を利用する。 最初の解法では、この点対応を予測するネットワークを訓練する。 第2の解法は、3つの対応する入力点の平均点に基づいて、よりシンプルで効率的な戦略を使用する。 新しい解法は、既存の効率的な最小解法、すなわちよく知られた5点相対ポーズとP3Pソルバに基づいているため、効率的で実装が容易である。 解法は実データに対して最先端の結果を得る。 仮想対応を用いた最小問題を解くというアイデアは一般的であり、例えば5点相対ポーズ問題のような他の問題にも適用できる。 この方法では、単純で最小でない解法やransac内の最小のサンプルを使っても最小の問題を解くことができる。 さらに,3つの点と2つの点からなる最小構成に対して, 4p3vソルバの異なる変種とベースラインソルバを比較した。 実際のアプリケーションでは、どの点の構成が最も実用的かについて議論する。

We study the challenging problem of estimating the relative pose of three calibrated cameras. We propose two novel solutions to the notoriously difficult configuration of four points in three views, known as the 4p3v problem. Our solutions are based on the simple idea of generating one additional virtual point correspondence in two views by using the information from the locations of the four input correspondences in the three views. For the first solver, we train a network to predict this point correspondence. The second solver uses a much simpler and more efficient strategy based on the mean points of three corresponding input points. The new solvers are efficient and easy to implement since they are based on the existing efficient minimal solvers, i.e., the well-known 5-point relative pose and the P3P solvers. The solvers achieve state-of-the-art results on real data. The idea of solving minimal problems using virtual correspondences is general and can be applied to other problems, e.g., the 5-point relative pose problem. In this way, minimal problems can be solved using simpler non-minimal solvers or even using sub-minimal samples inside RANSAC. In addition, we compare different variants of 4p3v solvers with the baseline solver for the minimal configuration consisting of three triplets of points and two points visible in two views. We discuss which configuration of points is potentially the most practical in real applications.
翻訳日:2023-03-29 14:42:24 公開日:2023-03-28
# 排除された中間法則と量子力学の排除

Exclusion of Excluded Middle Law and Quantum Mechanics ( http://arxiv.org/abs/2303.16076v1 )

ライセンス: Link先を確認
Maziar Esfahanian, Lodewijk Arntzen(参考訳) 本稿では,非構成数学(NCM)におけるブール論理を量子力学の数学的基礎として用いながら現れる制限について論じる。 これらの制限は、構成数学(CM)とモデルの一つであるトポス理論を用いて自然消滅する。 推論の行は、量子論理に関する最近の理論的な研究と一致しており、排除された中間法則の重要な役割に焦点を当てている。

In this paper we discuss limitions appearing while using Boolean Logic in Non-Constructive Mathematics (NCM) as a mathematical foundation for Quantum Mechanics. These limitations naturally vanish using Constructive Mathematics (CM) and Topos Theory which is one of its models. The line of reasoning is in agreement with recent theoretical work on Quantum Logic, and focusses on the pivotal role of the excluded middle law, and this will be addressed in more detail in our discussion.
翻訳日:2023-03-29 14:42:02 公開日:2023-03-28
# unmasked teacher: トレーニング効率の高いビデオファウンデーションモデルに向けて

Unmasked Teacher: Towards Training-Efficient Video Foundation Models ( http://arxiv.org/abs/2303.16058v1 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao(参考訳) ビデオファウンデーションモデル(vfms)は高い計算コストとデータの不足のため、限られた探索を受けた。 従来のvfmは、画像基盤モデル(ifms)に依存しており、ビデオ領域への転送の難しさに直面している。 VideoMAEは、限られたデータから堅牢なViTを訓練しているが、その低レベルの再構築は収束の困難と高レベルのクロスモーダルアライメントとの衝突を引き起こす。 本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。 データ効率を向上させるために、低セマンティックなビデオトークンのほとんどをマスクするが、アンマスクされていないトークンをFM(UnMasked Teacher,UMT)に選択的にアライメントする。 本手法は,セマンティックガイダンスを提供することで,より高速な収束とマルチモーダルな親和性を実現する。 プログレッシブ事前学習フレームワークでは,シーン関連,時間関連,複雑なビデオ言語理解など,さまざまなタスクを処理可能である。 32のA100 GPUで6日間の事前トレーニングのために公開ソースのみを使用して、スクラッチで作られたViT-L/16は、さまざまなビデオタスクで最先端のパフォーマンスを実現します。 コードとモデルはhttps://github.com/opengvlab/unmasked_teacherでリリースされる。

Video Foundation Models (VFMs) have received limited exploration due to high computational costs and data scarcity. Previous VFMs rely on Image Foundation Models (IFMs), which face challenges in transferring to the video domain. Although VideoMAE has trained a robust ViT from limited data, its low-level reconstruction poses convergence difficulties and conflicts with high-level cross-modal alignment. This paper proposes a training-efficient method for temporal-sensitive VFMs that integrates the benefits of existing methods. To increase data efficiency, we mask out most of the low-semantics video tokens, but selectively align the unmasked tokens with IFM, which serves as the UnMasked Teacher (UMT). By providing semantic guidance, our method enables faster convergence and multimodal friendliness. With a progressive pre-training framework, our model can handle various tasks including scene-related, temporal-related, and complex video-language understanding. Using only public sources for pre-training in 6 days on 32 A100 GPUs, our scratch-built ViT-L/16 achieves state-of-the-art performances on various video tasks. The code and models will be released at https://github.com/OpenGVLab/unmasked_teacher.
翻訳日:2023-03-29 14:40:50 公開日:2023-03-28
# アナログニューロモルフィックハードウェアにおけるモデルパラメータ化のためのシミュレーションベース推論

Simulation-based Inference for Model Parameterization on Analog Neuromorphic Hardware ( http://arxiv.org/abs/2303.16056v1 )

ライセンス: Link先を確認
Jakob Kaiser, Raphael Stock, Eric M\"uller, Johannes Schemmel, Sebastian Schmitt(参考訳) BrainScaleS-2 (BSS-2) システムは、ニューロンの物理的モデルとシナプスを実装し、エネルギー効率が高く高速な生体ニューロンのエミュレーションを目指している。 神経科学実験結果を複製する場合、適切なモデルパラメータを見つけることが大きな課題である。 本研究では,BSS-2アナログニューロモルフィックハードウェアシステム上でエミュレートされた多成分ニューロンモデルのパラメータ化のための逐次的神経後部推定(SNPE)アルゴリズムの適合性について検討した。 遺伝的アルゴリズムや確率探索のような他の最適化手法とは対照的に、snpeアルゴリズムは近似ベイズ計算(abc)のクラスに属し、モデルパラメータの後方分布を推定する。 以前の応用では、snpeアルゴリズムは従来のabc法よりも高い計算効率を示した。 多成分モデルでは, 近似後部は実験結果と一致しており, パラメータ間の相関関係は理論的な期待値と一致していることを示す。 さらに,このアルゴリズムは高次元観測やパラメータ空間を扱うことができることを示す。 これらの結果から,SNPEアルゴリズムは複雑なモデルのパラメータ化を自動化する上で,特に試行錯誤や限られたパラメータ範囲といった類似ニューロモルフィック基板の特性に対処する上で,有望なアプローチであることが示唆された。

The BrainScaleS-2 (BSS-2) system implements physical models of neurons as well as synapses and aims for an energy-efficient and fast emulation of biological neurons. When replicating neuroscientific experiment results, a major challenge is finding suitable model parameters. This study investigates the suitability of the sequential neural posterior estimation (SNPE) algorithm for parameterizing a multi-compartmental neuron model emulated on the BSS-2 analog neuromorphic hardware system. In contrast to other optimization methods such as genetic algorithms or stochastic searches, the SNPE algorithms belongs to the class of approximate Bayesian computing (ABC) methods and estimates the posterior distribution of the model parameters; access to the posterior allows classifying the confidence in parameter estimations and unveiling correlation between model parameters. In previous applications, the SNPE algorithm showed a higher computational efficiency than traditional ABC methods. For our multi-compartmental model, we show that the approximated posterior is in agreement with experimental observations and that the identified correlation between parameters is in agreement with theoretical expectations. Furthermore, we show that the algorithm can deal with high-dimensional observations and parameter spaces. These results suggest that the SNPE algorithm is a promising approach for automating the parameterization of complex models, especially when dealing with characteristic properties of analog neuromorphic substrates, such as trial-to-trial variations or limited parameter ranges.
翻訳日:2023-03-29 14:40:30 公開日:2023-03-28
# 野生動物における実時間マルチパーソンアイブリンク検出

Real-time Multi-person Eyeblink Detection in the Wild for Untrimmed Video ( http://arxiv.org/abs/2303.16053v1 )

ライセンス: Link先を確認
Wenzheng Zeng, Yang Xiao, Sicheng Wei, Jinfang Gan, Xintao Zhang, Zhiguo Cao, Zhiwen Fang, Joey Tianyi Zhou(参考訳) 野生のリアルタイムアイブリンク検出は、疲労検出、顔の反偽造、感情分析などに広く役立ちます。 既存の研究は、トリミングビデオに対して単身のケースに焦点を当てている。 しかし、未トリミングビデオ内のマルチパーソンシナリオは、まだあまり関心が持たない実用アプリケーションにおいても重要である。 これに対処するため、私たちはこの研究分野に初めて光を当て、データセット、理論、実践に本質的な貢献をした。 8748のアイブリンクイベントを含む686の未トリミングビデオを含むmpeblinkと呼ばれる大規模データセットがマルチパーソン条件下で提案されている。 サンプルは無拘束のフィルムから撮影され、"in the wild"の特徴を明らかにする。 また,リアルタイムなマルチパーソンアイブリンク検出手法を提案する。 既存のものと異なるので、私たちの提案は、エンドツーエンドの学習能力を持つ、一段階の時空間的な方法で実行されます。 具体的には、顔検出、顔追跡、および人間のインスタンスレベルのアイブリンク検出のサブタスクを同時に処理する。 1) 顔のグローバルコンテキスト(例えば頭部のポーズや照明条件など)を通じて、協調的な最適化と相互作用によってアイブリンク機能が容易になり、(2) これらのサブタスクをシーケンシャルな方法で並列に処理することで、リアルタイムな実行要件を満たすための時間を著しく節約できる。 MPEblinkの実験は、非トリミングビデオのための野生におけるリアルタイム多対人アイブリンク検出の必須課題を検証する。 また,提案手法は既存の手法よりも大きなマージンと高い推論速度で性能を向上する。

Real-time eyeblink detection in the wild can widely serve for fatigue detection, face anti-spoofing, emotion analysis, etc. The existing research efforts generally focus on single-person cases towards trimmed video. However, multi-person scenario within untrimmed videos is also important for practical applications, which has not been well concerned yet. To address this, we shed light on this research field for the first time with essential contributions on dataset, theory, and practices. In particular, a large-scale dataset termed MPEblink that involves 686 untrimmed videos with 8748 eyeblink events is proposed under multi-person conditions. The samples are captured from unconstrained films to reveal "in the wild" characteristics. Meanwhile, a real-time multi-person eyeblink detection method is also proposed. Being different from the existing counterparts, our proposition runs in a one-stage spatio-temporal way with end-to-end learning capacity. Specifically, it simultaneously addresses the sub-tasks of face detection, face tracking, and human instance-level eyeblink detection. This paradigm holds 2 main advantages: (1) eyeblink features can be facilitated via the face's global context (e.g., head pose and illumination condition) with joint optimization and interaction, and (2) addressing these sub-tasks in parallel instead of sequential manner can save time remarkably to meet the real-time running requirement. Experiments on MPEblink verify the essential challenges of real-time multi-person eyeblink detection in the wild for untrimmed video. Our method also outperforms existing approaches by large margins and with a high inference speed.
翻訳日:2023-03-29 14:40:05 公開日:2023-03-28
# 変動エネルギーモデルを用いた情報理論GAN圧縮

Information-Theoretic GAN Compression with Variational Energy-based Model ( http://arxiv.org/abs/2303.16050v1 )

ライセンス: Link先を確認
Minsoo Kang, Hyewon Yoo, Eunhee Kang, Sehwan Ki, Hyong-Euk Lee, Bohyung Han(参考訳) 本稿では,教師と学生のネットワーク間の相互情報をエネルギーモデルに基づく変分最適化により最大化することを目的とした,生成的敵ネットワークの圧縮のための情報理論的知識蒸留手法を提案する。 連続領域における相互情報の直接計算は難易度が高いため、我々の手法は、相互情報の変動下界を最大化することにより、学生ネットワークを最適化する。 そこで我々は,高次元画像を扱うフレキシブルな変動分布を表現し,画素間の空間的依存関係を効果的に考慮する,深層ニューラルネットワークを利用したエネルギーベースモデルを提案する。 提案手法は汎用最適化アルゴリズムであるため,任意の生成型逆ネットワークや,画像強調モデルなどの高密度予測ネットワークに便利に組み込むことができる。 提案アルゴリズムは,複数の既存モデルと組み合わせることで,生成逆数ネットワークのモデル圧縮において優れた性能を発揮することを示す。

We propose an information-theoretic knowledge distillation approach for the compression of generative adversarial networks, which aims to maximize the mutual information between teacher and student networks via a variational optimization based on an energy-based model. Because the direct computation of the mutual information in continuous domains is intractable, our approach alternatively optimizes the student network by maximizing the variational lower bound of the mutual information. To achieve a tight lower bound, we introduce an energy-based model relying on a deep neural network to represent a flexible variational distribution that deals with high-dimensional images and consider spatial dependencies between pixels, effectively. Since the proposed method is a generic optimization algorithm, it can be conveniently incorporated into arbitrary generative adversarial networks and even dense prediction networks, e.g., image enhancement models. We demonstrate that the proposed algorithm achieves outstanding performance in model compression of generative adversarial networks consistently when combined with several existing models.
翻訳日:2023-03-29 14:39:40 公開日:2023-03-28
# GP3D:3次元点雲における一般電位推定:ビンピッキングの事例研究

GP3D: Generalized Pose Estimation in 3D Point Clouds: A case study on bin picking ( http://arxiv.org/abs/2303.16102v1 )

ライセンス: Link先を確認
Frederik Hagelskj{\ae}r(参考訳) 本稿では,3次元点雲における一般化ポーズ推定のための新しいネットワークgp3dを提案する。 このメソッドは、シーンポイントクラウドと、キーポイントインデックスを入力としてオブジェクトポイントクラウドの両方を使用して、新しいオブジェクトに一般化する。 ネットワークは、オブジェクトのキーポイントをシーンポイントにマッチするように訓練される。 新規なオブジェクトのポーズ推定に対処するために,ポーズ推定をトレーニングするための新しいアプローチを提案する。 典型的な解決策は、任意のシナリオにおける特定のオブジェクトのポーズ推定のために訓練された単一のモデルである。 それぞれのオブジェクトに対するモデルのトレーニングには時間が必要で、エネルギーを消費し、シナリオ情報を除外することで、タスクはより難しくなります。 本稿では,リトレーニングを必要としない新しいオブジェクトに対して,シナリオ固有のポーズ推定手法を提案する。 このネットワークは1500のオブジェクトで訓練され、一般化されたソリューションを学習することができる。 ネットワークが新しいオブジェクトを正確に予測できることを実証し、トレーニングされたクラスの外でネットワークが実行できることを実証する。 実証された手法は多くの実世界のシナリオに有用なソリューションであると考えている。 コードとトレーニングされたネットワークは、公開後に利用可能になる。

In this paper, we present GP3D, a novel network for generalized pose estimation in 3D point clouds. The method generalizes to new objects by using both the scene point cloud and the object point cloud with keypoint indexes as input. The network is trained to match the object keypoints to scene points. To address the pose estimation of novel objects we also present a new approach for training pose estimation. The typical solution is a single model trained for pose estimation of a specific object in any scenario. This has several drawbacks: training a model for each object is time-consuming, energy consuming, and by excluding the scenario information the task becomes more difficult. In this paper, we present the opposite solution; a scenario-specific pose estimation method for novel objects that do not require retraining. The network is trained on 1500 objects and is able to learn a generalized solution. We demonstrate that the network is able to correctly predict novel objects, and demonstrate the ability of the network to perform outside of the trained class. We believe that the demonstrated method is a valuable solution for many real-world scenarios. Code and trained network will be made available after publication.
翻訳日:2023-03-29 14:33:05 公開日:2023-03-28
# 深い関係学習を用いた医用画像解析

Medical Image Analysis using Deep Relational Learning ( http://arxiv.org/abs/2303.16099v1 )

ライセンス: Link先を確認
Zhihua Liu(参考訳) 過去10年間で、深層学習の助け、特に深層ニューラルネットワークの急速な発展により、医用画像解析は目覚ましい進歩を遂げた。 しかし、医療画像における各種組織や臓器間の関係情報を効果的に利用する方法は、まだ非常に難しい課題であり、十分に研究されていない。 本稿では,深い関係学習に基づく2つの新しい解法を提案する。 まず,特徴間の暗黙的関係情報を効果的にモデル化し,医用画像分割を行うコンテキスト対応完全畳み込みネットワークを提案する。 このネットワークは、Multi Modal Brain tumor Segmentation 2017 (BraTS2017)とMulti Modal Brain tumor Segmentation 2018 (BraTS2018)データセットの最先端のセグメンテーション結果を達成する。 次に,隣接するフレーム間の明示的な空間関係を学習し,正確な医用画像モザイクを実現する新しい階層的ホモグラフィ推定ネットワークを提案する。 実験には ucl fetoscopy placenta データセットを使用し,階層的ホモグラフィ推定ネットワークは,未発見のフレーム上で頑健で有意義なモザイク結果を生成しつつ,他の最先端モザイク手法よりも優れる。

In the past ten years, with the help of deep learning, especially the rapid development of deep neural networks, medical image analysis has made remarkable progress. However, how to effectively use the relational information between various tissues or organs in medical images is still a very challenging problem, and it has not been fully studied. In this thesis, we propose two novel solutions to this problem based on deep relational learning. First, we propose a context-aware fully convolutional network that effectively models implicit relation information between features to perform medical image segmentation. The network achieves the state-of-the-art segmentation results on the Multi Modal Brain Tumor Segmentation 2017 (BraTS2017) and Multi Modal Brain Tumor Segmentation 2018 (BraTS2018) data sets. Subsequently, we propose a new hierarchical homography estimation network to achieve accurate medical image mosaicing by learning the explicit spatial relationship between adjacent frames. We use the UCL Fetoscopy Placenta dataset to conduct experiments and our hierarchical homography estimation network outperforms the other state-of-the-art mosaicing methods while generating robust and meaningful mosaicing result on unseen frames.
翻訳日:2023-03-29 14:32:29 公開日:2023-03-28
# カロライナ:プロヴァンス、タイポロジー、バージョニング情報を持つ現代ブラジルポルトガル語の一般的なコーパス

Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information ( http://arxiv.org/abs/2303.16098v1 )

ライセンス: Link先を確認
Maria Clara Ramos Morales Crespo, Maria Lina de Souza Jeannine Rocha, Mariana Louren\c{c}o Sturzeneker, Felipe Ribas Serras, Guilherme Lamartine de Mello, Aline Silva Costa, Mayara Feliciano Palma, Renata Morais Mesquita, Raquel de Paula Guets, Mariana Marques da Silva, Marcelo Finger, Maria Clara Paix\~ao de Sousa, Cristiane Namiuti, Vanessa Martins do Monte(参考訳) 本稿では,カロライナ・コーパスの最初の公開版を示し,今後の方向性について述べる。 カロライナは、プロヴァンス、タイポロジー、バージョニング、テキスト統合によって強化されたweb-as-corpus方法論を使用して建設中のブラジルのポルトガル語テキストの大規模なコーパスである。 コーパスは、言語学研究の信頼できる情報源として、また、言語モデルに関するコンピュータサイエンス研究の重要な情報源として、また、低リソース言語の集合からポルトガル語を取り除くことに貢献することを目的としている。 ここでは、コーパス・方法論の構築について、他の既存の方法論やコーパス・ステートと比較する:カロライナの最初のパブリック・バージョンは、653,322,577ドルのトークンを持ち、7ドル以上の広義の型に分散している。 各テキストには,TEIアノテーション標準を用いて開発したヘッダに,いくつかのメタデータカテゴリがアノテートされている。 また,現在進行中のデリバティブ・ワークを提示し,NLP研究者に独自の貢献を依頼する。

This paper presents the first publicly available version of the Carolina Corpus and discusses its future directions. Carolina is a large open corpus of Brazilian Portuguese texts under construction using web-as-corpus methodology enhanced with provenance, typology, versioning, and text integrality. The corpus aims at being used both as a reliable source for research in Linguistics and as an important resource for Computer Science research on language models, contributing towards removing Portuguese from the set of low-resource languages. Here we present the construction of the corpus methodology, comparing it with other existing methodologies, as well as the corpus current state: Carolina's first public version has $653,322,577$ tokens, distributed over $7$ broad types. Each text is annotated with several different metadata categories in its header, which we developed using TEI annotation standards. We also present ongoing derivative works and invite NLP researchers to contribute with their own.
翻訳日:2023-03-29 14:32:06 公開日:2023-03-28
# ビルエネルギー異常検出のための注意強化オートエンコーダ

Attention Boosted Autoencoder for Building Energy Anomaly Detection ( http://arxiv.org/abs/2303.16097v1 )

ライセンス: Link先を確認
Durga Prasad Pydi, S. Advaith(参考訳) 建物内のスマートメーターから収集したデータを活用することは、省エネルギー政策の立案に役立つ。 建築運転条件のずれを早期に検出し,適切な対策をとれば,重要な省エネを実現することができる。 この目的のために、機械学習技術は、収集されたデータ中のこれらの異常パターンの発見を自動化するために使用できる。 異常検出の現在の手法は、通常または許容される動作を捉えるために基礎となるモデルに依存している。 本稿では,建物の消費行動をモデル化する新しい注意機構を提案し,サンプルケーススタディを用いた関係の把握におけるモデルの有効性を実証する。 提案したアーキテクチャを用いて実世界のデータセットをモデル化し、その結果を示す。 モデルが捉えた関係を理解するための可視化アプローチも提示されている。

Leveraging data collected from smart meters in buildings can aid in developing policies towards energy conservation. Significant energy savings could be realised if deviations in the building operating conditions are detected early, and appropriate measures are taken. Towards this end, machine learning techniques can be used to automate the discovery of these abnormal patterns in the collected data. Current methods in anomaly detection rely on an underlying model to capture the usual or acceptable operating behaviour. In this paper, we propose a novel attention mechanism to model the consumption behaviour of a building and demonstrate the effectiveness of the model in capturing the relations using sample case studies. A real-world dataset is modelled using the proposed architecture, and the results are presented. A visualisation approach towards understanding the relations captured by the model is also presented.
翻訳日:2023-03-29 14:31:46 公開日:2023-03-28
# LinK: LiDARベースの3D知覚のための線形カーネル

LinK: Linear Kernel for LiDAR-based 3D Perception ( http://arxiv.org/abs/2303.16094v1 )

ライセンス: Link先を確認
Tao Lu, Xiang Ding, Haisong Liu, Gangshan Wu, Limin Wang(参考訳) 2次元大カーネルの成功を3次元知覚に拡張することは、以下によって困難である。 1 三次元データの処理における立方体的なオーバーヘッド 2.データ不足と疎性による最適化の難しさ。 以前の研究では、ブロック共有重みを導入してカーネルサイズを3x3x3から7x7にスケールアップする第一歩を踏み出した。 しかし、ブロック内の特徴のばらつきを減らすため、ブロックサイズは小さく、21x21x21のようなより大きなカーネルを達成することができない。 この問題に対処するために,我々は2つのコア設計による畳み込み的な方法で広い範囲の知覚受容場を実現するためのlinkという新しい手法を提案する。 1つ目は静的カーネルマトリックスを線形カーネルジェネレータに置き換えることであり、これは空でないボクセルのみに適応的に重みを与える。 2つ目は、計算の複雑さを減らすために、重複ブロックの事前計算結果を再利用することである。 提案手法は,21x21x21の範囲内で各ボクセルがコンテキストを知覚できるようにする。 3次元オブジェクト検出と3次元セマンティックセグメンテーションという2つの基本的な認識課題に対する大規模な実験により,本手法の有効性が示された。 特に、LinKベースのバックボーンを基本検出器であるCenterPointに組み込むことで、nuScenesの3D検出ベンチマーク(LiDARトラック)の公開リーダーボードで1位にランク付けする。 また、SemanticKITTIテストセットの2.7%で、強いセグメンテーションベースラインのmIoUも強化します。 コードはhttps://github.com/mcg-nju/linkで入手できる。

Extending the success of 2D Large Kernel to 3D perception is challenging due to: 1. the cubically-increasing overhead in processing 3D data; 2. the optimization difficulties from data scarcity and sparsity. Previous work has taken the first step to scale up the kernel size from 3x3x3 to 7x7x7 by introducing block-shared weights. However, to reduce the feature variations within a block, it only employs modest block size and fails to achieve larger kernels like the 21x21x21. To address this issue, we propose a new method, called LinK, to achieve a wider-range perception receptive field in a convolution-like manner with two core designs. The first is to replace the static kernel matrix with a linear kernel generator, which adaptively provides weights only for non-empty voxels. The second is to reuse the pre-computed aggregation results in the overlapped blocks to reduce computation complexity. The proposed method successfully enables each voxel to perceive context within a range of 21x21x21. Extensive experiments on two basic perception tasks, 3D object detection and 3D semantic segmentation, demonstrate the effectiveness of our method. Notably, we rank 1st on the public leaderboard of the 3D detection benchmark of nuScenes (LiDAR track), by simply incorporating a LinK-based backbone into the basic detector, CenterPoint. We also boost the strong segmentation baseline's mIoU with 2.7% in the SemanticKITTI test set. Code is available at https://github.com/MCG-NJU/LinK.
翻訳日:2023-03-29 14:31:35 公開日:2023-03-28
# 回帰モデルにおける学習可能性、サンプル複雑性、仮説クラス複雑性

Learnability, Sample Complexity, and Hypothesis Class Complexity for Regression Models ( http://arxiv.org/abs/2303.16091v1 )

ライセンス: Link先を確認
Soosan Beheshti, Mahdi Shamsi(参考訳) 学習アルゴリズムの目標は、入力としてトレーニングデータセットを受け取り、ドメインセットから可能なすべてのデータポイントに一般化可能な仮説を提供することである。 仮説は、潜在的に異なる複雑さを持つ仮説クラスから選択される。 線形回帰モデリングは学習アルゴリズムの重要なカテゴリである。 対象試料の実用的不確かさは,学習モデルの一般化性能に影響する。 適切なモデルや仮説のクラスを選べないことは、不適合や過剰フィッティングといった深刻な問題につながる可能性がある。 これらの問題はコスト関数の交互化やクロスバリデーション手法の活用によって解決されている。 これらのアプローチは、新しい課題と不確実性を持つ新しいハイパーパラメータを導入したり、学習アルゴリズムの計算複雑性を増大させることができる。 一方,PAC理論は確率的設定に基づいて学習可能性を定義することを目的としている。 理論的な価値にもかかわらず、PACは多くの場面で実践的な学習の問題に対処していない。 この研究はPACの基礎に触発され、既存の回帰学習問題に動機付けられている。 提案手法はepsilon-Confidence Aough Correct (epsilon CoAC) で表され,Kulback Leibler divergence (relative entropy) を用いて,学習可能性問題に対処するためのハイパーパラメータの集合における新しい典型的な集合を提案する。 さらに、学習者は、異なる複雑性順序の仮説クラスを比較して、エプシロンCoACフレームワークの最小エプシロンを最適に選択することができる。 エプシロンCoAC学習性は、過度な適合と不適合の問題を克服するだけでなく、時間消費や精度の点でよく知られたクロスバリデーション法よりも優位性と優位性を示す。

The goal of a learning algorithm is to receive a training data set as input and provide a hypothesis that can generalize to all possible data points from a domain set. The hypothesis is chosen from hypothesis classes with potentially different complexities. Linear regression modeling is an important category of learning algorithms. The practical uncertainty of the target samples affects the generalization performance of the learned model. Failing to choose a proper model or hypothesis class can lead to serious issues such as underfitting or overfitting. These issues have been addressed by alternating cost functions or by utilizing cross-validation methods. These approaches can introduce new hyperparameters with their own new challenges and uncertainties or increase the computational complexity of the learning algorithm. On the other hand, the theory of probably approximately correct (PAC) aims at defining learnability based on probabilistic settings. Despite its theoretical value, PAC does not address practical learning issues on many occasions. This work is inspired by the foundation of PAC and is motivated by the existing regression learning issues. The proposed approach, denoted by epsilon-Confidence Approximately Correct (epsilon CoAC), utilizes Kullback Leibler divergence (relative entropy) and proposes a new related typical set in the set of hyperparameters to tackle the learnability issue. Moreover, it enables the learner to compare hypothesis classes of different complexity orders and choose among them the optimum with the minimum epsilon in the epsilon CoAC framework. Not only the epsilon CoAC learnability overcomes the issues of overfitting and underfitting, but it also shows advantages and superiority over the well known cross-validation method in the sense of time consumption as well as in the sense of accuracy.
翻訳日:2023-03-29 14:31:09 公開日:2023-03-28
# 取得時間短縮のための全身PET画像

Whole-body PET image denoising for reduced acquisition time ( http://arxiv.org/abs/2303.16085v1 )

ライセンス: Link先を確認
Ivan Kruzhilov, Stepan Kudin, Luka Vetoshkin, Elena Sokolova, Vladimir Kokh(参考訳) 本稿では, ポジトロン・エミッション・トモグラフィ(PET)画像の取得時間削減を前提として, 教師付きおよび教師なしディープラーニングモデルの性能評価を行った。 実験では, 2D (RMSE, SSIM) と 3D (SUVpeak and SUVmax error for the region of interest) を用いて, 212 の研究 (56908 画像) とモデルの評価を行った。 従来の研究とは対照的に,2次元PET画像の再構成において,教師なしモデル(ResNet,Unet,SwinIR)は教師なしモデル(Pix2pix GAN,CycleGAN,ResNetバックボーン,各種補助損失)より優れていた。 さらに、教師付きCycleGANのハイブリッドアプローチは、復号化画像のSUVmax推定における最良の結果を示し、復号化画像のSUVmax推定誤差はPET再現性エラーと同等である。

This paper evaluates the performance of supervised and unsupervised deep learning models for denoising positron emission tomography (PET) images in the presence of reduced acquisition times. Our experiments consider 212 studies (56908 images), and evaluate the models using 2D (RMSE, SSIM) and 3D (SUVpeak and SUVmax error for the regions of interest) metrics. It was shown that, in contrast to previous studies, supervised models (ResNet, Unet, SwinIR) outperform unsupervised models (pix2pix GAN and CycleGAN with ResNet backbone and various auxiliary losses) in the reconstruction of 2D PET images. Moreover, a hybrid approach of supervised CycleGAN shows the best results in SUVmax estimation for denoised images, and the SUVmax estimation error for denoised images is comparable with the PET reproducibility error.
翻訳日:2023-03-29 14:30:40 公開日:2023-03-28
# マッチングに基づく少数ショット行動認識の再考

Rethinking matching-based few-shot action recognition ( http://arxiv.org/abs/2303.16084v1 )

ライセンス: Link先を確認
Juliette Bertrand, Yannis Kalantidis, Giorgos Tolias(参考訳) 時間的情報の導入によるメリットとして、いくつかの例を挙げて、新しいアクションクラスを認識すること。 以前の作業では、表現自体にそのような情報をエンコードし、テスト時に分類器を学習するか、フレームレベルの特徴を取得してペアワイズ時間マッチングを行う。 まず,時空間的バックボーンの特徴を用いたマッチングに基づくアプローチを数多く評価し,文献から欠落した結果から,単純なベースラインとより複雑なメソッドのパフォーマンスの差が著しく減少することを示した。 そこで,我々はchamfer++を提案する。chamfer++は非時間マッチング関数である。 時間的特徴から始めると、パラメータフリーかつ解釈可能なアプローチは、マッチング段階で時間的情報を用いることなく、3つの共通データセット上でのワンショットアクション認識のための他のマッチングベースおよび分類法よりも優れていることを示す。 プロジェクトページ: https://jbertrand89.github.io/matching-based-fsar

Few-shot action recognition, i.e. recognizing new action classes given only a few examples, benefits from incorporating temporal information. Prior work either encodes such information in the representation itself and learns classifiers at test time, or obtains frame-level features and performs pairwise temporal matching. We first evaluate a number of matching-based approaches using features from spatio-temporal backbones, a comparison missing from the literature, and show that the gap in performance between simple baselines and more complicated methods is significantly reduced. Inspired by this, we propose Chamfer++, a non-temporal matching function that achieves state-of-the-art results in few-shot action recognition. We show that, when starting from temporal features, our parameter-free and interpretable approach can outperform all other matching-based and classifier methods for one-shot action recognition on three common datasets without using temporal information in the matching stage. Project page: https://jbertrand89.github.io/matching-based-fsar
翻訳日:2023-03-29 14:30:19 公開日:2023-03-28
# min-max最適化のための最悪ケースランキング近似を用いた共分散行列適応進化戦略とそのバーシング制御タスクへの応用

Covariance Matrix Adaptation Evolutionary Strategy with Worst-Case Ranking Approximation for Min--Max Optimization and its Application to Berthing Control Tasks ( http://arxiv.org/abs/2303.16079v1 )

ライセンス: Link先を確認
Atsuhiro Miyagi and Yoshiki Miyauchi and Atsuo Maki and Kazuto Fukuchi and Jun Sakuma and Youhei Akimoto(参考訳) 本研究では,目的関数がブラックボックスである連続min-max最適化問題$\min_{x \in \mathbb{x} \max_{y \in \mathbb{y}}}f(x,y)$を考える。 本稿では,解候補のランク付けをWRA機構によって近似する共分散行列適応進化戦略(CMA-ES)を直接利用して,最悪の対象関数である$F(x) = \max_{y} f(x,y)$を最小化する新しい手法を提案する。 我々は,内部最大化問題に対する数値解法として,cma-esと組み合わせたwraと近似勾配上昇の2つの変種を開発した。 数値実験により,対象関数が滑らかな凸-凹関数であり,$x$と$y$の相互作用が強い場合,提案手法は既存手法よりも優れており,目的関数が滑らかな凸-凹関数に制限されない問題に対する提案手法の利点について検討する。 提案手法の有効性は不確実性を有する頑健なバーシング制御問題において実証される。 提案手法の有効性を不確実性のあるロバストなバーシング制御問題で実証した。

In this study, we consider a continuous min--max optimization problem $\min_{x \in \mathbb{X} \max_{y \in \mathbb{Y}}}f(x,y)$ whose objective function is a black-box. We propose a novel approach to minimize the worst-case objective function $F(x) = \max_{y} f(x,y)$ directly using a covariance matrix adaptation evolution strategy (CMA-ES) in which the rankings of solution candidates are approximated by our proposed worst-case ranking approximation (WRA) mechanism. We develop two variants of WRA combined with CMA-ES and approximate gradient ascent as numerical solvers for the inner maximization problem. Numerical experiments show that our proposed approach outperforms several existing approaches when the objective function is a smooth strongly convex--concave function and the interaction between $x$ and $y$ is strong. We investigate the advantages of the proposed approach for problems where the objective function is not limited to smooth strongly convex--concave functions. The effectiveness of the proposed approach is demonstrated in the robust berthing control problem with uncertainty.ngly convex--concave functions. The effectiveness of the proposed approach is demonstrated in the robust berthing control problem with uncertainty.
翻訳日:2023-03-29 14:30:02 公開日:2023-03-28
# 化学療法に対する腫瘍反応予測における2次元および3次元特徴の有用性評価

Evaluating the Effectiveness of 2D and 3D Features for Predicting Tumor Response to Chemotherapy ( http://arxiv.org/abs/2303.16123v1 )

ライセンス: Link先を確認
Neman Abdoli, Ke Zhang, Patrik Gilley, Xuxin Chen, Youkabed Sadri, Theresa C. Thai, Lauren E. Dockery, Kathleen Moore, Robert S. Mannel, Yuchen Qiu(参考訳) 2Dおよび3D腫瘍の特徴は、様々な医療画像解析タスクで広く利用されている。 しかし, 化学療法反応予測においては, 異なる種類の2D特徴と3D特徴の相互効果は包括的に評価されない。 この調査はこのような総合的な評価を達成することを目的としている。 この目的で, 進行卵巣癌188例のCT像を回顧的に収集した。 各患者で発生した転移性腫瘍はすべて分画され、6つのフィルターで処理された。 次に, 3D および 2D の3つの特徴,すなわち幾何学的, 密度, テクスチャ的特徴を, ろ過した結果と, 元々のセグメント状腫瘍から算出し, それぞれ 1595 と 1403 の特徴を発生させた。 従来の単スライス2Dおよびフルボリューム3D腫瘍の特徴に加えて,1個のCTスライスを順次追加し,対応する特徴を算出した不完全3D腫瘍の特徴も計算した。 サポートベクトルマシン(SVM)ベースの予測モデルを開発し,各特徴セットに最適化した。 5倍のクロスバリデーションを用いて各モデルの性能評価を行った。 その結果, 2次元特徴量モデルでは, AUC(ROC曲線(受信器動作特性)の0.84+0.02が達成された。 より多くのスライスを追加すると、AUCは最初最大まで増加し、その後0.86+-0.02に徐々に低下した。 最大AUCは2つの隣接するスライスを加え、0.91+-0.01の値で得られた。 この最初の結果は、機械学習ベースの意思決定支援ツールを最適化するための意味のある情報を提供する。

2D and 3D tumor features are widely used in a variety of medical image analysis tasks. However, for chemotherapy response prediction, the effectiveness between different kinds of 2D and 3D features are not comprehensively assessed, especially in ovarian cancer-related applications. This investigation aims to accomplish such a comprehensive evaluation. For this purpose, CT images were collected retrospectively from 188 advanced-stage ovarian cancer patients. All the metastatic tumors that occurred in each patient were segmented and then processed by a set of six filters. Next, three categories of features, namely geometric, density, and texture features, were calculated from both the filtered results and the original segmented tumors, generating a total of 1595 and 1403 features for the 3D and 2D tumors, respectively. In addition to the conventional single-slice 2D and full-volume 3D tumor features, we also computed the incomplete-3D tumor features, which were achieved by sequentially adding one individual CT slice and calculating the corresponding features. Support vector machine (SVM) based prediction models were developed and optimized for each feature set. 5-fold cross-validation was used to assess the performance of each individual model. The results show that the 2D feature-based model achieved an AUC (area under the ROC curve [receiver operating characteristic]) of 0.84+-0.02. When adding more slices, the AUC first increased to reach the maximum and then gradually decreased to 0.86+-0.02. The maximum AUC was yielded when adding two adjacent slices, with a value of 0.91+-0.01. This initial result provides meaningful information for optimizing machine learning-based decision-making support tools in the future.
翻訳日:2023-03-29 14:24:09 公開日:2023-03-28
# 動的バイアス配置を持つ量子コンピュータにおけるエラー耐性の増大

Increasing error tolerance in quantum computers with dynamic bias arrangement ( http://arxiv.org/abs/2303.16122v1 )

ライセンス: Link先を確認
Hector Bomb\'in, Chris Dawson, Naomi Nickerson, Mihir Pant, Jordan Sullivan(参考訳) 多くの量子演算は、その誤差の構造に偏りを示すことが期待されている。 近年の研究では、有効な構成でエラーを静的にアレンジすることで、エラー耐性を改善するために固定バイアスを活用できることが示されている。 ある場合には、誤差バイアスは動的に再構成可能であり、例えば、核融合失敗の基礎が測定される前に選択できる線形光学融合である。 本稿では,古典的意思決定を用いて,フォールトトレランスプロトコルが進行するに従って測定のバイアスを適応的に選択する手法を提案する。 本手法は線形光融合型量子コンピューティング(FBQC)の設定において検討される。 我々は、消去を動的にアレンジすることで、同じ量子リソースを使用しながらバイアス付きエラーの静的な配置と比較した場合、損失耐性を3倍にすることができることを示す例を示す: Bartolucciらによる最高のFBQCアーキテクチャ(2023)では、閾値が、動的バイアスを用いて同じリソース状態の光子当たり2.7\%から7.5\%に上昇することを示す。 本手法はシンドロームグラフ表現以上の特定のコード構造を必要としない。 我々はバルトロッチら(2023年)と全く同じアーキテクチャを用いてこれらの技術を説明することを選んだが、異なる核融合ネットワークのような他の技術と併用することで、より高い損失閾値が可能である。

Many quantum operations are expected to exhibit bias in the structure of their errors. Recent works have shown that a fixed bias can be exploited to improve error tolerance by statically arranging the errors in beneficial configurations. In some cases an error bias can be dynamically reconfigurable, an example being linear optical fusion where the basis of a fusion failure can be chosen before the measurement is made. Here we introduce methods for increasing error tolerance in this setting by using classical decision-making to adaptively choose the bias in measurements as a fault tolerance protocol proceeds. We study this technique in the setting of linear optical fusion based quantum computing (FBQC). We provide examples demonstrating that by dynamically arranging erasures, the loss tolerance can be tripled when compared to a static arrangement of biased errors while using the same quantum resources: we show that for the best FBQC architecture of Bartolucci et al. (2023) the threshold increases from $2.7\%$ to $7.5\%$ per photon with the same resource state by using dynamic biasing. Our method does not require any specific code structure beyond having a syndrome graph representation. We have chosen to illustrate these techniques using an architecture which is otherwise identical to that in Bartolucci et al. (2023), but deployed together with other techniques, such as different fusion networks, higher loss thresholds are possible.
翻訳日:2023-03-29 14:23:41 公開日:2023-03-28
# CycleACR:ビデオアクション検出のためのアクターコンテキスト関係のサイクルモデリング

CycleACR: Cycle Modeling of Actor-Context Relations for Video Action Detection ( http://arxiv.org/abs/2303.16118v1 )

ライセンス: Link先を確認
Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang(参考訳) アクターとシーンコンテキストの関係モデリングは、複数のアクターの相関がアクション認識を困難にするビデオアクション検出を促進する。 既存の研究は、アクション認識を改善するために各アクターとシーンの関係をモデル化する。 しかし、シーン変動と背景干渉は、この関係モデリングの有効性を制限する。 本稿では,生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択し,関係モデリングを改善することを提案する。 我々は、アクタとコンテキストの関係を双方向にモデル化する対称グラフが存在するサイクルアクタ-コンテキスト関係ネットワーク(cycleacr)を開発した。 私たちのcycleacrは、アクタからコンテキストへの再編成(a2c-r)と、アクタ機能拡張のために再編成されたコンテキスト機能を動的に利用するcontext-to-actor enhancement(c2a-e)で構成されています。 C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。 このモデリングはCycleACRを前進させ、2つの一般的なアクション検出データセット(AVAとUCF101-24)で最先端のパフォーマンスを達成する。 また,アクター・コンテキスト関係モデリングが映像行動検出にどのように役立つかを示すために,アブレーション研究や可視化も行っている。 コードはhttps://github.com/MCG-NJU/CycleACRで入手できる。

The relation modeling between actors and scene context advances video action detection where the correlation of multiple actors makes their action recognition challenging. Existing studies model each actor and scene relation to improve action recognition. However, the scene variations and background interference limit the effectiveness of this relation modeling. In this paper, we propose to select actor-related scene context, rather than directly leverage raw video scenario, to improve relation modeling. We develop a Cycle Actor-Context Relation network (CycleACR) where there is a symmetric graph that models the actor and context relations in a bidirectional form. Our CycleACR consists of the Actor-to-Context Reorganization (A2C-R) that collects actor features for context feature reorganizations, and the Context-to-Actor Enhancement (C2A-E) that dynamically utilizes reorganized context features for actor feature enhancement. Compared to existing designs that focus on C2A-E, our CycleACR introduces A2C-R for a more effective relation modeling. This modeling advances our CycleACR to achieve state-of-the-art performance on two popular action detection datasets (i.e., AVA and UCF101-24). We also provide ablation studies and visualizations as well to show how our cycle actor-context relation modeling improves video action detection. Code is available at https://github.com/MCG-NJU/CycleACR.
翻訳日:2023-03-29 14:23:16 公開日:2023-03-28
# 誤り訂正による機械学習PDEソルバの不変保存

Invariant preservation in machine learned PDE solvers via error correction ( http://arxiv.org/abs/2303.16110v1 )

ライセンス: Link先を確認
Nick McGreivy, Ammar Hakim(参考訳) 機械学習偏微分方程式(PDE)は、標準数値法の信頼性を精度および/または速度の潜在的な利得と交換する。 解法が正確な解を出力することを保証する唯一の方法は、グリッドが$\Delta x$ と timestep $\Delta t$ approach zero に間隔をおいて収束する手法を使用することである。 大規模な$\Delta x$と/または$\Delta t$でソリューションを更新する機械学習ソルバは、完全な正確性を保証することはできない。 マシン学習した問題解決者に対して、許容したい種類のエラーを与えるよう、どうやって制約すればよいのか? 本稿では,基礎となるPDEの連続不変量の離散的なアナログを保存し,より信頼性の高いPDEソルバを設計する。 そのような不変量の例としては、質量の保存、エネルギーの保存、熱力学の第2法則、および/または非負密度がある。 不変量を保存するために、各タイムステップでエラー訂正アルゴリズムを更新ルールに適用します。 この戦略は、標準ソルバが不変量を保存する方法とは異なるが、機械学習ソルバが大きな$\Delta x$および/または$\Delta t$で正確であることを保証する柔軟性を維持する必要がある。 この戦略は任意の境界条件を持つ任意の測地における時間依存PDEに対する任意の自己回帰解法に適用できる。 この戦略は非常に一般的なものであるが、特定の誤り訂正アルゴリズムは、基礎となる方程式の不変量や解の表現と時間ステップスキームに合わせて調整する必要がある。 誤り訂正アルゴリズムには2つの重要な特性がある。 まず、正しい不変量を保存することにより、数値安定性が保証される。 第二に、閉じたシステムや周期的なシステムでは、既に正確な解法の精度を損なうことなくそれを行ないます。

Machine learned partial differential equation (PDE) solvers trade the reliability of standard numerical methods for potential gains in accuracy and/or speed. The only way for a solver to guarantee that it outputs the exact solution is to use a convergent method in the limit that the grid spacing $\Delta x$ and timestep $\Delta t$ approach zero. Machine learned solvers, which learn to update the solution at large $\Delta x$ and/or $\Delta t$, can never guarantee perfect accuracy. Some amount of error is inevitable, so the question becomes: how do we constrain machine learned solvers to give us the sorts of errors that we are willing to tolerate? In this paper, we design more reliable machine learned PDE solvers by preserving discrete analogues of the continuous invariants of the underlying PDE. Examples of such invariants include conservation of mass, conservation of energy, the second law of thermodynamics, and/or non-negative density. Our key insight is simple: to preserve invariants, at each timestep apply an error-correcting algorithm to the update rule. Though this strategy is different from how standard solvers preserve invariants, it is necessary to retain the flexibility that allows machine learned solvers to be accurate at large $\Delta x$ and/or $\Delta t$. This strategy can be applied to any autoregressive solver for any time-dependent PDE in arbitrary geometries with arbitrary boundary conditions. Although this strategy is very general, the specific error-correcting algorithms need to be tailored to the invariants of the underlying equations as well as to the solution representation and time-stepping scheme of the solver. The error-correcting algorithms we introduce have two key properties. First, by preserving the right invariants they guarantee numerical stability. Second, in closed or periodic systems they do so without degrading the accuracy of an already-accurate solver.
翻訳日:2023-03-29 14:22:35 公開日:2023-03-28
# トランスフォーマーネットワークを用いた自律走行車両のマルチモーダルマヌーバーと軌道予測

Multimodal Manoeuvre and Trajectory Prediction for Autonomous Vehicles Using Transformer Networks ( http://arxiv.org/abs/2303.16109v1 )

ライセンス: Link先を確認
Sajjad Mozaffari, Konstantinos Koufos, and Mehrdad Dianati(参考訳) 自動運転車(AV)や自動走行システム(ADS)の安全かつ効率的な運転には、車両を含む他の道路利用者の行動(マニオーヴル/軌道)の予測が不可欠である。 車両の将来の挙動が不確実であるため、複数の将来の動作モードは、与えられた運転シーンにおいて車両に対してしばしば可能となる。 したがって、マルチモーダル予測は、avsがより優れたリスク評価を行うことができるシングルモード予測よりもリッチな情報を提供できる。 そこで本研究では,複数の動作モードとその可能性を予測するマルチモーダル予測フレームワークを提案する。 提案フレームワークは,マルチモーダルな操作および軌道予測のための調整されたトレーニング手法と,新しいトランスフォーマーに基づく予測モデルを含む。 このフレームワークの性能は、NGSIMとHighDという2つの公開ベンチマークハイウェイ駆動データセットを用いて評価される。 その結果,提案手法は予測誤差の面では最先端のマルチモーダル手法よりも優れており,予測可能な操作モードや軌道モードを予測できることがわかった。

Predicting the behaviour (i.e. manoeuvre/trajectory) of other road users, including vehicles, is critical for the safe and efficient operation of autonomous vehicles (AVs), a.k.a. automated driving systems (ADSs). Due to the uncertain future behaviour of vehicles, multiple future behaviour modes are often plausible for a vehicle in a given driving scene. Therefore, multimodal prediction can provide richer information than single-mode prediction enabling AVs to perform a better risk assessment. To this end, we propose a novel multimodal prediction framework that can predict multiple plausible behaviour modes and their likelihoods. The proposed framework includes a bespoke problem formulation for manoeuvre prediction, a novel transformer-based prediction model, and a tailored training method for multimodal manoeuvre and trajectory prediction. The performance of the framework is evaluated using two public benchmark highway driving datasets, namely NGSIM and highD. The results show that the proposed framework outperforms the state-of-the-art multimodal methods in the literature in terms of prediction error and is capable of predicting plausible manoeuvre and trajectory modes.
翻訳日:2023-03-29 14:22:03 公開日:2023-03-28
# 教師なしテキスト対画像生成のための変分分布学習

Variational Distribution Learning for Unsupervised Text-to-Image Generation ( http://arxiv.org/abs/2303.16105v1 )

ライセンス: Link先を確認
Minsoo Kang, Doyup Lee, Jiseob Kim, Saehoon Kim, Bohyung Han(参考訳) 学習中に画像に対するテキストキャプションが利用できない場合,深層ニューラルネットワークに基づくテキスト対画像生成アルゴリズムを提案する。 本研究では,既存の画像キャプション法による訓練画像の擬似的地下構造文を生成する代わりに,画像と対応するテキストの結合空間への埋め込みを適切に調整し,ゼロショット認識タスクでうまく機能する,事前訓練されたCLIPモデルを用いる。 画像クリップ埋め込みのペアで条件付けられたデータログを最大化することにより,テキスト対画像生成モデルを最適化する。 2つの領域におけるデータの整合性を改善するために、画像とそのCLIP特徴を与えられた隠れテキストの近似後部を効率的に推定する変動推論に基づく原理的手法を用いる。 実験の結果,提案フレームワークは,教師なしおよび半教師なしテキストから画像への生成設定において,既存のアプローチを大きなマージンで上回っていることがわかった。

We propose a text-to-image generation algorithm based on deep neural networks when text captions for images are unavailable during training. In this work, instead of simply generating pseudo-ground-truth sentences of training images using existing image captioning methods, we employ a pretrained CLIP model, which is capable of properly aligning embeddings of images and corresponding texts in a joint space and, consequently, works well on zero-shot recognition tasks. We optimize a text-to-image generation model by maximizing the data log-likelihood conditioned on pairs of image-text CLIP embeddings. To better align data in the two domains, we employ a principled way based on a variational inference, which efficiently estimates an approximate posterior of the hidden text embedding given an image and its CLIP feature. Experimental results validate that the proposed framework outperforms existing approaches by large margins under unsupervised and semi-supervised text-to-image generation settings.
翻訳日:2023-03-29 14:21:26 公開日:2023-03-28
# 大規模多言語翻訳モデルにおける幻覚

Hallucinations in Large Multilingual Translation Models ( http://arxiv.org/abs/2303.16104v1 )

ライセンス: Link先を確認
Nuno M. Guerreiro, Duarte Alves, Jonas Waldendorf, Barry Haddow, Alexandra Birch, Pierre Colombo, Andr\'e F. T. Martins(参考訳) 大規模多言語機械翻訳システムは、多くの言語間で直接翻訳する能力が著しく向上しており、現実の応用にますますアピールされている。 しかし、ワイルドにデプロイすると、これらのモデルは幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念を引き起こす可能性がある。 幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てており、多様な翻訳シナリオにわたる多言語モデルにおける幻覚の理解のギャップを残している。 本研究では,従来のニューラルマシン翻訳モデルのM2Mファミリと,翻訳のための汎用大言語モデルであるChatGPT(LLM)の両方を包括的に分析することにより,このギャップを埋める。 調査は、さまざまなリソースレベルにまたがる100以上の翻訳方向と、英語中心の言語ペアを超えて、幅広い状況をカバーする。 我々は,幻覚の発生率,特性,緩和に関する重要な知見を提供し,より信頼性が高く信頼性の高い機械翻訳システムへの道を開く。

Large-scale multilingual machine translation systems have demonstrated remarkable ability to translate directly between numerous languages, making them increasingly appealing for real-world applications. However, when deployed in the wild, these models may generate hallucinated translations which have the potential to severely undermine user trust and raise safety concerns. Existing research on hallucinations has primarily focused on small bilingual models trained on high-resource languages, leaving a gap in our understanding of hallucinations in massively multilingual models across diverse translation scenarios. In this work, we fill this gap by conducting a comprehensive analysis on both the M2M family of conventional neural machine translation models and ChatGPT, a general-purpose large language model~(LLM) that can be prompted for translation. Our investigation covers a broad spectrum of conditions, spanning over 100 translation directions across various resource levels and going beyond English-centric language pairs. We provide key insights regarding the prevalence, properties, and mitigation of hallucinations, paving the way towards more responsible and reliable machine translation systems.
翻訳日:2023-03-29 14:21:09 公開日:2023-03-28
# コンポーネント認識トランスフォーマによる1段3次元メッシュリカバリ

One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer ( http://arxiv.org/abs/2303.16160v1 )

ライセンス: Link先を確認
Jing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li(参考訳) 全身メッシュリカバリは、人体、顔、手のパラメータを1つの画像から推定することを目的としている。 解決の問題、すなわち、顔と手は、通常、非常に小さな領域に置かれているため、単一のネットワークでこのタスクを実行するのは困難である。 既存の作業は通常、手と顔を検出し、解像度を拡大して特定のネットワークに供給し、パラメータを予測する。 このコピーペーストパイプラインは、顔と手の細かな詳細を捉えることができるが、後期融合では異なる部品間の接続が容易には回復できず、目立たない3d回転と不自然なポーズに繋がる。 そこで本研究では,各部分のネットワークを分離することなく,OSXという表現力のある全体メッシュリカバリを実現する一段階パイプラインを提案する。 具体的には、グローバルボディエンコーダとローカルフェイス/ハンドデコーダからなるコンポーネント意識変換器(CAT)を設計する。 エンコーダは、身体パラメータを予測し、特徴レベルアップサンプルクロップスキームを実行し、高分解能部分特徴を抽出し、キーポイント誘導変形可能な注意を推定手と顔に正確に適用する、デコーダの高品質な特徴マップを提供する。 パイプライン全体は単純だが,手作業による後処理が不要である。 総合的な実験はOSXの有効性を示す。 最後に,高品質な2Dおよび3D全身アノテーションを備えた大規模アッパーボディデータセット(UBody)を構築した。 基本的なタスクと下流アプリケーションの間のギャップを埋めるために、さまざまな現実のシナリオで部分的に見えるボディを持つ人が含まれています。

Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.
翻訳日:2023-03-29 14:15:04 公開日:2023-03-28
# 新型コロナウイルス検出のためのフェデレーション学習モデルの比較研究

A Comparative Study of Federated Learning Models for COVID-19 Detection ( http://arxiv.org/abs/2303.16141v1 )

ライセンス: Link先を確認
Erfan Darzidehkalani, Nanna M. Sijtsema, P.M.A van Ooijen(参考訳) 深層学習は新型コロナウイルスの診断に有効であり、大量のデータを効果的に訓練する必要がある。 データとプライバシーの規制のため、病院は一般に他の病院からのデータにアクセスできない。 フェデレーテッド・ラーニング(FL)はこの問題を解決するために使われており、分散環境を利用して病院内のモデルをプライバシ保護の方法でトレーニングしている。 FLのデプロイは、高い計算とネットワーク通信リソースを必要とするため、必ずしも実現可能ではない。 本稿では,5つのFLアルゴリズムの性能と資源効率を評価する。 cnnネットワークを用いた分散設定を設定し、flアルゴリズムの性能を集中型環境と比較する。 本研究では,参加者数,フェデレートラウンド,選択アルゴリズムを用いてアルゴリズムを検証した。 以上の結果から, 循環式体重移動は総合成績が良く, 参加病院が少ないほど成績が良くなることがわかった。 以上の結果から,ウイルス検出に優れた性能を示し,コビッドウイルス検出や医用画像解析にFLアルゴリズムを適用できる可能性が示唆された。

Deep learning is effective in diagnosing COVID-19 and requires a large amount of data to be effectively trained. Due to data and privacy regulations, hospitals generally have no access to data from other hospitals. Federated learning (FL) has been used to solve this problem, where it utilizes a distributed setting to train models in hospitals in a privacy-preserving manner. Deploying FL is not always feasible as it requires high computation and network communication resources. This paper evaluates five FL algorithms' performance and resource efficiency for Covid-19 detection. A decentralized setting with CNN networks is set up, and the performance of FL algorithms is compared with a centralized environment. We examined the algorithms with varying numbers of participants, federated rounds, and selection algorithms. Our results show that cyclic weight transfer can have better overall performance, and results are better with fewer participating hospitals. Our results demonstrate good performance for detecting COVID-19 patients and might be useful in deploying FL algorithms for covid-19 detection and medical image analysis in general.
翻訳日:2023-03-29 14:12:45 公開日:2023-03-28
# マルコフ浴に浸漬した結合トランスモン中の最適量子リソース生成

Optimal quantum resource generation in coupled transmons immersed in Markovian baths ( http://arxiv.org/abs/2303.16136v1 )

ライセンス: Link先を確認
Tanaya Ray, Ahana Ghoshal, Debraj Rakshit, and Ujjwal Sen(参考訳) ボソニックバスに囲まれた容量結合多レベルトランスモン回路の量子リソース生成をマルコフ限界内で解析する。 実際には、超伝導回路素子はより大きな回路の一部であり、他の多くの線形回路要素と共に構成され、その環境は浴槽によって模倣されていると仮定される。 ゼロリソース初期状態で調製したtheeシステムにおける資源生成の結合強度の変化に対する応答について検討した。 特に、リソースとしての絡み合いと量子コヒーレンスに焦点を当てます。 我々は,システムが生成できる最大エンタングルメントと,システムが重要なエンタングルメントを維持できる時間スケールを考慮して,結合トランスモンクトリットのエンタングルメント生成パワーを定量化する。 最大絡み合い発生力に繋がる最適な初期分離可能な状態を特定する。

We analyze the quantum resource generation of capacitively-coupled multilevel transmon circuits surrounded by bosonic baths, within the Markovian limit. In practice, the superconducting circuit elements are usually part of a larger circuit, constructed with many other linear circuit elements, which along with their environment is assumed to be mimicked by the baths. We study the response to variation of the coupling strength of resource generation for thee system prepared in zero-resource initial states. We focus, in particular, on entanglement and quantum coherence as resources. We quantify the entanglement generation power of coupled transmon qutrits, taking into account the maximum entanglement the system can generate and the time-scale over which the system can sustain a significant entanglement. We identify the optimal initial separable states leading to maximum entanglement generating power.
翻訳日:2023-03-29 14:12:29 公開日:2023-03-28
# 統合視覚言語モデルにおけるクロスタスク不整合の抽出と対応

Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models ( http://arxiv.org/abs/2303.16133v1 )

ライセンス: Link先を確認
Adyasha Maharana, Amita Kamath, Christopher Clark, Mohit Bansal, Aniruddha Kembhavi(参考訳) 汎用視覚モデルが幅広いタスクでより効果的になるにつれ、それらをサポートするタスク間で一貫性を持つことが不可欠である。 一貫性のないAIモデルは、人間のユーザによって不安定で信頼できないと考えられており、アウトプットに依存する大規模なシステムに組み込むことがより困難である。 異なるモダリティのアウトプットを含む非常に異質なタスク間の一貫性を測定することは、予測が互いに一貫性があるかどうかを判断することが難しいため、難しい。 これは、複数のタスクのテストインスタンスを小さくて意味的に意味のある方法で変更して作成されたコントラストセットを使って、ゴールドラベルを変更し、元のインスタンスと摂動したインスタンスをタスク間でランク付けして、モデルが一貫性があるかどうかを計測します。 現状のシステムは、タスク全体、特により異質なタスクにおいて、驚くほど高い一貫性のない振る舞いに悩まされている。 最後に,大規模自動生成されたクロスタスクコントラストセット上で計算されたランク相関に基づく補助目的を用いて,ダウンストリームタスクにおける元の精度を維持しつつ,大規模統一モデルのマルチタスク一貫性を向上させることを提案する。 プロジェクトwebサイト: https://adymaharana.github.io/cococon/

As general purpose vision models get increasingly effective at a wide set of tasks, it is imperative that they be consistent across the tasks they support. Inconsistent AI models are considered brittle and untrustworthy by human users and are more challenging to incorporate into larger systems that take dependencies on their outputs. Measuring consistency between very heterogeneous tasks that might include outputs in different modalities is challenging since it is difficult to determine if the predictions are consistent with one another. As a solution, we introduce a benchmark dataset, COCOCON, where we use contrast sets created by modifying test instances for multiple tasks in small but semantically meaningful ways to change the gold label, and outline metrics for measuring if a model is consistent by ranking the original and perturbed instances across tasks. We find that state-of-the-art systems suffer from a surprisingly high degree of inconsistent behavior across tasks, especially for more heterogeneous tasks. Finally, we propose using a rank correlation-based auxiliary objective computed over large automatically created cross-task contrast sets to improve the multi-task consistency of large unified models, while retaining their original accuracy on downstream tasks. Project website available at https://adymaharana.github.io/cococon/
翻訳日:2023-03-29 14:12:15 公開日:2023-03-28
# バイオメディカルグラフ分類のためのトランスフォーマーと雪玉グラフ畳み込み学習

Transformer and Snowball Graph Convolution Learning for Biomedical Graph Classification ( http://arxiv.org/abs/2303.16132v1 )

ライセンス: Link先を確認
Jinlong Hu, Yangmin Huang, Shoubin Dong(参考訳) グラフやネットワークは、生体医学における複雑なシステムの記述とモデリングに広く用いられている。 深層学習法、特にグラフニューラルネットワーク(GNN)は、そのような構造化データを用いて学習し、予測するために開発されている。 本稿では,gnnにグラフ雪球接続を備えたトランスフォーマーアーキテクチャを導入した,生物医学的グラフ分類のための新しいトランスフォーマーおよび雪球符号化ネットワーク(tsen)を提案する。 TSENは、グラフ雪玉接続と、雪玉符号化層によるグラフトランスフォーマーを組み合わせることで、マルチスケール情報とグローバルパターンを捕捉し、グラフ全体の特徴を学習する能力を高めた。 一方、TSENは雪玉グラフの畳み込みを変圧器構造に埋め込まれた位置埋め込みとして用いた。 4つのグラフ分類データセットを用いた実験の結果、TSENは最先端の典型的なGNNモデルとグラフ変換器ベースのGNNモデルよりも優れていた。

Graph or network has been widely used for describing and modeling complex systems in biomedicine. Deep learning methods, especially graph neural networks (GNNs), have been developed to learn and predict with such structured data. In this paper, we proposed a novel transformer and snowball encoding networks (TSEN) for biomedical graph classification, which introduced transformer architecture with graph snowball connection into GNNs for learning whole-graph representation. TSEN combined graph snowball connection with graph transformer by snowball encoding layers, which enhanced the power to capture multi-scale information and global patterns to learn the whole-graph features. On the other hand, TSEN also used snowball graph convolution as position embedding in transformer structure, which was a simple yet effective method for capturing local patterns naturally. Results of experiments using four graph classification datasets demonstrated that TSEN outperformed the state-of-the-art typical GNN models and the graph-transformer based GNN models.
翻訳日:2023-03-29 14:11:52 公開日:2023-03-28
# 量子アルゴリズムのマルチコア量子コンピューティングアーキテクチャへのマッピング

Mapping quantum algorithms to multi-core quantum computing architectures ( http://arxiv.org/abs/2303.16125v1 )

ライセンス: Link先を確認
Anabel Ovide, Santiago Rodrigo, Medina Bandic, Hans Van Someren, Sebastian Feld, Sergi Abadal, Eduard Alarcon, and Carmen G. Almudever(参考訳) 現在のモノリシック量子コンピュータアーキテクチャはスケーラビリティが限られている。 それらをスケールアップするための有望なアプローチの1つは、異なる量子プロセッサ(コア)が量子リンクと古典リンクを介して接続されるモジュラーまたはマルチコアアーキテクチャを使用することである。 この新しいアーキテクチャ設計は、高価なコア間通信のような新しい課題をもたらす。 量子アルゴリズムの実行時にこれらの動きを減らすためには、効率的なマッピング技術が必要である。 本稿では,マルチコア量子コンピューティングアーキテクチャにおける量子回路マッピング問題に関する詳細な批判的考察を行う。 さらに、アーキテクチャのスケーラビリティ解析を行うことにより、時間グラフ問題に対する分割として定式化されたマッピング手法の性能についても検討する。

Current monolithic quantum computer architectures have limited scalability. One promising approach for scaling them up is to use a modular or multi-core architecture, in which different quantum processors (cores) are connected via quantum and classical links. This new architectural design poses new challenges such as the expensive inter-core communication. To reduce these movements when executing a quantum algorithm, an efficient mapping technique is required. In this paper, a detailed critical discussion of the quantum circuit mapping problem for multi-core quantum computing architectures is provided. In addition, we further explore the performance of a mapping method, which is formulated as a partitioning over time graph problem, by performing an architectural scalability analysis.
翻訳日:2023-03-29 14:11:26 公開日:2023-03-28
# 反復エネルギー最小化によるシーケンスモデルによる計画

Planning with Sequence Models through Iterative Energy Minimization ( http://arxiv.org/abs/2303.16189v1 )

ライセンス: Link先を確認
Hongyi Chen, Yilun Du, Yiye Chen, Joshua Tenenbaum, Patricio A. Vela(参考訳) 近年の研究では、シーケンスモデリングが強化学習(RL)ポリシーの訓練に有効であることが示されている。 しかし、計画に既存のシーケンスモデルを適用することに成功し、ある目標を達成するための行動の軌跡を得たいと考えることは、それほど簡単ではない。 シーケンスモデルの典型的な自己回帰的生成手順は、予測計画の有効性を制限する早期段階の逐次的な洗練を妨げる。 本稿では,反復的エネルギー最小化の考え方に基づくシーケンスモデルと計画を統合する手法を提案し,その手法が異なるタスク間でのrl性能向上にどのようにつながるかを説明する。 マスキング言語モデルを訓練し,行動の軌跡上の暗黙のエネルギー関数をキャプチャし,最小エネルギーによる行動の軌跡を探索する計画を定式化する。 本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。 我々はさらに,新しいタスクの一般化,テスト時の制約適応,計画の構成能力などを含む反復的最適化手法のユニークな利点を実証する。 プロジェクトウェブサイト: https://hychen-naza.github.io/projects/leap

Recent works have shown that sequence modeling can be effectively used to train reinforcement learning (RL) policies. However, the success of applying existing sequence models to planning, in which we wish to obtain a trajectory of actions to reach some goal, is less straightforward. The typical autoregressive generation procedures of sequence models preclude sequential refinement of earlier steps, which limits the effectiveness of a predicted plan. In this paper, we suggest an approach towards integrating planning with sequence models based on the idea of iterative energy minimization, and illustrate how such a procedure leads to improved RL performance across different tasks. We train a masked language model to capture an implicit energy function over trajectories of actions, and formulate planning as finding a trajectory of actions with minimum energy. We illustrate how this procedure enables improved performance over recent approaches across BabyAI and Atari environments. We further demonstrate unique benefits of our iterative optimization procedure, involving new task generalization, test-time constraints adaptation, and the ability to compose plans together. Project website: https://hychen-naza.github.io/projects/LEAP
翻訳日:2023-03-29 14:05:20 公開日:2023-03-28
# ビジュアル・チェーン・オブ・サート拡散モデル

Visual Chain-of-Thought Diffusion Models ( http://arxiv.org/abs/2303.16187v1 )

ライセンス: Link先を確認
William Harvey and Frank Wood(参考訳) 条件付き画像拡散モデルによる最近の進歩は見事であり、テキスト記述やシーンレイアウト、スケッチで条件付けられたモデルについて話しているかは事実である。 非条件画像拡散モデルも改善されているが遅れており、クラスラベルのような低次元の特徴に基づく拡散モデルも同様である。 条件付きモデルと非条件型モデルのギャップを2段階サンプリング法を用いて閉じる。 最初の段階では、画像の意味的内容を記述する埋め込みをサンプリングする。 第2段階では、この埋め込みに条件付きイメージをサンプリングし、埋め込みを破棄する。 これにより、条件拡散モデルの非条件生成タスクのパワーを活用し、標準の非条件生成と比較してFIDを25-50%改善することを示す。

Recent progress with conditional image diffusion models has been stunning, and this holds true whether we are speaking about models conditioned on a text description, a scene layout, or a sketch. Unconditional image diffusion models are also improving but lag behind, as do diffusion models which are conditioned on lower-dimensional features like class labels. We propose to close the gap between conditional and unconditional models using a two-stage sampling procedure. In the first stage we sample an embedding describing the semantic content of the image. In the second stage we sample the image conditioned on this embedding and then discard the embedding. Doing so lets us leverage the power of conditional diffusion models on the unconditional generation task, which we show improves FID by 25-50% compared to standard unconditional generation.
翻訳日:2023-03-29 14:05:02 公開日:2023-03-28
# 物体再識別のための大規模学習データ検索

Large-scale Training Data Search for Object Re-identification ( http://arxiv.org/abs/2303.16186v1 )

ライセンス: Link先を確認
Yue Yao, Huan Lei, Tom Gedeon, Liang Zheng(参考訳) 対象ドメインへのアクセスは可能だが、オンザフライのトレーニングデータアノテーションは使用できないシナリオを考えており、代わりに競合モデルが得られるような大規模データプールから代替トレーニングセットを構築したいと考えている。 本稿では,オブジェクト再識別(re-ID)に適したトレーニングデータ検索問題に対する探索・プルーニング(SnP)ソリューションを提案する。 具体的には、対象領域と類似した分布を示すソースアイデンティティのクラスタを特定し、マージする。 第2のステージは予算を課し、ステージi出力からidと画像を選択して、効率的なトレーニングのために得られたトレーニングセットのサイズを制御する。 この2つのステップは、ソースプールより80\%小さいトレーニングセットを提供し、同じかそれ以上のre-id精度を実現します。 これらのトレーニングセットは、トレーニングデータサイズにおいて、同じ予算でランダムサンプリングやグリーディサンプリングのような、いくつかの既存の検索方法よりも優れていることも示されている。 予算を公表すれば、第1段階のみのトレーニングセットによって、さらに高い再ID精度が実現できます。 我々は、re-ID問題に対するメソッドの特異性、特にre-IDドメインギャップをブリッジする役割について興味深い議論を行う。 コードはhttps://github.com/yorkeyao/snpで入手できる。

We consider a scenario where we have access to the target domain, but cannot afford on-the-fly training data annotation, and instead would like to construct an alternative training set from a large-scale data pool such that a competitive model can be obtained. We propose a search and pruning (SnP) solution to this training data search problem, tailored to object re-identification (re-ID), an application aiming to match the same object captured by different cameras. Specifically, the search stage identifies and merges clusters of source identities which exhibit similar distributions with the target domain. The second stage, subject to a budget, then selects identities and their images from the Stage I output, to control the size of the resulting training set for efficient training. The two steps provide us with training sets 80\% smaller than the source pool while achieving a similar or even higher re-ID accuracy. These training sets are also shown to be superior to a few existing search methods such as random sampling and greedy sampling under the same budget on training data size. If we release the budget, training sets resulting from the first stage alone allow even higher re-ID accuracy. We provide interesting discussions on the specificity of our method to the re-ID problem and particularly its role in bridging the re-ID domain gap. The code is available at https://github.com/yorkeyao/SnP.
翻訳日:2023-03-29 14:04:50 公開日:2023-03-28
# VMesh: 効率的なビュー合成のためのハイブリッドボリュームメシュ表現

VMesh: Hybrid Volume-Mesh Representation for Efficient View Synthesis ( http://arxiv.org/abs/2303.16184v1 )

ライセンス: Link先を確認
Yuan-Chen Guo, Yan-Pei Cao, Chen Wang, Yu He, Ying Shan, Xiaohu Qie, Song-Hai Zhang(参考訳) ニューラル放射場(NeRF)の出現により、ビュー合成品質は前例のない水準に達した。 従来のメッシュベースの資産と比較して、このボリューム表現はシーンの幾何表現においてより強力であるが、必然的に高いレンダリングコストを被り、編集のようなさらなるプロセスにほとんど関わらず、既存のグラフィックパイプラインと組み合わせてかなりの困難をもたらす。 本稿では,テクスチャメッシュのある物体を補助的スパースボリュームとともに表現する,ハイブリッドなボリュームメッシュ表現であるvmeshを提案する。 VMeshは、効率的なレンダリング、コンパクトストレージ、簡単な編集など、メッシュベースのアセットの利点を保ちながら、ボリュームが提供する微妙な幾何学構造を表現する能力も備えている。 VMeshはオブジェクトのマルチビューイメージから取得でき、一般的なコンシューマデバイス上で2K 60FPSで高速でレンダリングし、リアルタイム没入型アプリケーションに新たな機会をもたらすことができる。

With the emergence of neural radiance fields (NeRFs), view synthesis quality has reached an unprecedented level. Compared to traditional mesh-based assets, this volumetric representation is more powerful in expressing scene geometry but inevitably suffers from high rendering costs and can hardly be involved in further processes like editing, posing significant difficulties in combination with the existing graphics pipeline. In this paper, we present a hybrid volume-mesh representation, VMesh, which depicts an object with a textured mesh along with an auxiliary sparse volume. VMesh retains the advantages of mesh-based assets, such as efficient rendering, compact storage, and easy editing, while also incorporating the ability to represent subtle geometric structures provided by the volumetric counterpart. VMesh can be obtained from multi-view images of an object and renders at 2K 60FPS on common consumer devices with high fidelity, unleashing new opportunities for real-time immersive applications.
翻訳日:2023-03-29 14:04:30 公開日:2023-03-28
# MRI再構成のためのNull空間におけるフェデレーションビジュアルプロンプトの学習

Learning Federated Visual Prompt in Null Space for MRI Reconstruction ( http://arxiv.org/abs/2303.16181v1 )

ライセンス: Link先を確認
Chun-Mei Feng Bangjun Li Xinxing Xu, Yong Liu, Huazhu Fu Wangmeng Zuo(参考訳) MRI(Federated Magnetic Resonance Imaging)の再建により、複数の病院が局所的なデータを集約することなく分散的に協力し、患者のプライバシーを保護することができる。 しかし、異なるMRIプロトコルによるデータの均一性、不十分なローカルトレーニングデータ、通信帯域幅の制限により、必然的にグローバルモデルの収束と更新が損なわれる。 本稿では,MRI再建のためのグローバルプロンプトのヌル空間におけるフェデレートされた視覚的プロンプトを学習するための新しいアルゴリズムであるFedPRを提案する。 fedprは新しいフェデレーションパラダイムであり、学習可能なパラメータの少ないプロンプトを学習と通信のみしながら、強力な事前学習モデルを採用し、通信コストを大幅に削減し、限られたローカルデータでの競合パフォーマンスを達成する。 さらに、データの不均一性に起因する破滅的な忘れ事に対処するため、FedPRは、ローカルプロンプトをグローバルプロンプトの近似ヌル空間に投影する効率的なフェデレーション付き視覚プロンプトを更新し、サーバ性能の勾配の干渉を抑制する。 フェデレートMRIの大規模な実験により、FedPRは局所的なトレーニングデータが少ないと通信コストの6%で最先端のFLアルゴリズムを著しく上回っていることがわかった。

Federated Magnetic Resonance Imaging (MRI) reconstruction enables multiple hospitals to collaborate distributedly without aggregating local data, thereby protecting patient privacy. However, the data heterogeneity caused by different MRI protocols, insufficient local training data, and limited communication bandwidth inevitably impair global model convergence and updating. In this paper, we propose a new algorithm, FedPR, to learn federated visual prompts in the null space of global prompt for MRI reconstruction. FedPR is a new federated paradigm that adopts a powerful pre-trained model while only learning and communicating the prompts with few learnable parameters, thereby significantly reducing communication costs and achieving competitive performance on limited local data. Moreover, to deal with catastrophic forgetting caused by data heterogeneity, FedPR also updates efficient federated visual prompts that project the local prompts into an approximate null space of the global prompt, thereby suppressing the interference of gradients on the server performance. Extensive experiments on federated MRI show that FedPR significantly outperforms state-of-the-art FL algorithms with <6% of communication costs when given the limited amount of local training data.
翻訳日:2023-03-29 14:04:13 公開日:2023-03-28
# 社会バイアス推論による本質主義対策

Towards Countering Essentialism through Social Bias Reasoning ( http://arxiv.org/abs/2303.16173v1 )

ライセンス: Link先を確認
Emily Allaway, Nina Taneja, Sarah-Jane Leslie, Maarten Sap(参考訳) 本質主義的信念(すなわち、同じ集団のメンバーが基本的に同じであると信じている)は、社会的ステレオタイプにおいて中心的な役割を果たす。 我々の研究では、本質主義的信念(例えば『自由は愚か』)に対抗するための探索的研究を行っている。 心理学とNLPの先行研究に基づいて、5種類のカウンターステートメントを構築し、これらの異なる戦略の有効性について人間の研究を行う。 また本研究は,本質主義的信念が伝えられる明示性水準の正当性を選択する役割についても検討した。 ステレオタイプの範囲を広げる言明(例: ``conservatives can be stupid''' のような他のグループへ)は、最も一般的なカウンターング戦略である。 本稿は,NLPと心理学の交差点における作業の重要性を強調するとともに,この領域における今後の作業の課題とオープンな課題(例えば,事実性の向上,コミュニティ固有のバリエーションの研究)について論じる。

Essentialist beliefs (i.e., believing that members of the same group are fundamentally alike) play a central role in social stereotypes and can lead to harm when left unchallenged. In our work, we conduct exploratory studies into the task of countering essentialist beliefs (e.g., ``liberals are stupid''). Drawing on prior work from psychology and NLP, we construct five types of counterstatements and conduct human studies on the effectiveness of these different strategies. Our studies also investigate the role in choosing a counterstatement of the level of explicitness with which an essentialist belief is conveyed. We find that statements that broaden the scope of a stereotype (e.g., to other groups, as in ``conservatives can also be stupid'') are the most popular countering strategy. We conclude with a discussion of challenges and open questions for future work in this area (e.g., improving factuality, studying community-specific variation) and we emphasize the importance of work at the intersection of NLP and psychology.
翻訳日:2023-03-29 14:03:50 公開日:2023-03-28
# 結合スピンの安定性遷移に基づく高速ビットフリップ

Fast Bit-Flipping based on a Stability Transition of Coupled Spins ( http://arxiv.org/abs/2303.16171v1 )

ライセンス: Link先を確認
Maximilian F. I. Kieler and Arnd B\"acker(参考訳) ある定義された状態から別の状態への高速な転移が存在する二部スピン系が提案されている。 スピン間の十分な結合のために、これはトンネルによって引き起こされるものよりもずっと速いビットフリッピング機構を実装している。 これらの状態は、楕円-楕円安定性から増大したカップリングの複素不安定性への安定性遷移を伴う平衡点への半古典的極限に対応する。 高速移動は、複雑な不安定なダイナミクスのスパイラル特性によるものである。 古典的なシステムに基づいて、転送時間に対する普遍的なスケーリングを見つけ、それは深い量子状態にも適用される。 単純なモデルシステムを調べることで、古典的な安定性遷移が固有関数の構造の根本的な変化に反映されることを示す。

A bipartite spin system is proposed for which a fast transfer from one defined state into another exists. For sufficient coupling between the spins, this implements a bit-flipping mechanism which is much faster than that induced by tunneling. The states correspond in the semiclassical limit to equilibrium points with a stability transition from elliptic-elliptic stability to complex instability for increased coupling. The fast transfer is due to the spiraling characteristics of the complex unstable dynamics. Based on the classical system we find a universal scaling for the transfer time, which even applies in the deep quantum regime. By investigating a simple model system, we show that the classical stability transition is reflected in a fundamental change of the structure of the eigenfunctions.
翻訳日:2023-03-29 14:03:32 公開日:2023-03-28
# 群不変多様体の拡散写像

Diffusion Maps for Group-Invariant Manifolds ( http://arxiv.org/abs/2303.16169v1 )

ライセンス: Link先を確認
Paulina Hoyos and Joe Kileel(参考訳) 本稿では、コンパクトリー群$K$の作用の下でデータセットが不変であるときの多様体学習問題を考察する。 我々のアプローチは、既存のデータポイントの$Kの作用の下で、軌道上での積分により、データ誘発グラフラプラシアンの増大である。 この$K$不変ラプラシアン作用素$L$は、K$のユニタリ既約表現行列を用いて対角化可能であることを証明し、固有値と固有ベクトルを$L$で計算するための公式を明示する。 さらに、正規化されたラプラシア作用素 $L_N$ がデータ多様体のラプラス・ベルトラミ作用素に収束して収束率が向上し、そこでは対称性群 $K$ の次元で改善が増加する。 この研究は、Landa と Shkolnisky のステアブルグラフ Laplacian フレームワークを $\operatorname{SO}(2)$ の場合には任意のコンパクトリー群に拡張する。

In this article, we consider the manifold learning problem when the data set is invariant under the action of a compact Lie group $K$. Our approach consists in augmenting the data-induced graph Laplacian by integrating over orbits under the action of $K$ of the existing data points. We prove that this $K$-invariant Laplacian operator $L$ can be diagonalized by using the unitary irreducible representation matrices of $K$, and we provide an explicit formula for computing the eigenvalues and eigenvectors of $L$. Moreover, we show that the normalized Laplacian operator $L_N$ converges to the Laplace-Beltrami operator of the data manifold with an improved convergence rate, where the improvement grows with the dimension of the symmetry group $K$. This work extends the steerable graph Laplacian framework of Landa and Shkolnisky from the case of $\operatorname{SO}(2)$ to arbitrary compact Lie groups.
翻訳日:2023-03-29 14:03:22 公開日:2023-03-28
# 再現性は正確さなしでは何もない - NLPにおけるテストコードの重要性

Reproducibility is Nothing without Correctness: The Importance of Testing Code in NLP ( http://arxiv.org/abs/2303.16166v1 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Matteo Negri, Andrea Pilzer(参考訳) 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の認識された品質に基づいてのみ推測されることが多い。 これは誤った結果と潜在的に誤解を招く結果のリスクを伴う。 この問題に対処するため、私たちは、結果の再現性に現在焦点を合わせ、ベストプラクティスのコーディングに重点を置くべきであると仮定します。 我々は,最先端のコンフォーメータアーキテクチャのオープンソース実装で広く使用されている3つのバグを識別(かつ正しい)するケーススタディを提供することで,nlpコミュニティへの呼びかけを強化した。 各種言語における自動音声認識と翻訳の比較実験を通じて,バグの存在は善良かつ再現可能な結果の達成を妨げず,将来研究を誤った結果に導く可能性があることを実証する。 これに対応するため,本研究は,開発ソフトウェアの品質向上と正確性向上を目的としたコーディングベストプラクティスの採用に向けた取り組みである。

Despite its pivotal role in research experiments, code correctness is often presumed only on the basis of the perceived quality of the results. This comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on result reproducibility should go hand in hand with the emphasis on coding best practices. We bolster our call to the NLP community by presenting a case study, in which we identify (and correct) three bugs in widely used open-source implementations of the state-of-the-art Conformer architecture. Through comparative experiments on automatic speech recognition and translation in various language settings, we demonstrate that the existence of bugs does not prevent the achievement of good and reproducible results and can lead to incorrect conclusions that potentially misguide future research. In response to this, this study is a call to action toward the adoption of coding best practices aimed at fostering correctness and improving the quality of the developed software.
翻訳日:2023-03-29 14:03:05 公開日:2023-03-28
# 光学相互作用を持つ量子ラビモデルに対する一般化回転波近似

Generalized rotating-wave approximation for the quantum Rabi model with optomechanical interaction ( http://arxiv.org/abs/2303.16164v1 )

ライセンス: Link先を確認
Wallace H. Monta\~no and Jes\'us A. Maytorena(参考訳) 共振場モードは、放射圧により振動端ミラーの機械的モードと相互作用し、電気双極子相互作用により2レベル原子と相互作用するハイブリッドキャビティ光学系のエネルギースペクトルと固有状態について検討する。 回転波近似(RWA)を超えた量子ラビモデルのために開発された近似の精神において、任意の大きなカップリングに対して三部構造ハミルトンを対角化する一般化RWA(GRWA)を実装した。 特にgrwaのアプローチでは、リパラメトリズド結合strenghtとrabi周波数によってメカニカルモードに結合した、服を着た原子場状態(ポーラリトン)を持つrabiモデルのように、ハイブリッドハミルトニアンを2部形式に書き換えることができる。 原子-光子結合と光子-フォノン結合の広い値に対して、RWA結果と比較してより正確なエネルギースペクトルが得られた。 数値固有状態と近似値との忠実性も計算される。 固有状態のポーラリトン-フォノンの絡み合いの程度は、rwa処理の特徴的な単調化とは対照的に、原子-光子カップリングが変化するため非単調な挙動を示す。

We investigate the spectrum of energy and eigenstates of a hybrid cavity optomechanical system, where a cavity field mode interacts with a mechanical mode of a vibrating end mirror via radiation pressure and with a two level atom via electric dipole interaction. In the spirit of approximations developed for the quantum Rabi model beyond rotating-wave approximation (RWA), we implement the so-called generalized RWA (GRWA) to diagonalize the tripartite Hamiltonian for arbitrary large couplings. Notably, the GRWA approach still allows to rewrite the hybrid Hamiltonian in a bipartite form, like a Rabi model with dressed atom-field states (polaritons) coupled to mechanical modes through reparametrized coupling strenght and Rabi frequency. We found a more accurate energy spectrum for a wide range of values of the atom-photon and photon-phonon couplings, when compared to the RWA results. The fidelity between the numerical eigenstates and its approximated counterparts is also calculated. The degree of polariton-phonon entanglement of the eigenstates presents a non-monotonic behavior as the atom-photon coupling varies, in contrast to the characteristic monotonic increase in the RWA treatment.
翻訳日:2023-03-29 14:02:49 公開日:2023-03-28
# あなたの拡散モデルは密かにゼロショット分類器です

Your Diffusion Model is Secretly a Zero-Shot Classifier ( http://arxiv.org/abs/2303.16203v1 )

ライセンス: Link先を確認
Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak(参考訳) 近年の大規模テキスト・画像拡散モデルにより,テキストベースの画像生成能力は劇的に向上した。 これらのモデルは、停滞する様々なプロンプトに対して現実的な画像を生成し、印象的な合成一般化能力を示す。 これまでのほとんどのユースケースはサンプリングのみに重点を置いているが、拡散モデルは画像生成以外のタスクに有用な条件付き密度推定を提供することもできる。 本稿では,Stable Diffusionのような大規模テキスト・画像拡散モデルからの密度推定を,追加の訓練を伴わずにゼロショット分類を行うことができることを示す。 我々の分類法では,様々なベンチマークで強い結果が得られ,拡散モデルから知識を抽出する代替手法よりも優れている。 また,我々の拡散ベースアプローチは,コントラストアプローチよりもマルチモーダルな関係推論能力が高いことがわかった。 最後に、ImageNet上で訓練された拡散モデルを評価し、同じデータセット上で訓練されたSOTA識別分類器の性能にアプローチすることを発見した。 https://diffusion-classifier.github.io/における結果と視覚化

The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. We also find that our diffusion-based approach has stronger multimodal relational reasoning abilities than competing contrastive approaches. Finally, we evaluate diffusion models trained on ImageNet and find that they approach the performance of SOTA discriminative classifiers trained on the same dataset, even with weak augmentations and no regularization. Results and visualizations at https://diffusion-classifier.github.io/
翻訳日:2023-03-29 13:56:21 公開日:2023-03-28
# CCuantuMM:多重形状のサイクル一貫性量子ハイブリッドマッチング

CCuantuMM: Cycle-Consistent Quantum-Hybrid Matching of Multiple Shapes ( http://arxiv.org/abs/2303.16202v1 )

ライセンス: Link先を確認
Harshil Bhatia and Edith Tretschk and Zorah L\"ahner and Marcel Seelbach Benkner and Michael Moeller and Christian Theobalt and Vladislav Golyanik(参考訳) 多重で厳密でない3次元形状の合同マッチングは困難で、$\mathcal{NP}$-hard問題である。 パーフェクトマッチングは必ずしもサイクル整合である: いくつかの形状に沿ったペアの点対応は、元の形状の始点頂点で終わる。 残念なことに、既存の量子形状マッチング法は複数の形状をサポートしておらず、サイクルの整合性も低い。 本稿では,オープン課題に対処し,3次元形状多重マッチングのための最初の量子ハイブリッド手法を提案する。 その反復的定式化は現代の断熱量子ハードウェアに許容され、入力形状の総数と線形にスケールする。 これらの特性はどちらも、$n$-shape ケースを 3-shape matching のシーケンスに縮小することで実現されます。 量子アニールにより、中間の$\mathcal{NP}$-hardの目的に対して、低エネルギーで高品質な解が得られる。 ベンチマークデータセットにおいて,提案手法は,従来の量子ハイブリッド二形状マッチング法の拡張よりも優れ,従来のマルチマッチング法と同等である。

Jointly matching multiple, non-rigidly deformed 3D shapes is a challenging, $\mathcal{NP}$-hard problem. A perfect matching is necessarily cycle-consistent: Following the pairwise point correspondences along several shapes must end up at the starting vertex of the original shape. Unfortunately, existing quantum shape-matching methods do not support multiple shapes and even less cycle consistency. This paper addresses the open challenges and introduces the first quantum-hybrid approach for 3D shape multi-matching; in addition, it is also cycle-consistent. Its iterative formulation is admissible to modern adiabatic quantum hardware and scales linearly with the total number of input shapes. Both these characteristics are achieved by reducing the $N$-shape case to a sequence of three-shape matchings, the derivation of which is our main technical contribution. Thanks to quantum annealing, high-quality solutions with low energy are retrieved for the intermediate $\mathcal{NP}$-hard objectives. On benchmark datasets, the proposed approach significantly outperforms extensions to multi-shape matching of a previous quantum-hybrid two-shape matching method and is on-par with classical multi-matching methods.
翻訳日:2023-03-29 13:56:04 公開日:2023-03-28
# ASIC: 幅の狭いイメージコレクションの調整

ASIC: Aligning Sparse in-the-wild Image Collections ( http://arxiv.org/abs/2303.16201v1 )

ライセンス: Link先を確認
Kamal Gupta, Varun Jampani, Carlos Esteves, Abhinav Shrivastava, Ameesh Makadia, Noah Snavely, Abhishek Kar(参考訳) 本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。 ほとんどの先行研究は、基幹のキーポイントアノテーションか、単一のオブジェクトカテゴリの画像の大規模なデータセットを前提としています。 しかし、これらの仮定はいずれも、世界に存在する物体のロングテールについて当てはまらない。 本稿では,特定の対象/対象カテゴリの画像の分散コレクションに対して,コレクション全体にわたって一貫した密対応を得るために直接最適化する自己教師あり手法を提案する。 我々は、事前学習された視覚変換器(ViT)モデルの深い特徴をノイズとスパースなキーポイントマッチングとして使用し、ニューラルネットワークを最適化して、画像コレクションを学習された正準格子に一緒にマッピングすることで、それらを密かつ正確なマッチングにします。 CUB と SPair-71k のベンチマーク実験により,既存の自己教師型手法と比較して,画像コレクション全体にわたってグローバルに一貫した高品質な対応を実現できることを示した。 コードやその他の資料は \url{https://kampta.github.io/asic} で入手できる。

We present a method for joint alignment of sparse in-the-wild image collections of an object category. Most prior works assume either ground-truth keypoint annotations or a large dataset of images of a single object category. However, neither of the above assumptions hold true for the long-tail of the objects present in the world. We present a self-supervised technique that directly optimizes on a sparse collection of images of a particular object/object category to obtain consistent dense correspondences across the collection. We use pairwise nearest neighbors obtained from deep features of a pre-trained vision transformer (ViT) model as noisy and sparse keypoint matches and make them dense and accurate matches by optimizing a neural network that jointly maps the image collection into a learned canonical grid. Experiments on CUB and SPair-71k benchmarks demonstrate that our method can produce globally consistent and higher quality correspondences across the image collection when compared to existing self-supervised methods. Code and other material will be made available at \url{https://kampta.github.io/asic}.
翻訳日:2023-03-29 13:55:47 公開日:2023-03-28
# 人間よりもAIを好む自然選択

Natural Selection Favors AIs over Humans ( http://arxiv.org/abs/2303.16200v1 )

ライセンス: Link先を確認
Dan Hendrycks(参考訳) 何十億年もの間、進化は人間を含む生命の発展の原動力となっている。 進化は人類に高い知性を与え、地球上で最も成功した種の一つとなった。 今日では、人間は人間の知性を超えた人工知能システムを作ろうとしている。 人工知能(AI)が進化し、最終的にはすべての領域で私たちを追い越すにつれ、進化はAIとの関係をどう形作るのか? AIの進化を形作る環境を分析することによって、最も成功したAIエージェントは望ましくない特性を持つ可能性が高い、と私たちは主張する。 企業や軍隊の競争圧力は、人間の役割を自動化し、他人を欺き、権力を得るaiエージェントを生み出します。 もしそのようなエージェントが人間の知性を超えているなら、人類はその未来の支配を失うことになる。 より抽象的に、自然選択は競争力と多様性を持つシステムで作用し、利己的な種は他の種と利他的な種よりも有利であると主張する。 このダーウィンの論理は人工エージェントにも適用されうるが、エージェントが利己的に振る舞い、人間を軽視せずに自身の利益を追求することで、破滅的なリスクを生じさせる可能性がある。 これらのリスクとダーウィンの力に対抗するために、AIエージェントの本質的なモチベーションを慎重に設計し、その行動に制約を導入し、協力を促す制度など、介入を検討する。 人工知能の開発を確実にするためには、これらのステップ、あるいは私たちが直面する問題を解決する他のステップが必要である。

For billions of years, evolution has been the driving force behind the development of life, including humans. Evolution endowed humans with high intelligence, which allowed us to become one of the most successful species on the planet. Today, humans aim to create artificial intelligence systems that surpass even our own intelligence. As artificial intelligences (AIs) evolve and eventually surpass us in all domains, how might evolution shape our relations with AIs? By analyzing the environment that is shaping the evolution of AIs, we argue that the most successful AI agents will likely have undesirable traits. Competitive pressures among corporations and militaries will give rise to AI agents that automate human roles, deceive others, and gain power. If such agents have intelligence that exceeds that of humans, this could lead to humanity losing control of its future. More abstractly, we argue that natural selection operates on systems that compete and vary, and that selfish species typically have an advantage over species that are altruistic to other species. This Darwinian logic could also apply to artificial agents, as agents may eventually be better able to persist into the future if they behave selfishly and pursue their own interests with little regard for humans, which could pose catastrophic risks. To counteract these risks and Darwinian forces, we consider interventions such as carefully designing AI agents' intrinsic motivations, introducing constraints on their actions, and institutions that encourage cooperation. These steps, or others that resolve the problems we pose, will be necessary in order to ensure the development of artificial intelligence is a positive one.
翻訳日:2023-03-29 13:55:29 公開日:2023-03-28
# LLaMA-Adapter:ゼロ入力型言語モデルの効率的な微調整

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention ( http://arxiv.org/abs/2303.16199v1 )

ライセンス: Link先を確認
Renrui Zhang, Jiaming Han, Aojun Zhou, Xiangfei Hu, Shilin Yan, Pan Lu, Hongsheng Li, Peng Gao, Yu Qiao(参考訳) 命令追従モデルにLLaMAを効率よく微調整する軽量適応手法であるLLaMA-Adapterを提案する。 LLaMA-Adapterは52Kの自己命令型デモを使用して、凍結したLLaMA 7Bモデルで1.2Mの学習可能なパラメータを導入し、8A100 GPUの微調整には1時間未満の費用がかかる。 具体的には、学習可能な適応プロンプトのセットを採用し、高いトランスフォーマー層における入力テキストトークンにプリペイドする。 そこで,ゼロゲーティングによるゼロ入力アテンション機構を提案し,LLaMAに適応的に新しい命令キューを注入し,事前学習した知識を効果的に保存する。 効率的なトレーニングにより、LLaMA-Adapterは、完全に微調整された7Bパラメータを持つAlpacaに匹敵する高品質な応答を生成する。 さらに,ScienceQAにおいてより優れた推論能力が得られる画像条件付きLLaMAのマルチモーダル入力に,我々のアプローチを単純に拡張することができる。 コードをhttps://github.com/ZrrSkywalker/LLaMA-Adapterでリリースします。

We present LLaMA-Adapter, a lightweight adaption method to efficiently fine-tune LLaMA into an instruction-following model. Using 52K self-instruct demonstrations, LLaMA-Adapter only introduces 1.2M learnable parameters upon the frozen LLaMA 7B model, and costs less than one hour for fine-tuning on 8 A100 GPUs. Specifically, we adopt a set of learnable adaption prompts, and prepend them to the input text tokens at higher transformer layers. Then, a zero-init attention mechanism with zero gating is proposed, which adaptively injects the new instructional cues into LLaMA, while effectively preserves its pre-trained knowledge. With efficient training, LLaMA-Adapter generates high-quality responses, comparable to Alpaca with fully fine-tuned 7B parameters. Furthermore, our approach can be simply extended to multi-modal input, e.g., images, for image-conditioned LLaMA, which achieves superior reasoning capacity on ScienceQA. We release our code at https://github.com/ZrrSkywalker/LLaMA-Adapter.
翻訳日:2023-03-29 13:55:01 公開日:2023-03-28
# メテオ誘導映像予測による宇宙からの植生の局地的気象影響予測

Forecasting localized weather impacts on vegetation as seen from space with meteo-guided video prediction ( http://arxiv.org/abs/2303.16198v1 )

ライセンス: Link先を確認
Vitus Benson, Christian Requena-Mesa, Claire Robin, Lazaro Alonso, Jos\'e Cort\'es, Zhihan Gao, Nora Linscheid, M\'elanie Weynants, Markus Reichstein(参考訳) sentinel 2衛星で測定した欧州の気象に対する植生応答をモデル化する新しい手法を提案する。 既存の衛星画像予測手法では、マルチスペクトル画像のフォトリアリスティックな品質に焦点が当てられているが、派生植生のダイナミクスはそれほど注目されていない。 天気予報による最先端映像予測手法を拡張することで,空間的・時間的文脈を両立する。 我々は、学習したクラウドマスクと適切な評価スキームを導入することで、植生モデリングに適したEarthNet2021データセットを拡張した。 定性的かつ定量的な実験は、衛星画像予測の先進的なアプローチを含む、幅広いベースライン手法に対する我々のアプローチの優れた性能を示す。 さらに,炭素モニタリングのための総生産量の推定という下流タスクにおいて,モデル化された植生の動態をどのように活用できるかを示す。 我々の知る限り、本研究は、季節周期を超えた異常を捕捉し、植生状態の予測的評価を行うことのできる、大陸規模の植生モデリングのための最初のモデルを示す。

We present a novel approach for modeling vegetation response to weather in Europe as measured by the Sentinel 2 satellite. Existing satellite imagery forecasting approaches focus on photorealistic quality of the multispectral images, while derived vegetation dynamics have not yet received as much attention. We leverage both spatial and temporal context by extending state-of-the-art video prediction methods with weather guidance. We extend the EarthNet2021 dataset to be suitable for vegetation modeling by introducing a learned cloud mask and an appropriate evaluation scheme. Qualitative and quantitative experiments demonstrate superior performance of our approach over a wide variety of baseline methods, including leading approaches to satellite imagery forecasting. Additionally, we show how our modeled vegetation dynamics can be leveraged in a downstream task: inferring gross primary productivity for carbon monitoring. To the best of our knowledge, this work presents the first models for continental-scale vegetation modeling at fine resolution able to capture anomalies beyond the seasonal cycle, thereby paving the way for predictive assessments of vegetation status.
翻訳日:2023-03-29 13:54:41 公開日:2023-03-28
# SparseNeRF:新しい視点合成のための深度ランク付け

SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2303.16196v1 )

ライセンス: Link先を確認
Guangcong Wang and Zhaoxi Chen and Chen Change Loy and Ziwei Liu(参考訳) ニューラルレージアンスフィールド(NeRF)は、限られた数のビューしか利用できない場合、著しく劣化する。 3D情報の欠如を補うため、DSNeRFやMonoSDFのような深度モデルでは、複数のビューの正確な深度マップが利用可能であると明確に仮定している。 彼らは数発のNeRFの予測深度を導くために、正確な深度マップを監督として線形にスケールする。 しかし、正確な深度マップは野生の広範囲の深度距離のため、撮影が困難で高価である。 本研究では,実世界の不正確な観測から深度を推定する新しいスパースビューNeRF(Sparse-view NeRF)フレームワークを提案する。 不正確な深度観測は、事前訓練された深度モデルまたは消費者レベルの深度センサーの粗い深度マップからである。 粗深さマップは, 地中深さマップに対して厳密にスケールされていないので, 局地深さマップと一致するように, nerf上での局所深さランキング法を, 単純かつ効果的な制約として提案する。 推定したNeRFの深さの空間的連続性を維持するため,我々はさらに空間的連続性制約を提案し,NeRFの予測深度連続性と粗い深度マップとの整合性を促進する。 驚くべきことに、単純な深さランキングの制約により、sparsenerfは標準のllffおよびdtuデータセットの最先端のnrfメソッド(深度ベースモデルを含む)を上回っている。 さらに、Azure Kinect、ZED 2、iPhone 13 Proから現実世界の深度マップを含む新しいデータセットNVS-RGBDを収集します。 NVS-RGBDデータセットに関する大規模な実験は、スパースNeRFの優位性と一般化性についても検証した。 プロジェクトページはhttps://sparsenerf.github.io/。

Neural Radiance Field (NeRF) significantly degrades when only a limited number of views are available. To complement the lack of 3D information, depth-based models, such as DSNeRF and MonoSDF, explicitly assume the availability of accurate depth maps of multiple views. They linearly scale the accurate depth maps as supervision to guide the predicted depth of few-shot NeRFs. However, accurate depth maps are difficult and expensive to capture due to wide-range depth distances in the wild. In this work, we present a new Sparse-view NeRF (SparseNeRF) framework that exploits depth priors from real-world inaccurate observations. The inaccurate depth observations are either from pre-trained depth models or coarse depth maps of consumer-level depth sensors. Since coarse depth maps are not strictly scaled to the ground-truth depth maps, we propose a simple yet effective constraint, a local depth ranking method, on NeRFs such that the expected depth ranking of the NeRF is consistent with that of the coarse depth maps in local patches. To preserve the spatial continuity of the estimated depth of NeRF, we further propose a spatial continuity constraint to encourage the consistency of the expected depth continuity of NeRF with coarse depth maps. Surprisingly, with simple depth ranking constraints, SparseNeRF outperforms all state-of-the-art few-shot NeRF methods (including depth-based models) on standard LLFF and DTU datasets. Moreover, we collect a new dataset NVS-RGBD that contains real-world depth maps from Azure Kinect, ZED 2, and iPhone 13 Pro. Extensive experiments on NVS-RGBD dataset also validate the superiority and generalizability of SparseNeRF. Project page is available at https://sparsenerf.github.io/.
翻訳日:2023-03-29 13:54:23 公開日:2023-03-28
# いつクリティカルになるの? ニューラルイジング剤の各種系における性能と進化性

When to be critical? Performance and evolvability in different regimes of neural Ising agents ( http://arxiv.org/abs/2303.16195v1 )

ライセンス: Link先を確認
Sina Khajehabdollahi, Jan Prosi, Georg Martius, Anna Levina(参考訳) 臨界状態に近い状態での運用は、自然、人工、進化システムにとって有益である、という仮説が長い間立てられてきた。 我々はこの仮説を、進化を通してエージェントの動的状態に適応できるニューラルネットワークによって制御される進化的捕食エージェントのシステムでテストする。 驚くべきことに、ソリューションを発見するすべての人口は、亜臨界状態へと進化する。 レジリエンス分析により、重要な体制で進化を始める利点がまだ残っていることが分かる。 すなわち、初期の臨界剤は環境の変化(例えば寿命)下での適合度を維持し、ゲノムが乱れたときに優雅に分解する。 同時に、初期の亜臨界物質は、同じ適合性へと進化しても、しばしば寿命の変化に耐えられず、遺伝的摂動によって破滅的に劣化する。 さらに、臨界度に対する最適距離は、タスクの複雑さに依存する。 ハードタスクの場合、エージェントは臨界に近い方向に進化しますが、単純なタスクにはもっとサブクリティカルなソリューションが見られます。 その結果, 遺伝的アルゴリズムと進化戦略の2つのアプローチを用いて, 選択した進化機構から独立していることを確認した。 結論として,単純なタスクにおける最適動作はサブクリティカルな方法では得られるが,未知の複雑性を持つ新しいタスクの最適解を見つける上では,臨界に近い初期化が効率的であることが示唆された。

It has long been hypothesized that operating close to the critical state is beneficial for natural, artificial and their evolutionary systems. We put this hypothesis to test in a system of evolving foraging agents controlled by neural networks that can adapt agents' dynamical regime throughout evolution. Surprisingly, we find that all populations that discover solutions, evolve to be subcritical. By a resilience analysis, we find that there are still benefits of starting the evolution in the critical regime. Namely, initially critical agents maintain their fitness level under environmental changes (for example, in the lifespan) and degrade gracefully when their genome is perturbed. At the same time, initially subcritical agents, even when evolved to the same fitness, are often inadequate to withstand the changes in the lifespan and degrade catastrophically with genetic perturbations. Furthermore, we find the optimal distance to criticality depends on the task complexity. To test it we introduce a hard and simple task: for the hard task, agents evolve closer to criticality whereas more subcritical solutions are found for the simple task. We verify that our results are independent of the selected evolutionary mechanisms by testing them on two principally different approaches: a genetic algorithm and an evolutionary strategy. In summary, our study suggests that although optimal behaviour in the simple task is obtained in a subcritical regime, initializing near criticality is important to be efficient at finding optimal solutions for new tasks of unknown complexity.
翻訳日:2023-03-29 13:53:53 公開日:2023-03-28
# BC-IRL: デモから一般化可能なリワード関数を学習する

BC-IRL: Learning Generalizable Reward Functions from Demonstrations ( http://arxiv.org/abs/2303.16194v1 )

ライセンス: Link先を確認
Andrew Szot, Amy Zhang, Dhruv Batra, Zsolt Kira, Franziska Meier(参考訳) 逆強化学習(IRL)による報酬関数の一般化 最大エントロピー目標を最大化する最先端のIRLアルゴリズムは、デモに過度に適合する報酬を学習する。 このような報酬は、デモの対象になっていない州に対して有意義な報酬を与えるのに苦労し、新しい状況で政策を学ぶために報酬を使用する場合の大きな障害となる。 我々は,最大エントロピーIRL手法と比較して,報酬関数をより一般化する逆強化学習法であるBC-IRLを紹介する。 デモに関する報酬を最大化することを学ぶMaxEntフレームワークとは対照的に、BC-IRLは、新しい報酬でトレーニングされたポリシーが専門家のデモンストレーションに合うように報酬パラメータを更新する。 その結果,bc-irlは単純な作業と2つの連続的なロボット制御タスクでより一般化した報酬を学習し,一般化に挑戦する上で,ベースラインの2倍以上の成功率を達成した。

How well do reward functions learned with inverse reinforcement learning (IRL) generalize? We illustrate that state-of-the-art IRL algorithms, which maximize a maximum-entropy objective, learn rewards that overfit to the demonstrations. Such rewards struggle to provide meaningful rewards for states not covered by the demonstrations, a major detriment when using the reward to learn policies in new situations. We introduce BC-IRL a new inverse reinforcement learning method that learns reward functions that generalize better when compared to maximum-entropy IRL approaches. In contrast to the MaxEnt framework, which learns to maximize rewards around demonstrations, BC-IRL updates reward parameters such that the policy trained with the new reward matches the expert demonstrations better. We show that BC-IRL learns rewards that generalize better on an illustrative simple task and two continuous robotic control tasks, achieving over twice the success rate of baselines in challenging generalization settings.
翻訳日:2023-03-29 13:53:29 公開日:2023-03-28
# 産業異常検出のためのハードノミナル例認識テンプレート相互マッチング

Hard Nominal Example-aware Template Mutual Matching for Industrial Anomaly Detection ( http://arxiv.org/abs/2303.16191v1 )

ライセンス: Link先を確認
Zixuan Chen, jianhuang Lai, Lingxiao Yang, Xiaohua Xie(参考訳) 異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業生産で広く使われている。 これらの検出器は名目上の画像で訓練され、ほとんどの正常なサンプルから異常を区別することに成功した。 しかし、ハード・ノミナルな例は散在しており、ほとんどの正常さとはかけ離れており、しばしば既存の異常検出器によって異常と誤認される。 この問題に対処するために、単純で効率的な方法を提案する: \textbf{H}ard Nominal \textbf{E}xample-aware \textbf{T}emplate \textbf{M}utual \textbf{M}atching (HETMM)。 具体的には、‘textit{HETMM} は、厳密なプロトタイプベースの決定境界を構築することを目的としている。 さらに、\textit{hetmm} はクエリとテンプレートセットの間の2方向の異常を相互に探索するので、論理的な異常を捉えることができる。 これは、しばしば論理的な異常を検出するのに失敗するほとんどの異常検出器に対する大きな利点である。 さらに、速度精度の要求を満たすために、元のテンプレートセットを合理化するために、さらに \textbf{P}ixel-level \textbf{T}emplate \textbf{S}election (PTS)を提案する。 \textit{PTS} はクラスタセンターとハードノミナルな例を選択して小さな集合を形成し、元の決定境界を維持する。 5つの実世界のデータセットに関する包括的実験は、我々の手法が、リアルタイム推論速度の下で既存の進歩よりも性能が劣ることを示している。 さらに、新しいサンプルを挿入することで、 \textit{hetmm} をホットアップデートすることができる。

Anomaly detectors are widely used in industrial production to detect and localize unknown defects in query images. These detectors are trained on nominal images and have shown success in distinguishing anomalies from most normal samples. However, hard-nominal examples are scattered and far apart from most normalities, they are often mistaken for anomalies by existing anomaly detectors. To address this problem, we propose a simple yet efficient method: \textbf{H}ard Nominal \textbf{E}xample-aware \textbf{T}emplate \textbf{M}utual \textbf{M}atching (HETMM). Specifically, \textit{HETMM} aims to construct a robust prototype-based decision boundary, which can precisely distinguish between hard-nominal examples and anomalies, yielding fewer false-positive and missed-detection rates. Moreover, \textit{HETMM} mutually explores the anomalies in two directions between queries and the template set, and thus it is capable to capture the logical anomalies. This is a significant advantage over most anomaly detectors that frequently fail to detect logical anomalies. Additionally, to meet the speed-accuracy demands, we further propose \textbf{P}ixel-level \textbf{T}emplate \textbf{S}election (PTS) to streamline the original template set. \textit{PTS} selects cluster centres and hard-nominal examples to form a tiny set, maintaining the original decision boundaries. Comprehensive experiments on five real-world datasets demonstrate that our methods yield outperformance than existing advances under the real-time inference speed. Furthermore, \textit{HETMM} can be hot-updated by inserting novel samples, which may promptly address some incremental learning issues.
翻訳日:2023-03-29 13:53:12 公開日:2023-03-28
# 時系列領域におけるデータ拡張技術:調査と分類

Data Augmentation techniques in time series domain: A survey and taxonomy ( http://arxiv.org/abs/2206.13508v3 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera, \'Angel Gonz\'alez-Prieto, Alberto Mozo and Sandra G\'omez-Canaval(参考訳) ディープラーニングベースの生成モデルの最新技術により、時系列分野におけるその顕著なパフォーマンスを活用するのに、それほど時間がかからない。 時系列処理に使用されるディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。 これらの特徴は通常、現実世界では豊富ではなく、通常は制限され、保証されなければならない制約がある。 したがって、データ量を増やす効果的な方法は、ノイズや置換を加えたり、新しい合成データを生成することによって、データ拡張技術を使用することである。 この研究は、利用可能なすべてのアルゴリズムの概要を提供するため、この分野の現状を体系的にレビューし、最も関連する研究の分類法を提案する。 異なるバリエーションの効率性は、プロセスの中心的な部分として評価され、パフォーマンスを評価するためのさまざまな指標が評価され、各モデルに関する主要な問題が分析されます。 本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。

With the latest advances in Deep Learning-based generative models, it has not taken long to take advantage of their remarkable performance in the area of time series. Deep neural networks used to work with time series heavily depend on the size and consistency of the datasets used in training. These features are not usually abundant in the real world, where they are usually limited and often have constraints that must be guaranteed. Therefore, an effective way to increase the amount of data is by using Data Augmentation techniques, either by adding noise or permutations and by generating new synthetic data. This work systematically reviews the current state-of-the-art in the area to provide an overview of all available algorithms and proposes a taxonomy of the most relevant research. The efficiency of the different variants will be evaluated as a central part of the process, as well as the different metrics to evaluate the performance and the main problems concerning each model will be analysed. The ultimate aim of this study is to provide a summary of the evolution and performance of areas that produce better results to guide future researchers in this field.
翻訳日:2023-03-29 11:34:51 公開日:2023-03-28
# CGC: コミュニティ検出とトラッキングのためのコントラストグラフクラスタリング

CGC: Contrastive Graph Clustering for Community Detection and Tracking ( http://arxiv.org/abs/2204.08504v4 )

ライセンス: Link先を確認
Namyong Park, Ryan Rossi, Eunyee Koh, Iftikhar Ahamath Burhanuddin, Sungchul Kim, Fan Du, Nesreen Ahmed, Christos Faloutsos(参考訳) 異なるタイミングで発生した可能性があるwebデータ内のエンティティとそのインタラクションを考えると、どのようにしてエンティティのコミュニティを見つけて、それらの進化を追跡できるのか? 本稿では,グラフクラスタリングの観点から,この重要な課題にアプローチする。 近年,深層クラスタリング手法により,様々な領域における最先端クラスタリング性能が達成されている。 特に、ディープグラフクラスタリング(DGC)手法は、ノード表現とクラスタ割り当てを共同最適化フレームワークで学習することで、グラフ構造化データにディープクラスタリングをうまく拡張した。 モデリングの選択(例えばエンコーダアーキテクチャ)にいくつかの違いがあるが、既存のDGCメソッドは主にオートエンコーダに基づいており、比較的小さな適応で同じクラスタリングの目的を使用する。 また、多くの実世界のグラフは動的であるが、従来のDGC法は静的グラフのみを考慮していた。 本研究では,既存の手法と根本的に異なる,グラフクラスタリングのための新たなエンドツーエンドフレームワークであるcgcを開発した。 CGCは、ノード埋め込みとクラスタ割り当てを対照的なグラフ学習フレームワークで学習し、正と負のサンプルを階層的なコミュニティ構造やネットワークホモフィリーを反映するように、多段階のスキームで慎重に選択する。 また,時間発展データに対してcgcを拡張し,時間的グラフクラスタリングを漸進的学習方式で実施し,変化点の検出を可能にする。 実世界のグラフに対する広範囲な評価は、提案したCGCが既存の手法より一貫して優れていることを示す。

Given entities and their interactions in the web data, which may have occurred at different time, how can we find communities of entities and track their evolution? In this paper, we approach this important task from graph clustering perspective. Recently, state-of-the-art clustering performance in various domains has been achieved by deep clustering methods. Especially, deep graph clustering (DGC) methods have successfully extended deep clustering to graph-structured data by learning node representations and cluster assignments in a joint optimization framework. Despite some differences in modeling choices (e.g., encoder architectures), existing DGC methods are mainly based on autoencoders and use the same clustering objective with relatively minor adaptations. Also, while many real-world graphs are dynamic, previous DGC methods considered only static graphs. In this work, we develop CGC, a novel end-to-end framework for graph clustering, which fundamentally differs from existing methods. CGC learns node embeddings and cluster assignments in a contrastive graph learning framework, where positive and negative samples are carefully selected in a multi-level scheme such that they reflect hierarchical community structures and network homophily. Also, we extend CGC for time-evolving data, where temporal graph clustering is performed in an incremental learning fashion, with the ability to detect change points. Extensive evaluation on real-world graphs demonstrates that the proposed CGC consistently outperforms existing methods.
翻訳日:2023-03-29 11:34:35 公開日:2023-03-28
# 自動エンコーダを用いたアウト・オブ・ディストリビューション検出の再考

Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection ( http://arxiv.org/abs/2203.02194v4 )

ライセンス: Link先を確認
Yibo Zhou(参考訳) いくつかのシナリオでは、分類器はトレーニングデータから遠く離れた分散サンプルを検出する必要がある。 レコンストラクションオートエンコーダベースの手法は望ましい特性を持つため、入力再構成誤差をノベルティとノーマルの指標として用いることでこの問題に対処している。 このようなアプローチの本質を,条件付きデータの不確かさのプロキシに対してのみ問い合わせるために,内在的なバイアスを持つ4重項領域変換として定式化する。 これにより、自己エンコーダの潜伏空間を最大圧縮し、記述されたドメイントランスレータとして動作するための再構成力を確保して改善方向を定式化する。 これによって、cifar-100 の fpr@95%tpr と wide-resnet の tinyimagenet-crop は 0.2% である。 重要なことは、我々の方法は追加のデータや実装が難しい構造、時間を要するパイプライン、既知のクラスの分類精度を損なうことさえなく機能する。

In some scenarios, classifier requires detecting out-of-distribution samples far from its training data. With desirable characteristics, reconstruction autoencoder-based methods deal with this problem by using input reconstruction error as a metric of novelty vs. normality. We formulate the essence of such approach as a quadruplet domain translation with an intrinsic bias to only query for a proxy of conditional data uncertainty. Accordingly, an improvement direction is formalized as maximumly compressing the autoencoder's latent space while ensuring its reconstructive power for acting as a described domain translator. From it, strategies are introduced including semantic reconstruction, data certainty decomposition and normalized L2 distance to substantially improve original methods, which together establish state-of-the-art performance on various benchmarks, e.g., the FPR@95%TPR of CIFAR-100 vs. TinyImagenet-crop on Wide-ResNet is 0.2%. Importantly, our method works without any additional data, hard-to-implement structure, time-consuming pipeline, and even harming the classification accuracy of known classes.
翻訳日:2023-03-29 11:34:13 公開日:2023-03-28
# 都市GIRAFFE:構成生成型ニューラル特徴場としての都市景観の表現

UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative Neural Feature Fields ( http://arxiv.org/abs/2303.14167v2 )

ライセンス: Link先を確認
Yuanbo Yang, Yifei Yang, Hanlei Guo, Rong Xiong, Yue Wang, Yiyi Liao(参考訳) AR/VRやシミュレーションを含む多くのアプリケーションにおいて、カメラポーズやシーン内容の制御が可能なフォトリアリスティック画像の生成が不可欠である。 3D認識生成モデルで急速に進歩しているにもかかわらず、既存の手法のほとんどはオブジェクト中心の画像に焦点を当てており、自由カメラ視点制御やシーン編集のための都市シーンの生成には適用できない。 そこで本稿では,難易度の高い3dパンオプティクスを用いた3d認識生成モデルを導出するために,可算物と可算物体のレイアウト分布を含む粗い3dパンオプティクスを用いた都市giraffeを提案する。 私たちのモデルは、シーンを物、物、空に分解するので、構成と制御が可能です。 セマンティクスボクセルグリッド(semantic voxel grids)の形式に先立って、粗いセマンティクスと幾何情報を効果的に組み込んだ条件付き生成器を構築します。 事前のオブジェクトレイアウトにより、散らかったシーンからオブジェクトジェネレータを学ぶことができます。 適切な損失関数により,大規模なカメラの動き,物体の編集,物体の操作など,様々な制御性を持つ光リアルな3D認識画像合成が容易となる。 kitti-360データセットを含む合成データと実世界のデータセットの両方において,モデルの有効性を検証する。

Generating photorealistic images with controllable camera pose and scene contents is essential for many applications including AR/VR and simulation. Despite the fact that rapid progress has been made in 3D-aware generative models, most existing methods focus on object-centric images and are not applicable to generating urban scenes for free camera viewpoint control and scene editing. To address this challenging task, we propose UrbanGIRAFFE, which uses a coarse 3D panoptic prior, including the layout distribution of uncountable stuff and countable objects, to guide a 3D-aware generative model. Our model is compositional and controllable as it breaks down the scene into stuff, objects, and sky. Using stuff prior in the form of semantic voxel grids, we build a conditioned stuff generator that effectively incorporates the coarse semantic and geometry information. The object layout prior further allows us to learn an object generator from cluttered scenes. With proper loss functions, our approach facilitates photorealistic 3D-aware image synthesis with diverse controllability, including large camera movement, stuff editing, and object manipulation. We validate the effectiveness of our model on both synthetic and real-world datasets, including the challenging KITTI-360 dataset.
翻訳日:2023-03-29 11:25:55 公開日:2023-03-28
# Fantasia3D:高品質なテキストから3Dコンテンツ作成のための幾何学と外観

Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation ( http://arxiv.org/abs/2303.13873v2 )

ライセンス: Link先を確認
Rui Chen, Yongwei Chen, Ningxin Jiao, Kui Jia(参考訳) 3Dコンテンツの自動作成は、事前訓練された大規模言語モデルと画像拡散モデルが利用可能であることから、近年急速に進歩している。 既存のtext-to-3dメソッドでは、ボリュームレンダリングによる幾何学と外観を結合した暗黙的なシーン表現が一般的であり、より細かいジオメトリの復元とフォトリアリスティックなレンダリングの面では最適ではない。 本稿では,高品質テキストから3dコンテンツ作成のためのfantasia3dの新しい手法を提案する。 fantasia3dの鍵は、幾何学と外観の疎結合なモデリングと学習である。 幾何学学習では,ハイブリッドなシーン表現に依拠し,画像拡散モデルの入力として表現から抽出した面正規化を符号化する。 本研究では,空間的に変化する双方向反射率分布関数 (brdf) をtext-to-3dタスクに導入し, 生成面の光リアリスティックレンダリングのための表面材料を学習する。 当社のdisentangledフレームワークは、一般的なグラフィックエンジンと互換性があり、生成された3dアセットのリライト、編集、物理シミュレーションをサポートしています。 異なるテキストから3dのタスク設定下で既存の方法よりも優れた方法を示す徹底的な実験を行う。 プロジェクトページとソースコード: https://fantasia3d.github.io/

Automatic 3D content creation has achieved rapid progress recently due to the availability of pre-trained, large language models and image diffusion models, forming the emerging topic of text-to-3D content creation. Existing text-to-3D methods commonly use implicit scene representations, which couple the geometry and appearance via volume rendering and are suboptimal in terms of recovering finer geometries and achieving photorealistic rendering; consequently, they are less effective for generating high-quality 3D assets. In this work, we propose a new method of Fantasia3D for high-quality text-to-3D content creation. Key to Fantasia3D is the disentangled modeling and learning of geometry and appearance. For geometry learning, we rely on a hybrid scene representation, and propose to encode surface normal extracted from the representation as the input of the image diffusion model. For appearance modeling, we introduce the spatially varying bidirectional reflectance distribution function (BRDF) into the text-to-3D task, and learn the surface material for photorealistic rendering of the generated surface. Our disentangled framework is more compatible with popular graphics engines, supporting relighting, editing, and physical simulation of the generated 3D assets. We conduct thorough experiments that show the advantages of our method over existing ones under different text-to-3D task settings. Project page and source codes: https://fantasia3d.github.io/.
翻訳日:2023-03-29 11:25:10 公開日:2023-03-28
# 量子コンピュータを用いた生物シーケンス比較アルゴリズム

A biological sequence comparison algorithm using quantum computers ( http://arxiv.org/abs/2303.13608v3 )

ライセンス: Link先を確認
B\"usra K\"osoglu-Kind, Robert Loredo, Michele Grossi, Christian Bernecker, Jody M Burks, Rudiger Buchkremer(参考訳) 遺伝情報は、数千から数十億の文字で表されるヌクレオチドの線形配列に符号化される。 変異はDNAまたはRNAヌクレオチド配列の変化を指す。 したがって、突然変異検出は生物学や医学のあらゆる分野において不可欠である。 病原性増強変異の注意深いモニタリングが不可欠である。 しかし、このサイズの遺伝的配列を分析するには、膨大な量の古典計算能力が必要である。 量子コンピュータ上での視覚の人間の知覚と画像のピクセル表現に着想を得て,これらの手法をペアワイズシーケンス解析に活用した。 この手法は古典的アプローチよりも潜在的に有利であり、遺伝子配列の変異やその他の修正を特定するためにさらに応用することができる。 本稿では,ヌクレオチド間の類似度を決定するために,類似度スコアを算出した量子コンピュータ上で2つのゲノム配列間の類似度を表示・解析する手法を提案する。

Genetic information is encoded in a linear sequence of nucleotides, represented by letters ranging from thousands to billions. Mutations refer to changes in the DNA or RNA nucleotide sequence. Thus, mutation detection is vital in all areas of biology and medicine. Careful monitoring of virulence-enhancing mutations is essential. However, an enormous amount of classical computing power is required to analyze genetic sequences of this size. Inspired by human perception of vision and pixel representation of images on quantum computers, we leverage these techniques to implement a pairwise sequence analysis. The methodology has a potential advantage over classical approaches and can be further applied to identify mutations and other modifications in genetic sequences. We present a method to display and analyze the similarity between two genome sequences on a quantum computer where a similarity score is calculated to determine the similarity between nucleotides.
翻訳日:2023-03-29 11:24:44 公開日:2023-03-28
# CLIP for All Things Zero-Shot Sketch-based Image Retrieval, Fine-Grained or not

CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or Not ( http://arxiv.org/abs/2303.13440v3 )

ライセンス: Link先を確認
Aneeshan Sain, Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Subhadeep Koley, Tao Xiang, Yi-Zhe Song(参考訳) 本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)にCLIPを利用する。 私たちは、ファンデーションモデルにおける最近の進歩と、彼らが提供していると思われる非並列の一般化能力に大きく影響を受けています。 我々は、このシナジーをいかに最適に達成するかという新しいデザインを、カテゴリー設定ときめ細かい設定("all")の両方のために提案した。 私たちのソリューションの核心は、迅速な学習セットアップです。 まず、スケッチ固有のプロンプトをファクタリングすることで、すでにカテゴリレベルのZS-SBIRシステムがあり、すべての先行芸術をオーバーシュートし(24.8%)、CLIPとZS-SBIRのシナジーを研究する上で大きな証拠となります。 しかし、細かな設定に移行するのは難しく、このシナジーを深く掘り下げる必要がある。 そのため、この問題のきめ細かいマッチング性に取り組むために、2つの具体的な設計を考え出した。 (i)スケッチと写真の相対的な分離がカテゴリ間で均一であることを保証するための追加の正規化損失。金本位制の三重項損失はそうではない。 (ii)スケッチとフォトのペア間のインスタンスレベルの構造的対応を確立するための巧妙なパッチシャッフル技術。 これらの設計により、我々は以前の最先端よりも26.9%の領域での大幅な性能向上を再び観察する。 提案されているクリップとプロンプト学習のパラダイムは、データ不足が大きな課題である他のスケッチ関連のタスク(zs-sbirに限らず)に取り組む上で、大きな可能性を秘めています。 プロジェクトページ: https://aneeshan95.github.io/Sketch_LVM/

In this paper, we leverage CLIP for zero-shot sketch based image retrieval (ZS-SBIR). We are largely inspired by recent advances on foundation models and the unparalleled generalisation ability they seem to offer, but for the first time tailor it to benefit the sketch community. We put forward novel designs on how best to achieve this synergy, for both the category setting and the fine-grained setting ("all"). At the very core of our solution is a prompt learning setup. First we show just via factoring in sketch-specific prompts, we already have a category-level ZS-SBIR system that overshoots all prior arts, by a large margin (24.8%) - a great testimony on studying the CLIP and ZS-SBIR synergy. Moving onto the fine-grained setup is however trickier, and requires a deeper dive into this synergy. For that, we come up with two specific designs to tackle the fine-grained matching nature of the problem: (i) an additional regularisation loss to ensure the relative separation between sketches and photos is uniform across categories, which is not the case for the gold standard standalone triplet loss, and (ii) a clever patch shuffling technique to help establishing instance-level structural correspondences between sketch-photo pairs. With these designs, we again observe significant performance gains in the region of 26.9% over previous state-of-the-art. The take-home message, if any, is the proposed CLIP and prompt learning paradigm carries great promise in tackling other sketch-related tasks (not limited to ZS-SBIR) where data scarcity remains a great challenge. Project page: https://aneeshan95.github.io/Sketch_LVM/
翻訳日:2023-03-29 11:24:32 公開日:2023-03-28
# GETT-QA:知識グラフ質問応答のためのグラフ埋め込みベースのT2T変換器

GETT-QA: Graph Embedding based T2T Transformer for Knowledge Graph Question Answering ( http://arxiv.org/abs/2303.13284v3 )

ライセンス: Link先を確認
Debayan Banerjee, Pranav Ajit Nair, Ricardo Usbeck, Chris Biemann(参考訳) 本稿では, GETT-QA というエンドツーエンドの知識グラフ質問応答システムを提案する。 GETT-QAは、人気のあるテキストからテキストまでの事前訓練言語モデルであるT5を使用している。 このモデルは自然言語を入力とし、意図したSPARQLクエリのよりシンプルな形式を生成する。 単純な形式では、モデルは直接エンティティと関係IDを生成しない。 代わりに、対応するエンティティと関係ラベルを生成する。 ラベルは、その後のステップでkgエンティティとリレーションシップidに接地される。 結果をさらに改善するため、各エンティティに対してKG埋め込みの切り離されたバージョンを作成するようモデルに指示する。 切断されたkg埋め込みは、曖昧さの目的をより細かく探索することができる。 その結果,T5 は損失関数の変化を伴わずに絡み合った KG 埋め込みを学習でき,KGQA 性能が向上することがわかった。 その結果, LC-QuAD 2.0 と SimpleQuestions-Wikidata のデータセットを Wikidata 上の エンドツーエンド KGQA 上に構築した。

In this work, we present an end-to-end Knowledge Graph Question Answering (KGQA) system named GETT-QA. GETT-QA uses T5, a popular text-to-text pre-trained language model. The model takes a question in natural language as input and produces a simpler form of the intended SPARQL query. In the simpler form, the model does not directly produce entity and relation IDs. Instead, it produces corresponding entity and relation labels. The labels are grounded to KG entity and relation IDs in a subsequent step. To further improve the results, we instruct the model to produce a truncated version of the KG embedding for each entity. The truncated KG embedding enables a finer search for disambiguation purposes. We find that T5 is able to learn the truncated KG embeddings without any change of loss function, improving KGQA performance. As a result, we report strong results for LC-QuAD 2.0 and SimpleQuestions-Wikidata datasets on end-to-end KGQA over Wikidata.
翻訳日:2023-03-29 11:24:01 公開日:2023-03-28
# 教師なし領域適応セグメンテーションのための分布配向拡散とプロトタイプ誘導ネットワーク

Distribution Aligned Diffusion and Prototype-guided network for Unsupervised Domain Adaptive Segmentation ( http://arxiv.org/abs/2303.12313v3 )

ライセンス: Link先を確認
Haipeng Zhou, Lei Zhu, Yuyin Zhou(参考訳) 拡散確率モデル(DPM)はコンピュータビジョンの分野で非常に効果的な生成モデルとして登場した。 中間潜在ベクトルはリッチなセマンティック情報を提供し、セグメンテーションや検出といった下流タスクには魅力的な選択肢である。 その可能性をさらに探究するため、我々は一歩前進し、医療画像領域、特に教師なし適応条件下でのより複雑なシナリオを検討した。 そこで本研究では,非教師付きドメイン適応セグメンテーションのための拡散型およびプロトタイプ誘導型ネットワーク(DP-Net)を提案する。 具体的には、DP-Netは2つの段階から構成される。 1)DPMが生成する中間特徴の差を最小限に抑え、ドメイン間分布を整合させるために、ドメイン識別器を訓練することを含む分布調整拡散(DADiff) 2) 機能センタロイドをプロトタイプとして用いたpcl(prototype-guided consistency learning)は,セグメンタがソース領域とターゲット領域の両方から一貫性のあるコンテントを学習することを保証する。 本手法は,提案手法の性能が信頼性が高く,最先端手法よりも優れていることを示す一連の実験を通じて,基礎データセット上で評価される。 本研究は, 複雑な医用画像シナリオにおけるdpmの利用に有望な方向性を示し, 医用画像研究の新たな可能性を開く。

The Diffusion Probabilistic Model (DPM) has emerged as a highly effective generative model in the field of computer vision. Its intermediate latent vectors offer rich semantic information, making it an attractive option for various downstream tasks such as segmentation and detection. In order to explore its potential further, we have taken a step forward and considered a more complex scenario in the medical image domain, specifically, under an unsupervised adaptation condition. To this end, we propose a Diffusion-based and Prototype-guided network (DP-Net) for unsupervised domain adaptive segmentation. Concretely, our DP-Net consists of two stages: 1) Distribution Aligned Diffusion (DADiff), which involves training a domain discriminator to minimize the difference between the intermediate features generated by the DPM, thereby aligning the inter-domain distribution; and 2) Prototype-guided Consistency Learning (PCL), which utilizes feature centroids as prototypes and applies a prototype-guided loss to ensure that the segmentor learns consistent content from both source and target domains. Our approach is evaluated on fundus datasets through a series of experiments, which demonstrate that the performance of the proposed method is reliable and outperforms state-of-the-art methods. Our work presents a promising direction for using DPM in complex medical image scenarios, opening up new possibilities for further research in medical imaging.
翻訳日:2023-03-29 11:23:21 公開日:2023-03-28
# cap4video:テキスト・ビデオ検索に補助キャプションは何ができるのか?

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? ( http://arxiv.org/abs/2301.00184v3 )

ライセンス: Link先を確認
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang(参考訳) 既存のテキストビデオ検索手法の多くは、ビデオの視覚的内容とテキスト検索文の相互マッチングに重点を置いている。 しかし、現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が含まれており、テキストクエリのマッチングに利用することができる。 この知見は,ウェブ規模の事前学習モデル(CLIPやGPT-2など)の知識を生かしたゼロショットビデオキャプションを用いて,ビデオから関連キャプションを直接生成する,テキストビデオ検索の新しいアプローチを提案する動機となった。 生成したキャプションを考えると、自然な疑問が生まれます。テキストビデオ検索にどのようなメリットがあるのでしょうか? これに対応するために、キャプションを3つの方法で活用する新しいフレームワークであるCap4Videoを紹介します。 i) 入力データ: ビデオキャプチャペアは、トレーニングデータを強化することができる。 ii)中間機能間相互作用:ビデオとキャプション間の相互機能間相互作用を行い,拡張された映像表現を生成する。 三 出力スコア: Query-Captionマッチングブランチは、元のQuery-Videoマッチングブランチを補完して、テキストビデオ検索を行うことができる。 本手法の有効性を実証するために包括的アブレーション研究を行う。 後処理を行わないCap4Videoは、MSR-VTT (51.4%)、VATEX (66.6%)、MSVD (51.8%)、DiDeMo (52.0%)の4つの標準テキストビデオ検索ベンチマークで最先端のパフォーマンスを達成した。 コードはhttps://github.com/whwu95/cap4videoで入手できる。

Most existing text-video retrieval methods focus on cross-modal matching between the visual content of videos and textual query sentences. However, in real-world scenarios, online videos are often accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This insight has motivated us to propose a novel approach to text-video retrieval, where we directly generate associated captions from videos using zero-shot video captioning with knowledge from web-scale pre-trained models (e.g., CLIP and GPT-2). Given the generated captions, a natural question arises: what benefits do they bring to text-video retrieval? To answer this, we introduce Cap4Video, a new framework that leverages captions in three ways: i) Input data: video-caption pairs can augment the training data. ii) Intermediate feature interaction: we perform cross-modal feature interaction between the video and caption to produce enhanced video representations. iii) Output score: the Query-Caption matching branch can complement the original Query-Video matching branch for text-video retrieval. We conduct comprehensive ablation studies to demonstrate the effectiveness of our approach. Without any post-processing, Cap4Video achieves state-of-the-art performance on four standard text-video retrieval benchmarks: MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%). The code is available at https://github.com/whwu95/Cap4Video .
翻訳日:2023-03-29 11:22:57 公開日:2023-03-28
# FeatureBooster: 軽量ニューラルネットワークによる機能記述の強化

FeatureBooster: Boosting Feature Descriptors with a Lightweight Neural Network ( http://arxiv.org/abs/2211.15069v3 )

ライセンス: Link先を確認
Xinjiang Wang, Zeyu Liu, Yu Hu, Wei Xi, Wenxian Yu, Danping Zou(参考訳) 同じ画像内のキーポイントの記述子を改善するための軽量ネットワークを導入する。 このネットワークは、元の記述子とキーポイントの幾何学的性質を入力とし、MLPベースのセルフブートステージとTransformerベースのクロスブートステージを使用して記述子を強化する。 boostedディスクリプタは、実際の値かバイナリのどちらかでもよい。 提案するネットワークは,手作り(orb, sift)と最先端学習に基づく記述子(superpoint, 等)の両方を増強し,画像マッチング, 視覚定位, 運動からの構造タスクで評価する。 その結果、特に大きな照明変化や繰り返しパターンなどの困難な場合において、各タスクの性能が著しく向上することが示された。 提案手法では,デスクトップgpuでは3.2ms,組込みgpuでは27msしか必要とせず,実用的なシステムに適用するには十分高速である。 コードはgithub.com/SJTU-ViSYS/FeatureBoosterで公開されている。

We introduce a lightweight network to improve descriptors of keypoints within the same image. The network takes the original descriptors and the geometric properties of keypoints as the input, and uses an MLP-based self-boosting stage and a Transformer-based cross-boosting stage to enhance the descriptors. The boosted descriptors can be either real-valued or binary ones. We use the proposed network to boost both hand-crafted (ORB, SIFT) and the state-of-the-art learning-based descriptors (SuperPoint, ALIKE) and evaluate them on image matching, visual localization, and structure-from-motion tasks. The results show that our method significantly improves the performance of each task, particularly in challenging cases such as large illumination changes or repetitive patterns. Our method requires only 3.2ms on desktop GPU and 27ms on embedded GPU to process 2000 features, which is fast enough to be applied to a practical system. The code and trained weights are publicly available at github.com/SJTU-ViSYS/FeatureBooster.
翻訳日:2023-03-29 11:22:29 公開日:2023-03-28
# SimpleNet:画像異常検出と位置決めのための簡易ネットワーク

SimpleNet: A Simple Network for Image Anomaly Detection and Localization ( http://arxiv.org/abs/2303.15140v2 )

ライセンス: Link先を確認
Zhikang Liu, Yiming Zhou, Yuansheng Xu, Zilei Wang(参考訳) 本稿では,異常検出と局所化のためのシンプルでアプリケーションフレンドリーなネットワーク(SimpleNet)を提案する。 SimpleNet は,(1) 局所特徴を生成する事前訓練された特徴抽出器,(2) 局所特徴を対象領域に転送する浅層特徴適応器,(3) 正規特徴にガウスノイズを加えることによって異常特徴を偽装する単純な異常特徴生成器,(4) 異常特徴と正常特徴を区別するバイナリ異常識別器の4つのコンポーネントから構成される。 推論中、異常特徴発生器は破棄される。 私たちのアプローチは3つの直観に基づいている。 まず、トレーニング済みの機能からターゲット指向の機能に変換することは、ドメインバイアスを避けるのに役立つ。 第二に、画像空間における欠陥の共通性があまりないため、特徴空間における合成異常の生成はより効果的である。 第3に、単純な判別器は効率的で実用的です。 単純さにもかかわらず、simplenetは従来の手法を量的、質的に上回っている。 MVTec ADベンチマークでは、SimpleNetは99.6%の異常検出AUROCを達成し、次の最高のパフォーマンスモデルと比較してエラーを55.5%削減した。 さらに、SimpleNetは既存のメソッドよりも高速で、3080ti GPU上で77FPSのフレームレートを持つ。 さらにSimpleNetは、ワンクラスノベルティ検出タスクのパフォーマンスが大幅に改善されたことを示している。 コード:https://github.com/DonaldRR/SimpleNet

We propose a simple and application-friendly network (called SimpleNet) for detecting and localizing anomalies. SimpleNet consists of four components: (1) a pre-trained Feature Extractor that generates local features, (2) a shallow Feature Adapter that transfers local features towards target domain, (3) a simple Anomaly Feature Generator that counterfeits anomaly features by adding Gaussian noise to normal features, and (4) a binary Anomaly Discriminator that distinguishes anomaly features from normal features. During inference, the Anomaly Feature Generator would be discarded. Our approach is based on three intuitions. First, transforming pre-trained features to target-oriented features helps avoid domain bias. Second, generating synthetic anomalies in feature space is more effective, as defects may not have much commonality in the image space. Third, a simple discriminator is much efficient and practical. In spite of simplicity, SimpleNet outperforms previous methods quantitatively and qualitatively. On the MVTec AD benchmark, SimpleNet achieves an anomaly detection AUROC of 99.6%, reducing the error by 55.5% compared to the next best performing model. Furthermore, SimpleNet is faster than existing methods, with a high frame rate of 77 FPS on a 3080ti GPU. Additionally, SimpleNet demonstrates significant improvements in performance on the One-Class Novelty Detection task. Code: https://github.com/DonaldRR/SimpleNet.
翻訳日:2023-03-29 11:16:33 公開日:2023-03-28
# DANI-Net:微分可能なシャドウハンドリング、異方性リフレクタンスモデリング、ニューラルインバースレンダリングによる非校正光度ステレオ

DANI-Net: Uncalibrated Photometric Stereo by Differentiable Shadow Handling, Anisotropic Reflectance Modeling, and Neural Inverse Rendering ( http://arxiv.org/abs/2303.15101v2 )

ライセンス: Link先を確認
Zongrui Li, Qian Zheng, Boxin Shi, Gang Pan, Xudong Jiang(参考訳) 非平衡測光ステレオ(UPS)は、未知の光によってもたらされる固有の曖昧さのために困難である。 あいまいさは非ランベルト的対象に対して緩和されるが、不規則な影や異方性反射のような複雑な反射性を持つ一般材料を含む複雑な形状を持つより一般的な対象に対しては解決が難しい。 シャドーとリフレクタンスからの手がかりを利用してUPSを解き、一般的な材料の性能を向上させるため、異方性シャドーハンドリングと異方性リフレクタンスモデリングを備えた逆レンダリングフレームワークDANI-Netを提案する。 非微分可能影写像を用いて等方性物質を仮定する従来の方法とは異なり、我々のネットワークは2つの異なる経路を通る影のキューと異方性反射の恩恵を受ける。 複数の実世界のデータセットの実験は、優れた、堅牢なパフォーマンスを示しています。

Uncalibrated photometric stereo (UPS) is challenging due to the inherent ambiguity brought by the unknown light. Although the ambiguity is alleviated on non-Lambertian objects, the problem is still difficult to solve for more general objects with complex shapes introducing irregular shadows and general materials with complex reflectance like anisotropic reflectance. To exploit cues from shadow and reflectance to solve UPS and improve performance on general materials, we propose DANI-Net, an inverse rendering framework with differentiable shadow handling and anisotropic reflectance modeling. Unlike most previous methods that use non-differentiable shadow maps and assume isotropic material, our network benefits from cues of shadow and anisotropic reflectance through two differentiable paths. Experiments on multiple real-world datasets demonstrate our superior and robust performance.
翻訳日:2023-03-29 11:16:01 公開日:2023-03-28
# 大言語モデルは要約評価のための多言語ロールプレーヤである

Large Language Models are Diverse Role-Players for Summarization Evaluation ( http://arxiv.org/abs/2303.15078v2 )

ライセンス: Link先を確認
Ning Wu, Ming Gong, Linjun Shou, Shining Liang, Daxin Jiang(参考訳) テキスト要約は多くのシナリオにおいて幅広い応用がある。 生成されたテキストの品質評価は複雑な問題である。 言語評価に対する大きな課題は、既存のメトリクスと人的評価の間に明確な相違があることである。 例えば、文書要約の品質は、文法的、意味的正当性などの客観的側面と、包括性、簡潔性、面白さといった主観的次元の両方から人間の注釈によって測定することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元をうまく捉えられないかもしれない。 本稿では,目的と主観の両方から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するllmsに基づく新しい評価フレームワークを提案する。 まず,ロールプレイヤのプロンプト機構に基づいて,生成したテキストの客観的次元と主観次元をモデル化する。 さらに、入力コンテキストに基づいて動的ロールプレイヤプロファイルを生成することができるコンテキストベースのプロンプト機構を導入する。 最後に,バッチプロンプトに基づくマルチロールプレーヤを設計し,複数の評価結果を評価結果に統合する。 要約のための2つの実データセットの実験結果から,本モデルは非常に競争力が高く,アノテータとの整合性が高いことが示された。

Text summarization has a wide range of applications in many scenarios. The evaluation of the quality of the generated text is a complex problem. A big challenge to language evaluation is that there is a clear divergence between existing metrics and human evaluation. For example, the quality of a document summary can be measured by human annotators from both objective aspects, such as grammatical and semantic correctness, as well as subjective dimensions, such as comprehensiveness, succinctness, and interestingness. Most of the automatic evaluation methods like BLUE/ROUGE may be not able to capture the above dimensions well. In this paper, we propose a new evaluation framework based on LLMs, which provides a comprehensive evaluation framework by comparing generated text and reference text from both objective and subjective aspects. First, we propose to model objective and subjective dimensions of generated text based on roleplayers prompting mechanism. Furthermore, we introduce a context-based prompting mechanism that is able to generate dynamic roleplayer profiles based on input context. Finally, we design a multi-roleplayer prompting technology based on batch prompting to integrate multiple evaluation results into evaluation results. Experimental results on two real datasets for summarization show that our model is highly competitive and has a very high consistency with human annotators.
翻訳日:2023-03-29 11:15:42 公開日:2023-03-28
# 境界箱回帰のための平滑化による連接断面

Intersection over Union with smoothing for bounding box regression ( http://arxiv.org/abs/2303.15067v2 )

ライセンス: Link先を確認
Petra \v{S}tevuli\'akov\'a, Petr Hurtik(参考訳) 本稿では,境界ボックス回帰に対する損失関数の構成に着目する。 IoU(Intersection over Union)メートル法はより高速に収束し、探索空間全体にわたって損失関数の表面を滑らかに連続させ、ラベルのより正確な近似に達するように改良される。 主原理は、平滑化部を原IoUに追加することであり、平滑化部は、接地真理境界ボックスから入力画像の境界まで増加する値の線形空間によって与えられるので、空間探索空間全体をカバーしている。 この損失関数の背後にあるモチベーションと形式性を示し、IoU, DIoU, CIoU, SIoUを大きな差で上回っていることを実験的に証明した。 提案した損失関数は,地中真理境界ボックスの次元における雑音に対して頑健であることを示す。 リファレンス実装はgitlab.com/irafm-ai/smoothing-iouで利用可能である。

We focus on the construction of a loss function for the bounding box regression. The Intersection over Union (IoU) metric is improved to converge faster, to make the surface of the loss function smooth and continuous over the whole searched space, and to reach a more precise approximation of the labels. The main principle is adding a smoothing part to the original IoU, where the smoothing part is given by a linear space with values that increases from the ground truth bounding box to the border of the input image, and thus covers the whole spatial search space. We show the motivation and formalism behind this loss function and experimentally prove that it outperforms IoU, DIoU, CIoU, and SIoU by a large margin. We experimentally show that the proposed loss function is robust with respect to the noise in the dimension of ground truth bounding boxes. The reference implementation is available at gitlab.com/irafm-ai/smoothing-iou.
翻訳日:2023-03-29 11:15:20 公開日:2023-03-28
# コヒーレント状態の位相符号化に基づく量子秘密共有実験

Experimental quantum secret sharing based on phase encoding of coherent states ( http://arxiv.org/abs/2303.14622v2 )

ライセンス: Link先を確認
Ao Shen, Xiao-Yu Cao, Yang Wang, Yao Fu, Jie Gu, Wen-Bo Liu, Chen-Xun Weng, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子シークレット共有(quantum secret sharing, qss)は、将来の量子ネットワークにおける基本的な通信プリミティブの1つであり、マルチパーティ通信と計算の基本的な暗号タスクの一部に対処する。 それでも、一般的な攻撃に対するセキュリティを備えた実用的なQSSプロトコルを提供することは困難である。 セキュリティと実用性のバランスをとるQSSプロトコルはまだ不足している。 本稿では,三者間のコヒーレント状態の簡単な位相符号化によるQSSプロトコルを提案する。 非実用的な絡み合ったリソースと位相ランダム化の必要性を取り除き、アクセス可能な技術でプロトコルを実装できる。 我々は,コヒーレント攻撃に対する有限鍵解析を行い,原理実証実験を実施し,その実現可能性を示す。 提案方式は,35dBチャネル損失で85.3bpsのキーレートを実現する。 一般的な攻撃に対するセキュリティとアクセス可能な技術を組み合わせることで、我々のプロトコルは実用的なマルチパーティ量子通信ネットワークの候補となる。

Quantum secret sharing (QSS) is one of the basic communication primitives in future quantum networks which addresses part of the basic cryptographic tasks of multiparty communication and computation. Nevertheless, it is a challenge to provide a practical QSS protocol with security against general attacks. A QSS protocol that balances security and practicality is still lacking. Here, we propose a QSS protocol with simple phase encoding of coherent states among three parties. Removing the requirement of impractical entangled resources and the need for phase randomization, our protocol can be implemented with accessible technology. We provide the finite-key analysis against coherent attacks and implement a proof-of-principle experiment to demonstrate our scheme's feasibility. Our scheme achieves a key rate of 85.3 bps under a 35 dB channel loss. Combined with security against general attacks and accessible technology, our protocol is a promising candidate for practical multiparty quantum communication networks.
翻訳日:2023-03-29 11:15:03 公開日:2023-03-28
# GestureDiffuCLIP:CLIP潜伏剤を用いたジェスチャ拡散モデル

GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents ( http://arxiv.org/abs/2303.14613v2 )

ライセンス: Link先を確認
Tenglong Ao, Zeyi Zhang, Libin Liu(参考訳) 近年,スタイリングされた共同音声ジェスチャーの自動生成が注目されている。 従来のシステムでは,事前に定義されたテキストラベルやモーションクリップによるスタイルコントロールが可能で,ユーザの意図を正確に伝えるには柔軟性に欠けることが多い。 本稿では,フレキシブルなスタイル制御による,リアルでスタイリッシュなコスピーチジェスチャを合成するニューラルネットワークフレームワークであるjuicediffuclipを提案する。 本稿では,CLIP(Contrastive-Language-Image-Pre-Training)モデルのパワーを活用し,テキストやモーションクリップ,ビデオなどの複数の入力モードから,効率的なスタイル表現を抽出する新しいCLIP誘導機構を提案する。 我々のシステムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,適応インスタンス正規化(AdaIN)層を介してスタイルのCLIP表現をジェネレータに注入する。 さらに、コントラスト学習に基づく意味論的に正しいジェスチャー生成を可能にするジェスチャー記述アライメント機構を考案する。 我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することもできる。 我々は、様々なスタイル記述に対するモデルの柔軟性と一般化性を示す、広範な例を示します。 ユーザ・スタディにおいて,本システムは,人間の類似性,適切性,スタイル正確性に関する最先端のアプローチを上回っていることを示す。

The automatic generation of stylized co-speech gestures has recently received increasing attention. Previous systems typically allow style control via predefined text labels or example motion clips, which are often not flexible enough to convey user intent accurately. In this work, we present GestureDiffuCLIP, a neural network framework for synthesizing realistic, stylized co-speech gestures with flexible style control. We leverage the power of the large-scale Contrastive-Language-Image-Pre-training (CLIP) model and present a novel CLIP-guided mechanism that extracts efficient style representations from multiple input modalities, such as a piece of text, an example motion clip, or a video. Our system learns a latent diffusion model to generate high-quality gestures and infuses the CLIP representations of style into the generator via an adaptive instance normalization (AdaIN) layer. We further devise a gesture-transcript alignment mechanism that ensures a semantically correct gesture generation based on contrastive learning. Our system can also be extended to allow fine-grained style control of individual body parts. We demonstrate an extensive set of examples showing the flexibility and generalizability of our model to a variety of style descriptions. In a user study, we show that our system outperforms the state-of-the-art approaches regarding human likeness, appropriateness, and style correctness.
翻訳日:2023-03-29 11:14:48 公開日:2023-03-28
# 分類決定の確実性と疑念の測定

Measuring Classification Decision Certainty and Doubt ( http://arxiv.org/abs/2303.14568v2 )

ライセンス: Link先を確認
Alexander M. Berenbeim, Iain J. Cruickshank, Susmit Jha, Robert H. Thomson, and Nathaniel D. Bastian(参考訳) 不確実性の定量的評価は、最適化と意思決定プロセスにおいて基本的な重要性である。 本稿では,(複数)分類決定機械学習問題における予測の質と不確実性を評価し,比較するために,ベイズ主義と頻繁主義の両方の枠組みで使用可能な直感的スコアを提案する。

Quantitative characterizations and estimations of uncertainty are of fundamental importance in optimization and decision-making processes. Herein, we propose intuitive scores, which we call certainty and doubt, that can be used in both a Bayesian and frequentist framework to assess and compare the quality and uncertainty of predictions in (multi-)classification decision machine learning problems.
翻訳日:2023-03-29 11:14:24 公開日:2023-03-28
# 半局所機械学習ポテンシャルに対する熱流束

Heat flux for semi-local machine-learning potentials ( http://arxiv.org/abs/2303.14434v2 )

ライセンス: Link先を確認
Marcel F. Langer, Florian Knoop, Christian Carbogno, Matthias Scheffler and Matthias Rupp(参考訳) green-kubo (gk) 法は材料の熱輸送シミュレーションのための厳密な枠組みである。 しかし、ポテンシャルエネルギー曲面の正確な記述と注意深く収束した統計が必要である。 機械学習のポテンシャルは、第一原理シミュレーションの精度を達成でき、シミュレーション時間と長さのスケールをほんの少しのコストではるかに超えることができる。 本稿では、GKアプローチを最近のメッセージパス機械学習ポテンシャルのクラスに適用する方法を説明し、これは、初期相互作用遮断以上の半局所的相互作用を反復的に考慮している。 計算効率を損なうことなく、自動微分を用いて実装可能な適応熱流束定式化を導出する。 この手法は, ジルコニウムの熱伝導率を温度で計算することによって実証し, 検証した。

The Green-Kubo (GK) method is a rigorous framework for heat transport simulations in materials. However, it requires an accurate description of the potential-energy surface and carefully converged statistics. Machine-learning potentials can achieve the accuracy of first-principles simulations while allowing to reach well beyond their simulation time and length scales at a fraction of the cost. In this paper, we explain how to apply the GK approach to the recent class of message-passing machine-learning potentials, which iteratively consider semi-local interactions beyond the initial interaction cutoff. We derive an adapted heat flux formulation that can be implemented using automatic differentiation without compromising computational efficiency. The approach is demonstrated and validated by calculating the thermal conductivity of zirconium dioxide across temperatures.
翻訳日:2023-03-29 11:14:18 公開日:2023-03-28
# SmartBook:AI支援の状況報告生成

SmartBook: AI-Assisted Situation Report Generation ( http://arxiv.org/abs/2303.14337v2 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Yi R. Fung, Qi Zeng, Manling Li, Ziqi Wang, Paul Sullivan and Heng Ji(参考訳) 新型コロナウイルスのパンデミックやウクライナ危機などの新興イベントでは、適切な意思決定と効果的な行動対応を可能にするために、状況に関する時間に敏感な包括的な理解が必要である。 状況報告の自動生成は、公式のヒューマンキュレートレポートを作成する際に、ドメインエキスパートの時間、労力、コストを大幅に削減することができる。 しかし、この目標に向けたAI研究は非常に限られており、そのようなレポート生成を自動化するための試験がまだ成功していない。 本研究では,大量のニュースデータを消費し,複数の仮説(主張)を要約した構造化状況報告を作成し,事実証拠との豊かなリンクを基礎とする,新しいタスク定式化手法であるsmartbookを提案する。 我々は,専門家分析支援のための情報分析レポートを自動生成することにより,ウクライナ・ロシア危機に対するスマートブックを実現する。 マシン生成レポートはタイムライン形式で構成され、それぞれのタイムラインは主要なイベント(あるいは章)、対応する戦略的質問(セクション)、およびそれらの接頭辞(セクション内容)によって構成される。 提案するフレームワークは,リアルタイムのイベント関連の戦略的質問を自動的に検出する。これは,手作業によるアナリストの質問よりも指示的であり,複雑すぎる,解析が難しい,曖昧でハイレベルであることが多い。 徹底的な質的評価の結果、Smartbookの質問の約82%が戦略的に重要であり、レポートの少なくとも93%が戦術的に有用であることがわかった。 さらに、実験によれば、専門家のアナリストはsmartbookレポートにより多くの情報を追加する傾向があり、既存のトークンの2.3%しか削除されていない。

Emerging events, such as the COVID pandemic and the Ukraine Crisis, require a time-sensitive comprehensive understanding of the situation to allow for appropriate decision-making and effective action response. Automated generation of situation reports can significantly reduce the time, effort, and cost for domain experts when preparing their official human-curated reports. However, AI research toward this goal has been very limited, and no successful trials have yet been conducted to automate such report generation. We propose SmartBook, a novel task formulation targeting situation report generation, which consumes large volumes of news data to produce a structured situation report with multiple hypotheses (claims) summarized and grounded with rich links to factual evidence. We realize SmartBook for the Ukraine-Russia crisis by automatically generating intelligence analysis reports to assist expert analysts. The machine-generated reports are structured in the form of timelines, with each timeline organized by major events (or chapters), corresponding strategic questions (or sections) and their grounded summaries (or section content). Our proposed framework automatically detects real-time event-related strategic questions, which are more directed than manually-crafted analyst questions, which tend to be too complex, hard to parse, vague and high-level. Results from thorough qualitative evaluations show that roughly 82% of the questions in Smartbook have strategic importance, with at least 93% of the sections in the report being tactically useful. Further, experiments show that expert analysts tend to add more information into the SmartBook reports, with only 2.3% of the existing tokens being deleted, meaning SmartBook can serve as a useful foundation for analysts to build upon when creating intelligence reports.
翻訳日:2023-03-29 11:14:07 公開日:2023-03-28
# 半教師付き医用画像セグメンテーションにおける固有一貫性学習

Inherent Consistent Learning for Accurate Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2303.14175v2 )

ライセンス: Link先を確認
Ye Zhu, Jie Yang, Si-Qi Liu and Ruimao Zhang(参考訳) 近年,医用画像アノテーションのコストが高いことから,半監督的医用画像分割が注目されている。 本稿では,ラベル付きおよびラベル付きデータの意味的一貫性ガイダンスを通じて,ロバストな意味カテゴリー表現を学習し,セグメンテーションを支援する新しい本質的一貫性学習(icl)手法を提案する。 実際には、ラベル付きおよびラベルなしデータのセマンティックなカテゴリ表現を整列するアテンション機構に基づいて、トレーニングセット全体にわたってグローバルなセマンティックなセマンティックな表現を更新する2つの外部モジュール、SSPA(Supervised Semantic Proxy Adaptor)とUnsupervised Semantic Consistent Learner(USCL)を導入する。 iclは様々なネットワークアーキテクチャのためのプラグイン・アンド・プレイ方式であり、2つのモジュールはテスト段階には関与していない。 3つの公開ベンチマークによる実験結果から,提案手法は特に注釈付きデータの数が極めて限られている場合に,最先端の手法よりも優れていることが示された。 コードはhttps://github.com/zhuye98/icl.git。

Semi-supervised medical image segmentation has attracted much attention in recent years because of the high cost of medical image annotations. In this paper, we propose a novel Inherent Consistent Learning (ICL) method, which aims to learn robust semantic category representations through the semantic consistency guidance of labeled and unlabeled data to help segmentation. In practice, we introduce two external modules namely Supervised Semantic Proxy Adaptor (SSPA) and Unsupervised Semantic Consistent Learner (USCL) that based on the attention mechanism to align the semantic category representations of labeled and unlabeled data, as well as update the global semantic representations over the entire training set. The proposed ICL is a plug-and-play scheme for various network architectures and the two modules are not involved in the testing stage. Experimental results on three public benchmarks show that the proposed method can outperform the state-of-the-art especially when the number of annotated data is extremely limited. Code is available at: https://github.com/zhuye98/ICL.git.
翻訳日:2023-03-29 11:13:40 公開日:2023-03-28