このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230328となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# マルチエージェントシステムによるスマートホーム環境のモデル化 Smart Home Environment Modelled with a Multi-Agent System ( http://arxiv.org/abs/2304.08494v1 ) ライセンス: Link先を確認 | Mohammad Rasras, Iuliana Marin, Serban Radu | (参考訳) スマートホームは、家電やシステムの管理が自動化された技術によって日々の生活を支援できる住宅の場所と見なすことができる。
本稿では,スマートホームで開発されたコンテキスト認識環境をシミュレートするプロトタイプについて述べる。
スマートホーム環境は、自宅内の3つのエージェントと5つのロケーションを使ってシミュレートされている。
コンテキスト対応エージェントは、日々のアクティビティ用に設計された事前定義されたルールに基づいて振る舞う。
本提案は,動作装置の運用コストを削減することを目的とする。
将来は、住民の健康状態のモニターが健康的な生活を毎日維持するようになる。 A smart home can be considered a place of residence that enables the management of appliances and systems to help with day-to-day life by automated technology. In the current paper is described a prototype that simulates a context-aware environment, developed in a designed smart home. The smart home environment has been simulated using three agents and five locations in a house. The context-aware agents behave based on predefined rules designed for daily activities. Our proposal aims to reduce operational cost of running devices. In the future, monitors of health aspects belonging to home residents will sustain their healthy life daily. | 翻訳日:2023-04-23 04:26:49 公開日:2023-03-28 |
# リアクティブIn situ可視化のための分散ニューラル表現 Distributed Neural Representation for Reactive in situ Visualization ( http://arxiv.org/abs/2304.10516v1 ) ライセンス: Link先を確認 | Qi Wu, Joseph A. Insley, Victor A. Mateevitsi, Silvio Rizzi, Michael E. Papka, Kwan-Liu Ma | (参考訳) 動的ワークフローを作成するために時間的抽象化とデータキャッシュ機構を活用するリアクティブプログラミングを使うことで、計算モデリングのその場での可視化とステアリングを効果的に実現できる。
しかし,大規模シミュレーションのためのテンポラリキャッシュの実装は困難である。
暗黙のニューラルネットワークは大量のデータを圧縮するのに有効であることが証明されている。
しかし、彼らの分散データへの応用はまだ完全には研究されていない。
本研究では,分散ボリュームデータに対する暗黙的なニューラル表現を開発し,DIVAリアクティブプログラミングシステムに組み込む。
この実装により,従来よりも100倍のキャパシティを持つその場時間キャッシュシステムを構築することができる。
実装をAscentインフラストラクチャに統合し,実世界のシミュレーションによる性能評価を行う。 In situ visualization and steering of computational modeling can be effectively achieved using reactive programming, which leverages temporal abstraction and data caching mechanisms to create dynamic workflows. However, implementing a temporal cache for large-scale simulations can be challenging. Implicit neural networks have proven effective in compressing large volume data. However, their application to distributed data has yet to be fully explored. In this work, we develop an implicit neural representation for distributed volume data and incorporate it into the DIVA reactive programming system. This implementation enables us to build an in situ temporal caching system with a capacity 100 times larger than previously achieved. We integrate our implementation into the Ascent infrastructure and evaluate its performance using real-world simulations. | 翻訳日:2023-04-23 03:59:40 公開日:2023-03-28 |
# 位置 denoising による容易に観測できる幾何学による量子化学特性の予測 Predicting quantum chemical property with easy-to-obtain geometry via positional denoising ( http://arxiv.org/abs/2304.03724v1 ) ライセンス: Link先を確認 | Hyeonsu Kim, Jeheon Woo, Seonghwan Kim, Seokhyun Moon, Jun Hyeong Kim, Woo Youn Kim | (参考訳) 量子化学特性はジオメトリに大きく依存するので、3次元幾何情報を用いたグラフニューラルネットワーク(gnns)は多くのタスクで高い予測精度を達成している。
しかし、それらはしばしば高レベルの量子力学計算から得られる3次元測度を必要とし、現実の問題に適用性を制限する。
そこで本研究では, 比較的容易なジオメトリ(分子力場から最適化されたジオメトリなど)を用いて, 特性を正確に予測する手法を提案する。
この方法では、入力幾何は正しい幾何の腐敗した幾何と見なされ、積み重ねられた装飾層を通過するにつれて徐々に正しい幾何に近づく。
分子特性と化学反応特性の2つの予測課題に対して,3次元メッセージパッシングアーキテクチャを用いて提案手法の性能を検討した。
消音過程による位置誤差の低減は、補正されたジオメトリと破損したジオメトリの相互情報の増加による性能向上に寄与した。
さらに, 発振パワーと予測精度の相関関係を解析した結果, 発振プロセスの有効性が示された。 As quantum chemical properties have a significant dependence on their geometries, graph neural networks (GNNs) using 3D geometric information have achieved high prediction accuracy in many tasks. However, they often require 3D geometries obtained from high-level quantum mechanical calculations, which are practically infeasible, limiting their applicability in real-world problems. To tackle this, we propose a method to accurately predict the properties with relatively easy-to-obtain geometries (e.g., optimized geometries from the molecular force field). In this method, the input geometry, regarded as the corrupted geometry of the correct one, gradually approaches the correct one as it passes through the stacked denoising layers. We investigated the performance of the proposed method using 3D message-passing architectures for two prediction tasks: molecular properties and chemical reaction property. The reduction of positional errors through the denoising process contributed to performance improvement by increasing the mutual information between the correct and corrupted geometries. Moreover, our analysis of the correlation between denoising power and predictive accuracy demonstrates the effectiveness of the denoising process. | 翻訳日:2023-04-16 22:35:09 公開日:2023-03-28 |
# 睡眠ステージスコアリングモデルの伝達性に及ぼすデータ特性の影響の定量化 Quantifying the Impact of Data Characteristics on the Transferability of Sleep Stage Scoring Models ( http://arxiv.org/abs/2304.06033v1 ) ライセンス: Link先を確認 | Akara Supratak, Peter Haddawy | (参考訳) 単一チャネル脳波に基づく睡眠ステージ評価のための深層学習モデルが,遠隔睡眠モニタリングの有望な手法として提案されている。
しかし、これらのモデルを新しいデータセット、特にウェアラブルデバイスに適用すると、2つの疑問が生じる。
第一に、ターゲットデータセットのアノテーションが利用できない場合、どの異なるデータ特性が睡眠ステージスコアのパフォーマンスに最も影響し、どの程度影響するか?
第二に、アノテーションが利用できる場合、パフォーマンスを最適化するために転送学習のソースとして使用するデータセットはありますか?
本稿では,異なるデータ特性が深層学習モデルの伝達性に与える影響を計算的に定量化する新しい手法を提案する。
TinySleepNetとU-Timeは、ソースとターゲットのデータセットが異なる記録チャネル、記録環境、および被写体条件を持つ様々な転送構成の下で、重要なアーキテクチャ上の違いを持つ2つのモデルのトレーニングと評価によって達成される。
最初の質問では、この環境が睡眠ステージスコアリングのパフォーマンスに最も影響し、睡眠アノテーションが利用できない場合、パフォーマンスは14%以上低下した。
第2の質問は、tinysleepnetとu-timeモデルの最も有用な転送源はmass-ss1とisruc-sg1であり、他のモデルと比較して高いn1(最も稀な睡眠ステージ)を含む。
前頭脳波と中枢脳波はTinySleepNetに好まれた。
提案手法では,既存の睡眠データセットをトレーニングおよび計画モデル転送にフル活用し,睡眠アノテーションの制限や使用不能時の目標問題に対する睡眠ステージスコアリング性能を最大化し,遠隔睡眠モニタリングを実現する。 Deep learning models for scoring sleep stages based on single-channel EEG have been proposed as a promising method for remote sleep monitoring. However, applying these models to new datasets, particularly from wearable devices, raises two questions. First, when annotations on a target dataset are unavailable, which different data characteristics affect the sleep stage scoring performance the most and by how much? Second, when annotations are available, which dataset should be used as the source of transfer learning to optimize performance? In this paper, we propose a novel method for computationally quantifying the impact of different data characteristics on the transferability of deep learning models. Quantification is accomplished by training and evaluating two models with significant architectural differences, TinySleepNet and U-Time, under various transfer configurations in which the source and target datasets have different recording channels, recording environments, and subject conditions. For the first question, the environment had the highest impact on sleep stage scoring performance, with performance degrading by over 14% when sleep annotations were unavailable. For the second question, the most useful transfer sources for TinySleepNet and the U-Time models were MASS-SS1 and ISRUC-SG1, containing a high percentage of N1 (the rarest sleep stage) relative to the others. The frontal and central EEGs were preferred for TinySleepNet. The proposed approach enables full utilization of existing sleep datasets for training and planning model transfer to maximize the sleep stage scoring performance on a target problem when sleep annotations are limited or unavailable, supporting the realization of remote sleep monitoring. | 翻訳日:2023-04-16 22:05:35 公開日:2023-03-28 |
# ECGタスク固有特徴抽出のための$\beta$-VAEの合同最適化 Joint optimization of a $\beta$-VAE for ECG task-specific feature extraction ( http://arxiv.org/abs/2304.06476v1 ) ライセンス: Link先を確認 | Viktor van der Valk, Douwe Atsma, Roderick Scherptong, and Marius Staring | (参考訳) 心電図は、心臓のリズムと電気活動の観察を通して、診断とモニタリングの目的で心臓の状態を調べる最も一般的な方法である。
心電図(ECG)の分析は、訓練医によって視覚的に認識され、心機能障害を反映することが知られている特定のパターンの調査を通じて一般的に行われている。
本研究では,説明可能な特徴抽出器として$\beta$-variational autoencoders (VAEs) を用い,信号再構成と心機能予測を併用することにより,予測能力の向上を図る。
抽出された特徴はロジスティック回帰を用いた心機能予測に使用される。
2010年から2021年にかけてライデン大学医療センターで急性冠症候群の治療を受けた7255人の患者を対象に、この方法の訓練と検査を行った。
その結果,バニラ$\beta$-VAEに比べて予測と説明性が有意に向上し,再現性も良好であった。 Electrocardiography is the most common method to investigate the condition of the heart through the observation of cardiac rhythm and electrical activity, for both diagnosis and monitoring purposes. Analysis of electrocardiograms (ECGs) is commonly performed through the investigation of specific patterns, which are visually recognizable by trained physicians and are known to reflect cardiac (dis)function. In this work we study the use of $\beta$-variational autoencoders (VAEs) as an explainable feature extractor, and improve on its predictive capacities by jointly optimizing signal reconstruction and cardiac function prediction. The extracted features are then used for cardiac function prediction using logistic regression. The method is trained and tested on data from 7255 patients, who were treated for acute coronary syndrome at the Leiden University Medical Center between 2010 and 2021. The results show that our method significantly improved prediction and explainability compared to a vanilla $\beta$-VAE, while still yielding similar reconstruction performance. | 翻訳日:2023-04-16 21:58:49 公開日:2023-03-28 |
# 新型コロナウイルスパンデミック中の喘息患者に対するスマートセンサを用いたIoTによる遠隔健康モニタリングシステム IoT-Based Remote Health Monitoring System Employing Smart Sensors for Asthma Patients during COVID-19 Pandemic ( http://arxiv.org/abs/2304.06511v1 ) ライセンス: Link先を確認 | Nafisa Shamim Rafa, Basma Binte Azmal, Abdur Rab Dhruba, Mohammad Monirujjaman Khan, Turki M. Alanazi, Faris A. Almalki, Othman AlOmeir | (参考訳) COVID19と喘息は、コントロールされていない状況で生命を脅かし、継続的な監視を必要とする呼吸器疾患である。
バングラデシュのような南アジアの貧困国は、新型コロナウイルス(covid-19)のパンデミックの始まり以来、猛威を振るってきた。
人口の大半は農村部に居住しており、適切な医療機関へのアクセスが困難である。
これは遠隔医療の必要性を強調し、バングラデシュで現在開発中のIoT(Internet of Things)の概念を実装している。
本稿では,医療システムにおける現在の課題が,遠隔医療・環境モニタリングシステムの設計を通じて解決可能であること,特にCOVID-19のリスクが高い喘息患者について述べる。
オンタイム治療が不可欠であるため、医師や医療スタッフはリアルタイムで患者情報を受信し、位置に関係なく直ちに患者にサービスを提供することができる。
提案システムは, 心拍数, 体温, 環境温度, 湿度, 空気質データを収集し, Arduinoマイクロコントローラで処理する各種センサで構成されている。
モバイルアプリケーションと統合されている。
これらのデータはbluetoothモジュールを通じてモバイルアプリに送信され、数秒ごとに更新されるので、医療スタッフは即座に患者の状態や緊急事態を追跡できる。
開発されたプロトタイプはポータブルで、誰でも簡単に使える。
この制度は、特定の期間にわたって、異なる年齢と医療史を持つ5人に適用される。
すべてのデータを分析すると、どの参加者が特に健康悪化に弱いかが明らかになり、常に観察が必要となった。
この研究を通じて、喘息症状に対する意識は改善し、いつでもどこでも効果的な治療を通じて重症度を防ぎます。 COVID19 and asthma are respiratory diseases that can be life threatening in uncontrolled circumstances and require continuous monitoring. A poverty stricken South Asian country like Bangladesh has been bearing the brunt of the COVID19 pandemic since its beginning. The majority of the country's population resides in rural areas, where proper healthcare is difficult to access. This emphasizes the necessity of telemedicine, implementing the concept of the Internet of Things (IoT), which is still under development in Bangladesh. This paper demonstrates how the current challenges in the healthcare system are resolvable through the design of a remote health and environment monitoring system, specifically for asthma patients who are at an increased risk of COVID19. Since on-time treatment is essential, this system will allow doctors and medical staff to receive patient information in real time and deliver their services immediately to the patient regardless of their location. The proposed system consists of various sensors collecting heart rate, body temperature, ambient temperature, humidity, and air quality data and processing them through the Arduino Microcontroller. It is integrated with a mobile application. All this data is sent to the mobile application via a Bluetooth module and updated every few seconds so that the medical staff can instantly track patients' conditions and emergencies. The developed prototype is portable and easily usable by anyone. The system has been applied to five people of different ages and medical histories over a particular period. Upon analyzing all their data, it became clear which participants were particularly vulnerable to health deterioration and needed constant observation. Through this research, awareness about asthmatic symptoms will improve and help prevent their severity through effective treatment anytime, anywhere. | 翻訳日:2023-04-16 21:38:45 公開日:2023-03-28 |
# 予期せぬパーティのクイットに対する学習のロバスト化とIP保護 Robust and IP-Protecting Vertical Federated Learning against Unexpected Quitting of Parties ( http://arxiv.org/abs/2303.18178v1 ) ライセンス: Link先を確認 | Jingwei Sun, Zhixu Du, Anna Dai, Saleh Baghersalimi, Alireza Amirshahi, David Atienza, Yiran Chen | (参考訳) 垂直連合学習(VFL)は、ラベル付き機能を所有するサービスプロバイダ(すなわち、アクティブパーティ)が、補助的機能を持つ受動的関係者と協力してモデルパフォーマンスを向上させることを可能にする。
しかしながら、既存のVFLアプローチでは、VFLの展開フェーズにおいて、パッシブパーティが予期せず停止したときの2つの大きな脆弱性がある。
本稿では,VFLモデルにおける受動的離脱に対するロバスト性向上のための「textbf{Party-wise Dropout}」と,展開フェーズにおけるアクティブパーティのIPを保護する「textbf{DIMIP}」という防衛手法を提案する。
提案手法を複数のデータセット上で異なる推論攻撃に対して評価する。
その結果,パッシブパーティが終了しても,パーティ毎のドロップアウトはモデル性能を効果的に維持でき,dimipはパッシブパーティの特徴抽出器からラベル情報を偽装してipリークを軽減できた。 Vertical federated learning (VFL) enables a service provider (i.e., active party) who owns labeled features to collaborate with passive parties who possess auxiliary features to improve model performance. Existing VFL approaches, however, have two major vulnerabilities when passive parties unexpectedly quit in the deployment phase of VFL - severe performance degradation and intellectual property (IP) leakage of the active party's labels. In this paper, we propose \textbf{Party-wise Dropout} to improve the VFL model's robustness against the unexpected exit of passive parties and a defense method called \textbf{DIMIP} to protect the active party's IP in the deployment phase. We evaluate our proposed methods on multiple datasets against different inference attacks. The results show that Party-wise Dropout effectively maintains model performance after the passive party quits, and DIMIP successfully disguises label information from the passive party's feature extractor, thereby mitigating IP leakage. | 翻訳日:2023-04-09 05:54:54 公開日:2023-03-28 |
# スマートグリッドにおける故障予測システムに対する機械誘導逆攻撃 Machine-learned Adversarial Attacks against Fault Prediction Systems in Smart Electrical Grids ( http://arxiv.org/abs/2303.18136v1 ) ライセンス: Link先を確認 | Carmelo Ardito, Yashar Deldjoo, Tommaso Di Noia, Eugenio Di Sciascio, Fatemeh Nazary, Giovanni Servedio | (参考訳) スマートな電気グリッドでは、障害検出タスクは経済的かつ重要な意味を持つため、社会に大きな影響を与える可能性がある。
近年、欠陥検出や負荷予測といった多くのスマートグリッドアプリケーションが、データ駆動手法を採用しています。
本研究の目的は、スマートグリッドシナリオにおける機械学習(ML)アプリケーションのセキュリティに関する課題を検討することである。
実際、これらのデータ駆動アルゴリズムの堅牢性とセキュリティは、すべての電力グリッドアプリケーションに関して広く研究されていない。
まず,スマートグリッドにおけるディープニューラルネットワーク手法が,逆摂動の影響を受けやすいことを示す。
そこで我々は,スマートグリッドにおける現在のMLアルゴリズムの弱点を,障害の局所化と型分類で示す方法を強調した。 In smart electrical grids, fault detection tasks may have a high impact on society due to their economic and critical implications. In the recent years, numerous smart grid applications, such as defect detection and load forecasting, have embraced data-driven methodologies. The purpose of this study is to investigate the challenges associated with the security of machine learning (ML) applications in the smart grid scenario. Indeed, the robustness and security of these data-driven algorithms have not been extensively studied in relation to all power grid applications. We demonstrate first that the deep neural network method used in the smart grid is susceptible to adversarial perturbation. Then, we highlight how studies on fault localization and type classification illustrate the weaknesses of present ML algorithms in smart grids to various adversarial attacks | 翻訳日:2023-04-09 05:54:34 公開日:2023-03-28 |
# 多エージェント値分解における冗長性の課題 The challenge of redundancy on multi-agent value factorisation ( http://arxiv.org/abs/2304.00009v1 ) ライセンス: Link先を確認 | Siddarth Singh and Benjamin Rosman | (参考訳) 協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは、中央批判者が中央状態に基づいて協調エージェントの政策を条件付ける集中型トレーニングと分散実行の使用である。
多くの冗長エージェントの場合、これらのメソッドは効果が低下することが示されている。
より一般的な場合、タスクの解決に必要なものよりも多くのエージェントが環境に存在している可能性が高い。
これらの冗長なエージェントは、状態空間の両次元を拡大し、環境解決に使用される共同ポリシーのサイズを増やすことで性能を低下させる。
本稿では,結合値関数の学習と局所報酬信号の生成を分離し,新しいMARLアルゴリズムであるRelevance decomposition Network(RDN)を作成するために,レイヤワイズ関連伝搬(LRP)を活用することを提案する。
VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。 In the field of cooperative multi-agent reinforcement learning (MARL), the standard paradigm is the use of centralised training and decentralised execution where a central critic conditions the policies of the cooperative agents based on a central state. It has been shown, that in cases with large numbers of redundant agents these methods become less effective. In a more general case, there is likely to be a larger number of agents in an environment than is required to solve the task. These redundant agents reduce performance by enlarging the dimensionality of both the state space and and increasing the size of the joint policy used to solve the environment. We propose leveraging layerwise relevance propagation (LRP) to instead separate the learning of the joint value function and generation of local reward signals and create a new MARL algorithm: relevance decomposition network (RDN). We find that although the performance of both baselines VDN and Qmix degrades with the number of redundant agents, RDN is unaffected. | 翻訳日:2023-04-09 05:43:58 公開日:2023-03-28 |
# Sejarah dan Perkembangan Teknik Natural Language Processing (NLP) Bahasa Indonesia: Tinjauan tentang sejarah, perkembangan teknologi, dan aplikasi NLP dalam bahasa Indonesia Sejarah dan Perkembangan Teknik Natural Language Processing (NLP) Bahasa Indonesia: Tinjauan tentang sejarah, perkembangan teknologi, dan aplikasi NLP dalam bahasa Indonesia ( http://arxiv.org/abs/2304.02746v1 ) ライセンス: Link先を確認 | Mukhlis Amien | (参考訳) 本研究は,インドネシア語の文脈における自然言語処理(nlp)開発の歴史を概観し,開発されてきた基礎技術,手法,実践的応用に焦点をあてたものである。
本稿では,steming,part-of-speech tagging,および関連する手法,言語間情報検索システム,情報抽出,感情分析における実践的応用,およびインドネシア語nlp研究における機械学習,統計に基づく機械翻訳,コンフリクトベースアプローチなどの手法と手法について述べる。
本研究は,インドネシア語産業におけるNLPの適用について検討し,インドネシア語NLPの研究開発における課題と機会を明らかにする。
将来のインドネシア語によるNLP研究・開発への勧告には、より効率的な方法や技術の開発、NLPアプリケーションの拡大、持続可能性の向上、NLPの可能性のさらなる研究、学際協力の促進などが含まれる。
このレビューは、インドネシア語nlpの発展を理解し、さらなる研究と発展の機会を特定するために、研究者、実践者、政府に役立つと期待されている。 This study provides an overview of the history of the development of Natural Language Processing (NLP) in the context of the Indonesian language, with a focus on the basic technologies, methods, and practical applications that have been developed. This review covers developments in basic NLP technologies such as stemming, part-of-speech tagging, and related methods; practical applications in cross-language information retrieval systems, information extraction, and sentiment analysis; and methods and techniques used in Indonesian language NLP research, such as machine learning, statistics-based machine translation, and conflict-based approaches. This study also explores the application of NLP in Indonesian language industry and research and identifies challenges and opportunities in Indonesian language NLP research and development. Recommendations for future Indonesian language NLP research and development include developing more efficient methods and technologies, expanding NLP applications, increasing sustainability, further research into the potential of NLP, and promoting interdisciplinary collaboration. It is hoped that this review will help researchers, practitioners, and the government to understand the development of Indonesian language NLP and identify opportunities for further research and development. | 翻訳日:2023-04-09 05:25:56 公開日:2023-03-28 |
# CHATGPTの比較分析と言語モデルの進化 Comparative Analysis of CHATGPT and the evolution of language models ( http://arxiv.org/abs/2304.02468v1 ) ライセンス: Link先を確認 | Oluwatosin Ogundare, Gustavo Quiros Araya | (参考訳) 大規模言語モデル(LLM)への関心は、ChatGPTの出現と、自然言語処理(NLP)におけるタスクの実行容易性に対する顕著な肯定的な社会的反応から、飛躍的に高まっている。
しかし、ChatGPTの勝利は、言語生成と知識モデルとの相違をシームレスに橋渡しする方法である。
場合によっては、知識領域に人間の直感を複製する枠組みの逸話的な証拠を提供する。
本稿では, 機械翻訳, 機械要約, 質問応答, 言語生成など, NLPにおける一般的な概念を取り上げ, それぞれのカテゴリにおけるChatGPTの性能を, 自発品質(SQ)スコアを用いて比較する。
安全かつ大規模なLLMの導入例として,ChatGPTの議論と結果を検証するための戦略をまとめて提示する。 Interest in Large Language Models (LLMs) has increased drastically since the emergence of ChatGPT and the outstanding positive societal response to the ease with which it performs tasks in Natural Language Processing (NLP). The triumph of ChatGPT, however, is how it seamlessly bridges the divide between language generation and knowledge models. In some cases, it provides anecdotal evidence of a framework for replicating human intuition over a knowledge domain. This paper highlights the prevailing ideas in NLP, including machine translation, machine summarization, question-answering, and language generation, and compares the performance of ChatGPT with the major algorithms in each of these categories using the Spontaneous Quality (SQ) score. A strategy for validating the arguments and results of ChatGPT is presented summarily as an example of safe, large-scale adoption of LLMs. | 翻訳日:2023-04-09 05:24:21 公開日:2023-03-28 |
# FeDiSa: 電力系統故障とサイバー攻撃識別のための半非同期フェデレーションラーニングフレームワーク FeDiSa: A Semi-asynchronous Federated Learning Framework for Power System Fault and Cyberattack Discrimination ( http://arxiv.org/abs/2303.16956v1 ) ライセンス: Link先を確認 | Muhammad Akbar Husnoo, Adnan Anwar, Haftu Tasew Reda, Nasser Hosseizadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss | (参考訳) スマートグリッドドメインにおけるセキュリティとプライバシの懸念が高まり、重要なエネルギーインフラへの侵入検知が近年重要になっている。
戦略的データ所有者によるプライバシ保護と分散パワーゾーンの課題に対処するため、フェデレーション学習(fl)は同時に、生データの共有を必要とせず、攻撃検出モデルの協調的なトレーニングを可能にする、現実的なプライバシ保存代替手段として浮上してきた。
従来の同期flに関連する技術的課題のいくつかに対処するため,本稿では,通信遅延やストラグラーを考慮した,電力系統障害とサイバー攻撃識別のための新しい半同期フェデレーション学習フレームワークfedisaを提案する。
具体的には,ローカルモデル更新を制御センタにアップロードし,バッファシステムとプリセットカットオフ時間に基づいて,新たなグローバルモデルパラメータに対して半同期モデル集約を行う,監督制御とデータ取得サブシステムによるディープオートエンコーダの協調トレーニングを提案する。
産業用制御システムデータセットを用いた提案フレームワークの実験により,データ機密性を維持しつつ,通信遅延やストラグラーの悪影響を最小限に抑えながら,攻撃検出精度が向上した。
さらに,トレーニング時間の35%の改善が見られ,提案手法の堅牢性を検証する。 With growing security and privacy concerns in the Smart Grid domain, intrusion detection on critical energy infrastructure has become a high priority in recent years. To remedy the challenges of privacy preservation and decentralized power zones with strategic data owners, Federated Learning (FL) has contemporarily surfaced as a viable privacy-preserving alternative which enables collaborative training of attack detection models without requiring the sharing of raw data. To address some of the technical challenges associated with conventional synchronous FL, this paper proposes FeDiSa, a novel Semi-asynchronous Federated learning framework for power system faults and cyberattack Discrimination which takes into account communication latency and stragglers. Specifically, we propose a collaborative training of deep auto-encoder by Supervisory Control and Data Acquisition sub-systems which upload their local model updates to a control centre, which then perform a semi-asynchronous model aggregation for a new global model parameters based on a buffer system and a preset cut-off time. Experiments on the proposed framework using publicly available industrial control systems datasets reveal superior attack detection accuracy whilst preserving data confidentiality and minimizing the adverse effects of communication latency and stragglers. Furthermore, we see a 35% improvement in training time, thus validating the robustness of our proposed method. | 翻訳日:2023-03-31 15:32:57 公開日:2023-03-28 |
# モバイルソーシャルネットワーク不正検出のためのコスト感性GNNに基づく不均衡学習 Cost Sensitive GNN-based Imbalanced Learning for Mobile Social Network Fraud Detection ( http://arxiv.org/abs/2303.17486v1 ) ライセンス: Link先を確認 | Xinxin Hu, Haotian Chen, Hongchang Chen, Shuxin Liu, Xing Li, Shibo Zhang, Yahui Wang, and Xiangyang Xue | (参考訳) モバイルネットワークの急速な発展に伴い、人々の社会的接触は大幅に促進された。
しかし、これらのネットワークに対するモバイルソーシャルネットワーク詐欺の台頭は、個人や社会の富を枯渇させ、経済的に重大な損害を与える可能性がある場合に、大きな苦痛を引き起こした。
不正ユーザを検出するために,モバイルネットワークにおけるユーザの社会的行動を表すコールディテールレコード(CDR)データが広く利用されている。
しかし、前述のデータにおける不均衡問題は、グラフニューラルネットワーク(GNN)に基づく不正検出の有効性を著しく阻害する可能性があるため、これまでの研究ではほとんど解決されていない。
本稿では,コストに敏感な学習とグラフニューラルネットワークを創造的に組み合わせ,コストに敏感なグラフニューラルネットワーク(csgnn)を提案する。
我々は,オープンソースの2つの実世界のモバイルネットワーク詐欺データセットについて広範な実験を行う。
その結果,csgnnはグラフの不均衡問題を効果的に解決し,最先端アルゴリズムよりも優れた検出性能を実現することができた。
我々の研究は、他の分野におけるグラフの不均衡問題の解決に応用できると信じている。
CSGNNのコードとデータセットはhttps://github.com/xxhu94/CSGNNで公開されている。 With the rapid development of mobile networks, the people's social contacts have been considerably facilitated. However, the rise of mobile social network fraud upon those networks, has caused a great deal of distress, in case of depleting personal and social wealth, then potentially doing significant economic harm. To detect fraudulent users, call detail record (CDR) data, which portrays the social behavior of users in mobile networks, has been widely utilized. But the imbalance problem in the aforementioned data, which could severely hinder the effectiveness of fraud detectors based on graph neural networks(GNN), has hardly been addressed in previous work. In this paper, we are going to present a novel Cost-Sensitive Graph Neural Network (CSGNN) by creatively combining cost-sensitive learning and graph neural networks. We conduct extensive experiments on two open-source realworld mobile network fraud datasets. The results show that CSGNN can effectively solve the graph imbalance problem and then achieve better detection performance than the state-of-the-art algorithms. We believe that our research can be applied to solve the graph imbalance problems in other fields. The CSGNN code and datasets are publicly available at https://github.com/xxhu94/CSGNN. | 翻訳日:2023-03-31 13:03:18 公開日:2023-03-28 |
# オープン量子ダイナミクスの限界を探る I: モチベーション, トイモデルから応用への新たな成果 Exploring the Limits of Open Quantum Dynamics I: Motivation, New Results from Toy Models to Applications ( http://arxiv.org/abs/2003.06018v4 ) ライセンス: Link先を確認 | Thomas Schulte-Herbr\"uggen, Frederik vom Ende, Gunther Dirr | (参考訳) オープンマルコビアン$n$レベルの量子システムを制御することで、どの量子状態に到達できるのか?
ここでは、コヒーレントに制御可能な量子系の到達可能な集合を、温度t$の熱浴に交換可能な結合で扱う。
中心的な問題は、標準的なシンプルさの点を研究するおもちゃモデルに還元され、2種類の制御が可能になった。
i) 単純体内の置換
(ii)散逸半群による収縮。
図示により、この問題を文脈に置き、元の制御されたマルコフ量子系の到達可能な集合にどう関係するかを示す。
例の$t=0$ (振幅減衰) の他に、$d$-majorization のメソッドを使って $0 <t < \infty$ の新しい結果を示す。 Which quantum states can be reached by controlling open Markovian $n$-level quantum systems? Here, we address reachable sets of coherently controllable quantum systems with switchable coupling to a thermal bath of temperature $T$. The core problem reduces to a toy model of studying points in the standard simplex allowing for two types of controls: (i) permutations within the simplex, (ii) contractions by a dissipative semigroup. By illustration, we put the problem into context and show how toy-model solutions pertain to the reachable set of the original controlled Markovian quantum system. Beyond the case $T=0$ (amplitude damping) we present new results for $0 <T < \infty$ using methods of $d$-majorisation. | 翻訳日:2023-03-30 20:16:39 公開日:2023-03-28 |
# オープン量子ダイナミクスの限界を探る II: 正規化の観点からのギブス保存マップ Exploring the Limits of Open Quantum Dynamics II: Gibbs-Preserving Maps from the Perspective of Majorization ( http://arxiv.org/abs/2003.04164v5 ) ライセンス: Link先を確認 | Frederik vom Ende | (参考訳) 熱浴に結合したコヒーレントに制御されたオープン量子システムにおける到達可能性の問題と、熱・ベクトル大乗化の分野の最近の進歩により、古典的メジャー化を単位的量子チャネルから任意の不動点$d$のチャネルへ一般化する。
そのようなチャネルはギブス状態を保持し、量子熱力学、特に熱大化の資源理論において重要な役割を果たす。
これに基づいて、一意の極大元や極小元の存在など、その位相的および順序的性質の観点から行列上のD$-majorizationを調査する。
さらに、トレースノルムを通したqubitの場合の$D$-majorizationを特徴付け、これが2次元を越える上で難しい課題である理由を詳述する。 Motivated by reachability questions in coherently controlled open quantum systems coupled to a thermal bath, as well as recent progress in the field of thermo-/vector-majorization we generalize classical majorization from unital quantum channels to channels with an arbitrary fixed point $D$ of full rank. Such channels preserve some Gibbs-state and thus play an important role in the resource theory of quantum thermodynamics, in particular in thermo-majorization. Based on this we investigate $D$-majorization on matrices in terms of its topological and order properties, such as existence of unique maximal and minimal elements, etc. Moreover we characterize $D$-majorization in the qubit case via the trace norm and elaborate on why this is a challenging task when going beyond two dimensions. | 翻訳日:2023-03-30 20:16:26 公開日:2023-03-28 |
# Scenic4RL:強化学習環境のモデリングと生成 Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments ( http://arxiv.org/abs/2106.10365v2 ) ライセンス: Link先を確認 | Abdus Salam Azad, Edward Kim, Qiancheng Wu, Kimin Lee, Ion Stoica, Pieter Abbeel, and Sanjit A. Seshia | (参考訳) 強化学習エージェント(RL)の能力は、環境によって生成される学習シナリオの多様性に大きく依存する。
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
RTS環境は、知的実体/非RLエージェントが長い時間にわたってRLエージェントと協力し、大きな状態とアクション空間と競合することで特徴づけられ、結果として、RLエージェントと非RLエージェントの間で複雑な相互作用を伴う無限の現実的空間が生まれる。
しかし、既存のシミュレータのほとんどは、事前定義された設定/レイアウトに基づいて環境をランダムに生成することに依存しており、研究者が要求に応じて多様で現実的なシナリオを生成するために、環境ダイナミクスの柔軟性と制御が限定されている。
この問題に対処するために,我々は,rts環境における多様なシナリオを柔軟かつ体系的かつプログラム的にモデル化・生成するための,既存の形式的シナリオ仕様言語であるsportableの採用の利点を初めて正式に紹介する。
この利点を示すために、SCENICを既存のRTS環境であるGoogle Research Football(GRF)シミュレータにインターフェースし、SCENICでエンコードされた32の現実シナリオからなるベンチマークを導入し、RLエージェントのトレーニングと一般化機能のテストを行った。
また、SCENICを用いて確率的プログラムポリシーを直感的にモデル化することにより、研究者やRL実践者がドメイン知識を組み込んでトレーニングプロセスの迅速化を図る方法を示す。 The capability of a reinforcement learning (RL) agent heavily depends on the diversity of the learning scenarios generated by the environment. Generation of diverse realistic scenarios is challenging for real-time strategy (RTS) environments. The RTS environments are characterized by intelligent entities/non-RL agents cooperating and competing with the RL agents with large state and action spaces over a long period of time, resulting in an infinite space of feasible, but not necessarily realistic, scenarios involving complex interaction among different RL and non-RL agents. Yet, most of the existing simulators rely on randomly generating the environments based on predefined settings/layouts and offer limited flexibility and control over the environment dynamics for researchers to generate diverse, realistic scenarios as per their demand. To address this issue, for the first time, we formally introduce the benefits of adopting an existing formal scenario specification language, SCENIC, to assist researchers to model and generate diverse scenarios in an RTS environment in a flexible, systematic, and programmatic manner. To showcase the benefits, we interfaced SCENIC to an existing RTS environment Google Research Football(GRF) simulator and introduced a benchmark consisting of 32 realistic scenarios, encoded in SCENIC, to train RL agents and testing their generalization capabilities. We also show how researchers/RL practitioners can incorporate their domain knowledge to expedite the training process by intuitively modeling stochastic programmatic policies with SCENIC. | 翻訳日:2023-03-30 19:30:13 公開日:2023-03-28 |
# 最大絡み合った状態を用いた非局所ゲームに対するラウンドング準最適量子戦略 Rounding near-optimal quantum strategies for nonlocal games to strategies using maximally entangled states ( http://arxiv.org/abs/2203.02525v2 ) ライセンス: Link先を確認 | Connor Paddock | (参考訳) 同期系、二項制約系、および XOR の非局所ゲームに対して、任意の状態を持つ準最適有限次元量子戦略がそれらの非局所ゲーム代数の近似表現であることを示す。
また、これらの非局所ゲーム代数の有限次元近似表現は、プレイヤーが最大交絡状態を使用するような準最適戦略に近いことを示す。
共役として、準最適量子戦略は最大に絡み合った状態を用いる準最適量子戦略に近いことを示す。 For the classes of synchronous, binary constraint systems, and XOR nonlocal games, we show that near-optimal finite-dimensional quantum strategies with arbitrary states are approximate representations of their affiliated nonlocal game algebra. We also show that finite-dimensional approximate representations of these nonlocal game algebras are close to near-optimal strategies where the players employ a maximally entangled state. As a corollary, we show that near-optimal quantum strategies are close to a near-optimal quantum strategy that uses a maximally entangled state. | 翻訳日:2023-03-30 19:21:49 公開日:2023-03-28 |
# HARPS:人間支援ロボット計画とセンシングのためのオンラインPOMDPフレームワーク HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and Sensing ( http://arxiv.org/abs/2110.10324v4 ) ライセンス: Link先を確認 | Luke Burks, Hunter M. Ray, Jamison McGinley, Sousheel Vunnam, and Nisar Ahmed | (参考訳) 自律ロボットは、不確実なタスク環境や状態の人間が提供するセマンティックな特徴から大きな恩恵を受けることができる。
しかし,ロボットがこのような「ソフトデータ」をモデル化し,伝達し,動作させることができる統合戦略の開発はいまだに困難である。
そこで,HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは,オンラインサンプリングベースのPOMDPポリシ,マルチモーダルセマンティックインタラクション,ベイズデータ融合のメリットを正式に組み合わせることで,ロボットチームにおけるアクティブなセマンティックセンシングとプランニングを実現する。
このアプローチは、人間が任意のランドマークをスケッチし、ラベリングすることで、不確定な環境でモデル構造を付加し、セマンティックなソフトデータの範囲を拡張できる。
探索中の環境モデルの動的更新により、ロボットエージェントは人間に新しい意味的データを積極的にクエリし、未知の環境や状態の信念を改善し、オンライン計画を改善することができる。
大規模部分構造環境におけるuav対応目標探索アプリケーションのシミュレーションは、ロボットセンシングのみに基づく従来の計画に比べて、インターセプションに必要な時間と信念状態の推定が大幅に改善している。
同じ環境(n = 36)における人間の被験者研究は、単独のロボットの場合と比較して、動的目標捕捉率の平均倍率を示し、ユーザ特性やインタラクションのモダリティを越えて、アクティブな確率的推論とセマンティックセンシングの堅牢性を強調している。 Autonomous robots can benefit greatly from human-provided semantic characterizations of uncertain task environments and states. However, the development of integrated strategies which let robots model, communicate, and act on such 'soft data' remains challenging. Here, the Human Assisted Robotic Planning and Sensing (HARPS) framework is presented for active semantic sensing and planning in human-robot teams to address these gaps by formally combining the benefits of online sampling-based POMDP policies, multimodal semantic interaction, and Bayesian data fusion. This approach lets humans opportunistically impose model structure and extend the range of semantic soft data in uncertain environments by sketching and labeling arbitrary landmarks across the environment. Dynamic updating of the environment model while during search allows robotic agents to actively query humans for novel and relevant semantic data, thereby improving beliefs of unknown environments and states for improved online planning. Simulations of a UAV-enabled target search application in a large-scale partially structured environment show significant improvements in time and belief state estimates required for interception versus conventional planning based solely on robotic sensing. Human subject studies in the same environment (n = 36) demonstrate an average doubling in dynamic target capture rate compared to the lone robot case, and highlight the robustness of active probabilistic reasoning and semantic sensing over a range of user characteristics and interaction modalities. | 翻訳日:2023-03-30 19:19:29 公開日:2023-03-28 |
# Squeeze All: 線形コンテキスト帯域に対する新しい推定器と自己正規化境界 Squeeze All: Novel Estimator and Self-Normalized Bound for Linear Contextual Bandits ( http://arxiv.org/abs/2206.05404v3 ) ライセンス: Link先を確認 | Wonyoung Kim, Myunghee Cho Paik, Min-hwan Oh | (参考訳) 我々は、$o(\sqrt{dt\log t})$ regret bound の線形文脈バンディットアルゴリズムを提案し、ここで$d$はコンテキストの次元であり、$t$は時間軸である。
提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。
ランダム化によって,提案した推定器は,すべてのアームのコンテキストから,選択したコンテキストからコントリビューションを受ける。
我々は、推定子に対する自己正規化境界を確立し、乗法項の代わりに累積後悔を \textit{additive} 次元依存項に分解することができる。
また、問題設定の下では$\Omega(\sqrt{dT})$という新しい下界も証明する。
したがって,提案アルゴリズムの後悔は対数因子に対する下限に一致する。
数値実験は理論的保証をサポートし,提案手法が既存の線形バンディットアルゴリズムより優れていることを示す。 We propose a linear contextual bandit algorithm with $O(\sqrt{dT\log T})$ regret bound, where $d$ is the dimension of contexts and $T$ isthe time horizon. Our proposed algorithm is equipped with a novel estimator in which exploration is embedded through explicit randomization. Depending on the randomization, our proposed estimator takes contributions either from contexts of all arms or from selected contexts. We establish a self-normalized bound for our estimator, which allows a novel decomposition of the cumulative regret into \textit{additive} dimension-dependent terms instead of multiplicative terms. We also prove a novel lower bound of $\Omega(\sqrt{dT})$ under our problem setting. Hence, the regret of our proposed algorithm matches the lower bound up to logarithmic factors. The numerical experiments support the theoretical guarantees and show that our proposed method outperforms the existing linear bandit algorithms. | 翻訳日:2023-03-30 19:12:39 公開日:2023-03-28 |
# MobileOne:改善された1ミリ秒のモバイルバックボーン MobileOne: An Improved One millisecond Mobile Backbone ( http://arxiv.org/abs/2206.04040v2 ) ライセンス: Link先を確認 | Pavan Kumar Anasosalu Vasu and James Gabriel and Jeff Zhu and Oncel Tuzel and Anurag Ranjan | (参考訳) モバイルデバイス用の効率的なニューラルネットワークバックボーンは、FLOPやパラメータカウントなどのメトリクスに最適化されることが多い。
しかし、これらのメトリクスは、モバイルデバイスにデプロイされるネットワークのレイテンシとよく相関しないかもしれない。
そこで我々は,複数のモバイルフレンドリなネットワークをモバイルデバイス上に配置することで,さまざまな指標を広範囲に分析する。
我々は、最近の効率的なニューラルネットワークにおけるアーキテクチャおよび最適化ボトルネックを特定し、分析し、これらのボトルネックを緩和する方法を提供する。
この目的のために、iPhone12上で1ミリ秒未満の推論時間を実現し、ImageNet上で75.9%の精度で、効率的なバックボーンMobileOneを設計する。
我々はmobileoneが効率の良いアーキテクチャで最先端のパフォーマンスを達成し、モバイルで何倍も速くなることを示す。
我々の最良のモデルは、ImageNetとMobileFormerで38倍高速なパフォーマンスを得る。
我々のモデルは、同様のレイテンシで、ImageNetでEfficientNetよりも2.3%優れたトップ1の精度を得る。
さらに,本モデルは,モバイル機器にデプロイする際の既存の効率的なアーキテクチャと比較して,レイテンシと精度が大幅に向上し,画像分類,オブジェクト検出,意味セグメンテーションといった複数のタスクに一般化することを示す。
コードとモデルはhttps://github.com/apple/ml-mobileoneで入手できる。 Efficient neural network backbones for mobile devices are often optimized for metrics such as FLOPs or parameter count. However, these metrics may not correlate well with latency of the network when deployed on a mobile device. Therefore, we perform extensive analysis of different metrics by deploying several mobile-friendly networks on a mobile device. We identify and analyze architectural and optimization bottlenecks in recent efficient neural networks and provide ways to mitigate these bottlenecks. To this end, we design an efficient backbone MobileOne, with variants achieving an inference time under 1 ms on an iPhone12 with 75.9% top-1 accuracy on ImageNet. We show that MobileOne achieves state-of-the-art performance within the efficient architectures while being many times faster on mobile. Our best model obtains similar performance on ImageNet as MobileFormer while being 38x faster. Our model obtains 2.3% better top-1 accuracy on ImageNet than EfficientNet at similar latency. Furthermore, we show that our model generalizes to multiple tasks - image classification, object detection, and semantic segmentation with significant improvements in latency and accuracy as compared to existing efficient architectures when deployed on a mobile device. Code and models are available at https://github.com/apple/ml-mobileone | 翻訳日:2023-03-30 19:12:23 公開日:2023-03-28 |
# 原子干渉計によるT^{3}$スケールの普遍性試験 Universality-of-clock-rates test using atom interferometry with $T^{3}$ scaling ( http://arxiv.org/abs/2204.02156v3 ) ライセンス: Link先を確認 | Fabio Di Pumpo, Alexander Friedrich, Christian Ufrecht, Enno Giese | (参考訳) 重力の計量的記述は、今日の確立された理論として一般相対性理論として、アインシュタイン同値原理(EEP)によって要約された仮定に基づいている。
その違反は未知の物理学を示唆し、量子重力の発展のレバレッジとなる可能性がある。
原子時計は、(適切な)時間に接続された脳波の側面を探査する優れたシステムであり、局所的な位置不変性(LPI)をテストするための作業馬に進化した。
時間の操作的定義は局所化と理想化のクロックを必要とするが、原子のような量子系は本質的に非局所化される空間的重ね合わせを可能にする。
量子実験はEEPの他の側面を試験しているが、LPIの競合試験は行われていない。
我々は、クロックレート(LPIの1面)の普遍性をテストするための概念を、非局在量子時計を生成する原子干渉計に拡張する。
提案されたテストは適切な時間と適切なスケーリングに依存しており、ファウンテンクロックとは対照的に初期条件や反動効果に対して頑健である。
これは光学周波数を可能にし、投影された感度は最先端のローカライズクロックの1つを超える。
これらの結果は、古典的および局所的な哲学から切り離された時間の概念を拡張している。 Metric descriptions of gravitation, among them general relativity as today's established theory, are founded on assumptions summarized by the Einstein equivalence principle (EEP). Its violation would hint at unknown physics and could be a leverage for the development of quantum gravity. Atomic clocks are excellent systems to probe aspects of EEP connected to (proper) time and have evolved into a working horse for tests of local position invariance (LPI). Even though the operational definition of time requires localized and idealized clocks, quantum systems like atoms allow for spatial superpositions that are inherently delocalized. While quantum experiments have tested other aspects of EEP, no competitive test of LPI has been performed or proposed allowing for an intrinsic delocalization. We extend the concepts for tests of the universality of clock rates (one facet of LPI) to atom interferometry generating delocalized quantum clocks. The proposed test depends on proper time with a favorable scaling and is, in contrast to fountain clocks, robust against initial conditions and recoil effects. It enables optical frequencies so that the projected sensitivity exceeds the one of state-of-the-art localized clocks. These results extend our notion of time, detached from classical and localized philosophies. | 翻訳日:2023-03-30 19:10:22 公開日:2023-03-28 |
# エンタングルマルチモード圧縮光を用いたラベルフリー量子超解像 Label-free quantum super-resolution imaging using entangled multi-mode squeezed light ( http://arxiv.org/abs/2207.10826v3 ) ライセンス: Link先を確認 | Daniel Soh and Eric Chatterjee | (参考訳) 本研究では,無ラベル光超解像イメージングにおけるマルチモード励起光の理論的応用について検討する。
バランスのとれたビームスプリッタの配列を通して、非常に絡み合ったマルチモードスプリッター光を生成し、シングルモードスプリット光入力を用いて、ショットノイズレベル以下のノイズ抑制と異常な絡み合いを持つマルチモード量子光状態を生成する。
これにより、撮像試料に同じ数の光子を用いる場合、古典的コヒーレント状態の撮像と比較して撮像誤差が大幅に減少する。
本研究では,画像システムのパラメータを最適化してハイゼンベルク画像の誤差限界を達成する方法を示し,エンタングルモードや光子の数を考慮した。
また,撮像系における光損失の影響についても検討し,光損失の程度に基づいて最適化パラメータの調整を要した。
現実的な応用として、この新しい量子イメージングアプローチは、非絡み合った非定常状態光を使用する古典的な撮像法と比較して、同じ画質を達成するために必要な光子の数を2桁に削減する。 In this study, we explore the theoretical application of entangled multi-mode squeezed light for label-free optical super-resolution imaging. By generating massively entangled multi-mode squeezed light through an array of balanced beam splitters, using a single-mode squeezed light input, we create a multi-mode quantum light state with exceptional entanglement and noise suppression below the shot noise level. This significantly reduces imaging measurement errors compared to classical coherent state light imaging when the same number of photons are used on the imaging sample. We demonstrate how to optimize the imaging system's parameters to achieve the Heisenberg imaging error limit, taking into account the number of entangled modes and photons used. We also examine the effects of optical losses in the imaging system, necessitating adjustments to the optimized parameters based on the degree of optical loss. In practical applications, this new quantum imaging approach reduces the number of photons needed to achieve the same image quality by two orders of magnitude compared to classical imaging methods that use non-entangled, non-squeezed coherent state light. | 翻訳日:2023-03-30 19:03:42 公開日:2023-03-28 |
# ラテンアメリカの自然言語処理におけるバイアスと有害なステレオタイプを特徴付ける手法 A methodology to characterize bias and harmful stereotypes in natural language processing in Latin America ( http://arxiv.org/abs/2207.06591v3 ) ライセンス: Link先を確認 | Laura Alonso Alemany, Luciana Benotti, Hern\'an Maina, Luc\'ia Gonz\'alez, Mariela Rajngewerc, Lautaro Mart\'inez, Jorge S\'anchez, Mauro Schilman, Guido Ivetta, Alexia Halvorsen, Amanda Mata Rojo, Mat\'ias Bordone, Beatriz Busaniche | (参考訳) 自動意思決定システム、特に自然言語処理に基づくシステムは、私たちの生活に浸透しています。
それらは、毎日使っているインターネット検索エンジンの背後にあるだけでなく、仕事の候補者の選択、犯罪の容疑者の特定、自閉症の診断など、より重要な役割も担っている。
このような自動システムは、多くの点で有害なエラーを発生させるが、それは(健康上の問題のように)結果の重大さや、影響する人の数が多いためである。
自動システムによるエラーが他のシステムよりも人口に影響を与える場合、システムを「textit{biased}」と呼ぶ。
現代の自然言語技術のほとんどは、機械学習、すなわち言語モデルと単語埋め込みを用いて大量のテキストから得られた人工物に基づいている。
サブシンボリック機械学習(主に人工知能ニューラルネットワーク)を適用することで生成されるため、直接検査によって不透明で事実上解釈できないため、監査は非常に困難である。
本稿では,社会科学者,ドメイン専門家,機械学習の専門家が,単語埋め込みや大規模言語モデルにおいて,バイアスや有害なステレオタイプを協調的に探究する手法を提案する。
我々の方法論は以下の原則に基づいている: * 単語埋め込みと言語モデルに対する差別の言語的表現に焦点をあてる モデルの数学的性質ではなく、モデルの数学的特性に焦点をあてる * 差別専門家の技術的な障壁を減らす % 社会科学者、ドメインエキスパート、その他は、計量に基づくアプローチに加えて、定性的探索プロセスを通じて特徴づける * 後述のプロセスとしてではなく、トレーニングプロセスの一部としてのアドレス緩和に対処する Automated decision-making systems, especially those based on natural language processing, are pervasive in our lives. They are not only behind the internet search engines we use daily, but also take more critical roles: selecting candidates for a job, determining suspects of a crime, diagnosing autism and more. Such automated systems make errors, which may be harmful in many ways, be it because of the severity of the consequences (as in health issues) or because of the sheer number of people they affect. When errors made by an automated system affect a population more than others, we call the system \textit{biased}. Most modern natural language technologies are based on artifacts obtained from enormous volumes of text using machine learning, namely language models and word embeddings. Since they are created by applying subsymbolic machine learning, mostly artificial neural networks, they are opaque and practically uninterpretable by direct inspection, thus making it very difficult to audit them. In this paper, we present a methodology that spells out how social scientists, domain experts, and machine learning experts can collaboratively explore biases and harmful stereotypes in word embeddings and large language models. Our methodology is based on the following principles: * focus on the linguistic manifestations of discrimination on word embeddings and language models, not on the mathematical properties of the models * reduce the technical barrier for discrimination experts%, be it social scientists, domain experts or other * characterize through a qualitative exploratory process in addition to a metric-based approach * address mitigation as part of the training process, not as an afterthought | 翻訳日:2023-03-30 19:03:08 公開日:2023-03-28 |
# NovelCraft: オープンワールドにおけるノベルティ検出と発見のためのデータセット NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds ( http://arxiv.org/abs/2206.11736v3 ) ライセンス: Link先を確認 | Patrick Feeney, Sarah Schneider, Panagiotis Lymperopoulos, Li-Ping Liu, Matthias Scheutz, Michael C. Hughes | (参考訳) 人工エージェントが環境変化におけるタスクを成功させるためには、新規性の検出と適応が可能である必要がある。
しかし、視覚ノベルティ検出研究は、もともとオブジェクト分類を意図したcifar-10のような再利用可能なデータセットのみを評価することが多い。
新しいベンチマークは、オープン世界の複雑なシーンをナビゲートする上での課題を表すために必要である。
新しいノベルクラフトデータセットは、イメージのマルチモーダルエピソードデータと、修正マインクラフト環境内でpogoスティックアセンブリタスクを完了するエージェントが見るシンボリックワールドステートを含む。
いくつかのエピソードでは、ゲームプレイに影響を与える可能性のある複雑な3dシーンに、さまざまなサイズの新しいオブジェクトを挿入する。
我々の視覚的ノベルティ検出ベンチマークは、偽陽性を制御する場合、より単純な代替手段によって、最もよく評価される手法が最も重要であることを発見した。
さらにマルチモーダルなノベルティ検出実験により、視覚情報とシンボル情報を融合する手法は、検出までの時間と全体的な識別を改善することが示唆された。
最後に,最近の一般化されたカテゴリ発見手法の評価から,複雑なシーンにおける新しい不均衡カテゴリへの適応はいまだにエキサイティングな問題であることが示唆された。 In order for artificial agents to successfully perform tasks in changing environments, they must be able to both detect and adapt to novelty. However, visual novelty detection research often only evaluates on repurposed datasets such as CIFAR-10 originally intended for object classification, where images focus on one distinct, well-centered object. New benchmarks are needed to represent the challenges of navigating the complex scenes of an open world. Our new NovelCraft dataset contains multimodal episodic data of the images and symbolic world-states seen by an agent completing a pogo stick assembly task within a modified Minecraft environment. In some episodes, we insert novel objects of varying size within the complex 3D scene that may impact gameplay. Our visual novelty detection benchmark finds that methods that rank best on popular area-under-the-curve metrics may be outperformed by simpler alternatives when controlling false positives matters most. Further multimodal novelty detection experiments suggest that methods that fuse both visual and symbolic information can improve time until detection as well as overall discrimination. Finally, our evaluation of recent generalized category discovery methods suggests that adapting to new imbalanced categories in complex scenes remains an exciting open problem. | 翻訳日:2023-03-30 19:01:21 公開日:2023-03-28 |
# RMSEを超えて: 道路ユーザインタラクションのマシン学習モデルは、人間のような振る舞いを生み出すか? Beyond RMSE: Do machine-learned models of road user interaction produce human-like behavior? ( http://arxiv.org/abs/2206.11110v2 ) ライセンス: Link先を確認 | Aravinda Ramakrishnan Srinivasan, Yi-Shin Lin, Morris Antonello, Anthony Knittel, Mohamed Hasan, Majd Hawasly, John Redford, Subramanian Ramamoorthy, Matteo Leonetti, Jac Billington, Richard Romano, Gustav Markkula | (参考訳) 自動運転車は、周囲の道路利用者の行動を予測するために、さまざまなセンサーとマシン学習モデルを使用する。
文学における機械学習モデルのほとんどは、モデルの能力を学習し報告するためのルート平均二乗誤差(RMSE)のような量的エラーメトリクスに焦点を当てている。
定量的エラーメトリクスにフォーカスすることは、モデルのより重要な振る舞いの側面を無視する傾向があり、これらのモデルが実際に人間のような振る舞いを予測するかどうかという疑問を提起する。
そこで本研究では,従来の行動研究で人間のデータを分析するように,機械学習モデルの出力を分析することを提案する。
自然主義高速道路運転データセットにおける3つの異なる行動現象の存在を示す定量的指標を導入する。
1)マージングポイントを最初に通過した者のキネマティクス依存性
2高速車両の車線変更による車線変更
3)幹線道路での車両衝突を避けるため、車線変更を行う。
そして,同じ指標を用いて3つの機械学習モデルの挙動を解析する。
モデルのrmse値は異なっていたが、全てのモデルはキネマティック依存のマージ行動を捉えたが、より微妙な礼儀正しい車線変更と高速道路の車線変更の挙動を捉えるのに苦労した。
さらに、車線変更時の衝突回避分析により、モデルが人間の運転の物理的側面を捉えるのに苦労したことが明らかとなった。
そこで本研究では,人間の運転予測の機械学習モデルの解析において,単純な量的指標の不十分さと,より広い行動観を捉える必要性を強調した。 Autonomous vehicles use a variety of sensors and machine-learned models to predict the behavior of surrounding road users. Most of the machine-learned models in the literature focus on quantitative error metrics like the root mean square error (RMSE) to learn and report their models' capabilities. This focus on quantitative error metrics tends to ignore the more important behavioral aspect of the models, raising the question of whether these models really predict human-like behavior. Thus, we propose to analyze the output of machine-learned models much like we would analyze human data in conventional behavioral research. We introduce quantitative metrics to demonstrate presence of three different behavioral phenomena in a naturalistic highway driving dataset: 1) The kinematics-dependence of who passes a merging point first 2) Lane change by an on-highway vehicle to accommodate an on-ramp vehicle 3) Lane changes by vehicles on the highway to avoid lead vehicle conflicts. Then, we analyze the behavior of three machine-learned models using the same metrics. Even though the models' RMSE value differed, all the models captured the kinematic-dependent merging behavior but struggled at varying degrees to capture the more nuanced courtesy lane change and highway lane change behavior. Additionally, the collision aversion analysis during lane changes showed that the models struggled to capture the physical aspect of human driving: leaving adequate gap between the vehicles. Thus, our analysis highlighted the inadequacy of simple quantitative metrics and the need to take a broader behavioral perspective when analyzing machine-learned models of human driving predictions. | 翻訳日:2023-03-30 19:00:59 公開日:2023-03-28 |
# 圧縮VFL:垂直分割データによるコミュニケーション効率の高い学習 Compressed-VFL: Communication-Efficient Learning with Vertically Partitioned Data ( http://arxiv.org/abs/2206.08330v2 ) ライセンス: Link先を確認 | Timothy Castiglia, Anirban Das, Shiqiang Wang, Stacy Patterson | (参考訳) 垂直分割データにおける通信効率向上のための圧縮垂直フェデレート学習(C-VFL)を提案する。
C-VFLでは、サーバと複数のパーティが、複数のローカルイテレーションを使用して各機能のモデルを協調的にトレーニングし、定期的に圧縮された中間結果を共有する。
本研究は,メッセージ圧縮が垂直分割データに対する分散トレーニングに与える影響について,最初の理論的解析を提供する。
圧縮誤差がトレーニングの過程で限定されている場合、非凸対象の収束率を$o(\frac{1}{\sqrt{t}})$で証明する。
量子化やトップ$k$のスパーシフィケーションといった一般的な圧縮技術と収束するための特別な要件を提供する。
最後に, 圧縮なしでVFLの精度を著しく低下させることなく, 圧縮により通信コストを90 %以上削減できることを示す。 We propose Compressed Vertical Federated Learning (C-VFL) for communication-efficient training on vertically partitioned data. In C-VFL, a server and multiple parties collaboratively train a model on their respective features utilizing several local iterations and sharing compressed intermediate results periodically. Our work provides the first theoretical analysis of the effect message compression has on distributed training over vertically partitioned data. We prove convergence of non-convex objectives at a rate of $O(\frac{1}{\sqrt{T}})$ when the compression error is bounded over the course of training. We provide specific requirements for convergence with common compression techniques, such as quantization and top-$k$ sparsification. Finally, we experimentally show compression can reduce communication by over $90\%$ without a significant decrease in accuracy over VFL without compression. | 翻訳日:2023-03-30 19:00:33 公開日:2023-03-28 |
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成 State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v5 ) ライセンス: Link先を確認 | Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage | (参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。
この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。
小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。
トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。 An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics. | 翻訳日:2023-03-30 18:43:51 公開日:2023-03-28 |
# 明るい周波数コムを用いた量子増幅吸収分光 Quantum-enhanced absorption spectroscopy with bright squeezed frequency combs ( http://arxiv.org/abs/2209.15628v2 ) ライセンス: Link先を確認 | Alexandre Belsley | (参考訳) 吸収分光法は、低濃度でガス種を検出・評価する技術として広く用いられている。
本稿では、周波数変調分光の利点と、プローブ状態のスクイーズによるノイズ特性の低減を併用したセンシング戦略を提案する。
ホモダイン検出方式により、複数の周波数での吸収の同時測定が可能となり、吸収プロファイル間の分散に対して堅牢である。
我々は,スクイーズ係数に指数関数的にスケールする信号対雑音比の大幅な向上を予測した。
標準的な量子限界を超える等級の改善が可能で、最先端のスクイージングレベルにより高精度なガスセンシングが容易になる。 Absorption spectroscopy is a widely used technique that permits the detection and characterization of gas species at low concentrations. We propose a sensing strategy combining the advantages of frequency modulation spectroscopy with the reduced noise properties accessible by squeezing the probe state. A homodyne detection scheme allows the simultaneous measurement of the absorption at multiple frequencies and is robust against dispersion across the absorption profile. We predict a significant enhancement of the signal-to-noise ratio that scales exponentially with the squeezing factor. An order of magnitude improvement beyond the standard quantum limit is possible with state-of-the-art squeezing levels facilitating high precision gas sensing. | 翻訳日:2023-03-30 18:42:57 公開日:2023-03-28 |
# SmallCap: 検索機能を強化した軽量画像キャプション SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation ( http://arxiv.org/abs/2209.15323v2 ) ライセンス: Link先を確認 | Rita Ramos, Bruno Martins, Desmond Elliott, Yova Kementchedjhieva | (参考訳) 画像キャプションの最近の進歩は、データとモデルサイズをスケールすることに集中しており、事前学習と微調整のコストを大幅に高めている。
大規模モデルの代替として,入力画像に条件付きキャプションと,データストアから取得した関連キャプションを生成するSmallCapを提案する。
既存のCLIPエンコーダとGPT-2デコーダの間に新たに導入されたクロスアテンション層に唯一学習パラメータが存在するため,本モデルは軽量かつ高速にトレーニングできる。
SmallCapは、追加の微調整なしで新しいドメインに転送でき、データストアの内容を簡単に交換できるため、トレーニング不要で大規模データを活用できる。
実験の結果,COCOのみをトレーニングしたSmallCapは,このベンチマーク上での競合性能と,ターゲットドメインデータからの検索のみを通じて,再トレーニングなしで他のドメインに転送可能であることがわかった。
nocapsベンチマークなど、目に見えない視覚概念への一般化をテストするために設計されたさまざまなドメインに対して有効であることを証明した、多様な人間ラベルとwebデータのトレーニングフリーな活用によって、さらなる改善が達成されている。 Recent advances in image captioning have focused on scaling the data and model size, substantially increasing the cost of pre-training and finetuning. As an alternative to large models, we present SmallCap, which generates a caption conditioned on an input image and related captions retrieved from a datastore. Our model is lightweight and fast to train, as the only learned parameters are in newly introduced cross-attention layers between a pre-trained CLIP encoder and GPT-2 decoder. SmallCap can transfer to new domains without additional finetuning and can exploit large-scale data in a training-free fashion since the contents of the datastore can be readily replaced. Our experiments show that SmallCap, trained only on COCO, has competitive performance on this benchmark, and also transfers to other domains without retraining, solely through retrieval from target-domain data. Further improvement is achieved through the training-free exploitation of diverse human-labeled and web data, which proves to be effective for a range of domains, including the nocaps benchmark, designed to test generalization to unseen visual concepts. | 翻訳日:2023-03-30 18:42:30 公開日:2023-03-28 |
# コード生成モデルの多言語評価 Multi-lingual Evaluation of Code Generation Models ( http://arxiv.org/abs/2210.14868v3 ) ライセンス: Link先を確認 | Ben Athiwaratkun, Sanjay Krishna Gouda, Zijian Wang, Xiaopeng Li, Yuchen Tian, Ming Tan, Wasi Uddin Ahmad, Shiqi Wang, Qing Sun, Mingyue Shang, Sujan Kumar Gonugondla, Hantian Ding, Varun Kumar, Nathan Fulton, Arash Farahani, Siddhartha Jain, Robert Giaquinto, Haifeng Qian, Murali Krishna Ramanathan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang | (参考訳) 本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーし、元のPythonデータセットからターゲット言語の対応するデータにプロンプトとテストケースをトランスパイルするスケーラブルな変換フレームワークを使用して生成される。
これらのベンチマークを用いて、コード生成モデルの性能を多言語方式で評価し、ドメイン外言語における言語モデルの一般化能力、単言語に対する多言語モデルの利点、モデルに新しい言語を教えるための数ショットプロンプト能力、単言語環境においてもゼロショット翻訳能力を見出した。
さらに,コード生成モデルを用いて大規模ブートストラップを行い,コード挿入やロバスト性,要約タスクなどのコード関連評価に使用可能な,いくつかの言語における合成正準解を得る。
全体的に、私たちのベンチマークは、言語モデルのコード生成能力をより深く理解するための重要なステップを示しています。
コードとデータセットはhttps://github.com/amazon-research/mxeval.comで公開しています。 We present new benchmarks on evaluation code generation models: MBXP and Multilingual HumanEval, and MathQA-X. These datasets cover over 10 programming languages and are generated using a scalable conversion framework that transpiles prompts and test cases from the original Python datasets into the corresponding data in the target language. Using these benchmarks, we are able to assess the performance of code generation models in a multi-lingual fashion, and discovered generalization ability of language models on out-of-domain languages, advantages of multi-lingual models over mono-lingual, the ability of few-shot prompting to teach the model new languages, and zero-shot translation abilities even on mono-lingual settings. Furthermore, we use our code generation model to perform large-scale bootstrapping to obtain synthetic canonical solutions in several languages, which can be used for other code-related evaluations such as code insertion, robustness, or summarization tasks. Overall, our benchmarks represents a significant step towards a deeper understanding of language models' code generation abilities. We publicly release our code and datasets at https://github.com/amazon-research/mxeval. | 翻訳日:2023-03-30 18:34:33 公開日:2023-03-28 |
# FLEX:フルボディグラスなしフルボディグラス FLEX: Full-Body Grasping Without Full-Body Grasps ( http://arxiv.org/abs/2211.11903v2 ) ライセンス: Link先を確認 | Purva Tendulkar and D\'idac Sur\'is and Carl Vondrick | (参考訳) シーンとリアルに対話する3dアバターの合成は、ar/vr、ビデオゲーム、ロボット工学のアプリケーションにとって重要な問題である。
この目標に向けて、私たちは仮想的な人間 -- 手と全身 -- が日常の物体をつかむタスクに対処します。
既存の手法では、オブジェクトと対話する人間の3Dデータセットを収集し、このデータをトレーニングすることでこの問題に対処する。
しかし、
1)これらの方法は,異なる対象の位置や方向,又は場面における家具の存在に一般化しない。
2) 生成する全身ポーズの多様性は極めて限定的である。
本研究は,3次元フルボディグリーティングデータを必要とせずに,現実的で多様なフルボディグリーティングを日常のシーンで生成する上での課題に対処する。
私たちの重要な洞察は、フルボディポーズとハンドグラブ前後の両方の存在を活用し、それらを3次元幾何学的制約を用いて構成し、フルボディグラブを得ることである。
我々は,これらの制約が,定量的にも定性的にも基準線よりも優れた,多種多様な人間の握力を生み出すことを実証的に検証した。
詳細は、私たちのWebページを参照してください。 Synthesizing 3D human avatars interacting realistically with a scene is an important problem with applications in AR/VR, video games and robotics. Towards this goal, we address the task of generating a virtual human -- hands and full body -- grasping everyday objects. Existing methods approach this problem by collecting a 3D dataset of humans interacting with objects and training on this data. However, 1) these methods do not generalize to different object positions and orientations, or to the presence of furniture in the scene, and 2) the diversity of their generated full-body poses is very limited. In this work, we address all the above challenges to generate realistic, diverse full-body grasps in everyday scenes without requiring any 3D full-body grasping data. Our key insight is to leverage the existence of both full-body pose and hand grasping priors, composing them using 3D geometrical constraints to obtain full-body grasps. We empirically validate that these constraints can generate a variety of feasible human grasps that are superior to baselines both quantitatively and qualitatively. See our webpage for more details: https://flex.cs.columbia.edu/. | 翻訳日:2023-03-30 18:26:37 公開日:2023-03-28 |
# CRAFT: 説明可能性のための再帰的活性化FacTorization CRAFT: Concept Recursive Activation FacTorization for Explainability ( http://arxiv.org/abs/2211.10154v2 ) ライセンス: Link先を確認 | Thomas Fel, Agustin Picard, Louis Bethune, Thibaut Boissin, David Vigouroux, Julien Colin, R\'emi Cad\`ene, Thomas Serre | (参考訳) モデル決定に影響を及ぼす画像の最も影響力のある領域を特定するためにヒートマップを使用する帰属法が、説明可能性のタイプとして広く普及している。
しかし、最近の研究では、これらの方法の限られた実用的価値が露呈されている。その一部は、画像の最も顕著な領域に焦点を絞っている -- モデルが「どこに」見えるかを明確にするが、その領域でモデルが見る「何」を解明できないためである。本研究では、このギャップをcraftで埋めようとしている。これは概念に基づく説明を生成することで「何」と「どこ」の両方を識別する新しいアプローチである。
自動概念抽出文献に新しい3つの要素を紹介する。
(i)レイヤ間の概念を検出し分解する再帰的戦略。
(ii)sobolインデックスを用いた概念重要度をより忠実に推定するための新しい方法
(三)概念属性マップのアンロックに暗黙の差別を用いること。
提案手法の利点を実証するために,人間とコンピュータの視覚実験を行った。
提案手法は,従来の手法よりもモデルに忠実であることを示す。
人間中心の実用ベンチマークで人間実験者の有用性を評価すると、3つのテストシナリオのうち2つで、このアプローチが大幅に改善することがわかった。
私たちのコードはgithub.com/deel-ai/Craftで無料で利用できます。 Attribution methods, which employ heatmaps to identify the most influential regions of an image that impact model decisions, have gained widespread popularity as a type of explainability method. However, recent research has exposed the limited practical value of these methods, attributed in part to their narrow focus on the most prominent regions of an image -- revealing "where" the model looks, but failing to elucidate "what" the model sees in those areas. In this work, we try to fill in this gap with CRAFT -- a novel approach to identify both "what" and "where" by generating concept-based explanations. We introduce 3 new ingredients to the automatic concept extraction literature: (i) a recursive strategy to detect and decompose concepts across layers, (ii) a novel method for a more faithful estimation of concept importance using Sobol indices, and (iii) the use of implicit differentiation to unlock Concept Attribution Maps. We conduct both human and computer vision experiments to demonstrate the benefits of the proposed approach. We show that the proposed concept importance estimation technique is more faithful to the model than previous methods. When evaluating the usefulness of the method for human experimenters on a human-centered utility benchmark, we find that our approach significantly improves on two of the three test scenarios. Our code is freely available at github.com/deel-ai/Craft. | 翻訳日:2023-03-30 18:25:29 公開日:2023-03-28 |
# VGFlow: 可視性誘導型リポジショニングのためのフローネットワーク VGFlow: Visibility guided Flow Network for Human Reposing ( http://arxiv.org/abs/2211.08540v4 ) ライセンス: Link先を確認 | Rishabh Jain, Krishna Kumar Singh, Mayur Hemani, Jingwan Lu, Mausoom Sarkar, Duygu Ceylan, Balaji Krishnamurthy | (参考訳) 人間の再現のタスクは、任意の知覚可能なポーズで立っている人の現実的なイメージを生成することである。
知覚的に正確な画像を生成するには複数の困難があり、既存の方法はテクスチャの保存、パターンコヒーレンス維持、布の境界の尊重、オクルージョンの扱い、皮膚生成の操作などの制限に悩まされている。
これらの困難は、人間のポーズ指向の可能な空間が大きくて可変であり、衣料品の性質は非常に非剛性であり、身体形状の多様性は人口によって大きく異なるという事実によってさらに悪化する。
これらの困難を緩和し、知覚的精度の高い画像を合成するために、VGFlowを提案する。
本モデルでは,視認性制御フローモジュールを用いて,ターゲットの可視・視認性を分離し,テクスチャ保存とスタイル操作を同時に行う。
さらに,異なる体型に取り組み,ネットワークアーティファクトを回避するために,自己教師付きパッチワイズによる「リアルネス」損失を取り入れ,出力を改善する。
VGFlowは、画像品質の指標(SSIM、LPIPS、FID)の質的、定量的に観察される最先端の結果を達成する。 The task of human reposing involves generating a realistic image of a person standing in an arbitrary conceivable pose. There are multiple difficulties in generating perceptually accurate images, and existing methods suffer from limitations in preserving texture, maintaining pattern coherence, respecting cloth boundaries, handling occlusions, manipulating skin generation, etc. These difficulties are further exacerbated by the fact that the possible space of pose orientation for humans is large and variable, the nature of clothing items is highly non-rigid, and the diversity in body shape differs largely among the population. To alleviate these difficulties and synthesize perceptually accurate images, we propose VGFlow. Our model uses a visibility-guided flow module to disentangle the flow into visible and invisible parts of the target for simultaneous texture preservation and style manipulation. Furthermore, to tackle distinct body shapes and avoid network artifacts, we also incorporate a self-supervised patch-wise "realness" loss to improve the output. VGFlow achieves state-of-the-art results as observed qualitatively and quantitatively on different image quality metrics (SSIM, LPIPS, FID). | 翻訳日:2023-03-30 18:24:41 公開日:2023-03-28 |
# slicematch:クロスビューポーズ推定のための幾何誘導アグリゲーション SliceMatch: Geometry-guided Aggregation for Cross-View Pose Estimation ( http://arxiv.org/abs/2211.14651v3 ) ライセンス: Link先を確認 | Ted Lentsch, Zimin Xia, Holger Caesar, Julian F. P. Kooij | (参考訳) 本研究は、局地画像の3Degrees-of-Freedomカメラポーズ、すなわち局所領域の空中画像の3Degrees-of-Freedomカメラポーズを判定するクロスビューカメラポーズ推定に対処する。
本研究では,地上および空中の特徴抽出器,特徴集約器,ポーズ予測器からなるSliceMatchを提案する。
特徴抽出器は、地上および空中画像から密集した特徴を抽出する。
候補となるカメラのポーズのセットが与えられたとき、フィーチャーアグリゲータは1つのグラウンドディスクリプタとポーズ依存の空中ディスクリプタを構成する。
特に,新しい空中機能アグリゲータは,地上視点誘導空中特徴選択のためのクロスビューアテンションモジュールを備え,地上画像における地上カメラの視聴フラスタムの幾何学的投影を利用して特徴をプールする。
航空ディスクリプタの効率的な構築は、事前に計算されたマスクを用いて達成される。
SliceMatchは対照的な学習を用いて訓練され、地上記述子と空中記述子との類似性比較としてポーズ推定が定式化される。
最先端と比較してslicematchは、同じvgg16バックボーンを毎秒150フレーム、resnet50バックボーンを使用する場合のエラーを50%削減して、vigorベンチマークで中央値のローカライズエラーを19%低減する。 This work addresses cross-view camera pose estimation, i.e., determining the 3-Degrees-of-Freedom camera pose of a given ground-level image w.r.t. an aerial image of the local area. We propose SliceMatch, which consists of ground and aerial feature extractors, feature aggregators, and a pose predictor. The feature extractors extract dense features from the ground and aerial images. Given a set of candidate camera poses, the feature aggregators construct a single ground descriptor and a set of pose-dependent aerial descriptors. Notably, our novel aerial feature aggregator has a cross-view attention module for ground-view guided aerial feature selection and utilizes the geometric projection of the ground camera's viewing frustum on the aerial image to pool features. The efficient construction of aerial descriptors is achieved using precomputed masks. SliceMatch is trained using contrastive learning and pose estimation is formulated as a similarity comparison between the ground descriptor and the aerial descriptors. Compared to the state-of-the-art, SliceMatch achieves a 19% lower median localization error on the VIGOR benchmark using the same VGG16 backbone at 150 frames per second, and a 50% lower error when using a ResNet50 backbone. | 翻訳日:2023-03-30 18:16:36 公開日:2023-03-28 |
# 非連続学習によるリンク予測 Link Prediction with Non-Contrastive Learning ( http://arxiv.org/abs/2211.14394v2 ) ライセンス: Link先を確認 | William Shiao, Zhichun Guo, Tong Zhao, Evangelos E. Papalexakis, Yozen Liu, Neil Shah | (参考訳) グラフニューラルネットワーク(GNN)の空間における最近の焦点領域は、ラベル付きデータなしで有用なノード表現を導出することを目的としたグラフ自己教師型学習(SSL)である。
特に、最先端のグラフSSLメソッドの多くは、正と負のサンプルを組み合わせてノード表現を学習するコントラスト的手法である。
負のサンプリング(スローネスとモデル感度)の課題のため、最近の文献では非競合的手法を導入し、代わりに正のサンプルのみを使用した。
このような手法はノードレベルのタスクで有望な性能を示すが、ノードのペア間のリンク存在の予測(およびレコメンデーションシステムコンテキストへの幅広い適用性)にかかわるリンク予測タスクへの適合性はまだ未解明である。
本研究では,トランスダクティブ設定とインダクティブ設定の両方において,リンク予測のための既存の非連続的手法の性能を広範囲に評価する。
既存の非推移的手法のほとんどは全体的な性能が悪いが、驚くべきことに、bgrlは一般的にトランスダクティブな設定でよく機能する。
しかし、モデルが見当たらないノードへのリンクを一般化する必要がある、より現実的なインダクティブな設定ではうまく機能しない。
我々は、非矛盾モデルがトレーニンググラフに過剰に適合する傾向にあり、この分析を用いて、モデルの一般化能力を改善するために、安価な腐敗を組み込んだ新しい非矛盾フレームワークであるt-bgrlを提案する。
この単純な修正によって、データセットの5/6でのインダクティブパフォーマンスが大幅に向上し、Hits@50の最大120%の改善が、他の非コントラストベースラインと同等の速度で、最高のパフォーマンスのコントラストベースラインよりも最大14倍高速になった。
我々の研究は、リンク予測のための非コントラスト学習に関する興味深い知見を与え、将来研究者がこの領域をさらに拡大する道を開く。 A recent focal area in the space of graph neural networks (GNNs) is graph self-supervised learning (SSL), which aims to derive useful node representations without labeled data. Notably, many state-of-the-art graph SSL methods are contrastive methods, which use a combination of positive and negative samples to learn node representations. Owing to challenges in negative sampling (slowness and model sensitivity), recent literature introduced non-contrastive methods, which instead only use positive samples. Though such methods have shown promising performance in node-level tasks, their suitability for link prediction tasks, which are concerned with predicting link existence between pairs of nodes (and have broad applicability to recommendation systems contexts) is yet unexplored. In this work, we extensively evaluate the performance of existing non-contrastive methods for link prediction in both transductive and inductive settings. While most existing non-contrastive methods perform poorly overall, we find that, surprisingly, BGRL generally performs well in transductive settings. However, it performs poorly in the more realistic inductive settings where the model has to generalize to links to/from unseen nodes. We find that non-contrastive models tend to overfit to the training graph and use this analysis to propose T-BGRL, a novel non-contrastive framework that incorporates cheap corruptions to improve the generalization ability of the model. This simple modification strongly improves inductive performance in 5/6 of our datasets, with up to a 120% improvement in Hits@50--all with comparable speed to other non-contrastive baselines and up to 14x faster than the best-performing contrastive baseline. Our work imparts interesting findings about non-contrastive learning for link prediction and paves the way for future researchers to further expand upon this area. | 翻訳日:2023-03-30 18:16:10 公開日:2023-03-28 |
# マグネメカニクスを回避した動的バックアクション Dynamical Backaction Evading Magnomechanics ( http://arxiv.org/abs/2211.13766v3 ) ライセンス: Link先を確認 | C. A. Potts, Y. Huang, V. A. S. V Bittencourt, S. Viola Kusminskiy, J. P. Davis | (参考訳) マグノンと機械振動の相互作用は、機械振動子の周波数や減衰速度などの特性を動的に変化させる。
動的バックアクション(Dynamical backaction)として知られるこの効果は、絡み合い発生や機械的基底状態冷却などの多くの理論的プロトコルの基礎となっている。
しかし、動的バックアクションは特定の用途にも有害である。
本稿では,動的バックアクション効果を完全に回避するキャビティマグノメカニカル計測の実装を示す。
注意深いエンジニアリングにより、ハイブリッドマグノン光子モードへのマグノメカニカル散乱速度は正確に一致し、動的バックアクション減衰を排除できる。
駆動力非依存の機械的線幅の測定により、バックアクション回避が確認される。 The interaction between magnons and mechanical vibrations dynamically modify the properties of the mechanical oscillator, such as its frequency and decay rate. Known as dynamical backaction, this effect is the basis for many theoretical protocols, such as entanglement generation or mechanical ground-state cooling. However, dynamical backaction is also detrimental for specific applications. Here, we demonstrate the implementation of a cavity magnomechanical measurement that fully evades dynamical backaction effects. Through careful engineering, the magnomechanical scattering rate into the hybrid magnon-photon modes can be precisely matched, eliminating dynamical backaction damping. Backaction evasion is confirmed via the measurement of a drive-power-independent mechanical linewidth. | 翻訳日:2023-03-30 18:14:50 公開日:2023-03-28 |
# 自己教師型音声モデルの文脈認識微調整 Context-aware Fine-tuning of Self-supervised Speech Models ( http://arxiv.org/abs/2212.08542v2 ) ライセンス: Link先を確認 | Suwon Shon, Felix Wu, Kwangyoun Kim, Prashant Sridhar, Karen Livescu, Shinji Watanabe | (参考訳) 自己教師付き事前訓練型トランスフォーマーは、様々な音声タスクにおける技術状況を改善した。
自己アテンションの二次時間と空間複雑性のために、それらは通常比較的短いセグメント(例えば発話)のレベルで作用する。
本稿では, ファインチューニングにおけるコンテキスト, 周辺セグメントの利用について検討し, コンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
事前学習したモデルの最後のレイヤの上にコンテキストモジュールをアタッチして、セグメント全体をコンテキスト埋め込みベクトルにエンコードし、最終予測のための追加機能として使用します。
微調整の段階では、このコンテキスト埋め込みベクトルを周囲のセグメントのコンテキストベクトルに類似させる補助的損失を導入する。
これにより、モデルが推論時にこれらの周辺セグメントにアクセスせずに予測を行うことができ、標準の微調整モデルに比べてほんの少しのオーバーヘッドしか必要としない。
SLUE と Libri-light のベンチマークを用いて,音声認識 (ASR), 名前付きエンティティ認識 (NER), 感情分析 (SA) の4つのダウンストリームタスクに対して提案手法を評価する。
その結果、文脈認識による微調整は、標準的な微調整ベースラインを上回るだけでなく、推論中に隣接する音声セグメントを使用する強い文脈注入ベースラインと競合することがわかった。 Self-supervised pre-trained transformers have improved the state of the art on a variety of speech tasks. Due to the quadratic time and space complexity of self-attention, they usually operate at the level of relatively short (e.g., utterance) segments. In this paper, we study the use of context, i.e., surrounding segments, during fine-tuning and propose a new approach called context-aware fine-tuning. We attach a context module on top of the last layer of a pre-trained model to encode the whole segment into a context embedding vector which is then used as an additional feature for the final prediction. During the fine-tuning stage, we introduce an auxiliary loss that encourages this context embedding vector to be similar to context vectors of surrounding segments. This allows the model to make predictions without access to these surrounding segments at inference time and requires only a tiny overhead compared to standard fine-tuned models. We evaluate the proposed approach using the SLUE and Libri-light benchmarks for several downstream tasks: Automatic speech recognition (ASR), named entity recognition (NER), and sentiment analysis (SA). The results show that context-aware fine-tuning not only outperforms a standard fine-tuning baseline but also rivals a strong context injection baseline that uses neighboring speech segments during inference. | 翻訳日:2023-03-30 18:07:14 公開日:2023-03-28 |
# GazeNeRF:ニューラルラジアンス場を用いた3次元視線リダイレクト GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields ( http://arxiv.org/abs/2212.04823v2 ) ライセンス: Link先を確認 | Alessandro Ruzzi, Xiangwei Shi, Xi Wang, Gengyan Li, Shalini De Mello, Hyung Jin Chang, Xucong Zhang, Otmar Hilliges | (参考訳) 視線リダイレクトのための3D認識手法であるGazeNeRFを提案する。
既存の視線リダイレクト法は2次元画像上で動作し、3次元一貫した結果を生成するのに苦労する。
その代わり、顔領域と眼球は3D構造であり、協調しているが独立して動くという直感に基づいている。
本手法は条件付き画像ベースニューラルラジアンスフィールドの最近の進歩を活用し,顔領域と眼領域の体積特性を別々に予測する2ストリームアーキテクチャを提案する。
3次元回転行列によって目の特徴を巧みに変換することで、所望の視角をきめ細かな制御が可能となる。
そして、最終的なリダイレクト画像は、微分可能なボリューム合成によって達成される。
実験の結果, この構造は, 鼻条件のNeRFベースラインと, 従来の2次元視線リダイレクト法を, リダイレクト精度とアイデンティティ保存の観点から上回ることがわかった。 We propose GazeNeRF, a 3D-aware method for the task of gaze redirection. Existing gaze redirection methods operate on 2D images and struggle to generate 3D consistent results. Instead, we build on the intuition that the face region and eyeballs are separate 3D structures that move in a coordinated yet independent fashion. Our method leverages recent advancements in conditional image-based neural radiance fields and proposes a two-stream architecture that predicts volumetric features for the face and eye regions separately. Rigidly transforming the eye features via a 3D rotation matrix provides fine-grained control over the desired gaze angle. The final, redirected image is then attained via differentiable volume compositing. Our experiments show that this architecture outperforms naively conditioned NeRF baselines as well as previous state-of-the-art 2D gaze redirection methods in terms of redirection accuracy and identity preservation. | 翻訳日:2023-03-30 18:05:15 公開日:2023-03-28 |
# Jaccard Metric Losses: ソフトラベルによるJaccard Indexの最適化 Jaccard Metric Losses: Optimizing the Jaccard Index with Soft Labels ( http://arxiv.org/abs/2302.05666v2 ) ライセンス: Link先を確認 | Zifu Wang and Matthew B. Blaschko | (参考訳) IoU損失はJaccardインデックスを直接最適化するサロゲートである。
セグメンテーションにおいて、損失関数の一部としてIoU損失を活用することは、クロスエントロピー損失のみのような画素単位の損失を最適化するよりも、ジャカード指数測度に関して優れていることを示す。
IoUの最大の損失は、ソフトなジャカードの損失とロバスツ・ソフトマックスの損失である。
しかし、これらの損失は機械学習においてユビキタスなソフトラベルとは相容れない。
本稿では、ハードラベルの標準設定において、ソフトなジャカード損失と同一であるがソフトなラベルと互換性のあるジャカード計量損失(JML)を提案する。
JMLでは,ラベルスムース化と知識蒸留という,ソフトラベルの最も一般的な2つのユースケースについて検討した。
様々なアーキテクチャを用いて,3つの意味セグメンテーションデータセット (cityscapes, pascal voc, deepglobe land) におけるクロスエントロピー損失を大幅に改善した。
コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。 IoU losses are surrogates that directly optimize the Jaccard index. In semantic segmentation, leveraging IoU losses as part of the loss function is shown to perform better with respect to the Jaccard index measure than optimizing pixel-wise losses such as the cross-entropy loss alone. The most notable IoU losses are the soft Jaccard loss and the Lovasz-Softmax loss. However, these losses are incompatible with soft labels which are ubiquitous in machine learning. In this paper, we propose Jaccard metric losses (JMLs), which are identical to the soft Jaccard loss in a standard setting with hard labels, but are compatible with soft labels. With JMLs, we study two of the most popular use cases of soft labels: label smoothing and knowledge distillation. With a variety of architectures, our experiments show significant improvements over the cross-entropy loss on three semantic segmentation datasets (Cityscapes, PASCAL VOC and DeepGlobe Land), and our simple approach outperforms state-of-the-art knowledge distillation methods by a large margin. Code is available at: \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}. | 翻訳日:2023-03-30 17:59:03 公開日:2023-03-28 |
# hac-net:高精度タンパク質結合親和性予測のための注意型畳み込みニューラルネットワーク HAC-Net: A Hybrid Attention-Based Convolutional Neural Network for Highly Accurate Protein-Ligand Binding Affinity Prediction ( http://arxiv.org/abs/2212.12440v4 ) ライセンス: Link先を確認 | Gregory W. Kyro, Rafael I. Brent, Victor S. Batista | (参考訳) 画像検出とグラフ理論から深層学習の概念を適用することで、タンパク質-リガンド結合親和性予測が大幅に進歩し、薬物の発見とタンパク質工学の両方に多大な影響がもたらされた。
本研究では,チャネルワイズを利用した3次元畳み込みニューラルネットワークと,ノード特徴のアグリゲーションを利用した2つのグラフ畳み込みネットワークからなる,新しいディープラーニングアーキテクチャを設計することによって,これらの進歩の上に構築する。
HAC-Net(Hybrid Attention-Based Convolutional Neural Network)は、PDBbind v.2016コアセットの最先端の結果を得る。
実験と試験セットにおける複合体のタンパク質構造,タンパク質配列,リガンド拡張結合性指紋の差を最大化する複数の試験分割を用いて,我々のモデルの一般化可能性を評価する。
さらに、トレーニングおよびテストセットにおいて、SMILES文字列間の類似性の遮断を施した10倍のクロスバリデーションを行い、低品質データ上でのHAC-Netの性能を評価する。
我々は,このモデルを,構造に基づく生体分子特性予測に関連する幅広い教師付き学習問題に拡張できると考えている。
すべてのソフトウェアはhttps://github.com/gregory-kyro/HAC-Net/でオープンソースとして公開されています。 Applying deep learning concepts from image detection and graph theory has greatly advanced protein-ligand binding affinity prediction, a challenge with enormous ramifications for both drug discovery and protein engineering. We build upon these advances by designing a novel deep learning architecture consisting of a 3-dimensional convolutional neural network utilizing channel-wise attention and two graph convolutional networks utilizing attention-based aggregation of node features. HAC-Net (Hybrid Attention-Based Convolutional Neural Network) obtains state-of-the-art results on the PDBbind v.2016 core set, the most widely recognized benchmark in the field. We extensively assess the generalizability of our model using multiple train-test splits, each of which maximizes differences between either protein structures, protein sequences, or ligand extended-connectivity fingerprints of complexes in the training and test sets. Furthermore, we perform 10-fold cross-validation with a similarity cutoff between SMILES strings of ligands in the training and test sets, and also evaluate the performance of HAC-Net on lower-quality data. We envision that this model can be extended to a broad range of supervised learning problems related to structure-based biomolecular property prediction. All of our software is available as open source at https://github.com/gregory-kyro/HAC-Net/, and the HACNet Python package is available through PyPI. | 翻訳日:2023-03-30 17:57:12 公開日:2023-03-28 |
# 決定論的不確実性手法の訓練, アーキテクチャ, 事前 Training, Architecture, and Prior for Deterministic Uncertainty Methods ( http://arxiv.org/abs/2303.05796v2 ) ライセンス: Link先を確認 | Bertrand Charpentier, Chenxiang Zhang, Stephan G\"unnemann | (参考訳) 信頼性の高い機械学習(ml)モデルを構築するには、正確で効率的な不確実性推定が不可欠であり、不確実性を校正し、分散(ood)データセットを一般化し、検出することができる。
この目的のために、決定論的不確実性法(dums)は、1回のフォワードパスで不確実性推定を行う有望なモデルファミリである。
本研究は,DUMにおける重要な設計選択について考察する。(1)コアアーキテクチャと不確実性ヘッドを分離したトレーニングスキームは,不確実性性能を大幅に改善できることを示す。
2) コアアーキテクチャ表現性は不確実性向上に不可欠であり, 機能崩壊を避けるためのアーキテクチャ制約がOODの一般化と検出のトレードオフを悪化させる可能性があることを示す。
(3) 他のベイズモデルとは対照的に, DUM が定義した事前定義が最終性能に強い影響を及ぼさないことを示す。 Accurate and efficient uncertainty estimation is crucial to build reliable Machine Learning (ML) models capable to provide calibrated uncertainty estimates, generalize and detect Out-Of-Distribution (OOD) datasets. To this end, Deterministic Uncertainty Methods (DUMs) is a promising model family capable to perform uncertainty estimation in a single forward pass. This work investigates important design choices in DUMs: (1) we show that training schemes decoupling the core architecture and the uncertainty head schemes can significantly improve uncertainty performances. (2) we demonstrate that the core architecture expressiveness is crucial for uncertainty performance and that additional architecture constraints to avoid feature collapse can deteriorate the trade-off between OOD generalization and detection. (3) Contrary to other Bayesian models, we show that the prior defined by DUMs do not have a strong effect on the final performances. | 翻訳日:2023-03-30 17:38:34 公開日:2023-03-28 |
# 直接反復によるインバージョン:画像復元における拡散の代替 Inversion by Direct Iteration: An Alternative to Denoising Diffusion for Image Restoration ( http://arxiv.org/abs/2303.11435v2 ) ライセンス: Link先を確認 | Mauricio Delbracio and Peyman Milanfar | (参考訳) inversion by direct iteration (indi) は、いわゆる ‘regression to the mean' 効果を回避し、既存の回帰ベースの方法よりもリアルで詳細な画像を生成する、教師あり画像復元の新しい定式化である。
これは、生成的ノイズ拡散モデルと同様に、小さなステップで画像品質を徐々に改善することで実現している。
画像復元は、複数の高品質画像が与えられた低品質入力を再現できるような不適切な問題である。
したがって、単一の段階回帰モデルの結果は、通常、全ての可能な説明の集まりであり、したがって詳細と現実主義を欠いている。
InDIの主な利点は、単一のステップでクリーンなターゲット画像を予測するのではなく、小さなステップで徐々に画像を改善し、知覚的品質を向上させることである。
生成的減数化拡散モデルも小さなステップで作用するが、この定式化は分解過程の分析形式に関する知識を必要としないという点で異なる。
代わりに、低品質で高品質なペアリング例から反復的な復元プロセスを直接学習します。
InDIは、ペアのトレーニングデータから、事実上どんな画像劣化にも適用できる。
条件付き復調拡散画像復元において、劣化した入力に基づいて条件付き純雑音の初期画像を繰り返し復調して復調した画像を生成する。
条件付きデノージングの定式化とは対照的に、indiは入力された低品質の画像を反復的に復元し、動きや焦点外デブローリング、超解像、圧縮アーティファクト除去、デノージングなど様々な画像復元タスクで高品質な結果を生成することで直接進行する。 Inversion by Direct Iteration (InDI) is a new formulation for supervised image restoration that avoids the so-called ``regression to the mean'' effect and produces more realistic and detailed images than existing regression-based methods. It does this by gradually improving image quality in small steps, similar to generative denoising diffusion models. Image restoration is an ill-posed problem where multiple high-quality images are plausible reconstructions of a given low-quality input. Therefore, the outcome of a single step regression model is typically an aggregate of all possible explanations, therefore lacking details and realism. The main advantage of InDI is that it does not try to predict the clean target image in a single step but instead gradually improves the image in small steps, resulting in better perceptual quality. While generative denoising diffusion models also work in small steps, our formulation is distinct in that it does not require knowledge of any analytic form of the degradation process. Instead, we directly learn an iterative restoration process from low-quality and high-quality paired examples. InDI can be applied to virtually any image degradation, given paired training data. In conditional denoising diffusion image restoration the denoising network generates the restored image by repeatedly denoising an initial image of pure noise, conditioned on the degraded input. Contrary to conditional denoising formulations, InDI directly proceeds by iteratively restoring the input low-quality image, producing high-quality results on a variety of image restoration tasks, including motion and out-of-focus deblurring, super-resolution, compression artifact removal, and denoising. | 翻訳日:2023-03-30 17:30:12 公開日:2023-03-28 |
# NAISR: 解釈可能な形状表現のための3次元ニューラル付加モデル NAISR: A 3D Neural Additive Model for Interpretable Shape Representation ( http://arxiv.org/abs/2303.09234v3 ) ライセンス: Link先を確認 | Yining Jiao, Carlton Zdanski, Julia Kimbell, Andrew Prince, Cameron Worden, Samuel Kirse, Christopher Rutter, Benjamin Shields, William Dunn, Jisan Mahmud, Marc Niethammer | (参考訳) 深暗黙の関数(DIF)は、3次元形状の再構成、生成、登録、完了、編集、理解といった多くのコンピュータビジョンタスクの強力なパラダイムとして登場した。
しかし、関連する共変量を持つ一連の3次元形状が与えられると、各共変量に対する個々の依存を捉えながら正確に形状を表現できる形状表現法は存在しない。
このような手法は、形状の集団に隠された知識を発見する研究者にとって有用である。
直交共変量の影響に応じて形状アトラスを変形させることにより個々の形状を記述した3次元ニューラル付加モデル(NAISR)を提案する。
このアプローチは形状人口の傾向を捉え、形状伝達を通じて患者固有の予測を可能にする。
NAISRは、深い暗黙の形状表現の利点を特定の共変量に従って変形するアトラスと組み合わせる最初のアプローチである。
我々の運転問題は気道アトラスの構築であるが、AISRは形状の個体群をモデル化し、表現し、調査するための一般的なアプローチである。
小児上気道の形状再構成, 形状異方性, 形状変化, 形状移動について, NAISRを評価した。
実験により,NAAISRは解釈可能性を維持しながら,競争力のある形状復元性能を実現することを示した。 Deep implicit functions (DIFs) have emerged as a powerful paradigm for many computer vision tasks such as 3D shape reconstruction, generation, registration, completion, editing, and understanding. However, given a set of 3D shapes with associated covariates there is at present no shape representation method which allows to precisely represent the shapes while capturing the individual dependencies on each covariate. Such a method would be of high utility to researchers to discover knowledge hidden in a population of shapes. We propose a 3D Neural Additive Model for Interpretable Shape Representation (NAISR) which describes individual shapes by deforming a shape atlas in accordance to the effect of disentangled covariates. Our approach captures shape population trends and allows for patient-specific predictions through shape transfer. NAISR is the first approach to combine the benefits of deep implicit shape representations with an atlas deforming according to specified covariates. Although our driving problem is the construction of an airway atlas, NAISR is a general approach for modeling, representing, and investigating shape populations. We evaluate NAISR with respect to shape reconstruction, shape disentanglement, shape evolution, and shape transfer for the pediatric upper airway. Our experiments demonstrate that NAISR achieves competitive shape reconstruction performance while retaining interpretability. | 翻訳日:2023-03-30 17:28:04 公開日:2023-03-28 |
# 多出力回帰タスクにおける深いアンサンブルによる校正不確かさの定量化に向けて Towards Quantifying Calibrated Uncertainty via Deep Ensembles in Multi-output Regression Task ( http://arxiv.org/abs/2303.16210v1 ) ライセンス: Link先を確認 | Sunwoong Yang, Kwanjung Yee | (参考訳) ディープアンサンブルはベイズ推論を近似するための単純で単純なアプローチであり、多くの分類タスクにうまく適用されている。
本研究の目的は、多出力回帰タスクにおけるこのアプローチを包括的に検討し、ミサイル構成の空力性能を予測することである。
アンサンブルで使用されるニューラルネットワークの数の影響を精査することにより、推定不確実性における自信不足に対する明らかな傾向が観察される。
本研究では,ポストホック校正法を適用した深層アンサンブルフレームワークを提案し,その不確実性定量化性能の向上を実証する。
工学における不確実性定量化の最も一般的なモデルであるガウス過程回帰と比較され、回帰精度、推定不確実性の信頼性、訓練効率において優れた性能を持つことが証明されている。
最後に,提案手法がベイズ最適化の結果に及ぼす影響について検討し,深部アンサンブルが校正されるか否かが全く異なる探査特性をもたらすことを示した。
このフレームワークは、この研究で使われる特定の問題に対して特別な仮定がなされていないため、任意の回帰タスクにシームレスに適用および拡張することができる。 Deep ensemble is a simple and straightforward approach for approximating Bayesian inference and has been successfully applied to many classification tasks. This study aims to comprehensively investigate this approach in the multi-output regression task to predict the aerodynamic performance of a missile configuration. By scrutinizing the effect of the number of neural networks used in the ensemble, an obvious trend toward underconfidence in estimated uncertainty is observed. In this context, we propose the deep ensemble framework that applies the post-hoc calibration method, and its improved uncertainty quantification performance is demonstrated. It is compared with Gaussian process regression, the most prevalent model for uncertainty quantification in engineering, and is proven to have superior performance in terms of regression accuracy, reliability of estimated uncertainty, and training efficiency. Finally, the impact of the suggested framework on the results of Bayesian optimization is examined, showing that whether or not the deep ensemble is calibrated can result in completely different exploration characteristics. This framework can be seamlessly applied and extended to any regression task, as no special assumptions have been made for the specific problem used in this study. | 翻訳日:2023-03-30 17:22:53 公開日:2023-03-28 |
# アクティブサンプリングを用いた病理組織学におけるデータ効率の良いコントラスト学習 Data Efficient Contrastive Learning in Histopatholgy using Active Sampling ( http://arxiv.org/abs/2303.16247v1 ) ライセンス: Link先を確認 | Tahsin Reasat and David S. Smith | (参考訳) ディープラーニングに基づく診断システムは、デジタル病理学において正確で堅牢な定量的分析を提供することができる。
これらのアルゴリズムの訓練には大量の注釈データが必要であり、病理組織像の分解能が高いため、病理学では非現実的である。
そこで,アドホックなプレテキストタスクを用いて特徴を学習するための自己指導手法が提案されている。
自己教師型トレーニングプロセスは時間がかかり、学習した特徴空間、特にデータ不均衡の下で顕著な制約が欠如しているため、しばしばサブパー機能表現につながる。
本研究では,少数のラベルと小さなプロキシネットワークを用いてトレーニングセットを積極的にサンプリングし,サンプル要求を93%削減し,トレーニング時間を99%削減することを提案する。 Deep Learning based diagnostics systems can provide accurate and robust quantitative analysis in digital pathology. Training these algorithms requires large amounts of annotated data which is impractical in pathology due to the high resolution of histopathological images. Hence, self-supervised methods have been proposed to learn features using ad-hoc pretext tasks. The self-supervised training process is time consuming and often leads to subpar feature representation due to a lack of constrain on the learnt feature space, particularly prominent under data imbalance. In this work, we propose to actively sample the training set using a handful of labels and a small proxy network, decreasing sample requirement by 93% and training time by 99%. | 翻訳日:2023-03-30 17:11:49 公開日:2023-03-28 |
# ytopt:大規模エネルギー効率のための科学応用の自動化 ytopt: Autotuning Scientific Applications for Energy Efficiency at Large Scales ( http://arxiv.org/abs/2303.16245v1 ) ライセンス: Link先を確認 | Xingfu Wu, Prasanna Balaprakash, Michael Kruse, Jaehoon Koo, Brice Videau, Paul Hovland, Valerie Taylor, Brad Geltz, Siddhartha Jana, and Mary Hall | (参考訳) エクサスケールコンピューティング時代に入るにつれて、電力とエネルギーの制約の下での科学応用の効率と性能の最適化が重要かつ困難になっている。
本稿では,多種多様なハイブリッドMPI/OpenMP科学アプリケーションの性能とエネルギを大規模に自動チューニングする低オーバーヘッド自動チューニングフレームワークを提案し,アプリケーションランタイムと省エネアプリケーション実行のパワー/エネルギのトレードオフを探索し,このフレームワークを用いて4つのECPプロキシアプリケーション(XSBench,AMG,SWFFT,SW4lite)を自動チューニングする。
本手法は,ランダムフォレストサーロゲートモデルを用いたベイズ最適化を用いて,アルゴンヌ国立研究所のthetaとオークリッジ国立研究所のsummitという2つの大規模生産システム上で,600万以上の異なる構成のパラメータ空間を効果的に探索する。
実験の結果,大規模自動チューニングフレームワークのオーバーヘッドは低く,スケーラビリティも良好であることが判明した。
提案する自動チューニングフレームワークを用いて、最大91.59%のパフォーマンス改善、最大21.2%の省エネ、最大4,096ノードでの37.84%のedp改善を実現しました。 As we enter the exascale computing era, efficiently utilizing power and optimizing the performance of scientific applications under power and energy constraints has become critical and challenging. We propose a low-overhead autotuning framework to autotune performance and energy for various hybrid MPI/OpenMP scientific applications at large scales and to explore the tradeoffs between application runtime and power/energy for energy efficient application execution, then use this framework to autotune four ECP proxy applications -- XSBench, AMG, SWFFT, and SW4lite. Our approach uses Bayesian optimization with a Random Forest surrogate model to effectively search parameter spaces with up to 6 million different configurations on two large-scale production systems, Theta at Argonne National Laboratory and Summit at Oak Ridge National Laboratory. The experimental results show that our autotuning framework at large scales has low overhead and achieves good scalability. Using the proposed autotuning framework to identify the best configurations, we achieve up to 91.59% performance improvement, up to 21.2% energy savings, and up to 37.84% EDP improvement on up to 4,096 nodes. | 翻訳日:2023-03-30 17:11:37 公開日:2023-03-28 |
# OCL生成のためのコーデックスプロンプトエンジニアリングについて:実証的研究 On Codex Prompt Engineering for OCL Generation: An Empirical Study ( http://arxiv.org/abs/2303.16244v1 ) ライセンス: Link先を確認 | Seif Abukhalaf, Mohammad Hamdaqa, Foutse Khomh | (参考訳) Object Constraint Language (OCL)は、MOFモデルに制約とオブジェクトクエリ式を追加する宣言型言語である。
UMLモデルに精度と簡潔性を提供する可能性にもかかわらず、OCLの馴染みのない構文は採用を妨げる。
GPT-3のような最近のLCMの進歩は、意味解析やテキスト生成を含む多くのNLPタスクにおいてその能力を示している。
gpt-3の子孫であるcodexはgithubから公開されているコードで微調整されており、多くのプログラミング言語でコードを生成することができる。
自然言語仕様からCodexが生成するOCL制約の信頼性について検討する。
これを実現するために、15のUMLモデルと168の仕様のデータセットをコンパイルし、ゼロショットと少数ショットの両方の学習手法を用いて、UML情報とターゲットタスクを投入するためのスロット付きプロンプトテンプレートを作成しました。
生成したOCL制約の構文的妥当性と実行精度の測定により,UML情報によるプロンプトの充実と,少数ショット学習の実現により,生成されたOCL制約の信頼性が向上することを発見した。
さらに, 生成したOCL制約と人間による制約との文の埋め込みから, コーデックスによる生成したOCL制約の明快さと理解可能性のレベルを示唆する文との密接な類似性を明らかにした。 The Object Constraint Language (OCL) is a declarative language that adds constraints and object query expressions to MOF models. Despite its potential to provide precision and conciseness to UML models, the unfamiliar syntax of OCL has hindered its adoption. Recent advancements in LLMs, such as GPT-3, have shown their capability in many NLP tasks, including semantic parsing and text generation. Codex, a GPT-3 descendant, has been fine-tuned on publicly available code from GitHub and can generate code in many programming languages. We investigate the reliability of OCL constraints generated by Codex from natural language specifications. To achieve this, we compiled a dataset of 15 UML models and 168 specifications and crafted a prompt template with slots to populate with UML information and the target task, using both zero- and few-shot learning methods. By measuring the syntactic validity and execution accuracy metrics of the generated OCL constraints, we found that enriching the prompts with UML information and enabling few-shot learning increases the reliability of the generated OCL constraints. Furthermore, the results reveal a close similarity based on sentence embedding between the generated OCL constraints and the human-written ones in the ground truth, implying a level of clarity and understandability in the generated OCL constraints by Codex. | 翻訳日:2023-03-30 17:11:12 公開日:2023-03-28 |
# CuNeRF:Zero-Shot Medical Image Arbitrary-Scale Super Resolutionのための立方体型ニューラルネットワーク CuNeRF: Cube-Based Neural Radiance Field for Zero-Shot Medical Image Arbitrary-Scale Super Resolution ( http://arxiv.org/abs/2303.16242v1 ) ライセンス: Link先を確認 | Zixuan Chen, Jianhuang Lai, Lingxiao Yang, Xiaohua Xie | (参考訳) 医用画像任意スケール超解像 (MIASSR) が最近注目され, 任意のスケールの医用ボリュームを1つのモデルで測定することを目指している。
しかし、既存のMIASSRメソッドには2つの大きな制限がある。
(i)高分解能(HR)ボリュームに依存して
(ii)様々なシナリオでの応用を制限する一般化能力の制限。
これらの制限を克服するため、連続領域における任意のスケールと視点で医療画像を得ることができるゼロショットMIASSRフレームワークCuNeRF(Cue-based Neural Radiance Field)を提案する。
低分解能(LR)とHRボリュームのマッピングに適合する既存のMIASSR法とは異なり、CuNeRFはHR参照を必要とせずにLRボリュームから座標強度連続表現を構築することに焦点を当てている。
これは、キューブベースのサンプリング、等方性ボリュームレンダリング、キューブベースの階層的レンダリングを含む、提案された微分可能なモジュールによって達成される。
磁気リソースイメージング(MRI)とCTモダリティの広範な実験を通じて、CuNeRFは最先端MIASSR法より優れていることを示した。
CuNeRFは、より優れた視覚的Verisimilitudeをもたらし、様々なアップサンプリング要因におけるアーティファクトのエイリアスを低減する。
さらに、我々のCuNeRFはLR-HRトレーニングペアを一切必要とせず、他のものよりも柔軟で使いやすくなります。
私たちのコードはまもなく公開されます。 Medical image arbitrary-scale super-resolution (MIASSR) has recently gained widespread attention, aiming to super sample medical volumes at arbitrary scales via a single model. However, existing MIASSR methods face two major limitations: (i) reliance on high-resolution (HR) volumes and (ii) limited generalization ability, which restricts their application in various scenarios. To overcome these limitations, we propose Cube-based Neural Radiance Field (CuNeRF), a zero-shot MIASSR framework that can yield medical images at arbitrary scales and viewpoints in a continuous domain. Unlike existing MIASSR methods that fit the mapping between low-resolution (LR) and HR volumes, CuNeRF focuses on building a coordinate-intensity continuous representation from LR volumes without the need for HR references. This is achieved by the proposed differentiable modules: including cube-based sampling, isotropic volume rendering, and cube-based hierarchical rendering. Through extensive experiments on magnetic resource imaging (MRI) and computed tomography (CT) modalities, we demonstrate that CuNeRF outperforms state-of-the-art MIASSR methods. CuNeRF yields better visual verisimilitude and reduces aliasing artifacts at various upsampling factors. Moreover, our CuNeRF does not need any LR-HR training pairs, which is more flexible and easier to be used than others. Our code will be publicly available soon. | 翻訳日:2023-03-30 17:10:48 公開日:2023-03-28 |
# Batch Updating および/または Approximate Gradients を用いたモーメントベースヘビーボール法の収束性 Convergence of Momentum-Based Heavy Ball Method with Batch Updating and/or Approximate Gradients ( http://arxiv.org/abs/2303.16241v1 ) ライセンス: Link先を確認 | Tadipatri Uday Kiran Reddy and Mathukumalli Vidyasagar | (参考訳) 本稿では,1964年に polyak が導入した凸および非凸最適化のための有名な "heavy ball" 法について検討し,その収束を様々な状況下で確立する。
伝統的に、ほとんどのアルゴリズムは「完全なコーディネート更新(full-coordinate update)」を使用しており、各ステップにおいて、引数の非常に重要なコンポーネントが更新される。
しかし、引数の次元が非常に高い場合、各イテレーションで引数のすべてのコンポーネントを更新するよりも効率的である。
本論文では,これを"バッチ更新"と呼ぶ。
勾配に基づくアルゴリズムがバッチ更新と共に使用される場合、原則として、引数が更新される勾配のコンポーネントのみを計算するのに十分である。
しかし、これらのコンポーネントの計算にバックプロパゲーションのような手法を使用する場合、勾配のいくつかのコンポーネントのみを計算すれば、勾配全体の計算よりも多くの節約が得られない。
したがって、各ステップにおけるCPU使用量の顕著な削減を実現するため、勾配を近似するために一階差を用いることができる。
結果の見積もりは偏りがあり、非有界な分散も持つ。
したがって、完全座標更新の代わりにバッチ更新を使用する場合、hbアルゴリズムが収束することを保証するには、いくつかの微妙な解析が必要であり、真の勾配の代わりに近似勾配を用いる。
本稿では、目的関数の定常点への反復のほぼ確実な収束を確立するだけでなく、収束率の上限を導出する。
私たちの知る限りでは、これらの機能をすべて組み合わせた論文は他にありません。 In this paper, we study the well-known "Heavy Ball" method for convex and nonconvex optimization introduced by Polyak in 1964, and establish its convergence under a variety of situations. Traditionally, most algorthms use "full-coordinate update," that is, at each step, very component of the argument is updated. However, when the dimension of the argument is very high, it is more efficient to update some but not all components of the argument at each iteration. We refer to this as "batch updating" in this paper. When gradient-based algorithms are used together with batch updating, in principle it is sufficient to compute only those components of the gradient for which the argument is to be updated. However, if a method such as back propagation is used to compute these components, computing only some components of gradient does not offer much savings over computing the entire gradient. Therefore, to achieve a noticeable reduction in CPU usage at each step, one can use first-order differences to approximate the gradient. The resulting estimates are biased, and also have unbounded variance. Thus some delicate analysis is required to ensure that the HB algorithm converge when batch updating is used instead of full-coordinate updating, and/or approximate gradients are used instead of true gradients. In this paper, we not only establish the almost sure convergence of the iterations to the stationary point(s) of the objective function, but also derive upper bounds on the rate of convergence. To the best of our knowledge, there is no other paper that combines all of these features. | 翻訳日:2023-03-30 17:10:23 公開日:2023-03-28 |
# 野生の点雲に対する時空間自己教師学習 Spatiotemporal Self-supervised Learning for Point Clouds in the Wild ( http://arxiv.org/abs/2303.16235v1 ) ライセンス: Link先を確認 | Yanhao Wu, Tong Zhang, Wei Ke, Sabine S\"usstrunk, Mathieu Salzmann | (参考訳) 自己教師付き学習(ssl)は、多くのアプリケーション、特に手動でデータアノテートが面倒なアプリケーションに役立つ可能性がある。
そのような状況の1つは、点雲のセグメンテーションである。
この文脈では、既存の手法では対照的な学習戦略を採用し、1つのフレームで様々な点クラスタの強化を行うことで正のペアを定義する。
そのため、これらの手法はLiDARデータの時間的特性を生かしていない。
本稿では,空間領域と時間領域の両方で正のペアを利用するSSL戦略を提案する。
この目的のために、我々は設計する
(i)物体を識別するために空間情報を集約するクラスタ間学習戦略
(II)時間対応を利用した教師なしオブジェクト追跡に基づくクラスタ間学習戦略。
2つの大規模LiDARデータセット上で自己教師型トレーニングを行い、その結果モデルを他のポイントクラウドセグメンテーションベンチマークに転送することで、我々のアプローチの利点を実証する。
提案手法は最先端のクラウドSSL方式よりも優れていることを示す。 Self-supervised learning (SSL) has the potential to benefit many applications, particularly those where manually annotating data is cumbersome. One such situation is the semantic segmentation of point clouds. In this context, existing methods employ contrastive learning strategies and define positive pairs by performing various augmentation of point clusters in a single frame. As such, these methods do not exploit the temporal nature of LiDAR data. In this paper, we introduce an SSL strategy that leverages positive pairs in both the spatial and temporal domain. To this end, we design (i) a point-to-cluster learning strategy that aggregates spatial information to distinguish objects; and (ii) a cluster-to-cluster learning strategy based on unsupervised object tracking that exploits temporal correspondences. We demonstrate the benefits of our approach via extensive experiments performed by self-supervised training on two large-scale LiDAR datasets and transferring the resulting models to other point cloud segmentation benchmarks. Our results evidence that our method outperforms the state-of-the-art point cloud SSL methods. | 翻訳日:2023-03-30 17:09:57 公開日:2023-03-28 |
# 量子ガス顕微鏡による正弦-ゴードンモデルにおけるソリトンの作製と解析 Preparing and Analyzing Solitons in the sine-Gordon Model with Quantum Gas Microscopes ( http://arxiv.org/abs/2303.16221v1 ) ライセンス: Link先を確認 | Elisabeth Wybo, Alvise Bastianello, Monika Aidelsburger, Immanuel Bloch, Michael Knap | (参考訳) sine-Gordonモデルは、多くの量子多体系において低エネルギー理論として現れる。
ここでは, 強い反発相互作用を持つトンネル結合Bose-Hubbard鎖を, 量子状態の深いSine-Gordonモデルの実現として理論的に検討する。
超低温原子の量子ガス顕微鏡によるソリトンの生成と解析のためのプロトコルを提案する。
行列の積状態に基づく数値シミュレーションにより, 生成プロトコルと検出プロトコルを特徴付け, 実験要件を考察した。 The sine-Gordon model emerges as a low-energy theory in a plethora of quantum many-body systems. Here, we theoretically investigate tunnel-coupled Bose-Hubbard chains with strong repulsive interactions as a realization of the sine-Gordon model deep in the quantum regime. We propose protocols for quantum gas microscopes of ultracold atoms to prepare and analyze solitons, that are the fundamental topological excitations of the emergent sine-Gordon theory. With numerical simulations based on matrix product states we characterize the preparation and detection protocols and discuss the experimental requirements. | 翻訳日:2023-03-30 17:09:42 公開日:2023-03-28 |
# Tetra-AML: テンソルネットワークによる自動機械学習 Tetra-AML: Automatic Machine Learning via Tensor Networks ( http://arxiv.org/abs/2303.16214v1 ) ライセンス: Link先を確認 | A. Naumov, Ar. Melnikov, V. Abronin, F. Oxanichenko, K. Izmailov, M. Pflitsch, A. Melnikov, M. Perelshtein | (参考訳) ニューラルネットワークは社会の多くの側面に革命をもたらしたが、数十億のパラメータを持つ巨大なモデルの時代には、それらを商用アプリケーションに最適化し、デプロイするにはかなりの計算と財務資源が必要になる。
これらの課題に対処するために,独自のブラックボックスTensor Train OptimizationアルゴリズムであるTetraOptを用いて,ニューラルネットワーク検索とハイパーパラメータ最適化を自動化するTetra-AMLツールボックスを紹介した。
ツールボックスはまた、テンソルネットワークを使用した圧縮によって強化された量子化とプルーニングによるモデル圧縮も提供する。
本稿では、コンピュータビジョンタスクにおけるニューラルネットワーク最適化のための統一ベンチマークを分析し、cifar-10データセットにおけるベイズ最適化と比較して、我々のアプローチの優れた性能を示す。
また、resnet-18ニューラルネットワークの圧縮を実証し、わずか3.2%の精度を失わずに14.5倍のメモリを使用することを示した。
提示されたフレームワークは汎用的で、コンピュータビジョンの問題に制限されず、ハードウェアアクセラレーション(GPUやTPUなど)をサポートし、量子ハードウェアやハイブリッド量子機械学習モデルにさらに拡張することができる。 Neural networks have revolutionized many aspects of society but in the era of huge models with billions of parameters, optimizing and deploying them for commercial applications can require significant computational and financial resources. To address these challenges, we introduce the Tetra-AML toolbox, which automates neural architecture search and hyperparameter optimization via a custom-developed black-box Tensor train Optimization algorithm, TetraOpt. The toolbox also provides model compression through quantization and pruning, augmented by compression using tensor networks. Here, we analyze a unified benchmark for optimizing neural networks in computer vision tasks and show the superior performance of our approach compared to Bayesian optimization on the CIFAR-10 dataset. We also demonstrate the compression of ResNet-18 neural networks, where we use 14.5 times less memory while losing just 3.2% of accuracy. The presented framework is generic, not limited by computer vision problems, supports hardware acceleration (such as with GPUs and TPUs) and can be further extended to quantum hardware and to hybrid quantum machine learning models. | 翻訳日:2023-03-30 17:09:33 公開日:2023-03-28 |
# 複数のサブネットワークを用いたemo継手プルーニング:高速化と効果 An EMO Joint Pruning with Multiple Sub-networks: Fast and Effect ( http://arxiv.org/abs/2303.16212v1 ) ライセンス: Link先を確認 | Ronghua Shang, Songling Zhu, Licheng Jiao, Songhua Xu | (参考訳) 進化的マルチオブジェクト(EMO)に基づくネットワークプルーニングアルゴリズムは、ネットワークのプルーニング率と性能のバランスをとることができる。
しかし、その人口ベースの性質は、複雑な刈り取り最適化空間と、その適用を制限するリソース消費の高い刈り取り構造検証プロセスに苦しむことが多い。
そこで本研究では,複数のサブネットワーク(EMO-PMS)を併用したEMOジョイントプルーニングを提案し,空間の複雑さと資源消費を低減する。
まず,ネットワーク全体の複雑なEMOプルーニングタスクを,複数のサブネットワーク上でより簡単なサブタスクに分解する,分割型EMOネットワークプルーニングフレームワークを提案する。
一方、この分解はプルーニング最適化空間を減少させ、最適化の難しさを減少させ、一方、より小さなネットワーク構造はより高速に収束するので、提案アルゴリズムの計算資源消費量は小さくなる。
第2に,クロスネットワーク制約に基づくサブネットワークトレーニング手法を設計し,そのサブネットワークが,前者が生成した機能を機能制約によって処理できるようにした。
この方法により、サブネットワークが独立に最適化され、協調性が向上し、刈り取られたネットワーク全体の性能が向上する。
最後に,EMOに基づく複数サブネットワーク共同プルーニング手法を提案する。
ひとつは、事前訓練された機能セレクタでサブネットワークの機能処理能力を正確に測定できることです。
別の方法として、グローバルパフォーマンス障害ランキングを通じて複数のサブネットワーク上でのマルチ目的プラニング結果を組み合わせることで、共同プラニングスキームを設計することができる。
提案するアルゴリズムは3つのデータセットで検証される。
15の高度な刈り取りアルゴリズムと比較すると,提案手法の有効性と有効性を示す実験結果が得られた。 The network pruning algorithm based on evolutionary multi-objective (EMO) can balance the pruning rate and performance of the network. However, its population-based nature often suffers from the complex pruning optimization space and the highly resource-consuming pruning structure verification process, which limits its application. To this end, this paper proposes an EMO joint pruning with multiple sub-networks (EMO-PMS) to reduce space complexity and resource consumption. First, a divide-and-conquer EMO network pruning framework is proposed, which decomposes the complex EMO pruning task on the whole network into easier sub-tasks on multiple sub-networks. On the one hand, this decomposition reduces the pruning optimization space and decreases the optimization difficulty; on the other hand, the smaller network structure converges faster, so the computational resource consumption of the proposed algorithm is lower. Secondly, a sub-network training method based on cross-network constraints is designed so that the sub-network can process the features generated by the previous one through feature constraints. This method allows sub-networks optimized independently to collaborate better and improves the overall performance of the pruned network. Finally, a multiple sub-networks joint pruning method based on EMO is proposed. For one thing, it can accurately measure the feature processing capability of the sub-networks with the pre-trained feature selector. For another, it can combine multi-objective pruning results on multiple sub-networks through global performance impairment ranking to design a joint pruning scheme. The proposed algorithm is validated on three datasets with different challenging. Compared with fifteen advanced pruning algorithms, the experiment results exhibit the effectiveness and efficiency of the proposed algorithm. | 翻訳日:2023-03-30 17:09:15 公開日:2023-03-28 |
# 単語の組合せ畳み込みニューラルネットワーク Combinatorial Convolutional Neural Networks for Words ( http://arxiv.org/abs/2303.16211v1 ) ライセンス: Link先を確認 | Karen Sargsyan | (参考訳) 本稿では,データエントリの単射変換の下で不変な特徴を識別・活用する深層学習モデルの限界について論じる。
このようなパターンの特定は、特定のアプリケーションにとって重要であり、ニューラルネットワークに入力エントリの組合せパターンを完全に記述した情報を提供し、ネットワークが予測に何に関連するかを決定することを推奨する。
このアプローチの実現可能性を示すために,単語分類のための組合せ畳み込みニューラルネットワークを提案する。 The paper discusses the limitations of deep learning models in identifying and utilizing features that remain invariant under a bijective transformation on the data entries, which we refer to as combinatorial patterns. We argue that the identification of such patterns may be important for certain applications and suggest providing neural networks with information that fully describes the combinatorial patterns of input entries and allows the network to determine what is relevant for prediction. To demonstrate the feasibility of this approach, we present a combinatorial convolutional neural network for word classification. | 翻訳日:2023-03-30 17:08:47 公開日:2023-03-28 |
# 翻訳アシスタントは言語の社会的要因をモデル化すべきである Writing Assistants Should Model Social Factors of Language ( http://arxiv.org/abs/2303.16275v1 ) ライセンス: Link先を確認 | Vivek Kulkarni and Vipul Raheja | (参考訳) 大規模言語モデル(LLM)を利用したインテリジェントな書き込みアシスタントは、これまで以上に人気があるが、その普及はサブ最適性能によって妨げられている。
本稿では,この部分最適性能と採用の大きな理由は,その社会的側面を無視しつつ,言語の情報内容にのみ焦点をあてることである,と論じる。
我々は,これらの社会的要因の異なる次元を分析し,より賢く,より効果的で,真にパーソナライズされたライティング・アシスタントの構築への統合を提案する。 Intelligent writing assistants powered by large language models (LLMs) are more popular today than ever before, but their further widespread adoption is precluded by sub-optimal performance. In this position paper, we argue that a major reason for this sub-optimal performance and adoption is a singular focus on the information content of language while ignoring its social aspects. We analyze the different dimensions of these social factors in the context of writing assistants and propose their incorporation into building smarter, more effective, and truly personalized writing assistants that would enrich the user experience and contribute to increased user adoption. | 翻訳日:2023-03-30 17:03:33 公開日:2023-03-28 |
# 多要素深層流速学習モデルによる風力発電ヨーの加速とレイアウト最適化 Accelerated wind farm yaw and layout optimisation with multi-fidelity deep transfer learning wake models ( http://arxiv.org/abs/2303.16274v1 ) ライセンス: Link先を確認 | Sokratis Anagnostopoulos, Jens Bauer, Mariana C. A. Clare, Matthew D. Piggott | (参考訳) 風力発電のモデリングは、多くの分析的手法と、風力発電効率の限界を広げ、電力生産を最大化するために開発された計算に基づくアプローチによって、急速に関心を集めている分野である。
本研究では, 風速, 乱流強度 (tis) の広い範囲にわたって, hub-height における一般化された2次元タービン後流速度場を再現し, 風速モデリングソフトウェア floris を用いて計算した解と比較して, 平均99.8%の精度で再現できる新規な ml フレームワーク wakenet を提案する。
ネットワークトレーニング目的の十分な高忠実度データの生成はコストを抑えることができるため,多忠実度変換学習の有用性も検討されている。
具体的には、低忠実度ガウスウェイクモデルで事前訓練されたネットワークを微調整し、中忠実度カールウェイクモデルに対する正確なウェイク結果を得る。
様々なウェイクステアリング制御およびレイアウト最適化シナリオにおけるWakeNetの堅牢性と全体的な性能は、電力利得ヒートマップを通じて検証され、FLORISで直接実行される最適化によって得られる電力の少なくとも90%が得られた。
また、curlモデルを利用することで、wakenetは2桁の高速化(最適化ケース毎に10分対36時間など)であるflorisに同様のパワー向上を提供できることも示しています。
高忠実度CFDデータセットでトレーニングした場合のwakeNetのウェイク評価時間は類似しており、計算時間の増加が期待できる。
これらの有望な結果は、mlツールによる一般化されたウェイクモデリングは、アクティブなyawとレイアウトの最適化に貢献できるほど正確であると同時に、計算コストのごく一部で現実的な最適化構成を生成できることを示している。 Wind farm modelling has been an area of rapidly increasing interest with numerous analytical as well as computational-based approaches developed to extend the margins of wind farm efficiency and maximise power production. In this work, we present the novel ML framework WakeNet, which can reproduce generalised 2D turbine wake velocity fields at hub-height over a wide range of yaw angles, wind speeds and turbulence intensities (TIs), with a mean accuracy of 99.8% compared to the solution calculated using the state-of-the-art wind farm modelling software FLORIS. As the generation of sufficient high-fidelity data for network training purposes can be cost-prohibitive, the utility of multi-fidelity transfer learning has also been investigated. Specifically, a network pre-trained on the low-fidelity Gaussian wake model is fine-tuned in order to obtain accurate wake results for the mid-fidelity Curl wake model. The robustness and overall performance of WakeNet on various wake steering control and layout optimisation scenarios has been validated through power-gain heatmaps, obtaining at least 90% of the power gained through optimisation performed with FLORIS directly. We also demonstrate that when utilising the Curl model, WakeNet is able to provide similar power gains to FLORIS, two orders of magnitude faster (e.g. 10 minutes vs 36 hours per optimisation case). The wake evaluation time of wakeNet when trained on a high-fidelity CFD dataset is expected to be similar, thus further increasing computational time gains. These promising results show that generalised wake modelling with ML tools can be accurate enough to contribute towards active yaw and layout optimisation, while producing realistic optimised configurations at a fraction of the computational cost, hence making it feasible to perform real-time active yaw control as well as robust optimisation under uncertainty. | 翻訳日:2023-03-30 17:03:22 公開日:2023-03-28 |
# 重複サンプルを限定したコミュニケーション効率の高い垂直フェデレーション学習 Communication-Efficient Vertical Federated Learning with Limited Overlapping Samples ( http://arxiv.org/abs/2303.16270v1 ) ライセンス: Link先を確認 | Jingwei Sun, Ziyue Xu, Dong Yang, Vishwesh Nath, Wenqi Li, Can Zhao, Daguang Xu, Yiran Chen, Holger R. Roth | (参考訳) フェデレーション学習(federated learning)は、クライアントがローカルデータを共有せずにグローバルモデルをトレーニングできる、一般的なコラボレーティブ学習アプローチである。
垂直連合学習(VFL)は、クライアント上のデータが異なる特徴空間を持つが、重複するサンプルを共有するシナリオを扱う。
既存のvflアプローチは高い通信コストを被り、現実世界で一般的に見られる重複したサンプルを効率的に処理できない。
本稿では,半教師付き学習に基づく通信ボトルネックとサンプル重複問題を同時に解決可能な,実用的な垂直フェデレート学習(vfl)フレームワークである \textbf{one-shot vfl}を提案する。
また,サーバとクライアント間の通信ラウンドを1回だけ行うことで,さらに精度を向上させるために, \textbf{few-shot vfl}を提案する。
提案するフレームワークでは,クライアントはサーバとの通信を1回,あるいは数回のみ行わなければなりません。
提案するVFLフレームワークを画像と表のデータセットの両方で評価する。
提案手法は, CIFAR-10で評価した場合, 精度を46.5\%以上向上し, 通信コストを330$\times$以上削減できる。
我々のコードは \url{https://nvidia.github.io/NVFlare/research/one-shot-vfl} で公開されます。 Federated learning is a popular collaborative learning approach that enables clients to train a global model without sharing their local data. Vertical federated learning (VFL) deals with scenarios in which the data on clients have different feature spaces but share some overlapping samples. Existing VFL approaches suffer from high communication costs and cannot deal efficiently with limited overlapping samples commonly seen in the real world. We propose a practical vertical federated learning (VFL) framework called \textbf{one-shot VFL} that can solve the communication bottleneck and the problem of limited overlapping samples simultaneously based on semi-supervised learning. We also propose \textbf{few-shot VFL} to improve the accuracy further with just one more communication round between the server and the clients. In our proposed framework, the clients only need to communicate with the server once or only a few times. We evaluate the proposed VFL framework on both image and tabular datasets. Our methods can improve the accuracy by more than 46.5\% and reduce the communication cost by more than 330$\times$ compared with state-of-the-art VFL methods when evaluated on CIFAR-10. Our code will be made publicly available at \url{https://nvidia.github.io/NVFlare/research/one-shot-vfl}. | 翻訳日:2023-03-30 17:02:44 公開日:2023-03-28 |
# TimeBalance: 半監督行動認識のための時間的不変および時間的識別ビデオ表現 TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition ( http://arxiv.org/abs/2303.16268v1 ) ライセンス: Link先を確認 | Ishan Rajendrakumar Dave, Mamshad Nayeem Rizve, Chen Chen, Mubarak Shah | (参考訳) 半教師付き学習は、注釈コストと次元性が高いため、画像に比べてビデオ領域に有益である。
さらに、ビデオ理解タスクは、空間的次元と時間的次元の両方を推論する必要がある。
半教師付き動作認識タスクの静的および動きに関連した特徴を学習するために、既存の手法では、2つのモード(RGBと光フロー)または異なる再生レートの2ストリームを使用するようなハード入力誘導バイアスに依存している。
多様な入力ストリームを通じてラベル付けされていないビデオを利用する代わりに、自己教師付きビデオ表現に依存し、特に時間的不変および時間的特定表現を利用する。
我々は、これらの表現が作用の性質に応じて互いに補完することを観察する。
本研究では,時間的不変性と時間的識別性のある教師から知識を抽出する,学生教師による半教師型学習フレームワークであるTimeBalanceを提案する。
ラベルのない映像の性質に応じて,新しい時間的類似性に基づく再重み付け方式に基づいて,この2つの教師の知識を動的に結合する。
提案手法は,UCF101,HMDB51,Kineetics400の3つの動作認識ベンチマークにおける最先端性能を実現する。
コード:https://github.com/DAVEISHAN/TimeBalance Semi-Supervised Learning can be more beneficial for the video domain compared to images because of its higher annotation cost and dimensionality. Besides, any video understanding task requires reasoning over both spatial and temporal dimensions. In order to learn both the static and motion related features for the semi-supervised action recognition task, existing methods rely on hard input inductive biases like using two-modalities (RGB and Optical-flow) or two-stream of different playback rates. Instead of utilizing unlabeled videos through diverse input streams, we rely on self-supervised video representations, particularly, we utilize temporally-invariant and temporally-distinctive representations. We observe that these representations complement each other depending on the nature of the action. Based on this observation, we propose a student-teacher semi-supervised learning framework, TimeBalance, where we distill the knowledge from a temporally-invariant and a temporally-distinctive teacher. Depending on the nature of the unlabeled video, we dynamically combine the knowledge of these two teachers based on a novel temporal similarity-based reweighting scheme. Our method achieves state-of-the-art performance on three action recognition benchmarks: UCF101, HMDB51, and Kinetics400. Code: https://github.com/DAVEISHAN/TimeBalance | 翻訳日:2023-03-30 17:02:23 公開日:2023-03-28 |
# エネルギー取引戦略最適化のための強化学習 Reinforcement learning for optimization of energy trading strategy ( http://arxiv.org/abs/2303.16266v1 ) ライセンス: Link先を確認 | {\L}ukasz Lepak, Pawe{\l} Wawrzy\'nski | (参考訳) エネルギーの増大は再生可能エネルギー源から多くの小規模生産者によって生産される。
これらの源の効率は不安定であり、ある程度ランダムにエネルギー市場のバランス問題を悪化させる。
多くの国では、そのバランスはデイアヘッド(DA)エネルギー市場で行われる。
本稿では,中規模プロシューマーによるDAエネルギー市場における自動取引について考察する。
我々は,この活動をマルコフ決定プロセスとしてモデル化し,実生活データで活用可能な戦略を最適化する枠組みを定式化する。
パラメトリック取引戦略を合成し,進化的アルゴリズムを用いて最適化する。
我々はまた、最先端の強化学習アルゴリズムを使用して、将来の価格に影響を及ぼす可能性のある環境から利用可能な情報を供給されたブラックボックス取引戦略を最適化する。 An increasing part of energy is produced from renewable sources by a large number of small producers. The efficiency of these sources is volatile and, to some extent, random, exacerbating the energy market balance problem. In many countries, that balancing is performed on day-ahead (DA) energy markets. In this paper, we consider automated trading on a DA energy market by a medium size prosumer. We model this activity as a Markov Decision Process and formalize a framework in which a ready-to-use strategy can be optimized with real-life data. We synthesize parametric trading strategies and optimize them with an evolutionary algorithm. We also use state-of-the-art reinforcement learning algorithms to optimize a black-box trading strategy fed with available information from the environment that can impact future prices. | 翻訳日:2023-03-30 17:02:04 公開日:2023-03-28 |
# 符号化による最適化:再正規化群の観点から Optimisation via encodings: a renormalisation group perspective ( http://arxiv.org/abs/2303.16258v1 ) ライセンス: Link先を確認 | Konstantin Klemm and Anita Mehta and Peter F. Stadler | (参考訳) 離散最適化問題に対処する従来の方法は、コストやフィットネスの風景を局所的に探索することである。
しかし、そのようなアプローチは、典型的な荒れ果てた風景の特徴である局所的なミニマが探索過程の進行を妨げているときに起こる減速によって制限される。
最適化問題に取り組む別の方法は、大域的コスト最小を見積もるためにヒューリスティック近似を用いることである。
本稿では,より広い探索空間から元の検索空間の部分集合にプロセスをマッピングするカバーエンコーディングマップを用いて,これら2つの手法の組み合わせを示す。
鍵となる考え方は、最適なヒューリスティックの助けを借りてカバーエンコーディングマップを構築することである。
一般的に用いられるプロセスは粗粒化の一種であり、ここでは再正規化群変換のアバターと見なせることを示唆する。 The traditional way of tackling discrete optimization problems is by using local search on suitably defined cost or fitness landscapes. Such approaches are however limited by the slowing down that occurs when local minima, that are a feature of the typically rugged landscapes encountered, arrest the progress of the search process. Another way of tackling optimization problems is by the use of heuristic approximations to estimate a global cost minimum. Here we present a combination of these two approaches by using cover-encoding maps which map processes from a larger search space to subsets of the original search space. The key idea is to construct cover-encoding maps with the help of suitable heuristics that single out near-optimal solutions and result in landscapes on the larger search space that no longer exhibit trapping local minima. The processes that are typically employed involve some form of coarse-graining, and we suggest here that they can be viewed as avatars of renormalisation group transformations. | 翻訳日:2023-03-30 17:01:54 公開日:2023-03-28 |
# 言語とアルファベットの辞書ソースのためのスケーラブルな手書き文字認識システム Scalable handwritten text recognition system for lexicographic sources of under-resourced languages and alphabets ( http://arxiv.org/abs/2303.16256v1 ) ライセンス: Link先を確認 | Jan Idziak, Artjoms \v{S}e\c{l}a, Micha{\l} Wo\'zniak, Albert Le\'sniak, Joanna Byszuk, Maciej Eder | (参考訳) 本稿では,歴史辞書の手書きインデックスカードの膨大なコレクションを解読する手法について述べる。
本研究は,280万のインデックスカードを構成する17世紀のポーランド語辞典(dictionary of the 17thand 18th century polish)に対して,カードを読み,その補題を検索可能な辞書項目のリストにリンクする作業ソリューションを提供する。
We apply a tailored handwritten text recognition (HTR) solution that involves (1) an optimized detection model; (2) a recognition model to decipher the handwritten content, designed as a spatial transformer network (STN) followed by convolutional neural network (RCNN) with a connectionist temporal classification layer (CTC), trained using a synthetic set of 500,000 generated Polish words of different length; (3) a post-processing step using constrained Word Beam Search (WBC): the predictions were matched against a list of dictionary entries known in advance.
本モデルは単語レベルで0.881の精度を達成し,rcnnモデルよりも優れていた。
本研究では,将来のベンチマークや変換学習用HTRアプリケーションに使用可能な2万個の手動注釈付きインデックスカードを作成した。 The paper discusses an approach to decipher large collections of handwritten index cards of historical dictionaries. Our study provides a working solution that reads the cards, and links their lemmas to a searchable list of dictionary entries, for a large historical dictionary entitled the Dictionary of the 17th- and 18th-century Polish, which comprizes 2.8 million index cards. We apply a tailored handwritten text recognition (HTR) solution that involves (1) an optimized detection model; (2) a recognition model to decipher the handwritten content, designed as a spatial transformer network (STN) followed by convolutional neural network (RCNN) with a connectionist temporal classification layer (CTC), trained using a synthetic set of 500,000 generated Polish words of different length; (3) a post-processing step using constrained Word Beam Search (WBC): the predictions were matched against a list of dictionary entries known in advance. Our model achieved the accuracy of 0.881 on the word level, which outperforms the base RCNN model. Within this study we produced a set of 20,000 manually annotated index cards that can be used for future benchmarks and transfer learning HTR applications. | 翻訳日:2023-03-30 17:01:36 公開日:2023-03-28 |
# CryoFormer: Transformer-based Neural Representation を用いたCryo-EMデータからの3次元構造の連続的再構成 CryoFormer: Continuous Reconstruction of 3D Structures from Cryo-EM Data using Transformer-based Neural Representations ( http://arxiv.org/abs/2303.16254v1 ) ライセンス: Link先を確認 | Xinhang Liu, Yan Zeng, Yifan Qin, Hao Li, Jiakai Zhang, Lan Xu, Jingyi Yu | (参考訳) cryo-electron microscope (cryo-em) を用いたタンパク質およびその他の生体分子の3次元構造の高分解能不均質再構成は生命の基本的な過程を理解するのに不可欠である。
しかし,無作為かつ無作為な2次元cryo-em画像から3次元構造物の連続運動を再構築することは依然として困難である。
座標に基づくニューラルネットワークに基づく既存の手法は、フーリエ領域における3次元構造の連続的なコンフォーメーションをモデル化するための魅力的な結果を示すが、局所的なフレキシブル領域をモデル化する能力に制限があり、解釈性に欠ける。
本稿では,変圧器をベースとしたネットワークアーキテクチャを用いて連続的ヘテロジニアスCreo-EM再構成を行う新しい手法であるCryoFormerを提案する。
3次元空間領域における暗黙的特徴量を用いて, 3次元構造の連続構造を初めて直接再構成した。
新規な変形変圧器デコーダは、再構成品質をさらに向上し、さらに重要なことは、コンフォーメーションによる柔軟な3D領域の配置とロバスト化である。
実験では、3つのパブリックデータセット(1つの合成データと2つの実験データ)と、pedvスパイクタンパク質の新しい合成データセットに対する現在のアプローチよりも優れています。
コードと新しい合成データセットがリリースされ、結果の再現性が向上します。
プロジェクトページ: https://cryoformer.github.io High-resolution heterogeneous reconstruction of 3D structures of proteins and other biomolecules using cryo-electron microscopy (cryo-EM) is essential for understanding fundamental processes of life. However, it is still challenging to reconstruct the continuous motions of 3D structures from hundreds of thousands of noisy and randomly oriented 2D cryo-EM images. Existing methods based on coordinate-based neural networks show compelling results to model continuous conformations of 3D structures in the Fourier domain, but they suffer from a limited ability to model local flexible regions and lack interpretability. We propose a novel approach, cryoFormer, that utilizes a transformer-based network architecture for continuous heterogeneous cryo-EM reconstruction. We for the first time directly reconstruct continuous conformations of 3D structures using an implicit feature volume in the 3D spatial domain. A novel deformation transformer decoder further improves reconstruction quality and, more importantly, locates and robustly tackles flexible 3D regions caused by conformations. In experiments, our method outperforms current approaches on three public datasets (1 synthetic and 2 experimental) and a new synthetic dataset of PEDV spike protein. The code and new synthetic dataset will be released for better reproducibility of our results. Project page: https://cryoformer.github.io. | 翻訳日:2023-03-30 17:01:16 公開日:2023-03-28 |
# コンテキスト要約とドメインスキーマを用いたゼロショット一般化型タスク指向対話システム Zero-Shot Generalizable End-to-End Task-Oriented Dialog System using Context Summarization and Domain Schema ( http://arxiv.org/abs/2303.16252v1 ) ライセンス: Link先を確認 | Adib Mosharrof, M.H. Maqbool, A.B. Siddique | (参考訳) タスク指向ダイアログシステムは、直感的で表現力のある自然言語インタラクションを促進することによって、ユーザが目標を達成することを可能にする。
タスク指向対話システムにおける最先端のアプローチは、条件付きシーケンス生成タスクと教師付き設定における微調整済み因果言語モデルとして問題を定式化する。
これは、新しいドメインやタスクごとにラベル付きトレーニングデータを必要とするため、そのようなデータを取得するのは、極めて困難でコストがかかるため、システムを幅広いドメインにスケーリングする上でボトルネックとなる。
この課題を克服するために、ドメインスキーマを活用して、未確認領域への堅牢な一般化を可能にし、ダイアログ履歴を効果的に要約するZES-ToDを提案する。
GPT-2をバックボーンモデルとし、第1ステップの目標はダイアログデータの一般的な構造を学習することであり、第2ステップはダイアログ状態やシステム動作などの中間出力だけでなく、応答生成を最適化する2段階のトレーニングプロセスを導入する。
与えられたドメイン内の特定の意図を満たし、タスク固有の会話パターンを記憶するように訓練された最先端のシステムとは対照的に、ZS-ToDはドメインスキーマを介してドメインセマンティクスを解釈し、目に見えないドメインにシームレスに一般化することで、汎用的なタスク補完スキルを学ぶ。
sgd と sgd-x データセットについて,最大 20 個の固有ドメインと zs-tod が主要メトリクスの最先端システムよりも優れており,共同目標精度が +17%,インフォメーションが +5 で改善されている。
さらに,提案するコンポーネントの有効性とトレーニングメカニズムについて,詳細なアブレーション研究を行った。 Task-oriented dialog systems empower users to accomplish their goals by facilitating intuitive and expressive natural language interactions. State-of-the-art approaches in task-oriented dialog systems formulate the problem as a conditional sequence generation task and fine-tune pre-trained causal language models in the supervised setting. This requires labeled training data for each new domain or task, and acquiring such data is prohibitively laborious and expensive, thus making it a bottleneck for scaling systems to a wide range of domains. To overcome this challenge, we introduce a novel Zero-Shot generalizable end-to-end Task-oriented Dialog system, ZS-ToD, that leverages domain schemas to allow for robust generalization to unseen domains and exploits effective summarization of the dialog history. We employ GPT-2 as a backbone model and introduce a two-step training process where the goal of the first step is to learn the general structure of the dialog data and the second step optimizes the response generation as well as intermediate outputs, such as dialog state and system actions. As opposed to state-of-the-art systems that are trained to fulfill certain intents in the given domains and memorize task-specific conversational patterns, ZS-ToD learns generic task-completion skills by comprehending domain semantics via domain schemas and generalizing to unseen domains seamlessly. We conduct an extensive experimental evaluation on SGD and SGD-X datasets that span up to 20 unique domains and ZS-ToD outperforms state-of-the-art systems on key metrics, with an improvement of +17% on joint goal accuracy and +5 on inform. Additionally, we present a detailed ablation study to demonstrate the effectiveness of the proposed components and training mechanism | 翻訳日:2023-03-30 17:00:53 公開日:2023-03-28 |
# 近似モデル参照適応制御のためのランダム初期化ニューラルネットワークによる関数近似 Function Approximation with Randomly Initialized Neural Networks for Approximate Model Reference Adaptive Control ( http://arxiv.org/abs/2303.16251v1 ) ライセンス: Link先を確認 | Tyler Lekang and Andrew Lamperski | (参考訳) ニューラルネットワーク近似理論における古典的な結果は、活性化関数の軽度な仮定の下で、任意の連続関数が単一の隠蔽層を持つネットワークによってどのように近似されるかを示す。
しかし、古典理論は、望ましい精度を達成するネットワークパラメータを生成するための構成的手段を与えていない。
近年の研究では、ReLUや分析関数のクラスのような特殊活性化関数に対して、ランダムに初期化されたアクティベーションの線形結合によって高い精度が得られることが示されている。
最近の研究では、特定のアクティベーション関数に依存するターゲット関数の特別な積分表現を利用している。
本稿では, 直接積分表現が知られていないアクティベーションを用いて, 対象関数の積分表現を形成する手段を提供する。
この新しい構成は、様々な広く使われているアクティベーション関数に対するランダム初期化ネットワークに対する近似保証を可能にする。 Classical results in neural network approximation theory show how arbitrary continuous functions can be approximated by networks with a single hidden layer, under mild assumptions on the activation function. However, the classical theory does not give a constructive means to generate the network parameters that achieve a desired accuracy. Recent results have demonstrated that for specialized activation functions, such as ReLUs and some classes of analytic functions, high accuracy can be achieved via linear combinations of randomly initialized activations. These recent works utilize specialized integral representations of target functions that depend on the specific activation functions used. This paper defines mollified integral representations, which provide a means to form integral representations of target functions using activations for which no direct integral representation is currently known. The new construction enables approximation guarantees for randomly initialized networks for a variety of widely used activation functions. | 翻訳日:2023-03-30 17:00:09 公開日:2023-03-28 |
# スライディングウインドウを用いたストリーミングモデルの確率ロバスト性 Provable Robustness for Streaming Models with a Sliding Window ( http://arxiv.org/abs/2303.16308v1 ) ライセンス: Link先を確認 | Aounon Kumar, Vinu Sankar Sadasivan and Soheil Feizi | (参考訳) 機械学習における証明可能な堅牢性に関する文献は、主に画像分類などの静的予測問題に焦点を当てており、入力サンプルは独立であると仮定され、モデル性能は入力分布に対する期待値として測定される。
モデルが各インスタンスで別々に評価されるという仮定で、個々の入力インスタンスに対してロバスト性証明書が導出される。
しかし、オンラインコンテンツレコメンデーションや株式市場分析のような多くのディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
独立した入力サンプルの仮定に基づく堅牢性証明書は、そのようなシナリオでは直接適用できない。
本研究では、データストリームのコンテキストにおける機械学習モデルの証明可能な堅牢性に注目し、入力を潜在的に相関する項目のシーケンスとして提示する。
入力ストリーム上の固定サイズのスライディングウィンドウを使用するモデルに対して,堅牢性証明書を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
我々は,音声検出と人間活動認識タスクの実験を行い,敵の摂動に対して有意義な性能保証を得られることを示す。 The literature on provable robustness in machine learning has primarily focused on static prediction problems, such as image classification, in which input samples are assumed to be independent and model performance is measured as an expectation over the input distribution. Robustness certificates are derived for individual input instances with the assumption that the model is evaluated on each instance separately. However, in many deep learning applications such as online content recommendation and stock market analysis, models use historical data to make predictions. Robustness certificates based on the assumption of independent input samples are not directly applicable in such scenarios. In this work, we focus on the provable robustness of machine learning models in the context of data streams, where inputs are presented as a sequence of potentially correlated items. We derive robustness certificates for models that use a fixed-size sliding window over the input stream. Our guarantees hold for the average model performance across the entire stream and are independent of stream size, making them suitable for large data streams. We perform experiments on speech detection and human activity recognition tasks and show that our certificates can produce meaningful performance guarantees against adversarial perturbations. | 翻訳日:2023-03-30 16:53:27 公開日:2023-03-28 |
# 機械学習の展望:グローバル中規模予測のポストプロセッシング A Machine Learning Outlook: Post-processing of Global Medium-range Forecasts ( http://arxiv.org/abs/2303.16301v1 ) ライセンス: Link先を確認 | Shreya Agrawal, Rob Carver, Cenk Gazen, Eric Maddy, Vladimir Krasnopolsky, Carla Bromberg, Zack Ontiveros, Tyler Russell, Jason Hickey, and Sid Boukabara | (参考訳) ポストプロセッシングは通常、数値気象予測(nwp)モデルの出力を受け取り、線形統計手法を適用して、追加の観測を含む、あるいはより細かいスケールで系統的なエラーを決定することにより、局所的な予測を改善する。
本研究では,非線形ニューラルネットワーク(NN)を用いた複数の気象特性(温度,湿度,風,地磁気高度,降水量)を,地球上およびリードタイムで最大7日間にわたって30の垂直レベルで処理する手法の利点と課題について検討する。
850hpaの温度などの分野において、7日間の予測で最大12% (rmse) の精度向上を達成できることを示した。
しかし,鋭利で正確な予測を客観的に測定するための基礎的作業の強化の必要性を認識した。
我々は、線形統計モデルからより複雑な非線形機械学習アプローチに移行する際に、ルート平均二乗誤差 (RMSE) や異常相関係数 (ACC) などの標準メトリクスを使用する際の課題について議論する。 Post-processing typically takes the outputs of a Numerical Weather Prediction (NWP) model and applies linear statistical techniques to produce improve localized forecasts, by including additional observations, or determining systematic errors at a finer scale. In this pilot study, we investigate the benefits and challenges of using non-linear neural network (NN) based methods to post-process multiple weather features -- temperature, moisture, wind, geopotential height, precipitable water -- at 30 vertical levels, globally and at lead times up to 7 days. We show that we can achieve accuracy improvements of up to 12% (RMSE) in a field such as temperature at 850hPa for a 7 day forecast. However, we recognize the need to strengthen foundational work on objectively measuring a sharp and correct forecast. We discuss the challenges of using standard metrics such as root mean squared error (RMSE) or anomaly correlation coefficient (ACC) as we move from linear statistical models to more complex non-linear machine learning approaches for post-processing global weather forecasts. | 翻訳日:2023-03-30 16:53:08 公開日:2023-03-28 |
# 複数のランダム化実験データを組み合わせた不均一処理効果推定のための機械学習手法の比較 Comparing Machine Learning Methods for Estimating Heterogeneous Treatment Effects by Combining Data from Multiple Randomized Controlled Trials ( http://arxiv.org/abs/2303.16299v1 ) ライセンス: Link先を確認 | Carly Lupton Brantner, Trang Quynh Nguyen, Tengjie Tang, Congwen Zhao, Hwanhee Hong, Elizabeth A. Stuart | (参考訳) 個別化された治療決定は、健康的な結果を改善するが、データを使用して、信頼できる、正確で、一般化可能な方法で決定を行うことは、単一のデータセットでは困難である。
複数のランダム化制御試験を活用することで、データセットと未確立の処理課題を組み合わせることで、不均一な処理効果を推定する能力を向上させることができる。
本稿では,複数試行データを用いて不均一な治療効果を推定するための非パラメトリックアプローチについて述べる。
我々は,複数回の試行で単一研究手法をシナリオに拡張し,その性能をシミュレーション実験により検証し,各分野の異種性の異なるデータ生成シナリオについて検討する。
シミュレーションにより, 治験間での処理効果の均一性を直接許容する手法は, 実施しない方法よりも優れており, 単一研究方法の選択は, 処理効果の機能形式に基づいて重要であることが示された。
最後に、どの方法が各設定でうまく機能するかを検討し、4つのランダム化対照試験に適用し、大うつ病障害に対する治療の効果の多様性について検討する。 Individualized treatment decisions can improve health outcomes, but using data to make these decisions in a reliable, precise, and generalizable way is challenging with a single dataset. Leveraging multiple randomized controlled trials allows for the combination of datasets with unconfounded treatment assignment to improve the power to estimate heterogeneous treatment effects. This paper discusses several non-parametric approaches for estimating heterogeneous treatment effects using data from multiple trials. We extend single-study methods to a scenario with multiple trials and explore their performance through a simulation study, with data generation scenarios that have differing levels of cross-trial heterogeneity. The simulations demonstrate that methods that directly allow for heterogeneity of the treatment effect across trials perform better than methods that do not, and that the choice of single-study method matters based on the functional form of the treatment effect. Finally, we discuss which methods perform well in each setting and then apply them to four randomized controlled trials to examine effect heterogeneity of treatments for major depressive disorder. | 翻訳日:2023-03-30 16:52:48 公開日:2023-03-28 |
# Dice Semimetric Losses: ソフトラベルによるDice Scoreの最適化 Dice Semimetric Losses: Optimizing the Dice Score with Soft Labels ( http://arxiv.org/abs/2303.16296v1 ) ライセンス: Link先を確認 | Zifu Wang, Teodora Popordanoska, Jeroen Bertels, Robin Lemmens, Matthew B. Blaschko | (参考訳) 軟Dice損失(SDL)は、医療画像コミュニティにおける多くの自動セグメンテーションパイプラインにおいて重要な役割を担っている。
ここ数年、その優れた機能を支えるいくつかの理由が明らかにされ、さらなる最適化が検討されている。
しかしながら、ソフトラベルを使った設定での直接使用をサポートする実装は今のところ存在しない。
したがって、SDLの使用とソフトラベルの利用による研究の相乗効果は、モデルキャリブレーションの文脈においても、いまだに欠落している。
本稿では,Dice semimetric loss (DML)を紹介する。
(i) ハードラベルの標準設定でSDLと同一の設計であるが、
(ii)はソフトラベルの設定で使用することができる。
公的なQUBIQ、LiTS、KiTSベンチマークに関する我々の実験は、ハードラベル(多数投票やランダム選択など)に対するソフトラベル(平均化、ラベルの平滑化、知識蒸留など)とのDMLのシナジーの可能性を確認する。
その結果,dmlの普及を支援する優れたdiceスコアとモデルキャリブレーションを得た。
コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。 The soft Dice loss (SDL) has taken a pivotal role in many automated segmentation pipelines in the medical imaging community. Over the last years, some reasons behind its superior functioning have been uncovered and further optimizations have been explored. However, there is currently no implementation that supports its direct use in settings with soft labels. Hence, a synergy between the use of SDL and research leveraging the use of soft labels, also in the context of model calibration, is still missing. In this work, we introduce Dice semimetric losses (DMLs), which (i) are by design identical to SDL in a standard setting with hard labels, but (ii) can be used in settings with soft labels. Our experiments on the public QUBIQ, LiTS and KiTS benchmarks confirm the potential synergy of DMLs with soft labels (e.g. averaging, label smoothing, and knowledge distillation) over hard labels (e.g. majority voting and random selection). As a result, we obtain superior Dice scores and model calibration, which supports the wider adoption of DMLs in practice. Code is available at \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}. | 翻訳日:2023-03-30 16:52:29 公開日:2023-03-28 |
# SnakeVoxFormer: 実行長符号化によるトランスフォーマーベースシングルイメージ\\Voxel再構成 SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding ( http://arxiv.org/abs/2303.16293v1 ) ライセンス: Link先を確認 | Jae Joong Lee, Bedrich Benes | (参考訳) 深層学習に基づく3Dオブジェクト再構成は前例のない成果を上げている。
その中でも、トランスフォーマーディープニューラルモデルはコンピュータビジョンの多くの応用において優れた性能を示した。
SnakeVoxFormerは、トランスを用いた単一の画像から、ボクセル空間における新しい3次元オブジェクト再構成である。
SnakeVoxFormerへの入力は2D画像であり、結果は3Dボクセルモデルである。
本手法の重要な特徴は,voxel空間を(蛇のように)横断し,トランスフォーマーエンコーディングに適した1次元構造に広い空間差を符号化するラン長エンコーディングを使用することである。
次に辞書エンコーディングを用いて、発見したRLEブロックを変換器に使用するトークンに変換する。
1D表現は、元のデータサイズの約1%しか使用していない1Dデータに変換する、ロスレスな3D形状データ圧縮方法である。
異なるボクセルトラバース戦略がエンコーディングと再構築の効果に与える影響を示す。
本手法は画像からの3次元ボクセル再構成のための最先端技術と比較し,少なくとも2.8%,最大19.8%改善した。 Deep learning-based 3D object reconstruction has achieved unprecedented results. Among those, the transformer deep neural model showed outstanding performance in many applications of computer vision. We introduce SnakeVoxFormer, a novel, 3D object reconstruction in voxel space from a single image using the transformer. The input to SnakeVoxFormer is a 2D image, and the result is a 3D voxel model. The key novelty of our approach is in using the run-length encoding that traverses (like a snake) the voxel space and encodes wide spatial differences into a 1D structure that is suitable for transformer encoding. We then use dictionary encoding to convert the discovered RLE blocks into tokens that are used for the transformer. The 1D representation is a lossless 3D shape data compression method that converts to 1D data that use only about 1% of the original data size. We show how different voxel traversing strategies affect the effect of encoding and reconstruction. We compare our method with the state-of-the-art for 3D voxel reconstruction from images and our method improves the state-of-the-art methods by at least 2.8% and up to 19.8%. | 翻訳日:2023-03-30 16:52:07 公開日:2023-03-28 |
# XAIR:拡張現実における説明可能なAIフレームワーク XAIR: A Framework of Explainable AI in Augmented Reality ( http://arxiv.org/abs/2303.16292v1 ) ライセンス: Link先を確認 | Xuhai Xu, Mengjie Yu, Tanya R. Jonker, Kashyap Todi, Feiyu Lu, Xun Qian, Jo\~ao Marcelo Evangelista Belo, Tianyi Wang, Michelle Li, Aran Mun, Te-Yen Wu, Junxiao Shen, Ting Zhang, Narine Kokhlikyan, Fulton Wang, Paul Sorenson, Sophie Kahyun Kim, Hrvoje Benko | (参考訳) 説明可能なAI(XAI)は、AI駆動インタラクティブシステムの重要なコンポーネントとしての地位を確立している。
Augmented Reality(AR)が日々の生活にますます統合されるにつれて、XAIの役割はARにおいても不可欠になる。
しかし、ARに有効なXAI体験をどのように設計するかは明らかになっていない。
我々は、ARにおけるAI出力の説明を提供するために、"いつ"、"何"、"方法"に対処する設計フレームワークであるXAIRを提案する。
このフレームワークは、XAIとHCIの研究に関する複数の学際的な文献レビュー、500人以上のエンドユーザによるARベースの説明の好みを調査する大規模な調査、12人の専門家によるワークショップ、そしてARにおけるXAI設計に関する洞察を集めた。
XAIRの有用性と有効性は、10人のデザイナーによる研究と12人のエンドユーザによる別の研究によって検証された。
XAIRはデザイナーにガイドラインを提供し、新しいデザインの機会を特定し、ARで効果的なXAIデザインを達成するよう促すことができる。 Explainable AI (XAI) has established itself as an important component of AI-driven interactive systems. With Augmented Reality (AR) becoming more integrated in daily lives, the role of XAI also becomes essential in AR because end-users will frequently interact with intelligent services. However, it is unclear how to design effective XAI experiences for AR. We propose XAIR, a design framework that addresses "when", "what", and "how" to provide explanations of AI output in AR. The framework was based on a multi-disciplinary literature review of XAI and HCI research, a large-scale survey probing 500+ end-users' preferences for AR-based explanations, and three workshops with 12 experts collecting their insights about XAI design in AR. XAIR's utility and effectiveness was verified via a study with 10 designers and another study with 12 end-users. XAIR can provide guidelines for designers, inspiring them to identify new design opportunities and achieve effective XAI designs in AR. | 翻訳日:2023-03-30 16:51:47 公開日:2023-03-28 |
# 量子技術応用のための半導体点欠陥特性データベース Database of semiconductor point-defect properties for applications in quantum technologies ( http://arxiv.org/abs/2303.16283v1 ) ライセンス: Link先を確認 | Vsevolod Ivanov and Alexander Ivanov and Jacopo Simoni and Prabin Parajuli and Boubacar Kant\'e and Thomas Schenkel and Liang Tan | (参考訳) ソリッドステートの点欠陥は量子情報科学の分野で注目を集めている。量子コンピューティング、センシング、ネットワークのアプリケーションに使われている量子情報の保存と転送を行うデバイスにおいて、その局所状態がスピン光子インターフェースとして機能する可能性があるからだ。
本研究では, ダイヤモンド, 炭化ケイ素, シリコンなどの半導体における5万点欠陥の高スループット計算を行った。
量子応用に焦点を当てて, 生成エネルギー, スピン特性, 遷移双極子モーメント, ゼロフォノン線など, これらの欠陥の光学的および電子的性質を特徴付ける。
内在シリコンで安定な2331個の複合欠陥が検出され、光に輝く多くのスピン量子ビット候補と単一光子源を特定するためにフィルタされる。
計算結果と緩和された欠陥構造はすべてquantumdefects.comで公開されている。これは欠陥特性の生きたデータベースであり、新たな欠陥や特性によって継続的に拡張され、研究者がアプリケーションに合わせた欠陥を選択することができる。 Solid-state point defects are attracting increasing attention in the field of quantum information science, because their localized states can act as a spin-photon interface in devices that store and transfer quantum information, which have been used for applications in quantum computing, sensing, and networking. In this work we have performed high-throughput calculations of over 50,000 point defects in various semiconductors including diamond, silicon carbide, and silicon. Focusing on quantum applications, we characterize the relevant optical and electronic properties of these defects, including formation energies, spin characteristics, transition dipole moments, zero-phonon lines. We find 2331 composite defects which are stable in intrinsic silicon, which are then filtered to identify many new optically bright telecom spin qubit candidates and single-photon sources. All computed results and relaxed defect structures are made publicly available online at quantumdefects.com, a living database of defect characteristics which will be continually expanded with new defects and properties, and will enable researchers to select defects tailored to their applications. | 翻訳日:2023-03-30 16:51:29 公開日:2023-03-28 |
# Google, ChatGPT, Wikipedia, YouTubeにおける言語バイアスの調査 A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube ( http://arxiv.org/abs/2303.16281v1 ) ライセンス: Link先を確認 | Queenie Luo, Michael J. Puett, Michael D. Smith | (参考訳) グーグル検索が「世界を理解するために多くの角度」から情報を提供するというミッションとは対照的に、グーグルとその最も顕著な成果は「バッダーリズム」や「リベリズム」、「コロン化」、「イラン」、そして「アメリカ」といった複雑なトピックの検索言語に結びついている文化的なステレオタイプを反映している。
簡単に言えば、彼らは異なる言語で同じ検索をまたいだ異なる情報を提示する(我々はそれを「言語バイアス」と呼んでいる)。
複雑なトピックのグローバルなイメージを提示する代わりに、私たちのオンライン検索は、他の文化的視点の存在に無関係に、象の小さな部分に触れる、実証的な盲人になるのです。
私たちが検索に使用する言語は、個人が自身の文化に基づいて他人やアイデアを評価する、エスノセントリックな見解を促進するための文化フィルターとして使われます。
また、言語バイアスがChatGPTに深く埋め込まれていることもわかりました。
主に英語のデータに基づいて訓練されているため、英米の視点を規範的な視点として示し、多面的な問題の複雑さを単一英米標準に還元する。
本稿では,言語バイアスの証拠と分析を行い,そのより大きな社会的影響について議論する。
論文の最後には,言語バイアスを活用するために自動翻訳を利用する可能性があり,また,象の真の描写をまとめる作業は,NLPの新たな研究分野にふさわしい課題であり,倫理的に健全で社会的に責任のある技術を生み出すためには,人文科学の研究者との協力が必要である,と論じている。 Contrary to Google Search's mission of delivering information from "many angles so you can form your own understanding of the world," we find that Google and its most prominent returned results -- Wikipedia and YouTube, simply reflect the narrow set of cultural stereotypes tied to the search language for complex topics like "Buddhism," "Liberalism," "colonization," "Iran" and "America." Simply stated, they present, to varying degrees, distinct information across the same search in different languages (we call it 'language bias'). Instead of presenting a global picture of a complex topic, our online searches turn us into the proverbial blind person touching a small portion of an elephant, ignorant of the existence of other cultural perspectives. The language we use to search ends up as a cultural filter to promote ethnocentric views, where a person evaluates other people or ideas based on their own culture. We also find that language bias is deeply embedded in ChatGPT. As it is primarily trained on English language data, it presents the Anglo-American perspective as the normative view, reducing the complexity of a multifaceted issue to the single Anglo-American standard. In this paper, we present evidence and analysis of language bias and discuss its larger social implications. Toward the end of the paper, we propose a potential framework of using automatic translation to leverage language bias and argue that the task of piecing together a genuine depiction of the elephant is a challenging and important endeavor that deserves a new area of research in NLP and requires collaboration with scholars from the humanities to create ethically sound and socially responsible technology together. | 翻訳日:2023-03-30 16:51:10 公開日:2023-03-28 |
# cyclegan: 画像対画像変換のためのganの品質向上 Rethinking CycleGAN: Improving Quality of GANs for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2303.16280v1 ) ライセンス: Link先を確認 | Dmitrii Torbunov, Yi Huang, Huan-Hsin Tseng, Haiwang Yu, Jin Huang, Shinjae Yoo, Meifeng Lin, Brett Viren, Yihui Ren | (参考訳) unpaired image-to-image (i2i) 変換技術は、2つのドメイン間のマッピングを完全に教師なしで探す。
I2I問題に対する最初の解決策はGAN(Generative Adversarial Neural Network)によって提供されたが、現在は拡散モデル(DM)がFIDの観点からI2I翻訳ベンチマークの最先端を保っている。
しかし、トレーニング中にソースドメインのデータを使用しない、あるいは単純なピクセル単位のエラーによってのみソースと変換画像の一貫性を維持する、といった制限がある。
この研究は、古典的なCycleGANモデルを再検討し、モデルアーキテクチャとモデルトレーニング手順の最近の進歩を取り入れている。
改訂されたモデルは、様々なベンチマークで他の先進的なGANやDMベースの競合より大幅に優れている。
CelebA の Male2Female 翻訳の場合、このモデルは最先端の結果と比較して FID スコアが40%以上改善されている。
この研究は、ピクセル単位のi2i翻訳の忠実性指標の非効率性を示し、その修正を提案する。
コードとトレーニングされたモデルはhttps://github.com/ls4gan/uvcgan2で入手できる。 An unpaired image-to-image (I2I) translation technique seeks to find a mapping between two domains of data in a fully unsupervised manner. While the initial solutions to the I2I problem were provided by the generative adversarial neural networks (GANs), currently, diffusion models (DM) hold the state-of-the-art status on the I2I translation benchmarks in terms of FID. Yet, they suffer from some limitations, such as not using data from the source domain during the training, or maintaining consistency of the source and translated images only via simple pixel-wise errors. This work revisits the classic CycleGAN model and equips it with recent advancements in model architectures and model training procedures. The revised model is shown to significantly outperform other advanced GAN- and DM-based competitors on a variety of benchmarks. In the case of Male2Female translation of CelebA, the model achieves over 40% improvement in FID score compared to the state-of-the-art results. This work also demonstrates the ineffectiveness of the pixel-wise I2I translation faithfulness metrics and suggests their revision. The code and trained models are available at https://github.com/LS4GAN/uvcgan2 | 翻訳日:2023-03-30 16:50:37 公開日:2023-03-28 |
# 複合凸最適化のための外挿によるサイクル座標平均化 Accelerated Cyclic Coordinate Dual Averaging with Extrapolation for Composite Convex Optimization ( http://arxiv.org/abs/2303.16279v1 ) ライセンス: Link先を確認 | Cheuk Yin Lin, Chaobing Song, Jelena Diakonikolas | (参考訳) 部分一階情報を循環的に活用することは、スケーラブルな一階法を得るための最も自然な戦略であることは間違いない。
しかし、実際に広く使われているにもかかわらず、循環スキームは、ランダム化されたスキームよりも理論的な観点からは理解されていない。
一般化変分不等式に対する外挿的巡回スキームの解析が最近成功したことに動機づけられて,複合凸最適化のための外挿法 (a-coder) を用いた高速化巡回座標双対平均化を提案する。
A-CODERは,前処理よりもブロック数に依存して最適な収束率が得られることを示す。
さらに, 目的関数の滑らかな成分が有限和形式で表現可能な設定に対しては, A-CODER, VR-A-CODERの分散還元変種を導入する。
最後に,数値実験によるアルゴリズムの有効性を示す。 Exploiting partial first-order information in a cyclic way is arguably the most natural strategy to obtain scalable first-order methods. However, despite their wide use in practice, cyclic schemes are far less understood from a theoretical perspective than their randomized counterparts. Motivated by a recent success in analyzing an extrapolated cyclic scheme for generalized variational inequalities, we propose an Accelerated Cyclic Coordinate Dual Averaging with Extrapolation (A-CODER) method for composite convex optimization, where the objective function can be expressed as the sum of a smooth convex function accessible via a gradient oracle and a convex, possibly nonsmooth, function accessible via a proximal oracle. We show that A-CODER attains the optimal convergence rate with improved dependence on the number of blocks compared to prior work. Furthermore, for the setting where the smooth component of the objective function is expressible in a finite sum form, we introduce a variance-reduced variant of A-CODER, VR-A-CODER, with state-of-the-art complexity guarantees. Finally, we demonstrate the effectiveness of our algorithms through numerical experiments. | 翻訳日:2023-03-30 16:50:15 公開日:2023-03-28 |
# 変形性NeRFのための流れの監視 Flow supervision for Deformable NeRF ( http://arxiv.org/abs/2303.16333v1 ) ライセンス: Link先を確認 | Chaoyang Wang, Lachlan Ewen MacDonald, Laszlo A. Jeni, Simon Lucey | (参考訳) 本稿では,光学フローを直接監視できる変形可能なNeRFの新たな手法を提案する。
我々は,変形可能なNeRFを用いて,流れの制約を後方変形場に強制する際の計算的非効率性に関して,大きな課題を克服する。
具体的には,フレーム間のシーンフローを計算するためには逆変形関数は不要であることを示す。
この洞察は、解析的に逆転できる変形関数に制約されないため、問題を劇的に単純化する。
代わりに、逆関数定理に基づく導出によって要求される弱い仮定のおかげで、このアプローチは一般的に使われる逆変形場の広いクラスに拡張することができる。
本稿では,高速物体移動を伴う単眼的新規ビュー合成の結果を示し,フロー監視を伴わないベースラインに対して有意な改善を示す。 In this paper we present a new method for deformable NeRF that can directly use optical flow as supervision. We overcome the major challenge with respect to the computationally inefficiency of enforcing the flow constraints to the backward deformation field, used by deformable NeRFs. Specifically, we show that inverting the backward deformation function is actually not needed for computing scene flows between frames. This insight dramatically simplifies the problem, as one is no longer constrained to deformation functions that can be analytically inverted. Instead, thanks to the weak assumptions required by our derivation based on the inverse function theorem, our approach can be extended to a broad class of commonly used backward deformation field. We present results on monocular novel view synthesis with rapid object motion, and demonstrate significant improvements over baselines without flow supervision. | 翻訳日:2023-03-30 16:44:06 公開日:2023-03-28 |
# 誤差の存在下でのステアリングによる量子状態工学 Quantum state engineering by steering in the presence of errors ( http://arxiv.org/abs/2303.16329v1 ) ライセンス: Link先を確認 | E. Medina-Guerra, Parveen Kumar, I. V. Gornyi, and Yuval Gefen | (参考訳) 量子状態工学は、量子情報分野における様々な応用において重要な役割を果たす。
運転・散逸、断熱冷却、測定に基づくステアリングなど、異なる戦略が過去に提案されており、それぞれが上向きと下向きで、状態生成と操作のために提案されてきた。
本稿では,量子システムを目的とする状態に向けて制御するために,一般化された測定のシーケンスを用いる計測ベースの状態工学プロトコルのクラスについて述べる。
従来、測定ベースのプロトコルは理想的な手順に依存しており、実験的な実現と外部ノイズの不完全性から生じる様々なエラーの影響の探索を避けていた。
我々は,これらのステアリングプロトコルの各種誤差に対するロバスト性に関する詳細な解析を行うために,量子軌道形式を用いる。
プロトコルの実行中に変更が残らないかによって、動的または静的に分類できる一連のエラーについて検討する。
具体的には, システム-検出器結合の誤選択, 測定ステップ後の検出器状態の再初期化, 操舵方向の変動, システム-検出器相互作用における環境負荷の影響について検討する。
このプロトコルは,システム検出器結合パラメータの誤選択に対して完全に堅牢であり,他の誤りに対して合理的な頑健性を示す。
我々は,プロトコルのロバスト性を特徴づけ,解析結果を提供するために,忠実度,トレース距離,線形エントロピーなどの様々な量化器を用いる。
その後,乗算ホワイトノイズを持つハミルトニアンの指数関数の古典的期待値と時間順序演算子の交換と,検出結果に対する期待値と部分的トレースの交換を実演する。 Quantum state engineering plays a vital role in various applications in the field of quantum information. Different strategies, including drive-and-dissipation, adiabatic cooling, and measurement-based steering, have been proposed in the past for state generation and manipulation, each with its upsides and downsides. Here, we address a class of measurement-based state engineering protocols where a sequence of generalized measurements is employed to steer a quantum system toward a desired target state. Previously studied measurement-based protocols relied on idealized procedures and avoided exploration of the effects of various errors stemming from imperfections of experimental realizations and external noise. We employ the quantum trajectory formalism to provide a detailed analysis of the robustness of these steering protocols against various errors. We study a set of errors that can be classified as dynamic or static, depending on whether they remain unchanged while running the protocol. More specifically, we investigate the impact of erroneous choice of system-detector coupling, re-initialization of the detector state following a measurement step, fluctuating steering directions, and environmentally induced errors in the system-detector interaction. We show that the protocol remains fully robust against the erroneous choice of system-detector coupling parameters and presents reasonable robustness against other errors. We employ various quantifiers such as fidelity, trace distance, and linear entropy to characterize the protocol's robustness and provide analytical results. Subsequently, we demonstrate the commutation between the classical expectation value and the time-ordering operator of the exponential of a Hamiltonian with multiplicative white noise, as well as the commutation of the expectation value and the partial trace with respect to detector outcomes. | 翻訳日:2023-03-30 16:43:53 公開日:2023-03-28 |
# ファジィ時空:量子光学ホログラフィックバルク再構成の基本限界 Fuzzy spacetime: fundamental limits of quantum-optical holographic bulk reconstruction ( http://arxiv.org/abs/2303.16326v1 ) ライセンス: Link先を確認 | Erickson Tjoa | (参考訳) このエッセイでは、局所化された量子力学的プローブを用いた時空計量再構成に量子論と熱力学によって課される基本的な限界があると主張する。
我々は、相対論的量子情報における粒子検出器の量子光学モデルを用いたメートル法再構成の具体的かつ非摂動的実現を提供することによりこれを行う。
非摂動的アプローチにより、ケンプの「短距離物理学は統計学の貧弱さに対応している」という考え方を実現できるが、これはプランクスケールを超える。
これらの基本的な制限は、漸近的に平坦な時空におけるスカラー相関子間のバルク対境界対応を用いたホログラフィック双対解釈を与えることができる。 In this Essay we argue that there are fundamental limits imposed by quantum theory and thermodynamics on spacetime metric reconstruction using localized quantum-mechanical probes: the "fuzziness" of spacetime that arise from operational measurement protocols is already present before one reaches the quantum-gravitational regime. We do this by providing a concrete, non-perturbative realization of metric reconstruction using quantum-optical model of particle detectors in relativistic quantum information. The non-perturbative approach allows us to realize a version of "short-distance physics corresponds to poor statistics" idea by Kempf, but this occurs way above the Planck scale. These fundamental limitations can be given a holographic dual interpretation using bulk-to-boundary correspondence between scalar correlators in asymptotically flat spacetimes. | 翻訳日:2023-03-30 16:43:26 公開日:2023-03-28 |
# FMAS: セマンティックセグメンテーションのための高速多目的スーパーネットアーキテクチャ検索 FMAS: Fast Multi-Objective SuperNet Architecture Search for Semantic Segmentation ( http://arxiv.org/abs/2303.16322v1 ) ライセンス: Link先を確認 | Zhuoran Xiong, Marihan Amein, Olivier Therrien, Warren J. Gross, Brett H. Meyer | (参考訳) 本稿では,セマンティックセグメンテーションのための高速多目的ニューラルアーキテクチャ探索フレームワークFMASを提案する。
FMASはDeepLabV3+の構造と事前訓練されたパラメータを微調整することなくサブサンプリングし、検索中のトレーニング時間を劇的に短縮する。
候補評価時間をさらに短縮するために、探索中に検証データセットのサブセットを使用する。
最終候補であるPareto非支配の候補者のみが、最終的に完全なトレーニングセットを使用して微調整される。
我々は,PASCAL VOC 2012データセット上で精度と計算コストを効果的に交換するモデルを探索し,FMASを評価する。
例えば、0.5GPUでFLOPとパラメータをそれぞれ10$\%$と20$\%$に減らし、3$\%$以上のエラーを発生させるDeepLabV3+を発見できる。
また、gap8と呼ばれるエッジデバイスを検索し、そのレイテンシを測定基準として使用します。
FMASは7.61$\%のMIoU損失を持つ2.2$\times$高速ネットワークを見つけることができる。 We present FMAS, a fast multi-objective neural architecture search framework for semantic segmentation. FMAS subsamples the structure and pre-trained parameters of DeepLabV3+, without fine-tuning, dramatically reducing training time during search. To further reduce candidate evaluation time, we use a subset of the validation dataset during the search. Only the final, Pareto non-dominated, candidates are ultimately fine-tuned using the complete training set. We evaluate FMAS by searching for models that effectively trade accuracy and computational cost on the PASCAL VOC 2012 dataset. FMAS finds competitive designs quickly, e.g., taking just 0.5 GPU days to discover a DeepLabV3+ variant that reduces FLOPs and parameters by 10$\%$ and 20$\%$ respectively, for less than 3$\%$ increased error. We also search on an edge device called GAP8 and use its latency as the metric. FMAS is capable of finding 2.2$\times$ faster network with 7.61$\%$ MIoU loss. | 翻訳日:2023-03-30 16:43:14 公開日:2023-03-28 |
# 無限時間ホリゾン上の部分観測を用いた最悪ケース制御と学習 Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon ( http://arxiv.org/abs/2303.16321v1 ) ライセンス: Link先を確認 | Aditya Dave, Ioannis Faros, Nishanth Venkatesh, and Andreas A. Malikopoulos | (参考訳) 安全クリティカルなサイバー物理システムは、敵の妨害や不確実性のモデリングに対して最悪のパフォーマンスが堅牢な制御戦略を必要とする。
本稿では,半観測システムにおける近似制御と学習の枠組みを提案し,無限時間ホリゾンに対する最悪の割引コストを最小化する。
確率分布が未知な有限値不確実変数として系に障害をモデル化する。
既知のシステムダイナミクスの問題に対して,最適制御戦略を計算するために動的プログラミング(dp)分解を構築する。
最初のコントリビューションは、最適性を失うことなくDPの計算的トラクタビリティを向上させる情報状態を定義することです。
次に,各時間に発生したコストが観測可能な問題に対する単純化について述べる。
第2の貢献は,可観測コストの問題に対して,観測データから直接構築あるいは学習可能な近似情報状態の定義である。
得られた近似制御戦略の性能損失の限界を導出する。 Safety-critical cyber-physical systems require control strategies whose worst-case performance is robust against adversarial disturbances and modeling uncertainties. In this paper, we present a framework for approximate control and learning in partially observed systems to minimize the worst-case discounted cost over an infinite time-horizon. We model disturbances to the system as finite-valued uncertain variables with unknown probability distributions. For problems with known system dynamics, we construct a dynamic programming (DP) decomposition to compute the optimal control strategy. Our first contribution is to define information states that improve the computational tractability of this DP without loss of optimality. Then, we describe a simplification for a class of problems where the incurred cost is observable at each time-instance. Our second contribution is a definition of approximate information states that can be constructed or learned directly from observed data for problems with observable costs. We derive bounds on the performance loss of the resulting approximate control strategy. | 翻訳日:2023-03-30 16:42:56 公開日:2023-03-28 |
# SynthRAD2023 グランドチャレンジデータセット:放射線治療のための合成CTの作成 SynthRAD2023 Grand Challenge dataset: generating synthetic CT for radiotherapy ( http://arxiv.org/abs/2303.16320v1 ) ライセンス: Link先を確認 | Adrian Thummerer, Erik van der Bijl, Arthur Jr Galapon, Joost JC Verhoeff, Johannes A Langendijk, Stefan Both, Cornelis (Nico) AT van den Berg, Matteo Maspero | (参考訳) 目的: 腫瘍患者の診断と治療, 特に放射線治療において, 画像診断がますます重要になっている。
合成ct(sct)生成の最近の進歩は、異なるアプローチをオープンに比較するためのデータと評価指標を提供するパブリックな課題に対する関心を高めている。
本稿では,放射線治療計画のための sCT の生成と評価を容易にするため,厳格に登録された CBCT 画像と MRI 画像を用いた脳・骨盤CT 画像のデータセットについて述べる。
取得と検証方法: このデータセットは、オランダの3つの大学医療センターから540個の脳と540個の骨盤放射線治療患者のCT、CBCT、MRIから成り立っている。
年齢は3歳から93歳まで変化し、平均年齢は60歳であった。
様々なスキャナーモデルと取得設定が3つのデータ提供センターの患者間で使用された。
詳細はデータセットを備えたCSVファイルで確認できる。
データはsynthrad2023のコレクションでzenodo(https://doi.org/10.5281/zenodo.7260705)で利用可能である。
各主題のイメージは nifti フォーマットで利用可能である。
潜在的な応用: このデータセットは、様々な取得プロトコルを持つ現実的なマルチセンターデータセット上で、放射線治療目的の画像合成アルゴリズムの評価と開発を可能にする。
合成CT生成は、診断、治療計画、治療モニタリング、手術計画など、放射線治療に多くの応用がある。 Purpose: Medical imaging has become increasingly important in diagnosing and treating oncological patients, particularly in radiotherapy. Recent advances in synthetic computed tomography (sCT) generation have increased interest in public challenges to provide data and evaluation metrics for comparing different approaches openly. This paper describes a dataset of brain and pelvis computed tomography (CT) images with rigidly registered CBCT and MRI images to facilitate the development and evaluation of sCT generation for radiotherapy planning. Acquisition and validation methods: The dataset consists of CT, CBCT, and MRI of 540 brains and 540 pelvic radiotherapy patients from three Dutch university medical centers. Subjects' ages ranged from 3 to 93 years, with a mean age of 60. Various scanner models and acquisition settings were used across patients from the three data-providing centers. Details are available in CSV files provided with the datasets. Data format and usage notes: The data is available on Zenodo (https://doi.org/10.5281/zenodo.7260705) under the SynthRAD2023 collection. The images for each subject are available in nifti format. Potential applications: This dataset will enable the evaluation and development of image synthesis algorithms for radiotherapy purposes on a realistic multi-center dataset with varying acquisition protocols. Synthetic CT generation has numerous applications in radiation therapy, including diagnosis, treatment planning, treatment monitoring, and surgical planning. | 翻訳日:2023-03-30 16:42:43 公開日:2023-03-28 |
# 可変量子マルチブロックADMMアルゴリズムによる生成スケジューリング Trainable Variational Quantum-Multiblock ADMM Algorithm for Generation Scheduling ( http://arxiv.org/abs/2303.16318v1 ) ライセンス: Link先を確認 | Reza Mahroo, Amin Kargarian | (参考訳) 量子コンピューティングの出現は、複雑な問題の解決方法に革命をもたらす可能性がある。
本稿では,量子コンピューティング,機械学習,分散最適化を融合して生成スケジューリングを行う2ループ量子古典解アルゴリズムを提案する。
本研究の目的は,生成スケジューリングなどの実用的な電力系統最適化問題を解決するために,量子ビット数に制限のあるノイズの多い近距離量子マシンの導入を容易にすることである。
外ループは、生成スケジューリング問題を3つのサブプロブレムに分解する乗算器(QADMM)アルゴリズムの3ブロック量子代替方向法であり、1つの2次非制約バイナリ最適化(QUBO)と2つの非QUBOを含む。
内部ループは量子コンピュータ上でQUBOを解くためのトレーニング可能な量子近似最適化アルゴリズム(T-QAOA)である。
提案したT-QAOAは、量子古典機械の相互作用を逐次情報として翻訳し、リカレントニューラルネットワークを用いて、適切なサンプリング手法を用いて量子回路の変動パラメータを推定する。
T-QAOAは量子古典解法に必要な数百の反復ではなく、数回の量子ラーナー反復でQUBO解を決定する。
外部3ブロックADMMはQUBOと非QUBOを座標し、元の問題の解を得る。
提案したQADMMが収束することが保証されている条件について論じる。
2つの数学的および3世代スケジューリングケースが研究されている。
量子シミュレータと古典コンピュータを用いた解析により,提案アルゴリズムの有効性が示された。
T-QAOAの利点について,確率勾配降下に基づく最適化を用いたQAOAと比較検討した。 The advent of quantum computing can potentially revolutionize how complex problems are solved. This paper proposes a two-loop quantum-classical solution algorithm for generation scheduling by infusing quantum computing, machine learning, and distributed optimization. The aim is to facilitate employing noisy near-term quantum machines with a limited number of qubits to solve practical power system optimization problems such as generation scheduling. The outer loop is a 3-block quantum alternative direction method of multipliers (QADMM) algorithm that decomposes the generation scheduling problem into three subproblems, including one quadratically unconstrained binary optimization (QUBO) and two non-QUBOs. The inner loop is a trainable quantum approximate optimization algorithm (T-QAOA) for solving QUBO on a quantum computer. The proposed T-QAOA translates interactions of quantum-classical machines as sequential information and uses a recurrent neural network to estimate variational parameters of the quantum circuit with a proper sampling technique. T-QAOA determines the QUBO solution in a few quantum-learner iterations instead of hundreds of iterations needed for a quantum-classical solver. The outer 3-block ADMM coordinates QUBO and non-QUBO solutions to obtain the solution to the original problem. The conditions under which the proposed QADMM is guaranteed to converge are discussed. Two mathematical and three generation scheduling cases are studied. Analyses performed on quantum simulators and classical computers show the effectiveness of the proposed algorithm. The advantages of T-QAOA are discussed and numerically compared with QAOA which uses a stochastic gradient descent-based optimizer. | 翻訳日:2023-03-30 16:42:18 公開日:2023-03-28 |
# PCA-Netによる演算子学習--上と下の境界 Operator learning with PCA-Net: upper and lower complexity bounds ( http://arxiv.org/abs/2303.16317v1 ) ライセンス: Link先を確認 | Samuel Lanthaler | (参考訳) ニューラル演算子は計算科学と工学で注目を集めている。
pca-netは、主成分分析(pca)とニューラルネットワークを組み合わせた最近提案されたニューラルネットワークアーキテクチャである。
本研究は,このアプローチの近似理論を展開し,従来の研究を改良し,その方向に大きく拡張する。
定性的境界に関して、本論文は、基礎となる演算子とデータ生成分布に関する最小の仮定の下で、新しい普遍近似結果を導出する。
定量的境界に関して、PCA-Netを用いた効率的な演算子学習のための2つの潜在的障害を特定し、より低い複雑性境界の導出により厳密にし、第1に、PCA固有値の緩やかな減衰によって測定された出力分布の複雑さに関連する。
もう1つの障害は、無限次元の入力空間と出力空間の間の作用素空間の固有の複雑さに関係し、その結果、厳密で定量化可能な次元の呪いのステートメントをもたらす。
これらの下界に加えて、上述の複雑性境界が導出され、第一に、pca固有値の代数的減衰を保証する適切な滑らかさ基準が示される。
そこで,PCA-Netは,ダーシー流とナビエ・ストークス方程式から生じる,特定の操作者に対する次元性の一般的な呪いを克服できることを示した。 Neural operators are gaining attention in computational science and engineering. PCA-Net is a recently proposed neural operator architecture which combines principal component analysis (PCA) with neural networks to approximate an underlying operator. The present work develops approximation theory for this approach, improving and significantly extending previous work in this direction. In terms of qualitative bounds, this paper derives a novel universal approximation result, under minimal assumptions on the underlying operator and the data-generating distribution. In terms of quantitative bounds, two potential obstacles to efficient operator learning with PCA-Net are identified, and made rigorous through the derivation of lower complexity bounds; the first relates to the complexity of the output distribution, measured by a slow decay of the PCA eigenvalues. The other obstacle relates the inherent complexity of the space of operators between infinite-dimensional input and output spaces, resulting in a rigorous and quantifiable statement of the curse of dimensionality. In addition to these lower bounds, upper complexity bounds are derived; first, a suitable smoothness criterion is shown to ensure a algebraic decay of the PCA eigenvalues. Then, it is shown that PCA-Net can overcome the general curse of dimensionality for specific operators of interest, arising from the Darcy flow and Navier-Stokes equations. | 翻訳日:2023-03-30 16:41:54 公開日:2023-03-28 |
# チュートリアル:非線形マグノニクス Tutorial: Nonlinear magnonics ( http://arxiv.org/abs/2303.16313v1 ) ライセンス: Link先を確認 | Shasha Zheng, Zhenyu Wang, Yipu Wang, Fengxiao Sun, Qiongyi He, Peng Yan, and H. Y. Yuan | (参考訳) 非線形マグノニクスは、マグノンと他の物理プラットフォーム(フォノン、フォトン、クビット、スピンテクスチャ)の間の非線形相互作用を研究し、情報処理のための新しいマグノン状態を生成する。
本チュートリアルでは, 純磁性系におけるマグノンの非線形相互作用と, ハイブリッドマグノンフォノンおよびマグノンフォトン系について紹介する。
次に、これらの非線形相互作用がいかにエキゾチックなマグノニック現象を生じさせるかを示す。
古典的体制では、マグノンのパラメトリック励起、不安定性と多重性、およびマグノン周波数コムをカバーする。
量子状態においては、単一のマグノン状態、Schr\"{o}dinger cat状態、およびマグノン、光子、フォノン間の絡み合いと量子ステアリングについて議論する。
量子トランスデューサとセンシングにおけるハイブリッドマグノニクス系の応用についても述べる。
最後に,非線形マグノニクスの今後の発展方向を概観する。 Nonlinear magnonics studies the nonlinear interaction between magnons and other physical platforms (phonon, photon, qubit, spin texture) to generate novel magnon states for information processing. In this tutorial, we first introduce the nonlinear interactions of magnons in pure magnetic systems and hybrid magnon-phonon and magnon-photon systems. Then we show how these nonlinear interactions can generate exotic magnonic phenomena. In the classical regime, we will cover the parametric excitation of magnons, bistability and multistability, and the magnonic frequency comb. In the quantum regime, we will discuss the single magnon state, Schr\"{o}dinger cat state and the entanglement and quantum steering among magnons, photons and phonons. The applications of the hybrid magnonics systems in quantum transducer and sensing will also be presented. Finally, we outlook the future development direction of nonlinear magnonics. | 翻訳日:2023-03-30 16:41:31 公開日:2023-03-28 |
# 機械学習とディープラーニングによる犯罪予測 : 体系的レビューと今後の方向性 Crime Prediction Using Machine Learning and Deep Learning: A Systematic Review and Future Directions ( http://arxiv.org/abs/2303.16310v1 ) ライセンス: Link先を確認 | Varun Mandalapu, Lavanya Elluri, Piyush Vyas and Nirmalya Roy | (参考訳) 近年,機械学習と深層学習技術を用いた犯罪予測は,犯罪発生のパターンや傾向の特定に焦点をあてて,研究者から大きな注目を集めている。
本稿では,犯罪予測に応用されるさまざまな機械学習と深層学習アルゴリズムについて,150以上の論文を考察する。
この研究は、研究者による犯罪予測に使用されるデータセットへのアクセスを提供し、犯罪を予測する機械学習およびディープラーニングアルゴリズムに適用される顕著なアプローチを分析し、犯罪活動に関連するさまざまな傾向や要因に関する洞察を提供する。
さらに,犯罪予測の精度を高めるための潜在的なギャップと今後の方向性を強調した。
最後に,機械学習と深層学習を用いた犯罪予測の総合的な研究概要は,この分野の研究者にとって貴重な資料である。
犯罪予測手法のより深い理解を得ることで、法執行機関は犯罪行為の防止と対応をより効果的に進めることができる。 Predicting crime using machine learning and deep learning techniques has gained considerable attention from researchers in recent years, focusing on identifying patterns and trends in crime occurrences. This review paper examines over 150 articles to explore the various machine learning and deep learning algorithms applied to predict crime. The study provides access to the datasets used for crime prediction by researchers and analyzes prominent approaches applied in machine learning and deep learning algorithms to predict crime, offering insights into different trends and factors related to criminal activities. Additionally, the paper highlights potential gaps and future directions that can enhance the accuracy of crime prediction. Finally, the comprehensive overview of research discussed in this paper on crime prediction using machine learning and deep learning approaches serves as a valuable reference for researchers in this field. By gaining a deeper understanding of crime prediction techniques, law enforcement agencies can develop strategies to prevent and respond to criminal activities more effectively. | 翻訳日:2023-03-30 16:41:13 公開日:2023-03-28 |
# 新しいタスクをポップクイズとして合成するブロックベースプログラミングにおける適応スキャッフィング Adaptive Scaffolding in Block-Based Programming via Synthesizing New Tasks as Pop Quizzes ( http://arxiv.org/abs/2303.16359v1 ) ライセンス: Link先を確認 | Ahana Ghosh, Sebastian Tschiatschek, Sam Devlin, Adish Singla | (参考訳) ブロックベースのプログラミング環境は、初心者にコンピューティングの概念を導入するためにますます使われている。
しかし、初等生はプログラミングタスクの概念的かつオープンな性質から、これらの環境に苦しむことが多い。
課題解決に苦しむ学生を効果的に支援するためには、生徒をソリューションへと導く適応的な足場を提供することが重要である。
マルチチョイスプログラミングタスクとして提示されるポップクイズに基づく足場構築フレームワークを提案する。
これらのポップクイズを自動的に生成するために,新しいアルゴリズムであるpquizsynを提案する。
より正式には、ソリューションコードと学生の現在の試みによる参照タスクが与えられた場合、PQuizSynは以下の機能でポップクイズのための新しいタスクを合成する。
(a)適応(すなわち、学生の現在の試みに個別化された)
(b)理解し易く(すなわち理解し易く、解き易い)、
(c) 取得する(すなわち、解決コードを公開しない)。
本アルゴリズムは,記号推論とグラフに基づくコード表現に基づく手法を用いてこれらのタスクを合成する。
提案アルゴリズムは,Hour of Code: Maze Challenge と Karel からの参照タスクに対して,何百ものポップクイズを生成することができることを示す。
評価用ルーブリックを用いて,専門家評価によるポップクイズの品質評価を行った。
さらに,ポップクイズに基づくフィードバックによるブロックベースのプログラミングタスクを実践するオンラインプラットフォームを構築し,ユーザ調査の結果を報告する。 Block-based programming environments are increasingly used to introduce computing concepts to beginners. However, novice students often struggle in these environments, given the conceptual and open-ended nature of programming tasks. To effectively support a student struggling to solve a given task, it is important to provide adaptive scaffolding that guides the student towards a solution. We introduce a scaffolding framework based on pop quizzes presented as multi-choice programming tasks. To automatically generate these pop quizzes, we propose a novel algorithm, PQuizSyn. More formally, given a reference task with a solution code and the student's current attempt, PQuizSyn synthesizes new tasks for pop quizzes with the following features: (a) Adaptive (i.e., individualized to the student's current attempt), (b) Comprehensible (i.e., easy to comprehend and solve), and (c) Concealing (i.e., do not reveal the solution code). Our algorithm synthesizes these tasks using techniques based on symbolic reasoning and graph-based code representations. We show that our algorithm can generate hundreds of pop quizzes for different student attempts on reference tasks from Hour of Code: Maze Challenge and Karel. We assess the quality of these pop quizzes through expert ratings using an evaluation rubric. Further, we have built an online platform for practicing block-based programming tasks empowered via pop quiz based feedback, and report results from an initial user study. | 翻訳日:2023-03-30 16:34:09 公開日:2023-03-28 |
# 閉じ込められたイオンによる量子コンピューティング:初心者のガイド Quantum computing with trapped ions: a beginner's guide ( http://arxiv.org/abs/2303.16358v1 ) ライセンス: Link先を確認 | Francesco Bernardini, Abhijit Chakraborty, and Carlos Ord\'o\~nez | (参考訳) この教育的な記事では、スケーラブルな量子コンピュータのための最もよく使われるプラットフォームであるイオンを捕捉する量子コンピューティングの基礎を説明します。
ソリューションの適合性は、DiVincenzo基準に対する性能を示すことで解決される。 This pedagogical article explains the basics of quantum computing using one of the most-used platform for scalable quantum computers: trapped ions. The suitability of the solution is addressed by showing its performance towards DiVincenzo criteria. | 翻訳日:2023-03-30 16:33:50 公開日:2023-03-28 |
# 半変態アンザッツ:量子相空間におけるクォーコニウムダイナミクス The Half Transform Ansatz: Quarkonium Dynamics in Quantum Phase Space ( http://arxiv.org/abs/2303.16356v1 ) ライセンス: Link先を確認 | Gabriel Nowaskie | (参考訳) Torres-VegaとFrederickによる基礎研究以来、量子位相空間表現(Quantum Phase Space Representation, QPSR)は様々な物理系を解く方法として研究されてきた。
最近、valentino a. simpao は qpsr における時間依存シュロディンガー方程式 (tdse) を解くためのheaviside operational ansatz 法を開発したが、qpsr における時間依存シュロディンガー方程式を解くための一般的な直接法は存在しない。
相空間におけるクォーコニウムの現在の定式化も存在しない。
本論文では、コーネルポテンシャルを用いた非相対論的重クォークの強い相互作用を記述し、ニキフォロフ・ウバロフ法による位相空間波関数とそのエネルギー固有値の解法として、シュロディンガー方程式を超幾何学形式にキャストする手法であるハーフ変換アンザッツを提案する。
この解は多項式と相互項からなる硬化ポテンシャルを持つ任意の2つの粒子系に対して一般化することができる。
これらの結果は実験結果や他の理論モデルと比較される。
また,これらの波動関数の挙動を解析し,円周運動量とチャームアンチチャーム中間子の存在限界との関係を示唆する。 Since the groundwork published by Torres-Vega and Frederick, the Quantum Phase Space Representation (QPSR) has been explored as a method for solving a multitude of physical systems and describing phenomena. Most recently, Valentino A. Simpao has developed a method, the Heaviside Operational Ansatz, to solve the Time Dependent Schrodinger Equation (TDSE) in the QPSR, but there are still no general, direct methods to solve the Time Independent Schrodinger Equation in the QPSR. There is also no current formulation of quarkonium in phase space. In this paper, we describe the strong interactions of non-relativistic heavy quarks using the Cornell potential, and present a method, the Half-Transform Ansatz, to cast the Schrodinger Equation into a hyper-geometric form which can be solved for the phase space wave function and its energy eigenvalues using the Nikiforov-Uvarov method. This solution can be generalized for any two particle system with a scleronomic potential made up of polynomial and reciprocal terms. These results are compared to experimental results and other theoretical models. We also analyze the behavior of these wave functions, which suggest a correlation between radial momentum and the upper limit of existence in charm-anticharm mesons. | 翻訳日:2023-03-30 16:33:47 公開日:2023-03-28 |
# チャットGPTか学術科学者か?
市販機械学習ツールを用いた99%以上の精度で著者の識別 ChatGPT or academic scientist? Distinguishing authorship with over 99% accuracy using off-the-shelf machine learning tools ( http://arxiv.org/abs/2303.16352v1 ) ライセンス: Link先を確認 | Heather Desaire, Aleesa E. Chua, Madeline Isom, Romana Jarosova, and David Hua | (参考訳) chatgptは、大衆のためにaiが生成した文章へのアクセスを可能にし、わずか数ヶ月のうちにこの製品は知識経済を混乱させ、人々の働き方、学び、書く方法の文化的な変化を引き起こした。
AIから人間の文章を識別する必要性は、特に高度な教育や学術的な執筆のような分野において、現在、批判的かつ緊急的なものとなっている。
そこで本研究では, (人間) 学術研究者の chatgpt が生成するテキストを, 広範かつアクセス可能な教師付き分類法に依拠して識別する手法を開発した。
対象とするアプローチは、aiから人間を識別するための新しい機能の発見につながった。例えば、科学者は長い段落を書き、エクセプショナル言語のためのペンチャントを持ち、しかし、しかしながら、しばしば単語を使用する。
前述のものなどを含む20の機能をセットとして,著者を人間あるいはAIとして,99%以上の精度で割り当てるモデルを構築しました。
このAIから書かれた特定の人間の集団を識別するための戦略は、教師付き分類における基本的なスキルを持つ他の人によってさらに適応され、開発され、学術的な文章などにおけるAIの使用を検出するための、多くの高精度でターゲットとしたモデルへのアクセスが可能になる。 ChatGPT has enabled access to AI-generated writing for the masses, and within just a few months, this product has disrupted the knowledge economy, initiating a culture shift in the way people work, learn, and write. The need to discriminate human writing from AI is now both critical and urgent, particularly in domains like higher education and academic writing, where AI had not been a significant threat or contributor to authorship. Addressing this need, we developed a method for discriminating text generated by ChatGPT from (human) academic scientists, relying on prevalent and accessible supervised classification methods. We focused on how a particular group of humans, academic scientists, write differently than ChatGPT, and this targeted approach led to the discovery of new features for discriminating (these) humans from AI; as examples, scientists write long paragraphs and have a penchant for equivocal language, frequently using words like but, however, and although. With a set of 20 features, including the aforementioned ones and others, we built a model that assigned the author, as human or AI, at well over 99% accuracy, resulting in 20 times fewer misclassified documents compared to the field-leading approach. This strategy for discriminating a particular set of humans writing from AI could be further adapted and developed by others with basic skills in supervised classification, enabling access to many highly accurate and targeted models for detecting AI usage in academic writing and beyond. | 翻訳日:2023-03-30 16:33:20 公開日:2023-03-28 |
# 顔認識技術は、人口統計や自己表現をコントロールしても、顔画像から政治的指向を露呈できる Facial recognition technology can expose political orientation from facial images even when controlling for demographics and self-presentation ( http://arxiv.org/abs/2303.16343v1 ) ライセンス: Link先を確認 | Michal Kosinski, Poruz Khambatta, Yilun Wang | (参考訳) 研究室で撮影された591枚の中性顔の画像から顔ディスクリプタを抽出するために顔認識アルゴリズムを用いた。
顔記述者は、年齢、性別、民族をコントロールしながら、政治的指向尺度 (cronbach's alpha=.94) で参加者のスコアを予測するために、横断評価線形回帰(cross-validated linear regression)に入力された。
モデルのパフォーマンスは、人間のレイターよりもr=.20以上で、就職面接が仕事の成功、アルコールの攻撃性、心理的治療がメンタルヘルスを改善するのと同等である。
さらに,米国,英国,カナダの3,401人の政治家の自然主義的イメージのサンプルにおいて,標準化された画像から得られたモデル(r=.12)が良好な結果を示した。
政治的指向に関連する顔の特徴の分析では、保守派はより低い顔を持つが、政治的指向は身体質量指数(BMI)と弱い関係しか持たなかった。
標準化された画像から政治的指向を予測することは、プライバシー、顔認識技術の規制、および政治的指向の起源と結果の理解に重要な意味を持つ。 A facial recognition algorithm was used to extract face descriptors from carefully standardized images of 591 neutral faces taken in the laboratory setting. Face descriptors were entered into a cross-validated linear regression to predict participants' scores on a political orientation scale (Cronbach's alpha=.94) while controlling for age, gender, and ethnicity. The model's performance exceeded r=.20: much better than that of human raters and on par with how well job interviews predict job success, alcohol drives aggressiveness, or psychological therapy improves mental health. Moreover, the model derived from standardized images performed well (r=.12) in a sample of naturalistic images of 3,401 politicians from the U.S., UK, and Canada, suggesting that the associations between facial appearance and political orientation generalize beyond our sample. The analysis of facial features associated with political orientation revealed that conservatives had larger lower faces, although political orientation was only weakly associated with body mass index (BMI). The predictability of political orientation from standardized images has critical implications for privacy, regulation of facial recognition technology, as well as the understanding the origins and consequences of political orientation. | 翻訳日:2023-03-30 16:32:56 公開日:2023-03-28 |
# Trimodal Consistencyによる言語誘導型オーディオ・ビジュアル音源分離 Language-Guided Audio-Visual Source Separation via Trimodal Consistency ( http://arxiv.org/abs/2303.16342v1 ) ライセンス: Link先を確認 | Reuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon, Oriol Nieto, Bryan Russell, Kate Saenko | (参考訳) 学習データとしてラベル付きビデオと音声ペアのみを使用して,自然言語クエリに基づく映像の音源分離を行うための自己教師あり学習手法を提案する。
この課題の重要な課題は、発音対象の言語記述とその視覚的特徴と対応する音響波形の構成要素を、トレーニング中にアノテーションにアクセスせずに関連付けることである。
この課題を克服するために,本研究は,既成の視覚言語基礎モデルを用いて,2つの新たな損失関数による擬似的目標監視を行い,音声,視覚,自然言語との整合性の強化を図る。
提案手法は,テキスト入力,ビデオ入力,音声入力,あるいはテキスト入力と音声入力のみを分離する。
音楽、ソロ、オーディオセットを含む3つの音声・視覚分離データセットにおいて、トレーニング中にオブジェクト検出器やテキストラベルを使用しないにもかかわらず、最先端の教師付きアプローチを上回って、自己教師付きアプローチの有効性を実証する。 We propose a self-supervised approach for learning to perform audio source separation in videos based on natural language queries, using only unlabeled video and audio pairs as training data. A key challenge in this task is learning to associate the linguistic description of a sound-emitting object to its visual features and the corresponding components of the audio waveform, all without access to annotations during training. To overcome this challenge, we adapt off-the-shelf vision-language foundation models to provide pseudo-target supervision via two novel loss functions and encourage a stronger alignment between the audio, visual and natural language modalities. During inference, our approach can separate sounds given text, video and audio input, or given text and audio input alone. We demonstrate the effectiveness of our self-supervised approach on three audio-visual separation datasets, including MUSIC, SOLOS and AudioSet, where we outperform state-of-the-art strongly supervised approaches despite not using object detectors or text labels during training. | 翻訳日:2023-03-30 16:32:33 公開日:2023-03-28 |
# テキストグラウンドティングによる時空間識別型ビデオランゲージ事前学習 Spatiotemporally Discriminative Video-Language Pre-Training with Text Grounding ( http://arxiv.org/abs/2303.16341v1 ) ライセンス: Link先を確認 | Yuanhao Xiong, Long Zhao, Boqing Gong, Ming-Hsuan Yang, Florian Schroff, Ting Liu, Cho-Jui Hsieh, Liangzhe Yuan | (参考訳) 既存のビデオ言語事前学習手法のほとんどは、グローバルコントラスト学習によるビデオクリップとキャプションのインスタンスレベルのアライメントに重点を置いているが、リッチなきめ細かな局所情報を無視している。
本研究では,識別時空間の特徴を学習するための,ビデオ言語事前学習フレームワークG-ViLMを提案する。
時空間的接地と時空間的グルーピングを含む2つの新しいデザインは,学習地域・名詞のアライメントと時間的認識の特徴を同時に促進する。
具体的には、時空間的接頭辞は意味的に類似したビデオトークンを集約し、キャプションから抽出された名詞句とアライメントし、局所的な地域名詞対応を促進する。
さらに、時間的グループ化はカット・アンド・ペーストを利用して、時間的シーンの変更を手作業で生成し、異なるシーンから識別可能な特徴を学習する。
総合評価の結果、G-ViLMは、テキストビデオ検索、ビデオ質問応答、ビデオ行動認識、時間的行動ローカライゼーションを含む4つの下流タスクにおいて、既存のアプローチに対して好適に機能することが示された。
G-ViLMは評価された全てのタスクに対して競争力を発揮し、特にゼロショットMSR-VTT検索において65.1のR@10を達成する。 Most of existing video-language pre-training methods focus on instance-level alignment between video clips and captions via global contrastive learning but neglect rich fine-grained local information, which is of importance to downstream tasks requiring temporal localization and semantic reasoning. In this work, we propose a simple yet effective video-language pre-training framework, namely G-ViLM, to learn discriminative spatiotemporal features. Two novel designs involving spatiotemporal grounding and temporal grouping promote learning local region-noun alignment and temporal-aware features simultaneously. Specifically, spatiotemporal grounding aggregates semantically similar video tokens and aligns them with noun phrases extracted from the caption to promote local region-noun correspondences. Moreover, temporal grouping leverages cut-and-paste to manually create temporal scene changes and then learns distinguishable features from different scenes. Comprehensive evaluations demonstrate that G-ViLM performs favorably against existing approaches on four representative downstream tasks, covering text-video retrieval, video question answering, video action recognition and temporal action localization. G-ViLM performs competitively on all evaluated tasks and in particular achieves R@10 of 65.1 on zero-shot MSR-VTT retrieval, over 9% higher than the state-of-the-art method. | 翻訳日:2023-03-30 16:32:14 公開日:2023-03-28 |
# ストリーミングフェデレーション学習におけるローカルキャッシュ更新ルールについて On the Local Cache Update Rules in Streaming Federated Learning ( http://arxiv.org/abs/2303.16340v1 ) ライセンス: Link先を確認 | Heqiang Wang, Jieming Bian, Jie Xu | (参考訳) 本研究では,ストリーミングフェデレーション学習(SFL)の新たな分野に取り組み,動的データ分散と限られたキャッシュ容量を管理するためのローカルキャッシュ更新ルールを提案する。
従来のフェデレーション学習は、固定データセットに依存するが、SFLでは、データはストリーミングされ、その分散は時間とともに変化するため、ローカルトレーニングデータセットと長期分布の相違が生じる。
この問題を軽減するため,我々は,キャッシュ容量の制限を考慮しつつ,各クライアントのローカルキャッシュを更新する3つのローカルキャッシュ更新ルール – First-In-First-Out (FIFO), Static Ratio Selective Replacement (SRSR), Dynamic Ratio Selective Replacement (DRSR) – を提案する。
さらに,提案したSFLアルゴリズムの収束バウンダリを,長期データ分布とクライアントのローカルトレーニングデータセットとの分布差の関数として導出する。
次に,提案アルゴリズムを,ネットワークトラフィック分類データセットと画像分類データセットの2つのデータセット上で評価する。
実験の結果,提案するローカルキャッシュ更新ルールは,分散のばらつきを著しく低減し,ベースラインメソッドを上回った。
本研究は,SFLの分野を進歩させ,フェデレート学習における実用的なキャッシュ管理ソリューションを提供する。 In this study, we address the emerging field of Streaming Federated Learning (SFL) and propose local cache update rules to manage dynamic data distributions and limited cache capacity. Traditional federated learning relies on fixed data sets, whereas in SFL, data is streamed, and its distribution changes over time, leading to discrepancies between the local training dataset and long-term distribution. To mitigate this problem, we propose three local cache update rules - First-In-First-Out (FIFO), Static Ratio Selective Replacement (SRSR), and Dynamic Ratio Selective Replacement (DRSR) - that update the local cache of each client while considering the limited cache capacity. Furthermore, we derive a convergence bound for our proposed SFL algorithm as a function of the distribution discrepancy between the long-term data distribution and the client's local training dataset. We then evaluate our proposed algorithm on two datasets: a network traffic classification dataset and an image classification dataset. Our experimental results demonstrate that our proposed local cache update rules significantly reduce the distribution discrepancy and outperform the baseline methods. Our study advances the field of SFL and provides practical cache management solutions in federated learning. | 翻訳日:2023-03-30 16:31:47 公開日:2023-03-28 |
# エージェント存在下での協調型多エージェントシステムの階層型ゲーム理論決定法 A Hierarchical Game-Theoretic Decision-Making for Cooperative Multi-Agent Systems Under the Presence of Adversarial Agents ( http://arxiv.org/abs/2303.16641v1 ) ライセンス: Link先を確認 | Qin Yang and Ramviyas Parasuraman | (参考訳) 危険シナリオにおけるマルチエージェントシステム(MAS)間の関係をゲーム理論モデルとして表現することができる。
本稿では,協調的mas決定のための高レベル戦略を実行可能な低レベルアクションに分解する,ゲーム理論ユーティリティツリー(gut)と呼ばれる新しい階層的ネットワークベースモデルを提案する。
これは、リアルタイム戦略ゲームのためのエージェントのニーズに基づく新しいペイオフ指標と組み合わせられる。
そこで本研究では,成功確率とシステムコストのバランスの観点からmas達成タスクの性能を計測する探索ゲーム領域を提案する。
我々は,複合行動の報酬に優しく依存する最先端手法に対するGUTアプローチを評価する。
広範な数値シミュレーションの結果は、GUTがより複雑なMAS協力関係を整理し、より低コストで高い勝利率で挑戦的なタスクを達成できることを示している。
さらに,シミュレータハードウェアテストベッドであるRobotariumを用いて,GUTの適用性を示した。
実際のロボットアプリケーションにおけるGUTの有効性を検証し、GUTがMAS協力戦略を効果的に組織化できることを検証した。 Underlying relationships among Multi-Agent Systems (MAS) in hazardous scenarios can be represented as Game-theoretic models. This paper proposes a new hierarchical network-based model called Game-theoretic Utility Tree (GUT), which decomposes high-level strategies into executable low-level actions for cooperative MAS decisions. It combines with a new payoff measure based on agent needs for real-time strategy games. We present an Explore game domain, where we measure the performance of MAS achieving tasks from the perspective of balancing the success probability and system costs. We evaluate the GUT approach against state-of-the-art methods that greedily rely on rewards of the composite actions. Conclusive results on extensive numerical simulations indicate that GUT can organize more complex relationships among MAS cooperation, helping the group achieve challenging tasks with lower costs and higher winning rates. Furthermore, we demonstrated the applicability of the GUT using the simulator-hardware testbed - Robotarium. The performances verified the effectiveness of the GUT in the real robot application and validated that the GUT could effectively organize MAS cooperation strategies, helping the group with fewer advantages achieve higher performance. | 翻訳日:2023-03-30 14:50:11 公開日:2023-03-28 |
# DRGのための中国の電子医療記録から、書き込みミスによる追加診断をディープラーニングで検索する方法 How can Deep Learning Retrieve the Write-Missing Additional Diagnosis from Chinese Electronic Medical Record For DRG ( http://arxiv.org/abs/2303.16757v1 ) ライセンス: Link先を確認 | Shaohui Liu, Xien Liu, Ji Wu | (参考訳) 書面欠落診断の目的は、医療記録から明確に診断されているが、退院診断で見逃されている疾患を見つけることである。
欠失診断の定義とは違って, 読影診断は, さらなる推論を伴わずに, 医療記録に明確に現れる。
書き込みミスの診断は一般的な問題であり、しばしば医師の怠慢によって引き起こされる。
書き込みを欠く診断は、医療記録の不完全な診断をもたらす。
DRGグループ化中は、ライトミス診断は重要な追加診断(CC、MCC)を欠くため、DRGの登録率に影響を及ぼす。
各国が一般的にDRGの加入と支払いを取り入れ始める状況下では、読み書き診断の問題は一般的で深刻な問題である。
現在のマニュアルベースの方法は、全医療記録の複雑な内容のため高価である。
我々はこの問題を自然言語処理として解くのに適していると考えている。
しかし、我々の知る限りでは、自然言語処理手法に基づくこの問題の研究を行った研究者はいない。
本稿では,疾患リコールモジュール,疾患コンテキスト論理判断モジュール,疾患関連比較モジュールの3つのモジュールを含む,書き込みミス診断の問題を解決するためのフレームワークを提案する。
この枠組みにより,書き込みミス診断の問題点を十分に解決でき,その結果を解釈可能であることを検証した。
同時に,同一問題の主流手法と比較して明らかなアドバンテージを持つ疾患コンテキスト論理判断モジュールと疾患関係比較モジュールの先進的な解を提案する。
最後に,第3次病院におけるDRG医療保険給付の枠組みの有効性を検証した。 The purpose of write-missing diagnosis detection is to find diseases that have been clearly diagnosed from medical records but are missed in the discharge diagnosis. Unlike the definition of missed diagnosis, the write-missing diagnosis is clearly manifested in the medical record without further reasoning. The write-missing diagnosis is a common problem, often caused by physician negligence. The write-missing diagnosis will result in an incomplete diagnosis of medical records. While under DRG grouping, the write-missing diagnoses will miss important additional diagnoses (CC, MCC), thus affecting the correct rate of DRG enrollment. Under the circumstance that countries generally start to adopt DRG enrollment and payment, the problem of write-missing diagnosis is a common and serious problem. The current manual-based method is expensive due to the complex content of the full medical record. We think this problem is suitable to be solved as natural language processing. But to the best of our knowledge, no researchers have conducted research on this problem based on natural language processing methods. We propose a framework for solving the problem of write-missing diagnosis, which mainly includes three modules: disease recall module, disease context logic judgment module, and disease relationship comparison module. Through this framework, we verify that the problem of write-missing diagnosis can be solved well, and the results are interpretable. At the same time, we propose advanced solutions for the disease context logic judgment module and disease relationship comparison module, which have obvious advantages compared with the mainstream methods of the same type of problems. Finally, we verified the value of our proposed framework under DRG medical insurance payment in a tertiary hospital. | 翻訳日:2023-03-30 14:22:18 公開日:2023-03-28 |
# 大規模言語フィードバックによる言語モデルの訓練 Training Language Models with Language Feedback at Scale ( http://arxiv.org/abs/2303.16755v1 ) ライセンス: Link先を確認 | J\'er\'emy Scheurer, Jon Ander Campos, Tomasz Korbak, Jun Shern Chan, Angelica Chen, Kyunghyun Cho, Ethan Perez | (参考訳) 事前訓練された言語モデルは、有害なテキストや事実的に誤った要約など、人間の好みと一致しない出力を生成することが多い。
最近の研究は、人間のフィードバックの単純な形式から学習することで、上記の問題にアプローチしている。
しかし、比較フィードバックは人間の好みに関する限られた情報しか伝達しない。
本稿では,より情報的な言語フィードバックを利用する新しいアプローチであるImitation Learning from Language Feedback (ILF)を紹介する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
次に、最もフィードバックを取り入れた改善を選択する。
第三に、入力によって選択された洗練の可能性を最大化するために言語モデルを微調整する。
理論的には、ILFは人間のフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
ilfの有効性を注意深く制御した玩具タスクと現実的な要約タスクで評価する。
実験では,大規模言語モデルがフィードバックを正確に組み込んでおり,iffによる微調整はデータセットサイズとよく一致し,人間のサマリーの微調整よりも優れています。
言語と比較フィードバックの両方から学ぶことは、個人で学ぶことよりも優れ、人間レベルの要約性能を達成する。 Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance. | 翻訳日:2023-03-30 14:21:53 公開日:2023-03-28 |
# 自然言語フィードバックによるトレーニングによるコード生成の改善 Improving Code Generation by Training with Natural Language Feedback ( http://arxiv.org/abs/2303.16749v1 ) ライセンス: Link先を確認 | Angelica Chen, J\'er\'emy Scheurer, Tomasz Korbak, Jon Ander Campos, Jun Shern Chan, Samuel R. Bowman, Kyunghyun Cho, Ethan Perez | (参考訳) 推論時に自然言語フィードバックを使用するための事前訓練済みの大規模言語モデル(LLM)の可能性は、最近のエキサイティングな開発である。
我々は、学習時の自然言語フィードバックから学習するためのアルゴリズムを定式化し、これを言語フィードバックから模倣学習(ilf)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
さらに、ilfを基底真理分布へのklの発散を最小化し、神経プログラム合成タスクにおける概念実証を実証する形態と捉えることができることを示した。
ilfを使って、ほとんど基本的なpython問題(mbpp)ベンチマークでcodegen-mono 6.1bモデルのpass@1レートを38%(そして10%絶対)向上させ、mbppでの微調整と、人間が書いたプログラムの微調整を両立させました。
総じて,人間による自然言語フィードバックからの学習は,コード生成タスクにおけるllmのパフォーマンス向上のためのデモンストレーションのみを対象とするトレーニングよりも効率的かつサンプル効率が高いことが示唆された。 The potential for pre-trained large language models (LLMs) to use natural language feedback at inference time has been an exciting recent development. We build upon this observation by formalizing an algorithm for learning from natural language feedback at training time instead, which we call Imitation learning from Language Feedback (ILF). ILF requires only a small amount of human-written feedback during training and does not require the same feedback at test time, making it both user-friendly and sample-efficient. We further show that ILF can be seen as a form of minimizing the KL divergence to the ground truth distribution and demonstrate a proof-of-concept on a neural program synthesis task. We use ILF to improve a Codegen-Mono 6.1B model's pass@1 rate by 38% relative (and 10% absolute) on the Mostly Basic Python Problems (MBPP) benchmark, outperforming both fine-tuning on MBPP and fine-tuning on repaired programs written by humans. Overall, our results suggest that learning from human-written natural language feedback is both more effective and sample-efficient than training exclusively on demonstrations for improving an LLM's performance on code generation tasks. | 翻訳日:2023-03-30 14:20:59 公開日:2023-03-28 |
# メディアダイエットで訓練された言語モデルは、世論を予測できる Language Models Trained on Media Diets Can Predict Public Opinion ( http://arxiv.org/abs/2303.16779v1 ) ライセンス: Link先を確認 | Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy | (参考訳) 世論は社会的行動を反映し形作るが、それを測定する伝統的な調査ベースのツールは限られている。
オンラインニュース、テレビ放送、ラジオ番組コンテンツに適応した言語モデルであるメディアダイエットモデルを調べるための新しいアプローチを導入し、一連のメディアを消費したサブ人口の意見をエミュレートする。
この方法を検証するため、米国代表による新型コロナウイルスと消費者の信頼度に関する調査で示された意見を根拠として利用する。
本研究は,(1)質問応答分布における人的判断の予測,およびメディア露出の表現や流路への頑健性,(2)メディアをフォローする人をより正確にモデル化すること,(3)メディア消費にどのような意見が影響されるかの文献に一致していることを示す。
言語モデルを探索することは、メディア効果を研究するための強力な新しい方法を提供し、世論の補足や世論の予測に実践的な応用をもたらし、ニューラルネットワークモデルが人間の反応を予測できる驚くべき忠実さのさらなる研究の必要性を示唆している。 Public opinion reflects and shapes societal behavior, but the traditional survey-based tools to measure it are limited. We introduce a novel approach to probe media diet models -- language models adapted to online news, TV broadcast, or radio show content -- that can emulate the opinions of subpopulations that have consumed a set of media. To validate this method, we use as ground truth the opinions expressed in U.S. nationally representative surveys on COVID-19 and consumer confidence. Our studies indicate that this approach is (1) predictive of human judgements found in survey response distributions and robust to phrasing and channels of media exposure, (2) more accurate at modeling people who follow media more closely, and (3) aligned with literature on which types of opinions are affected by media consumption. Probing language models provides a powerful new method for investigating media effects, has practical applications in supplementing polls and forecasting public opinion, and suggests a need for further study of the surprising fidelity with which neural language models can predict human responses. | 翻訳日:2023-03-30 14:13:09 公開日:2023-03-28 |
# 卓球試合予測のための教師付き学習 Supervised Learning for Table Tennis Match Prediction ( http://arxiv.org/abs/2303.16776v1 ) ライセンス: Link先を確認 | Sophie Chiang, Gyorgy Denes | (参考訳) 機械学習、分類、予測モデルは様々な分野に応用されている。
スポーツ分析はますます普及しつつあるアプリケーションであるが、既存の研究のほとんどは、メインストリームスポーツにおける自動審判と怪我予防に焦点を当てている。
卓球など他のスポーツの研究は、最近になってさらに勢いを増し始めている。
本稿では,卓球単独試合の結果を予測するための機械学習の利用を提案する。
プレイヤーとマッチ統計を特徴とし,その相対的重要性をアブレーション研究で評価する。
モデルに関して、いくつかの人気のあるモデルが探索された。
モデルの性能向上には5倍のクロスバリデーションとハイパーパラメータチューニングが不可欠であることがわかった。
アブレーション研究において,モデルの堅牢性を示すために異なる特徴集約戦略を検討した。
異なるモデルは、テニスのような同等のスポーツにおいて、結果の精度(61~70%)で比較可能であった。
結果は、将来の卓球予測モデルのベースラインとなり、同様のボールスポーツにおける予測研究にフィードバックすることができる。 Machine learning, classification and prediction models have applications across a range of fields. Sport analytics is an increasingly popular application, but most existing work is focused on automated refereeing in mainstream sports and injury prevention. Research on other sports, such as table tennis, has only recently started gaining more traction. This paper proposes the use of machine learning to predict the outcome of table tennis single matches. We use player and match statistics as features and evaluate their relative importance in an ablation study. In terms of models, a number of popular models were explored. We found that 5-fold cross-validation and hyperparameter tuning was crucial to improve model performance. We investigated different feature aggregation strategies in our ablation study to demonstrate the robustness of the models. Different models performed comparably, with the accuracy of the results (61-70%) matching state-of-the-art models in comparable sports, such as tennis. The results can serve as a baseline for future table tennis prediction models, and can feed back to prediction research in similar ball sports. | 翻訳日:2023-03-30 14:11:59 公開日:2023-03-28 |
# 深部生成モデルを用いた特異分布の非パラメトリック推定への可能性 A likelihood approach to nonparametric estimation of a singular distribution using deep generative models ( http://arxiv.org/abs/2105.04046v3 ) ライセンス: Link先を確認 | Minwoo Chae, Dongha Kim, Yongdai Kim, Lizhen Lin | (参考訳) 深部生成モデルを用いた特異分布の非パラメトリック推定に対する確率的アプローチの統計的特性について検討する。
より具体的には、ある低次元構造の周りに集中すると仮定される高次元データをモデル化するために、深い生成モデルが用いられる。
低次元多様体のようなこの低次元構造上で支持される分布の推定は、周囲空間におけるルベーグ測度に対する特異性のために難しい。
検討されたモデルでは、通常の確率的アプローチは特異性のために目標分布を常に推定できない。
そこで,本論文では,データに雑音を伴って摂動することで,収束速度が望ましい分布を一貫した推定を行うことによって,新しい効率的な解が存在することを示す。
また,深層生成モデルを用いて効率的に推定できる分布のクラスを特徴付ける。
このクラスは、積分布、古典的に滑らかな分布、低次元多様体上で支持される分布といった様々な構造化分布を含むのに十分一般的である。
本解析は,非パラメトリック分布推定における次元の呪いを避けるための深い生成モデルに関する知見を与える。
提案手法が推定性能を大幅に向上することを示すために,詳細なシミュレーション研究と実データ解析を行い,実データ解析を行った。 We investigate statistical properties of a likelihood approach to nonparametric estimation of a singular distribution using deep generative models. More specifically, a deep generative model is used to model high-dimensional data that are assumed to concentrate around some low-dimensional structure. Estimating the distribution supported on this low-dimensional structure, such as a low-dimensional manifold, is challenging due to its singularity with respect to the Lebesgue measure in the ambient space. In the considered model, a usual likelihood approach can fail to estimate the target distribution consistently due to the singularity. We prove that a novel and effective solution exists by perturbing the data with an instance noise, which leads to consistent estimation of the underlying distribution with desirable convergence rates. We also characterize the class of distributions that can be efficiently estimated via deep generative models. This class is sufficiently general to contain various structured distributions such as product distributions, classically smooth distributions and distributions supported on a low-dimensional manifold. Our analysis provides some insights on how deep generative models can avoid the curse of dimensionality for nonparametric distribution estimation. We conduct a thorough simulation study and real data analysis to empirically demonstrate that the proposed data perturbation technique improves the estimation performance significantly. | 翻訳日:2023-03-29 21:18:13 公開日:2023-03-28 |
# 半教師付き複数ショット学習のための反復ラベルクリーニング Iterative label cleaning for transductive and semi-supervised few-shot learning ( http://arxiv.org/abs/2012.07962v3 ) ライセンス: Link先を確認 | Michalis Lazarou, Tania Stathaki, Yannis Avrithis | (参考訳) わずかなショット学習は、新しいタスクが監督とデータの両方を制限することで解決されるような、学習表現と知識の獲得にかかっている。
トランスダクティブ推論(Transductive Inference)ではテストセット全体が同時に利用可能になり、半教師付き学習ではラベルなしのデータも利用可能になる。
これら2つの設定に着目して,ラベル付きおよび未ラベル付きデータ分布の多様体構造を利用して擬似ラベルを予測し,クラス間のバランスを保ちながら,最小容量の分類器の損失値分布を用いて擬似ラベルの質を反復的に向上するアルゴリズムを提案する。
当社のソリューションは,4つのベンチマークデータセット,すなわち miniImageNet, tieredImageNet, CUB, CIFAR-FS に対して,機能領域の事前処理と利用可能なデータの量に対して堅牢でありながら,成果を上回るか,あるいは一致させる。
公開されているソースコードはhttps://github.com/MichalisLazarou/iLPCにある。 Few-shot learning amounts to learning representations and acquiring knowledge such that novel tasks may be solved with both supervision and data being limited. Improved performance is possible by transductive inference, where the entire test set is available concurrently, and semi-supervised learning, where more unlabeled data is available. Focusing on these two settings, we introduce a new algorithm that leverages the manifold structure of the labeled and unlabeled data distribution to predict pseudo-labels, while balancing over classes and using the loss value distribution of a limited-capacity classifier to select the cleanest labels, iteratively improving the quality of pseudo-labels. Our solution surpasses or matches the state of the art results on four benchmark datasets, namely miniImageNet, tieredImageNet, CUB and CIFAR-FS, while being robust over feature space pre-processing and the quantity of available data. The publicly available source code can be found in https://github.com/MichalisLazarou/iLPC. | 翻訳日:2023-03-29 21:17:29 公開日:2023-03-28 |
# 意味画像合成のためのコントラスト学習を用いたエッジ誘導gan Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis ( http://arxiv.org/abs/2003.13898v3 ) ライセンス: Link先を確認 | Hao Tang, Xiaojuan Qi, Guolei Sun, Dan Xu, Nicu Sebe, Radu Timofte, Luc Van Gool | (参考訳) 本稿では,semantic image synthesisタスクに挑戦する新しいecganを提案する。
かなりの改善が達成されているが、合成画像の品質は3つの大きな未解決課題のために満足には程遠い。
1) セマンティックラベルは詳細な構造情報を提供しておらず, 局所的な詳細や構造を合成することが困難である。
2) 畳み込み, ダウンサンプリング, 正規化などの広く採用されているCNN操作は, 通常, 空間分解能の喪失を引き起こすため, 本来の意味情報を完全に保存できないため, 意味的に矛盾する結果をもたらす。
3)既存のセマンティック画像合成手法は,単一入力セマンティックレイアウトから局所セマンティック情報をモデル化することに焦点を当てている。
しかし、複数の入力セマンティックレイアウト、すなわち異なる入力レイアウトにわたる画素間のセマンティックな相互関係のグローバルな意味情報を無視する。
1)に取り組むために,提案する注意誘導型エッジ転送モジュールによる画像生成のガイドとして,edgeを中間表現として用いることを提案する。
エッジ情報は畳み込み発生器によって生成され、詳細な構造情報を導入する。
2)に取り組むために,意味情報を保存するために,クラス依存の機能マップを本来の意味レイアウトに従って選択的にハイライトする効果的なモジュールを設計した。
コントラスト学習における現在の手法に着想を得て,同じセマンティッククラスに属する画素埋め込みを強制し,異なるクラスに属するものよりも類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
複数の入力セマンティックレイアウトからラベル付きピクセルの構造を明示的に探索することで、よりセマンティックな関係を捉えることができる。
3つの挑戦的なデータセットの実験により、ECGANは最先端の手法よりもはるかに優れた結果が得られることが示された。 We propose a novel ECGAN for the challenging semantic image synthesis task. Although considerable improvement has been achieved, the quality of synthesized images is far from satisfactory due to three largely unresolved challenges. 1) The semantic labels do not provide detailed structural information, making it difficult to synthesize local details and structures. 2) The widely adopted CNN operations such as convolution, down-sampling, and normalization usually cause spatial resolution loss and thus cannot fully preserve the original semantic information, leading to semantically inconsistent results. 3) Existing semantic image synthesis methods focus on modeling local semantic information from a single input semantic layout. However, they ignore global semantic information of multiple input semantic layouts, i.e., semantic cross-relations between pixels across different input layouts. To tackle 1), we propose to use edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. Edge information is produced by a convolutional generator and introduces detailed structure information. To tackle 2), we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout to preserve the semantic information. To tackle 3), inspired by current methods in contrastive learning, we propose a novel contrastive learning method, which aims to enforce pixel embeddings belonging to the same semantic class to generate more similar image content than those from different classes. Doing so can capture more semantic relations by explicitly exploring the structures of labeled pixels from multiple input semantic layouts. Experiments on three challenging datasets show that our ECGAN achieves significantly better results than state-of-the-art methods. | 翻訳日:2023-03-29 21:17:09 公開日:2023-03-28 |
# 相関源を用いた量子鍵分布 Quantum key distribution with correlated sources ( http://arxiv.org/abs/1908.08261v5 ) ライセンス: Link先を確認 | Margarida Pereira, Go Kato, Akihiro Mizutani, Marcos Curty, Kiyoshi Tamaki | (参考訳) 理論上、量子鍵分布(QKD)は情報理論のセキュリティを提供する。
しかし、実際には、セキュリティ証明で使われる仮定と実際の装置の動作の相違によるものではない。
近年、このギャップを埋める努力が盛んに行われているが、パルス間の相関関係の処理は依然として大きな問題となっている。
ここでは、任意の長距離パルス相関によるQKDの安全性を証明するための、単純だが一般的な方法を導入することにより、このギャップを埋める。
我々の手法は、他の一般的なデバイス不完全性に対応するセキュリティ証明と互換性があり、任意の欠陥のあるデバイスでQKDの実装セキュリティを達成するための道を開く。
また,セキュリティ証明のための新しいフレームワークを導入し,その手法を参照手法と呼ぶ。
このフレームワークには、特別なケースとして既存のセキュリティ証明が含まれており、多くのQKDプロトコルに広く適用することができる。 In theory, quantum key distribution (QKD) offers information-theoretic security. In practice, however, it does not due to the discrepancies between the assumptions used in the security proofs and the behaviour of the real apparatuses. Recent years have witnessed a tremendous effort to fill the gap, but the treatment of correlations among pulses has remained a major elusive problem. Here, we close this gap by introducing a simple yet general method to prove the security of QKD with arbitrarily long-range pulse correlations. Our method is compatible with those security proofs that accommodate all the other typical device imperfections, thus paving the way towards achieving implementation security in QKD with arbitrary flawed devices. Moreover, we introduce a new framework for security proofs, which we call the reference technique. This framework includes existing security proofs as special cases and it can be widely applied to a number of QKD protocols. | 翻訳日:2023-03-29 21:16:24 公開日:2023-03-28 |
# landauer vs. nernst: 量子システムを冷却する真のコストは何ですか? Landauer vs. Nernst: What is the True Cost of Cooling a Quantum System? ( http://arxiv.org/abs/2106.05151v3 ) ライセンス: Link先を確認 | Philip Taranto, Faraj Bakhshinezhad, Andreas Bluhm, Ralph Silva, Nicolai Friis, Maximilian P. E. Lock, Giuseppe Vitagliano, Felix C. Binder, Tiago Debarba, Emanuel Schwarzhans, Fabien Clivaz, Marcus Huber | (参考訳) 熱力学は世界の知識と、操作し、制御する能力を結びつける。
制御のこの重要な役割は、熱力学の第三法則(ネルンストの不持続性原理)によって例示され、無限の資源は絶対零温度まで冷却するために必要となる。
しかし、これらのリソースは何で、どのように活用すべきか?
これは、情報と熱力学をつなぐランダウアーの原理とどのように関係していますか?
我々は、純粋な量子状態の生成を可能にするリソースを識別するためのフレームワークを提供することで、これらの質問に答える。
無限の時間や制御の複雑さによって、ランドーアーエネルギーコストで完全冷却が可能となる。
しかし、このような最適なプロトコルは、外部のワークソースによって生成される複雑なユニタリを必要とする。
熱エンジンのみで実行できるユニタリに制限されるため、飽和のためのプロトコルとともに、新しいCarnot-Landauer制限を導出します。
これはランダウアーの原理を完全に熱力学的な設定に一般化し、第三法則と統一し、量子熱力学における制御の重要性を強調する。 Thermodynamics connects our knowledge of the world to our capability to manipulate and thus to control it. This crucial role of control is exemplified by the third law of thermodynamics, Nernst's unattainability principle, which states that infinite resources are required to cool a system to absolute zero temperature. But what are these resources and how should they be utilized? And how does this relate to Landauer's principle that famously connects information and thermodynamics? We answer these questions by providing a framework for identifying the resources that enable the creation of pure quantum states. We show that perfect cooling is possible with Landauer energy cost given infinite time or control complexity. However, such optimal protocols require complex unitaries generated by an external work source. Restricting to unitaries that can be run solely via a heat engine, we derive a novel Carnot-Landauer limit, along with protocols for its saturation. This generalizes Landauer's principle to a fully thermodynamic setting, leading to a unification with the third law and emphasizes the importance of control in quantum thermodynamics. | 翻訳日:2023-03-29 20:33:54 公開日:2023-03-28 |
# 滑らかな粒子流体力学を用いた物理情報機械学習:ラグランジアン乱流モデルの階層化 Physics informed machine learning with smoothed particle hydrodynamics: Hierarchy of reduced Lagrangian models of turbulence ( http://arxiv.org/abs/2110.13311v6 ) ライセンス: Link先を確認 | Michael Woodward, Yifeng Tian, Criston Hyett, Chris Fryer, Daniel Livescu, Mikhail Stepanov, Michael Chertkov | (参考訳) 発達した乱流の効率的で正確で一般化可能な縮小秩序モデルの構築は大きな課題である。
本論文は,乱流に対するパラメータ化還元ラグランジアンモデルの階層化によってこの問題にアプローチし,Smoothed Particledynamicdynamics (SPH) による物理構造強化の効果と,ニューラルネットワーク(NN) を普遍関数近似器として利用することによる影響を考察する。
ラグランジアン加速作用素のニューラルネットワーク(NN)パラメータ化から始めると、モデルのこの階層は徐々に弱い圧縮性とパラメータ化のSPHフレームワークを取り入れ、ガリレオ、回転、変換不変性などの物理対称性を強制する。
この階層内では、学習可能なSPHシミュレータの柔軟性を高めるために、2つの新しいパラメータ化平滑化カーネルが開発された。
各モデルに対して、勾配に基づく最適化を用いて最小限の損失関数を実験し、自動微分 (AD) と感度解析 (SA) を用いて勾配の効率的な計算を求める。
階層内の各モデルは,(1)弱圧縮性sphを用いた検証セット,(2)直接数値シミュレーション(dns)による高忠実度セットという,週次圧縮性等方性乱流(hit)に関連する2つのデータセットで訓練される。
数値的な証拠は、より多くのSPH構造を符号化することで、異なる乱流マッハ数や時間シフトへの一般化性が向上し、新しいパラメータ化平滑化カーネルを含むと、解決スケールでのSPHの精度が向上することを示している。 Building efficient, accurate and generalizable reduced order models of developed turbulence remains a major challenge. This manuscript approaches this problem by developing a hierarchy of parameterized reduced Lagrangian models for turbulent flows, and investigates the effects of enforcing physical structure through Smoothed Particle Hydrodynamics (SPH) versus relying on neural networks (NN)s as universal function approximators. Starting from Neural Network (NN) parameterizations of a Lagrangian acceleration operator, this hierarchy of models gradually incorporates a weakly compressible and parameterized SPH framework, which enforces physical symmetries, such as Galilean, rotational and translational invariances. Within this hierarchy, two new parameterized smoothing kernels are developed in order to increase the flexibility of the learn-able SPH simulators. For each model we experiment with different loss functions which are minimized using gradient based optimization, where efficient computations of gradients are obtained by using Automatic Differentiation (AD) and Sensitivity Analysis (SA). Each model within the hierarchy is trained on two data sets associated with weekly compressible Homogeneous Isotropic Turbulence (HIT): (1) a validation set using weakly compressible SPH; and (2) a high fidelity set from Direct Numerical Simulations (DNS). Numerical evidence shows that encoding more SPH structure improves generalizability to different turbulent Mach numbers and time shifts, and that including the novel parameterized smoothing kernels improves the accuracy of SPH at the resolved scales. | 翻訳日:2023-03-29 20:23:33 公開日:2023-03-28 |
# ホログラフィック双対性における量子系とブラックホール内部の因果接続性 Causal connectability between quantum systems and the black hole interior in holographic duality ( http://arxiv.org/abs/2110.05497v3 ) ライセンス: Link先を確認 | Samuel Leutheusser and Hong Liu | (参考訳) ホログラフィック双対性では、永遠のアドスブラックホールは熱場二重状態における境界cftの2つのコピーによって記述される。
この同定には、事象の地平線の境界記述、ブラックホールの内部、特異点など、多くのパズルがある。
これらの謎の複合化は、cftの間には相互作用がないが、それらの観察者はブラックホールに落ちて相互作用することができるという事実である。
本稿ではこれらの問題に対処する。
特に私たちは
(i) 落下するバルクオブザーバのクラスの境界定式化を示す。
(ii) 急なバルク事象の地平線は境界理論の無限の$N$極限にしか現れないという主張を示す。
(iii)バルクインフォールディングオブザーバのための進化作用素の境界理論における明示的な構成を与え、ブラックホールの地平線、内部、それに付随する因果構造の境界の出現を明示する。
副生成物は因果接続性(Cousal Connectability)と呼ばれる概念であり、2つの量子系(既知の重力双対を持つ必要はない)が創発的な鋭い水平構造を持つための基準である。 In holographic duality an eternal AdS black hole is described by two copies of the boundary CFT in the thermal field double state. This identification has many puzzles, including the boundary descriptions of the event horizons, the interiors of the black hole, and the singularities. Compounding these mysteries is the fact that, while there is no interaction between the CFTs, observers from them can fall into the black hole and interact. We address these issues in this paper. In particular, we (i) present a boundary formulation of a class of in-falling bulk observers; (ii) present an argument that a sharp bulk event horizon can only emerge in the infinite $N$ limit of the boundary theory; (iii) give an explicit construction in the boundary theory of an evolution operator for a bulk in-falling observer, making manifest the boundary emergence of the black hole horizons, the interiors, and the associated causal structure. A by-product is a concept called causal connectability, which is a criterion for any two quantum systems (which do not need to have a known gravity dual) to have an emergent sharp horizon structure. | 翻訳日:2023-03-29 20:23:02 公開日:2023-03-28 |
# 複雑なデータと関係のためのマッパー型アルゴリズム Mapper-type algorithms for complex data and relations ( http://arxiv.org/abs/2109.00831v2 ) ライセンス: Link先を確認 | Pawe{\l} D{\l}otko, Davide Gurnari and Radmila Sazdanovic | (参考訳) MapperとBall Mapperは、高次元のポイントクラウドを探索し、それらのポイントクラウド上のスカラー値関数を視覚化するために使用されるトポロジカルデータ分析ツールである。
結び目理論のオープン質問に触発されて、点雲の構造、内部関係、対称性のエンコーディングを可能にするボールマッパーに新機能が追加された。
さらに、マッパーとボールマッパーの構成の強みを組み合わせることで、単一のデータセットの高次元データ記述子を比較するツールを作成する。
この新しいハイブリッドアルゴリズムであるMapper on Ball Mapperは高次元レンズ関数に適用可能である。
概念実証として、結び目やゲーム理論、物質科学やがん研究への応用も含んでいる。 Mapper and Ball Mapper are Topological Data Analysis tools used for exploring high dimensional point clouds and visualizing scalar-valued functions on those point clouds. Inspired by open questions in knot theory, new features are added to Ball Mapper that enable encoding of the structure, internal relations and symmetries of the point cloud. Moreover, the strengths of Mapper and Ball Mapper constructions are combined to create a tool for comparing high dimensional data descriptors of a single dataset. This new hybrid algorithm, Mapper on Ball Mapper, is applicable to high dimensional lens functions. As a proof of concept we include applications to knot and game theory, as well as material science and cancer research. | 翻訳日:2023-03-29 20:22:43 公開日:2023-03-28 |
# ブロック・トゥープリッツ行列からグラフ上の微分方程式へ:スケーラブルマスク変換器の一般理論に向けて From block-Toeplitz matrices to differential equations on graphs: towards a general theory for scalable masked Transformers ( http://arxiv.org/abs/2107.07999v8 ) ライセンス: Link先を確認 | Krzysztof Choromanski, Han Lin, Haoxian Chen, Tianyi Zhang, Arijit Sehanobish, Valerii Likhosherstov, Jack Parker-Holder, Tamas Sarlos, Adrian Weller, Thomas Weingarten | (参考訳) 本稿では,我々の知識を最大限に活用し,様々なマスキング機構をスケーラブルな方法でトランスフォーマーアーキテクチャに組み込むための,最初の包括的アプローチを提案する。
近年の線形因果注意(choromanski et al., 2021)と対数線形rpe-attention(luo et al., 2021)は,この一般的なメカニズムの特別な例である。
しかし,未発見の注意を位相的(グラフベース)に変調させることにより,d-次元の効率的なrpeマスキングやグラフケネルマスキングなど,以前に不明ないくつかの結果が得られる。
我々は、スペクトル解析から動的プログラミング、ランダムウォーク、マルコフ過程をグラフ上で解くための新しいアルゴリズムまで、多くの数学的手法を活用している。
我々は対応する経験的評価を提供する。 In this paper we provide, to the best of our knowledge, the first comprehensive approach for incorporating various masking mechanisms into Transformers architectures in a scalable way. We show that recent results on linear causal attention (Choromanski et al., 2021) and log-linear RPE-attention (Luo et al., 2021) are special cases of this general mechanism. However by casting the problem as a topological (graph-based) modulation of unmasked attention, we obtain several results unknown before, including efficient d-dimensional RPE-masking and graph-kernel masking. We leverage many mathematical techniques ranging from spectral analysis through dynamic programming and random walks to new algorithms for solving Markov processes on graphs. We provide a corresponding empirical evaluation. | 翻訳日:2023-03-29 20:22:06 公開日:2023-03-28 |
# データダイエットのディープラーニング: トレーニングの初期段階で重要な例を見つける Deep Learning on a Data Diet: Finding Important Examples Early in Training ( http://arxiv.org/abs/2107.07075v2 ) ライセンス: Link先を確認 | Mansheej Paul, Surya Ganguli, Gintare Karolina Dziugaite | (参考訳) ディープラーニングの最近の成功は、さらに大きなデータセット上の過小評価されたネットワークのトレーニングによって部分的に推進されている。
したがって、データのうちどのくらいが過剰であるか、どの例が一般化に重要であるか、どのように見つけられるのか、という問いは自然である。
この研究では、標準的なビジョンデータセットでは、いくつかの重み初期化の平均値が、トレーニングの非常に早い段階で重要な例を特定するのに利用できるという驚くべき観察を行ないます。
We propose two such scores -- the Gradient Normed (GraNd) and the Error L2-Norm (EL2N) scores -- and demonstrate their efficacy on a range of architectures and datasets by pruning significant fractions of training data without sacrificing test accuracy. In fact, using EL2N scores calculated a few epochs into training, we can prune half of the CIFAR10 training set while slightly improving test accuracy. Furthermore, for a given dataset, EL2N scores from one architecture or hyperparameter configuration generalize to other configurations. Compared to recent work that prunes data by discarding examples that are rarely forgotten over the course of training, our scores use only local information early in training. We also use our scores to detect noisy examples and study training dynamics through the lens of important examples -- we investigate how the data distribution shapes the loss surface and identify subspaces of the model's data representation that are relatively stable over training. Recent success in deep learning has partially been driven by training increasingly overparametrized networks on ever larger datasets. It is therefore natural to ask: how much of the data is superfluous, which examples are important for generalization, and how do we find them? In this work, we make the striking observation that, in standard vision datasets, simple scores averaged over several weight initializations can be used to identify important examples very early in training. We propose two such scores -- the Gradient Normed (GraNd) and the Error L2-Norm (EL2N) scores -- and demonstrate their efficacy on a range of architectures and datasets by pruning significant fractions of training data without sacrificing test accuracy. In fact, using EL2N scores calculated a few epochs into training, we can prune half of the CIFAR10 training set while slightly improving test accuracy. Furthermore, for a given dataset, EL2N scores from one architecture or hyperparameter configuration generalize to other configurations. Compared to recent work that prunes data by discarding examples that are rarely forgotten over the course of training, our scores use only local information early in training. We also use our scores to detect noisy examples and study training dynamics through the lens of important examples -- we investigate how the data distribution shapes the loss surface and identify subspaces of the model's data representation that are relatively stable over training. | 翻訳日:2023-03-29 20:21:50 公開日:2023-03-28 |
# 臨界パラメトリック量子センシング Critical parametric quantum sensing ( http://arxiv.org/abs/2107.04503v2 ) ライセンス: Link先を確認 | R. Di Candia, F. Minganti, K. V. Petrovnin, G. S. Paraoanu and S. Felicetti | (参考訳) 臨界量子システム(Critical quantum systems)は、相転移に近接して発達する拡散感受性のため、量子力学応用の有望な資源である。
ここでは、駆動散逸位相遷移中のパラメトリックカー共振器のメトロジーパワーを評価する。
周波数推定のための量子フィッシャー情報と周波数識別のためのヘルストロムバウンドを完全に特徴付ける。
漸近的な状態を超えて、実験的な到達可能なパラメータでハイゼンベルク精度を達成できることが示される。
我々は、非線形共振器の臨界挙動を利用して量子磁気センサの精度と超伝導量子ビット読み出しの忠実性を高めるプロトコルを設計する。 Critical quantum systems are a promising resource for quantum metrology applications, due to the diverging susceptibility developed in proximity of phase transitions. Here, we assess the metrological power of parametric Kerr resonators undergoing driven-dissipative phase transitions. We fully characterize the quantum Fisher information for frequency estimation, and the Helstrom bound for frequency discrimination. By going beyond the asymptotic regime, we show that the Heisenberg precision can be achieved with experimentally reachable parameters. We design protocols that exploit the critical behavior of nonlinear resonators to enhance the precision of quantum magnetometers and the fidelity of superconducting qubit readout. | 翻訳日:2023-03-29 20:21:31 公開日:2023-03-28 |
# Repulsive Deep Ensembles are Bayesian Repulsive Deep Ensembles are Bayesian ( http://arxiv.org/abs/2106.11642v3 ) ライセンス: Link先を確認 | Francesco D'Angelo, Vincent Fortuin | (参考訳) 深層アンサンブルは最近、概念の単純さと効率性によって、ディープラーニングコミュニティで人気を集めている。
しかし、勾配降下で独立に訓練されたアンサンブルメンバー間の機能的多様性を維持することは困難である。
これは、単一のモデルのパフォーマンスに収束するアンサンブルパフォーマンスの飽和など、より多くのアンサンブルメンバーを追加する際の病理につながる可能性がある。
さらに、これは予測の品質に影響を及ぼすだけでなく、アンサンブルの不確実性の推定にも影響を及ぼし、アウト・オブ・ディストリビューション・データの性能も向上する。
この制限は、異なるアンサンブルメンバーを同じ機能に崩壊させることによって克服できると仮定する。
この目的のために, ディープアンサンブルの更新規則において, カーネル化反発項を導入する。
この単純な修正は、メンバー間の多様性を強制し維持するだけでなく、さらに重要なことは、最大後の推論を適切なベイズ推論に変換することである。
すなわち,提案する反発型アンサンブルのトレーニングダイナミクスは,真後方のkl分岐のwasserstein勾配流に従うことを示した。
重みと関数空間における反発項を研究し,その性能を合成および実世界の予測タスクにおける標準アンサンブルおよびベイズ基準と比較した。 Deep ensembles have recently gained popularity in the deep learning community for their conceptual simplicity and efficiency. However, maintaining functional diversity between ensemble members that are independently trained with gradient descent is challenging. This can lead to pathologies when adding more ensemble members, such as a saturation of the ensemble performance, which converges to the performance of a single model. Moreover, this does not only affect the quality of its predictions, but even more so the uncertainty estimates of the ensemble, and thus its performance on out-of-distribution data. We hypothesize that this limitation can be overcome by discouraging different ensemble members from collapsing to the same function. To this end, we introduce a kernelized repulsive term in the update rule of the deep ensembles. We show that this simple modification not only enforces and maintains diversity among the members but, even more importantly, transforms the maximum a posteriori inference into proper Bayesian inference. Namely, we show that the training dynamics of our proposed repulsive ensembles follow a Wasserstein gradient flow of the KL divergence with the true posterior. We study repulsive terms in weight and function space and empirically compare their performance to standard ensembles and Bayesian baselines on synthetic and real-world prediction tasks. | 翻訳日:2023-03-29 20:21:06 公開日:2023-03-28 |
# マルチビュー3次元再構成のためのマルチセンサ大規模データセット Multi-sensor large-scale dataset for multi-view 3D reconstruction ( http://arxiv.org/abs/2203.06111v4 ) ライセンス: Link先を確認 | Oleg Voynov, Gleb Bobrovskikh, Pavel Karpyshev, Saveliy Galochkin, Andrei-Timotei Ardelean, Arseniy Bozhenko, Ekaterina Karmanova, Pavel Kopanev, Yaroslav Labutin-Rymsho, Ruslan Rakhimov, Aleksandr Safin, Valerii Serpiva, Alexey Artemov, Evgeny Burnaev, Dzmitry Tsetserukou, Denis Zorin | (参考訳) マルチビュー3次元表面再構成のための新しいマルチセンサデータセットを提案する。
そこには、スマートフォン、intel realsense、microsoft kinect、産業用カメラ、構造化光スキャナーなど、さまざまな解像度とモードのセンサーからの登録されたrgbと深度データが含まれている。
シーンは、既存のアルゴリズムに挑戦するさまざまな材料特性を強調するために選択される。
14の照明条件下で100方向から取得した107シーンの約140万画像を提供する。
我々のデータセットは3次元再構成アルゴリズムの評価と訓練、および関連するタスクに役立ちます。
データセットはskoltech3d.appliedai.techで入手できる。 We present a new multi-sensor dataset for multi-view 3D surface reconstruction. It includes registered RGB and depth data from sensors of different resolutions and modalities: smartphones, Intel RealSense, Microsoft Kinect, industrial cameras, and structured-light scanner. The scenes are selected to emphasize a diverse set of material properties challenging for existing algorithms. We provide around 1.4 million images of 107 different scenes acquired from 100 viewing directions under 14 lighting conditions. We expect our dataset will be useful for evaluation and training of 3D reconstruction algorithms and for related tasks. The dataset is available at skoltech3d.appliedai.tech. | 翻訳日:2023-03-29 20:14:40 公開日:2023-03-28 |
# ロバストPAC$^m$:モデルミス種別と外乱下でのアンサンブルモデルの訓練 Robust PAC$^m$: Training Ensemble Models Under Model Misspecification and Outliers ( http://arxiv.org/abs/2203.01859v2 ) ライセンス: Link先を確認 | Matteo Zecchin, Sangwoo Park, Osvaldo Simeone, Marios Kountouris, David Gesbert | (参考訳) 標準ベイズ学習は、モデル不特定性および外れ値の存在下で最適部分一般化能力を有することが知られている。
pac-bayes理論は、ベイズ学習によって最小化される自由エネルギーの基準が、異常値によって汚染されないサンプリング分布の仮定の下でギブス予測器(すなわち、後からランダムに描画された単一モデル)の一般化誤差に縛られることを証明している。
この視点は、モデルが誤って特定され、アンサンブルが必要であり、データが外れ値に影響された場合にベイズ学習の限界を正当化する。
最近の研究で、PAC-Bayes境界(PAC$^m$)は、アンサンブル予測器の性能を考慮に入れた自由エネルギー指標を導入し、不特定条件下での性能を向上させるために導出された。
本研究は,一般化対数スコア関数とpac$^m$アンサンブル境界を組み合わせた,新しいロバストな自由エネルギー基準を提案する。
提案する自由エネルギー訓練基準は,モデル不特定化と異常値の有害な効果を相殺する予測分布を生成する。 Standard Bayesian learning is known to have suboptimal generalization capabilities under model misspecification and in the presence of outliers. PAC-Bayes theory demonstrates that the free energy criterion minimized by Bayesian learning is a bound on the generalization error for Gibbs predictors (i.e., for single models drawn at random from the posterior) under the assumption of sampling distributions uncontaminated by outliers. This viewpoint provides a justification for the limitations of Bayesian learning when the model is misspecified, requiring ensembling, and when data is affected by outliers. In recent work, PAC-Bayes bounds - referred to as PAC$^m$ - were derived to introduce free energy metrics that account for the performance of ensemble predictors, obtaining enhanced performance under misspecification. This work presents a novel robust free energy criterion that combines the generalized logarithm score function with PAC$^m$ ensemble bounds. The proposed free energy training criterion produces predictive distributions that are able to concurrently counteract the detrimental effects of model misspecification and outliers. | 翻訳日:2023-03-29 20:14:31 公開日:2023-03-28 |
# FedREP:小売エネルギープロバイダ向け水平フェデレート負荷予測に向けて FedREP: Towards Horizontal Federated Load Forecasting for Retail Energy Providers ( http://arxiv.org/abs/2203.00219v2 ) ライセンス: Link先を確認 | Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss | (参考訳) スマートメータは家庭用エネルギー消費データを小売エネルギープロバイダ(rep)に収集し、送信しているため、データプライバシを確保しながら、きめ細かい消費者データの有効利用を確保することが主な課題である。
本稿では,エネルギー需要管理,負荷切り換え,インフラ開発に不可欠なrepについて,エネルギー負荷消費量予測のためのこの課題に取り組む。
具体的には、既存のエネルギー負荷予測は集中的であり、スケーラビリティがなく、最も重要なのは、データプライバシの脅威に弱いことだ。
さらに、REPは個々の市場参加者であり、自身の顧客のプライバシーを確保する責任がある。
この問題に対処するため、我々はREPのエネルギー負荷予測、すなわちFedREPのための水平プライバシー保護フェデレーション学習フレームワークを提案する。
データを共有することなく、複数のREPが共通の堅牢な機械学習モデルを構築し、データプライバシやデータセキュリティ、スケーラビリティといった重要な問題に対処することで、制御センタと複数の小売業者からなる連合学習システムを考える。
予測には,最先端のlong short-term memory(lstm)ニューラルネットワークを用いる。これは,観測の長期シーケンスを学習する能力と,消失する勾配問題を解きながら時系列データによる精度向上が期待できるためである。
最後に,実エネルギー消費データセットを用いて広範なデータ駆動実験を行う。
実験の結果,提案する連合学習フレームワークは0.3~0.4の範囲のmseで十分な性能を達成でき,プライバシを保ちスケーラビリティを向上しつつ,集中型アプローチのそれと比較的類似していることがわかった。 As Smart Meters are collecting and transmitting household energy consumption data to Retail Energy Providers (REP), the main challenge is to ensure the effective use of fine-grained consumer data while ensuring data privacy. In this manuscript, we tackle this challenge for energy load consumption forecasting in regards to REPs which is essential to energy demand management, load switching and infrastructure development. Specifically, we note that existing energy load forecasting is centralized, which are not scalable and most importantly, vulnerable to data privacy threats. Besides, REPs are individual market participants and liable to ensure the privacy of their own customers. To address this issue, we propose a novel horizontal privacy-preserving federated learning framework for REPs energy load forecasting, namely FedREP. We consider a federated learning system consisting of a control centre and multiple retailers by enabling multiple REPs to build a common, robust machine learning model without sharing data, thus addressing critical issues such as data privacy, data security and scalability. For forecasting, we use a state-of-the-art Long Short-Term Memory (LSTM) neural network due to its ability to learn long term sequences of observations and promises of higher accuracy with time-series data while solving the vanishing gradient problem. Finally, we conduct extensive data-driven experiments using a real energy consumption dataset. Experimental results demonstrate that our proposed federated learning framework can achieve sufficient performance in terms of MSE ranging between 0.3 to 0.4 and is relatively similar to that of a centralized approach while preserving privacy and improving scalability. | 翻訳日:2023-03-29 20:14:06 公開日:2023-03-28 |
# 3次元物体検出と位置推定のためのLiDARビーム構成のエンドツーエンド最適化 End-To-End Optimization of LiDAR Beam Configuration for 3D Object Detection and Localization ( http://arxiv.org/abs/2201.03860v2 ) ライセンス: Link先を確認 | Niclas V\"odisch, Ozan Unal, Ke Li, Luc Van Gool, Dengxin Dai | (参考訳) lidarベースのアプリケーションのための既存の学習方法は、あらかじめ決められたビーム構成の下でスキャンされた3dポイントを使用する。
これらの固定構成はタスクに依存しないため、単純に使用すればサブ最適パフォーマンスにつながる可能性がある。
本研究では,あるアプリケーションに対して,lidarビーム構成の最適化を学ぶための新しい経路を提案する。
具体的には、異なるLiDARベースのアプリケーションに対して、ビーム構成を自動的にエンドツーエンドに最適化する強化学習ベースの学習最適化(RL-L2O)フレームワークを提案する。
この最適化は,目標タスクの最終的な性能によって導かれるので,簡単なドロップインモジュールとして任意のLiDARアプリケーションと容易に統合できる。
この方法は、例えば大規模なシステム展開において、低解像度(低コスト)のLiDARが必要な場合に特に有用である。
我々は,低分解能LiDARのビーム構成を3次元物体検出と局所化という2つの重要なタスクに対して探索する。
実験の結果,RL-L2O法はベースライン法に比べて両タスクの性能が有意に向上することがわかった。
我々は,プログラム可能なLiDARの最近の進歩と組み合わせることで,LiDARをベースとしたアクティブな知覚のための新たな研究方向を創出できると考えている。
コードはhttps://github.com/vniclas/lidar_beam_selectionで公開されている。 Existing learning methods for LiDAR-based applications use 3D points scanned under a pre-determined beam configuration, e.g., the elevation angles of beams are often evenly distributed. Those fixed configurations are task-agnostic, so simply using them can lead to sub-optimal performance. In this work, we take a new route to learn to optimize the LiDAR beam configuration for a given application. Specifically, we propose a reinforcement learning-based learning-to-optimize (RL-L2O) framework to automatically optimize the beam configuration in an end-to-end manner for different LiDAR-based applications. The optimization is guided by the final performance of the target task and thus our method can be integrated easily with any LiDAR-based application as a simple drop-in module. The method is especially useful when a low-resolution (low-cost) LiDAR is needed, for instance, for system deployment at a massive scale. We use our method to search for the beam configuration of a low-resolution LiDAR for two important tasks: 3D object detection and localization. Experiments show that the proposed RL-L2O method improves the performance in both tasks significantly compared to the baseline methods. We believe that a combination of our method with the recent advances of programmable LiDARs can start a new research direction for LiDAR-based active perception. The code is publicly available at https://github.com/vniclas/lidar_beam_selection | 翻訳日:2023-03-29 20:13:36 公開日:2023-03-28 |
# 重イオン衝突におけるねじれ粒子の生成 Production of twisted particles in heavy-ion collisions ( http://arxiv.org/abs/2112.12404v4 ) ライセンス: Link先を確認 | Liping Zou, Pengming Zhang, Alexander J. Silenko | (参考訳) 非中央重イオン衝突におけるツイスト状(渦)粒子の発生率を示した。
このような衝突では、電荷の回転によって放出される光子は非常にねじれている。
荷電粒子は非散逸なマルチウェーブ状態で生成され、軌道角モーメントを持つ。
特定の効果で自分自身に現れる任意のねじれた粒子の放出は、かなりユビキタスであることが期待できる。 A prevalence of production of twisted (vortex) particles in noncentral heavy-ion collisions is shown. In such collisions, photons emitted due to the rotation of charges are highly twisted. Charged particles are produced in nonspreading multiwave states and have significant orbital angular momenta. It can be expected that an emission of any twisted particles manifesting themselves in specific effects is rather ubiquitous. | 翻訳日:2023-03-29 20:13:19 公開日:2023-03-28 |
# AtteSTNet -- コード切替テキストヘイトスピーチ検出のための注目とサブワードトークン化に基づくアプローチ AtteSTNet -- An attention and subword tokenization based approach for code-switched text hate speech detection ( http://arxiv.org/abs/2112.11479v3 ) ライセンス: Link先を確認 | Geet Shingi, Vedangi Wagh, Kishor Wagh, Sharmila Wagh | (参考訳) 近年の技術進歩はソーシャルメディアの利用を加速させ、最終的にはヘイトや攻撃的なスピーチを含む大量のユーザー生成データを生み出している。
ソーシャルメディアで使われる言語は、しばしば地域の英語と母語の組み合わせである。
インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。
異なる機械学習とディープラーニングに基づく手法を用いて、コード混合hinglishヘイトスピーチを分類する様々なアプローチが過去に行われてきた。
しかし,これらの手法は,計算コストが高く,メモリ要求も高い畳み込み機構の繰り返しを利用する。
過去の技術は複雑なデータ処理も利用しており、既存の技術は非常に複雑で、データの変更が持続できない。
提案された作業は、これらの複雑なネットワークに匹敵するだけでなく、BPEやUnigramのようなサブワードのトークン化アルゴリズムとマルチヘッドアテンションベースの技術を用いることでパフォーマンスを上回り、精度は87.41%、F1スコアは0.851である。
BPEアルゴリズムとUnigramアルゴリズムの効率的な利用は、非伝統的なヒングリッシュ語彙を扱うのに役立つ。 Recent advancements in technology have led to a boost in social media usage which has ultimately led to large amounts of user-generated data which also includes hateful and offensive speech. The language used in social media is often a combination of English and the native language in the region. In India, Hindi is used predominantly and is often code-switched with English, giving rise to the Hinglish (Hindi+English) language. Various approaches have been made in the past to classify the code-mixed Hinglish hate speech using different machine learning and deep learning-based techniques. However, these techniques make use of recurrence on convolution mechanisms which are computationally expensive and have high memory requirements. Past techniques also make use of complex data processing making the existing techniques very complex and non-sustainable to change in data. Proposed work gives a much simpler approach which is not only at par with these complex networks but also exceeds performance with the use of subword tokenization algorithms like BPE and Unigram, along with multi-head attention-based techniques, giving an accuracy of 87.41% and an F1 score of 0.851 on standard datasets. Efficient use of BPE and Unigram algorithms help handle the nonconventional Hinglish vocabulary making the proposed technique simple, efficient and sustainable to use in the real world. | 翻訳日:2023-03-29 20:13:05 公開日:2023-03-28 |
# qudit表面コードとハイパーマップコード Qudit surface code and hypermap code ( http://arxiv.org/abs/2112.01752v3 ) ライセンス: Link先を確認 | Zihan Lei | (参考訳) 本稿では、ホモロジー量子コードを任意のqudit次元$D\geq{2}$で定義し、2-複素$\Sigma$上でCSS演算子を直接定義する。
2-コンプレックスが曲面から来ると、qudit曲面コードが得られる。
次に、定義したコードの次元が常に $\sigma$ の最初のホモロジー群のサイズに等しいことを証明する。
次に、martin leslie が提案したハイパーマップホモロジー量子コードを qudit のケースに拡張し、そのようなすべてのハイパーマップコードに対して、我々が定義したホモロジー量子コードがそれと等しくなるような抽象的2-複体を構築した。 In this article, we define homological quantum code in arbitrary qudit dimension $D\geq{2}$ by directly defining CSS operators on a 2-complex $\Sigma$. When the 2-complex is from a surface, we get a qudit surface code. Then we prove that the dimension of the code we defined always equals the size of the first homology group of $\Sigma$. Next, we expand the hypermap-homology quantum code proposed by Martin Leslie to the qudit's case, and for every such hypermap code, we constructed an abstract 2-complex whose homological quantum code we just defined equals it. | 翻訳日:2023-03-29 20:12:41 公開日:2023-03-28 |
# 非可換加法観測による位相共存状態の統計的アンサンブル Statistical ensembles for phase coexistence states specified by noncommutative additive observables ( http://arxiv.org/abs/2111.10532v3 ) ライセンス: Link先を確認 | Yasushi Yoneta, Akira Shimizu | (参考訳) 相共存状態は、すべての相が同じ値を取るため、温度や磁場などの集中的なパラメータによって一意に特定することはできない。
それは適切な加法観測器のセットによってのみ一意に指定できる。
したがって、位相共存を解析するために、添加物によって特定される統計アンサンブル(マイクロカノニカルや制限されたアンサンブルなど)が採用されている。
しかし、これらのアンサンブルは、いくつかの付加的な可観測性が相互に可換でない場合に不定義または非可換である。
本稿では、非可換加法的可観測性によって特定される位相共存状態に適用できるように一般化アンサンブルを拡張して、この基本問題を解く。
このアンサンブルにより、一般量子系の位相共存状態と熱力学的関数に対応する密度行列が正しく与えられることが証明される。
さらに、これらのアンサンブルは、優れた解析的性質と、加法観測器の期待値から温度やその他の集中パラメータを直接得られる有用な公式により、実用的な計算に有用である。
実演として、ハミルトニアンと可換でない加法的可観測(次数パラメータ)により位相共存状態が指定される2次元系に我々の定式化を適用する。 A phase coexistence state cannot be specified uniquely by any intensive parameters, such as the temperature and the magnetic field, because they take the same values over all coexisting phases. It can be specified uniquely only by an appropriate set of additive observables. Hence, to analyze phase coexistence states the statistical ensembles that are specified by additive observables have been employed, such as the microcanonical and restricted ensembles. However, such ensembles are ill-defined or ill-behaved when some of the additive observables do not commute with each other. Here, we solve this fundamental problem by extending a generalized ensemble in such a way that it is applicable to phase coexistence states which are specified by noncommutative additive observables. We prove that this ensemble correctly gives the density matrix corresponding to phase coexistence states of general quantum systems as well as the thermodynamic functions. Furthermore, these ensembles are convenient for practical calculations because of good analytic properties and useful formulas by which temperature and other intensive parameters are directly obtained from the expectation values of the additive observables. As a demonstration, we apply our formulation to a two-dimensional system whose phase coexistence states are specified by an additive observable (order parameter) that does not commute with the Hamiltonian. | 翻訳日:2023-03-29 20:12:25 公開日:2023-03-28 |
# cores: stationarity による互換表現 CoReS: Compatible Representations via Stationarity ( http://arxiv.org/abs/2111.07632v3 ) ライセンス: Link先を確認 | Niccolo Biondi and Federico Pernici and Matteo Bruni and Alberto Del Bimbo | (参考訳) 互換性のある機能により、古い機能と新しい機能を直接比較することができる。
ビジュアル検索システムでは,表現モデルを新しいデータでアップグレードする場合に,ギャラリーセットから新機能を抽出する必要がなくなる。
これは、ギャラリーセットの再インデクシングは、ギャラリーセットが大きければ計算的にコストがかかる可能性があるため、実際のアプリケーションにおいて大きな価値を持つ。
本稿では, ポリトープに基づく固定分類器によって提供される特徴の定常性に基づいて, 以前に学習した表現と \textit{compatible} の表現を学習するための新しい学習手順であるcoresを提案する。
このソリューションでは、クラスは表現空間内で最大に分離され、新しいクラスが追加されるにつれて空間的構成が定常的に維持されるため、表現間のマッピングを学習したり、以前に学習したモデルとペアワイズトレーニングを課したりする必要がなくなる。
実際のアプリケーションでは典型例であるトレーニングセットを複数アップグレードする場合,トレーニング手順が現在の技術を大きく上回っており,特に効果的であることを示す。 Compatible features enable the direct comparison of old and new learned features allowing to use them interchangeably over time. In visual search systems, this eliminates the need to extract new features from the gallery-set when the representation model is upgraded with novel data. This has a big value in real applications as re-indexing the gallery-set can be computationally expensive when the gallery-set is large, or even infeasible due to privacy or other concerns of the application. In this paper, we propose CoReS, a new training procedure to learn representations that are \textit{compatible} with those previously learned, grounding on the stationarity of the features as provided by fixed classifiers based on polytopes. With this solution, classes are maximally separated in the representation space and maintain their spatial configuration stationary as new classes are added, so that there is no need to learn any mappings between representations nor to impose pairwise training with the previously learned model. We demonstrate that our training procedure largely outperforms the current state of the art and is particularly effective in the case of multiple upgrades of the training-set, which is the typical case in real applications. | 翻訳日:2023-03-29 20:12:04 公開日:2023-03-28 |
# 個人推定のための新しい下肢境界と一般化フィンガープリントレンマ New Lower Bounds for Private Estimation and a Generalized Fingerprinting Lemma ( http://arxiv.org/abs/2205.08532v5 ) ライセンス: Link先を確認 | Gautam Kamath, Argyris Mouzakis and Vikrant Singhal | (参考訳) 我々は、$(\varepsilon, \delta)$-differential privacy という制約の下で統計量推定タスクの新たな下限を証明する。
まず, ガウス分布のプライベート共分散推定のための厳密な下限を与える。
フロベニウスノルムにおける共分散行列の推定には$\omega(d^2)$のサンプルが必要であり、スペクトルノルムでは$\omega(d^{3/2})$のサンプルが必要であり、どちらも対数因子の上限に一致する。
後者の境界は、ガウス共分散のスペクトル推定のために、プライベートと非プライベートサンプル複素量の間の予想された統計的ギャップの存在を検証する。
我々はこれらの境界を主要な技術的貢献によって証明し、指数関数系へのフィンガープリンティング法を広範に一般化した。
さらに、Acharya, Sun, Zhangのプライベートなアスード法を用いて、$\ell_2$-distanceで$\alpha$-errorに有界な共分散を持つ分布の平均を推定するための$\Omega(d/(\alpha^2 \varepsilon))$低い境界を示す。
これらの問題の既知の下限は、多項式的に弱いか、$(\varepsilon, 0)$-differential privacyという厳密な条件で保持されていた。 We prove new lower bounds for statistical estimation tasks under the constraint of $(\varepsilon, \delta)$-differential privacy. First, we provide tight lower bounds for private covariance estimation of Gaussian distributions. We show that estimating the covariance matrix in Frobenius norm requires $\Omega(d^2)$ samples, and in spectral norm requires $\Omega(d^{3/2})$ samples, both matching upper bounds up to logarithmic factors. The latter bound verifies the existence of a conjectured statistical gap between the private and the non-private sample complexities for spectral estimation of Gaussian covariances. We prove these bounds via our main technical contribution, a broad generalization of the fingerprinting method to exponential families. Additionally, using the private Assouad method of Acharya, Sun, and Zhang, we show a tight $\Omega(d/(\alpha^2 \varepsilon))$ lower bound for estimating the mean of a distribution with bounded covariance to $\alpha$-error in $\ell_2$-distance. Prior known lower bounds for all these problems were either polynomially weaker or held under the stricter condition of $(\varepsilon, 0)$-differential privacy. | 翻訳日:2023-03-29 20:06:02 公開日:2023-03-28 |
# 周波数注意インフォームドグラフ畳み込みネットワークを用いた脳性麻痺の予測 Cerebral Palsy Prediction with Frequency Attention Informed Graph Convolutional Networks ( http://arxiv.org/abs/2204.10997v2 ) ライセンス: Link先を確認 | Haozheng Zhang, Hubert P. H. Shum and Edmond S. L. Ho | (参考訳) 早期診断と介入は脳性麻痺 (cp) の治療の最重要部分と考えられているため, 効率的かつ解釈可能なcpの自動予測システムの設計が不可欠である。
cp児のヒト運動頻度と健常群との有意差を強調し, 予測性能の向上に寄与した。
しかし,既存の深層学習に基づく手法では,CP予測に幼児の動きの周波数情報を使用しなかった。
本稿では,周波数注意インフォームドグラフ畳み込みネットワークを提案し,消費者級rgbビデオデータセットであるmini-rgbdとrvi-38を用いて検証を行う。
提案する周波数アテンションモジュールは,分類性能とシステム解釈性の両方を改善する。
さらに、ノイズをフィルタリングしながら人間の関節位置データの臨界周波数を保持する周波数結合法を設計する。
我々の予測性能は、両方のデータセットに関する最先端の研究を実現する。
本研究は,cpの非侵襲的予測支援における周波数情報の有効性を示し,臨床資源が乏しい地域においてcpの早期診断を支援する手段を提供する。 Early diagnosis and intervention are clinically considered the paramount part of treating cerebral palsy (CP), so it is essential to design an efficient and interpretable automatic prediction system for CP. We highlight a significant difference between CP infants' frequency of human movement and that of the healthy group, which improves prediction performance. However, the existing deep learning-based methods did not use the frequency information of infants' movement for CP prediction. This paper proposes a frequency attention informed graph convolutional network and validates it on two consumer-grade RGB video datasets, namely MINI-RGBD and RVI-38 datasets. Our proposed frequency attention module aids in improving both classification performance and system interpretability. In addition, we design a frequency-binning method that retains the critical frequency of the human joint position data while filtering the noise. Our prediction performance achieves state-of-the-art research on both datasets. Our work demonstrates the effectiveness of frequency information in supporting the prediction of CP non-intrusively and provides a way for supporting the early diagnosis of CP in the resource-limited regions where the clinical resources are not abundant. | 翻訳日:2023-03-29 20:04:50 公開日:2023-03-28 |
# クラウドソーシングにおける空間的未報告格差の定量化 Quantifying Spatial Under-reporting Disparities in Resident Crowdsourcing ( http://arxiv.org/abs/2204.08620v2 ) ライセンス: Link先を確認 | Zhi Liu, Nikhil Garg | (参考訳) 現代の都市統治は、倒木や電力線といった問題を特定するためにクラウドソーシング(共同生産)に大きく依存している。
主な懸念は、住民が同じ率で問題を報告しないことであり、インシデントへの対処の迅速さにおいて、下流の格差に直結する異質性を報告していることである。
このようなアンダーレポートの測定は、定義上、報告されていないインシデントや報告されたインシデントの発生を観測しないため、難しい統計的タスクである。
したがって、報告率の低さと地中インシデント率の低さは、内在的に区別できない。
外部の事実データを用いずに(ヘテロジェンシーな)報告率を識別する手法を開発した。
我々の洞察では、同じインシデントに関する$\textit{duplicate}$のレポートは、インシデントが発生した時にその報告レートで発生したかどうかを曖昧にするために利用することができる。
Using this idea, we reduce the question to a standard Poisson rate estimation task -- even though the full incident reporting interval is also unobserved. We apply our method to over 100,000 resident reports made to the New York City Department of Parks and Recreation and to over 900,000 reports made to the Chicago Department of Transportation and Department of Water Management, finding that there are substantial spatial disparities in reporting rates even after controlling for incident characteristics -- some neighborhoods report three times as quickly as do others.
これらの空間的格差は社会経済的特徴に対応しており、ニューヨーク市では人口密度が高く、大学の学位を持つ人の比率、収入、人口の比率は報告率と正の相関がある。 Modern city governance relies heavily on crowdsourcing ("co-production") to identify problems such as downed trees and power lines. A major concern is that residents do not report problems at the same rates, with reporting heterogeneity directly translating to downstream disparities in how quickly incidents can be addressed. Measuring such under-reporting is a difficult statistical task, as, by definition, we do not observe incidents that are not reported or when reported incidents first occurred. Thus, low reporting rates and low ground-truth incident rates cannot be naively distinguished. We develop a method to identify (heterogeneous) reporting rates, without using external ground truth data. Our insight is that rates on $\textit{duplicate}$ reports about the same incident can be leveraged to disambiguate whether an incident has occurred with its reporting rate once it has occurred. Using this idea, we reduce the question to a standard Poisson rate estimation task -- even though the full incident reporting interval is also unobserved. We apply our method to over 100,000 resident reports made to the New York City Department of Parks and Recreation and to over 900,000 reports made to the Chicago Department of Transportation and Department of Water Management, finding that there are substantial spatial disparities in reporting rates even after controlling for incident characteristics -- some neighborhoods report three times as quickly as do others. These spatial disparities correspond to socio-economic characteristics: in NYC, higher population density, fraction of people with college degrees, income, and fraction of population that is White all positively correlate with reporting rates. | 翻訳日:2023-03-29 20:04:30 公開日:2023-03-28 |
# ランクの公平性に対する一般化されたジーニ指標の最適化 Optimizing generalized Gini indices for fairness in rankings ( http://arxiv.org/abs/2204.06521v4 ) ライセンス: Link先を確認 | Virginie Do and Nicolas Usunier | (参考訳) 商品生産者や未満足のユーザを公平に対象とするレコメンデーションシステムの設計への関心が高まっている。
経済学における不平等測定の領域に触発された本論文では,推奨システムが最適化すべき規範的基準を特定する手段として,一般化されたジニ福祉機能(GGF)の利用について検討する。
GGFは人口の階級によって個人を重くし、平等を促進するために悪質な個人に重みを与える。
これらの重みによって、GGFはアイテム露光のギニ指数を最小化し、アイテム間の平等を促進したり、満足度の低い特定の量子化に注目する。
ランク付けのためのGGFは、差別化できないため最適化が難しい。
我々は,微分可能ソートに使用される非スムース最適化と投影演算子のツールを活用することで,この課題を解決した。
提案手法は,最大15万のユーザとアイテムの実際のデータセットを用いて実験を行い,様々なレコメンデーションタスクや公正基準のベースラインよりも優れたトレードオフが得られることを示す。 There is growing interest in designing recommender systems that aim at being fair towards item producers or their least satisfied users. Inspired by the domain of inequality measurement in economics, this paper explores the use of generalized Gini welfare functions (GGFs) as a means to specify the normative criterion that recommender systems should optimize for. GGFs weight individuals depending on their ranks in the population, giving more weight to worse-off individuals to promote equality. Depending on these weights, GGFs minimize the Gini index of item exposure to promote equality between items, or focus on the performance on specific quantiles of least satisfied users. GGFs for ranking are challenging to optimize because they are non-differentiable. We resolve this challenge by leveraging tools from non-smooth optimization and projection operators used in differentiable sorting. We present experiments using real datasets with up to 15k users and items, which show that our approach obtains better trade-offs than the baselines on a variety of recommendation tasks and fairness criteria. | 翻訳日:2023-03-29 20:04:03 公開日:2023-03-28 |
# 意味セグメンテーションのための動的フォーカスアウェアな位置問合せ Dynamic Focus-aware Positional Queries for Semantic Segmentation ( http://arxiv.org/abs/2204.01244v3 ) ライセンス: Link先を確認 | Haoyu He, Jianfei Cai, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao, Bohan Zhuang | (参考訳) detrライクなセグメンタは、クラスプロトタイプやターゲットセグメンテーションを表す一連のクエリをエンドツーエンドでトレーニングするセマンティックセグメンテーションの、最新のブレークスルーの基礎となっている。
近年,先行するデコーダブロックが予測する前景領域のみに問い合わせを限定し,最適化を容易にするマスク付き注意が提案されている。
有望ではあるが、データセット統計をエンコードする傾向にある学習可能なパラメータ化位置クエリに依存しており、個々のクエリの非正確なローカライゼーションにつながる。
本稿では,先述のデコーダブロックと対応する画像特徴に対する位置符号化とから,クロスアテンションスコアを条件とした位置クエリを動的に生成する,意味セグメンテーション用語dfpq(dynamic focus-aware positional query)の簡易かつ効果的なクエリ設計を提案する。
したがって、DFPQは、ターゲットセグメントのリッチなローカライゼーション情報を保存し、高精度できめ細かな位置先情報を提供する。
さらに,低解像度のクロスアテンションスコアに基づいてコンテキストトークンを集約し,局所的な関係アグリゲーションを実行することで,高解像度のクロスアテンションを効率的に扱うことを提案する。
ADE20KとCityscapesの大規模な実験により,Msk2formerの2つの改良により,Msk2formerのSOTA性能をそれぞれ1.1%,1.9%,1.1%の単一スケールmIoU,ResNet-50,Swin-T,Swin-Bの検証セットで達成した。
ソースコードはhttps://github.com/ziplab/FASegで入手できる。 The DETR-like segmentors have underpinned the most recent breakthroughs in semantic segmentation, which end-to-end train a set of queries representing the class prototypes or target segments. Recently, masked attention is proposed to restrict each query to only attend to the foreground regions predicted by the preceding decoder block for easier optimization. Although promising, it relies on the learnable parameterized positional queries which tend to encode the dataset statistics, leading to inaccurate localization for distinct individual queries. In this paper, we propose a simple yet effective query design for semantic segmentation termed Dynamic Focus-aware Positional Queries (DFPQ), which dynamically generates positional queries conditioned on the cross-attention scores from the preceding decoder block and the positional encodings for the corresponding image features, simultaneously. Therefore, our DFPQ preserves rich localization information for the target segments and provides accurate and fine-grained positional priors. In addition, we propose to efficiently deal with high-resolution cross-attention by only aggregating the contextual tokens based on the low-resolution cross-attention scores to perform local relation aggregation. Extensive experiments on ADE20K and Cityscapes show that with the two modifications on Mask2former, our framework achieves SOTA performance and outperforms Mask2former by clear margins of 1.1%, 1.9%, and 1.1% single-scale mIoU with ResNet-50, Swin-T, and Swin-B backbones on the ADE20K validation set, respectively. Source code is available at https://github.com/ziplab/FASeg | 翻訳日:2023-03-29 20:03:30 公開日:2023-03-28 |
# SERA:非構造環境における協調型ロボット計画のための安全かつ効率的なリアクティブ障害物回避 SERA: Safe and Efficient Reactive Obstacle Avoidance for Collaborative Robotic Planning in Unstructured Environments ( http://arxiv.org/abs/2203.13821v2 ) ライセンス: Link先を確認 | Apan Dastider and Mingjie Lin | (参考訳) 産業4.0の時代には、非構造環境における複数のロボット間の安全で効率的なコラボレーションがますます重要になっている。
しかしながら、人間や他のロボット間の堅牢で自律的な協調を実現するためには、現代のロボットシステムは効果的な近接認識と反応性障害物回避を要求される。
本稿では,動的環境においてもコンフリクトフリーなロボットとロボットのインタラクションを保証する,リアクティブな全身障害物回避手法を提案する。
ヤコビアン型,サンプリングベース,幾何学的手法に基づく既存の手法とは異なり,我々の手法は最新の深層学習とトポロジカル多様体学習を活用し,高い計算効率と高速グラフトラバース技術を備えた他の問題設定に容易に一般化することができる。
我々のアプローチでは、ロボットアームが直接接触することなく任意の3D形状の障害物を積極的に回避することができる。
このアプローチを検証するために,我々は,近接センサ配置を最適化した2つの6自由度ロボットアームからなるロボットプラットフォームに実装した。
特に、一方の腕は、予め決められた目標を達成しながら、反応的な全身障害物回避を行い、もう一方の腕は、独立して潜在的に敵対的な動きを持つ人間の協力者の存在を模倣する。
本手法は,非定常環境における安全ロボット協調のための堅牢で効果的なソリューションを提供する。 Safe and efficient collaboration among multiple robots in unstructured environments is increasingly critical in the era of Industry 4.0. However, achieving robust and autonomous collaboration among humans and other robots requires modern robotic systems to have effective proximity perception and reactive obstacle avoidance. In this paper, we propose a novel methodology for reactive whole-body obstacle avoidance that ensures conflict-free robot-robot interactions even in dynamic environment. Unlike existing approaches based on Jacobian-type, sampling based or geometric techniques, our methodology leverages the latest deep learning advances and topological manifold learning, enabling it to be readily generalized to other problem settings with high computing efficiency and fast graph traversal techniques. Our approach allows a robotic arm to proactively avoid obstacles of arbitrary 3D shapes without direct contact, a significant improvement over traditional industrial cobot settings. To validate our approach, we implement it on a robotic platform consisting of dual 6-DoF robotic arms with optimized proximity sensor placement, capable of working collaboratively with varying levels of interference. Specifically, one arm performs reactive whole-body obstacle avoidance while achieving its pre-determined objective, while the other arm emulates the presence of a human collaborator with independent and potentially adversarial movements. Our methodology provides a robust and effective solution for safe human-robot collaboration in non-stationary environments. | 翻訳日:2023-03-29 20:02:51 公開日:2023-03-28 |
# スポンジ中毒によるエネルギーレイテンシー攻撃 Energy-Latency Attacks via Sponge Poisoning ( http://arxiv.org/abs/2203.08147v4 ) ライセンス: Link先を確認 | Antonio Emanuele Cin\`a, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo | (参考訳) spongeの例としては、ハードウェアアクセラレータにデプロイされたニューラルネットワークのエネルギー消費量とレイテンシを最適化したテスト時間入力がある。
本研究は,スポンジ中毒(sponge poisoning)と呼ばれる攻撃によって,スポンジのサンプルを訓練時に注入できることを示す最初の試みである。
この攻撃により、各テスト時間入力に対して無差別に機械学習モデルのエネルギー消費とレイテンシを増加させることができる。
テストタイムスポンジ事例の最適化に関する制限を克服し,攻撃者がいくつかのモデル更新のみを制御する場合,例えば,モデルトレーニングが信頼できないサードパーティにアウトソースされた場合,あるいはフェデレート学習を通じて配布された場合,この攻撃が可能であることを示す。
我々はスポンジ中毒がハードウェア・アクセラレーターの効果をほぼ完全に消し去ることを実証した。
また、毒物モデルのアクティベーションを分析し、この攻撃に対してより脆弱なコンポーネントを特定します。
最後に,スポンジ中毒対策がエネルギー消費を減少させる可能性について検討した。 Sponge examples are test-time inputs carefully optimized to increase energy consumption and latency of neural networks when deployed on hardware accelerators. In this work, we are the first to demonstrate that sponge examples can also be injected at training time, via an attack that we call sponge poisoning. This attack allows one to increase the energy consumption and latency of machine-learning models indiscriminately on each test-time input. We present a novel formalization for sponge poisoning, overcoming the limitations related to the optimization of test-time sponge examples, and show that this attack is possible even if the attacker only controls a few model updates; for instance, if model training is outsourced to an untrusted third-party or distributed via federated learning. Our extensive experimental analysis shows that sponge poisoning can almost completely vanish the effect of hardware accelerators. We also analyze the activations of poisoned models, identifying which components are more vulnerable to this attack. Finally, we examine the feasibility of countermeasures against sponge poisoning to decrease energy consumption, showing that sanitization methods may be overly expensive for most of the users. | 翻訳日:2023-03-29 20:02:26 公開日:2023-03-28 |
# megaportraits: メガピクセルのニューラルネットワークのアバター MegaPortraits: One-shot Megapixel Neural Head Avatars ( http://arxiv.org/abs/2207.07621v2 ) ライセンス: Link先を確認 | Nikita Drobyshev, Jenya Chelishev, Taras Khakhulin, Aleksei Ivakhnenko, Victor Lempitsky and Egor Zakharov | (参考訳) そこで本研究では, クロスドライブ合成の課題, すなわち, 映像の外観がアニメーション画像と大きく異なる場合に注目しながら, ニューラルネットワークアバター技術をメガピクセル解像度に進化させる。
本研究では,中分解能映像データと高分解能画像データの両方を活用し,所望のレンダリング画質と新たな視点や動きへの一般化を実現する,新たなニューラルアーキテクチャとトレーニング手法を提案する。
提案するアーキテクチャと手法が説得力のある高解像度のニューラルアバターを生み出し、クロスドライブのシナリオでライバルより優れていることを示す。
最後に、トレーニングされた高分解能ニューラルアバターモデルを、リアルタイムで動作し、ニューラルネットワークアバターのアイデンティティを数十の事前定義されたソースイメージにロックする軽量の学生モデルに蒸留する方法を示す。
リアルタイム操作とIDロックは多くの実用的アバターシステムに必須である。 In this work, we advance the neural head avatar technology to the megapixel resolution while focusing on the particularly challenging task of cross-driving synthesis, i.e., when the appearance of the driving image is substantially different from the animated source image. We propose a set of new neural architectures and training methods that can leverage both medium-resolution video data and high-resolution image data to achieve the desired levels of rendered image quality and generalization to novel views and motion. We demonstrate that suggested architectures and methods produce convincing high-resolution neural avatars, outperforming the competitors in the cross-driving scenario. Lastly, we show how a trained high-resolution neural avatar model can be distilled into a lightweight student model which runs in real-time and locks the identities of neural avatars to several dozens of pre-defined source images. Real-time operation and identity lock are essential for many practical applications head avatar systems. | 翻訳日:2023-03-29 19:56:39 公開日:2023-03-28 |
# 擬似ラベルを用いた半教師付きメタトレーニング Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning ( http://arxiv.org/abs/2207.06817v2 ) ライセンス: Link先を確認 | Xingping Dong, Shengcai Liao, Bo Du, Ling Shao | (参考訳) 既存の少数ショット学習(FSL)手法の多くは、メタトレーニングにおいて大量のラベル付きデータを必要とする。
ラベルの要件を軽減するため, FSL では,少数のラベル付きサンプルと未ラベル付きサンプル数を含む半教師付きメタトレーニング (SSMT) 設定が提案されている。
しかし、既存の手法では、未ラベル集合の仮定に反する未ラベル集合からのクラス対応サンプル選択が必要となる。
本稿では,実シナリオにおけるFSLの適用を促進するために,実際にラベルのないデータを用いた半教師付きメタトレーニング環境を提案する。
ラベル付きデータと真にラベル付きデータの両方をより有効に利用するために、擬似ラベルベースのメタ学習(plml)と呼ばれる、シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、共通半教師付き学習(ssl)を通じて分類器を訓練し、ラベルなしデータの擬似ラベルを取得する。
次に,ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し,ノイズラベルからFSLモデルをよりよく学習するための特徴平滑化とノイズ抑圧を備えた新しいファインタニング手法を設計する。
驚くべきことに、2つのFSLデータセットにわたる広範な実験により、この単純なメタトレーニングフレームワークは、制限付きラベル付きデータの下での様々なFSLモデルの性能劣化を効果的に防止し、また最先端のSSMTモデルよりも大幅に優れていることがわかった。
さらに,メタトレーニングの利点により,提案手法は2つの代表的なSSLアルゴリズムも改善する。 Most existing few-shot learning (FSL) methods require a large amount of labeled data in meta-training, which is a major limit. To reduce the requirement of labels, a semi-supervised meta-training (SSMT) setting has been proposed for FSL, which includes only a few labeled samples and numbers of unlabeled samples in base classes. However, existing methods under this setting require class-aware sample selection from the unlabeled set, which violates the assumption of unlabeled set. In this paper, we propose a practical semi-supervised meta-training setting with truly unlabeled data to facilitate the applications of FSL in realistic scenarios. To better utilize both the labeled and truly unlabeled data, we propose a simple and effective meta-training framework, called pseudo-labeling based meta-learning (PLML). Firstly, we train a classifier via common semi-supervised learning (SSL) and use it to obtain the pseudo-labels of unlabeled data. Then we build few-shot tasks from labeled and pseudo-labeled data and design a novel finetuning method with feature smoothing and noise suppression to better learn the FSL model from noise labels. Surprisingly, through extensive experiments across two FSL datasets, we find that this simple meta-training framework effectively prevents the performance degradation of various FSL models under limited labeled data, and also significantly outperforms the state-of-the-art SSMT models. Besides, benefiting from meta-training, our method also improves two representative SSL algorithms as well. | 翻訳日:2023-03-29 19:56:24 公開日:2023-03-28 |
# 量子ビット伝送の古典的コスト Classical Cost of Transmitting a Qubit ( http://arxiv.org/abs/2207.02244v2 ) ライセンス: Link先を確認 | Martin J. Renner, Armin Tavakoli and Marco T\'ulio Quintino | (参考訳) 我々は,Aliceが正の演算子評価測度(POVM)の形で一般的な測定を行うことのできる,キュービット状態のBobへの送信が可能な一般的な準備と測定シナリオを考える。
このような量子プロトコルで得られる統計は、純粋に古典的な共有ランダム性と2ビットの通信によってシミュレートできることを示す。
さらに、2ビットの通信が完全な古典的シミュレーションの最小コストであることを証明する。
さらに,よく知られている toner と bacon プロトコルを拡張した bell シナリオにも本手法を適用した。
特に、2ビットの通信は、任意の2量子状態に適用された任意の局所POVMに関連する全ての量子相関をシミュレートするのに十分である。 We consider general prepare-and-measure scenarios in which Alice can transmit qubit states to Bob, who can perform general measurements in the form of positive operator-valued measures (POVMs). We show that the statistics obtained in any such quantum protocol can be simulated by the purely classical means of shared randomness and two bits of communication. Furthermore, we prove that two bits of communication is the minimal cost of a perfect classical simulation. In addition, we apply our methods to Bell scenarios, which extends the well-known Toner and Bacon protocol. In particular, two bits of communication are enough to simulate all quantum correlations associated to arbitrary local POVMs applied to any entangled two-qubit state. | 翻訳日:2023-03-29 19:55:54 公開日:2023-03-28 |
# xr用エッジaiハードウェアのメモリ指向設計空間探索 Memory-Oriented Design-Space Exploration of Edge-AI Hardware for XR Applications ( http://arxiv.org/abs/2206.06780v3 ) ライセンス: Link先を確認 | Vivek Parmar, Syed Shakib Sarwar, Ziyun Li, Hsien-Hsin S. Lee, Barbara De Salvo, Manan Suri | (参考訳) 低消費電力エッジAI機能は、Metaverseのビジョンをサポートするためにデバイス上の拡張現実(XR)アプリケーションに不可欠である。
本稿では,2つの代表的なXRワークロードについて検討する。
(i)手の検出及び
(ii)ハードウェアデザイン空間探査のためのアイセグメンテーション。
どちらのアプリケーションでも、ディープニューラルネットワークをトレーニングし、量子化とハードウェア固有のボトルネックの影響を分析します。
シミュレーションにより,CPUと2つのシストリック推論アクセラレータの実装を評価する。
次に、これらのハードウェアソリューションを高度な技術ノードと比較する。
最先端の非揮発性メモリ技術(STT/SOT/VGSOT MRAM)をXR-AI推論パイプラインに統合した影響を評価した。
その結果,7nmノードで設計したメモリ階層に不揮発性メモリを導入することで,手指検出(IPS=10)と目指分割(IPS=0.1)に有意なエネルギー利得(>=24%)を達成できることがわかった。
さらに,従来のSRAMと比較して,MRAMの形状因子が小さいため,面積(>=30%)を大幅に削減できる。 Low-Power Edge-AI capabilities are essential for on-device extended reality (XR) applications to support the vision of Metaverse. In this work, we investigate two representative XR workloads: (i) Hand detection and (ii) Eye segmentation, for hardware design space exploration. For both applications, we train deep neural networks and analyze the impact of quantization and hardware specific bottlenecks. Through simulations, we evaluate a CPU and two systolic inference accelerator implementations. Next, we compare these hardware solutions with advanced technology nodes. The impact of integrating state-of-the-art emerging non-volatile memory technology (STT/SOT/VGSOT MRAM) into the XR-AI inference pipeline is evaluated. We found that significant energy benefits (>=24%) can be achieved for hand detection (IPS=10) and eye segmentation (IPS=0.1) by introducing non-volatile memory in the memory hierarchy for designs at 7nm node while meeting minimum IPS (inference per second). Moreover, we can realize substantial reduction in area (>=30%) owing to the small form factor of MRAM compared to traditional SRAM. | 翻訳日:2023-03-29 19:55:40 公開日:2023-03-28 |
# DSCA: がん予後のための全スライディング画像ピラミッドをクロスアテンションしたデュアルストリームネットワーク DSCA: A Dual-Stream Network with Cross-Attention on Whole-Slide Image Pyramids for Cancer Prognosis ( http://arxiv.org/abs/2206.05782v4 ) ライセンス: Link先を確認 | Pei Liu, Bo Fu, Feng Ye, Rui Yang, Bin Xu, and Luping Ji | (参考訳) ギガピクセル全スライド画像(WSI)のガン予後は、常に困難な課題である。
WSIの視覚的表現をさらに強化するため、既存の手法では単一解像度の画像ではなく、画像ピラミッドをWSIで探索している。
それにもかかわらず、彼らは高い計算コストと、マルチレゾリューション機能融合における意味的ギャップという2つの大きな問題に直面している。
このような問題に対処するために, クロスアテンション(DSCA)を用いた二ストリームネットワーク, 新たな視点からWSIピラミッドを効率的に利用することを提案する。
提案手法では,2つのサブストリームを用いて2つの解像度でwsiパッチを処理し,正方形プーリングを高分解能ストリームで考案し,計算コストを大幅に削減し,デュアルストリーム機能の融合を適切に処理するためのクロス・アテンション・ベースの手法を提案する。
1,911人の患者から3,101wsisの公開データセットをdscaで検証した。
我々の実験とアブレーションの研究は
i)提案したDSCAは,C-Indexの平均改善率約4.6%により,がん予後における既存の最先端の手法より優れる可能性がある。
(ii)我々のdscaネットワークは計算効率が良く、従来のマルチレゾリューションネットワークに比べて学習可能なパラメータ(6.31m対860.18k)は少ないが、計算コストは2.51g対4.94g)である。
3) DSCA, デュアルストリーム, クロスアテンションのキーコンポーネントは, 比較的小さな計算負荷を維持しながら, 平均C-Indexの上昇率を約2.0%とすることで, モデルの性能に寄与する。
我々のDSCAは、WSIベースのがん予後の代替的で効果的なツールとなり得る。 The cancer prognosis on gigapixel Whole-Slide Images (WSIs) has always been a challenging task. To further enhance WSI visual representations, existing methods have explored image pyramids, instead of single-resolution images, in WSIs. In spite of this, they still face two major problems: high computational cost and the unnoticed semantical gap in multi-resolution feature fusion. To tackle these problems, this paper proposes to efficiently exploit WSI pyramids from a new perspective, the dual-stream network with cross-attention (DSCA). Our key idea is to utilize two sub-streams to process the WSI patches with two resolutions, where a square pooling is devised in a high-resolution stream to significantly reduce computational costs, and a cross-attention-based method is proposed to properly handle the fusion of dual-stream features. We validate our DSCA on three publicly-available datasets with a total number of 3,101 WSIs from 1,911 patients. Our experiments and ablation studies verify that (i) the proposed DSCA could outperform existing state-of-the-art methods in cancer prognosis, by an average C-Index improvement of around 4.6%; (ii) our DSCA network is more efficient in computation -- it has more learnable parameters (6.31M vs. 860.18K) but less computational costs (2.51G vs. 4.94G), compared to a typical existing multi-resolution network. (iii) the key components of DSCA, dual-stream and cross-attention, indeed contribute to our model's performance, gaining an average C-Index rise of around 2.0% while maintaining a relatively-small computational load. Our DSCA could serve as an alternative and effective tool for WSI-based cancer prognosis. | 翻訳日:2023-03-29 19:55:22 公開日:2023-03-28 |
# ボソニック浴中における多体結合状態と荷電不純物の相互作用 Many-body bound states and induced interactions of charged impurities in a bosonic bath ( http://arxiv.org/abs/2206.03476v3 ) ライセンス: Link先を確認 | G. E. Astrakharchik, L. A. Pe\~na Ardila, K. Jachymski and A. Negretti | (参考訳) 量子媒体に浸漬した電荷キャリアの誘起相互作用と境界状態は、量子輸送の研究に不可欠である。
超低温原子イオンシステムは、この問題を研究するのに便利なプラットフォームを提供することができる。
本稿では,量子モンテカルロ法によるボソニック浴中におけるイオン性不純物の静的性質について検討する。
我々は、原子イオンポテンシャルの強さと2体境界状態の数に依存する3つの双極子状態、すなわち、中性不純物の対の状況に類似した摂動的状態、前者の準粒子特性を失う非摂動的状態、および2体ポテンシャルの有界状態の存在下でのみ生じる多体境界状態状態、を同定する。
さらに, 2つのイオンポーラロン間の強い入浴誘起相互作用を明らかにした。
この結果から,高相関不純物モデルの記述には数値シミュレーションが不可欠であることが示唆された。 Induced interactions and bound states of charge carriers immersed in a quantum medium are crucial for the investigation of quantum transport. Ultracold atom-ion systems can provide a convenient platform for studying this problem. Here, we investigate the static properties of one and two ionic impurities in a bosonic bath using quantum Monte Carlo methods. We identify three bipolaronic regimes depending on the strength of the atom-ion potential and the number of its two-body bound states: a perturbative regime resembling the situation of a pair of neutral impurities, a non-perturbative regime that loses the quasi-particle character of the former, and a many-body bound state regime that can arise only in the presence of a bound state in the two-body potential. We further reveal strong bath-induced interactions between the two ionic polarons. Our findings show that numerical simulations are indispensable for describing highly correlated impurity models. | 翻訳日:2023-03-29 19:54:49 公開日:2023-03-28 |
# 擬似データに基づく自己監督型フェデレーション学習による病理像の分類 Pseudo-Data based Self-Supervised Federated Learning for Classification of Histopathological Images ( http://arxiv.org/abs/2205.15530v2 ) ライセンス: Link先を確認 | Jun Shi, Yuanming Zhang, Zheng Li, Xiangmin Han, Saisai Ding, Jun Wang, Shihui Ying | (参考訳) コンピュータ支援診断(CAD)は、がんに対する一貫性と再現性とともに、病理医が診断精度を向上させるのに役立つ。
しかし, 単一中心(ホスピタル)からのみ組織像で訓練したCADモデルは, 異なる中心間の歪みの不整合により, 一般に一般化問題に悩まされる。
本研究では,cadモデルの診断精度と一般化の両方を改善するために,擬似データに基づく自己教師付きフェデレーション学習(fl)フレームワークであるssl-ft-btを提案する。
具体的には、このセンターの実際の画像に対応する固有の特性と特定の特性を含むが、プライバシ情報は含まない、各センターから擬似病理像を生成する。
これらの擬似イメージは、自己教師付き学習(SSL)のために中央サーバで共有される。
マルチタスクSSLは、データ特性に応じて、センター固有の情報と共通の固有表現の両方を完全に学習するように設計される。
さらに,各中心におけるCADモデルの局所的訓練を改善するために,新たなバーロウツイン系FL(FL-BT)アルゴリズムを提案する。
3つの病理組織像データセットの実験結果から,SSL-FL-BTが診断精度および一般化に与える影響が示唆された。 Computer-aided diagnosis (CAD) can help pathologists improve diagnostic accuracy together with consistency and repeatability for cancers. However, the CAD models trained with the histopathological images only from a single center (hospital) generally suffer from the generalization problem due to the straining inconsistencies among different centers. In this work, we propose a pseudo-data based self-supervised federated learning (FL) framework, named SSL-FT-BT, to improve both the diagnostic accuracy and generalization of CAD models. Specifically, the pseudo histopathological images are generated from each center, which contains inherent and specific properties corresponding to the real images in this center, but does not include the privacy information. These pseudo images are then shared in the central server for self-supervised learning (SSL). A multi-task SSL is then designed to fully learn both the center-specific information and common inherent representation according to the data characteristics. Moreover, a novel Barlow Twins based FL (FL-BT) algorithm is proposed to improve the local training for the CAD model in each center by conducting contrastive learning, which benefits the optimization of the global model in the FL procedure. The experimental results on three public histopathological image datasets indicate the effectiveness of the proposed SSL-FL-BT on both diagnostic accuracy and generalization. | 翻訳日:2023-03-29 19:54:32 公開日:2023-03-28 |
# 機械学習による四ビット交絡状態の分類 Classification of four-qubit entangled states via Machine Learning ( http://arxiv.org/abs/2205.11512v2 ) ライセンス: Link先を確認 | S. V. Vintskevich, N. Bao, A. Nomerotski, P. Stankus, D.A. Grigoriev | (参考訳) サポートベクターマシン (svm) アルゴリズムを適用し, 4量子状態の族における絡み合いパターンを同定するために, 絡み合い証人集合 (ew) を導出する。
実用EW実装におけるSVMの有効性は、等価な絡み合った量子状態の族を粗く記述することに由来する。
本研究における等価性基準は,確率的局所演算と古典的通信(SLOCC)分類と,四ビット交絡Werner状態の記述に基づく。
我々は,svmアプローチが,与えられた家族状態の粗粒度記述が利用可能である場合に,絡み合い証人問題に対処する効果的なツールであることを数値的に検証する。
また, 非線形カーネルsvm法の効率を, 4量子ビットエンタングル状態分類に適用して議論し, 実証する。 We apply the support vector machine (SVM) algorithm to derive a set of entanglement witnesses (EW) to identify entanglement patterns in families of four-qubit states. The effectiveness of SVM for practical EW implementations stems from the coarse-grained description of families of equivalent entangled quantum states. The equivalence criteria in our work is based on the stochastic local operations and classical communication (SLOCC) classification and the description of the four-qubit entangled Werner states. We numerically verify that the SVM approach provides an effective tool to address the entanglement witness problem when the coarse-grained description of a given family state is available. We also discuss and demonstrate the efficiency of nonlinear kernel SVM methods as applied to four-qubit entangled state classification. | 翻訳日:2023-03-29 19:54:12 公開日:2023-03-28 |
# sept-angle合成波長干渉計 Swept-Angle Synthetic Wavelength Interferometry ( http://arxiv.org/abs/2205.10655v3 ) ライセンス: Link先を確認 | Alankar Kotwal and Anat Levin and Ioannis Gkioulekas | (参考訳) フルフィールドミクロンスケール3Dセンシングのための新しいイメージング技術であるスワップアングル合成波長干渉法を提案する。
従来の合成波長インターフェロメトリと同様に、2つの狭分割光学波長からなる光を使用し、その位相がシーン深度をエンコードするピクセル単位のインターフェロメトリー測定を行う。
さらに, 空間的に不連続な照明をエミュレートすることで, 干渉計測が収差や(サブ) 表面散乱に影響を受けず, 位相測定が損なうような新しいタイプの光源を用いる。
その結果得られた手法は、スキャニング干渉計の設定の破壊とフルフィールド干渉計の設定の速度とを組み合わせる。
総じて, 強い周囲光の下でも, フレームレート5Hz, 横方向および軸方向の分解能5μnで全フレーム深度を復元することができる。
実験的なプロトタイプを構築し、様々なオブジェクトをスキャンして、検査や製造における応用を表すオブジェクトや、難解な光散乱効果を含むオブジェクトを含む、これらの機能を実証する。 We present a new imaging technique, swept-angle synthetic wavelength interferometry, for full-field micron-scale 3D sensing. As in conventional synthetic wavelength interferometry, our technique uses light consisting of two narrowly-separated optical wavelengths, resulting in per-pixel interferometric measurements whose phase encodes scene depth. Our technique additionally uses a new type of light source that, by emulating spatially-incoherent illumination, makes interferometric measurements insensitive to aberrations and (sub)surface scattering, effects that corrupt phase measurements. The resulting technique combines the robustness to such corruptions of scanning interferometric setups, with the speed of full-field interferometric setups. Overall, our technique can recover full-frame depth at a lateral and axial resolution of 5 microns, at frame rates of 5 Hz, even under strong ambient light. We build an experimental prototype, and use it to demonstrate these capabilities by scanning a variety of objects, including objects representative of applications in inspection and fabrication, and objects that contain challenging light scattering effects. | 翻訳日:2023-03-29 19:54:00 公開日:2023-03-28 |
# PointVector:ポイントクラウド分析におけるベクトル表現 PointVector: A Vector Representation In Point Cloud Analysis ( http://arxiv.org/abs/2205.10528v3 ) ライセンス: Link先を確認 | Xin Deng, WenYu Zhang, Qing Ding, XinMing Zhang | (参考訳) ポイントクラウド分析では,近年,ポイントベース手法が急速に発展している。
これらの手法は、最近、畳み込み構造やトランスフォーマー構造との競合性を実証したPointNeXtのような簡潔なMLP構造に焦点を当てている。
しかし、標準的なMLPは局所的な特徴を効果的に抽出する能力に制限されている。
この制限に対処するために,高次元ベクトルを通して隣接特徴を集約できるベクトル指向点集合抽象化を提案する。
ネットワーク最適化を容易にするために, 3次元ベクトル回転に基づく独立角度を用いたスカラーからベクトルへの変換を行う。
最後に、PointNeXtの構造に従うPointVectorモデルを開発する。
実験の結果,PointVector は S3DIS Area 5 上で,S3DIS 上では $\textbf{72.3\% mIOU}$,S3DIS では $\textbf{78.4\% mIOU}$,PointNeXt のモデルパラメータでは $\textbf{58\%}$ しか得られていないことがわかった。
私たちの仕事が,簡潔で効果的な機能表現の探求に役立てることを願っています。
コードはまもなくリリースされる。 In point cloud analysis, point-based methods have rapidly developed in recent years. These methods have recently focused on concise MLP structures, such as PointNeXt, which have demonstrated competitiveness with Convolutional and Transformer structures. However, standard MLPs are limited in their ability to extract local features effectively. To address this limitation, we propose a Vector-oriented Point Set Abstraction that can aggregate neighboring features through higher-dimensional vectors. To facilitate network optimization, we construct a transformation from scalar to vector using independent angles based on 3D vector rotations. Finally, we develop a PointVector model that follows the structure of PointNeXt. Our experimental results demonstrate that PointVector achieves state-of-the-art performance $\textbf{72.3\% mIOU}$ on the S3DIS Area 5 and $\textbf{78.4\% mIOU}$ on the S3DIS (6-fold cross-validation) with only $\textbf{58\%}$ model parameters of PointNeXt. We hope our work will help the exploration of concise and effective feature representations. The code will be released soon. | 翻訳日:2023-03-29 19:53:40 公開日:2023-03-28 |
# 住宅短期負荷予測のためのセキュアなフェデレーション学習フレームワーク A Secure Federated Learning Framework for Residential Short Term Load Forecasting ( http://arxiv.org/abs/2209.14547v2 ) ライセンス: Link先を確認 | Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood and Robin Doss | (参考訳) スマートメータの測定は、正確な需要予測には不可欠だが、消費者のプライバシー、データ漏洩問題などいくつかの欠点に直面している。
近年の文献では、フェデレートラーニング(FL)を、短期的な負荷予測のためにプライベートな生データを公開することなく、モデルの協調学習を可能にする、将来性のあるプライバシー保護機械学習代替手段として検討している。
その美徳にもかかわらず、スタンダードflは、欠陥および/または悪意のあるクライアントによって実行されるビザンチン攻撃として知られる難解なサイバー脅威に対して依然として脆弱である。
したがって、ビザンチン脅威に対するフェデレートされた短期的負荷予測のロバスト性を向上させるため、我々は、flモデルとアーキテクチャのセキュリティを保護しつつ、個々のスマートメータのデータのプライバシを保証する、最先端のプライベートなflベースのフレームワークを開発した。
提案手法では,局所モデルトレーニング後に,クライアントが勾配の「符号」のみを制御センタに送信するサイン確率勾配降下(signsgd)アルゴリズムを用いて,勾配量子化の考え方を活用している。
ベンチマークニューラルネットワークと一連のビザンチン攻撃モデルを用いた実験で強調したように、提案手法はそのような脅威を効果的に軽減し、従来のFed-SGDモデルより優れている。 Smart meter measurements, though critical for accurate demand forecasting, face several drawbacks including consumers' privacy, data breach issues, to name a few. Recent literature has explored Federated Learning (FL) as a promising privacy-preserving machine learning alternative which enables collaborative learning of a model without exposing private raw data for short term load forecasting. Despite its virtue, standard FL is still vulnerable to an intractable cyber threat known as Byzantine attack carried out by faulty and/or malicious clients. Therefore, to improve the robustness of federated short-term load forecasting against Byzantine threats, we develop a state-of-the-art differentially private secured FL-based framework that ensures the privacy of the individual smart meter's data while protect the security of FL models and architecture. Our proposed framework leverages the idea of gradient quantization through the Sign Stochastic Gradient Descent (SignSGD) algorithm, where the clients only transmit the `sign' of the gradient to the control centre after local model training. As we highlight through our experiments involving benchmark neural networks with a set of Byzantine attack models, our proposed approach mitigates such threats quite effectively and thus outperforms conventional Fed-SGD models. | 翻訳日:2023-03-29 19:47:33 公開日:2023-03-28 |
# 安全・共安全言語の一階述語論理 A first-order logic characterization of safety and co-safety languages ( http://arxiv.org/abs/2209.02307v3 ) ライセンス: Link先を確認 | Alessandro Cimatti and Luca Geatti and Nicola Gigante and Angelo Montanari and Stefano Tonetta | (参考訳) LTL(Linear Temporal Logic)は、コンピュータ科学の様々な分野において、最も一般的な時間論理の1つである。
LTL は反自由オメガオートマタ、星のないオメガ正規表現、(カンプの定理により)一階線形順序理論(FO-TLO)と等価である。
安全性(safety)とコセーフティ(co-safety)言語は、単語がそれぞれ言語に属さないか属さないかを確立するために有限プレフィックスが十分であり、モデル検査やltlのリアクティブ合成のような問題の複雑さを低下させる上で重要な役割を果たす。
SafetyLTL (resp., coSafetyLTL) はLTLの断片であり、安全(resp., co-safety)言語のみを認識する普遍的(resp., existential)時間的モダリティのみを許容する。
この論文の主な貢献は、safetyfoと呼ばれるfo-tloの断片と、ltl-definable safetyとco-safety languageに関して表現的に完結した2つのcosafetyfoの導入である。
我々は,これらがそれぞれSafetyLTLとcoSafetyLTLを正確に特徴付けることを証明し,その結果がカンプの定理に一致することを証明し,一階言語の観点からLTLの特徴付け(フラグメント)をより明確にする。
さらに、ltlで定義可能な安全言語がsafetyltlでも定義可能であることを直接的でコンパクトで自己完結した証明を与える。
副産物として,有限語および無限語で解釈された,明日の弱作用素SafetyLTLの表現力に関する興味深い結果が得られる。
さらに、有限語を解釈すると、明日の(弱明日)演算子を欠いたsafetyltl (resp. cosafetyltl) が有限語上のltlの安全(resp., co-safety)フラグメントをキャプチャする。 Linear Temporal Logic (LTL) is one of the most popular temporal logics, that comes into play in a variety of branches of computer science. Among the various reasons of its widespread use there are its strong foundational properties: LTL is equivalent to counter-free omega-automata, to star-free omega-regular expressions, and (by Kamp's theorem) to the First-Order Theory of Linear Orders (FO-TLO). Safety and co-safety languages, where a finite prefix suffices to establish whether a word does not belong or belongs to the language, respectively, play a crucial role in lowering the complexity of problems like model checking and reactive synthesis for LTL. SafetyLTL (resp., coSafetyLTL) is a fragment of LTL where only universal (resp., existential) temporal modalities are allowed, that recognises safety (resp., co-safety) languages only. The main contribution of this paper is the introduction of a fragment of FO-TLO, called SafetyFO, and of its dual coSafetyFO, which are expressively complete with respect to the LTL-definable safety and co-safety languages. We prove that they exactly characterize SafetyLTL and coSafetyLTL, respectively, a result that joins Kamp's theorem, and provides a clearer view of the characterization of (fragments of) LTL in terms of first-order languages. In addition, it gives a direct, compact, and self-contained proof that any safety language definable in LTL is definable in SafetyLTL as well. As a by-product, we obtain some interesting results on the expressive power of the weak tomorrow operator of SafetyLTL, interpreted over finite and infinite words. Moreover, we prove that, when interpreted over finite words, SafetyLTL (resp. coSafetyLTL) devoid of the tomorrow (resp., weak tomorrow) operator captures the safety (resp., co-safety) fragment of LTL over finite words. | 翻訳日:2023-03-29 19:46:45 公開日:2023-03-28 |
# consistent-teacher:半教師付き物体検出における一貫性のない疑似目標の削減に向けて Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection ( http://arxiv.org/abs/2209.01589v3 ) ライセンス: Link先を確認 | Xinjiang Wang, Xingyi Yang, Shilong Zhang, Yijiang Li, Litong Feng, Shijie Fang, Chengqi Lyu, Kai Chen, Wayne Zhang | (参考訳) 本研究では,半教師対象検出(SSOD)における疑似目標の不整合を深く掘り下げる。
我々の中核的な観察は、振動する擬似ターゲットが正確な検出器の訓練を損なうことである。
生徒のトレーニングにノイズを注入し、深刻な過度な問題を引き起こす。
そこで我々は,一貫性を損なうための体系的な解法であるconsistentteacherを提案する。
まず、適応アンカー代入~(ASA)は静的IoUベースの戦略を代用し、学生ネットワークはノイズの多い疑似バウンディングボックスに耐性を持つ。
次に,3次元特徴アライメントモジュール~(FAM-3D)を設計することにより,サブタスク予測の校正を行う。
これにより、各分類機能は任意のスケールと位置で回帰タスクの最適な特徴ベクトルを適応的にクエリできる。
最後に、ガウス混合モデル(GMM)は、擬似ボックスのスコア閾値を動的に修正し、早期の地上真実数を安定化し、訓練中に信頼できない監視信号を修正する。
ConsistentTeacherは、幅広いSSOD評価に対して強力な結果を提供する。
ResNet-50のバックボーンで40.0mAPを達成し、注釈付きMS-COCOデータの10%しか与えられていない。
完全な注釈付きMS-COCOにラベルなしのデータを追加すると、パフォーマンスはさらに47.7 mAPに向上する。
私たちのコードは \url{https://github.com/Adamdad/ConsistentTeacher} で利用可能です。 In this study, we dive deep into the inconsistency of pseudo targets in semi-supervised object detection (SSOD). Our core observation is that the oscillating pseudo-targets undermine the training of an accurate detector. It injects noise into the student's training, leading to severe overfitting problems. Therefore, we propose a systematic solution, termed ConsistentTeacher, to reduce the inconsistency. First, adaptive anchor assignment~(ASA) substitutes the static IoU-based strategy, which enables the student network to be resistant to noisy pseudo-bounding boxes. Then we calibrate the subtask predictions by designing a 3D feature alignment module~(FAM-3D). It allows each classification feature to adaptively query the optimal feature vector for the regression task at arbitrary scales and locations. Lastly, a Gaussian Mixture Model (GMM) dynamically revises the score threshold of pseudo-bboxes, which stabilizes the number of ground truths at an early stage and remedies the unreliable supervision signal during training. ConsistentTeacher provides strong results on a large range of SSOD evaluations. It achieves 40.0 mAP with ResNet-50 backbone given only 10% of annotated MS-COCO data, which surpasses previous baselines using pseudo labels by around 3 mAP. When trained on fully annotated MS-COCO with additional unlabeled data, the performance further increases to 47.7 mAP. Our code is available at \url{https://github.com/Adamdad/ConsistentTeacher}. | 翻訳日:2023-03-29 19:45:59 公開日:2023-03-28 |
# エンコード強化:トレーニングラベルのエンコードによる新しいアンバランスな分類手法 Enhancement Encoding: A Novel Imbalanced Classification Approach via Encoding the Training Labels ( http://arxiv.org/abs/2208.11056v2 ) ライセンス: Link先を確認 | Jia-Chen Zhao | (参考訳) クラス不均衡(クラス不均衡)は、機械学習に基づく分類タスクにおいて一般的な問題である。
もしそうなれば、マイノリティデータは多数派に圧倒され、データサイエンスにとってかなりの課題となる。
クラス不均衡問題に対処するため、研究者は、データセットをバランスよくする(SMOTE)、損失関数を洗練させる(Focal Loss)、ラベルの価値がクラス不均衡学習に影響を与えることに気付いた(YangとXu)、といった方法も提案されている。また、クラス不均衡学習を改善するためのラベルの価値を再考する。NeurIPS 2020では、まだラベルをエンコードする方法は変更されていない。
現在、ラベルをエンコードする最も一般的なテクニックは、一般的な状況でパフォーマンスが良いため、ワンホットエンコーディングである。
しかし、分類器は多数派と少数派のサンプルを等しく扱うので、不均衡なデータには適さない。
本稿では,不均衡分類のために特別に設計されたエンハンスエンコーディング手法を革新的に提案する。
エンコーディングの強化は、再重み付けとコスト感受性を組み合わせることで、ハードクラスとマイノリティークラスの違いを反映することができる。
検証サンプルの数と計算コストを削減するため,より小さな検証セットでよりよく動作する新しいソフトコンフュージョンマトリックスを混同行列に置き換える。
実験では,3種類の損失を伴うエンハンスメント符号化の評価を行った。
また,エンハンスエンコーディングは,不均衡データでトレーニングしたネットワークの性能を向上させるのに非常に有効であることを示した。
特に、マイノリティクラスのパフォーマンスはずっと良いです。 Class imbalance, which is also called long-tailed distribution, is a common problem in classification tasks based on machine learning. If it happens, the minority data will be overwhelmed by the majority, which presents quite a challenge for data science. To address the class imbalance problem, researchers have proposed lots of methods: some people make the data set balanced (SMOTE), some others refine the loss function (Focal Loss), and even someone has noticed the value of labels influences class-imbalanced learning (Yang and Xu. Rethinking the value of labels for improving class-imbalanced learning. In NeurIPS 2020), but no one changes the way to encode the labels of data yet. Nowadays, the most prevailing technique to encode labels is the one-hot encoding due to its nice performance in the general situation. However, it is not a good choice for imbalanced data, because the classifier will treat majority and minority samples equally. In this paper, we innovatively propose the enhancement encoding technique, which is specially designed for the imbalanced classification. The enhancement encoding combines re-weighting and cost-sensitiveness, which can reflect the difference between hard and easy (or minority and majority) classes. To reduce the number of validation samples and the computation cost, we also replace the confusion matrix with a novel soft-confusion matrix which works better with a small validation set. In the experiments, we evaluate the enhancement encoding with three different types of loss. And the results show that enhancement encoding is very effective to improve the performance of the network trained with imbalanced data. Particularly, the performance on minority classes is much better. | 翻訳日:2023-03-29 19:45:15 公開日:2023-03-28 |
# スターク多体局在による離散時間結晶 Discrete time crystal enabled by Stark many-body localization ( http://arxiv.org/abs/2208.02866v2 ) ライセンス: Link先を確認 | Shuo Liu, Shi-Xin Zhang, Chang-Yu Hsieh, Shengyu Zhang, and Hong Yao | (参考訳) 離散時間結晶(DTC)は近年注目されているが、ほとんどのDTCモデルとその特性は障害平均後にのみ明らかにされている。
本稿では,スターク多体ローカライゼーション(MBL)により安定化された非自明なDTC順序を示す単純な障害のない周期駆動モデルを提案する。
摂動論の解析的解析と観測力学からの数値的証拠の説得により,dtc相の存在を実証する。
新しいDTCモデルは、さらなる実験を行い、DTCの理解を深めるための新しい有望な方法を舗装する。
DTCオーダーは特別な量子状態の準備や強い障害平均を必要としないため、資源や繰り返しの少ないノイズの多い中間スケール量子(NISQ)ハードウェアで自然に実現することができる。
さらに、ロバストなサブハーモニック応答に加えて、ランダムまたは準周期的なMBL DTCに欠けるスターク-MBL DTC相には、他の新しい強震動振動が存在する。 Discrete time crystal (DTC) has recently attracted increasing attention, but most DTC models and their properties are only revealed after disorder average. In this Letter, we propose a simple disorder-free periodically driven model that exhibits nontrivial DTC order stabilized by Stark many-body localization (MBL). We demonstrate the existence of DTC phase by analytical analysis from perturbation theory and convincing numerical evidence from observable dynamics. The new DTC model paves a new promising way for further experiments and deepens our understanding of DTC. Since the DTC order doesn't require special quantum state preparation and the strong disorder average, it can be naturally realized on the noisy intermediate-scale quantum (NISQ) hardware with much fewer resources and repetitions. Moreover, besides the robust subharmonic response, there are other novel robust beating oscillations in Stark-MBL DTC phase which are absent in random or quasi-periodic MBL DTC. | 翻訳日:2023-03-29 19:44:43 公開日:2023-03-28 |
# 散逸性予熱離散時間結晶 Dissipative prethermal discrete time crystal ( http://arxiv.org/abs/2208.01055v3 ) ライセンス: Link先を確認 | DinhDuy Vu, Sankar Das Sarma | (参考訳) 外部周期駆動を受けるエルゴード系は、一般に無限温度に加熱される。
しかし、適用周波数が局所ハミルトニアンの典型的なエネルギースケールよりも大きい場合、この加熱は周波数に指数関数的に広がる熱前の期間で停止する。
この熱前周期の間、系は自発的に破れれば離散時間結晶(dtc)のサブハーモニック振動を起こす創発的対称性を示すかもしれない。
熱前dtcの生存時間における散逸の役割について検討した。
一方、入浴カップリングは、予熱を阻害するエラーの蓄積を遅くすることで、予熱周期を増大させる。
一方,自然対称性の破れは環境との相互作用によって不安定化する。
この競合の結果は非単調な変動であり、すなわち、予熱DTCの生存時間が最初に増加し、環境結合が強くなるにつれて減少する。 An ergodic system subjected to an external periodic drive will be generically heated to infinite temperature. However, if the applied frequency is larger than the typical energy scale of the local Hamiltonian, this heating stops during a prethermal period that extends exponentially with the frequency. During this prethermal period, the system may manifest an emergent symmetry that, if spontaneously broken, will produce sub-harmonic oscillation of the discrete time crystal (DTC). We study the role of dissipation on the survival time of the prethermal DTC. On one hand, a bath coupling increases the prethermal period by slowing down the accumulation of errors that eventually destroy prethermalization. On the other hand, the spontaneous symmetry breaking is destabilized by interaction with environment. The result of this competition is a non-monotonic variation, i.e. the survival time of the prethermal DTC first increases and then decreases as the environment coupling gets stronger. | 翻訳日:2023-03-29 19:44:26 公開日:2023-03-28 |
# Task Phasing: デモから学ぶカリキュラムの自動化 Task Phasing: Automated Curriculum Learning from Demonstrations ( http://arxiv.org/abs/2210.10999v2 ) ライセンス: Link先を確認 | Vaibhav Bajaj, Guni Sharon, Peter Stone | (参考訳) 報酬領域のスパースに強化学習(RL)を適用することは、ガイド信号が不十分なため、非常に難しい。
このようなドメインに対処する一般的なRL技術には、(1)実演からの学習、(2)カリキュラム学習がある。
これら2つのアプローチは詳細に研究されているが、共に検討されることはめったにない。
本稿では,実演を用いてカリキュラム列を自動的に生成する原則付きタスクファッシング手法を導入することで,その実現を目指す。
証明から逆 RL を用いることで、簡単な初期タスクを定義します。
タスク処理アプローチは、各処理イテレーションでRLエージェントを調整しながら、目標タスクまでタスクの複雑さを徐々に増加させるフレームワークを提供します。
1) rlエージェントが制御している時間ステップの割合を徐々に増加させ, (2) 誘導的情報報酬関数を強調する2つのアプローチが検討されている。
最適政策へのこれらのアプローチの収束を保証する条件を提案する。
3つのスパース報酬領域に対する実験結果から,我々の課題処理アプローチは漸近的パフォーマンスに関して最先端のアプローチより優れていることが示された。 Applying reinforcement learning (RL) to sparse reward domains is notoriously challenging due to insufficient guiding signals. Common RL techniques for addressing such domains include (1) learning from demonstrations and (2) curriculum learning. While these two approaches have been studied in detail, they have rarely been considered together. This paper aims to do so by introducing a principled task phasing approach that uses demonstrations to automatically generate a curriculum sequence. Using inverse RL from (suboptimal) demonstrations we define a simple initial task. Our task phasing approach then provides a framework to gradually increase the complexity of the task all the way to the target task, while retuning the RL agent in each phasing iteration. Two approaches for phasing are considered: (1) gradually increasing the proportion of time steps an RL agent is in control, and (2) phasing out a guiding informative reward function. We present conditions that guarantee the convergence of these approaches to an optimal policy. Experimental results on 3 sparse reward domains demonstrate that our task phasing approaches outperform state-of-the-art approaches with respect to asymptotic performance. | 翻訳日:2023-03-29 19:38:39 公開日:2023-03-28 |
# 非安全領域の安全バイアス近似のための放射基底ニューラルネットワークの幾何学 Geometry of Radial Basis Neural Networks for Safety Biased Approximation of Unsafe Regions ( http://arxiv.org/abs/2210.05596v2 ) ライセンス: Link先を確認 | Ahmad Abuaish, Mohit Srinivasan, Patricio A. Vela | (参考訳) バリア関数に基づく不等式制約は、制御システムの安全仕様を強制する手段である。
凸最適化プログラムと併用すると、一般的な制御アフィンシステムの安全性を強制する計算効率の良い方法が提供される。
このアプローチをとる際の主要な仮定の1つは障壁関数自体の事前知識、すなわち安全な集合の知識である。
局所安全集合が時間とともに進化する未知の環境を通るナビゲーションの文脈では、そのような知識は存在しない。
この原稿は、ナビゲーションアプリケーションにおける知覚データから、安全で安全でないサンプル測定に基づいて安全なセットを特徴付けるゼロリングバリア関数の合成に焦点を当てている。
先行研究は、特定のレベルセット特性を持つゼロリングバリア関数の構築を保証した教師付き機械学習アルゴリズムを定式化した。
しかし、合成プロセスに使用されるニューラルネットワーク設計の幾何学を探求することはなかった。
この原稿は、障壁関数のゼロ化に使用されるニューラルネットワークの特定の形状を記述し、ネットワークが状態空間を安全で安全でない領域に分割するために必要な表現を提供する方法を示している。 Barrier function-based inequality constraints are a means to enforce safety specifications for control systems. When used in conjunction with a convex optimization program, they provide a computationally efficient method to enforce safety for the general class of control-affine systems. One of the main assumptions when taking this approach is the a priori knowledge of the barrier function itself, i.e., knowledge of the safe set. In the context of navigation through unknown environments where the locally safe set evolves with time, such knowledge does not exist. This manuscript focuses on the synthesis of a zeroing barrier function characterizing the safe set based on safe and unsafe sample measurements, e.g., from perception data in navigation applications. Prior work formulated a supervised machine learning algorithm whose solution guaranteed the construction of a zeroing barrier function with specific level-set properties. However, it did not explore the geometry of the neural network design used for the synthesis process. This manuscript describes the specific geometry of the neural network used for zeroing barrier function synthesis, and shows how the network provides the necessary representation for splitting the state space into safe and unsafe regions. | 翻訳日:2023-03-29 19:37:28 公開日:2023-03-28 |
# 1つのトランスフォーマーは2Dと3Dの分子データの両方を理解できる One Transformer Can Understand Both 2D & 3D Molecular Data ( http://arxiv.org/abs/2210.01765v4 ) ライセンス: Link先を確認 | Shengjie Luo, Tianlang Chen, Yixian Xu, Shuxin Zheng, Tie-Yan Liu, Liwei Wang, Di He | (参考訳) 通常独自の形式を持つ視覚や言語データとは異なり、分子は異なる化学式を用いて自然に特徴付けられる。
分子を2次元グラフと見なすこともできるし、3次元空間にある原子の集まりと定義することもできる。
分子表現学習のために、ほとんどの先行研究はニューラルネットワークを特定のデータ形式のみのために設計しており、学習されたモデルは他のデータ形式では失敗する可能性が高い。
化学のための汎用ニューラルネットワークモデルは、データモダリティを越えて分子タスクを処理できるべきだと考えています。
そこで本研究では, 2次元および3次元の分子データを入力として, 意味的意味表現を生成するトランスフォーマ1分子モデルであるtransformer-mを開発した。
Transformer-M は標準的な Transformer をバックボーンアーキテクチャとして使用し、2D と 3D の構造情報をエンコードし、それらをネットワークモジュールの原子機能に組み込む2つの分離チャネルを開発した。
入力データが特定のフォーマットにある場合、対応するチャネルがアクティベートされ、もう一方が無効になる。
適切に設計された教師付き信号で2Dおよび3D分子データをトレーニングすることにより、Transformer-Mは、異なるデータモダリティからの知識を活用して、表現を正しくキャプチャする。
我々はtransformer-mの広範な実験を行った。
実験結果から,Transformer-Mは2次元および3次元のタスクに対して高い性能を同時に達成できることが示唆された。
コードとモデルはhttps://github.com/lsj2408/Transformer-Mで公開される。 Unlike vision and language data which usually has a unique format, molecules can naturally be characterized using different chemical formulations. One can view a molecule as a 2D graph or define it as a collection of atoms located in a 3D space. For molecular representation learning, most previous works designed neural networks only for a particular data format, making the learned models likely to fail for other data formats. We believe a general-purpose neural network model for chemistry should be able to handle molecular tasks across data modalities. To achieve this goal, in this work, we develop a novel Transformer-based Molecular model called Transformer-M, which can take molecular data of 2D or 3D formats as input and generate meaningful semantic representations. Using the standard Transformer as the backbone architecture, Transformer-M develops two separated channels to encode 2D and 3D structural information and incorporate them with the atom features in the network modules. When the input data is in a particular format, the corresponding channel will be activated, and the other will be disabled. By training on 2D and 3D molecular data with properly designed supervised signals, Transformer-M automatically learns to leverage knowledge from different data modalities and correctly capture the representations. We conducted extensive experiments for Transformer-M. All empirical results show that Transformer-M can simultaneously achieve strong performance on 2D and 3D tasks, suggesting its broad applicability. The code and models will be made publicly available at https://github.com/lsj2408/Transformer-M. | 翻訳日:2023-03-29 19:37:09 公開日:2023-03-28 |
# 平面深度:直交平面による自己監督深度推定 PlaneDepth: Self-supervised Depth Estimation via Orthogonal Planes ( http://arxiv.org/abs/2210.01612v3 ) ライセンス: Link先を確認 | Ruoyu Wang, Zehao Yu and Shenghua Gao | (参考訳) 複数の前頭平行面に基づく深度表現は、自己教師付き単眼深度推定(MDE)において顕著な結果を示した。
一方、このような表現は、前方-平行平面に垂直な地面の不連続性を引き起こし、これは自律運転における乾燥可能な空間の同定に有害である。
本稿では,垂直平面と接地平面を含む,新しい直交平面に基づくプレゼンテーションであるplanedepthを提案する。
平面Depthは入力画像の直交平面に基づくラプラシアン混合モデルを用いて深度分布を推定する。
これらの平面は、自己超越信号を提供するために参照ビューを合成するために使用される。
さらに,広範に使用されるリサイズおよびクロッピングデータ拡張が直交性仮定を損なうことから,平面予測が劣ることがわかった。
本稿では,事前定義された平面と予測カメラのポーズを補正するために,再サイズトリミング変換を明示的に構築することでこの問題に対処する。
さらに, 咬合面表現のロバスト性を高めるため, 両側咬合マスクを併用した拡張自己蒸留損失法を提案する。
直交平面の表現により、無人運転において重要な、教師なしの方法で地上平面を抽出することができる。
KITTIデータセットの大規模な実験により,本手法の有効性と有効性を示した。
コードはhttps://github.com/svip-lab/planedepthで入手できる。 Multiple near frontal-parallel planes based depth representation demonstrated impressive results in self-supervised monocular depth estimation (MDE). Whereas, such a representation would cause the discontinuity of the ground as it is perpendicular to the frontal-parallel planes, which is detrimental to the identification of drivable space in autonomous driving. In this paper, we propose the PlaneDepth, a novel orthogonal planes based presentation, including vertical planes and ground planes. PlaneDepth estimates the depth distribution using a Laplacian Mixture Model based on orthogonal planes for an input image. These planes are used to synthesize a reference view to provide the self-supervision signal. Further, we find that the widely used resizing and cropping data augmentation breaks the orthogonality assumptions, leading to inferior plane predictions. We address this problem by explicitly constructing the resizing cropping transformation to rectify the predefined planes and predicted camera pose. Moreover, we propose an augmented self-distillation loss supervised with a bilateral occlusion mask to boost the robustness of orthogonal planes representation for occlusions. Thanks to our orthogonal planes representation, we can extract the ground plane in an unsupervised manner, which is important for autonomous driving. Extensive experiments on the KITTI dataset demonstrate the effectiveness and efficiency of our method. The code is available at https://github.com/svip-lab/PlaneDepth. | 翻訳日:2023-03-29 19:36:42 公開日:2023-03-28 |
# LPT:画像分類のための長い尾のプロンプトチューニング LPT: Long-tailed Prompt Tuning for Image Classification ( http://arxiv.org/abs/2210.01033v2 ) ライセンス: Link先を確認 | Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo | (参考訳) ロングテール分類の場合、ほとんどの作業は大規模データセット上で大きなモデルを事前トレーニングし、ロングテールデータへの適応のためにモデル全体を微調整する。
有望ではあるが、事前訓練されたモデル全体の微調整は、異なるタスクのための異なるモデルの計算とデプロイのコストが高く、長い尾を持つデータの特定の特徴に過度に適合する一般化能力が弱まる傾向にある。
これらの問題を緩和するために、長い尾の分類に有効な長尾のプロンプトチューニング法を提案する。
lptは、複数のトレーニング可能なプロンプトを凍結した事前学習モデルに導入して、ロングテールデータに適応させる。
より良い効果を得るために、プロンプトを2つのグループに分けます。
1)ロングテールデータセット全体の共有プロンプトは、一般的な特徴を学習し、事前訓練されたモデルを対象領域に適応させる。
2) 類似した特徴を持つサンプルに対してグループ固有の特徴を収集し, 識別能力を有する事前学習モデルの強化を図る。
そして、これらのプロンプトを学習するための2段階の訓練パラダイムを設計する。
フェーズ1では、教師付きプロンプトチューニングを通じて共有プロンプトをトレーニングし、事前訓練されたモデルを所望の長尾領域に適応させる。
第2相では、学習した共有プロンプトをクエリとして使用し、グループ固有のプロンプトセットから、類似したサンプルの小さなベストマッチセットを選択して、類似するサンプルの共通特徴を掘り下げ、これらのプロンプトを二重サンプリング戦略と非対称GCL損失で最適化する。
事前訓練されたモデルの修正中にいくつかのプロンプトを微調整するだけで、LPTはいくつかのプロンプトを格納することでトレーニングとデプロイメントのコストを削減し、事前訓練されたモデルの強力な一般化能力を享受できる。
実験によれば、ロングテールの様々なベンチマークでは、パラメータがわずか1.1%で、lptは以前のモデル全体の微調整方法と同等の性能を達成し、ドメインシフトよりも堅牢である。 For long-tailed classification, most works often pretrain a big model on a large-scale dataset, and then fine-tune the whole model for adapting to long-tailed data. Though promising, fine-tuning the whole pretrained model tends to suffer from high cost in computation and deployment of different models for different tasks, as well as weakened generalization ability for overfitting to certain features of long-tailed data. To alleviate these issues, we propose an effective Long-tailed Prompt Tuning method for long-tailed classification. LPT introduces several trainable prompts into a frozen pretrained model to adapt it to long-tailed data. For better effectiveness, we divide prompts into two groups: 1) a shared prompt for the whole long-tailed dataset to learn general features and to adapt a pretrained model into target domain; and 2) group-specific prompts to gather group-specific features for the samples which have similar features and also to empower the pretrained model with discrimination ability. Then we design a two-phase training paradigm to learn these prompts. In phase 1, we train the shared prompt via supervised prompt tuning to adapt a pretrained model to the desired long-tailed domain. In phase 2, we use the learnt shared prompt as query to select a small best matched set for a group of similar samples from the group-specific prompt set to dig the common features of these similar samples, then optimize these prompts with dual sampling strategy and asymmetric GCL loss. By only fine-tuning a few prompts while fixing the pretrained model, LPT can reduce training and deployment cost by storing a few prompts, and enjoys a strong generalization ability of the pretrained model. Experiments show that on various long-tailed benchmarks, with only ~1.1% extra parameters, LPT achieves comparable performance than previous whole model fine-tuning methods, and is more robust to domain-shift. | 翻訳日:2023-03-29 19:36:22 公開日:2023-03-28 |
# 多視点変分オートエンコーダを用いた多視点情報融合による大腿骨近位強度の予測 Multi-view information fusion using multi-view variational autoencoders to predict proximal femoral strength ( http://arxiv.org/abs/2210.00674v2 ) ライセンス: Link先を確認 | Chen Zhao, Joyce H Keyak, Xuewei Cao, Qiuying Sha, Li Wu, Zhe Luo, Lanjuan Zhao, Qing Tian, Chuan Qiu, Ray Su, Hui Shen, Hong-Wen Deng, Weihua Zhou | (参考訳) 本研究の目的は,多視点情報融合を用いた大腿骨近位強度予測のための深層学習モデルの設計である。
方法: 特徴表現学習のための多視点変分オートエンコーダ(MVAE)と多視点情報融合のための専門家モデル(PoE)を用いた新しいモデルを開発した。
提案モデルは, アフリカ系アメリカ人345名, 白人586名を含む, 男性931名を対象に, ルイジアナ州で実施したosteporosis study (los) に応用した。
ガウス分布の積の解析解を用いて、設計したMVAE-PoEモデルをトレーニングし、一般的な潜在特徴抽出を行う。
近位大腿部強度と統合全ゲノム配列(wgs)の特徴とdxa由来の画像特徴から最下位のp値を持つ256種類の遺伝子変異を選定し,近位大腿部強度を予測するためにゲノムワイド関連研究(gwas)を行った。
結果: 落下破壊荷重の最適予測モデルは, wgs機能とdxa画像機能の統合により得られた。
設計されたモデルでは, 転倒荷重の線形モデル, 転倒荷重の非線形モデル, 転倒荷重の非線形モデルを用いて大腿骨近位部荷重の予測に平均18.04%, 6.84%, 7.95%の絶対誤差を達成した。
既存のマルチビュー情報融合法と比較して,提案手法は最適性能を得た。
結論: 提案モデルでは, WGS特徴とDXA像を用いた大腿骨近位部強度の予測が可能であった。
qct画像を用いたfeaに代わるものではないが、qctによる放射線量の増加や臨床費用の増大を回避しつつ、より広く大腿骨骨折リスクの評価を改善することができる。 The aim of this paper is to design a deep learning-based model to predict proximal femoral strength using multi-view information fusion. Method: We developed new models using multi-view variational autoencoder (MVAE) for feature representation learning and a product of expert (PoE) model for multi-view information fusion. We applied the proposed models to an in-house Louisiana Osteoporosis Study (LOS) cohort with 931 male subjects, including 345 African Americans and 586 Caucasians. With an analytical solution of the product of Gaussian distribution, we adopted variational inference to train the designed MVAE-PoE model to perform common latent feature extraction. We performed genome-wide association studies (GWAS) to select 256 genetic variants with the lowest p-values for each proximal femoral strength and integrated whole genome sequence (WGS) features and DXA-derived imaging features to predict proximal femoral strength. Results: The best prediction model for fall fracture load was acquired by integrating WGS features and DXA-derived imaging features. The designed models achieved the mean absolute percentage error of 18.04%, 6.84% and 7.95% for predicting proximal femoral fracture loads using linear models of fall loading, nonlinear models of fall loading, and nonlinear models of stance loading, respectively. Compared to existing multi-view information fusion methods, the proposed MVAE-PoE achieved the best performance. Conclusion: The proposed models are capable of predicting proximal femoral strength using WGS features and DXA-derived imaging features. Though this tool is not a substitute for FEA using QCT images, it would make improved assessment of hip fracture risk more widely available while avoiding the increased radiation dosage and clinical costs from QCT. | 翻訳日:2023-03-29 19:35:45 公開日:2023-03-28 |
# FINDE:不変量の探索と保存のためのニューラルネットワーク微分方程式 FINDE: Neural Differential Equations for Finding and Preserving Invariant Quantities ( http://arxiv.org/abs/2210.00272v2 ) ライセンス: Link先を確認 | Takashi Matsubara, Takaharu Yaguchi | (参考訳) 多くの実世界の力学系は、時間とともに変化しない量である第一積分(すなわち不変量)と関連している。
第一積分の発見と理解は、自然科学と産業応用の両方において、基本的で重要なトピックである。
第一積分は系エネルギー、運動量、質量の保存則と状態の制約から生じ、これらは典型的には支配方程式の特定の幾何学的構造に関係している。
このような最初の積分を保証するために設計された既存のニューラルネットワークは、データからのモデリングにおいて優れた精度を示している。
しかしながら、これらのモデルには基盤構造が含まれており、ニューラルネットワークが未知のシステムを学ぶほとんどの状況では、これらの構造も未知である。
この制限は未知のシステムの科学的発見とモデリングのために克服する必要がある。
そこで本研究では,第一積分保存型ニューラル微分方程式(FINDE)を提案する。
プロジェクション法と離散勾配法を利用して、FINDEは基礎構造に関する事前の知識がなくても、データから最初の積分を発見し保存する。
実験の結果,fingeは目標系の将来状態をずっと長く予測でき,よく知られた第一積分と統一的に一致する様々な量を見出すことができた。 Many real-world dynamical systems are associated with first integrals (a.k.a. invariant quantities), which are quantities that remain unchanged over time. The discovery and understanding of first integrals are fundamental and important topics both in the natural sciences and in industrial applications. First integrals arise from the conservation laws of system energy, momentum, and mass, and from constraints on states; these are typically related to specific geometric structures of the governing equations. Existing neural networks designed to ensure such first integrals have shown excellent accuracy in modeling from data. However, these models incorporate the underlying structures, and in most situations where neural networks learn unknown systems, these structures are also unknown. This limitation needs to be overcome for scientific discovery and modeling of unknown systems. To this end, we propose first integral-preserving neural differential equation (FINDE). By leveraging the projection method and the discrete gradient method, FINDE finds and preserves first integrals from data, even in the absence of prior knowledge about underlying structures. Experimental results demonstrate that FINDE can predict future states of target systems much longer and find various quantities consistent with well-known first integrals in a unified manner. | 翻訳日:2023-03-29 19:35:09 公開日:2023-03-28 |
# UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン UMFuse: Unified Multi View Fusion for Human Editing applications ( http://arxiv.org/abs/2211.10157v4 ) ライセンス: Link先を確認 | Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan Lu, Mausoom Sarkar, Balaji Krishnamurthy | (参考訳) 様々なポーズガイドによる人間の編集手法が視覚コミュニティによって研究されてきた。
しかし、これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を用いる。
この目的は、ターゲットのポーズが入力のポーズと大きく異なる場合において不定義となる。
既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。
本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。
複数の視点から知識を融合するために,複数のソース画像からポーズキーポイントとテクスチャを取り,説明可能なピクセル単位の出現検索マップを生成するマルチビュー融合ネットワークを設計した。
その後、別個のネットワーク(単視点のヒューマンレポジトリタスクでトレーニングされた)からのエンコーディングを潜在空間にマージする。
これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。
本稿では,新たに提案する2つのタスク,マルチビューのヒューマンレポジトリとmix&matchの人間画像生成に適用する。
さらに,単一ビュー編集の限界と,マルチビューがより良い代替手段を提供するシナリオについても検討した。 Numerous pose-guided human editing methods have been explored by the vision community due to their extensive practical applications. However, most of these methods still use an image-to-image formulation in which a single image is given as input to produce an edited image as output. This objective becomes ill-defined in cases when the target pose differs significantly from the input pose. Existing methods then resort to in-painting or style transfer to handle occlusions and preserve content. In this paper, we explore the utilization of multiple views to minimize the issue of missing information and generate an accurate representation of the underlying human model. To fuse knowledge from multiple viewpoints, we design a multi-view fusion network that takes the pose key points and texture from multiple source images and generates an explainable per-pixel appearance retrieval map. Thereafter, the encodings from a separate network (trained on a single-view human reposing task) are merged in the latent space. This enables us to generate accurate, precise, and visually coherent images for different editing tasks. We show the application of our network on two newly proposed tasks - Multi-view human reposing and Mix&Match Human Image generation. Additionally, we study the limitations of single-view editing and scenarios in which multi-view provides a better alternative. | 翻訳日:2023-03-29 19:28:55 公開日:2023-03-28 |
# verisparse: ローカルなロバストなスパースニューラルネットワークをスクラッチからトレーニングする VeriSparse: Training Verified Locally Robust Sparse Neural Networks from Scratch ( http://arxiv.org/abs/2211.09945v5 ) ライセンス: Link先を確認 | Sawinder Kaur, Yi Xiao, Asif Salekin | (参考訳) セルフナビゲーション、医療、産業制御システムなどの安全クリティカルなアプリケーションでは、組み込みシステムをコアとして使用している。
複雑な関数の近似におけるニューラルネットワーク(NN)の最近の進歩は、これらの領域に適している。
しかし、NNの計算集約性は、計算能力と記憶能力に制限のある組み込みシステムでのデプロイメントとトレーニングを制限する。
さらに、NNの敵対的脆弱性は、安全クリティカルなシナリオにおける彼らの使用に挑戦する。
したがって、トレーニング中にリソースを少ない値で活用しながら堅牢性を保証するスパースモデルの開発は、nnsの安全性クリティカルな組み込みシステム設定における使用拡大に不可欠である。
本稿では,ランダムなスパース初期化(スクラッチ)から始まる,局所的に堅牢なスパースネットワークを探索するフレームワークであるVeriSparseを提案する。
VeriSparseは、最先端のアプローチと比較してトレーニング時間の3分の1を要し、同じまたは高い検証されたローカルロバスト性を示すスパースNNを取得する。
さらに、verisparseは構造化と非構造化の両方のスパーシフィケーションを実行し、ストレージ、計算リソース、計算時間の削減を可能にする。
これにより、リソース制約の組込みプラットフォームが信頼性の高い堅牢なNNモデルを活用し、そのスコープを安全クリティカル、リアルタイム、エッジアプリケーションに拡張する。
様々なモデルアーキテクチャにまたがる様々なベンチマークおよびアプリケーション固有のデータセットを評価し,verisparseの有効性と汎用性について徹底的に検討した。 Several safety-critical applications such as self-navigation, health care, and industrial control systems use embedded systems as their core. Recent advancements in Neural Networks (NNs) in approximating complex functions make them well-suited for these domains. However, the compute-intensive nature of NNs limits their deployment and training in embedded systems with limited computation and storage capacities. Moreover, the adversarial vulnerability of NNs challenges their use in safety-critical scenarios. Hence, developing sparse models having robustness guarantees while leveraging fewer resources during training is critical in expanding NNs' use in safety-critical and resource-constrained embedding system settings. This paper presents 'VeriSparse'-- a framework to search verified locally robust sparse networks starting from a random sparse initialization (i.e., scratch). VeriSparse obtains sparse NNs exhibiting similar or higher verified local robustness, requiring one-third of the training time compared to the state-of-the-art approaches. Furthermore, VeriSparse performs both structured and unstructured sparsification, enabling storage, computing-resource, and computation time reduction during inference generation. Thus, it facilitates the resource-constraint embedding platforms to leverage verified robust NN models, expanding their scope to safety-critical, real-time, and edge applications. We exhaustively investigated VeriSparse's efficacy and generalizability by evaluating various benchmark and application-specific datasets across several model architectures. | 翻訳日:2023-03-29 19:28:35 公開日:2023-03-28 |
# promptcap:プロンプトガイド付きタスクアウェア画像キャプション PromptCap: Prompt-Guided Task-Aware Image Captioning ( http://arxiv.org/abs/2211.09699v3 ) ライセンス: Link先を確認 | Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo | (参考訳) 知識に基づく視覚的質問応答(VQA)は、正しい回答を得るために、画像以外の世界の知識を必要とする質問を含む。
GPT-3のような大規模言語モデル(LM)は、強力な知識検索と推論能力のため、このタスクに特に有用である。
LMが画像を理解するために、以前の作業ではキャプションモデルを使用して画像をテキストに変換する。
しかし、説明すべき視覚的実体である一文のイメージを要約する場合は、しばしば不明確である。
ジェネリックイメージキャプションは、視覚的な疑問に正しく答えるために、LMに必要な視覚的詳細を見逃すことが多い。
この課題に対処するために,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCap(Prompt-Guided Image Captioning)を提案する。
一般的なキャプションとは異なり、PromptCapは、生成したキャプションで記述される視覚エンティティを制御するために自然言語プロンプトを使用する。
プロンプトには、キャプションが回答を助けるべきだという質問が含まれている。
追加のアノテーションを避けるため、PromptCapはGPT-3と既存のデータセットで合成された例によって訓練されている。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
PromptCapは一般的なキャプションを大きなマージンで上回り、知識ベースのVQAタスク(OK-VQAは60.4%、A-OKVQAは59.6%)で最先端の精度を達成する。
WebQAのゼロショットの結果は、PromptCapが見えないドメインによく一般化していることを示している。 Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains. | 翻訳日:2023-03-29 19:28:10 公開日:2023-03-28 |
# 動的エージェントの将来動作予測のための2段階文脈認識モデル Two-Stage Context-Aware model for Predicting Future Motion of Dynamic Agents ( http://arxiv.org/abs/2211.08609v4 ) ライセンス: Link先を確認 | Sehwan Choi, Jungho Kim, Junyong Yun, Jun Won Choi | (参考訳) 自律ロボットの動作計画における安全性の確保やリスク評価には,動的エージェントの今後の動きを予測することが極めて重要である。
本稿では,最初の軌道提案ネットワークと軌道修正ネットワークのカスケードを用いて,シーンとインタラクションの両方を効果的に活用する,R-Predと呼ばれる2段階の動作予測手法を提案する。
初期軌道提案ネットワークは、将来の軌道分布のmモードに対応するm軌道提案を生成する。
軌道修正ネットワークは、m提案のそれぞれを改良する
1)チューブ検索シーンアテンション(tqsa)および
2)提案レベルのインタラクションアテンション(PIA)。
tqsaはチューブキューを使用して、興味のある軌道提案の周辺からプールされたローカルなシーンコンテキストを集約する。
PIAはさらに、隣接するエージェントからの距離に基づいて選択された一連の軌道提案を用いて、エージェント間相互作用をモデル化することで、軌道提案をさらに強化する。
Argoverse および nuScenes データセットを用いて行った実験により,提案する改良ネットワークは,単段ベースラインと比較して大幅な性能向上を実現し,R-Pred がベンチマークのいくつかのカテゴリで最先端のパフォーマンスを達成することを示した。 Predicting the future motion of dynamic agents is of paramount importance to ensure safety or assess risks in motion planning for autonomous robots. In this paper, we propose a two-stage motion prediction method, referred to as R-Pred, that effectively utilizes both the scene and interaction context using a cascade of the initial trajectory proposal network and the trajectory refinement network. The initial trajectory proposal network produces M trajectory proposals corresponding to M modes of a future trajectory distribution. The trajectory refinement network enhances each of M proposals using 1) the tube-query scene attention (TQSA) and 2) the proposal-level interaction attention (PIA). TQSA uses tube-queries to aggregate the local scene context features pooled from proximity around the trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected based on their distances from neighboring agents. Our experiments conducted on the Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmark. | 翻訳日:2023-03-29 19:27:41 公開日:2023-03-28 |
# DeS3: ViT類似性とカラーコンバージェンスを用いたアテンション駆動型自己およびソフトシャドウ除去 DeS3: Attention-driven Self and Soft Shadow Removal using ViT Similarity and Color Convergence ( http://arxiv.org/abs/2211.08089v2 ) ライセンス: Link先を確認 | Yeying Jin, Wenhan Yang, Wei Ye, Yuan Yuan and Robby T. Tan | (参考訳) 単一の画像から明確な境界を欠いているソフトとセルフの影を取り除くことは、依然として難しい。
自己影は、オブジェクト自体に投射される影である。
既存の方法の多くは、ソフトシャドウとセルフシャドウの境界を曖昧に考慮せずに、バイナリシャドウマスクに依存している。
本稿では, 自己調整型ViTの特徴的類似性と色収束性に基づいて, ハード, ソフト, セルフシャドウを除去するDeS3を提案する。
我々の新しいViT類似度損失は、事前訓練された視覚変換器から抽出した特徴を利用する。
この損失は、逆拡散過程をシーン構造を回復させるのに役立つ。
また,色変化を避けるために,逆推論過程における表面色を制約するために色収束損失を導入する。
私たちのDeS3は、影の領域を下層のオブジェクトと区別することができ、影の領域を影をキャストするオブジェクトと区別することができます。
この能力により、DeS3は影によって部分的に隠されている場合でも、オブジェクトの構造をよりよく回復することができる。
トレーニング段階における制約に依存する既存の手法とは異なり、サンプリング段階におけるViT類似性と色収束損失を取り入れる。
これにより、私たちのDeS3モデルは、強力なモデリング機能と入力固有の知識を自己調整で効果的に統合できます。
本手法は, SRD, AISTD, LRSS, USR, UIUCデータセットの最先端手法より優れ, ハード, ソフト, セルフシャドウを頑健に除去する。
具体的には、SRDデータセット上の画像全体のRMSEの20%でSOTA法より優れている。 Removing soft and self shadows that lack clear boundaries from a single image is still challenging. Self shadows are shadows that are cast on the object itself. Most existing methods rely on binary shadow masks, without considering the ambiguous boundaries of soft and self shadows. In this paper, we present DeS3, a method that removes hard, soft and self shadows based on the self-tuned ViT feature similarity and color convergence. Our novel ViT similarity loss utilizes features extracted from a pre-trained Vision Transformer. This loss helps guide the reverse diffusion process towards recovering scene structures. We also introduce a color convergence loss to constrain the surface colors in the reverse inference process to avoid any color shifts. Our DeS3 is able to differentiate shadow regions from the underlying objects, as well as shadow regions from the object casting the shadow. This capability enables DeS3 to better recover the structures of objects even when they are partially occluded by shadows. Different from existing methods that rely on constraints during the training phase, we incorporate the ViT similarity and color convergence loss during the sampling stage. This enables our DeS3 model to effectively integrate its strong modeling capabilities with input-specific knowledge in a self-tuned manner. Our method outperforms state-of-the-art methods on the SRD, AISTD, LRSS, USR and UIUC datasets, removing hard, soft, and self shadows robustly. Specifically, our method outperforms the SOTA method by 20% of the RMSE of the whole image on the SRD dataset. | 翻訳日:2023-03-29 19:27:22 公開日:2023-03-28 |
# Imaginary aubry-Andre-Harper 電位による位相遷移 Topological Transitions with an Imaginary Aubry-Andre-Harper Potential ( http://arxiv.org/abs/2211.07853v2 ) ライセンス: Link先を確認 | Bofeng Zhu, Li-Jun Lang, Qiang Wang, Qi Jie Wang and Y. D. Chong | (参考訳) 本研究では,Aubry-Andre-Harper(AAH)ポテンシャルを持つ一次元格子について検討する。
このような格子は、エルミート AAH モデルのエッジ状態と異なり、非エルミート粒子ホール対称性によって安定化される純粋に想像上の固有エネルギーを持つエッジ状態をホストすることができる。
エッジ状態は、虚ポテンシャルの周期が4つの格子定数の倍数であるときに生じる。
それらはトポロジカルな起源を持ち、バルク偏極不変量によって予測されるように、変調周期と位相の異なる格子の間のドメインウォールに現れる。
興味深いことに、実線ギャップが閉じてもエッジ状態は持続し、ローカライズされる。
これらの特徴はレーザーアレイで空間的に拡張されたポンプの下でトポロジカルラシングモードを選択するのに使うことができる。 We study one-dimensional lattices with imaginary-valued Aubry-Andre-Harper (AAH) potentials. Such lattices can host edge states with purely imaginary eigenenergies, which differ from the edge states of the Hermitian AAH model and are stabilized by a non-Hermitian particle-hole symmetry. The edge states arise when the period of the imaginary potential is a multiple of four lattice constants. They are topological in origin, and can manifest on domain walls between lattices with different modulation periods and phases, as predicted by a bulk polarization invariant. Interestingly, the edge states persist and remain localized even if the real line gap closes. These features can be used in laser arrays to select topological lasing modes under spatially extended pumping. | 翻訳日:2023-03-29 19:26:55 公開日:2023-03-28 |
# パラメータ効率の良いチューニングによる優れた分類ヘッド Parameter-Efficient Tuning Makes a Good Classification Head ( http://arxiv.org/abs/2210.16771v2 ) ライセンス: Link先を確認 | Zhuoyi Yang, Ming Ding, Yanhui Guo, Qingsong Lv, Jie Tang | (参考訳) 近年、事前訓練されたモデルは自然言語理解(NLU)のパラダイムに革命をもたらし、事前訓練されたバックボーン(例えばBERT)の後、ランダムに初期化された分類ヘッドを付加し、モデル全体を微調整する。
トレーニング済みのバックボーンは改善に大きく貢献するので,優れたトレーニング済みの分類ヘッドがトレーニングに役立てられることを自然に期待する。
しかし、バックボーンの最終層出力、すなわち分類ヘッドの入力は微調整中に大きく変化するため、通常のヘッドのみの事前訓練(LP-FT)は非効率である。
本稿では,パラメータ効率のよいチューニングにより,ランダムに初期化したヘッドを置き換えて,安定した性能向上を実現することができることを示す。
本実験では,パラメータ効率の調整を併用した分類ヘッドが,グルーとスーパーグルーの9タスクの性能を一貫して向上させることを示す。 In recent years, pretrained models revolutionized the paradigm of natural language understanding (NLU), where we append a randomly initialized classification head after the pretrained backbone, e.g. BERT, and finetune the whole model. As the pretrained backbone makes a major contribution to the improvement, we naturally expect a good pretrained classification head can also benefit the training. However, the final-layer output of the backbone, i.e. the input of the classification head, will change greatly during finetuning, making the usual head-only pretraining (LP-FT) ineffective. In this paper, we find that parameter-efficient tuning makes a good classification head, with which we can simply replace the randomly initialized heads for a stable performance gain. Our experiments demonstrate that the classification head jointly pretrained with parameter-efficient tuning consistently improves the performance on 9 tasks in GLUE and SuperGLUE. | 翻訳日:2023-03-29 19:26:15 公開日:2023-03-28 |
# ERNIE-ViLG 2.0:知識強化型混合型画像拡散モデルの改良 ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts ( http://arxiv.org/abs/2210.15257v2 ) ライセンス: Link先を確認 | Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, Yu Sun, Li Chen, Hao Tian, Hua Wu, Haifeng Wang | (参考訳) 拡散モデルの最近の進歩は、テキスト・画像生成の一般的な技術に革命をもたらした。
既存のアプローチでは、テキスト条件でフォトリアリスティックな高解像度画像を生成することができるが、解決すべき未解決の問題がいくつかあるため、画像の忠実度とテキスト関連性のさらなる改善が制限されている。
本稿では,(1)シーンにおける重要要素の細かなテキスト的,視覚的な知識を組み込んだ画像の品質向上と,(2)異なるデノベーション段階における異なるデノベーション専門家の活用により,生成画像の品質を段階的に向上させる,大規模中国語テキスト間拡散モデルであるernie-vilg 2.0を提案する。
提案したメカニズムにより,ERNIE-ViLG 2.0 はゼロショット FID スコア 6.75 の MS-COCO 上で新たな最先端技術を達成するだけでなく,画像の忠実度や画像テキストのアライメントにおいて,バイリンガルプロンプトセット ViLG-300 を並べて評価することで,最近のモデルよりも大幅に優れていた。 Recent progress in diffusion models has revolutionized the popular technology of text-to-image generation. While existing approaches could produce photorealistic high-resolution images with text conditions, there are still several open problems to be solved, which limits the further improvement of image fidelity and text relevancy. In this paper, we propose ERNIE-ViLG 2.0, a large-scale Chinese text-to-image diffusion model, to progressively upgrade the quality of generated images by: (1) incorporating fine-grained textual and visual knowledge of key elements in the scene, and (2) utilizing different denoising experts at different denoising stages. With the proposed mechanisms, ERNIE-ViLG 2.0 not only achieves a new state-of-the-art on MS-COCO with zero-shot FID score of 6.75, but also significantly outperforms recent models in terms of image fidelity and image-text alignment, with side-by-side human evaluation on the bilingual prompt set ViLG-300. | 翻訳日:2023-03-29 19:25:58 公開日:2023-03-28 |
# スピノル双極子超低温原子を用いたリンクモデルの量子シミュレータ Quantum simulator of link models using spinor dipolar ultracold atoms ( http://arxiv.org/abs/2210.14836v2 ) ライセンス: Link先を確認 | Pierpaolo Fontana, Joao C. Pinto Barros, Andrea Trombettoni | (参考訳) 二次元格子における量子リンクモデルの量子シミュレーションのためのスキームを提案する。
提案手法では, スピノル双極子気体を適切な形状の格子上に配置し, ガスの超微粒子準位が異なる粒子のダイナミクスを, 双極子相互作用に結合した一次元鎖で行う。
少なくとも4つのレベルが必要です。
このスキームはパラメータの特定の微調整を必要としない。
2つの異なるアプローチ、角運動量保存に結びついた非摂動的手法、および摂動的手法を用いて量子リンクモデルのパラメータの導出を行う。
文献に存在する$(2+1)$次元量子リンクモデルに対する他のスキームとの比較について述べる。
最後に三次元格子の拡張を示し、その微妙な点を指摘する。 We propose a scheme for the quantum simulation of quantum link models in two-dimensional lattices. Our approach considers spinor dipolar gases on a suitably shaped lattice, where the dynamics of particles in the different hyperfine levels of the gas takes place in one-dimensional chains coupled by the dipolar interactions. We show that at least four levels are needed. The present scheme does not require any particular fine-tuning of the parameters. We perform the derivation of the parameters of the quantum link models by means of two different approaches, a non-perturbative one tied to angular momentum conservation, and a perturbative one. A comparison with other schemes for $(2+1)$-dimensional quantum link models present in literature is discussed. Finally, the extension to three-dimensional lattices is presented, and its subtleties are pointed out. | 翻訳日:2023-03-29 19:25:34 公開日:2023-03-28 |
# パリティを持つ量子ビット状態間の量子仮説試験 Quantum hypothesis testing between qubit states with parity ( http://arxiv.org/abs/2212.01766v2 ) ライセンス: Link先を確認 | Yi Shen and Carlo Maria Scandolo and Lin Chen | (参考訳) 量子仮説テスト(QHT)は、2つの量子状態を2つの正の演算子値測度(POVM)を用いて識別する有効な方法を提供する。
QHTにおける2種類の決定エラーが発生する。
本稿では,カイラリティの基準フレームの欠如から生じる運用上の制約を考慮して,2種類の決定誤差を不等に扱うQHTの非対称設定に着目した。
この参照フレームは、恒等変換とパリティ変換からなる群 $\bbZ_2$ に関連付けられている。
したがって、$\bbZ_2$-invariant POVMsのみを実行することで、2つの量子状態の区別を行う必要がある。
私たちは2つの純粋状態の区別から始めます。
特定の最適化問題を解くことで、偽の場合にヌル仮説が受け入れられたときに発生するタイプIIエラーの最小確率の漸近挙動を完全に特徴づける。
我々の結果は、そのような2つの純粋な状態の$\bbZ_2$-twirlingsが異なる場合、最小確率が有限個のコピーでゼロに減少することを示した。
さらに、最小確率がゼロとなるようなコピーの臨界数を導出する。
最後に、2つの純状態のうちの1つを最大混合状態に置き換え、同様にタイプII誤差の最小確率の漸近挙動を特徴づける。 Quantum hypothesis testing (QHT) provides an effective method to discriminate between two quantum states using a two-outcome positive operator-valued measure (POVM). Two types of decision errors in a QHT can occur. In this paper we focus on the asymmetric setting of QHT, where the two types of decision errors are treated unequally, considering the operational limitations arising from the lack of a reference frame for chirality. This reference frame is associated with the group $\bbZ_2$ consisting of the identity transformation and the parity transformation. Thus, we have to discriminate between two qubit states by performing the $\bbZ_2$-invariant POVMs only. We start from the discrimination between two pure states. By solving the specific optimization problem we completely characterize the asymptotic behavior of the minimal probability of type-II error which occurs when the null hypothesis is accepted when it is false. Our results reveal that the minimal probability reduces to zero in a finite number of copies, if the $\bbZ_2$-twirlings of such two pure states are different. We further derive the critical number of copies such that the minimal probability reduces to zero. Finally, we replace one of the two pure states with a maximally mixed state, and similarly characterize the asymptotic behavior of the minimal probability of type-II error. | 翻訳日:2023-03-29 19:19:33 公開日:2023-03-28 |
# プラトー還元型微分可能経路追跡 Plateau-reduced Differentiable Path Tracing ( http://arxiv.org/abs/2211.17263v2 ) ライセンス: Link先を確認 | Michael Fischer, Tobias Ritschel | (参考訳) 現在の微分可能なレンダラーは任意のシーンパラメータに対して光輸送勾配を提供する。
しかし、これらの勾配の存在は最適化において有用な更新ステップを保証するものではない。
代わりに、逆レンダリングは、目的関数内の固有の高原、すなわちゼロ勾配の領域のために収束しないかもしれない。
そこで本稿では,シーンパラメータを画像にマッピングする高次元レンダリング関数と,パラメータ空間を曖昧にする追加のカーネルを組み合わせることで,この軽減を図る。
そこで,2つのモンテカルロ推定器を用いて,低分散の平坦な勾配を効率的に計算し,最適化誤差と実行時性能においてネットゲインに変換することを示す。
我々のアプローチは、ブラックボックスと微分可能レンダラの両方への直接的な拡張であり、コースティックスやグローバル照明のような複雑な光移動に関する問題を最適化することができ、既存の微分可能レンダラが収束しない。 Current differentiable renderers provide light transport gradients with respect to arbitrary scene parameters. However, the mere existence of these gradients does not guarantee useful update steps in an optimization. Instead, inverse rendering might not converge due to inherent plateaus, i.e., regions of zero gradient, in the objective function. We propose to alleviate this by convolving the high-dimensional rendering function that maps scene parameters to images with an additional kernel that blurs the parameter space. We describe two Monte Carlo estimators to compute plateau-free gradients efficiently, i.e., with low variance, and show that these translate into net-gains in optimization error and runtime performance. Our approach is a straightforward extension to both black-box and differentiable renderers and enables optimization of problems with intricate light transport, such as caustics or global illumination, that existing differentiable renderers do not converge on. | 翻訳日:2023-03-29 19:19:11 公開日:2023-03-28 |
# DiffPose: より信頼性の高い3D Pose推定を目指して DiffPose: Toward More Reliable 3D Pose Estimation ( http://arxiv.org/abs/2211.16940v2 ) ライセンス: Link先を確認 | Jia Gong, Lin Geng Foo, Zhipeng Fan, Qiuhong Ke, Hossein Rahmani, Jun Liu | (参考訳) 単眼の3次元ポーズ推定は、固有の曖昧さと閉塞性のため、しばしば高い不確実性と不確定性をもたらすため、非常に難しい。
一方,拡散モデルは最近,ノイズから高品質な画像を生成する有効なツールとして登場した。
その能力に触発されて、3次元ポーズ推定を逆拡散過程として定式化する新しいポーズ推定フレームワーク(DiffPose)を探索する。
本研究では, 3次元ポーズ推定のための拡散過程, ポーズ不確かさ分布のポーズ特異的初期化, ガウス混合モデルに基づく前方拡散過程, 文脈条件付き逆拡散過程など, 新たな設計を取り入れた。
提案手法は,ヒューマン3.6mおよびmpi-inf-3dhpのポーズ推定ベンチマークにおいて,従来の手法を大きく上回っている。
プロジェクトページ: https://gongjia0208.github.io/diffpose/ Monocular 3D human pose estimation is quite challenging due to the inherent ambiguity and occlusion, which often lead to high uncertainty and indeterminacy. On the other hand, diffusion models have recently emerged as an effective tool for generating high-quality images from noise. Inspired by their capability, we explore a novel pose estimation framework (DiffPose) that formulates 3D pose estimation as a reverse diffusion process. We incorporate novel designs into our DiffPose to facilitate the diffusion process for 3D pose estimation: a pose-specific initialization of pose uncertainty distributions, a Gaussian Mixture Model-based forward diffusion process, and a context-conditioned reverse diffusion process. Our proposed DiffPose significantly outperforms existing methods on the widely used pose estimation benchmarks Human3.6M and MPI-INF-3DHP. Project page: https://gongjia0208.github.io/Diffpose/. | 翻訳日:2023-03-29 19:18:57 公開日:2023-03-28 |
# ドット接続:2レベルクエリを用いたフロアプラン再構築 Connecting the Dots: Floorplan Reconstruction Using Two-Level Queries ( http://arxiv.org/abs/2211.15658v2 ) ライセンス: Link先を確認 | Yuanwen Yue, Theodora Kontogianni, Konrad Schindler, Francis Engelmann | (参考訳) 3次元スキャンによる2次元フロアプラン再構成について述べる。
既存のアプローチは通常、ヒューリスティックに設計されたマルチステージパイプラインを使用する。
代わりに、フロアプラン再構築を単一段階構造予測タスクとして定式化し、可変サイズの多角形の集合を見つけ、これは順序付けられた頂点の可変長列である。
そこで本研究では,複数の部屋の多角形を並列に,手作り中間段を使わずに総合的に生成する新しい変圧器アーキテクチャを開発した。
モデルには、多角形と角形の2レベルクエリと、ネットワークをエンドツーエンドでトレーニング可能にする多角形マッチングが含まれている。
提案手法は,Structured3DとSceneCADという2つの挑戦的データセットに対して,従来の手法よりもはるかに高速な推論を実現する。
さらに、セマンティックルームタイプやドアや窓のようなアーキテクチャ要素などの追加情報を予測するために簡単に拡張できる。
私たちのコードとモデルは、https://github.com/ywyue/RoomFormer.comで利用可能です。 We address 2D floorplan reconstruction from 3D scans. Existing approaches typically employ heuristically designed multi-stage pipelines. Instead, we formulate floorplan reconstruction as a single-stage structured prediction task: find a variable-size set of polygons, which in turn are variable-length sequences of ordered vertices. To solve it we develop a novel Transformer architecture that generates polygons of multiple rooms in parallel, in a holistic manner without hand-crafted intermediate stages. The model features two-level queries for polygons and corners, and includes polygon matching to make the network end-to-end trainable. Our method achieves a new state-of-the-art for two challenging datasets, Structured3D and SceneCAD, along with significantly faster inference than previous methods. Moreover, it can readily be extended to predict additional information, i.e., semantic room types and architectural elements like doors and windows. Our code and models are available at: https://github.com/ywyue/RoomFormer. | 翻訳日:2023-03-29 19:18:41 公開日:2023-03-28 |
# Deep Curvilinear Editing:Pretrained Deep Generative Modelのための圧縮および非線形画像操作 Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model ( http://arxiv.org/abs/2211.14573v2 ) ライセンス: Link先を確認 | Takehiro Aoshima, Takashi Matsubara | (参考訳) 画像のセマンティック編集はコンピュータビジョンの基本的な目標である。
generative adversarial network(gans)のようなディープラーニング手法は高品質な画像を生成することができるが、生成した画像をセマンティックに編集する固有の方法を持たないことが多い。
近年の研究では、生成する画像を決定するために潜在変数を操作する方法が研究されている。
しかし、線形意味算術を仮定する手法は画像編集の品質に関して一定の制限があるが、非線形意味論経路を探索する手法は非可換な編集を提供するが、異なる順序で適用すると矛盾する。
本研究では,DeCurvEd(Deep curvilinear editing)と呼ばれる新しい手法を提案し,潜在空間上の意味交換ベクトル場を決定する。
理論的には、可換性のため、複数の属性の編集は量にのみ依存し、順序には依存しない。
さらに,従来の手法と比較して,DeCurvEdの非線形および可換性は画像属性の歪みを緩和し,高品質な編集を可能にすることを示した。 Semantic editing of images is the fundamental goal of computer vision. Although deep learning methods, such as generative adversarial networks (GANs), are capable of producing high-quality images, they often do not have an inherent way of editing generated images semantically. Recent studies have investigated a way of manipulating the latent variable to determine the images to be generated. However, methods that assume linear semantic arithmetic have certain limitations in terms of the quality of image editing, whereas methods that discover nonlinear semantic pathways provide non-commutative editing, which is inconsistent when applied in different orders. This study proposes a novel method called deep curvilinear editing (DeCurvEd) to determine semantic commuting vector fields on the latent space. We theoretically demonstrate that owing to commutativity, the editing of multiple attributes depends only on the quantities and not on the order. Furthermore, we experimentally demonstrate that compared to previous methods, the nonlinear and commutative nature of DeCurvEd facilitates the disentanglement of image attributes and provides higher-quality editing. | 翻訳日:2023-03-29 19:18:24 公開日:2023-03-28 |
# Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization ( http://arxiv.org/abs/2211.14053v2 ) ライセンス: Link先を確認 | Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem | (参考訳) 時間的行動定位(tal)は、様々な持続時間と複雑な内容の行動を予測するために長い形式の推論を必要とする。
GPUメモリが限られているため、長いビデオでTALのエンドツーエンド(ビデオから予測まで)をトレーニングすることは大きな課題である。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。
本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。
Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。
我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。
これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。
RGBモードのみを使用するRe2TALは、新しい最先端記録であるActivityNet-v1.3で37.01%平均mAP、THUMOS-14でtIoU=0.5でmAP 64.9%に達し、他のRGBのみの手法よりも優れている。 Temporal action localization (TAL) requires long-form reasoning to predict actions of various durations and complex content. Given limited GPU memory, training TAL end to end (i.e., from videos to predictions) on long videos is a significant challenge. Most methods can only train on pre-extracted features without optimizing them for the localization problem, consequently limiting localization performance. In this work, to extend the potential in TAL networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone with reversible modules, where the input can be recovered from the output such that the bulky intermediate activations can be cleared from memory during training. Instead of designing one single type of reversible module, we propose a network rewiring mechanism, to transform any module with a residual connection to a reversible module without changing any parameters. This provides two benefits: (1) a large variety of reversible networks are easily obtained from existing and even future model designs, and (2) the reversible models require much less training effort as they reuse the pre-trained parameters of their original non-reversible versions. Re2TAL, only using the RGB modality, reaches 37.01% average mAP on ActivityNet-v1.3, a new state-of-the-art record, and mAP 64.9% at tIoU=0.5 on THUMOS-14, outperforming all other RGB-only methods. | 翻訳日:2023-03-29 19:18:02 公開日:2023-03-28 |
# PermutoSDF: Permutohedral Lattices を用いた多面体高速再構成 PermutoSDF: Fast Multi-View Reconstruction with Implicit Surfaces using Permutohedral Lattices ( http://arxiv.org/abs/2211.12562v2 ) ライセンス: Link先を確認 | Radu Alexandru Rosu and Sven Behnke | (参考訳) ニューラルレイディアンス-密度場法は、新規なビューレンダリングのタスクにおいて、ますます人気が高まっている。
ハッシュベースの位置エンコーディングへの最近の拡張により、迅速なトレーニングと視覚的に喜ぶ結果による推論が保証される。
しかし密度に基づく手法は正確な表面形状の復元に苦慮している。
ハイブリッド手法は基礎となるsdfに基づいて密度を最適化することでこの問題を軽減する。
しかし、現在のSDF法は過度に滑らかであり、微妙な幾何学的詳細を見逃している。
本研究では,これらの2つの作業の強みを,ハッシュに基づく新しい暗黙的表面表現で結合する。
本稿では,voxelハッシュ符号化をより高速に最適化するpermutohedral latticeに置き換えることにより,この2領域の改良を提案する。
さらに,高周波幾何学的詳細の復元に不可欠な正規化スキームを提案する。
提案手法を複数のデータセット上で評価し,RGB画像のみを用いて細孔やしわの程度で幾何的細部を復元できることを示す。
さらに、スフィアトレースを使うことで、RTX 3090上で30fpsで新しいビューを描画できる。
コードは、https://radualexandru.github.io/permuto_sdfで公開されている。 Neural radiance-density field methods have become increasingly popular for the task of novel-view rendering. Their recent extension to hash-based positional encoding ensures fast training and inference with visually pleasing results. However, density-based methods struggle with recovering accurate surface geometry. Hybrid methods alleviate this issue by optimizing the density based on an underlying SDF. However, current SDF methods are overly smooth and miss fine geometric details. In this work, we combine the strengths of these two lines of work in a novel hash-based implicit surface representation. We propose improvements to the two areas by replacing the voxel hash encoding with a permutohedral lattice which optimizes faster, especially for higher dimensions. We additionally propose a regularization scheme which is crucial for recovering high-frequency geometric detail. We evaluate our method on multiple datasets and show that we can recover geometric detail at the level of pores and wrinkles while using only RGB images for supervision. Furthermore, using sphere tracing we can render novel views at 30 fps on an RTX 3090. Code is publicly available at: https://radualexandru.github.io/permuto_sdf | 翻訳日:2023-03-29 19:17:33 公開日:2023-03-28 |
# 深部異方性拡散による奥行き超解像 Guided Depth Super-Resolution by Deep Anisotropic Diffusion ( http://arxiv.org/abs/2211.11592v3 ) ライセンス: Link先を確認 | Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler | (参考訳) RGB画像からのガイダンスを用いた深度画像の超解像化は、ロボット工学、医用画像、リモートセンシングなど、いくつかの分野に関わる問題である。
ディープラーニングの手法はこの問題で良い結果を得たが、最近の研究は、モダンなメソッドとより正式なフレームワークを組み合わせることの価値を強調した。
本研究では, 誘導異方性拡散と深部畳み込みネットワークを組み合わせた新しい手法を提案し, 誘導深度超解像技術の現状を推し進める。
拡散のエッジ転送/エンハンシング特性は、現代のネットワークの文脈推論能力によって強化され、厳格な調整ステップにより、ソースイメージへの完全準拠が保証される。
誘導深度超解像のための3つの一般的なベンチマークで前例のない結果を得た。
他の方法と比較してパフォーマンスの向上は、x32スケーリングなど、より大きなスケールで最大である。
提案手法のコード (https://github.com/prs-eth/Diffusion-Super-Resolution) を用いて再現性を向上する。 Performing super-resolution of a depth image using the guidance from an RGB image is a problem that concerns several fields, such as robotics, medical imaging, and remote sensing. While deep learning methods have achieved good results in this problem, recent work highlighted the value of combining modern methods with more formal frameworks. In this work, we propose a novel approach which combines guided anisotropic diffusion with a deep convolutional network and advances the state of the art for guided depth super-resolution. The edge transferring/enhancing properties of the diffusion are boosted by the contextual reasoning capabilities of modern networks, and a strict adjustment step guarantees perfect adherence to the source image. We achieve unprecedented results in three commonly used benchmarks for guided depth super-resolution. The performance gain compared to other methods is the largest at larger scales, such as x32 scaling. Code (https://github.com/prs-eth/Diffusion-Super-Resolution) for the proposed method is available to promote reproducibility of our results. | 翻訳日:2023-03-29 19:17:02 公開日:2023-03-28 |
# 太陽光干渉計を用いたパッシブマイクロンスケール飛行時間 Passive Micron-scale Time-of-Flight with Sunlight Interferometry ( http://arxiv.org/abs/2211.10732v2 ) ライセンス: Link先を確認 | Alankar Kotwal and Anat Levin and Ioannis Gkioulekas | (参考訳) 微視的軸方向分解能における受動飛行時間イメージングと深度センシングのための干渉計測手法を提案する。
我々の技術は、日光を唯一の光源として使うように修正されたフルフィールドマイケルソン干渉計を使用する。
日光のスペクトル帯域が大きいため、簡単な軸走査操作により、マイクロメートル分解能の時間分解能シーン応答を得ることができる。
さらに、太陽光の角帯域幅は、反射や地下散乱のような間接的な照明効果に敏感な飛行時間の測定を捉えることができる。
我々は,屋外,直射日光の下で,機械振動や車両交通などの環境条件下での運転を行う実験プロトタイプを構築した。
このプロトタイプを用いて,マイクロメータの奥行き検出による間接照明のロバスト化,直接撮像,ディフューザによるイメージングなどのパッシブイメージング機能を初めて実証した。 We introduce an interferometric technique for passive time-of-flight imaging and depth sensing at micrometer axial resolutions. Our technique uses a full-field Michelson interferometer, modified to use sunlight as the only light source. The large spectral bandwidth of sunlight makes it possible to acquire micrometer-resolution time-resolved scene responses, through a simple axial scanning operation. Additionally, the angular bandwidth of sunlight makes it possible to capture time-of-flight measurements insensitive to indirect illumination effects, such as interreflections and subsurface scattering. We build an experimental prototype that we operate outdoors, under direct sunlight, and in adverse environment conditions such as machine vibrations and vehicle traffic. We use this prototype to demonstrate, for the first time, passive imaging capabilities such as micrometer-scale depth sensing robust to indirect illumination, direct-only imaging, and imaging through diffusers. | 翻訳日:2023-03-29 19:16:45 公開日:2023-03-28 |
# fake it until you make: learning transferable representations from synthetic imagenet clones (英語) Fake it till you make it: Learning transferable representations from synthetic ImageNet clones ( http://arxiv.org/abs/2212.08420v2 ) ライセンス: Link先を確認 | Mert Bulent Sariyildiz, Karteek Alahari, Diane Larlus, Yannis Kalantidis | (参考訳) 安定拡散のような最近の画像生成モデルは、単純なテキストプロンプトからかなりリアルな画像を生成する素晴らしい能力を示した。
このようなモデルは、画像予測モデルをトレーニングするために、実際のイメージを時代遅れにするだろうか?
本稿では,イメージネット分類のためのトレーニングモデルにおいて,実画像の必要性を調査することで,この挑発的疑問に答える。
データセットの構築に使用されているクラス名のみを考慮すれば,imagenetの合成クローンを生成するための安定拡散の能力と,これらがスクラッチから分類モデルのトレーニングにどの程度有用かを測定することができる。
本研究では,最小限かつクラスに依存しないプロンプトエンジニアリングにより,画像クローンは合成画像によるモデルと実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
さらに,合成画像にトレーニングされたモデルが強い一般化特性を示し,実データでトレーニングしたモデルと同等の性能を持つことを示す。
プロジェクトページ: https://europe.naverlabs.com/imagenet-sd/ Recent image generation models such as Stable Diffusion have exhibited an impressive ability to generate fairly realistic images starting from a simple text prompt. Could such models render real images obsolete for training image prediction models? In this paper, we answer part of this provocative question by investigating the need for real images when training models for ImageNet classification. Provided only with the class names that have been used to build the dataset, we explore the ability of Stable Diffusion to generate synthetic clones of ImageNet and measure how useful these are for training classification models from scratch. We show that with minimal and class-agnostic prompt engineering, ImageNet clones are able to close a large part of the gap between models produced by synthetic images and models trained with real images, for the several standard classification benchmarks that we consider in this study. More importantly, we show that models trained on synthetic images exhibit strong generalization properties and perform on par with models trained on real data for transfer. Project page: https://europe.naverlabs.com/imagenet-sd/ | 翻訳日:2023-03-29 19:10:12 公開日:2023-03-28 |
# DeepLSD:Deep Image Gradientsを用いた線分検出と微細化 DeepLSD: Line Segment Detection and Refinement with Deep Image Gradients ( http://arxiv.org/abs/2212.07766v3 ) ライセンス: Link先を確認 | R\'emi Pautrat, Daniel Barath, Viktor Larsson, Martin R. Oswald, Marc Pollefeys | (参考訳) ラインセグメントは、私たちの人工世界においてユビキタスであり、視覚タスクでますます使われています。
それらは空間的範囲とそれらが提供する構造的情報のおかげで特徴点を補完する。
従来の画像勾配に基づく線検出器は非常に高速で精度が高いが、ノイズ画像や困難な条件では頑健性に欠ける。
彼らの学習した画像はより再現性が高く、挑戦的な画像を扱うことができるが、精度は低く、ワイヤーフレーム線への偏りがある。
我々は、両方の世界を最大限に活用するために、伝統的なアプローチと学習されたアプローチを組み合わせることを提案する。
われわれの新しい線分検出器DeepLSDは、深層ネットワークで画像を処理し、ラインアトラクション場を生成し、それを代理画像勾配度と角度に変換し、既存の手作り線分検出器に供給する。
さらに,アトラクション場と消滅点に基づいて線分を洗練するための新しい最適化ツールを提案する。
この改良により、電流深度検出器の精度が大幅に向上する。
低レベルライン検出メトリクスおよび複数のダウンストリームタスクにおける複数のチャレンジデータセットを用いた手法の性能を実証する。
ソースコードとモデルはhttps://github.com/cvg/deeplsdで入手できる。 Line segments are ubiquitous in our human-made world and are increasingly used in vision tasks. They are complementary to feature points thanks to their spatial extent and the structural information they provide. Traditional line detectors based on the image gradient are extremely fast and accurate, but lack robustness in noisy images and challenging conditions. Their learned counterparts are more repeatable and can handle challenging images, but at the cost of a lower accuracy and a bias towards wireframe lines. We propose to combine traditional and learned approaches to get the best of both worlds: an accurate and robust line detector that can be trained in the wild without ground truth lines. Our new line segment detector, DeepLSD, processes images with a deep network to generate a line attraction field, before converting it to a surrogate image gradient magnitude and angle, which is then fed to any existing handcrafted line detector. Additionally, we propose a new optimization tool to refine line segments based on the attraction field and vanishing points. This refinement improves the accuracy of current deep detectors by a large margin. We demonstrate the performance of our method on low-level line detection metrics, as well as on several downstream tasks using multiple challenging datasets. The source code and models are available at https://github.com/cvg/DeepLSD. | 翻訳日:2023-03-29 19:09:54 公開日:2023-03-28 |
# Few-Shot分類における一般化予測の統計的モデル A Statistical Model for Predicting Generalization in Few-Shot Classification ( http://arxiv.org/abs/2212.06461v2 ) ライセンス: Link先を確認 | Yassir Bendou, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Stefan Uhlich, Fabien Cardinaux, Ghouthi Boukli Hacene, Javier Alonso Garcia | (参考訳) 分類器の一般化誤差の推定は、しばしば検証セットに依存する。
このようなセットは、現場では非常に無視されている欠点である、数ショットの学習シナリオではほとんど利用できない。
これらのシナリオでは、事前学習されたニューラルネットワークから抽出された特徴と、最も近いクラス平均のような距離ベースの分類器を組み合わせることが一般的である。
本研究では,特徴分布のガウスモデルを提案する。
このモデルのパラメータを推定することにより、サンプルが少ない新しい分類タスクの一般化誤差を予測できる。
一般化性能の正確な推定には,クラス条件密度間の正確な距離推定が重要であることを確かめた。
そこで,これらの距離に対する偏りのない推定器を提案し,数値解析に組み込む。
我々は,我々のアプローチが,離脱一貫のクロスバリデーション戦略などの代替案よりも優れていることを実証的に示す。 The estimation of the generalization error of classifiers often relies on a validation set. Such a set is hardly available in few-shot learning scenarios, a highly disregarded shortcoming in the field. In these scenarios, it is common to rely on features extracted from pre-trained neural networks combined with distance-based classifiers such as nearest class mean. In this work, we introduce a Gaussian model of the feature distribution. By estimating the parameters of this model, we are able to predict the generalization error on new classification tasks with few samples. We observe that accurate distance estimates between class-conditional densities are the key to accurate estimates of the generalization performance. Therefore, we propose an unbiased estimator for these distances and integrate it in our numerical analysis. We empirically show that our approach outperforms alternatives such as the leave-one-out cross-validation strategy. | 翻訳日:2023-03-29 19:09:34 公開日:2023-03-28 |
# InferEM:共感的対話生成のための話者意図の推測 InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation ( http://arxiv.org/abs/2212.06373v3 ) ライセンス: Link先を確認 | Guoqing Lv, Jiang Li, Xiaoping Wang | (参考訳) 共感応答生成に対する現在のアプローチは、一般的に対話履歴全体をエンコードし、出力をデコーダに入れてフレンドリーなフィードバックを生成する。
これらの手法は文脈情報のモデル化に焦点をあてるが、話者の直接の意図を捉えることは無視する。
我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。
そこで本研究では,共感応答生成のための新しいモデルInferEMを提案する。
我々は,最後の発話を別々に符号化し,多面的注意に基づく意図融合モジュールを通して対話全体と融合し,話者の意図を捉える。
さらに,先行した発話を用いて最後の発話を予測し,人間の心理をシミュレートし,対話者が事前に何を話すのかを推測する。
発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。
実験の結果,inferemの共感性発現改善における可能性と妥当性が示された。 Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through the multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression. | 翻訳日:2023-03-29 19:09:23 公開日:2023-03-28 |
# ビデオオブジェクトセグメンテーションにおける「オブジェクト」の分解 Breaking the "Object" in Video Object Segmentation ( http://arxiv.org/abs/2212.06200v2 ) ライセンス: Link先を確認 | Pavel Tokmakov, Jie Li, Adrien Gaidon | (参考訳) 物体の外観は、それが変形するときに浮かび上がることがある。
卵が折れたり、紙が破れてしまうと、その色、形、テクスチャが劇的に変化し、アイデンティティ自体を除いてオリジナルのものはほとんど保存されない。
しかし、この重要な現象は既存のvos(video object segmentation)ベンチマークにはほとんど及ばない。
本研究では,ビデオオブジェクトセグメンテーションのための新しいデータセットを変換(VOST)下で収集することで,そのギャップを埋める。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、インスタンスマスクでラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
次に、最先端のVOS手法を広く評価し、多くの重要な発見を行う。
特に,本課題に適用された場合,既存の手法は困難であり,その主な限界は静的な外観上の過度な信頼にあることを示す。
これにより、時空間情報のモデリングを改善することにより、その能力を改善するトップパフォーマンスベースラインのいくつかの変更を提案する動機付けとなります。
しかし、より広範に、より堅牢なビデオオブジェクト表現の学習に関する議論を刺激することを期待している。 The appearance of an object can be fleeting when it transforms. As eggs are broken or paper is torn, their color, shape and texture can change dramatically, preserving virtually nothing of the original except for the identity itself. Yet, this important phenomenon is largely absent from existing video object segmentation (VOS) benchmarks. In this work, we close the gap by collecting a new dataset for Video Object Segmentation under Transformations (VOST). It consists of more than 700 high-resolution videos, captured in diverse environments, which are 21 seconds long on average and densely labeled with instance masks. A careful, multi-step approach is adopted to ensure that these videos focus on complex object transformations, capturing their full temporal extent. We then extensively evaluate state-of-the-art VOS methods and make a number of important discoveries. In particular, we show that existing methods struggle when applied to this novel task and that their main limitation lies in over-reliance on static appearance cues. This motivates us to propose a few modifications for the top-performing baseline that improve its capabilities by better modeling spatio-temporal information. But more broadly, the hope is to stimulate discussion on learning more robust video object representations. | 翻訳日:2023-03-29 19:09:06 公開日:2023-03-28 |
# 編集可能なNeRF: トポロジカルに可変なニューラルラジアンスフィールドをキーポイントで編集する EditableNeRF: Editing Topologically Varying Neural Radiance Fields by Key Points ( http://arxiv.org/abs/2212.04247v2 ) ライセンス: Link先を確認 | Chengwei Zheng, Wenbin Lin, Feng Xu | (参考訳) ニューラルレイディアンス場(NeRF)は、高光写実的ノベルビュー合成を実現するが、特にダイナミックシーンにおいて、NeRFベースの手法でモデル化されたシーンを編集することは難しい問題である。
本稿では,動的シーンの編集やトポロジ的変化の支援などが可能な編集可能なニューラルレイディアンスフィールドを提案する。
一つのカメラから画像シーケンスを入力すると、ネットワークは完全に自動的に訓練され、選択した表面キーポイントを用いて位相的に変化するダイナミクスをモデル化する。
そして、エンドユーザーは、キーポイントを必要な新しい位置にドラッグするだけでシーンを編集できる。
そこで本研究では,シーン内のダイナミクスを考慮し,キーポイントの検出と初期化を行うシーン分析手法と,結合キーポイントと重み付け最適化による位相変化ダイナミクスをモデル化する重み付きキーポイント戦略を提案する。
提案手法は直感的な多次元編集(最大3次元)をサポートし,入力シーケンスにない斬新なシーンを生成する。
実験により,様々な動的シーンで高品質な編集が可能となり,最先端を上回っていることを示す。
私たちのコードとキャプチャーデータはhttps://chengwei-zheng.github.io/editablenerf/で入手できます。 Neural radiance fields (NeRF) achieve highly photo-realistic novel-view synthesis, but it's a challenging problem to edit the scenes modeled by NeRF-based methods, especially for dynamic scenes. We propose editable neural radiance fields that enable end-users to easily edit dynamic scenes and even support topological changes. Input with an image sequence from a single camera, our network is trained fully automatically and models topologically varying dynamics using our picked-out surface key points. Then end-users can edit the scene by easily dragging the key points to desired new positions. To achieve this, we propose a scene analysis method to detect and initialize key points by considering the dynamics in the scene, and a weighted key points strategy to model topologically varying dynamics by joint key points and weights optimization. Our method supports intuitive multi-dimensional (up to 3D) editing and can generate novel scenes that are unseen in the input sequence. Experiments demonstrate that our method achieves high-quality editing on various dynamic scenes and outperforms the state-of-the-art. Our code and captured data are available at https://chengwei-zheng.github.io/EditableNeRF/. | 翻訳日:2023-03-29 19:08:26 公開日:2023-03-28 |
# 合成視点からの弱スーパービジョンによる注視推定の一般化 Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views ( http://arxiv.org/abs/2212.02997v2 ) ライセンス: Link先を確認 | Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Michail Christos Doukas, Jia Guo, Stefanos Zafeiriou | (参考訳) 未発見領域や野生条件によく一般化した視線推定モデルの開発は、既知の最善の解決法がない課題である。
これは主に、現実世界に存在する可能性のある顔、頭ポーズ、環境条件の分布をカバーする地上の真実データを取得するのが難しいためである。
本研究では,インターネット上に豊富に存在する任意の顔画像から抽出した3次元幾何認識型擬似アノテーションに基づいて,一般的な視線推定モデルを訓練することを提案する。
さらに,頭部,体,手の位置推定は,これらを高密度な3次元座標予測として再検討することの利点を生かし,同様に高密度な3次元眼網の回帰として視線推定を表現する。
既存の視線データセットに剛性のある3d眼球を取り付け、トレーニング中の擬似ラベルの効果をバランスさせるマルチビュー監視フレームワークを設計することで、互換性のある地上真実の欠如を克服する。
本手法を視線一般化のタスクでテストし,真理データが得られない場合の最先端技術と比較して最大30 %$,真理データが得られない場合は最大10 %$であることを示す。
プロジェクト資料は研究目的で利用可能になります。 Developing gaze estimation models that generalize well to unseen domains and in-the-wild conditions remains a challenge with no known best solution. This is mostly due to the difficulty of acquiring ground truth data that cover the distribution of possible faces, head poses and environmental conditions that exist in the real world. In this work, we propose to train general gaze estimation models based on 3D geometry-aware gaze pseudo-annotations which we extract from arbitrary unlabelled face images, which are abundantly available in the internet. Additionally, we leverage the observation that head, body and hand pose estimation benefit from revising them as dense 3D coordinate prediction, and similarly express gaze estimation as regression of dense 3D eye meshes. We overcome the absence of compatible ground truth by fitting rigid 3D eyeballs on existing gaze datasets and design a multi-view supervision framework to balance the effect of pseudo-labels during training. We test our method in the task of gaze generalization, in which we demonstrate improvement of up to $30\%$ compared to state-of-the-art when no ground truth data are available, and up to $10\%$ when they are. The project material will become available for research purposes. | 翻訳日:2023-03-29 19:08:03 公開日:2023-03-28 |
# 皮膚局在のない非エルミタン端バースト Non-Hermitian edge burst without skin localizations ( http://arxiv.org/abs/2212.02879v2 ) ライセンス: Link先を確認 | C. Yuce, H. Ramezani | (参考訳) 開境界条件を持つ損失格子における非エルミート量子ウォークのクラスでは、崩壊確率の分布の予期せぬピークがエッジバーストと呼ばれるエッジに現れる。
エッジバーストは非エルミート皮膚効果 (nhse) とスペクトルの空隙性 (wen-tan xue et al., phys. rev. lett. 128, 120401 (2022)) に起因していることが示唆された。
非一様損失率を持つ特定の1次元損失格子を用いて,nhse が存在しない場合にもエッジバーストが発生することを示す。
さらに,スペクトルが虚ギャップ条件を満たす場合,エッジバーストは現れない可能性があることを考察する。
その基本的な重要性とは別に、エッジバースト効果の観測に関する制限を取り除き、エッジバースト効果の将来の応用のためのより広い設計空間への扉を開く。 In a class of non-Hermitian quantum walk in lossy lattices with open boundary conditions, an unexpected peak in the distribution of the decay probabilities appears at the edge, dubbed edge burst. It is proposed that the edge burst is originated jointly from the non-Hermitian skin effect (NHSE) and the imaginary gaplessness of the spectrum [Wen-Tan Xue et al., Phys. Rev. Lett. 128, 120401 (2022)]. Using a particular one-dimensional lossy lattice with a nonuniform loss rate, we show that the edge burst can occur even in the absence of NHSE. Furthermore, we discuss that the edge burst may not appear if the spectrum satisfies the imaginary gaplesness condition. Aside from its fundamental importance, by removing the restrictions on observing the edge burst effect, our results open the door to broader design space for future applications of the edge burst effect. | 翻訳日:2023-03-29 19:07:40 公開日:2023-03-28 |
# 目に見えないシナリオにおけるドメイン一般の群衆数 Domain-General Crowd Counting in Unseen Scenarios ( http://arxiv.org/abs/2212.02573v2 ) ライセンス: Link先を確認 | Zhipeng Du, Jiankang Deng, Miaojing Shi | (参考訳) 群集データ間のドメインシフトは、群集数モデルが目に見えないシナリオに一般化するのを著しく妨げます。
ドメイン適応的な集団カウントのアプローチはこのギャップをある程度閉じるが、ターゲットのドメインデータに依存してモデルを特定のドメインに適応させる(ファイントゥンなど)。
本稿では,任意の未確認領域に対してよく一般化可能な単一ソースドメインに基づくモデルをトレーニングすることを目的とする。
これは、群衆数では未解決の領域一般化の領域に属する。
まず、ソースドメインを複数のサブドメインに分割する動的サブドメイン分割スキームを導入し、ドメイン一般化のためのメタラーニングフレームワークを開始する。
サブドメイン分割はメタラーニング中に動的に洗練される。
次に、画像特徴量におけるドメイン固有情報からドメイン不変情報を分離するために、画像特徴を再エンコードするためにドメイン不変および特定のクラウドメモリモジュールを設計する。
特徴再構成と直交損失の2種類の損失が、この混乱を可能にするために考案された。
SHA,SHB,QNRF,NWPUなどの標準群カウントベンチマークによる大規模な実験は,本手法の強い一般化性を示している。 Domain shift across crowd data severely hinders crowd counting models to generalize to unseen scenarios. Although domain adaptive crowd counting approaches close this gap to a certain extent, they are still dependent on the target domain data to adapt (e.g. finetune) their models to the specific domain. In this paper, we aim to train a model based on a single source domain which can generalize well on any unseen domain. This falls into the realm of domain generalization that remains unexplored in crowd counting. We first introduce a dynamic sub-domain division scheme which divides the source domain into multiple sub-domains such that we can initiate a meta-learning framework for domain generalization. The sub-domain division is dynamically refined during the meta-learning. Next, in order to disentangle domain-invariant information from domain-specific information in image features, we design the domain-invariant and -specific crowd memory modules to re-encode image features. Two types of losses, i.e. feature reconstruction and orthogonal losses, are devised to enable this disentanglement. Extensive experiments on several standard crowd counting benchmarks i.e. SHA, SHB, QNRF, and NWPU, show the strong generalizability of our method. | 翻訳日:2023-03-29 19:07:21 公開日:2023-03-28 |
# Modiff:拡散確率モデルを用いたアクションコンディション3次元運動生成 Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.03949v2 ) ライセンス: Link先を確認 | Mengyi Zhao, Mengyuan Liu, Bin Ren, Shuling Dai, and Nicu Sebe | (参考訳) 拡散に基づく生成モデルは最近、複数の領域における高品質な合成のための強力な解として登場している。
双方向マルコフ連鎖を利用する拡散確率モデルは、前方拡散過程における学習分布写像に基づいて逆マルコフ連鎖を推定することによりサンプルを生成する。
本研究では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,DDPM(Denoising diffusion Probabilistic Model)の利点を生かした条件付きパラダイムであるModiffを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
我々は,大規模NTU RGB+Dデータセットに対するアプローチを評価し,最先端のモーション生成手法の改善を示す。 Diffusion-based generative models have recently emerged as powerful solutions for high-quality synthesis in multiple domains. Leveraging the bidirectional Markov chains, diffusion probabilistic models generate samples by inferring the reversed Markov chain based on the learned distribution mapping at the forward diffusion process. In this work, we propose Modiff, a conditional paradigm that benefits from the denoising diffusion probabilistic model (DDPM) to tackle the problem of realistic and diverse action-conditioned 3D skeleton-based motion generation. We are a pioneering attempt that uses DDPM to synthesize a variable number of motion sequences conditioned on a categorical action. We evaluate our approach on the large-scale NTU RGB+D dataset and show improvements over state-of-the-art motion generation methods. | 翻訳日:2023-03-29 19:01:13 公開日:2023-03-28 |
# プレートから予防へ:シンガポールにおける健康増進のための栄養管理プラットフォーム From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore ( http://arxiv.org/abs/2301.03829v2 ) ライセンス: Link先を確認 | Kaiping Zheng, Thao Nguyen, Jesslyn Hwei Sing Chong, Charlene Enhui Goh, Melanie Herschel, Hee Hoon Lee, Changshuo Liu, Beng Chin Ooi, Wei Wang and James Yip | (参考訳) シンガポールは、国民への医療サービスの提供を改善する努力を続けている。
このコースでは、慢性疾患の発症に寄与する要因として認識されている栄養素摂取の規制・監視の欠如に注目している。
その結果、この問題に大きな注目を集めた。
本稿では,この問題に対処し,シンガポール人に対して異なる側面の医療用栄養素摂取情報を得るための経験について紹介する。
この目的のために,シンガポールにおける多様なヘルスケア指向アプリケーションをサービスとしてインキュベーションするFoodSGプラットフォームを開発した。
さらに,シンガポールの食品データセットであるFoodSG-233の系統的クリーン化とキュレートを行った。
シンガポールの多孔食料理がもたらす認知能力のハードルを克服するため,食品認識モデルであるFoodSG-SCLに教師付きコントラスト学習を統合して,固い正・負のサンプルを抽出し,精度を高めることを提案する。
包括的評価を通じて,提案モデルの性能評価と食品関連医療応用に関する知見を示す。
FoodSG-233データセットはhttps://foodlg.comp.nus.edu.sg/でリリースされた。 Singapore has been striving to improve the provision of healthcare services to her people. In this course, the government has taken note of the deficiency in regulating and supervising people's nutrient intake, which is identified as a contributing factor to the development of chronic diseases. Consequently, this issue has garnered significant attention. In this paper, we share our experience in addressing this issue and attaining medical-grade nutrient intake information to benefit Singaporeans in different aspects. To this end, we develop the FoodSG platform to incubate diverse healthcare-oriented applications as a service in Singapore, taking into account their shared requirements. We further identify the profound meaning of localized food datasets and systematically clean and curate a localized Singaporean food dataset FoodSG-233. To overcome the hurdle in recognition performance brought by Singaporean multifarious food dishes, we propose to integrate supervised contrastive learning into our food recognition model FoodSG-SCL for the intrinsic capability to mine hard positive/negative samples and therefore boost the accuracy. Through a comprehensive evaluation, we present performance results of the proposed model and insights on food-related healthcare applications. The FoodSG-233 dataset has been released in https://foodlg.comp.nus.edu.sg/. | 翻訳日:2023-03-29 19:01:00 公開日:2023-03-28 |
# 量子ニューマン・ムーア模型における相転移の境界条件依存性 Boundary conditions dependence of the phase transition in the quantum Newman-Moore model ( http://arxiv.org/abs/2301.02826v3 ) ライセンス: Link先を確認 | Konstantinos Sfairopoulos, Luke Causer, Jamie F. Mair, Juan P. Garrahan | (参考訳) 本研究では,2次元の周期的境界を持つ格子上に横磁場が存在する場合の三角形プラケットモデル(TPM,Newman-Mooreモデルとも呼ばれる)について検討する。
本稿では, この量子TPM(QTPM, 量子ニューマン・ムーアモデル)の基底状態相転移へのアプローチを, システムサイズと境界条件のタイプとして検討する。
セルセルオートマトン法を用いて,任意のトーラスサイズに対してTPMの最小エネルギー構成をフルに評価する。
QTPMでは、これらのサイクルパターンを用いてモデルの対称性を求め、量子相転移を決定する。
数値がアクセス可能なサイズについては、この分類が正確な対角化、行列積状態、量子モンテカルロシミュレーションと一致することも分かる。 We study the triangular plaquette model (TPM, also known as the Newman-Moore model) in the presence of a transverse magnetic field on a lattice with periodic boundaries in both spatial dimensions. We consider specifically the approach to the ground state phase transition of this quantum TPM (QTPM, or quantum Newman-Moore model) as a function of the system size and type of boundary conditions. Using cellular automata methods, we obtain a full characterization of the minimum energy configurations of the TPM for arbitrary tori sizes. For the QTPM, we use these cycle patterns to obtain the symmetries of the model, which we argue determine its quantum phase transition: we find it to be a first-order phase transition, with the addition of spontaneous symmetry breaking for system sizes which have degenerate classical ground states. For sizes accessible to numerics, we also find that this classification is consistent with exact diagonalization, Matrix Product States and Quantum Monte Carlo simulations. | 翻訳日:2023-03-29 19:00:37 公開日:2023-03-28 |
# Anchor3DLane:モノクロ3Dレーン検出のための3Dアンカーの学習 Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane Detection ( http://arxiv.org/abs/2301.02371v2 ) ライセンス: Link先を確認 | Shaofei Huang, Zhenwei Shen, Zehao Huang, Zi-han Ding, Jiao Dai, Jizhong Han, Naiyan Wang, Si Liu | (参考訳) 深さ情報がないため,単眼3次元レーン検出は難しい課題である。
一般的な解決策は、まずフロントビュー(FV)画像や特徴を逆視点マッピング(IPM)で鳥眼(BEV)空間に変換し、BEV特徴から車線を検出することである。
しかし、IPMが平らな地上での仮定やコンテキスト情報の喪失に依存しているため、BEV表現から3D情報を復元するには不正確である。
BEVを排除し、FV表現から直接3Dレーンを予測する試みがなされているが、3Dレーンの構造的表現が欠如していることから、他のBEVベースの方法よりも性能が低い。
本稿では,3d空間における3dレーンアンカーを定義し,fv表現から直接3dレーンを予測するためのアンカー3dlane法を提案する。
3DレーンアンカーはFV機能に投影され、正確な予測を行うための優れた構造情報とコンテキスト情報の両方を含む特徴を抽出する。
さらに,車線間の等幅特性を利用した大域的最適化手法も開発し,予測の側方誤差を低減する。
3つの人気のある3Dレーン検出ベンチマークの大規模な実験により、我々のAnchor3DLaneは従来のBEVベースの手法より優れ、最先端のパフォーマンスを実現しています。
コードはhttps://github.com/tusen-ai/anchor3dlaneで入手できる。 Monocular 3D lane detection is a challenging task due to its lack of depth information. A popular solution is to first transform the front-viewed (FV) images or features into the bird-eye-view (BEV) space with inverse perspective mapping (IPM) and detect lanes from BEV features. However, the reliance of IPM on flat ground assumption and loss of context information make it inaccurate to restore 3D information from BEV representations. An attempt has been made to get rid of BEV and predict 3D lanes from FV representations directly, while it still underperforms other BEV-based methods given its lack of structured representation for 3D lanes. In this paper, we define 3D lane anchors in the 3D space and propose a BEV-free method named Anchor3DLane to predict 3D lanes directly from FV representations. 3D lane anchors are projected to the FV features to extract their features which contain both good structural and context information to make accurate predictions. In addition, we also develop a global optimization method that makes use of the equal-width property between lanes to reduce the lateral error of predictions. Extensive experiments on three popular 3D lane detection benchmarks show that our Anchor3DLane outperforms previous BEV-based methods and achieves state-of-the-art performances. The code is available at: https://github.com/tusen-ai/Anchor3DLane. | 翻訳日:2023-03-29 19:00:22 公開日:2023-03-28 |
# textdescriptives: テキストから多種多様なメトリクスを計算するためのpythonパッケージ TextDescriptives: A Python package for calculating a large variety of metrics from text ( http://arxiv.org/abs/2301.02057v3 ) ライセンス: Link先を確認 | Lasse Hansen, Ludvig Renbo Olsen, Kenneth Enevoldsen | (参考訳) TextDescriptivesは、テキストからさまざまなメトリクスを計算するためのPythonパッケージである。
SpaCy上に構築されており、既存のワークフローに簡単に統合できる。
このパッケージは、すでに臨床テキストの言語的安定性の分析、神経精神医学的状態の予測、小学生の言語的目標の分析に使われている。
本稿では,パッケージとその特徴について述べる。 TextDescriptives is a Python package for calculating a large variety of metrics from text. It is built on top of spaCy and can be easily integrated into existing workflows. The package has already been used for analysing the linguistic stability of clinical texts, creating features for predicting neuropsychiatric conditions, and analysing linguistic goals of primary school students. This paper describes the package and its features. | 翻訳日:2023-03-29 18:59:54 公開日:2023-03-28 |
# 知覚理解による視覚表現学習の改善 Improving Visual Representation Learning through Perceptual Understanding ( http://arxiv.org/abs/2212.14504v2 ) ライセンス: Link先を確認 | Samyakh Tukra, Frederick Hoffman, Ken Chatfield | (参考訳) 本稿では,より高次なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習される表現を改良したマスキングオートエンコーダ(mae)の拡張を提案する。
私たちはこうしています
(i)生成画像と実画像との知覚的類似性用語の導入
(II) マルチスケールトレーニングや適応型識別器増強を含む, 対人訓練文献からのいくつかのテクニックを取り入れた。
これらの組み合わせにより、ピクセル再構成だけでなく、画像内のより高レベルな詳細をキャプチャーする表現も改善される。
さらに,提案手法である知覚的maeが,従来の手法よりも下流タスクの方が優れた性能をもたらすことを示す。
我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%まで到達し、他の下流タスクでも同様の結果が得られる。 We present an extension to masked autoencoders (MAE) which improves on the representations learnt by the model by explicitly encouraging the learning of higher scene-level features. We do this by: (i) the introduction of a perceptual similarity term between generated and real images (ii) incorporating several techniques from the adversarial training literature including multi-scale training and adaptive discriminator augmentation. The combination of these results in not only better pixel reconstruction but also representations which appear to capture better higher-level details within images. More consequentially, we show how our method, Perceptual MAE, leads to better performance when used for downstream tasks outperforming previous methods. We achieve 78.1% top-1 accuracy linear probing on ImageNet-1K and up to 88.1% when fine-tuning, with similar results for other downstream tasks, all without use of additional pre-trained models or data. | 翻訳日:2023-03-29 18:59:13 公開日:2023-03-28 |
# Feynmanの$i\eta$述語を用いた非バイアス量子シミュレーションのためのコンパクトノイズ耐性アルゴリズム A Compact Noise-Tolerant Algorithm for Unbiased Quantum Simulation Using Feynman's $i\eta$ Prescription ( http://arxiv.org/abs/2212.14039v2 ) ライセンス: Link先を確認 | Woo-Ram Lee, Ryan Scott, V. W. Scarola | (参考訳) 古典的なメモリ制限に対する量子シミュレーションの利点は、コンパクトな量子回路が難解な量子多体問題に対する洞察を得ることができることである。
しかし、量子時間進化とノイズにおける大きな回路深度の相互関係の障害は、近い将来に非バイアス量子シミュレーションを排除しているように見える。
Feynmanの$i\eta$は、量子時間進化に必要な回路深さを指数関数的に改善することを証明する。
提案手法をハイブリッド量子/古典的アルゴリズムの構築に適用し,有用で観測可能なエネルギーギャップを推定する。
一般的なマルコフノイズチャネルに対するアルゴリズムの許容性を証明する。
我々は,IBMQデバイスと関連するノイズモデルを用いて,横フィールドIsingモデルの非バイアス有限サイズスケーリングを行うために,演算ウィンドウ内でのアルゴリズムの成功を実証する。
本研究は,非マルコフ雑音を許容範囲以下に抑える早期耐故障機械の量子誤り訂正符号を実装せずに,非バイアス量子ギャップ推定のステージを設定した。 Quantum simulation advantage over classical memory limitations would allow compact quantum circuits to yield insight into intractable quantum many-body problems. But the interrelated obstacles of large circuit depth in quantum time evolution and noise seem to rule out unbiased quantum simulation in the near term. We prove that Feynman's $i\eta$ prescription exponentially improves the circuit depth needed for quantum time evolution. We apply the prescription to the construction of a hybrid quantum/classical algorithm to estimate a useful observable, energy gap. We prove the algorithm's tolerance to all common Markovian noise channels. We demonstrate the success of the algorithm within an operation window by using it to perform unbiased finite-size scaling of the transverse-field Ising model using an IBMQ device and related noise models. Our findings set the stage for unbiased quantum gap estimation without implementing quantum error-correcting codes on early fault-tolerant machines where non-Markovian noise is kept below tolerances. | 翻訳日:2023-03-29 18:58:58 公開日:2023-03-28 |
# 脳波復号のための深いリーマンネットワーク Deep Riemannian Networks for EEG Decoding ( http://arxiv.org/abs/2212.10426v4 ) ライセンス: Link先を確認 | Daniel Wilson, Robin Tibor Schirrmeister, Lukas Alexander Wilhelm Gemein, Tonio Ball | (参考訳) 電子脳波(EEG)復号処理の最先端性能は、現在Deep-Learning または Riemannian-Geometry ベースの復号器を用いて達成されている。
近年,Deep Riemannian Networks (DRN) への関心が高まっている。
しかし、より広範なDRNをEEGに応用するには、さらなる洞察が必要である、というトピックは、まだたくさんある。
これにはネットワークサイズやエンドツーエンドの能力といったアーキテクチャ設計の問題や、モデルのトレーニングに関する質問が含まれる。
これらの要因がモデルのパフォーマンスにどのように影響するかは検討されていない。
さらに、これらのネットワーク内のデータがどのように変換され、それが従来の脳波デコードと相関するかは明らかではない。
本研究の目的は,脳波のDRNを多種多様なパラメーターで解析することで,これらのトピックの領域の基盤となることにある。
ネットワークは2つのパブリックEEGデータセットでテストされ、最先端のConvNetと比較された。
本稿では、エンド・ツー・エンドの脳波spdnet(ee(g)-spdnet)を提案し、この広範囲のエンド・ツー・エンドのdrmが、コンブネットよりも優れており、生理学的に妥当な周波数領域を用いていることを示す。
また、エンド・ツー・エンドの手法は、脳波の古典的アルファ、ベータ、ガンマ周波数帯域を対象とする従来の帯域通過フィルタよりも複雑なフィルタを学習し、チャネル固有のフィルタリング手法の恩恵を受けることを示す。
さらに、アーキテクチャ解析により、ネットワーク全体のリーマン固有情報が失われる可能性があるため、さらなる改善が図られた。
そこで本研究では,手作りのフィルタバンクを必要とせずに,生の脳波からタスク関連情報を推測するためのDRNの設計と訓練方法を示し,高性能な脳波復号のためのEE(G)-SPDNetなどのエンドツーエンドDRNの可能性を強調した。 State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning or Riemannian-Geometry-based decoders. Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability as well as model training questions. How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding. | 翻訳日:2023-03-29 18:58:39 公開日:2023-03-28 |
# 非エルミート非相反系における輸送効果:一般アプローチ Transport effects in non-Hermitian nonreciprocal systems: General approach ( http://arxiv.org/abs/2302.03240v2 ) ライセンス: Link先を確認 | Hamed Ghaemi-Dizicheh | (参考訳) 本稿では,非エルミート非相互系における反射・透明輸送,ラシング,コヒーレント完全吸収などの輸送効果の条件を一般化的伝達行列法を用いて同定するための統一解析フレームワークを提案する。
これは、高次元モデルや内部自由度を持つものを含む、密結合プラットフォームの輸送を研究するための普遍的なアプローチを提供する。
密結合モデルの特定のクラスでは、関連する輸送条件とその非エルミート的、非相反的、位相的挙動のシグネチャは、一般の観点から解析的に説明可能である。
システムパラメータをチューニングして輸送効果と位相位相位相を調整できるパラダイム的ラダーモデルにおいて、このクラスを調査し、形式性を説明する。 In this paper, we present a unifying analytical framework for identifying conditions for transport effects such as reflectionless and transparent transport, lasing, and coherent perfect absorption in non-Hermitian nonreciprocal systems using a generalized transfer matrix method. This provides a universal approach to studying the transport of tight-binding platforms, including higher-dimensional models and those with an internal degree of freedom going beyond the previously studied case of one-dimensional chains with nearest-neighbor couplings. For a specific class of tight-binding models, the relevant transport conditions and their signatures of non-Hermitian, nonreciprocal, and topological behavior are analytically tractable from a general perspective. We investigate this class and illustrate our formalism in a paradigmatic ladder model where the system's parameters can be tuned to adjust the transport effect and topological phases. | 翻訳日:2023-03-29 18:51:17 公開日:2023-03-28 |
# 自由形電磁逆設計のためのニューラルネットワークに基づくサロゲート解法 A neural operator-based surrogate solver for free-form electromagnetic inverse design ( http://arxiv.org/abs/2302.01934v2 ) ライセンス: Link先を確認 | Yannick Augenstein, Taavi Rep\"an, Carsten Rockstuhl | (参考訳) ニューラルネットワークは、科学機械学習の文脈で偏微分方程式を解く強力なツールとして登場した。
本稿では,改良したフーリエニューラル演算子を電磁散乱問題のサロゲート解法として実装し,そのデータ効率を既存の手法と比較する。
さらに,自由形,完全3次元電磁散乱器の勾配に基づくナノフォトニクス逆設計への応用を実証する。 Neural operators have emerged as a powerful tool for solving partial differential equations in the context of scientific machine learning. Here, we implement and train a modified Fourier neural operator as a surrogate solver for electromagnetic scattering problems and compare its data efficiency to existing methods. We further demonstrate its application to the gradient-based nanophotonic inverse design of free-form, fully three-dimensional electromagnetic scatterers, an area that has so far eluded the application of deep learning techniques. | 翻訳日:2023-03-29 18:51:01 公開日:2023-03-28 |
# レーティング予測のための意味的符号化のKNN KNNs of Semantic Encodings for Rating Prediction ( http://arxiv.org/abs/2302.00412v2 ) ライセンス: Link先を確認 | L\'eo Laugier, Raghuram Vadapalli, Thomas Bonald, Lucas Dixon | (参考訳) 本稿では,テキストのセマンティックな類似性を利用した評価予測手法を提案する。
このアプローチは、エッジが意味的類似性によって定義されるレビューテキストからのテキストスニペットのグラフとして、ユーザの好みを表す。
このテキストによるメモリベースの評価予測アプローチは、レコメンデーションのためのレビューベースの説明を可能にする。
この手法は定量的に評価され、この方法でテキストを活用すると、強いメモリベースとモデルベースの協調フィルタリングベースラインの両方で性能が向上する。 This paper explores a novel application of textual semantic similarity to user-preference representation for rating prediction. The approach represents a user's preferences as a graph of textual snippets from review text, where the edges are defined by semantic similarity. This textual, memory-based approach to rating prediction enables review-based explanations for recommendations. The method is evaluated quantitatively, highlighting that leveraging text in this way outperforms both strong memory-based and model-based collaborative filtering baselines. | 翻訳日:2023-03-29 18:50:52 公開日:2023-03-28 |
# DRIMET: タグ付きMRIにおける3次元非圧縮性運動推定のための深い登録と舌への応用 DRIMET: Deep Registration for 3D Incompressible Motion Estimation in Tagged-MRI with Application to the Tongue ( http://arxiv.org/abs/2301.07234v2 ) ライセンス: Link先を確認 | Zhangxing Bian, Fangxu Xing, Jinglun Yu, Muhan Shao, Yihao Liu, Aaron Carass, Jiachen Zhuo, Jonghye Woo, Jerry L. Prince | (参考訳) タグ付きMRI(Tagged magnetic resonance imaging)は、変形組織の詳細な動きを観察し定量化するために何十年も使われてきた。
しかし, この手法は, タグフェーディングや大きな動き, 長時間の計算時間, 微分同相非圧縮性流れ場獲得の困難といった課題に直面している。
そこで本稿では,タグ付きmriのための教師なし位相に基づく3次元運動推定手法を提案する。
2つの重要なイノベーションを紹介します
まず、調和位相入力に正弦波変換を適用し、エンドツーエンドのトレーニングを可能にし、位相補間の必要性を回避する。
第二に, 生体組織を変形させるための非圧縮性流れ場を促すジャコビアン決定式に基づく学習目標を提案する。
本手法は, 高精度で密度が高く, ほぼ微分可能で非圧縮な3次元運動場を効率的に推定する。
この方法の有効性は、発話中の人間の舌の動きを用いて評価され、正常なコントロールと舌郭清を行った患者の両方を含む。
提案手法は既存の手法よりも優れており,また,タグフェージングに対する速度,頑健性,舌の動きが向上していることを示す。 Tagged magnetic resonance imaging (MRI) has been used for decades to observe and quantify the detailed motion of deforming tissue. However, this technique faces several challenges such as tag fading, large motion, long computation times, and difficulties in obtaining diffeomorphic incompressible flow fields. To address these issues, this paper presents a novel unsupervised phase-based 3D motion estimation technique for tagged MRI. We introduce two key innovations. First, we apply a sinusoidal transformation to the harmonic phase input, which enables end-to-end training and avoids the need for phase interpolation. Second, we propose a Jacobian determinant-based learning objective to encourage incompressible flow fields for deforming biological tissues. Our method efficiently estimates 3D motion fields that are accurate, dense, and approximately diffeomorphic and incompressible. The efficacy of the method is assessed using human tongue motion during speech, and includes both healthy controls and patients that have undergone glossectomy. We show that the method outperforms existing approaches, and also exhibits improvements in speed, robustness to tag fading, and large tongue motion. | 翻訳日:2023-03-29 18:50:02 公開日:2023-03-28 |
# ビデオグラウンド用プロンプトキャプションの爆発 Exploiting Prompt Caption for Video Grounding ( http://arxiv.org/abs/2301.05997v2 ) ライセンス: Link先を確認 | Hongxiang Li, Meng Cao, Xuxin Cheng, Zhihong Zhu, Yaowei Li, Yuexian Zou | (参考訳) ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。
以前の作業では、ビデオアノテーションの「emph{sparsity dilemma}」を無視しており、潜在的なイベントとデータセットのクエリ文の間のコンテキスト情報の提供に失敗している。
本稿では,本論文で定義した一般的な動作を記述したキャプション(PC)を活用すれば,性能が大幅に向上すると主張している。
そこで本稿では,ビデオグラウンドのためのPCNet(Prompt Caption Network)を提案する。
具体的には,まず,高密度キャプションを生成して,非プロンプトキャプション抑制(NPCS)によるプロンプトキャプションを得る。
そこで我々は,アクセプションとクエリ文のセマンティックな関係を時間空間に投影し,それらを視覚表現に融合させるCGA(Caption Guided Attention)を提案する。
そこで我々は, よりネガティブなペアを構築し, 相互情報を最大化するための非対称なクロスモーダルコントラスト学習(ACCL)を提案する。
ベルやホイッスルがなければ,3つの公開データセット(\ie, ActivityNet Captions, TACoS, ActivityNet-CG)の広範な実験により,我々の手法が最先端の手法よりも優れていることが示された。 Video grounding aims to locate a moment of interest matching the given query sentence from an untrimmed video. Previous works ignore the \emph{sparsity dilemma} in video annotations, which fails to provide the context information between potential events and query sentences in the dataset. In this paper, we contend that exploiting easily available captions which describe general actions \ie, prompt captions (PC) defined in our paper, will significantly boost the performance. To this end, we propose a Prompt Caption Network (PCNet) for video grounding. Specifically, we first introduce dense video captioning to generate dense captions and then obtain prompt captions by Non-Prompt Caption Suppression (NPCS). To capture the potential information in prompt captions, we propose Caption Guided Attention (CGA) project the semantic relations between prompt captions and query sentences into temporal space and fuse them into visual representations. Considering the gap between prompt captions and ground truth, we propose Asymmetric Cross-modal Contrastive Learning (ACCL) for constructing more negative pairs to maximize cross-modal mutual information. Without bells and whistles, extensive experiments on three public datasets (\ie, ActivityNet Captions, TACoS and ActivityNet-CG) demonstrate that our method significantly outperforms state-of-the-art methods. | 翻訳日:2023-03-29 18:49:42 公開日:2023-03-28 |
# jana: 複雑なベイズ模型の合同不定形ニューラルネットワーク近似 JANA: Jointly Amortized Neural Approximation of Complex Bayesian Models ( http://arxiv.org/abs/2302.09125v2 ) ライセンス: Link先を確認 | Stefan T. Radev, Marvin Schmitt, Valentin Pratz, Umberto Picchini, Ullrich K\"othe, Paul-Christian B\"urkner | (参考訳) 本研究は,ベイジアン・サロゲート・モデリングとシミュレーションに基づく推論において生じる難解な確率関数と後方密度の'jointly amortized neural approximation''(jana)を提案する。
エンドツーエンドで3つの補完ネットワークをトレーニングします。
1)個々のデータポイント,集合又は時系列を情報埋め込みベクトルに圧縮する要約ネットワーク
2) 補修後部を学習するための後部ネットワーク,及び
3) 修復された近似確率を学習する確率ネットワーク。
彼らの相互作用は、償却限界の確率と後続予測推定への新たな道を開き、ベイズワークフローの重要な2つの要素は、標準的手法には高すぎることが多い。
我々は,JANAの精度を,最先端ベイズ法に対する様々なシミュレーションモデルで評価し,関節校正のための強力かつ解釈可能な診断法を提案する。
さらに,手作り要約統計に頼らずに,複雑な時系列モデルをエミュレートする確率ネットワークについて検討した。 This work proposes ''jointly amortized neural approximation'' (JANA) of intractable likelihood functions and posterior densities arising in Bayesian surrogate modeling and simulation-based inference. We train three complementary networks in an end-to-end fashion: 1) a summary network to compress individual data points, sets, or time series into informative embedding vectors; 2) a posterior network to learn an amortized approximate posterior; and 3) a likelihood network to learn an amortized approximate likelihood. Their interaction opens a new route to amortized marginal likelihood and posterior predictive estimation -- two important ingredients of Bayesian workflows that are often too expensive for standard methods. We benchmark the fidelity of JANA on a variety of simulation models against state-of-the-art Bayesian methods and propose a powerful and interpretable diagnostic for joint calibration. In addition, we investigate the ability of recurrent likelihood networks to emulate complex time series models without resorting to hand-crafted summary statistics. | 翻訳日:2023-03-29 18:42:25 公開日:2023-03-28 |
# adaptersoup: 事前学習された言語モデルの一般化を改善するための重量平均化 AdapterSoup: Weight Averaging to Improve Generalization of Pretrained Language Models ( http://arxiv.org/abs/2302.07027v3 ) ライセンス: Link先を確認 | Alexandra Chronopoulou, Matthew E. Peters, Alexander Fraser, Jesse Dodge | (参考訳) 事前訓練された言語モデル(PLM)は大量のコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
パラメータ効率の良い適応方法は、言語モデリングのタスクで各ドメインのアダプタをトレーニングすることを提案する。
ドメイン内スコアは良好だが、ドメイン内設定やリソース制限設定では実用的ではない。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では,異なるドメインでトレーニングされたアダプタの重み空間平均化を行う手法であるadaptersoupを提案する。
まず、ドメイン固有のアダプタのセットをトレーニングします。次に、新しいドメイン毎に、テスト時にどのアダプタを平均化すべきかを決定します。
本稿では、AdapterSoupが追加トレーニングなしで新しいドメインのパフォーマンスを継続的に改善することを示す広範な実験を示す。
また、異なるハイパーパラメータを持つ同じドメインでトレーニングされたアダプタの重量平均化についても検討し、新しいドメインでのplmのパフォーマンスを保ちつつ、強いドメイン内結果を得ることができることを示した。
テキストクラスタリングや意味的類似性など,どのアダプタを組み合わせるかを選択するためのさまざまなアプローチを検討する。
クラスタリングを使うことで、新しいドメイン上で最も競争力のある結果が得られます。 Pretrained language models (PLMs) are trained on massive corpora, but often need to specialize to specific domains. A parameter-efficient adaptation method suggests training an adapter for each domain on the task of language modeling. This leads to good in-domain scores but can be impractical for domain- or resource-restricted settings. A solution is to use a related-domain adapter for the novel domain at test time. In this paper, we introduce AdapterSoup, an approach that performs weight-space averaging of adapters trained on different domains. Our approach is embarrassingly parallel: first, we train a set of domain-specific adapters; then, for each novel domain, we determine which adapters should be averaged at test time. We present extensive experiments showing that AdapterSoup consistently improves performance to new domains without extra training. We also explore weight averaging of adapters trained on the same domain with different hyper-parameters, and show that it preserves the performance of a PLM on new domains while obtaining strong in-domain results. We explore various approaches for choosing which adapters to combine, such as text clustering and semantic similarity. We find that using clustering leads to the most competitive results on novel domains. | 翻訳日:2023-03-29 18:41:22 公開日:2023-03-28 |
# スティッチブルニューラルネットワーク Stitchable Neural Networks ( http://arxiv.org/abs/2302.06586v3 ) ライセンス: Link先を確認 | Zizheng Pan, Jianfei Cai, Bohan Zhuang | (参考訳) 巨大な事前訓練されたモデルファミリー(例えばResNet/DeiT)を含むパブリックモデル動物園は、これまでになく前例のない範囲に達し、ディープラーニングの成功に大きく貢献している。
各モデルファミリは、様々なスケール(例えば、DeiT-Ti/S/B)で事前訓練されたモデルで構成されているため、実行時に動的精度と効率のトレードオフのために、これらの容易なモデルをファミリにどのように効率的に組み立てるかという根本的な問題が発生する。
この目的のために、モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
トレーニング済みニューラルネットワークのファミリーによって、さまざまな複雑さとパフォーマンスのトレードオフを持つ多数のネットワークを安価に生成します。
具体的には、SN-Netはアンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
SN-Netはトレーニングのごく一部で、様々なスケールのアンカーのパフォーマンスを効果的に補間する。
実行時にSN-Netは、縫合位置を切り替えることで、動的リソース制約に即座に適応できる。
ImageNet分類に関する大規模な実験では、SN-Netは、さまざまなデプロイメントシナリオをサポートしながら、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
例えば、Swin Transformerを縫い合わせることで、単一のネットワークを持つTimモデル動物園の数百のモデルに挑戦する。
この新しい弾力性モデルフレームワークは、より広いコミュニティにおけるさらなる研究の強力なベースラインとなると信じています。 The public model zoo containing enormous powerful pretrained model families (e.g., ResNet/DeiT) has reached an unprecedented scope than ever, which significantly contributes to the success of deep learning. As each model family consists of pretrained models with diverse scales (e.g., DeiT-Ti/S/B), it naturally arises a fundamental question of how to efficiently assemble these readily available models in a family for dynamic accuracy-efficiency trade-offs at runtime. To this end, we present Stitchable Neural Networks (SN-Net), a novel scalable and efficient framework for model deployment. It cheaply produces numerous networks with different complexity and performance trade-offs given a family of pretrained neural networks, which we call anchors. Specifically, SN-Net splits the anchors across the blocks/layers and then stitches them together with simple stitching layers to map the activations from one anchor to another. With only a few epochs of training, SN-Net effectively interpolates between the performance of anchors with varying scales. At runtime, SN-Net can instantly adapt to dynamic resource constraints by switching the stitching positions. Extensive experiments on ImageNet classification demonstrate that SN-Net can obtain on-par or even better performance than many individually trained networks while supporting diverse deployment scenarios. For example, by stitching Swin Transformers, we challenge hundreds of models in Timm model zoo with a single network. We believe this new elastic model framework can serve as a strong baseline for further research in wider communities. | 翻訳日:2023-03-29 18:41:03 公開日:2023-03-28 |
# 衝突型貯水池の熱処理と脱落 Thermalization and dephasing in collisional reservoirs ( http://arxiv.org/abs/2302.06429v2 ) ライセンス: Link先を確認 | Jorge Tabanera-Bravo, Juan M.R. Parrondo, Massimiliano Esposito, Felipe Barra | (参考訳) 衝突貯水池で発生する幅広い量子マップを導入し,追加のデファッショニング機構と連動して動作する場合,システムを熱分解することができる。
これらの地図は衝突の影響を記述し、詳細なバランスに従う集団間の遷移を誘導するだけでなく、システムの熱化を防ぐコヒーレンスも生成する。
これらの地図と、衝突の間のポアソニアン時間のランダムに作用するユニタリ進化を組み合わせることで、デファスメントを引き起こす。
衝突率が低ければ、この2つの効果の非自明な組み合わせが系の熱化を引き起こすことが分かる。
このシナリオは平衡での衝突貯水池のモデル化に適している。
このような写像が散乱理論のアプローチで生じる条件を特定してこの主張を正当化し、得られた熱化過程を徹底的に評価する。 We introduce a wide class of quantum maps that arise in collisional reservoirs and are able to thermalize a system if they operate in conjunction with an additional dephasing mechanism. These maps describe the effect of collisions and induce transitions between populations that obey detailed balance, but also create coherences that prevent the system from thermalizing. We combine these maps with a unitary evolution acting during random Poissonian times between collisions and causing dephasing. We find that, at a low collision rate, the nontrivial combination of these two effects causes thermalization in the system. This scenario is suitable for modeling collisional reservoirs at equilibrium. We justify this claim by identifying the conditions for such maps to arise within a scattering theory approach and provide a thorough characterization of the resulting thermalization process. | 翻訳日:2023-03-29 18:40:35 公開日:2023-03-28 |
# BEST: Coupling Tokenizationによる手話認識のためのBERT事前学習 BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization ( http://arxiv.org/abs/2302.05075v3 ) ライセンス: Link先を確認 | Weichao Zhao, Hezhen Hu, Wengang Zhou, Jiaxin Shi, Houqiang Li | (参考訳) 本研究では,bertプリトレーニングの成功を活用し,手話認識モデル(slr)を成熟させるためにドメイン固有統計をモデル化する。
手と体が手話表現の優位性を考えると、それらを3重奏単位として整理し、フレームワイドでトランスフォーマーのバックボーンに供給する。
マスク付き三重項ユニットを破損した入力シーケンスから再構成し、内部および外部三重項ユニット間の階層的相関コンテキストキューを学習する。
特に、BERTの高度に意味のある単語トークンとは異なり、ポーズユニットはもともと連続空間に位置する低レベル信号であり、BERTのクロスエントロピー目的の直接適用を防止する。
この目的のために、三重項単位の結合トークン化により、この意味ギャップを橋渡しする。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
事前学習後、下流SLRタスクの事前学習エンコーダを、新たに追加されたタスク固有層と共に微調整する。
提案手法の有効性を検証し,4つのベンチマークで新たな最先端性能を実現し,有意な評価を得た。 In this work, we are dedicated to leveraging the BERT pre-training success and modeling the domain-specific statistics to fertilize the sign language recognition~(SLR) model. Considering the dominance of hand and body in sign language expression, we organize them as pose triplet units and feed them into the Transformer backbone in a frame-wise manner. Pre-training is performed via reconstructing the masked triplet unit from the corrupted input sequence, which learns the hierarchical correlation context cues among internal and external triplet units. Notably, different from the highly semantic word token in BERT, the pose unit is a low-level signal originally located in continuous space, which prevents the direct adoption of the BERT cross-entropy objective. To this end, we bridge this semantic gap via coupling tokenization of the triplet unit. It adaptively extracts the discrete pseudo label from the pose triplet unit, which represents the semantic gesture/body state. After pre-training, we fine-tune the pre-trained encoder on the downstream SLR task, jointly with the newly added task-specific layer. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain. | 翻訳日:2023-03-29 18:40:20 公開日:2023-03-28 |
# ユーザプライバシを意識したモバイルゲームアプリインストール予測モデルの実現に向けて Towards a User Privacy-Aware Mobile Gaming App Installation Prediction Model ( http://arxiv.org/abs/2302.03332v2 ) ライセンス: Link先を確認 | Ido Zehori, Nevo Itzhak, Yuval Shahar and Mia Dor Schiller | (参考訳) 過去10年間、プログラム型広告はオンライン広告業界で大きな注目を集めてきた。
リアルタイム入札(RTB)システムは、オンライン広告インプレッションを売買する最も一般的な方法になりつつある。
RTBシステム内では、需要側プラットフォーム(DSP)は、広告主のキャンペーン予算を効率よく消費し、利益を最大化し、クリックやインストールのような高いユーザー反応をもたらすインプレッションを求める。
本研究では,モバイルゲームアプリのインストールを特定のDSPの観点から予測し,ユーザのプライバシに注意を払って,プライバシ保護とモデルパフォーマンスのトレードオフを探るプロセスについて検討する。
データ変換や匿名化など、データ共有プロセスに関連するプライバシリークに依存するため、ユーザプライバシに対する潜在的な脅威には、さまざまなレベルがあります。
これらの懸念に対処するため、プライバシーを意識した機械学習モデルをトレーニングするための暗号アプローチのようなプライバシー保護技術が提案された。
しかし、ユーザレベルのデータを使用しないモバイルゲームアプリのインストール予測モデルをトレーニングする能力は、予測能力に障害があったとしても、これらの脅威を防止し、ユーザのプライバシを保護することができる。
さらに、現在の法律では、企業はデータ収集を宣言し、ユーザーレベルのデータの収集と利用に依存するデジタル広告における企業のビジネスモデルを脅かすようなデータ収集からオプトアウトするオプションをユーザーに与えることさえあるかもしれない。
プライバシを意識したモデルは依然として重要な機能を保持しており、企業はそれぞれのケースのプライバシー効率のトレードオフユーティリティ機能に依存して、より良い意思決定をすることができる。 Over the past decade, programmatic advertising has received a great deal of attention in the online advertising industry. A real-time bidding (RTB) system is rapidly becoming the most popular method to buy and sell online advertising impressions. Within the RTB system, demand-side platforms (DSP) aim to spend advertisers' campaign budgets efficiently while maximizing profit, seeking impressions that result in high user responses, such as clicks or installs. In the current study, we investigate the process of predicting a mobile gaming app installation from the point of view of a particular DSP, while paying attention to user privacy, and exploring the trade-off between privacy preservation and model performance. There are multiple levels of potential threats to user privacy, depending on the privacy leaks associated with the data-sharing process, such as data transformation or de-anonymization. To address these concerns, privacy-preserving techniques were proposed, such as cryptographic approaches, for training privacy-aware machine-learning models. However, the ability to train a mobile gaming app installation prediction model without using user-level data, can prevent these threats and protect the users' privacy, even though the model's ability to predict may be impaired. Additionally, current laws might force companies to declare that they are collecting data, and might even give the user the option to opt out of such data collection, which might threaten companies' business models in digital advertising, which are dependent on the collection and use of user-level data. We conclude that privacy-aware models might still preserve significant capabilities, enabling companies to make better decisions, dependent on the privacy-efficacy trade-off utility function of each case. | 翻訳日:2023-03-29 18:39:58 公開日:2023-03-28 |
# ACL-SPC:セルフスーパービジョンポイントクラウドコンプリートのための適応クローズドループシステム ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion ( http://arxiv.org/abs/2303.01979v3 ) ライセンス: Link先を確認 | Sangmin Hong, Mohsen Yavartanoo, Reyhaneh Neshatavar, Kyoung Mu Lee | (参考訳) 点雲完了は、深さセンサーから得られる部分点雲の欠落部分を満たし、完全な点雲を生成する。
合成ポイントクラウド補完タスクでは教師あり手法が急速に進歩してきたが、合成と実世界のデータセット間のドメインギャップや事前情報要件のため、現実のシナリオでは適用できない。
これらの制約を克服するために、同一データ上でのトレーニングとテストのためのポイントクラウド補完のための、新しい自己管理フレームワーク ACL-SPC を提案する。
ACL-SPCは1つの部分入力を受け取り、入力の変動に対して同じ出力を強制する適応クローズドループ(ACL)システムを用いて完全点クラウドを出力しようとする。
提案したACL-SPCを各種データセット上で評価し,最初の自己教師型スキームとして部分点雲を完遂できることを証明する。
その結果,本手法は教師なし手法と同等であり,合成データセット上で訓練された教師付き手法と比較して実世界のデータセットで優れた性能を発揮することがわかった。
大規模実験は,自己指導型学習の必要性を正当化し,提案手法の有効性を実証するものである。
コードはhttps://github.com/Sangminhong/ACL-SPC_PyTorchから公開されている。 Point cloud completion addresses filling in the missing parts of a partial point cloud obtained from depth sensors and generating a complete point cloud. Although there has been steep progress in the supervised methods on the synthetic point cloud completion task, it is hardly applicable in real-world scenarios due to the domain gap between the synthetic and real-world datasets or the requirement of prior information. To overcome these limitations, we propose a novel self-supervised framework ACL-SPC for point cloud completion to train and test on the same data. ACL-SPC takes a single partial input and attempts to output the complete point cloud using an adaptive closed-loop (ACL) system that enforces the output same for the variation of an input. We evaluate our proposed ACL-SPC on various datasets to prove that it can successfully learn to complete a partial point cloud as the first self-supervised scheme. Results show that our method is comparable with unsupervised methods and achieves superior performance on the real-world dataset compared to the supervised methods trained on the synthetic dataset. Extensive experiments justify the necessity of self-supervised learning and the effectiveness of our proposed method for the real-world point cloud completion task. The code is publicly available from https://github.com/Sangminhong/ACL-SPC_PyTorch | 翻訳日:2023-03-29 18:33:12 公開日:2023-03-28 |
# 奥行き画像からの高精度・詳細な顔再構成のための階層的表現ネットワーク A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images ( http://arxiv.org/abs/2302.14434v2 ) ライセンス: Link先を確認 | Biwen Lei, Jianqiang Ren, Mengyang Feng, Miaomiao Cui, Xuansong Xie | (参考訳) 3DMMの低次元表現能力の性質により、ほとんどの3DMMベースの顔再構成(FR)法は、シワ、ディアンプなどの高周波顔の細部を回復できない。
詳細マップや非線形操作を導入してこの問題を解決する試みもあるが、その結果はまだ鮮明ではない。
そこで本研究では,単一の画像から顔の正確な再現を実現するために,新しい階層型表現ネットワーク(HRN)を提案する。
具体的には,幾何学的絡み合いを実装し,詳細な顔モデルを実現するために階層表現を導入する。
一方,再建結果の正確性と信頼性を高めるため,顔詳細の3次元前処理が組み込まれている。
また,形状と外観の疎結合性を向上するデタッチモジュールを提案する。
異なるビューの詳細な一貫性を考慮して、フレームワークをマルチビューに拡張できることは注目に値する。
2つのシングルビューFRベンチマークと2つのマルチビューFRベンチマークの大規模な実験により、提案手法は再現精度と視覚効果の両方において既存の手法よりも優れていることが示された。
最後に,高品質な3d顔データセットfacehd-100を導入し,高忠実度顔再構成の研究を促進する。
プロジェクトのホームページはhttps://younglbw.github.io/HRN-homepage/にある。 Limited by the nature of the low-dimensional representational capacity of 3DMM, most of the 3DMM-based face reconstruction (FR) methods fail to recover high-frequency facial details, such as wrinkles, dimples, etc. Some attempt to solve the problem by introducing detail maps or non-linear operations, however, the results are still not vivid. To this end, we in this paper present a novel hierarchical representation network (HRN) to achieve accurate and detailed face reconstruction from a single image. Specifically, we implement the geometry disentanglement and introduce the hierarchical representation to fulfill detailed face modeling. Meanwhile, 3D priors of facial details are incorporated to enhance the accuracy and authenticity of the reconstruction results. We also propose a de-retouching module to achieve better decoupling of the geometry and appearance. It is noteworthy that our framework can be extended to a multi-view fashion by considering detail consistency of different views. Extensive experiments on two single-view and two multi-view FR benchmarks demonstrate that our method outperforms the existing methods in both reconstruction accuracy and visual effects. Finally, we introduce a high-quality 3D face dataset FaceHD-100 to boost the research of high-fidelity face reconstruction. The project homepage is at https://younglbw.github.io/HRN-homepage/. | 翻訳日:2023-03-29 18:32:49 公開日:2023-03-28 |
# 量子力学における多光子次元の呪いに対処する光学系の高速シミュレーション Fast simulation for optical systems addressing the curse of dimensionality of multi-photons in quantum mechanics ( http://arxiv.org/abs/2302.13953v2 ) ライセンス: Link先を確認 | Junpei Oba, Seiji Kajita, Akihito Soeda | (参考訳) 光子は光の基本粒子であり、その詳細な理解は量子力学の謎を解く上で鍵となる。
しかし、その直観に反する量子の性質は、その力学、特に複素系に対する洞察を得ることを困難にしている。
シミュレーションはこの問題を解決するための有望なツールであるが、以前の手法は次元の呪い、すなわち光子数でベース数が指数関数的に増加することによる制限がある。
本稿では,線形光学対象からなる光学系に着目して,この次元スケールを緩和する。
複数の光子上の時間進化作用素を、単一の光子に作用する時間進化作用素のグループに分解する。
単一光子時間発展演算子の次元は光子数において多光子演算子の次元よりも指数関数的に小さいので、この分解により多光子シミュレーションは計算コストをはるかに低くすることができる。
本手法は,Hong-Ou-Mandel干渉やBell-CHSH不等式違反などの基本的な単光子・多光子現象に適用し,計算特性が実験結果と定量的に比較できることを確認する。
さらに,光子の空間伝播を可視化し,量子化技術の実験設計を支援する知見を提供する。 Photons are an elementary particle of light, whose detailed understanding plays a key in unraveling the mysteries of quantum mechanics. However, its counter-intuitive quantum nature makes it challenging to gain insights into its dynamics, particularly in complex systems. Simulation is a promising tool to resolve this issue, but previous methods are limited by the curse of dimensionality, namely, that the number of bases increases exponentially in the number of photons. Here we mitigate this dimensionality scaling by focusing on optical system composed of linear-optical objects. We decompose the time evolutionary operator on multiple photons into a group of time evolution operators acting on a single photon. Since the dimension of a single-photon time evolution operator is exponentially smaller than that of a multi-photon one in the number of photons, the decomposition enables the multi-photon simulations to be performed at a much lower computational cost. We apply this method to basic single- and multi-photon phenomena, such as Hong-Ou-Mandel interference and violation of the Bell-CHSH inequality, and confirm that the calculated properties are quantitatively comparable to the experimental results. Furthermore, our method visualizes the spatial propagation of photons hence provides insights that aid experiment designs for quantum-enabled technologies. | 翻訳日:2023-03-29 18:32:28 公開日:2023-03-28 |
# 生成可能可逆量子ニューラルネットワーク Generative Invertible Quantum Neural Networks ( http://arxiv.org/abs/2302.12906v2 ) ライセンス: Link先を確認 | Armand Rousselot and Michael Spannowsky | (参考訳) Invertible Neural Networks (INN)は、高度に複雑なデータのシミュレーションと生成のためのツールとして確立されている。
本稿では,量子可逆ニューラルネットワーク(QINN)の量子ゲートアルゴリズムを提案し,これを粒子衝突精度測定の標準ろうそくプロセスであるレプトンに崩壊するZボソンのジェット関連生成のLHCデータに適用する。
異なる損失関数とトレーニングシナリオに対するQINNのパフォーマンスを比較した。
この課題に対して、ハイブリッドQINNは、より大規模な純粋に古典的な INN の性能と、複雑なデータの学習と生成において一致している。 Invertible Neural Networks (INN) have become established tools for the simulation and generation of highly complex data. We propose a quantum-gate algorithm for a Quantum Invertible Neural Network (QINN) and apply it to the LHC data of jet-associated production of a Z-boson that decays into leptons, a standard candle process for particle collider precision measurements. We compare the QINN's performance for different loss functions and training scenarios. For this task, we find that a hybrid QINN matches the performance of a significantly larger purely classical INN in learning and generating complex data. | 翻訳日:2023-03-29 18:32:06 公開日:2023-03-28 |
# $\phi$-mixingデータに基づく確率勾配法による統計的推測 Statistical Inference with Stochastic Gradient Methods under $\phi$-mixing Data ( http://arxiv.org/abs/2302.12717v2 ) ライセンス: Link先を確認 | Ruiqi Liu, Xi Chen, Zuofeng Shang | (参考訳) 確率勾配降下(sgd)は大規模データセットとストリームデータに対するスケーラブルでメモリ効率のよい最適化アルゴリズムであり、多くの注目と人気を集めている。
間隔推定などの統計的推測へのSGDに基づく推定法の応用も大きな成功を収めた。
しかし、関連する研究の多くは、i.d.観測やマルコフ連鎖に基づいている。
観測が混合時系列から来るとき、妥当な統計推論の方法はまだ未定である。
実のところ、観測間の一般的な相関は、間隔推定に課題を課している。
既存の手法はこの相関を無視し、不確実な信頼区間につながる。
本稿では,データが$\phi$-mixingの場合の統計的推測のためのミニバッチSGD推定器を提案する。
信頼区間は、関連するミニバッチブートストラップSGD手順を用いて構成される。
そこで, \cite{yu1994rates} の `independent block'' トリックを用いて,提案する推定器は漸近的に正規であり,その制限分布はブートストラップ法によって効果的に近似できることを示す。
提案手法はメモリ効率が高く,実装が容易である。
合成データに関するシミュレーション研究と実世界のデータセットへの応用により,この理論が裏付けられる。 Stochastic gradient descent (SGD) is a scalable and memory-efficient optimization algorithm for large datasets and stream data, which has drawn a great deal of attention and popularity. The applications of SGD-based estimators to statistical inference such as interval estimation have also achieved great success. However, most of the related works are based on i.i.d. observations or Markov chains. When the observations come from a mixing time series, how to conduct valid statistical inference remains unexplored. As a matter of fact, the general correlation among observations imposes a challenge on interval estimation. Most existing methods may ignore this correlation and lead to invalid confidence intervals. In this paper, we propose a mini-batch SGD estimator for statistical inference when the data is $\phi$-mixing. The confidence intervals are constructed using an associated mini-batch bootstrap SGD procedure. Using ``independent block'' trick from \cite{yu1994rates}, we show that the proposed estimator is asymptotically normal, and its limiting distribution can be effectively approximated by the bootstrap procedure. The proposed method is memory-efficient and easy to implement in practice. Simulation studies on synthetic data and an application to a real-world dataset confirm our theory. | 翻訳日:2023-03-29 18:31:55 公開日:2023-03-28 |
# Coxモデルに対する通信効率の良い分散推定と推定 Communication-Efficient Distributed Estimation and Inference for Cox's Model ( http://arxiv.org/abs/2302.12111v2 ) ライセンス: Link先を確認 | Pierre Bayle, Jianqing Fan, Zhipeng Lou | (参考訳) プライバシとオーナシップの懸念から個々のデータを共有できない多施設生物医学研究に動機づけられ,高次元スパースcox比例ハザードモデルにおける推定と推論のためのコミュニケーション効率の高い反復分散アルゴリズムを開発した。
我々の推定器は、比較的少ないイテレーションでも、非常に穏やかな条件下で理想的な全サンプル推定器と同じ収束率を達成できることを実証する。
高次元ハザード回帰係数の線形結合に対する信頼区間を構築するために,新しい縮退法を導入し,中心極限定理を確立し,漸近的に有効な分散信頼区間を生成する一貫した分散確率推定器を提供する。
さらに,decorrelated score testに基づく任意の座標要素に対して,有効かつ強力な分散仮説テストを提供する。
我々は、時間依存の共変量と検閲された生存時間を許容する。
シミュレーションデータと実データの両方に関する広範囲な数値実験は、我々の理論をさらに支持し、通信効率の高い分散推定器、信頼区間、仮説テストが代替手法によって改善することを示す。 Motivated by multi-center biomedical studies that cannot share individual data due to privacy and ownership concerns, we develop communication-efficient iterative distributed algorithms for estimation and inference in the high-dimensional sparse Cox proportional hazards model. We demonstrate that our estimator, even with a relatively small number of iterations, achieves the same convergence rate as the ideal full-sample estimator under very mild conditions. To construct confidence intervals for linear combinations of high-dimensional hazard regression coefficients, we introduce a novel debiased method, establish central limit theorems, and provide consistent variance estimators that yield asymptotically valid distributed confidence intervals. In addition, we provide valid and powerful distributed hypothesis tests for any coordinate element based on a decorrelated score test. We allow time-dependent covariates as well as censored survival times. Extensive numerical experiments on both simulated and real data lend further support to our theory and demonstrate that our communication-efficient distributed estimators, confidence intervals, and hypothesis tests improve upon alternative methods. | 翻訳日:2023-03-29 18:31:39 公開日:2023-03-28 |
# 学習を最適化するための学習 Learning to Generalize Provably in Learning to Optimize ( http://arxiv.org/abs/2302.11085v2 ) ライセンス: Link先を確認 | Junjie Yang, Tianlong Chen, Mingkang Zhu, Fengxiang He, Dacheng Tao, Yingbin Liang, Zhangyang Wang | (参考訳) 最適化のための学習(l2o)が人気を集め、データ駆動アプローチによる最適化の設計が自動化されている。
しかし、現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
i) L2O 学習オプティマイザを未確認最適化に適用し、損失関数の値(最適化一般化、もしくは「最適化者の一般化可能な学習」)を下げる。
(ii)オプティマイザによって訓練されたオプティマイザ(それ自体は機械学習モデルとして)の非知覚データに対する精度(一般化の最適化、あるいは「一般化のための学習」)の試験性能
近年,最適化の一般化が研究されているが,L2Oコンテキストにおいて最適化の一般化(あるいは一般化の学習)は厳密には研究されていない。
まず,局所エントロピーとヘシアンの間の暗黙的な関係を理論的に確立し,それらの役割を一般化可能な最適化器のハンドクラフト設計において,損失関数のランドスケープ平坦性の等価な指標として統一する。
次に、これらの2つの指標をフラットネス対応正規化器としてL2Oフレームワークに組み込んで、メタトレーニングオプティマイザの一般化を学習し、L2Oメタトレーニングプロセス中にそのような一般化能力を学習し、最適化ロス関数に変換できることを理論的に示す。
複数の高度L2Oモデルの一般化と多種多様な最適化により,提案手法の有効性を一貫して検証した。
私たちのコードは、https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropyで利用可能です。 Learning to optimize (L2O) has gained increasing popularity, which automates the design of optimizers by data-driven approaches. However, current L2O methods often suffer from poor generalization performance in at least two folds: (i) applying the L2O-learned optimizer to unseen optimizees, in terms of lowering their loss function values (optimizer generalization, or ``generalizable learning of optimizers"); and (ii) the test performance of an optimizee (itself as a machine learning model), trained by the optimizer, in terms of the accuracy over unseen data (optimizee generalization, or ``learning to generalize"). While the optimizer generalization has been recently studied, the optimizee generalization (or learning to generalize) has not been rigorously studied in the L2O context, which is the aim of this paper. We first theoretically establish an implicit connection between the local entropy and the Hessian, and hence unify their roles in the handcrafted design of generalizable optimizers as equivalent metrics of the landscape flatness of loss functions. We then propose to incorporate these two metrics as flatness-aware regularizers into the L2O framework in order to meta-train optimizers to learn to generalize, and theoretically show that such generalization ability can be learned during the L2O meta-training process and then transformed to the optimizee loss function. Extensive experiments consistently validate the effectiveness of our proposals with substantially improved generalization on multiple sophisticated L2O models and diverse optimizees. Our code is available at: https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropy. | 翻訳日:2023-03-29 18:31:21 公開日:2023-03-28 |
# SU-Net:非協調宇宙船の軌道上での姿勢推定ネットワーク SU-Net: Pose estimation network for non-cooperative spacecraft on-orbit ( http://arxiv.org/abs/2302.10602v2 ) ライセンス: Link先を確認 | Hu Gao and Zhihui Li and Depeng Dang and Ning Wang and Jingfan Yang | (参考訳) 宇宙船のポーズ推定は、ランデブーやドッキング、残骸の除去、軌道上のメンテナンスなど、多くの軌道上の宇宙ミッションにおいて重要な役割を果たす。
現在、宇宙画像には様々な照明条件、高コントラスト、低解像度が含まれており、宇宙物体のポーズ推定は地球上の物体よりも難しい。
本稿では,衛星軌道上でのレーダ画像の特徴を解析し,Dense Residual U-shaped Network (DR-U-Net) と呼ばれる新しいディープラーニングニューラルネットワーク構造を提案する。
さらに, DR-U-Netに基づく新しいニューラルネットワーク,すなわち, 宇宙機U字型ネットワーク(SU-Net)を導入し, 非協調宇宙船のエンドツーエンドのポーズ推定を実現する。
具体的には、SU-Netはまず非協力宇宙船のイメージを前処理し、次に転送学習を事前訓練に使用した。
その後、レーダー画像のぼかしと宇宙船の輪郭認識能力の低さを解消するために、バックボーンネットワークU-Netに残差接続と密結合を加え、DR-U-Netと名付けた。
このようにして、モデルの特徴損失と複雑さを低減し、トレーニング中のディープニューラルネットワークの劣化を回避することができる。
最後に、非協調的な宇宙船の軌道上でのポーズ推定にフィードフォワードニューラルネットワークの層を用いる。
実験により,提案手法は手作りのオブジェクト特有の特徴に頼らず,頑健なロバスト性を持ち,計算精度は最先端のポーズ推定法より優れていることが示された。
絶対誤差は 0.1557 から 0.4491 であり、平均誤差は 0.302 であり、標準偏差は 0.065 である。 Spacecraft pose estimation plays a vital role in many on-orbit space missions, such as rendezvous and docking, debris removal, and on-orbit maintenance. At present, space images contain widely varying lighting conditions, high contrast and low resolution, pose estimation of space objects is more challenging than that of objects on earth. In this paper, we analyzing the radar image characteristics of spacecraft on-orbit, then propose a new deep learning neural Network structure named Dense Residual U-shaped Network (DR-U-Net) to extract image features. We further introduce a novel neural network based on DR-U-Net, namely Spacecraft U-shaped Network (SU-Net) to achieve end-to-end pose estimation for non-cooperative spacecraft. Specifically, the SU-Net first preprocess the image of non-cooperative spacecraft, then transfer learning was used for pre-training. Subsequently, in order to solve the problem of radar image blur and low ability of spacecraft contour recognition, we add residual connection and dense connection to the backbone network U-Net, and we named it DR-U-Net. In this way, the feature loss and the complexity of the model is reduced, and the degradation of deep neural network during training is avoided. Finally, a layer of feedforward neural network is used for pose estimation of non-cooperative spacecraft on-orbit. Experiments prove that the proposed method does not rely on the hand-made object specific features, and the model has robust robustness, and the calculation accuracy outperforms the state-of-the-art pose estimation methods. The absolute error is 0.1557 to 0.4491 , the mean error is about 0.302 , and the standard deviation is about 0.065 . | 翻訳日:2023-03-29 18:30:37 公開日:2023-03-28 |
# 深部ニューラルネットワークのための関数結合型透かしについて On Function-Coupled Watermarks for Deep Neural Networks ( http://arxiv.org/abs/2302.10296v2 ) ライセンス: Link先を確認 | Xiangyu Wen, Yu Li, Wei Jiang, Qiang Xu | (参考訳) DNN(well-performed Deep Neural Network)は、トレーニングに大量のラベル付きデータと計算リソースを必要とする。
このような知的財産権(IP)を保護するために様々な透かし技術が提案され、DNNプロバイダが秘密情報をモデルに埋め込んで、専用のトリガー入力で埋め込んだ透かしを取得することで、後にIP所有権を主張できるようにしている。
文献では有望な結果が報告されているが、既存のソリューションは、モデルファインチューニングやモデルプルーニングなどのウォーターマーク除去攻撃に悩まされている。
本稿では,上記の攻撃に対して効果的に防御できる新しいDNN透かし手法を提案する。
我々の重要な洞察は、ウォーターマークの結合とモデル機能の強化であり、ウォーターマークの除去は、必然的に通常の入力でモデルのパフォーマンスを低下させる。
そこで,本手法は,分散データから学習した機密機能に依存する従来の手法とは異なり,分散データから学習した機能のみを使用する。
具体的には、元のトレーニングデータセットからの入力をサンプル化して、ウォーターマークトリガーとして融合する手法を提案する。
一方で,トレーニング中にモデル重みをランダムにマスクすることにより,ネットワーク内に埋め込まれた透かしの情報を広げる。
そうすることで、モデルの微調整/プルニングは、関数結合したウォーターマークを忘れません。
画像分類タスクの評価結果から, 攻撃的な透かし除去攻撃による透かし認証の成功率は100 %であり, 既存の解よりも有意に優れていた。
コードはhttps://github.com/cure-lab/function-coupled-watermark。 Well-performed deep neural networks (DNNs) generally require massive labelled data and computational resources for training. Various watermarking techniques are proposed to protect such intellectual properties (IPs), wherein the DNN providers implant secret information into the model so that they can later claim IP ownership by retrieving their embedded watermarks with some dedicated trigger inputs. While promising results are reported in the literature, existing solutions suffer from watermark removal attacks, such as model fine-tuning and model pruning. In this paper, we propose a novel DNN watermarking solution that can effectively defend against the above attacks. Our key insight is to enhance the coupling of the watermark and model functionalities such that removing the watermark would inevitably degrade the model's performance on normal inputs. To this end, unlike previous methods relying on secret features learnt from out-of-distribution data, our method only uses features learnt from in-distribution data. Specifically, on the one hand, we propose to sample inputs from the original training dataset and fuse them as watermark triggers. On the other hand, we randomly mask model weights during training so that the information of our embedded watermarks spreads in the network. By doing so, model fine-tuning/pruning would not forget our function-coupled watermarks. Evaluation results on various image classification tasks show a 100\% watermark authentication success rate under aggressive watermark removal attacks, significantly outperforming existing solutions. Code is available: https://github.com/cure-lab/Function-Coupled-Watermark. | 翻訳日:2023-03-29 18:30:06 公開日:2023-03-28 |
# ロバスト微調整のためのトレーサブルプロジェクテッドグラデーション法 Trainable Projected Gradient Method for Robust Fine-tuning ( http://arxiv.org/abs/2303.10720v2 ) ライセンス: Link先を確認 | Junjiao Tian, Xiaoliang Dai, Chih-Yao Ma, Zecheng He, Yen-Cheng Liu, Zsolt Kira | (参考訳) トランスファーラーニングの最近の研究は、各レイヤのサブセットを選択的に微調整したり、各レイヤごとに異なる学習率をカスタマイズすることで、アウト・オブ・ディストリビューション(OOD)データに対するロバスト性を大幅に改善し、事前訓練されたモデルにおける一般化能力を維持できることを示した。
しかし、これらの手法のほとんどは手作業によるヒューリスティックスや高価なハイパーパラメータ検索を採用しており、大規模なデータセットやニューラルネットワークにスケールアップできない。
そこで本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するためのTPGMを提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
具体的には、TPGMは、各層に対して細調整されたモデルと事前訓練されたモデルの間の距離制約という一連の射影半径を維持し、それらを重み予測によって強制する。
制約を学習するために,最善の射影radiiをエンドツーエンドで自動学習する2レベル最適化を提案する。
理論的には、二段階最適化の定式化はTPGMの正規化能力を説明することができる。
実証的には、超パラメータ探索コストが少なく、TPGMはOOD性能において既存の微調整方法よりも優れており、ID性能が最適である。
例えば、DomainNet-RealとImageNetで微調整された場合、バニラの微調整と比較して、TPGMはスケッチでそれぞれ22\%と10\%のOOD改善を示している。
コードは \url{https://github.com/PotatoTian/TPGM} で入手できる。 Recent studies on transfer learning have shown that selectively fine-tuning a subset of layers or customizing different learning rates for each layer can greatly improve robustness to out-of-distribution (OOD) data and retain generalization capability in the pre-trained models. However, most of these methods employ manually crafted heuristics or expensive hyper-parameter searches, which prevent them from scaling up to large datasets and neural networks. To solve this problem, we propose Trainable Projected Gradient Method (TPGM) to automatically learn the constraint imposed for each layer for a fine-grained fine-tuning regularization. This is motivated by formulating fine-tuning as a bi-level constrained optimization problem. Specifically, TPGM maintains a set of projection radii, i.e., distance constraints between the fine-tuned model and the pre-trained model, for each layer, and enforces them through weight projections. To learn the constraints, we propose a bi-level optimization to automatically learn the best set of projection radii in an end-to-end manner. Theoretically, we show that the bi-level optimization formulation could explain the regularization capability of TPGM. Empirically, with little hyper-parameter search cost, TPGM outperforms existing fine-tuning methods in OOD performance while matching the best in-distribution (ID) performance. For example, when fine-tuned on DomainNet-Real and ImageNet, compared to vanilla fine-tuning, TPGM shows $22\%$ and $10\%$ relative OOD improvement respectively on their sketch counterparts. Code is available at \url{https://github.com/PotatoTian/TPGM}. | 翻訳日:2023-03-29 18:23:59 公開日:2023-03-28 |
# 臨界横場イジング鎖の固有状態が地域法則を満たすことはない No eigenstate of the critical transverse-field Ising chain satisfies the area law ( http://arxiv.org/abs/2303.09525v2 ) ライセンス: Link先を確認 | Saverio Bocini, Maurizio Fagotti | (参考訳) 我々は、すべての一点シフト不変保存電荷に共通する基礎において、基底状態が半整数中心電荷を持つ場合、領域法則を満たす非相互作用局所スピン1/2鎖ハミルトニアンの固有状態は存在しないと主張する。
つまり、これらのモデルでは、すべての(quasi)局所一点シフト不変保存作用素はギャップなしである。
両部交絡特性の観点からは、実際には3つの異なる1サイトシフト不変非相互作用モデルが存在し、そのうちの2つはXXモデルと等価である(そのうちの1つは、変換が1サイトシフト不変性を破る)。
前者のクラスは、領域法則を満たす局所的に異なる2つの1サイトシフト不変励起状態を持つ。 We argue that, in a basis common to all one-site shift invariant conserved charges, there is no eigenstate of a noninteracting local spin-1/2 chain Hamiltonian that satisfies the area law if the ground state has half-integer central charge. That is to say, in those models all (quasi)local one-site shift invariant conserved operators are gapless. From the standpoint of bipartite entanglement properties, we show indeed that there are three distinct one-site shift invariant noninteracting models, two of which are equivalent to the XX model (for one of them the transformation breaks one-site shift invariance) and the other to the critical Ising model. The former class has two locally distinct one-site shift invariant excited states satisfying the area law; the latter two classes have none. | 翻訳日:2023-03-29 18:23:28 公開日:2023-03-28 |
# coganppis:タンパク質-タンパク質相互作用サイト予測のための共進化強化グローバルアテンションニューラルネットワーク CoGANPPIS: Coevolution-enhanced Global Attention Neural Network for Protein-Protein Interaction Site Prediction ( http://arxiv.org/abs/2303.06945v2 ) ライセンス: Link先を確認 | Jiaxing Guo, Xuening Zhu, Zixin Hu, Xiaoxi Hu | (参考訳) タンパク質とタンパク質の相互作用は生化学的プロセスにおいて必須である。
タンパク質-タンパク質相互作用部位(PPI)の正確な予測は、我々の生物学的メカニズムの理解を深め、新しい医薬品設計に不可欠である。
しかし、従来のPPI予測実験手法はコストと時間を要するため、近年多くの計算手法、特にMLベースの手法が開発されている。
これらの手法は, 満足度の高い結果を得たものの, 1) 多くのモデルでは有用な入力特徴を発掘しているが, 共進化的特徴を考慮に入れられなかった。(2) 注意ベースモデルでは, 対象残差から遠く離れた残差も考慮せず, 近隣残差に対してのみ注意重みを割り当てている。
我々は,CGANPPISと呼ばれるPPI予測のためのシーケンスベースディープラーニングモデルである,共進化型グローバルアテンションニューラルネットワークを提案する。
It utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all the residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation.
そして、3つの出力が連結され、最終予測のために複数の完全連結層に渡される。
2つのベンチマークデータセット上のアプリケーションは、このモデルの最先端のパフォーマンスを実証しました。
ソースコードはhttps://github.com/Slam1423/CoGANPPIS_source_codeで公開されている。 Protein-protein interactions are essential in biochemical processes. Accurate prediction of the protein-protein interaction sites (PPIs) deepens our understanding of biological mechanism and is crucial for new drug design. However, conventional experimental methods for PPIs prediction are costly and time-consuming so that many computational approaches, especially ML-based methods, have been developed recently. Although these approaches have achieved gratifying results, there are still two limitations: (1) Most models have excavated some useful input features, but failed to take coevolutionary features into account, which could provide clues for inter-residue relationships; (2) The attention-based models only allocate attention weights for neighboring residues, instead of doing it globally, neglecting that some residues being far away from the target residues might also matter. We propose a coevolution-enhanced global attention neural network, a sequence-based deep learning model for PPIs prediction, called CoGANPPIS. It utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all the residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. Then, the three outputs are concatenated and passed into several fully connected layers for the final prediction. Application on two benchmark datasets demonstrated a state-of-the-art performance of our model. The source code is publicly available at https://github.com/Slam1423/CoGANPPIS_source_code. | 翻訳日:2023-03-29 18:23:14 公開日:2023-03-28 |
# TranSG: 人物再同定のための構造トラジェクトリ・プロンプト再構成を用いたトランスフォーマーベースのスケルトングラフ原型コントラスト学習 TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning with Structure-Trajectory Prompted Reconstruction for Person Re-Identification ( http://arxiv.org/abs/2303.06819v2 ) ライセンス: Link先を確認 | Haocong Rao, Chunyan Miao | (参考訳) 3Dスケルトンデータによる人物再識別(re-ID)は、顕著な優位性を持つ新興トピックである。
既存の手法は通常、体関節を持つ骨格記述子を設計したり、骨格配列表現学習を行う。
しかし、それらは通常、異なる体-成分関係を同時モデル化することはできず、身体関節の細粒度表現から有用な意味論を探索することが滅多にない。
本稿では,骨格関係と空間-時空間意味論を完全に捉えるための構造-軌跡誘導型コントラスト・ラーニング(transg)アプローチを提案する。
具体的には、スケルトングラフ変換器(SGT)を用いて、骨格グラフ内の身体と運動の関係を同時に学習し、キー相関ノードの特徴をグラフ表現に集約する。
そこで我々は,グラフ表現と異なるプロトタイプの類似性を比較検討し,識別グラフ表現を学習するために,グラフプロトタイプ学習(GPC)を提案する。
最後に、グラフノードの空間的および時間的コンテキストを利用して、スケルトングラフ再構成を促進するために、stpr(graph structure-trajectoryinduced reconstruction)メカニズムが提案されている。
実証的な評価は、TranSGが既存の最先端手法を著しく上回っていることを示している。
さらに、異なるグラフモデリング、RGB推定スケルトン、教師なしシナリオの下で、その一般化を示す。 Person re-identification (re-ID) via 3D skeleton data is an emerging topic with prominent advantages. Existing methods usually design skeleton descriptors with raw body joints or perform skeleton sequence representation learning. However, they typically cannot concurrently model different body-component relations, and rarely explore useful semantics from fine-grained representations of body joints. In this paper, we propose a generic Transformer-based Skeleton Graph prototype contrastive learning (TranSG) approach with structure-trajectory prompted reconstruction to fully capture skeletal relations and valuable spatial-temporal semantics from skeleton graphs for person re-ID. Specifically, we first devise the Skeleton Graph Transformer (SGT) to simultaneously learn body and motion relations within skeleton graphs, so as to aggregate key correlative node features into graph representations. Then, we propose the Graph Prototype Contrastive learning (GPC) to mine the most typical graph features (graph prototypes) of each identity, and contrast the inherent similarity between graph representations and different prototypes from both skeleton and sequence levels to learn discriminative graph representations. Last, a graph Structure-Trajectory Prompted Reconstruction (STPR) mechanism is proposed to exploit the spatial and temporal contexts of graph nodes to prompt skeleton graph reconstruction, which facilitates capturing more valuable patterns and graph semantics for person re-ID. Empirical evaluations demonstrate that TranSG significantly outperforms existing state-of-the-art methods. We further show its generality under different graph modeling, RGB-estimated skeletons, and unsupervised scenarios. | 翻訳日:2023-03-29 18:22:48 公開日:2023-03-28 |
# 非定常帯域問題に対するエネルギー正規化RNN Energy Regularized RNNs for Solving Non-Stationary Bandit Problems ( http://arxiv.org/abs/2303.06552v2 ) ライセンス: Link先を確認 | Michael Rotman, Lior Wolf | (参考訳) 我々は,報酬が非定常であり,過去の行動や過去の状況に依存する可能性があるマルチアームのバンディット問題を考える。
提案手法の核心には,これらのシーケンスをモデル化するリカレントニューラルネットワークを用いる。
探索と利用のバランスをとるために,ニューラルネットワークが特定の行動を支援する上で自信過剰になることを防ぐエネルギー最小化用語を提案する。
この用語は、ネットワークによって割り当てられた最大確率と最小確率の間のギャップを確実に制限する。
種々の実験において,本手法はロッティング帯域のサブプロブレムを解く方法と同じくらい有効であり,様々なベンチマーク問題の直感的な拡張を解くことができることを示す。
実装はhttps://github.com/rotmanmi/Energy-Regularized-RNNで公開しています。 We consider a Multi-Armed Bandit problem in which the rewards are non-stationary and are dependent on past actions and potentially on past contexts. At the heart of our method, we employ a recurrent neural network, which models these sequences. In order to balance between exploration and exploitation, we present an energy minimization term that prevents the neural network from becoming too confident in support of a certain action. This term provably limits the gap between the maximal and minimal probabilities assigned by the network. In a diverse set of experiments, we demonstrate that our method is at least as effective as methods suggested to solve the sub-problem of Rotting Bandits, and can solve intuitive extensions of various benchmark problems. We share our implementation at https://github.com/rotmanmi/Energy-Regularized-RNN. | 翻訳日:2023-03-29 18:22:20 公開日:2023-03-28 |
# HyT-NAS:エッジデバイスのためのハイブリッドトランスフォーマーニューラルアーキテクチャ検索 HyT-NAS: Hybrid Transformers Neural Architecture Search for Edge Devices ( http://arxiv.org/abs/2303.04440v2 ) ライセンス: Link先を確認 | Lotfi Abdelkrim Mecharbat, Hadjer Benmeziane, Hamza Ouarnoughi and Smail Niar | (参考訳) ビジョントランスフォーマーは近年,コンピュータビジョン(CV)タスクにおいて,注目度に基づくディープラーニング(DL)アーキテクチャを実現する。
しかし、膨大な計算資源を必要とするため、これらのアーキテクチャはリソース制約のあるプラットフォーム上ではほとんど実装されない。
画像分類や物体検出などのCVタスクに対する手作り畳み込みと注意に基づくハイブリッドモデルについて検討している。
本稿では,小型デバイス上での視覚タスクを対象とするハイブリッドアーキテクチャを含む,効率的なハードウェアアウェアニューラルアーキテクチャ探索(hw-nas)であるhyt-nasを提案する。
HyT-NASは、検索空間を充実させ、検索戦略と性能予測器を強化することにより、最先端のHW-NASを改善する。
実験の結果,HyT-NASは5倍以下のトレーニング評価で同様のハイパーボリュームを実現することがわかった。
その結果、MLPerf MobileNetV1の精度は6.3%向上し、Visual Wake Wordsのパラメータ数は3.5倍減少した。 Vision Transformers have enabled recent attention-based Deep Learning (DL) architectures to achieve remarkable results in Computer Vision (CV) tasks. However, due to the extensive computational resources required, these architectures are rarely implemented on resource-constrained platforms. Current research investigates hybrid handcrafted convolution-based and attention-based models for CV tasks such as image classification and object detection. In this paper, we propose HyT-NAS, an efficient Hardware-aware Neural Architecture Search (HW-NAS) including hybrid architectures targeting vision tasks on tiny devices. HyT-NAS improves state-of-the-art HW-NAS by enriching the search space and enhancing the search strategy as well as the performance predictors. Our experiments show that HyT-NAS achieves a similar hypervolume with less than ~5x training evaluations. Our resulting architecture outperforms MLPerf MobileNetV1 by 6.3% accuracy improvement with 3.5x less number of parameters on Visual Wake Words. | 翻訳日:2023-03-29 18:21:53 公開日:2023-03-28 |
# スケルトンに基づく行動認識のための学習識別表現 Learning Discriminative Representations for Skeleton Based Action Recognition ( http://arxiv.org/abs/2303.03729v3 ) ライセンス: Link先を確認 | Huanyu Zhou, Qingjie Liu, Yunhong Wang | (参考訳) 人間の行動認識は、ビデオのセグメントから人間の行動のカテゴリを分類することを目的としている。
近年, 骨格表現がRGBフレームなどの他のモダリティよりも効率的で堅牢であるため, 骨格から特徴を抽出するGCNベースのモデルの設計に注目が集まっている。
しかし、スケルトンデータを使用する場合、関連する項目などの重要な手がかりも廃棄される。
その結果、区別が困難で、誤分類される傾向がある曖昧な行動が発生する。
この問題を軽減するために,空間的時間的疎結合とコントラスト的特徴精錬からなる補助的特徴精錬ヘッド(FRヘッド)を提案し,骨格の識別的表現を得る。
異常サンプルは特徴空間で動的に発見され、校正される。
さらに、FRヘッドはGCNの様々な段階に課せられ、より強力な監督のための多段改良が図られた。
NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットに対して大規模な実験を行った。
提案したモデルでは,最先端手法による競合結果が得られ,あいまいなサンプルの識別に役立てることができる。
コードはhttps://github.com/zhysora/fr-headで入手できる。 Human action recognition aims at classifying the category of human action from a segment of a video. Recently, people have dived into designing GCN-based models to extract features from skeletons for performing this task, because skeleton representations are much more efficient and robust than other modalities such as RGB frames. However, when employing the skeleton data, some important clues like related items are also discarded. It results in some ambiguous actions that are hard to be distinguished and tend to be misclassified. To alleviate this problem, we propose an auxiliary feature refinement head (FR Head), which consists of spatial-temporal decoupling and contrastive feature refinement, to obtain discriminative representations of skeletons. Ambiguous samples are dynamically discovered and calibrated in the feature space. Furthermore, FR Head could be imposed on different stages of GCNs to build a multi-level refinement for stronger supervision. Extensive experiments are conducted on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets. Our proposed models obtain competitive results from state-of-the-art methods and can help to discriminate those ambiguous samples. Codes are available at https://github.com/zhysora/FR-Head. | 翻訳日:2023-03-29 18:21:37 公開日:2023-03-28 |
# 多言語方言検出のための2段階パイプライン Two-stage Pipeline for Multilingual Dialect Detection ( http://arxiv.org/abs/2303.03487v2 ) ライセンス: Link先を確認 | Ankit Vaidya and Aditya Kane | (参考訳) 方言識別は、様々な大規模言語モデルをローカライズするための重要なタスクである。
本稿では,VarDial 2023共有タスクに対する我々のアプローチの概要を紹介する。
ここでは、3つの言語から3つまたは2つの方言を識別し、それぞれトラック1の9方向分類とトラック2の6方向分類を導出する。
提案手法は,2段階のシステムで構成され,他の参加者のシステムや過去の研究よりも優れている。
トラック1では58.54%、トラック2では85.61%となる。
私たちのコードベースは公開されています(https://github.com/ankit-vaidya19/EACL_VarDial2023)。 Dialect Identification is a crucial task for localizing various Large Language Models. This paper outlines our approach to the VarDial 2023 shared task. Here we have to identify three or two dialects from three languages each which results in a 9-way classification for Track-1 and 6-way classification for Track-2 respectively. Our proposed approach consists of a two-stage system and outperforms other participants' systems and previous works in this domain. We achieve a score of 58.54% for Track-1 and 85.61% for Track-2. Our codebase is available publicly (https://github.com/ankit-vaidya19/EACL_VarDial2023). | 翻訳日:2023-03-29 18:21:17 公開日:2023-03-28 |
# 短期量子ハードウェアにおける正確な量子化学を実現するAb Initio Transcorrelated Method Ab Initio Transcorrelated Method enabling accurate Quantum Chemistry on near-term Quantum Hardware ( http://arxiv.org/abs/2303.02007v2 ) ライセンス: Link先を確認 | Werner Dobrautz, Igor O. Sokolov, Ke Liao, Pablo L\'opez R\'ios, Martin Rahm, Ali Alavi, Ivano Tavernelli | (参考訳) 量子コンピューティングは新しい計算パラダイムとして登場し、量子化学を含むいくつかの研究分野を変革する可能性がある。
しかし、現在のハードウェア制限(コヒーレンス時間制限、ゲート不完全性、接続性制限を含む)は、ほとんどの量子アルゴリズムの直接的な実装を妨げ、よりノイズ耐性のソリューションを要求する。
量子化学において、利用可能な量子ビットとゲート演算の数に制限があるのは、分子軌道ごとに2つの量子ビットを必要とするためである。
本研究では, 波動関数から直接ハミルトニアンへの相関関係を近似することなく, トランスコリニアス(tc)法に基づく明示的に相関したアンサッツを提案し, ノイズの多い近距離量子デバイスで正確な結果を得るのに必要なリソースを削減した。
特に, 正確なトランスコリックス手法により, より浅い回路を実現できるだけでなく, いわゆる基底集合極限への収束性も向上し, より小さな基底集合を実験するための化学的精度内でのエネルギーを提供し, 従ってより少ない量子ビットを与える。
本研究では, 水素二量体と水素化リチウムの実験結果に近い結合長, 解離エネルギー, 振動周波数をそれぞれ4および6キュービットで計算し, 本手法を実証した。
従来の方法では同じ精度で少なくとも10倍の量子ビットを必要とする。 Quantum computing is emerging as a new computational paradigm with the potential to transform several research fields, including quantum chemistry. However, current hardware limitations (including limited coherence times, gate infidelities, and limited connectivity) hamper the straightforward implementation of most quantum algorithms and call for more noise-resilient solutions. In quantum chemistry, the limited number of available qubits and gate operations is particularly restrictive since, for each molecular orbital, one needs, in general, two qubits. In this study, we propose an explicitly correlated Ansatz based on the transcorrelated (TC) approach, which transfers -- without any approximation -- correlation from the wavefunction directly into the Hamiltonian, thus reducing the number of resources needed to achieve accurate results with noisy, near-term quantum devices. In particular, we show that the exact transcorrelated approach not only allows for more shallow circuits but also improves the convergence towards the so-called basis set limit, providing energies within chemical accuracy to experiment with smaller basis sets and, therefore, fewer qubits. We demonstrate our method by computing bond lengths, dissociation energies, and vibrational frequencies close to experimental results for the hydrogen dimer and lithium hydride using just 4 and 6 qubits, respectively. Conventional methods require at least ten times more qubits for the same accuracy. | 翻訳日:2023-03-29 18:21:08 公開日:2023-03-28 |
# シーケンスビデオのためのアンアライメントテキストを用いた弱教師付きビデオ表現学習 Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos ( http://arxiv.org/abs/2303.12370v2 ) ライセンス: Link先を確認 | Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian, Shenghua Gao | (参考訳) シーケンシャルビデオ理解は、新たなビデオ理解タスクとして、ゴール指向の性質から多くの研究者の注目を集めている。
本稿では,正確なタイムスタンプレベルのテキスト・ビデオアライメントが提供されないような逐次的ビデオ理解について検討する。
私たちはこの課題をCLIPからアイデアを借りて解決する。
具体的には,映像表現のためのフレームレベル特徴の集約にトランスフォーマを使用して,予め学習したテキストエンコーダを使用して,各アクションとビデオ全体に対応するテキストをエンコードする。
テキストと映像の対応をモデル化するために,ビデオ・パラグラフのコントラストロスが全映像と全スクリプトのマッチングを強制し,細粒度フレーム・センスのコントラストロスが各アクションとその記述とのマッチングを強制する多粒度損失を提案する。
フレーム・センテンス対応が利用できないため、ビデオアクションが時間領域内で順次発生するという事実を利用して疑似フレーム・センテンス対応を生成し、ネットワークトレーニングを疑似ラベルで監督する。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの大規模な実験により,提案手法はベースラインを大きなマージンで上回り,提案手法の有効性を検証した。
コードはhttps://github.com/svip-lab/WeakSVRで入手できる。 Sequential video understanding, as an emerging video understanding task, has driven lots of researchers' attention because of its goal-oriented nature. This paper studies weakly supervised sequential video understanding where the accurate time-stamp level text-video alignment is not provided. We solve this task by borrowing ideas from CLIP. Specifically, we use a transformer to aggregate frame-level features for video representation and use a pre-trained text encoder to encode the texts corresponding to each action and the whole video, respectively. To model the correspondence between text and video, we propose a multiple granularity loss, where the video-paragraph contrastive loss enforces matching between the whole video and the complete script, and a fine-grained frame-sentence contrastive loss enforces the matching between each action and its description. As the frame-sentence correspondence is not available, we propose to use the fact that video actions happen sequentially in the temporal domain to generate pseudo frame-sentence correspondence and supervise the network training with the pseudo labels. Extensive experiments on video sequence verification and text-to-video matching show that our method outperforms baselines by a large margin, which validates the effectiveness of our proposed approach. Code is available at https://github.com/svip-lab/WeakSVR | 翻訳日:2023-03-29 18:14:30 公開日:2023-03-28 |
# マイナショット学習を改善するためのメタ推論プロンプトチューニング Meta-augmented Prompt Tuning for Better Few-shot Learning ( http://arxiv.org/abs/2303.12314v2 ) ライセンス: Link先を確認 | Kaihang Pan, Juncheng Li, Hongye Song, Jun Lin, Xiaozhong Liu, Siliang Tang | (参考訳) プロンプトチューニングはパラメータ効率のよい手法であり、全てのPLMパラメータを凍結し、入力テキストにソフトプロンプトと呼ばれる追加の調整可能なトークンのみをプリペイドする。
しかし、ソフトプロンプトはイニシャライズに強く依存しており、数ショット設定でオーバーフィットする可能性があるため、微調整よりもプロンプトチューニングの実行がはるかに悪くなる。
上記の課題に対処するために,数ショット一般化(SUMMER)のためのMetagradient Regularizationを用いた自己改善メタプロンプト学習フレームワークを提案する。
我々は,自己教師付きメタラーニングを利用してソフトプロンプトをより早く初期化し,カリキュラムに基づくタスク拡張によりメタタスク分布を豊かにする。
また,メタプロンプト学習フレームワークにメタグラディエント正規化手法を組み込んだメタプロンプト学習手法により,数ショット学習時に生勾配をドメイン一般化可能な方向に変換し,オーバーフィッティングの問題を緩和する。
広範囲な実験により、サマーは異なるマイナショットダウンストリームタスクのパフォーマンスが向上し、ドメインの一般化能力も向上することが示された。 Prompt tuning is a parameter-efficient method, which freezes all PLM parameters and only prepends some additional tunable tokens called soft prompts to the input text. However, soft prompts heavily rely on a better initialization and may easily result in overfitting under few-shot settings, which causes prompt-tuning performing much worse than fine-tuning. To address the above issues, this paper proposes a novel Self-sUpervised Meta-prompt learning framework with MEtagradient Regularization for few shot generalization (SUMMER). We leverage self-supervised meta-learning to better initialize soft prompts and curriculum-based task augmentation is further proposed to enrich the meta-task distribution. Besides, a novel meta-gradient regularization method is integrated into the meta-prompt learning framework, which meta-learns to transform the raw gradient during few-shot learning into a domain-generalizable direction, thus alleviating the problem of overfitting. Extensive experiments show that SUMMER achieves better performance for different few-shot downstream tasks, and also exhibits a stronger domain generalization ability. | 翻訳日:2023-03-29 18:14:07 公開日:2023-03-28 |
# ゴムの手の錯覚を再現する脳誘発自己知覚モデル Brain-inspired bodily self-perception model that replicates the rubber hand illusion ( http://arxiv.org/abs/2303.12259v2 ) ライセンス: Link先を確認 | Yuxuan Zhao, Enmeng Lu, Yi Zeng | (参考訳) 身体的自意識の核心は、自分の身体の所有に対する認識である。
近年、脳の自己のエンコーディングのメカニズムをより深く理解しようとする試みは、関連する行動と神経生理学的現象を説明するための統一的な理論的枠組みを開発する様々な試みにつながった。
説明すべき中心的な問題は、ゴムの手の錯覚のような身体錯覚が実際にどのように起こるかである。
身体的自己意識のメカニズムと関連する脳領域の概念的な記述にもかかわらず、既存の理論モデルは、脳が身体の知覚をエンコードする計算メカニズムと、私たちの主観的に知覚される身体の錯覚がニューラルネットワークによってどのように生成されるかの説明をまだ欠いている。
ここでは、身体自己意識の生物学的な知見を統合し、脳に触発された身体自己受容モデルを提案し、身体自己の知覚を監督信号なしで自律的に構築する。
我々は,icubヒューマノイドロボットやシミュレーション環境を含むプラットフォーム上での6つのゴムハンドイリュージョン実験により,計算モデルの有効性を検証した。
実験結果から, サルの行動と神経のデータを生物学的実験で十分に再現できるだけでなく, 生物学的解釈の優位性から, 神経レベルでのゴムの手の錯覚の原因と結果が合理的に説明でき, ゴムの手の錯覚の発生の根底にある計算と神経機構の解明に寄与することが示唆された。 At the core of bodily self-consciousness is the perception of the ownership of one's body. Recent efforts to gain a deeper understanding of the mechanisms behind the brain's encoding of the self-body have led to various attempts to develop a unified theoretical framework to explain related behavioral and neurophysiological phenomena. A central question to be explained is how body illusions such as the rubber hand illusion actually occur. Despite the conceptual descriptions of the mechanisms of bodily self-consciousness and the possible relevant brain areas, the existing theoretical models still lack an explanation of the computational mechanisms by which the brain encodes the perception of one's body and how our subjectively perceived body illusions can be generated by neural networks. Here we integrate the biological findings of bodily self-consciousness to propose a Brain-inspired bodily self-perception model, by which perceptions of bodily self can be autonomously constructed without any supervision signals. We successfully validated our computational model with six rubber hand illusion experiments on platforms including a iCub humanoid robot and simulated environments. The experimental results show that our model can not only well replicate the behavioral and neural data of monkeys in biological experiments, but also reasonably explain the causes and results of the rubber hand illusion from the neuronal level due to advantages in biological interpretability, thus contributing to the revealing of the computational and neural mechanisms underlying the occurrence of the rubber hand illusion. | 翻訳日:2023-03-29 18:13:45 公開日:2023-03-28 |
# 量子場理論におけるマーミンの不等式 Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2303.12195v2 ) ライセンス: Link先を確認 | Philipe De Fabritiis, Itzhak Roditi, Silvio Paolo Sorella | (参考訳) 相対論的量子場理論の枠組みはマーミンの不等式のために考案された。
スミア化されたディラックスピノル場を利用することで、ミンコフスキー真空$\vert 0 \rangle$, GHZ型状態から生成するユニタリ作用素を導入することができる。
このようにして、真空中におけるメルミン作用素の期待値とGHZ型状態との関係を得ることができる。
メルミンの不等式がこれらの州で評価された場合、最大で違反されることが示される。 A relativistic Quantum Field Theory framework is devised for Mermin's inequalities. By employing smeared Dirac spinor fields, we are able to introduce unitary operators which create, out of the Minkowski vacuum $\vert 0 \rangle$, GHZ-type states. In this way, we are able to obtain a relation between the expectation value of Mermin's operators in the vacuum and in the GHZ-type states. We show that Mermin's inequalities turn out to be maximally violated when evaluated on these states. | 翻訳日:2023-03-29 18:13:20 公開日:2023-03-28 |
# TIFA:質問応答によるテキストから画像への忠実度の評価 TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering ( http://arxiv.org/abs/2303.11897v2 ) ライセンス: Link先を確認 | Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A. Smith | (参考訳) 何千もの研究者、エンジニア、アーティストが、テキストから画像への生成モデルの改善に積極的に取り組んでいるが、システムはしばしば、テキスト入力と正確に一致する画像の生成に失敗している。
本稿では,視覚的質問応答(VQA)によるテキスト入力に対して生成画像の忠実度を測定する自動評価指標であるTIFA(Text-to- Image Faithfulness Evaluation with question Answering)を紹介する。
具体的には,テキスト入力が与えられた場合,言語モデルを用いて質問応答ペアを自動的に生成する。
既存のVQAモデルが生成した画像を用いてこれらの疑問に答えられるかどうかを確認することにより、画像忠実度を算出する。
TIFAは参照なしの計量であり、生成した画像のきめ細やかで解釈可能な評価を可能にする。
TIFAは既存の指標よりも人間の判断と相関性が高い。
このアプローチに基づいて,12カテゴリ(オブジェクト,カウントなど)にわたる4Kの多様なテキスト入力と25Kの質問からなるベンチマークであるTIFA v1.0を紹介する。
本稿では,tifa v1.0を用いた既存のテキスト対画像モデルの包括的評価を行い,現行モデルの限界と課題を強調する。
例えば、現在のテキストから画像へのモデルは、色や素材ではうまく機能しているが、数え上げや空間的関係、複数のオブジェクトの作成に苦労している。
われわれのベンチマークは、テキストと画像の合成における研究の進捗を注意深く測定し、さらなる研究に有用な洞察を提供することを期待している。 Despite thousands of researchers, engineers, and artists actively working on improving text-to-image generation models, systems often fail to produce images that accurately align with the text inputs. We introduce TIFA (Text-to-Image Faithfulness evaluation with question Answering), an automatic evaluation metric that measures the faithfulness of a generated image to its text input via visual question answering (VQA). Specifically, given a text input, we automatically generate several question-answer pairs using a language model. We calculate image faithfulness by checking whether existing VQA models can answer these questions using the generated image. TIFA is a reference-free metric that allows for fine-grained and interpretable evaluations of generated images. TIFA also has better correlations with human judgments than existing metrics. Based on this approach, we introduce TIFA v1.0, a benchmark consisting of 4K diverse text inputs and 25K questions across 12 categories (object, counting, etc.). We present a comprehensive evaluation of existing text-to-image models using TIFA v1.0 and highlight the limitations and challenges of current models. For instance, we find that current text-to-image models, despite doing well on color and material, still struggle in counting, spatial relations, and composing multiple objects. We hope our benchmark will help carefully measure the research progress in text-to-image synthesis and provide valuable insights for further research. | 翻訳日:2023-03-29 18:13:12 公開日:2023-03-28 |
# 不完全情報下における市場均衡価格のオンライン学習 Online Learning for Equilibrium Pricing in Markets under Incomplete Information ( http://arxiv.org/abs/2303.11522v2 ) ライセンス: Link先を確認 | Devansh Jalota, Haoyuan Sun, Navid Azizan | (参考訳) 市場均衡の研究は経済理論の中心であり、特に希少資源を効率的に割り当てる。
しかし、商品の供給が需要に合致する均衡価格の計算は、一般的に、サプライヤのコスト関数など、実際に利用できないエージェントの個人的属性に関する完全な情報にアクセスすることに依存している。
この実践的考察に動機づけられたのは、市場オペレータが、市場オペレータに未知の民間的コスト機能を有する競合サプライヤーから必要な金額を購入して商品に対する顧客需要を満足させようとする不完全な情報設定において、均衡価格を設定する問題である。
この不完全な情報設定では、時間とともに均衡価格を学習するオンライン学習問題を考察し、共同して3つのパフォーマンス指標、すなわち不測の需要、コストの後悔、支払いの後悔を最適化する。
まず、サプライヤのコスト関数が固定されたときに設定し、顧客の要求が経時的に一定であれば$o(\log \log t)$、あるいは需要が経時的に変化した場合に$o(\sqrt{t} \log \log t)$となるアルゴリズムを開発する。
次に,サプライヤのコスト関数が時間とともに変化するような設定について考察し,マーケットオペレータがコスト関数の時間的変化に関する情報を持っていない場合に,オンラインアルゴリズムが3つの指標すべてに対してサブ線形後悔を達成できないことを示す。
そこで,コスト関数の完全な仕様を明かさずに時間経過に伴うコスト関数の変動を反映するヒント/コンテキストへのアクセスをオペレータが有する拡張設定を考察し,この拡張設定においてサブリニアな後悔を伴うアルゴリズムを提案する。 The study of market equilibria is central to economic theory, particularly in efficiently allocating scarce resources. However, the computation of equilibrium prices at which the supply of goods matches their demand typically relies on having access to complete information on private attributes of agents, e.g., suppliers' cost functions, which are often unavailable in practice. Motivated by this practical consideration, we consider the problem of setting equilibrium prices in the incomplete information setting wherein a market operator seeks to satisfy the customer demand for a commodity by purchasing the required amount from competing suppliers with privately known cost functions unknown to the market operator. In this incomplete information setting, we consider the online learning problem of learning equilibrium prices over time while jointly optimizing three performance metrics -- unmet demand, cost regret, and payment regret -- pertinent in the context of equilibrium pricing over a horizon of $T$ periods. We first consider the setting when suppliers' cost functions are fixed and develop algorithms that achieve a regret of $O(\log \log T)$ when the customer demand is constant over time, or $O(\sqrt{T} \log \log T)$ when the demand is variable over time. Next, we consider the setting when the suppliers' cost functions can vary over time and illustrate that no online algorithm can achieve sublinear regret on all three metrics when the market operator has no information about how the cost functions change over time. Thus, we consider an augmented setting wherein the operator has access to hints/contexts that, without revealing the complete specification of the cost functions, reflect the variation in the cost functions over time and propose an algorithm with sublinear regret in this augmented setting. | 翻訳日:2023-03-29 18:12:48 公開日:2023-03-28 |
# ADCNet:生のレーダーADCデータによるエンドツーエンドの認識 ADCNet: End-to-end perception with raw radar ADC data ( http://arxiv.org/abs/2303.11420v2 ) ライセンス: Link先を確認 | Bo Yang, Ishan Khatri, Michael Happold, Chulong Chen | (参考訳) 自動運転業界ではレーダーセンサーへの関心が再び高まっている。
比較的成熟した技術として、レーダーはここ数年着実に改良され、一般的なlidarの代替品や補完品となっている。
新たなトレンドは、リッチで低レベルのレーダーデータを知覚に活用することです。
本研究では,この傾向を極端に推し進めて,生のレーダアナログ・デジタル(ADC)データに基づいてエンドツーエンドの学習を行う手法を提案する。
具体的には,ニューラルネットワーク内の学習可能な信号処理モジュールと,従来の信号処理アルゴリズムによる事前学習手法を設計する。
実験結果から,エンド・ツー・エンド・ラーニング手法の総合的効果が相関し,アブレーション研究は個人のイノベーションの有効性を検証した。 There is a renewed interest in radar sensors in the autonomous driving industry. As a relatively mature technology, radars have seen steady improvement over the last few years, making them an appealing alternative or complement to the commonly used LiDARs. An emerging trend is to leverage rich, low-level radar data for perception. In this work we push this trend to the extreme -- we propose a method to perform end-to-end learning on the raw radar analog-to-digital (ADC) data. Specifically, we design a learnable signal processing module inside the neural network, and a pre-training method guided by traditional signal processing algorithms. Experiment results corroborate the overall efficacy of the end-to-end learning method, while an ablation study validates the effectiveness of our individual innovations. | 翻訳日:2023-03-29 18:12:18 公開日:2023-03-28 |
# less is more: 3d point cloudセマンティックセグメンテーションのためのタスクとモデルの複雑さの削減 Less is More: Reducing Task and Model Complexity for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2303.11203v2 ) ライセンス: Link先を確認 | Li Li, Hubert P. H. Shum, Toby P. Breckon | (参考訳) 近年,3D LiDARポイントクラウドデータの可用性は著しく向上しているが,アノテーションは高価で時間を要するため,自律運転などのアプリケーションドメインによる半教師付きセマンティックセグメンテーション手法が求められている。
既存の作業は、計算コストを犠牲にして、セグメント化精度を向上させるために比較的大きなセグメント化バックボーンネットワークを使用することが多い。
さらに、必要となる学習のための基礎的真理データ要求を減らすために、均一なサンプリングを使用することが多い。
これらの問題に対処するため,従来のアプローチに比べてセグメント化精度が向上するために,より小さなアーキテクチャを採用するパイプラインを提案する。
これはSparse Depthwise Separable Convolutionモジュールによって実現され、タスク全体のパフォーマンスを維持しながら、ネットワークパラメータの数を著しく削減する。
トレーニングデータを効果的にサブサンプリングするために,環境内におけるセンサモーションの知識を活用して,より多様なトレーニングデータフレームサンプルを抽出する,時空間冗長フレームダウンサンプリング(ST-RFD)手法を提案する。
限られた注釈付きデータサンプルの利用を活用するために,LiDAR反射率を指標としたソフトな擬似ラベル手法を提案する。
本手法は,モデルパラメータの2.3倍の削減と641倍の乗算演算に基づくSemanticKITTI (59.5@5%) およびScribbleKITTI (58.1@5%) ベンチマークデータセットにおいて,ラベル付きデータの少ない使用により,従来の半教師付き作業よりも優れ,同時に限られたトレーニングデータ(例:Less is More)に対して大幅な性能向上を示す。 Whilst the availability of 3D LiDAR point cloud data has significantly grown in recent years, annotation remains expensive and time-consuming, leading to a demand for semi-supervised semantic segmentation methods with application domains such as autonomous driving. Existing work very often employs relatively large segmentation backbone networks to improve segmentation accuracy, at the expense of computational costs. In addition, many use uniform sampling to reduce ground truth data requirements for learning needed, often resulting in sub-optimal performance. To address these issues, we propose a new pipeline that employs a smaller architecture, requiring fewer ground-truth annotations to achieve superior segmentation accuracy compared to contemporary approaches. This is facilitated via a novel Sparse Depthwise Separable Convolution module that significantly reduces the network parameter count while retaining overall task performance. To effectively sub-sample our training data, we propose a new Spatio-Temporal Redundant Frame Downsampling (ST-RFD) method that leverages knowledge of sensor motion within the environment to extract a more diverse subset of training data frame samples. To leverage the use of limited annotated data samples, we further propose a soft pseudo-label method informed by LiDAR reflectivity. Our method outperforms contemporary semi-supervised work in terms of mIoU, using less labeled data, on the SemanticKITTI (59.5@5%) and ScribbleKITTI (58.1@5%) benchmark datasets, based on a 2.3x reduction in model parameters and 641x fewer multiply-add operations whilst also demonstrating significant performance improvement on limited training data (i.e., Less is More). | 翻訳日:2023-03-29 18:12:05 公開日:2023-03-28 |
# LiDAR強度を用いた教師なし内在画像分解 Unsupervised Intrinsic Image Decomposition with LiDAR Intensity ( http://arxiv.org/abs/2303.10820v2 ) ライセンス: Link先を確認 | Shogo Sato, Yasuhiro Yao, Taiga Yoshida, Takuhiro Kaneko, Shingo Ando, Jun Shimamura | (参考訳) 固有画像分解(IID)は、自然な画像をアルベドとシェードに分解するタスクである。
IIDは典型的には教師付き学習法によって解決されるが、地上の真理アルベドや日陰の観察が難しいため理想的ではない。
逆に,教師なし学習法では,問題解決の基準がないため,教師なし学習法が過小評価されている。
近年,高精度な距離測定が可能となり,光検出・測位(lidar)が広く用いられている。
そこで我々は,この問題に対処するために,LiDAR,特にLiDAR強度の利用に焦点を当てた。
本稿では,LiDAR強度(IID-LI)を用いた教師なし固有画像分解法を提案する。
従来の教師なし学習手法は画像から画像への変換から成り立っているため、LiDARの強度を入力するだけでは効果的ではない。
そこで本研究では,lidar強度とグレースケールアルベドの誤差を計算した強度一貫性損失を設計し,不適切な問題に対する基準を与える。
また,lidar強度は,その分散性や閉塞性から処理が困難であるため,lidar強度密度モジュールが提案されている。
我々は、RGB画像、LiDAR強度、人間の判断アノテーションを含むデータセットを用いて、評価品質を検証した。
その結果,従来の教師なし学習法を上回って推定精度が向上した。
Dataset link : (https://github.com/ntthilab-cv/NTT-inrinsic-dataset)。 Intrinsic image decomposition (IID) is the task that decomposes a natural image into albedo and shade. While IID is typically solved through supervised learning methods, it is not ideal due to the difficulty in observing ground truth albedo and shade in general scenes. Conversely, unsupervised learning methods are currently underperforming supervised learning methods since there are no criteria for solving the ill-posed problems. Recently, light detection and ranging (LiDAR) is widely used due to its ability to make highly precise distance measurements. Thus, we have focused on the utilization of LiDAR, especially LiDAR intensity, to address this issue. In this paper, we propose unsupervised intrinsic image decomposition with LiDAR intensity (IID-LI). Since the conventional unsupervised learning methods consist of image-to-image transformations, simply inputting LiDAR intensity is not an effective approach. Therefore, we design an intensity consistency loss that computes the error between LiDAR intensity and gray-scaled albedo to provide a criterion for the ill-posed problem. In addition, LiDAR intensity is difficult to handle due to its sparsity and occlusion, hence, a LiDAR intensity densification module is proposed. We verified the estimating quality using our own dataset, which include RGB images, LiDAR intensity and human judged annotations. As a result, we achieved an estimation accuracy that outperforms conventional unsupervised learning methods. Dataset link : (https://github.com/ntthilab-cv/NTT-intrinsic-dataset). | 翻訳日:2023-03-29 18:11:29 公開日:2023-03-28 |
# 深部画像指紋 : 高精度・低予算合成画像検出装置 Deep Image Fingerprint: Accurate And Low Budget Synthetic Image Detector ( http://arxiv.org/abs/2303.10762v2 ) ライセンス: Link先を確認 | Sergey Sinitsa and Ohad Fried | (参考訳) 高品質な画像の生成は、広くアクセスしやすくなり、急速に進化するプロセスである。
その結果、誰でも実際のものと区別できない画像を生成することができる。
これは幅広いアプリケーションにつながり、詐欺を念頭において悪意のある使用法も含んでいる。
生成画像の検出技術の進歩にもかかわらず、ロバストな検出手法はいまだに我々を導いてくれる。
本研究では,畳み込みニューラルネットワーク(cnns)のインダクティブバイアスを利用して,少量のトレーニングサンプルを必要とする新しい検出法を開発し,現在の最先端手法と同等以上の精度を達成する。 The generation of high-quality images has become widely accessible and is a rapidly evolving process. As a result, anyone can generate images that are indistinguishable from real ones. This leads to a wide range of applications, which also include malicious usage with deception in mind. Despite advances in detection techniques for generated images, a robust detection method still eludes us. In this work, we utilize the inductive bias of convolutional neural networks (CNNs) to develop a new detection method that requires a small amount of training samples and achieves accuracy that is on par or better than current state-of-the-art methods. | 翻訳日:2023-03-29 18:11:07 公開日:2023-03-28 |
# DBLP-QuAD:DBLP Scholarly Knowledge Graph上の質問応答データセット DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph ( http://arxiv.org/abs/2303.13351v2 ) ライセンス: Link先を確認 | Debayan Banerjee, Sushil Awale, Ricardo Usbeck, Chris Biemann | (参考訳) 本研究では,DBLP学術知識グラフ(KG)上で質問応答データセットを作成する。
dblpは、2200万以上の著者が出版した440万以上の出版物をインデックス化する主要なコンピュータサイエンス出版物の書誌情報のオンラインリファレンスである。
我々のデータセットは1万の質問応答対と対応するSPARQLクエリで構成されており、DBLP KG上で実行して正しい回答を取得することができる。
DBLP-QuADは学術的な質問応答データセットとしては最大である。 In this work we create a question answering dataset over the DBLP scholarly knowledge graph (KG). DBLP is an on-line reference for bibliographic information on major computer science publications that indexes over 4.4 million publications published by more than 2.2 million authors. Our dataset consists of 10,000 question answer pairs with the corresponding SPARQL queries which can be executed over the DBLP KG to fetch the correct answer. DBLP-QuAD is the largest scholarly question answering dataset. | 翻訳日:2023-03-29 18:04:24 公開日:2023-03-28 |
# フォトニックGKP状態との自由電子相互作用:普遍制御と量子誤り訂正 Free-electron interactions with photonic GKP states: universal control and quantum error correction ( http://arxiv.org/abs/2303.13244v2 ) ライセンス: Link先を確認 | Gefen Baranes, Shiran Even-Haim, Ron Ruimy, Alexey Gorlach, Raphael Dahan, Asaf A. Diringer, Shay Hacohen-Gourgy, and Ido Kaminer | (参考訳) 自由電子と光子のコヒーレント相互作用は、GKP(Gottesman-Kitaev-Preskill)量子ビットの形で連続可変フォトニック量子状態の普遍的な制御に利用できることを示す。
具体的には、電子エネルギーコムはフォトニック状態の非破壊的な測定を可能にし、任意のゲートを誘導することができる。
さらに、複数のフォトニックモードと相互作用する単一の電子は、グリーンベルガー=ホルン=ザイリンガー状態やGKPのクラスター状態のような非常に絡み合った状態を生成することができる。 We show that the coherent interaction between free electrons and photons can be used for universal control of continuous-variable photonic quantum states in the form of Gottesman-Kitaev-Preskill (GKP) qubits. Specifically, we find that electron energy combs enable non-destructive measurements of the photonic state and can induce arbitrary gates. Moreover, a single electron interacting with multiple photonic modes can create highly entangled states such as Greenberger-Horne-Zeilinger states and cluster states of GKPs. | 翻訳日:2023-03-29 18:04:15 公開日:2023-03-28 |
# 機械学習による心原性ショックの早期予測のための動的リスクスコア A dynamic risk score for early prediction of cardiogenic shock using machine learning ( http://arxiv.org/abs/2303.12888v2 ) ライセンス: Link先を確認 | Yuxuan Hu, Albert Lui, Mark Goldstein, Mukund Sudarshan, Andrea Tinsay, Cindy Tsui, Samuel Maidman, John Medamana, Neil Jethani, Aahlad Puli, Vuthy Nguy, Yindalon Aphinyanaphongs, Nicholas Kiefer, Nathaniel Smilowitz, James Horowitz, Tania Ahuja, Glenn I Fishman, Judith Hochman, Stuart Katz, Samuel Bernard, Rajesh Ranganath | (参考訳) 心筋梗塞と心不全は、米国の何百万人もの人々に影響を及ぼす主要な心血管疾患である。
心原性ショックを発症する患者では死亡率と死亡率が高い。
心原性ショックの早期認識は重要である。
治療の迅速な実施は、虚血の有害なスパイラル、低血圧、心原性ショックによる心臓出力の低下を防ぐことができる。
しかし、心原性ショックの早期発見は、心臓集中治療ユニット(ICU)に膨大な量のデータを処理できないことや、効果的なリスク階層化ツールがないために困難である。
心原性ショックの発症を予知するために,急性心不全と心筋梗塞を併発した心ICU患者を対象に,深層学習型リスク層化ツールCShockを開発した。
CShockの開発と評価を行うため, 心ICUデータセットのアノテートを行った。
CShock は 0.820 のレシーバ演算子特性曲線 (AUROC) の下の領域を達成し、CardShock (AUROC 0.519) は心原性ショック予後の優れたリスクスコアである。
CShockは、独立した患者のコホートで外部から検証され、AUROCの0.800を達成し、他の心ICUの一般化可能性を示した。 Myocardial infarction and heart failure are major cardiovascular diseases that affect millions of people in the US. The morbidity and mortality are highest among patients who develop cardiogenic shock. Early recognition of cardiogenic shock is critical. Prompt implementation of treatment measures can prevent the deleterious spiral of ischemia, low blood pressure, and reduced cardiac output due to cardiogenic shock. However, early identification of cardiogenic shock has been challenging due to human providers' inability to process the enormous amount of data in the cardiac intensive care unit (ICU) and lack of an effective risk stratification tool. We developed a deep learning-based risk stratification tool, called CShock, for patients admitted into the cardiac ICU with acute decompensated heart failure and/or myocardial infarction to predict onset of cardiogenic shock. To develop and validate CShock, we annotated cardiac ICU datasets with physician adjudicated outcomes. CShock achieved an area under the receiver operator characteristic curve (AUROC) of 0.820, which substantially outperformed CardShock (AUROC 0.519), a well-established risk score for cardiogenic shock prognosis. CShock was externally validated in an independent patient cohort and achieved an AUROC of 0.800, demonstrating its generalizability in other cardiac ICUs. | 翻訳日:2023-03-29 18:04:06 公開日:2023-03-28 |
# 量子フォトニクスチャネルの忠実度曲線に基づく絡み合いルーティング Entanglement Routing Based on Fidelity Curves for Quantum Photonics Channels ( http://arxiv.org/abs/2303.12864v2 ) ライセンス: Link先を確認 | Bruno C. Coutinho, Raul Monteiro, Lu\'is Bugalho, Francisco A. Monteiro | (参考訳) 量子インターネットは、近くの隣接ノードからネットワーク内の任意の2つのノードへの絡み合い相関を拡張することを約束している。
大規模ネットワーク上での絡み合いを効率的に分散する方法は、検討した技術に大きく依存するオープンな問題である。
本研究では,絡み合い生成率と忠実度とのトレードオフを特徴とするフォトニックチャネルからなる量子ネットワークを考える。
このようなネットワークについては、ネットワークの2部絡みルーティングにおいて与えられた2つのノードを接続する最善の経路を見つけることと、ネットワークの3つのノードを複数部絡みルーティングで接続するために最善のスタートノードを見つける問題という2つの問題に目を向ける。
エンタングルメント分布モデルとしては,エンタングル量子ビットが一度に1つずつ分布するフローモデルと,多数のエンタングル量子ビットが同時に分布するフローモデルがある。
連続的忠実度曲線(つまり、絡み合い生成忠実度とレート)を主要なルーティング指標として用いることを提案する。
多目的パスフィニングアルゴリズムと組み合わせて、各リンクを記述する忠実度曲線は、エンドツーエンドの忠実度と絡み合い生成率の両方を最大化するパスの集合を見つけることができる。
検討したモデルとネットワークに対しては,アルゴリズムが常に最適解に収束することを証明し,その実行時間がネットワーク内のノード数とともに多項式を増大させることを示す。
私たちの実装は、ネットワークによっては1ドルから14ドルのパワーを持つノードの数で成長します。
本研究は、複雑な絡み合い分布プロトコルを持つネットワークのためのパスフィニングアルゴリズムの開発方法、特に、リピータ・アンド・パーフィケーションプロトコルのような、世代密度とレートのトレードオフを示す他のプロトコルの開発方法である。 The quantum internet promises to extend entanglement correlations from nearby neighbors to any two nodes in a network. How to efficiently distribute entanglement over large-scale networks is still an open problem that greatly depends on the technology considered. In this work, we consider quantum networks composed of photonic channels characterized by a trade-off between the entanglement generation rate and fidelity. For such networks we look at the two following problems: the one of finding the best path to connect any two given nodes in the network bipartite entanglement routing, and the problem of finding the best starting node in order to connect three nodes in the network multipartite entanglement routing. We consider two entanglement distribution models: one where entangled qubit are distributed one at a time, and a flow model where a large number of entangled qubits are distributed simultaneously. We propose the use of continuous fidelity curves (i.e., entanglement generation fidelity vs rate) as the main routing metric. Combined with multi-objective path-finding algorithms, the fidelity curves describing each link allow finding a set of paths that maximize both the end-to-end fidelity and the entanglement generation rate. For the models and networks considered, we prove that the algorithm always converges to the optimal solution, and we show through simulation that its execution time grows polynomial with the number of nodes in the network. Our implementation grows with the number of nodes with a power between $1$ and $1.4$ depending on the network. This work paves the way for the development of path-finding algorithms for networks with complex entanglement distribution protocols, in particular for other protocols that exhibit a trade-off between generation fidelity and rate, such as repeater-and-purify protocols. | 翻訳日:2023-03-29 18:03:43 公開日:2023-03-28 |
# $(d-1)$-WLテストの3つの反復は、$d$-次元点の非等尺雲を区別する Three iterations of $(d-1)$-WL test distinguish non isometric clouds of $d$-dimensional points ( http://arxiv.org/abs/2303.12853v2 ) ライセンス: Link先を確認 | Valentino Delle Rose, Alexander Kozachinskiy, Crist\'obal Rojas, Mircea Petrache and Pablo Barcel\'o | (参考訳) Weisfeiler--Lehman (WL) テストはグラフの同型性をチェックするための基本的な反復アルゴリズムである。
また、このテストの表現力の観点から、能力と性能を理解できるいくつかのグラフニューラルネットワークアーキテクチャの設計の基礎となることも観察されている。
三次元オブジェクトを含むデータセットへの機械学習応用の最近の発展により、完全距離グラフで表されるユークリッド点の雲に対するWLテストがいつ完備になるか、すなわち、等距離まで、任意の任意の雲を区別できるかが研究されている。
我々の主な結果は、d 次元ユークリッド空間における点雲に対する $(d-1) 次元 wl テストは、任意の $d\ge 2$ に対して完備であり、テスト suffice の3つの反復のみである。
我々の結果は$d = 2, 3$に対してきつい。
また、$d$-dimensional WL テストは完全性を達成するために 1 つの反復しか必要としない。 The Weisfeiler--Lehman (WL) test is a fundamental iterative algorithm for checking isomorphism of graphs. It has also been observed that it underlies the design of several graph neural network architectures, whose capabilities and performance can be understood in terms of the expressive power of this test. Motivated by recent developments in machine learning applications to datasets involving three-dimensional objects, we study when the WL test is {\em complete} for clouds of euclidean points represented by complete distance graphs, i.e., when it can distinguish, up to isometry, any arbitrary such cloud. Our main result states that the $(d-1)$-dimensional WL test is complete for point clouds in $d$-dimensional Euclidean space, for any $d\ge 2$, and that only three iterations of the test suffice. Our result is tight for $d = 2, 3$. We also observe that the $d$-dimensional WL test only requires one iteration to achieve completeness. | 翻訳日:2023-03-29 18:03:12 公開日:2023-03-28 |
# マルチタスク学習による早期新生児の予後予測 Predicting Adverse Neonatal Outcomes for Preterm Neonates with Multi-Task Learning ( http://arxiv.org/abs/2303.15656v1 ) ライセンス: Link先を確認 | Jingyang Lin, Junyu Chen, Hanjia Lyu, Igor Khodak, Divya Chhabra, Colby L Day Richardson, Irina Prelipcean, Andrew M Dylag, Jiebo Luo | (参考訳) 新生児の予後不良の診断は、医師がタイムリーな治療を提供できるため、短期的生存には不可欠である。
機械学習(ML)アルゴリズムは新生児の悪影響を予測するのに有効であることが示されている。
しかし、これまでのMLベースのほとんどの手法は、1つの結果を予測することだけに集中しており、異なる結果間の潜在的な相関を無視し、潜在的に最適以下の結果と過度な問題につながる可能性がある。
本研究は,まず3つの有害な新生児予後の相関関係を分析し,マルチタスク学習(mtl)問題として複数の新生児成果の診断を定式化する。
次に,多発性新生児の予後を予測するためのMTLフレームワークを提案する。
特に、MTLフレームワークは共有の隠れレイヤと複数のタスク固有のブランチを含んでいる。
初期新生児121例のElectronic Health Records (EHRs) を用いて広範囲にわたる実験を行った。
実験結果はmtlフレームワークの有効性を示す。
さらに、新生児の成果ごとに機能の重要性を分析し、モデル解釈可能性に関する洞察を提供する。 Diagnosis of adverse neonatal outcomes is crucial for preterm survival since it enables doctors to provide timely treatment. Machine learning (ML) algorithms have been demonstrated to be effective in predicting adverse neonatal outcomes. However, most previous ML-based methods have only focused on predicting a single outcome, ignoring the potential correlations between different outcomes, and potentially leading to suboptimal results and overfitting issues. In this work, we first analyze the correlations between three adverse neonatal outcomes and then formulate the diagnosis of multiple neonatal outcomes as a multi-task learning (MTL) problem. We then propose an MTL framework to jointly predict multiple adverse neonatal outcomes. In particular, the MTL framework contains shared hidden layers and multiple task-specific branches. Extensive experiments have been conducted using Electronic Health Records (EHRs) from 121 preterm neonates. Empirical results demonstrate the effectiveness of the MTL framework. Furthermore, the feature importance is analyzed for each neonatal outcome, providing insights into model interpretability. | 翻訳日:2023-03-29 17:00:26 公開日:2023-03-28 |
# リンク予測のための階層的距離への結合埋め込みと意味表現学習 Joint embedding in Hierarchical distance and semantic representation learning for link prediction ( http://arxiv.org/abs/2303.15655v1 ) ライセンス: Link先を確認 | Jin Liu and Jianye Chen and Chongfeng Fan and Fengyu Zhou | (参考訳) リンク予測タスクは、知識グラフに欠けているエンティティや関係を予測することを目的としており、下流アプリケーションに必須である。
既存のよく知られたモデルは、主に距離空間や意味空間における知識グラフ三重項を表現することに焦点を当てて、このタスクに対処する。
しかし、頭と尾の情報を完全に捉えることはできず、階層的なレベルの情報をうまく利用することもできない。
そこで本稿では,リンク予測タスクのための新しい知識グラフ埋め込みモデル,すなわちHIEを提案し,各三重項(\textit{h}, \textit{r}, \textit{t})を距離測定空間と意味測定空間に同時にモデル化する。
さらに、HIEは階層的な空間に導入され、より優れた表現学習のためにエンティティや関係の豊富な階層情報を活用する。
具体的には、距離空間のヘッドエンティティに距離変換演算を適用し、翻訳や回転に基づくアプローチの代わりにテールエンティティを求める。
実世界の4つのデータセットに対するHIEの実験結果から、HIEはリンク予測タスクに既存の知識グラフを埋め込む方法よりも優れており、複雑な関係を正確に扱うことができる。 The link prediction task aims to predict missing entities or relations in the knowledge graph and is essential for the downstream application. Existing well-known models deal with this task by mainly focusing on representing knowledge graph triplets in the distance space or semantic space. However, they can not fully capture the information of head and tail entities, nor even make good use of hierarchical level information. Thus, in this paper, we propose a novel knowledge graph embedding model for the link prediction task, namely, HIE, which models each triplet (\textit{h}, \textit{r}, \textit{t}) into distance measurement space and semantic measurement space, simultaneously. Moreover, HIE is introduced into hierarchical-aware space to leverage rich hierarchical information of entities and relations for better representation learning. Specifically, we apply distance transformation operation on the head entity in distance space to obtain the tail entity instead of translation-based or rotation-based approaches. Experimental results of HIE on four real-world datasets show that HIE outperforms several existing state-of-the-art knowledge graph embedding methods on the link prediction task and deals with complex relations accurately. | 翻訳日:2023-03-29 17:00:11 公開日:2023-03-28 |
# 階層化クラス特異的注意型トランスフォーマーネットワークによる3dポイントクラウド意味セグメンテーション Few-Shot 3D Point Cloud Semantic Segmentation via Stratified Class-Specific Attention Based Transformer Network ( http://arxiv.org/abs/2303.15654v1 ) ライセンス: Link先を確認 | Canyu Zhang, Zhenyao Wu, Xinyi Wu, Ziyu Zhao, Song Wang | (参考訳) 3d point cloud semantic segmentationはすべてのポイントを異なるセマンティックカテゴリにグループ化することを目的としている。
既存の教師付きポイントクラウドセマンティックセグメンテーション手法では、トレーニングには大規模なアノテートポイントクラウドが必要であり、新しいカテゴリを扱えない。
この2つの問題に対処するために, 数発学習法が最近提案されているが, グラフ構築による計算複雑性や, プーリング操作による点間のきめ細かな関係を学習できないなど, 高い計算量に苦しむ。
本稿では,クラウドセマンティクスセグメンテーションのための新しい多層トランスフォーマネットワークの開発により,この問題をさらに解決する。
提案するネットワークでは、クエリポイントクラウド機能は、異なるスケールのクラス固有のサポート機能に基づいて集約される。
本手法では, プール操作を使わずに, サポートサンプルからすべての画素レベルの特徴をフル活用する。
S3DISデータセットとScanNetデータセットの既存のショット3Dポイントクラウドセグメンテーションモデルよりも15倍少ない推論時間で、最新の最先端のパフォーマンスを実現する。 3D point cloud semantic segmentation aims to group all points into different semantic categories, which benefits important applications such as point cloud scene reconstruction and understanding. Existing supervised point cloud semantic segmentation methods usually require large-scale annotated point clouds for training and cannot handle new categories. While a few-shot learning method was proposed recently to address these two problems, it suffers from high computational complexity caused by graph construction and inability to learn fine-grained relationships among points due to the use of pooling operations. In this paper, we further address these problems by developing a new multi-layer transformer network for few-shot point cloud semantic segmentation. In the proposed network, the query point cloud features are aggregated based on the class-specific support features in different scales. Without using pooling operations, our method makes full use of all pixel-level features from the support samples. By better leveraging the support features for few-shot learning, the proposed method achieves the new state-of-the-art performance, with 15\% less inference time, over existing few-shot 3D point cloud segmentation models on the S3DIS dataset and the ScanNet dataset. | 翻訳日:2023-03-29 16:59:46 公開日:2023-03-28 |
# 構造化動的価格:グローバル収縮モデルにおける最適後悔 Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model ( http://arxiv.org/abs/2303.15652v1 ) ライセンス: Link先を確認 | Rashmi Ranjan Bhuyan, Adel Javanmard, Sungchul Kim, Gourab Mukherjee, Ryan A. Rossi, Tong Yu, Handong Zhao | (参考訳) 我々は,多数の顧客セグメントにまたがる累積利益を最大化することが目的のストリーム縦型データ集合における動的価格戦略を検討する。
消費者の好みと価格の感度が時間とともに変化する動的プロビットモデルを考える。
類似した特性を共有する消費者が同様の方法で行動するというよく知られた発見に基づき、異なるセグメントをまたいだ消費者の嗜好を空間的自己回帰(sar)モデルによってよく近似できると仮定するグローバルな収縮構造を考える。
このようなストリーム型縦型設定では,モデルパラメータのシーケンスを事前に知っている透視型と比較して,予測した収益損失を後悔して,動的価格政策のパフォーマンスを計測する。
本稿では,ペナルティ化された確率的勾配降下(psgd)に基づく価格政策を提案し,その後悔を時間関数,モデルパラメータの時間変動性,および顧客セグメントにまたがる自己相関ネットワーク構造の強度として明確に特徴付ける。
提案した政策の漸近的最適性を示すだけでなく,未解決モデルに基づく政策として利用可能な構造情報を組み込むことが,上記の設定において極めて最適であることを示す。 We consider dynamic pricing strategies in a streamed longitudinal data set-up where the objective is to maximize, over time, the cumulative profit across a large number of customer segments. We consider a dynamic probit model with the consumers' preferences as well as price sensitivity varying over time. Building on the well-known finding that consumers sharing similar characteristics act in similar ways, we consider a global shrinkage structure, which assumes that the consumers' preferences across the different segments can be well approximated by a spatial autoregressive (SAR) model. In such a streamed longitudinal set-up, we measure the performance of a dynamic pricing policy via regret, which is the expected revenue loss compared to a clairvoyant that knows the sequence of model parameters in advance. We propose a pricing policy based on penalized stochastic gradient descent (PSGD) and explicitly characterize its regret as functions of time, the temporal variability in the model parameters as well as the strength of the auto-correlation network structure spanning the varied customer segments. Our regret analysis results not only demonstrate asymptotic optimality of the proposed policy but also show that for policy planning it is essential to incorporate available structural information as policies based on unshrunken models are highly sub-optimal in the aforementioned set-up. | 翻訳日:2023-03-29 16:59:21 公開日:2023-03-28 |
# 不変および等変場予測としての4次元パノプティカルセグメンテーション 4D Panoptic Segmentation as Invariant and Equivariant Field Prediction ( http://arxiv.org/abs/2303.15651v1 ) ライセンス: Link先を確認 | Minghan Zhu, Shizong Han, Hong Cai, Shubhankar Borse, Maani Ghaffari Jadidi, Fatih Porikli | (参考訳) 本稿では,4次元パノプティックセグメンテーションのための回転同変ニューラルネットワークを開発する。
4d panoptic segmentation(4d panoptic segmentation)は、lidarスキャンに基づいて道路上のセマンティッククラスとオブジェクトインスタンスを認識すると同時に、時間を越えたインスタンスに時間的一貫性のあるidを割り当てる、自動運転のための最近確立されたベンチマークタスクである。
運転シナリオは地上面上の回転と対称であることが観察された。
したがって、回転等価性はより良い一般化とより堅牢な特徴学習をもたらす。
具体的には,オブジェクトインスタンスのクラスタリング戦略を考察し,不変スカラー場と等価ベクトル場の予測として,中心性に基づくアプローチとオフセットに基づくアプローチを復元する。
他のサブタスクもこの観点からも統一されており、異なる不変および同変層はそれらの予測を容易にするように設計されている。
本研究では,Semantic KITTIの標準4Dパノプティクスセグメンテーションベンチマークを用いて,同変モデルが非等変モデルと比較して計算コストを低くして高い精度を達成することを示す。
さらに,本手法は,新しい最先端性能を設定し,SemanticKITTI 4D Panoptic Segmentation Leaderboardで1位を獲得している。 In this paper, we develop rotation-equivariant neural networks for 4D panoptic segmentation. 4D panoptic segmentation is a recently established benchmark task for autonomous driving, which requires recognizing semantic classes and object instances on the road based on LiDAR scans, as well as assigning temporally consistent IDs to instances across time. We observe that the driving scenario is symmetric to rotations on the ground plane. Therefore, rotation-equivariance could provide better generalization and more robust feature learning. Specifically, we review the object instance clustering strategies, and restate the centerness-based approach and the offset-based approach as the prediction of invariant scalar fields and equivariant vector fields. Other sub-tasks are also unified from this perspective, and different invariant and equivariant layers are designed to facilitate their predictions. Through evaluation on the standard 4D panoptic segmentation benchmark of SemanticKITTI, we show that our equivariant models achieve higher accuracy with lower computational costs compared to their non-equivariant counterparts. Moreover, our method sets the new state-of-the-art performance and achieves 1st place on the SemanticKITTI 4D Panoptic Segmentation leaderboard. | 翻訳日:2023-03-29 16:58:59 公開日:2023-03-28 |
# stylediffusion:テキストベースの編集のためのプロンプトエンベディングインバージョン StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing ( http://arxiv.org/abs/2303.15649v1 ) ライセンス: Link先を確認 | Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, Jian Yang | (参考訳) 重要な研究は、画像編集のための事前訓練された拡散モデルの驚くべきキャパシティを活用することに焦点を当てている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
しかし,(1)選抜地域における不満足な結果と,非選抜地域における予期せぬ変化の2つの問題に苦しむ。
2) 入力画像にすべての視覚オブジェクトを含める場合には, 注意深いテキストプロンプトの編集が必要である。
そこで本研究では,(1)有向層における値線形ネットワークの入力を最適化するだけで,実画像の再構成に十分強力である,という2つの改良点を提案する。
2) 対象に類似した注意図を編集後保存するための注意規則化を提案し, 重要な構造的変化を招くことなく, 正確なスタイルの編集を行えるようにした。
さらに,分類器なし指導の無条件分岐に用いる編集技術や,p2pが使用する条件分岐技術も改良した。
様々な画像に対する広範囲な実験的なプロンプト編集結果から,本手法が既存および同時処理よりも優れた編集能力を有することを示す。 A significant research effort is focused on exploiting the amazing capacities of pretrained diffusion models for the editing of images. They either finetune the model, or invert the image in the latent space of the pretrained model. However, they suffer from two problems: (1) Unsatisfying results for selected regions, and unexpected changes in nonselected regions. (2) They require careful text prompt editing where the prompt should include all visual objects in the input image. To address this, we propose two improvements: (1) Only optimizing the input of the value linear network in the cross-attention layers, is sufficiently powerful to reconstruct a real image. (2) We propose attention regularization to preserve the object-like attention maps after editing, enabling us to obtain accurate style editing without invoking significant structural changes. We further improve the editing technique which is used for the unconditional branch of classifier-free guidance, as well as the conditional one as used by P2P. Extensive experimental prompt-editing results on a variety of images, demonstrate qualitatively and quantitatively that our method has superior editing capabilities than existing and concurrent works. | 翻訳日:2023-03-29 16:58:38 公開日:2023-03-28 |
# スケールダウンからスケールアップ:パラメータ効率の良いファインチューニングのガイド Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2303.15647v1 ) ライセンス: Link先を確認 | Vladislav Lialin, Vijeta Deshpande, Anna Rumshisky | (参考訳) 本稿では,2019年2月から2023年2月までに発行された40以上の論文を対象としたパラメータ効率の良い微調整手法の概要と比較を行った。
これらの手法は,少数のパラメータのみを訓練することで,微調整された大規模言語モデルの実用性と非現実性を解決することを目的としている。
幅広い方法をカバーする分類法を提供し、実生活効率と微調整された数十億規模の言語モデルに特定の焦点をあてた詳細な比較方法を提案する。 This paper presents a systematic overview and comparison of parameter-efficient fine-tuning methods covering over 40 papers published between February 2019 and February 2023. These methods aim to resolve the infeasibility and impracticality of fine-tuning large language models by only training a small set of parameters. We provide a taxonomy that covers a broad range of methods and present a detailed method comparison with a specific focus on real-life efficiency and fine-tuning multibillion-scale language models. | 翻訳日:2023-03-29 16:58:18 公開日:2023-03-28 |
# DisWOT: 学生がトレーニングなしで蒸留するアーキテクチャ検索 DisWOT: Student Architecture Search for Distillation WithOut Training ( http://arxiv.org/abs/2303.15678v1 ) ライセンス: Link先を確認 | Peijie Dong, Lujun Li, Zimian Wei | (参考訳) 知識蒸留(KD)は,教師の指導のもと,軽量な学生モデルを改善するための効果的な訓練戦略である。
しかし、教師と学生のペア間で大きなアーキテクチャの違いは蒸留効果を制限している。
教師と学生のギャップを減らすための従来の適応蒸留法とは対照的に,教師にとって最高の学生アーキテクチャを探すための新しい学習自由フレームワークを探索する。
まず,バニラトレーニングの最適モデルは蒸留の勝者にはなれないことを実証的に示した。
第2に,教師-学生間の特徴意味論の類似性とサンプル関係が,最終蒸留性能と良好な相関関係があることを見出した。
そこで本研究では, セマンティックアクティベーションマップに条件付き類似度行列を効率的に測定し, 進化的アルゴリズムを用いて最適な学生を選択する。
このようにして、学生によるDisWOT(Distillation WithOut Training)の探索は、蒸留段階におけるモデルの性能を少なくとも180$\times$トレーニングアクセラレーションで大幅に向上させる。
さらに,新しい蒸留器やkdベースのゼロプロキシとして,類似度指標をdiswotに拡張した。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
私たちのプロジェクトとコードはhttps://lilujunai.github.io/DisWOT-CVPR2023/で利用可能です。 Knowledge distillation (KD) is an effective training strategy to improve the lightweight student models under the guidance of cumbersome teachers. However, the large architecture difference across the teacher-student pairs limits the distillation gains. In contrast to previous adaptive distillation methods to reduce the teacher-student gap, we explore a novel training-free framework to search for the best student architectures for a given teacher. Our work first empirically show that the optimal model under vanilla training cannot be the winner in distillation. Secondly, we find that the similarity of feature semantics and sample relations between random-initialized teacher-student networks have good correlations with final distillation performances. Thus, we efficiently measure similarity matrixs conditioned on the semantic activation maps to select the optimal student via an evolutionary algorithm without any training. In this way, our student architecture search for Distillation WithOut Training (DisWOT) significantly improves the performance of the model in the distillation stage with at least 180$\times$ training acceleration. Additionally, we extend similarity metrics in DisWOT as new distillers and KD-based zero-proxies. Our experiments on CIFAR, ImageNet and NAS-Bench-201 demonstrate that our technique achieves state-of-the-art results on different search spaces. Our project and code are available at https://lilujunai.github.io/DisWOT-CVPR2023/. | 翻訳日:2023-03-29 16:51:29 公開日:2023-03-28 |
# 屋外拡張現実のためのクロスビュービジュアルジオローカライズ Cross-View Visual Geo-Localization for Outdoor Augmented Reality ( http://arxiv.org/abs/2303.15676v1 ) ライセンス: Link先を確認 | Niluthpol Chowdhury Mithun, Kshitij Minhas, Han-Pang Chiu, Taragay Oskiper, Mikhail Sizintsev, Supun Samarasekera, Rakesh Kumar | (参考訳) アウトドア拡張現実(ar)体験を確実にするためには、グローバルオリエンテーションとロケーションの正確な推定が不可欠である。
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
近年,ニューラルネットワークに基づく手法がクロスビューマッチングにおいて最先端のパフォーマンスを示している。
しかし、以前の作業のほとんどは位置推定にのみ焦点を合わせ、方向を無視し、屋外arアプリケーションでは要件を満たせない。
本稿では,新しいトランスフォーマリン・ニューラル・ネットワークに基づくモデルと,位置推定と方向推定のための修正三重項ランキングロスを提案する。
いくつかのベンチマーククロスビュージオローカライズデータセットにおける実験は、このモデルが最先端のパフォーマンスを達成していることを示している。
さらに,ロバストな連続的ジオローカライズのためにナビゲーションパイプラインからの時間情報を活用することにより,単一の画像クエリに基づくジオローカライズ手法を拡張する手法を提案する。
大規模実世界の複数の映像を実験した結果,本手法は高精度で安定したar挿入が可能となった。 Precise estimation of global orientation and location is critical to ensure a compelling outdoor Augmented Reality (AR) experience. We address the problem of geo-pose estimation by cross-view matching of query ground images to a geo-referenced aerial satellite image database. Recently, neural network-based methods have shown state-of-the-art performance in cross-view matching. However, most of the prior works focus only on location estimation, ignoring orientation, which cannot meet the requirements in outdoor AR applications. We propose a new transformer neural network-based model and a modified triplet ranking loss for joint location and orientation estimation. Experiments on several benchmark cross-view geo-localization datasets show that our model achieves state-of-the-art performance. Furthermore, we present an approach to extend the single image query-based geo-localization approach by utilizing temporal information from a navigation pipeline for robust continuous geo-localization. Experimentation on several large-scale real-world video sequences demonstrates that our approach enables high-precision and stable AR insertion. | 翻訳日:2023-03-29 16:51:09 公開日:2023-03-28 |
# 凸多段確率最適化の数値解法 Numerical Methods for Convex Multistage Stochastic Optimization ( http://arxiv.org/abs/2303.15672v1 ) ライセンス: Link先を確認 | Guanghui Lan and Alexander Shapiro | (参考訳) 確率的プログラミング(SP)、確率的最適制御(SOC)、マルコフ決定過程(MDP)において、確率的環境における逐次決定を伴う最適化問題を検討した。
本稿では主にSPとSOCのモデリング手法に焦点を当てる。
これらのフレームワークでは、考慮された問題が凸している自然な状況がある。
逐次最適化に対する古典的なアプローチは動的プログラミングに基づいている。
いわゆる「次元の曲線」の問題があり、状態変数の次元が増加するにつれて計算の複雑さが指数関数的に増加する。
凸多段確率問題の解法における最近の進歩は、動的プログラミング方程式のコスト対ゴ(値)関数を近似した切断平面に基づいている。
動的設定における切削平面型アルゴリズムは,本論文の主要な話題の一つである。
また,多段階確率最適化問題に適用した確率近似型手法についても論じる。
計算複雑性の観点からは、これらの2種類の手法は互いに補完的であるように見える。
切断平面型メソッドは、多数のステージを持つが、比較的少ない状態(決定)変数を持つ多段問題を扱うことができる。
一方、確率近似型法は少数の段階のみを扱うことができるが、多数の決定変数を扱うことができる。 Optimization problems involving sequential decisions in a stochastic environment were studied in Stochastic Programming (SP), Stochastic Optimal Control (SOC) and Markov Decision Processes (MDP). In this paper we mainly concentrate on SP and SOC modelling approaches. In these frameworks there are natural situations when the considered problems are convex. Classical approach to sequential optimization is based on dynamic programming. It has the problem of the so-called ``Curse of Dimensionality", in that its computational complexity increases exponentially with increase of dimension of state variables. Recent progress in solving convex multistage stochastic problems is based on cutting planes approximations of the cost-to-go (value) functions of dynamic programming equations. Cutting planes type algorithms in dynamical settings is one of the main topics of this paper. We also discuss Stochastic Approximation type methods applied to multistage stochastic optimization problems. From the computational complexity point of view, these two types of methods seem to be complimentary to each other. Cutting plane type methods can handle multistage problems with a large number of stages, but a relatively smaller number of state (decision) variables. On the other hand, stochastic approximation type methods can only deal with a small number of stages, but a large number of decision variables. | 翻訳日:2023-03-29 16:50:55 公開日:2023-03-28 |
# colo-scrl:大腸内視鏡ビデオ検索のための自己教師付きコントラスト表現学習 Colo-SCRL: Self-Supervised Contrastive Representation Learning for Colonoscopic Video Retrieval ( http://arxiv.org/abs/2303.15671v1 ) ライセンス: Link先を確認 | Qingzhong Chen, Shilun Cai, Crystal Cai, Zefang Yu, Dahong Qian, Suncheng Xiang | (参考訳) ポリープ治療の重要な部分である大腸内視鏡ビデオ検索は,大腸癌の予防と治療において大きな臨床的意義を持っている。
しかし,行動認識データセットで訓練された検索モデルは,その間の領域ギャップが大きいため,大腸鏡下データセットでは不十分な検索結果を生成することが多い。
この問題を解決するために,coro-pairという大規模大腸内視鏡データセットを構築した。
このデータセットに基づいて、より堅牢な表現学習のために、Colo-SCRLと呼ばれるシンプルで効果的なトレーニング手法を提案する。
マスキングオートエンコーダを用いた再構築と運動量コントラストにより, 大腸の一般知識を洗練し, 検索性能を向上させることを目的としている。
私たちの知る限りでは、これは医療ビデオ検索にコントラスト学習パラダイムを採用する最初の試みです。
その結果,本手法は大腸内視鏡的ビデオ検索作業における最先端の手法よりも優れていた。 Colonoscopic video retrieval, which is a critical part of polyp treatment, has great clinical significance for the prevention and treatment of colorectal cancer. However, retrieval models trained on action recognition datasets usually produce unsatisfactory retrieval results on colonoscopic datasets due to the large domain gap between them. To seek a solution to this problem, we construct a large-scale colonoscopic dataset named Colo-Pair for medical practice. Based on this dataset, a simple yet effective training method called Colo-SCRL is proposed for more robust representation learning. It aims to refine general knowledge from colonoscopies through masked autoencoder-based reconstruction and momentum contrast to improve retrieval performance. To the best of our knowledge, this is the first attempt to employ the contrastive learning paradigm for medical video retrieval. Empirical results show that our method significantly outperforms current state-of-the-art methods in the colonoscopic video retrieval task. | 翻訳日:2023-03-29 16:50:37 公開日:2023-03-28 |
# 低リソース言語におけるデータ効率の良いテキスト音声の教師なし事前学習 Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low Resource Languages ( http://arxiv.org/abs/2303.15669v1 ) ライセンス: Link先を確認 | Seongyeon Park, Myungseo Song, Bohyung Kim and Tae-Hyun Oh | (参考訳) ニューラルテキスト音声モデル(TTS)は、大量の転写音声で訓練されたときに、自然な人間の音声を合成することができる。
しかし、このような大規模な転写データの収集は高価である。
本稿では,大規模音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
事前トレーニングを行うことで、ターゲット下流TSタスクのモデルをトレーニングするために必要なペア書き起こしデータの量を大幅に削減できる。
主なアイデアは、非ワープされたメル-スペクトログラムを歪んだものから再構成するためにモデルを事前訓練することであり、入力シーケンスと出力シーケンスの間の適切な時間的割り当て関係を学習することができる。
さらに,微調整におけるデータ効率をさらに向上するデータ拡張手法を提案する。
提案手法の低リソース言語シナリオにおける有効性を実証的に実証し,競合する手法と比較して優れた性能を実現する。
コードとオーディオのサンプルは、https://github.com/cnaigithub/speechdewarpingで入手できる。 Neural text-to-speech (TTS) models can synthesize natural human speech when trained on large amounts of transcribed speech. However, collecting such large-scale transcribed data is expensive. This paper proposes an unsupervised pre-training method for a sequence-to-sequence TTS model by leveraging large untranscribed speech data. With our pre-training, we can remarkably reduce the amount of paired transcribed data required to train the model for the target downstream TTS task. The main idea is to pre-train the model to reconstruct de-warped mel-spectrograms from warped ones, which may allow the model to learn proper temporal assignment relation between input and output sequences. In addition, we propose a data augmentation method that further improves the data efficiency in fine-tuning. We empirically demonstrate the effectiveness of our proposed method in low-resource language scenarios, achieving outstanding performance compared to competing methods. The code and audio samples are available at: https://github.com/cnaigithub/SpeechDewarping | 翻訳日:2023-03-29 16:50:22 公開日:2023-03-28 |
# 局所変分量子コンパイルによるグリーン関数の計算 Computation of Green's function by local variational quantum compilation ( http://arxiv.org/abs/2303.15667v1 ) ライセンス: Link先を確認 | Shota Kanasugi, Shoichiro Tsutsui, Yuya O. Nakagawa, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato | (参考訳) グリーン関数の計算は、強い相関系のような量子多体系の性質を研究するために重要である。
グリーン関数の高精度な計算は古典的コンピュータでは非常に難しい作業であるが、量子コンピュータの開発により、古典的でない大規模システムでもグリーン関数を高い精度で計算できる可能性がある。
本稿では,小型サブシステムの最適化によって構築された低深度量子回路を用いて,大規模量子システムの時間発展をシミュレートする局所変分量子コンパイル(LVQC)アルゴリズムに基づく実時間グリーン関数の効率的な計算法を提案する。
提案手法では,グリーン関数の計算に浅部量子回路が必要であり,計算資源に依存して,短期雑音や長期故障耐性の量子コンピュータに利用することができる。
本研究では, 1 次元および 2 次元フェルミ・ハバードモデルのグリーン関数を最大 4\times4$ site lattice (32 qubits) まで数値シミュレーションし,トロッター分解に基づく標準法と比較し,プロトコルの有効性を示す。
最後に,大規模Fermi-Hubbardモデルに対するゲート数を詳細に推定し,トロッター分解に対する手法の利点を示す。 Computation of the Green's function is crucial to study the properties of quantum many-body systems such as strongly correlated systems. Although the high-precision calculation of the Green's function is a notoriously challenging task on classical computers, the development of quantum computers may enable us to compute the Green's function with high accuracy even for classically-intractable large-scale systems. Here, we propose an efficient method to compute the real-time Green's function based on the local variational quantum compilation (LVQC) algorithm, which simulates the time evolution of a large-scale quantum system using a low-depth quantum circuit constructed through optimization on a smaller-size subsystem. Our method requires shallow quantum circuits to calculate the Green's function and can be utilized on both near-term noisy intermediate-scale and long-term fault-tolerant quantum computers depending on the computational resources we have. We perform a numerical simulation of the Green's function for the one- and two-dimensional Fermi-Hubbard model up to $4\times4$ sites lattice (32 qubits) and demonstrate the validity of our protocol compared to a standard method based on the Trotter decomposition. We finally present a detailed estimation of the gate count for the large-scale Fermi-Hubbard model, which also illustrates the advantage of our method over the Trotter decomposition. | 翻訳日:2023-03-29 16:50:04 公開日:2023-03-28 |
# 量子データの特徴マップ:確率的操作 Feature Map for Quantum Data: Probabilistic Manipulation ( http://arxiv.org/abs/2303.15665v1 ) ライセンス: Link先を確認 | Hyeokjea Kwon, Hojun Lee, and Joonwoo Bae | (参考訳) 教師付き学習におけるカーネルトリックは、特徴写像によって内部積の変換を示し、与えられた内部積に従ってより大きなヒルベルト空間でのトレーニングデータを再構成する。
量子特徴写像は、量子資源をMLアルゴリズムに燃やすことにより、量子状態のヒルベルト空間を持つインスタンスに対応する。
本研究では, 量子状態空間は, 測定仮定が内積を特徴づけること, 古典的データから生成した量子状態の操作がデータ点の識別可能性を高めることができないことを指摘した。
本稿では,教師付き学習アルゴリズムを改善するために,量子状態の確率的操作として量子データの特徴マップを提案する。 The kernel trick in supervised learning signifies transformations of an inner product by a feature map, which then restructures training data in a larger Hilbert space according to an endowed inner product. A quantum feature map corresponds to an instance with a Hilbert space of quantum states by fueling quantum resources to ML algorithms. In this work, we point out that the quantum state space is specific such that a measurement postulate characterizes an inner product and that manipulation of quantum states prepared from classical data cannot enhance the distinguishability of data points. We present a feature map for quantum data as a probabilistic manipulation of quantum states to improve supervised learning algorithms. | 翻訳日:2023-03-29 16:49:40 公開日:2023-03-28 |
# レーザー粉末層核融合添加剤製造におけるビスマステルリドの熱電率の予測 Predicting Thermoelectric Power Factor of Bismuth Telluride During Laser Powder Bed Fusion Additive Manufacturing ( http://arxiv.org/abs/2303.15663v1 ) ライセンス: Link先を確認 | Ankita Agarwal (1), Tanvi Banerjee (1), Joy Gockel (2), Saniya LeBlanc (3), Joe Walker (4), John Middendorf (4) ((1) Wright State University, (2) Colorado School of Mines, (3) The George Washington University, (4) Open Additive, LLC) | (参考訳) レーザー粉体層融合のような添加物製造(am)プロセスは、フリーフォーム部分形状が形成されるまで粉体を層状に拡散・溶融させることで、物体を作製することができる。
AMプロセスに関わる材料の特性を改善するためには, 材料特性を処理条件の関数として予測することが重要である。
熱電材料において、動力係数(英: power factor)とは、材料の熱を電気に変換する効率の指標である。
従来, 各種熱電材料の材料特性を様々な手法で予測してきたが, AM過程におけるビスマステルル化ビスマス(Bi2Te3)のパワーファクターを予測する機械学習モデルの実装は検討されていない。
これはBi2Te3が低温応用の標準材料であるため重要である。
そこで我々は,Bi2Te3のAM中に収集した製造処理パラメータとセンサ内モニタリングデータを用いて,その熱電率を予測するために,異なる機械学習モデルをトレーニングした。
80%のトレーニングと20%のテストデータを用いて教師あり機械学習手法を実装し,さらに,材料のパワーファクタの予測に最も適した重要な処理パラメータとその場センサ特徴を特定するために置換特徴重要度法を応用した。
ランダムフォレスト,アダブースト分類器,袋詰め分類器などのアンサンブルに基づく手法は,袋詰め分類器モデルにより最大90%の精度で電力係数の予測に最適であった。
さらに,電力係数などの材料製造特性を特徴付けるために,トップ15の処理パラメータとその場センサ機能を見出した。
これらの特徴は、熱電材料のパワーファクターを最大化し、この材料を用いた製品の品質を向上させるためにさらに最適化される。 An additive manufacturing (AM) process, like laser powder bed fusion, allows for the fabrication of objects by spreading and melting powder in layers until a freeform part shape is created. In order to improve the properties of the material involved in the AM process, it is important to predict the material characterization property as a function of the processing conditions. In thermoelectric materials, the power factor is a measure of how efficiently the material can convert heat to electricity. While earlier works have predicted the material characterization properties of different thermoelectric materials using various techniques, implementation of machine learning models to predict the power factor of bismuth telluride (Bi2Te3) during the AM process has not been explored. This is important as Bi2Te3 is a standard material for low temperature applications. Thus, we used data about manufacturing processing parameters involved and in-situ sensor monitoring data collected during AM of Bi2Te3, to train different machine learning models in order to predict its thermoelectric power factor. We implemented supervised machine learning techniques using 80% training and 20% test data and further used the permutation feature importance method to identify important processing parameters and in-situ sensor features which were best at predicting power factor of the material. Ensemble-based methods like random forest, AdaBoost classifier, and bagging classifier performed the best in predicting power factor with the highest accuracy of 90% achieved by the bagging classifier model. Additionally, we found the top 15 processing parameters and in-situ sensor features to characterize the material manufacturing property like power factor. These features could further be optimized to maximize power factor of the thermoelectric material and improve the quality of the products built using this material. | 翻訳日:2023-03-29 16:49:29 公開日:2023-03-28 |
# chatgpt4pcgコンペティション:science birdsのキャラクターライクなレベル生成 ChatGPT4PCG Competition: Character-like Level Generation for Science Birds ( http://arxiv.org/abs/2303.15662v1 ) ライセンス: Link先を確認 | Pittawat Taveekitworachai, Febri Abdullah, Mury F. Dewantoro, Ruck Thawonmas, Julian Togelius, Jochen Renz | (参考訳) 本稿では2023年のIEEE Conference on GamesでChatGPT4PCGコンペティションを開催する。
このコンペティションの目的は、参加者がChatGPTの効果的なプロンプトを作成することであり、高い安定性とキャラクタライクな品質でScience Birdsレベルを創出することである。
ChatGPTはOpenAIが開発した会話エージェントである。
Science Birdsは、Angry Birdsのようなレベルを設計することはゲーム内重力による簡単な作業ではないため、競争プラットフォームとして選択される。
競争への参入障壁を低くするため、我々はこの課題を大文字化英字文字の生成に限定する。
ここで、生成されたレベルの品質は、与えられた文字の安定性と類似性によって決定される。
参加者に参照のためのサンプルプロンプトが提供される。
複数の文字でテストすることで,修正版がレベル安定性と類似性に及ぼす影響を判定する実験を行った。
私たちの知る限り、ChatGPT4PCGはこの種のコンペティションとしては初めてであり、手続き的コンテンツ生成における迅速なエンジニアリングに対する熱意を刺激することを期待しています。 This paper presents the first ChatGPT4PCG Competition at the 2023 IEEE Conference on Games. The objective of this competition is for participants to create effective prompts for ChatGPT--enabling it to generate Science Birds levels with high stability and character-like qualities--fully using their creativity as well as prompt engineering skills. ChatGPT is a conversational agent developed by OpenAI. Science Birds is selected as the competition platform because designing an Angry Birds-like level is not a trivial task due to the in-game gravity; the playability of the levels is determined by their stability. To lower the entry barrier to the competition, we limit the task to the generation of capitalized English alphabetical characters. Here, the quality of the generated levels is determined by their stability and similarity to the given characters. A sample prompt is provided to participants for their reference. An experiment is conducted to determine the effectiveness of its modified versions on level stability and similarity by testing them on several characters. To the best of our knowledge, we believe that ChatGPT4PCG is the first competition of its kind and hope to inspire enthusiasm for prompt engineering in procedural content generation. | 翻訳日:2023-03-29 16:48:59 公開日:2023-03-28 |
# トット盆地における地下水流動の境界-溶出マッピング Boundary-to-Solution Mapping for Groundwater Flows in a Toth Basin ( http://arxiv.org/abs/2303.15659v1 ) ライセンス: Link先を確認 | Jingwei Sun, Jun Li, Yonghong Hao, Cuiting Qi, Chunmei Ma, Huazhi Sun, Negash Begashaw, Gurcan Comet, Yi Sun and Qi Wang | (参考訳) 本稿では, 深層学習を用いた任意の上層および下層地形のトート盆地における地下水流動方程式の解法を提案する。
従来の数値解法の代わりに、DeepONetを使って境界-解法マッピングを生成する。
このマッピングは、物理領域の幾何学と境界条件を入力として地下水流動方程式の定常解を出力する。
DeepONetを実装するために、著者らは、truncated Fourierシリーズまたは断片的線形表現を用いて、トップとボトムの境界を近似した。
彼らはDeepONetの2つの異なる実装を提示する: 1つはトース盆地を矩形計算領域に埋め込むもので、もう1つは任意の上と下の境界を持つトース盆地を非線形変換によって矩形計算領域にマッピングするものである。
彼らは上部のディリクレとロビン境界条件についてディープネットを実装し、下部境界のノイマン境界条件をそれぞれ実装した。
筆者らは, この深層学習ツールを用いて, 表層と底部の境界面の流動パターンに対する表面地形の影響を任意の測地線で検討した。
地表面の平均勾配が長距離輸送を促進するのに対し、局所曲率は局所的な循環を制御する。
さらに,底面の斜面が地下水流の長距離輸送に重大な影響を与えることを発見した。
そこで本研究では, 深層学習による地下水流動方程式の解法を考案し, 地表地形が地下水流動に及ぼす影響について検討する。 In this paper, the authors propose a new approach to solving the groundwater flow equation in the Toth basin of arbitrary top and bottom topographies using deep learning. Instead of using traditional numerical solvers, they use a DeepONet to produce the boundary-to-solution mapping. This mapping takes the geometry of the physical domain along with the boundary conditions as inputs to output the steady state solution of the groundwater flow equation. To implement the DeepONet, the authors approximate the top and bottom boundaries using truncated Fourier series or piecewise linear representations. They present two different implementations of the DeepONet: one where the Toth basin is embedded in a rectangular computational domain, and another where the Toth basin with arbitrary top and bottom boundaries is mapped into a rectangular computational domain via a nonlinear transformation. They implement the DeepONet with respect to the Dirichlet and Robin boundary condition at the top and the Neumann boundary condition at the impervious bottom boundary, respectively. Using this deep-learning enabled tool, the authors investigate the impact of surface topography on the flow pattern by both the top surface and the bottom impervious boundary with arbitrary geometries. They discover that the average slope of the top surface promotes long-distance transport, while the local curvature controls localized circulations. Additionally, they find that the slope of the bottom impervious boundary can seriously impact the long-distance transport of groundwater flows. Overall, this paper presents a new and innovative approach to solving the groundwater flow equation using deep learning, which allows for the investigation of the impact of surface topography on groundwater flow patterns. | 翻訳日:2023-03-29 16:48:35 公開日:2023-03-28 |
# 歌の美しさを翻訳する:共同学習してメロディを調整し、歌詞を翻訳する Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics ( http://arxiv.org/abs/2303.15705v1 ) ライセンス: Link先を確認 | Chengxi Li, Kai Fan, Jiajun Bu, Boxing Chen, Zhongqiang Huang, Zhi Yu | (参考訳) 歌の翻訳は、歌詞の翻訳と音符のアライメントの両方を必要とするため、歌詞を伴奏のメロディに合わせて歌うことができる。
本稿では,歌詞翻訳と歌詞・メロディアライメントを共同でモデル化し,自動翻訳に対する包括的解法である適応型グループ化(ltag)による歌詞・メロディ翻訳を提案する。
これは、ソース歌詞を同時に翻訳し、アダプティブノートグルーピングモジュールを通じて各デコードステップにおけるアライメントノートの数を決定することができる、新しいエンコーダ・デコーダフレームワークである。
データの不足に対処するため、我々はこのタスク用にアノテートされた少量のトレーニングデータを委託し、バックトランスレーションを通じて大量の拡張データを使用しました。
英語と中国語の翻訳データを用いた実験では, 自動評価と人間評価の両方において, モデルの有効性が示された。 Song translation requires both translation of lyrics and alignment of music notes so that the resulting verse can be sung to the accompanying melody, which is a challenging problem that has attracted some interests in different aspects of the translation process. In this paper, we propose Lyrics-Melody Translation with Adaptive Grouping (LTAG), a holistic solution to automatic song translation by jointly modeling lyrics translation and lyrics-melody alignment. It is a novel encoder-decoder framework that can simultaneously translate the source lyrics and determine the number of aligned notes at each decoding step through an adaptive note grouping module. To address data scarcity, we commissioned a small amount of training data annotated specifically for this task and used large amounts of augmented data through back-translation. Experiments conducted on an English-Chinese song translation data set show the effectiveness of our model in both automatic and human evaluation. | 翻訳日:2023-03-29 16:43:01 公開日:2023-03-28 |
# 情報指向ランダムウォークを用いた分散グラフ埋め込み Distributed Graph Embedding with Information-Oriented Random Walks ( http://arxiv.org/abs/2303.15702v1 ) ライセンス: Link先を確認 | Peng Fang, Arijit Khan, Siqiang Luo, Fang Wang, Dan Feng, Zhenli Li, Wei Yin, Yuchao Cao | (参考訳) グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
10億を超えるエッジを持つTwitter上のリンク予測など、大規模なグラフに効率よく効果的な埋め込みを学習することの重要性が強調されている。
既存のグラフ埋め込みメソッドの多くは、高いデータスケーラビリティに到達できない。
本稿では,数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークDistGERを提案する。
DistGERは情報中心のランダムウォークを漸進的に計算する。
さらに、マルチプロキシ対応、ストリーミング、並列グラフパーティショニング戦略を活用し、高いローカルパーティショニング品質とマシン間のワークロード分散を同時に達成する。
DistGERはまた、分散Skip-Gram学習モデルを改善し、アクセス局所性、CPUスループット、同期効率を最適化することでノード埋め込みを生成する。
実世界のグラフの実験では、KnightKing、DistDGL、Pytorch-BigGraphといった最先端の分散グラフ埋め込みフレームワークと比較して、DistGERは2.33x-129xの加速、マシン間通信の45%の削減、そして、ダウンストリームタスクにおける10%の有効性向上を示している。 Graph embedding maps graph nodes to low-dimensional vectors, and is widely adopted in machine learning tasks. The increasing availability of billion-edge graphs underscores the importance of learning efficient and effective embeddings on large graphs, such as link prediction on Twitter with over one billion edges. Most existing graph embedding methods fall short of reaching high data scalability. In this paper, we present a general-purpose, distributed, information-centric random walk-based graph embedding framework, DistGER, which can scale to embed billion-edge graphs. DistGER incrementally computes information-centric random walks. It further leverages a multi-proximity-aware, streaming, parallel graph partitioning strategy, simultaneously achieving high local partition quality and excellent workload balancing across machines. DistGER also improves the distributed Skip-Gram learning model to generate node embeddings by optimizing the access locality, CPU throughput, and synchronization efficiency. Experiments on real-world graphs demonstrate that compared to state-of-the-art distributed graph embedding frameworks, including KnightKing, DistDGL, and Pytorch-BigGraph, DistGER exhibits 2.33x-129x acceleration, 45% reduction in cross-machines communication, and > 10% effectiveness improvement in downstream tasks. | 翻訳日:2023-03-29 16:42:43 公開日:2023-03-28 |
# 事前画像の導入による乳癌リスク予測の強化 Enhancing Breast Cancer Risk Prediction by Incorporating Prior Images ( http://arxiv.org/abs/2303.15699v1 ) ライセンス: Link先を確認 | Hyeonsoo Lee, Junha Kim, Eunkyung Park, Minjeong Kim, Taesoo Kim, Thijs Kooi | (参考訳) 近年, 深層学習モデルでは乳がんリスクを予測し, スクリーニング戦略を可能にする可能性が示されたが, 乳がんの経時的変化は考慮されていない。
本稿では,乳がんリスク予測のための新しい手法 prime+ を提案する。この手法はトランスフォーマデコーダを用いて乳がんリスク予測を行う。
16,113件の検診をデータセット上で検証し,乳房密度の変化などの乳房x線写真の変化パターンを効果的に捉えることにより,乳がんリスク予測の短期的・長期的改善が期待できることを示した。
実験結果から,C-インデックスは0.68から0.73(p < 0.05)に増加し,最先端モデルよりも統計的に顕著な性能向上が得られた。 Recently, deep learning models have shown the potential to predict breast cancer risk and enable targeted screening strategies, but current models do not consider the change in the breast over time. In this paper, we present a new method, PRIME+, for breast cancer risk prediction that leverages prior mammograms using a transformer decoder, outperforming a state-of-the-art risk prediction method that only uses mammograms from a single time point. We validate our approach on a dataset with 16,113 exams and further demonstrate that it effectively captures patterns of changes from prior mammograms, such as changes in breast density, resulting in improved short-term and long-term breast cancer risk prediction. Experimental results show that our model achieves a statistically significant improvement in performance over the state-of-the-art based model, with a C-index increase from 0.68 to 0.73 (p < 0.05) on held-out test sets. | 翻訳日:2023-03-29 16:42:15 公開日:2023-03-28 |
# TFS-ViT:ドメイン一般化のためのトークンレベル機能スティル化 TFS-ViT: Token-Level Feature Stylization for Domain Generalization ( http://arxiv.org/abs/2303.15698v1 ) ライセンス: Link先を確認 | Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Gustavo A. Vargas Hakim, David Osowiechi, Ismail Ben Ayed, Christian Desrosiers | (参考訳) 畳み込みニューラルネットワーク(cnns)のような標準的なディープラーニングモデルは、トレーニング中に見られない領域に一般化する能力がない。
この問題は、ソースとターゲットデータが同一の i.d. 分布から来るようなモデルの一般的な仮定がしばしば間違っているためである。
近年、視覚変換器(ViT)は幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
しかし、新しい領域に一般化する能力についての研究はほとんどない。
本稿では,新たなドメインを合成することで,vitsの性能を向上し,データを非認識化するための第1のトークンレベル特徴スタイライゼーション(tfs-vit)手法を提案する。
本手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。
さらに,クラス (cls) トークンのアテンションマップを用いて,異なる画像領域に対応するトークンの正規化統計の計算と混合を行う,アテンションアウェアスタイライゼーションの新たな戦略により,このアプローチをさらに改善する。
提案手法はバックボーンモデルの選択に柔軟であり、計算複雑性が無視できる任意のvitベースのアーキテクチャに容易に適用できる。
総合的な実験により、ドメイン一般化のための5つの挑戦的なベンチマークにおいて、我々のアプローチが最先端のパフォーマンスを達成できることを示し、異なるタイプのドメインシフトに対処する能力を示す。
実装は以下の通りである。 {https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization}。 Standard deep learning models such as convolutional neural networks (CNNs) lack the ability of generalizing to domains which have not been seen during training. This problem is mainly due to the common but often wrong assumption of such models that the source and target data come from the same i.i.d. distribution. Recently, Vision Transformers (ViTs) have shown outstanding performance for a broad range of computer vision tasks. However, very few studies have investigated their ability to generalize to new domains. This paper presents a first Token-level Feature Stylization (TFS-ViT) approach for domain generalization, which improves the performance of ViTs to unseen data by synthesizing new domains. Our approach transforms token features by mixing the normalization statistics of images from different domains. We further improve this approach with a novel strategy for attention-aware stylization, which uses the attention maps of class (CLS) tokens to compute and mix normalization statistics of tokens corresponding to different image regions. The proposed method is flexible to the choice of backbone model and can be easily applied to any ViT-based architecture with a negligible increase in computational complexity. Comprehensive experiments show that our approach is able to achieve state-of-the-art performance on five challenging benchmarks for domain generalization, and demonstrate its ability to deal with different types of domain shifts. The implementation is available at: {https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization}. | 翻訳日:2023-03-29 16:41:50 公開日:2023-03-28 |
# モデルと評価:多言語テキスト分類における公平性に向けて Model and Evaluation: Towards Fairness in Multilingual Text Classification ( http://arxiv.org/abs/2303.15697v1 ) ライセンス: Link先を確認 | Nankai Lin, Junheng He, Zhenghang Tang, Dong Zhou, Aimin Yang | (参考訳) 近年,テキスト分類モデルにおけるバイアスに対処する研究が増えている。
しかし、既存の研究は主に単言語テキスト分類モデルの公平性に焦点を当てており、多言語テキスト分類の公平性の研究はいまだに限られている。
本稿では,多言語テキスト分類の課題に着目し,コントラスト学習に基づく多言語テキスト分類のためのデバイアスフレームワークを提案する。
提案手法はいかなる外部言語リソースにも依存せず,他の言語にも拡張可能である。
このモデルは、多言語テキスト表現モジュール、language fusionモジュール、text debiasingモジュール、text classificationモジュールの4つのモジュールを含んでいる。
多言語テキスト表現モジュールは、テキストを表現するために多言語事前訓練された言語モデルを使用し、言語融合モジュールは、異なる言語のセマンティックスペースをコントラスト学習を通じて一貫性のあるものにし、テキストデバイアスモジュールはコントラスト学習を使用して、モデルに機密属性の情報を特定することができないようにする。
テキスト分類モジュールは、多言語テキスト分類の基本タスクを完成させる。
また,多言語テキスト分類の公平性に関する既存の研究は,評価モードでは比較的単純である。
公平性の評価方法は単言語同値差評価方法と同じであり、単一の言語で評価を行う。
本稿では,多言語間等性差,多言語間等性差,多言語間等性性能差,公平性戦略の破壊性を評価する多言語テキスト分類のための多次元公平性評価フレームワークを提案する。
我々は,多言語テキストフェアネスタスクに対して,より汎用的なデバイアス手法とより包括的な評価フレームワークを提供できることを願っている。 Recently, more and more research has focused on addressing bias in text classification models. However, existing research mainly focuses on the fairness of monolingual text classification models, and research on fairness for multilingual text classification is still very limited. In this paper, we focus on the task of multilingual text classification and propose a debiasing framework for multilingual text classification based on contrastive learning. Our proposed method does not rely on any external language resources and can be extended to any other languages. The model contains four modules: multilingual text representation module, language fusion module, text debiasing module, and text classification module. The multilingual text representation module uses a multilingual pre-trained language model to represent the text, the language fusion module makes the semantic spaces of different languages tend to be consistent through contrastive learning, and the text debiasing module uses contrastive learning to make the model unable to identify sensitive attributes' information. The text classification module completes the basic tasks of multilingual text classification. In addition, the existing research on the fairness of multilingual text classification is relatively simple in the evaluation mode. The evaluation method of fairness is the same as the monolingual equality difference evaluation method, that is, the evaluation is performed on a single language. We propose a multi-dimensional fairness evaluation framework for multilingual text classification, which evaluates the model's monolingual equality difference, multilingual equality difference, multilingual equality performance difference, and destructiveness of the fairness strategy. We hope that our work can provide a more general debiasing method and a more comprehensive evaluation framework for multilingual text fairness tasks. | 翻訳日:2023-03-29 16:41:06 公開日:2023-03-28 |
# 病理画像の大規模事前トレーニングによる小診断基準の微調整 Large-scale pretraining on pathological images for fine-tuning of small pathological benchmarks ( http://arxiv.org/abs/2303.15693v1 ) ライセンス: Link先を確認 | Masataka Kawai, Noriaki Ota, Shinsuke Yamaoka | (参考訳) 大規模な画像データセット上でディープラーニングモデルを事前トレーニングすることは、小さなターゲットデータセット上でモデルを微調整する標準的なステップである。
大きなデータセットは通常一般的なイメージ(例: imagenet2012)であり、小さなデータセットは大きなデータセットとは異なる分布を持つ特殊なデータセットである。
しかし、この「大規模から小規模な」戦略は、大きなデータセットが特殊化され、小さなデータセットに類似した分布を持つ場合、十分に検証されない。
我々は新たに3つのヘマトキシリンとエオシンに安定な画像データセット,1つの大きなPTCGA200と2つの倍率調整された小さなデータセット(PCam200とsegPANDA200)をコンパイルした。
主要なディープラーニングモデルは、教師付きおよび自己教師付き学習法で訓練され、腫瘍分類および組織分割ベンチマークのための小さなデータセットを微調整した。
MoCov2、SimCLR、BYOLで事前訓練されたResNet50は、PTCGA200で微調整されたときのイメージネット2012より優れていた(それぞれ83.94%、86.41%、84.91%、82.72%)。
mocov2でptcga200で事前トレーニングされたresnet50は、cocotrain2017でトレーニングされたベースラインを上回り、resnet50では組織分割ベンチマーク(miouは63.53%と63.22%)で最高であった。
PTCGA200のダウンストリームベンチマークでは,イメージネット事前学習モデル (ResNet50, BiT-M-R50x1, ViT-S/16) が改良された。 Pretraining a deep learning model on large image datasets is a standard step before fine-tuning the model on small targeted datasets. The large dataset is usually general images (e.g. imagenet2012) while the small dataset can be specialized datasets that have different distributions from the large dataset. However, this 'large-to-small' strategy is not well-validated when the large dataset is specialized and has a similar distribution to small datasets. We newly compiled three hematoxylin and eosin-stained image datasets, one large (PTCGA200) and two magnification-adjusted small datasets (PCam200 and segPANDA200). Major deep learning models were trained with supervised and self-supervised learning methods and fine-tuned on the small datasets for tumor classification and tissue segmentation benchmarks. ResNet50 pretrained with MoCov2, SimCLR, and BYOL on PTCGA200 was better than imagenet2012 pretraining when fine-tuned on PTCGA200 (accuracy of 83.94%, 86.41%, 84.91%, and 82.72%, respectively). ResNet50 pre-trained on PTCGA200 with MoCov2 exceeded the COCOtrain2017-pretrained baseline and was the best in ResNet50 for the tissue segmentation benchmark (mIoU of 63.53% and 63.22%). We found re-training imagenet-pretrained models (ResNet50, BiT-M-R50x1, and ViT-S/16) on PTCGA200 improved downstream benchmarks. | 翻訳日:2023-03-29 16:40:35 公開日:2023-03-28 |
# クロスビュー部分サンプルとプロトタイプアライメントを用いたディープ不完全マルチビュークラスタリング Deep Incomplete Multi-view Clustering with Cross-view Partial Sample and Prototype Alignment ( http://arxiv.org/abs/2303.15689v1 ) ライセンス: Link先を確認 | Jiaqi Jin, Siwei Wang, Zhibin Dong, Xinwang Liu, En Zhu | (参考訳) 既存のマルチビュークラスタリングの成功は、複数のビューにわたるサンプル整合性の仮定に依存する。
しかし、実世界のシナリオでは、データの破損やセンサーの故障によってマルチビューのサンプルが部分的に利用可能であり、不完全なマルチビュークラスタリング研究(IMVC)につながる。
IMVCに対処する試みはいくつか提案されているが、以下の欠点に悩まされている。
一 既存の方法は、主に、各サンプルの表示を全く同じように強制する対面的学習を採用しており、表示の相違や柔軟性を無視することができる。
二 複数のビューにわたって観測されていないサンプルがないため、得られたクラスターのプロトタイプは、不整合で偏りがあり、誤った融合につながる可能性がある。
上記の問題に対処するため,我々は,ディープ不完全マルチビュークラスタリングのためのクロスビュー部分サンプルおよびプロトタイプアライメントネットワーク(cpspan)を提案する。
まず,既存のコントラストベース手法とは異なり,ペアオブザーバデータアライメントを「プロキシ教師信号」として採用し,ビュー間のインスタンス間対応構成をガイドする。
次に,imvcにおけるシフトプロトタイプについて,ビュー間の不完全分布校正を実現するためのプロトタイプアライメントモジュールを提案する。
大規模な実験結果から提案モジュールの有効性が明らかとなり,既存のIMVCのベンチマークデータセットと比較すると,注目すべき性能向上が得られた。 The success of existing multi-view clustering relies on the assumption of sample integrity across multiple views. However, in real-world scenarios, samples of multi-view are partially available due to data corruption or sensor failure, which leads to incomplete multi-view clustering study (IMVC). Although several attempts have been proposed to address IMVC, they suffer from the following drawbacks: i) Existing methods mainly adopt cross-view contrastive learning forcing the representations of each sample across views to be exactly the same, which might ignore view discrepancy and flexibility in representations; ii) Due to the absence of non-observed samples across multiple views, the obtained prototypes of clusters might be unaligned and biased, leading to incorrect fusion. To address the above issues, we propose a Cross-view Partial Sample and Prototype Alignment Network (CPSPAN) for Deep Incomplete Multi-view Clustering. Firstly, unlike existing contrastive-based methods, we adopt pair-observed data alignment as 'proxy supervised signals' to guide instance-to-instance correspondence construction among views. Then, regarding of the shifted prototypes in IMVC, we further propose a prototype alignment module to achieve incomplete distribution calibration across views. Extensive experimental results showcase the effectiveness of our proposed modules, attaining noteworthy performance improvements when compared to existing IMVC competitors on benchmark datasets. | 翻訳日:2023-03-29 16:40:02 公開日:2023-03-28 |
# tube mpc誘導データ拡張を用いたロバスト適応ポリシーの効率的な深層学習 Efficient Deep Learning of Robust, Adaptive Policies using Tube MPC-Guided Data Augmentation ( http://arxiv.org/abs/2303.15688v1 ) ライセンス: Link先を確認 | Tong Zhao, Andrea Tagliabue, Jonathan P. How | (参考訳) 困難な非構造環境でのアジャイルな自律システムの展開には、不確実性への適応性と堅牢性が必要です。
既存のロバストでアダプティブなコントローラ(mpcベースのコントローラなど)は、オンライン上の重い計算コストで素晴らしいパフォーマンスを実現できます。
MPCからの堅牢でデプロイ可能なポリシを効率的に学習する戦略が登場したが、基本的な適応能力は欠如している。
本研究では,MPC からの堅牢な政策学習のための既存の効率的な IL アルゴリズムを拡張し,挑戦的モデル/環境不確実性に適応する政策学習能力を提供する。
提案手法の鍵となる考え方は,オンラインで効率的に推定できる学習された低次元モデル/環境表現にポリシーを条件付けることで,IL手順を変更することである。
我々は,マルチロケータ上での課題外乱下での軌跡追跡のための適応的位置と姿勢制御ポリシーの学習課題へのアプローチを調整した。
評価は高忠実度シミュレーション環境で行われ、高品質な適応ポリシーを約1.3ドルの時間で得られることを示す。
また, トレーニング中の最大風速よりも約50\%, 最大風速よりも36\%の風乱下で平均位置誤差6.1$cmを達成し, トレーニング中およびトレーニング外分布の不確実性への迅速な適応を実証的に実証した。 The deployment of agile autonomous systems in challenging, unstructured environments requires adaptation capabilities and robustness to uncertainties. Existing robust and adaptive controllers, such as the ones based on MPC, can achieve impressive performance at the cost of heavy online onboard computations. Strategies that efficiently learn robust and onboard-deployable policies from MPC have emerged, but they still lack fundamental adaptation capabilities. In this work, we extend an existing efficient IL algorithm for robust policy learning from MPC with the ability to learn policies that adapt to challenging model/environment uncertainties. The key idea of our approach consists in modifying the IL procedure by conditioning the policy on a learned lower-dimensional model/environment representation that can be efficiently estimated online. We tailor our approach to the task of learning an adaptive position and attitude control policy to track trajectories under challenging disturbances on a multirotor. Our evaluation is performed in a high-fidelity simulation environment and shows that a high-quality adaptive policy can be obtained in about $1.3$ hours. We additionally empirically demonstrate rapid adaptation to in- and out-of-training-distribution uncertainties, achieving a $6.1$ cm average position error under a wind disturbance that corresponds to about $50\%$ of the weight of the robot and that is $36\%$ larger than the maximum wind seen during training. | 翻訳日:2023-03-29 16:39:40 公開日:2023-03-28 |
# 知識グラフ完成のための事前学習トランスフォーマー Pre-training Transformers for Knowledge Graph Completion ( http://arxiv.org/abs/2303.15682v1 ) ライセンス: Link先を確認 | Sanxing Chen, Hao Cheng, Xiaodong Liu, Jian Jiao, Yangfeng Ji and Jianfeng Gao | (参考訳) 知識グラフの伝達可能な表現(KGs)の学習は、グラフ構造の異質な多重関係性のために困難である。
トランスフォーマティブな事前学習言語モデルによるテキストの転送可能表現の学習に着想を得て,大規模事前学習によるkg補完のための新しいインダクティブkg表現モデル(iht)を提案する。
iHT はエンティティエンコーダ (BERT など) と、Transformer によってパラメータ化される隣り合うリレーショナルスコアリング関数からなる。
我々はまず、大規模なKGデータセットWikidata5MでiHTを事前訓練する。
提案手法は,従来のsomaモデルと比較して,25%以上の相対ランクの相対的改善を行い,一致した評価で新たな最先端結果を得る。
FB15K-237 と WN18RR では, より小さな KG に対してより微調整を行うと, 事前訓練した iHT 表現が転送可能であることが示され, 性能が大幅に向上した。 Learning transferable representation of knowledge graphs (KGs) is challenging due to the heterogeneous, multi-relational nature of graph structures. Inspired by Transformer-based pretrained language models' success on learning transferable representation for texts, we introduce a novel inductive KG representation model (iHT) for KG completion by large-scale pre-training. iHT consists of a entity encoder (e.g., BERT) and a neighbor-aware relational scoring function both parameterized by Transformers. We first pre-train iHT on a large KG dataset, Wikidata5M. Our approach achieves new state-of-the-art results on matched evaluations, with a relative improvement of more than 25% in mean reciprocal rank over previous SOTA models. When further fine-tuned on smaller KGs with either entity and relational shifts, pre-trained iHT representations are shown to be transferable, significantly improving the performance on FB15K-237 and WN18RR. | 翻訳日:2023-03-29 16:39:16 公開日:2023-03-28 |
# 時間非依存PDEのためのGNN物理解法 GNN-based physics solver for time-independent PDEs ( http://arxiv.org/abs/2303.15681v1 ) ライセンス: Link先を確認 | Rini Jasmine Gladstone, Helia Rahmani, Vishvas Suryakumar, Hadi Meidani, Marta D'Elia, Ahmad Zareei | (参考訳) 物理ベースのディープラーニングフレームワークは、問題入力をまたがる一般化機能を備えた複雑な物理システムのダイナミクスを正確にモデル化するのに有効であることが示されている。
しかし、時間に依存しない問題は、正確な予測を得るために計算領域全体の情報の長距離交換を必要とする。
グラフニューラルネットワーク(GNN)のコンテキストでは、より深いネットワークが要求される。
本稿では,Edge Augmented GNNとMulti-GNNの2つのGNNアーキテクチャを提案する。
両ネットワークは,時間非依存の固体力学問題に適用した場合,ベースライン法よりも(1.5~2の係数で)有意に優れた性能を示した。
さらに,提案するアーキテクチャは,未知の領域,境界条件,材料によく一般化する。
ここで、可変領域の処理は、回転および変換不変性を可能にする新しい座標変換によって促進される。
グラフニューラルネットワークに基づくニューラルネットワークが取り組むことができる問題の範囲を広げることにより、本論文は、複雑な科学的および工業的な設定に応用するための基礎となるものを提供する。 Physics-based deep learning frameworks have shown to be effective in accurately modeling the dynamics of complex physical systems with generalization capability across problem inputs. However, time-independent problems pose the challenge of requiring long-range exchange of information across the computational domain for obtaining accurate predictions. In the context of graph neural networks (GNNs), this calls for deeper networks, which, in turn, may compromise or slow down the training process. In this work, we present two GNN architectures to overcome this challenge - the Edge Augmented GNN and the Multi-GNN. We show that both these networks perform significantly better (by a factor of 1.5 to 2) than baseline methods when applied to time-independent solid mechanics problems. Furthermore, the proposed architectures generalize well to unseen domains, boundary conditions, and materials. Here, the treatment of variable domains is facilitated by a novel coordinate transformation that enables rotation and translation invariance. By broadening the range of problems that neural operators based on graph neural networks can tackle, this paper provides the groundwork for their application to complex scientific and industrial settings. | 翻訳日:2023-03-29 16:38:56 公開日:2023-03-28 |
# iquantum:量子コンピューティング環境のモデリングとシミュレーションのケース iQuantum: A Case for Modeling and Simulation of Quantum Computing Environments ( http://arxiv.org/abs/2303.15729v1 ) ライセンス: Link先を確認 | Hoa T. Nguyen, Muhammad Usman, Rajkumar Buyya | (参考訳) 今日の量子コンピュータは主にクラウドを通じてアクセスでき、将来的にはエッジネットワークに移行する可能性がある。
世界中の量子コンピューティング研究の急速な発展と普及に伴い、クラウドベースの量子計算リソースの利用に対する需要が大幅に増加した。
この需要は、量子コンピューティングのための効率的で適応可能なリソース管理戦略とサービスモデルの設計の必要性を強調している。
しかし、量子資源の量、品質、アクセシビリティの制限は、量子ソフトウェアやシステムにおける実用的な研究に重大な課題をもたらす。
これらの課題に対処するために,システム設計とスケジューリングアルゴリズムをプロトタイプ化し評価するために,ハイブリッド量子古典計算環境をモデル化できる最初のits-kindシミュレーションツールキット iquantum を提案する。
本稿では,量子コンピューティングシステムモデル,アーキテクチャ設計,概念実証実装,潜在的なユースケース,今後のiQuantumの開発について述べる。
提案するiquantumシミュレータは,特にエッジとクラウドを統合した量子コンピューティング環境において,リソース管理,ジョブスケジューリング,ハイブリッド量子古典的タスクオーケストレーションのためのポリシとアルゴリズムの作成と評価において,量子ソフトウェアやシステムの研究を促進することが期待されている。 Today's quantum computers are primarily accessible through the cloud and potentially shifting to the edge network in the future. With the rapid advancement and proliferation of quantum computing research worldwide, there has been a considerable increase in demand for using cloud-based quantum computation resources. This demand has highlighted the need for designing efficient and adaptable resource management strategies and service models for quantum computing. However, the limited quantity, quality, and accessibility of quantum resources pose significant challenges to practical research in quantum software and systems. To address these challenges, we propose iQuantum, a first-of-its-kind simulation toolkit that can model hybrid quantum-classical computing environments for prototyping and evaluating system design and scheduling algorithms. This paper presents the quantum computing system model, architectural design, proof-of-concept implementation, potential use cases, and future development of iQuantum. Our proposed iQuantum simulator is anticipated to boost research in quantum software and systems, particularly in the creation and evaluation of policies and algorithms for resource management, job scheduling, and hybrid quantum-classical task orchestration in quantum computing environments integrating edge and cloud resources. | 翻訳日:2023-03-29 16:33:03 公開日:2023-03-28 |
# NLPを用いたメンタルヘルス応用のためのChatGPTの評価 Evaluation of ChatGPT for NLP-based Mental Health Applications ( http://arxiv.org/abs/2303.15727v1 ) ライセンス: Link先を確認 | Bishal Lamichhane | (参考訳) 大規模言語モデル(LLM)はいくつかの自然言語理解タスクで成功しており、自然言語処理(NLP)に基づくメンタルヘルスアプリケーション研究に関係している可能性がある。
本研究では、ストレス検出(2クラス分類)、抑うつ検出(2クラス分類)、自殺検出(5クラス分類)の3つのテキストベースのメンタルヘルス分類タスクにおけるLCMベースのChatGPT(gpt-3.5-turboバックエンド)の性能について報告する。
公開データセットから3つの分類タスクの注釈付きソーシャルメディア投稿を得た。
そして、ChatGPT APIは、ソーシャルメディア投稿を分類のための入力プロンプトで分類した。
ストレス検出,抑うつ検出,自殺検出でそれぞれ0.73,0.86,0.37のF1値を得た。
支配的なクラスを常に予測するベースラインモデルでは、f1スコアは0.35、0.60、0.19であった。
ChatGPTで得られたゼロショット分類精度は、メンタルヘルス分類タスクに言語モデルを使用することの可能性を示している。 Large language models (LLM) have been successful in several natural language understanding tasks and could be relevant for natural language processing (NLP)-based mental health application research. In this work, we report the performance of LLM-based ChatGPT (with gpt-3.5-turbo backend) in three text-based mental health classification tasks: stress detection (2-class classification), depression detection (2-class classification), and suicidality detection (5-class classification). We obtained annotated social media posts for the three classification tasks from public datasets. Then ChatGPT API classified the social media posts with an input prompt for classification. We obtained F1 scores of 0.73, 0.86, and 0.37 for stress detection, depression detection, and suicidality detection, respectively. A baseline model that always predicted the dominant class resulted in F1 scores of 0.35, 0.60, and 0.19. The zero-shot classification accuracy obtained with ChatGPT indicates a potential use of language models for mental health classification tasks. | 翻訳日:2023-03-29 16:32:43 公開日:2023-03-28 |
# 正規化exp, cosh, sinh回帰問題の解法 Solving Regularized Exp, Cosh and Sinh Regression Problems ( http://arxiv.org/abs/2303.15725v1 ) ライセンス: Link先を確認 | Zhihang Li, Zhao Song, Tianyi Zhou | (参考訳) 現代の機械学習では、注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルを訓練するための基本的なタスクである。
本研究では,大規模言語モデルにおける注意機構におけるsoftmax/exp単位に触発された指数回帰問題について検討する。
標準指数回帰は非凸である。
凸問題である指数回帰問題の正規化バージョンについて検討する。
入力間隔時間において近似ニュートン法を用いて解く。
形式的には、この問題において、行列 $a \in \mathbb{r}^{n \times d}$, $b \in \mathbb{r}^n$, $w \in \mathbb{r}^n$ と任意の関数 $\exp, \cosh$, $\sinh$ が与えられる。
目標は、$ 0.5 \| f(ax) - b \|_2^2 + 0.5 \| \mathrm{diag}(w) ax \|_2^2$ を最小化する最適な$x$を見つけることである。
単純な方法は、ネイブ・ニュートンのメソッドを使用することである。
$\mathrm{nnz}(A)$ は行列 $A$ における 0 でないエントリの数を表す。
行列乗算の指数を$\omega$ とする。
現在、$\omega \approx 2.373$である。
精度エラーを表す$\epsilon$ とします。
本稿では,1回の反復時間あたり$\log ( \|x_0 - x^*\|_2 / \epsilon)$と$\widetilde{o}(\mathrm{nnz}(a) + d^{\omega} )$を用いて解くアルゴリズムの入力スパーシティと目的について述べる。 In modern machine learning, attention computation is a fundamental task for training large language models such as Transformer, GPT-4 and ChatGPT. In this work, we study exponential regression problem which is inspired by the softmax/exp unit in the attention mechanism in large language models. The standard exponential regression is non-convex. We study the regularization version of exponential regression problem which is a convex problem. We use approximate newton method to solve in input sparsity time. Formally, in this problem, one is given matrix $A \in \mathbb{R}^{n \times d}$, $b \in \mathbb{R}^n$, $w \in \mathbb{R}^n$ and any of functions $\exp, \cosh$ and $\sinh$ denoted as $f$. The goal is to find the optimal $x$ that minimize $ 0.5 \| f(Ax) - b \|_2^2 + 0.5 \| \mathrm{diag}(w) A x \|_2^2$. The straightforward method is to use the naive Newton's method. Let $\mathrm{nnz}(A)$ denote the number of non-zeros entries in matrix $A$. Let $\omega$ denote the exponent of matrix multiplication. Currently, $\omega \approx 2.373$. Let $\epsilon$ denote the accuracy error. In this paper, we make use of the input sparsity and purpose an algorithm that use $\log ( \|x_0 - x^*\|_2 / \epsilon)$ iterations and $\widetilde{O}(\mathrm{nnz}(A) + d^{\omega} )$ per iteration time to solve the problem. | 翻訳日:2023-03-29 16:32:28 公開日:2023-03-28 |
# スケーラブルで詳細かつマスクフリーのユニバーサル測光ステレオ Scalable, Detailed and Mask-Free Universal Photometric Stereo ( http://arxiv.org/abs/2303.15724v1 ) ライセンス: Link先を確認 | Satoshi Ikehata | (参考訳) 本稿では,SDM-UniPS,画期的なスケーラブル,詳細,マスクフリー,ユニバーサル・フォトメトリック・ステレオネットワークを紹介する。
画像が未知の、空間的に不安定な照明条件下で撮影された場合でも、3dスキャナの品質に匹敵する、驚くほど複雑な表面正常マップを復元することができる。
我々は,従来のユニバーサルフォトメトリックステレオネットワークを拡張し,空間光の特徴を抽出し,高分解能入力画像における利用可能な情報をすべて活用し,表面点間の非局所的相互作用を計算した。
さらに,実世界のシーンに見られる様々な形状,材料,照明シナリオを包含する新しい合成学習データセットを提案する。
広汎な評価により,本手法は,公開ベンチマーク上での校正,照明固有の技術に勝るだけでなく,オブジェクトマスクを使わずとも,はるかに少ない入力画像に優れることを示した。 In this paper, we introduce SDM-UniPS, a groundbreaking Scalable, Detailed, Mask-free, and Universal Photometric Stereo network. Our approach can recover astonishingly intricate surface normal maps, rivaling the quality of 3D scanners, even when images are captured under unknown, spatially-varying lighting conditions in uncontrolled environments. We have extended previous universal photometric stereo networks to extract spatial-light features, utilizing all available information in high-resolution input images and accounting for non-local interactions among surface points. Moreover, we present a new synthetic training dataset that encompasses a diverse range of shapes, materials, and illumination scenarios found in real-world scenes. Through extensive evaluation, we demonstrate that our method not only surpasses calibrated, lighting-specific techniques on public benchmarks, but also excels with a significantly smaller number of input images even without object masks. | 翻訳日:2023-03-29 16:31:54 公開日:2023-03-28 |
# MeMaHand: シングルイメージ2ハンド再構築のためのメッシュ-マンノインタラクションの爆発 MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction ( http://arxiv.org/abs/2303.15718v1 ) ライセンス: Link先を確認 | Congyi Wang, Feida Zhu, Shilei Wen | (参考訳) 手指再建作業のための既存の手法は、通常、ジェネリック3Dハンドモデルをパラメータ化したり、手指のメッシュ位置を直接予測する。
手形と回転ポーズからなるパラメトリック表現はより安定であり、非パラメトリック法はより正確なメッシュ位置を予測することができる。
本稿では,2種類の手表現の利点を利用するために,単一のRGB画像からメッシュを再構築し,二つの手のMANOパラメータを同時に推定する。
この目的を達成するために、メッシュ頂点の位置とMANOパラメータを2種類のクエリトークンとして扱う新しいメッシュ-マノ相互作用ブロック(MMIB)を提案する。
MMIBは、局所情報を集約するために1つのグラフ残差ブロックと、長距離依存をモデル化するために2つのトランスフォーマーエンコーダから構成される。
トランスエンコーダは、それぞれ手内および手間の注意をモデル化する異なる非対称注意マスクを備える。
さらに,メッシュ画像アライメントをさらに強化するために,メッシュアライメントアライメントアライメントモジュールを導入する。
interhand2.6mベンチマークの広範な実験は、最先端のハンドレコンストラクション手法に対して有望な結果を示している。 Existing methods proposed for hand reconstruction tasks usually parameterize a generic 3D hand model or predict hand mesh positions directly. The parametric representations consisting of hand shapes and rotational poses are more stable, while the non-parametric methods can predict more accurate mesh positions. In this paper, we propose to reconstruct meshes and estimate MANO parameters of two hands from a single RGB image simultaneously to utilize the merits of two kinds of hand representations. To fulfill this target, we propose novel Mesh-Mano interaction blocks (MMIBs), which take mesh vertices positions and MANO parameters as two kinds of query tokens. MMIB consists of one graph residual block to aggregate local information and two transformer encoders to model long-range dependencies. The transformer encoders are equipped with different asymmetric attention masks to model the intra-hand and inter-hand attention, respectively. Moreover, we introduce the mesh alignment refinement module to further enhance the mesh-image alignment. Extensive experiments on the InterHand2.6M benchmark demonstrate promising results over the state-of-the-art hand reconstruction methods. | 翻訳日:2023-03-29 16:31:37 公開日:2023-03-28 |
# 磁場をもつ動的ホログラフィックqcdモデルによる懸濁弦の異方性とフレーム依存性のカオス Anisotropic and frame dependent chaos of suspended strings from a dynamical holographic QCD model with magnetic field ( http://arxiv.org/abs/2303.15716v1 ) ライセンス: Link先を確認 | Bhaskar Shukla, David Dudal, Subhash Mahapatra | (参考訳) 本研究では, 定性的かつ定量的な視点から, ホログラフィの観点から磁場中におけるQCD閉包弦のカオスの発生について検討した。
我々は、QCDとその熱力学をよく模倣するアインシュタイン・マクスウェル・ディラトン作用の初期のボトムアップ解を用いている。
磁場は弦のフレームの磁場に対して垂直方向と平行方向の両方のカオスを抑制する傾向があるが、アインシュタインのフレームではカオスの抑制は垂直方向にのみ起こり、磁場に沿って強化されたカオスが発生する。
両方のフレームにおける抑制/強調の量は、弦と磁場の相対方向に依存する。 We investigate both from a qualitative as well as quantitative perspective the emergence of chaos in the QCD confining string in a magnetic field from a holographic viewpoint. We use an earlier developed bottom-up solution of the Einstein-Maxwell-Dilaton action that mimics QCD and its thermodynamics quite well. Surprisingly, our predictions depend on the used frame: the magnetic field tends to suppress the chaos in both perpendicular and parallel directions relative to the magnetic field in the string frame whilst in the Einstein frame, the chaos suppression only happens in the perpendicular direction, with an enhanced chaos along the magnetic field. The amount of suppression/enhancement in both frames does depend on the relative orientation of the string and magnetic field. | 翻訳日:2023-03-29 16:31:19 公開日:2023-03-28 |
# 基礎モデルとフェアユース Foundation Models and Fair Use ( http://arxiv.org/abs/2303.15715v1 ) ライセンス: Link先を確認 | Peter Henderson, Xuechen Li, Dan Jurafsky, Tatsunori Hashimoto, Mark A. Lemley, Percy Liang | (参考訳) 既存の基礎モデルは著作権のある素材で訓練されている。
これらのモデルのデプロイは、データ作成者が適切な属性や報酬を受け取れない場合に、法的および倫理的リスクをもたらす可能性がある。
米国や他のいくつかの国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
特にそのデータの市場に影響を与えるシナリオにおいて、モデルが著作権付きデータに類似した出力を生成する場合、モデルの出力にフェアユースが適用されなくなる可能性がある。
本研究では、フェアユースを保証せず、フェアユースの観点からモデル開発とデプロイメントを正方形に保つために追加の作業が必要であることを強調する。
まず,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
我々は、テキスト、ソースコード、ビジュアルアートを生成するための既存および潜在的なアプリケーションと並行して、関連するアメリカの事例法をレビューする。
実験により、人気のある基礎モデルが著作権素材とかなり類似したコンテンツを生成できることが確認された。
第二に、基礎モデルが公正な使用に沿うのに役立つ技術的緩和について論じる。
我々は、緩和戦略を現行法に合わせるためには、さらなる研究が必要であると主張している。
最後に、法律と技術的緩和は共進化すべきだと提案する。
例えば、他の政策機構と組み合わせることで、法律は、侵害の被害を軽減するために強力な技術ツールを使用する場合に、より明確に安全な港を考えることができる。
この共同進化は、知的財産とイノベーションのバランスを取るのに役立つかもしれない。
しかし、ここで述べる戦略は万能ではなく、基礎モデルの潜在的な害に対処する政策を開発するためにより多くの作業が必要であることを強調する。 Existing foundation models are trained on copyrighted material. Deploying these models can pose both legal and ethical risks when data creators fail to receive appropriate attribution or compensation. In the United States and several other countries, copyrighted content may be used to build foundation models without incurring liability due to the fair use doctrine. However, there is a caveat: If the model produces output that is similar to copyrighted data, particularly in scenarios that affect the market of that data, fair use may no longer apply to the output of the model. In this work, we emphasize that fair use is not guaranteed, and additional work may be necessary to keep model development and deployment squarely in the realm of fair use. First, we survey the potential risks of developing and deploying foundation models based on copyrighted content. We review relevant U.S. case law, drawing parallels to existing and potential applications for generating text, source code, and visual art. Experiments confirm that popular foundation models can generate content considerably similar to copyrighted material. Second, we discuss technical mitigations that can help foundation models stay in line with fair use. We argue that more research is needed to align mitigation strategies with the current state of the law. Lastly, we suggest that the law and technical mitigations should co-evolve. For example, coupled with other policy mechanisms, the law could more explicitly consider safe harbors when strong technical tools are used to mitigate infringement harms. This co-evolution may help strike a balance between intellectual property and innovation, which speaks to the original goal of fair use. But we emphasize that the strategies we describe here are not a panacea and more work is needed to develop policies that address the potential harms of foundation models. | 翻訳日:2023-03-29 16:31:07 公開日:2023-03-28 |
# 論理推論における言語モデルを支援する明示的計画法 Explicit Planning Helps Language Models in Logical Reasoning ( http://arxiv.org/abs/2303.15714v1 ) ライセンス: Link先を確認 | Hongyu Zhao, Kangrui Wang, Mo Yu, Hongyuan Mei | (参考訳) 言語モデルは、幅広い自然言語処理タスクで驚くほどよく機能することが示されている。
本稿では,多段階論理推論を行うために言語モデルを用いた新しいシステムを提案する。
本システムでは,明示的な計画手法を推論手順に組み込むことで,各ステップにおける推論決定をより情報的に行うことができる。
私たちの実験では、システム全体が他の競合システムを大幅に上回っています。
複数選択質問応答タスクでは,約1.5Bのパラメータしか持たないにもかかわらず,GPT-3-davinciと競合する。
我々は,明示的な計画がシステムの性能に重要な役割を担っていることを示すため,いくつかのアブレーション研究を行う。 Language models have been shown to perform remarkably well on a wide range of natural language processing tasks. In this paper, we propose a novel system that uses language models to perform multi-step logical reasoning. Our system incorporates explicit planning into its inference procedure, thus able to make more informed reasoning decisions at each step by looking ahead into their future effects. In our experiments, our full system significantly outperforms other competing systems. On a multiple-choice question answering task, our system performs competitively compared to GPT-3-davinci despite having only around 1.5B parameters. We conduct several ablation studies to demonstrate that explicit planning plays a crucial role in the system's performance. | 翻訳日:2023-03-29 16:30:38 公開日:2023-03-28 |
# RGB-サーマル知覚課題に対する明示的注意強化融合 Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks ( http://arxiv.org/abs/2303.15710v1 ) ライセンス: Link先を確認 | Mingjian Liang, Junjie Hu, Chenyu Bao, Hua Feng, Fuqin Deng and Tin Lun Lam | (参考訳) 近年,RGBをベースとした知覚は大きな進歩を見せている。
熱情報は、視界カメラが低照度や霧などの照明条件に苦しむときに有用な手がかりとなる。
しかし、RGB画像と熱データを効果的に融合する方法は、依然としてオープンな課題である。
以前の研究では、入力でそれらをマージしたり、モデル内のマルチモダリティ機能を結合したり、各データモダリティに注意を向けたりといった、ナイーブな融合戦略を含んでいる。
これらの融合戦略は単純だが不十分である。
本稿では,各種類のデータを完全に活用する Explicit Attention-Enhanced Fusion (EAEF) という新しい融合法を提案する。
具体的には,以下の事例を考察する。
一 RGBデータ及び熱データの両方
二 データの種類の1つに過ぎず、
三 識別的特徴を生じさせないこと。
EAEFは1つのブランチを使って特徴抽出を強化する
i (複数形 is)
三 不足表現の救済のための他の支店
i)。
2つの分岐の出力は融合して相補的な特徴を形成する。
その結果,提案手法は,意味セグメンテーションではmiouで1.6\%,サルエント物体検出ではmaeで3.1\%,物体検出では2.3\%,群衆数ではmaeで8.1\%の最先端技術を上回る。
コードはhttps://github.com/FreeformRobotics/EAEFNetで公開されている。 Recently, RGB-Thermal based perception has shown significant advances. Thermal information provides useful clues when visual cameras suffer from poor lighting conditions, such as low light and fog. However, how to effectively fuse RGB images and thermal data remains an open challenge. Previous works involve naive fusion strategies such as merging them at the input, concatenating multi-modality features inside models, or applying attention to each data modality. These fusion strategies are straightforward yet insufficient. In this paper, we propose a novel fusion method named Explicit Attention-Enhanced Fusion (EAEF) that fully takes advantage of each type of data. Specifically, we consider the following cases: i) both RGB data and thermal data, ii) only one of the types of data, and iii) none of them generate discriminative features. EAEF uses one branch to enhance feature extraction for i) and iii) and the other branch to remedy insufficient representations for ii). The outputs of two branches are fused to form complementary features. As a result, the proposed fusion method outperforms state-of-the-art by 1.6\% in mIoU on semantic segmentation, 3.1\% in MAE on salient object detection, 2.3\% in mAP on object detection, and 8.1\% in MAE on crowd counting. The code is available at https://github.com/FreeformRobotics/EAEFNet. | 翻訳日:2023-03-29 16:30:27 公開日:2023-03-28 |
# バイアスか多様性か?
米国ニュース見出しにおける意味的不一致の解消 Bias or Diversity? Unraveling Semantic Discrepancy in U.S. News Headlines ( http://arxiv.org/abs/2303.15708v1 ) ライセンス: Link先を確認 | Jinsheng Pan, Weihong Qi, Zichen Wang, Hanjia Lyu, Jiebo Luo | (参考訳) ニュースメディアがニュース記事にイデオロギー的偏見を取り入れているという意見は広く一致している。
しかし, メディア間の差異を計測し, セマンティックな違いの出自を明らかにするための先行研究は, サンプルサイズが小さく, 範囲が限られている。
本研究では,2014年から2022年にかけて,米国の大手メディアから180万のニュース見出しの大規模なデータセットを収集し,米国のニュースメディアにおける意味的不一致を徹底的に追跡し,分析する。
我々は、国内政治、経済問題、社会問題、外交の4つの主要なトピックに関する意味的不一致を定量化するために、複数の対応分析(MCA)を用いる。
さらに、メディア見出しで最も頻度の高いn-gramを比較し、分析にさらなる質的洞察を与えます。
以上の結果から,国内政治や社会問題においては,一定のメディア偏見が原因であることが示唆された。
一方、外交報告の不一致は、個々のジャーナリストのスタイルの多様性によるところが大きい。
最後に、米国のメディアは経済問題に関する報道において一貫性と高い類似性を示している。 There is a broad consensus that news media outlets incorporate ideological biases in their news articles. However, prior studies on measuring the discrepancies among media outlets and further dissecting the origins of semantic differences suffer from small sample sizes and limited scope. In this study, we collect a large dataset of 1.8 million news headlines from major U.S. media outlets spanning from 2014 to 2022 to thoroughly track and dissect the semantic discrepancy in U.S. news media. We employ multiple correspondence analysis (MCA) to quantify the semantic discrepancy relating to four prominent topics - domestic politics, economic issues, social issues, and foreign affairs. Additionally, we compare the most frequent n-grams in media headlines to provide further qualitative insights into our analysis. Our findings indicate that on domestic politics and social issues, the discrepancy can be attributed to a certain degree of media bias. Meanwhile, the discrepancy in reporting foreign affairs is largely attributed to the diversity in individual journalistic styles. Finally, U.S. media outlets show consistency and high similarity in their coverage of economic issues. | 翻訳日:2023-03-29 16:30:05 公開日:2023-03-28 |
# tabret: unseen列のためのトランスフォーマティブベースの表モデル TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns ( http://arxiv.org/abs/2303.15747v1 ) ライセンス: Link先を確認 | Soma Onishi, Kenta Oono, and Kohei Hayashi | (参考訳) 表データのためのトレーニング済みトランスフォーマーモデルである \emph{TabRet} を提示する。
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
他の方法とは異なり、TabRetは‘emph{retokenizing}’と呼ばれる微調整の前に余分な学習ステップを持ち、マスク付き自動エンコーディング損失に基づいて機能の埋め込みを校正する。
実験では,公衆衛生調査を多数収集したタブレットを事前学習し,医療における分類タスクを微調整し,4つのデータセットで最高のauc性能を得た。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。 We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains. | 翻訳日:2023-03-29 16:23:21 公開日:2023-03-28 |
# qEUBO: 優先ベイズ最適化のための決定論的獲得関数 qEUBO: A Decision-Theoretic Acquisition Function for Preferential Bayesian Optimization ( http://arxiv.org/abs/2303.15746v1 ) ライセンス: Link先を確認 | Raul Astudillo, Zhiyuan Jerry Lin, Eytan Bakshy, Peter I. Frazier | (参考訳) preferential bayesian optimization (pbo) は、選好フィードバックを用いて意思決定者の潜在ユーティリティ機能を最適化するためのフレームワークである。
本研究は, PBO の新たな獲得機能として, ベストオプション (qEUBO) の期待される実用性を紹介する。
意思決定者の応答がノイズフリーである場合、qEUBOは1ステップのベイズ最適であり、一般的な知識勾配獲得関数と等価であることを示す。
また,qeuboは,意思決定者の応答がノイズによって損なわれた場合,一段階ベイズ最適方針に対して付加的定数近似の保証を享受していることを示す。
我々はqEUBOを広範囲に評価し、PBOの最先端の取得機能よりも多くの設定で優れていることを示す。
最後に、十分な正則性条件下では、qEUBOのベイズ的単純後悔は、クエリの数、$n$が無限に近づくにつれて、o(1/n)$でゼロに収束することを示す。
対照的に、PBOによく使われる標準BOの一般的な取得関数qEIの下での単純な後悔は、0に収束しないことを示す。
優れた性能、単純な計算、決定論的正当化を楽しみ、qEUBOはPBOの有望な獲得機能である。 Preferential Bayesian optimization (PBO) is a framework for optimizing a decision maker's latent utility function using preference feedback. This work introduces the expected utility of the best option (qEUBO) as a novel acquisition function for PBO. When the decision maker's responses are noise-free, we show that qEUBO is one-step Bayes optimal and thus equivalent to the popular knowledge gradient acquisition function. We also show that qEUBO enjoys an additive constant approximation guarantee to the one-step Bayes-optimal policy when the decision maker's responses are corrupted by noise. We provide an extensive evaluation of qEUBO and demonstrate that it outperforms the state-of-the-art acquisition functions for PBO across many settings. Finally, we show that, under sufficient regularity conditions, qEUBO's Bayesian simple regret converges to zero at a rate $o(1/n)$ as the number of queries, $n$, goes to infinity. In contrast, we show that simple regret under qEI, a popular acquisition function for standard BO often used for PBO, can fail to converge to zero. Enjoying superior performance, simple computation, and a grounded decision-theoretic justification, qEUBO is a promising acquisition function for PBO. | 翻訳日:2023-03-29 16:23:07 公開日:2023-03-28 |
# 再帰的特徴マシンの機能スケーリングについて On Feature Scaling of Recursive Feature Machines ( http://arxiv.org/abs/2303.15745v1 ) ライセンス: Link先を確認 | Arunav Gupta, Rohit Mishra, William Luu, Mehdi Bouassami | (参考訳) 本報告では,回帰データセットに関する一連の実験を通じて,平均勾配外積を用いて再帰的に特徴を学習する,新しいカーネルマシンの一種である再帰的特徴機械(rfms)の挙動を考察する。
データセットにランダムノイズ特徴を連続的に付加すると、平均正方形誤差曲線(MSE)の興味深いパターンが観察され、MSEは減少・減少パターンを示す。
この振る舞いは、異なるデータセットサイズ、ノイズパラメータ、ターゲット関数間で一貫性がある。
興味深いことに、観測されたmse曲線はディープニューラルネットワークで観測される「二重降下」現象と類似しており、rfmとニューラルネットワークの振る舞いの新たな関係を示唆している。
この報告は、この特異な行動に関する今後の研究の土台となるものである。 In this technical report, we explore the behavior of Recursive Feature Machines (RFMs), a type of novel kernel machine that recursively learns features via the average gradient outer product, through a series of experiments on regression datasets. When successively adding random noise features to a dataset, we observe intriguing patterns in the Mean Squared Error (MSE) curves with the test MSE exhibiting a decrease-increase-decrease pattern. This behavior is consistent across different dataset sizes, noise parameters, and target functions. Interestingly, the observed MSE curves show similarities to the "double descent" phenomenon observed in deep neural networks, hinting at new connection between RFMs and neural network behavior. This report lays the groundwork for future research into this peculiar behavior. | 翻訳日:2023-03-29 16:22:42 公開日:2023-03-28 |
# HS-Pose:カテゴリーレベルのオブジェクト位置推定のためのハイブリッドスコープ特徴抽出 HS-Pose: Hybrid Scope Feature Extraction for Category-level Object Pose Estimation ( http://arxiv.org/abs/2303.15743v1 ) ライセンス: Link先を確認 | Linfang Zheng, Chen Wang, Yinghan Sun, Esha Dasgupta, Hua Chen, Ales Leonardis, Wei Zhang, Hyung Jin Chang | (参考訳) 本稿では,カテゴリー内形状の変化が大きいため,カテゴリレベルのオブジェクトポーズ推定の問題に焦点をあてる。
3次元グラフ畳み込み(3D-GC)に基づく手法は局所的な幾何学的特徴を抽出するために広く用いられているが、複雑な形状の物体には制限があり、ノイズに敏感である。
さらに、3D-GCのスケールと翻訳不変性は、物体のサイズと翻訳情報の知覚を制限する。
本稿では3D-GCを拡張して,カテゴリレベルのオブジェクトポーズ推定タスクのためのポイントクラウドデータからハイブリッドスコープ潜在特徴を抽出する,シンプルなネットワーク構造HS層を提案する。
HS層の提案
1)地域・グローバルな幾何学的構造とグローバルな情報を知覚することができる。
2)雑音に対して頑健であり,
3)サイズと翻訳情報をエンコードできる。
5d2cmで14.5%, IoU75で10.3%向上し, 3D-GC層をベースライン法(GPV-Pose)上のHS層に簡易に置き換えることにより, 大幅な改善が得られた。
提案手法はREAL275データセットにおいて,最先端の手法よりも大きなマージン(5d2cmが8.3%,IoU75が6.9%)で,リアルタイム(50FPS)で動作する。 In this paper, we focus on the problem of category-level object pose estimation, which is challenging due to the large intra-category shape variation. 3D graph convolution (3D-GC) based methods have been widely used to extract local geometric features, but they have limitations for complex shaped objects and are sensitive to noise. Moreover, the scale and translation invariant properties of 3D-GC restrict the perception of an object's size and translation information. In this paper, we propose a simple network structure, the HS-layer, which extends 3D-GC to extract hybrid scope latent features from point cloud data for category-level object pose estimation tasks. The proposed HS-layer: 1) is able to perceive local-global geometric structure and global information, 2) is robust to noise, and 3) can encode size and translation information. Our experiments show that the simple replacement of the 3D-GC layer with the proposed HS-layer on the baseline method (GPV-Pose) achieves a significant improvement, with the performance increased by 14.5% on 5d2cm metric and 10.3% on IoU75. Our method outperforms the state-of-the-art methods by a large margin (8.3% on 5d2cm, 6.9% on IoU75) on the REAL275 dataset and runs in real-time (50 FPS). | 翻訳日:2023-03-29 16:22:30 公開日:2023-03-28 |
# オンラインストリーミング映像理解のためのシステム統計対応適応ネットワーク System-status-aware Adaptive Network for Online Streaming Video Understanding ( http://arxiv.org/abs/2303.15742v1 ) ライセンス: Link先を確認 | Lin Geng Foo, Jia Gong, Zhipeng Fan, Jun Liu | (参考訳) 近年、リアルタイムアプリケーションのためのディープニューラルネットワークは大きな進歩を遂げている。
しかしながら、既存のほとんどの研究は、デバイスの状態と利用可能なリソースが時間とともに変動する一般的なケースを明示的に考慮していない。
本稿では,装置のリアルタイム状態を考慮したシステム統計対応適応ネットワーク(SAN, System-status-aware Adaptive Network)を提案する。
エージェントのポリシーの使用は、システム状態の変動に対する効率とロバスト性を向上させる。
2つの広く使われているビデオ理解タスクにおいて、SANは処理遅延を常に低く保ちながら最先端のパフォーマンスを得る。
さらに,各種ハードウェア構成のエージェントをトレーニングするのは,ラベル付きトレーニングデータが入手できない場合や,計算が禁止される場合など,容易ではない。
この課題に対処するために,テスト時にエージェントのポリシーを新しいハードウェア構成に適応させるメタ自己監督適応 (msa) 手法を提案する。 Recent years have witnessed great progress in deep neural networks for real-time applications. However, most existing works do not explicitly consider the general case where the device's state and the available resources fluctuate over time, and none of them investigate or address the impact of varying computational resources for online video understanding tasks. This paper proposes a System-status-aware Adaptive Network (SAN) that considers the device's real-time state to provide high-quality predictions with low delay. Usage of our agent's policy improves efficiency and robustness to fluctuations of the system status. On two widely used video understanding tasks, SAN obtains state-of-the-art performance while constantly keeping processing delays low. Moreover, training such an agent on various types of hardware configurations is not easy as the labeled training data might not be available, or can be computationally prohibitive. To address this challenging problem, we propose a Meta Self-supervised Adaptation (MSA) method that adapts the agent's policy to new hardware configurations at test-time, allowing for easy deployment of the model onto other unseen hardware platforms. | 翻訳日:2023-03-29 16:22:02 公開日:2023-03-28 |
# 収縮確率近似の濃度:加算音と乗算音 Concentration of Contractive Stochastic Approximation: Additive and Multiplicative Noise ( http://arxiv.org/abs/2303.15740v1 ) ライセンス: Link先を確認 | Zaiwei Chen, Siva Theja Maguluri, and Martin Zubeldia | (参考訳) 本研究では,任意のノルムに対する契約演算子の下での確率近似(SA)アルゴリズムの濃度挙動について検討する。
本稿では,(1)有界乗法雑音,(2)加法的部分ガウス雑音の2つの条件について考察する。
我々は収束誤差の最大濃度不等式を求め,これらの誤差が加法雑音設定における準ガウス尾と乗法雑音設定における超多項式テール(多項式減衰よりも速い)を有することを示す。
さらに,乗法雑音を伴うsaのサブ指数尾部を実現することは一般に不可能であることを示す。
これらの結果を確立するために,誤りの一般化モロー包絡のモーメント生成関数と,ville の極大不等式を有効活用するための指数関数スーパーマーチンゲールの構成を境界とする新しいブートストラップ法を考案する。
理論的な結果の適用性を実証するために,線形関数近似を用いたオンラインTD学習,一般化された重要サンプリング因子を用いたオフポリティクスTD学習,および$Q$ラーニングを含む,大規模な強化学習アルゴリズムに対して,最大濃度境界を提供する。
最善の知識として,非拘束イテレートと乗法雑音の組み合わせを扱うという課題から,オフポリティカルtd学習のための超多項濃度境界は文献に確立されていない。 In this work, we study the concentration behavior of a stochastic approximation (SA) algorithm under a contractive operator with respect to an arbitrary norm. We consider two settings where the iterates are potentially unbounded: (1) bounded multiplicative noise, and (2) additive sub-Gaussian noise. We obtain maximal concentration inequalities on the convergence errors, and show that these errors have sub-Gaussian tails in the additive noise setting, and super-polynomial tails (faster than polynomial decay) in the multiplicative noise setting. In addition, we provide an impossibility result showing that it is in general not possible to achieve sub-exponential tails for SA with multiplicative noise. To establish these results, we develop a novel bootstrapping argument that involves bounding the moment generating function of the generalized Moreau envelope of the error and the construction of an exponential supermartingale to enable using Ville's maximal inequality. To demonstrate the applicability of our theoretical results, we use them to provide maximal concentration bounds for a large class of reinforcement learning algorithms, including but not limited to on-policy TD-learning with linear function approximation, off-policy TD-learning with generalized importance sampling factors, and $Q$-learning. To the best of our knowledge, super-polynomial concentration bounds for off-policy TD-learning have not been established in the literature due to the challenge of handling the combination of unbounded iterates and multiplicative noise. | 翻訳日:2023-03-29 16:21:44 公開日:2023-03-28 |
# オーバーパラメトリズドケースにおける深部ReLUニューラルネットワークのベイズ自由エネルギー Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized Cases ( http://arxiv.org/abs/2303.15739v1 ) ライセンス: Link先を確認 | Shuya Nagayasu, Sumio Watanabe | (参考訳) 人工知能の多くの研究分野において、深層ニューラルネットワークは高次元入力空間上で未知の関数を推定するのに有用であることが示されている。
しかし、その一般化性能は、識別不能で特異な学習機械であるため、理論的な観点からはまだ完全には解明されていない。
さらに、ReLU関数は微分不可能であり、特異学習理論における代数的あるいは解析的手法は適用できない。
本稿では,過度にパラメータ化された場合の深部ReLUニューラルネットワークについて検討し,未知のデータ生成関数を推定するために必要な層数より大きい場合においても,ベイズ自由エネルギーがベイズ確率のマイナス対数限界確率に等しいことを証明した。
ベイジアン一般化誤差は標本サイズの関数としての自由エネルギーの増加と等しいため, 深部ReLUニューラルネットワークが十分に大きければ, あるいは超並列化状態であってもベイジアン一般化誤差は増加しないことを示す。 In many research fields in artificial intelligence, it has been shown that deep neural networks are useful to estimate unknown functions on high dimensional input spaces. However, their generalization performance is not yet completely clarified from the theoretical point of view because they are nonidentifiable and singular learning machines. Moreover, a ReLU function is not differentiable, to which algebraic or analytic methods in singular learning theory cannot be applied. In this paper, we study a deep ReLU neural network in overparametrized cases and prove that the Bayesian free energy, which is equal to the minus log marginal likelihoodor the Bayesian stochastic complexity, is bounded even if the number of layers are larger than necessary to estimate an unknown data-generating function. Since the Bayesian generalization error is equal to the increase of the free energy as a function of a sample size, our result also shows that the Bayesian generalization error does not increase even if a deep ReLU neural network is designed to be sufficiently large or in an opeverparametrized state. | 翻訳日:2023-03-29 16:21:18 公開日:2023-03-28 |
# 任意形状テキスト検出のための変形可能なカーネル拡張モデル Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene Text Detection ( http://arxiv.org/abs/2303.15737v1 ) ライセンス: Link先を確認 | Tao He and Sheng Huang and Wenhao Tang and Bo Liu | (参考訳) シーンのテキスト検出は、テキストの形状や比率のばらつきが高いため、コンピュータビジョンの課題である。
本研究では,セグメンテーションと輪郭に基づく検出器を併用したdeformable kernel expansion (dke) というシーンテキスト検出器を提案する。
DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、次にテキストカーネルの輪郭を拡張して頂点方向オフセットを回帰することでテキスト境界を得る。
セグメント化によるテキストカーネルの生成により、DKEはセグメント化ベースの検出器の任意の形のテキスト領域モデリング能力を継承できる。
カーネルの輪郭をサンプルの頂点で回帰することで、DKEは複雑なピクセルレベルの後処理を避け、輪郭ベースの検出器として輪郭変形を学習することができる。
さらに、予測された輪郭と地上の真実との一致誤差を計測し、グローバルな輪郭マッチング距離を効率的に最小化する最適二部グラフマッチング損失(OBGML)を提案する。
CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の大規模な実験により,DKE がシーンテキスト検出における精度と効率のトレードオフを達成できることが示された。 Scene text detection is a challenging computer vision task due to the high variation in text shapes and ratios. In this work, we propose a scene text detector named Deformable Kernel Expansion (DKE), which incorporates the merits of both segmentation and contour-based detectors. DKE employs a segmentation module to segment the shrunken text region as the text kernel, then expands the text kernel contour to obtain text boundary by regressing the vertex-wise offsets. Generating the text kernel by segmentation enables DKE to inherit the arbitrary-shaped text region modeling capability of segmentation-based detectors. Regressing the kernel contour with some sampled vertices enables DKE to avoid the complicated pixel-level post-processing and better learn contour deformation as the contour-based detectors. Moreover, we propose an Optimal Bipartite Graph Matching Loss (OBGML) that measures the matching error between the predicted contour and the ground truth, which efficiently minimizes the global contour matching distance. Extensive experiments on CTW1500, Total-Text, MSRA-TD500, and ICDAR2015 demonstrate that DKE achieves a good tradeoff between accuracy and efficiency in scene text detection. | 翻訳日:2023-03-29 16:21:00 公開日:2023-03-28 |
# パス拡張法による対向サンプルの転送性の向上 Improving the Transferability of Adversarial Samples by Path-Augmented Method ( http://arxiv.org/abs/2303.15735v1 ) ライセンス: Link先を確認 | Jianping Zhang, Jen-tse Huang, Wenxuan Wang, Yichen Li, Weibin Wu, Xiaosen Wang, Yuxin Su, Michael R. Lyu | (参考訳) 深層ニューラルネットワークは多様な視覚タスクにおいて前例のない成功を収めた。
しかし、人間には受け入れられない敵の騒音に弱い。
この現象は、現実のシナリオ、特にセキュリティ関連のシナリオでのデプロイメントに悪影響を及ぼす。
実際にターゲットモデルのロバスト性を評価するため,トランスファーベースアタックは局所モデルを用いて敵のサンプルを抽出し,高い効率で研究者の注目を集めた。
最先端の転送ベースの攻撃は、一般的にデータ拡張に基づいており、通常、敵対的なサンプルを学習する際に、線形パスから複数のトレーニングイメージを増強する。
しかし、このような手法は画像拡張パスをヒューリスティックに選択し、対象画像と相容れないイメージを増大させ、生成した対向サンプルの転送性に悪影響を及ぼす可能性がある。
この落とし穴を克服するため,我々はPath-Augmented Method (PAM)を提案する。
具体的には、まず、PAMが候補拡張パスプールを構築する。
そして、グリーディ探索による逆サンプル生成中に採用される増強経路を解決する。
さらに,セマンティクスに一貫性のない画像の強調を避けるために,セマンティクス予測子(sp)を訓練し,加算経路の長さを制約する。
大規模な実験により、PAMは攻撃成功率の点で最先端のベースラインと比較して平均4.8%以上の改善を達成できることを確認した。 Deep neural networks have achieved unprecedented success on diverse vision tasks. However, they are vulnerable to adversarial noise that is imperceptible to humans. This phenomenon negatively affects their deployment in real-world scenarios, especially security-related ones. To evaluate the robustness of a target model in practice, transfer-based attacks craft adversarial samples with a local model and have attracted increasing attention from researchers due to their high efficiency. The state-of-the-art transfer-based attacks are generally based on data augmentation, which typically augments multiple training images from a linear path when learning adversarial samples. However, such methods selected the image augmentation path heuristically and may augment images that are semantics-inconsistent with the target images, which harms the transferability of the generated adversarial samples. To overcome the pitfall, we propose the Path-Augmented Method (PAM). Specifically, PAM first constructs a candidate augmentation path pool. It then settles the employed augmentation paths during adversarial sample generation with greedy search. Furthermore, to avoid augmenting semantics-inconsistent images, we train a Semantics Predictor (SP) to constrain the length of the augmentation path. Extensive experiments confirm that PAM can achieve an improvement of over 4.8% on average compared with the state-of-the-art baselines in terms of the attack success rates. | 翻訳日:2023-03-29 16:20:35 公開日:2023-03-28 |
# 対戦ゲームのための適応的バックグラウンド音楽:多楽器ボリューム変調アプローチ Adaptive Background Music for a Fighting Game: A Multi-Instrument Volume Modulation Approach ( http://arxiv.org/abs/2303.15734v1 ) ライセンス: Link先を確認 | Ibrahim Khan, Thai Van Nguyen, Chollakorn Nimpattanavong, Ruck Thawonmas | (参考訳) 本稿では,適応的なBGMを追加することで,DareFightingICEのバックグラウンド音楽(BGM)を強化する取り組みについて述べる。
適応的なBGMは、"Air on G-String"と呼ばれるクラシック曲を演奏する5つの異なる楽器で構成されている。
bgmは、楽器のボリュームを変化させて適応する。
各楽器はゲームの異なる要素に接続されている。
次に、音声のみを入力として使用する深層強化学習AI(Blind DL AI)を用いて、適応的BGMを評価する実験を行う。
その結果,適応的BGMを使わずにプレイするよりも,適応的BGMを併用したBlind DL AIの性能が向上した。 This paper presents our work to enhance the background music (BGM) in DareFightingICE by adding an adaptive BGM. The adaptive BGM consists of five different instruments playing a classical music piece called "Air on G-String." The BGM adapts by changing the volume of the instruments. Each instrument is connected to a different element of the game. We then run experiments to evaluate the adaptive BGM by using a deep reinforcement learning AI that only uses audio as input (Blind DL AI). The results show that the performance of the Blind DL AI improves while playing with the adaptive BGM as compared to playing without the adaptive BGM. | 翻訳日:2023-03-29 16:20:16 公開日:2023-03-28 |
# 動的量子熱エンジンの効率と熱力学的不確かさの関係 Efficiency and thermodynamic uncertainty relations of a dynamical quantum heat engine ( http://arxiv.org/abs/2303.15773v1 ) ライセンス: Link先を確認 | Luca Razzoli, Fabio Cavaliere, Matteo Carrega, Maura Sassetti, Giuliano Benenti | (参考訳) 高性能量子熱機械の探求において、最適熱力学効率を求めることは問題の一部である。
実際、量子デバイスのレベルでは、変動は非常に関連性が高く、考慮する必要がある。
本稿では,量子高調波発振器を作動媒とする量子熱機械の熱力学的不確実性関係について検討する。
計算機が量子エンジンまたは冷凍機として動作し、小型化と小型化の両面からパラメータを見つけることができることを示す。 In the quest for high-performance quantum thermal machines, looking for an optimal thermodynamic efficiency is only part of the issue. Indeed, at the level of quantum devices, fluctuations become extremely relevant and need to be taken into account. In this paper we study the thermodynamic uncertainty relations for a quantum thermal machine with a quantum harmonic oscillator as a working medium, connected to two thermal baths, one of which is dynamically coupled. We show that parameters can be found such that the machine operates both as a quantum engine or refrigerator, with both sizeable efficiency and small fluctuations. | 翻訳日:2023-03-29 16:14:49 公開日:2023-03-28 |
# Ecosystem Graphs: 基礎モデルのソーシャルフットプリント Ecosystem Graphs: The Social Footprint of Foundation Models ( http://arxiv.org/abs/2303.15772v1 ) ライセンス: Link先を確認 | Rishi Bommasani and Dilara Soylu and Thomas I. Liao and Kathleen A. Creel and Percy Liang | (参考訳) 基礎モデル(例えばchatgpt、stablediffusion)は社会に広く影響を与え、すぐに社会の注意を喚起する。
モデル自体が、その影響を正確に特徴づけるためには、より広範な社会技術エコシステムを考える必要がある。
このエコシステムの知識を透過的に集中化するためのドキュメンテーションフレームワークとして,Ecosystem Graphsを提案する。
Ecosystem Graphs は、技術的(例えば Bing は GPT-4 に依存している)と社会的(例えば Microsoft は OpenAI に依存している)の関係を示す依存関係によってリンクされた資産(データセット、モデル、アプリケーション)で構成されている。
グラフ構造を補完するため、各アセットはさらに細かなメタデータ(ライセンスやトレーニングエミッションなど)を豊かにします。
エコシステムはhttps://crfm.stanford.edu/ecosystem-graphs/で広くドキュメント化されています。
2023年3月16日現在、63の組織から262の資産(64のデータセット、128のモデル、70のアプリケーション)を356の依存関係でアノテートしています。
Ecosystem Graphs関数は、無数のユースケースに対処するために必要な最小限の透明性を達成するための強力な抽象化とインターフェースであることを示す。
したがって、エコシステムグラフは、ai研究者、業界専門家、社会科学者、監査人、政策立案者など幅広い利害関係者に価値を提供する、コミュニティが維持するリソースになると考えています。 Foundation models (e.g. ChatGPT, StableDiffusion) pervasively influence society, warranting immediate social attention. While the models themselves garner much attention, to accurately characterize their impact, we must consider the broader sociotechnical ecosystem. We propose Ecosystem Graphs as a documentation framework to transparently centralize knowledge of this ecosystem. Ecosystem Graphs is composed of assets (datasets, models, applications) linked together by dependencies that indicate technical (e.g. how Bing relies on GPT-4) and social (e.g. how Microsoft relies on OpenAI) relationships. To supplement the graph structure, each asset is further enriched with fine-grained metadata (e.g. the license or training emissions). We document the ecosystem extensively at https://crfm.stanford.edu/ecosystem-graphs/. As of March 16, 2023, we annotate 262 assets (64 datasets, 128 models, 70 applications) from 63 organizations linked by 356 dependencies. We show Ecosystem Graphs functions as a powerful abstraction and interface for achieving the minimum transparency required to address myriad use cases. Therefore, we envision Ecosystem Graphs will be a community-maintained resource that provides value to stakeholders spanning AI researchers, industry professionals, social scientists, auditors and policymakers. | 翻訳日:2023-03-29 16:14:36 公開日:2023-03-28 |
# DDMM-Synth:スパースビュー計測埋め込みを用いたクロスモーダル医用画像合成のためのノイズ拡散モデル DDMM-Synth: A Denoising Diffusion Model for Cross-modal Medical Image Synthesis with Sparse-view Measurement Embedding ( http://arxiv.org/abs/2303.15770v1 ) ライセンス: Link先を確認 | Xiaoyue Li, Kai Shang, Gaoang Wang and Mark D. Butala | (参考訳) CT(Computed tomography)における放射線線量削減は,放射線誘発リスクを軽減するために重要である。
1つの選択肢は、不完全な情報とスパースビューの測定をCT再構成にマッピングするために、よく訓練されたモデルを使用することである。
しかし, 対象物をCTで一意に特徴付けるには, 微量試料からの再構成が不十分であり, 未診断症例に対しては学習前のモデルが不十分である可能性がある。
磁気共鳴画像(MRI)からCTへの医療用モーダルトランスフォーメーションは代替であるが, 合成CT画像に誤った情報を導入する可能性があり, それらの関連性を示す明示的な変換は存在しない。
これらの課題に対処するため,医療画像合成のためのデノナイズ拡散モデル (DDMM-Synth) と呼ばれる新しいフレームワークを提案する。
このフレームワークはMRI誘導拡散モデルと新しいCT計測埋め込み逆サンプリングスキームを組み合わせたものである。
具体的には、MRI誘導データ分布により、1ステップの復調結果のヌルスペース内容が洗練され、明示的な演算子行列から導出されるレンジスペース成分とスパースビューCT測定が推論ステージに直接統合される。
DDMM-Synthは特定の臨床応用のためのCTの投射数を調整することができ、その修正版はノイズのある症例に対して結果を著しく改善することができる。
その結果,DDMM-Synth は他の最先端の教師あり学習ベースラインよりも高い性能を示した。 Reducing the radiation dose in computed tomography (CT) is important to mitigate radiation-induced risks. One option is to employ a well-trained model to compensate for incomplete information and map sparse-view measurements to the CT reconstruction. However, reconstruction from sparsely sampled measurements is insufficient to uniquely characterize an object in CT, and a learned prior model may be inadequate for unencountered cases. Medical modal translation from magnetic resonance imaging (MRI) to CT is an alternative but may introduce incorrect information into the synthesized CT images in addition to the fact that there exists no explicit transformation describing their relationship. To address these issues, we propose a novel framework called the denoising diffusion model for medical image synthesis (DDMM-Synth) to close the performance gaps described above. This framework combines an MRI-guided diffusion model with a new CT measurement embedding reverse sampling scheme. Specifically, the null-space content of the one-step denoising result is refined by the MRI-guided data distribution prior, and its range-space component derived from an explicit operator matrix and the sparse-view CT measurements is directly integrated into the inference stage. DDMM-Synth can adjust the projection number of CT a posteriori for a particular clinical application and its modified version can even improve the results significantly for noisy cases. Our results show that DDMM-Synth outperforms other state-of-the-art supervised-learning-based baselines under fair experimental conditions. | 翻訳日:2023-03-29 16:14:12 公開日:2023-03-28 |
# RobustSwap: 属性漏洩に対するシンプルだがロバストな顔スワッピングモデル RobustSwap: A Simple yet Robust Face Swapping Model against Attribute Leakage ( http://arxiv.org/abs/2303.15768v1 ) ライセンス: Link先を確認 | Jaeseong Lee, Taewoo Kim, Sunghyun Park, Younggun Lee, Jaegul Choo | (参考訳) フェイススワッピングは、ターゲットイメージにソースイメージのアイデンティティ(すなわち顔の特徴)を注入することを目的としているが、アイデンティティとは無関係なターゲットの属性を厳密に保持する。
しかし,これまでのアプローチでは,対象画像の属性に干渉するソース属性のリークが問題視されていた。
本稿では,スタイルガンの潜在空間を分析し,フェイススワッピングタスク用に用意された潜在空間の適切な組み合わせを求める。
本研究は,ロバスト・スワップ (RobustSwap) の簡易な顔交換モデルを構築し, 情報源属性の漏洩に対する耐性を示す。
さらに,3dmmの暗黙的および明示的な情報の協調を,音源画像の構造と対象画像の正確なポーズを組み込むためのガイダンスとして活用する。
本手法は,識別ラベルのない画像データセットのみをトレーニングに利用するが,高忠実度で時間的一貫性のある映像を生成できる。
本研究では,画像とビデオの合成において,従来の顔交換モデルと比較して,定性的,定量的な評価を行った。
プロジェクトページはhttps://robustswap.github.io/にある。 Face swapping aims at injecting a source image's identity (i.e., facial features) into a target image, while strictly preserving the target's attributes, which are irrelevant to identity. However, we observed that previous approaches still suffer from source attribute leakage, where the source image's attributes interfere with the target image's. In this paper, we analyze the latent space of StyleGAN and find the adequate combination of the latents geared for face swapping task. Based on the findings, we develop a simple yet robust face swapping model, RobustSwap, which is resistant to the potential source attribute leakage. Moreover, we exploit the coordination of 3DMM's implicit and explicit information as a guidance to incorporate the structure of the source image and the precise pose of the target image. Despite our method solely utilizing an image dataset without identity labels for training, our model has the capability to generate high-fidelity and temporally consistent videos. Through extensive qualitative and quantitative evaluations, we demonstrate that our method shows significant improvements compared with the previous face swapping models in synthesizing both images and videos. Project page is available at https://robustswap.github.io/ | 翻訳日:2023-03-29 16:13:47 公開日:2023-03-28 |
# X-Mesh: 動的テキスト誘導によるテキスト駆動型3Dスティル化の高速化 X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance ( http://arxiv.org/abs/2303.15764v1 ) ライセンス: Link先を確認 | Yiwei Ma, Xiaioqing Zhang, Xiaoshuai Sun, Jiayi Ji, Haowei Wang, Guannan Jiang, Weilin Zhuang, Rongrong Ji | (参考訳) テキスト駆動3dスタイライゼーション(英: text-driven 3d styleylization)は、コンピュータビジョン(cv)とコンピュータグラフィックス(cg)の分野において複雑かつ重要なタスクである。
従来の手法ではテキスト非依存の多層パーセプトロン(MLP)を使用して、CLIP損失の監視によってターゲットメッシュの属性を予測する。
しかし、このようなテキストに依存しないアーキテクチャは属性を予測する際にテキストのガイダンスを欠いているため、不十分なスタイライゼーションと緩やかな収束に繋がる。
これらの制約に対処するために,新しいテキスト誘導動的注意モジュール(TDAM)を組み込んだ,革新的なテキスト駆動型3DスタイリングフレームワークであるX-Meshを紹介する。
TDAMは、頂点特徴抽出時のテキスト関連空間的およびチャネル的注意力を利用してターゲットテキストのガイダンスを動的に統合し、より正確な属性予測とより高速な収束速度を実現する。
さらに、既存の作品には標準ベンチマークや評価のための自動測定基準が欠如しており、定型化された3dアセットの品質を評価するために、主観的および非再現的なユーザー研究に頼っていることが多い。
この制限を克服するために、mit-30と2つの自動メトリクスという新しい標準テキストメッシュベンチマークを導入し、将来の研究が公平で客観的な比較を可能にする。
X-Meshは従来の最先端手法よりも優れていることを示す。 Text-driven 3D stylization is a complex and crucial task in the fields of computer vision (CV) and computer graphics (CG), aimed at transforming a bare mesh to fit a target text. Prior methods adopt text-independent multilayer perceptrons (MLPs) to predict the attributes of the target mesh with the supervision of CLIP loss. However, such text-independent architecture lacks textual guidance during predicting attributes, thus leading to unsatisfactory stylization and slow convergence. To address these limitations, we present X-Mesh, an innovative text-driven 3D stylization framework that incorporates a novel Text-guided Dynamic Attention Module (TDAM). The TDAM dynamically integrates the guidance of the target text by utilizing text-relevant spatial and channel-wise attentions during vertex feature extraction, resulting in more accurate attribute prediction and faster convergence speed. Furthermore, existing works lack standard benchmarks and automated metrics for evaluation, often relying on subjective and non-reproducible user studies to assess the quality of stylized 3D assets. To overcome this limitation, we introduce a new standard text-mesh benchmark, namely MIT-30, and two automated metrics, which will enable future research to achieve fair and objective comparisons. Our extensive qualitative and quantitative experiments demonstrate that X-Mesh outperforms previous state-of-the-art methods. | 翻訳日:2023-03-29 16:13:24 公開日:2023-03-28 |
# 効率的な対応処理のための2次注意文脈の学習 Learning Second-Order Attentive Context for Efficient Correspondence Pruning ( http://arxiv.org/abs/2303.15761v1 ) ライセンス: Link先を確認 | Xinyi Ye, Weiyue Zhao, Hao Lu, Zhiguo Cao | (参考訳) 対応プルーニングは、一貫した対応 (inliers) の集合から一貫した対応 (inliers) を探索することを目的としている。
多くの外れ値の分散した空間分布のため、特に配置対応が大半が外れ値に支配されている場合、それは困難である。
効率を保ちながら有効性を確保することはもっと難しい。
本稿では, 効果的かつ効率的な対応プルーニング手法を提案する。
対応問題における注意コンテキストの成功に触発されて,まず注意コンテキストを一階注意コンテキストに拡張し,次に注意コンテキストの概念(ana)を導入し,対応プラニングのための二階注意コンテキストをモデル化する。
特徴一貫性のある文脈に焦点をあてた一階の注意に比べ、二階の注意は注意重みそのものに注力し、注意マップから一貫したコンテキストをエンコードするための追加の情報源を提供する。
効率向上のために,2次注意の単純実装のための2つの近似式を導出し,2次注意を無視可能な計算オーバーヘッドで使用できるように,3次複雑さを線形複雑性に最適化する。
さらに,この定式化を2階のコンテキスト層に実装し,その層をanaブロックに組み込む。
広範囲にわたる実験により,本手法は,特に高出力比の場合において,外れ値の刈り出しにおいて効果的かつ効率的であることが証明された。
LMCNetと比較して,提案手法は競合精度を維持しつつ,14倍高速に動作可能である。 Correspondence pruning aims to search consistent correspondences (inliers) from a set of putative correspondences. It is challenging because of the disorganized spatial distribution of numerous outliers, especially when putative correspondences are largely dominated by outliers. It's more challenging to ensure effectiveness while maintaining efficiency. In this paper, we propose an effective and efficient method for correspondence pruning. Inspired by the success of attentive context in correspondence problems, we first extend the attentive context to the first-order attentive context and then introduce the idea of attention in attention (ANA) to model second-order attentive context for correspondence pruning. Compared with first-order attention that focuses on feature-consistent context, second-order attention dedicates to attention weights itself and provides an additional source to encode consistent context from the attention map. For efficiency, we derive two approximate formulations for the naive implementation of second-order attention to optimize the cubic complexity to linear complexity, such that second-order attention can be used with negligible computational overheads. We further implement our formulations in a second-order context layer and then incorporate the layer in an ANA block. Extensive experiments demonstrate that our method is effective and efficient in pruning outliers, especially in high-outlier-ratio cases. Compared with the state-of-the-art correspondence pruning approach LMCNet, our method runs 14 times faster while maintaining a competitive accuracy. | 翻訳日:2023-03-29 16:12:57 公開日:2023-03-28 |
# 自由電子レーザーの量子状態における多光子過程と高共鳴 Multiphoton processes and higher resonances in the quantum regime of the free-electron laser ( http://arxiv.org/abs/2303.15757v1 ) ライセンス: Link先を確認 | Peter Kling and Enno Giese | (参考訳) 新たな放射特性を示すにもかかわらず、提案された量子自由電子レーザーの動作は、放出された光子の数が1電子当たり1個に制限されるという欠点があり、そのような装置の出力パワーは著しく低下する。
電子の初期運動量の異なる共鳴に依存すると、放出される光子の数は増加するが、同時に、外周的な実現を妨げるアンデュレータの必要長も増加する。
さらに,多光子過程が深部量子状態の力学に与える影響について検討する。 Despite exhibiting novel radiation features, the operation of the proposed quantum free-electron laser would have the drawback that the number of emitted photons is limited by one per electron, significantly reducing the output power of such a device. We show that relying on different resonances of the initial momentum of the electrons increases the number of emitted photons, but also increases the required length of the undulator impeding an experimetal realization. Moreover, we investigate how multiphoton processes influence the dynamics in the deep quantum regime. | 翻訳日:2023-03-29 16:12:27 公開日:2023-03-28 |
# トークン勾配正規化を用いた視覚トランスフォーマの転送可能逆攻撃 Transferable Adversarial Attacks on Vision Transformers with Token Gradient Regularization ( http://arxiv.org/abs/2303.15754v1 ) ライセンス: Link先を確認 | Jianping Zhang, Yizhan Huang, Weibin Wu, Michael R. Lyu | (参考訳) ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
転送ベースの攻撃の効率が高いため、ViTベースのアプリケーションにとって深刻なセキュリティ上の脅威となる。
したがって、セキュリティに敏感なシナリオにおいて、ViTの欠陥を事前に識別するために、効果的な転送ベースの攻撃を設計することが不可欠である。
既存の取り組みは一般的に、反対サンプルの更新方向を安定させるために入力勾配の規則化に重点を置いている。
しかし、ViTsの中間ブロックにおけるバックプロパゲート勾配のばらつきは依然として大きいため、生成した逆数サンプルはいくつかのモデル固有の特徴に焦点を合わせ、局所的最適度が劣る可能性がある。
既存のアプローチの欠点を克服するため,Token Gradient Regularization (TGR)法を提案する。
ViTsの構造的特性により、TGRはViTsの各内部ブロックにおけるバックプロパゲート勾配の分散をトークン的に低減し、正則化勾配を用いて反対サンプルを生成する。
ViTとCNNの両方を攻撃するための大規模な実験により、我々のアプローチの優位性が確認された。
特に、最先端の転送ベースの攻撃と比較して、私たちのTGRは平均8.8%のパフォーマンス改善を提供します。 Vision transformers (ViTs) have been successfully deployed in a variety of computer vision tasks, but they are still vulnerable to adversarial samples. Transfer-based attacks use a local model to generate adversarial samples and directly transfer them to attack a target black-box model. The high efficiency of transfer-based attacks makes it a severe security threat to ViT-based applications. Therefore, it is vital to design effective transfer-based attacks to identify the deficiencies of ViTs beforehand in security-sensitive scenarios. Existing efforts generally focus on regularizing the input gradients to stabilize the updated direction of adversarial samples. However, the variance of the back-propagated gradients in intermediate blocks of ViTs may still be large, which may make the generated adversarial samples focus on some model-specific features and get stuck in poor local optima. To overcome the shortcomings of existing approaches, we propose the Token Gradient Regularization (TGR) method. According to the structural characteristics of ViTs, TGR reduces the variance of the back-propagated gradient in each internal block of ViTs in a token-wise manner and utilizes the regularized gradient to generate adversarial samples. Extensive experiments on attacking both ViTs and CNNs confirm the superiority of our approach. Notably, compared to the state-of-the-art transfer-based attacks, our TGR offers a performance improvement of 8.8% on average. | 翻訳日:2023-03-29 16:12:16 公開日:2023-03-28 |
# 全スライド画像分類のためのインスタンスからバッグ分類器への反復結合多重インスタンス学習 Iteratively Coupled Multiple Instance Learning from Instance to Bag Classifier for Whole Slide Image Classification ( http://arxiv.org/abs/2303.15749v1 ) ライセンス: Link先を確認 | Hongyi Wang, Luyang Luo, Fang Wang, Ruofeng Tong, Yen-Wei Chen, Hongjie Hu, Lanfen Lin, and Hao Chen | (参考訳) Whole Slide Image (WSI)分類は、非常に高解像度であり、きめ細かいラベルがないため、依然として課題である。
現在、WSIは通常、スライドレベルラベルのみが利用可能である場合、多重インスタンス学習(MIL)問題に分類される。
MILメソッドにはパッチの埋め込みプロセスとバッグレベルの分類プロセスが含まれるが、エンドツーエンドでトレーニングされることは違法に高価である。
したがって、既存のメソッドは通常、個別にトレーニングするか、あるいは埋め込み器のトレーニングを直接スキップする。
このようなスキームは、パッチ埋め込み者のスライドレベルラベルへのアクセスを妨げるため、MILパイプライン全体の不整合をもたらす。
この問題を解決するために,バッグレベルの分類器からパッチ埋め込み装置への損失バックプロパゲーションプロセスをブリッジするICMIL (Iteratively Coupled MIL) という新しいフレームワークを提案する。
icmilでは,バグレベル分類器のカテゴリ情報を用いてパッチ特徴抽出器のパッチレベルの微調整を行う。
洗練された埋め込み器は、より正確なバッグレベルの分類器を達成するためのより良いインスタンス表現を生成する。
パッチ埋め込み器とバッグ分類器を低コストで結合することにより、提案フレームワークは2つのプロセス間の情報交換を可能にし、MIL分類モデル全体の恩恵を受けることができる。
我々は3つの異なるバックボーンを用いて2つのデータセット上でフレームワークをテストし、実験の結果、最先端のMIL法よりも一貫した性能改善が示された。
コードは受理次第利用可能になる。 Whole Slide Image (WSI) classification remains a challenge due to their extremely high resolution and the absence of fine-grained labels. Presently, WSIs are usually classified as a Multiple Instance Learning (MIL) problem when only slide-level labels are available. MIL methods involve a patch embedding process and a bag-level classification process, but they are prohibitively expensive to be trained end-to-end. Therefore, existing methods usually train them separately, or directly skip the training of the embedder. Such schemes hinder the patch embedder's access to slide-level labels, resulting in inconsistencies within the entire MIL pipeline. To overcome this issue, we propose a novel framework called Iteratively Coupled MIL (ICMIL), which bridges the loss back-propagation process from the bag-level classifier to the patch embedder. In ICMIL, we use category information in the bag-level classifier to guide the patch-level fine-tuning of the patch feature extractor. The refined embedder then generates better instance representations for achieving a more accurate bag-level classifier. By coupling the patch embedder and bag classifier at a low cost, our proposed framework enables information exchange between the two processes, benefiting the entire MIL classification model. We tested our framework on two datasets using three different backbones, and our experimental results demonstrate consistent performance improvements over state-of-the-art MIL methods. Code will be made available upon acceptance. | 翻訳日:2023-03-29 16:11:50 公開日:2023-03-28 |
# SVD-DIP : DIPによるCT再建におけるオーバーフィッティングの克服 SVD-DIP: Overcoming the Overfitting Problem in DIP-based CT Reconstruction ( http://arxiv.org/abs/2303.15748v1 ) ライセンス: Link先を確認 | Marco Nittscher, Michael Lameter, Riccardo Barbano, Johannes Leuschner, Bangti Jin, Peter Maass | (参考訳) deep image prior(dip)は、画像再構成のためのよく確立された教師なしのディープラーニング手法である。
ディップは、早期停止でなければノイズに過度に適合し、あるいは正規化された目的によって最適化される。
我々は、学習を特異値の適応に制限する新しい戦略を採用することにより、事前訓練されたDIPの規則化された微調整を構築する。
提案するsvd-dipは,事前学習パラメータが特異値分解によって分解されるアドホック畳み込み層を用いる。
このときの DIP の最適化は、左特異ベクトルと右特異ベクトルを固定しながら、特異値の微調整のみからなる。
ロータス根の実測値$\mu$ctデータと2つの医療データセット(lodopabとmayo)について,提案手法を徹底的に検証した。
オーバーフィットを克服することにより,ディップ最適化の安定性が大幅に向上した。 The deep image prior (DIP) is a well-established unsupervised deep learning method for image reconstruction; yet it is far from being flawless. The DIP overfits to noise if not early stopped, or optimized via a regularized objective. We build on the regularized fine-tuning of a pretrained DIP, by adopting a novel strategy that restricts the learning to the adaptation of singular values. The proposed SVD-DIP uses ad hoc convolutional layers whose pretrained parameters are decomposed via the singular value decomposition. Optimizing the DIP then solely consists in the fine-tuning of the singular values, while keeping the left and right singular vectors fixed. We thoroughly validate the proposed method on real-measured $\mu$CT data of a lotus root as well as two medical datasets (LoDoPaB and Mayo). We report significantly improved stability of the DIP optimization, by overcoming the overfitting to noise. | 翻訳日:2023-03-29 16:11:25 公開日:2023-03-28 |
# 量子エミッタ鎖からのトポロジカル単一光子放出 Topological Single Photon Emission from Quantum Emitter Chains ( http://arxiv.org/abs/2303.15807v1 ) ライセンス: Link先を確認 | Yubin Wang, Huawen Xu, Xinyi Deng, Timothy Liew, Sanjib Ghosh, and Qihua Xiong | (参考訳) 本研究では, 雑音量子エミッタの集合体から作製した活性量子su-schrieffer-heeger鎖から, 識別不能な単一光子を生成する手法を開発した。
驚くべきことに、活性量子鎖の単一光子放出スペクトルは、単一のエミッタや位相的に自明な鎖に比べて非常に狭い。
さらに、この効果は非自明から自明な相転移点に劇的に近くなる。
この効果を用いて、長いトポロジカル量子鎖の単一光子線幅が任意に狭くなり、識別不能な単一光子の理想的な源となることを示す。
最後に、実際の量子エミッタの具体例から、このモデルの微視的・定量的解析を行い、実験的な実現の観点から最も重要なパラメータを分析する。 We develop a scheme of generating highly indistinguishable single photons from an active quantum Su-Schrieffer-Heeger chain made from a collection of noisy quantum emitters. Surprisingly, the single photon emission spectrum of the active quantum chain is extremely narrow compared to that of a single emitter or topologically trivial chain. Moreover, this effect becomes dramatically strong close to the non-trivial-to-trivial phase transition point. Using this effect, we show that the single photon linewidth of a long topological quantum chain can become arbitrarily narrow, constituting an ideal source of indistinguishable single photons. Finally, taking specific examples of actual quantum emitters, we provide a microscopic and quantitative analysis of our model and analyze the most important parameters in view of the experimental realization. | 翻訳日:2023-03-29 16:04:57 公開日:2023-03-28 |
# StarNet:スタイル対応の3Dポイントクラウド生成 StarNet: Style-Aware 3D Point Cloud Generation ( http://arxiv.org/abs/2303.15805v1 ) ライセンス: Link先を確認 | Yunfan Zhang, Hao Wang, Guosheng Lin, Vun Chan Hua Nicholas, Zhiqi Shen, Chunyan Miao | (参考訳) 本稿では,3次元点雲の再構築と生成に関するオープン研究課題について検討する。
既存の3D生成モデルのほとんどの研究は、デコーダが3Dポイントクラウドを生成するための入力としてガウス先行を直接受け取っている。
GANベースのモデルのほとんどは局所的なジオメトリーの識別に失敗し、結果として物体表面に均等に分布しない点雲が生成され、点雲生成の品質が低下する。
さらに、一般的な手法では、フローベースのモデルやマルコフ連鎖といった計算集約的なフレームワークを採用しており、トレーニングフェーズでは多くの時間とリソースを必要とする。
これらの制約を解決するために,本研究では,高忠実度および3次元点群を再構成・生成可能なStarNetと,マップ付き潜時空間における入力の高次属性からガウスを効果的に切り離し,現実的な補間オブジェクトを生成することができる3次元点群を統合したスタイルアウェアネットワークアーキテクチャを提案する。
実験の結果,我々のフレームワークは,point cloudの再構築および生成タスクにおいて,さまざまな指標で同等のパフォーマンスを達成しているが,モデルサイズではより軽量であり,パラメータも少なく,モデルトレーニングに要する時間も少ないことがわかった。 This paper investigates an open research task of reconstructing and generating 3D point clouds. Most existing works of 3D generative models directly take the Gaussian prior as input for the decoder to generate 3D point clouds, which fail to learn disentangled latent codes, leading noisy interpolated results. Most of the GAN-based models fail to discriminate the local geometries, resulting in the point clouds generated not evenly distributed at the object surface, hence degrading the point cloud generation quality. Moreover, prevailing methods adopt computation-intensive frameworks, such as flow-based models and Markov chains, which take plenty of time and resources in the training phase. To resolve these limitations, this paper proposes a unified style-aware network architecture combining both point-wise distance loss and adversarial loss, StarNet which is able to reconstruct and generate high-fidelity and even 3D point clouds using a mapping network that can effectively disentangle the Gaussian prior from input's high-level attributes in the mapped latent space to generate realistic interpolated objects. Experimental results demonstrate that our framework achieves comparable state-of-the-art performance on various metrics in the point cloud reconstruction and generation tasks, but is more lightweight in model size, requires much fewer parameters and less time for model training. | 翻訳日:2023-03-29 16:04:45 公開日:2023-03-28 |
# Aggregated Gradientsを用いた高速収束フェデレーション学習 Fast Convergence Federated Learning with Aggregated Gradients ( http://arxiv.org/abs/2303.15799v1 ) ライセンス: Link先を確認 | Wenhao Yuan and Xuehe Wang | (参考訳) フェデレーション・ラーニング(federated learning, fl)は、複数の分散デバイスが、プライベートデータをローカルに保護しながら、中央サーバがスケジュールした共有モデルを協調的にトレーニングできる、新しい機械学習フレームワークである。
しかし,非独立分散(Non-IID)データサンプルと参加者間の頻繁なコミュニケーションは収束率を低下させ,通信コストを増大させる。
高速収束を実現するために,各局所更新期間に集約勾配を導入することにより,従来の局所更新ルールにおける局所勾配降下アプローチを改善し,各イテレーションで局所パラメータと大域パラメータの偏差をさらに考慮した適応学習率アルゴリズムを提案する。
上記の戦略では、各ローカルイテレーションにおいて、すべてのクライアントのローカルパラメータと勾配が必要である。
したがって,各ローカル更新時においてクライアントが相互にプライベート情報を交換する必要のない平均局所パラメータと勾配を推定するために,平均場項を2つ導入することで平均場アプローチを利用する。
解析の結果,提案手法はIIDおよび非IIDデータセットのモデル精度と収束率において,最先端の手法よりも優れていることがわかった。 Federated Learning (FL) is a novel machine learning framework, which enables multiple distributed devices cooperatively training a shared model scheduled by a central server while protecting private data locally. However, the non-independent-and-identically-distributed (Non-IID) data samples and frequent communication among participants will slow down the convergent rate and increase communication costs. To achieve fast convergence, we ameliorate the local gradient descend approach in conventional local update rule by introducing the aggregated gradients at each local update epoch, and propose an adaptive learning rate algorithm that further takes the deviation of local parameter and global parameter into consideration at each iteration. The above strategy requires all clients' local parameters and gradients at each local iteration, which is challenging as there is no communication during local update epochs. Accordingly, we utilize mean field approach by introducing two mean field terms to estimate the average local parameters and gradients respectively, which does not require clients to exchange their private information with each other at each local update epoch. Numerical results show that our proposed framework is superior to the state-of-art schemes in model accuracy and convergent rate on both IID and Non-IID dataset. | 翻訳日:2023-03-29 16:04:18 公開日:2023-03-28 |
# KERM:視覚・言語ナビゲーションのための知識強化推論 KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation ( http://arxiv.org/abs/2303.15796v1 ) ライセンス: Link先を確認 | Xiangyang Li, Zihan Wang, Jiahao Yang, Yaowei Wang, Shuqiang Jiang | (参考訳) VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲーション可能な候補を表現するために、機能全体またはオブジェクト中心の機能を利用する。
しかしながら、これらの表現は、エージェントがターゲット位置に到達するためのアクションを実行するのに十分な効率ではない。
本稿では,視覚的コンテンツを補完する重要な情報を提供するため,エージェントナビゲーション能力を向上させるために知識を活用する知識強化推論モデル(KERM)を提案する。
具体的には,まず,構築した知識ベースから,地域情報に基づくナビゲーションビューの事実(言語記述による知識)を検索する。
得られた事実は、単一のオブジェクト(色、形状など)の特性から、オブジェクト間の関係(アクション、空間位置など)まで、VLNにとって重要な情報を提供する。
さらに,視覚的,歴史的,命令的,事実的特徴を統合するために,精製,事実認識インタラクション,命令誘導集約モジュールを含むKERMについて述べる。
提案するkermは,重要かつ関連する手がかりを自動選択して収集し,より正確な行動予測を行うことができる。
提案手法の有効性を示すために,REVERIE,R2R,SOONデータセットの実験的検討を行った。 Vision-and-language navigation (VLN) is the task to enable an embodied agent to navigate to a remote location following the natural language instruction in real scenes. Most of the previous approaches utilize the entire features or object-centric features to represent navigable candidates. However, these representations are not efficient enough for an agent to perform actions to arrive the target location. As knowledge provides crucial information which is complementary to visible content, in this paper, we propose a Knowledge Enhanced Reasoning Model (KERM) to leverage knowledge to improve agent navigation ability. Specifically, we first retrieve facts (i.e., knowledge described by language descriptions) for the navigation views based on local regions from the constructed knowledge base. The retrieved facts range from properties of a single object (e.g., color, shape) to relationships between objects (e.g., action, spatial position), providing crucial information for VLN. We further present the KERM which contains the purification, fact-aware interaction, and instruction-guided aggregation modules to integrate visual, history, instruction, and fact features. The proposed KERM can automatically select and gather crucial and relevant cues, obtaining more accurate action prediction. Experimental results on the REVERIE, R2R, and SOON datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2023-03-29 16:03:58 公開日:2023-03-28 |
# 1000kmのファイバー距離におけるツインフィールド量子鍵分布の実験 Experimental Twin-Field Quantum Key Distribution Over 1000 km Fiber Distance ( http://arxiv.org/abs/2303.15795v1 ) ライセンス: Link先を確認 | Yang Liu, Wei-Jun Zhang, Cong Jiang, Jiu-Peng Chen, Chi Zhang, Wen-Xin Pan, Di Ma, Hao Dong, Jia-Min Xiong, Cheng-Jun Zhang, Hao Li, Rui-Chun Wang, Jun Wu, Teng-Yun Chen, Lixing You, Xiang-Bin Wang, Qiang Zhang, and Jian-Wei Pan | (参考訳) qkd(quantum key distribution)は、2つのリモートパーティが共有するセキュアなプライベートキーの生成を目的とする。
セキュリティは量子力学の原理によって保護されているため、いくつかの技術課題はQKDの実用化に向けて残っている。
主なものは距離制限であり、これは光ファイバーの光子伝送距離に比例してチャネル損失が指数関数的である間に量子信号が増幅できないことに起因する。
ここでは,アクティブodd-parity-pairing法を用いた3-intensity send-or-not-sendingプロトコルを用いて,1002km以上のファイバベースのツインフィールドqkdを実演する。
実験では, システムノイズを0.02Hzに抑えるために, デュアルバンド位相推定と超低雑音超伝導ナノワイヤ単光子検出器を開発した。
安全な鍵レートは、無症状状態において1002kmの繊維を介して1パルスあたり9.53\times10^{-12}$であり、有限サイズ効果を考慮して952kmで8.75\times10^{-12}$である。
我々の研究は、将来の大規模量子ネットワークに向けた重要なステップを構成する。 Quantum key distribution (QKD) aims to generate secure private keys shared by two remote parties. With its security being protected by principles of quantum mechanics, some technology challenges remain towards practical application of QKD. The major one is the distance limit, which is caused by the fact that a quantum signal cannot be amplified while the channel loss is exponential with the distance for photon transmission in optical fiber. Here using the 3-intensity sending-or-not-sending protocol with the actively-odd-parity-pairing method, we demonstrate a fiber-based twin-field QKD over 1002 km. In our experiment, we developed a dual-band phase estimation and ultra-low noise superconducting nanowire single-photon detectors to suppress the system noise to around 0.02 Hz. The secure key rate is $9.53\times10^{-12}$ per pulse through 1002 km fiber in the asymptotic regime, and $8.75\times10^{-12}$ per pulse at 952 km considering the finite size effect. Our work constitutes a critical step towards the future large-scale quantum network. | 翻訳日:2023-03-29 16:03:36 公開日:2023-03-28 |
# ネットを最大限に活用する: 画像のデモサイシングを改善するためのcanonicalとhardのデータセットを交互に切り替える Make the Most Out of Your Net: Alternating Between Canonical and Hard Datasets for Improved Image Demosaicing ( http://arxiv.org/abs/2303.15792v1 ) ライセンス: Link先を確認 | Yuval Becker, Raz Z. Nossek, Tomer Peleg | (参考訳) 画像復調はデジタルカメラの画像処理パイプラインにおいて重要なステップであり、画像復元の分野における多くのタスクの1つである。
自然画像のよく知られた特徴は、ほとんどのパッチは滑らかであるが、テクスチャや反復パターンのような高濃度のパッチはより稀であり、長い尾の分布をもたらすことである。
この分布は、画像復元タスクや特に画像復調のための機械学習アルゴリズムをトレーニングする場合、帰納的バイアスを生じさせる。
特定の損失の活用や特別なネットワークアーキテクチャの設計など、この課題に対処するためのさまざまなアプローチがある。
私たちの仕事は、トレーニングプロトコルの観点から問題に取り組むという点でユニークなものです。
提案するトレーニング体制は,2つの重要なステップから構成される。
最初のステップは、サブカテゴリが作成され、削除プロセスを通じて洗練され、最も有用なサブカテゴリのみを保持するデータマイニングステージである。
第2のステップは、ニューラルネットワークがマイニングされたサブカテゴリとオリジナルのデータセットの両方でトレーニングされる、循環トレーニングプロセスである。
画像復調作業におけるトレーニング手法の有効性を示すため,様々な実験を行った。
本手法は,cnnやトランスフォーマーなど,さまざまなアーキテクチャサイズやタイプにおいて,標準的なトレーニングよりも優れることを示す。
さらに,従来の最先端手法と比較して,はるかに小さなニューラルネットワークで最先端の成果を得ることができる。 Image demosaicing is an important step in the image processing pipeline for digital cameras, and it is one of the many tasks within the field of image restoration. A well-known characteristic of natural images is that most patches are smooth, while high-content patches like textures or repetitive patterns are much rarer, which results in a long-tailed distribution. This distribution can create an inductive bias when training machine learning algorithms for image restoration tasks and for image demosaicing in particular. There have been many different approaches to address this challenge, such as utilizing specific losses or designing special network architectures. What makes our work is unique in that it tackles the problem from a training protocol perspective. Our proposed training regime consists of two key steps. The first step is a data-mining stage where sub-categories are created and then refined through an elimination process to only retain the most helpful sub-categories. The second step is a cyclic training process where the neural network is trained on both the mined sub-categories and the original dataset. We have conducted various experiments to demonstrate the effectiveness of our training method for the image demosaicing task. Our results show that this method outperforms standard training across a range of architecture sizes and types, including CNNs and Transformers. Moreover, we are able to achieve state-of-the-art results with a significantly smaller neural network, compared to previous state-of-the-art methods. | 翻訳日:2023-03-29 16:03:15 公開日:2023-03-28 |
# HOICLIP:視覚言語モデルを用いたHOI検出のための効率的な知識伝達 HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models ( http://arxiv.org/abs/2303.15786v1 ) ライセンス: Link先を確認 | Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He | (参考訳) human-object interaction(hoi)検出は、人間とオブジェクトのペアをローカライズし、それらの相互作用を認識することを目的としている。
近年,コントラスト言語-画像事前学習 (CLIP) は,知識蒸留によるHOI検出器の操作に先立って大きな可能性を示している。
しかしながら、このようなアプローチは大規模トレーニングデータに依存することが多く、少数/ゼロショットのシナリオではパフォーマンスが劣る。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
具体的には,まず,クロスアテンション機構を介してクリップの視覚特徴マップから情報領域を抽出する新しいインタラクションデコーダを導入し,より正確な人間と対象のペア検出のための知識統合ブロックによって検出バックボーンと融合する。
さらに、CLIPテキストエンコーダの事前知識を利用して、HOI記述を埋め込んで分類器を生成する。
詳細なインタラクションを識別するために,視覚的意味演算と軽量動詞表現アダプタを用いて,訓練データから動詞分類器を構築する。
さらに,CLIPのグローバルHOI予測を利用した学習自由化を提案する。
HICO-Det上の+4.04 mAPなど,様々な設定において,本手法が最先端の手法であることを示す。
ソースコードはhttps://github.com/Artanic30/HOICLIPで入手できる。 Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions. Recently, Contrastive Language-Image Pre-training (CLIP) has shown great potential in providing interaction prior for HOI detectors via knowledge distillation. However, such approaches often rely on large-scale training data and suffer from inferior performance under few/zero-shot scenarios. In this paper, we propose a novel HOI detection framework that efficiently extracts prior knowledge from CLIP and achieves better generalization. In detail, we first introduce a novel interaction decoder to extract informative regions in the visual feature map of CLIP via a cross-attention mechanism, which is then fused with the detection backbone by a knowledge integration block for more accurate human-object pair detection. In addition, prior knowledge in CLIP text encoder is leveraged to generate a classifier by embedding HOI descriptions. To distinguish fine-grained interactions, we build a verb classifier from training data via visual semantic arithmetic and a lightweight verb representation adapter. Furthermore, we propose a training-free enhancement to exploit global HOI predictions from CLIP. Extensive experiments demonstrate that our method outperforms the state of the art by a large margin on various settings, e.g. +4.04 mAP on HICO-Det. The source code is available in https://github.com/Artanic30/HOICLIP. | 翻訳日:2023-03-29 16:02:50 公開日:2023-03-28 |
# CARTO:人工物体のカテゴリーと関節解剖学的再構成 CARTO: Category and Joint Agnostic Reconstruction of ARTiculated Objects ( http://arxiv.org/abs/2303.15782v1 ) ライセンス: Link先を確認 | Nick Heppert, Muhammad Zubair Irshad, Sergey Zakharov, Katherine Liu, Rares Andrei Ambrus, Jeannette Bohg, Abhinav Valada, Thomas Kollar | (参考訳) CARTO(CARTO)は,単一のステレオRGB観測から複数物体を再構成する手法である。
我々は暗黙のオブジェクト中心表現を使い、複数のオブジェクトカテゴリに対して単一の幾何学と調音デコーダを学習する。
複数カテゴリのトレーニングにもかかわらず,各カテゴリごとに別々に復号器を訓練する手法に比較して,復号器の再現精度が向上する。
ステレオ画像エンコーダと組み合わせることで, 3次元形状, 6次元ポーズ, サイズ, ジョイントタイプ, および単一フォワードパスにおける複数の未知物体のジョイント状態を推定する。
提案手法は,2段パイプラインと比較して,新しいインスタンスに対するmAP 3D IOU50を20.4%向上させる。
推論時間は高速で、NVIDIA TITAN XP GPUで8つ以下のオブジェクトを1HZで実行することができる。
シミュレーションデータのみをトレーニングしながら、CARTOは現実世界のオブジェクトインスタンスに転送する。
コードと評価データは以下の通りである。 We present CARTO, a novel approach for reconstructing multiple articulated objects from a single stereo RGB observation. We use implicit object-centric representations and learn a single geometry and articulation decoder for multiple object categories. Despite training on multiple categories, our decoder achieves a comparable reconstruction accuracy to methods that train bespoke decoders separately for each category. Combined with our stereo image encoder we infer the 3D shape, 6D pose, size, joint type, and the joint state of multiple unknown objects in a single forward pass. Our method achieves a 20.4% absolute improvement in mAP 3D IOU50 for novel instances when compared to a two-stage pipeline. Inference time is fast and can run on a NVIDIA TITAN XP GPU at 1 HZ for eight or less objects present. While only trained on simulated data, CARTO transfers to real-world object instances. Code and evaluation data is available at: http://carto.cs.uni-freiburg.de | 翻訳日:2023-03-29 16:02:28 公開日:2023-03-28 |
# 多光子対生成における渦の再検討 Vortices in multiphoton pair production revisited ( http://arxiv.org/abs/2303.15781v1 ) ライセンス: Link先を確認 | Li-Na Hu, Orkash Amat, Li Wang, Adiljan Sawut, Hong-Hao Fan and B. S. Xie | (参考訳) 多光子対生成における渦はパルスの異なるサイクルの時間遅延を持つ2つの反回転場によって再燃される。
新たな知見として, サブサイクル場においては, 運動量スペクトルの顕著な渦構造は, 小さい時間遅延で生成し易いスーパーサイクルの場合に比べて大きな時間遅延によっても引き起こされることがわかった。
また、異なる周期数に対応する渦の出現に対する臨界偏極値の範囲が存在する。
2つの場の相対的な位相差は、運動量スペクトルパターンと渦の深刻な対称性の破れを引き起こすだけでなく、渦スパイラルの形状と数に大きな変化をもたらす。
数密度が大きくなるとサイクル数に敏感になり、特に小さなサイクルパルスでは1桁以上増大する一方、時間遅延が小さい場合には数倍に増大する。
これらの結果は、将来多光子対生成の実験的な観測が可能な豊富な理論的試験ベッドを提供する。
一方、粒子運動量シグネチャは真空からのレーザ場情報に対する新しいプローブとして適用可能である。 Vortices in multiphoton pair production are revisited by two counter-rotating fields with time delay for different cycles in pulse. Novel findings include that for subcycle fields, the remarkable vortex structure in the momentum spectrum can be still caused by a large time delay compared to the previous study for supercycle case where it is easier to be generated by a small time delay. And also there exist a range of critical polarization values for the vortices appearance corresponding to the different cycle number. The relative phase difference between two fields causes not only severe symmetry breaking of the momentum spectra pattern and vortex, but also a significant change for the shape and the number of vortex spiral. Upon the number density, it is found a more sensitive to the cycle number, in particularly, it is enhanced by more than one order of magnitude for small cycle pulse, while it is increased about few times when the time delay is small. These results provide an abundant theoretical testbed for the possible experimental observation on the multiphoton pair production in future. Meanwhile, it is applicable to regard the particles momentum signatures as a new probing to the laser field information with it from the vacuum. | 翻訳日:2023-03-29 16:02:14 公開日:2023-03-28 |
# instruct 3d-to-3d: テキスト命令による3d-to-3d変換 Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion ( http://arxiv.org/abs/2303.15780v1 ) ライセンス: Link先を確認 | Hiromichi Kamata, Yuiko Sakuma, Akio Hayakawa, Masato Ishii, Takuya Narihira | (参考訳) 高品質な3D-to-3D変換手法であるインストラクション3D-to-3Dを提案する。
本手法は,テキストの指示に従って,与えられた3次元シーンを別のシーンに変換する新しいタスクのために設計されている。
instruct 3d-to-3dは、3d-to-3d変換に事前訓練された画像から画像への拡散モデルを適用する。
これにより、各視点画像の最大化と高品質な3D生成が可能となる。
さらに,提案手法は,ソース3Dシーンを条件として明示的に入力し,ソース3Dシーン構造がどの程度反映されているかの3D一貫性と制御性を高める。
また,形状変換の強度を調整する動的スケーリングを提案する。
定量および定性評価を行い,提案手法がベースライン法よりも高品質な3D-3D変換を実現することを示した。 We propose a high-quality 3D-to-3D conversion method, Instruct 3D-to-3D. Our method is designed for a novel task, which is to convert a given 3D scene to another scene according to text instructions. Instruct 3D-to-3D applies pretrained Image-to-Image diffusion models for 3D-to-3D conversion. This enables the likelihood maximization of each viewpoint image and high-quality 3D generation. In addition, our proposed method explicitly inputs the source 3D scene as a condition, which enhances 3D consistency and controllability of how much of the source 3D scene structure is reflected. We also propose dynamic scaling, which allows the intensity of the geometry transformation to be adjusted. We performed quantitative and qualitative evaluations and showed that our proposed method achieves higher quality 3D-to-3D conversions than baseline methods. | 翻訳日:2023-03-29 16:01:57 公開日:2023-03-28 |
# 流体力学実験のための機械学習の変換可能性 The transformative potential of machine learning for experiments in fluid mechanics ( http://arxiv.org/abs/2303.15832v1 ) ライセンス: Link先を確認 | Ricardo Vinuesa, Steven L. Brunton and Beverley J. McKeon | (参考訳) 機械学習の分野は、初期のビッグデータ分野の一つである実験流体力学を含む、科学と工学の多くの分野において、急速に技術の現状を進歩させてきた。
この視点は、機械学習の進歩の恩恵を受けるための実験流体力学のいくつかの側面を強調します。
1)測定技術の忠実度と質を高めること。
2 実験設計の改善及びデジタル双対モデルのサロゲート
3)リアルタイム推定と制御を可能にする。
いずれの場合も、近年の成功談や進行中の課題について、注意点や限界とともに論じ、ML強化およびML対応実験流体力学の新しい手法の可能性について概説する。 The field of machine learning has rapidly advanced the state of the art in many fields of science and engineering, including experimental fluid dynamics, which is one of the original big-data disciplines. This perspective will highlight several aspects of experimental fluid mechanics that stand to benefit from progress advances in machine learning, including: 1) augmenting the fidelity and quality of measurement techniques, 2) improving experimental design and surrogate digital-twin models and 3) enabling real-time estimation and control. In each case, we discuss recent success stories and ongoing challenges, along with caveats and limitations, and outline the potential for new avenues of ML-augmented and ML-enabled experimental fluid mechanics. | 翻訳日:2023-03-29 15:56:23 公開日:2023-03-28 |
# PDExplain: 野生におけるPDEのコンテキストモデリング PDExplain: Contextual Modeling of PDEs in the Wild ( http://arxiv.org/abs/2303.15827v1 ) ライセンス: Link先を確認 | Ori Linial, Orly Avner, Dotan Di Castro | (参考訳) PDExplainと呼ばれる文脈的スキームを用いて部分微分方程式の解法を提案する。
訓練段階では,操作者が定義したpsdファミリーから収集したデータに,このファミリーの一般的な形式を伴って供給される。
推論段階では、現象から収集された最小限のサンプルが設けられ、このサンプルはPDEファミリーと関係があるが、トレーニングフェーズで見られる特定のPDEのセットには必ずしも関連しない。
アルゴリズムがpdeソリューションを将来の時間ステップで予測する方法を示す。
さらに,本手法は物理科学におけるデータに基づく現象のモデル化を支援する特性であるPDEの説明可能な形式を提供する。
提案手法を検証するために,予測誤差と説明可能性の両方の観点から,その品質を検証した。 We propose an explainable method for solving Partial Differential Equations by using a contextual scheme called PDExplain. During the training phase, our method is fed with data collected from an operator-defined family of PDEs accompanied by the general form of this family. In the inference phase, a minimal sample collected from a phenomenon is provided, where the sample is related to the PDE family but not necessarily to the set of specific PDEs seen in the training phase. We show how our algorithm can predict the PDE solution for future timesteps. Moreover, our method provides an explainable form of the PDE, a trait that can assist in modelling phenomena based on data in physical sciences. To verify our method, we conduct extensive experimentation, examining its quality both in terms of prediction error and explainability. | 翻訳日:2023-03-29 15:56:10 公開日:2023-03-28 |
# MS-MT:クロスモーダル前庭腺腫とコクリーセグメンテーションに対するコントラストアンペア翻訳を用いたマルチスケール平均教師 MS-MT: Multi-Scale Mean Teacher with Contrastive Unpaired Translation for Cross-Modality Vestibular Schwannoma and Cochlea Segmentation ( http://arxiv.org/abs/2303.15826v1 ) ライセンス: Link先を確認 | Ziyuan Zhao, Kaixin Xu, Huai Zhe Yeo, Xulei Yang, and Cuntai Guan | (参考訳) 領域シフトは、医用画像セグメンテーションの長年の問題である。
近年,unsupervised domain adaptation (uda)法がラベルのない対象領域にラベルリッチなソースドメインから知識を蒸留することで,相互モダリティセグメント化性能を期待できる。
本研究では,高分解能T2画像上の2つの主要な脳構造,すなわちVestibular Schwannoma(VS)とCochleaの自動セグメンテーションのための,マルチスケールの自己組織化に基づくUDAフレームワークを提案する。
まず、セグメンテーションエンハンスドコントラストアンペア画像変換モジュールを、ソースt1からターゲットt2への画像レベル領域適応のために設計する。
次に,自己感覚学習のための平均的教師ネットワークに,マルチスケールの深い監督と一貫性の正規化を導入し,さらにドメインギャップを縮める。
さらに、ラベルの不足を軽減し、モダリティのセグメンテーション性能を高めるために、自己学習および強度増強技術を利用する。
提案手法は,CrossMoDA 2022チャレンジの検証段階において,平均Diceスコア83.8%,81.4%,VSとCochleaの平均非対称表面距離0.55mm,0.26mmで有望なセグメンテーション性能を示す。 Domain shift has been a long-standing issue for medical image segmentation. Recently, unsupervised domain adaptation (UDA) methods have achieved promising cross-modality segmentation performance by distilling knowledge from a label-rich source domain to a target domain without labels. In this work, we propose a multi-scale self-ensembling based UDA framework for automatic segmentation of two key brain structures i.e., Vestibular Schwannoma (VS) and Cochlea on high-resolution T2 images. First, a segmentation-enhanced contrastive unpaired image translation module is designed for image-level domain adaptation from source T1 to target T2. Next, multi-scale deep supervision and consistency regularization are introduced to a mean teacher network for self-ensemble learning to further close the domain gap. Furthermore, self-training and intensity augmentation techniques are utilized to mitigate label scarcity and boost cross-modality segmentation performance. Our method demonstrates promising segmentation performance with a mean Dice score of 83.8% and 81.4% and an average asymmetric surface distance (ASSD) of 0.55 mm and 0.26 mm for the VS and Cochlea, respectively in the validation phase of the crossMoDA 2022 challenge. | 翻訳日:2023-03-29 15:55:57 公開日:2023-03-28 |
# レーザーウェイクフィールド加速器のパレート最適化 Pareto Optimization of a Laser Wakefield Accelerator ( http://arxiv.org/abs/2303.15825v1 ) ライセンス: Link先を確認 | F. Irshad, C. Eberle, F.M. Foerster, K. v. Grafenstein, F. Haberstroh, E. Travac, N. Weisse, S. Karsch, and A. D\"opp | (参考訳) アクセル性能パラメータの最適化は多くのトレードオフによって制限され、未知のシステムの最適化目標間の適切なバランスを見つけるのは困難である。
ここでは、多目的ベイズ最適化がレーザーウェイクフィールド加速器の解空間を非常に効率的な方法でマッピングできることを示す。
ガウス混合モデルを用いて、特定のエネルギーで電子束に関連する寄与を分離し、同様のレーザー-ビーム効率でビームエネルギーと電荷を交換するパレート最適解が存在することを観察する。
しかし、光源のような多くの応用は特定の目標エネルギーで粒子ビームを必要とする。
このような制約が導入されたら、エネルギー拡散と加速器効率の直接的なトレードオフを観察する。
さらに,目的のスキャラライゼーションを用いて,特定の解をどのように活用できるかを実証し,探索と利用フェーズを効率的に分割する。 Optimization of accelerator performance parameters is limited by numerous trade-offs and finding the appropriate balance between optimization goals for an unknown system is challenging to achieve. Here we show that multi-objective Bayesian optimization can map the solution space of a laser wakefield accelerator in a very sample-efficient way. Using a Gaussian mixture model, we isolate contributions related to an electron bunch at a certain energy and we observe that there exists a wide range of Pareto-optimal solutions that trade beam energy versus charge at similar laser-to-beam efficiency. However, many applications such as light sources require particle beams at a certain target energy. Once such a constraint is introduced we observe a direct trade-off between energy spread and accelerator efficiency. We furthermore demonstrate how specific solutions can be exploited using \emph{a posteriori} scalarization of the objectives, thereby efficiently splitting the exploration and exploitation phases. | 翻訳日:2023-03-29 15:55:29 公開日:2023-03-28 |
# 野生生物の自動画像分類:生態学応用のためのアクティブラーニングツール Automated wildlife image classification: An active learning tool for ecological applications ( http://arxiv.org/abs/2303.15823v1 ) ライセンス: Link先を確認 | Ludwig Bothmann, Lisa Wimmer, Omid Charrakh, Tobias Weber, Hendrik Edelhoff, Wibke Peters, Hien Nguyen, Caryl Benjamin, Annette Menzel | (参考訳) 野生生物のカメラトラップ画像は、動物の存在、生息地の関連、行動を調べるために広く使われており、専門家がまず手動で分類しなければならないという事実によって複雑である。
人工知能システムは、このタスクを引き継ぐことができるが、通常は十分なパフォーマンスを達成するために、既にラベル付けされた多数のトレーニングイメージを必要とする。
この要件は、人間の専門家の労力を必要とし、カメラや短い期間のプロジェクトにとって特別な課題となる。
本研究では,中小規模の画像データベースを用いた研究者が現代の機械学習の可能性を活用できるようなラベル効率の高い学習戦略を提案する。
提案手法は,(1)物体検出と画像分類を両モデルのハイパーパラメータの調整により組み合わせる現在の戦略を改善する。
2)人間ラベルトレーニング画像を用いて,ディープラーニングモデルのトレーニングを極めて効率的に行うことができるアクティブラーニング(al)システムを提供する。
我々は,これらの手法を直接利用して,提案手法が生態学的実践において広く適用可能であることを保証するソフトウェアパッケージを提供する。
チューニング戦略が予測性能を向上させることを示す。
我々は、ALパイプラインが特定の予測性能を達成するのに必要なラベル付きデータの量を減らし、特にサンプル外予測性能を改善する上で価値があることを実証する。
チューニングとalの組み合わせは予測性能を大幅に向上させると結論づけた。
さらに、当社の作業は、提供済みのソフトウェアパッケージを通じて、コミュニティに幅広い影響を及ぼす可能性があると論じています。
最後に、欧州の野生動物データに合わせたモデルを公開することで、アフリカと北米のデータに基づいてトレーニングされた既存のモデルベースを豊かにします。 Wildlife camera trap images are being used extensively to investigate animal abundance, habitat associations, and behavior, which is complicated by the fact that experts must first classify the images manually. Artificial intelligence systems can take over this task but usually need a large number of already-labeled training images to achieve sufficient performance. This requirement necessitates human expert labor and poses a particular challenge for projects with few cameras or short durations. We propose a label-efficient learning strategy that enables researchers with small or medium-sized image databases to leverage the potential of modern machine learning, thus freeing crucial resources for subsequent analyses. Our methodological proposal is two-fold: (1) We improve current strategies of combining object detection and image classification by tuning the hyperparameters of both models. (2) We provide an active learning (AL) system that allows training deep learning models very efficiently in terms of required human-labeled training images. We supply a software package that enables researchers to use these methods directly and thereby ensure the broad applicability of the proposed framework in ecological practice. We show that our tuning strategy improves predictive performance. We demonstrate how the AL pipeline reduces the amount of pre-labeled data needed to achieve a specific predictive performance and that it is especially valuable for improving out-of-sample predictive performance. We conclude that the combination of tuning and AL increases predictive performance substantially. Furthermore, we argue that our work can broadly impact the community through the ready-to-use software package provided. Finally, the publication of our models tailored to European wildlife data enriches existing model bases mostly trained on data from Africa and North America. | 翻訳日:2023-03-29 15:55:16 公開日:2023-03-28 |
# すべてのプログラミング言語のアダプタは?
コード検索と要約のためのアダプタチューニング One Adapter for All Programming Languages? Adapter Tuning for Code Search and Summarization ( http://arxiv.org/abs/2303.15822v1 ) ライセンス: Link先を確認 | Deze Wang, Boxing Chen, Shanshan Li, Wei Luo, Shaoliang Peng, Wei Dong, Xiangke Liao | (参考訳) 事前訓練されたモデルが多くのコードインテリジェンスタスクを自動化するため、広く使われているパラダイムは、各プログラミング言語のタスクデータセットにモデルを微調整することである。
最近の研究では、多言語微調整は様々なタスクやモデルに役立つと報告されている。
しかし,最近のUniXcoderやCodeT5では,多言語微調整により性能が低下している。
多言語モデルにおける致命的な忘れの問題を軽減するため、事前訓練されたモデルパラメータを全て修正し、パラメータ効率の高い構造アダプタを挿入し、微調整する。
各プログラミング言語のフルモデルファインチューニングと比較して、全体的なパラメータの0.6\%だけを更新すると、アダプタチューニングはコード検索と要約タスクを一貫した改善をもたらし、最先端の結果を達成する。
さらに,言語間および低リソースシナリオにおいて,その効果を実験的に示す。
プログラム言語毎の200サンプルによる多言語微調整は、コード要約に関するデータセット全体を微調整した結果にアプローチする。
3つの探索課題に関する実験により、アダプタチューニングはフルモデルの微調整を著しく上回り、破滅的な忘れを効果的に克服することを示した。 As pre-trained models automate many code intelligence tasks, a widely used paradigm is to fine-tune a model on the task dataset for each programming language. A recent study reported that multilingual fine-tuning benefits a range of tasks and models. However, we find that multilingual fine-tuning leads to performance degradation on recent models UniXcoder and CodeT5. To alleviate the potentially catastrophic forgetting issue in multilingual models, we fix all pre-trained model parameters, insert the parameter-efficient structure adapter, and fine-tune it. Updating only 0.6\% of the overall parameters compared to full-model fine-tuning for each programming language, adapter tuning yields consistent improvements on code search and summarization tasks, achieving state-of-the-art results. In addition, we experimentally show its effectiveness in cross-lingual and low-resource scenarios. Multilingual fine-tuning with 200 samples per programming language approaches the results fine-tuned with the entire dataset on code summarization. Our experiments on three probing tasks show that adapter tuning significantly outperforms full-model fine-tuning and effectively overcomes catastrophic forgetting. | 翻訳日:2023-03-29 15:54:52 公開日:2023-03-28 |
# 空間離散化に基づく進化探索による多目的セキュリティゲームのスケーリング Scaling Multi-Objective Security Games Provably via Space Discretization Based Evolutionary Search ( http://arxiv.org/abs/2303.15821v1 ) ライセンス: Link先を確認 | Yu-Peng Wu, Hong Qian, Rong-Jun Qin, Yi Chen, Aimin Zhou | (参考訳) セキュリティの分野では、マルチオブジェクトセキュリティゲーム(MOSG)により、ディフェンダーは複数の異種攻撃者からターゲットを同時に保護することができる。
MOSGは、不均一な攻撃者をマージすることなく、生命、金、犯罪率などの不均一な支払いを同時に最大化する。
現実のシナリオでは、保護される異種攻撃者や標的の数は、既存の最先端手法の能力を超え、すなわち、MOSGはスケーラビリティの問題によって制限される。
そこで本稿では,MOSGを大規模ターゲットや異種攻撃にスケールアップする多目的進化探索に基づくSDESと呼ばれる汎用フレームワークを提案する。
SDESは4つのキーコンポーネント、すなわち、離散化、最適化、復元と評価、改良で構成されている。
具体的には、SDES はゲーム理論における最大差分性により、元々の高次元連続解空間を低次元離散空間に初めて離散化する。
この性質は、進化アルゴリズム(EA)が高次元ステップ関数をバイパスし、よく収束したパレートフロントを確保するのに役立つ。
次に、多目的EAを用いて低次元離散解空間の最適化を行い、よく空間化されたパレートフロントを得る。
解を評価するために、SDESは、新しい解の発散をビットワイズで最適化することで、解を元の空間に戻す。
最後に、SDESの改良により、最適化性能が許容コストで向上する。
理論的には、SDESの最適化一貫性と収束性を証明する。
実験結果から,SDESは大規模攻撃者および標的双方にとって初めての線形時間MOSGアルゴリズムであることがわかった。
SDESは最大で20人の攻撃者、100人のMOSG問題の解決が可能で、最先端の手法では最大8人の攻撃者、25人の攻撃者しか解決できない。
アブレーション研究はSDESにおける全てのコンポーネントの必要性を検証する。 In the field of security, multi-objective security games (MOSGs) allow defenders to simultaneously protect targets from multiple heterogeneous attackers. MOSGs aim to simultaneously maximize all the heterogeneous payoffs, e.g., life, money, and crime rate, without merging heterogeneous attackers. In real-world scenarios, the number of heterogeneous attackers and targets to be protected may exceed the capability of most existing state-of-the-art methods, i.e., MOSGs are limited by the issue of scalability. To this end, this paper proposes a general framework called SDES based on many-objective evolutionary search to scale up MOSGs to large-scale targets and heterogeneous attackers. SDES consists of four consecutive key components, i.e., discretization, optimization, restoration and evaluation, and refinement. Specifically, SDES first discretizes the originally high-dimensional continuous solution space to the low-dimensional discrete one by the maximal indifference property in game theory. This property helps evolutionary algorithms (EAs) bypass the high-dimensional step function and ensure a well-convergent Pareto front. Then, a many-objective EA is used for optimization in the low-dimensional discrete solution space to obtain a well-spaced Pareto front. To evaluate solutions, SDES restores solutions back to the original space via bit-wisely optimizing a novel solution divergence. Finally, the refinement in SDES boosts the optimization performance with acceptable cost. Theoretically, we prove the optimization consistency and convergence of SDES. Experiment results show that SDES is the first linear-time MOSG algorithm for both large-scale attackers and targets. SDES is able to solve up to 20 attackers and 100 targets MOSG problems, while the state-of-the-art methods can only solve up to 8 attackers and 25 targets ones. Ablation study verifies the necessity of all components in SDES. | 翻訳日:2023-03-29 15:54:34 公開日:2023-03-28 |
# 顔の認識に有効な3次元テクスチャメッシュの実現に向けて Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition ( http://arxiv.org/abs/2303.15818v1 ) ライセンス: Link先を確認 | Xiao Yang, Chang Liu, Longlong Xu, Yikai Wang, Yinpeng Dong, Ning Chen, Hang Su, Jun Zhu | (参考訳) 顔認識は多くの生体認証アプリケーションにおいて一般的な認証ソリューションである。
物理的敵対攻撃は、重要な代理として、顔認識システムの弱点を特定し、展開前にその堅牢性を評価することができる。
しかし、既存の物理的攻撃の多くは、容易に検出できるか、商業的な認識システムに対して効果的ではない。
この研究の目標は、商用システムにおける敵対的ロバストネスをエンドツーエンドで評価できる、より信頼性の高い技術を開発することである。
この技術は、ブラックボックス認識モデルと防御機構を同時に欺くことができる。
これを実現するために,人間の顔に精巧なトポロジーを施した3Dメッシュ(AT3D)を設計し,攻撃者の顔に3Dプリント&ペーストして防御を回避した。
しかし、メッシュベースの最適化方式は、高次元メッシュ空間の勾配を計算し、不満足な転送性で局所最適に閉じ込めることができる。
メッシュをベースとした空間から逸脱するために,3次元Morphable Modelに基づく低次元係数空間の摂動を提案し,より高速な探索効率と視覚的品質を享受しながら,ブラックボックス転送性を大幅に向上させる。
3つの認識API,4つのアンチ・スプーフィングAPI,2つの携帯電話と2つの自動アクセス制御システムを含む,一般的な商用サービスのセキュリティ脆弱性を効果的に調査することを示す。 Face recognition is a prevailing authentication solution in numerous biometric applications. Physical adversarial attacks, as an important surrogate, can identify the weaknesses of face recognition systems and evaluate their robustness before deployed. However, most existing physical attacks are either detectable readily or ineffective against commercial recognition systems. The goal of this work is to develop a more reliable technique that can carry out an end-to-end evaluation of adversarial robustness for commercial systems. It requires that this technique can simultaneously deceive black-box recognition models and evade defensive mechanisms. To fulfill this, we design adversarial textured 3D meshes (AT3D) with an elaborate topology on a human face, which can be 3D-printed and pasted on the attacker's face to evade the defenses. However, the mesh-based optimization regime calculates gradients in high-dimensional mesh space, and can be trapped into local optima with unsatisfactory transferability. To deviate from the mesh-based space, we propose to perturb the low-dimensional coefficient space based on 3D Morphable Model, which significantly improves black-box transferability meanwhile enjoying faster search efficiency and better visual quality. Extensive experiments in digital and physical scenarios show that our method effectively explores the security vulnerabilities of multiple popular commercial services, including three recognition APIs, four anti-spoofing APIs, two prevailing mobile phones and two automated access control systems. | 翻訳日:2023-03-29 15:54:03 公開日:2023-03-28 |
# OODアクションのないオフラインRL:暗黙の値規則化によるサンプル内学習 Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization ( http://arxiv.org/abs/2303.15810v1 ) ライセンス: Link先を確認 | Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor Wai Kin Chan, Xianyuan Zhan | (参考訳) ほとんどのオフライン強化学習(RL)手法は、行動ポリシーを超越する政策の改善と、行動ポリシーからの逸脱を制限する政策の制約のトレードオフに悩まされる。
最近提案された \textit{in-sample learning}パラダイム(すなわち、iql)は、データサンプルのみを使用して回帰を定量化することで、ポリシーを改善する。
しかし,この手法が値関数の学習における分布シフトをどのように扱うかは,まだ不明である。
本研究では,インサンプル学習パラダイムが<textit{Implicit Value Regularization} (IVR) フレームワークの下で発生することを明らかにする。
このことは、なぜサンプル内学習パラダイムが機能するのか、すなわち、政策に暗黙の値正規化を適用するのかを深く理解する。
IVRフレームワークをベースとして,既存の作業で使用されているのと同じ値正規化を採用したSparse $Q$-learning (SQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
IQLと比較すると、私たちのアルゴリズムはバリュー関数の学習に疎結合を導入し、ノイズの多いデータ構造においてより堅牢になる。
また、D4RLベンチマークデータセットにおけるSQLとEQLの有効性を検証するとともに、小さなデータ構造におけるCQLと比較することで、サンプル内学習のメリットを示す。 Most offline reinforcement learning (RL) methods suffer from the trade-off between improving the policy to surpass the behavior policy and constraining the policy to limit the deviation from the behavior policy as computing $Q$-values using out-of-distribution (OOD) actions will suffer from errors due to distributional shift. The recently proposed \textit{In-sample Learning} paradigm (i.e., IQL), which improves the policy by quantile regression using only data samples, shows great promise because it learns an optimal policy without querying the value function of any unseen actions. However, it remains unclear how this type of method handles the distributional shift in learning the value function. In this work, we make a key finding that the in-sample learning paradigm arises under the \textit{Implicit Value Regularization} (IVR) framework. This gives a deeper understanding of why the in-sample learning paradigm works, i.e., it applies implicit value regularization to the policy. Based on the IVR framework, we further propose two practical algorithms, Sparse $Q$-learning (SQL) and Exponential $Q$-learning (EQL), which adopt the same value regularization used in existing works, but in a complete in-sample manner. Compared with IQL, we find that our algorithms introduce sparsity in learning the value function, making them more robust in noisy data regimes. We also verify the effectiveness of SQL and EQL on D4RL benchmark datasets and show the benefits of in-sample learning by comparing them with CQL in small data regimes. | 翻訳日:2023-03-29 15:53:39 公開日:2023-03-28 |
# カーネル補間は貧弱を一般化する Kernel interpolation generalizes poorly ( http://arxiv.org/abs/2303.15809v1 ) ライセンス: Link先を確認 | Yicheng Li, Haobo Zhang and Qian Lin | (参考訳) カーネルレグレッションにおける最近の研究のルネサンスにおける最も興味深い問題の1つは、ディープネットワークの文献で報告されている「良性過剰なヘノメノン」を理解するのに役立つので、カーネル補間がうまく一般化できるかどうかである。
本稿では、穏やかな条件下では、任意の$\varepsilon>0$に対して、カーネル補間一般化誤差が$\Omega(n^{-\varepsilon})$で下界であることが示される。
言い換えると、カーネル補間は、大きなクラスのカーネルに対して不十分に一般化する。
直系系として,球面上に定義された広帯域ニューラルネットワークの一般化が不十分であることを示すことができる。 One of the most interesting problems in the recent renaissance of the studies in kernel regression might be whether the kernel interpolation can generalize well, since it may help us understand the `benign overfitting henomenon' reported in the literature on deep networks. In this paper, under mild conditions, we show that for any $\varepsilon>0$, the generalization error of kernel interpolation is lower bounded by $\Omega(n^{-\varepsilon})$. In other words, the kernel interpolation generalizes poorly for a large class of kernels. As a direct corollary, we can show that overfitted wide neural networks defined on sphere generalize poorly. | 翻訳日:2023-03-29 15:53:07 公開日:2023-03-28 |
# プライマリケアフリーテキストオランダ医学ノートを用いた肺癌予測のためのソフトプロパントチューニング Soft-prompt tuning to predict lung cancer using primary care free-text Dutch medical notes ( http://arxiv.org/abs/2303.15846v1 ) ライセンス: Link先を確認 | Auke Elfrink, Iacopo Vagliano, Ameen Abu-Hanna, Iacer Calixto | (参考訳) オランダのプライマリケア医のフリーテキスト患者医療ノートを用いて,早期肺癌の予測問題に対する文脈的表現に基づく異なる自然言語処理(NLP)アプローチについて検討した。
肺癌はプライマリケアの頻度が低いため,高度不均衡クラスにおける分類の問題にも対処する。
具体的には, 大規模トランスフォーマー型事前学習言語モデル (plms) を用いて検討を行う。
1) <textit{soft prompt-tuning} -- PLMを少量のトレーニングデータで適用するためのNLPテクニック -- は、標準モデルの微調整と比較する。
2) 単純な静的単語埋め込みモデル(WEM)が、高度に不均衡な環境でのPLMよりも堅牢であるかどうか。
3)少数の患者から音符を習う際にどのようなモデルをとるか。
私たちはそれを見つけ
1)ソフトプロンプトチューニングは,標準モデルの微調整に代わる効率的な方法である。
2) PLMは, 分類問題がより不均衡になるにつれて, 単純な静的単語埋め込みモデルと比較して, 識別性が向上するが, キャリブレーションが悪くなる。
3) 少数の患者のトレーニングモデルが混合され, PLMとWEMの明確な相違は認められなかった。
すべてのコードは、 \url{https://bitbucket.org/aumc-kik/prompt_tuning_cancer_prediction/}で公開されている。 We investigate different natural language processing (NLP) approaches based on contextualised word representations for the problem of early prediction of lung cancer using free-text patient medical notes of Dutch primary care physicians. Because lung cancer has a low prevalence in primary care, we also address the problem of classification under highly imbalanced classes. Specifically, we use large Transformer-based pretrained language models (PLMs) and investigate: 1) how \textit{soft prompt-tuning} -- an NLP technique used to adapt PLMs using small amounts of training data -- compares to standard model fine-tuning; 2) whether simpler static word embedding models (WEMs) can be more robust compared to PLMs in highly imbalanced settings; and 3) how models fare when trained on notes from a small number of patients. We find that 1) soft-prompt tuning is an efficient alternative to standard model fine-tuning; 2) PLMs show better discrimination but worse calibration compared to simpler static word embedding models as the classification problem becomes more imbalanced; and 3) results when training models on small number of patients are mixed and show no clear differences between PLMs and WEMs. All our code is available open source in \url{https://bitbucket.org/aumc-kik/prompt_tuning_cancer_prediction/}. | 翻訳日:2023-03-29 15:46:33 公開日:2023-03-28 |
# 条件付き生成モデルはおそらくロバストである:ベイズ逆問題に対するポイントワイズ保証 Conditional Generative Models are Provably Robust: Pointwise Guarantees for Bayesian Inverse Problems ( http://arxiv.org/abs/2303.15845v1 ) ライセンス: Link先を確認 | Fabian Altekr\"uger, Paul Hagemann, Gabriele Steidl | (参考訳) 条件生成モデルはベイズ逆問題後部から非常に強力なツールとなった。
古典ベイズ文学では、後方測度は、観測の摂動を含む先行測度と負の対数類似度の両方の摂動に関して非常に頑健であることが知られている。
しかしながら、我々の知る限りでは、観測の摂動に関して条件付き生成モデルのロバスト性は未だ調査されていない。
本稿では,適切な条件付き生成モデルが単一観測に対して堅牢な結果をもたらすことを初めて証明する。 Conditional generative models became a very powerful tool to sample from Bayesian inverse problem posteriors. It is well-known in classical Bayesian literature that posterior measures are quite robust with respect to perturbations of both the prior measure and the negative log-likelihood, which includes perturbations of the observations. However, to the best of our knowledge, the robustness of conditional generative models with respect to perturbations of the observations has not been investigated yet. In this paper, we prove for the first time that appropriately learned conditional generative models provide robust results for single observations. | 翻訳日:2023-03-29 15:46:14 公開日:2023-03-28 |
# CREATED:予測プロセス分析のための有効な逆配列の生成 CREATED: Generating Viable Counterfactual Sequences for Predictive Process Analytics ( http://arxiv.org/abs/2303.15844v1 ) ライセンス: Link先を確認 | Olusanmi Hundogan, Xixi Lu, Yupei Du and Hajo A. Reijers | (参考訳) 予測プロセス分析は、プロセスインスタンスの実行結果など、将来の状態を予測することに焦点を当てる。
これらの技術は機械学習モデルや深層学習モデル(LSTMなど)を使って予測を行うことが多い。
しかし、これらの深いモデルはユーザーが理解するのが複雑で難しい。
カウンターファクトリーは、予測の背後にある推論を理解するために使われる「What-if'」質問に答える。
例えば、顧客にメールする代わりに、顧客が呼ばれるとしたらどうだろう?
この代替案は異なる結果をもたらすだろうか?
現在の偽りのシーケンスを生成する方法は、プロセスの振舞いを考慮せず、無効または実現不可能な偽りのプロセスインスタンスを生成するか、ドメインの知識に大きく依存する。
本研究では,進化的手法を用いて反事実列を生成する汎用フレームワークを提案する。
我々のフレームワークはドメインの知識を必要としない。
代わりに,生成した反事実列の実現可能性を計算するためにマルコフモデルを訓練し,他の3つの指標(結果予測のデルタ,類似性,スパーシティ)を適応させ,全体の生存性を確保する。
評価の結果,本手法は実効的対位法,生存性におけるベースライン法よりも優れており,ドメイン知識を必要とする最先端の手法と比較しても同様の結果が得られた。 Predictive process analytics focuses on predicting future states, such as the outcome of running process instances. These techniques often use machine learning models or deep learning models (such as LSTM) to make such predictions. However, these deep models are complex and difficult for users to understand. Counterfactuals answer ``what-if'' questions, which are used to understand the reasoning behind the predictions. For example, what if instead of emailing customers, customers are being called? Would this alternative lead to a different outcome? Current methods to generate counterfactual sequences either do not take the process behavior into account, leading to generating invalid or infeasible counterfactual process instances, or heavily rely on domain knowledge. In this work, we propose a general framework that uses evolutionary methods to generate counterfactual sequences. Our framework does not require domain knowledge. Instead, we propose to train a Markov model to compute the feasibility of generated counterfactual sequences and adapt three other measures (delta in outcome prediction, similarity, and sparsity) to ensure their overall viability. The evaluation shows that we generate viable counterfactual sequences, outperform baseline methods in viability, and yield similar results when compared to the state-of-the-art method that requires domain knowledge. | 翻訳日:2023-03-29 15:46:04 公開日:2023-03-28 |
# ブロックチェーン型医療システムにおけるセキュリティ・レイテンシ・計算コストのモデリングと共同最適化 Modeling and Joint Optimization of Security, Latency, and Computational Cost in Blockchain-based Healthcare Systems ( http://arxiv.org/abs/2303.15842v1 ) ライセンス: Link先を確認 | Zukai Li, Wei Tian, Jingjin Wu | (参考訳) IoT(Internet of Things)の時代において、ブロックチェーンは、IoTデバイスによって収集されたリアルタイムヘルスデータのセキュアなストレージ、管理、共有を可能にするため、医療システムの効率を改善するための有望な技術である。
ブロックチェーンベースの医療システムの実装は、通常、複数の競合するメトリクスを含むため、特定のシナリオの要求に応じてそれらのバランスをとることが不可欠である。
本稿では,IoT対応医療において特に重要な,レイテンシ,セキュリティ,計算コストの3つの指標を用いた共同最適化モデルを定式化する。
しかしながら、実用規模のシステムにおけるこの問題の厳密な最適解を特定することは計算上は難解である。
そこで本研究では,適応離散粒子群アルゴリズム(adpsa)と呼ばれるアルゴリズムを提案する。
古典的なパーティクルスワーム最適化(PSO)アルゴリズムのルーツにより,提案したADPSAは定式化における多数のバイナリ変数と整数変数を効果的に管理できる。
我々は、ADPSAが従来のPSO、網羅的な検索、シミュレートされたアナリングなど、様々なシナリオにおいて、既存のベンチマーク手法よりも一貫して優れていることを示す。 In the era of the Internet of Things (IoT), blockchain is a promising technology for improving the efficiency of healthcare systems, as it enables secure storage, management, and sharing of real-time health data collected by the IoT devices. As the implementations of blockchain-based healthcare systems usually involve multiple conflicting metrics, it is essential to balance them according to the requirements of specific scenarios. In this paper, we formulate a joint optimization model with three metrics, namely latency, security, and computational cost, that are particularly important for IoT-enabled healthcare. However, it is computationally intractable to identify the exact optimal solution of this problem for practical sized systems. Thus, we propose an algorithm called the Adaptive Discrete Particle Swarm Algorithm (ADPSA) to obtain near-optimal solutions in a low-complexity manner. With its roots in the classical Particle Swarm Optimization (PSO) algorithm, our proposed ADPSA can effectively manage the numerous binary and integer variables in the formulation. We demonstrate by extensive numerical experiments that the ADPSA consistently outperforms existing benchmark approaches, including the original PSO, exhaustive search and Simulated Annealing, in a wide range of scenarios. | 翻訳日:2023-03-29 15:45:43 公開日:2023-03-28 |
# Ethereumのマネーロンダリングには伝統があるのか? Does Money Laundering on Ethereum Have Traditional Traits? ( http://arxiv.org/abs/2303.15841v1 ) ライセンス: Link先を確認 | Qishuang Fu, Dan Lin, Yiyue Cao, Jiajing Wu | (参考訳) スマートコントラクトをサポートする最大のブロックチェーンプラットフォームであるEthereumは、信じられないスピードで開発されている。
しかし、ブロックチェーンの匿名性のため、ethereumの人気は、不正な資金から現金への転換によって、さまざまな違法な活動や資金洗浄の出現を促している。
従来のマネーロンダリングのシナリオでは、研究者はマネーロンダリングの一般的な特徴を明らかにした。
しかし、Ethereumのマネーロンダリングは新たな手段であるため、Ethereumのマネーロンダリングについてはほとんど知られていない。
このギャップを埋めるために、本稿では、textit{Upbit Exchange}上の代表的なセキュリティイベントのレンズを通してEthereumマネーロンダリングネットワークの詳細な研究を行い、Ethereum上でのマネーロンダリングが従来の特徴を持つかどうかを調査する。
具体的には,<textit{Upbit Hack} のトランザクションレコードをクロールすることで,Ethereum 上でマネーロンダリングネットワークを構築する。
次に,従来のマネーロンダリングネットワークの特徴に基づく5つの質問を提示する。
ネットワーク分析を活用することで、ethereumのマネーロンダリングネットワークを特徴付け、これらの質問に答える。
最終的に、Ethereum上でのマネーロンダリングネットワークの発見を要約し、Ethereum上でのマネーロンダリング検出の基礎を築いた。 As the largest blockchain platform that supports smart contracts, Ethereum has developed with an incredible speed. Yet due to the anonymity of blockchain, the popularity of Ethereum has fostered the emergence of various illegal activities and money laundering by converting ill-gotten funds to cash. In the traditional money laundering scenario, researchers have uncovered the prevalent traits of money laundering. However, since money laundering on Ethereum is an emerging means, little is known about money laundering on Ethereum. To fill the gap, in this paper, we conduct an in-depth study on Ethereum money laundering networks through the lens of a representative security event on \textit{Upbit Exchange} to explore whether money laundering on Ethereum has traditional traits. Specifically, we construct a money laundering network on Ethereum by crawling the transaction records of \textit{Upbit Hack}. Then, we present five questions based on the traditional traits of money laundering networks. By leveraging network analysis, we characterize the money laundering network on Ethereum and answer these questions. In the end, we summarize the findings of money laundering networks on Ethereum, which lay the groundwork for money laundering detection on Ethereum. | 翻訳日:2023-03-29 15:45:21 公開日:2023-03-28 |
# 深度補修のための多視点監視蒸留法 Multi-view Improved Monitored Distillation for Depth Completion ( http://arxiv.org/abs/2303.15840v1 ) ライセンス: Link先を確認 | Jia-Wei Guo, Cong Li, Sen-Hua Zhu, Chang-Zheng Zhang, Ming Ouyang, Ning Ding, Hung-Chyun Chou | (参考訳) 本稿では, マルチビュー改良型監視蒸留法に基づく新しい深度補完法を提案し, より正確な深度マップを生成する。
アンサンブル蒸留という最先端の奥行き補完法に基づいて,既存のステレオベースのモデルを教師モデルとして紹介し,アンサンブル蒸留精度を向上させるとともに,コンプリートベースの教師の固有エラーモードを回避し,所定の画像の復元誤差を最小限に抑えることにより,より正確な学生モデルを生成する。
また,マルチビューの奥行き一貫性と,マルチスケールの最小再投影を活用し,自己監視情報を提供する。
これらの手法では,既存の構造制約を生かして,学習者のモデル学習における教師付き信号を得る。
提案手法は, 監視蒸留のベースライン法の精度を効果的に向上できることを示す。 This paper proposes a new depth completion method based on multi-view improved monitored distillation to generate more accurate depth maps. Based on the state-of-the-art depth completion method named ensemble distillation, we introduce an existing stereo-based model as a teacher model to improve ensemble distillation accuracy and generate a more accurate student model in training by avoiding inherent error modes of completion-based teachers as well as minimizing the reconstruction error for a given image. We also leverage multi-view depth consistency and multi-scale minimum reprojection to provide self-supervised information. These methods use the existing structure constraints to yield supervised signals for student model training without great expense on gathering ground truth information of depth. Our extensive experimental evaluation demonstrates that our proposed method can effectively improve the accuracy of baseline method of monitored distillation. | 翻訳日:2023-03-29 15:45:03 公開日:2023-03-28 |
# AutoKary2022: 染色体インスタンスセグメンテーションのための大規模アノテーション付き日付セット AutoKary2022: A Large-Scale Densely Annotated Dateset for Chromosome Instance Segmentation ( http://arxiv.org/abs/2303.15839v1 ) ライセンス: Link先を確認 | Dan You, Pengcheng Xia, Qiuzhu Chen, Minghui Wu, Suncheng Xiang, Jun Wang | (参考訳) 染色体異常 (karyotype analysis) の診断には, 異相細胞顕微鏡画像からの染色体インスタンスの自動分割が重要である。
しかし、高い注釈付きデータセットの欠如や染色体の複雑な形態、例えば、密度分布、任意の方向、幅広い長さがあるため、依然として困難な課題である。
この領域の開発を容易にするために、我々は、50人の患者から612の顕微鏡画像に27,000以上の染色体インスタンスを含むautokary2022という、大規模な密注釈付きデータセットを手作業で構築する。
具体的には、各インスタンスにポリゴンマスクとクラスラベルをアノテートして、正確な染色体の検出とセグメンテーションを支援する。
その上で,本データセットの代表的な手法を体系的に検討し,多くの興味深い知見を得た。
このデータセットが医学的理解に向けて研究を進めることを願っている。
データセットは、https://github.com/wangjuncongyu/chromosome-instance-segmentation-datasetで利用できる。 Automated chromosome instance segmentation from metaphase cell microscopic images is critical for the diagnosis of chromosomal disorders (i.e., karyotype analysis). However, it is still a challenging task due to lacking of densely annotated datasets and the complicated morphologies of chromosomes, e.g., dense distribution, arbitrary orientations, and wide range of lengths. To facilitate the development of this area, we take a big step forward and manually construct a large-scale densely annotated dataset named AutoKary2022, which contains over 27,000 chromosome instances in 612 microscopic images from 50 patients. Specifically, each instance is annotated with a polygonal mask and a class label to assist in precise chromosome detection and segmentation. On top of it, we systematically investigate representative methods on this dataset and obtain a number of interesting findings, which helps us have a deeper understanding of the fundamental problems in chromosome instance segmentation. We hope this dataset could advance research towards medical understanding. The dataset can be available at: https://github.com/wangjuncongyu/chromosome-instance-segmentation-dataset. | 翻訳日:2023-03-29 15:44:44 公開日:2023-03-28 |
# 量子計測における仮想浄化に基づく誤差緩和の効果 Efficacy of virtual purification-based error mitigation on quantum metrology ( http://arxiv.org/abs/2303.15838v1 ) ライセンス: Link先を確認 | Hyukgun Kwon, Changhun Oh, Youngrong Lim, Hyunseok Jeong, Liang Jiang | (参考訳) ノイズは、様々な量子情報処理において量子の利点を完全に活用することを妨げる主な原因である。
しかし, 騒音の影響をキャラクタライズし, 校正することは必ずしも不可能ではない。
特に量子パラメータ推定では、ノイズの正確な知識を持たない推定器は避けられないバイアスを伴う。
近年,未知ノイズから発生するバイアスを低減するために,仮想浄化に基づく誤差緩和法(vpem)が提案されている。
特定のケースで機能することが実証されたが、VPEMが常に一般的な推定スキームのバイアスを減少させるかどうかはまだ分かっていない。
量子力学へのVPEMのより一般的な応用については、VPEMがバイアスを低減できるかどうかを決定する因子について検討する。
雑音状態の優占固有ベクトルと観測可能に対する理想量子プローブ(ノイズなし)との近接性は、vpemによるバイアスの還元量を決定する。
次に, 対象パラメータの基準点を慎重に選択し, バイアスが基準点に依存するため, 最小のバイアスを与えることを示す。
そうでなければ、支配的固有ベクトルと理想量子プローブが近くても、緩和された場合のバイアスは、非緩和の場合よりも大きい可能性がある。
% 最適基準点は量子距離論の特徴から生じる特異な特徴である,と我々は強調する。
最後に,様々な雑音下での位相推定手法の誤差低減について解析する。
分析から,VPEMがバイアスを効果的に低減し,その結果を数値的に検証できるかどうかを予測する。 Noise is the main source that hinders us from fully exploiting quantum advantages in various quantum informational tasks. However, characterizing and calibrating the effect of noise is not always feasible in practice. Especially for quantum parameter estimation, an estimator constructed without precise knowledge of noise entails an inevitable bias. Recently, virtual purification-based error mitigation (VPEM) has been proposed to apply for quantum metrology to reduce such a bias occurring from unknown noise. While it was demonstrated to work for particular cases, whether VPEM always reduces a bias for general estimation schemes is unclear yet. For more general applications of VPEM to quantum metrology, we study factors determining whether VPEM can reduce the bias. We find that the closeness between the dominant eigenvector of a noisy state and the ideal quantum probe (without noise) with respect to an observable determines the reducible amount of bias by VPEM. Next, we show that one should carefully choose the reference point of the target parameter, which gives the smallest bias because the bias depends on the reference point. Otherwise, even if the dominant eigenvector and the ideal quantum probe are close, the bias of the mitigated case could be larger than the non-mitigated one. %We emphasize that the optimal reference point is a unique feature that comes from the characteristic of quantum metrology. Finally, we analyze the error mitigation for a phase estimation scheme under various noises. Based on our analysis, we predict whether VPEM can effectively reduce a bias and numerically verify our results. | 翻訳日:2023-03-29 15:44:24 公開日:2023-03-28 |
# メタ機械学習によるビジネスネットワークにおける組織間分析の実現 Enabling Inter-organizational Analytics in Business Networks Through Meta Machine Learning ( http://arxiv.org/abs/2303.15834v1 ) ライセンス: Link先を確認 | Robin Hirt, Niklas K\"uhl, Dominik Martin, Gerhard Satzger | (参考訳) 貴重な洞察を提供する分析ソリューションが成功し、さまざまなデータソースの接続をヒンジすることが多い。
組織内で大きなデータプールを生成することはしばしば可能だが、(組織間)ビジネスネットワーク内の分析の応用は、いまだに厳しく制限されている。
データが複数の法律単位に分散し、場合によっては各国にまたがる可能性があるため、機密情報を開示することを恐れたり、交換する必要があるデータの量が膨大になることは、効果的なシステム全体のソリューションを作る上で重要な阻害要因となる。
本研究では,これらの障害に対処し,ビジネスネットワーク内の包括的分析を可能にするメタ機械学習手法を提案する。
我々は, 設計科学研究のアプローチに従い, 産業用途における実現可能性と性能について評価する。
まず,データ機密性およびデータ転送量を制限するネットワーク全体の解析を行うことが可能であることを示す。
第2に,本手法は,従来の分離分析よりも優れており,ネットワーク内ですべてのデータが共有可能な(仮説的な)シナリオに近づくことさえある。
したがって、ネットワーク全体に散らばっているデータから学習する膨大な可能性を活用するための重要な障害を取り除くことにより、ビジネスネットワークをより効果的にするための基本的な貢献を提供する。 Successful analytics solutions that provide valuable insights often hinge on the connection of various data sources. While it is often feasible to generate larger data pools within organizations, the application of analytics within (inter-organizational) business networks is still severely constrained. As data is distributed across several legal units, potentially even across countries, the fear of disclosing sensitive information as well as the sheer volume of the data that would need to be exchanged are key inhibitors for the creation of effective system-wide solutions -- all while still reaching superior prediction performance. In this work, we propose a meta machine learning method that deals with these obstacles to enable comprehensive analyses within a business network. We follow a design science research approach and evaluate our method with respect to feasibility and performance in an industrial use case. First, we show that it is feasible to perform network-wide analyses that preserve data confidentiality as well as limit data transfer volume. Second, we demonstrate that our method outperforms a conventional isolated analysis and even gets close to a (hypothetical) scenario where all data could be shared within the network. Thus, we provide a fundamental contribution for making business networks more effective, as we remove a key obstacle to tap the huge potential of learning from data that is scattered throughout the network. | 翻訳日:2023-03-29 15:44:01 公開日:2023-03-28 |
# 教師なし連続ドメインシフト学習のための補完ドメイン適応と一般化 Complementary Domain Adaptation and Generalization for Unsupervised Continual Domain Shift Learning ( http://arxiv.org/abs/2303.15833v1 ) ライセンス: Link先を確認 | Wonguk Cho, Jinha Park, Taesup Kim | (参考訳) 連続的なドメインシフトは、特にラベル付きデータが新しいドメインで利用できない状況において、現実世界のアプリケーションにおいて大きな課題となる。
この問題における知識獲得の課題は、教師なし連続的ドメインシフト学習と呼ばれる。
既存のドメイン適応と一般化の方法は、特定のドメインへの適応か、見えないドメインへの一般化に重点を置いているが、両方ではないため、この問題に対処する上での制限がある。
本稿では,非教師なし連続的なドメインシフト学習の3つの主要な目標を達成するために,ドメイン適応と一般化を相補的に組み合わせたシンプルかつ効果的な学習フレームワークである補完的ドメイン適応・一般化(CoDAG)を提案する。
我々のアプローチはモデルに依存しないため、既存のドメイン適応および一般化アルゴリズムと互換性がある。
我々はCoDAGをいくつかのベンチマークデータセットで評価し、我々のモデルはすべてのデータセットや評価指標において最先端のモデルよりも優れており、教師なし連続的なドメインシフト学習を扱う上での有効性と堅牢性を強調している。 Continual domain shift poses a significant challenge in real-world applications, particularly in situations where labeled data is not available for new domains. The challenge of acquiring knowledge in this problem setting is referred to as unsupervised continual domain shift learning. Existing methods for domain adaptation and generalization have limitations in addressing this issue, as they focus either on adapting to a specific domain or generalizing to unseen domains, but not both. In this paper, we propose Complementary Domain Adaptation and Generalization (CoDAG), a simple yet effective learning framework that combines domain adaptation and generalization in a complementary manner to achieve three major goals of unsupervised continual domain shift learning: adapting to a current domain, generalizing to unseen domains, and preventing forgetting of previously seen domains. Our approach is model-agnostic, meaning that it is compatible with any existing domain adaptation and generalization algorithms. We evaluate CoDAG on several benchmark datasets and demonstrate that our model outperforms state-of-the-art models in all datasets and evaluation metrics, highlighting its effectiveness and robustness in handling unsupervised continual domain shift learning. | 翻訳日:2023-03-29 15:43:41 公開日:2023-03-28 |
# STMixer: 1段階スパースアクション検出器 STMixer: A One-Stage Sparse Action Detector ( http://arxiv.org/abs/2303.15879v1 ) ライセンス: Link先を確認 | Tao Wu and Mengqi Cao and Ziteng Gao and Gangshan Wu and Limin Wang | (参考訳) 従来のビデオアクション検出器では、まずアクターボックスを生成するために人検出装置を使用し、次に3D RoIAlignを使用してアクター固有の特徴を抽出する。
この検出パラダイムでは、多段階のトレーニングと推論が必要であり、境界ボックス外のコンテキスト情報をキャプチャできない。
近年、エンドツーエンドでアクションインスタンスを予測するために、クエリベースのアクション検出器がいくつか提案されている。
しかし、機能サンプリングやデコードにはまだ適応性がないため、パフォーマンスの低下や収束の遅い問題に悩まされている。
本稿では,stmixerと呼ばれる新しい一段階スパース動作検出器を提案する。
STMixerは2つのコア設計に基づいている。
まず,時空間領域全体から識別的特徴のセットをマイニングする柔軟性により,stmixerを内包するクエリベースの適応的特徴サンプリングモジュールを提案する。
第2に,スミキサが空間的および時間的次元に沿って動的に映像的特徴を混合することにより,特徴のデコード性が向上する,デュアルブランチ機能混合モジュールを考案した。
これら2つの設計をビデオバックボーンと組み合わせることで、効率的なエンドツーエンドのアクション検出器が得られる。
我々のSTMixerは、ベルとホイッスルなしで、AVA、UCF101-24、JHMDBのデータセットの最先端の結果を得る。 Traditional video action detectors typically adopt the two-stage pipeline, where a person detector is first employed to generate actor boxes and then 3D RoIAlign is used to extract actor-specific features for classification. This detection paradigm requires multi-stage training and inference, and cannot capture context information outside the bounding box. Recently, a few query-based action detectors are proposed to predict action instances in an end-to-end manner. However, they still lack adaptability in feature sampling and decoding, thus suffering from the issues of inferior performance or slower convergence. In this paper, we propose a new one-stage sparse action detector, termed STMixer. STMixer is based on two core designs. First, we present a query-based adaptive feature sampling module, which endows our STMixer with the flexibility of mining a set of discriminative features from the entire spatiotemporal domain. Second, we devise a dual-branch feature mixing module, which allows our STMixer to dynamically attend to and mix video features along the spatial and the temporal dimension respectively for better feature decoding. Coupling these two designs with a video backbone yields an efficient end-to-end action detector. Without bells and whistles, our STMixer obtains the state-of-the-art results on the datasets of AVA, UCF101-24, and JHMDB. | 翻訳日:2023-03-29 15:37:53 公開日:2023-03-28 |
# E-Commerce Retrievalにおけるクエリインテント分類のためのマルチグラニュリティマッチング注意ネットワーク A Multi-Granularity Matching Attention Network for Query Intent Classification in E-commerce Retrieval ( http://arxiv.org/abs/2303.15870v1 ) ライセンス: Link先を確認 | Chunyuan Yuan, Yiming Qiu, Mingming Li, Haiqing Hu, Songlin Wang, Sulong Xu | (参考訳) 顧客が希望する製品を見つけるのを支援することを目的としたクエリインテント分類は、eコマース検索の重要なコンポーネントとなっている。
既存のクエリインテント分類モデルは、クエリの表現学習を強化するためにより優れたモデルを設計するか、モデルが外部情報を学ぶのを容易にするためにラベルグラフとマルチタスクを探索する。
しかし、これらのモデルはクエリやカテゴリから複数の粒度マッチング機能をキャプチャできないため、非公式なクエリとカテゴリ間の表現のギャップを緩和することは困難である。
本稿では,MMAN(Multi-granularity Matching Attention Network)を提案する。MMAN(Multi-granularity Matching Attention Network)は,クエリから特徴を包括的に抽出する自己マッチングモジュール,シャルレベルマッチングモジュール,セマンティックレベルマッチングモジュールの3つのモジュールを含む。
このようにして、このモデルはクエリとクエリ意図分類のカテゴリ間の表現の違いを取り除くことができる。
大規模なオフラインおよびオンラインA/B実験を行い、MMANがMMANの優位性と有効性を示す強力なベースラインを著しく上回ることを示す。
MMANは本番環境にデプロイされ、当社にとって大きな商業的価値をもたらしています。 Query intent classification, which aims at assisting customers to find desired products, has become an essential component of the e-commerce search. Existing query intent classification models either design more exquisite models to enhance the representation learning of queries or explore label-graph and multi-task to facilitate models to learn external information. However, these models cannot capture multi-granularity matching features from queries and categories, which makes them hard to mitigate the gap in the expression between informal queries and categories. This paper proposes a Multi-granularity Matching Attention Network (MMAN), which contains three modules: a self-matching module, a char-level matching module, and a semantic-level matching module to comprehensively extract features from the query and a query-category interaction matrix. In this way, the model can eliminate the difference in expression between queries and categories for query intent classification. We conduct extensive offline and online A/B experiments, and the results show that the MMAN significantly outperforms the strong baselines, which shows the superiority and effectiveness of MMAN. MMAN has been deployed in production and brings great commercial value for our company. | 翻訳日:2023-03-29 15:37:30 公開日:2023-03-28 |
# ワイナー多視点教師なし学習のための効率的な交代最小化解法 Efficient Alternating Minimization Solvers for Wyner Multi-View Unsupervised Learning ( http://arxiv.org/abs/2303.15866v1 ) ライセンス: Link先を確認 | Teng-Hui Huang and Hesham El Gamal | (参考訳) 本研究では,教師なし多視点表現学習にWyner共通情報フレームワークを採用する。
本枠組みでは, 交代最小化原理に基づく計算効率の高い解法の開発を可能にする2つの新しい定式化を提案する。
第1の定式化は「変分形式」と呼ばれ、ビューの数とともに線形に増大する複雑性を享受し、ラグランジュ最適化目的関数と結合した変分推論の強い代理関数に基づいている。
第2の定式化、すなわち表現形式は、特別な場合として既知の結果を含むことが示されている。
そこで本研究では,非凸最適化問題の解法として,乗算器の交互方向法(ADMM)アルゴリズムを用いた調整版を開発する。
二つの場合において、提案する解法の収束は、ある関係の領域において確立される。
さらに,提案手法の有効性を,最先端解法との比較により実証した。
一言で言えば、提案する解法は計算効率、理論的収束保証、ビュー数によるスケーラブルな複雑性、最先端技術と比較して非常に精度が高い。
ここでの私たちの焦点は離散的なケースに当てられ、連続分布に対する結果が他の場所で報告されます。 In this work, we adopt Wyner common information frame |