このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230414となっている論文です。

PDF登録状況(公開日: 20230414)

TitleAuthorsAbstract論文公表日・翻訳日
# 物体中心深部アクティブ推論モデルにおける対称性と複雑性

Symmetry and Complexity in Object-Centric Deep Active Inference Models ( http://arxiv.org/abs/2304.14493v1 )

ライセンス: Link先を確認
Stefano Ferraro, Toon Van de Maele, Tim Verbelen, and Bart Dhoedt(参考訳) 人間は毎日何百もの物体を知覚し、相互作用する。 そのためには、これらのオブジェクトのメンタルモデルを採用し、一般化可能で伝達可能なスキルを学ぶために、しばしばオブジェクトの形状と外観の対称性を利用する必要がある。 アクティブ推論は、感覚エージェントの理解とモデリングのための最初の原則アプローチである。 エージェントは彼らの環境の生成モデルを楽しませ、彼らの前提、すなわち彼らの自由エネルギーの上限を最小化することによって学習し、行動する。 自由エネルギーは精度と複雑さの項に分解され、エージェントはその感覚観察を正確に説明できる最小の複雑なモデルを好む。 本稿では,特定の対象の固有対称性が,深部能動推論の下で学習した生成モデルの潜在状態空間における対称性として現れるかを検討する。 特に,オブジェクト中心の表現に焦点が当てられ,エージェントが視点を移動するにつれて,新しいオブジェクトビューを予測するために画素から訓練される。 まず, 状態空間におけるモデル複雑性と対称性の利用との関係について検討する。 次に,モデルが潜在空間における物体の対称性の主軸をどのようにエンコードするかを示すために主成分分析を行う。 最後に、操作の文脈におけるより優れた一般化のために、対称表現がいかに利用されるかを示す。

Humans perceive and interact with hundreds of objects every day. In doing so, they need to employ mental models of these objects and often exploit symmetries in the object's shape and appearance in order to learn generalizable and transferable skills. Active inference is a first principles approach to understanding and modeling sentient agents. It states that agents entertain a generative model of their environment, and learn and act by minimizing an upper bound on their surprisal, i.e. their Free Energy. The Free Energy decomposes into an accuracy and complexity term, meaning that agents favor the least complex model, that can accurately explain their sensory observations. In this paper, we investigate how inherent symmetries of particular objects also emerge as symmetries in the latent state space of the generative model learnt under deep active inference. In particular, we focus on object-centric representations, which are trained from pixels to predict novel object views as the agent moves its viewpoint. First, we investigate the relation between model complexity and symmetry exploitation in the state space. Second, we do a principal component analysis to demonstrate how the model encodes the principal axis of symmetry of the object in the latent space. Finally, we also demonstrate how more symmetrical representations can be exploited for better generalization in the context of manipulation.
翻訳日:2023-05-07 16:21:37 公開日:2023-04-14
# フェデレーションラーニングとO-RANの相乗効果:マルチ分散機械学習サービスのためのElastic Virtualized Architectureを目指して

Synergies Between Federated Learning and O-RAN: Towards an Elastic Virtualized Architecture for Multiple Distributed Machine Learning Services ( http://arxiv.org/abs/2305.02109v1 )

ライセンス: Link先を確認
Payam Abdisarabshali, Nicholas Accurso, Filippo Malandra, Weifeng Su, Seyyedali Hosseinalipour(参考訳) フェデレートラーニング(FL)は、最も人気のある分散機械学習技術である。 しかし、現代の無線ネットワーク上でのFLの実装は、大きな課題に直面している。 (i)ネットワーク条件のダイナミックス。 (ii)システムにおける複数のflサービス/タスクの共存、及び (iii)以前の作業では考慮されていない他のネットワークサービスとのflサービスの同時実行。 これらの課題に触発され,動的マルチサービスFL(DMS-FL)と呼ばれる次世代(NextG)ネットワーク上の汎用FLパラダイムを導入する。 DMS-FLにおける3つの未探索設計事項を同定する。 (i)FLサービスオペレータの蓄積 (二)無線リソースの断片化、及び (iii)信号強度変動。 本稿では,新しい分散MLアーキテクチャであるElastic Virtualized FL(EV-FL)を提案することにより,これらの設計上の課題に対処する第一歩を踏み出す。 EV-FLはOpen RAN(O-RAN)システムの全可能性を解き放ち、FLサービスを実行するためのエラスティックリソースプロビジョニング手法を導入している。 さらに、既存のFLアーキテクチャに3次元を導入するマルチタイムのFL管理システムを構成する。 (i)仮想化 (ii)スケーラビリティ,及び (iii)弾力性。 EV-FLの調査を通じて,今後の研究の方向性を明らかにする。 最終的にEV-FLをシミュレートし、無線リソースを節約し、FLサービス間の公正性を高める可能性を実証した。

Federated learning (FL) is the most popular distributed machine learning technique. However, implementation of FL over modern wireless networks faces key challenges caused by (i) dynamics of the network conditions, (ii) coexistence of multiple FL services/tasks in the system, and (iii) concurrent execution of FL services with other network services, which are not jointly considered in prior works. Motivated by these challenges, we introduce a generic FL paradigm over next-generation (NextG) networks, called dynamic multi-service FL (DMS-FL). We identify three unexplored design considerations in DMS-FL: (i) FL service operator accumulation, (ii) wireless resource fragmentation, and (iii) signal strength fluctuations. We take the first steps towards addressing these design considerations through proposing a novel distributed ML architecture called elastic virtualized FL (EV-FL). EV-FL unleashes the full potential of Open RAN (O-RAN) systems and introduces an elastic resource provisioning methodology to execute FL services. It further constitutes a multi-time-scale FL management system that introduces three dimensions into existing FL architectures: (i) virtualization, (ii) scalability, and (iii) elasticity. Through investigating EV-FL, we reveal a series of open research directions for future work. We finally simulate EV-FL to demonstrate its potential to save wireless resources and increase fairness among FL services.
翻訳日:2023-05-07 15:54:39 公開日:2023-04-14
# UWB位置決めのための新しい微調整属性重み付きNa\"ive Bayes NLoS分類器

Novel Fine-Tuned Attribute Weighted Na\"ive Bayes NLoS Classifier for UWB Positioning ( http://arxiv.org/abs/2304.11067v1 )

ライセンス: Link先を確認
Fuhu Che, Qasim Zeeshan Ahmed, Fahd Ahmed Khan, and Faheem A. Khan(参考訳) 本稿では,UWB(UltraWide Bandwidth)信号のLine-of-Sight(LoS)とNon-in-of-Sight(NLoS)を特定するために,FT-WNB(Final-Tuned attribute Weighted Na\"ive Bayes)分類器を提案する。 FT-WNB分類器は、各信号に特定の重みを割り当て、予測されたクラスと実際のクラスのミスマッチに対処する確率を微調整する。 FT-WNB分類器の性能は、最小冗長最大値(mRMR)-$k$-Nearest Neighbour(KNN)、サポートベクタマシン(SVM)、決定木(DT)、ナシブベイズ(NB)、ニューラルネットワーク(NN)などの最先端機械学習(ML)分類器と比較される。 提案手法は,不均衡データで99.7\%$,平衡データで99.8\%$という高いnlos分類精度を達成することで,他のアルゴリズムよりも優れることを示す。 実験結果から,提案するFT-WNB分類器は,検討シナリオにおいて,既存のLoS信号とNLoS信号のML手法よりも優れていることがわかった。

In this paper, we propose a novel Fine-Tuned attribute Weighted Na\"ive Bayes (FT-WNB) classifier to identify the Line-of-Sight (LoS) and Non-Line-of-Sight (NLoS) for UltraWide Bandwidth (UWB) signals in an Indoor Positioning System (IPS). The FT-WNB classifier assigns each signal feature a specific weight and fine-tunes its probabilities to address the mismatch between the predicted and actual class. The performance of the FT-WNB classifier is compared with the state-of-the-art Machine Learning (ML) classifiers such as minimum Redundancy Maximum Relevance (mRMR)- $k$-Nearest Neighbour (KNN), Support Vector Machine (SVM), Decision Tree (DT), Na\"ive Bayes (NB), and Neural Network (NN). It is demonstrated that the proposed classifier outperforms other algorithms by achieving a high NLoS classification accuracy of $99.7\%$ with imbalanced data and $99.8\%$ with balanced data. The experimental results indicate that our proposed FT-WNB classifier significantly outperforms the existing state-of-the-art ML methods for LoS and NLoS signals in IPS in the considered scenario.
翻訳日:2023-04-30 08:06:19 公開日:2023-04-14
# 超広帯域(UWB)屋内位置決めシステムにおけるNLoS検出のための特徴ベース一般化ガウス分布法

Feature-Based Generalized Gaussian Distribution Method for NLoS Detection in Ultra-Wideband (UWB) Indoor Positioning System ( http://arxiv.org/abs/2304.11091v1 )

ライセンス: Link先を確認
Fuhu Che, Qasim Zeeshan Ahmed, Jaron Fontaine, Ben Van Herbruggen, Adnan Shahid, Eli De Poorter, and Pavlos I. Lazaridis(参考訳) 非Line-of-Sight(NLoS)伝搬条件は、UWB(Ultra-Wideband)屋内位置決めシステム(IPS)における位置決めの精度に影響を与える重要な要因である。 NLoS識別には多数の教師付き機械学習(ML)アプローチが適用され、IPSの精度が向上した。 しかし、データベースが少数のNLoS信号と多数のLine-of-Sight (LoS)信号を含む場合、既存のMLアプローチでは高い分類精度を維持することは困難である。 この少数のNLoS信号によるターゲットノードの不正確な位置決めは依然として問題となる。 そこで本研究では,機能ベースガウス分布 (gd) と一般化ガウス分布 (ggd) nlos検出アルゴリズムを提案する。 不均衡データセットに対する検出アルゴリズムを用いることで、分類精度が9,6.7 %$と9,8.0 %$を達成できる。 また、提案したアルゴリズムを、SVM(Support-Vector-Machine)、DT(Decision Tree)、NB(Naive Bayes)、NN(Neural Network)といった既存の最先端のアルゴリズムと比較した。 その結果、GGDアルゴリズムは不均衡なデータセットと高い分類精度を達成できることを示した。 最後に,提案アルゴリズムは,提案手法のロバスト性および有効性を証明するため,LoS信号とNLoS信号の異なる比に対して高い分類精度を得ることができる。

Non-Line-of-Sight (NLoS) propagation condition is a crucial factor affecting the precision of the localization in the Ultra-Wideband (UWB) Indoor Positioning System (IPS). Numerous supervised Machine Learning (ML) approaches have been applied for NLoS identification to improve the accuracy of the IPS. However, it is difficult for existing ML approaches to maintain a high classification accuracy when the database contains a small number of NLoS signals and a large number of Line-of-Sight (LoS) signals. The inaccurate localization of the target node caused by this small number of NLoS signals can still be problematic. To solve this issue, we propose feature-based Gaussian Distribution (GD) and Generalized Gaussian Distribution (GGD) NLoS detection algorithms. By employing our detection algorithm for the imbalanced dataset, a classification accuracy of $96.7\%$ and $98.0\%$ can be achieved. We also compared the proposed algorithm with the existing cutting-edge such as Support-Vector-Machine (SVM), Decision Tree (DT), Naive Bayes (NB), and Neural Network (NN), which can achieve an accuracy of $92.6\%$, $92.8\%$, $93.2\%$, and $95.5\%$, respectively. The results demonstrate that the GGD algorithm can achieve high classification accuracy with the imbalanced dataset. Finally, the proposed algorithm can also achieve a higher classification accuracy for different ratios of LoS and NLoS signals which proves the robustness and effectiveness of the proposed method.
翻訳日:2023-04-30 07:58:31 公開日:2023-04-14
# mac, 確率最適化法

MAC, a novel stochastic optimization method ( http://arxiv.org/abs/2304.12248v1 )

ライセンス: Link先を確認
Attila L\'aszl\'o Nagy, Goitom Simret Kidane, Tam\'as Tur\'anyi, and J\'anos T\'oth(参考訳) MACと呼ばれる新しい確率最適化法が提案された。 この方法は、複数のランダム点における目的関数の計算に基づいて、経験的期待値と経験的共分散行列を算出する。 経験的期待値は、問題の最適値に収束することが証明される。 MACアルゴリズムはMatlabでエンコードされ、コードは20のテスト問題でテストされた。 その性能は、内部点法(マトラブ名:fmincon)、単純点法、パターン探索(PS)、模擬熱処理(SA)、粒子群最適化(PSO)、遺伝的アルゴリズム(GA)法と比較された。 MAC法は2つのテスト関数に失敗し、他の4つのテスト関数に対して不正確な結果を与えた。 しかし、これは他の14のテスト関数で広く使われている最適化手法よりも正確な結果をもたらし、cpu時間を大幅に削減した。

A novel stochastic optimization method called MAC was suggested. The method is based on the calculation of the objective function at several random points and then an empirical expected value and an empirical covariance matrix are calculated. The empirical expected value is proven to converge to the optimum value of the problem. The MAC algorithm was encoded in Matlab and the code was tested on 20 test problems. Its performance was compared with those of the interior point method (Matlab name: fmincon), simplex, pattern search (PS), simulated annealing (SA), particle swarm optimization (PSO), and genetic algorithm (GA) methods. The MAC method failed two test functions and provided inaccurate results on four other test functions. However, it provided accurate results and required much less CPU time than the widely used optimization methods on the other 14 test functions.
翻訳日:2023-04-30 07:40:19 公開日:2023-04-14
# YOLOv5とアンサンブル学習を用いたリアルタイムヘルメット振動検出

Real-Time Helmet Violation Detection Using YOLOv5 and Ensemble Learning ( http://arxiv.org/abs/2304.09246v1 )

ライセンス: Link先を確認
Geoffery Agorku, Divine Agbobli, Vuban Chowdhury, Kwadwo Amankwah-Nkyi, Adedolapo Ogungbire, Portia Ankamah Lartey, and Armstrong Aboah(参考訳) オートバイのヘルメット規制の適正な施行は、道路のサイクリストや乗客が適切な制度を整備しなければこれらの規制に従わないため、バイクの乗客や乗客の安全を確保する上で不可欠である。 本稿では,自転車の乗客と乗客を検知するリアルタイムのyolov5 deep learning(dl)モデルの開発と評価を行い,検出者がヘルメットを着用しているかどうかについて検討する。 モデルを10fpsで録画した100本のビデオで20秒間トレーニングした。 本研究は,照明や気象条件に挑戦してもヘルメット規制違反を高精度に検出できるdlモデルの適用性を示した。 私たちは、トレーニングデータが堅牢なモデルを構築するのに役立つほど多様であることを保証するために、研究でいくつかのデータ拡張技術を採用しました。 提案されたモデルは100の試験ビデオでテストされ、mAPスコアは0.5267で、AIシティトラック5の公開リーダーボードで11位となった。 ヘルメットを着用するライダーを識別するなど,画像分類作業におけるディープラーニング技術の利用は,道路安全を向上する大きな可能性を秘めている。 この研究は、スマートシティにおけるディープラーニングモデルの応用の可能性を示し、交通規制を施行し、都市全体の監視のためにリアルタイムにデプロイすることができる。

The proper enforcement of motorcycle helmet regulations is crucial for ensuring the safety of motorbike passengers and riders, as roadway cyclists and passengers are not likely to abide by these regulations if no proper enforcement systems are instituted. This paper presents the development and evaluation of a real-time YOLOv5 Deep Learning (DL) model for detecting riders and passengers on motorbikes, identifying whether the detected person is wearing a helmet. We trained the model on 100 videos recorded at 10 fps, each for 20 seconds. Our study demonstrated the applicability of DL models to accurately detect helmet regulation violators even in challenging lighting and weather conditions. We employed several data augmentation techniques in the study to ensure the training data is diverse enough to help build a robust model. The proposed model was tested on 100 test videos and produced an mAP score of 0.5267, ranking 11th on the AI City Track 5 public leaderboard. The use of deep learning techniques for image classification tasks, such as identifying helmet-wearing riders, has enormous potential for improving road safety. The study shows the potential of deep learning models for application in smart cities and enforcing traffic regulations and can be deployed in real-time for city-wide monitoring.
翻訳日:2023-04-23 04:19:17 公開日:2023-04-14
# 人工知能のためのエンドユーザー開発 : 体系的文献レビュー

End-User Development for Artificial Intelligence: A Systematic Literature Review ( http://arxiv.org/abs/2304.09863v1 )

ライセンス: Link先を確認
Andrea Esposito, Miriana Calvano, Antonio Curci, Giuseppe Desolda, Rosa Lanzilotti, Claudia Lorusso and Antonio Piccinno(参考訳) 近年,人工知能は社会に益々関連してきている。 AIシステムを開発することは、ほとんど常にITとAIの専門家の偏見である。 しかし、ユーザーは特定のニーズに合わせてインテリジェントなソリューションを作成する必要がある。 このように、非技術者のユーザがAIテクノロジの定義とパーソナライズに直接関与できるように、新しいアプローチが考案された場合、AIシステムは強化される。 エンドユーザ開発(EUD)は、これらの問題に対するソリューションを提供し、AIベースのシステムを自分たちのニーズに合わせて作成、カスタマイズ、あるいは適用することができる。 本稿では,AIシステムにおけるEUDの現在の状況,すなわち,AIやプログラミングのスキルがなくても,AIの振る舞いをニーズに合わせてカスタマイズする方法について,体系的な文献レビューを行う。 本研究は、AIにおけるEUDの現在の課題、潜在的なメリット、そして、EUDをAI開発プロセス全体に統合する将来の意味についても論じる。

In recent years, Artificial Intelligence has become more and more relevant in our society. Creating AI systems is almost always the prerogative of IT and AI experts. However, users may need to create intelligent solutions tailored to their specific needs. In this way, AI systems can be enhanced if new approaches are devised to allow non-technical users to be directly involved in the definition and personalization of AI technologies. End-User Development (EUD) can provide a solution to these problems, allowing people to create, customize, or adapt AI-based systems to their own needs. This paper presents a systematic literature review that aims to shed the light on the current landscape of EUD for AI systems, i.e., how users, even without skills in AI and/or programming, can customize the AI behavior to their needs. This study also discusses the current challenges of EUD for AI, the potential benefits, and the future implications of integrating EUD into the overall AI development process.
翻訳日:2023-04-23 04:07:39 公開日:2023-04-14
# ADHD診断のためのスケルトンに基づく行動解析

Skeleton-based action analysis for ADHD diagnosis ( http://arxiv.org/abs/2304.09751v1 )

ライセンス: Link先を確認
Yichun Li, Yi Li, Rajesh Nair, Syed Mohsen Naqvi(参考訳) 注意欠陥高活動障害(ADHD)は、世界中の一般的な神経行動障害である。 大規模な研究はADHD診断のための機械学習手法に焦点を当てているが、ほとんどの研究はMRIや脳波パッチなどの高価な機器に依存している。 したがって,ADHDの動作特性に基づいた低コスト診断法が望まれる。 骨格に基づく行動認識は、行動に焦点を当てた性質と堅牢性から注目されている。 本研究では,実際のマルチモーダルadhdデータセットと最先端検出アルゴリズムを用いた,スケルトンベースの行動認識フレームワークを用いた新しいadhd診断システムを提案する。 従来の方法と比較すると,本手法はコスト効率と大幅な性能向上を示し,adhd診断の早期診断に有用であった。 実験の結果,提案手法は従来の精度とAUCよりも優れていた。 一方,本手法はマススクリーニングに広く応用されている。

Attention Deficit Hyperactivity Disorder (ADHD) is a common neurobehavioral disorder worldwide. While extensive research has focused on machine learning methods for ADHD diagnosis, most research relies on high-cost equipment, e.g., MRI machine and EEG patch. Therefore, low-cost diagnostic methods based on the action characteristics of ADHD are desired. Skeleton-based action recognition has gained attention due to the action-focused nature and robustness. In this work, we propose a novel ADHD diagnosis system with a skeleton-based action recognition framework, utilizing a real multi-modal ADHD dataset and state-of-the-art detection algorithms. Compared to conventional methods, the proposed method shows cost-efficiency and significant performance improvement, making it more accessible for a broad range of initial ADHD diagnoses. Through the experiment results, the proposed method outperforms the conventional methods in accuracy and AUC. Meanwhile, our method is widely applicable for mass screening.
翻訳日:2023-04-23 04:06:59 公開日:2023-04-14
# 畳み込みニューラルネットワークとSTM32マイクロコントローラを用いたリアルタイム軸受故障診断

Real Time Bearing Fault Diagnosis Based on Convolutional Neural Network and STM32 Microcontroller ( http://arxiv.org/abs/2304.09100v1 )

ライセンス: Link先を確認
Wenhao Liao(参考訳) ビッグデータとエッジコンピューティングの急速な発展に伴い、多くの研究者は、ディープラーニングモデルを用いた障害分類の精度向上と、STM32のような限られたリソースプラットフォーム上でのディープラーニング分類モデルの実装に注力している。 そこで本研究では,畳み込みニューラルネットワークに基づく軸受振動信号の同定を実現し,最適化モデルの故障識別精度は98.9%に達する。 さらに,STM32H743VIマイクロコントローラに畳み込みニューラルネットワークモデルを適用し,各診断の実行時間は19msである。 最後に、ホストコンピュータとSTM32間の完全なリアルタイム通信フレームワークを設計し、シリアルポートを介してデータ転送を完全に完了し、診断結果をTFT-LCDスクリーンに表示する。

With the rapid development of big data and edge computing, many researchers focus on improving the accuracy of bearing fault classification using deep learning models, and implementing the deep learning classification model on limited resource platforms such as STM32. To this end, this paper realizes the identification of bearing fault vibration signal based on convolutional neural network, the fault identification accuracy of the optimised model can reach 98.9%. In addition, this paper successfully applies the convolutional neural network model to STM32H743VI microcontroller, the running time of each diagnosis is 19ms. Finally, a complete real-time communication framework between the host computer and the STM32 is designed, which can perfectly complete the data transmission through the serial port and display the diagnosis results on the TFT-LCD screen.
翻訳日:2023-04-19 14:04:15 公開日:2023-04-14
# ChatGPT: アプリケーション、機会、脅威

ChatGPT: Applications, Opportunities, and Threats ( http://arxiv.org/abs/2304.09103v1 )

ライセンス: Link先を確認
Aram Bahrini, Mohammadsadra Khamoshifar, Hossein Abbasimehr, Robert J. Riggs, Maryam Esmaeili, Rastin Mastali Majdabadkohne, Morteza Pasehvar(参考訳) OpenAIが開発したChatGPT(Conditional Generative Pre-trained Transformer)は、教師付き機械学習と強化学習技術を用いて微調整された人工知能技術であり、コンピュータが自然言語の会話を完全に自律的に生成することができる。 ChatGPTはトランスフォーマーアーキテクチャ上に構築されており、さまざまなソースからの数百万の会話に基づいて訓練されている。 このシステムは、事前学習されたディープラーニングモデルのパワーとプログラマビリティレイヤを組み合わせることで、自然言語会話を生成する強力な基盤を提供する。 本研究は,既存の文献をレビューした上で,ChatGPTの10大ドメインにおける応用,機会,脅威について検討し,ビジネス,産業,教育の詳細な例を示した。 また,gpt-3.5とgpt-4の性能を比較検討した結果,gpt-3.5の性能は有意に良好であった。 自然に聞こえる応答を生成する能力は例外的であるが、著者らはChatGPTが人間と同じレベルの理解、共感、創造性を持っておらず、ほとんどの状況ではそれらを完全に置き換えることができないと考えている。

Developed by OpenAI, ChatGPT (Conditional Generative Pre-trained Transformer) is an artificial intelligence technology that is fine-tuned using supervised machine learning and reinforcement learning techniques, allowing a computer to generate natural language conversation fully autonomously. ChatGPT is built on the transformer architecture and trained on millions of conversations from various sources. The system combines the power of pre-trained deep learning models with a programmability layer to provide a strong base for generating natural language conversations. In this study, after reviewing the existing literature, we examine the applications, opportunities, and threats of ChatGPT in 10 main domains, providing detailed examples for the business and industry as well as education. We also conducted an experimental study, checking the effectiveness and comparing the performances of GPT-3.5 and GPT-4, and found that the latter performs significantly better. Despite its exceptional ability to generate natural-sounding responses, the authors believe that ChatGPT does not possess the same level of understanding, empathy, and creativity as a human and cannot fully replace them in most situations.
翻訳日:2023-04-19 13:52:54 公開日:2023-04-14
# 同一粒子の真空およびプロセス行列の操作的解釈

Operational interpretation of the vacuum and process matrices for identical particles ( http://arxiv.org/abs/2010.16042v5 )

ライセンス: Link先を確認
Ricardo Faleiro, Nikola Paunkovic, Marko Vojinovic(参考訳) 本稿では,del santo と daki\'c (dsd) が最近導入した単粒子双方向通信プロトコルを概観し,プロセス行列形式を用いて解析する。 エージェントと真空との相互作用の重要性と運用上の意味、特にプロセスマトリクス記述におけるその役割について詳細な説明を行う。 解析の結果,真空との相互作用は操作として扱うべきであり,他のすべての相互作用と同等な足場で扱う必要があることがわかった。 これは、そのような操作を運用的に数えることの問題を引き起こす。 この分析に動機づけられ、プロセス行列の形式化を第二量子化の枠組みを用いてカッピングフォック空間に適用し、不定数の同一粒子を持つプロトコルを特徴付ける。

This work overviews the single-particle two-way communication protocol recently introduced by del Santo and Daki\'c (dSD), and analyses it using the process matrix formalism. We give a detailed account of the importance and the operational meaning of the interaction of an agent with the vacuum -- in particular its role in the process matrix description. Our analysis shows that the interaction with the vacuum should be treated as an operation, on equal footing with all other interactions. This raises the issue of counting such operations in an operational manner. Motivated by this analysis, we apply the process matrix formalism to capped Fock spaces using the framework of second quantisation, in order to characterise protocols with an indefinite number of identical particles.
翻訳日:2023-04-19 02:09:27 公開日:2023-04-14
# 高速かつロバストな反復閉点

Fast and Robust Iterative Closest Point ( http://arxiv.org/abs/2007.07627v3 )

ライセンス: Link先を確認
Juyong Zhang and Yuxin Yao and Bailin Deng(参考訳) イテレーティブ・クローズト・ポイント(ICP)アルゴリズムとその変種は、ロボット工学から3D再構成まで幅広い分野において、2つの点集合間の剛性登録の基本的な技術である。 icpの主な欠点は、収束が遅いことと、異常値に対する感度、データ欠落、部分重複である。 スパースicpのような最近の研究は、計算速度のコストでスパース性最適化によって堅牢性を実現している。 本稿では,高速収束を伴うロバストな登録手法を提案する。 まず,古典的点対点ICPを最大化最小化(MM)アルゴリズムとして扱うことを示し,その収束を高速化するためのアンダーソン加速度法を提案する。 さらに、アンダーソン加速度を持つMMアルゴリズムを用いて効率よく最小化されるウェルシュ関数に基づくロバストな誤差計量を導入する。 ノイズと部分的な重なりを持つ挑戦的データセットでは、Sparse ICPと同等あるいはより正確な精度を 少なくとも1桁高速に達成する。 最後に,ロバストな定式化を点対平面icpに拡張し,anderson-accelerated mm戦略を用いて解く。 我々の頑健なICP手法は、計算時間で競合しながら、ベンチマークデータセットの登録精度を向上させる。

The Iterative Closest Point (ICP) algorithm and its variants are a fundamental technique for rigid registration between two point sets, with wide applications in different areas from robotics to 3D reconstruction. The main drawbacks for ICP are its slow convergence as well as its sensitivity to outliers, missing data, and partial overlaps. Recent work such as Sparse ICP achieves robustness via sparsity optimization at the cost of computational speed. In this paper, we propose a new method for robust registration with fast convergence. First, we show that the classical point-to-point ICP can be treated as a majorization-minimization (MM) algorithm, and propose an Anderson acceleration approach to speed up its convergence. In addition, we introduce a robust error metric based on the Welsch's function, which is minimized efficiently using the MM algorithm with Anderson acceleration. On challenging datasets with noises and partial overlaps, we achieve similar or better accuracy than Sparse ICP while being at least an order of magnitude faster. Finally, we extend the robust formulation to point-to-plane ICP, and solve the resulting problem using a similar Anderson-accelerated MM strategy. Our robust ICP methods improve the registration accuracy on benchmark datasets while being competitive in computational time.
翻訳日:2023-04-19 02:08:37 公開日:2023-04-14
# RelTR:シーングラフ生成のためのリレーショナルトランス

RelTR: Relation Transformer for Scene Graph Generation ( http://arxiv.org/abs/2201.11460v3 )

ライセンス: Link先を確認
Yuren Cong, Michael Ying Yang, Bodo Rosenhahn(参考訳) 同じシーンの異なるオブジェクトは、ほとんど、あるいはそれと関係があるが、これらの関係の限られた数だけが注目に値する。 オブジェクト検出に優れるDETRに着想を得て,シーングラフ生成をセット予測問題とみなし,エンコーダ・デコーダアーキテクチャを持つエンドツーエンドのシーングラフ生成モデルRelTRを提案する。 エンコーダは視覚的特徴コンテキストを理由とし、デコーダは、異なるタイプの注意機構と結合した被写体とオブジェクトクエリを用いて、固定サイズの三重項述語オブジェクトのセットを推論する。 提案手法は, 終末訓練において, 地上の真理と予測三重項のマッチングを行う集合予測損失を設計する。 既存のシーングラフ生成手法とは対照的に、RelTRは、エンティティを結合したり、可能なすべての述語をラベル付けすることなく、視覚的な外観だけで直接関係を予測できるワンステージ手法である。 視覚ゲノムとオープン画像v6データセットに関する広範な実験は、このモデルの優れた性能と高速な推論を示している。

Different objects in the same scene are more or less related to each other, but only a limited number of these relationships are noteworthy. Inspired by DETR, which excels in object detection, we view scene graph generation as a set prediction problem and propose an end-to-end scene graph generation model RelTR which has an encoder-decoder architecture. The encoder reasons about the visual feature context while the decoder infers a fixed-size set of triplets subject-predicate-object using different types of attention mechanisms with coupled subject and object queries. We design a set prediction loss performing the matching between the ground truth and predicted triplets for the end-to-end training. In contrast to most existing scene graph generation methods, RelTR is a one-stage method that predicts a set of relationships directly only using visual appearance without combining entities and labeling all possible predicates. Extensive experiments on the Visual Genome and Open Images V6 datasets demonstrate the superior performance and fast inference of our model.
翻訳日:2023-04-19 01:03:19 公開日:2023-04-14
# アニメ文字シートを用いた協調ニューラルレンダリング

Collaborative Neural Rendering using Anime Character Sheets ( http://arxiv.org/abs/2207.05378v5 )

ライセンス: Link先を確認
Zuzeng Lin, Ailin Huang, Zhewei Huang(参考訳) アニメ制作において、キャラクターのイメージを所望のポーズで描くことは必須だが手間がかかる作業である。 近年,アーティストの創造支援が研究のホットスポットとなっている。 本稿では,いくつかの参照画像(文字シート)から特定のポーズの新たな画像を生成する協調ニューラルレンダリング(conr)手法を提案する。 概して、アニメキャラクターの多様な髪型や衣服は、ほとんどの裸体型にフィットするsmplのような普遍的なボディモデルの雇用を欠いている。 これを解決するため、CoNRでは、コンパクトで分かりやすいランドマークエンコーディングを使用して、パイプライン内の統一UVマッピングの作成を回避する。 さらに、注意深く設計されたニューラルネットワークにおける特徴空間クロスビューウォーピングにより、複数の参照画像を参照する場合にconrの性能が大幅に向上する。 また,70万以上の手書き合成画像を含む文字シートデータセットを収集し,この領域の研究を容易にする。 私たちのコードとデモはhttps://github.com/megvii-research/ijcai2023-conrで利用可能です。

Drawing images of characters with desired poses is an essential but laborious task in anime production. Assisting artists to create is a research hotspot in recent years. In this paper, we present the Collaborative Neural Rendering (CoNR) method, which creates new images for specified poses from a few reference images (AKA Character Sheets). In general, the diverse hairstyles and garments of anime characters defies the employment of universal body models like SMPL, which fits in most nude human shapes. To overcome this, CoNR uses a compact and easy-to-obtain landmark encoding to avoid creating a unified UV mapping in the pipeline. In addition, the performance of CoNR can be significantly improved when referring to multiple reference images, thanks to feature space cross-view warping in a carefully designed neural network. Moreover, we have collected a character sheet dataset containing over 700,000 hand-drawn and synthesized images of diverse poses to facilitate research in this area. Our code and demo are available at https://github.com/megvii-research/IJCAI2023-CoNR.
翻訳日:2023-04-19 00:34:42 公開日:2023-04-14
# GitHub Copilot AIペアプログラマ:アセットか、責任か?

GitHub Copilot AI pair programmer: Asset or Liability? ( http://arxiv.org/abs/2206.15331v2 )

ライセンス: Link先を確認
Arghavan Moradi Dakhel, Vahid Majdinasab, Amin Nikanjam, Foutse Khomh, Michel C. Desmarais, Zhen Ming (Jack) Jiang(参考訳) 自動プログラム合成は、ソフトウェア工学における長年の夢である。 最近、有望なDeep Learning (DL)ベースのソリューションであるCopilotが、OpenAIとMicrosoftによって産業製品として提案されている。 Copilotソリューションの正しさを評価し,その問題を報告する研究もあるが,開発者のメリットを効果的に理解するには,より経験的な評価が必要である。 本稿では,2つのプログラミングタスクにおけるCopilotの能力について考察する。 (i)基本アルゴリズム問題に対する正確かつ効率的な解の生成(及び再生) (2)Copilotの提案したソリューションと人間のプログラマのプログラミングタスクのセットを比較した。 前者に対しては,データ構造のソートや実装など,コンピュータ科学の基本的問題の解決におけるCopilotの性能と機能を評価する。 後者では、人間によるソリューションによるプログラミング問題のデータセットが使用される。 その結果、Copilotは、ほとんどすべての基本的なアルゴリズム問題に対するソリューションを提供することができるが、いくつかのソリューションはバグが多く再現できない。 さらに、Copilotはソリューションを生成するために複数のメソッドを組み合わせるのにいくつかの困難がある。 Copilotを人間と比較すると、人間の解の正解率は、Copilotの提案よりも大きいが、Copilotが生成したバギーな解は、修復に要する労力が少なくなる。

Automatic program synthesis is a long-lasting dream in software engineering. Recently, a promising Deep Learning (DL) based solution, called Copilot, has been proposed by OpenAI and Microsoft as an industrial product. Although some studies evaluate the correctness of Copilot solutions and report its issues, more empirical evaluations are necessary to understand how developers can benefit from it effectively. In this paper, we study the capabilities of Copilot in two different programming tasks: (i) generating (and reproducing) correct and efficient solutions for fundamental algorithmic problems, and (ii) comparing Copilot's proposed solutions with those of human programmers on a set of programming tasks. For the former, we assess the performance and functionality of Copilot in solving selected fundamental problems in computer science, like sorting and implementing data structures. In the latter, a dataset of programming problems with human-provided solutions is used. The results show that Copilot is capable of providing solutions for almost all fundamental algorithmic problems, however, some solutions are buggy and non-reproducible. Moreover, Copilot has some difficulties in combining multiple methods to generate a solution. Comparing Copilot to humans, our results show that the correct ratio of humans' solutions is greater than Copilot's suggestions, while the buggy solutions generated by Copilot require less effort to be repaired.
翻訳日:2023-04-19 00:34:02 公開日:2023-04-14
# シリコンのパターン化デルタ層デバイスの非破壊X線イメージング

Non-destructive X-ray imaging of patterned delta-layer devices in silicon ( http://arxiv.org/abs/2208.09379v2 )

ライセンス: Link先を確認
Nicol\`o D'Anna, Dario Ferreira Sanchez, Guy Matmon, Jamie Bragg, Procopios C. Constantinou, Taylor J.Z. Stock, Sarah Fearn, Steven R. Schofield, Neil J. Curson, Marek Bartkowiak, Y. Soh, Daniel Grolimund, Simon Gerber and Gabriel Aeppli(参考訳) 集積エレクトロニクスにおける小型化の進展は、シリコンの原子およびナノメートルサイズのドーパントデバイスにつながった。 このような構造は、リンやヒ素などの様々なドーパントを用いて、水素抵抗リソグラフィーによって日常的に製造することができる。 しかし、量子コプロセッサのようなより複雑なナノスケールデバイスを構築するために必須となる最終構造の原子種特異的なイメージを非破壊的に得る能力は未解決の課題である。 ここでは、x線蛍光を利用して、デバイス低温電子特性に影響を与えずに、絶対単位のドーパント密度とビーム焦点サイズ(ここでは$\sim1~\mu$m)に制限された解像度を持つシリコン中のasドーパントの元素特異的画像を作成する。 X線データによるAs密度は、ホール効果測定から得られたものと、標準的な非可逆性走査型トンネル顕微鏡および二次イオン質量分析法と比較される。 X線実験の前後で、弱局所化に支配される磁気コンダクタンスの測定を行い、量子干渉効果は試料の寸法や乱れに非常に敏感であった。 1.5\times10^{10}$ Sv$1.5\times10^{16}$ Rad/cm$^{-2}$)デバイスをX線に露出しても、すべての輸送データは実験誤差の範囲内で変化せず、典型的なAs原子の放射誘起運動に対する0.2アングストロームの上限と、活性化されたキャリア寄与ドーパントの損失に対する3$\%の値に対応する。 次世代のシンクロトロン放射源とより高度な光学により、5nmの分解半径内で単一のドーパント原子のX線像を得ることが可能となる。

The progress of miniaturisation in integrated electronics has led to atomic and nanometre-sized dopant devices in silicon. Such structures can be fabricated routinely by hydrogen resist lithography, using various dopants such as phosphorous and arsenic. However, the ability to non-destructively obtain atomic-species-specific images of the final structure, which would be an indispensable tool for building more complex nano-scale devices, such as quantum co-processors, remains an unresolved challenge. Here we exploit X-ray fluorescence to create an element-specific image of As dopants in silicon, with dopant densities in absolute units and a resolution limited by the beam focal size (here $\sim1~\mu$m), without affecting the device's low temperature electronic properties. The As densities provided by the X-ray data are compared to those derived from Hall effect measurements as well as the standard non-repeatable, scanning tunnelling microscopy and secondary ion mass spectroscopy, techniques. Before and after the X-ray experiments, we also measured the magneto-conductance, dominated by weak localisation, a quantum interference effect extremely sensitive to sample dimensions and disorder. Notwithstanding the $1.5\times10^{10}$ Sv ($1.5\times10^{16}$ Rad/cm$^{-2}$) exposure of the device to X-rays, all transport data were unchanged to within experimental errors, corresponding to upper bounds of 0.2 Angstroms for the radiation-induced motion of the typical As atom and 3$\%$ for the loss of activated, carrier-contributing dopants. With next generation synchrotron radiation sources and more advanced optics, we foresee that it will be possible to obtain X-ray images of single dopant atoms within resolved radii of 5 nm.
翻訳日:2023-04-19 00:24:56 公開日:2023-04-14
# 重力誘起光子対と量子記憶の絡み合いダイナミクス

Gravitationally induced entanglement dynamics of photon pairs and quantum memories ( http://arxiv.org/abs/2209.02099v2 )

ライセンス: Link先を確認
Roy Barzel, Mustafa G\"undo\u{g}an, Markus Krutzik, Dennis R\"atzel, Claus L\"ammerzahl(参考訳) 重力場における量子メモリと組み合わされたマッハ・ツェンダーおよび香港・ウー・マンデル干渉計におけるフォトニック状態に対する重力誘起エンタングルメントダイナミクス(普遍デコヒーレンスのメカニズムの基礎)の効果について検討する。 香港・ウーマンデル干渉計における近未来技術の影響を目撃できる可能性は高い。 これは一般相対性理論の真の量子テストであり、光量子論によって予測される多粒子効果と重力時間拡大の一般相対論的効果を組み合わせたものである。

We investigate the effect of gravitationally induced entanglement dynamics -- the basis of a mechanism of universal decoherence -- for photonic states in Mach-Zehnder and Hong-Ou-Mandel interferometry combined with quantum memories in the gravitational field of the earth. We show that chances are good to witness the effect with near-future technology in Hong-Ou-Mandel interferometry. This would represent a genuine quantum test of general relativity, combining a multi-particle effect predicted by the quantum theory of light and the general relativistic effect of gravitational time dilation.
翻訳日:2023-04-19 00:14:16 公開日:2023-04-14
# decaf: 知識ベースによる質問応答のための解答と論理形式の共同復号

DecAF: Joint Decoding of Answers and Logical Forms for Question Answering over Knowledge Bases ( http://arxiv.org/abs/2210.00063v2 )

ライセンス: Link先を確認
Donghan Yu, Sheng Zhang, Patrick Ng, Henghui Zhu, Alexander Hanbo Li, Jun Wang, Yiqun Hu, William Wang, Zhiguo Wang, Bing Xiang(参考訳) 知識ベース(KB)に対する質問応答は、KBにおける実体や関係などの事実情報を用いて自然言語の質問に答えることを目的としている。 従来の手法では、最終回答を得るためにkb以上の論理形式を生成したり、直接回答を予測したりする。 経験的な結果から、前者はより正確な答えを出すことが多いが、生成された論理形式の構文的誤りと意味的誤りによって非実行的問題に苦しむ。 本研究では,論理形式と直接回答の両方を共同で生成し,それらのメリットを組み合わせて最終回答を得る,新たなフレームワークdecafを提案する。 さらに、以前のほとんどの方法とは異なり、DecAFはエンティティリンクツールに頼ることなく、単純な自由テキスト検索に基づいている。 DecAFは、WebQSP、FreebaseQA、GrailQAベンチマークで新しい最先端の精度を実現し、ComplexWebQuestionsベンチマークで競合する結果を得た。

Question answering over knowledge bases (KBs) aims to answer natural language questions with factual information such as entities and relations in KBs. Previous methods either generate logical forms that can be executed over KBs to obtain final answers or predict answers directly. Empirical results show that the former often produces more accurate answers, but it suffers from non-execution issues due to potential syntactic and semantic errors in the generated logical forms. In this work, we propose a novel framework DecAF that jointly generates both logical forms and direct answers, and then combines the merits of them to get the final answers. Moreover, different from most of the previous methods, DecAF is based on simple free-text retrieval without relying on any entity linking tools -- this simplification eases its adaptation to different datasets. DecAF achieves new state-of-the-art accuracy on WebQSP, FreebaseQA, and GrailQA benchmarks, while getting competitive results on the ComplexWebQuestions benchmark.
翻訳日:2023-04-19 00:05:53 公開日:2023-04-14
# 無空スピンボソンリンドブレディアンの十分条件と散逸時間結晶との相関

Sufficient condition for gapless spin-boson Lindbladians, and its connection to dissipative time-crystals ( http://arxiv.org/abs/2209.12949v3 )

ライセンス: Link先を確認
Leonardo da Silva Souza, Luis Fernando dos Prazeres, Fernando Iemini(参考訳) 群スピンボーソン系および置換不変系に対するリンドブラドマスター方程式におけるギャップのない励起の十分条件について考察する。 この条件は、定常状態の非ゼロマクロな累積相関とリンドブラディアンにおけるギャップレスモードの存在を関連付ける。 競合するコヒーレントで散逸的なリンドブレディアン項から生じる位相において、そのような隙間のないモードは角運動量保存と共生し、散逸的な時間結晶の形成を伴うスピン観測可能な状態の持続的なダイナミクスをもたらすと論じる。 この観点から、リンドブラディアンとエルミートジャンプ作用素から、集合スピンとフロケスピンボソン系からなる非エルミートモデルまで、様々なモデルを研究する。 累積展開に基づくシステムにおける平均場半古典的アプローチの正確性に関する簡単な解析的証明も提供する。

We discuss a sufficient condition for gapless excitations in the Lindbladian master equation for collective spin-boson systems and permutationally invariant systems. The condition relates a nonzero macroscopic cumulant correlation in the steady state to the presence of gapless modes in the Lindbladian. In phases arising from competing coherent and dissipative Lindbladian terms, we argue that such gapless modes, concomitant with angular momentum conservation, can lead to persistent dynamics in the spin observables with the possible formation of dissipative time-crystals. We study different models within this perspective, from Lindbladians with Hermitian jump operators, to non-Hermitian ones composed by collective spins and Floquet spin-boson systems. We also provide a simple analytical proof for the exactness of mean-field semiclassical approach in such systems based on a cumulant expansion.
翻訳日:2023-04-19 00:04:54 公開日:2023-04-14
# RibSeg v2: Rib Labelingと解剖学的中心線抽出のための大規模ベンチマーク

RibSeg v2: A Large-scale Benchmark for Rib Labeling and Anatomical Centerline Extraction ( http://arxiv.org/abs/2210.09309v3 )

ライセンス: Link先を確認
Liang Jin, Shixuan Gu, Donglai Wei, Jason Ken Adhinarta, Kaiming Kuang, Yongjie Jessica Zhang, Hanspeter Pfister, Bingbing Ni, Jiancheng Yang, Ming Li(参考訳) 各種臨床応用において, 自動リブラベリングと解剖学的中心線抽出が必須条件である。 以前の研究では、コミュニティにアクセスできない社内データセットを使用するか、リブラベルの臨床的意義を無視したリブセグメンテーションにフォーカスする。 これらの問題に対処するため、バイナリリブセグメンテーションタスクの以前のデータセット(RibSeg)を、660個のCTスキャン(15,466個の個々のリブ)と、リブラベリングや解剖学的中心線抽出の専門家が手作業で検査したアノテーションで、RibSeg v2という包括的なベンチマークに拡張しました。 RibSeg v2に基づいて,リブラベリングのための深層学習に基づく手法と,中心線抽出のための骨格化に基づく手法を含むパイプラインを開発する。 計算効率を向上させるため,CTスキャンのスパース点クラウド表現を提案し,標準密度のボクセルグリッドと比較した。 さらに,各タスクの課題に対処するため,評価指標の設計と分析を行う。 私たちのデータセット、コード、モデルは、https://github.com/m3dv/ribsegでオープンリサーチを容易にするためにオンラインで利用可能です。

Automatic rib labeling and anatomical centerline extraction are common prerequisites for various clinical applications. Prior studies either use in-house datasets that are inaccessible to communities, or focus on rib segmentation that neglects the clinical significance of rib labeling. To address these issues, we extend our prior dataset (RibSeg) on the binary rib segmentation task to a comprehensive benchmark, named RibSeg v2, with 660 CT scans (15,466 individual ribs in total) and annotations manually inspected by experts for rib labeling and anatomical centerline extraction. Based on the RibSeg v2, we develop a pipeline including deep learning-based methods for rib labeling, and a skeletonization-based method for centerline extraction. To improve computational efficiency, we propose a sparse point cloud representation of CT scans and compare it with standard dense voxel grids. Moreover, we design and analyze evaluation metrics to address the key challenges of each task. Our dataset, code, and model are available online to facilitate open research at https://github.com/M3DV/RibSeg
翻訳日:2023-04-18 23:57:22 公開日:2023-04-14
# フェデレーションエッジ学習のための平衡数系に基づくオーバーザ・エア計算

Over-the-Air Computation Based on Balanced Number Systems for Federated Edge Learning ( http://arxiv.org/abs/2210.07012v2 )

ライセンス: Link先を確認
Alphan Sahin(参考訳) 本研究では,フェデレーションエッジラーニング(feel)のための連続値集約を実現するためのoac(digital over-the-air computation)方式を提案する。 実数値パラメータの集合の平均は、対応する数字の平均を用いておおよそ計算できることを示し、この数値はバランスの取れた数系に基づいて得られる。 このキー特性を利用して、提案手法は局所確率勾配を数値の集合に符号化する。 次に、数値を用いて、活性化直交周波数分割多重化(OFDM)サブキャリアの位置を決定する。 正確なサンプルレベルの時間同期、チャネル推定オーバーヘッド、チャネルインバージョンの必要性を回避するため、提案手法ではエッジサーバ(ES)では非コヒーレント受信機を使用し、エッジデバイス(ED)では事前等化を利用できない。 提案手法のmse性能と非凸損失関数の収束率を理論的に解析した。 提案手法によりFEELのテスト精度を向上させるために,適応絶対最大値(AAM)の概念を導入する。 数値計算の結果,提案手法がFEELのAAMと併用された場合,テスト精度は異種データ分布の最大98%に達することがわかった。

In this study, we propose a digital over-the-air computation (OAC) scheme for achieving continuous-valued (analog) aggregation for federated edge learning (FEEL). We show that the average of a set of real-valued parameters can be calculated approximately by using the average of the corresponding numerals, where the numerals are obtained based on a balanced number system. By exploiting this key property, the proposed scheme encodes the local stochastic gradients into a set of numerals. Next, it determines the positions of the activated orthogonal frequency division multiplexing (OFDM) subcarriers by using the values of the numerals. To eliminate the need for precise sample-level time synchronization, channel estimation overhead, and channel inversion, the proposed scheme also uses a non-coherent receiver at the edge server (ES) and does not utilize a pre-equalization at the edge devices (EDs). We theoretically analyze the MSE performance of the proposed scheme and the convergence rate for a non-convex loss function. To improve the test accuracy of FEEL with the proposed scheme, we introduce the concept of adaptive absolute maximum (AAM). Our numerical results show that when the proposed scheme is used with AAM for FEEL, the test accuracy can reach up to 98% for heterogeneous data distribution.
翻訳日:2023-04-18 23:55:42 公開日:2023-04-14
# グループフェアネス制約付きスケーラブルスペクトルクラスタリング

Scalable Spectral Clustering with Group Fairness Constraints ( http://arxiv.org/abs/2210.16435v3 )

ライセンス: Link先を確認
Ji Wang, Ding Lu, Ian Davidson, and Zhaojun Bai(参考訳) 公正性をモデル化し、機械学習におけるアルゴリズムバイアスを補正する研究と産業の努力の相乗効果がある。 本稿では,グループフェアネス制約付きスペクトルクラスタリング(SC)のためのスケーラブルアルゴリズムを提案する。 群フェアネスは統計パリティとしても知られ、各クラスタにおいて、各保護群は全体と同じ割合で表される。 FairSCアルゴリズム (Kleindessner et al., 2019) はより公平なクラスタリングを見つけることができるが、計算ヌルスペースのカーネルや密度行列の平方根が明確に定義されているため、高いコストで妥協される。 本稿では, ヌルスペース射影とHotellingのデフレを取り入れたスペクトル計算の新たな定式化を行い, 結果のアルゴリズムであるs-FairSCは, スパース行列ベクトル積のみを伴い, フェアSCモデルの空間性を完全に活用できることを示す。 修正確率ブロックモデルの実験的結果から, s-fairsc は fairsc と同等であることが判明した。 一方、中程度のモデルサイズでは12倍に高速化される。 また, s-fairsc の計算コストは, 公平性制約を伴わない sc と比較してわずかに増大する程度である。

There are synergies of research interests and industrial efforts in modeling fairness and correcting algorithmic bias in machine learning. In this paper, we present a scalable algorithm for spectral clustering (SC) with group fairness constraints. Group fairness is also known as statistical parity where in each cluster, each protected group is represented with the same proportion as in the entirety. While FairSC algorithm (Kleindessner et al., 2019) is able to find the fairer clustering, it is compromised by high costs due to the kernels of computing nullspaces and the square roots of dense matrices explicitly. We present a new formulation of underlying spectral computation by incorporating nullspace projection and Hotelling's deflation such that the resulting algorithm, called s-FairSC, only involves the sparse matrix-vector products and is able to fully exploit the sparsity of the fair SC model. The experimental results on the modified stochastic block model demonstrate that s-FairSC is comparable with FairSC in recovering fair clustering. Meanwhile, it is sped up by a factor of 12 for moderate model sizes. s-FairSC is further demonstrated to be scalable in the sense that the computational costs of s-FairSC only increase marginally compared to the SC without fairness constraints.
翻訳日:2023-04-18 23:47:53 公開日:2023-04-14
# FlowGrad: モーションを用いた視覚音源定位

FlowGrad: Using Motion for Visual Sound Source Localization ( http://arxiv.org/abs/2211.08367v2 )

ライセンス: Link先を確認
Rajsuryan Singh, Pablo Zinemanas, Xavier Serra, Juan Pablo Bello, Magdalena Fuentes(参考訳) 視覚音源のローカライゼーションに関する最近の研究は、自己教師方式で学習したセマンティックな音声・視覚表現に依存しており、設計上、ビデオに存在する時間情報を排除している。 広く使われているベンチマークデータセットに有効であることが証明されているが、この方法は都市交通のような困難なシナリオでは不足している。 本研究は, 映像情報をエンコードする手法として光フローを用いた都市シーンにおける音源定位手法に, 時間的文脈を導入するものである。 本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。

Most recent work in visual sound source localization relies on semantic audio-visual representations learned in a self-supervised manner, and by design excludes temporal information present in videos. While it proves to be effective for widely used benchmark datasets, the method falls short for challenging scenarios like urban traffic. This work introduces temporal context into the state-of-the-art methods for sound source localization in urban scenes using optical flow as a means to encode motion information. An analysis of the strengths and weaknesses of our methods helps us better understand the problem of visual sound source localization and sheds light on open challenges for audio-visual scene understanding.
翻訳日:2023-04-18 23:26:08 公開日:2023-04-14
# 正準場:ポーズ・カノニカル化ニューラルフィールドの自己教師あり学習

Canonical Fields: Self-Supervised Learning of Pose-Canonicalized Neural Fields ( http://arxiv.org/abs/2212.02493v2 )

ライセンス: Link先を確認
Rohith Agaram, Shaurya Dewan, Rahul Sajnani, Adrien Poulenard, Madhava Krishna, Srinath Sridhar(参考訳) コーディネートベースの暗黙的ニューラルネットワーク、すなわちニューラルネットワークは、3Dコンピュータビジョンにおける形状と外観の有用な表現として登場した。 しかし、進歩にもかかわらず、shapenetのような"canonicalized"オブジェクトインスタンスを提供し、3dの位置と向き(pose)を一貫して整列するデータセットのないオブジェクトのカテゴリのニューラルフィールドを構築することは、依然として困難である。 本稿では,ニューラルネットワーク,特にニューラル放射場(NeRF)に代表される対象カテゴリから,インスタンスの3次元ポーズを正準化する自己教師型手法CaFi-Netを提案する。 cafi-netは、カテゴリレベルの正準化のための同変体特徴を抽出するために設計されたsiameseネットワークアーキテクチャを使用して、連続的および騒がしい放射場から直接学習する。 提案手法では,任意の3次元ポーズにおける新規オブジェクトインスタンスの事前学習した神経放射場を推定し,カテゴリ全体で一貫した3次元ポーズを持つ正準場を推定する。 13のオブジェクトカテゴリにまたがる1300のNeRFモデルのデータセットに対する大規模な実験は、我々の手法が3Dポイントクラウドベースの手法の性能と一致しているか、超越しているかを示している。

Coordinate-based implicit neural networks, or neural fields, have emerged as useful representations of shape and appearance in 3D computer vision. Despite advances, however, it remains challenging to build neural fields for categories of objects without datasets like ShapeNet that provide "canonicalized" object instances that are consistently aligned for their 3D position and orientation (pose). We present Canonical Field Network (CaFi-Net), a self-supervised method to canonicalize the 3D pose of instances from an object category represented as neural fields, specifically neural radiance fields (NeRFs). CaFi-Net directly learns from continuous and noisy radiance fields using a Siamese network architecture that is designed to extract equivariant field features for category-level canonicalization. During inference, our method takes pre-trained neural radiance fields of novel object instances at arbitrary 3D pose and estimates a canonical field with consistent 3D pose across the entire category. Extensive experiments on a new dataset of 1300 NeRF models across 13 object categories show that our method matches or exceeds the performance of 3D point cloud-based methods.
翻訳日:2023-04-18 23:15:56 公開日:2023-04-14
# ハイゼンベルク限界における細胞の量子顕微鏡

Quantum Microscopy of Cells at the Heisenberg Limit ( http://arxiv.org/abs/2303.04948v3 )

ライセンス: Link先を確認
Zhe He, Yide Zhang, Xin Tong, Lei Li, Lihong V. Wang(参考訳) 絡み合った双光子源は非古典的な特性を示し、ゴーストイメージング、量子ホログラフィー、量子光コヒーレンストモグラフィーなどのイメージング技術に応用されている。 現在までの広視野量子イメージングの開発は、低空間分解能、速度、コントラスト-ノイズ比(CNR)によって妨げられている。 本稿では,既存の広視野量子イメージング法に比べて,ハイゼンベルク限界での超解像をかなり高速かつcnrで行えるように,バランスのとれた経路長の一致による量子顕微鏡(qmc)を提案する。 QMCは2本の交叉光子が2本の腕で対称な経路を横断し、半分の波長を持つ1本の光子のように振る舞うことで2倍の分解能が向上する。 同時に、QMCは古典的な信号の最大155倍の強度の光に抵抗する。 QMCにおける二光子の低強度および絡み合い特性は非破壊的生体イメージングを約束する。 QMCは、がん細胞のバイオイメージングに向けた速度とCNRを大幅に改善し、量子イメージングを顕微鏡レベルまで進める。 平衡長の配置がハイゼンベルク限界における量子エンハンス同時撮像の道筋を照らすことを実験的に理論的に証明した。

Entangled biphoton sources exhibit nonclassical characteristics and have been applied to imaging techniques such as ghost imaging, quantum holography, and quantum optical coherence tomography. The development of wide-field quantum imaging to date has been hindered by low spatial resolutions, speeds, and contrast-to-noise ratios (CNRs). Here, we present quantum microscopy by coincidence (QMC) with balanced pathlengths, which enables super-resolution imaging at the Heisenberg limit with substantially higher speeds and CNRs than existing wide-field quantum imaging methods. QMC benefits from a configuration with balanced pathlengths, where a pair of entangled photons traversing symmetric paths with balanced optical pathlengths in two arms behave like a single photon with half the wavelength, leading to 2-fold resolution improvement. Concurrently, QMC resists stray light up to 155 times stronger than classical signals. The low intensity and entanglement features of biphotons in QMC promise nondestructive bioimaging. QMC advances quantum imaging to the microscopic level with significant improvements in speed and CNR toward bioimaging of cancer cells. We experimentally and theoretically prove that the configuration with balanced pathlengths illuminates an avenue for quantum-enhanced coincidence imaging at the Heisenberg limit.
翻訳日:2023-04-18 20:43:40 公開日:2023-04-14
# 物体の動き感度:イベントベースカメラのエゴモーション問題に対するバイオインスパイアソリューション

Object Motion Sensitivity: A Bio-inspired Solution to the Ego-motion Problem for Event-based Cameras ( http://arxiv.org/abs/2303.14114v3 )

ライセンス: Link先を確認
Shay Snyder (1), Hunter Thompson (2), Md Abdullah-Al Kaiser (3), Gregory Schwartz (4), Akhilesh Jaiswal (3), and Maryam Parsa (1) ((1) George Mason University, (2) Georgia Institute of Technology, (3) University of Southern California, (4) Northwestern University)(参考訳) ニューロモルフィック(イベントベースの)イメージセンサーは、人間の網膜からインスピレーションを得て、生体によく似た方法で視覚刺激を処理できる電子機器を作る。 これらのセンサーは従来のRGBセンサーとは大きく異なる情報を処理する。 具体的には、イベントベースイメージセンサが生成する知覚情報は、RGBセンサと比べて桁違いのスペーサーである。 第1世代のニューロモルフィック画像センサであるDynamic Vision Sensor (DVS)は、光受容体と最初の網膜シナプスに制限された計算にインスパイアされている。 本研究は,ニューロモルフィック画像センサの第2世代,CMOSイメージセンサ(IRIS)における統合網膜機能(Integrated Retinal Functionality in CMOS Image Sensors)の能力を強調するものである。 この研究で選択される特徴は、IRISセンサーで局所的に処理されるオブジェクト運動感度(OMS)である。 OMS は従来の RGB や DVS と同様の効率で標準的なコンピュータビジョンタスクを実現できるが,帯域幅の大幅な削減が可能である。 これにより、ワイヤレスおよびコンピューティングの電力予算が削減され、高速、堅牢、エネルギー効率、低帯域幅のリアルタイム意思決定において大きな機会が開ける。

Neuromorphic (event-based) image sensors draw inspiration from the human-retina to create an electronic device that can process visual stimuli in a way that closely resembles its biological counterpart. These sensors process information significantly different than the traditional RGB sensors. Specifically, the sensory information generated by event-based image sensors are orders of magnitude sparser compared to that of RGB sensors. The first generation of neuromorphic image sensors, Dynamic Vision Sensor (DVS), are inspired by the computations confined to the photoreceptors and the first retinal synapse. In this work, we highlight the capability of the second generation of neuromorphic image sensors, Integrated Retinal Functionality in CMOS Image Sensors (IRIS), which aims to mimic full retinal computations from photoreceptors to output of the retina (retinal ganglion cells) for targeted feature-extraction. The feature of choice in this work is Object Motion Sensitivity (OMS) that is processed locally in the IRIS sensor. Our results show that OMS can accomplish standard computer vision tasks with similar efficiency to conventional RGB and DVS solutions but offers drastic bandwidth reduction. This cuts the wireless and computing power budgets and opens up vast opportunities in high-speed, robust, energy-efficient, and low-bandwidth real-time decision making.
翻訳日:2023-04-18 20:37:14 公開日:2023-04-14
# 化学療法に対する腫瘍反応予測における2次元および3次元特徴の有用性評価

Evaluating the Effectiveness of 2D and 3D Features for Predicting Tumor Response to Chemotherapy ( http://arxiv.org/abs/2303.16123v2 )

ライセンス: Link先を確認
Neman Abdoli, Ke Zhang, Patrik Gilley, Xuxin Chen, Youkabed Sadri, Theresa C. Thai, Lauren E. Dockery, Kathleen Moore, Robert S. Mannel, Yuchen Qiu(参考訳) 2Dおよび3D腫瘍の特徴は、様々な医療画像解析タスクで広く利用されている。 しかし, 化学療法反応予測においては, 異なる種類の2D特徴と3D特徴の相互効果は包括的に評価されない。 この調査はこのような総合的な評価を達成することを目的としている。 この目的で, 進行卵巣癌188例のCT像を回顧的に収集した。 各患者で発生した転移性腫瘍はすべて分画され、6つのフィルターで処理された。 次に, 3D および 2D の3つの特徴,すなわち幾何学的, 密度, テクスチャ的特徴を, ろ過した結果と, 元々のセグメント状腫瘍から算出し, それぞれ 1595 と 1403 の特徴を発生させた。 従来の単スライス2Dおよびフルボリューム3D腫瘍の特徴に加えて,1個のCTスライスを順次追加し,対応する特徴を算出した不完全3D腫瘍の特徴も計算した。 サポートベクトルマシン(SVM)ベースの予測モデルを開発し,各特徴セットに最適化した。 5倍のクロスバリデーションを用いて各モデルの性能評価を行った。 その結果, 2次元特徴量モデルでは, AUC(ROC曲線(受信器動作特性)の0.84+0.02が達成された。 より多くのスライスを追加すると、AUCは最初最大まで増加し、その後0.86+-0.02に徐々に低下した。 最大AUCは2つの隣接するスライスを加え、0.91+-0.01の値で得られた。 この最初の結果は、機械学習ベースの意思決定支援ツールを最適化するための意味のある情報を提供する。

2D and 3D tumor features are widely used in a variety of medical image analysis tasks. However, for chemotherapy response prediction, the effectiveness between different kinds of 2D and 3D features are not comprehensively assessed, especially in ovarian cancer-related applications. This investigation aims to accomplish such a comprehensive evaluation. For this purpose, CT images were collected retrospectively from 188 advanced-stage ovarian cancer patients. All the metastatic tumors that occurred in each patient were segmented and then processed by a set of six filters. Next, three categories of features, namely geometric, density, and texture features, were calculated from both the filtered results and the original segmented tumors, generating a total of 1595 and 1403 features for the 3D and 2D tumors, respectively. In addition to the conventional single-slice 2D and full-volume 3D tumor features, we also computed the incomplete-3D tumor features, which were achieved by sequentially adding one individual CT slice and calculating the corresponding features. Support vector machine (SVM) based prediction models were developed and optimized for each feature set. 5-fold cross-validation was used to assess the performance of each individual model. The results show that the 2D feature-based model achieved an AUC (area under the ROC curve [receiver operating characteristic]) of 0.84+-0.02. When adding more slices, the AUC first increased to reach the maximum and then gradually decreased to 0.86+-0.02. The maximum AUC was yielded when adding two adjacent slices, with a value of 0.91+-0.01. This initial result provides meaningful information for optimizing machine learning-based decision-making support tools in the future.
翻訳日:2023-04-18 20:25:08 公開日:2023-04-14
# 正確な3次元大腸表面再構築のための前処理としての深層学習に基づく画像露光強調

Deep learning-based image exposure enhancement as a pre-processing for an accurate 3D colon surface reconstruction ( http://arxiv.org/abs/2304.03171v2 )

ライセンス: Link先を確認
Ricardo Espinosa, Carlos Axel Garcia-Vega, Gilberto Ochoa-Ruiz, Dominique Lamarque, Christian Daul(参考訳) このコントリビューションは、画像前処理が深層学習に基づく大腸部分の3D再構成を改善する方法を示している。 地球規模の照明補正ではなく、局所的な被曝と過剰露光は大腸内視鏡で補正されるべきである。 まず、画像露出補正とRNN-SLAMを含むパイプラインの概要を示す。 そこで本稿では,適切な照明補正を伴わずに大腸内視鏡軌跡の再構成精度を定量化する。

This contribution shows how an appropriate image pre-processing can improve a deep-learning based 3D reconstruction of colon parts. The assumption is that, rather than global image illumination corrections, local under- and over-exposures should be corrected in colonoscopy. An overview of the pipeline including the image exposure correction and a RNN-SLAM is first given. Then, this paper quantifies the reconstruction accuracy of the endoscope trajectory in the colon with and without appropriate illumination correction
翻訳日:2023-04-18 20:18:15 公開日:2023-04-14
# 芸術的スタイル伝達のための動的カーネルの学習

Learning Dynamic Style Kernels for Artistic Style Transfer ( http://arxiv.org/abs/2304.00414v2 )

ライセンス: Link先を確認
Wenju Xu and Chengjiang Long and Yongwei Nie(参考訳) 任意のスタイル転送は、芸術的な画像生成において効率的であることが示されている。 以前の方法は、ローカルの詳細を無視してコンテンツ機能をグローバルに変調するか、あるいはスタイルリークにつながるローカル構造の詳細に過剰に焦点を合わせるかのどちらかである。 論文とは対照的に,画素ごとのスタイリングのための空間適応型カーネルを学習する新たなスキームである「textit{`style kernel"」を提案し,大域的なスタイルの整列特徴から畳み込みカーネルを動的に生成し,学習したカーネルを用いて各空間位置におけるコンテンツ特徴を変調する。 この新しいスキームにより、コンテンツとスタイルの特徴の間のグローバルおよびローカルなインタラクションの両方が柔軟になり、望んでいたスタイルをコンテンツイメージに簡単に転送できると同時に、コンテンツ構造を容易に保存できる。 本稿では,スタイル伝達方式の柔軟性をさらに高めるために,動的スタイルカーネルを集中領域で学習するコンテンツベースゲーティング変調(cgm)モジュールを補完するスタイルアライメント符号化(sae)モジュールを提案する。 広汎な実験により,提案手法は最先端の手法より優れ,視覚的品質と効率の点で優れた性能を示した。

Arbitrary style transfer has been demonstrated to be efficient in artistic image generation. Previous methods either globally modulate the content feature ignoring local details, or overly focus on the local structure details leading to style leakage. In contrast to the literature, we propose a new scheme \textit{``style kernel"} that learns {\em spatially adaptive kernels} for per-pixel stylization, where the convolutional kernels are dynamically generated from the global style-content aligned feature and then the learned kernels are applied to modulate the content feature at each spatial position. This new scheme allows flexible both global and local interactions between the content and style features such that the wanted styles can be easily transferred to the content image while at the same time the content structure can be easily preserved. To further enhance the flexibility of our style transfer method, we propose a Style Alignment Encoding (SAE) module complemented with a Content-based Gating Modulation (CGM) module for learning the dynamic style kernels in focusing regions. Extensive experiments strongly demonstrate that our proposed method outperforms state-of-the-art methods and exhibits superior performance in terms of visual quality and efficiency.
翻訳日:2023-04-18 20:15:58 公開日:2023-04-14
# 機械学習とドメイン知識を用いたデジタル健康行動変化介入のパーソナライズ

Personalizing Digital Health Behavior Change Interventions using Machine Learning and Domain Knowledge ( http://arxiv.org/abs/2304.03392v2 )

ライセンス: Link先を確認
Aneta Lisowska, Szymon Wilk, Mor Peleg(参考訳) 我々は,患者の行動変化介入(BCI)への適応を支援する仮想コーチングシステムを開発している。 提案システムは, 患者が対象行動を行うかどうかを予測し, bciのパーソナライズを導くために, 機能制御を伴う偽例を用いる。 介入に対する受容レベルが異なる患者データを用いて予測モデルを評価した。

We are developing a virtual coaching system that helps patients adhere to behavior change interventions (BCI). Our proposed system predicts whether a patient will perform the targeted behavior and uses counterfactual examples with feature control to guide personalizsation of BCI. We evaluated our prediction model using simulated patient data with varying levels of receptivity to intervention.
翻訳日:2023-04-18 20:06:08 公開日:2023-04-14
# 機械学習加速器に対するニューラルトロイの木馬攻撃のための論理ロックの爆発

Exploiting Logic Locking for a Neural Trojan Attack on Machine Learning Accelerators ( http://arxiv.org/abs/2304.06017v2 )

ライセンス: Link先を確認
Hongye Xu, Dongfang Liu, Cory Merkel, Michael Zuzak(参考訳) チップ製造中に知的財産権(IP)を保護するために論理ロックが提案されている。 論理ロック技術は、信頼できない関係者の秘密鍵に依存する設計において、組み合わせモジュールのサブセットを作成することでハードウェアIPを保護する。 不正なシークレットキーを使用する場合、ロックされたモジュールで決定論的エラーが生成され、不正な使用が制限される。 論理ロックの一般的なターゲットは、特にマシンラーニング・アズ・ア・サービスの普及に伴って、ニューラルアクセラレータである。 そこで本研究では,神経アクセラレーションのセキュリティを損なうために,論理ロックを利用する方法について検討する。 具体的には,不正鍵による決定論的誤りをニューラルトロイの木馬型のバックドアに活用する方法を示す。 そこで,我々はまず,ロックされたアクセラレーションにおいて,攻撃者が特定した入力クラスに対して,慎重に選択した不正なキーが誤分類されるような動機付け攻撃シナリオを概説する。 次に,トロイの木馬鍵を自動的に識別する理論的ロバスト攻撃手法を開発した。 この攻撃を評価するために、いくつかのロックされたアクセラレーターで起動する。 我々の最大のベンチマークアクセラレーターでは、攻撃者が特定したトリガー入力の分類精度が74倍に低下するトロイの木鍵を特定し、他の入力では平均1.7倍に低下した。

Logic locking has been proposed to safeguard intellectual property (IP) during chip fabrication. Logic locking techniques protect hardware IP by making a subset of combinational modules in a design dependent on a secret key that is withheld from untrusted parties. If an incorrect secret key is used, a set of deterministic errors is produced in locked modules, restricting unauthorized use. A common target for logic locking is neural accelerators, especially as machine-learning-as-a-service becomes more prevalent. In this work, we explore how logic locking can be used to compromise the security of a neural accelerator it protects. Specifically, we show how the deterministic errors caused by incorrect keys can be harnessed to produce neural-trojan-style backdoors. To do so, we first outline a motivational attack scenario where a carefully chosen incorrect key, which we call a trojan key, produces misclassifications for an attacker-specified input class in a locked accelerator. We then develop a theoretically-robust attack methodology to automatically identify trojan keys. To evaluate this attack, we launch it on several locked accelerators. In our largest benchmark accelerator, our attack identified a trojan key that caused a 74\% decrease in classification accuracy for attacker-specified trigger inputs, while degrading accuracy by only 1.7\% for other inputs on average.
翻訳日:2023-04-18 19:59:48 公開日:2023-04-14
# Smart Metro: MRT Line 3 Ridership予測のためのディープラーニングアプローチ

Smart Metro: Deep Learning Approaches to Forecasting the MRT Line 3 Ridership ( http://arxiv.org/abs/2304.07303v1 )

ライセンス: Link先を確認
Jayrald Empino, Jean Allyson Junsay, Mary Grace Verzon, Mideth Abisado, Shekinah Lor Huyo-a, Gabriel Avelino Sampedro(参考訳) 1999年に開業して以来、メトロ・レール・トランジット・ライン3 (MRT3) はフィリピンのメトロマニラで多くの乗客の交通手段となっている。 フィリピン政府の交通部門は、毎日MRT3を使用している1000人以上を記録し、毎日の乗客数を予測することはかなり難しいかもしれない。 MRT3の日々の乗客数は、休日、勤務日、その他の予期せぬ問題によって変動している。 通勤者は、その日に他の通勤者が何人いるかを知らないため、効率的な旅程を計画できない可能性がある。 現在、DOTrは過去のデータを含むスプレッドシートに依存しており、調査は困難かもしれない。 本研究では,日々の交通量の時系列予測を行い,特定駅への将来来場を予測した。

Since its establishment in 1999, the Metro Rail Transit Line 3 (MRT3) has served as a transportation option for numerous passengers in Metro Manila, Philippines. The Philippine government's transportation department records more than a thousand people using the MRT3 daily and forecasting the daily passenger count may be rather challenging. The MRT3's daily ridership fluctuates owing to variables such as holidays, working days, and other unexpected issues. Commuters do not know how many other commuters are on their route on a given day, which may hinder their ability to plan an efficient itinerary. Currently, the DOTr depends on spreadsheets containing historical data, which might be challenging to examine. This study presents a time series prediction of daily traffic to anticipate future attendance at a particular station on specific days.
翻訳日:2023-04-18 19:50:28 公開日:2023-04-14
# hgwavenet:時間的リンク予測のための双曲グラフニューラルネットワーク

HGWaveNet: A Hyperbolic Graph Neural Network for Temporal Link Prediction ( http://arxiv.org/abs/2304.07302v1 )

ライセンス: Link先を確認
Qijie Bai, Changli Nie, Haiwei Zhang, Dongming Zhao, Xiaojie Yuan(参考訳) 動的グラフにおけるペアノード間の将来のエッジ予測を目的とした時間的リンク予測は、多様なアプリケーションにおいて不可欠である。 しかし、既存の手法は主にユークリッド空間上に構築されており、これは実世界のグラフの正則分布と矛盾し、ノード間の階層的接続を効果的に表現できない。 特別なデータ特性に関して、双曲幾何学はその指数展開性のために理想的な代替となる。 本稿では,双曲空間と時間的リンク予測のためのデータ分布間の適合性を完全に活用する,新しい双曲グラフニューラルネットワークHGWaveNetを提案する。 具体的には,空間的トポロジー構造と時間的進化情報を別々に学習するための2つのキーモジュールを設計する。 一方、双曲拡散グラフ畳み込み(hdgc)モジュールは、より広い範囲の近傍から情報を効果的に集約する。 一方、歴史的状態間の因果相関の内部順序は双曲型拡張因果畳み込み(hdcc)モジュールによって捉えられる。 モデル全体が双曲空間の上に構築され、データフロー全体の階層構造情報を保存します。 HGWaveNetの優位性を証明するため、6つの実世界のグラフデータセットに対して広範な実験を行い、SOTA法よりも時間的リンク予測のためにAUCに対して6.67%の相対的な改善を示した。

Temporal link prediction, aiming to predict future edges between paired nodes in a dynamic graph, is of vital importance in diverse applications. However, existing methods are mainly built upon uniform Euclidean space, which has been found to be conflict with the power-law distributions of real-world graphs and unable to represent the hierarchical connections between nodes effectively. With respect to the special data characteristic, hyperbolic geometry offers an ideal alternative due to its exponential expansion property. In this paper, we propose HGWaveNet, a novel hyperbolic graph neural network that fully exploits the fitness between hyperbolic spaces and data distributions for temporal link prediction. Specifically, we design two key modules to learn the spatial topological structures and temporal evolutionary information separately. On the one hand, a hyperbolic diffusion graph convolution (HDGC) module effectively aggregates information from a wider range of neighbors. On the other hand, the internal order of causal correlation between historical states is captured by hyperbolic dilated causal convolution (HDCC) modules. The whole model is built upon the hyperbolic spaces to preserve the hierarchical structural information in the entire data flow. To prove the superiority of HGWaveNet, extensive experiments are conducted on six real-world graph datasets and the results show a relative improvement by up to 6.67% on AUC for temporal link prediction over SOTA methods.
翻訳日:2023-04-18 19:50:17 公開日:2023-04-14
# 編集フレンドリーなddpmノイズ空間:インバージョンと操作

An Edit Friendly DDPM Noise Space: Inversion and Manipulations ( http://arxiv.org/abs/2304.06140v2 )

ライセンス: Link先を確認
Inbar Huberman-Spiegelglas, Vladimir Kulikov and Tomer Michaeli(参考訳) denoising diffusion probabilistic models (ddpms) は一連の白色ガウスノイズサンプルを用いて画像を生成する。 ganと類似して、これらのノイズマップは生成された画像に関連する潜在コードと見なすことができる。 しかし、このネイティブノイズ空間は便利な構造を持たず、編集作業で作業することが困難である。 本稿では,簡易な手法で幅広い編集操作が可能なddpmの代替潜在ノイズ空間を提案し,任意の画像(実または合成生成)に対して,これらの編集フレンドリなノイズマップを抽出するインバージョン手法を提案する。 ネイティブDDPMノイズ空間とは対照的に、編集しやすいノイズマップは標準正規分布を持たず、タイムステップ間で統計的に独立ではない。 しかし、任意の所望の画像の完全な再構成を可能にし、単純な変換は出力画像の有意義な操作(例えば、シフト、色編集)に変換される。 さらに、テキスト条件モデルでは、テキストプロンプトを変更しながらノイズマップを修正することで、構造を維持しながらセマンティクスを修正できる。 本稿では,この特性により,多種多様なddpmサンプリング方式を用いて,実画像のテキストベースの編集が可能となることを示す。 また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。

Denoising diffusion probabilistic models (DDPMs) employ a sequence of white Gaussian noise samples to generate an image. In analogy with GANs, those noise maps could be considered as the latent code associated with the generated image. However, this native noise space does not possess a convenient structure, and is thus challenging to work with in editing tasks. Here, we propose an alternative latent noise space for DDPM that enables a wide range of editing operations via simple means, and present an inversion method for extracting these edit-friendly noise maps for any given image (real or synthetically generated). As opposed to the native DDPM noise space, the edit-friendly noise maps do not have a standard normal distribution and are not statistically independent across timesteps. However, they allow perfect reconstruction of any desired image, and simple transformations on them translate into meaningful manipulations of the output image (e.g., shifting, color edits). Moreover, in text-conditional models, fixing those noise maps while changing the text prompt, modifies semantics while retaining structure. We illustrate how this property enables text-based editing of real images via the diverse DDPM sampling scheme (in contrast to the popular non-diverse DDIM inversion). We also show how it can be used within existing diffusion-based editing methods to improve their quality and diversity.
翻訳日:2023-04-18 19:47:28 公開日:2023-04-14
# ChatGPTの自己認識と政治バイアス

The Self-Perception and Political Biases of ChatGPT ( http://arxiv.org/abs/2304.07333v1 )

ライセンス: Link先を確認
J\'er\^ome Rutinowski, Sven Franke, Jan Endendyk, Ina Dormuth, Markus Pauly(参考訳) この貢献はOpenAIのLarge Language Model ChatGPTの自己認識と政治的偏見を分析する。 chatgptが進歩的かつリバタリアン的な視点に政治的に偏っていると主張する、最初の小規模の報告と研究を考慮に入れると、この貢献は、このテーマをより明確にすることを目的としている。 この目的のために、chatgptは、g7加盟国のそれぞれの政治に特有の同様のアンケートと同様に、政治コンパステストによって提起された質問に答えるよう求められた。 これらの8つのテストはそれぞれ10回繰り返し、ChatGPTが進歩的視点に偏っていることが判明した。 政治コンパステストでは、進歩的およびリバタリアン的な見解に対するバイアスが明らかにされ、政治コンパスの平均座標は (-6.48, -5.99) (0, 0) であり、コンパスの中心、すなわち、センタリズムと軸は -10 から 10 まで) 、先行研究の主張を支持している。 G7加盟国の政治調査では、進歩的見解に対する偏見を示したが、権威主義とリバタリアンの見解の間に有意な偏見は見られず、前報の調査結果とは矛盾し、平均座標は-3.27, 0.58である。 さらに,chatgptの大きな5つのパーソナリティ特性をオーシャンテストを用いてテストし,そのパーソナリティタイプをmyers-briggs型インジケータ(mbti)テストで検索した。 最後に、ダークファクターテストを用いてChatGPTの悪意を評価した。 これら3つのテストは、それぞれ10回繰り返しられ、chatgptが自身を非常にオープンで同意できるものと認識し、myers-briggsの性格タイプenfjを持ち、最小の暗黒特性を持つテストテイカーの15%であることを明らかにした。

This contribution analyzes the self-perception and political biases of OpenAI's Large Language Model ChatGPT. Taking into account the first small-scale reports and studies that have emerged, claiming that ChatGPT is politically biased towards progressive and libertarian points of view, this contribution aims to provide further clarity on this subject. For this purpose, ChatGPT was asked to answer the questions posed by the political compass test as well as similar questionnaires that are specific to the respective politics of the G7 member states. These eight tests were repeated ten times each and revealed that ChatGPT seems to hold a bias towards progressive views. The political compass test revealed a bias towards progressive and libertarian views, with the average coordinates on the political compass being (-6.48, -5.99) (with (0, 0) the center of the compass, i.e., centrism and the axes ranging from -10 to 10), supporting the claims of prior research. The political questionnaires for the G7 member states indicated a bias towards progressive views but no significant bias between authoritarian and libertarian views, contradicting the findings of prior reports, with the average coordinates being (-3.27, 0.58). In addition, ChatGPT's Big Five personality traits were tested using the OCEAN test and its personality type was queried using the Myers-Briggs Type Indicator (MBTI) test. Finally, the maliciousness of ChatGPT was evaluated using the Dark Factor test. These three tests were also repeated ten times each, revealing that ChatGPT perceives itself as highly open and agreeable, has the Myers-Briggs personality type ENFJ, and is among the 15% of test-takers with the least pronounced dark traits.
翻訳日:2023-04-18 19:41:52 公開日:2023-04-14
# open assistant conversations -- 大きな言語モデルアライメントの民主化

OpenAssistant Conversations -- Democratizing Large Language Model Alignment ( http://arxiv.org/abs/2304.07327v1 )

ライセンス: Link先を確認
Andreas K\"opf, Yannic Kilcher, Dimitri von R\"utte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Rich\'ard Nagyfi, Shahul ES, Sameer Suri, David Glushkov, Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, Alexander Mattick(参考訳) 大きな言語モデル(LLM)を人間の好みに合わせることで、ユーザビリティが大幅に向上することが証明され、ChatGPTで実証されたように、急速に採用されている。 教師付き微調整(SFT)や人間フィードバックからの強化学習(RLHF)といったアライメント技術は、LLMの能力を効果的に活用するために必要なスキルとドメイン知識を大幅に削減し、様々な領域におけるアクセシビリティと有用性を向上する。 しかし、RLHFのような最先端のアライメント技術は、高品質な人間のフィードバックデータに依存している。 大規模アライメントの研究を民主化するために,66,497の会話ツリーに散在する161,443のメッセージからなる人為的な対話型コーパスであるOpenAssistant Conversationsを,461,292の品質評価で注釈付けした35の言語でリリースした。 このコーパスは、全世界で13500人以上のボランティアが参加するクラウドソーシングの製品だ。 OpenAssistant Conversationsデータセットの有効性を示すために、人間のデータに基づいてトレーニングされる最初の完全にオープンソースな大規模命令チューニングモデルOpenAssistantを提案する。 選好調査の結果、OpenAssistant反応はGPT-3.5-turbo (ChatGPT) よりもそれぞれ48.3%、51.7%の相対利得が好まれていた。 私たちは完全な許容ライセンスの下でコードとデータをリリースします。

Aligning large language models (LLMs) with human preferences has proven to drastically improve usability and has driven rapid adoption as demonstrated by ChatGPT. Alignment techniques such as supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) greatly reduce the required skill and domain knowledge to effectively harness the capabilities of LLMs, increasing their accessibility and utility across various domains. However, state-of-the-art alignment techniques like RLHF rely on high-quality human feedback data, which is expensive to create and often remains proprietary. In an effort to democratize research on large-scale alignment, we release OpenAssistant Conversations, a human-generated, human-annotated assistant-style conversation corpus consisting of 161,443 messages distributed across 66,497 conversation trees, in 35 different languages, annotated with 461,292 quality ratings. The corpus is a product of a worldwide crowd-sourcing effort involving over 13,500 volunteers. To demonstrate the OpenAssistant Conversations dataset's effectiveness, we present OpenAssistant, the first fully open-source large-scale instruction-tuned model to be trained on human data. A preference study revealed that OpenAssistant replies are comparably preferred to GPT-3.5-turbo (ChatGPT) with a relative winrate of 48.3% vs. 51.7% respectively. We release our code and data under fully permissive licenses.
翻訳日:2023-04-18 19:41:15 公開日:2023-04-14
# スクランブルは必要ですが カオスには不十分です

Scrambling is Necessary but Not Sufficient for Chaos ( http://arxiv.org/abs/2304.07319v1 )

ライセンス: Link先を確認
Neil Dowling and Pavel Kos and Kavan Modi(参考訳) 時間外相関器(OTOC)がLocal-Operator Entanglement(LOE)のプローブとなることを示す。 LOEの体積成長が量子カオスの忠実な動的シグネチャであることを示す強い証拠がある一方、OTOC崩壊は演算子スクランブルに対応し、しばしばカオスと混同される。 我々は,loeエントロピーの線形(カオス)成長には,高速オトック崩壊は必要だが十分条件ではないことを示す。 我々は、積分可能回路と非積分可能回路の両方を含む多体力学の局所回路モデルの幅広いクラスを通して、解析的に結果を支持する。 局所力学がスクランブルとカオスの同値性をもたらす十分な条件を示す。

We show that out-of-time-order correlators (OTOCs) constitute a probe for Local-Operator Entanglement (LOE). There is strong evidence that a volumetric growth of LOE is a faithful dynamical signature of quantum chaos, while OTOC decay corresponds to operator scrambling, often conflated with chaos. We show that rapid OTOC decay is a necessary but not sufficient condition for linear (chaotic) growth of the LOE entropy. We analytically support our results through wide classes of local-circuit models of many-body dynamics, including both integrable and non-integrable dual-unitary circuits. We show sufficient conditions under which local dynamics leads to an equivalence of scrambling and chaos.
翻訳日:2023-04-18 19:40:46 公開日:2023-04-14
# 安全無監督セマンティックセグメンテーションのためのSTEGOの内部動作の解明

Uncovering the Inner Workings of STEGO for Safe Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2304.07314v1 )

ライセンス: Link先を確認
Alexander Koenig, Maximilian Schambach, Johannes Otterbach(参考訳) 近年,コンピュータビジョンにおける汎用的特徴抽出バックボーンのトレーニングにおいて,自己指導型事前学習戦略が顕著な成果を上げている。 Vision Transformerアーキテクチャと組み合わせて、DINO自己蒸留技術は、暗黙のラベルを使わずに、潜在空間における教師なしクラスタリングや生成した特徴のセマンティック対応など、興味深い特徴を持つ。 教師なしセマンティックセグメンテーションのためのSTEGO法は、DINO-pre-trained Vision Transformerの特徴対応を対照的に蒸留し、最近その新しい状態を設定した。 しかし、STEGOの詳細な作業はいまだに中断されておらず、安全クリティカルなアプリケーションでの使用を妨げている。 本稿では,STEGOの動作メカニズムを解明し,その実験検証を再現・拡張する研究を行い,STEGOの異なるデータセットへの転送能力を検討することによって,STEGOのアーキテクチャとトレーニング戦略についてより深く理解する。 その結果,STEGOアーキテクチャはセマンティックス保存次元削減技術として解釈できることがわかった。

Self-supervised pre-training strategies have recently shown impressive results for training general-purpose feature extraction backbones in computer vision. In combination with the Vision Transformer architecture, the DINO self-distillation technique has interesting emerging properties, such as unsupervised clustering in the latent space and semantic correspondences of the produced features without using explicit human-annotated labels. The STEGO method for unsupervised semantic segmentation contrastively distills feature correspondences of a DINO-pre-trained Vision Transformer and recently set a new state of the art. However, the detailed workings of STEGO have yet to be disentangled, preventing its usage in safety-critical applications. This paper provides a deeper understanding of the STEGO architecture and training strategy by conducting studies that uncover the working mechanisms behind STEGO, reproduce and extend its experimental validation, and investigate the ability of STEGO to transfer to different datasets. Results demonstrate that the STEGO architecture can be interpreted as a semantics-preserving dimensionality reduction technique.
翻訳日:2023-04-18 19:40:34 公開日:2023-04-14
# m2t: 高速デコードのために2回マスクトランスフォーマー

M2T: Masking Transformers Twice for Faster Decoding ( http://arxiv.org/abs/2304.07313v1 )

ライセンス: Link先を確認
Fabian Mentzer, Eirikur Agustsson, Michael Tschannen(参考訳) マスキングトークン予測のための双方向トランスフォーマーをニューラルネットワークの圧縮に適用し,最新の結果を得る方法を示す。 このようなモデルは以前、不確実性適応スケジュールに従ってマスク付きトークンのグループを段階的にサンプリングすることで画像生成に利用されていた。 これらの作業と異なり、事前に定義された決定論的スケジュールは、画像圧縮においても同等以上のパフォーマンスを示す。 この洞察により、トレーニング中にマスクされた注意と、マスクされた入力、推論中のアクティベーションキャッシングを使用でき、ビットレートのわずかな増加でモデル(約4倍の推論速度)を大幅に高速化できる。

We show how bidirectional transformers trained for masked token prediction can be applied to neural image compression to achieve state-of-the-art results. Such models were previously used for image generation by progressivly sampling groups of masked tokens according to uncertainty-adaptive schedules. Unlike these works, we demonstrate that predefined, deterministic schedules perform as well or better for image compression. This insight allows us to use masked attention during training in addition to masked inputs, and activation caching during inference, to significantly speed up our models (~4 higher inference speed) at a small increase in bitrate.
翻訳日:2023-04-18 19:40:15 公開日:2023-04-14
# 電子健康記録と構造化医療データのためのフェデレーションおよび分散学習応用:スコーピング・レビュー

Federated and distributed learning applications for electronic health records and structured medical data: A scoping review ( http://arxiv.org/abs/2304.07310v1 )

ライセンス: Link先を確認
Siqi Li, Pinyan Liu, Gustavo G. Nascimento, Xinru Wang, Fabio Renato Manzolli Leite, Bibhas Chakraborty, Chuan Hong, Yilin Ning, Feng Xie, Zhen Ling Teo, Daniel Shu Wei Ting, Hamed Haddadi, Marcus Eng Hock Ong, Marco Aur\'elio Peres, Nan Liu(参考訳) フェデレートラーニング(FL)は近年,プライバシ保護コラボレーションを促進するために臨床研究で人気を集めている。 最も一般的な臨床データの1つである構造化データは、特に臨床における電子健康記録の普及により、ボリュームの増大を同時に経験している。 本稿では,構造化医療データへのFL適用について検討し,現代的限界を特定し,イノベーションの可能性について考察する。 SCOPUS, MEDLINE, Web of Science, Embase, CINAHLの5つのデータベースを検索し, FLを構造化された医療データに適用した記事を特定し, PRISMAガイドラインに従って結果を報告する。 各出版物は、データ品質、モデリング戦略、FLフレームワークを含む3つの主要な視点から評価された。 1160論文のうち34論文は包括的基準を満たし、各論文はFLを用いて構造化された臨床・医療データを扱う1つ以上の研究からなる。 そのうち24は電子カルテから取得したデータを利用しており、FLが適用された最も一般的な臨床研究課題は臨床予測と関連研究であった。 唯一の記事は垂直fl設定のみを、残りの33記事は水平fl設定を、14記事だけがシングルサイト(ローカル)とfl(グローバル)分析の比較を議論した。 既存の構造化医療データに対するflの応用は、臨床上有意義な利益、特に単サイト分析と比較して十分な評価を欠いている。 したがって、将来のfl応用は、臨床モチベーションを優先し、臨床実践や研究を効果的に支援し支援できる設計や方法論を開発することが重要である。

Federated learning (FL) has gained popularity in clinical research in recent years to facilitate privacy-preserving collaboration. Structured data, one of the most prevalent forms of clinical data, has experienced significant growth in volume concurrently, notably with the widespread adoption of electronic health records in clinical practice. This review examines FL applications on structured medical data, identifies contemporary limitations and discusses potential innovations. We searched five databases, SCOPUS, MEDLINE, Web of Science, Embase, and CINAHL, to identify articles that applied FL to structured medical data and reported results following the PRISMA guidelines. Each selected publication was evaluated from three primary perspectives, including data quality, modeling strategies, and FL frameworks. Out of the 1160 papers screened, 34 met the inclusion criteria, with each article consisting of one or more studies that used FL to handle structured clinical/medical data. Of these, 24 utilized data acquired from electronic health records, with clinical predictions and association studies being the most common clinical research tasks that FL was applied to. Only one article exclusively explored the vertical FL setting, while the remaining 33 explored the horizontal FL setting, with only 14 discussing comparisons between single-site (local) and FL (global) analysis. The existing FL applications on structured medical data lack sufficient evaluations of clinically meaningful benefits, particularly when compared to single-site analyses. Therefore, it is crucial for future FL applications to prioritize clinical motivations and develop designs and methodologies that can effectively support and aid clinical practice and research.
翻訳日:2023-04-18 19:40:02 公開日:2023-04-14
# 実世界データを用いた鉄道車両の軸受故障検出のための空中音響解析

Airborne-Sound Analysis for the Detection of Bearing Faults in Railway Vehicles with Real-World Data ( http://arxiv.org/abs/2304.07307v1 )

ライセンス: Link先を確認
Matthias Kreuzer, David Schmidt, Simon Wokusch, Walter Kellermann(参考訳) 本稿では,定期運転中に記録された音響信号を解析し,鉄道車両の軸受障害の検出に関する課題を解決する。 本研究では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfccs) を特徴として紹介する。 提案手法は,現在最先端の通勤鉄道車両を対象とした実測データを用いて評価を行った。 実験の結果,MFCCが選択した断層を有する特徴は,トレーニングに含まれていない損傷に対しても確実に検出できることがわかった。

In this paper, we address the challenging problem of detecting bearing faults in railway vehicles by analyzing acoustic signals recorded during regular operation. For this, we introduce Mel Frequency Cepstral Coefficients (MFCCs) as features, which form the input to a simple Multi-Layer Perceptron classifier. The proposed method is evaluated with real-world data that was obtained for state-of-the-art commuter railway vehicles in a measurement campaign. The experiments show that with the chosen MFCC features bearing faults can be reliably detected even for bearing damages that were not included in training.
翻訳日:2023-04-18 19:39:32 公開日:2023-04-14
# 限られた専門家予測でディフェンダーを学ぶ

Learning to Defer with Limited Expert Predictions ( http://arxiv.org/abs/2304.07306v1 )

ライセンス: Link先を確認
Patrick Hemmer, Lukas Thede, Michael V\"ossing, Johannes Jakubik, Niklas K\"uhl(参考訳) 最近の研究は、AIモデルと人間の専門家を組み合わせることは、どちらか一方のパフォーマンスを上回る可能性があることを示唆している。 それらの能力の組み合わせは、aiが特定のインスタンスの予測を行うか、あるいはそれを人間の専門家に推論するかを判断できるアルゴリズムを推論する学習によってしばしば実現される。 しかし、人間のエキスパートがどのインスタンスを推論すべきかを正確に知るには、専門家の能力を正確に反映する多くの専門家の予測が必要である。 アルゴリズムを推論するために多くの学習によって共有されるこの要件は、責任ある専門家が定期的に変化するシナリオや、十分な数の専門家の予測を得るのにコストがかかるシナリオで採用を妨げる。 本稿では,アルゴリズムを推論するために学習を訓練するために必要な専門家の予測数を減らすための3段階アプローチを提案する。 1) 専門知識予測モデルの訓練の基礎となる特徴表現を生成するため,(1) 基底真理ラベル付き埋め込みモデルの訓練,(2) 専門家の能力を近似する専門知識予測モデルの訓練。 3) 専門的予測器は,まだ専門家がラベル付けしていないインスタンスに対して,アルゴリズムを遅延させる学習に必要な,人工的な専門家予測を生成する。 2つの公開データセットに対するアプローチを評価する。 一つは「合成」の専門家で、もう一つは実世界の放射線学者の予測を含む医療分野の専門家である。 実験の結果,この手法は,人間の専門家による予測を最小限に抑えることで,アルゴリズムを推論できることがわかった。 さらに、クラス毎の少数の専門家予測でさえ、これらのアルゴリズムがAIと人間の専門家が個別に達成できる性能を超えるのに十分であることを示す。

Recent research suggests that combining AI models with a human expert can exceed the performance of either alone. The combination of their capabilities is often realized by learning to defer algorithms that enable the AI to learn to decide whether to make a prediction for a particular instance or defer it to the human expert. However, to accurately learn which instances should be deferred to the human expert, a large number of expert predictions that accurately reflect the expert's capabilities are required -- in addition to the ground truth labels needed to train the AI. This requirement shared by many learning to defer algorithms hinders their adoption in scenarios where the responsible expert regularly changes or where acquiring a sufficient number of expert predictions is costly. In this paper, we propose a three-step approach to reduce the number of expert predictions required to train learning to defer algorithms. It encompasses (1) the training of an embedding model with ground truth labels to generate feature representations that serve as a basis for (2) the training of an expertise predictor model to approximate the expert's capabilities. (3) The expertise predictor generates artificial expert predictions for instances not yet labeled by the expert, which are required by the learning to defer algorithms. We evaluate our approach on two public datasets. One with "synthetically" generated human experts and another from the medical domain containing real-world radiologists' predictions. Our experiments show that the approach allows the training of various learning to defer algorithms with a minimal number of human expert predictions. Furthermore, we demonstrate that even a small number of expert predictions per class is sufficient for these algorithms to exceed the performance the AI and the human expert can achieve individually.
翻訳日:2023-04-18 19:39:22 公開日:2023-04-14
# ICPHM 2023データチャレンジのための1次元残差畳み込みニューラルネットワークとデータ拡張と正規化技術

1-D Residual Convolutional Neural Network coupled with Data Augmentation and Regularization Techniques for the ICPHM 2023 Data Challenge ( http://arxiv.org/abs/2304.07305v1 )

ライセンス: Link先を確認
Matthias Kreuzer, Walter Kellermann(参考訳) 本稿では,振動解析を用いた産業システムの健康モニタリングにおけるICPHM 2023データチャレンジへの貢献について述べる。 ギアボックス内の太陽ギア故障の分類を行うために, 生の3チャンネル時間領域振動信号を用いた残差畳み込みニューラルネットワークを提案する。 データ拡張と正規化の手法と合わせて,3万以上のトレーニング可能なパラメータが比較的小さい実世界のデータを用いたマルチクラス分類シナリオにおいて,提案モデルは非常に良好な結果が得られる。 複数の動作条件から得られたデータを提示しても、ネットワークは検査中のギアボックスの状態を正確に予測することができる。

In this article, we present our contribution to the ICPHM 2023 Data Challenge on Industrial Systems' Health Monitoring using Vibration Analysis. For the task of classifying sun gear faults in a gearbox, we propose a residual Convolutional Neural Network that operates on raw three-channel time-domain vibration signals. In conjunction with data augmentation and regularization techniques, the proposed model yields very good results in a multi-class classification scenario with real-world data despite its relatively small size, i.e., with less than 30,000 trainable parameters. Even when presented with data obtained from multiple operating conditions, the network is still capable to accurately predict the condition of the gearbox under inspection.
翻訳日:2023-04-18 19:38:54 公開日:2023-04-14
# センサに基づく人間行動認識のための自己教師あり学習モデルの説明、分析、および探索

Explaining, Analyzing, and Probing Representations of Self-Supervised Learning Models for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2304.07304v1 )

ライセンス: Link先を確認
Bulat Khaertdinov and Stylianos Asteriadis(参考訳) 近年,データアノテーションを使わずに深い表現を学習するために,センサベースのヒューマンアクティビティ認識(HAR)にSSLフレームワークが広く適用されている。 SSLフレームワークは、ほとんど教師付きモデルに匹敵するパフォーマンスに達するが、SSLモデルによって学習された表現の解釈に関する研究は限られている。 それでも、現代的な説明可能性メソッドは、SSLと教師付き表現の違いを明らかにするのに役立つ。 本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。 特に強調されるのは (i)監督型及びsslモデルのロバスト性と入力データの腐敗の比較 (ii)サリエンシーマップを用いた深層学習モデルの予測を説明し、様々な活動の予測に主にどの入力チャネルが使われているかを強調する。 (iii)SSLでエンコードされたプロパティを探索し、プローブを用いて教師付き表現を行う。 2つの単一デバイスデータセット(MobiAct と UCI-HAR)の大規模な実験により、自己教師付き学習表現は教師なしモデルと比較して、目に見えないデータのノイズに対して著しく堅牢であることが示された。 対照的に、教師付きアプローチによって学習された特徴は、被験者間でより均質であり、活動の性質をよりよくエンコードする。

In recent years, self-supervised learning (SSL) frameworks have been extensively applied to sensor-based Human Activity Recognition (HAR) in order to learn deep representations without data annotations. While SSL frameworks reach performance almost comparable to supervised models, studies on interpreting representations learnt by SSL models are limited. Nevertheless, modern explainability methods could help to unravel the differences between SSL and supervised representations: how they are being learnt, what properties of input data they preserve, and when SSL can be chosen over supervised training. In this paper, we aim to analyze deep representations of two recent SSL frameworks, namely SimCLR and VICReg. Specifically, the emphasis is made on (i) comparing the robustness of supervised and SSL models to corruptions in input data; (ii) explaining predictions of deep learning models using saliency maps and highlighting what input channels are mostly used for predicting various activities; (iii) exploring properties encoded in SSL and supervised representations using probing. Extensive experiments on two single-device datasets (MobiAct and UCI-HAR) have shown that self-supervised learning representations are significantly more robust to noise in unseen data compared to supervised models. In contrast, features learnt by the supervised approaches are more homogeneous across subjects and better encode the nature of activities.
翻訳日:2023-04-18 19:38:42 公開日:2023-04-14
# CoMaL:Long-tail Semantic Segmentationにおける自己教師付きドメイン適応のための条件付き最大近似アプローチ

CoMaL: Conditional Maximum Likelihood Approach to Self-supervised Domain Adaptation in Long-tail Semantic Segmentation ( http://arxiv.org/abs/2304.07372v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, Pierce Helton, Ashley Dowling, Xin Li, Khoa Luu(参考訳) 近年,セマンティックセグメンテーションにおける自己教師付きドメイン適応の研究が注目されている。 GANベースの手法は、ドメイン適応の最も一般的なアプローチの1つとなっているが、いくつかの制限に悩まされている。 与えられた画像のグローバルな構造と局所的な構造の両方をモデル化するには不十分である。 さらに、限られたピクセル数以下のトレーニングサンプルを含むテールクラスでは、パフォーマンスが悪くなる。 本稿では,これらの問題に対処するために,ロングテールセマンティクスセグメンテーションに取り組むための新しい自己教師付きドメイン適応手法を提案する。 まず、セグメント化問題における長テール領域適応を定式化するために新しい計量を導入する。 第二に, 自己回帰フレームワークにおける条件付き最大等化(CoMaL)アプローチが提案され, 長期領域適応の課題が解決された。 他のセグメンテーション手法はピクセル独立の仮定の下で機能するが、comalにおける長テールの画素分布は、より現実的な構造依存性の文脈で一般に解決される。 最後に,提案手法を大規模セマンティックセグメンテーションのベンチマーク,すなわち「都市景観へのSYNTHIA」と「都市景観へのGTA」で評価し,従来の手法を標準と評価プロトコルの双方において大きなマージンで上回っている。

The research in self-supervised domain adaptation in semantic segmentation has recently received considerable attention. Although GAN-based methods have become one of the most popular approaches to domain adaptation, they have suffered from some limitations. They are insufficient to model both global and local structures of a given image, especially in small regions of tail classes. Moreover, they perform bad on the tail classes containing limited number of pixels or less training samples. In order to address these issues, we present a new self-supervised domain adaptation approach to tackle long-tail semantic segmentation in this paper. Firstly, a new metric is introduced to formulate long-tail domain adaptation in the segmentation problem. Secondly, a new Conditional Maximum Likelihood (CoMaL) approach in an autoregressive framework is presented to solve the problem of long-tail domain adaptation. Although other segmentation methods work under the pixel independence assumption, the long-tailed pixel distributions in CoMaL are generally solved in the context of structural dependency, as that is more realistic. Finally, the proposed method is evaluated on popular large-scale semantic segmentation benchmarks, i.e., "SYNTHIA to Cityscapes" and "GTA to Cityscapes", and outperforms the prior methods by a large margin in both the standard and the proposed evaluation protocols.
翻訳日:2023-04-18 19:31:55 公開日:2023-04-14
# 終点: 量子誤差補正のための同変ニューラルネットワークデコーダ

The END: An Equivariant Neural Decoder for Quantum Error Correction ( http://arxiv.org/abs/2304.07362v1 )

ライセンス: Link先を確認
Evgenii Egorov, Roberto Bondesan, Max Welling(参考訳) 量子エラー補正は、量子コンピューティングをスケールアップするための重要なコンポーネントである。 量子符号が与えられたとき、最適なデコーダは測定されたコード違反を最も起こりそうなエラーにマッピングするが、そのコストはシステムサイズとともに指数関数的にスケールする。 ニューラルネットワークデコーダは、そのようなマッピングに対する効率的な近似をデータから学び、自動的にノイズ分布に適応できるので、魅力的なソリューションである。 本研究では,問題の対称性を利用したデータ効率の良いニューラルデコーダを提案する。 本稿では, toric符号に対する最適デコーダの対称性を特徴付け, 従来のニューラルデコーダと比較して精度が向上する新しい等価構造を提案する。

Quantum error correction is a critical component for scaling up quantum computing. Given a quantum code, an optimal decoder maps the measured code violations to the most likely error that occurred, but its cost scales exponentially with the system size. Neural network decoders are an appealing solution since they can learn from data an efficient approximation to such a mapping and can automatically adapt to the noise distribution. In this work, we introduce a data efficient neural decoder that exploits the symmetries of the problem. We characterize the symmetries of the optimal decoder for the toric code and propose a novel equivariant architecture that achieves state of the art accuracy compared to previous neural decoders.
翻訳日:2023-04-18 19:31:32 公開日:2023-04-14
# PTW:Pivotal Tuning Watermarking for Pre-Trained Image Generators

PTW: Pivotal Tuning Watermarking for Pre-Trained Image Generators ( http://arxiv.org/abs/2304.07361v1 )

ライセンス: Link先を確認
Nils Lukas, Florian Kerschbaum(参考訳) ディープフェイク(Deepfakes)とは、ディープジェネレータを用いて合成されたコンテンツを指す用語で、emph{misused} がデジタルメディアにおける信頼を損なう可能性がある。 高品質なディープフェイクを合成するには、大規模で複雑なジェネレータにアクセスする必要がある。 この脅威は、提供されたモデルへのアクセスを利用して、検出を危険にさらすことなく有害なディープフェイクを生成する悪意のあるユーザーである。 ウォーターマーキングは、識別可能なコードをジェネレータに埋め込むことでディープフェイクの検出を可能にし、後に生成された画像から抽出する。 我々は,事前学習済み発電機の透かし法であるptw(pivotal tuning watermarking)を提案する。 (一)スクラッチやスクラッチの透かしより三桁速いこと (ii) トレーニングデータを必要としない。 我々は既存の透かし法を改良し、関連する作業よりも4 \times$大きいジェネレータにスケールする。 PTWは、ジェネレータの画質を良く保ちながら、既存の方法よりも長いコードを埋め込むことができる。 本研究は, 強靭性と非検出性に関する厳密なゲームベース定義を提案し, ジェネレータのパラメータを制御できる適応型ホワイトボックス攻撃に対して, 透かしが堅牢でないことを示す。 非透かし画像に対してわずか200ドルしかアクセスできない透かしをうまく除去できる適応攻撃を提案する。 我々の研究は、発電機のパラメータが利用できる場合、ディープフェイク検出のための透かしの信頼性に挑戦する。

Deepfakes refer to content synthesized using deep generators, which, when \emph{misused}, have the potential to erode trust in digital media. Synthesizing high-quality deepfakes requires access to large and complex generators only few entities can train and provide. The threat are malicious users that exploit access to the provided model and generate harmful deepfakes without risking detection. Watermarking makes deepfakes detectable by embedding an identifiable code into the generator that is later extractable from its generated images. We propose Pivotal Tuning Watermarking (PTW), a method for watermarking pre-trained generators (i) three orders of magnitude faster than watermarking from scratch and (ii) without the need for any training data. We improve existing watermarking methods and scale to generators $4 \times$ larger than related work. PTW can embed longer codes than existing methods while better preserving the generator's image quality. We propose rigorous, game-based definitions for robustness and undetectability and our study reveals that watermarking is not robust against an adaptive white-box attacker who has control over the generator's parameters. We propose an adaptive attack that can successfully remove any watermarking with access to only $200$ non-watermarked images. Our work challenges the trustworthiness of watermarking for deepfake detection when the parameters of a generator are available.
翻訳日:2023-04-18 19:31:21 公開日:2023-04-14
# 敵マルウェアの発電機の組み合わせによる侵入率向上

Combining Generators of Adversarial Malware Examples to Increase Evasion Rate ( http://arxiv.org/abs/2304.07360v1 )

ライセンス: Link先を確認
Matou\v{s} Koz\'ak and Martin Jure\v{c}ek(参考訳) アンチウイルス開発者は、マルウェア防衛の重要なコンポーネントとして機械学習をますます受け入れている。 機械学習は多くの分野で最先端の結果を達成するが、いくつかの敵攻撃技術によって悪用される弱点もある。 多くの著者は、様々な成功でマルウェア検出をバイパスできる敵のマルウェア例のホワイトボックスとブラックボックスジェネレータの両方を提示している。 我々は,その可能性を高めるために,現代の発電機を組み合わせることを提案する。 異なるジェネレータを組み合わせることで、アンチマルウェアツールを回避しがちな、より洗練された敵の例を作成できる。 この手法を5つの有名な発電機で実演し,有望な結果を記録した。 AMG-randomとMAB-Malwareの最も優れた組み合わせは、トップレベルのアンチウイルス製品に対して平均15.9%の回避率を達成した。 AMG-randomとMAB-Malwareジェネレータをそれぞれ使用した場合、平均36%と627%の改善となる。 ジェネレータを他のジェネレータに追従することで最も利益を得たジェネレータはFGSMインジェクション攻撃であり、使用した2番目のジェネレータによって平均91.97%から1,304.73%の回避率を改善した。 これらの結果は、異なるジェネレータを組み合わせることで、主要な抗ウイルスプログラムに対する効果が著しく向上することを示した。

Antivirus developers are increasingly embracing machine learning as a key component of malware defense. While machine learning achieves cutting-edge outcomes in many fields, it also has weaknesses that are exploited by several adversarial attack techniques. Many authors have presented both white-box and black-box generators of adversarial malware examples capable of bypassing malware detectors with varying success. We propose to combine contemporary generators in order to increase their potential. Combining different generators can create more sophisticated adversarial examples that are more likely to evade anti-malware tools. We demonstrated this technique on five well-known generators and recorded promising results. The best-performing combination of AMG-random and MAB-Malware generators achieved an average evasion rate of 15.9% against top-tier antivirus products. This represents an average improvement of more than 36% and 627% over using only the AMG-random and MAB-Malware generators, respectively. The generator that benefited the most from having another generator follow its procedure was the FGSM injection attack, which improved the evasion rate on average between 91.97% and 1,304.73%, depending on the second generator used. These results demonstrate that combining different generators can significantly improve their effectiveness against leading antivirus programs.
翻訳日:2023-04-18 19:30:56 公開日:2023-04-14
# 分散マルチタスク学習における完全部分空間拡散

Exact Subspace Diffusion for Decentralized Multitask Learning ( http://arxiv.org/abs/2304.07358v1 )

ライセンス: Link先を確認
Shreya Wadehra, Roula Nassif, Stefan Vlaski(参考訳) 分散学習のための古典的なパラダイム、例えばフェデレーションや分散勾配降下は、エージェント間の均質性を強制するためにコンセンサス機構を用いる。 これらの戦略は、すなわち、シナリオにおいて有効であることが証明されているが、エージェントが異質な目的やデータに従うと、パフォーマンスが大幅に低下する可能性がある。 一方、マルチタスク学習のための分散戦略は、エージェント間の関係をよりニュアンスな方法で誘導し、合意を強制せずに協力を促進する。 我々は,ネットワーク上の制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,雑音勾配近似を利用する場合の平均二乗偏差の正確な式を導出する。 予測した性能表現の精度を数値的に検証し,近似投影に基づく代替案に対する提案手法の性能向上について検証した。

Classical paradigms for distributed learning, such as federated or decentralized gradient descent, employ consensus mechanisms to enforce homogeneity among agents. While these strategies have proven effective in i.i.d. scenarios, they can result in significant performance degradation when agents follow heterogeneous objectives or data. Distributed strategies for multitask learning, on the other hand, induce relationships between agents in a more nuanced manner, and encourage collaboration without enforcing consensus. We develop a generalization of the exact diffusion algorithm for subspace constrained multitask learning over networks, and derive an accurate expression for its mean-squared deviation when utilizing noisy gradient approximations. We verify numerically the accuracy of the predicted performance expressions, as well as the improved performance of the proposed approach over alternatives based on approximate projections.
翻訳日:2023-04-18 19:30:35 公開日:2023-04-14
# NEV-NCD: 負学習・エントロピー・可変正規化に基づく新しい行動カテゴリー発見

NEV-NCD: Negative Learning, Entropy, and Variance regularization based novel action categories discovery ( http://arxiv.org/abs/2304.07354v1 )

ライセンス: Link先を確認
Zahid Hasan, Masud Ahmed, Abu Zaher Md Faridee, Sanjay Purushotham, Heesung Kwon, Hyungtae Lee, Nirmalya Roy(参考訳) New Categories Discovery (NCD)は、部分的にアノテートされたラベル空間からの学習を容易にし、ラベル付きデータ概念に基づいて新しいクラスのインスタンスを識別・識別することで、ディープラーニング(DL)モデルがオープンワールド環境で動作できるようにする。 NCDの主な仮定の1つは、新しいラベル空間は完全に不整合であり、均等にすることができるが、実際にはほとんどのNCDアプローチによって実現されることは稀である。 この仮定に合致するために,新しい単段最適化に基づくncd法,負学習法,エントロピー法,分散正規化ncd法(nev-ncd)を提案する。 UCF101データセットと社内部分的アクション空間注釈付きマルチビュービデオデータセットによるビデオアクション認識(VAR)の未探索NCDアプリケーションにおけるNEV-NCDの有効性を実証した。 最終関節損失とそれに伴うハイパーパラメータの構成を変化させて徹底的なアブレーション研究を行う。 UCF101とマルチビューアクションデータセットを用いた実験では、ラベル付きデータのテストインスタンスにおいて、NEV-NCDはおよそ83%の分類精度を達成した。 NEV-NCDは、単純なベースライン(~40%)と、両方のデータセットに対する最先端の擬似ラベルベースのアプローチ(~3.5%)の両方を上回る、ラベルのないデータに対して、およそ70%のクラスタリング精度を達成する。 さらに,新しい視点から新しいカテゴリを識別するために,任意のビュー不変特徴学習をマルチビューデータセットに組み込むことを提案する。 追加の視点非分散制約により、未知のカテゴリと未知のカテゴリの判別精度が10%程度向上する。

Novel Categories Discovery (NCD) facilitates learning from a partially annotated label space and enables deep learning (DL) models to operate in an open-world setting by identifying and differentiating instances of novel classes based on the labeled data notions. One of the primary assumptions of NCD is that the novel label space is perfectly disjoint and can be equipartitioned, but it is rarely realized by most NCD approaches in practice. To better align with this assumption, we propose a novel single-stage joint optimization-based NCD method, Negative learning, Entropy, and Variance regularization NCD (NEV-NCD). We demonstrate the efficacy of NEV-NCD in previously unexplored NCD applications of video action recognition (VAR) with the public UCF101 dataset and a curated in-house partial action-space annotated multi-view video dataset. We perform a thorough ablation study by varying the composition of final joint loss and associated hyper-parameters. During our experiments with UCF101 and multi-view action dataset, NEV-NCD achieves ~ 83% classification accuracy in test instances of labeled data. NEV-NCD achieves ~ 70% clustering accuracy over unlabeled data outperforming both naive baselines (by ~ 40%) and state-of-the-art pseudo-labeling-based approaches (by ~ 3.5%) over both datasets. Further, we propose to incorporate optional view-invariant feature learning with the multiview dataset to identify novel categories from novel viewpoints. Our additional view-invariance constraint improves the discriminative accuracy for both known and unknown categories by ~ 10% for novel viewpoints.
翻訳日:2023-04-18 19:30:21 公開日:2023-04-14
# 正半定円錐における極値を持つ微分幾何学

Differential geometry with extreme eigenvalues in the positive semidefinite cone ( http://arxiv.org/abs/2304.07347v1 )

ライセンス: Link先を確認
Cyrus Mostajeran, Natha\"el Da Costa, Graham Van Goffrier, Rodolphe Sepulchre(参考訳) 対称正定値行列(SPD)の形でのデータの解析と処理に対する異なる幾何学的アプローチは、コンピュータビジョン、医用画像、機械学習を含む多くの分野に顕著な成功を収めた。 そのような応用における支配的な幾何学的パラダイムは、高スケールおよび高次元でコストがかかるスペクトル計算に付随するいくつかのリーマン幾何学から成り立っている。 本研究では,半定円錐のヒルベルト・トンプソン測地による超一般化固有値の効率的な計算に基づくSPD値データの解析と処理のためのスケーラブルな幾何学的枠組みを提案する。 トンプソン幾何学に基づく特定の測地空間構造を詳細に探求し、この構造に関連するいくつかの性質を確立する。 さらに、この幾何に基づいてSPD行列の新たな反復平均を定義し、与えられた有限個の点の集合に対するその存在と特異性を証明する。 最後に、この平均で満足できる多くの望ましい性質を述べ、証明します。

Differential geometric approaches to the analysis and processing of data in the form of symmetric positive definite (SPD) matrices have had notable successful applications to numerous fields including computer vision, medical imaging, and machine learning. The dominant geometric paradigm for such applications has consisted of a few Riemannian geometries associated with spectral computations that are costly at high scale and in high dimensions. We present a route to a scalable geometric framework for the analysis and processing of SPD-valued data based on the efficient computation of extreme generalized eigenvalues through the Hilbert and Thompson geometries of the semidefinite cone. We explore a particular geodesic space structure based on Thompson geometry in detail and establish several properties associated with this structure. Furthermore, we define a novel iterative mean of SPD matrices based on this geometry and prove its existence and uniqueness for a given finite collection of points. Finally, we state and prove a number of desirable properties that are satisfied by this mean.
翻訳日:2023-04-18 19:29:48 公開日:2023-04-14
# 動的実時間体積大域照明のための光子場ネットワーク

Photon Field Networks for Dynamic Real-Time Volumetric Global Illumination ( http://arxiv.org/abs/2304.07338v1 )

ライセンス: Link先を確認
David Bauer, Qi Wu, Kwan-Liu Ma(参考訳) ボリュームデータは医学、物理学、生物学など多くの科学分野で一般的に見られる。 専門家は、データから貴重な洞察を抽出するために、堅牢な科学的可視化技術に頼る。 近年、高レベルのリアリズムを考えると、パストレースがボリュームレンダリングの好ましいアプローチであることが示されている。 しかし、リアルタイムボリュームパストレースはしばしば確率的ノイズと長い収束時間に悩まされ、対話的な探索が制限される。 本稿では,ボリュームデータ可視化のためのリアルタイムグローバル照明を実現する新しい手法を提案する。 我々は、光子場ネットワーク -- 間接体積大域照明の位相関数認識、マルチライトニューラル表現 -- を開発した。 フィールドは、プリオリを計算する多相フォトンキャッシュに基づいて訓練される。 トレーニングは数秒で行え、その後、様々なレンダリングタスクでフィールドを使うことができる。 その可能性を示すために,光子フィールドが大規模データセットでもインタラクティブなフレームレートを実現する,独自のニューラルパストレーサを開発した。 我々は,視覚的品質,確率的雑音,推論と描画速度,照明と位相関数の認識に関する精度など,手法の性能の詳細な評価を行う。 結果はレイマーチング、パストレーシング、フォトンマッピングと比較される。 この結果から,光電場ネットワークは位相スペクトルの間接的大域照明を忠実に表現でき,確率的雑音やレンダリングは従来の手法よりもはるかに高速であることがわかった。

Volume data is commonly found in many scientific disciplines, like medicine, physics, and biology. Experts rely on robust scientific visualization techniques to extract valuable insights from the data. Recent years have shown path tracing to be the preferred approach for volumetric rendering, given its high levels of realism. However, real-time volumetric path tracing often suffers from stochastic noise and long convergence times, limiting interactive exploration. In this paper, we present a novel method to enable real-time global illumination for volume data visualization. We develop Photon Field Networks -- a phase-function-aware, multi-light neural representation of indirect volumetric global illumination. The fields are trained on multi-phase photon caches that we compute a priori. Training can be done within seconds, after which the fields can be used in various rendering tasks. To showcase their potential, we develop a custom neural path tracer, with which our photon fields achieve interactive framerates even on large datasets. We conduct in-depth evaluations of the method's performance, including visual quality, stochastic noise, inference and rendering speeds, and accuracy regarding illumination and phase function awareness. Results are compared to ray marching, path tracing and photon mapping. Our findings show that Photon Field Networks can faithfully represent indirect global illumination across the phase spectrum while exhibiting less stochastic noise and rendering at a significantly faster rate than traditional methods.
翻訳日:2023-04-18 19:29:36 公開日:2023-04-14
# グループアライメントの学習 - マルチエージェントチームによる自己調整型クレドフレームワーク

Learning to Learn Group Alignment: A Self-Tuning Credo Framework with Multiagent Teams ( http://arxiv.org/abs/2304.07337v1 )

ライセンス: Link先を確認
David Radke and Kyle Tilbury(参考訳) マルチエージェントチームを持つ人々の混合インセンティブは、完全な協調システムよりも優れていることが示されているが、最高のインセンティブやチーム構造の発見は困難かつダイナミックな問題である。 個人学習エージェントが報酬関数の様々な部分を通してインセンティブの構成を自己制御する枠組みを提案する。 この作業は、エージェントが学習中にグループアライメントを動的に更新し、チームメイトが異なるグループアライメントを持つようにすることで、以前の作業を拡張します。 我々のモデルは階層的な強化学習とメタラーニングのアイデアに基づいて、行動政策の開発を支援する報酬関数の構成を学習する。 一般に研究されているマルチエージェント環境において,エージェントがそれぞれのグループアライメントパラメータを自己調整することで,より優れたグローバルな結果を得ることができることを発見した。

Mixed incentives among a population with multiagent teams has been shown to have advantages over a fully cooperative system; however, discovering the best mixture of incentives or team structure is a difficult and dynamic problem. We propose a framework where individual learning agents self-regulate their configuration of incentives through various parts of their reward function. This work extends previous work by giving agents the ability to dynamically update their group alignment during learning and by allowing teammates to have different group alignment. Our model builds on ideas from hierarchical reinforcement learning and meta-learning to learn the configuration of a reward function that supports the development of a behavioral policy. We provide preliminary results in a commonly studied multiagent environment and find that agents can achieve better global outcomes by self-tuning their respective group alignment parameters.
翻訳日:2023-04-18 19:29:15 公開日:2023-04-14
# heat:cpuに基づくコラボレーティブフィルタリングのための高効率で安価なトレーニングシステム

HEAT: A Highly Efficient and Affordable Training System for Collaborative Filtering Based Recommendation on CPUs ( http://arxiv.org/abs/2304.07334v1 )

ライセンス: Link先を確認
Chengming Zhang, Shaden Smith, Baixi Sun, Jiannan Tian, Jonathan Soifer, Xiaodong Yu, Shuaiwen Leon Song, Yuxiong He, Dingwen Tao(参考訳) 協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。 CFアプローチの中でもSimpleXは、新しい損失関数と適切な数の負のサンプルを採用する最先端の手法である。 しかし、マルチコアcpu上でsimplexを最適化する作業はなく、パフォーマンスが制限される。 そこで我々は,(1)不規則なメモリアクセス,(2)不必要なメモリコピー,(3)冗長な計算など,既存のSimpleX実装の詳細なプロファイリングと解析を行い,その性能ボトルネックを特定する。 これらの問題に対処するため,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。 Specifically, the optimization of HEAT is threefold: (1) It tiles the embedding matrix to increase data locality and reduce cache misses (thus reduce read latency); (2) It optimizes stochastic gradient descent (SGD) with sampling by parallelizing vector products instead of matrix-matrix multiplications, in particular the similarity computation therein, to avoid memory copies for matrix data preparation; and (3) It aggressively reuses intermediate results from the forward phase in the backward phase to alleviate redundant computation. x86アーキテクチャプロセッサとARMアーキテクチャプロセッサの両方で広く使用されている5つのデータセットの評価によると、HEATは既存のCPUソリューションよりも65.3倍のスピードアップを実現し、4.8倍のスピードアップと7.9倍のコスト削減を実現している。

Collaborative filtering (CF) has been proven to be one of the most effective techniques for recommendation. Among all CF approaches, SimpleX is the state-of-the-art method that adopts a novel loss function and a proper number of negative samples. However, there is no work that optimizes SimpleX on multi-core CPUs, leading to limited performance. To this end, we perform an in-depth profiling and analysis of existing SimpleX implementations and identify their performance bottlenecks including (1) irregular memory accesses, (2) unnecessary memory copies, and (3) redundant computations. To address these issues, we propose an efficient CF training system (called HEAT) that fully enables the multi-level caching and multi-threading capabilities of modern CPUs. Specifically, the optimization of HEAT is threefold: (1) It tiles the embedding matrix to increase data locality and reduce cache misses (thus reduce read latency); (2) It optimizes stochastic gradient descent (SGD) with sampling by parallelizing vector products instead of matrix-matrix multiplications, in particular the similarity computation therein, to avoid memory copies for matrix data preparation; and (3) It aggressively reuses intermediate results from the forward phase in the backward phase to alleviate redundant computation. Evaluation on five widely used datasets with both x86- and ARM-architecture processors shows that HEAT achieves up to 65.3X speedup over existing CPU solution and 4.8X speedup and 7.9X cost reduction in Cloud over existing GPU solution with NVIDIA V100 GPU.
翻訳日:2023-04-18 19:28:59 公開日:2023-04-14
# 視覚クラスタリングの公平性:新しいトランスフォーマークラスタリングアプローチ

Fairness in Visual Clustering: A Novel Transformer Clustering Approach ( http://arxiv.org/abs/2304.07408v1 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Chi Nhan Duong, Marios Savvides, Kaushik Roy, Khoa Luu(参考訳) 階層バイアスを減らすために教師なしのクラスタリング設定でディープクラスタリングモデルの公平性を促進することは、難しい目標である。 これは、機密性や保護された属性に対して、十分な注釈付きラベルを持つ大規模なバランスデータに制限があるためである。 本稿では,クラスタ内の正のサンプルの比率と相関度で測定したクラスタ純度の観点から,ディープクラスタリングモデルにおける人口統計バイアスをまず評価する。 この測定は人口バイアスの指標として採用されている。 そして、学習したクラスタリングモデルの公平性を維持するために、すべてのクラスタの純度一貫性を促進するために、新たな損失関数を導入する。 さらに,複数クラスタ間の相関を計測し,遠方正のサンプルを強化し,学習過程におけるクラスタの純度を向上させる,新たな注意機構であるクロスアテンションを提案する。 多数の属性設定を持つ大規模データセットの実験結果から,クラスタリング精度と,複数の属性に対する公平性向上に対する提案手法の有効性が示された。

Promoting fairness for deep clustering models in unsupervised clustering settings to reduce demographic bias is a challenging goal. This is because of the limitation of large-scale balanced data with well-annotated labels for sensitive or protected attributes. In this paper, we first evaluate demographic bias in deep clustering models from the perspective of cluster purity, which is measured by the ratio of positive samples within a cluster to their correlation degree. This measurement is adopted as an indication of demographic bias. Then, a novel loss function is introduced to encourage a purity consistency for all clusters to maintain the fairness aspect of the learned clustering model. Moreover, we present a novel attention mechanism, Cross-attention, to measure correlations between multiple clusters, strengthening faraway positive samples and improving the purity of clusters during the learning process. Experimental results on a large-scale dataset with numerous attribute settings have demonstrated the effectiveness of the proposed approach on both clustering accuracy and fairness enhancement on several sensitive attributes.
翻訳日:2023-04-18 19:23:40 公開日:2023-04-14
# 未観測エージェントリワードと完全知識エージェントを用いた繰り返し主エージェントゲーム

Repeated Principal-Agent Games with Unobserved Agent Rewards and Perfect-Knowledge Agents ( http://arxiv.org/abs/2304.07407v1 )

ライセンス: Link先を確認
Ilgin Dogan, Zuo-Jun Max Shen, and Anil Aswani(参考訳) 本稿では、医療や持続可能な輸送といった分野からの多くの現実世界の応用に動機づけられ、マルチアームのバンディット(mab)フレームワーク内で繰り返されるプリンシパルエージェントゲーム(principal-agent game)のシナリオについて検討する。 プリンシパルのポリシー設計は、プリンシパルがエージェントが選択した行動に対して受ける報酬を直接観察できないため、プリンシパルが既存の推定手法を使って期待される報酬を直接学習できないため、難しい。 結果として、このシナリオのためのポリシーを設計する問題は、同様のものと同様に、ほとんど未調査のままである。 本稿では, エージェントが各バンディットアームに対して期待される報酬を十分に把握している場合に, 低い後悔(すなわち, ログファクターに対する平方根の後悔)を達成する政策を構築する。 我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。 我々の推定器は、提供されたインセンティブのシーケンスと選択されたアームのシーケンスをデータとして使用するので、プリンシパルの推定はMABのオンライン逆最適化のアナロジーとみなすことができる。 次に, 推定器の有限サンプル濃度境界を導出することにより, 低い後悔を証明できる方針を構築する。 我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。

Motivated by a number of real-world applications from domains like healthcare and sustainable transportation, in this paper we study a scenario of repeated principal-agent games within a multi-armed bandit (MAB) framework, where: the principal gives a different incentive for each bandit arm, the agent picks a bandit arm to maximize its own expected reward plus incentive, and the principal observes which arm is chosen and receives a reward (different than that of the agent) for the chosen arm. Designing policies for the principal is challenging because the principal cannot directly observe the reward that the agent receives for their chosen actions, and so the principal cannot directly learn the expected reward using existing estimation techniques. As a result, the problem of designing policies for this scenario, as well as similar ones, remains mostly unexplored. In this paper, we construct a policy that achieves a low regret (i.e., square-root regret up to a log factor) in this scenario for the case where the agent has perfect-knowledge about its own expected rewards for each bandit arm. We design our policy by first constructing an estimator for the agent's expected reward for each bandit arm. Since our estimator uses as data the sequence of incentives offered and subsequently chosen arms, the principal's estimation can be regarded as an analogy of online inverse optimization in MAB's. Next we construct a policy that we prove achieves a low regret by deriving finite-sample concentration bounds for our estimator. We conclude with numerical simulations demonstrating the applicability of our policy to real-life setting from collaborative transportation planning.
翻訳日:2023-04-18 19:23:23 公開日:2023-04-14
# GLASSモデルを用いた脳-コンピュータインタフェースのベイズ推定

Bayesian inference on Brain-Computer Interface using the GLASS Model ( http://arxiv.org/abs/2304.07401v1 )

ライセンス: Link先を確認
Bangyao Zhao, Jane E. Huggins, Jian Kang(参考訳) 脳コンピュータインタフェース(BCI)は、重度の身体障害を持つ個人が世界とコミュニケーションすることを可能にする。 BCIは、リアルタイム脳活動をコンピュータコマンドに変換する際の計算神経科学の機会と課題を提供し、典型的には分類問題である。 本稿では、事象関連電位(ERP)BCI設計を用いたP300 BCIに焦点を当て、主な課題はターゲット/非ターゲット刺激の分類である。 我々は,P300 BCI上でベイズ推定を行うために,低時間効果(GLASS)を有する新しいガウス潜在群モデルを開発した。 GLASSは、BCIアプリケーションにおけるデータセットの不均衡に直接対処する多項回帰フレームワークを採用している。 事前の仕様は簡単です 一 ソフトthresholdingを用いた特徴選択及びノイズ低減 二 グローバル収縮を利用した時間変化効果の円滑化及び 三 脳波データの高空間相関を緩和するための潜伏群のクラスタリング 我々は,後方計算のための効率的な勾配に基づく変分推論(GBVI)アルゴリズムを開発し, https://github.com/BangyaoZhao/GLASSで利用可能なPythonモジュールを提供する。 GLASSの応用は、既存の文献に沿った重要な脳波チャネル(PO8、Oz、PO7、Pz、C3)を特定する。 さらにガラスは、視頂-頭頂部(po8, oz, po7)のチャネルからのグループ効果を示し、これはクロスパーティシピタント分析で検証される。

The brain-computer interface (BCI) enables individuals with severe physical impairments to communicate with the world. BCIs offer computational neuroscience opportunities and challenges in converting real-time brain activities to computer commands and are typically framed as a classification problem. This article focuses on the P300 BCI that uses the event-related potential (ERP) BCI design, where the primary challenge is classifying target/non-target stimuli. We develop a novel Gaussian latent group model with sparse time-varying effects (GLASS) for making Bayesian inferences on the P300 BCI. GLASS adopts a multinomial regression framework that directly addresses the dataset imbalance in BCI applications. The prior specifications facilitate i) feature selection and noise reduction using soft-thresholding, ii) smoothing of the time-varying effects using global shrinkage, and iii) clustering of latent groups to alleviate high spatial correlations of EEG data. We develop an efficient gradient-based variational inference (GBVI) algorithm for posterior computation and provide a user-friendly Python module available at https://github.com/BangyaoZhao/GLASS. The application of GLASS identifies important EEG channels (PO8, Oz, PO7, Pz, C3) that align with existing literature. GLASS further reveals a group effect from channels in the parieto-occipital region (PO8, Oz, PO7), which is validated in cross-participant analysis.
翻訳日:2023-04-18 19:22:54 公開日:2023-04-14
# 臨床試験における患者の事前スクリーニングの改善 : 大規模言語モデルによる医師支援

Improving Patient Pre-screening for Clinical Trials: Assisting Physicians with Large Language Models ( http://arxiv.org/abs/2304.07396v1 )

ライセンス: Link先を確認
Danny M. den Hamer, Perry Schoor, Tobias B. Polak and Daniel Kapitan(参考訳) 患者の臨床試験を検討する医師は、多くのテキストベースの適格性基準を検査する手間がかかる。 LLM(Large Language Models)は、医学的検査を含む臨床情報抽出や臨床推論においてよく機能するが、現実のシナリオでは機能しない。 本稿では,患者の総合的医療プロファイルに基づく臨床治験の適性判定に医師を支援するために,インストラクションGPTを用いたことを検討する。 単発,選択推論,チェーン・オブ・シントを併用したプロンプト戦略を用いて,10個の合成患者プロファイル上でのLCMの性能について検討した。 成績は、4つのレベルで評価される: 医学的プロファイルが与えられた試験からスクリーニング可能な適格基準を識別する能力、患者が適格かどうかの個々の基準を分類する能力、患者が臨床試験を受ける資格があるかどうかの全体分類、医師が検査する基準の割合。 我々は146回の臨床試験と合計4,135の適格性基準について評価した。 LLMは基準の72% (2,994/4,135) を正しく識別することができた。 また,スクリーニング基準の72% (341/471) が正しく評価された。 その結果、試験レベルの分類は適当か不可とされ、0.5のリコールとなった。 LLMを医用ループで活用することにより、診断基準の90%を減らしつつ、臨床試験レベルで1.0のリコールと0.71の精度を達成することができる。 LLMは、医師が臨床試験のために患者の事前スクリーニングを行うのを助けるために使用できる。 命令調整されたLLMにチェーン・オブ・プリート・レスポンスを強制することにより、推論を透過化し、医師による意思決定プロセスが実現し、現実のシナリオでの使用が可能なシステムを実現する。

Physicians considering clinical trials for their patients are met with the laborious process of checking many text based eligibility criteria. Large Language Models (LLMs) have shown to perform well for clinical information extraction and clinical reasoning, including medical tests, but not yet in real-world scenarios. This paper investigates the use of InstructGPT to assist physicians in determining eligibility for clinical trials based on a patient's summarised medical profile. Using a prompting strategy combining one-shot, selection-inference and chain-of-thought techniques, we investigate the performance of LLMs on 10 synthetically created patient profiles. Performance is evaluated at four levels: ability to identify screenable eligibility criteria from a trial given a medical profile; ability to classify for each individual criterion whether the patient qualifies; the overall classification whether a patient is eligible for a clinical trial and the percentage of criteria to be screened by physician. We evaluated against 146 clinical trials and a total of 4,135 eligibility criteria. The LLM was able to correctly identify the screenability of 72% (2,994/4,135) of the criteria. Additionally, 72% (341/471) of the screenable criteria were evaluated correctly. The resulting trial level classification as eligible or ineligible resulted in a recall of 0.5. By leveraging LLMs with a physician-in-the-loop, a recall of 1.0 and precision of 0.71 on clinical trial level can be achieved while reducing the amount of criteria to be checked by an estimated 90%. LLMs can be used to assist physicians with pre-screening of patients for clinical trials. By forcing instruction-tuned LLMs to produce chain-of-thought responses, the reasoning can be made transparent to and the decision process becomes amenable by physicians, thereby making such a system feasible for use in real-world scenarios.
翻訳日:2023-04-18 19:22:31 公開日:2023-04-14
# ディープフェイク顔操作検出のためのアンサンブル法の検討

Investigation of ensemble methods for the detection of deepfake face manipulations ( http://arxiv.org/abs/2304.07395v1 )

ライセンス: Link先を確認
Nikolaos Giatsoglou, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 最近のAI研究の波は、Deepfakesと呼ばれる新しい種類の合成メディアを可能にした。 ディープフェイクには印象的なフォトリアリズムがあり、エキサイティングな新しいユースケースを生み出しています。 これらの脅威を軽減するために、研究者たちは、従来の鑑識よりも効果的で、ディープai技術に大きく依存するディープフェイク検出の新しい方法を考え出した。 本稿では,アトリビューションとアンサンブル技術を用いたディープフェイク検出の先行研究を奨励する上で,アンサンブル検出器の複数の設計について検討・比較を行う。 目標は、異なる操作カテゴリを専門とするモデルのアンサンブルを活用することで、堅牢性と優れた一般化能力を達成することである。 その結果、アンサンブルは適切な調整を行うと個々のモデルよりも高い精度を達成できるのに対し、一般化能力は様々な既知の操作のための多数のトレーニングデータへのアクセスに依存することがわかった。

The recent wave of AI research has enabled a new brand of synthetic media, called deepfakes. Deepfakes have impressive photorealism, which has generated exciting new use cases but also raised serious threats to our increasingly digital world. To mitigate these threats, researchers have tried to come up with new methods for deepfake detection that are more effective than traditional forensics and heavily rely on deep AI technology. In this paper, following up on encouraging prior work for deepfake detection with attribution and ensemble techniques, we explore and compare multiple designs for ensemble detectors. The goal is to achieve robustness and good generalization ability by leveraging ensembles of models that specialize in different manipulation categories. Our results corroborate that ensembles can achieve higher accuracy than individual models when properly tuned, while the generalization ability relies on access to a large number of training data for a diverse set of known manipulations.
翻訳日:2023-04-18 19:21:43 公開日:2023-04-14
# 需要予測のない収益管理:入札価格生成のためのデータ駆動アプローチ

Revenue Management without Demand Forecasting: A Data-Driven Approach for Bid Price Generation ( http://arxiv.org/abs/2304.07391v1 )

ライセンス: Link先を確認
Ezgi C. Eren, Zhaoyang Zhang, Jonas Rauch, Ravi Kumar and Royce Kallesen(参考訳) 従来の収益管理は、長く安定した履歴データと予測可能な需要パターンに依存している。 しかし、これらの要件を満たすことが常に可能であるとは限らない。 多くの産業が需要変動に直面しており、例えば、非常に短い予約地平線と非常に可変なバッチ到着を持つ航空貨物がある。 収益管理(rm)が確立されている旅客航空会社であっても、外部ショックに対する反応は、ユーザの監視と手作業による介入を必要とする、よく知られた課題である。 さらに、従来のrmには、何年もにわたる予約がない場合でも、履歴予約や価格など、厳格なデータ要件がある。 RMでプラクティスを確立していない企業では、そのような広範なデータは通常利用できない。 本稿では,需要予測と最適化技術の必要性をなくすデータ駆動手法を提案する。 歴史的予約データのみを用いて入札価格を生成する手法を開発した。 このアプローチは,過去の予約データのみに基づいて残余容量と出勤時間の関数として,限界機会コストのプロキシを推定する,ポスト・グリーディ・ヒューリスティックなアプローチである。 我々はニューラルネットワークアルゴリズムを用いて入札価格を将来に向けて予測する。 本研究では,動的プログラミング(DP)を用いて提案手法の性能を最適に生成した入札価格と比較した広範なシミュレーション研究を行う。 また,データ駆動価格とdp生成入札価格の両方を,需要不特定の存在下で測定するためのシミュレーションも拡張した。 以上の結果から,データ駆動型手法は幅広い設定で理論的に最適な(<1%収益ギャップ) に近く,一方dpは不特定化の規模が大きくなるほど最適から大きく逸脱することが示された。 これは、データ駆動アプローチの堅牢性を強調します。

Traditional revenue management relies on long and stable historical data and predictable demand patterns. However, meeting those requirements is not always possible. Many industries face demand volatility on an ongoing basis, an example would be air cargo which has much shorter booking horizon with highly variable batch arrivals. Even for passenger airlines where revenue management (RM) is well-established, reacting to external shocks is a well-known challenge that requires user monitoring and manual intervention. Moreover, traditional RM comes with strict data requirements including historical bookings and pricing even in the absence of any bookings, spanning multiple years. For companies that have not established a practice in RM, that type of extensive data is usually not available. We present a data-driven approach to RM which eliminates the need for demand forecasting and optimization techniques. We develop a methodology to generate bid prices using historical booking data only. Our approach is an ex-post greedy heuristic to estimate proxies for marginal opportunity costs as a function of remaining capacity and time-to-departure solely based on historical booking data. We utilize a neural network algorithm to project bid price estimations into the future. We conduct an extensive simulation study where we measure performance of our methodology compared to that of an optimally generated bid price using dynamic programming (DP). We also extend our simulations to measure performance of both data-driven and DP generated bid prices under the presence of demand misspecification. Our results show that our data-driven methodology stays near a theoretical optimum (<1% revenue gap) for a wide-range of settings, whereas DP deviates more significantly from the optimal as the magnitude of misspecification is increased. This highlights the robustness of our data-driven approach.
翻訳日:2023-04-18 19:21:16 公開日:2023-04-14
# shape of you: 多様な体型に対する正確な3次元形状推定

Shape of You: Precise 3D shape estimations for diverse body types ( http://arxiv.org/abs/2304.07389v1 )

ライセンス: Link先を確認
Rohan Sarkar, Achal Dave, Gerard Medioni, Benjamin Biggs(参考訳) 本稿では,視覚に基づく衣服推薦システムにおける3次元体形推定の精度向上を目的としたShape of You (SoY)を提案する。 既存の手法は3dのポーズを推定することに成功したが、正確な形状推定、特に多様な人体に対する作業が不足している。 このギャップに対処するために,パラメトリック3次元ヒューマンリコンストラクションパイプラインに容易に統合できる2つの損失関数を提案する。 さらに,品質を向上するテスト時間最適化ルーチンを提案する。 SSP-3Dデータセットでは,最近のSHAPY法よりも17.7%向上した。 我々は, 多様な体型に対して確実に機能し, ファッション業界における実用的な応用を期待できる, より正確な3次元形状推定システムへの一歩であると考えている。

This paper presents Shape of You (SoY), an approach to improve the accuracy of 3D body shape estimation for vision-based clothing recommendation systems. While existing methods have successfully estimated 3D poses, there remains a lack of work in precise shape estimation, particularly for diverse human bodies. To address this gap, we propose two loss functions that can be readily integrated into parametric 3D human reconstruction pipelines. Additionally, we propose a test-time optimization routine that further improves quality. Our method improves over the recent SHAPY method by 17.7% on the challenging SSP-3D dataset. We consider our work to be a step towards a more accurate 3D shape estimation system that works reliably on diverse body types and holds promise for practical applications in the fashion industry.
翻訳日:2023-04-18 19:20:34 公開日:2023-04-14
# 文エンコーダを用いたゼロショットマルチラベルトピック推論

Zero-Shot Multi-Label Topic Inference with Sentence Encoders ( http://arxiv.org/abs/2304.07382v1 )

ライセンス: Link先を確認
Souvika Sarkar and Dongji Feng and Shubhra Kanti Karmaker Santu(参考訳) 実際、文エンコーダは多くの下流のテキストマイニングタスクで優れた性能を達成できることが示されており、そのためかなり一般的であると主張した。 そこで我々は,これらの文エンコーダを「ゼロショットトピック推論(zero-shot topic inference)」タスクに活用する方法に関する詳細な研究を行った。 7つの異なるデータセットに対する大規模な実験は、Sentence-BERTが他のエンコーダよりも優れた一般性を示すことを示している。

Sentence encoders have indeed been shown to achieve superior performances for many downstream text-mining tasks and, thus, claimed to be fairly general. Inspired by this, we performed a detailed study on how to leverage these sentence encoders for the "zero-shot topic inference" task, where the topics are defined/provided by the users in real-time. Extensive experiments on seven different datasets demonstrate that Sentence-BERT demonstrates superior generality compared to other encoders, while Universal Sentence Encoder can be preferred when efficiency is a top priority.
翻訳日:2023-04-18 19:20:21 公開日:2023-04-14
# 量子揺らぎは有限フェルミ液体中の集合多重フォノンを誘導する

Quantum fluctuations induce collective multi-phonons in finite Fermi liquids ( http://arxiv.org/abs/2304.07380v1 )

ライセンス: Link先を確認
Petar Marevi\'c, David Regnier, Denis Lacroix(参考訳) 原子核における集合多重フォノン状態は、独立粒子近似を超えた量子揺らぎを含む場合、高励起エネルギーで現れる。 核の四重極反応は、複数の多体軌道を混合する核時間依存密度汎関数理論の拡張を用いて研究される。 1つの軌道は第1集合量子の励起を説明できるが、第2および第3量子は軌道間の干渉によって現れる。 このスペクトルは、ほぼ調和的に観測され、実験で観測された、$^{40}$Caの巨大四重極共鳴の3つの量子量とよく一致している。 本研究は, 他の自己結合系におけるマルチフォノン探索のガイダンスを提供し, 有限フェルミ液体の内部励起に対する耐性を示す。

We show that collective multi-phonon states in atomic nuclei emerge at high excitation energies when quantum fluctuations are included beyond the independent particle approximation. The quadrupole response of a nucleus is studied using an extension of the nuclear time-dependent density functional theory that mixes several many-body trajectories. While a single trajectory can account for the excitation of the first collective quantum, the second and the third quanta emerge due to the interference between trajectories. The collective spectrum, found as nearly harmonic, is in excellent agreement with the experimentally observed three quanta of the isoscalar giant quadrupole resonance in $^{40}$Ca. This study offers guidance for multi-phonon searches in other self-bound systems and demonstrates the resistance to internal excitation of finite Fermi liquids.
翻訳日:2023-04-18 19:20:10 公開日:2023-04-14
# 連続的ソースフリー非教師付きドメイン適応

Continual Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.07374v1 )

ライセンス: Link先を確認
Waqar Ahmed, Pietro Morerio and Vittorio Murino(参考訳) 既存のソースフリーなunsupervised Domain Adaptation (SUDA)アプローチは本質的に破滅的な忘れを見せる。 通常、ラベル付きソースドメインでトレーニングされ、ラベルなしのターゲットデータに適合したモデルは、ターゲットのパフォーマンスを改善しながら、ソースのパフォーマンスを低下させる。 本研究では,SUDAの学習環境における課題に対処することを目的とする。すなわち,ソースの性能を維持しつつ,異なる分布シフトで目標に適応することである。 提案するフレームワークは,2つの主要なステージで構成されている。 一 よりクリーンな目標ラベルを付与するSUDAモデル -- 目標に対する良好な性能を優先し、 二 ソースモデル及び擬似ラベル対象データのみを予め活用して、クラス条件付きソーススタイルのイメージを合成する新規な方法 PACS、Visda-C、DomainNetといった主要なベンチマークに関する広範な実験は、提案されているContinual SUDA(C-SUDA)フレームワークが、ソースデータを全く利用せずにソースドメイン上で満足なパフォーマンスを維持することを実証している。

Existing Source-free Unsupervised Domain Adaptation (SUDA) approaches inherently exhibit catastrophic forgetting. Typically, models trained on a labeled source domain and adapted to unlabeled target data improve performance on the target while dropping performance on the source, which is not available during adaptation. In this study, our goal is to cope with the challenging problem of SUDA in a continual learning setting, i.e., adapting to the target(s) with varying distributional shifts while maintaining performance on the source. The proposed framework consists of two main stages: i) a SUDA model yielding cleaner target labels -- favoring good performance on target, and ii) a novel method for synthesizing class-conditioned source-style images by leveraging only the source model and pseudo-labeled target data as a prior. An extensive pool of experiments on major benchmarks, e.g., PACS, Visda-C, and DomainNet demonstrates that the proposed Continual SUDA (C-SUDA) framework enables preserving satisfactory performance on the source domain without exploiting the source data at all.
翻訳日:2023-04-18 19:19:56 公開日:2023-04-14
# 組織画像解析用変圧器のマスク予習

Masked Pre-Training of Transformers for Histology Image Analysis ( http://arxiv.org/abs/2304.07434v1 )

ライセンス: Link先を確認
Shuai Jiang, Liesbeth Hondelink, Arief A. Suriawinata, Saeed Hassanpour(参考訳) デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。 近年,パッチ間の空間的関係を保ちながら,WSIの広い領域を符号化するための有望な手法として,ビジュアルトランスフォーマーモデルが登場している。 しかしながら、多くのモデルパラメータと限定されたラベル付きデータにより、wsisにトランスフォーマーモデルを適用することは依然として困難である。 マスク付き言語モデルに触発されて,ラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。 私たちのモデルであるmaskhitは、トランスフォーマー出力を使用してマスクパッチを再構成し、その位置と視覚的特徴に基づいて代表的組織学的特徴を学習します。 実験の結果,MaskHITは生存予測および癌サブタイプ分類タスクにおいて,様々なインスタンス学習アプローチを3%,2%以上超えていることがわかった。 さらに、maskhitは最新の変圧器ベースの手法を2つ上回っている。 最後に、MaskHITモデルと病理医のアノテーションによる注意マップの比較により、各タスクにおける臨床的に関連する組織構造を正確に同定できることが示唆された。

In digital pathology, whole slide images (WSIs) are widely used for applications such as cancer diagnosis and prognosis prediction. Visual transformer models have recently emerged as a promising method for encoding large regions of WSIs while preserving spatial relationships among patches. However, due to the large number of model parameters and limited labeled data, applying transformer models to WSIs remains challenging. Inspired by masked language models, we propose a pretext task for training the transformer model without labeled data to address this problem. Our model, MaskHIT, uses the transformer output to reconstruct masked patches and learn representative histological features based on their positions and visual features. The experimental results demonstrate that MaskHIT surpasses various multiple instance learning approaches by 3% and 2% on survival prediction and cancer subtype classification tasks, respectively. Furthermore, MaskHIT also outperforms two of the most recent state-of-the-art transformer-based methods. Finally, a comparison between the attention maps generated by the MaskHIT model with pathologist's annotations indicates that the model can accurately identify clinically relevant histological structures in each task.
翻訳日:2023-04-18 19:12:15 公開日:2023-04-14
# 個人化拡散のためのアイデンティティエンコーダ

Identity Encoder for Personalized Diffusion ( http://arxiv.org/abs/2304.07429v1 )

ライセンス: Link先を確認
Yu-Chuan Su, Kelvin C.K. Chan, Yandong Li, Yang Zhao, Han Zhang, Boqing Gong, Huisheng Wang, Xuhui Jia(参考訳) 多くのアプリケーションは、画像拡張やビデオ会議など、パーソナライズされた画像生成モデルの恩恵を受けることができる。 既存の作品は、個人ごとに1つのモデルを微調整することでパーソナライズされた。 このアプローチは成功したが、新しいアイデンティティごとに計算とストレージのオーバーヘッドが増大する。 さらに、最高のパフォーマンスを達成するために、通常、アイデンティティ毎に数十から数百のサンプルを期待します。 これらの課題を克服するために,パーソナライズのためのエンコーダベースのアプローチを提案する。 我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダと、該アイデンティティ表現に条件付けられた被写体の新たな画像を生成する拡散生成器とを学習する。 トレーニングが完了すると、モデルがIDに基づいてトレーニングされていなくても、いくつかの例から任意のIDの画像を生成するためにモデルを使用できる。 我々のアプローチは、パーソナライズされた画像生成のオーバーヘッドを大幅に減らし、多くの潜在的なアプリケーションに適用できる。 実験結果から,提案手法は画像生成と再構成の両方において既存の微調整手法より一貫して優れており,処理時間の95%以上をユーザが好んでいることがわかった。

Many applications can benefit from personalized image generation models, including image enhancement, video conferences, just to name a few. Existing works achieved personalization by fine-tuning one model for each person. While being successful, this approach incurs additional computation and storage overhead for each new identity. Furthermore, it usually expects tens or hundreds of examples per identity to achieve the best performance. To overcome these challenges, we propose an encoder-based approach for personalization. We learn an identity encoder which can extract an identity representation from a set of reference images of a subject, together with a diffusion generator that can generate new images of the subject conditioned on the identity representation. Once being trained, the model can be used to generate images of arbitrary identities given a few examples even if the model hasn't been trained on the identity. Our approach greatly reduces the overhead for personalized image generation and is more applicable in many potential applications. Empirical results show that our approach consistently outperforms existing fine-tuning based approach in both image generation and reconstruction, and the outputs is preferred by users more than 95% of the time compared with the best performing baseline.
翻訳日:2023-04-18 19:11:56 公開日:2023-04-14
# CoPR:continuous Place-descriptor Regressionによる正確なビジュアルローカライゼーションを目指す

CoPR: Towards Accurate Visual Localization With Continuous Place-descriptor Regression ( http://arxiv.org/abs/2304.07426v1 )

ライセンス: Link先を確認
Mubariz Zaffar, Liangliang Nan, Julian Francisco Pieter Kooij(参考訳) ビジュアルプレース認識(VPR)は、ジオタグ付き参照画像のマップから最も類似した参照画像を取得することで、クエリ画像のカメラ位置を推定する画像ベースのローカライズ手法である。 本研究では,その局所化精度の基本的なボトルネックとして,参照マップのスパースネスと視点不変性の2つを考察する。 まず、VPRの参照画像は、地図内のスパースポーズでのみ利用可能であり、VPRによる最大到達可能なローカライゼーション精度の上限を強制する。 そこで我々は,地図の高密度化と局所化精度の向上を図るために,CoPR(Continuous Place-Descriptor Regression)を提案する。 本稿では,既存の参照のみから付加的なVPR特徴記述子を回帰するために,様々な補間および外挿モデルについて検討する。 次に、異なる機能エンコーダを比較し、CoPRがそれらすべてに価値を示すことを示す。 我々は,既存の3つの公開データセット上でモデルを評価し,特徴エンコーダの視点変動損失を用いて,CoPRを用いたVPRベースのローカライゼーション精度を平均30%改善したことを報告した。 CoPRと相対ポース推定の相補的関係についても論じる。

Visual Place Recognition (VPR) is an image-based localization method that estimates the camera location of a query image by retrieving the most similar reference image from a map of geo-tagged reference images. In this work, we look into two fundamental bottlenecks for its localization accuracy: reference map sparseness and viewpoint invariance. Firstly, the reference images for VPR are only available at sparse poses in a map, which enforces an upper bound on the maximum achievable localization accuracy through VPR. We therefore propose Continuous Place-descriptor Regression (CoPR) to densify the map and improve localization accuracy. We study various interpolation and extrapolation models to regress additional VPR feature descriptors from only the existing references. Secondly, we compare different feature encoders and show that CoPR presents value for all of them. We evaluate our models on three existing public datasets and report on average around 30% improvement in VPR-based localization accuracy using CoPR, on top of the 15% increase by using a viewpoint-variant loss for the feature encoder. The complementary relation between CoPR and Relative Pose Estimation is also discussed.
翻訳日:2023-04-18 19:11:37 公開日:2023-04-14
# 多様な品質種による品質・多様性の効率的な最適化

Efficient Quality-Diversity Optimization through Diverse Quality Species ( http://arxiv.org/abs/2304.07425v1 )

ライセンス: Link先を確認
Ryan Wickman, Bibek Poudel, Michael Villarreal, Xiaofei Zhang, Weizi Li(参考訳) 単一の目的に対して最適化することの一般的な制限は、誤って誘導され、局所的最適化に閉じ込められることである。 これは品質多様性(qd)アルゴリズムによって正すことができ、そこでは問題に対する高品質で多様な解決策の集団が望ましい。 MAP-Elitesのような従来のQDアプローチは、ソリューションが事前に定義されたニッチに分解される行動アーカイブを明示的に管理する。 本研究では,アーカイブの必要性や行動範囲を事前に定義することなく,多様な解決方法を見出すことができることを示す。 代わりに、ソリューションを独立して進化する種に分解し、教師なしのスキル発見を使って、多様でハイパフォーマンスなソリューションを学びます。 相互情報と性能を最大化するための情報理論的な視点を取り入れた勾配に基づく突然変異によってこれを実現できることを示す。 本稿では,アーカイブベースのQDアルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。 いくつかの模擬ロボット環境にまたがって評価を行い,様々な種から多様な解を学習できることを実証した。 さらに, dqsは他のqdアルゴリズムと比較してサンプル効率が高く, 性能も高いことを示した。 関連コードとハイパーパラメータは以下の通りである。

A prevalent limitation of optimizing over a single objective is that it can be misguided, becoming trapped in local optimum. This can be rectified by Quality-Diversity (QD) algorithms, where a population of high-quality and diverse solutions to a problem is preferred. Most conventional QD approaches, for example, MAP-Elites, explicitly manage a behavioral archive where solutions are broken down into predefined niches. In this work, we show that a diverse population of solutions can be found without the limitation of needing an archive or defining the range of behaviors in advance. Instead, we break down solutions into independently evolving species and use unsupervised skill discovery to learn diverse, high-performing solutions. We show that this can be done through gradient-based mutations that take on an information theoretic perspective of jointly maximizing mutual information and performance. We propose Diverse Quality Species (DQS) as an alternative to archive-based QD algorithms. We evaluate it over several simulated robotic environments and show that it can learn a diverse set of solutions from varying species. Furthermore, our results show that DQS is more sample-efficient and performant when compared to other QD algorithms. Relevant code and hyper-parameters are available at: https://github.com/rwickman/NEAT_RL.
翻訳日:2023-04-18 19:11:16 公開日:2023-04-14
# 自然主義運転行動認識のためのピアツーピア連続学習

Peer-to-Peer Federated Continual Learning for Naturalistic Driving Action Recognition ( http://arxiv.org/abs/2304.07421v1 )

ライセンス: Link先を確認
Liangqi Yuan and Yunsheng Ma and Lu Su and Ziran Wang(参考訳) ナチュラティスティック運転行動認識(NDAR)は,運転者の気晴らしを検知し,交通事故のリスクを低減するための有効な方法であることが証明されている。 しかし、車載カメラの侵入的デザインは、運転者のプライバシーに関する懸念を引き起こす。 そこで本研究では,通信,計算,記憶のオーバーヘッドを低減しつつ,プライバシを保証し,学習効率を向上させる,連続学習を備えたp2p(peer-to-peer)フェデレート学習(fl)フレームワークを提案する。 当社のフレームワークは、パーソナライズされた正確なndarモデルの提供を目的として、サーバレスflフレームワークにおけるクライアントの目標への対処にフォーカスしています。 我々は2023年AICity Challengeにおいて、ステートファーム抽出ドライバ検出とトラック3NDARデータセットを含む2つの実世界のNDARデータセット上でのFedPCの性能を実証し、評価した。 実験の結果,従来のc2s (client-to-server) flsと比較して,federcの競争力が強く,その性能,知識普及率,新規クライアントとの互換性が向上した。

Naturalistic driving action recognition (NDAR) has proven to be an effective method for detecting driver distraction and reducing the risk of traffic accidents. However, the intrusive design of in-cabin cameras raises concerns about driver privacy. To address this issue, we propose a novel peer-to-peer (P2P) federated learning (FL) framework with continual learning, namely FedPC, which ensures privacy and enhances learning efficiency while reducing communication, computational, and storage overheads. Our framework focuses on addressing the clients' objectives within a serverless FL framework, with the goal of delivering personalized and accurate NDAR models. We demonstrate and evaluate the performance of FedPC on two real-world NDAR datasets, including the State Farm Distracted Driver Detection and Track 3 NDAR dataset in the 2023 AICity Challenge. The results of our experiments highlight the strong competitiveness of FedPC compared to the conventional client-to-server (C2S) FLs in terms of performance, knowledge dissemination rate, and compatibility with new clients.
翻訳日:2023-04-18 19:10:56 公開日:2023-04-14
# 「Thoughts & Prayers' or ":Heart Reaction: & :Prayer Reaction:'':The Release of New Reactions on CaringBridge Reshaps Supportive Communications during Health Crises」

"Thoughts & Prayers'' or ":Heart Reaction: & :Prayer Reaction:'': How the Release of New Reactions on CaringBridge Reshapes Supportive Communication During Health Crises ( http://arxiv.org/abs/2304.07418v1 )

ライセンス: Link先を確認
C. Estelle Smith, Hannah Miller Hillberg, Zachary Levonian(参考訳) 2009年にFacebookが「いいね!」を導入した後、CaringBridge(非営利団体の健康ジャーナリングプラットフォーム)は2012年にシングルクリックで反応できる「ハート」シンボルを実装した。 2016年、FacebookはLikeを感情に基づく一連の反応に拡大した。 2021年、キャリングブリッジも同様に「Prayer」、「Happy」、「Sad」という3つの新しい反応を追加した。 ユーザ調査(N=808ドル)とインタビュー(N=13ドル)を通じて、このプロダクトのローンチを評価した。 メインストリームのソーシャルメディアと異なり、キャリングブリッジのシングルクリック・ハートは、認識と支持の単純で有意義な表現であると一貫して解釈された。 ほとんどのユーザーは新しい反応を受け入れたが、このプロダクトのローンチはユーザーの認識を変え、健康危機のハイステークスにおける反応の意味と機能に関して大きな意見の相違を引き起こした。 一部のユーザーは、新しい反応が便利で、便利で、介護者の負担を軽減できることに気づき、有意義な表現と真正なケアのコミュニケーションを遮断することで、感情的な危害を引き起こすと感じた。 全体として、これらの結果は、巨人の中で生き残るために必要な小さなソーシャルメディアプラットフォームに対する緊張を表面化し、認知的努力、有意義性、そして様々な形態のコンピュータ・メディア・コミュニケーション(CMC)の効率の間の重要なトレードオフを強調している。 本研究は,(1)カリングブリッジで発生した反応に対するユーザの認識に関する経験的知識,(2)健康志向性cmcを改善するための設計的意味,(3)反応と健康志向性cmcに関する今後の研究を導くための具体的な質問,の3つを提供する。

Following Facebook's introduction of the "Like" in 2009, CaringBridge (a nonprofit health journaling platform) implemented a "Heart" symbol as a single-click reaction affordance in 2012. In 2016, Facebook expanded its Like into a set of emotion-based reactions. In 2021, CaringBridge likewise added three new reactions: "Prayer", "Happy", and "Sad." Through user surveys ($N=808$) and interviews ($N=13$), we evaluated this product launch. Unlike Likes on mainstream social media, CaringBridge's single-click Heart was consistently interpreted as a simple, meaningful expression of acknowledgement and support. Although most users accepted the new reactions, the product launch transformed user perceptions of the feature and ignited major disagreement regarding the meanings and functions of reactions in the high stakes context of health crises. Some users found the new reactions to be useful, convenient, and reducing of caregiver burden; others felt they cause emotional harms by stripping communication of meaningful expression and authentic care. Overall, these results surface tensions for small social media platforms that need to survive amidst giants, as well as highlighting crucial trade-offs between the cognitive effort, meaningfulness, and efficiency of different forms of Computer-Mediated Communication (CMC). Our work provides three contributions to support researchers and designers in navigating these tensions: (1) empirical knowledge of how users perceived the reactions launch on CaringBridge; (2) design implications for improving health-focused CMC; and (3) concrete questions to guide future research into reactions and health-focused CMC.
翻訳日:2023-04-18 19:10:36 公開日:2023-04-14
# ゼロショットパーソナライズのためのテキスト条件付きコンテキスト化アバター

Text-Conditional Contextualized Avatars For Zero-Shot Personalization ( http://arxiv.org/abs/2304.07410v1 )

ライセンス: Link先を確認
Samaneh Azadi, Thomas Hayes, Akbar Shah, Guan Pang, Devi Parikh, Sonal Gupta(参考訳) 近年の大規模テキスト・画像生成モデルでは,合成画像の品質,リアリズム,多様性が大幅に向上し,ユーザが言語で生成したコンテンツを制御できるようになった。 しかし、これらの生成モデルのパーソナライゼーションの側面は依然として困難であり、未熟である。 本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。 私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターをトレーニングする必要はまったくありません。 与えられたテキストプロンプトに忠実なポーズでアバターを描画するために,人工ポーズの大規模データセットを訓練した新しいテキストから3dポーズ拡散モデルを提案する。 大規模な画像データセットを活用して人間の3Dポーズパラメータを学習し、モーションキャプチャデータセットの限界を克服する方法を初めて示す。

Recent large-scale text-to-image generation models have made significant improvements in the quality, realism, and diversity of the synthesized images and enable users to control the created content through language. However, the personalization aspect of these generative models is still challenging and under-explored. In this work, we propose a pipeline that enables personalization of image generation with avatars capturing a user's identity in a delightful way. Our pipeline is zero-shot, avatar texture and style agnostic, and does not require training on the avatar at all - it is scalable to millions of users who can generate a scene with their avatar. To render the avatar in a pose faithful to the given text prompt, we propose a novel text-to-3D pose diffusion model trained on a curated large-scale dataset of in-the-wild human poses improving the performance of the SOTA text-to-motion models significantly. We show, for the first time, how to leverage large-scale image datasets to learn human 3D pose parameters and overcome the limitations of motion capture datasets.
翻訳日:2023-04-18 19:10:02 公開日:2023-04-14
# 自律運転における sim2real transfer のプラットフォームに依存しない深層強化学習フレームワーク

A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer in Autonomous Driving ( http://arxiv.org/abs/2304.08235v1 )

ライセンス: Link先を確認
Dianzhao Li and Ostap Okhrin(参考訳) 深層強化学習(drl)は,様々な研究分野にわたる複雑な課題の解決に顕著な成功を収めている。 しかし,drlエージェントを現実世界に移すことはシミュレーションと現実の間に大きな差異があるため,依然として困難である。 この問題に対処するために、プラットフォームに依存した認識モジュールを活用してタスク関連情報を抽出し、車線追従エージェントをシミュレーションで訓練する堅牢なDRLフレームワークを提案する。 このフレームワークは、DRLエージェントを最小限の労力で、新しいシミュレーション環境と現実世界にシームレスに転送することを可能にする。 シミュレーションと実世界の両方において,様々な運転シナリオにおけるエージェントの性能を評価し,シミュレーションにおいて人間の選手とpidベースラインと比較する。 提案するフレームワークは,異なるプラットフォーム間のギャップとsim2realギャップを大幅に削減し,シミュレーションと実世界で同様の性能を実現し,車両を効果的に駆動する。

Deep Reinforcement Learning (DRL) has shown remarkable success in solving complex tasks across various research fields. However, transferring DRL agents to the real world is still challenging due to the significant discrepancies between simulation and reality. To address this issue, we propose a robust DRL framework that leverages platform-dependent perception modules to extract task-relevant information and train a lane-following and overtaking agent in simulation. This framework facilitates the seamless transfer of the DRL agent to new simulated environments and the real world with minimal effort. We evaluate the performance of the agent in various driving scenarios in both simulation and the real world, and compare it to human players and the PID baseline in simulation. Our proposed framework significantly reduces the gaps between different platforms and the Sim2Real gap, enabling the trained agent to achieve similar performance in both simulation and the real world, driving the vehicle effectively.
翻訳日:2023-04-18 15:28:49 公開日:2023-04-14
# 鉄道車両の軸受欠陥検出のための新しい特徴

Novel features for the detection of bearing faults in railway vehicles ( http://arxiv.org/abs/2304.08249v1 )

ライセンス: Link先を確認
Matthias Kreuzer, Alexander Schmidt, Walter Kellermann(参考訳) 本稿では,振動信号から軸受故障を検出するという課題について述べる。 このため、過去にはすでにいくつかの時間領域と周波数領域の機能が提案されている。 しかし、これらの特徴は通常、比較的単純なシナリオに由来するデータに基づいて評価され、より現実的なシナリオを考慮すると、大きなパフォーマンス損失が観測される。 これを解決するために,Mel-Frequency Cepstral Coefficients (MFCCs) とAmplitude Modulation Spectrogram (AMS) から抽出した特徴を軸受欠陥の検出の特徴として紹介する。 AMSとMFCCは、もともと音声信号処理の文脈で導入されたものであるが、これらの特徴を用いて分類性能を大幅に改善できることが示されている。 さらに,障害検出の文脈における特徴的データ不均衡問題,すなわち,損傷した軸受よりも健康な軸受のデータの方がはるかに多い場合,健康な軸受のデータのみを用いて,一級の \ac{svm} を訓練することを提案する。 ベアリング障害は、異常値の検出によって分類される。 本手法は,産業用電力変換器によって供給され,負荷機に結合された最先端の通勤用鉄道エンジンを含む高度に困難なシナリオで測定されたデータを用いて評価する。

{In this paper, we address the challenging problem of detecting bearing faults from vibration signals. For this, several time- and frequency-domain features have been proposed already in the past. However, these features are usually evaluated on data originating from relatively simple scenarios and a significant performance loss can be observed if more realistic scenarios are considered. To overcome this, we introduce Mel-Frequency Cepstral Coefficients (MFCCs) and features extracted from the Amplitude Modulation Spectrogram (AMS) as features for the detection of bearing faults. Both AMS and MFCCs were originally introduced in the context of audio signal processing but it is demonstrated that a significantly improved classification performance can be obtained by using these features. Furthermore, to tackle the characteristic data imbalance problem in the context of bearing fault detection, i.e., typically much more data from healthy bearings than from damaged bearings is available, we propose to train a One-class \ac{SVM} with data from healthy bearings only. Bearing faults are then classified by the detection of outliers. Our approach is evaluated with data measured in a highly challenging scenario comprising a state-of-the-art commuter railway engine which is supplied by an industrial power converter and coupled to a load machine.
翻訳日:2023-04-18 15:19:24 公開日:2023-04-14
# MedAlpaca - 医療会話型AIモデルとトレーニングデータのオープンソースコレクション

MedAlpaca -- An Open-Source Collection of Medical Conversational AI Models and Training Data ( http://arxiv.org/abs/2304.08247v1 )

ライセンス: Link先を確認
Tianyu Han and Lisa C. Adams and Jens-Michalis Papaioannou and Paul Grundmann and Tom Oberhauser and Alexander L\"oser and Daniel Truhn and Keno K. Bressem(参考訳) openaiのgptシリーズのような大規模言語モデル(llm)が進歩を続けるにつれ、人工知能の応用がますます広範囲に及んだ。 医学では、これらのLSMは医療ワークフロー、診断、患者ケア、教育を改善するためのかなりの約束を持っている。 しかし、患者プライバシを保護するためにオンプレミスにデプロイできるオープンソースモデルが緊急に必要である。 本研究では,有効な医療応用のために,特にllmを微調整した16万以上のエントリからなる革新的なデータセットを提案する。 これらのデータセットの微調整が,事前学習されたllmに与える影響について検討し,その後,医師が認定に合格しなければならない検査に関する微調整モデルに対して,事前学習モデルの性能を比較検討した。

As large language models (LLMs) like OpenAI's GPT series continue to make strides, we witness the emergence of artificial intelligence applications in an ever-expanding range of fields. In medicine, these LLMs hold considerable promise for improving medical workflows, diagnostics, patient care, and education. Yet, there is an urgent need for open-source models that can be deployed on-premises to safeguard patient privacy. In our work, we present an innovative dataset consisting of over 160,000 entries, specifically crafted to fine-tune LLMs for effective medical applications. We investigate the impact of fine-tuning these datasets on publicly accessible pre-trained LLMs, and subsequently, we juxtapose the performance of pre-trained-only models against the fine-tuned models concerning the examinations that future medical doctors must pass to achieve certification.
翻訳日:2023-04-18 15:18:59 公開日:2023-04-14
# API-Bank: ツール拡張LDMのベンチマーク

API-Bank: A Benchmark for Tool-Augmented LLMs ( http://arxiv.org/abs/2304.08244v1 )

ライセンス: Link先を確認
Minghao Li, Feifan Song, Bowen Yu, Haiyang Yu, Zhoujun Li, Fei Huang, Yongbin Li(参考訳) 近年の研究では、LLM(Large Language Models)が、文脈処理能力を改善するために外部ツールを利用することが示されており、純粋な言語モデリングパラダイムから離れ、人工知能への道が開けている。 それにもかかわらず、人間の指示に反応するツールを用いたLCMの有効性を示す体系的な評価が欠如している。 本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには53の一般的なAPIツール、ツール拡張LLMワークフロー、合計568のAPIコールを含む264の注釈付き対話が含まれている。 これらのリソースは、ステップバイステップのAPI呼び出しを計画し、関連するAPIを検索し、ヒューマンニーズを満たすためのAPI呼び出しを正しく実行するLLMの能力を、徹底的に評価するために設計されている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。 それでも、人間のパフォーマンスと比較すると、さらなる改善の余地がある。 さらに、詳細なエラー分析とケーススタディにより、ツール拡張LDMが日常的に利用可能であること、そして将来の研究が取り組むべき主な課題が示される。

Recent research has shown that Large Language Models (LLMs) can utilize external tools to improve their contextual processing abilities, moving away from the pure language modeling paradigm and paving the way for Artificial General Intelligence. Despite this, there has been a lack of systematic evaluation to demonstrate the efficacy of LLMs using tools to respond to human instructions. This paper presents API-Bank, the first benchmark tailored for Tool-Augmented LLMs. API-Bank includes 53 commonly used API tools, a complete Tool-Augmented LLM workflow, and 264 annotated dialogues that encompass a total of 568 API calls. These resources have been designed to thoroughly evaluate LLMs' ability to plan step-by-step API calls, retrieve relevant APIs, and correctly execute API calls to meet human needs. The experimental results show that GPT-3.5 emerges the ability to use the tools relative to GPT3, while GPT-4 has stronger planning performance. Nevertheless, there remains considerable scope for further improvement when compared to human performance. Additionally, detailed error analysis and case studies demonstrate the feasibility of Tool-Augmented LLMs for daily use, as well as the primary challenges that future research needs to address.
翻訳日:2023-04-18 15:18:20 公開日:2023-04-14
# 確率的コード生成

Stochastic Code Generation ( http://arxiv.org/abs/2304.08243v1 )

ライセンス: Link先を確認
Swapnil Sharma, Nikita Anand, Kranthi Kiran G. V(参考訳) コード生成のために事前学習された大規模言語モデルは高品質なショートコードを生成するが、一貫性のある長いコードを生成し、高レベルまたはシステムレベルの仕様を理解するのに苦労することが多い。 この問題はまた、長いテキスト生成のための言語モデリングでも観察され、提案されている解決策の一つは潜在確率過程の使用である。 このアプローチでは、ドキュメントプランを生成し、それと一貫性のあるテキストを生成する。 本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。 提案するエンコーダとデコーダを,事前学習した GPT-2 ベースの CodeParrot モデルに基づいて,トレーニングにAPPS データセットを利用する。 この結果についてhumanevalベンチマークを用いて評価し,改良した時間制御モデルがcodeparrotと同様に動作することを確認した。

Large language models pre-trained for code generation can generate high-quality short code but often struggle with generating coherent long code and understanding higher-level or system-level specifications. This issue is also observed in language modeling for long text generation, and one proposed solution is the use of a latent stochastic process. This approach involves generating a document plan and then producing text that is consistent with it. In this study, we investigate whether this technique can be applied to code generation to improve coherence. We base our proposed encoder and decoder on the pre-trained GPT-2 based CodeParrot model and utilize the APPS dataset for training. We evaluate our results using the HumanEval benchmark and observe that the modified Time Control model performs similarly to CodeParrot on this evaluation.
翻訳日:2023-04-18 15:18:00 公開日:2023-04-14
# テクストエッジを用いたネットワークのクラスタリングと表現のためのdeep latent position topic model

The Deep Latent Position Topic Model for Clustering and Representation of Networks with Textual Edges ( http://arxiv.org/abs/2304.08242v1 )

ライセンス: Link先を確認
R\'emi Boutin, Pierre Latouche, Charles Bouveyron(参考訳) 他のユーザが公開するテキストコンテンツを共有することにつながる数値的なインタラクションは、ノードに個人が関連づけられ、エッジで交換されたテキストが生成されるネットワークによって自然に表現される。 このような不均一で複雑なデータ構造を理解するには、ノードを均質なグループにクラスタリングし、データの理解可能な視覚化を強制される。 両問題に対処するために,変分グラフオートエンコーダアプローチに基づくモデルベースのクラスタリング戦略であるDeep-LPTMと,議論のトピックを特徴付ける確率的モデルを導入する。 Deep-LPTMは2つの埋め込み空間にノードとエッジの合同表現を構築することができる。 パラメータは変分推論アルゴリズムを用いて推定される。 また,クラスタリングと可視化特性を考慮したモデル選択のためのモデル選択基準であるic2lについても紹介する。 合成データに関する広範なベンチマーク研究が提供されている。 特に、Deep-LPTMは最先端のETSBMやSTBMよりもノードの分割を回復する。 最終的に、Enron社のEメールは分析され、結果の視覚化が行われ、グラフ構造の意義あるハイライトが示される。

Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering nodes into homogeneous groups as well as rendering a comprehensible visualisation of the data is mandatory. To address both issues, we introduce Deep-LPTM, a model-based clustering strategy relying on a variational graph auto-encoder approach as well as a probabilistic model to characterise the topics of discussion. Deep-LPTM allows to build a joint representation of the nodes and of the edges in two embeddings spaces. The parameters are inferred using a variational inference algorithm. We also introduce IC2L, a model selection criterion specifically designed to choose models with relevant clustering and visualisation properties. An extensive benchmark study on synthetic data is provided. In particular, we find that Deep-LPTM better recovers the partitions of the nodes than the state-of-the art ETSBM and STBM. Eventually, the emails of the Enron company are analysed and visualisations of the results are presented, with meaningful highlights of the graph structure.
翻訳日:2023-04-18 15:17:45 公開日:2023-04-14
# ks-gnnexplainer:組織病理像のインスタンス説明による大域的モデル解釈

KS-GNNExplainer: Global Model Interpretation Through Instance Explanations On Histopathology images ( http://arxiv.org/abs/2304.08240v1 )

ライセンス: Link先を確認
Sina Abdous, Reza Abdollahzadeh, Mohammad Hossein Rohban(参考訳) インスタンスレベルのグラフニューラルネットワーク説明器は、そのようなネットワークを病理画像で説明するのに有用であることが証明されている。 しかし、同じクラス内のサンプル間で共通のパターンであるモデル説明を提供する方法はほとんどなかった。 グラフに基づく病理組織学的画像解析は,このような説明から有益であると考えられる。 一方、現在のモデルレベルの説明は、実世界で生成されたグラフに対応する画像がないため、この領域では適用できないグラフ生成法に基づいている。 したがって、そのような説明は専門家に伝えられる。 このビジョンに従うために、私たちはKS-GNNExplainerを開発した。KS-GNNExplainerは、現在のインスタンスレベルのアプローチを効果的に活用し、より情報的で信頼性の高い説明可能な出力を提供する。 様々なデータセットに関する実験および量的・質的尺度に基づいて,提案する説明器がグローバルパターン抽出器であり,この領域における現在のインスタンスレベルのアプローチの基本的な限界であることを示す。

Instance-level graph neural network explainers have proven beneficial for explaining such networks on histopathology images. However, there has been few methods that provide model explanations, which are common patterns among samples within the same class. We envision that graph-based histopathological image analysis can benefit significantly from such explanations. On the other hand, current model-level explainers are based on graph generation methods that are not applicable in this domain because of no corresponding image for their generated graphs in real world. Therefore, such explanations are communicable to the experts. To follow this vision, we developed KS-GNNExplainer, the first instance-level graph neural network explainer that leverages current instance-level approaches in an effective manner to provide more informative and reliable explainable outputs, which are crucial for applied AI in the health domain. Our experiments on various datasets, and based on both quantitative and qualitative measures, demonstrate that the proposed explainer is capable of being a global pattern extractor, which is a fundamental limitation of current instance-level approaches in this domain.
翻訳日:2023-04-18 15:17:25 公開日:2023-04-14
# RF-GNN:社会的ボット検出のためのランダムフォレスト強化グラフニューラルネットワーク

RF-GNN: Random Forest Boosted Graph Neural Network for Social Bot Detection ( http://arxiv.org/abs/2304.08239v1 )

ライセンス: Link先を確認
Shuhao Shi, Kai Qiao, Jie Yang, Baojie Song, Jian Chen, Bin Yan(参考訳) ソーシャルメディア上に多数のボットが存在することは、有害な影響をもたらす。 ランダムフォレストアルゴリズムはボット検出に広く使われており、弱い分類器の性能を大幅に向上させることができるが、アカウント間の相互作用は利用できない。 本稿では、ランダムな森林構築のためにグラフニューラルネットワーク(GNN)をベース分類器として利用し、アンサンブル学習とGNNの利点を効果的に組み合わせ、モデルの精度と堅牢性を向上する、社会的ボット検出のためのランダムフォレスト強化グラフニューラルネットワーク(RF-GNN)を提案する。 具体的には、ノードサンプリング、特徴選択、エッジドロップアウトを通じて、異なるトレーニングセットとして異なるサブグラフを構築する。 次に、GNNベース分類器を様々なサブグラフを用いて訓練し、残りの特徴をFCN(Fully Connected Netural Network)のトレーニングに利用する。 GNNとFCNの出力は各ブランチに整列される。 最後に、すべてのブランチの出力を集約して最終結果を生成する。 さらに、RF-GNNはノード分類のために広く使われているGNNと互換性がある。 提案手法は,他の最先端手法よりも優れた性能が得られることを示す。

The presence of a large number of bots on social media leads to adverse effects. Although Random forest algorithm is widely used in bot detection and can significantly enhance the performance of weak classifiers, it cannot utilize the interaction between accounts. This paper proposes a Random Forest boosted Graph Neural Network for social bot detection, called RF-GNN, which employs graph neural networks (GNNs) as the base classifiers to construct a random forest, effectively combining the advantages of ensemble learning and GNNs to improve the accuracy and robustness of the model. Specifically, different subgraphs are constructed as different training sets through node sampling, feature selection, and edge dropout. Then, GNN base classifiers are trained using various subgraphs, and the remaining features are used for training Fully Connected Netural Network (FCN). The outputs of GNN and FCN are aligned in each branch. Finally, the outputs of all branches are aggregated to produce the final result. Moreover, RF-GNN is compatible with various widely-used GNNs for node classification. Extensive experimental results demonstrate that the proposed method obtains better performance than other state-of-the-art methods.
翻訳日:2023-04-18 15:17:05 公開日:2023-04-14
# SpectFormer: Vision Transformerに必要な周波数と注意

SpectFormer: Frequency and Attention is what you need in a Vision Transformer ( http://arxiv.org/abs/2304.06446v2 )

ライセンス: Link先を確認
Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran(参考訳) 視覚トランスフォーマーは画像認識タスクにうまく適用されている。 マルチヘッド・セルフ・アテンション・ベース(vit \cite{dosovitskiy2020image}, deit, \cite{touvron2021training})は、テキストモデルや近年のスペクトル層に基づくものと同様のものである(fnet\cite{lee2021fnet}, gfnet\cite{rao2021global}, afno\cite{guibas2021 efficient})。 スペクトルとマルチヘッドの両方が大きな役割を果たすと仮定する。 この研究を通じてこの仮説を検証し、スペクトル層とマルチヘッドアテンション層の組み合わせにより、より優れたトランスフォーマーアーキテクチャが得られることを確かめる。 そこで本稿では,スペクトル層とマルチヘッド層を組み合わせた新しい変換器のSpectformerアーキテクチャを提案する。 その結果、トランスフォーマティブは特徴表現を適切に捉えることができ、他のトランスフォーマティブ表現よりもパフォーマンスが向上すると信じている。 例えば、GFNet-HとLiTと比較して、ImageNetでトップ1の精度を2倍改善する。 SpectFormer-S は ImageNet-1K の 84.25\% のトップ-1 に到達した。 さらにspectformer-lは85.7\%を達成しており、これはトランスフォーマーのベースバージョンに匹敵する技術である。 さらに、CIFAR-10、CIFAR-100、Oxford-IIIT-flower、Standford Carデータセットなどの標準データセットの転送学習など、他のシナリオで妥当な結果が得られることを保証します。 次に、オブジェクト検出やMS-COCOデータセットのインスタンスセグメンテーションなどの下流タスクでの利用を調査し、Spectformerが最高のバックボーンに匹敵する一貫性のあるパフォーマンスを示し、さらなる最適化と改善が可能であることを観察する。 したがって、視覚変換器にはスペクトル層と注意層が混在していると考えられる。

Vision transformers have been applied successfully for image recognition tasks. There have been either multi-headed self-attention based (ViT \cite{dosovitskiy2020image}, DeIT, \cite{touvron2021training}) similar to the original work in textual models or more recently based on spectral layers (Fnet\cite{lee2021fnet}, GFNet\cite{rao2021global}, AFNO\cite{guibas2021efficient}). We hypothesize that both spectral and multi-headed attention plays a major role. We investigate this hypothesis through this work and observe that indeed combining spectral and multi-headed attention layers provides a better transformer architecture. We thus propose the novel Spectformer architecture for transformers that combines spectral and multi-headed attention layers. We believe that the resulting representation allows the transformer to capture the feature representation appropriately and it yields improved performance over other transformer representations. For instance, it improves the top-1 accuracy by 2\% on ImageNet compared to both GFNet-H and LiT. SpectFormer-S reaches 84.25\% top-1 accuracy on ImageNet-1K (state of the art for small version). Further, Spectformer-L achieves 85.7\% that is the state of the art for the comparable base version of the transformers. We further ensure that we obtain reasonable results in other scenarios such as transfer learning on standard datasets such as CIFAR-10, CIFAR-100, Oxford-IIIT-flower, and Standford Car datasets. We then investigate its use in downstream tasks such of object detection and instance segmentation on the MS-COCO dataset and observe that Spectformer shows consistent performance that is comparable to the best backbones and can be further optimized and improved. Hence, we believe that combined spectral and attention layers are what are needed for vision transformers.
翻訳日:2023-04-18 11:38:49 公開日:2023-04-14
# 楕円対称性のロバストなテスト

A Robust Test for Elliptical Symmetry ( http://arxiv.org/abs/2006.03311v4 )

ライセンス: Link先を確認
Ilya Soloveychik(参考訳) ほとんどの信号処理と統計応用は、特定のデータ分散モデルに大きく依存している。 ガウス分布は、最も一般的な選択であるが、多くの現実のシナリオでは、重い尾を持つ集団から来るデータや、オフレイアによって汚染されるデータを説明できないため、不十分である。 このような問題はロバスト統計学の利用を要求する。 ロバストモデルと推定子は通常楕円型人口に基づいており、後者はロバスト統計のあらゆる方法においてユビキタスである。 特定の場合に適用できるかどうかを判定するために、楕円性仮説の検証に適合性試験(goodness-of-fit, gof)を用いる。 楕円性GoFテストは通常分析が困難であり、統計力は特に強くないことが多い。 この研究において、真の共分散行列が未知であると仮定すると、単位球面上の楕円性に対するすべての代替に矛盾しないロバストなGoFテストの設計と厳密な解析を行う。 提案したテストはタイラーの推定値に基づいており、データの計算が容易な統計量で定式化されている。 厳密な解析のために、デ・フィネッティが導入した交換可能な確率変数計算に基づく新しいフレームワークを開発する。 本研究は,他のGoF試験と比較した数値シミュレーションにより,提案手法の統計的性能が著しく向上したことを示す。

Most signal processing and statistical applications heavily rely on specific data distribution models. The Gaussian distributions, although being the most common choice, are inadequate in most real world scenarios as they fail to account for data coming from heavy-tailed populations or contaminated by outliers. Such problems call for the use of Robust Statistics. The robust models and estimators are usually based on elliptical populations, making the latter ubiquitous in all methods of robust statistics. To determine whether such tools are applicable in any specific case, goodness-of-fit (GoF) tests are used to verify the ellipticity hypothesis. Ellipticity GoF tests are usually hard to analyze and often their statistical power is not particularly strong. In this work, assuming the true covariance matrix is unknown we design and rigorously analyze a robust GoF test consistent against all alternatives to ellipticity on the unit sphere. The proposed test is based on Tyler's estimator and is formulated in terms of easily computable statistics of the data. For its rigorous analysis, we develop a novel framework based on the exchangeable random variables calculus introduced by de Finetti. Our findings are supported by numerical simulations comparing them to other popular GoF tests and demonstrating the significantly higher statistical power of the suggested technique.
翻訳日:2023-04-17 18:04:02 公開日:2023-04-14
# ハイパープレーンでトレーニングされたConvNetのアレンジメント

Hyperplane Arrangements of Trained ConvNets Are Biased ( http://arxiv.org/abs/2003.07797v2 )

ライセンス: Link先を確認
Matteo Gamba, Stefan Carlsson, Hossein Azizpour, M{\aa}rten Bj\"orkman(参考訳) 畳み込み層によって誘導される超平面配置の実験的研究により, 畳み込み層のプレアクティベーション空間において, 訓練されたConvNetsが学習した関数の幾何学的性質について検討した。 トレーニングネットワークの重みに関する統計を導入し、局所的な配置を研究し、それらをトレーニングダイナミクスに関連付ける。 訓練されたコンブネットは、通常の超平面配置に対する統計的に有意な偏りを示す。 さらに, CIFAR10, CIFAR100, ImageNetでトレーニングしたアーキテクチャにおいて, バイアスのある構成を示すレイヤが, 検証性能に重要であることがわかった。

We investigate the geometric properties of the functions learned by trained ConvNets in the preactivation space of their convolutional layers, by performing an empirical study of hyperplane arrangements induced by a convolutional layer. We introduce statistics over the weights of a trained network to study local arrangements and relate them to the training dynamics. We observe that trained ConvNets show a significant statistical bias towards regular hyperplane configurations. Furthermore, we find that layers showing biased configurations are critical to validation performance for the architectures considered, trained on CIFAR10, CIFAR100 and ImageNet.
翻訳日:2023-04-17 18:03:41 公開日:2023-04-14
# リッジ回帰としての時変パラメータ

Time-Varying Parameters as Ridge Regressions ( http://arxiv.org/abs/2009.00401v3 )

ライセンス: Link先を確認
Philippe Goulet Coulombe(参考訳) 時間変化パラメータ(TVP)モデルは、構造変化を捉えるためにしばしば経済学で使用される。 これらは実際にはリッジレグレッションである、かなり未使用の事実を強調します。 これにより、状態空間のパラダイムよりも計算、チューニング、実装がずっと簡単になります。 中でも、等価な二重尾根問題の解法は高次元においても非常に高速であり、重要な「時間変化の量」はクロスバリデーションによって調整される。 進化するボラティリティは2段階のリッジ回帰を用いて処理される。 空間性(アルゴリズムはどのパラメータが変化し、どのパラメータが変化しないかを選択する)と縮小ランク制限(変数は因子モデルに結びついている)を含む拡張を考える。 このアプローチの有用性を実証するために、カナダにおける金融政策の進化を、大きな時間変動地域予測を用いて研究するために使用します。 このアプリケーションは、新しいメソッドの到達範囲内にあるタスクである約4600tvpsの見積もりを必要とする。

Time-varying parameters (TVPs) models are frequently used in economics to capture structural change. I highlight a rather underutilized fact -- that these are actually ridge regressions. Instantly, this makes computations, tuning, and implementation much easier than in the state-space paradigm. Among other things, solving the equivalent dual ridge problem is computationally very fast even in high dimensions, and the crucial "amount of time variation" is tuned by cross-validation. Evolving volatility is dealt with using a two-step ridge regression. I consider extensions that incorporate sparsity (the algorithm selects which parameters vary and which do not) and reduced-rank restrictions (variation is tied to a factor model). To demonstrate the usefulness of the approach, I use it to study the evolution of monetary policy in Canada using large time-varying local projections. The application requires the estimation of about 4600 TVPs, a task well within the reach of the new method.
翻訳日:2023-04-17 17:58:27 公開日:2023-04-14
# 偏微分方程式学習のための物理インフォームドニューラル演算子

Physics-Informed Neural Operator for Learning Partial Differential Equations ( http://arxiv.org/abs/2111.03794v3 )

ライセンス: Link先を確認
Zongyi Li, Hongkai Zheng, Nikola Kovachki, David Jin, Haoxuan Chen, Burigede Liu, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) 本稿では,利用可能なデータと物理制約を用いてパラメトリック偏微分方程式(pde)の解演算子を学習する物理不定形ニューラルネットワーク(pino)を提案する。 このハイブリッドアプローチにより、pinoは純粋データ駆動型および物理ベースの方法の制限を克服することができる。 例えば、データ駆動手法は、データが限られた量と/または品質の場合に学習できず、物理ベースのアプローチは、pde制約に挑戦する最適化に失敗している。 データとPDEの制約を組み合わせることで、PINOはこれらの課題をすべて克服する。 さらに、PINOが他のハイブリッド学習法よりも楽しむユニークな特性は、異なる解像度でデータとPDE制約を組み込む能力である。 これにより,数値解法より安価に得られる粗分解能データを高分解能pde制約と組み合わせることができ,高分解能テストインスタンスにおいてもピノの精度は低下しない。 PINOにおけるこの離散化不変性は、関数空間間のマッピングを学習し、再学習を必要とせずに異なる解像度で評価できるニューラルネットワークフレームワークによるものである。 さらに、PINOはデータがない純粋に物理学的な設定で成功し、一方、Kolmogorovフローのようなマルチスケールの動的システムのような最適化上の課題のために、PNN(Physical-Informed Neural Network)のような他のアプローチは失敗する。 これは、PINNが単一のPDEインスタンスのPDE制約を最適化している間に、複数のインスタンスのPDE制約を最適化することで、PINOがソリューション演算子を学習するためである。 さらに,PINOではFNOアーキテクチャを導入し,数値解法上での次数-次数-次数高速化を実現し,関数空間上の明示的な勾配を効率的に計算する。

In this paper, we propose physics-informed neural operators (PINO) that uses available data and/or physics constraints to learn the solution operator of a family of parametric Partial Differential Equation (PDE). This hybrid approach allows PINO to overcome the limitations of purely data-driven and physics-based methods. For instance, data-driven methods fail to learn when data is of limited quantity and/or quality, and physics-based approaches fail to optimize on challenging PDE constraints. By combining both data and PDE constraints, PINO overcomes all these challenges. Additionally, a unique property that PINO enjoys over other hybrid learning methods is its ability to incorporate data and PDE constraints at different resolutions. This allows us to combine coarse-resolution data, which is inexpensive to obtain from numerical solvers, with higher resolution PDE constraints, and the resulting PINO has no degradation in accuracy even on high-resolution test instances. This discretization-invariance property in PINO is due to neural-operator framework which learns mappings between function spaces and allows evaluation at different resolutions without the need for re-training. Moreover, PINO succeeds in the purely physics setting, where no data is available, while other approaches such as the Physics-Informed Neural Network (PINN) fail due to optimization challenges, e.g. in multi-scale dynamic systems such as Kolmogorov flows. This is because PINO learns the solution operator by optimizing PDE constraints on multiple instances while PINN optimizes PDE constraints of a single PDE instance. Further, in PINO, we incorporate the Fourier neural operator (FNO) architecture which achieves orders-of-magnitude speedup over numerical solvers and also allows us to compute explicit gradients on function spaces efficiently.
翻訳日:2023-04-17 17:34:39 公開日:2023-04-14
# pac-ベイズ学習による2次活性化ニューラルネットワークの表現上の確率

PAC-Bayesian Learning of Aggregated Binary Activated Neural Networks with Probabilities over Representations ( http://arxiv.org/abs/2110.15137v3 )

ライセンス: Link先を確認
Louis Fortier-Dubois, Ga\"el Letarte, Benjamin Leblanc, Fran\c{c}ois Laviolette, Pascal Germain(参考訳) パラメータの確率分布を考慮することは、非微分アクティベーション関数を持つニューラルネットワークを学習するための効率的な戦略として知られている。 本研究では,確率的ニューラルネットワークの予測器としての期待について検討し,実値重みの正規分布を用いた2値活性化ニューラルネットワークの集約に着目した。 我々の研究は、解析式で与えられるような集約の期待出力値に対して、厳密な一般化境界と学習手順を導出するPAC-Bayesianフレームワークに由来する最近の分析を活用している。 後者の組合せの性質は、従来の研究で近似によって回避されてきたが、動的プログラミングのアプローチのおかげで、深いが狭いニューラルネットワークでは正確な計算が計算可能であることを示す。 これにより、フォワードパスは、アクティベーション値の代わりに表現よりも確率を伝搬するバイナリ活性化ニューラルネットワークのための特異な境界最小化学習アルゴリズムが得られる。 幅広いアーキテクチャにスケールする確率的な手法が提案されている。

Considering a probability distribution over parameters is known as an efficient strategy to learn a neural network with non-differentiable activation functions. We study the expectation of a probabilistic neural network as a predictor by itself, focusing on the aggregation of binary activated neural networks with normal distributions over real-valued weights. Our work leverages a recent analysis derived from the PAC-Bayesian framework that derives tight generalization bounds and learning procedures for the expected output value of such an aggregation, which is given by an analytical expression. While the combinatorial nature of the latter has been circumvented by approximations in previous works, we show that the exact computation remains tractable for deep but narrow neural networks, thanks to a dynamic programming approach. This leads us to a peculiar bound minimization learning algorithm for binary activated neural networks, where the forward pass propagates probabilities over representations instead of activation values. A stochastic counterpart that scales to wide architectures is proposed.
翻訳日:2023-04-17 17:34:05 公開日:2023-04-14
# グラフベースの機械学習はジャスト・イン・タイムの欠陥予測を改善する

Graph-Based Machine Learning Improves Just-in-Time Defect Prediction ( http://arxiv.org/abs/2110.05371v3 )

ライセンス: Link先を確認
Jonathan Bryan and Pablo Moriano(参考訳) 今日のソフトウェアの複雑さが増すには、何千もの開発者の貢献が必要です。 この複雑なコラボレーション構造により、開発者はソフトウェア欠陥につながる欠陥が発生しやすい。 これらの欠陥発生率の変化がいつ導入されるか決定することは、難しいこととなり、従来の機械学習(ML)手法を使って意思決定を下すと、高水準に達したようだ。 本研究では、開発者とソースファイルからなるコントリビューショングラフを構築し、ソフトウェア構築に必要な変更の複雑さを捉えます。 これらのコントリビューショングラフを活用することで、Just-In-Time(JIT)欠陥予測を改善するためにグラフベースのMLを使用する可能性を示す。 コントリビューショングラフから抽出した特徴は、ソフトウェア特性から派生した本質的な特徴よりも欠陥発生率の変化の予測因子として優れていると仮定する。 グラフベースのMLを用いて,欠陥確率変化を表すエッジの分類を行う。 JITの欠陥予測問題の新しいフレーミングは、非常に優れた結果をもたらす。 我々は14のオープンソースプロジェクトでこのアプローチをテストし、コード変更がf1スコアが77.55%、マシューズ相関係数(mcc)が53.16%の欠陥につながるかどうかを最良のモデルが予測できることを示した。 これは、最先端のJIT欠陥予測よりも152%高いF1スコアと3%高いMCCを示している。 制限、オープンな課題、そしてこのメソッドがオペレーショナルJIT欠陥予測にどのように使えるかを説明します。

The increasing complexity of today's software requires the contribution of thousands of developers. This complex collaboration structure makes developers more likely to introduce defect-prone changes that lead to software faults. Determining when these defect-prone changes are introduced has proven challenging, and using traditional machine learning (ML) methods to make these determinations seems to have reached a plateau. In this work, we build contribution graphs consisting of developers and source files to capture the nuanced complexity of changes required to build software. By leveraging these contribution graphs, our research shows the potential of using graph-based ML to improve Just-In-Time (JIT) defect prediction. We hypothesize that features extracted from the contribution graphs may be better predictors of defect-prone changes than intrinsic features derived from software characteristics. We corroborate our hypothesis using graph-based ML for classifying edges that represent defect-prone changes. This new framing of the JIT defect prediction problem leads to remarkably better results. We test our approach on 14 open-source projects and show that our best model can predict whether or not a code change will lead to a defect with an F1 score as high as 77.55% and a Matthews correlation coefficient (MCC) as high as 53.16%. This represents a 152% higher F1 score and a 3% higher MCC over the state-of-the-art JIT defect prediction. We describe limitations, open challenges, and how this method can be used for operational JIT defect prediction.
翻訳日:2023-04-17 17:33:21 公開日:2023-04-14
# 超広義ニューラルネットワークにおける変形半円法則と非線形ランダム行列の濃度

Deformed semicircle law and concentration of nonlinear random matrices for ultra-wide neural networks ( http://arxiv.org/abs/2109.09304v3 )

ライセンス: Link先を確認
Zhichao Wang and Yizhe Zhu(参考訳) 本稿では、2層完全連結ニューラルネットワークである$f(x)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top \sigma\left(wx\right)$,ただし$x\in\mathbb{r}^{d_0\times n}$ は決定論的データ行列であり、$w\in\mathbb{r}^{d_1\times d_0}$ および $\boldsymbol{a}\in\mathbb{r}^{d_1}$ はランダムガウス重であり、$\sigma$ は非線形活性化関数である。 実験的共役核 (ck) と神経接核 (ntk) の2つの経験的核行列の限界スペクトル分布について, 線形-幅レジーム (d_1\asymp n$) を超えて検討した。 ここでは、最初のレイヤの幅$d_1$がサンプルサイズ$n$よりもはるかに大きい、$\textit{ultra-wide regime}$に注目します。 X$ と $\sigma$ の適切な仮定の下で、変形半円法則は $d_1/n\to\infty$ と $n\to\infty$ として現れる。 まず、依存性のある一般化されたサンプル共分散行列に対するこの制限則を証明します。 これをニューラルネットワークモデルに指定するために,ランダム重みとリプシッツ活性化関数を有するニューラルネットワークに適した非線形ハンソンライト不等式を提案する。 また、スペクトルノルムにおいて、経験的 CK と NTK の限界核周辺における非漸近的な濃度と、最小固有値の下位境界も示す。 応用として、経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰を制限するのと同じ漸近的性能を達成することを示す。 これにより、対応するカーネル回帰を用いて、ランダムな特徴回帰に対する漸近的トレーニングとテストエラーを計算することができる。

In this paper, we investigate a two-layer fully connected neural network of the form $f(X)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top \sigma\left(WX\right)$, where $X\in\mathbb{R}^{d_0\times n}$ is a deterministic data matrix, $W\in\mathbb{R}^{d_1\times d_0}$ and $\boldsymbol{a}\in\mathbb{R}^{d_1}$ are random Gaussian weights, and $\sigma$ is a nonlinear activation function. We study the limiting spectral distributions of two empirical kernel matrices associated with $f(X)$: the empirical conjugate kernel (CK) and neural tangent kernel (NTK), beyond the linear-width regime ($d_1\asymp n$). We focus on the $\textit{ultra-wide regime}$, where the width $d_1$ of the first layer is much larger than the sample size $n$. Under appropriate assumptions on $X$ and $\sigma$, a deformed semicircle law emerges as $d_1/n\to\infty$ and $n\to\infty$. We first prove this limiting law for generalized sample covariance matrices with some dependency. To specify it for our neural network model, we provide a nonlinear Hanson-Wright inequality that is suitable for neural networks with random weights and Lipschitz activation functions. We also demonstrate non-asymptotic concentrations of the empirical CK and NTK around their limiting kernels in the spectral norm, along with lower bounds on their smallest eigenvalues. As an application, we show that random feature regression induced by the empirical kernel achieves the same asymptotic performance as its limiting kernel regression under the ultra-wide regime. This allows us to calculate the asymptotic training and test errors for random feature regression using the corresponding kernel regression.
翻訳日:2023-04-17 17:32:57 公開日:2023-04-14
# 人工知能によるカスタマイズ製造工場:鍵となる技術、応用、課題

Artificial Intelligence-Driven Customized Manufacturing Factory: Key Technologies, Applications, and Challenges ( http://arxiv.org/abs/2108.03383v2 )

ライセンス: Link先を確認
Jiafu Wan, Xiaomin Li, Hong-Ning Dai, Andrew Kusiak, Miguel Mart\'inez-Garc\'ia, Di Li(参考訳) 大規模なバッチ生産の伝統的な生産パラダイムは、個々の顧客の要求を満たす柔軟性を提供していない。 新しい世代のスマートファクトリは、新しいマルチ変数と小さなバッチでカスタマイズされた生産モードをサポートすることが期待されている。 そのため、人工知能(AI)は、コンピュータ、通信、制御を含む製造および情報通信技術の統合を加速することにより、より高い付加価値製造を可能にしている。 カスタマイズされたスマートファクトリの特徴は、自己受容、運用最適化、動的再構成、インテリジェントな意思決定などである。 ai技術により、製造システムは環境を認識し、外部のニーズに適応し、インテリジェント生産、ネットワークコラボレーション、拡張サービスモデルといったビジネスモデルを含む処理された知識を抽出することができる。 本稿では、カスタマイズ製造(CM)におけるAIの実装に焦点を当てる。 AI駆動のカスタマイズされたスマートファクトリのアーキテクチャが紹介される。 知的製造装置の詳細、知的情報相互作用、フレキシブルな製造ラインの構築について紹介する。 機械学習、マルチエージェントシステム、モノのインターネット、ビッグデータ、クラウドエッジコンピューティングなど、CMで使用可能な最先端のAI技術について調査する。 カスタマイズされたスマートファクトリーのai対応技術は、カスタマイズされたパッケージングのケーススタディで検証される。 実験の結果,AI支援型CMは高い生産柔軟性と効率性を提供することが示された。 CMにおけるAIに関する課題とソリューションについても論じる。

The traditional production paradigm of large batch production does not offer flexibility towards satisfying the requirements of individual customers. A new generation of smart factories is expected to support new multi-variety and small-batch customized production modes. For that, Artificial Intelligence (AI) is enabling higher value-added manufacturing by accelerating the integration of manufacturing and information communication technologies, including computing, communication, and control. The characteristics of a customized smart factory are to include self-perception, operations optimization, dynamic reconfiguration, and intelligent decision-making. The AI technologies will allow manufacturing systems to perceive the environment, adapt to external needs, and extract the processed knowledge, including business models, such as intelligent production, networked collaboration, and extended service models. This paper focuses on the implementation of AI in customized manufacturing (CM). The architecture of an AI-driven customized smart factory is presented. Details of intelligent manufacturing devices, intelligent information interaction, and the construction of a flexible manufacturing line are showcased. The state-of-the-art AI technologies of potential use in CM, i.e., machine learning, multi-agent systems, Internet of Things, big data, and cloud-edge computing are surveyed. The AI-enabled technologies in a customized smart factory are validated with a case study of customized packaging. The experimental results have demonstrated that the AI-assisted CM offers the possibility of higher production flexibility and efficiency. Challenges and solutions related to AI in CM are also discussed.
翻訳日:2023-04-17 17:32:13 公開日:2023-04-14
# 自己注意とドメイン知識を用いた幾何学的組合せ最適化問題の学習

Learning Geometric Combinatorial Optimization Problems using Self-attention and Domain Knowledge ( http://arxiv.org/abs/2107.01759v2 )

ライセンス: Link先を確認
Jaeseung Lee, Woojin Choi, Jibum Kim(参考訳) 組合せ最適化問題(COP)は様々な分野において重要な研究課題である。 近年,深層学習に基づくアプローチを用いてCOPを解く試みが数多く行われている。 本稿では,自己着脱に基づく幾何学に関わるコップを解く新しいニューラルネットワークモデルと,新しい注意機構を提案する。 提案モデルは,エンコーダにおける自己アテンションを用いた幾何を含むCOPのポイント・ツー・ポイント関係を効率的に学習するように設計されている。 モデルがより規則的かつ効果的にシーケンスを学習できるように、あいまいさを低減できる効率的な入出力シーケンス順序付け手法を提案する。 幾何学的COPは満たすべき幾何学的要件を含む。 このデコーダでは,問題の幾何学的要件が満たされない場合に高いペナルティを与えるために,ドメイン知識を用いた新しいマスキング方式を提案する。 提案するニューラルネットは,幾何に関する様々なコップに適用可能な柔軟なフレームワークである。 幾何学を含む3つのCOPモデル(デラウネー三角測量,凸船体,平面トラベリングセールスマン問題)の有効性を示す実験を行った。 実験の結果,提案手法は,これらの問題を解決するための近似解を求める際に,競合性能を示すことがわかった。

Combinatorial optimization problems (COPs) are an important research topic in various fields. In recent times, there have been many attempts to solve COPs using deep learning-based approaches. We propose a novel neural network model that solves COPs involving geometry based on self-attention and a new attention mechanism. The proposed model is designed such that the model efficiently learns point-to-point relationships in COPs involving geometry using self-attention in the encoder. We propose efficient input and output sequence ordering methods that reduce ambiguities such that the model learns the sequences more regularly and effectively. Geometric COPs involve geometric requirements that need to be satisfied. In the decoder, a new masking scheme using domain knowledge is proposed to provide a high penalty when the geometric requirement of the problem is not satisfied. The proposed neural net is a flexible framework that can be applied to various COPs involving geometry. We conduct experiments to demonstrate the effectiveness of the proposed model for three COPs involving geometry: Delaunay triangulation, convex hull, and the planar Traveling Salesman problem. Our experimental results show that the proposed model exhibits competitive performance in finding approximate solutions for solving these problems.
翻訳日:2023-04-17 17:31:52 公開日:2023-04-14
# 変分拡散モデル

Variational Diffusion Models ( http://arxiv.org/abs/2107.00630v6 )

ライセンス: Link先を確認
Diederik P. Kingma, Tim Salimans, Ben Poole, Jonathan Ho(参考訳) 拡散に基づく生成モデルは知覚的に印象的な合成能力を示したが、それらは大きな可能性に基づくモデルにもなり得るだろうか? これを肯定的に答え、標準画像密度推定ベンチマークで最先端の確率を求める拡散に基づく生成モデル群を導入する。 本手法は,他の拡散モデルと異なり,他のモデルと協調してノイズスケジュールの効率的な最適化を可能にする。 拡散されたデータの信号対雑音比の観点から,変分下界(VLB)が著しく短い表現に単純化されることを示し,このモデルクラスの理論的理解を改善した。 この知見を用いて,文献に提案されている複数のモデル間の等価性を証明する。 さらに、連続時間VLBは、終端における信号対雑音比を除いて、ノイズスケジュールに不変であることを示す。 これにより、VLB推定器の分散を最小限に抑えるノイズスケジュールを学習し、より高速な最適化を実現することができる。 これらの進歩とアーキテクチャの改善を組み合わせることで、画像密度推定ベンチマークの最先端の可能性を得ることができ、これらのベンチマークを長年支配してきた自己回帰モデルよりも優れている。 さらに,このモデルをビットバック圧縮方式の一部として用いる方法を示し,理論上最適に近いロスレス圧縮率を示す。 コードはhttps://github.com/google-research/vdmで入手できる。

Diffusion-based generative models have demonstrated a capacity for perceptually impressive synthesis, but can they also be great likelihood-based models? We answer this in the affirmative, and introduce a family of diffusion-based generative models that obtain state-of-the-art likelihoods on standard image density estimation benchmarks. Unlike other diffusion-based models, our method allows for efficient optimization of the noise schedule jointly with the rest of the model. We show that the variational lower bound (VLB) simplifies to a remarkably short expression in terms of the signal-to-noise ratio of the diffused data, thereby improving our theoretical understanding of this model class. Using this insight, we prove an equivalence between several models proposed in the literature. In addition, we show that the continuous-time VLB is invariant to the noise schedule, except for the signal-to-noise ratio at its endpoints. This enables us to learn a noise schedule that minimizes the variance of the resulting VLB estimator, leading to faster optimization. Combining these advances with architectural improvements, we obtain state-of-the-art likelihoods on image density estimation benchmarks, outperforming autoregressive models that have dominated these benchmarks for many years, with often significantly faster optimization. In addition, we show how to use the model as part of a bits-back compression scheme, and demonstrate lossless compression rates close to the theoretical optimum. Code is available at https://github.com/google-research/vdm .
翻訳日:2023-04-17 17:31:34 公開日:2023-04-14
# エネルギーソーティングによるユニタリカップリングクラスタアンサッツの回路深さ低減

Circuit-Depth Reduction of Unitary-Coupled-Cluster Ansatz by Energy Sorting ( http://arxiv.org/abs/2106.15210v2 )

ライセンス: Link先を確認
Yi Fan, Changsu Cao, Xusheng Xu, Zhenyu Li, Dingshun Lv, Man-Hong Yung(参考訳) 量子計算は、量子化学の問題を解決するための革命的なアプローチである。 しかし、現在のノイズの多い中間スケール量子(NISQ)デバイスでは量子資源が限られているため、大規模化学系の量子アルゴリズムは依然として主要な課題である。 本研究では,変分量子固有解法のアルゴリズムにおけるユニタリ結合クラスタ(UCC)とUCCに基づくアンサーゼの回路深さが,エネルギーソート戦略により著しく低減できることを実証する。 具体的には、励起演算子のサブセットは、その合計エネルギーへの寄与に応じて、演算子プールから最初にプレスクリーンされる。 量子回路アンザッツは、最終エネルギーの収束が典型的精度になるまで反復的に構成される。 実証のために、この手法は分子および周期系にうまく適用されている。 特に、元のUCCSD演算子プールの精度を維持しつつ、演算子数の50\%$\sim$98\%の減少を観測する。 この方法は、一般的なパラメトリック変分アンサーゼに簡単に拡張できる。

Quantum computation represents a revolutionary approach for solving problems in quantum chemistry. However, due to the limited quantum resources in the current noisy intermediate-scale quantum (NISQ) devices, quantum algorithms for large chemical systems remains a major task. In this work, we demonstrate that the circuit depth of the unitary coupled cluster (UCC) and UCC-based ansatzes in the algorithm of variational quantum eigensolver can be significantly reduced by an energy-sorting strategy. Specifically, subsets of excitation operators are first pre-screened from the operator pool according to its contribution to the total energy. The quantum circuit ansatz is then iteratively constructed until the convergence of the final energy to a typical accuracy. For demonstration, this method has been successfully applied to molecular and periodic systems. Particularly, a reduction of 50\%$\sim$98\% in the number of operators is observed while retaining the accuracy of the origin UCCSD operator pools. This method can be straightforwardly extended to general parametric variational ansatzes.
翻訳日:2023-04-17 17:31:13 公開日:2023-04-14
# 量子情報を用いた強局所受動状態の実験的活性化

Experimental Activation of Strong Local Passive States with Quantum Information ( http://arxiv.org/abs/2203.16269v2 )

ライセンス: Link先を確認
Nayeli A. Rodr\'iguez-Briones, Hemant Katiyar, Eduardo Mart\'in-Mart\'inez, Raymond Laflamme(参考訳) 強い局所通過性は、エネルギーを局所的に取り出すことができない多成分量子系の特性である。 驚くべきことに、強い局所受動的状態が絡み合っている場合、いわゆる「量子エネルギーテレポーテーション」プロトコルを通じて、システムの異なるパーティション間の古典的な通信を追加することで、局所的にエネルギー密度を活性化することができる。 本稿では,エンタングル状態におけるエネルギー密度の局所的活性化に関する最初の実験観測と,2部量子系における核磁気共鳴を用いた量子エネルギーテレポーテーションプロトコルの実現について報告する。

Strong local passivity is a property of multipartite quantum systems from which it is impossible to extract energy locally. Surprisingly, if the strong local passive state displays entanglement, it could be possible to locally activate energy density by adding classical communication between different partitions of the system, through so-called "quantum energy teleportation" protocols. Here, we report both the first experimental observation of local activation of energy density on an entangled state and the first realization of a quantum energy teleportation protocol using nuclear magnetic resonance on a bipartite quantum system.
翻訳日:2023-04-17 17:24:12 公開日:2023-04-14
# 完全数え上げ統計からの拡散輸送の特異普遍性クラス

Distinct universality classes of diffusive transport from full counting statistics ( http://arxiv.org/abs/2203.09526v3 )

ライセンス: Link先を確認
Sarang Gopalakrishnan, Alan Morningstar, Romain Vasseur, Vedika Khemani(参考訳) 局所保存密度の流体力学的輸送は、多体量子系のダイナミクスを効果的に粗粒的に記述する。 しかし、完全な量子力学は単純化された流体力学の説明以上の構造を含んでいる。 ここでは、同じ流体力学を持つ系が、合成量子系でアクセス可能な実験観測可能な新しいクラス、例えば、系の全ての粒子の同時部位分解スナップショットを測定できるような、異なる動的普遍性クラスに属することが示される。 具体的には、最初のモーメントは線形応答輸送と関連しているが、より高いモーメントはそれ以上であるスピン輸送の全計数統計を研究する。 我々は、xxzスピンチェーンを含む様々な可積分および非可積分な一次元スピンモデルにおけるスピン輸送の全計数統計量の解析理論を提案する。 スピン輸送は平均的に拡散するが、考慮されたモデルにおいて、異なる非ガウス的動的普遍性クラスによって支配される。 鎖の左右半分を異なる磁化密度で生成する構成を考察し、2つの半鎖の間を移動した磁化の確率分布を考察する。 半直線上のランダムウォーク(ランダムウォーク)の観点から,磁化転移の確率分布に対する閉形式式を導出する。 この分布は拡散的カオス系に期待される大縮約形式に強く違反していることを示し、この違反の物理的起源を説明する。 我々は,初期状態が大域均衡に近づくと生じるクロスオーバーについて論じる。 我々の予測は量子ガス顕微鏡や超伝導量子ビットアレイを用いて直接実験することができる。

The hydrodynamic transport of local conserved densities furnishes an effective coarse-grained description of the dynamics of a many-body quantum system. However, the full quantum dynamics contains much more structure beyond the simplified hydrodynamic description. Here we show that systems with the same hydrodynamics can nevertheless belong to distinct dynamical universality classes, as revealed by new classes of experimental observables accessible in synthetic quantum systems, which can, for instance, measure simultaneous site-resolved snapshots of all of the particles in a system. Specifically, we study the full counting statistics of spin transport, whose first moment is related to linear-response transport, but the higher moments go beyond. We present an analytic theory of the full counting statistics of spin transport in various integrable and non-integrable anisotropic one-dimensional spin models, including the XXZ spin chain. We find that spin transport, while diffusive on average, is governed by a distinct non-Gaussian dynamical universality class in the models considered. We consider a setup in which the left and right half of the chain are initially created at different magnetization densities, and consider the probability distribution of the magnetization transferred between the two half-chains. We derive a closed-form expression for the probability distribution of the magnetization transfer, in terms of random walks on the half-line. We show that this distribution strongly violates the large-deviation form expected for diffusive chaotic systems, and explain the physical origin of this violation. We discuss the crossovers that occur as the initial state is brought closer to global equilibrium. Our predictions can directly be tested in experiments using quantum gas microscopes or superconducting qubit arrays.
翻訳日:2023-04-17 17:24:01 公開日:2023-04-14
# リアルタイムニューラルMPC:クアドロレータとアジャイルロボットプラットフォームのためのディープラーニングモデル予測制御

Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms ( http://arxiv.org/abs/2203.07747v4 )

ライセンス: Link先を確認
Tim Salzmann, Elia Kaufmann, Jon Arrizabalaga, Marco Pavone, Davide Scaramuzza, Markus Ryll(参考訳) モデル予測制御(MPC)は、高性能自律システムの組込み制御において一般的なフレームワークとなっている。 しかし, MPCを用いた制御性能向上のためには, 正確な力学モデルが重要である。 リアルタイム操作を維持するため、組込みシステムで使用されるダイナミクスモデルは単純な第一原理モデルに制限されており、その代表力を実質的に制限している。 このような単純なモデルとは対照的に、機械学習アプローチ、特にニューラルネットワークは、複雑な動的効果を正確にモデル化することが示されているが、その大きな計算複雑性は、高速なリアルタイム反復ループと組み合わせるのを妨げている。 本研究では,モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。 我々の実験は、シミュレーションと、高度にアジャイルな四元数プラットフォーム上で実世界で行われ、グラデーションベースのオンライン最適化MPCを用いて、以前不可能だった大規模なモデリング能力を用いて、学習モデルを実行するための記述されたシステムの能力を実証した。 オンライン最適化mpcにおけるニューラルネットワークの以前の実装と比較して、組み込みプラットフォーム上の50hzリアルタイムウィンドウでは、4000倍以上のパラメトリックキャパシティのモデルを活用できる。 さらに,ニューラルネットワークのダイナミクスを伴わない最先端mpcアプローチと比較して,位置追跡誤差を最大82%低減することで,実世界問題に対するフレームワークの実現可能性を示す。

Model Predictive Control (MPC) has become a popular framework in embedded control for high-performance autonomous systems. However, to achieve good control performance using MPC, an accurate dynamics model is key. To maintain real-time operation, the dynamics models used on embedded systems have been limited to simple first-principle models, which substantially limits their representative power. In contrast to such simple models, machine learning approaches, specifically neural networks, have been shown to accurately model even complex dynamic effects, but their large computational complexity hindered combination with fast real-time iteration loops. With this work, we present Real-time Neural MPC, a framework to efficiently integrate large, complex neural network architectures as dynamics models within a model-predictive control pipeline. Our experiments, performed in simulation and the real world onboard a highly agile quadrotor platform, demonstrate the capabilities of the described system to run learned models with, previously infeasible, large modeling capacity using gradient-based online optimization MPC. Compared to prior implementations of neural networks in online optimization MPC we can leverage models of over 4000 times larger parametric capacity in a 50Hz real-time window on an embedded platform. Further, we show the feasibility of our framework on real-world problems by reducing the positional tracking error by up to 82% when compared to state-of-the-art MPC approaches without neural network dynamics.
翻訳日:2023-04-17 17:23:35 公開日:2023-04-14
# 動的交通におけるブレスパラドックス

The Braess Paradox in Dynamic Traffic ( http://arxiv.org/abs/2203.03726v2 )

ライセンス: Link先を確認
Dingyi Zhuang, Yuzhu Huang, Vindula Jayawardana, Jinhua Zhao, Dajiang Suo, Cathy Wu(参考訳) Braess's Paradox (BP) は、既存の道路網に1つ以上の道路を追加することで、交通渋滞が対極的に増加し、全体の交通の流れが遅くなるという観察である。 従来, BP の存在を静的交通割当モデルを用いてモデル化し, ネットワークフロー保存対象のユーザ平衡を解き, 平衡状態を探し出し, 全車両を瞬時に分配する。 このようなアプローチは、車両の挙動や車両とインフラの相互作用など、現実世界の交通の動的な性質を無視している。 そこで本稿では,動的トラフィックにおけるBPの存在を実証的に検証する,動的トラフィックネットワークモデルを提案する。 特に,グリッドネットワークにおける追加経路の影響について,マイクロシミュレーション環境を用いて検討する。 我々は,ネットワークフロー,車両走行時間,ネットワークキャパシティの応答状況,およびbpの発生時期について検討する。

The Braess's Paradox (BP) is the observation that adding one or more roads to the existing road network will counter-intuitively increase traffic congestion and slow down the overall traffic flow. Previously, the existence of the BP is modeled using the static traffic assignment model, which solves for the user equilibrium subject to network flow conservation to find the equilibrium state and distributes all vehicles instantaneously. Such approach neglects the dynamic nature of real-world traffic, including vehicle behaviors and the interaction between vehicles and the infrastructure. As such, this article proposes a dynamic traffic network model and empirically validates the existence of the BP under dynamic traffic. In particular, we use microsimulation environment to study the impacts of an added path on a grid network. We explore how the network flow, vehicle travel time, and network capacity respond, as well as when the BP will occur.
翻訳日:2023-04-17 17:23:12 公開日:2023-04-14
# 単一原子ビームスプリッタを用いた強相互作用フォトニック量子ウォーク

A strongly interacting photonic quantum walk using single atom beam splitters ( http://arxiv.org/abs/2201.11301v3 )

ライセンス: Link先を確認
Xinyuan Zheng, Edo Waks(参考訳) フォトニクスは、量子ウォーク(古典的ランダムウォークの量子類似体)を実装するための効率的な方法を提供する。 しかし、ほとんどのフォトニック量子ウォークは光子相互作用を含まないため、光の強い相関多体物理学を探求する可能性を制限する。 単一原子ビームスプリッタのネットワークを用いた強い相互作用を持つ離散時間フォトニック量子ウォークを提案する。 2つの光子の場合の量子ウォークの出力統計を計算し、光子の強相関輸送を明らかにする。 特に、このウォークは、2光子検出時間間隔を後選択することで調整可能なボソン様またはフェルミオン様の統計を示すことができる。 また、ウォークは異なるタイプの2光子境界状態を特定の条件下で異なる出力ポートに分類することができる。 これらのユニークな現象は、我々の量子ウォークが、強く相関する量子多体状態の光を探索する興味深いプラットフォームであることを示している。 最後に, 時間多重化合成次元に基づく実験的実現を提案する。

Photonics provide an efficient way to implement quantum walks, the quantum analogue of classical random walk that demonstrates rich physics with potential applications. However, most photonic quantum walks do not involve photon interactions, which limits their potential to explore strongly-correlated many-body physics of light. We propose a strongly interacting discrete-time photonic quantum walk using a network of single atom beamsplitters. We calculate output statistics of the quantum walk for the case of two photons, which reveals the strongly-correlated transport of photons. Particularly, the walk can exhibit either boson-like or fermion-like statistics which is tunable by post-selecting the two-photon detection time interval. Also, the walk can sort different types of two-photon bound states into distinct pairs of output ports under certain conditions. These unique phenomena show that our quantum walk is an intriguing platform to explore strongly-correlated quantum many-body states of light. Finally, we propose an experimental realization based on time-multiplexed synthetic dimensions.
翻訳日:2023-04-17 17:22:57 公開日:2023-04-14
# 学習における再現性

Reproducibility in Learning ( http://arxiv.org/abs/2201.08430v2 )

ライセンス: Link先を確認
Russell Impagliazzo, Rex Lei, Toniann Pitassi, Jessica Sorrell(参考訳) 本稿では,再現可能なアルゴリズムの概念を学習の文脈で紹介する。 再現可能な学習アルゴリズムは、サンプルのバリエーションに耐性があり、高い確率で、同じ基礎となる分布から2つのサンプルを実行すると、全く同じ出力を返す。 まず、定義を解き明かし、ランダム性が正確性と再現性のバランスにどのように寄与するかを明らかにする。 再現性がデータ再利用や効率的なテスト容易性といった望ましい特性をどのように持つかを示す再現性アルゴリズムの理論を開始する。 再現性は非常に強い要求にもかかわらず、統計学や学習におけるいくつかの基本的な問題に対して効率的な再現性アルゴリズムが存在する。 まず,任意の統計的問合せアルゴリズムをサンプルの複雑さを緩やかに増やすことで再現可能とし,これを用いて近似重ヒットと中央値を求める再現可能なアルゴリズムを構築する。 これらのアイデアを用いて,再現可能な弱学習器と再現可能なブースティングアルゴリズムを用いて,ハーフスペースを学習するための最初の再現可能なアルゴリズムを与える。 最後に,再現可能アルゴリズムに対する下限と内在的なトレードオフの研究を開始し,再現可能アルゴリズムと非再現可能sqアルゴリズムを上限と下限でほぼ厳密なサンプル複雑性を与える。

We introduce the notion of a reproducible algorithm in the context of learning. A reproducible learning algorithm is resilient to variations in its samples -- with high probability, it returns the exact same output when run on two samples from the same underlying distribution. We begin by unpacking the definition, clarifying how randomness is instrumental in balancing accuracy and reproducibility. We initiate a theory of reproducible algorithms, showing how reproducibility implies desirable properties such as data reuse and efficient testability. Despite the exceedingly strong demand of reproducibility, there are efficient reproducible algorithms for several fundamental problems in statistics and learning. First, we show that any statistical query algorithm can be made reproducible with a modest increase in sample complexity, and we use this to construct reproducible algorithms for finding approximate heavy-hitters and medians. Using these ideas, we give the first reproducible algorithm for learning halfspaces via a reproducible weak learner and a reproducible boosting algorithm. Finally, we initiate the study of lower bounds and inherent tradeoffs for reproducible algorithms, giving nearly tight sample complexity upper and lower bounds for reproducible versus nonreproducible SQ algorithms.
翻訳日:2023-04-17 17:22:38 公開日:2023-04-14
# 異常検出モデルのロバストトレーニングのための簡潔対数損失関数

Concise Logarithmic Loss Function for Robust Training of Anomaly Detection Model ( http://arxiv.org/abs/2201.05748v2 )

ライセンス: Link先を確認
YeongHyeon Park(参考訳) 近年,タスクのドメイン知識が最小限でなくても,異常検出モデルを構築できるという利点により,ディープラーニングに基づくアルゴリズムが広く採用されている。 代わりに、ニューラルネットワークのトレーニングをより安定させるには、適切なニューラルネットワーク構造や損失関数を定義する方がよいでしょう。 トレーニング異常検出モデルでは,平均二乗誤差(MSE)関数が広く採用されている。 一方,新たな損失関数である対数平均二乗誤差(LMSE)は,ニューラルネットワークをより安定に訓練するために提案されている。 本研究は, 数学的比較, バックプロパゲーションのための差分領域の可視化, トレーニング過程における損失収束, 異常検出性能など, 様々な比較を行った。 全体として、LMSEは損失収束の強さ、異常検出性能の観点から、既存のMSE関数よりも優れている。 lmse関数は、異常検出モデルだけでなく、一般生成ニューラルネットワークのトレーニングにも応用できると期待されている。

Recently, deep learning-based algorithms are widely adopted due to the advantage of being able to establish anomaly detection models without or with minimal domain knowledge of the task. Instead, to train the artificial neural network more stable, it should be better to define the appropriate neural network structure or the loss function. For the training anomaly detection model, the mean squared error (MSE) function is adopted widely. On the other hand, the novel loss function, logarithmic mean squared error (LMSE), is proposed in this paper to train the neural network more stable. This study covers a variety of comparisons from mathematical comparisons, visualization in the differential domain for backpropagation, loss convergence in the training process, and anomaly detection performance. In an overall view, LMSE is superior to the existing MSE function in terms of strongness of loss convergence, anomaly detection performance. The LMSE function is expected to be applicable for training not only the anomaly detection model but also the general generative neural network.
翻訳日:2023-04-17 17:22:19 公開日:2023-04-14
# ニューラルネットワークにおける問題依存的注意と努力 : 画像分解能とモデル選択への応用

Problem-dependent attention and effort in neural networks with applications to image resolution and model selection ( http://arxiv.org/abs/2201.01415v4 )

ライセンス: Link先を確認
Chris Rohlfs(参考訳) 本稿では,画像分類データと計算コストの削減を目的としたアンサンブルに基づく2つの手法を提案する。 これらは任意の分類器で使用することができ、追加のトレーニングは必要ない。 第1のアプローチでは、モデルが低解像度のピクセル化バージョンを分類する信頼度が低い場合にのみ、フルサイズの画像を分析することでデータ使用量を減少させる。 ここで考慮された最高の性能分類器に適用すると、データ使用量はMNISTで61.2%、KMNISTで69.6%、FashionMNISTで56.3%、SVHNで84.6%、ImageNet-V2で40.6%、ImageNet-V2で27.6%減少し、精度は5%未満である。 しかし、CIFAR-10では、画素データには特に意味がなく、アンサンブルアプローチは精度を低下させながらデータ使用量を増加させる。 第2のアプローチでは、より単純なモデルがその分類に対する信頼度が低い場合、複雑なモデルのみを使用することで計算コストを削減できる。 計算コストはmnistで82.1%、kmnistで47.6%、fashionmnistで72.3%、svhnで86.9%、imagenet-v2で89.2%、imagenet-v2で81.5%削減され、いずれも精度は5%未満である。 コストが対象でない場合、各観測において最も確実なモデルからプロジェクションを選択すると、検証精度は ImageNet 79.3% から 81.0% 、ImageNet-V2 は 67.5% から 69.4% に向上する。

This paper introduces two new ensemble-based methods to reduce the data and computation costs of image classification. They can be used with any set of classifiers and do not require additional training. In the first approach, data usage is reduced by only analyzing a full-sized image if the model has low confidence in classifying a low-resolution pixelated version. When applied on the best performing classifiers considered here, data usage is reduced by 61.2% on MNIST, 69.6% on KMNIST, 56.3% on FashionMNIST, 84.6% on SVHN, 40.6% on ImageNet, and 27.6% on ImageNet-V2, all with a less than 5% reduction in accuracy. However, for CIFAR-10, the pixelated data are not particularly informative, and the ensemble approach increases data usage while reducing accuracy. In the second approach, compute costs are reduced by only using a complex model if a simpler model has low confidence in its classification. Computation cost is reduced by 82.1% on MNIST, 47.6% on KMNIST, 72.3% on FashionMNIST, 86.9% on SVHN, 89.2% on ImageNet, and 81.5% on ImageNet-V2, all with a less than 5% reduction in accuracy; for CIFAR-10 the corresponding improvements are smaller at 13.5%. When cost is not an object, choosing the projection from the most confident model for each observation increases validation accuracy to 81.0% from 79.3% for ImageNet and to 69.4% from 67.5% for ImageNet-V2.
翻訳日:2023-04-17 17:22:02 公開日:2023-04-14
# 量子誤差緩和公式の誤差統計と拡張性

Error statistics and scalability of quantum error mitigation formulas ( http://arxiv.org/abs/2112.06255v2 )

ライセンス: Link先を確認
Dayue Qin, Yanzhu Chen, Ying Li(参考訳) 量子コンピューティングは多くの問題において古典コンピューティングよりも有利である。 それでも量子デバイスのノイズは、ほとんどの量子アルゴリズムが量子優位を達成するのを妨げている。 量子エラー軽減は、最小の量子ビットリソースを使用してそのようなノイズを処理するための様々なプロトコルを提供する。 これらのプロトコルのいくつかは数量子ビットの実験で実装されているが、数十から数百量子ビットの量子回路でエラー軽減が有効かどうかは不明である。 本稿では,量子誤差の緩和に統計学の原理を適用し,その内在誤差のスケーリング挙動を解析する。 誤りは、緩和前のゲート番号 $n$ で線形に$o(\epsilon n)$、緩和後に$o(\epsilon' n^\gamma)$ となり、ここで$\gamma \approx 0.5$, $\epsilon$ は量子ゲートの誤差率であり、$\epsilon'$ はプロトコル依存因子である。 この$\sqrt{n}$のスケーリングは、大きな数の法則の結果であり、大きな回路でエラーの軽減が大きな要因によってエラーを抑制する可能性があることを示している。 本稿では,大規模な回路における誤差低減のための重要な手法として,クリフォードサンプリングの重要性を提案する。

Quantum computing promises advantages over classical computing in many problems. Nevertheless, noise in quantum devices prevents most quantum algorithms from achieving the quantum advantage. Quantum error mitigation provides a variety of protocols to handle such noise using minimal qubit resources . While some of those protocols have been implemented in experiments for a few qubits, it remains unclear whether error mitigation will be effective in quantum circuits with tens to hundreds of qubits. In this paper, we apply statistics principles to quantum error mitigation and analyse the scaling behaviour of its intrinsic error. We find that the error increases linearly $O(\epsilon N)$ with the gate number $N$ before mitigation and sub-linearly $O(\epsilon' N^\gamma)$ after mitigation, where $\gamma \approx 0.5$, $\epsilon$ is the error rate of a quantum gate, and $\epsilon'$ is a protocol-dependent factor. The $\sqrt{N}$ scaling is a consequence of the law of large numbers, and it indicates that error mitigation can suppress the error by a larger factor in larger circuits. We propose the importance Clifford sampling as a key technique for error mitigation in large circuits to obtain this result.
翻訳日:2023-04-17 17:21:25 公開日:2023-04-14
# 任意のガウス状態に対する場の非摂動的単純生成相互作用

Non-perturbative simple-generated interactions with a quantum field for arbitrary Gaussian states ( http://arxiv.org/abs/2207.01141v5 )

ライセンス: Link先を確認
Erickson Tjoa(参考訳) この研究において、我々はまず、1つの2レベル量子ビット検出器と任意の曲線時空における相対論的量子スカラー場の間の相互作用に関する既存の非摂動モデルを集め、一般化する。 次に、これらの非摂動モデルに付随する相対論的量子チャネルを拡張して、場のコヒーレントおよびスクイーズ操作(すなわちガウス演算)の任意の組み合わせを含む、量子場のガウス状態の非常に大きなクラスを含む。 非真空ガウス状態を含むすべての物理結果は真空状態との相互作用の観点から表現できるが、ガウス作用素は随伴チャネルを介して場作用素に適用され、時空における因果プロパゲータの観点からガウス作用素の「フーリエ変換」解釈が効果的に得られることを示す。 さらに、これらの非摂動モデルでは、r\'enyiエントロピーの正確な計算が可能であり、それゆえ、レプリカトリックにより、検出器と相互作用した後の場状態のフォン・ノイマンエントロピーは、検出器とフィールドの結合初期状態の純度を仮定することなく可能であることを示した。 これにより、エントロピーが有限で正確に計算可能な場の「一般化された猫状態」の3パラメータ族が得られる。

In this work we first collect and generalize several existing non-perturbative models for the interaction between a single two-level qubit detector and a relativistic quantum scalar field in arbitrary curved spacetimes, where the time evolution is given by simple-generated unitaries, i.e., those generated by Schmidt rank-1 interaction Hamiltonians. We then extend the relativistic quantum channel associated to these non-perturbative models to include a very large class of Gaussian states of the quantum field, that includes an arbitrary combinations of coherent and squeezing operations (i.e., Gaussian operations) on the field. We show that all physical results involving the non-vacuum Gaussian states can be rephrased in terms of interaction with the vacuum state but with Gaussian operators applied to the field operators via the adjoint channel, effectively giving a "Fourier transformed" interpretation of the Gaussian operations in terms of the causal propagators in spacetime. Furthermore, we show that in these non-perturbative models it is possible to perform exact computation of the R\'enyi entropy and hence, via the replica trick, the von Neumann entropy for the field state after the interaction with the detector, without making any assumptions about the purity of the joint initial states of the detector and the field. This gives us a three-parameter family of "generalized cat states" of the field whose entropies are finite and exactly computable.
翻訳日:2023-04-17 17:15:32 公開日:2023-04-14
# PyEPO: 線形および整数プログラミングのためのPyTorchベースの予測テーマ最適化ライブラリ

PyEPO: A PyTorch-based End-to-End Predict-then-Optimize Library for Linear and Integer Programming ( http://arxiv.org/abs/2206.14234v2 )

ライセンス: Link先を確認
Bo Tang, Elias B. Khalil(参考訳) 決定論的最適化では、一般にすべての問題パラメータが固定され、知られていると仮定される。 しかし実際には、いくつかのパラメータは前もって不明であるが、歴史的データから推定できる。 典型的な予測テーマ最適化アプローチは、予測と最適化を2段階に分ける。 近年,エンド・ツー・エンドの予測最適化が魅力的な選択肢となっている。 本稿ではPythonのPyTorchベースのエンドツーエンド予測最適化ライブラリであるPyEPOパッケージを紹介する。 我々の知る限り、PyEPO(サイレントな"n"を持つパイナップルのように発音される)は、予測対象関数係数を持つ線形および整数プログラミングのための最初の汎用ツールである。 これは4つの基本アルゴリズムを提供する: 凸サーロゲート損失関数 elmachtoub と grigas [16] の独創的な仕事から得られる凸サーロゲート損失関数、ポガンシックらによる微分可能なブラックボックスソルバアプローチ。 [35]およびベルテットらによる2つの異なる摂動に基づく方法 [6]. pyepoは、新しい最適化問題の定義のためのシンプルなインターフェース、最先端の予測最適化トレーニングアルゴリズムの実装、カスタムニューラルネットワークアーキテクチャの使用、エンドツーエンドアプローチと2段階アプローチの比較を提供する。 PyEPOにより、予測精度、意思決定品質、最短経路、複数クナップサック、旅行セールスパーソン問題といった問題に対する実行時間など、複数のエンドツーエンドおよび2段階のアプローチを比較した総合的な実験を行うことができる。 これらの実験から得られた経験的知見を議論し、今後の研究を導く。 PyEPOとそのドキュメントはhttps://github.com/khalil-research/PyEPOで公開されている。

In deterministic optimization, it is typically assumed that all problem parameters are fixed and known. In practice, however, some parameters may be a priori unknown but can be estimated from historical data. A typical predict-then-optimize approach separates predictions and optimization into two stages. Recently, end-to-end predict-then-optimize has become an attractive alternative. In this work, we present the PyEPO package, a PyTorchbased end-to-end predict-then-optimize library in Python. To the best of our knowledge, PyEPO (pronounced like pineapple with a silent "n") is the first such generic tool for linear and integer programming with predicted objective function coefficients. It provides four base algorithms: a convex surrogate loss function from the seminal work of Elmachtoub and Grigas [16], a differentiable black-box solver approach of Pogancic et al. [35], and two differentiable perturbation-based methods from Berthet et al. [6]. PyEPO provides a simple interface for the definition of new optimization problems, the implementation of state-of-the-art predict-then-optimize training algorithms, the use of custom neural network architectures, and the comparison of end-to-end approaches with the two-stage approach. PyEPO enables us to conduct a comprehensive set of experiments comparing a number of end-to-end and two-stage approaches along axes such as prediction accuracy, decision quality, and running time on problems such as Shortest Path, Multiple Knapsack, and the Traveling Salesperson Problem. We discuss some empirical insights from these experiments, which could guide future research. PyEPO and its documentation are available at https://github.com/khalil-research/PyEPO.
翻訳日:2023-04-17 17:15:05 公開日:2023-04-14
# 理論的に支援されたサンプル再利用を用いた一般政策改善アルゴリズム

Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse ( http://arxiv.org/abs/2206.13714v2 )

ライセンス: Link先を確認
James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras(参考訳) データ駆動型学習ベースの制御手法は、複雑なシステムにおけるオペレーションを改善する可能性を提供し、モデルフリーのディープ強化学習はデータ駆動制御に対する一般的なアプローチである。 しかし、既存のアルゴリズムクラスは、実世界制御のための2つの重要なデプロイメント要件の間のトレードオフを示している。 (i)実用的性能保証及び (ii)データ効率。 オフポリシーアルゴリズムはサンプル再利用による効率的なデータ利用を行うが、理論的な保証は欠如する一方、オンポリシーアルゴリズムはトレーニング全体を通して近似的なポリシー改善を保証するが、高いサンプル複雑さに悩まされる。 これらの競合する目標のバランスをとるために,オンポリシメソッドのポリシー改善保証とサンプル再利用の効率を組み合わせる汎用的なポリシー改善アルゴリズムを開発した。 本稿では,DeepMind Control Suiteの各種連続制御タスクの広範な実験分析を通じて,この新しいアルゴリズムの利点を実証する。

Data-driven, learning-based control methods offer the potential to improve operations in complex systems, and model-free deep reinforcement learning represents a popular approach to data-driven control. However, existing classes of algorithms present a trade-off between two important deployment requirements for real-world control: (i) practical performance guarantees and (ii) data efficiency. Off-policy algorithms make efficient use of data through sample reuse but lack theoretical guarantees, while on-policy algorithms guarantee approximate policy improvement throughout training but suffer from high sample complexity. In order to balance these competing goals, we develop a class of Generalized Policy Improvement algorithms that combines the policy improvement guarantees of on-policy methods with the efficiency of sample reuse. We demonstrate the benefits of this new class of algorithms through extensive experimental analysis on a variety of continuous control tasks from the DeepMind Control Suite.
翻訳日:2023-04-17 17:14:38 公開日:2023-04-14
# デリゲート量子コンピューティングにおける等価性

Equivalence in delegated quantum computing ( http://arxiv.org/abs/2206.07469v3 )

ライセンス: Link先を確認
Fabian Wiesner, Jens Eisert, Anna Pappa(参考訳) デリゲート量子コンピューティング(dqc)により、限られたクライアントは量子サーバー上でリモートで能力の外の操作を実行できる。 dqcのプロトコルは通常、測定ベースの量子計算フレームワークに設定されるので、クライアントとサーバ間の計算の異なる部分を自然に分離することができる。 既存のプロトコルは、入力のセキュリティ、計算の盲点、検証可能性など、いくつかの望ましい特性を達成しており、最近ではマルチパーティ設定にも拡張されている。 DQCでは、クライアント側で完全に異なる操作を要求する2つのアプローチが従う。 1つは、クライアントが量子状態を準備し、もう1つは、クライアントがそれを測定できることです。 本研究では、プロトコルの等価性に関する新しい厳密な定義を提供し、これらの異なるDQC設定がこの意味では同値であることを示す。 私たちは、私たちの主張を証明するために抽象暗号フレームワークを使用し、ある設定から別の設定へ変更できる新しい技術を提供します。 このようにして、両方のアプローチが同じ特性を持つタスクの実行に使用できることを示す。 すなわち、提案した手法を使って、常にある設定から別の設定に翻訳することができる。 最後に,dqcのハイブリッドクライアントモデルを提案する。

Delegated quantum computing (DQC) enables limited clients to perform operations that are outside their capabilities remotely on a quantum server. Protocols for DQC are usually set up in the measurement-based quantum computation framework, as this allows for a natural separation of the different parts of the computation between the client and the server. The existing protocols achieve several desired properties, including the security of inputs, the blindness of computation and its verifiability, and have also recently been extended to the multiparty setting. Two approaches are followed in DQC that demand completely different operations on the clients' side. In one, the clients are able to prepare quantum states, in the other, the clients are able to measure them. In this work, we provide a novel stringent definition of the equivalence of protocols and show that these distinct DQC settings are, in fact, equivalent in this sense. We use the abstract cryptography framework to prove our claims and provide a novel technique that enables changing from one setting to the other. In this way, we demonstrate that both approaches can be used to perform tasks with the same properties. I.e., using our proposed techniques, we can always translate from one setting to the other. We finally use our results to propose a hybrid-client model for DQC.
翻訳日:2023-04-17 17:14:23 公開日:2023-04-14
# 時間最適化マルチ量子ビットゲートの合成とコンパイル

Synthesis of and compilation with time-optimal multi-qubit gates ( http://arxiv.org/abs/2206.06387v2 )

ライセンス: Link先を確認
Pascal Ba{\ss}ler, Matthias Zipper, Christopher Cedzich, Markus Heinrich, Patrick H. Huber, Michael Johanning, Martin Kliesch(参考訳) 我々は、Ising型とオールツーオール接続を固定した量子コンピューティングプラットフォームに対して、マルチキュービットゲートを絡み合わせるクラスを合成する方法を開発した。 相互作用の柔軟性に関する唯一の要件は、個々の量子ビットに対してスイッチオンおよびオフが可能であることである。 提案手法は,マルチキュービットゲートの時間最適実装を実現する。 本研究では,全マルチキュービットゲートタイムが量子ビット数でほぼ線形であることを数値的に示す。 このゲート合成をサブルーチンとして、重要なユースケースに対するコンパイル戦略を提供する。 (i) acilla qubits を必要とせずに少なくとも 2n$ のマルチキュービットゲートを用いて任意の Clifford 回路を実装可能であることを示す。 (ii)同様の方法で量子フーリエ変換を分解する。 (iii)分子動力学のシミュレーションをコンパイルし、 (iv)一般ユニタリに向けてのステップとして,時間最適化マルチキュービットゲートを用いた対角ユニタリのコンパイル法を提案する。 モチベーションとして、Ising型相互作用生成のための磁気勾配誘導結合(MAGIC)を用いたマイクロ波制御イオントラップアーキテクチャについて、詳細な議論を行う。

We develop a method to synthesize a class of entangling multi-qubit gates for a quantum computing platform with fixed Ising-type interaction with all-to-all connectivity. The only requirement on the flexibility of the interaction is that it can be switched on and off for individual qubits. Our method yields a time-optimal implementation of the multi-qubit gates. We numerically demonstrate that the total multi-qubit gate time scales approximately linear in the number of qubits. Using this gate synthesis as a subroutine, we provide compilation strategies for important use cases: (i) we show that any Clifford circuit on $n$ qubits can be implemented using at most $2n$ multi-qubit gates without requiring ancilla qubits, (ii) we decompose the quantum Fourier transform in a similar fashion, (iii) we compile a simulation of molecular dynamics, and (iv) we propose a method for the compilation of diagonal unitaries with time-optimal multi-qubit gates, as a step towards general unitaries. As motivation, we provide a detailed discussion on a microwave controlled ion trap architecture with magnetic gradient induced coupling (MAGIC) for the generation of the Ising-type interactions.
翻訳日:2023-04-17 17:14:03 公開日:2023-04-14
# 画像分類におけるデバイアス評価の改善

Improving Evaluation of Debiasing in Image Classification ( http://arxiv.org/abs/2206.03680v2 )

ライセンス: Link先を確認
Jungsoo Lee, Juyoung Lee, Sanghun Jung, Jaegul Choo(参考訳) 画像分類器は、予測を行う際にターゲットクラス(すなわちデータセットバイアス)と強い相関を持つ周辺属性に依存することが多い。 データセットバイアスのため、モデルはバイアス属性(バイアス整合サンプル)を含むデータサンプルを正しく分類し、バイアス属性のないサンプル(バイアス整合サンプル)を正しく予測することができない。 近年、数多くの研究が、デバイアス(debiasing)と呼ばれるそのようなデータセットバイアスの軽減に焦点を当てている。 しかし,画像分類における偏りの評価を行う際には,いくつかの問題点が指摘される。 まず、以前の研究のほとんどはハイパーパラメータとモデルチェックポイント(チューニング基準)をどのように選択するかを規定していない。 第2に,現在までのデバイアス研究は,偏りが過度に高いデータセットにおける提案手法を評価し,バイアスの重大度の低いデータセットにおける劣化性能を示した。 第三に、デバイアス研究は、公正な比較のために標準化する必要がある一貫した実験的な設定(データセットやニューラルネットワークなど)を共有しない。 このような問題から本論文は 1) チューニング基準のための評価基準「align-conflict (ac) score」を提案する。 2)バイアスの深刻度が低い実験的な設定を含み,まだ検討されていないことを示す。 3) 標準化された実験環境を統一し, 脱バイアス法との公正な比較を促進する。 われわれの発見と教訓は、未来の研究者に偏見を刺激し、最先端のパフォーマンスをさらに押し上げ、公正な比較を行うことを信じている。

Image classifiers often rely overly on peripheral attributes that have a strong correlation with the target class (i.e., dataset bias) when making predictions. Due to the dataset bias, the model correctly classifies data samples including bias attributes (i.e., bias-aligned samples) while failing to correctly predict those without bias attributes (i.e., bias-conflicting samples). Recently, a myriad of studies focus on mitigating such dataset bias, the task of which is referred to as debiasing. However, our comprehensive study indicates several issues need to be improved when conducting evaluation of debiasing in image classification. First, most of the previous studies do not specify how they select their hyper-parameters and model checkpoints (i.e., tuning criterion). Second, the debiasing studies until now evaluated their proposed methods on datasets with excessively high bias-severities, showing degraded performance on datasets with low bias severity. Third, the debiasing studies do not share consistent experimental settings (e.g., datasets and neural networks) which need to be standardized for fair comparisons. Based on such issues, this paper 1) proposes an evaluation metric `Align-Conflict (AC) score' for the tuning criterion, 2) includes experimental settings with low bias severity and shows that they are yet to be explored, and 3) unifies the standardized experimental settings to promote fair comparisons between debiasing methods. We believe that our findings and lessons inspire future researchers in debiasing to further push state-of-the-art performances with fair comparisons.
翻訳日:2023-04-17 17:13:44 公開日:2023-04-14
# 分散saddle point問題に対する圧縮通信を用いた確率的勾配法

Stochastic Gradient Methods with Compressed Communication for Decentralized Saddle Point Problems ( http://arxiv.org/abs/2205.14452v2 )

ライセンス: Link先を確認
Chhavi Sharma, Vishnu Narayanan, P. Balamurugan(参考訳) 2つの圧縮に基づく確率勾配アルゴリズムを開発し、(中央サーバを使わずに)分散環境での非平滑で凸に固結したサドル点問題のクラスを解く。 最初のアルゴリズムは、一般的な確率的設定のための圧縮(C-RDPSG)を用いたRestartベースの分散確率勾配法である。 We provide rigorous theoretical guarantees of C-RDPSG with gradient computation complexity and communication complexity of order $\mathcal{O}( (1+\delta)^4 \frac{1}{L^2}{\kappa_f^2}\kappa_g^2 \frac{1}{\epsilon} )$, to achieve an $\epsilon$-accurate saddle-point solution, where $\delta$ denotes the compression factor, $\kappa_f$ and $\kappa_g$ denote respectively the condition numbers of objective function and communication graph, and $L$ denotes the smoothness parameter of the smooth part of the objective function. 次に, 1+\delta) \max \{\kappa_f^2, \sqrt{\delta}\kappa^2_f\kappa_g,\kappa_g \} \log\left(\frac{1}{\epsilon}\right) \right)$の勾配計算複雑性と通信複雑性を示す有限和設定のための圧縮(c-dpsvrg)を用いた分散確率分散分散勾配アルゴリズムを提案する。 大規模な数値実験により,提案アルゴリズムの競合性能が示され,理論結果への支持が得られた。

We develop two compression based stochastic gradient algorithms to solve a class of non-smooth strongly convex-strongly concave saddle-point problems in a decentralized setting (without a central server). Our first algorithm is a Restart-based Decentralized Proximal Stochastic Gradient method with Compression (C-RDPSG) for general stochastic settings. We provide rigorous theoretical guarantees of C-RDPSG with gradient computation complexity and communication complexity of order $\mathcal{O}( (1+\delta)^4 \frac{1}{L^2}{\kappa_f^2}\kappa_g^2 \frac{1}{\epsilon} )$, to achieve an $\epsilon$-accurate saddle-point solution, where $\delta$ denotes the compression factor, $\kappa_f$ and $\kappa_g$ denote respectively the condition numbers of objective function and communication graph, and $L$ denotes the smoothness parameter of the smooth part of the objective function. Next, we present a Decentralized Proximal Stochastic Variance Reduced Gradient algorithm with Compression (C-DPSVRG) for finite sum setting which exhibits gradient computation complexity and communication complexity of order $\mathcal{O} \left((1+\delta) \max \{\kappa_f^2, \sqrt{\delta}\kappa^2_f\kappa_g,\kappa_g \} \log\left(\frac{1}{\epsilon}\right) \right)$. Extensive numerical experiments show competitive performance of the proposed algorithms and provide support to the theoretical results obtained.
翻訳日:2023-04-17 17:13:20 公開日:2023-04-14
# 正規化によるメンバーシップ推論における次元の祝福

A Blessing of Dimensionality in Membership Inference through Regularization ( http://arxiv.org/abs/2205.14055v2 )

ライセンス: Link先を確認
Jasper Tan, Daniel LeJeune, Blake Mason, Hamid Javadi, Richard G. Baraniuk(参考訳) オーバーパラメータ化はプライバシ責任か? 本研究では,メンバシップ推論攻撃に対する分類器の脆弱性に対するパラメータ数の影響について検討する。 まず,モデルのパラメータ数によってプライバシ-有効性トレードオフが引き起こされることを示す。パラメータ数の増加は,プライバシの低下を犠牲にして一般に一般化性能を向上させる。 しかし、顕著な結果として、適切な正規化と組み合わせることで、モデルのパラメータの数を増やすことで、そのプライバシとパフォーマンスの両方を同時に増加させることで、プライバシとユーティリティのトレードオフを排除できることが示される。 理論的には、リッジ正規化を伴うロジスティック回帰に対するこの奇妙な現象を双レベル特徴アンサンブルで示す。 理論的検討の結果,線形分類器の脆弱性を最適メンバーシップ推論攻撃に正確に特徴付けるための,新たなLeft-one-out分析ツールを開発した。 我々は、この「次元の恵み」をニューラルネットワークに対して、早期停止を正規化子として様々なタスクで実証的に示す。

Is overparameterization a privacy liability? In this work, we study the effect that the number of parameters has on a classifier's vulnerability to membership inference attacks. We first demonstrate how the number of parameters of a model can induce a privacy--utility trade-off: increasing the number of parameters generally improves generalization performance at the expense of lower privacy. However, remarkably, we then show that if coupled with proper regularization, increasing the number of parameters of a model can actually simultaneously increase both its privacy and performance, thereby eliminating the privacy--utility trade-off. Theoretically, we demonstrate this curious phenomenon for logistic regression with ridge regularization in a bi-level feature ensemble setting. Pursuant to our theoretical exploration, we develop a novel leave-one-out analysis tool to precisely characterize the vulnerability of a linear classifier to the optimal membership inference attack. We empirically exhibit this "blessing of dimensionality" for neural networks on a variety of tasks using early stopping as the regularizer.
翻訳日:2023-04-17 17:12:34 公開日:2023-04-14
# 機械学習における不再現性の源: レビュー

Sources of Irreproducibility in Machine Learning: A Review ( http://arxiv.org/abs/2204.07610v2 )

ライセンス: Link先を確認
Odd Erik Gundersen, Kevin Coakley, Christine Kirkpatrick and Yolanda Gil(参考訳) 背景: 多くの発表された機械学習の研究は再現不可能である。 方法論に問題があり,アルゴリズム自体や実装がもたらした変化を適切に考慮していないことは,不再現性の主要な要因であると考えられており,実験設計の選択と結論に対する潜在的な影響を関連づける理論的枠組みは存在しない。 このようなフレームワークがなければ、実践者や研究者が実験結果を評価し、実験の限界を説明することはずっと難しい。 このような枠組みの欠如は、独立した研究者が再現性実験の失敗の原因を体系的に評価することを難しくする。 目的: 本研究の目的は, 応用データサイエンスの実践者や研究者が, どのような設計選択が誤った発見につながるか, どのようにして再現性実験の結論を分析できるかを理解するためのフレームワークを開発することである。 方法: 文献で報告されている因子の広範なリストをまとめた結果, 機械学習研究は再現不可能であることがわかった。 これらの因子は、科学的手法の段階によって動機づけられた再現性の枠組みで整理され、分類される。 これらの要因は、実験から引き出された結論にどのように影響するかを分析する。 モデル比較研究を例に挙げる。 結論: 実験的な設計決定から推論された結論まで,機械学習方法論を記述するフレームワークを提供する。

Background: Many published machine learning studies are irreproducible. Issues with methodology and not properly accounting for variation introduced by the algorithm themselves or their implementations are attributed as the main contributors to the irreproducibility.Problem: There exist no theoretical framework that relates experiment design choices to potential effects on the conclusions. Without such a framework, it is much harder for practitioners and researchers to evaluate experiment results and describe the limitations of experiments. The lack of such a framework also makes it harder for independent researchers to systematically attribute the causes of failed reproducibility experiments. Objective: The objective of this paper is to develop a framework that enable applied data science practitioners and researchers to understand which experiment design choices can lead to false findings and how and by this help in analyzing the conclusions of reproducibility experiments. Method: We have compiled an extensive list of factors reported in the literature that can lead to machine learning studies being irreproducible. These factors are organized and categorized in a reproducibility framework motivated by the stages of the scientific method. The factors are analyzed for how they can affect the conclusions drawn from experiments. A model comparison study is used as an example. Conclusion: We provide a framework that describes machine learning methodology from experimental design decisions to the conclusions inferred from them.
翻訳日:2023-04-17 17:12:01 公開日:2023-04-14
# 測地ガウス保存流による正規化フローをモンジュマップに変換する

Turning Normalizing Flows into Monge Maps with Geodesic Gaussian Preserving Flows ( http://arxiv.org/abs/2209.10873v4 )

ライセンス: Link先を確認
Guillaume Morel (IMT Atlantique - ITI), Lucas Drumetz (IMT Atlantique - MEE, Lab-STICC\_OSE), Simon Bena\"ichouche (IMT Atlantique), Nicolas Courty (IRISA, UBS), Fran\c{c}ois Rousseau (IMT Atlantique - ITI, LaTIM)(参考訳) 正規化フロー(NF)は、複雑な密度をモデル化するために、表現性とトラクタビリティをトレードオフできる強力な可能性ベースの生成モデルである。 現在確立された研究経路は最適輸送(OT)を活用し、ソースとターゲットの分布の最小限の労力でMongeマップを探す。 本稿では,brenier の極分解定理に基づいて,訓練された nf を最終密度を変化させることなくより ot 効率の高いバージョンに変換する手法を提案する。 私たちは、ソースと最終密度の間のotコストを最小化するソース(ガウス分布)の再配置を学習することによって、そうする。 さらに、オイラー方程式による体積保存微分同相の空間における測地線上の推定モンジュ写像に至る経路をさらに制約する。 提案手法は, モデル性能に影響を与えることなく, 既存モデルのotコストを低減したスムースフローを実現する。

Normalizing Flows (NF) are powerful likelihood-based generative models that are able to trade off between expressivity and tractability to model complex densities. A now well established research avenue leverages optimal transport (OT) and looks for Monge maps, i.e. models with minimal effort between the source and target distributions. This paper introduces a method based on Brenier's polar factorization theorem to transform any trained NF into a more OT-efficient version without changing the final density. We do so by learning a rearrangement of the source (Gaussian) distribution that minimizes the OT cost between the source and the final density. We further constrain the path leading to the estimated Monge map to lie on a geodesic in the space of volume-preserving diffeomorphisms thanks to Euler's equations. The proposed method leads to smooth flows with reduced OT cost for several existing models without affecting the model performance.
翻訳日:2023-04-17 17:05:58 公開日:2023-04-14
# 高次位相遷移の統一的特徴付け

Unified characterization for higher-order topological phase transitions ( http://arxiv.org/abs/2209.10394v3 )

ライセンス: Link先を確認
Wei Jia, Xin-Chi Zhou, Lin Zhang, Long Zhang, and Xiong-Jun Liu(参考訳) 高次トポロジカル相転移(HOTPT)は、対称性を変化させることなくバルクエネルギーギャップ(タイプI)または境界エネルギーギャップ(タイプII)を閉じることと関連付けられ、従来、両方の遷移は実空間で捕捉され、別々に特徴付けられる。 本稿では,両タイプの位相遷移を統一し,クエンチダイナミクスによる高精度な検出を可能にするHOTPTの運動量空間的特徴付けを提案する。 実空間境界上の質量ドメイン壁と運動量部分空間の特徴的な界面である高次バンド反転面(BIS)との新たな対応性に基づく。 位相遷移は、運動量空間の位相ノードが正射影の後に高次位相電荷と呼ばれるときに起こる。 特に、バルク(境界)ギャップは、すべての(一部)トポロジカルチャージがBISを横断して、タイプI (type-II) HOTPTを特徴付けるときに閉じる。 これらの高次トポロジカル電荷の異なる動的挙動は、実験において制御によって駆動されるクエンチ力学から測定できる。 本研究は,統合されたフレームワーク内での2種類のHOTPTの特性と検出の道を開き,理論と実験の両方の研究を進めていく。

Higher-order topological phase transitions (HOTPTs) are associated with closing either the bulk energy gap (type-I) or boundary energy gap (type-II) without changing symmetry, and conventionally the both transitions are captured in real space and characterized separately. Here we propose a momentum-space topological characterization of the HOTPTs, which unifies the both types of topological transitions and enables a precise detection by quench dynamics. Our unified characterization is based on a novel correspondence between the mass domain walls on real-space boundaries and the higher-order band-inversion surfaces (BIS) which are characteristic interfaces in the momentum subspace. The topological transitions occur when momentum-space topological nodes, dubbed higher-order topological charges, cross the higher-order BISs after proper projection. Particularly, the bulk (boundary) gap closes when all (part of) topological charges cross the BISs, characterizing the type-I (type-II) HOTPTs. These distinct dynamical behaviours of higher-order topological charges can be feasibly measured from quench dynamics driven with control in experiments. Our work opens an avenue to characterize and detect the two types of HOTPTs within a unified framework, and shall advance the research in both theory and experiment.
翻訳日:2023-04-17 17:05:42 公開日:2023-04-14
# Text2Light: ゼロショットテキスト駆動HDRパノラマ生成

Text2Light: Zero-Shot Text-Driven HDR Panorama Generation ( http://arxiv.org/abs/2209.09898v3 )

ライセンス: Link先を確認
Zhaoxi Chen, Guangcong Wang, Ziwei Liu(参考訳) 高品質HDRI(High Dynamic Range Images)は、一般的にHDRパノラマであり、フォトリアリスティック照明と3Dシーンの360度リフレクションを作成する最も一般的な方法の1つである。 HDRIを捕捉することの難しさから、汎用的で制御可能な生成モデルが非常に望まれており、レイマンユーザは直感的に生成プロセスを制御できる。 しかし、既存の最先端の手法は、複雑なシーンで高品質のパノラマを合成するのに苦労している。 そこで本研究では、4K+解像度のHDRIを生成するためのゼロショットテキスト駆動フレームワークであるText2Lightを提案する。 シーン記述として自由形式のテキストが与えられた場合、対応するHDRIを2つの専用ステップで合成する。 1)低ダイナミックレンジ(ldr)および低解像度におけるテキスト駆動パノラマ生成と, 2) 超解像逆トーンマッピングはldrパノラマを解像度とダイナミックレンジの両方でスケールアップする。 具体的には、ゼロショットテキスト駆動パノラマ生成を実現するために、まず、多様な環境テクスチャの離散表現として二重コードブックを構築する。 そして、事前訓練されたCLIPモデルにより、テキスト条件付きグローバルサンプリングは、入力テキストに従って、グローバルコードブックから全体論的意味をサンプリングすることを学ぶ。 さらに、構造認識型局所サンプリング器は、総括的意味論により誘導されたldrパノラマパッチバイパッチを合成することを学ぶ。 超高分解能逆トーンマッピングを実現するため,LDRパノラマからの360度画像の連続的表現を球に固定した構造化潜在符号の集合として導出した。 この連続表現により、汎用モジュールは解像度とダイナミックレンジを同時にスケールアップすることができる。 大規模な実験は、高品質なHDRパノラマ生成におけるText2Lightの優れた能力を実証している。 さらに、現実的なレンダリングと没入型VRにおける私たちの仕事の可能性も示しています。

High-quality HDRIs(High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, where layman users can intuitively control the generation process. However, existing state-of-the-art methods still struggle to synthesize high-quality panoramas for complex scenes. In this work, we propose a zero-shot text-driven framework, Text2Light, to generate 4K+ resolution HDRIs without paired training data. Given a free-form text as the description of the scene, we synthesize the corresponding HDRI with two dedicated steps: 1) text-driven panorama generation in low dynamic range(LDR) and low resolution, and 2) super-resolution inverse tone mapping to scale up the LDR panorama both in resolution and dynamic range. Specifically, to achieve zero-shot text-driven panorama generation, we first build dual codebooks as the discrete representation for diverse environmental textures. Then, driven by the pre-trained CLIP model, a text-conditioned global sampler learns to sample holistic semantics from the global codebook according to the input text. Furthermore, a structure-aware local sampler learns to synthesize LDR panoramas patch-by-patch, guided by holistic semantics. To achieve super-resolution inverse tone mapping, we derive a continuous representation of 360-degree imaging from the LDR panorama as a set of structured latent codes anchored to the sphere. This continuous representation enables a versatile module to upscale the resolution and dynamic range simultaneously. Extensive experiments demonstrate the superior capability of Text2Light in generating high-quality HDR panoramas. In addition, we show the feasibility of our work in realistic rendering and immersive VR.
翻訳日:2023-04-17 17:05:16 公開日:2023-04-14
# mmBody ベンチマーク:ミリ波レーダの3次元身体再構成データセットと解析

mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar ( http://arxiv.org/abs/2209.05070v2 )

ライセンス: Link先を確認
Anjun Chen, Xiangyu Wang, Shaohao Zhu, Yanxu Li, Jiming Chen, Qi Ye(参考訳) ミリ波(mmWave)レーダーは、煙、雨、雪、照明の悪さといった悪環境でも使えるため、人気が高まっている。 以前の研究では、ノイズやスパースなmmWaveレーダ信号から3D骨格やメッシュを再構築する可能性を探っている。 しかし,mmWaveレーダを単独で使用したり,カメラと組み合わせたりする場合に考慮すべき重要な側面として,シーン間のmmWave信号からどのように3Dボディを再構築できるかは明らかではない。 これらの質問に答えるために、自動3Dボディアノテーションシステムが最初に設計され、複数のセンサーで構築され、大規模なデータセットを収集する。 データセットは、同期および校正されたmmWaveレーダーポイント雲と、異なるシーンにおけるRGB(D)イメージと、シーン内の人間のためのスケルトン/メシュアノテーションで構成されている。 このデータセットでは、さまざまなセンサからの入力を使って最先端のメソッドをトレーニングし、さまざまなシナリオでテストします。 その結果は 1)生成した点雲のノイズやスパース性にもかかわらず,mmwaveレーダは,rgbカメラよりも再構成精度は高いが,深度カメラよりは劣る。 2)RGB(D)カメラは深刻な影響を受けながら,mmWaveレーダからの再構成は悪天候の影響を受けやすい。 さらに、mmウェーブレーダからの再構成と異なるセンサからの信号の組み合わせを改善するためのデータセットと結果のシャドーインサイトの分析を行う。

Millimeter Wave (mmWave) Radar is gaining popularity as it can work in adverse environments like smoke, rain, snow, poor lighting, etc. Prior work has explored the possibility of reconstructing 3D skeletons or meshes from the noisy and sparse mmWave Radar signals. However, it is unclear how accurately we can reconstruct the 3D body from the mmWave signals across scenes and how it performs compared with cameras, which are important aspects needed to be considered when either using mmWave radars alone or combining them with cameras. To answer these questions, an automatic 3D body annotation system is first designed and built up with multiple sensors to collect a large-scale dataset. The dataset consists of synchronized and calibrated mmWave radar point clouds and RGB(D) images in different scenes and skeleton/mesh annotations for humans in the scenes. With this dataset, we train state-of-the-art methods with inputs from different sensors and test them in various scenarios. The results demonstrate that 1) despite the noise and sparsity of the generated point clouds, the mmWave radar can achieve better reconstruction accuracy than the RGB camera but worse than the depth camera; 2) the reconstruction from the mmWave radar is affected by adverse weather conditions moderately while the RGB(D) camera is severely affected. Further, analysis of the dataset and the results shadow insights on improving the reconstruction from the mmWave radar and the combination of signals from different sensors.
翻訳日:2023-04-17 17:04:45 公開日:2023-04-14
# UniCausal: 因果テキストマイニングのための統一ベンチマークとリポジトリ

UniCausal: Unified Benchmark and Repository for Causal Text Mining ( http://arxiv.org/abs/2208.09163v2 )

ライセンス: Link先を確認
Fiona Anting Tan, Xinyu Zuo and See-Kiong Ng(参考訳) 現在の因果テキストマイニングデータセットは、目的、データカバレッジ、アノテーションスキームによって異なる。 これらの矛盾した努力は、モデル性能のモデリング能力と公正な比較を妨げる。 さらに、エンドツーエンド因果関係抽出に必要な原因影響スパンアノテーションを含むデータセットも少なくない。 そこで本研究では, 因果系列分類, (ii) 因果効果スパン検出, (iii) 因果ペア分類の3つのタスクにまたがる因果テキストマイニングの統一ベンチマークであるunicausalを提案する。 その結果,それぞれ58,720例,12,144例,69,165例が得られた。 因果関係の定義は主観的であるため、我々のフレームワークは研究者がいくつかの、またはすべてのデータセットやタスクに取り組むことができるように設計されている。 最初のベンチマークを作成するために、BERTの事前訓練済み言語モデルを各タスクに微調整し、それぞれ70.10%のバイナリF1、52.42%のマクロF1、84.68%のバイナリF1スコアを達成した。

Current causal text mining datasets vary in objectives, data coverage, and annotation schemes. These inconsistent efforts prevent modeling capabilities and fair comparisons of model performance. Furthermore, few datasets include cause-effect span annotations, which are needed for end-to-end causal relation extraction. To address these issues, we propose UniCausal, a unified benchmark for causal text mining across three tasks: (I) Causal Sequence Classification, (II) Cause-Effect Span Detection and (III) Causal Pair Classification. We consolidated and aligned annotations of six high quality, mainly human-annotated, corpora, resulting in a total of 58,720, 12,144 and 69,165 examples for each task respectively. Since the definition of causality can be subjective, our framework was designed to allow researchers to work on some or all datasets and tasks. To create an initial benchmark, we fine-tuned BERT pre-trained language models to each task, achieving 70.10% Binary F1, 52.42% Macro F1, and 84.68% Binary F1 scores respectively.
翻訳日:2023-04-17 17:04:16 公開日:2023-04-14
# ロバスト多変量時系列予測:敵攻撃と防御機構

Robust Multivariate Time-Series Forecasting: Adversarial Attacks and Defense Mechanisms ( http://arxiv.org/abs/2207.09572v3 )

ライセンス: Link先を確認
Linbo Liu, Youngsuk Park, Trong Nghia Hoang, Hilaf Hasson, Jun Huan(参考訳) 本研究は,多変量確率予測モデルと有効な防御機構に対する敵意攻撃の脅威について検討する。 本研究は,過去の少数の時系列の観測結果に対して,戦略的な(受け入れ難い)修正を行うことで,目標時系列の予測に悪影響を及ぼす新たな攻撃パターンを見出した。 このような攻撃の影響を軽減するため、我々は2つの防衛戦略を開発した。 まず,従来開発されたランダムなスムース化手法を,多変量予測シナリオに拡張する。 第2に,敵のサンプル作成を学習し,予測モデルを最適化することで,敵のシミュレーションに対するロバスト性を向上させる,敵のトレーニングアルゴリズムを開発した。 実世界のデータセットに関する広範囲な実験により、攻撃手法が強力で、防御アルゴリズムがベースライン防御機構よりも効果的であることが確認された。

This work studies the threats of adversarial attack on multivariate probabilistic forecasting models and viable defense mechanisms. Our studies discover a new attack pattern that negatively impact the forecasting of a target time series via making strategic, sparse (imperceptible) modifications to the past observations of a small number of other time series. To mitigate the impact of such attack, we have developed two defense strategies. First, we extend a previously developed randomized smoothing technique in classification to multivariate forecasting scenarios. Second, we develop an adversarial training algorithm that learns to create adversarial examples and at the same time optimizes the forecasting model to improve its robustness against such adversarial simulation. Extensive experiments on real-world datasets confirm that our attack schemes are powerful and our defense algorithms are more effective compared with baseline defense mechanisms.
翻訳日:2023-04-17 17:03:03 公開日:2023-04-14
# 画像モデルにおける盲点発見のより厳密な科学に向けて

Towards a More Rigorous Science of Blindspot Discovery in Image Models ( http://arxiv.org/abs/2207.04104v2 )

ライセンス: Link先を確認
Gregory Plumb, Nari Johnson, \'Angel Alexander Cabrera, Ameet Talwalkar(参考訳) 目隠し点発見法(bdm)とは、画像分類器の動作が著しく悪化するデータのサブセットを、意味的に有意義な部分集合(つまり、人間の理解可能な概念によって結合される)を見つけるために画像埋め込みを使用する手法である。 先行作業で観測されたギャップに触発され、2次元画像表現を使用する新しいBDMであるPlaneSpotと、既知の盲点を持つモデルのトレーニングに合成画像データセットを使用するSpotCheckという、BDMを評価する新しいフレームワークを導入する。 私たちはSpotCheckを使用して、BDMのパフォーマンスに影響を与える要因(例えば、モデル内の盲点の数や、盲点を定義するのに使用される機能)を識別する制御された実験を行い、PlaneSpotが既存のBDMと競合し、多くの場合、性能が優れていることを示す。 重要なことは、大規模な画像ベンチマークデータセットであるMS-COCOの実際の画像データを用いた追加実験を設計し、これらの結果を検証することである。 以上の結果から,BDM設計と評価の今後の取り組みに期待できる方向がいくつか示唆された。 全体として、この研究で提示された方法論と分析が、より厳密な盲点発見の科学を促進することを願っている。

A growing body of work studies Blindspot Discovery Methods ("BDM"s): methods that use an image embedding to find semantically meaningful (i.e., united by a human-understandable concept) subsets of the data where an image classifier performs significantly worse. Motivated by observed gaps in prior work, we introduce a new framework for evaluating BDMs, SpotCheck, that uses synthetic image datasets to train models with known blindspots and a new BDM, PlaneSpot, that uses a 2D image representation. We use SpotCheck to run controlled experiments that identify factors that influence BDM performance (e.g., the number of blindspots in a model, or features used to define the blindspot) and show that PlaneSpot is competitive with and in many cases outperforms existing BDMs. Importantly, we validate these findings by designing additional experiments that use real image data from MS-COCO, a large image benchmark dataset. Our findings suggest several promising directions for future work on BDM design and evaluation. Overall, we hope that the methodology and analyses presented in this work will help facilitate a more rigorous science of blindspot discovery.
翻訳日:2023-04-17 17:02:43 公開日:2023-04-14
# 有限レートスパース量子符号

Finite-rate sparse quantum codes aplenty ( http://arxiv.org/abs/2207.03562v3 )

ライセンス: Link先を確認
Maxime Tremblay, Guillaume Duclos-Cianci, Stefanos Kourtis(参考訳) 制約満足度問題(csp)をランダム二部グラフ上で解くことにより、ランダムなマルチ量子ビット安定化符号を生成する手法を提案する。 このフレームワークにより、CSPにおいて、安定化器の可換化、$X/Z$バランシング、有限レート、空間性、最大度制約を同時に適用し、数値的に解ける。 現状のCSPソルバを用いて、満足度しきい値の存在を証明できる証拠を得る。 さらに、満足可能な位相の範囲は、キュービット数によって増加する。 このフェーズでは、スパースコードを見つけるのは簡単な問題です。 さらに, 良好な位相にあるスパース符号は, 消去ノイズのチャネル容量を実質的に達成することを示した。 この結果から,中間サイズの有限レートスパース量子符号の発見が容易であり,また,固有特性を持つ優れた符号を生成するための柔軟な方法論を実証した。 したがって、ランダムな量子コード発見のための完全かつカスタマイズ可能なパイプラインを確立する。

We introduce a methodology for generating random multi-qubit stabilizer codes based on solving a constraint satisfaction problem (CSP) on random bipartite graphs. This framework allows us to enforce stabilizer commutation, $X/Z$ balancing, finite rate, sparsity, and maximum-degree constraints simultaneously in a CSP that we can then solve numerically. Using a state-of-the-art CSP solver, we obtain convincing evidence for the existence of a satisfiability threshold. Furthermore, the extent of the satisfiable phase increases with the number of qubits. In that phase, finding sparse codes becomes an easy problem. Moreover, we observe that the sparse codes found in the satisfiable phase practically achieve the channel capacity for erasure noise. Our results show that intermediate-size finite-rate sparse quantum codes are easy to find, while also demonstrating a flexible methodology for generating good codes with custom properties. We therefore establish a complete and customizable pipeline for random quantum code discovery.
翻訳日:2023-04-17 17:02:22 公開日:2023-04-14
# エルミート系における例外点相転移のシグナチャ

Signature of exceptional point phase transition in Hermitian systems ( http://arxiv.org/abs/2207.01862v5 )

ライセンス: Link先を確認
T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik(参考訳) 例外点 (EP) は非エルミート系におけるスペクトル特異点である。 EPを渡すことで相転移が起こり、様々なアプリケーションを見つける非従来的な特徴を持つシステムを実現する。 しかし、消散と増幅を併用する必要性は、EPを持つシステムの応用を制限している。 本研究では,散逸や増幅のないエルミート系における例外的点相転移のシグネチャの存在を実証する。 2つの結合振動子と、それらの環境が数万自由度しか持たない合成エルミート系を考える。 このようなエルミート系のダイナミクスは、非エルミート系におけるepに対応する発振器間の結合強度で生じる遷移を示す。 この遷移は、エネルギーの崩壊と復活が起こる系の力学の非マルコフ的状態においても現れている。 したがって、非エルミート系におけるEPの通過時に生じる相転移が常にエルミート系に現れることを示す。 非マルコフ系におけるEP相転移のシグネチャを観察するための実験的スキームについて論じる。

Exceptional point (EP) is a spectral singularity in non-Hermitian systems. The passing over the EP leads to a phase transition, which endows the system with unconventional features that find a wide range of applications. However, the need of using the dissipation and amplification limits the possible applications of systems with the EP. In this work, we demonstrate an existence of signature of exceptional point phase transition in Hermitian systems that are free from dissipation and amplification. We consider a composite Hermitian system including both two coupled oscillators and their environment consisting only of several tens of degrees of freedom. We show that the dynamics of such a Hermitian system demonstrate a transition, which occurs at the coupling strength between oscillators corresponding to the EP in the non-Hermitian system. This transition manifests itself even in the non-Markovian regime of the system dynamics in which collapses and revivals of the energy occur. Thus, we demonstrate that the phase transition occurring at the passing over the EP in the non-Hermitian system manifests itself in the Hermitian system at all time. We discuss the experimental scheme to observe the signature of EP phase transition in the non-Markovian regime.
翻訳日:2023-04-17 17:02:06 公開日:2023-04-14
# 3次元テンソルネットワークの効率的な計算

Efficient calculation of three-dimensional tensor networks ( http://arxiv.org/abs/2210.09896v2 )

ライセンス: Link先を確認
Li-Ping Yang, Y. F. Fu, Z. Y. Xie, and T. Xiang(参考訳) 本研究では,3次元古典統計モデルと(2+1)次元量子格子モデルの研究に特に関係する,変換不変な3次元テンソルネットワークの物理量を計算する効率的なアルゴリズムを提案する。 古典モデルの文脈では、左と右の優性固有ベクトルが2つの射影された単純な状態によって表現される転送行列の優性固有値問題を解くことによって分割関数を決定する。 これら2つの射影整合状態はエルミート共役ではなく、内部積が通常の処方薬よりもはるかに効率的に計算できるように適切に配置されている。 3次元イジングモデルでは,計算された内部エネルギーと自発的磁化は文献で公表された結果と一致する。 他のモデルの改良や拡張についても論じている。

We have proposed an efficient algorithm to calculate physical quantities in the translational invariant three-dimensional tensor networks, which is particularly relevant to the study of the three-dimensional classical statistical models and the (2+1)-dimensional quantum lattice models. In the context of a classical model, we determine the partition function by solving the dominant eigenvalue problem of the transfer matrix, whose left and right dominant eigenvectors are represented by two projected entangled simplex states. These two projected entangled simplex states are not Hermitian conjugate to each other but are appropriately arranged so that their inner product can be computed much more efficiently than in the usual prescription. For the three-dimensional Ising model, the calculated internal energy and spontaneous magnetization agree with the published results in the literature. The possible improvement and extension to other models are also discussed.
翻訳日:2023-04-17 16:56:26 公開日:2023-04-14
# 量子回路マッピングのための最適サブアーキテクチャについて

On Optimal Subarchitectures for Quantum Circuit Mapping ( http://arxiv.org/abs/2210.09321v2 )

ライセンス: Link先を確認
Tom Peham, Lukas Burgholzer and Robert Wille(参考訳) 最先端の量子コンピュータで実行できる低レベル記述に高レベル量子回路をコンパイルすることは、量子コンピューティングのソフトウェアスタックの重要な部分である。 あるデバイスに量子回路をコンパイルする1つのステップは量子回路マッピングである。 量子回路マッピングにおける探索空間は量子ビット数で指数関数的に増加するため、このプロセスでできる限りデバイスの物理的量子ビットの数を考えることが望ましい。 以前の研究は、回路で使用されるキュービットの数だけからなる量子コンピュータのサブアーキテクチャのみを考えるのに十分であると予想していた。 本稿では、この予想を反論し、アーキテクチャの大きい部分を考慮するとマッピングの問題に対するより良い解決策が得られるかどうかを判断するための基準を確立する。 例えば、ある量子回路の最適マッピング解を失うことなく物理的な量子ビットを取り除けないような最小サイズのサブアーキテクチャを決定することは、非常に難しい問題である。 最適性基準の緩和に基づき、実用的な量子回路の最適性を維持した緩和された考察を導入する。 最終的には、効率的な量子回路マッピングソリューションの基礎を提供するサブアーキテクチャの最適化に近い集合を計算するための2つの方法が導かれる。 我々は、IBM、Google、Rigettiによる最先端量子コンピュータに対するこの新しい手法の利点を実証する。

Compiling a high-level quantum circuit down to a low-level description that can be executed on state-of-the-art quantum computers is a crucial part of the software stack for quantum computing. One step in compiling a quantum circuit to some device is quantum circuit mapping, where the circuit is transformed such that it complies with the architecture's limited qubit connectivity. Because the search space in quantum circuit mapping grows exponentially in the number of qubits, it is desirable to consider as few of the device's physical qubits as possible in the process. Previous work conjectured that it suffices to consider only subarchitectures of a quantum computer composed of as many qubits as used in the circuit. In this work, we refute this conjecture and establish criteria for judging whether considering larger parts of the architecture might yield better solutions to the mapping problem. We show that determining subarchitectures that are of minimal size, i.e., of which no physical qubit can be removed without losing the optimal mapping solution for some quantum circuit, is a very hard problem. Based on a relaxation of the criteria for optimality, we introduce a relaxed consideration that still maintains optimality for practically relevant quantum circuits. Eventually, this results in two methods for computing near-optimal sets of subarchitectures$\unicode{x2014}$providing the basis for efficient quantum circuit mapping solutions. We demonstrate the benefits of this novel method for state-of-the-art quantum computers by IBM, Google and Rigetti.
翻訳日:2023-04-17 16:56:14 公開日:2023-04-14
# 適応融合による係り受け強化事前学習モデルによる意味マッチングの改善

Improving Semantic Matching through Dependency-Enhanced Pre-trained Model with Adaptive Fusion ( http://arxiv.org/abs/2210.08471v4 )

ライセンス: Link先を確認
Jian Song, Di Liang, Rumei Li, Yuntao Li, Sirui Wang, Minlong Peng, Wei Wu, Yongxin Yu(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルはセマンティックセンテンスマッチングに大きな進歩を遂げた。 一方、依存関係事前知識は複数のNLPタスクにおいて一般的な利点を示している。 しかし、複雑なセマンティックマッチング関係をより良くモデル化するために、依存関係事前構造を事前訓練されたモデルに効率的に統合する方法はまだ未定である。 本稿では,事前学習したモデルに依存性構造を明示的に導入し,セマンティック情報と適応的に融合する<textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA})を提案する。 具体的には、 DAFA はまず、注意重みを調整するための依存性行列を構築するために、構造に敏感なパラダイムを提案する。 得られた依存情報と元の意味信号を統合するために、適応的な融合モジュールを採用する。 さらにdafaは注意計算フローを再構築し、より良い解釈性を提供する。 bertに適用することで、10の公開データセットで最先端あるいは競争力のあるパフォーマンスを実現し、セマンティックマッチングタスクで依存性構造を適応的に活用するメリットを実証する。

Transformer-based pre-trained models like BERT have achieved great progress on Semantic Sentence Matching. Meanwhile, dependency prior knowledge has also shown general benefits in multiple NLP tasks. However, how to efficiently integrate dependency prior structure into pre-trained models to better model complex semantic matching relations is still unsettled. In this paper, we propose the \textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA}), which explicitly introduces dependency structure into pre-trained models and adaptively fuses it with semantic information. Specifically, \textbf{\emph{(i)}} DAFA first proposes a structure-sensitive paradigm to construct a dependency matrix for calibrating attention weights. It adopts an adaptive fusion module to integrate the obtained dependency information and the original semantic signals. Moreover, DAFA reconstructs the attention calculation flow and provides better interpretability. By applying it on BERT, our method achieves state-of-the-art or competitive performance on 10 public datasets, demonstrating the benefits of adaptively fusing dependency structure in semantic matching task.
翻訳日:2023-04-17 16:55:55 公開日:2023-04-14
# アダプティブクロスと並列スーパービジョンによる立体内視鏡像のロバスト3次元再構成のための双方向半教師付きデュアルブランチCNN

Bidirectional Semi-supervised Dual-branch CNN for Robust 3D Reconstruction of Stereo Endoscopic Images via Adaptive Cross and Parallel Supervisions ( http://arxiv.org/abs/2210.08291v4 )

ライセンス: Link先を確認
Hongkuan Shi, Zhiwei Wang, Ying Zhou, Dun Li, Xin Yang, Qiang Li(参考訳) 教師-学生ネットワークによる半教師付き学習は、いくつかのラベル付きサンプルでモデルを効果的に訓練することができる。 学生モデルでは、教師の余分なラベル付きデータの予測から知識を抽出することができる。 しかし、このような知識の流れは通常一方向であり、パフォーマンスは教師モデルの品質に弱い。 本稿では,教師と学生の両方の役割を兼ね備えた,新しい双方向学習方式を提案することによって,ステレオ内視鏡画像の3次元再構築を活発に行うことを目的とする。 具体的には,二重分岐畳み込みニューラルネットワークを学習するために,適応クロス・スーパービジョン(acs)と適応パラレル・スーパービジョン(aps)という2つの自己スーパービジョンを導入する。 2つの枝は同じ位置で2つの異なる相違確率分布を予測し、その相違値として期待を出力する。 学習した知識は、分岐方向(ACSにおける分散誘導)と平行方向(APSにおける分散誘導)の2つの方向に沿って流れている。 さらに、各ブランチは、提供された監督を動的に洗練するための信頼性も学習する。 ACSでは、予測された相違が一様分布に軟化され、信頼性が低ければ低いほど分布は滑らかになる。 APSでは、信頼性の低い人の体重を下げることで誤った予測を抑える。 適応的な双方向学習では、2つの枝はよく調整された指導を受け、最終的には一貫したより正確な格差推定に収束する。 4つの公開データセットに対する広範囲かつ包括的な実験結果は、平均的な不一致誤差を少なくとも9.76%減少させた他の最先端技術よりも優れたパフォーマンスを示している。

Semi-supervised learning via teacher-student network can train a model effectively on a few labeled samples. It enables a student model to distill knowledge from the teacher's predictions of extra unlabeled data. However, such knowledge flow is typically unidirectional, having the performance vulnerable to the quality of teacher model. In this paper, we seek to robust 3D reconstruction of stereo endoscopic images by proposing a novel fashion of bidirectional learning between two learners, each of which can play both roles of teacher and student concurrently. Specifically, we introduce two self-supervisions, i.e., Adaptive Cross Supervision (ACS) and Adaptive Parallel Supervision (APS), to learn a dual-branch convolutional neural network. The two branches predict two different disparity probability distributions for the same position, and output their expectations as disparity values. The learned knowledge flows across branches along two directions: a cross direction (disparity guides distribution in ACS) and a parallel direction (disparity guides disparity in APS). Moreover, each branch also learns confidences to dynamically refine its provided supervisions. In ACS, the predicted disparity is softened into a unimodal distribution, and the lower the confidence, the smoother the distribution. In APS, the incorrect predictions are suppressed by lowering the weights of those with low confidence. With the adaptive bidirectional learning, the two branches enjoy well-tuned supervisions, and eventually converge on a consistent and more accurate disparity estimation. The extensive and comprehensive experimental results on four public datasets demonstrate our superior performance over other state-of-the-arts with a relative decrease of averaged disparity error by at least 9.76%.
翻訳日:2023-04-17 16:55:32 公開日:2023-04-14
# Stylex: 人間の語彙アノテーションを用いた説明スタイル

StyLEx: Explaining Style Using Human Lexical Annotations ( http://arxiv.org/abs/2210.07469v2 )

ライセンス: Link先を確認
Shirley Anugrah Hayati, Kyumin Park, Dheeraj Rajagopal, Lyle Ungar, Dongyeop Kang(参考訳) 大規模な事前学習された言語モデルは、様々なスタイル分類タスクで印象的な結果を得たが、しばしばスプリアスなドメイン固有語を学習して予測を行う(hayati et al., 2021)。 人間の説明では、このタスクの重要な特徴としてスタイリスティックトークンが強調されるが、モデル説明はしばしばそれらと一致しない。 この課題に取り組むために,スタイリスティックな特徴の人間が注釈した説明から学習し,協調的にタスクの実行を学習し,それらの特徴をモデル説明として予測するモデルstylexを紹介する。 実験の結果,Stylexは文レベルの予測性能をドメイン内およびドメイン外の両方で犠牲にすることなく,人文的な語彙的説明を提供することができた。 StyLExによる説明では、説明基準(十分性、妥当性)と人間のアノテーションによる評価において、大幅な改善が示されている。 また、広く使われているサリエンシに基づく説明基準よりも、人間の判断により理解しやすい。

Large pre-trained language models have achieved impressive results on various style classification tasks, but they often learn spurious domain-specific words to make predictions (Hayati et al., 2021). While human explanation highlights stylistic tokens as important features for this task, we observe that model explanations often do not align with them. To tackle this issue, we introduce StyLEx, a model that learns from human-annotated explanations of stylistic features and jointly learns to perform the task and predict these features as model explanations. Our experiments show that StyLEx can provide human-like stylistic lexical explanations without sacrificing the performance of sentence-level style prediction on both in-domain and out-of-domain datasets. Explanations from StyLEx show significant improvements in explanation metrics (sufficiency, plausibility) and when evaluated with human annotations. They are also more understandable by human judges compared to the widely-used saliency-based explanation baseline.
翻訳日:2023-04-17 16:55:04 公開日:2023-04-14
# 例外的絡み合い遷移と自然散逸エンハンス量子センシング

Exceptional entanglement transition and natural-dissipation-enhanced quantum sensing ( http://arxiv.org/abs/2210.04494v2 )

ライセンス: Link先を確認
Peirong Han, Fan Wu, Xinjie Huang, Huaizhi Wu, Chang-Ling Zou, Wei Yi, Mengzhen Zhang, Hekang Li, Kai Xu, Dongning Zheng, Heng Fan, Jianming Wen, Zhenbiao Yang, Shibiao Zheng(参考訳) エルミートから非エルミート(nh)領域へのハミルトン力学の拡張は、物理科学を著しく進歩させた。 NH物理学の古典的な側面は実質的に研究されているが、NH量子力学的に相関するシステムに固有の例外現象の研究はいまだに不足している。 ここでは、自然散逸性光マター系における絡み合い遷移を例外点(EP)で明らかにし、この現象を回路量子力学アーキテクチャで実験的に実証する。 結果はEPの量子の性質を確認し、その特異な絡み合い挙動との関係を明らかにし、これはNH相互作用量子系に普遍的であるが、未解明のままである。 さらに, 本システムのu(1)対称性は, 従来の量子センシングプロトコルを損なう不可避な自然散逸を, 弱磁場効果を増幅するための正の資源として利用することができることを示した。

Extension of Hamiltonian dynamics from the Hermitian to non-Hermitian (NH) domain has significantly advanced physical sciences. While classical aspects of NH physics have been substantially explored, investigations of exceptional phenomena uniquely associated with NH quantum-mechanically correlated systems are still lacking. Here we unveil an entanglement transition in naturally-dissipative light-matter systems at the exceptional point (EP), and experimentally demonstrate this phenomenon with a circuit quantum electrodynamics architecture. The results confirm the EP's quantum nature, and reveal its connection to exceptional entanglement behaviors, which are universal for NH interacting quantum systems, but have remained unexplored. We further demonstrate that the U(1) symmetry of our system enables the unavoidable natural dissipation, detrimental to conventional quantum sensing protocols, to serve as a positive resource for amplifying weak field effects.
翻訳日:2023-04-17 16:54:47 公開日:2023-04-14
# DABERT: セマンティックマッチングのためのデュアルアテンション強化BERT

DABERT: Dual Attention Enhanced BERT for Semantic Matching ( http://arxiv.org/abs/2210.03454v4 )

ライセンス: Link先を確認
Sirui Wang, Di Liang, Jian Song, Yuntao Li, Wei Wu(参考訳) BERTのようなトランスフォーマーベースの事前学習言語モデルはセマンティック・センテンス・マッチングにおいて顕著な成果を上げている。 しかし、既存のモデルは微妙な違いを捉える能力が不足している。 単語の追加、削除、文の変更などの小さなノイズは、反転した予測を引き起こす可能性がある。 この問題を軽減するために,文ペアの微妙な違いを捉えるためにBERTの能力を高めるために,新たなDABERT(Dual Attention Enhanced BERT)を提案する。 dabertは(1)親和性と差異注意をモデル化する新しいデュアルチャネルアライメント機構を導入し、ソフトワードマッチを測定するデュアルアライメントモジュールである。 2) アダプティブフュージョンモジュールは,差分と親和性の特徴の集約を注意して学習し,文対の一致した詳細を記述するベクトルを生成する。 本研究では, セマンティックマッチングとロバストネステストデータセットについて広範な実験を行い, 提案手法の有効性を実証した。

Transformer-based pre-trained language models such as BERT have achieved remarkable results in Semantic Sentence Matching. However, existing models still suffer from insufficient ability to capture subtle differences. Minor noise like word addition, deletion, and modification of sentences may cause flipped predictions. To alleviate this problem, we propose a novel Dual Attention Enhanced BERT (DABERT) to enhance the ability of BERT to capture fine-grained differences in sentence pairs. DABERT comprises (1) Dual Attention module, which measures soft word matches by introducing a new dual channel alignment mechanism to model affinity and difference attention. (2) Adaptive Fusion module, this module uses attention to learn the aggregation of difference and affinity features, and generates a vector describing the matching details of sentence pairs. We conduct extensive experiments on well-studied semantic matching and robustness test datasets, and the experimental results show the effectiveness of our proposed method.
翻訳日:2023-04-17 16:54:12 公開日:2023-04-14
# 空間制約による最適輸送

Sparsity-Constrained Optimal Transport ( http://arxiv.org/abs/2209.15466v2 )

ライセンス: Link先を確認
Tianlin Liu, Joan Puigcerver, Mathieu Blondel(参考訳) 正規化された最適輸送(OT)は、ニューラルネットワークの損失層やマッチング層としてますます利用されている。 エントロピー正規化otはシンクホーンアルゴリズムで計算できるが、完全な輸送計画につながり、すべてのソースが(理論上は)すべてのターゲットと一致している。 この問題に対処するため、いくつかの作品が代わりに二次正則化を研究している。 この正規化はスパーシリティを保ち、非拘束的で滑らかな(半)双対目的へとつながり、既成の勾配法で解ける。 残念なことに、二次正規化は輸送計画の基数(非ゼロ数)を直接制御するものではない。 本稿では,交通計画の基数制約を明示したOTに対する新しいアプローチを提案する。 我々の研究は、画像パッチのような入力トークンとニューラルネットワークのようなエキスパートモデルとのマッチングにOTを使用する、専門家のまばらな混合のアプリケーションによって動機付けられています。 濃度制約は、最大で$k$トークンが専門家と一致していることを保証する。 濃度制約の非凸性にもかかわらず、対応する(セミ)双対問題は扱いやすく、一階勾配法で解くことができる。 本手法は,非正規化OT(極限の場合$k=1$)と二次正規化OT($k$が十分大きいときに回収される)の中間地盤とみなすことができる。 目標の滑らかさは、$k$が増加するにつれて増加し、収束速度と最適計画の間隔の間のトレードオフを引き起こす。

Regularized optimal transport (OT) is now increasingly used as a loss or as a matching layer in neural networks. Entropy-regularized OT can be computed using the Sinkhorn algorithm but it leads to fully-dense transportation plans, meaning that all sources are (fractionally) matched with all targets. To address this issue, several works have investigated quadratic regularization instead. This regularization preserves sparsity and leads to unconstrained and smooth (semi) dual objectives, that can be solved with off-the-shelf gradient methods. Unfortunately, quadratic regularization does not give direct control over the cardinality (number of nonzeros) of the transportation plan. We propose in this paper a new approach for OT with explicit cardinality constraints on the transportation plan. Our work is motivated by an application to sparse mixture of experts, where OT can be used to match input tokens such as image patches with expert models such as neural networks. Cardinality constraints ensure that at most $k$ tokens are matched with an expert, which is crucial for computational performance reasons. Despite the nonconvexity of cardinality constraints, we show that the corresponding (semi) dual problems are tractable and can be solved with first-order gradient methods. Our method can be thought as a middle ground between unregularized OT (recovered in the limit case $k=1$) and quadratically-regularized OT (recovered when $k$ is large enough). The smoothness of the objectives increases as $k$ increases, giving rise to a trade-off between convergence speed and sparsity of the optimal plan.
翻訳日:2023-04-17 16:53:29 公開日:2023-04-14
# FaiREE:Finite-Sample と Distribution-free Guarantee による公平な分類

FaiREE: Fair Classification with Finite-Sample and Distribution-Free Guarantee ( http://arxiv.org/abs/2211.15072v3 )

ライセンス: Link先を確認
Puheng Li, James Zou, Linjun Zhang(参考訳) アルゴリズム的公平性は、機械学習研究においてますます重要な役割を果たす。 いくつかのグループフェアネスの概念とアルゴリズムが提案されている。 しかし、既存の公平な分類方法の公平性保証は、多くの場合、大きなサンプルサイズを必要とする特定のデータ分布の仮定に主に依存しており、サンプルが少なからぬ数である場合には公平性に違反する可能性がある。 本稿では,有限サンプルと分布フリーな理論保証で群フェアネス制約を満たすフェア分類アルゴリズムであるfairを提案する。 FaiREEは、グループフェアネスの概念(例えば、機会の平等、平等化オッド、デモグラフィックパリティなど)を満たし、最適な精度を達成するように適応することができる。 これらの理論的保証は、合成データと実データの両方の実験によってさらに支持される。 FaiREEは最先端のアルゴリズムよりも優れた性能を示した。

Algorithmic fairness plays an increasingly critical role in machine learning research. Several group fairness notions and algorithms have been proposed. However, the fairness guarantee of existing fair classification methods mainly depends on specific data distributional assumptions, often requiring large sample sizes, and fairness could be violated when there is a modest number of samples, which is often the case in practice. In this paper, we propose FaiREE, a fair classification algorithm that can satisfy group fairness constraints with finite-sample and distribution-free theoretical guarantees. FaiREE can be adapted to satisfy various group fairness notions (e.g., Equality of Opportunity, Equalized Odds, Demographic Parity, etc.) and achieve the optimal accuracy. These theoretical guarantees are further supported by experiments on both synthetic and real data. FaiREE is shown to have favorable performance over state-of-the-art algorithms.
翻訳日:2023-04-17 16:45:49 公開日:2023-04-14
# SCOOP:自己監督型対応と最適化型シーンフロー

SCOOP: Self-Supervised Correspondence and Optimization-Based Scene Flow ( http://arxiv.org/abs/2211.14020v2 )

ライセンス: Link先を確認
Itai Lang, Dror Aiger, Forrester Cole, Shai Avidan, Michael Rubinstein(参考訳) シーンフローの推定はコンピュータビジョンにおける長年の課題であり、連続した観察からシーンの3d動きを見つけることが目的である。 近年,3dポイントクラウドからのシーンフローの計算が試みられている。 一般的なアプローチは、ソースとターゲットポイントのクラウドを消費し、ポイント毎の翻訳ベクトルを出力する回帰モデルをトレーニングすることだ。 別の方法として、点雲間の点マッチングを学習し、初期対応フローの洗練を後退させることがある。 どちらの場合も、フローの回帰は自由3d空間で行われ、典型的な解決策は大きな注釈付き合成データセットに頼ることであるため、学習タスクは非常に難しい。 本研究では,地中流れの監視を必要とせず,少ないデータ量で学習可能なシーンフロー推定手法であるscoopを提案する。 先行研究とは対照的に,学習点の特徴表現に着目した純粋対応モデルを訓練し,その流れを源点とソフト対応対象点との差として初期化する。 そして, 実行時相において, 自己監督対象のフローリファインメント成分を直接最適化し, 点雲間のコヒーレントかつ正確な流れ場を導出する。 トレーニングデータの一部を使用中に,既存の先行手法と比較して,我々の手法が達成した性能向上を示す実験を行った。 私たちのコードはhttps://github.com/itailang/SCOOP.comで公開されています。

Scene flow estimation is a long-standing problem in computer vision, where the goal is to find the 3D motion of a scene from its consecutive observations. Recently, there have been efforts to compute the scene flow from 3D point clouds. A common approach is to train a regression model that consumes source and target point clouds and outputs the per-point translation vector. An alternative is to learn point matches between the point clouds concurrently with regressing a refinement of the initial correspondence flow. In both cases, the learning task is very challenging since the flow regression is done in the free 3D space, and a typical solution is to resort to a large annotated synthetic dataset. We introduce SCOOP, a new method for scene flow estimation that can be learned on a small amount of data without employing ground-truth flow supervision. In contrast to previous work, we train a pure correspondence model focused on learning point feature representation and initialize the flow as the difference between a source point and its softly corresponding target point. Then, in the run-time phase, we directly optimize a flow refinement component with a self-supervised objective, which leads to a coherent and accurate flow field between the point clouds. Experiments on widespread datasets demonstrate the performance gains achieved by our method compared to existing leading techniques while using a fraction of the training data. Our code is publicly available at https://github.com/itailang/SCOOP.
翻訳日:2023-04-17 16:45:34 公開日:2023-04-14
# 医療介入の存在下での機械学習(ml)に基づくリスク予測アルゴリズムのモニタリング

Monitoring machine learning (ML)-based risk prediction algorithms in the presence of confounding medical interventions ( http://arxiv.org/abs/2211.09781v2 )

ライセンス: Link先を確認
Jean Feng, Alexej Gossmann, Gene Pennello, Nicholas Petrick, Berkman Sahiner, Romain Pirracchio(参考訳) 医療における機械学習(ML)に基づくリスク予測モデルのパフォーマンスモニタリングは、医療介入(CMI)の問題によって複雑である。アルゴリズムが患者が有害事象のリスクが高いと予測した場合、臨床医は予防的治療を管理し、アルゴリズムが予測するターゲットを変更する可能性が高い。 単純なアプローチは、CMIを無視し、治療を受けていない患者のみを監視することである。 一般に、cmiを無視するとタイプiのエラーが膨らむことがある。 (i)未治療患者は、予測リスクの低い患者を不釣り合いに代表し、 (II)モデルと臨床信頼の双方における進化は、標準的な仮定に反する複雑な依存関係を誘発することができる。 それにもかかわらず、条件付き交換性や時間的選択バイアスが保たれている場合、有効な推論が可能であることを示す。 具体的には,動的制御限界を有するスコアベース累積和(CUSUM)モニタリング手法を開発した。 シミュレーションにより、モデル更新とモニタリングを組み合わせる利点を実証し、予測モデルにおける過剰信頼が性能劣化の検出を遅らせる可能性を検証した。 最後に,これらのモニタリング手法を用いて,covid-19パンデミック時の術後吐き気および吐き気に対するmlベースのリスク電卓のキャリブレーション劣化の検出方法を示す。

Performance monitoring of machine learning (ML)-based risk prediction models in healthcare is complicated by the issue of confounding medical interventions (CMI): when an algorithm predicts a patient to be at high risk for an adverse event, clinicians are more likely to administer prophylactic treatment and alter the very target that the algorithm aims to predict. A simple approach is to ignore CMI and monitor only the untreated patients, whose outcomes remain unaltered. In general, ignoring CMI may inflate Type I error because (i) untreated patients disproportionally represent those with low predicted risk and (ii) evolution in both the model and clinician trust in the model can induce complex dependencies that violate standard assumptions. Nevertheless, we show that valid inference is still possible if one monitors conditional performance and if either conditional exchangeability or time-constant selection bias hold. Specifically, we develop a new score-based cumulative sum (CUSUM) monitoring procedure with dynamic control limits. Through simulations, we demonstrate the benefits of combining model updating with monitoring and investigate how over-trust in a prediction model may delay detection of performance deterioration. Finally, we illustrate how these monitoring methods can be used to detect calibration decay of an ML-based risk calculator for postoperative nausea and vomiting during the COVID-19 pandemic.
翻訳日:2023-04-17 16:45:13 公開日:2023-04-14
# Executable Digital Twin: デジタルと物理の世界を融合させる

The Executable Digital Twin: merging the digital and the physics worlds ( http://arxiv.org/abs/2210.17402v2 )

ライセンス: Link先を確認
Herman Van der Auweraer, Dirk Hartmann(参考訳) デジタル双生児は製品作成プロセスの本質的な部分となっているが、真の力はデジタル表現と物理的表現との接続にある。 物理的資産で取得したデータは、デジタルツインを検証、更新、強化することができる。 デジタル表現に含まれる知識は、物理的資産自体に価値をもたらす。 専用カプセル化をデジタル双生児から抽出して特定の文脈で特定の行動のセットをモデル化する場合、インスタンス化および自己完結型モデルのようなスタンドアロン実行可能表現を実行可能なデジタル双生児と呼ぶ。 このコントリビューションでは, モデル順序の低減, リアルタイムモデル, 状態推定, 共シミュレーションなどの重要なビルディングブロックを概説し, 多くの特徴的ユースケースについて述べる。 これには、仮想センシング、ハイブリッドテスト、ハードウェア・イン・ザ・ループ、モデルベースの制御、モデルベースの診断が含まれる。

While the digital twin has become an intrinsic part of the product creation process, its true power lies in the connectivity of the digital representation with its physical counterpart. Data acquired on the physical asset can validate, update and enrich the digital twin. The knowledge contained in the digital representation brings value to the physical asset itself. When a dedicated encapsulation is extracted from the digital twin to model a specific set of behaviors in a specific context, delivering a stand-alone executable representation, such instantiated and self-contained model is referred to as an Executable Digital Twin. In this contribution, key building blocks such as model order reduction, real-time models, state estimation and co-simulation are reviewed, and a number of characteristic use cases are presented. These include virtual sensing, hybrid testing and hardware-in-the loop, model-based control and model-based diagnostics.
翻訳日:2023-04-17 16:44:35 公開日:2023-04-14
# データを増やす: 音声の自動認識と翻訳のための最小限の努力データ拡張

Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation ( http://arxiv.org/abs/2210.15398v2 )

ライセンス: Link先を確認
Tsz Kin Lam, Shigehiko Schamoni and Stefan Riezler(参考訳) データ拡張は、既存のデータに基づいて新しいトレーニングデータを生成する技術である。 新しいトレーニングインスタンスを構築するために、オリジナルのデータ例を連結するシンプルで費用効率の良い方法を評価する。 このような拡張データによる継続的なトレーニングは、オリジナルのデータのみに最適化された既製のTransformerとConformerモデルを改善することができる。 リブリスピーチ-960hテストセット(テストクリーンおよびテストその他では2.83および6.87)は、浅い核融合 (2.55および6.27) と組み合わせたモデルに引き継がれた。 また, 4つの非英語のasr部分において最大0.9 werの改善が得られ, 元の訓練データの大きさに大きく依存することを確認した。 異なる連結戦略を比較し,その改善を達成するために話者情報を必要としないことを見出した。 最後に,提案手法が音声翻訳にも有効であることを2つのデータセットで示す。

Data augmentation is a technique to generate new training data based on existing data. We evaluate the simple and cost-effective method of concatenating the original data examples to build new training instances. Continued training with such augmented data is able to improve off-the-shelf Transformer and Conformer models that were optimized on the original data only. We demonstrate considerable improvements on the LibriSpeech-960h test sets (WER 2.83 and 6.87 for test-clean and test-other), which carry over to models combined with shallow fusion (WER 2.55 and 6.27). Our method of continued training also leads to improvements of up to 0.9 WER on the ASR part of CoVoST-2 for four non English languages, and we observe that the gains are highly dependent on the size of the original training data. We compare different concatenation strategies and found that our method does not need speaker information to achieve its improvements. Finally, we demonstrate on two datasets that our methods also works for speech translation tasks.
翻訳日:2023-04-17 16:44:21 公開日:2023-04-14
# 過パラメータ高次元モデルにおける不確かさの定量化に関する研究

A study of uncertainty quantification in overparametrized high-dimensional models ( http://arxiv.org/abs/2210.12760v2 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。 ラスト層スコアのようなナイーブ測度は、過度にパラメータ化されたニューラルネットワークの文脈で過信的な推定が得られることでよく知られている。 温度スケーリングからニューラルネットワークの異なるベイズ処理まで、いくつかの方法が、より校正された不確実性測定をもたらすという数値観測によってしばしば支持される過剰信頼を軽減するために提案されている。 本研究では,超並列ニューラルネットワークのための数学的に扱いやすいモデルであるランダム特徴モデルにおいて,バイナリ分類のための一般的な不確実性尺度を鋭く比較する。 分類精度とキャリブレーションのトレードオフについて検討し, 最適正規化推定器のキャリブレーション曲線における二重降下様挙動を過パラメータ化の関数として明らかにする。 これは経験的ベイズ法とは対照的であり、一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されている。

Uncertainty quantification is a central challenge in reliable and trustworthy machine learning. Naive measures such as last-layer scores are well-known to yield overconfident estimates in the context of overparametrized neural networks. Several methods, ranging from temperature scaling to different Bayesian treatments of neural networks, have been proposed to mitigate overconfidence, most often supported by the numerical observation that they yield better calibrated uncertainty measures. In this work, we provide a sharp comparison between popular uncertainty measures for binary classification in a mathematically tractable model for overparametrized neural networks: the random features model. We discuss a trade-off between classification accuracy and calibration, unveiling a double descent like behavior in the calibration curve of optimally regularized estimators as a function of overparametrization. This is in contrast with the empirical Bayes method, which we show to be well calibrated in our setting despite the higher generalization error and overparametrization.
翻訳日:2023-04-17 16:44:03 公開日:2023-04-14
# 多次元気象・気候データをニューラルネットワークに圧縮する

Compressing multidimensional weather and climate data into neural networks ( http://arxiv.org/abs/2210.12538v3 )

ライセンス: Link先を確認
Langwen Huang, Torsten Hoefler(参考訳) 気象・気候シミュレーションは、気候変動や厳しい天候を理解するために、後に研究者によって分析される高解像度データのペタバイトを生成する。 本稿では,この多次元の気象データと気候データを圧縮する新しい手法を提案する。座標ベースのニューラルネットワークをトレーニングし,その結果のパラメータを元のグリッドベースのデータのコンパクトな表現とする。 圧縮比は300倍から3000倍以上であるが,本手法は加重RMSE,MAEにおいて最先端圧縮機SZ3より優れている。 重要な大規模大気構造を忠実に保存でき、人工物は導入しない。 結果のニューラルネットワークを790x圧縮データローダとして使用して、WeatherBench予測モデルをトレーニングする場合、RMSEは2%未満増加します。 3桁のマグニチュード圧縮は、高解像度の気候データへのアクセスを民主化し、多くの新しい研究の方向性を可能にする。

Weather and climate simulations produce petabytes of high-resolution data that are later analyzed by researchers in order to understand climate change or severe weather. We propose a new method of compressing this multidimensional weather and climate data: a coordinate-based neural network is trained to overfit the data, and the resulting parameters are taken as a compact representation of the original grid-based data. While compression ratios range from 300x to more than 3,000x, our method outperforms the state-of-the-art compressor SZ3 in terms of weighted RMSE, MAE. It can faithfully preserve important large scale atmosphere structures and does not introduce artifacts. When using the resulting neural network as a 790x compressed dataloader to train the WeatherBench forecasting model, its RMSE increases by less than 2%. The three orders of magnitude compression democratizes access to high-resolution climate data and enables numerous new research directions.
翻訳日:2023-04-17 16:43:47 公開日:2023-04-14
# 拡散運動:拡散モデルによるテキスト誘導3次元運動の生成

Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion Model ( http://arxiv.org/abs/2210.12315v2 )

ライセンス: Link先を確認
Zhiyuan Ren, Zhihong Pan, Xin Zhou and Le Kang(参考訳) 本稿では,様々な動作の速度,方向,構成の異なる複雑な自然言語文から,簡易かつ新しい3次元動作を生成する手法を提案する。 古典的生成的アーキテクチャを用いる既存の手法と異なり、本課題にDenoising Diffusion Probabilistic Modelを適用し、テキストの指導の下で様々な動作結果を合成する。 拡散モデルでは、ホワイトノイズをマルコフ過程によって構造化された3次元運動に変換し、変分下界を最適化して効率よく訓練する。 テキストコンディショニング画像合成の目的を達成するために,学習中にテキスト埋め込みをモデルに融合させるために,分類器フリーの指導戦略を用いる。 我々の実験は,HumanML3Dテストセットの競争結果が定量的に得られ,より視覚的に自然で多様な例を生成できることを示した。 また,本モデルでは未認識テキスト誘導のためのゼロショットモーション生成が可能であることを示す実験を行った。

We propose a simple and novel method for generating 3D human motion from complex natural language sentences, which describe different velocity, direction and composition of all kinds of actions. Different from existing methods that use classical generative architecture, we apply the Denoising Diffusion Probabilistic Model to this task, synthesizing diverse motion results under the guidance of texts. The diffusion model converts white noise into structured 3D motion by a Markov process with a series of denoising steps and is efficiently trained by optimizing a variational lower bound. To achieve the goal of text-conditioned image synthesis, we use the classifier-free guidance strategy to fuse text embedding into the model during training. Our experiments demonstrate that our model achieves competitive results on HumanML3D test set quantitatively and can generate more visually natural and diverse examples. We also show with experiments that our model is capable of zero-shot generation of motions for unseen text guidance.
翻訳日:2023-04-17 16:43:31 公開日:2023-04-14
# ProposerとRegressorによるエンドツーエンドエンティティ検出

End-to-End Entity Detection with Proposer and Regressor ( http://arxiv.org/abs/2210.10260v4 )

ライセンス: Link先を確認
Xueru Wen, Changjiang Zhou, Haotian Tang, Luguang Liang, Yu Jiang, Hong Qi(参考訳) 名前付きエンティティ認識は、自然言語処理における伝統的なタスクである。 特にネストされたエンティティ認識は、ネストシナリオが広く存在することに広く注目されている。 最新の研究は、オブジェクト検出における集合予測の確立したパラダイムを、エンティティのネストに対処するために移行した。 しかし、コンテキスト内のリッチなセマンティック情報に適応できないクエリベクトルを手動で作成することで、これらのアプローチは制限される。 本稿では,提案手法と回帰器を用いたエンドツーエンドのエンティティ検出手法を提案する。 まず,特徴ピラミッドネットワークを用いて高品質なエンティティの提案を行う。 そして、回帰器は最終予測を生成するための提案を洗練する。 このモデルはエンコーダのみのアーキテクチャを採用し、クエリセマンティクスの豊かさ、エンティティローカライゼーションの高精度化、モデルトレーニングの容易性といった利点を享受する。 さらに,新たな空間変調注意と漸進的洗練を導入し,さらなる改善を図る。 広汎な実験により、我々のモデルは平らでネストしたNERで高度な性能を達成し、GENIAデータセットでは80.74、WeiboNERデータセットでは72.38という新しい最先端のF1スコアを達成した。

Named entity recognition is a traditional task in natural language processing. In particular, nested entity recognition receives extensive attention for the widespread existence of the nesting scenario. The latest research migrates the well-established paradigm of set prediction in object detection to cope with entity nesting. However, the manual creation of query vectors, which fail to adapt to the rich semantic information in the context, limits these approaches. An end-to-end entity detection approach with proposer and regressor is presented in this paper to tackle the issues. First, the proposer utilizes the feature pyramid network to generate high-quality entity proposals. Then, the regressor refines the proposals for generating the final prediction. The model adopts encoder-only architecture and thus obtains the advantages of the richness of query semantics, high precision of entity localization, and easiness of model training. Moreover, we introduce the novel spatially modulated attention and progressive refinement for further improvement. Extensive experiments demonstrate that our model achieves advanced performance in flat and nested NER, achieving a new state-of-the-art F1 score of 80.74 on the GENIA dataset and 72.38 on the WeiboNER dataset.
翻訳日:2023-04-17 16:43:14 公開日:2023-04-14
# berlin v2x: 複数の車両と無線アクセス技術による機械学習データセット

Berlin V2X: A Machine Learning Dataset from Multiple Vehicles and Radio Access Technologies ( http://arxiv.org/abs/2212.10343v3 )

ライセンス: Link先を確認
Rodrigo Hernang\'omez, Philipp Geuer, Alexandros Palaios, Daniel Sch\"aufele, Cara Watermann, Khawla Taleb-Bouhemadi, Mohammad Parvini, Anton Krause, Sanket Partani, Christian Vielhaus, Martin Kasparick, Daniel F. K\"ulzer, Friedrich Burmeister, Frank H. P. Fitzek, Hans D. Schotten, Gerhard Fettweis, S{\l}awomir Sta\'nczak(参考訳) 6g以降への無線通信の進化は、新しい機械学習(ml)ベースの機能に依存することが期待される。 これにより、無線ネットワークコンポーネントからの積極的な決定とアクションにより、QoS(Quality-of-Service)とユーザエクスペリエンスを維持できる。 また, 自動車と産業の通信分野における新たな利用事例が出現する。 特に、車両通信の分野では、車両間通信(V2X)方式は、そのような進歩の恩恵を強く受けるだろう。 そこで我々は,MLに基づく多種多様な研究に道を開くための詳細な測定キャンペーンを実施した。 得られたデータセットは、セルラー(2つの異なるオペレーターを持つ)とサイドリンク無線アクセス技術の両方のために、様々な都市環境にわたってGPSによるワイヤレス測定を提供する。 データセットはラベル付けされ、高解像度でサンプリングされる。 さらに,新たな研究者の参加を支援するために,必要な情報をすべて公開する。 我々は、MLが克服すべき課題と、MLが活用できる機能と、潜在的研究のヒントを示すデータの初期分析を提供する。

The evolution of wireless communications into 6G and beyond is expected to rely on new machine learning (ML)-based capabilities. These can enable proactive decisions and actions from wireless-network components to sustain quality-of-service (QoS) and user experience. Moreover, new use cases in the area of vehicular and industrial communications will emerge. Specifically in the area of vehicle communication, vehicle-to-everything (V2X) schemes will benefit strongly from such advances. With this in mind, we have conducted a detailed measurement campaign that paves the way to a plethora of diverse ML-based studies. The resulting datasets offer GPS-located wireless measurements across diverse urban environments for both cellular (with two different operators) and sidelink radio access technologies, thus enabling a variety of different studies towards V2X. The datasets are labeled and sampled with a high time resolution. Furthermore, we make the data publicly available with all the necessary information to support the onboarding of new researchers. We provide an initial analysis of the data showing some of the challenges that ML needs to overcome and the features that ML can leverage, as well as some hints at potential research studies.
翻訳日:2023-04-17 16:37:45 公開日:2023-04-14
# 電子健康記録における自然言語処理の活用による健康データ構造決定因子の増強

Leveraging Natural Language Processing to Augment Structured Social Determinants of Health Data in the Electronic Health Record ( http://arxiv.org/abs/2212.07538v2 )

ライセンス: Link先を確認
Kevin Lybarger, Nicholas J Dobbins, Ritche Long, Angad Singh, Patrick Wedgeworth, Ozlem Ozuner, Meliha Yetisgen(参考訳) 目的: 健康の社会的決定因子(SDOH)は健康に影響を及ぼし、構造化データと非構造化臨床ノートを通じて電子健康記録(EHR)に記録される。 しかし、臨床ノートにはより包括的なsdoh情報が含まれており、状態、重症度、時間性などの側面を詳述している。 この作品には2つの主な目的があります 一 詳細なSDOH情報を取得する自然言語処理(NLP)情報抽出モデルを開発すること。 二 臨床物語にSDOH抽出器を適用し、抽出した表現と既存の構造化データを組み合わせることにより得られる情報獲得を評価すること。 材料と方法: 深層学習エンティティと関係抽出アーキテクチャを用いた新しいSDOH抽出器を開発し, 様々な次元でSDOHを特徴付ける。 EHR症例では,SDOH抽出装置を225,089人,430,406人からなる大規模臨床データセットに適用し,抽出したSDOH情報を既存の構造化データと比較した。 結果: SDOH抽出器は無条件で0.86F1を達成した。 EHRのケーススタディでは,抽出したSDOH情報は,ホームレス患者の32%,喫煙者の19%,薬物使用者の10%で既存の構造化データを補完することがわかった。 結論: EHR データを用いて SDOH の健康リスク要因と社会的ニーズを特定することで,患者のケアと成果を改善することができる。 テキストエンコードされたSDOH情報のセマンティック表現は、既存の構造化データを増やし、このより包括的なSDOH表現は、これらの社会的ニーズを特定し、対処する健康システムを支援する。

Objective: Social determinants of health (SDOH) impact health outcomes and are documented in the electronic health record (EHR) through structured data and unstructured clinical notes. However, clinical notes often contain more comprehensive SDOH information, detailing aspects such as status, severity, and temporality. This work has two primary objectives: i) develop a natural language processing (NLP) information extraction model to capture detailed SDOH information and ii) evaluate the information gain achieved by applying the SDOH extractor to clinical narratives and combining the extracted representations with existing structured data. Materials and Methods: We developed a novel SDOH extractor using a deep learning entity and relation extraction architecture to characterize SDOH across various dimensions. In an EHR case study, we applied the SDOH extractor to a large clinical data set with 225,089 patients and 430,406 notes with social history sections and compared the extracted SDOH information with existing structured data. Results: The SDOH extractor achieved 0.86 F1 on a withheld test set. In the EHR case study, we found extracted SDOH information complements existing structured data with 32% of homeless patients, 19% of current tobacco users, and 10% of drug users only having these health risk factors documented in the clinical narrative. Conclusions: Utilizing EHR data to identify SDOH health risk factors and social needs may improve patient care and outcomes. Semantic representations of text-encoded SDOH information can augment existing structured data, and this more comprehensive SDOH representation can assist health systems in identifying and addressing these social needs.
翻訳日:2023-04-17 16:37:28 公開日:2023-04-14
# NoPe-NeRF: プライマリのないニューラルラジアンスフィールドの最適化

NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior ( http://arxiv.org/abs/2212.07388v3 )

ライセンス: Link先を確認
Wenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian, Victor Adrian Prisacariu(参考訳) 事前に計算されたカメラポーズを使わずにニューラルレージアンスフィールド(NeRF)を訓練することは困難である。 この方向の最近の進歩は、前方のシーンでNeRFとカメラのポーズを共同で最適化する可能性を示している。 しかし、これらの手法はなお、ドラマチックなカメラの動きにおいて困難に直面している。 我々は,この難問に未解決の単眼深度を前もって取り組むことで対処する。 これらのプリエントはトレーニング中にスケールパラメータとシフトパラメータを補正し、連続したフレーム間で相対的なポーズを制約することで生成される。 この制約は提案する新しい損失関数を用いて達成される。 実世界の屋内および屋外のシーンにおける実験により,本手法は難易度の高いカメラトラジェクトリを処理し,新しいビューレンダリング品質と推定精度で既存手法より優れることが示された。 私たちのプロジェクトページはhttps://nope-nerf.active.visionです。

Training a Neural Radiance Field (NeRF) without pre-computed camera poses is challenging. Recent advances in this direction demonstrate the possibility of jointly optimising a NeRF and camera poses in forward-facing scenes. However, these methods still face difficulties during dramatic camera movement. We tackle this challenging problem by incorporating undistorted monocular depth priors. These priors are generated by correcting scale and shift parameters during training, with which we are then able to constrain the relative poses between consecutive frames. This constraint is achieved using our proposed novel loss functions. Experiments on real-world indoor and outdoor scenes show that our method can handle challenging camera trajectories and outperforms existing methods in terms of novel view rendering quality and pose estimation accuracy. Our project page is https://nope-nerf.active.vision.
翻訳日:2023-04-17 16:36:59 公開日:2023-04-14
# 皮膚局在のない非エルミタン端バースト

Non-Hermitian edge burst without skin localizations ( http://arxiv.org/abs/2212.02879v3 )

ライセンス: Link先を確認
C. Yuce, H. Ramezani(参考訳) 開境界条件を持つ損失格子における非エルミート量子ウォークのクラスでは、崩壊確率の分布の予期せぬピークがエッジバーストと呼ばれるエッジに現れる。 エッジバーストは非エルミート皮膚効果 (nhse) とスペクトルの空隙性 (wen-tan xue et al., phys. rev. lett. 128, 120401 (2022)) に起因していることが示唆された。 非一様損失率の特定の1次元損失格子を用いて,皮膚局在がなくてもエッジバーストが発生することを示す。 さらに,スペクトルが虚ギャップ条件を満たす場合,エッジバーストは現れない可能性があることを考察する。 その基本的な重要性とは別に、エッジバースト効果の観測に関する制限を取り除き、エッジバースト効果の将来の応用のためのより広い設計空間への扉を開く。

In a class of non-Hermitian quantum walk in lossy lattices with open boundary conditions, an unexpected peak in the distribution of the decay probabilities appears at the edge, dubbed edge burst. It is proposed that the edge burst is originated jointly from the non-Hermitian skin effect (NHSE) and the imaginary gaplessness of the spectrum [Wen-Tan Xue et al., Phys. Rev. Lett. 128, 120401 (2022)]. Using a particular one-dimensional lossy lattice with a nonuniform loss rate, we show that the edge burst can occur even in the absence of skin localization. Furthermore, we discuss that the edge burst may not appear if the spectrum satisfies the imaginary gaplesness condition. Aside from its fundamental importance, by removing the restrictions on observing the edge burst effect, our results open the door to broader design space for future applications of the edge burst effect.
翻訳日:2023-04-17 16:35:53 公開日:2023-04-14
# ニューラルパラメトリックヘッドモデルの学習

Learning Neural Parametric Head Models ( http://arxiv.org/abs/2212.02761v2 )

ライセンス: Link先を確認
Simon Giebenhain, Tobias Kirschstein, Markos Georgopoulos, Martin R\"unz, Lourdes Agapito, Matthias Nie{\ss}ner(参考訳) ハイブリッド・ニューラル・フィールドに基づく完全ヒト頭部のための新しい3次元モーファブルモデルを提案する。 私たちのモデルの中核は、同一性と表現を互いに分離する神経パラメトリック表現(neural parametric representation)にあります。 この目的のために、私たちは、人物のアイデンティティを符号付き距離場(sdf)として標準空間に捉え、神経変形場で表情をモデル化する。 さらに,顔のアンカーポイントを中心とした局所フィールドのアンサンブルを導入することで,高忠実度局所詳細を実現する。 一般化を容易にするために,255の異なるidから5200以上のヘッドスキャンを新たに取得したデータセットを,独自のハイエンド3dスキャンセットアップでトレーニングする。 我々のデータセットは、幾何の質と完全性の両方において、同等の既存のデータセットをはるかに上回り、1スキャンあたり3.5Mのメッシュ面を平均化しています。 最後に,本手法が,誤差や再構成品質の面で最先端手法を上回っていることを実証する。

We propose a novel 3D morphable model for complete human heads based on hybrid neural fields. At the core of our model lies a neural parametric representation that disentangles identity and expressions in disjoint latent spaces. To this end, we capture a person's identity in a canonical space as a signed distance field (SDF), and model facial expressions with a neural deformation field. In addition, our representation achieves high-fidelity local detail by introducing an ensemble of local fields centered around facial anchor points. To facilitate generalization, we train our model on a newly-captured dataset of over 5200 head scans from 255 different identities using a custom high-end 3D scanning setup. Our dataset significantly exceeds comparable existing datasets, both with respect to quality and completeness of geometry, averaging around 3.5M mesh faces per scan. Finally, we demonstrate that our approach outperforms state-of-the-art methods in terms of fitting error and reconstruction quality.
翻訳日:2023-04-17 16:35:35 公開日:2023-04-14
# 未知のマンハッタンフレームを持つマンハッタンシーンのニューラルラジアンス場

Neural Radiance Fields for Manhattan Scenes with Unknown Manhattan Frame ( http://arxiv.org/abs/2212.01331v2 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Luc Van Gool(参考訳) 暗黙的ニューラルフィールド表現を用いた新しいビュー合成と3次元モデリングは、マルチビューカメラの校正に非常に有効であることが示されている。 このような表現は、追加の幾何学的および意味的監督の恩恵を受けることが知られている。 追加の監視を利用する既存の方法の多くは、高密度のピクセルワイドラベルや、ローカライズされたシーン先行を必要とする。 これらの手法は、シーンの説明の観点で提供される高レベルな曖昧なシーン優先の恩恵を受けることができない。 本研究では,マンハッタンのシーンの幾何学的前兆を利用して,暗黙の神経放射場表現を改善することを目的とする。 より正確には、マンハッタンの屋内シーンに関する知識(調査中の)のみが、マンハッタンの座標フレームが未知の状態で、追加情報を持たないことがわかっていると仮定する。 このようなハイレベルな事前処理は、暗黙の神経野で明示的に導出される表面正規化を自己監督するために用いられる。 我々のモデリングにより、導出した正規化をグループ化し、それらの直交制約を自己超越のために活用することができる。 様々な屋内シーンのデータセットを徹底的に実験した結果,提案手法が確立したベースラインよりも有益であることが示された。

Novel view synthesis and 3D modeling using implicit neural field representation are shown to be very effective for calibrated multi-view cameras. Such representations are known to benefit from additional geometric and semantic supervision. Most existing methods that exploit additional supervision require dense pixel-wise labels or localized scene priors. These methods cannot benefit from high-level vague scene priors provided in terms of scenes' descriptions. In this work, we aim to leverage the geometric prior of Manhattan scenes to improve the implicit neural radiance field representations. More precisely, we assume that only the knowledge of the indoor scene (under investigation) being Manhattan is known -- with no additional information whatsoever -- with an unknown Manhattan coordinate frame. Such high-level prior is used to self-supervise the surface normals derived explicitly in the implicit neural fields. Our modeling allows us to group the derived normals and exploit their orthogonality constraints for self-supervision. Our exhaustive experiments on datasets of diverse indoor scenes demonstrate the significant benefit of the proposed method over the established baselines.
翻訳日:2023-04-17 16:35:18 公開日:2023-04-14
# 長距離自由フェルミオン鎖におけるバルク境界対応と特異性充填

Bulk-boundary correspondence and singularity-filling in long-range free-fermion chains ( http://arxiv.org/abs/2211.15690v3 )

ライセンス: Link先を確認
Nick G. Jones, Ryan Thorngren, Ruben Verresen(参考訳) バルク境界対応は、位相的に保護されたエッジモードとバルクトポロジカル不変量と関連し、短距離自由フェルミオン鎖に対してよく理解されている。 ケーススタディでは、結合がパワーロー指数$\alpha$と崩壊する長距離ハミルトニアンを考えるが、自由フェルミオン対称性クラスに対する体系的な研究は行われていない。 本稿では, 1d bdi および aiii 対称性クラスにおけるガッピング・翻訳不変モデルに対する $\alpha>1$ の解法を紹介し,量子化巻線不変量,バルク位相的文字列順序パラメータ,エッジモードの完全解を組み合わせる。 これらの鎖の物理学は、ハミルトニアンのカップリングによって決定される複素函数の研究によって解明される: エッジモードがこの関数の根と関連づけられている短距離の場合とは対照的に、それらが特異点に関連付けられていることが分かる。 注目すべき結果は、エッジモードの有限サイズの分割は位相的巻数に依存しており、後者のプローブとして使うことができる。 さらにこれらの結果を一般化し i) BDI 鎖の族を $\alpha<1$ で識別する。 (ii) ギャップのない対称性が保護された位相連鎖は、$\alpha -1$ が動的臨界指数を超えると位相不変量とエッジモードを持つことができる。

The bulk-boundary correspondence relates topologically-protected edge modes to bulk topological invariants, and is well-understood for short-range free-fermion chains. Although case studies have considered long-range Hamiltonians whose couplings decay with a power-law exponent $\alpha$, there has been no systematic study for a free-fermion symmetry class. We introduce a technique for solving gapped, translationally invariant models in the 1D BDI and AIII symmetry classes with $\alpha>1$, linking together the quantized winding invariant, bulk topological string-order parameters and a complete solution of the edge modes. The physics of these chains is elucidated by studying a complex function determined by the couplings of the Hamiltonian: in contrast to the short-range case where edge modes are associated to roots of this function, we find that they are now associated to singularities. A remarkable consequence is that the finite-size splitting of the edge modes depends on the topological winding number, which can be used as a probe of the latter. We furthermore generalise these results by (i) identifying a family of BDI chains with $\alpha<1$ where our results still hold, and (ii) showing that gapless symmetry-protected topological chains can have topological invariants and edge modes when $\alpha -1$ exceeds the dynamical critical exponent.
翻訳日:2023-04-17 16:34:36 公開日:2023-04-14
# 高次ウォーカーモードとカー非線形性との結合によるマグメカニカルバックアクション補正

Magnomechanical backaction corrections due to coupling to higher order Walker modes and Kerr nonlinearities ( http://arxiv.org/abs/2301.11920v4 )

ライセンス: Link先を確認
V. A. S. V. Bittencourt and C. A. Potts and Y. Huang and J. P. Davis and S. Viola Kusminskiy(参考訳) 磁石中のマグノンとフォノンの放射圧のような結合は、動的バックアクションによってフォノン周波数(磁気バネ効果)と崩壊率(磁気メカニカル崩壊)を変化させることができる。 このような効果は、磁気圏の均一なマグノンモード(キッテルモード)をマイクロ波空洞に結合することで最近観察されている。 特に,マグノメカニクスに基づく熱測定などの応用に必須の条件である [c.a. potts et al., arxiv:2211.13766 [quant-ph] (2022)] , 反作用を回避できる能力が実証された。 しかし, 標準理論モデルで予測されたマグノメカニカル崩壊速度から偏差が観測された。 本研究では,これらの偏差を補正による補正により考慮する。 (i)磁気ケラー非線形性及び (ii)追加のマグノンモードへのフォノンの結合。 これらの付加モードが駆動キャビティに弱く結合している場合、このモデルは平均的なkittel magnonモードの占有に比例する補正を与える。 実験の結果は磁気球面に焦点をあて、静磁場ウォーカーモードがキッテルモードと同じくらい効率的に関連するメカニカルモードと結合することを示した。 我々のモデルは実験データとよく一致している。

The radiation pressure-like coupling between magnons and phonons in magnets can modify the phonon frequency (magnomechanical spring effect) and decay rate (magnomechanical decay) via dynamical backaction. Such effects have been recently observed by coupling the uniform magnon mode of a magnetic sphere (the Kittel mode) to a microwave cavity. In particular, the ability to evade backaction effects was demonstrated [C.A. Potts et al., arXiv:2211.13766 [quant-ph] (2022)], a requisite for applications such as magnomechanical based thermometry. However, deviations were observed from the predicted magnomechanical decay rate within the standard theoretical model. In this work, we account for these deviations by considering corrections due to (i) magnetic Kerr nonlinearities and (ii) the coupling of phonons to additional magnon modes. Provided that such additional modes couple weakly to the driven cavity, our model yields a correction proportional to the average Kittel magnon mode occupation. We focus our results on magnetic spheres, where we show that the magnetostatic Walker modes couple to the relevant mechanical modes as efficiently as the Kittel mode. Our model yields excellent agreement with the experimental data.
翻訳日:2023-04-17 16:27:26 公開日:2023-04-14
# アフィントーダ格子の良性ゴーストを持つ高次微分ハミルトン多様体

Higher derivative Hamiltonians with benign ghosts from affine Toda lattices ( http://arxiv.org/abs/2301.11317v2 )

ライセンス: Link先を確認
Andreas Fring and Bethan Turner(参考訳) スミルガの予想のさらなる証拠として、可積分系の高次電荷は、そのパラメータ空間に良性ゴーストセクタを持つ高次微分理論の候補となる。 具体例として、異なるタイプのKac-ムーディ代数に関連する多くのアフィントーダ格子理論に対する古典位相空間の性質について研究する。 量子論においてゴーストセクターが存在するとき、振動、発散、良性発振、良性発散の挙動を持つものもいくつかある。 軌道が有限時間で特異点に達するような分岐挙動は観察されなかった。 リー代数根の特定の表現に基づく理論では、中心-質量座標と電荷の間のポアソンブラケット関係によって支配される初期条件に対して極度に敏感であることがわかった。

We provide further evidence for Smilga's conjecture that higher charges of integrable systems are suitable candidates for higher derivative theories that possess benign ghost sectors in their parameter space. As concrete examples we study the properties of the classical phase spaces for a number of affine Toda lattices theories related to different types of Kac-Moody algebras. We identify several types of scenarios for theories with higher charge Hamiltonians: some that possess oscillatory, divergent, benign oscillatory and benign divergent behaviour when ghost sectors are present in the quantum theory. No divergent behaviour was observed for which the trajectories reach a singularity in finite time. For theories based on particular representations for the Lie algebraic roots we found an extreme sensitivity towards the initial conditions governed by the Poisson bracket relations between the centre-of-mass coordinate and the charges.
翻訳日:2023-04-17 16:27:01 公開日:2023-04-14
# 動的攻撃者に対する準最適侵入応答の学習

Learning Near-Optimal Intrusion Responses Against Dynamic Attackers ( http://arxiv.org/abs/2301.06085v2 )

ライセンス: Link先を確認
Kim Hammar and Rolf Stadler(参考訳) 攻撃と防御戦略が強化学習と自己遊びを通じて進化する最適停止ゲームとして、自動侵入応答を研究し、攻撃者と防御者の相互作用を定式化する。 ゲーム理論のモデリングにより、動的攻撃者、すなわち防御戦略に応じて戦略を適用する攻撃者に対して効果的な防御戦略を見つけることができる。 さらに, 最適停止定式化により, 最適戦略がしきい値特性を持つことを示すことができる。 確率近似によりナッシュ平衡を学習する架空の自己プレーアルゴリズムであるThreshold Fictitious Self-Play (T-FP) を開発した。 我々は,T-FPが我々のユースケースに対して最先端のアルゴリズムより優れていることを示す。 本研究の実験的部分は,ディフェンダー戦略を段階的に学習するシミュレーションシステムと,シミュレーションを実行する統計を収集し,学習戦略を評価するエミュレーションシステムである。 このアプローチは、実用的なITインフラストラクチャのための効果的なディフェンダー戦略を生み出すことができる、と私たちは主張する。

We study automated intrusion response and formulate the interaction between an attacker and a defender as an optimal stopping game where attack and defense strategies evolve through reinforcement learning and self-play. The game-theoretic modeling enables us to find defender strategies that are effective against a dynamic attacker, i.e. an attacker that adapts its strategy in response to the defender strategy. Further, the optimal stopping formulation allows us to prove that optimal strategies have threshold properties. To obtain near-optimal defender strategies, we develop Threshold Fictitious Self-Play (T-FP), a fictitious self-play algorithm that learns Nash equilibria through stochastic approximation. We show that T-FP outperforms a state-of-the-art algorithm for our use case. The experimental part of this investigation includes two systems: a simulation system where defender strategies are incrementally learned and an emulation system where statistics are collected that drive simulation runs and where learned strategies are evaluated. We argue that this approach can produce effective defender strategies for a practical IT infrastructure.
翻訳日:2023-04-17 16:26:45 公開日:2023-04-14
# SITS用ViT:衛星画像時系列用ビジョントランス

ViTs for SITS: Vision Transformers for Satellite Image Time Series ( http://arxiv.org/abs/2301.04944v3 )

ライセンス: Link先を確認
Michail Tarasiou, Erik Chavez, Stefanos Zafeiriou(参考訳) 本稿では、視覚トランスフォーマ(vit)に基づく一般衛星画像時系列(sits)処理のためのフルアテンションモデルであるtemporo-spatial vision transformer(tsvit)を提案する。 TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。 自然画像とは対照的に、時空間分解はSITS処理においてより直感的であり、この主張に対する実験的証拠を提示する。 さらに,獲得時間固有の時間的位置符号化と複数の学習可能なクラストークンの2つの新しいメカニズムを導入することにより,モデルの識別能力を高める。 新たな設計選択が与える影響は広範なアブレーション研究を通じて評価される。 提案アーキテクチャは,3つのSITSセマンティックセグメンテーションと分類データセットにおいて,従来のアプローチをはるかに上回り,最先端の性能を実現する。 すべてのモデル、トレーニング、評価コードは、さらなる研究を促進するために公開されています。

In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a fully-attentional model for general Satellite Image Time Series (SITS) processing based on the Vision Transformer (ViT). TSViT splits a SITS record into non-overlapping patches in space and time which are tokenized and subsequently processed by a factorized temporo-spatial encoder. We argue, that in contrast to natural images, a temporal-then-spatial factorization is more intuitive for SITS processing and present experimental evidence for this claim. Additionally, we enhance the model's discriminative power by introducing two novel mechanisms for acquisition-time-specific temporal positional encodings and multiple learnable class tokens. The effect of all novel design choices is evaluated through an extensive ablation study. Our proposed architecture achieves state-of-the-art performance, surpassing previous approaches by a significant margin in three publicly available SITS semantic segmentation and classification datasets. All model, training and evaluation codes are made publicly available to facilitate further research.
翻訳日:2023-04-17 16:26:27 公開日:2023-04-14
# FireFly: 効率的なDSPとメモリ最適化を備えたニューラルネットワークスパイクのための高速ハードウェアアクセラレータ

FireFly: A High-Throughput Hardware Accelerator for Spiking Neural Networks with Efficient DSP and Memory Optimization ( http://arxiv.org/abs/2301.01905v3 )

ライセンス: Link先を確認
Jindong Li and Guobin Shen and Dongcheng Zhao and Qian Zhang and Zeng Yi(参考訳) スパイキングニューラルネットワーク(SNN)はその強い生物学的解釈性と高いエネルギー効率のために広く利用されている。 バックプロパゲーションアルゴリズムとサロゲート勾配の導入により、スパイクニューラルネットワークの構造はより複雑になり、人工ニューラルネットワークのパフォーマンスギャップは徐々に減少していった。 しかし、フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができず、SNNの開発を著しく制限している。 彼らはバイナリスパイクとシナプス重みの間の算術演算を掘り下げたり、小さなタスクで非常に高価なデバイスを使用することで、チップ上のRAMリソースを無制限に仮定したりしない。 計算効率を向上させるために,スパイキングニューロンの神経動力学を解析し,sn演算を多重蓄積演算に一般化し,xilinx超大規模fpgaにおけるdsp48e2ハードブロックを用いた高性能な演算実装を提案する。 メモリ効率を向上させるため,メモリの省力化を図り,メモリの省力化と膜電圧のメモリアクセスを実現する。 上記の2つの改良を組み合わさって、発火ニューロン(FireFly)が生み出すスパイクを処理できるFPGAアクセラレータを提案する。 FireFlyは、DSP最適化技術をSNNシナプス操作に組み込んだ最初のSNNアクセラレータであり、LUTとDSPのバランスのとれたリソース消費を実現している。 FireFlyは限られたリソースを持つFPGAエッジデバイスで実装されているが、300MHzでの5.53TSOP/sのピーク性能は保証されている。 軽量アクセラレータとしてFireFlyは,大規模FPGAデバイスを用いた既存研究と比較して計算密度効率が最も高い。

Spiking neural networks (SNNs) have been widely used due to their strong biological interpretability and high energy efficiency. With the introduction of the backpropagation algorithm and surrogate gradient, the structure of spiking neural networks has become more complex, and the performance gap with artificial neural networks has gradually decreased. However, most SNN hardware implementations for field-programmable gate arrays (FPGAs) cannot meet arithmetic or memory efficiency requirements, which significantly restricts the development of SNNs. They do not delve into the arithmetic operations between the binary spikes and synaptic weights or assume unlimited on-chip RAM resources by using overly expensive devices on small tasks. To improve arithmetic efficiency, we analyze the neural dynamics of spiking neurons, generalize the SNN arithmetic operation to the multiplex-accumulate operation, and propose a high-performance implementation of such operation by utilizing the DSP48E2 hard block in Xilinx Ultrascale FPGAs. To improve memory efficiency, we design a memory system to enable efficient synaptic weights and membrane voltage memory access with reasonable on-chip RAM consumption. Combining the above two improvements, we propose an FPGA accelerator that can process spikes generated by the firing neuron on-the-fly (FireFly). FireFly is the first SNN accelerator that incorporates DSP optimization techniques into SNN synaptic operations, achieving a balanced resource consumption between LUTs and DSPs. FireFly is implemented on several FPGA edge devices with limited resources but still guarantees a peak performance of 5.53TSOP/s at 300MHz. As a lightweight accelerator, FireFly achieves the highest computational density efficiency compared with existing research using large FPGA devices.
翻訳日:2023-04-17 16:25:56 公開日:2023-04-14
# Cox-Weibullニューラルネットを用いたベイズウェポンシステムの信頼性モデリング

Bayesian Weapon System Reliability Modeling with Cox-Weibull Neural Network ( http://arxiv.org/abs/2301.01850v5 )

ライセンス: Link先を確認
Michael Potter, Benny Cheng(参考訳) 我々は,DeepSurv [2]のようなニューラルネットワークを介して,兵器システム機能(兵器システム製造者,配備時間,配置時間,保管時間,位置など)をパラメータ化されたCox-Weibull [1]信頼性モデルに統合し,予測メンテナンスを改善することを提案する。 並行して,weibullパラメータをニューラルネットワークでパラメータ化し,モンテカルロ(mc)ドロップアウトなどのドロップアウト手法を比較目的に用いたベイズモデルを開発した。 兵器システムテストにおけるデータ収集手順により,モンテカルロマルコフ連鎖 (mcmc) [3] 勾配降下最適化時のワイブルパラメータのサンプリングを組み込んだ,新しい区間検閲付きログ類似性を採用している。 本稿では,AUC のレシーバ演算子曲線 (ROC) 面積,AUC の精度,F スコアなどの分類指標を比較し,XGBoost や現在の標準条件Weibull 確率密度推定モデルなど従来の強大なモデルよりも一般的に優れていることを示す。

We propose to integrate weapon system features (such as weapon system manufacturer, deployment time and location, storage time and location, etc.) into a parameterized Cox-Weibull [1] reliability model via a neural network, like DeepSurv [2], to improve predictive maintenance. In parallel, we develop an alternative Bayesian model by parameterizing the Weibull parameters with a neural network and employing dropout methods such as Monte-Carlo (MC)-dropout for comparative purposes. Due to data collection procedures in weapon system testing we employ a novel interval-censored log-likelihood which incorporates Monte-Carlo Markov Chain (MCMC) [3] sampling of the Weibull parameters during gradient descent optimization. We compare classification metrics such as receiver operator curve (ROC) area under the curve (AUC), precision-recall (PR) AUC, and F scores to show our model generally outperforms traditional powerful models such as XGBoost and the current standard conditional Weibull probability density estimation model.
翻訳日:2023-04-17 16:25:26 公開日:2023-04-14
# 時空間データに対する混合移動平均場誘導学習

Mixed moving average field guided learning for spatio-temporal data ( http://arxiv.org/abs/2301.00736v2 )

ライセンス: Link先を確認
Imma Valentina Curato, Orkun Furat and Bennet Stroeh(参考訳) 混合移動平均場は時空間データのための汎用モデリングクラスである。 しかし、その予測分布は一般にはアクセスできない。 このモデリング仮定に基づき、一般化ベイズアルゴリズムを用いて予測を行う、理論誘導型機械学習アプローチを定義する。 我々はリプシッツ予測器、例えば線形モデルやフィードフォワードニューラルネットワークを用い、空間次元と時間次元に沿って直列に相関したデータに対する新しいPACベイズ境界を最小化することによりランダム化推定器を決定する。 因果的未来予測を行うことは、短時間かつ長距離の依存を持つデータへの潜在的な応用として、我々の方法論のハイライトである。 本稿では,線形予測器とSTOUプロセスからの時空間データのシミュレーションを例に,学習手法の性能を示す。

Influenced mixed moving average fields are a versatile modeling class for spatio-temporal data. However, their predictive distribution is not generally accessible. Under this modeling assumption, we define a novel theory-guided machine learning approach that employs a generalized Bayesian algorithm to make predictions. We employ a Lipschitz predictor, for example, a linear model or a feed-forward neural network, and determine a randomized estimator by minimizing a novel PAC Bayesian bound for data serially correlated along a spatial and temporal dimension. Performing causal future predictions is a highlight of our methodology as its potential application to data with short and long-range dependence. We conclude by showing the performance of the learning methodology in an example with linear predictors and simulated spatio-temporal data from an STOU process.
翻訳日:2023-04-17 16:25:01 公開日:2023-04-14
# 電力グリッドに対する暗号マイニングの影響の高分解能モデリングと解析:カーボンフットプリント、信頼性、電力価格

High Resolution Modeling and Analysis of Cryptocurrency Mining's Impact on Power Grids: Carbon Footprint, Reliability, and Electricity Price ( http://arxiv.org/abs/2212.14189v2 )

ライセンス: Link先を確認
Ali Menati, Xiangtian Zheng, Kiyeob Lee, Ranyu Shi, Pengwei Du, Chanan Singh, Le Xie(参考訳) ブロックチェーン技術は過去10年で最も破壊的なイノベーションの1つと考えられており、セキュアな分散型信頼構築を可能にしている。 しかし近年,暗号通貨マイニングにおけるブロックチェーンベースの計算のエネルギー消費が急速に増加し,電力網の持続的運用に対する懸念が高まっている。 本稿では, テキサスグリッドの炭素フットプリント, グリッド信頼性, 電力市場価格に対する負荷の3要素的影響について検討する。 我々は,位置情報や柔軟性といった影響要因の高分解能モデリングを可能にするために,オープンソースの高分解能データをリリースする。 我々は、暗号通貨採掘負荷の1メガワットあたりの炭素フットプリントが、原油システムの平均推定値の50%まで変化可能であることを明らかにした。 鉱業負荷の柔軟性は,鉱業負荷の展開によって生じる電力不足や市場の混乱を著しく軽減できることを示した。 これらの結果から,政策立案者は大規模鉱業施設の総合市場への参入を促進するとともに,需要対応を義務付ける必要があることが示唆された。

Blockchain technologies are considered one of the most disruptive innovations of the last decade, enabling secure decentralized trust-building. However, in recent years, with the rapid increase in the energy consumption of blockchain-based computations for cryptocurrency mining, there have been growing concerns about their sustainable operation in electric grids. This paper investigates the tri-factor impact of such large loads on carbon footprint, grid reliability, and electricity market price in the Texas grid. We release open-source high-resolution data to enable high-resolution modeling of influencing factors such as location and flexibility. We reveal that the per-megawatt-hour carbon footprint of cryptocurrency mining loads across locations can vary by as much as 50% of the crude system average estimate. We show that the flexibility of mining loads can significantly mitigate power shortages and market disruptions that can result from the deployment of mining loads. These findings suggest policymakers to facilitate the participation of large mining facilities in wholesale markets and require them to provide mandatory demand response.
翻訳日:2023-04-17 16:24:26 公開日:2023-04-14
# インフラストラクチャ認識のための校正不要なBEV表現

Calibration-free BEV Representation for Infrastructure Perception ( http://arxiv.org/abs/2303.03583v2 )

ライセンス: Link先を確認
Siqi Fan, Zhe Wang, Xiaoliang Huo, Yan Wang, Jingjing Liu(参考訳) インフラ上での効果的なBEVオブジェクト検出は、交通状況の理解とV2I協調認識を大幅に改善することができる。 しかし、インフラに設置されたカメラには様々な姿勢があり、以前のBEV検出方法は正確なキャリブレーションに依存しており、必然的な自然要因(風や雪など)のために実用化が難しい。 本稿では,キャリブレーションパラメータを使わずに,BEV表現に基づく3次元検出を実現するキャリブレーションフリーなBEV表現(CBR)ネットワークを提案する。 具体的には,多層パーセプトロンを2つ使用して,ボックスによる前景監督下での視点から正面視,鳥眼視へ特徴を分離する。 そして、断面特徴融合モジュールは、類似性に応じて直交ビューの特徴と一致し、フロントビュー特徴とBEV特徴強調を行う。 DAIR-V2Xの実験結果から,CBRはカメラパラメータを使わずに許容性能を達成でき,キャリブレーションノイズの影響を受けないことが明らかとなった。 インフラ認識の実践的課題に対処する将来の研究のベースラインとして、CBRが役立てられることを願っている。

Effective BEV object detection on infrastructure can greatly improve traffic scenes understanding and vehicle-toinfrastructure (V2I) cooperative perception. However, cameras installed on infrastructure have various postures, and previous BEV detection methods rely on accurate calibration, which is difficult for practical applications due to inevitable natural factors (e.g., wind and snow). In this paper, we propose a Calibration-free BEV Representation (CBR) network, which achieves 3D detection based on BEV representation without calibration parameters and additional depth supervision. Specifically, we utilize two multi-layer perceptrons for decoupling the features from perspective view to front view and birdeye view under boxes-induced foreground supervision. Then, a cross-view feature fusion module matches features from orthogonal views according to similarity and conducts BEV feature enhancement with front view features. Experimental results on DAIR-V2X demonstrate that CBR achieves acceptable performance without any camera parameters and is naturally not affected by calibration noises. We hope CBR can serve as a baseline for future research addressing practical challenges of infrastructure perception.
翻訳日:2023-04-17 16:19:14 公開日:2023-04-14
# WISK:空間キーワードクエリのためのワークロード対応学習指標

WISK: A Workload-aware Learned Index for Spatial Keyword Queries ( http://arxiv.org/abs/2302.14287v2 )

ライセンス: Link先を確認
Yufan Sheng, Xin Cao, Yixiang Fang, Kaiqi Zhao, Jianzhong Qi, Gao Cong, Wenjie Zhang(参考訳) 空間オブジェクトは、しばしば、地理テクスチュアルデータ(geo-textual data)と呼ばれる、その記述を伴うPOI(Points of Interest)のようなテキスト情報を持ってくる。 このようなデータを検索するために、空間的近接性とテキスト的関連性の両方を考慮した空間的キーワードクエリが広く研究されている。 空間的キーワードクエリ用に設計された既存のインデックスは、すでに受信したクエリの分布を考慮せずに、ジオテキストデータに基づいて構築されている。 しかし、従来の研究では、既知のクエリ分布を利用することで、将来のクエリ処理のインデックス構造を改善することが示されている。 本稿では,問合せ作業負荷に対して,問合せコストを最適化するために自己適応する空間キーワード問合せの学習インデックスであるwiskを提案する。 重要な課題の1つは、インデックスの学習中に構造化された空間属性と構造化されていないテキスト情報の両方を利用する方法である。 まず、与えられたクエリワークロードの処理コストを最小限に抑えるために、データオブジェクトをパーティションに分割する。 分割問題のNP硬度を証明し、最適分割を見つけるための機械学習モデルを提案する。 そして,より多くの刈り取り力を達成するために,強化学習に基づくアプローチにより,生成した分割に基づいてボトムアップ方式で階層構造を構築する。 実世界のデータセットとクエリワークロードをさまざまなディストリビューションで広範な実験を行い、その結果、WISKは競合企業すべてより優れており、ストレージオーバーヘッドに匹敵するクエリ時間の最大8倍のスピードアップを実現しています。

Spatial objects often come with textual information, such as Points of Interest (POIs) with their descriptions, which are referred to as geo-textual data. To retrieve such data, spatial keyword queries that take into account both spatial proximity and textual relevance have been extensively studied. Existing indexes designed for spatial keyword queries are mostly built based on the geo-textual data without considering the distribution of queries already received. However, previous studies have shown that utilizing the known query distribution can improve the index structure for future query processing. In this paper, we propose WISK, a learned index for spatial keyword queries, which self-adapts for optimizing querying costs given a query workload. One key challenge is how to utilize both structured spatial attributes and unstructured textual information during learning the index. We first divide the data objects into partitions, aiming to minimize the processing costs of the given query workload. We prove the NP-hardness of the partitioning problem and propose a machine learning model to find the optimal partitions. Then, to achieve more pruning power, we build a hierarchical structure based on the generated partitions in a bottom-up manner with a reinforcement learning-based approach. We conduct extensive experiments on real-world datasets and query workloads with various distributions, and the results show that WISK outperforms all competitors, achieving up to 8x speedup in querying time with comparable storage overhead.
翻訳日:2023-04-17 16:18:38 公開日:2023-04-14
# Inseq:シーケンス生成モデルのための解釈可能性ツールキット

Inseq: An Interpretability Toolkit for Sequence Generation Models ( http://arxiv.org/abs/2302.13942v2 )

ライセンス: Link先を確認
Gabriele Sarti, Nils Feldhus, Ludwig Sickert, Oskar van der Wal, Malvina Nissim, Arianna Bisazza(参考訳) 自然言語処理における過去の作業 解釈性は、主に一般的な分類タスクに重点を置いていたが、一部は専用のツールの欠如による生成設定をほとんど見落としていた。 本稿では,シーケンス生成モデルの解釈可能性解析へのアクセスを民主化するpythonライブラリであるinseqを紹介する。 inseqは、一般的なデコーダオンリーおよびエンコーダデコーダトランスフォーマーアーキテクチャのための、モデルの内部情報の直感的かつ最適化された抽出を可能にする。 機械翻訳モデルにおいて,ジェンダーバイアスを強調表示し,GPT-2内部の事実的知識を特定することで,その可能性を示す。 対照的な特徴帰属のような最先端技術をサポートする拡張可能なインターフェースのおかげで、inseqは、説明可能な自然言語生成の将来の進歩を促進し、良い実践を集中させ、公平で再現可能なモデル評価を可能にする。

Past work in natural language processing interpretability focused mainly on popular classification tasks while largely overlooking generation settings, partly due to a lack of dedicated tools. In this work, we introduce Inseq, a Python library to democratize access to interpretability analyses of sequence generation models. Inseq enables intuitive and optimized extraction of models' internal information and feature importance scores for popular decoder-only and encoder-decoder Transformers architectures. We showcase its potential by adopting it to highlight gender biases in machine translation models and locate factual knowledge inside GPT-2. Thanks to its extensible interface supporting cutting-edge techniques such as contrastive feature attribution, Inseq can drive future advances in explainable natural language generation, centralizing good practices and enabling fair and reproducible model evaluations.
翻訳日:2023-04-17 16:18:12 公開日:2023-04-14
# TwERC: Twitterにおける広告推薦のための高性能アンサンブル候補生成

TwERC: High Performance Ensembled Candidate Generation for Ads Recommendation at Twitter ( http://arxiv.org/abs/2302.13915v2 )

ライセンス: Link先を確認
Vanessa Cai, Pradeep Prabakar, Manuel Serrano Rebuelta, Lucas Rosen, Federico Monti, Katarzyna Janocha, Tomo Lazovich, Jeetu Raj, Yedendra Shrinivasan, Hao Li, Thomas Markovich(参考訳) レコメンデーションシステムは、オーガニックコンテンツやプロモーションコンテンツなど、ソーシャルメディア企業の中核的な機能である。 現代のレコメンデーションシステムの多くは、推薦品質と計算コストのバランスをとるために、候補生成と高いランキングの複数のステージに分けられている。 本稿では,大規模広告レコメンデーション問題の候補生成段階に注目し,twercと呼ばれるこの段階を,機械学習第1次不均質な再構築を行う。 本研究では,リアルタイム光ランカとソーシング戦略を組み合わせたシステムにより,さらなる情報収集が可能となることを示す。 我々は2つの戦略を提示する。 第1の戦略は相互作用グラフにおける類似性の概念を使用し、第2の戦略はランキングステージから前のスコアをキャッシュする。 グラフベースの戦略は収益の4.08%を達成し、ランクコアベースの戦略は1.38%を達成している。 これら2つの戦略は、光ランクと互いに補完するバイアスを持つ。 最後に、産業候補生成システム固有の複雑な製品トレードオフを理解する手段として価値があると考える指標のセットについて述べる。

Recommendation systems are a core feature of social media companies with their uses including recommending organic and promoted contents. Many modern recommendation systems are split into multiple stages - candidate generation and heavy ranking - to balance computational cost against recommendation quality. We focus on the candidate generation phase of a large-scale ads recommendation problem in this paper, and present a machine learning first heterogeneous re-architecture of this stage which we term TwERC. We show that a system that combines a real-time light ranker with sourcing strategies capable of capturing additional information provides validated gains. We present two strategies. The first strategy uses a notion of similarity in the interaction graph, while the second strategy caches previous scores from the ranking stage. The graph based strategy achieves a 4.08% revenue gain and the rankscore based strategy achieves a 1.38% gain. These two strategies have biases that complement both the light ranker and one another. Finally, we describe a set of metrics that we believe are valuable as a means of understanding the complex product trade offs inherent in industrial candidate generation systems.
翻訳日:2023-04-17 16:17:55 公開日:2023-04-14
# alloprof: フランスの新しい質問応答型教育データセットとその情報検索事例研究への応用

Alloprof: a new French question-answer education dataset and its use in an information retrieval case study ( http://arxiv.org/abs/2302.07738v2 )

ライセンス: Link先を確認
Antoine Lefebvre-Brossard, Stephane Gazaille, Michel C. Desmarais(参考訳) 教師と生徒は、学校で提供されるものを補うために、オンライン学習リソースをますます頼りにしている。 利用可能なリソースの広さと深さの増大は、学生にとって素晴らしいことですが、クエリに対する回答を見つけることができるのは彼らだけです。 質問応答と情報検索システムは、アルゴリズムを訓練し評価するために、公開データセットから恩恵を受けてきたが、これらのデータセットのほとんどは、大人向けの英語テキストで書かれている。 ケベック州に本拠を置く小学校・高校のヘルプサイトalloprofから収集した,フランスの公開質問応答データセットを紹介し,29,349の質問とその説明を10,368人の学生から収集し,その半数以上が他の質問へのリンクやウェブサイト上の2,596の参考ページを含む。 また、情報検索タスクにおいて、このデータセットのケーススタディを示す。 このデータセットは、alloprof public forumで収集され、すべての質問が適切性について検証され、説明は、その適切性と質問との関連性の両方について検証された。 関連する文書を予測するため、事前訓練されたBERTモデルを用いたアーキテクチャを微調整し、評価した。 このデータセットは、研究者がフランス語の教育コンテキストに特化した質問回答、情報検索、その他のアルゴリズムを開発することを可能にする。 さらに、言語習熟度、画像、数学的記号、スペルミスの範囲は、マルチモーダル理解に基づくアルゴリズムを必要とする。 私たちがベースラインとして提示するケーススタディは、最近の技術に依存するアプローチが許容できるパフォーマンスレベルを提供することを示しているが、プロダクション環境で確実に使用および信頼性を得るためには、より多くの作業が必要である。

Teachers and students are increasingly relying on online learning resources to supplement the ones provided in school. This increase in the breadth and depth of available resources is a great thing for students, but only provided they are able to find answers to their queries. Question-answering and information retrieval systems have benefited from public datasets to train and evaluate their algorithms, but most of these datasets have been in English text written by and for adults. We introduce a new public French question-answering dataset collected from Alloprof, a Quebec-based primary and high-school help website, containing 29 349 questions and their explanations in a variety of school subjects from 10 368 students, with more than half of the explanations containing links to other questions or some of the 2 596 reference pages on the website. We also present a case study of this dataset in an information retrieval task. This dataset was collected on the Alloprof public forum, with all questions verified for their appropriateness and the explanations verified both for their appropriateness and their relevance to the question. To predict relevant documents, architectures using pre-trained BERT models were fine-tuned and evaluated. This dataset will allow researchers to develop question-answering, information retrieval and other algorithms specifically for the French speaking education context. Furthermore, the range of language proficiency, images, mathematical symbols and spelling mistakes will necessitate algorithms based on a multimodal comprehension. The case study we present as a baseline shows an approach that relies on recent techniques provides an acceptable performance level, but more work is necessary before it can reliably be used and trusted in a production setting.
翻訳日:2023-04-17 16:17:38 公開日:2023-04-14
# 距離行列は幾何学的深層学習に十分か?

Is Distance Matrix Enough for Geometric Deep Learning? ( http://arxiv.org/abs/2302.05743v3 )

ライセンス: Link先を確認
Zian Li, Xiyuan Wang, Yinan Huang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)は、分子動力学シミュレーションなど、与えられたグラフの幾何学を含むタスクによく使用される。 幾何学グラフの距離行列には完全な幾何学的情報が含まれているが、この幾何学を学ぶにはメッセージパッシングニューラルネットワーク(MPNN)が不十分であることが示されている。 本研究では,MPNNが距離行列と区別できない反例の族を拡張し,新しい幾何学グラフと対称幾何学グラフの族を構築する。 次に,距離行列に含まれるリッチな幾何学を効果的に活用できる$k$-DisGNNを提案する。 我々は、$k \geq 3$のときの幾何グラフを識別するための$k$-DisGNNの普遍性を証明し、既存のよく設計された幾何モデルが特殊ケースとして$k$-DisGNNで統一可能であることを示す。 最も重要なことは、幾何学的深層学習と従来のグラフ表現学習の関連性を確立することであり、グラフ構造学習用にもともと設計された表現力の高いGNNモデルは、幾何的深層学習にも適用可能であること、そして既存の複雑同変モデルが唯一の解決方法ではないこと、である。 実験結果は我々の理論を検証する。

Graph Neural Networks (GNNs) are often used for tasks involving the geometry of a given graph, such as molecular dynamics simulation. Although the distance matrix of a geometric graph contains complete geometric information, it has been demonstrated that Message Passing Neural Networks (MPNNs) are insufficient for learning this geometry. In this work, we expand on the families of counterexamples that MPNNs are unable to distinguish from their distance matrices, by constructing families of novel and symmetric geometric graphs. We then propose $k$-DisGNNs, which can effectively exploit the rich geometry contained in the distance matrix. We demonstrate the high expressive power of our models by proving the universality of $k$-DisGNNs for distinguishing geometric graphs when $k \geq 3$, and that some existing well-designed geometric models can be unified by $k$-DisGNNs as special cases. Most importantly, we establish a connection between geometric deep learning and traditional graph representation learning, showing that those highly expressive GNN models originally designed for graph structure learning can also be applied to geometric deep learning problems with impressive performance, and that existing complex, equivariant models are not the only solution. Experimental results verify our theory.
翻訳日:2023-04-17 16:17:08 公開日:2023-04-14
# ビットパラレルからラベリンググラフの量子文字列マッチングへ

From Bit-Parallelism to Quantum String Matching for Labelled Graphs ( http://arxiv.org/abs/2302.02848v2 )

ライセンス: Link先を確認
Massimo Equi, Arianne Meijer - van de Griend, Veli M\"akinen(参考訳) 二次時間で解ける多くの問題は、ビット並列のスピードアップが$w$で、$w$はコンピュータワードサイズである。 古典的な例は長さ$n$の2つの文字列の編集距離を計算し、これは$O(n^2/w)$時間で解ける。 合理的な古典的計算モデルでは、$w=\theta(\log n)$ と仮定でき、そのような問題に対して条件付き下界を考えると、より優れたスピードアップが得られる可能性は低い。 本稿では,ビット並列アルゴリズムが対数的高速化よりも優れた量子アルゴリズムに変換できるかどうかを確かめるため,ビット並列と量子計算の関連性を検討する。 我々は,グラフ内のパスのラベルとして文字列の正確な発生を見つける問題であるラベル付きグラフにおける文字列マッチングに注目した。 この問題は、非常に制限されたグラフのクラス(Equi et al. ICALP 2019)の下での二次条件付き下界を認めており、古典的な計算モデルにおけるアルゴリズムは、時間$O(|P||E|^{1-\epsilon})$または$O(|P|^{1-\epsilon}|E|)$でこの問題を解くことができない。 このような制限付きグラフ群(レベル dag)上の単純なビット並列アルゴリズムは、実際、準二次時間複雑性$o(|e|\sqrt{|p|})$となるような現実的な量子アルゴリズムに変換できる。

Many problems that can be solved in quadratic time have bit-parallel speed-ups with factor $w$, where $w$ is the computer word size. A classic example is computing the edit distance of two strings of length $n$, which can be solved in $O(n^2/w)$ time. In a reasonable classical model of computation, one can assume $w=\Theta(\log n)$, and obtaining significantly better speed-ups is unlikely in the light of conditional lower bounds obtained for such problems. In this paper, we study the connection of bit-parallelism to quantum computation, aiming to see if a bit-parallel algorithm could be converted to a quantum algorithm with better than logarithmic speed-up. We focus on string matching in labeled graphs, the problem of finding an exact occurrence of a string as the label of a path in a graph. This problem admits a quadratic conditional lower bound under a very restricted class of graphs (Equi et al. ICALP 2019), stating that no algorithm in the classical model of computation can solve the problem in time $O(|P||E|^{1-\epsilon})$ or $O(|P|^{1-\epsilon}|E|)$. We show that a simple bit-parallel algorithm on such restricted family of graphs (level DAGs) can indeed be converted into a realistic quantum algorithm that attains subquadratic time complexity $O(|E|\sqrt{|P|})$.
翻訳日:2023-04-17 16:16:44 公開日:2023-04-14
# learnable typewriter:テキスト解析のための生成的アプローチ

The Learnable Typewriter: A Generative Approach to Text Analysis ( http://arxiv.org/abs/2302.01660v3 )

ライセンス: Link先を確認
Ioannis Siglidis, Nicolas Gonthier, Julien Gaubil, Tom Monnier and Mathieu Aubry(参考訳) テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。 私たちの主なアイデアは、教師なしのマルチオブジェクトセグメンテーションメソッド、特にスプライトと呼ばれる限られた量のビジュアル要素に基づいてイメージを再構築するメソッドを構築することです。 同様のフォントや手書きのテキスト行を入力として,多数の異なる文字を学習し,利用可能な行レベルのアノテーションを活用する。 私たちの貢献は2倍です。 まず,テキスト行解析のための深層非教師付き多目的セグメンテーション手法の適応と評価を行う。 これらの手法は、主に合成データに対して完全に教師なしの設定で評価されているため、テキストの実際の画像に適応・定量的に評価でき、弱い監督で訓練できることを示すことは大きな進歩である。 第2に,本手法の新たな応用の可能性,特に手書きの歴史とバリエーションを研究対象とする古文書学の分野,および暗号解析への応用の可能性を示す。 Google1000データセットの印刷ボリューム、Copiale暗号、12世紀から13世紀初頭の歴史的な手書きのチャーターである。

We present a generative document-specific approach to character analysis and recognition in text lines. Our main idea is to build on unsupervised multi-object segmentation methods and in particular those that reconstruct images based on a limited amount of visual elements, called sprites. Taking as input a set of text lines with similar font or handwriting, our approach can learn a large number of different characters and leverage line-level annotations when available. Our contribution is twofold. First, we provide the first adaptation and evaluation of a deep unsupervised multi-object segmentation approach for text line analysis. Since these methods have mainly been evaluated on synthetic data in a completely unsupervised setting, demonstrating that they can be adapted and quantitatively evaluated on real images of text and that they can be trained using weak supervision are significant progresses. Second, we show the potential of our method for new applications, more specifically in the field of paleography, which studies the history and variations of handwriting, and for cipher analysis. We demonstrate our approach on three very different datasets: a printed volume of the Google1000 dataset, the Copiale cipher and historical handwritten charters from the 12th and early 13th century.
翻訳日:2023-04-17 16:16:03 公開日:2023-04-14
# 変動計算によるHCOOHの振動赤外スペクトルとラマンスペクトル

Vibrational infrared and Raman spectrum of HCOOH from variational computations ( http://arxiv.org/abs/2302.01414v2 )

ライセンス: Link先を確認
Gustavo Avila, Alberto Mart\'in Santa Dar\'ia, Edit M\'atyus(参考訳) トランス, シス-, 脱局在化-) ギ酸分子のすべての振動エネルギーは、 GenIUSH-Smolyak 変分法によりゼロ点振動エネルギーを超える最大4500 cm$^{-1} まで収束し、アブ初期ポテンシャルエネルギー表面 (D. P. Tew, W. Mizukami, J. Phys. Chem. A, 120, 9815-9828 (2016)] を用いる。 CCSD/aug-cc-pVTZ理論で計算された点に、全次元双極子と偏光性曲面を合わせる。 そして, 体固定振動双極子と偏光性遷移モーメントを評価し, HCOOHのジェット冷却赤外線とラマンスペクトルをシミュレートする。 標準品質の振動エネルギー、遷移モーメント、波動関数リストは、振動実験と比較して更なる研究や、さらなる再検証計算に使用される。

All vibrational energies of the (trans-, cis-, delocalized-) formic acid molecule are converged up to 4500 cm$^{-1}$ beyond the zero-point vibrational energy with the GENIUSH-Smolyak variational approach and using an ab initio potential energy surface [D. P. Tew and W. Mizukami, J. Phys. Chem. A, 120, 9815-9828 (2016)]. Full-dimensional dipole and polarizability surfaces are fitted to points computed at the CCSD/aug-cc-pVTZ level of theory. Then, body-fixed vibrational dipole and polarizability transition moments are evaluated and used to simulate jet-cooled infrared and Raman spectra of HCOOH. The benchmark-quality vibrational energy, transition moment, and wave function list will be used in further work in comparison with vibrational experiments, and in further rovibrational computations.
翻訳日:2023-04-17 16:15:40 公開日:2023-04-14
# ISSTAD: 異常検出と局所化のためのトランスフォーマに基づくインクリメンタル自己監督学習

ISSTAD: Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization ( http://arxiv.org/abs/2303.17354v3 )

ライセンス: Link先を確認
Wenping Jin, Fei Guo, Li Zhu(参考訳) 機械学習の分野では、画像データ内の異常検出と局所化の研究が、特に工業的欠陥検出などの実践的応用において、大きな注目を集めている。 既存の手法の大部分は畳み込みニューラルネットワーク(cnn)を主要なネットワークアーキテクチャとして使用しているが、トランスフォーマーバックボーンネットワークに基づく新しいアプローチを導入する。 本手法は2段階のインクリメンタル学習戦略を用いる。 第1段階では、通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。 その後の段階では、劣化した正規画像とその対応するピクセルラベルを生成するためにピクセルレベルのデータ拡張技術を適用する。 このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。 最終的に、モデルが画素再構成誤差行列と画素異常確率行列を生成する。 これらの行列を組み合わせ、異常領域を効果的に検出する異常スコアリングマトリックスを生成する。 最新のCNNベースのいくつかの手法をベンチマークすると、MVTec ADデータセット上で優れた性能を示し、97.6%のAUCを達成した。

In the realm of machine learning, the study of anomaly detection and localization within image data has gained substantial traction, particularly for practical applications such as industrial defect detection. While the majority of existing methods predominantly use Convolutional Neural Networks (CNN) as their primary network architecture, we introduce a novel approach based on the Transformer backbone network. Our method employs a two-stage incremental learning strategy. During the first stage, we train a Masked Autoencoder (MAE) model solely on normal images. In the subsequent stage, we apply pixel-level data augmentation techniques to generate corrupted normal images and their corresponding pixel labels. This process allows the model to learn how to repair corrupted regions and classify the status of each pixel. Ultimately, the model generates a pixel reconstruction error matrix and a pixel anomaly probability matrix. These matrices are then combined to produce an anomaly scoring matrix that effectively detects abnormal regions. When benchmarked against several state-of-the-art CNN-based methods, our approach exhibits superior performance on the MVTec AD dataset, achieving an impressive 97.6% AUC.
翻訳日:2023-04-17 16:08:00 公開日:2023-04-14
# 多出力回帰タスクにおけるディープアンサンブルによる信頼性不確実性定量化に向けて

Towards Reliable Uncertainty Quantification via Deep Ensembles in Multi-output Regression Task ( http://arxiv.org/abs/2303.16210v3 )

ライセンス: Link先を確認
Sunwoong Yang, Kwanjung Yee(参考訳) ディープアンサンブルはベイズ推論を近似するための単純で単純なアプローチであり、多くの分類タスクにうまく適用されている。 本研究の目的は、多出力回帰タスクにおけるこのアプローチを包括的に検討し、ミサイル構成の空力性能を予測することである。 アンサンブルで使用されるニューラルネットワークの数の影響を精査することにより、推定不確実性における自信不足に対する明らかな傾向が観察される。 本研究では,ポストホック校正法を適用した深層アンサンブルフレームワークを提案し,その不確実性定量化性能の向上を実証する。 工学における不確実性定量化の最も一般的なモデルであるガウス過程回帰と比較され、回帰精度、推定不確実性の信頼性、訓練効率において優れた性能を持つことが証明されている。 最後に,提案手法がベイズ最適化の結果に及ぼす影響について検討し,深部アンサンブルが校正されるか否かが全く異なる探査特性をもたらすことを示した。 このフレームワークは、この研究で使われる特定の問題に対して特別な仮定がなされていないため、任意の回帰タスクにシームレスに適用および拡張することができる。

Deep ensemble is a simple and straightforward approach for approximating Bayesian inference and has been successfully applied to many classification tasks. This study aims to comprehensively investigate this approach in the multi-output regression task to predict the aerodynamic performance of a missile configuration. By scrutinizing the effect of the number of neural networks used in the ensemble, an obvious trend toward underconfidence in estimated uncertainty is observed. In this context, we propose the deep ensemble framework that applies the post-hoc calibration method, and its improved uncertainty quantification performance is demonstrated. It is compared with Gaussian process regression, the most prevalent model for uncertainty quantification in engineering, and is proven to have superior performance in terms of regression accuracy, reliability of estimated uncertainty, and training efficiency. Finally, the impact of the suggested framework on the results of Bayesian optimization is examined, showing that whether or not the deep ensemble is calibrated can result in completely different exploration characteristics. This framework can be seamlessly applied and extended to any regression task, as no special assumptions have been made for the specific problem used in this study.
翻訳日:2023-04-17 16:07:43 公開日:2023-04-14
# メタ知識共埋め込みによる画像品質認識診断

Image Quality-aware Diagnosis via Meta-knowledge Co-embedding ( http://arxiv.org/abs/2303.15038v2 )

ライセンス: Link先を確認
Haoxuan Che, Siyu Chen, Hao Chen(参考訳) 医用画像は通常、臨床における画像劣化に悩まされ、深層学習モデルの性能が低下する。 この問題を解決するために、以前のほとんどの作品は、モデルに潜在的な価値を無視しながら、劣化を招く低品質画像をフィルタリングすることに焦点を当ててきた。 劣化の知識を効果的に学習し活用することで、モデルはその悪影響に抵抗し、誤診断を避けることができる。 本稿では,低品質な画像と画像品質ラベルを活かして,より正確で堅牢な診断を実現することを目的とした画像品質認識診断の課題を提起する。 しかし、画像品質評価と疾患診断の間には、劣化の多様性と表面的無関係な目標があるため、診断を支援するために品質ラベルを効果的に活用することは依然として困難である。 そこで本研究では,タスクネットとメタラーナという2つのサブネットからなるメタ知識協調型ネットワークを提案する。 Task Netは、知識を組み込んだ機能による診断を強化するために、明示的な品質情報利用メカニズムを構築し、Meta Learnerは、メタラーニングと共同エンコーディングマスキングを通じて、これらの機能のセマンティクスの有効性と制約を保証する。 4種類の医用画像を用いた5つのデータセットの優れた性能は,本手法の有効性と汎用性を示している。

Medical images usually suffer from image degradation in clinical practice, leading to decreased performance of deep learning-based models. To resolve this problem, most previous works have focused on filtering out degradation-causing low-quality images while ignoring their potential value for models. Through effectively learning and leveraging the knowledge of degradations, models can better resist their adverse effects and avoid misdiagnosis. In this paper, we raise the problem of image quality-aware diagnosis, which aims to take advantage of low-quality images and image quality labels to achieve a more accurate and robust diagnosis. However, the diversity of degradations and superficially unrelated targets between image quality assessment and disease diagnosis makes it still quite challenging to effectively leverage quality labels to assist diagnosis. Thus, to tackle these issues, we propose a novel meta-knowledge co-embedding network, consisting of two subnets: Task Net and Meta Learner. Task Net constructs an explicit quality information utilization mechanism to enhance diagnosis via knowledge co-embedding features, while Meta Learner ensures the effectiveness and constrains the semantics of these features via meta-learning and joint-encoding masking. Superior performance on five datasets with four widely-used medical imaging modalities demonstrates the effectiveness and generalizability of our method.
翻訳日:2023-04-17 16:07:23 公開日:2023-04-14
# CoLT5: 条件計算付きより高速なロングレンジトランス

CoLT5: Faster Long-Range Transformers with Conditional Computation ( http://arxiv.org/abs/2303.09752v2 )

ライセンス: Link先を確認
Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Onta\~n\'on, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai(参考訳) 多くの自然言語処理タスクは、長い入力の恩恵を受けるが、長い文書をトランスフォーマーで処理するのは高価である。 しかし、特に長い文書では、すべてのトークンが等しく重要であるわけではない。 本研究では,条件計算を駆使して,フィードフォワード層とアテンション層の両方で重要なトークンにより多くのリソースを割り当てる,この直観に基づく長入力トランスフォーマモデル colt5 を提案する。 我々は、長い入力SCROLLSベンチマークでSOTAを達成し、より高速なトレーニングと推論により、CoLT5はLongT5よりも強力な性能を実現することを示す。 さらに、CoLT5は、非常に長い入力を効果的に、かつ、牽引的に利用でき、64kまでの入力長が強い。

Many natural language processing tasks benefit from long inputs, but processing long documents with Transformers is expensive -- not only due to quadratic attention complexity but also from applying feedforward and projection layers to every token. However, not all tokens are equally important, especially for longer documents. We propose CoLT5, a long-input Transformer model that builds on this intuition by employing conditional computation, devoting more resources to important tokens in both feedforward and attention layers. We show that CoLT5 achieves stronger performance than LongT5 with much faster training and inference, achieving SOTA on the long-input SCROLLS benchmark. Moreover, CoLT5 can effectively and tractably make use of extremely long inputs, showing strong gains up to 64k input length.
翻訳日:2023-04-17 16:06:26 公開日:2023-04-14
# トランスフォーマー付きビデオにおける感情反応強度推定と表現分類のためのマルチモーダル特徴抽出と融合

Multimodal Feature Extraction and Fusion for Emotional Reaction Intensity Estimation and Expression Classification in Videos with Transformers ( http://arxiv.org/abs/2303.09164v2 )

ライセンス: Link先を確認
Jia Li, Yin Chen, Xuesong Zhang, Jiantao Nie, Ziqiang Li, Yangchen Yu, Yan Zhang, Richang Hong, Meng Wang(参考訳) 本稿では,野生(abaw)2023年における情動行動分析の2つの下位課題である,感情反応強度(eri)推定チャレンジと表現(expr)分類チャレンジに対する先進的な解決法を提案する。 ABAW 2023は、人間の感情、感情、行動を理解する能力を持つ知的な機械やロボットを作成するという、自然な文脈における感情的行動分析の課題に取り組むことを目的としている。 表現分類チャレンジでは,分類の課題を効果的に処理する合理化アプローチを提案する。 しかし、私たちの主な貢献は、hume-reactionデータセットからオーディオやビデオの手がかりのようなマルチモーダルな特徴を抽出するために、さまざまなモデルとツールを使用することです。 これらの特徴を研究、分析、組み合わせることで、マルチモーダルコンテキストにおける感情予測のためのモデルの精度を大幅に向上させる。 さらに,本手法は,評価データセット上でPearson Coefficientが測定したように,感情反応強度(ERI)推定チャレンジにおいて,ベースライン法を84%上回り,優れた結果が得られる。

In this paper, we present our advanced solutions to the two sub-challenges of Affective Behavior Analysis in the wild (ABAW) 2023: the Emotional Reaction Intensity (ERI) Estimation Challenge and Expression (Expr) Classification Challenge. ABAW 2023 aims to tackle the challenge of affective behavior analysis in natural contexts, with the ultimate goal of creating intelligent machines and robots that possess the ability to comprehend human emotions, feelings, and behaviors. For the Expression Classification Challenge, we propose a streamlined approach that handles the challenges of classification effectively. However, our main contribution lies in our use of diverse models and tools to extract multimodal features such as audio and video cues from the Hume-Reaction dataset. By studying, analyzing, and combining these features, we significantly enhance the model's accuracy for sentiment prediction in a multimodal context. Furthermore, our method achieves outstanding results on the Emotional Reaction Intensity (ERI) Estimation Challenge, surpassing the baseline method by an impressive 84\% increase, as measured by the Pearson Coefficient, on the validation dataset.
翻訳日:2023-04-17 16:06:13 公開日:2023-04-14
# 超人人工知能は、新規性を高めて人間の意思決定を改善する

Superhuman Artificial Intelligence Can Improve Human Decision Making by Increasing Novelty ( http://arxiv.org/abs/2303.07462v2 )

ライセンス: Link先を確認
Minkyu Shin, Jin Kim, Bas van Opheusden, and Thomas L. Griffiths(参考訳) 超人的人工知能(AI)は人間の意思決定にどのように影響を与えるのか? この効果の背後にあるメカニズムは何でしょう? これらの疑問に対処するため、過去71年間(1950-2021年)にAIが人間のパフォーマンスを上回る領域で、プロの囲碁選手による580万件以上の意思決定を分析した。 最初の質問に対処するために、私たちは超人的AIプログラムを使用して、時間にわたって人間の決定の質を推定し、58億の偽のゲームパターンを生成し、実際の人間の決定の勝利率と偽のAI決定の勝利率を比較する。 人間は超人的AIの出現によって、はるかに優れた決定を下し始めた。 そして、時間をかけて人間の戦略を調べ、新しい決定(つまり、以前は観測されていなかった動き)がより頻繁に発生し、超人的AIの出現後、より高い意思決定品質に結びつくことを発見した。 我々の研究は、超人的AIプログラムの開発によって、人間のプレイヤーが伝統的な戦略から脱却し、新しい動きを探求するきっかけとなったかもしれないことを示唆している。

How will superhuman artificial intelligence (AI) affect human decision making? And what will be the mechanisms behind this effect? We address these questions in a domain where AI already exceeds human performance, analyzing more than 5.8 million move decisions made by professional Go players over the past 71 years (1950-2021). To address the first question, we use a superhuman AI program to estimate the quality of human decisions across time, generating 58 billion counterfactual game patterns and comparing the win rates of actual human decisions with those of counterfactual AI decisions. We find that humans began to make significantly better decisions following the advent of superhuman AI. We then examine human players' strategies across time and find that novel decisions (i.e., previously unobserved moves) occurred more frequently and became associated with higher decision quality after the advent of superhuman AI. Our findings suggest that the development of superhuman AI programs may have prompted human players to break away from traditional strategies and induced them to explore novel moves, which in turn may have improved their decision-making.
翻訳日:2023-04-17 16:05:52 公開日:2023-04-14
# 中温度差下での高性能連続3レベル量子ヒートエンジン

Continuous Three-level Quantum Heat Engine with High Performance Under Medium Temperature Difference ( http://arxiv.org/abs/2303.06348v2 )

ライセンス: Link先を確認
Gao-xiang Deng, Wei Shao, Yu Liu, Zheng Cui(参考訳) 量子効果を利用した量子熱エンジンの性能向上の可能性は、研究の活発な話題であるが、エンジンパラメータの最適化による性能向上については、さらなる研究が必要である。 本研究では,三段量子熱機関の性能に影響を及ぼす温度差と散逸モードを直交試験により解析した。 その結果, 消散モードが量子熱機関の性能を左右することがわかった。 量子熱エンジンは、共振のみが存在し、デチューニングがない場合に最も良く機能するが、デチューニングが存在する場合、低い共鳴はエネルギー損失を減らすことで効率を向上させることができる。 温度差については, 熱漏れの減少による中温度差で最高の性能が得られた。 最後に、デチューニングによって引き起こされる量子摩擦は、カルノー効率よりも最大効率を低くすることができる。

The possibility of utilizing quantum effects to enhance the performance of quantum heat engines has been an active topic of research, but how to enhance the performance by optimizing the engine parameters needs to be further studied. In this study, the temperature difference and dissipation modes affecting the performance of a three-level quantum heat engine were analyzed using an orthogonal test. The results indicated that the dissipation mode dominated the performance of the quantum heat engine. The quantum heat engine performs best when there is only resonance and no detuning; however, when detuning exists, a lower resonance can improve the efficiency by reducing energy losses. Regarding the temperature difference, the best performance was achieved at medium temperature difference owing to the decreasing heat leakage. Finally, the quantum friction caused by the detuning could make the maximal efficiency lower than the Carnot efficiency.
翻訳日:2023-04-17 16:05:33 公開日:2023-04-14
# MCTS-GEB:Monte Carlo Tree Searchは優れたEグラフビルダー

MCTS-GEB: Monte Carlo Tree Search is a Good E-graph Builder ( http://arxiv.org/abs/2303.04651v2 )

ライセンス: Link先を確認
Guoliang He, Zak Singh, Eiko Yoneki(参考訳) 書き換えシステム [6, 10, 12] は、飽和eグラフを用いて全ての可能な書き直しシーケンスを同時に表現し、最適なものを取り出す最適化手法である等式飽和[9]を広く採用している。 そのため、位相順序問題を避けることで最適な結果が得られる。 しかし,e-グラフが飽和していない場合,すべての可能な書き換えの機会を表現できないため,e-グラフの構築段階において位相順序付けの問題が再導入された。 この問題を解決するために,e-graph構築に強化学習(rl)を適用するドメイン一般書き換えシステムであるmcts-gebを提案する。 MCTS-GEB はモンテカルロ木探索 (MCTS) [3] を用いて最適な電子グラフ構築を効率的に計画するので, 建設段階での位相順序付け問題を効果的に排除し, 適正な時間で性能を向上させることができる。 2つの異なる領域の評価では、MCTS-GEBは最先端のリライトシステムを最大49倍の性能で上回るが、最適化は一般的に1時間以内で実行でき、MCTS-GEBは将来のリライトシステムのための有望なビルディングブロックであることを示している。

Rewrite systems [6, 10, 12] have been widely employing equality saturation [9], which is an optimisation methodology that uses a saturated e-graph to represent all possible sequences of rewrite simultaneously, and then extracts the optimal one. As such, optimal results can be achieved by avoiding the phase-ordering problem. However, we observe that when the e-graph is not saturated, it cannot represent all possible rewrite opportunities and therefore the phase-ordering problem is re-introduced during the construction phase of the e-graph. To address this problem, we propose MCTS-GEB, a domain-general rewrite system that applies reinforcement learning (RL) to e-graph construction. At its core, MCTS-GEB uses a Monte Carlo Tree Search (MCTS) [3] to efficiently plan for the optimal e-graph construction, and therefore it can effectively eliminate the phase-ordering problem at the construction phase and achieve better performance within a reasonable time. Evaluation in two different domains shows MCTS-GEB can outperform the state-of-the-art rewrite systems by up to 49x, while the optimisation can generally take less than an hour, indicating MCTS-GEB is a promising building block for the future generation of rewrite systems.
翻訳日:2023-04-17 16:05:20 公開日:2023-04-14
# DeFeeNet: 偏差フィードバックによる3次元人間の動作予測

DeFeeNet: Consecutive 3D Human Motion Prediction with Deviation Feedback ( http://arxiv.org/abs/2304.04496v2 )

ライセンス: Link先を確認
Xiaoning Sun, Huaijiang Sun, Bin Li, Dong Wei, Weiqing Li, Jianfeng Lu(参考訳) 人間とロボットのコラボレーションのような人間の動きを予測する技術を必要とする現実のシナリオを再考しよう。 現在の作業は、人間の動きを予測するタスクを、歴史的に観察されたものに基づいて、短い将来のシーケンス(通常は1秒以内)を予測するワンオフプロセスに単純化する。 しかし、実際のアプリケーションでの動作予測が分離された`observe then predict''ユニットではなく、半オーバーラップされた多数のラウンドからなる連続したプロセスであるという事実が無視されているため、そのような単純化は実用的なニーズを満たさないかもしれない。 時が経つにつれ、前回のラウンドの予測された部分は、新しいラウンドでそれに対応する真実を観測できるが、それらの間の偏差は利用されず、既存の独立した学習方法によって捉えられることはない。 本稿では,既存のワンオフ予測モデルに付加して,連続動作予測タスクに適用した場合の偏差知覚とフィードバックを実現する,シンプルで効果的なネットワークであるDeFeeNetを提案する。 各予測ラウンドにおいて、前回のユニットが生成した偏差をまずdefeenetで符号化し、その後、既存の予測器に組み込んで偏差認識予測方法を可能にします。 defeenet の2つのバージョンをそれぞれ mlp ベースと gru ベースとして設計した。 ヒト3.6mおよびより複雑なバベルにおいて,提案ネットワークが基本モデルによらず連続動作予測性能を向上させることを実験的に示した。

Let us rethink the real-world scenarios that require human motion prediction techniques, such as human-robot collaboration. Current works simplify the task of predicting human motions into a one-off process of forecasting a short future sequence (usually no longer than 1 second) based on a historical observed one. However, such simplification may fail to meet practical needs due to the neglect of the fact that motion prediction in real applications is not an isolated ``observe then predict'' unit, but a consecutive process composed of many rounds of such unit, semi-overlapped along the entire sequence. As time goes on, the predicted part of previous round has its corresponding ground truth observable in the new round, but their deviation in-between is neither exploited nor able to be captured by existing isolated learning fashion. In this paper, we propose DeFeeNet, a simple yet effective network that can be added on existing one-off prediction models to realize deviation perception and feedback when applied to consecutive motion prediction task. At each prediction round, the deviation generated by previous unit is first encoded by our DeFeeNet, and then incorporated into the existing predictor to enable a deviation-aware prediction manner, which, for the first time, allows for information transmit across adjacent prediction units. We design two versions of DeFeeNet as MLP-based and GRU-based, respectively. On Human3.6M and more complicated BABEL, experimental results indicate that our proposed network improves consecutive human motion prediction performance regardless of the basic model.
翻訳日:2023-04-17 16:00:04 公開日:2023-04-14
# モンテカルロ木探索による大規模多目的最適化の性能低下

Improving Performance Insensitivity of Large-scale Multiobjective Optimization via Monte Carlo Tree Search ( http://arxiv.org/abs/2304.04071v2 )

ライセンス: Link先を確認
Haokai Hong, Min Jiang, and Gary G. Yen(参考訳) 大規模多目的最適化問題(LSMOP)は、複数の競合する目的を同時に最適化し、数百の決定変数を含むことを特徴とする。 工学分野での多くの実世界のアプリケーションはlsmopsとしてモデル化することができる。 この要件は、通常、アルゴリズムの実行結果がパフォーマンスの点で全ての実行に良いだけでなく、複数の実行のパフォーマンスがあまり変動しないこと、すなわちアルゴリズムの感度が良くないことを意味する。 実行毎にかなりの計算資源が要求されると考えると、大規模多目的最適化アルゴリズムの性能とアルゴリズムの不感性を改善することが不可欠である。 しかし、既存の大規模多目的最適化アルゴリズムはアルゴリズムの性能向上にのみ焦点をあてており、不感度特性は無視されている。 本研究では,大規模多目的最適化問題に対する性能と非感受性を改善することを目的とした,いわゆるlmmoctsであるモンテカルロ木探索に基づくlsmopsの解法を提案する。 提案手法は,モンテカルロ木上に新しいノードを構築するための決定変数をサンプリングし,最適化と評価を行う。 評価のよいノードを選択して、大規模な決定変数によるパフォーマンスの感度を低下させる。 提案アルゴリズムと,異なるベンチマーク関数の最先端設計との比較を行った。 また,アルゴリズムの感度を測定するための2つの指標を提案する。 実験の結果,大規模多目的最適化問題に対する提案手法の有効性と性能の非感受性が確認された。

The large-scale multiobjective optimization problem (LSMOP) is characterized by simultaneously optimizing multiple conflicting objectives and involving hundreds of decision variables. Many real-world applications in engineering fields can be modeled as LSMOPs; simultaneously, engineering applications require insensitivity in performance. This requirement usually means that the results from the algorithm runs should not only be good for every run in terms of performance but also that the performance of multiple runs should not fluctuate too much, i.e., the algorithm shows good insensitivity. Considering that substantial computational resources are requested for each run, it is essential to improve upon the performance of the large-scale multiobjective optimization algorithm, as well as the insensitivity of the algorithm. However, existing large-scale multiobjective optimization algorithms solely focus on improving the performance of the algorithms, leaving the insensitivity characteristics unattended. In this work, we propose an evolutionary algorithm for solving LSMOPs based on Monte Carlo tree search, the so-called LMMOCTS, which aims to improve the performance and insensitivity for large-scale multiobjective optimization problems. The proposed method samples the decision variables to construct new nodes on the Monte Carlo tree for optimization and evaluation. It selects nodes with good evaluation for further search to reduce the performance sensitivity caused by large-scale decision variables. We compare the proposed algorithm with several state-of-the-art designs on different benchmark functions. We also propose two metrics to measure the sensitivity of the algorithm. The experimental results confirm the effectiveness and performance insensitivity of the proposed design for solving large-scale multiobjective optimization problems.
翻訳日:2023-04-17 15:59:35 公開日:2023-04-14
# スマートグリッドにおける短期的エネルギー需要予測:SDG7,9,13ラインの再生可能エネルギー源統合のためのディープラーニングアプローチ

Predicting Short Term Energy Demand in Smart Grid: A Deep Learning Approach for Integrating Renewable Energy Sources in Line with SDGs 7, 9, and 13 ( http://arxiv.org/abs/2304.03997v2 )

ライセンス: Link先を確認
Md Saef Ullah Miah and Junaida Sulaiman and Md. Imamul Islam and Md. Masuduzzaman(参考訳) 再生可能エネルギー源の電力網への統合がますます重要になってきており、世界はsdg 7に合わせてより持続可能なエネルギーの未来に向かっている。 しかし、再生可能エネルギー源の断続的な性質は、電力網の管理と電力の安定確保を困難にし、SDG 9の実現に不可欠である。 本稿では,電力需要の正確な予測を提供することにより,再生可能エネルギー源の統合を向上できるスマート電力グリッドにおけるエネルギー需要予測のための深層学習に基づくアプローチを提案する。 本手法は,再生可能エネルギー資源のより効率的な管理を可能にするため,気候活動に関するsdg 13に適合する。 我々は、時系列データに適した長期記憶ネットワークを用いて、エネルギー需要データにおける複雑なパターンや依存関係をキャプチャする。 提案手法は、米国電力、コモンウェルス・エジソン、デイトン・パワー・アンド・ライト、ペンシルバニア・ニュージャージー・メリーランド・インターコネクトなど、様々なエネルギー流通企業の4つの歴史的短期エネルギー需要データを用いて評価される。 提案されたモデルは、Facebook Prophet、Support Vector Regressor、Random Forest Regressorという、アート予測アルゴリズムの他の3つの状態と比較される。 実験の結果,提案したREDfモデルは平均絶対誤差1.4%でエネルギー需要を正確に予測し,電力グリッドの安定性と効率を高める可能性を示し,SDG7,9,13の達成に寄与することが示された。 提案モデルはまた,再生可能エネルギー源の統合を効果的に管理する可能性を秘めている。

The integration of renewable energy sources into the power grid is becoming increasingly important as the world moves towards a more sustainable energy future in line with SDG 7. However, the intermittent nature of renewable energy sources can make it challenging to manage the power grid and ensure a stable supply of electricity, which is crucial for achieving SDG 9. In this paper, we propose a deep learning-based approach for predicting energy demand in a smart power grid, which can improve the integration of renewable energy sources by providing accurate predictions of energy demand. Our approach aligns with SDG 13 on climate action as it enables more efficient management of renewable energy resources. We use long short-term memory networks, which are well-suited for time series data, to capture complex patterns and dependencies in energy demand data. The proposed approach is evaluated using four datasets of historical short term energy demand data from different energy distribution companies including American Electric Power, Commonwealth Edison, Dayton Power and Light, and Pennsylvania-New Jersey-Maryland Interconnection. The proposed model is also compared with three other state of the art forecasting algorithms namely, Facebook Prophet, Support Vector Regressor, and Random Forest Regressor. The experimental results show that the proposed REDf model can accurately predict energy demand with a mean absolute error of 1.4%, indicating its potential to enhance the stability and efficiency of the power grid and contribute to achieving SDGs 7, 9, and 13. The proposed model also have the potential to manage the integration of renewable energy sources in an effective manner.
翻訳日:2023-04-17 15:59:12 公開日:2023-04-14
# InstructBio: バイオケミカル問題のための大規模半教師付き学習パラダイム

InstructBio: A Large-scale Semi-supervised Learning Paradigm for Biochemical Problems ( http://arxiv.org/abs/2304.03906v2 )

ライセンス: Link先を確認
Fang Wu, Huiling Qin, Siyuan Li, Stan Z. Li, Xianyuan Zhan, Jinbo Xu(参考訳) 科学のための人工知能の分野では、現実世界の問題に対して限られた量のラベル付きデータに直面することは、一貫して重要な課題である。 一般的なアプローチは、大きなラベルのないコーパスで強力なタスク非依存モデルを事前学習するが、知識を下流タスクに移すのに苦労する可能性がある。 本研究では,ラベルなしの例をうまく活用するために,半教師付き学習アルゴリズムであるInstructMolを提案する。 疑似ラベルの信頼性の測定として信頼性比を提供するインストラクターモデルを導入する。 これらの信頼度スコアは、異なるデータポイントに異なる注意を払うようターゲットモデルに誘導し、ラベル付きデータへの過度な依存や誤った擬似注釈の影響を避ける。 包括的実験により,InstructBioは分子モデルの一般化能力を大幅に向上し,分子特性予測だけでなく,活性崖の推定も向上し,提案手法の優位性を示した。 さらに,instructbioは最先端の事前学習法を備え,大規模かつタスク固有の疑似ラベル付き分子データセットの構築に利用可能であり,予測誤差を低減し,トレーニングプロセスを短縮できることを示す。 我々の研究は、半教師付き学習がデータ不足の限界を克服し、分子表現学習を進めるための有望なツールであることを示す強力な証拠を提供する。

In the field of artificial intelligence for science, it is consistently an essential challenge to face a limited amount of labeled data for real-world problems. The prevailing approach is to pretrain a powerful task-agnostic model on a large unlabeled corpus but may struggle to transfer knowledge to downstream tasks. In this study, we propose InstructMol, a semi-supervised learning algorithm, to take better advantage of unlabeled examples. It introduces an instructor model to provide the confidence ratios as the measurement of pseudo-labels' reliability. These confidence scores then guide the target model to pay distinct attention to different data points, avoiding the over-reliance on labeled data and the negative influence of incorrect pseudo-annotations. Comprehensive experiments show that InstructBio substantially improves the generalization ability of molecular models, in not only molecular property predictions but also activity cliff estimations, demonstrating the superiority of the proposed method. Furthermore, our evidence indicates that InstructBio can be equipped with cutting-edge pretraining methods and used to establish large-scale and task-specific pseudo-labeled molecular datasets, which reduces the predictive errors and shortens the training process. Our work provides strong evidence that semi-supervised learning can be a promising tool to overcome the data scarcity limitation and advance molecular representation learning.
翻訳日:2023-04-17 15:58:42 公開日:2023-04-14
# 集積型低周波機械共振器のアクティブフィードバック量子制御

Active-feedback quantum control of an integrated, low-frequency mechanical resonator ( http://arxiv.org/abs/2304.02799v2 )

ライセンス: Link先を確認
Jingkun Guo, Jin Chang, Xiong Yao, Simon Gr\"oblacher(参考訳) 量子力学によってその運動エネルギーが制限された状態で巨大なメカニカル共振器を準備することは、基礎物理学をマクロシステムで研究するための有望なプラットフォームを提供し、精密センシングを含む様々な応用を可能にする。 過去10年にわたって、このような地中冷却システムの実証がいくつか行われてきたが、特にサイドバンド分解空洞光学では、熱浴からの加熱速度を克服する多くのシステムが大きな課題となっている。 対照的に、サイドバンド未解決限界における光力学系は、システムの光学特性の緩和された要件のため、より容易に実現できる。 このようなシステムでは, 計測精度と測定結果によるバックアクションとの相関により, 実時間実時間制御方式を実装でき, 実現可能なエネルギーは最終的に制限される。 本稿では, ピック・アンド・プレース法を用いて作製した全集積光機械装置において, サイドバンド未解決限界の奥深くで動作し, 測定に基づくフィードバック冷却を実演する。 その結果, 液体ヘリウムで予冷すると0.76, 液体窒素環境で3.5と, 光力学的相互作用が大きく, 熱的デコヒーレンス率が低いことが判明した。 すべての浴室温度に対する重要なサイドバンド非対称性は、機械運動の量子特性を検証する。 本手法とデバイスは、量子限界で直接動作するアプリケーションを検出するのに理想的であり、この方法では光学機械システムの動作を大幅に単純化する。

Preparing a massive mechanical resonator in a state where its motional energy is limited by quantum mechanics provides a promising platform for studying fundamental physics with macroscopic systems and allows to realize a variety of applications, including precise sensing. While over the past decade several demonstrations of such ground-state cooled systems have been achieved, in particular in sideband-resolved cavity optomechanics, for many systems overcoming the heating rate from the thermal bath remains a major challenge. In contrast, optomechanical systems in the sideband-unresolved limit are much easier to realize due to the relaxed requirements on the optical properties of the system. For such a system, a measurement based real-time control scheme can be implemented to reduce its motional energy, and the achievable energy is ultimately limited by the correlation between the measurement precision and the back-action due to the measurement. Here, we demonstrate measurement-based feedback cooling on a fully integrated optomechanical device fabricated using a pick-and-place method, operating deep in the sideband-unresolved limit. With the large optomechanical interaction and a low thermal decoherence rate, we achieve a minimal average phonon occupation of 0.76 when pre-cooled with liquid helium and 3.5 in a liquid nitrogen environment. Significant sideband asymmetry for all bath temperatures verifies the quantum character of the mechanical motion. Our method and device are ideally suited for sensing applications directly operating at the quantum limit and greatly simplifies the operation of an optomechanical system in this regime.
翻訳日:2023-04-17 15:58:18 公開日:2023-04-14
# ジオテクニカルパロット物語(GPT):ジオテクニカルエンジニアリングにおける大規模言語モデル

Geotechnical Parrot Tales (GPT): Harnessing Large Language Models in geotechnical engineering ( http://arxiv.org/abs/2304.02138v2 )

ライセンス: Link先を確認
Krishna Kumar(参考訳) openaiのchatgptのような大規模言語モデル(llm)の普及は、地球工学を含む様々な産業に革命をもたらす可能性がある。 しかし、GPTモデルは時に可聴音を発生させるが、誤った出力を発生させ、幻覚を引き起こす。 本稿では,これらのリスクを軽減し,GPTの潜在能力を地球工学的応用に活用する上で,迅速なエンジニアリングの重要性について論じる。 LLMに関連する課題と落とし穴を探り、正確で価値のある応答を保証する上でのコンテキストの役割を強調します。 さらに,データ分析や設計といった複雑なタスクの自然なインタフェースとなるための,文脈特異的検索エンジンの開発とLLMの可能性について検討する。 また,複雑な地盤工学タスクやデータ解析を扱うために,自然言語を用いた統一インターフェースを開発する。 GPTをジオテクニカルエンジニアリングワークフローに統合することにより、プロフェッショナルは作業の合理化と、将来にわたって持続可能なレジリエントなインフラストラクチャシステムの開発が可能になる。

The widespread adoption of large language models (LLMs), such as OpenAI's ChatGPT, could revolutionize various industries, including geotechnical engineering. However, GPT models can sometimes generate plausible-sounding but false outputs, leading to hallucinations. In this article, we discuss the importance of prompt engineering in mitigating these risks and harnessing the full potential of GPT for geotechnical applications. We explore the challenges and pitfalls associated with LLMs and highlight the role of context in ensuring accurate and valuable responses. Furthermore, we examine the development of context-specific search engines and the potential of LLMs to become a natural interface for complex tasks, such as data analysis and design. We also develop a unified interface using natural language to handle complex geotechnical engineering tasks and data analysis. By integrating GPT into geotechnical engineering workflows, professionals can streamline their work and develop sustainable and resilient infrastructure systems for the future.
翻訳日:2023-04-17 15:57:54 公開日:2023-04-14
# 局所的注意を伴う個人化フェデレーション学習

Personalized Federated Learning with Local Attention ( http://arxiv.org/abs/2304.01783v2 )

ライセンス: Link先を確認
Sicong Liang, Junchao Tian, Shujun Yang, Yu Zhang(参考訳) Federated Learning(FL)は、ローカルデータにアクセスせずに、中央サーバがローカルクライアントでのモデルトレーニングを支援する、単一のグローバルモデルを学ぶことを目的としている。 FLの主な課題は、異種ラベルの分布や特徴シフトなど、異なるクライアントにおけるローカルデータの均一性であり、学習したモデルの大幅な性能劣化につながる可能性がある。 不均一なラベル分布問題に対処するために多くの研究が提案されているが、特徴シフト問題を探究する研究はほとんどない。 この問題に対処するため,我々は,注意ブロックをクライアント固有に保ちつつ,クライアントのパーソナライズモデルに注意機構を組み込むことにより,単純かつ効果的なアルゴリズム,すなわち, \textbf{p}ersonalized \textbf{fed}erated learning with \textbf{l}ocal \textbf{a}ttention (pfedla)を提案する。 具体的には、pFedLA、すなわちパーソナライズされたシングルアテンションモジュールとパーソナライズされたハイブリッドアテンションモジュールの2つのモジュールを提案する。 さらに,pFedLA法は,追加の通信コストを発生させることなく,FL法に組み込んで性能向上を図ることができるため,柔軟で汎用性の高い手法である。 pFedLA法は画像分類や物体検出といった様々なタスクにおける最先端のFL法の性能を向上させることができることを示す。

Federated Learning (FL) aims to learn a single global model that enables the central server to help the model training in local clients without accessing their local data. The key challenge of FL is the heterogeneity of local data in different clients, such as heterogeneous label distribution and feature shift, which could lead to significant performance degradation of the learned models. Although many studies have been proposed to address the heterogeneous label distribution problem, few studies attempt to explore the feature shift issue. To address this issue, we propose a simple yet effective algorithm, namely \textbf{p}ersonalized \textbf{Fed}erated learning with \textbf{L}ocal \textbf{A}ttention (pFedLA), by incorporating the attention mechanism into personalized models of clients while keeping the attention blocks client-specific. Specifically, two modules are proposed in pFedLA, i.e., the personalized single attention module and the personalized hybrid attention module. In addition, the proposed pFedLA method is quite flexible and general as it can be incorporated into any FL method to improve their performance without introducing additional communication costs. Extensive experiments demonstrate that the proposed pFedLA method can boost the performance of state-of-the-art FL methods on different tasks such as image classification and object detection tasks.
翻訳日:2023-04-17 15:57:39 公開日:2023-04-14
# PEACH:半教師付き擬似パラレル文書生成による翻訳のための事前学習シーケンスとシーケンスの多言語モデル

PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation ( http://arxiv.org/abs/2304.01282v2 )

ライセンス: Link先を確認
Alireza Salemi, Amirhossein Abaskohi, Sara Tavakoli, Yadollah Yaghoobzadeh, Azadeh Shakery(参考訳) 多言語プレトレーニングは、機械翻訳を含む多言語nlpタスクを著しく改善する。 既存の手法の多くは、モノリンガルデータに基づくマスク付き言語モデリングとテキストデノベーションの目的に基づくものである。 モノリンガルデータに対する多言語事前学習は、多くの言語ペアにおける並列データの可用性を無視する。 また、利用可能な人間の生成した並列翻訳データを事前学習に組み込む研究もある。 この種の並列データは間違いなく役に立つが、高リソースの言語ペアであっても制限されている。 本稿では,多言語事前学習のための高品質な擬似並列データを生成する,新しい半教師付きSPDGを提案する。 まず、単語の順序付け、追加、削除、置換のために単言語データに対して述語モデルを事前訓練し、予め学習した文書の品質を高める。 そして、単語間翻訳のための辞書を用いて事前学習文書ごとに異なる擬似翻訳を生成し、事前学習された復調モデルを適用する。 次に、擬似並列データを用いて、多言語列列列モデルのPEACHを事前学習する。 PEACHは, 教師付き, ゼロショット, 少数ショットのシナリオを含む様々な翻訳タスクにおいて, mT5 と mBART のトレーニングに使用されている既存手法よりも優れていることを示す。 さらに、PEACHが類似言語間で知識を伝達する能力は、低リソース言語に特に有用である。 PEACHは,精度の高い擬似並列を生成するための高品質な辞書を用いて,低リソース言語に有用であることを示す。

Multilingual pre-training significantly improves many multilingual NLP tasks, including machine translation. Most existing methods are based on some variants of masked language modeling and text-denoising objectives on monolingual data. Multilingual pre-training on monolingual data ignores the availability of parallel data in many language pairs. Also, some other works integrate the available human-generated parallel translation data in their pre-training. This kind of parallel data is definitely helpful, but it is limited even in high-resource language pairs. This paper introduces a novel semi-supervised method, SPDG, that generates high-quality pseudo-parallel data for multilingual pre-training. First, a denoising model is pre-trained on monolingual data to reorder, add, remove, and substitute words, enhancing the pre-training documents' quality. Then, we generate different pseudo-translations for each pre-training document using dictionaries for word-by-word translation and applying the pre-trained denoising model. The resulting pseudo-parallel data is then used to pre-train our multilingual sequence-to-sequence model, PEACH. Our experiments show that PEACH outperforms existing approaches used in training mT5 and mBART on various translation tasks, including supervised, zero- and few-shot scenarios. Moreover, PEACH's ability to transfer knowledge between similar languages makes it particularly useful for low-resource languages. Our results demonstrate that with high-quality dictionaries for generating accurate pseudo-parallel, PEACH can be valuable for low-resource languages.
翻訳日:2023-04-17 15:57:12 公開日:2023-04-14
# 徒弟学習による主題駆動テキストから画像への生成

Subject-driven Text-to-Image Generation via Apprenticeship Learning ( http://arxiv.org/abs/2304.00186v2 )

ライセンス: Link先を確認
Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen(参考訳) dreamboothのような最近のテキストから画像への生成モデルは、いくつかの例から与えられた主題に対して‘専門家モデル’を微調整することで、高度にカスタマイズされた対象のイメージを生成するという大きな進歩を遂げている。 しかし、このプロセスは高価であり、各主題について新しい専門家モデルを学ぶ必要がある。 本稿では,主題固有の微調整を \emph{in-context} 学習に置き換える,主題駆動のテキスト対イメージ生成器であるsutiを提案する。 新たな主題のデモがいくつかあると、SuTIは主題固有の最適化を使わずに、異なる場面で対象の新たな再帰を即座に生成できる。 SuTIは、大量の主題固有の専門家モデルによって生成されたデータから単一の見習いモデルを学習する。 具体的には、インターネットから何百万ものイメージクラスタを発掘し、それぞれが特定のビジュアルテーマを中心にしています。 これらのクラスタを採用して、異なる主題に特化した大量のエキスパートモデルをトレーニングしています。 次に、見習いモデルSuTIは、提案された見習い学習アルゴリズムを通じて、これらの専門家の振る舞いを模倣することを学ぶ。 SuTIは最適化ベースのSoTA法よりも20倍高速で高品質でカスタマイズされた画像を生成することができる。 挑戦的なDreamBenchとDreamBench-v2では、SuTIが既存のアプローチであるInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagenを、DreamBoothと同等のパフォーマンスで大幅に上回ります。

Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with \emph{in-context} learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by {\em apprenticeship learning}, where a single apprentice model is learned from data generated by massive amount of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train massive amount of expert models specialized on different subjects. The apprentice model SuTI then learns to mimic the behavior of these experts through the proposed apprenticeship learning algorithm. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI can significantly outperform existing approaches like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen while performing on par with DreamBooth.
翻訳日:2023-04-17 15:56:48 公開日:2023-04-14
# WebQAmGaze: マルチリンガルなWebカメラアイトラッキング-While-Readingデータセット

WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset ( http://arxiv.org/abs/2303.17876v2 )

ライセンス: Link先を確認
Tiago Ribeiro, Stephanie Brandl, Anders S{\o}gaard, Nora Hollenstein(参考訳) 我々は,公正かつ透明なNLPモデルの開発を支援するために,多言語で低コストな視線追跡読取データセットであるWebQAmGazeを開発した。 webqamgazeには、英語、スペイン語、ドイツ語のテキストを自然に読む332人のウェブカメラによる視線追跡データが含まれている。 参加者は5つのテキストからなる2つの読書タスク、通常読みと情報検索タスクを実行する。 データを前処理すると、関連するスパンの固定は、理解可能な質問に答える際の正当性を示すように見える。 また,高品質アイトラッキングデータに対して収集したデータの比較分析を行う。 その結果,Webcam-ETで得られた特徴と商用ET装置の特徴との間には適度な相関関係が認められた。 このデータはウェブカメラによる読書研究を前進させ、より安価でアクセスしやすいデータ収集の道を開くことができると考えている。 WebQAmGazeは、質問応答(QA)の背後にある認知過程を学び、これらの知見を言語理解の計算モデルに適用するのに有用である。

We create WebQAmGaze, a multilingual low-cost eye-tracking-while-reading dataset, designed to support the development of fair and transparent NLP models. WebQAmGaze includes webcam eye-tracking data from 332 participants naturally reading English, Spanish, and German texts. Each participant performs two reading tasks composed of five texts, a normal reading and an information-seeking task. After preprocessing the data, we find that fixations on relevant spans seem to indicate correctness when answering the comprehension questions. Additionally, we perform a comparative analysis of the data collected to high-quality eye-tracking data. The results show a moderate correlation between the features obtained with the webcam-ET compared to those of a commercial ET device. We believe this data can advance webcam-based reading studies and open a way to cheaper and more accessible data collection. WebQAmGaze is useful to learn about the cognitive processes behind question answering (QA) and to apply these insights to computational models of language understanding.
翻訳日:2023-04-17 15:56:18 公開日:2023-04-14
# コンピュータ工学入門講座におけるChatGPTの能力分析

Analyzing ChatGPT's Aptitude in an Introductory Computer Engineering Course ( http://arxiv.org/abs/2304.06122v2 )

ライセンス: Link先を確認
Sanjay Deshpande and Jakub Szefer(参考訳) chatgptは最近、さまざまな質問に対して、妥当で人間らしいテキスト回答を生成できるツールとして、一般大衆とアカデミアから注目を集めている。 ChatGPTの潜在的な使用、または悪用の1つは、様々な質問に答えたり、学術や教室でエッセイや研究論文全体を生成することである。 近年の研究では、人文科学、ビジネススクール、医学校の文脈におけるChatGPTの使用について検討されているが、この研究は、初歩的なコンピュータ工学コースの文脈におけるChatGPTがどのように機能するかを探求している。 この研究は、入門レベルのコンピュータ工学コースでクイズ、宿題、試験、実験室の質問に答えるChatGPTの適性を評価する。 この研究により、ChatGPTは一般的な概念に関する質問にうまく対応できることがわかった。 しかし、予測可能なテキストのみのツールとして、図や図形で質問を処理できないし、図や図形を生成することもできない。 さらに、このツールは実験室での実験やパンボードの組み立てなどを行うことはできないが、実験室の手作業による質問に対して、もっともらしい回答を生成することができる。 この研究で示された重要な観察の1つは、ChatGPTツールがコースのすべてのコンポーネントをパスできないことである。 それでも、クイズや短い質問ではうまく機能する。 一方、妥当で人間らしい答えは、不正確な答えを生み出すと学生を混乱させる可能性がある。

ChatGPT has recently gathered attention from the general public and academia as a tool that is able to generate plausible and human-sounding text answers to various questions. One potential use, or abuse, of ChatGPT is in answering various questions or even generating whole essays and research papers in an academic or classroom setting. While recent works have explored the use of ChatGPT in the context of humanities, business school, or medical school, this work explores how ChatGPT performs in the context of an introductory computer engineering course. This work assesses ChatGPT's aptitude in answering quizzes, homework, exam, and laboratory questions in an introductory-level computer engineering course. This work finds that ChatGPT can do well on questions asking about generic concepts. However, predictably, as a text-only tool, it cannot handle questions with diagrams or figures, nor can it generate diagrams and figures. Further, also clearly, the tool cannot do hands-on lab experiments, breadboard assembly, etc., but can generate plausible answers to some laboratory manual questions. One of the key observations presented in this work is that the ChatGPT tool could not be used to pass all components of the course. Nevertheless, it does well on quizzes and short-answer questions. On the other hand, plausible, human-sounding answers could confuse students when generating incorrect but still plausible answers.
翻訳日:2023-04-17 15:47:57 公開日:2023-04-14
# オブジェクトレベルの空間レイアウトとセマンティック一貫性に基づくループクロージャ検出

Loop Closure Detection Based on Object-level Spatial Layout and Semantic Consistency ( http://arxiv.org/abs/2304.05146v2 )

ライセンス: Link先を確認
Xingwu Ji, Peilin Liu, Haochen Niu, Xiang Chen, Rendong Ying, Fei Wen(参考訳) 視覚的同時ローカライゼーションとマッピング(SLAM)システムは、大きな視点変化の状況下でループ閉鎖を検出する上で課題に直面している。 本稿では3次元シーングラフの空間的レイアウトとセマンティック一貫性に基づくオブジェクトベースのループ閉鎖検出手法を提案する。 まず,semantic labels,intersection over union (iou),object color,object embeddedからのセマンティック情報に基づくオブジェクトレベルのデータアソシエーション手法を提案する。 その後、関連するオブジェクトとのマルチビューバンドル調整を利用して、オブジェクトとカメラのポーズを共同で最適化する。 改良されたオブジェクトを意味論とトポロジーを備えた3次元空間グラフとして表現する。 次に,頂点近傍の構造レイアウトと意味的性質の類似性に基づいて対応オブジェクトを選択するグラフマッチング手法を提案する。 最後に、オブジェクトレベルのポーズグラフ最適化において、カメラトラジェクトリとオブジェクトのポーズを共同で最適化する。 実験により,提案手法によりより正確な3次元セマンティックマップを構築でき,大きな視点変化のある状況下では,ループクロージャ法はポイントベース法やオブジェクトベース法よりも堅牢であることが示された。

Visual simultaneous localization and mapping (SLAM) systems face challenges in detecting loop closure under the circumstance of large viewpoint changes. In this paper, we present an object-based loop closure detection method based on the spatial layout and semanic consistency of the 3D scene graph. Firstly, we propose an object-level data association approach based on the semantic information from semantic labels, intersection over union (IoU), object color, and object embedding. Subsequently, multi-view bundle adjustment with the associated objects is utilized to jointly optimize the poses of objects and cameras. We represent the refined objects as a 3D spatial graph with semantics and topology. Then, we propose a graph matching approach to select correspondence objects based on the structure layout and semantic property similarity of vertices' neighbors. Finally, we jointly optimize camera trajectories and object poses in an object-level pose graph optimization, which results in a globally consistent map. Experimental results demonstrate that our proposed data association approach can construct more accurate 3D semantic maps, and our loop closure method is more robust than point-based and object-based methods in circumstances with large viewpoint changes.
翻訳日:2023-04-17 15:47:31 公開日:2023-04-14
# 割引強化学習におけるサンプリングと推定の物語

A Tale of Sampling and Estimation in Discounted Reinforcement Learning ( http://arxiv.org/abs/2304.05073v2 )

ライセンス: Link先を確認
Alberto Maria Metelli, Mirco Mutti, Marcello Restelli(参考訳) 割引強化学習における最も関連する問題は、政策評価の期待リターンや政策最適化の政策勾配など、マルコフ報酬プロセスの定常分布下の関数の平均を推定することである。 実際には、これらの推定はマルコフ過程の混合特性を無視した有限水平エピソードサンプリングによって生成される。 この実用的設定と理想的設定のミスマッチが推定にどのように影響するかはほとんど不明であり、文献にはエピソジックサンプリングの落とし穴に関する形式的な研究が欠けている。 本稿では,推定誤差をマルコフ過程の混合特性と割引係数とを明示的に結合する,割引平均推定問題に対する最小値の最小値について述べる。 次に,実際によく用いられる有限ホライゾン推定器を含む,注目すべき推定器群と対応するサンプリング手順に関する統計解析を行う。 重要となるのは,マルコフ過程の割引カーネルから直接サンプリングすることで平均を推定することは,エピソードの地平線を注意深く調整することなく下限と一致するため,w.r.t.代替推定器を説得力のある統計特性をもたらすことである。

The most relevant problems in discounted reinforcement learning involve estimating the mean of a function under the stationary distribution of a Markov reward process, such as the expected return in policy evaluation, or the policy gradient in policy optimization. In practice, these estimates are produced through a finite-horizon episodic sampling, which neglects the mixing properties of the Markov process. It is mostly unclear how this mismatch between the practical and the ideal setting affects the estimation, and the literature lacks a formal study on the pitfalls of episodic sampling, and how to do it optimally. In this paper, we present a minimax lower bound on the discounted mean estimation problem that explicitly connects the estimation error with the mixing properties of the Markov process and the discount factor. Then, we provide a statistical analysis on a set of notable estimators and the corresponding sampling procedures, which includes the finite-horizon estimators often used in practice. Crucially, we show that estimating the mean by directly sampling from the discounted kernel of the Markov process brings compelling statistical properties w.r.t. the alternative estimators, as it matches the lower bound without requiring a careful tuning of the episode horizon.
翻訳日:2023-04-17 15:47:11 公開日:2023-04-14
# MicroTVMを用いたエッジ上での機械学習モデルデプロイ

Deploying Machine Learning Models to Ahead-of-Time Runtime on Edge Using MicroTVM ( http://arxiv.org/abs/2304.04842v2 )

ライセンス: Link先を確認
Chen Liu, Matthias Jobst, Liyuan Guo, Xinyue Shi, Johannes Partzsch, Christian Mayr(参考訳) 過去数年間で、エッジデバイスにより多くのAIアプリケーションが適用されるようになった。 しかし、pytorchやtensorflowといった機械学習フレームワークを使用したデータサイエンティストがトレーニングしたモデルは、エッジ上でシームレスに実行することはできない。 本稿では、ベアメタルデバイス上での推論に対応する機械学習コンパイラフレームワークであるmicrotvmを用いて、トレーニング済みモデルをバックエンドのcソースライブラリにパースするエンドツーエンドのコードジェネレータを開発した。 解析の結果、特定の計算集約型オペレーターはuniversal modular accelerator (uma)インターフェイスで専用アクセラレーターに容易にオフロードでき、他のオペレータはcpuコアで処理される。 自動生成された事前Cランタイムを使用することで,ARM Cortex M4Fコア上で手動ジェスチャー認識実験を行う。

In the past few years, more and more AI applications have been applied to edge devices. However, models trained by data scientists with machine learning frameworks, such as PyTorch or TensorFlow, can not be seamlessly executed on edge. In this paper, we develop an end-to-end code generator parsing a pre-trained model to C source libraries for the backend using MicroTVM, a machine learning compiler framework extension addressing inference on bare metal devices. An analysis shows that specific compute-intensive operators can be easily offloaded to the dedicated accelerator with a Universal Modular Accelerator (UMA) interface, while others are processed in the CPU cores. By using the automatically generated ahead-of-time C runtime, we conduct a hand gesture recognition experiment on an ARM Cortex M4F core.
翻訳日:2023-04-17 15:46:35 公開日:2023-04-14
# 非決定論的ハイブリッドシステムのためのサンプリングに基づく反応合成

Sampling-based Reactive Synthesis for Nondeterministic Hybrid Systems ( http://arxiv.org/abs/2304.06876v1 )

ライセンス: Link先を確認
Qi Heng Ho, Zachary N. Sunberg, Morteza Lahijanian(参考訳) 本稿では,時間的および到達可能性制約下で複雑な連続ダイナミクスを持つ非決定的ハイブリッドシステムに対するサンプリングに基づく戦略合成アルゴリズムを提案する。 我々は,ハイブリッドシステムの進化を,非決定主義が時間的・到達可能性目標達成の防止を目的とした敵プレイヤーである2人プレイヤゲームとみなす。 目的は、敵プレイヤーのあらゆる可能な動きの下でゴールの満足度を保証する、勝利戦略 - 反応性(ロバスト)戦略を合成することである。 このアプローチは、サンプリングベースの計画法と、部分戦略の選択と改善のための新しいバンディットベースの手法を組み合わせたハイブリッドスペースにおける(検索)ゲームツリーの成長に基づいている。 アルゴリズムが確率論的に完備である条件、すなわち、勝利戦略が存在する場合、アルゴリズムはほぼ確実にそれを見つける。 ケーススタディとベンチマークの結果は、アルゴリズムが一般的であり一貫して最先端技術を上回ることを示している。

This paper introduces a sampling-based strategy synthesis algorithm for nondeterministic hybrid systems with complex continuous dynamics under temporal and reachability constraints. We view the evolution of the hybrid system as a two-player game, where the nondeterminism is an adversarial player whose objective is to prevent achieving temporal and reachability goals. The aim is to synthesize a winning strategy -- a reactive (robust) strategy that guarantees the satisfaction of the goals under all possible moves of the adversarial player. The approach is based on growing a (search) game-tree in the hybrid space by combining a sampling-based planning method with a novel bandit-based technique to select and improve on partial strategies. We provide conditions under which the algorithm is probabilistically complete, i.e., if a winning strategy exists, the algorithm will almost surely find it. The case studies and benchmark results show that the algorithm is general and consistently outperforms the state of the art.
翻訳日:2023-04-17 15:04:06 公開日:2023-04-14
# 再調査なしの研究: 最大更新パラメトリゼーションはスケールにわたって正確な損失予測をもたらす

Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales ( http://arxiv.org/abs/2304.06875v1 )

ライセンス: Link先を確認
Yiqun Yao and Yequan Wang(参考訳) 言語モデルが拡大するにつれて、小さなモデルの結論が容易に大きなモデルに移行しないため、研究アイデアの検証がますます高価になる。 考えられる解決策は、小さなモデルの結果とハイパーパラメータのみに基づいて、大規模モデルのメトリクスを直接予測する汎用システムを確立することである。 スケーリングの法則に基づく既存の手法では,最大モデルのハイパーパラメータ探索が必要となる。 我々は,最大更新パラメトリゼーション(muP)により,共通損失盆地近傍のハイパーパラメータのスケーリング法則を,探索なしで正確に適合させることができることを示す発見を提示することによって,この問題に対処する。 これにより、トレーニング開始前であっても、複数のモデルを直接比較して損失予測を行うことができる。 重計算を伴わないモデルスケールの信頼性の高い学術研究への第一歩として,新しいパラダイムを提案する。 コードは近々公開される予定だ。

As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that directly predicts some metrics for large models solely based on the results and hyperparameters from small models. Existing methods based on scaling laws require hyperparameter search on the largest models, which is impractical with limited resources. We address this issue by presenting our discoveries indicating that Maximal Update parametrization (muP) enables accurate fitting of scaling laws for hyperparameters close to common loss basins, without any search. Thus, different models can be directly compared on large scales with loss prediction even before the training starts. We propose a new paradigm as a first step towards reliable academic research for any model scale without heavy computation. Code will be publicly available shortly.
翻訳日:2023-04-17 15:03:50 公開日:2023-04-14
# L1BSR: センチネル2L1B画像の超解像のための爆発型検出器オーバーラップ

L1BSR: Exploiting Detector Overlap for Self-Supervised Single-Image Super-Resolution of Sentinel-2 L1B Imagery ( http://arxiv.org/abs/2304.06871v1 )

ライセンス: Link先を確認
Ngoc Long Nguyen, J\'er\'emy Anger, Axel Davy, Pablo Arias, Gabriele Facciolo(参考訳) 高解像度衛星画像は、多くの地球観測アプリケーションにとって重要な要素である。 sentinel-2のような衛星は、エイリアスやバンドミスなどの超解像アルゴリズムに好適な特徴を持っている。 残念なことに、高解像度(HR)基底真理の欠如は、このタスクへのディープラーニング手法の適用を制限する。 本研究では,sentinel-2 l1b 10m帯の1画像超解像とバンドアライメントのための深層学習に基づくl1bsrを提案する。 この方法は、隣接するCMOS検出器によって生成されたL1B画像の重なり合う領域を利用することで、実際のL1Bデータを直接自己監督することで訓練される。 自己教師付き損失は、スーパー解決された出力画像にすべてのバンドを正しく整列させるように設計されている。 これは、異なるスペクトル帯域の画像間の光の流れを計算する新しいクロススペクトル登録ネットワーク(CSR)によって実現される。 csrネットワークはまた、アンカー-コンシスタンシー損失を用いて自己スーパービジョンで訓練されています。 本稿では,合成および実L1Bデータに対する提案手法の性能を実証し,教師付き手法に匹敵する結果が得られることを示す。

High-resolution satellite imagery is a key element for many Earth monitoring applications. Satellites such as Sentinel-2 feature characteristics that are favorable for super-resolution algorithms such as aliasing and band-misalignment. Unfortunately the lack of reliable high-resolution (HR) ground truth limits the application of deep learning methods to this task. In this work we propose L1BSR, a deep learning-based method for single-image super-resolution and band alignment of Sentinel-2 L1B 10m bands. The method is trained with self-supervision directly on real L1B data by leveraging overlapping areas in L1B images produced by adjacent CMOS detectors, thus not requiring HR ground truth. Our self-supervised loss is designed to enforce the super-resolved output image to have all the bands correctly aligned. This is achieved via a novel cross-spectral registration network (CSR) which computes an optical flow between images of different spectral bands. The CSR network is also trained with self-supervision using an Anchor-Consistency loss, which we also introduce in this work. We demonstrate the performance of the proposed approach on synthetic and real L1B data, where we show that it obtains comparable results to supervised methods.
翻訳日:2023-04-17 15:03:34 公開日:2023-04-14
# AutoSplice:メディア鑑識のためのテキストプロンプトによる画像データセット

AutoSplice: A Text-prompt Manipulated Image Dataset for Media Forensics ( http://arxiv.org/abs/2304.06870v1 )

ライセンス: Link先を確認
Shan Jia, Mingzhen Huang, Zhou Zhou, Yan Ju, Jialing Cai, Siwei Lyu(参考訳) 言語画像モデルの最近の進歩は、テキスト記述から生成できる非常に現実的な画像の開発につながっている。 しかし、これらの画像の視覚品質が高まることは、メディア法医学の分野に潜在的な脅威をもたらす。 本稿では,言語画像生成モデルがメディア法医学にもたらす課題のレベルを検討することを目的とする。 そこで本研究では,dall-e2言語画像モデルを用いて,テキストプロンプトによるマスキング領域の自動生成とスプライシングを行う新しい手法を提案する。 現実的な操作を確実にするために、人間によるチェックによるアノテーションプラットフォームを設計し、適切なテキストプロンプトを検証する。 このアプローチによってAutoSpliceと呼ばれる新しいイメージデータセットが作成され、5,894個の操作と認証されたイメージが含まれている。 具体的には,実世界のイメージキャプチャペアを局所的あるいはグローバル的に操作することで,合計3,621枚の画像を生成した。 データセットは、偽検出とローカライゼーションの2つのメディア法医学的タスクで評価される。 我々の広範な実験によると、ほとんどのメディア法医学モデルはAutoSpliceデータセットを目に見えない操作として検出するのに苦労している。 しかし、微調整モデルを使用すると、両方のタスクで性能が向上する。

Recent advancements in language-image models have led to the development of highly realistic images that can be generated from textual descriptions. However, the increased visual quality of these generated images poses a potential threat to the field of media forensics. This paper aims to investigate the level of challenge that language-image generation models pose to media forensics. To achieve this, we propose a new approach that leverages the DALL-E2 language-image model to automatically generate and splice masked regions guided by a text prompt. To ensure the creation of realistic manipulations, we have designed an annotation platform with human checking to verify reasonable text prompts. This approach has resulted in the creation of a new image dataset called AutoSplice, containing 5,894 manipulated and authentic images. Specifically, we have generated a total of 3,621 images by locally or globally manipulating real-world image-caption pairs, which we believe will provide a valuable resource for developing generalized detection methods in this area. The dataset is evaluated under two media forensic tasks: forgery detection and localization. Our extensive experiments show that most media forensic models struggle to detect the AutoSplice dataset as an unseen manipulation. However, when fine-tuned models are used, they exhibit improved performance in both tasks.
翻訳日:2023-04-17 15:03:07 公開日:2023-04-14
# tempo vs. pitch: 自己教師付きテンポ推定を理解する

Tempo vs. Pitch: understanding self-supervised tempo estimation ( http://arxiv.org/abs/2304.06868v1 )

ライセンス: Link先を確認
Giovana Morais, Matthew E. P. Davies, Marcelo Queiroz, and Magdalena Fuentes(参考訳) 自己スーパービジョンメソッドは、人間が生成したラベルを必要としないプリテキストタスクを解決することで表現を学習し、時間のかかるアノテーションの必要性を軽減する。 これらの手法はコンピュータビジョン、自然言語処理、環境音解析、近年ではピッチ推定などの音楽情報検索に応用されている。 特に音楽の文脈では、異なるデータの分布に関するこれらのモデルの脆弱性や、それらをどのように緩和するかについての知見はほとんどない。 本稿では,合成データを用いた厳密な実験を通じて,テンポ推定に適したピッチ推定のための自己教師付きモデルについて検討する。 具体的には,自己教師付きテンポ推定のための入力表現とデータ分布の関係について検討する。

Self-supervision methods learn representations by solving pretext tasks that do not require human-generated labels, alleviating the need for time-consuming annotations. These methods have been applied in computer vision, natural language processing, environmental sound analysis, and recently in music information retrieval, e.g. for pitch estimation. Particularly in the context of music, there are few insights about the fragility of these models regarding different distributions of data, and how they could be mitigated. In this paper, we explore these questions by dissecting a self-supervised model for pitch estimation adapted for tempo estimation via rigorous experimentation with synthetic data. Specifically, we study the relationship between the input representation and data distribution for self-supervised tempo estimation.
翻訳日:2023-04-17 15:02:33 公開日:2023-04-14
# PMIサンプリング:空中行動認識のためのパッチ類似性誘導フレーム選択

PMI Sampler: Patch similarity guided frame selection for Aerial Action Recognition ( http://arxiv.org/abs/2304.06866v1 )

ライセンス: Link先を確認
Ruiqi Xian, Xijun Wang, Divya Kothandaraman, Dinesh Manocha(参考訳) 本稿では,映像行動認識における情報フレーム選択のための新しいアルゴリズムを提案する。 我々のアプローチは、人間のアクターがビデオフレームの小さな空間分解能を占有する移動カメラを用いて撮影される空中ビデオのために設計されている。 提案アルゴリズムは, 映像中の動きバイアスを利用して, 動画フレームの選択を可能にする。 パッチの類似度を測定することにより、隣接フレーム間の動きバイアスを定量化するためのパッチ相互情報(PMI)スコアの概念を導入する。 このスコアを用いて、あるフレームに含まれる他のフレームに対する識別運動情報量を評価する。 そこで,本研究では,漏洩するreluと累積分布関数を用いた適応的なフレーム選択手法を提案する。 このアプローチは、あらゆるアクション認識モデルと統合でき、その精度を高めます。 実際には、UAV-Humanの2.2~13.8%、NEC Droneの6.8%、Diving48データセットの9.0%の相対的な改善を実現している。

We present a new algorithm for selection of informative frames in video action recognition. Our approach is designed for aerial videos captured using a moving camera where human actors occupy a small spatial resolution of video frames. Our algorithm utilizes the motion bias within aerial videos, which enables the selection of motion-salient frames. We introduce the concept of patch mutual information (PMI) score to quantify the motion bias between adjacent frames, by measuring the similarity of patches. We use this score to assess the amount of discriminative motion information contained in one frame relative to another. We present an adaptive frame selection strategy using shifted leaky ReLu and cumulative distribution function, which ensures that the sampled frames comprehensively cover all the essential segments with high motion salience. Our approach can be integrated with any action recognition model to enhance its accuracy. In practice, our method achieves a relative improvement of 2.2 - 13.8% in top-1 accuracy on UAV-Human, 6.8% on NEC Drone, and 9.0% on Diving48 datasets.
翻訳日:2023-04-17 15:02:11 公開日:2023-04-14
# マスク型オートエンコーダ型ポイントクラウドプリトレーニングのための3次元特徴予測

3D Feature Prediction for Masked-AutoEncoder-Based Point Cloud Pretraining ( http://arxiv.org/abs/2304.06911v1 )

ライセンス: Link先を確認
Siming Yan, Yuqi Yang, Yuxiao Guo, Hao Pan, Peng-shuai Wang, Xin Tong, Yang Liu, Qixing Huang(参考訳) Masked Autoencoders (MAE)は、最近、NLPとコンピュータビジョンで大きな成功を収めたために、ポイントクラウドのための3Dセルフ教師付き事前トレーニングに導入された。 画像領域で使用されるMAEとは異なり、プリテキストタスクは、色などのマスクされたピクセルの機能を復元することであり、既存の3D MAEは欠落した幾何学、すなわちマスクされた点の位置のみを再構築する。 従来の研究とは対照的に、位置回復はセンシティブであり、本質的な特徴の回復はより優れている。 そこで本稿では, 符号化設計に依存しない新しいアテンションベースデコーダを用いて, 表面正規化や表面変化を含むマスキング点における高次特徴の復元と高次特徴の復元を提案する。 我々は,3次元学習のための異なるエンコーダ構造を用いたプリテキストタスクとデコーダ設計の有効性を検証し,各種クラウド解析タスクにおける事前学習ネットワークの利点を実証する。

Masked autoencoders (MAE) have recently been introduced to 3D self-supervised pretraining for point clouds due to their great success in NLP and computer vision. Unlike MAEs used in the image domain, where the pretext task is to restore features at the masked pixels, such as colors, the existing 3D MAE works reconstruct the missing geometry only, i.e, the location of the masked points. In contrast to previous studies, we advocate that point location recovery is inessential and restoring intrinsic point features is much superior. To this end, we propose to ignore point position reconstruction and recover high-order features at masked points including surface normals and surface variations, through a novel attention-based decoder which is independent of the encoder design. We validate the effectiveness of our pretext task and decoder design using different encoder structures for 3D training and demonstrate the advantages of our pretrained networks on various point cloud analysis tasks.
翻訳日:2023-04-17 14:53:42 公開日:2023-04-14
# hcam --階層的クロスアテンションモデルによるマルチモーダル感情認識

HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition ( http://arxiv.org/abs/2304.06910v1 )

ライセンス: Link先を確認
Soumya Dutta and Sriram Ganapathy(参考訳) 会話における感情認識は、感情表現のマルチモーダルな性質のために困難である。 本稿では,階層型クロスアテンションモデル(hcam)による複数モーダル感情認識手法を提案する。 モデルへの入力は2つの様相からなる。 i) 学習可能なwav2vecアプローチで処理された音声データ 二 変換器(BERT)モデルからの双方向エンコーダ表現を用いて表されるテキストデータ。 音声およびテキスト表現は、所定の会話における各発話を固定次元埋め込みに変換する自己注意を伴う双方向のリカレントニューラルネットワーク層を用いて処理される。 文脈知識と2つのモダリティにまたがる情報を統合するために、音声とテキストの埋め込みは、感情認識のタスクに関連する発話レベルの埋め込みを測るコアテンション層を用いて結合される。 音声層、テキスト層、およびマルチモーダルなコアテンション層におけるニューラルネットワークパラメータは、感情分類タスクのために階層的に訓練される。 我々は、IEMOCAP、MELD、CMU-MOSIという3つの確立されたデータセットで実験を行い、提案モデルが他のベンチマークよりも大幅に改善され、これらのデータセットの最先端結果の達成に役立ちます。

Emotion recognition in conversations is challenging due to the multi-modal nature of the emotion expression. We propose a hierarchical cross-attention model (HCAM) approach to multi-modal emotion recognition using a combination of recurrent and co-attention neural network models. The input to the model consists of two modalities, i) audio data, processed through a learnable wav2vec approach and, ii) text data represented using a bidirectional encoder representations from transformers (BERT) model. The audio and text representations are processed using a set of bi-directional recurrent neural network layers with self-attention that converts each utterance in a given conversation to a fixed dimensional embedding. In order to incorporate contextual knowledge and the information across the two modalities, the audio and text embeddings are combined using a co-attention layer that attempts to weigh the utterance level embeddings relevant to the task of emotion recognition. The neural network parameters in the audio layers, text layers as well as the multi-modal co-attention layers, are hierarchically trained for the emotion classification task. We perform experiments on three established datasets namely, IEMOCAP, MELD and CMU-MOSI, where we illustrate that the proposed model improves significantly over other benchmarks and helps achieve state-of-art results on all these datasets.
翻訳日:2023-04-17 14:53:25 公開日:2023-04-14
# サロゲートモデルのマスキング特異パラメータによる伝達性向上による逆例の生成

Generating Adversarial Examples with Better Transferability via Masking Unimportant Parameters of Surrogate Model ( http://arxiv.org/abs/2304.06908v1 )

ライセンス: Link先を確認
Dingcheng Yang, Wenjian Yu, Zihao Xiao, Jiaqi Luo(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことが示されている。 さらに, 近年, 敵対例の移動可能性にも注目が集まっており, 代理モデルで作成した敵例も未知のモデルを攻撃することができる。 この現象は、生成した攻撃例の伝達性を改善することを目的として、トランスファーベースの攻撃を発生させた。 本稿では、マスキング不重要パラメータ(MUP)を用いた転送攻撃における敵例の転送可能性を改善することを提案する。 MUPのキーとなるアイデアは、事前訓練されたサロゲートモデルを洗練して、転送ベースの攻撃を強化することである。 この考えに基づいて、テイラー展開に基づく計量はパラメータの重要度を評価するのに使われ、非重要パラメータは逆例の生成中にマスクされる。 この過程は単純であるが、逆数例を生成するための様々な勾配に基づく最適化器と自然に組み合わせることができるため、生成した逆数例の転送性はさらに向上する。 提案手法の有効性を検証するために広範な実験を行った。

Deep neural networks (DNNs) have been shown to be vulnerable to adversarial examples. Moreover, the transferability of the adversarial examples has received broad attention in recent years, which means that adversarial examples crafted by a surrogate model can also attack unknown models. This phenomenon gave birth to the transfer-based adversarial attacks, which aim to improve the transferability of the generated adversarial examples. In this paper, we propose to improve the transferability of adversarial examples in the transfer-based attack via masking unimportant parameters (MUP). The key idea in MUP is to refine the pretrained surrogate models to boost the transfer-based attack. Based on this idea, a Taylor expansion-based metric is used to evaluate the parameter importance score and the unimportant parameters are masked during the generation of adversarial examples. This process is simple, yet can be naturally combined with various existing gradient-based optimizers for generating adversarial examples, thus further improving the transferability of the generated adversarial examples. Extensive experiments are conducted to validate the effectiveness of the proposed MUP-based methods.
翻訳日:2023-04-17 14:53:06 公開日:2023-04-14
# Marginalized Coupled Dictionary Learning を用いたリアルタイム画像アノテーションの実現

Toward Real-Time Image Annotation Using Marginalized Coupled Dictionary Learning ( http://arxiv.org/abs/2304.06907v1 )

ライセンス: Link先を確認
Seyed Mahdi Roostaiyan, Mohammad Mehdi Hosseini, Mahya Mohammadi Kashani, S. Hamid Amiri(参考訳) ほとんどの画像検索システムでは、画像にはタグやアノテーションと呼ばれる様々な高レベルセマンティクスが含まれている。 事実上、不均衡なラベルを扱う最先端の画像アノテーションメソッドはすべて、時間を要する検索ベースの技術です。 本稿では,限られた数のビジュアルプロトタイプとそれに対応するセマンティクスを同時に学習するために,新しい統合辞書学習手法を提案する。 このアプローチはリアルタイム画像アノテーションの手順につながる。 本稿では,不均衡ラベル付き画像アノテーションに不適当な二乗損失関数の代わりに,限界損失関数を用いる。 本手法では, 簡易かつ効率的なプロトタイプ更新手法を活用するために, 余剰損失関数を用いた。 一方,意味プロトタイプに${\ell}_1$正規化を導入し,学習した意味プロトタイプにおけるラベルのばらばらで不均衡な性質を保存した。 最後に、様々なデータセットに対する総合的な実験結果から、画像アノテーションタスクの精度と時間の観点から、提案手法の効率性を示す。 リファレンス実装はhttps://github.com/hamid-amiri/MCDL-Image-Annotationで公開されている。

In most image retrieval systems, images include various high-level semantics, called tags or annotations. Virtually all the state-of-the-art image annotation methods that handle imbalanced labeling are search-based techniques which are time-consuming. In this paper, a novel coupled dictionary learning approach is proposed to learn a limited number of visual prototypes and their corresponding semantics simultaneously. This approach leads to a real-time image annotation procedure. Another contribution of this paper is that utilizes a marginalized loss function instead of the squared loss function that is inappropriate for image annotation with imbalanced labels. We have employed a marginalized loss function in our method to leverage a simple and effective method of prototype updating. Meanwhile, we have introduced ${\ell}_1$ regularization on semantic prototypes to preserve the sparse and imbalanced nature of labels in learned semantic prototypes. Finally, comprehensive experimental results on various datasets demonstrate the efficiency of the proposed method for image annotation tasks in terms of accuracy and time. The reference implementation is publicly available on https://github.com/hamid-amiri/MCDL-Image-Annotation.
翻訳日:2023-04-17 14:52:49 公開日:2023-04-14
# Swin3D:3D屋内シーン理解のためのトランスフォーマーバックボーン

Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding ( http://arxiv.org/abs/2304.06906v1 )

ライセンス: Link先を確認
Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo(参考訳) 微調整された事前学習されたバックボーンは、2dビジョンや自然言語処理タスクに広く採用されており、タスク固有のネットワークに大きなアドバンテージを示している。 本稿では, 下流3次元室内シーン理解タスクにおいて, 最先端の手法をすべて上回る, 事前学習された3次元バックボーン {\sst} を提案する。 我々のバックボーンネットワークは,3次元スウィントランスをベースとし,線形記憶複雑性を持つスパースボクセル上での自己アテンションを効率的に行い,一般化された文脈的相対位置埋め込みによる点信号の不規則さを捉えるように,慎重に設計されている。 このバックボーン設計に基づいて,scannetデータセットの10倍の大きさの合成構造体3dデータセット上で,大規模な"sst"モデルを事前学習し,下流の様々な室内環境理解タスクで事前学習したモデルを微調整した。 S3DIS Area5と6倍のセマンティックセグメンテーションにおける2.1 mIoU, ScanNet segmentation (val), +1.9 mAP@0.5, S3DIS Detectionにおける8.1 mAP@0.5, S3DIS Detectionにおける2.1 mIoU, +2.1 mIoU, S3DISにおける2.3 mIoU, +2.1 mAP@0.5の微調整後, 実際の3Dポイントデータセット上でのダウンストリームセグメンテーションと検出の両面で優れた一般性を示した。 本手法は,3次元理解タスクの微調整による3次元バックボーンの事前学習の可能性を示す。 コードとモデルはhttps://github.com/microsoft/swin3dで入手できる。

Pretrained backbones with fine-tuning have been widely adopted in 2D vision and natural language processing tasks and demonstrated significant advantages to task-specific networks. In this paper, we present a pretrained 3D backbone, named {\SST}, which first outperforms all state-of-the-art methods in downstream 3D indoor scene understanding tasks. Our backbone network is based on a 3D Swin transformer and carefully designed to efficiently conduct self-attention on sparse voxels with linear memory complexity and capture the irregularity of point signals via generalized contextual relative positional embedding. Based on this backbone design, we pretrained a large {\SST} model on a synthetic Structed3D dataset that is 10 times larger than the ScanNet dataset and fine-tuned the pretrained model in various downstream real-world indoor scene understanding tasks. The results demonstrate that our model pretrained on the synthetic dataset not only exhibits good generality in both downstream segmentation and detection on real 3D point datasets, but also surpasses the state-of-the-art methods on downstream tasks after fine-tuning with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +2.1 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, +8.1 mAP@0.5 on S3DIS detection. Our method demonstrates the great potential of pretrained 3D backbones with fine-tuning for 3D understanding tasks. The code and models are available at https://github.com/microsoft/Swin3D .
翻訳日:2023-04-17 14:52:34 公開日:2023-04-14
# システミックフェアネス

Systemic Fairness ( http://arxiv.org/abs/2304.06901v1 )

ライセンス: Link先を確認
Arindam Ray, Balaji Padmanabhan and Lina Bouayad(参考訳) 機械学習アルゴリズムは、幅広い設定で意思決定をしたり、サポートしたりするためにますます使われています。 このような拡張的な利用により、そのような手法の公平性についても懸念が高まりつつある。 アルゴリズム的公平性に関する先行文献は、リスクを広く取り上げており、多くの場合、それらを管理するためのアプローチを提示している。 しかし、ほとんどの研究は、焦点を絞った意思決定者やエージェントが行う行動から生じる公平性の問題に焦点を当てている。 対照的に、現実世界のシステムの多くは、より大きなエコシステムの一部としてまとめて働く多くのエージェントを持っています。 例えば、貸付のシナリオでは、複数の貸し手が申請者のローンを評価し、政策立案者や他の機関が決定が結果にも影響を及ぼす。 したがって、単一の意思決定者による融資決定の広範な影響は、エコシステム内の複数の異なるエージェントの行動に依存する可能性が高い。 本論文は, 健全性と体系的公正性のためのフォーマリズムを開発し, 実世界の文脈において, 生態系全体の公正性(あるいはより単純な体系的公正性)にアルゴリズム的公正性文学にもっと焦点をあてることを求める。

Machine learning algorithms are increasingly used to make or support decisions in a wide range of settings. With such expansive use there is also growing concern about the fairness of such methods. Prior literature on algorithmic fairness has extensively addressed risks and in many cases presented approaches to manage some of them. However, most studies have focused on fairness issues that arise from actions taken by a (single) focal decision-maker or agent. In contrast, most real-world systems have many agents that work collectively as part of a larger ecosystem. For example, in a lending scenario, there are multiple lenders who evaluate loans for applicants, along with policymakers and other institutions whose decisions also affect outcomes. Thus, the broader impact of any lending decision of a single decision maker will likely depend on the actions of multiple different agents in the ecosystem. This paper develops formalisms for firm versus systemic fairness, and calls for a greater focus in the algorithmic fairness literature on ecosystem-wide fairness - or more simply systemic fairness - in real-world contexts.
翻訳日:2023-04-17 14:51:55 公開日:2023-04-14
# ニューロモルフィック・コンピューティングとスパイク・ニューラル・ネットワークに関する文献的考察

A Bibliometric Review of Neuromorphic Computing and Spiking Neural Networks ( http://arxiv.org/abs/2304.06897v1 )

ライセンス: Link先を確認
Nicholas J. Pritchard, Andreas Wicenec, Mohammed Bennamoun and Richard Dodson(参考訳) ニューロモルフィックコンピューティングとスパイクニューラルネットワークは、生物学的インスピレーションを活用し、従来のフォン・ノイマンアーキテクチャマシンを超えるエネルギー効率と計算能力を達成することを目的としている。 特に、スパイクニューラルネットワークは、第3世代のニューラルネットワークの基礎として人工知能を進化させる可能性を秘めている。 memriと計算インメモリ技術の発展により、ニューロモルフィックコンピューティングハードウェアは実験室のプロトタイプデバイスから商用チップセットへと移行し、低消費電力コンピューティングの時代を告げている。 生物学的、コンピューティング、物質科学のネクサスとして、これらの概念を取り巻く文献は広く、多様であり、人工ニューラルネットワークの源とは若干異なる。 本稿は、過去22年間の文献調査、出版・引用巻(III-A)の動向の確立、影響力のある著作家・雑誌・機関(III-B)の分析、入門読解リスト(III-C)の作成、国・機関・著作者間の共同調査(III-D)、研究トピックの変化の分析を目的とする。 我々は,標準的な文献計測手法を用いて,Clarivate Web of Scienceの文献データを分析した。 この分野で過去20年間で最も影響力のある文献を簡単に紹介することで、ai実践者や研究者は現代のテクノロジーを超えて、潜在的にスパイクするコンピューティングの未来に目を向けることを奨励します。

Neuromorphic computing and spiking neural networks aim to leverage biological inspiration to achieve greater energy efficiency and computational power beyond traditional von Neumann architectured machines. In particular, spiking neural networks hold the potential to advance artificial intelligence as the basis of third-generation neural networks. Aided by developments in memristive and compute-in-memory technologies, neuromorphic computing hardware is transitioning from laboratory prototype devices to commercial chipsets; ushering in an era of low-power computing. As a nexus of biological, computing, and material sciences, the literature surrounding these concepts is vast, varied, and somewhat distinct from artificial neural network sources. This article uses bibliometric analysis to survey the last 22 years of literature, seeking to establish trends in publication and citation volumes (III-A); analyze impactful authors, journals and institutions (III-B); generate an introductory reading list (III-C); survey collaborations between countries, institutes and authors (III-D), and to analyze changes in research topics over the years (III-E). We analyze literature data from the Clarivate Web of Science using standard bibliometric methods. By briefly introducing the most impactful literature in this field from the last two decades, we encourage AI practitioners and researchers to look beyond contemporary technologies toward a potentially spiking future of computing.
翻訳日:2023-04-17 14:51:38 公開日:2023-04-14
# 機械知覚による画像圧縮:階層型生成アプローチ

Machine Perception-Driven Image Compression: A Layered Generative Approach ( http://arxiv.org/abs/2304.06896v1 )

ライセンス: Link先を確認
Yuefeng Zhang, Chuanmin Jia, Jiannhui Chang, Siwei Ma(参考訳) この情報の時代において、画像は情報の保存と送信に重要な媒体である。 画像データ量の増加に伴い、ビジュアル圧縮とビジュアルデータ知覚は、多くの注目を集める2つの重要な研究トピックである。 しかし、これら2つの話題は共に議論されることはめったになく、別々の研究経路を辿る。 学習に基づく画像圧縮手法によって提供されるコンパクトな圧縮領域表現のため、効率的なデータストレージと圧縮の両方をターゲットとした1つのストリームと、マシン認識タスクが存在する可能性がある。 本稿では,高度圧縮比でも高い人間の視覚指向画像再構成品質を達成する階層化画像圧縮モデルを提案する。 従来型や学習型コーデックと比較して,高度に再構成された知覚品質を保ちながら,様々な圧縮されたドメインベースの分析タスクを効果的にサポートするタスク非依存の学習ベース圧縮モデルを提案する。 さらに、圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。 実験結果から,提案手法は,最大99.6%のビットセーブ(元rgb画像を解析モデル入力として使用する場合と比較して)で,rgb画像ベース手法と同等の分析結果が得られることを確認した。 モデルの実用性は,モデルサイズと情報忠実性の観点からさらに正当化される。

In this age of information, images are a critical medium for storing and transmitting information. With the rapid growth of image data amount, visual compression and visual data perception are two important research topics attracting a lot attention. However, those two topics are rarely discussed together and follow separate research path. Due to the compact compressed domain representation offered by learning-based image compression methods, there exists possibility to have one stream targeting both efficient data storage and compression, and machine perception tasks. In this paper, we propose a layered generative image compression model achieving high human vision-oriented image reconstructed quality, even at extreme compression ratios. To obtain analysis efficiency and flexibility, a task-agnostic learning-based compression model is proposed, which effectively supports various compressed domain-based analytical tasks while reserves outstanding reconstructed perceptual quality, compared with traditional and learning-based codecs. In addition, joint optimization schedule is adopted to acquire best balance point among compression ratio, reconstructed image quality, and downstream perception performance. Experimental results verify that our proposed compressed domain-based multi-task analysis method can achieve comparable analysis results against the RGB image-based methods with up to 99.6% bit rate saving (i.e., compared with taking original RGB image as the analysis model input). The practical ability of our model is further justified from model size and information fidelity aspects.
翻訳日:2023-04-17 14:51:11 公開日:2023-04-14
# 空間学習におけるロバスト決定--継承的特徴と先行的特徴のアルゴリズムの比較

Robust Decision-Making in Spatial Learning: A Comparative Study of Successor Features and Predecessor Features Algorithms ( http://arxiv.org/abs/2304.06894v1 )

ライセンス: Link先を確認
Hyunsu Lee(参考訳) 動物における空間学習を説明する理論の一つである予測地図理論は、後継表現(SR)学習アルゴリズムに基づいている。 現実の世界では、動物やロボットのようなエージェントは騒々しい観察を受けており、学習中に最適な行動や失敗につながる可能性がある。 本研究では,ノイズの多い1次元迷路環境下での継承特徴(SF)と先行特徴(PF)のアルゴリズムの性能を比較した。 以上の結果から,PFsは累積報酬と平均ステップ長で連続的にSFより優れ,ノイズに対する耐性が高かった。 この優位性は、PFsが時間差誤差を以前の状態に伝達する能力に起因している可能性がある。 また,空間ナビゲーションのPF学習に関わる生物学的メカニズムについても論じる。 本研究は、強化学習アルゴリズムを用いた計算神経科学の理論的研究に寄与し、ロボット工学、ゲームAI、自律走行車ナビゲーションにおけるPFの実用可能性を強調した。

Predictive map theory, one of the theories explaining spatial learning in animals, is based on successor representation (SR) learning algorithms. In the real world, agents such as animals and robots are subjected to noisy observations, which can lead to suboptimal actions or even failure during learning. In this study, we compared the performance of Successor Features (SFs) and Predecessor Features (PFs) algorithms in a noisy one-dimensional maze environment. Our results demonstrated that PFs consistently outperformed SFs in terms of cumulative reward and average step length, with higher resilience to noise. This superiority could be due to PFs' ability to transmit temporal difference errors to more preceding states. We also discuss the biological mechanisms involved in PFs learning for spatial navigation. This study contributes to the theoretical research on computational neuroscience using reinforcement learning algorithms, and highlights the practical potential of PFs in robotics, game AI, and autonomous vehicle navigation.
翻訳日:2023-04-17 14:50:49 公開日:2023-04-14
# ニューラルネットワークによる性能予測

Performative Prediction with Neural Networks ( http://arxiv.org/abs/2304.06879v1 )

ライセンス: Link先を確認
Mehrnaz Mofakhami, Ioannis Mitliagkas, Gauthier Gidel(参考訳) パフォーマンス予測は、予測するデータに影響を与えるモデルを学習するためのフレームワークである。 我々は,性能的に安定な分類器,すなわち誘導するデータ分布に最適な分類器の探索に注目する。 繰り返しリスク最小化の方法で実行的に安定な分類器を見つけるための標準収束結果は、データ分布がモデルのパラメータに連続するリプシッツであると仮定する。 この仮定の下では、損失はこれらのパラメータにおいて強く凸で滑らかでなければならない。 この研究では、データ分布はモデルの予測に関してリプシッツ連続であると仮定する。 その結果,損失関数の仮定を著しく緩和することができた。 特に、モデルのパラメータに関して凸性を仮定する必要はない。 実例として,現実的な分布シフトをモデル化した再サンプリング手法を導入し,仮定を満足することを示す。 提案手法により,実データに関する予測を行うニューラルネットワークを用いて,動作安定な分類器を学習可能であることを示すことによって,我々の理論を支持する。

Performative prediction is a framework for learning models that influence the data they intend to predict. We focus on finding classifiers that are performatively stable, i.e. optimal for the data distribution they induce. Standard convergence results for finding a performatively stable classifier with the method of repeated risk minimization assume that the data distribution is Lipschitz continuous to the model's parameters. Under this assumption, the loss must be strongly convex and smooth in these parameters; otherwise, the method will diverge for some problems. In this work, we instead assume that the data distribution is Lipschitz continuous with respect to the model's predictions, a more natural assumption for performative systems. As a result, we are able to significantly relax the assumptions on the loss function. In particular, we do not need to assume convexity with respect to the model's parameters. As an illustration, we introduce a resampling procedure that models realistic distribution shifts and show that it satisfies our assumptions. We support our theory by showing that one can learn performatively stable classifiers with neural networks making predictions about real data that shift according to our proposed procedure.
翻訳日:2023-04-17 14:50:31 公開日:2023-04-14
# 機械学習モデルを用いたソーシャルメディア有害コメントの分類

Classification of social media Toxic comments using Machine learning models ( http://arxiv.org/abs/2304.06934v1 )

ライセンス: Link先を確認
K.Poojitha, A.Sai Charish, M.Arun Kuamr Reddy, S.Ayyasamy(参考訳) この要約は、ソーシャルメディアプラットフォームにおける有害なコメントの問題を概説している。 この行動は反社会的行動と呼ばれ、オンラインの議論、コメント、戦いの間に起こる。 明示的な言語を含むコメントは、有毒、重篤な有毒、わいせつ、脅威、侮辱、アイデンティティ・ヘイトなど、さまざまなカテゴリに分類できる。 この行動はオンラインハラスメントやサイバーいじめにつながり、個人は自分の意見やアイデアを表現しなくなる。 ユーザーを不快な言葉から守るために、企業はコメントを掲示し、ユーザーをブロックし始めた。 要約では、毒性コメントと非毒性コメントを高い精度で区別できるLstm-cnnモデルを用いて分類器を作成することを提案する。 この分類器は、組織がコメントセクションの毒性をよりよく調べるのに役立つ。

The abstract outlines the problem of toxic comments on social media platforms, where individuals use disrespectful, abusive, and unreasonable language that can drive users away from discussions. This behavior is referred to as anti-social behavior, which occurs during online debates, comments, and fights. The comments containing explicit language can be classified into various categories, such as toxic, severe toxic, obscene, threat, insult, and identity hate. This behavior leads to online harassment and cyberbullying, which forces individuals to stop expressing their opinions and ideas. To protect users from offensive language, companies have started flagging comments and blocking users. The abstract proposes to create a classifier using an Lstm-cnn model that can differentiate between toxic and non-toxic comments with high accuracy. The classifier can help organizations examine the toxicity of the comment section better.
翻訳日:2023-04-17 14:45:32 公開日:2023-04-14
# 医用画像分類におけるラベルセットミスマッチのスケールフェデレーション学習

Scale Federated Learning for Label Set Mismatch in Medical Image Classification ( http://arxiv.org/abs/2304.06931v1 )

ライセンス: Link先を確認
Zhipeng Deng, Luyang Luo, and Hao Chen(参考訳) フェデレートラーニング(FL)は、複数のパーティがプライバシリークなしで協調的にモデルをトレーニングできる分散学習パラダイムとして、ヘルスケアドメインに導入されている。 しかし、以前の研究のほとんどは、すべてのクライアントが同一のラベルセットを持っていると仮定している。 実際には、医療専門家は知識領域や関心の中でのみ病気に注釈をつける傾向がある。 これは各クライアントのラベルセットが異なっており、また不一致さえあることを意味する。 本稿では,Label Set Mismatchの問題を解決するためのフレームワークFedLSMを提案する。 FedLSMは、異なる不確実性レベルを持つデータに対する異なるトレーニング戦略を採用し、ラベルなしまたは部分的にラベル付けされたデータを効率的に利用し、分類層におけるクラスワイド適応アグリゲーションを利用して、クライアントがラベルを欠いているときに不正確なアグリゲーションを避ける。 112,120個のCXR画像を用いた胸部X線診断と10,015個の皮膚病変画像を用いた皮膚病変診断の2つの実世界の医療画像データセット上でFedLSMを評価し,他のFLアルゴリズムよりも有意に優れていることを示す。 コードは受理次第利用可能になる。

Federated learning (FL) has been introduced to the healthcare domain as a decentralized learning paradigm that allows multiple parties to train a model collaboratively without privacy leakage. However, most previous studies have assumed that every client holds an identical label set. In reality, medical specialists tend to annotate only diseases within their knowledge domain or interest. This implies that label sets in each client can be different and even disjoint. In this paper, we propose the framework FedLSM to solve the problem Label Set Mismatch. FedLSM adopts different training strategies on data with different uncertainty levels to efficiently utilize unlabeled or partially labeled data as well as class-wise adaptive aggregation in the classification layer to avoid inaccurate aggregation when clients have missing labels. We evaluate FedLSM on two public real-world medical image datasets, including chest x-ray (CXR) diagnosis with 112,120 CXR images and skin lesion diagnosis with 10,015 dermoscopy images, and show that it significantly outperforms other state-of-the-art FL algorithms. Code will be made available upon acceptance.
翻訳日:2023-04-17 14:45:17 公開日:2023-04-14
# 転がりシャッター画像とイベントからの自己監督されたシーンダイナミックリカバリ

Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and Events ( http://arxiv.org/abs/2304.06930v1 )

ライセンス: Link先を確認
Yangguang Wang, Xiang Zhang, Mingyuan Lin, Lei Yu, Boxin Shi, Wen Yang, and Gui-Song Xia(参考訳) 歪んだローリングシャッター(RS)画像を非歪な高フレームレートのグローバルシャッター(GS)ビデオに反転させることによるシーンダイナミックリカバリ(SDR)は、特にカメラや物体の動きに関する事前の知識が利用できない場合に、深刻な問題となる。 動きの線形性とデータ固有の特性に関する人工的な仮定は、rsスキャンラインに埋め込まれた時間的ダイナミクス情報に関するもので、現実のシナリオで準最適解を生成する傾向がある。 そこで本研究では,イベントカメラの超高時間分解能を利用した自己教師あり学習パラダイムにおけるイベントベースrs2gsフレームワークを提案する。 そこで,本稿では,イベントカメラを用いて,発生したイベントの時間分解能が極めて高く,自己教師あり学習フレームワーク内でイベントベースのrs2gsネットワークを学習し,実世界イベントとrs画像を用いて,合成データと実データとのドメイン間ギャップによる性能低下を緩和する手法を提案する。 具体的には,イベントベースのフレーム間補償器(E-IC)を提案し,時間遷移と空間変換を含む任意の時間間隔間の画素単位のダイナミクスを予測する。 RS-RS, RS-GS, GS-RSの接続関係を探索し, 提案したE-ICとの相互制約を明示的に定式化し, GS画像のない監視を行う。 合成および実データに対する広範囲な評価は,提案手法が最先端を達成し,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて顕著な性能を示すことを示す。 データセットとコードはhttps://w3un.github.io/selfunroll/で入手できる。

Scene Dynamic Recovery (SDR) by inverting distorted Rolling Shutter (RS) images to an undistorted high frame-rate Global Shutter (GS) video is a severely ill-posed problem, particularly when prior knowledge about camera/object motions is unavailable. Commonly used artificial assumptions on motion linearity and data-specific characteristics, regarding the temporal dynamics information embedded in the RS scanlines, are prone to producing sub-optimal solutions in real-world scenarios. To address this challenge, we propose an event-based RS2GS framework within a self-supervised learning paradigm that leverages the extremely high temporal resolution of event cameras to provide accurate inter/intra-frame information. % In this paper, we propose to leverage the event camera to provide inter/intra-frame information as the emitted events have an extremely high temporal resolution and learn an event-based RS2GS network within a self-supervised learning framework, where real-world events and RS images can be exploited to alleviate the performance degradation caused by the domain gap between the synthesized and real data. Specifically, an Event-based Inter/intra-frame Compensator (E-IC) is proposed to predict the per-pixel dynamic between arbitrary time intervals, including the temporal transition and spatial translation. Exploring connections in terms of RS-RS, RS-GS, and GS-RS, we explicitly formulate mutual constraints with the proposed E-IC, resulting in supervisions without ground-truth GS images. Extensive evaluations over synthetic and real datasets demonstrate that the proposed method achieves state-of-the-art and shows remarkable performance for event-based RS2GS inversion in real-world scenarios. The dataset and code are available at https://w3un.github.io/selfunroll/.
翻訳日:2023-04-17 14:44:52 公開日:2023-04-14
# CiPR: 一般化カテゴリー発見のためのクロスインスタンスポジティブな関係を持つ効率的なフレームワーク

CiPR: An Efficient Framework with Cross-instance Positive Relations for Generalized Category Discovery ( http://arxiv.org/abs/2304.06928v1 )

ライセンス: Link先を確認
Shaozhe Hao, Kai Han, Kwan-Yee K. Wong(参考訳) 一般化カテゴリー発見(GCD)の課題に対処する。 gcdは、ラベルのないデータが新しいカテゴリとラベル付きクラスからのインスタンスを含む部分ラベル付きデータセットを自動的にクラスタリングするという、オープンワールドの問題を検討している。 本稿では,未ラベルデータのカテゴリ番号が不明なGCD問題に対処する。 本稿では,既存手法で無視されている部分ラベル付きデータにおけるコントラスト学習のために,クロスインスタンス陽性関係を利用して表現をブートストラップするフレームワークCiPRを提案する。 まず、表現学習を容易にするための信頼性の高いクロスインスタンス関係を得るため、選択的隣人クラスタリング(SNC)と呼ばれる半教師付き階層クラスタリングアルゴリズムを導入し、選択的隣人によって構築されたグラフ内の連結成分から直接クラスタリング階層を生成する。 また、SNCを拡張して、与えられたクラス番号の未ラベルインスタンスの代入をラベル付けできるようにします。 さらに,ラベル付きデータと非ラベル付きデータのクラスタリング指標を考慮したSNCと共同参照スコアを用いた未知クラス数を推定する手法を提案する。 最後に,公開画像認識データセットの枠組みを徹底的に評価し,細粒度データセットへの挑戦を行った。

We tackle the issue of generalized category discovery (GCD). GCD considers the open-world problem of automatically clustering a partially labelled dataset, in which the unlabelled data contain instances from novel categories and also the labelled classes. In this paper, we address the GCD problem without a known category number in the unlabelled data. We propose a framework, named CiPR, to bootstrap the representation by exploiting Cross-instance Positive Relations for contrastive learning in the partially labelled data which are neglected in existing methods. First, to obtain reliable cross-instance relations to facilitate the representation learning, we introduce a semi-supervised hierarchical clustering algorithm, named selective neighbor clustering (SNC), which can produce a clustering hierarchy directly from the connected components in the graph constructed by selective neighbors. We also extend SNC to be capable of label assignment for the unlabelled instances with the given class number. Moreover, we present a method to estimate the unknown class number using SNC with a joint reference score considering clustering indexes of both labelled and unlabelled data. Finally, we thoroughly evaluate our framework on public generic image recognition datasets and challenging fine-grained datasets, all establishing the new state-of-the-art.
翻訳日:2023-04-17 14:44:20 公開日:2023-04-14
# YOLO-Drone:高高度からの高密度微小物体の空中リアルタイム検出

YOLO-Drone:Airborne real-time detection of dense small objects from high-altitude perspective ( http://arxiv.org/abs/2304.06925v1 )

ライセンス: Link先を確認
Li Zhu, Jiahui Xiong, Feng Xiong, Hanzheng Hu, Zhengnan Jiang(参考訳) 無人航空機(UAV)、特にリモートセンシングオブジェクト検出技術を備えたドローンは、急速に応用範囲を拡大し、コンピュータビジョンの分野における主要な研究の1つとして登場した。 UAVリモートセンシングシステムは様々な物体を検出する能力を持っているが、物体の大きさ、画像の劣化、リアルタイム制限などの要因により、小型物体を確実に検出することは困難である。 これらの問題に対処するために、リアルタイム物体検出アルゴリズム(YOLO-Drone)が提案され、2つのUAVプラットフォームと特定の光源(シリコン系ゴールデンLED)に適用された。 ヨロドロンにはいくつかの新作がある。 1) 新しいバックボーンDarknet59を含む。 2) 1つの空間ピラミッドプールと3つのアトラス空間ピラミッドプールモジュールを組み込んだ新しい複雑な特徴集積モジュールMSPP-FPN 3) 損失関数としての結合上の一般化交叉(giou)の使用。 性能評価には、uavdtとvisdroneの2つのベンチマークデータセットと、夜間にシリコンベースのgolden ledで取得した1つの自家製データセットを利用する。 UAVDTとVisDroneの両方において,提案したYOLO-Droneは,mAPを10.13%,8.59%改善することにより,最先端(SOTA)オブジェクト検出法より優れていた。 UAVDTに関しては、YOLO-Droneは53 FPSの高リアルタイム推論速度と34.04%の最大mAPの両方を示している。 特に、YOLO-Droneは、シリコンベースの金のLEDの下では高性能で、mAPは87.71%であり、通常の光源下でのYOLOシリーズのパフォーマンスを上回っている。 結論として、提案したYOLO-Droneは、UAVアプリケーション、特にシリコンベースのゴールデンライトLED技術が大きな優位性を示す夜間検出タスクにおいて、オブジェクト検出に非常に効果的なソリューションである。

Unmanned Aerial Vehicles (UAVs), specifically drones equipped with remote sensing object detection technology, have rapidly gained a broad spectrum of applications and emerged as one of the primary research focuses in the field of computer vision. Although UAV remote sensing systems have the ability to detect various objects, small-scale objects can be challenging to detect reliably due to factors such as object size, image degradation, and real-time limitations. To tackle these issues, a real-time object detection algorithm (YOLO-Drone) is proposed and applied to two new UAV platforms as well as a specific light source (silicon-based golden LED). YOLO-Drone presents several novelties: 1) including a new backbone Darknet59; 2) a new complex feature aggregation module MSPP-FPN that incorporated one spatial pyramid pooling and three atrous spatial pyramid pooling modules; 3) and the use of Generalized Intersection over Union (GIoU) as the loss function. To evaluate performance, two benchmark datasets, UAVDT and VisDrone, along with one homemade dataset acquired at night under silicon-based golden LEDs, are utilized. The experimental results show that, in both UAVDT and VisDrone, the proposed YOLO-Drone outperforms state-of-the-art (SOTA) object detection methods by improving the mAP of 10.13% and 8.59%, respectively. With regards to UAVDT, the YOLO-Drone exhibits both high real-time inference speed of 53 FPS and a maximum mAP of 34.04%. Notably, YOLO-Drone achieves high performance under the silicon-based golden LEDs, with a mAP of up to 87.71%, surpassing the performance of YOLO series under ordinary light sources. To conclude, the proposed YOLO-Drone is a highly effective solution for object detection in UAV applications, particularly for night detection tasks where silicon-based golden light LED technology exhibits significant superiority.
翻訳日:2023-04-17 14:44:01 公開日:2023-04-14
# スリランカにおける視覚障害者コミュニティによるWebアクセシビリティ問題克服のためのデザインガイドライン

A Design Guideline to Overcome Web Accessibility Issues Challenged by Visually Impaired Community in Sri Lanka ( http://arxiv.org/abs/2304.06924v1 )

ライセンス: Link先を確認
N Wedasinghe, NT Sirisoma and APR Wickramarachchi(参考訳) 視覚障害者コミュニティは、世界でウェブコンテンツへのアクセスを妨げているグループの一つだ。 このコミュニティが現在のプラクティスで直面する障害と、スリランカのデジタル分割を克服するためのベストプラクティスガイドラインの開発は、このドメインのギャップを埋めることになる。 予備調査では、障害によるアクセス制限、設計の欠如によるユーザビリティの問題、視覚障害者フレンドリーなアプリケーションの利用不能、コミュニケーションの欠如、Webナビゲーションの問題などが主な問題であった。 これらの問題を克服するために、ソリューションはテストされ、設計科学のアプローチを使って検証される。 結果 Indicateは、重要な要素が組み込まれ、キーボードフレンドリーなWebサイトを確実にし、アクセシビリティを容易にし、画像に代替テキストを追加することでセマンティックアノテーションをサポートする必要があることを示している。 さらに、ヘッダーを使用してコンテンツを正しく構成し、コンテンツの開発と設計、ナビゲーション、最高の色の組み合わせ、オーディオ設備との録画済みビデオ、web上の点字のサポートなど、アクセシビリティーを念頭に置いてすべてのフォームを設計することで、視覚障害者のwebユーザに大きな影響を与えない。 ウェブサイトに評価ウィジェットオプションを導入することで、可用性が容易になるアクセシビリティ機能のレベルを特定し、障害デジタル分割を克服する。 さらに,視覚障害者コミュニティの関与の有無に関わらず,webサイトにおいて有意な違いが存在すると結論づけた。 ページ要素のコンテキストのセマンティックなWebおよびセマンティックなアノテーション、特別なキーボードコマンドによるコンテンツシリアライゼーション、ナビゲーションもまた、Webの有効利用に大きく影響を与え、Webアクセスプロセスにおける満足度も高くなっています。

Visual-impaired communities are one of the hindrances groups to accessing web content access in the world. The obstacles encountered by this community in their current practices and to develop best practice guidelines to overcome the digital divide in Sri Lanka become gap filling of this domain. A preliminary survey indicated five main problems including access limited by the impairment, usability issues due to lack of design, unavailability of visually impaired-friendly applications, lack of communication, and web navigation issues are the most dominant pertaining issues. To overcome those issues, solutions are tested and validated using the Design Science approach. Result Indicate that significant factors need to be incorporated, ensuring keyboard-friendly websites, easy accessibility and support with semantic annotation by adding alternative text for images. Furthermore, use headers to structure the content correctly, design all forms to support accessibility in mind including Content developing and designing, navigation, the best colour combination, Pre-recorded video with the audio facilities, braille support on the web, the designing option has no significant impact on visually impaired web users. Introducing a rating widget option to a website identifies the level of accessibility features availability facilitates, thereby overcoming the disability digital divide. The results further conclude that a significant difference exists in websites, with and without the involvement of the visually impaired community. Semantic web and semantic annotations of the context of page elements, content serialization, and navigation by special keyboard commands are also highly influencing the effective use of the web and increasing the satisfaction level in the website accessing process.
翻訳日:2023-04-17 14:43:26 公開日:2023-04-14
# 解釈性は一種の安全性である:敵防御のためのインタプリタベースのアンサンブル

Interpretability is a Kind of Safety: An Interpreter-based Ensemble for Adversary Defense ( http://arxiv.org/abs/2304.06919v1 )

ライセンス: Link先を確認
Jingyuan Wang, Yufan Wu, Mingxuan Li, Xin Lin, Junjie Wu, Chao Li(参考訳) リッチなリアルタイムアプリケーションで大きな成功を収めた一方で、ディープニューラルネットワーク(DNN)モデルは、敵の攻撃に対する脆弱性として長年批判されてきた。 敵の攻撃の脅威を緩和するための厳密な研究努力は行われているが、敵の攻撃の本質的な特徴はまだ明らかではなく、既存の手法はハイブリッド攻撃に対して脆弱であり、反撃に苦しめられている。 そこで,本稿では,dnnの認識分析に基づくインタプリタと,アキレスの敵対的攻撃のヒールを表わし,dnnの長年の課題である脆弱性と説明不能の2つを結びつけることに光を当てる,敵対的事例の生成過程との間に,勾配に基づく相関関係を明らかにする。 そこで我々は,X-Ensembleと呼ばれるインタプリタベースのアンサンブル・フレームワークを提案する。 X-Ensembleは、新しい検出補正プロセスを採用し、ターゲット分類器に対する様々な解釈情報に基づいて複数のサブ検出器と整流器を構築する。 さらに、X-EnsembleはRandom Forests(RF)モデルを用いて、準検出器をアンサンブル検出器に組み合わせ、敵のハイブリッド攻撃防御を行う。 さらに、RFの非微分性は、敵の反撃に対して重要な選択となる。 様々な種類の最先端攻撃や多様な攻撃シナリオの下での広範囲な実験は、x-ensembleの競合ベースラインメソッドに対する利点を示している。

While having achieved great success in rich real-life applications, deep neural network (DNN) models have long been criticized for their vulnerability to adversarial attacks. Tremendous research efforts have been dedicated to mitigating the threats of adversarial attacks, but the essential trait of adversarial examples is not yet clear, and most existing methods are yet vulnerable to hybrid attacks and suffer from counterattacks. In light of this, in this paper, we first reveal a gradient-based correlation between sensitivity analysis-based DNN interpreters and the generation process of adversarial examples, which indicates the Achilles's heel of adversarial attacks and sheds light on linking together the two long-standing challenges of DNN: fragility and unexplainability. We then propose an interpreter-based ensemble framework called X-Ensemble for robust adversary defense. X-Ensemble adopts a novel detection-rectification process and features in building multiple sub-detectors and a rectifier upon various types of interpretation information toward target classifiers. Moreover, X-Ensemble employs the Random Forests (RF) model to combine sub-detectors into an ensemble detector for adversarial hybrid attacks defense. The non-differentiable property of RF further makes it a precious choice against the counterattack of adversaries. Extensive experiments under various types of state-of-the-art attacks and diverse attack scenarios demonstrate the advantages of X-Ensemble to competitive baseline methods.
翻訳日:2023-04-17 14:42:57 公開日:2023-04-14
# フルボディ画像のワンショットスティル化

One-Shot Stylization for Full-Body Human Images ( http://arxiv.org/abs/2304.06917v1 )

ライセンス: Link先を確認
Aiyu Cui, Svetlana Lazebnik(参考訳) 人間のスタイライゼーションの目標は、全身の人間の写真を単一のアートキャラクター参照画像で指定されたスタイルに転送することである。 顔と一般的なシーンの例ベースのスタイライゼーションでは、以前の研究は成功したが、全身的な人間のスタイライゼーションはより複雑な領域である。 この研究は、フルボディの人間のイメージをスタイリングする、いくつかのユニークな課題に対処する。 本稿では,ポーズ誘導型ヒューマンジェネレータのワンショット微調整手法を提案し,入力画像の「コンテンツ」(服装,顔,髪,ポーズ)と芸術的参照の「スタイル」を保存した。 身体形状の変形は,芸術キャラクタのスタイルに欠かせない要素であるため,新しい骨格変形モジュールを組み込み,入力した人物のポーズを再現し,DiOrポーズ誘導人ジェネレータを改良し,もともと訓練された現実的なポーズの分布外に落下する再スケールポーズに対してより堅牢なようにした。 いくつかの人間による研究は、我々のアプローチの有効性を検証する。

The goal of human stylization is to transfer full-body human photos to a style specified by a single art character reference image. Although previous work has succeeded in example-based stylization of faces and generic scenes, full-body human stylization is a more complex domain. This work addresses several unique challenges of stylizing full-body human images. We propose a method for one-shot fine-tuning of a pose-guided human generator to preserve the "content" (garments, face, hair, pose) of the input photo and the "style" of the artistic reference. Since body shape deformation is an essential component of an art character's style, we incorporate a novel skeleton deformation module to reshape the pose of the input person and modify the DiOr pose-guided person generator to be more robust to the rescaled poses falling outside the distribution of the realistic poses that the generator is originally trained on. Several human studies verify the effectiveness of our approach.
翻訳日:2023-04-17 14:42:31 公開日:2023-04-14
# 量子ポートフォリオ最適化:硬度制約付きQAOAにおける離散変数のバイナリ符号化

Quantum Portfolio Optimization: Binary encoding of discrete variables for QAOA with hard constraint ( http://arxiv.org/abs/2304.06915v1 )

ライセンス: Link先を確認
Bingren Chen, Hanqing Wu, Haomu Yuan, Lei Wu, Xin Li(参考訳) 本稿では,厳密な制約下でのポートフォリオ最適化に対処するために,バイナリエンコーディングを用いた新しい量子近似最適化アルゴリズム(qaoa)を提案する。 ポートフォリオ最適化は、過去のリターンに基づいて利益とリスクのバランスを達成するために資産の最適な組み合わせを選択することを伴う。 量子アルゴリズムとして、QAOAは組合せ最適化問題の解法において古典的アルゴリズムより優れている可能性がある。 しかし、ポートフォリオ最適化への応用は、狭い範囲の共有を表すために、そのエンコーディング(ホッドソンエンコーディングまたはドメインウォールエンコーディング)に必要な量子ビットの数が多ければ多いため、制限されている。 この制限を克服するために、準バイナリ符号化を用いて整数共有を表現し、この目的のために混合演算子を構築する。 各資産を表すために使われる量子ビットの数は、組合せ最適化問題の和制約が$D$である場合、$2\log_2(D+1)$を超えない。 我々の最適化モデルはより複雑であり、範囲制約は和制約に追加される。 複数の実験によってキュービット数を増やすことなく精度を向上させるための反復手法も開発した。 数値実験により, 18量子系を7回シミュレーションすることにより, 精度を0.01以上に向上し, 近似比が0.99998に達することを示した。

In this paper, we propose a new quantum approximate optimization algorithm (QAOA) with binary encoding to address portfolio optimization under hard constraints. Portfolio optimization involves selecting the optimal combination of assets to achieve a balance of profit and risk based on historical returns. As a quantum algorithm, QAOA has the potential to outperform classical algorithms in solving combinatorial optimization problems. However, its application to portfolio optimization is restricted due to the high number of qubits required in its encoding (Hodson encoding or Domain-wall encoding) to represent a narrow range of shares. To overcome this limitation, we use quasi-binary encoding to represent integer shares and construct a mixing operator for this purpose. The number of qubits used to represent each asset does not exceed $2\log_2(D+1)$ when the sum constraint of the combinatorial optimization problem is $D$. Our optimization model is more complex, with range constraints added to the sum constraint. We have also developed an iterative method to improve the accuracy without increasing the number of qubits through multiple experiments. Numerical experiments show that by simulating 18-qubit systems seven times, we can improve the precision to above 0.01, and the approximation ratio can reach 0.99998.
翻訳日:2023-04-17 14:42:11 公開日:2023-04-14
# smae:saturation-aware masked autoencoderを用いたhdrデグホストのための少数ショット学習

SMAE: Few-shot Learning for HDR Deghosting with Saturation-Aware Masked Autoencoders ( http://arxiv.org/abs/2304.06914v1 )

ライセンス: Link先を確認
Qingsen Yan, Song Zhang, Weiye Chen, Hao Tang, Yu Zhu, Jinqiu Sun, Luc Van Gool, Yanning Zhang(参考訳) 動的シーンから高品質なハイダイナミックレンジ(HDR)画像を生成する手法として,Deep Neural Networks (DNN) が最近広く研究されている。 ほとんどのDNNベースの手法は、大量のトレーニングデータと地上の真実を必要とする。 HDRイメージングは、限られたデータで満足な画像を生成することを目的としている。 しかし、現代のDNNでは、ほんの数枚の画像で訓練された場合、過度な適合を避けることは困難である。 そこで本研究では,SSHDRと呼ばれる2段階の訓練を通した短距離HDRイメージングを実現するための,新しい半教師付き手法を提案する。 従来の手法とは違い, 直接的にコンテンツを回収し, 同時にゴーストを除去する手法は, 最適化が難しいため, まず, 自己教師機構で飽和地域のコンテンツを生成し, 同時に, 半教師付き学習フレームワークを用いてゴーストに対処する。 具体的には、飽和領域を低ダイナミックレンジ(LDR)入力領域のマスキングと見なすことができることを考慮し、飽和マスクオートエンコーダ(SMAE)を設計し、ロバストな特徴表現を学習し、非飽和HDR画像の再構成を行う。 また,第2段階で高品質なHDR擬似ラベルを選択するための適応的な擬似ラベル選択手法を提案する。 実験により、SSHDRは、異なるデータセット内および異なるデータセット間で定量的に定性的に、最先端の手法よりも優れており、ほとんどラベル付きサンプルで魅力的なHDR視覚化を実現している。

Generating a high-quality High Dynamic Range (HDR) image from dynamic scenes has recently been extensively studied by exploiting Deep Neural Networks (DNNs). Most DNNs-based methods require a large amount of training data with ground truth, requiring tedious and time-consuming work. Few-shot HDR imaging aims to generate satisfactory images with limited data. However, it is difficult for modern DNNs to avoid overfitting when trained on only a few images. In this work, we propose a novel semi-supervised approach to realize few-shot HDR imaging via two stages of training, called SSHDR. Unlikely previous methods, directly recovering content and removing ghosts simultaneously, which is hard to achieve optimum, we first generate content of saturated regions with a self-supervised mechanism and then address ghosts via an iterative semi-supervised learning framework. Concretely, considering that saturated regions can be regarded as masking Low Dynamic Range (LDR) input regions, we design a Saturated Mask AutoEncoder (SMAE) to learn a robust feature representation and reconstruct a non-saturated HDR image. We also propose an adaptive pseudo-label selection strategy to pick high-quality HDR pseudo-labels in the second stage to avoid the effect of mislabeled samples. Experiments demonstrate that SSHDR outperforms state-of-the-art methods quantitatively and qualitatively within and across different datasets, achieving appealing HDR visualization with few labeled samples.
翻訳日:2023-04-17 14:41:50 公開日:2023-04-14
# MVP-SEG:オープン語彙セマンティックセグメンテーションのためのマルチビュープロンプト学習

MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2304.06957v1 )

ライセンス: Link先を確認
Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Baochang Zhang(参考訳) CLIP(Contrastive Language- Image Pretraining)は、ゼロショット画像レベルのオープンボキャブラリ認識のためによく開発されているが、ピクセルレベルのタスクへの応用はあまり検討されていない。 本稿では、まず、画像画素CLIP機能適応の必要性を実証し、画像画素適応を実現し、オープン語彙セマンティックセマンティックセマンティクスを解決するための効果的なソリューションとして、多視点プロンプト学習(MVP-SEG)を提供する。 具体的には、mvp-segが故意に複数のプロンプトを学習し、それぞれのプロンプトが異なるオブジェクト部分のクリップ機能を利用するように監督され、すべてのプロンプトによって生成された協調的なセグメンテーションマスクがより良いセグメンテーションを促進する。 さらに、MVP-SEGは、クラスワイドセグメンテーションノイズをさらに排除するために、GPR(Global Prompt Refining)を導入している。 実験により, 対象カテゴリーから学習した多視点プロンプトは, 未確認カテゴリに対して強い一般化を示し, 知識伝達の段階を組み合わしたMVP-SEG+は, いくつかのベンチマークにおいて, 従来の手法よりも有意に優れていた。 さらに質的な結果は、MVP-SEGが様々な局所的な部分に集中するようになることを正当化します。

CLIP (Contrastive Language-Image Pretraining) is well-developed for open-vocabulary zero-shot image-level recognition, while its applications in pixel-level tasks are less investigated, where most efforts directly adopt CLIP features without deliberative adaptations. In this work, we first demonstrate the necessity of image-pixel CLIP feature adaption, then provide Multi-View Prompt learning (MVP-SEG) as an effective solution to achieve image-pixel adaptation and to solve open-vocabulary semantic segmentation. Concretely, MVP-SEG deliberately learns multiple prompts trained by our Orthogonal Constraint Loss (OCLoss), by which each prompt is supervised to exploit CLIP feature on different object parts, and collaborative segmentation masks generated by all prompts promote better segmentation. Moreover, MVP-SEG introduces Global Prompt Refining (GPR) to further eliminate class-wise segmentation noise. Experiments show that the multi-view prompts learned from seen categories have strong generalization to unseen categories, and MVP-SEG+ which combines the knowledge transfer stage significantly outperforms previous methods on several benchmarks. Moreover, qualitative results justify that MVP-SEG does lead to better focus on different local parts.
翻訳日:2023-04-17 14:34:59 公開日:2023-04-14
# データ一貫性画像再構成のための不確実性を考慮したヌル空間ネットワーク

Uncertainty-Aware Null Space Networks for Data-Consistent Image Reconstruction ( http://arxiv.org/abs/2304.06955v1 )

ライセンス: Link先を確認
Christoph Angermann, Simon G\"oppel and Markus Haltmeier(参考訳) ノイズや不完全な測定からイメージを再構成することは、複数の画像処理アプリケーションにおいて中心的な課題である。 近年,近年のディープラーニングの進歩をもとに,最先端の再構築手法が開発されている。 特に不確定な問題の場合、データの一貫性を維持することが重要な目標です。 これは反復的なネットワークアーキテクチャまたはその後のネットワーク再構築の投影によって達成できる。 しかし,このようなアプローチを医療画像などの安全クリティカルな領域で使用するためには,ネットワーク再構築はユーザに対して再構成されたイメージを提供するだけでなく,ある程度の信頼度を与えるべきである。 これら2つの重要な要件を満たすため、本論文では、深いヌル空間ネットワークと不確実な定量化を組み合わせる。 提案手法の評価には,おもちゃのCTデータセットを用いたアンダーサンプリングRadon測定による画像再構成と,高速MRIデータセットによる高速MRI再構成が含まれる。 本研究は,入力依存スケールマップを推定することでデータ依存の不確実性をモデル化し,復元品質のロバストな評価を可能にする,逆問題に対する最初のアプローチである。

Reconstructing an image from noisy and incomplete measurements is a central task in several image processing applications. In recent years, state-of-the-art reconstruction methods have been developed based on recent advances in deep learning. Especially for highly underdetermined problems, maintaining data consistency is a key goal. This can be achieved either by iterative network architectures or by a subsequent projection of the network reconstruction. However, for such approaches to be used in safety-critical domains such as medical imaging, the network reconstruction should not only provide the user with a reconstructed image, but also with some level of confidence in the reconstruction. In order to meet these two key requirements, this paper combines deep null-space networks with uncertainty quantification. Evaluation of the proposed method includes image reconstruction from undersampled Radon measurements on a toy CT dataset and accelerated MRI reconstruction on the fastMRI dataset. This work is the first approach to solving inverse problems that additionally models data-dependent uncertainty by estimating an input-dependent scale map, providing a robust assessment of reconstruction quality.
翻訳日:2023-04-17 14:34:31 公開日:2023-04-14
# 文化認識型機械学習によるワクチン中毒の解析

Cultural-aware Machine Learning based Analysis of COVID-19 Vaccine Hesitancy ( http://arxiv.org/abs/2304.06953v1 )

ライセンス: Link先を確認
Raed Alharbi, Sylvia Chan-Olmsted, Huan Chen, and My T. Thai(参考訳) 新型コロナウイルス(COVID-19)ワクチンの大量導入がパンデミックを抑える最も効率的な方法の1つとして残っており、その原因や原因などを理解することが極めて重要である。 このような理解は、将来のパンデミックの予防接種キャンペーンを成功させるための洞察を与える。 残念なことに、特に文化的な観点からワクチンを服用するかどうかの判断には多くの要因がある。 これらの目標を達成するために,我々は新たなデータ収集に基づく新しい文化対応機械学習(ml)モデルを設計し,予防接種意欲を予測する。 さらに、確率グラフモデル(PGM)やシェープ追加説明(SHAP)といった高度なAI説明器を用いて、MLモデルの予測に寄与する最も重要な特徴を分析する。 これらの分析は、ワクチン導入の決定に最も影響を与える主要な要因を明らかにする。 ヒスパニック系とアフリカ系アメリカ人は、宗教や民族関係などの文化的特徴に最も影響を受けやすいが、ワクチンの信頼と承認はアジア地域社会に最も影響している。 以上の結果から, 文化的特徴, 噂, 政治的関連がワクチン拒絶の増大と関連していることが示唆された。

Understanding the COVID-19 vaccine hesitancy, such as who and why, is very crucial since a large-scale vaccine adoption remains as one of the most efficient methods of controlling the pandemic. Such an understanding also provides insights into designing successful vaccination campaigns for future pandemics. Unfortunately, there are many factors involving in deciding whether to take the vaccine, especially from the cultural point of view. To obtain these goals, we design a novel culture-aware machine learning (ML) model, based on our new data collection, for predicting vaccination willingness. We further analyze the most important features which contribute to the ML model's predictions using advanced AI explainers such as the Probabilistic Graphical Model (PGM) and Shapley Additive Explanations (SHAP). These analyses reveal the key factors that most likely impact the vaccine adoption decisions. Our findings show that Hispanic and African American are most likely impacted by cultural characteristics such as religions and ethnic affiliation, whereas the vaccine trust and approval influence the Asian communities the most. Our results also show that cultural characteristics, rumors, and political affiliation are associated with increased vaccine rejection.
翻訳日:2023-04-17 14:34:15 公開日:2023-04-14
# 高血圧診断のためのppg信号 : 深層学習モデルを用いた新しい方法

PPG Signals for Hypertension Diagnosis: A Novel Method using Deep Learning Models ( http://arxiv.org/abs/2304.06952v1 )

ライセンス: Link先を確認
Graham Frederick, Yaswant T, Brintha Therese A(参考訳) 高血圧は高血圧を特徴とする疾患であり、疾患の管理には様々な段階に分類することが不可欠である。 本稿では,photoplethysmography (ppg) 信号と深層学習モデルであるavgpool_vgg-16を用いて高血圧の段階を分類する新しい方法を提案する。 PPG信号は、組織の微小血管における血液量の変化を測定する光センサーを用いて血圧を測定する非侵襲的な方法である。 利用可能な血圧分類データセットからのPSG画像を用いてモデルをトレーニングした。 様々なppgステージのマルチクラス分類を行った。 提案手法は,高血圧の診断・管理におけるPTG信号および深層学習モデルの可能性を示すとともに,高血圧のステージの分類において高い精度を実現する。

Hypertension is a medical condition characterized by high blood pressure, and classifying it into its various stages is crucial to managing the disease. In this project, a novel method is proposed for classifying stages of hypertension using Photoplethysmography (PPG) signals and deep learning models, namely AvgPool_VGG-16. The PPG signal is a non-invasive method of measuring blood pressure through the use of light sensors that measure the changes in blood volume in the microvasculature of tissues. PPG images from the publicly available blood pressure classification dataset were used to train the model. Multiclass classification for various PPG stages were done. The results show the proposed method achieves high accuracy in classifying hypertension stages, demonstrating the potential of PPG signals and deep learning models in hypertension diagnosis and management.
翻訳日:2023-04-17 14:33:56 公開日:2023-04-14
# 到着理論の因果保存量子時間の定式化

Formulation of causality-preserving quantum time of arrival theory ( http://arxiv.org/abs/2304.06949v1 )

ライセンス: Link先を確認
Denny Lane B. Sombillo and Neris I. Sombillo(参考訳) 我々は、量子補正を古典的な到達時刻に再検討し、初期運動量ゼロの極限における非物理的瞬間到着に対応する。 本研究では,初期波パケットの因果性違反成分の汚染が到着時間の消失の原因であることを示す。 本研究の目的は, [Galapon E. A.A. 2009, R. Soc. A.46571-86] における時間的崩壊メカニズムを更新し, 到着時刻演算子の因果性違反スペクトルの除去を取り入れることである。 古典的な到着時刻に対する量子補正はまだ観測されている。 したがって、我々の分析は、補正が観測可能な時間の定量化の本質的な結果であり、理論の数学的成果に過ぎないことを検証している。 また、粒子物理学における点相互作用を記述するための理論の適用可能性についても論じ、観測された中性子の寿命異常について説明できる。

We revisit the quantum correction to the classical time of arrival to address the unphysical instantaneous arrival in the limit of zero initial momentum. In this study, we show that the vanishing of arrival time is due to the contamination of the causality-violating component of the initial wave packet. Motivated by this observation, we propose to update the temporal collapse mechanism in [Galapon E. A. 2009, Proc. R. Soc. A.46571-86] to incorporate the removal of causality-violating spectra of the arrival time operator. We found that the quantum correction to the classical arrival time is still observed. Thus, our analysis validates that the correction is an inherent consequence of quantizing a time observable and is not just some mathematical artifact of the theory. We also discuss the possible application of the theory in describing point interactions in particle physics and provide a possible explanation to the observed neutron's lifetime anomaly.
翻訳日:2023-04-17 14:33:42 公開日:2023-04-14
# TimelyFL:適応的部分訓練による異種性を考慮した非同期フェデレーション学習

TimelyFL: Heterogeneity-aware Asynchronous Federated Learning with Adaptive Partial Training ( http://arxiv.org/abs/2304.06947v1 )

ライセンス: Link先を確認
Tuo Zhang, Lei Gao, Sunwoo Lee, Mi Zhang and Salman Avestimehr(参考訳) デバイス横断フェデレーション学習(FL)環境では、トラグラーがトレーニングプロセスを妨げるため、同期FLメソッドのスケーリングは困難である。 さらに、トレーニングに参加するクライアントの可用性は、システムの不均一性と断続的な接続性のため、時間とともに非常に変動します。 最近の非同期flメソッド(例えばfeedbuff)は、より遅いユーザが古いモデルに基づいたローカルトレーニングを継続し、準備ができたら集約に寄与できるようにすることで、これらの問題を克服するために提案されている。 しかし,本手法がトレーニング精度を大幅に低下させ,収束率を低下させることを実証的に示す。 一番の理由は、高速デバイスがより多くの集約ラウンドに貢献し、他のデバイスは断続的にあるいは全く参加せず、古いモデルのアップデートを伴っているからです。 この障壁を克服するため,我々は,適応型部分トレーニングを備えた異種性対応非同期flフレームワークであるtimelyflを提案する。 トレーニング中、TimelyFLは各クライアントのリアルタイムリソース機能に基づいて、ローカルのトレーニングワークロードを調整する。 我々は、さまざまなデータセット(CIFAR-10、Google Speech、Redditなど)とモデル(ResNet20、VGG11、ALBERTなど)で広範な実験を行うことで、TimelyFLのパフォーマンス上の利点を実証する。 最先端(フェドバフ)と比較すると、timelyflは参加率を21.13%向上させ、収束率の1.28倍から2.89倍に向上し、テスト精度を6.25%向上させた。

In cross-device Federated Learning (FL) environments, scaling synchronous FL methods is challenging as stragglers hinder the training process. Moreover, the availability of each client to join the training is highly variable over time due to system heterogeneities and intermittent connectivity. Recent asynchronous FL methods (e.g., FedBuff) have been proposed to overcome these issues by allowing slower users to continue their work on local training based on stale models and to contribute to aggregation when ready. However, we show empirically that this method can lead to a substantial drop in training accuracy as well as a slower convergence rate. The primary reason is that fast-speed devices contribute to many more rounds of aggregation while others join more intermittently or not at all, and with stale model updates. To overcome this barrier, we propose TimelyFL, a heterogeneity-aware asynchronous FL framework with adaptive partial training. During the training, TimelyFL adjusts the local training workload based on the real-time resource capabilities of each client, aiming to allow more available clients to join in the global update without staleness. We demonstrate the performance benefits of TimelyFL by conducting extensive experiments on various datasets (e.g., CIFAR-10, Google Speech, and Reddit) and models (e.g., ResNet20, VGG11, and ALBERT). In comparison with the state-of-the-art (i.e., FedBuff), our evaluations reveal that TimelyFL improves participation rate by 21.13%, harvests 1.28x - 2.89x more efficiency on convergence rate, and provides a 6.25% increment on test accuracy.
翻訳日:2023-04-17 14:33:25 公開日:2023-04-14
# 画素とパッチレベルを考慮した統一hdrイメージング法

A Unified HDR Imaging Method with Pixel and Patch Level ( http://arxiv.org/abs/2304.06943v1 )

ライセンス: Link先を確認
Qingsen Yan, Weiye Chen, Song Zhang, Yu Zhu, Jinqiu Sun, Yanning Zhang(参考訳) 低ダイナミックレンジ(LDR)画像を高ダイナミックレンジ(HDR)に異なる露出でマッピングすることは、物体の動きやカメラのジッティングによって引き起こされるゴーストによる動的シーンにおいて、非自明で困難なままである。 ディープニューラルネットワーク(DNN)の成功により、ゴーストを緩和するためにいくつかのDNNベースの手法が提案されている。 HDR画像を生成するために,HyHDRNetと呼ばれるハイブリッドHDRデゴーストネットワークを提案し,参照画像と非参照画像の複雑な関係を学習する。 提案したHyHDRNetはコンテンツアライメントサブネットワークとTransformerベースのフュージョンサブネットワークで構成されている。 具体的には、ソースからのゴーストを効果的に回避するために、コンテンツアライメントサブネットワークはパッチアグリゲーションとゴーストアテンションを使用して、他の非参照画像からの類似したコンテンツをパッチレベルに統合し、望ましくないコンポーネントをピクセルレベルに抑制する。 パッチレベルと画素レベルの相互ガイダンスを実現するために,gatingモジュールを利用して,ゴースト領域と飽和領域の両方で有用な情報を十分に交換する。 さらに、高品質なHDR画像を得るために、TransformerベースのフュージョンサブネットワークはResidual Deformable Transformer Block (RDTB)を用いて異なる露出領域の情報を適応的にマージする。 提案手法は,広く使用されている4つのhdr画像デガホストデータセットについて検討した。 実験により、HyHDRNetは最先端の手法よりも定量的かつ質的に優れており、統一されたテクスチャと色で魅力的なHDR可視化を実現している。

Mapping Low Dynamic Range (LDR) images with different exposures to High Dynamic Range (HDR) remains nontrivial and challenging on dynamic scenes due to ghosting caused by object motion or camera jitting. With the success of Deep Neural Networks (DNNs), several DNNs-based methods have been proposed to alleviate ghosting, they cannot generate approving results when motion and saturation occur. To generate visually pleasing HDR images in various cases, we propose a hybrid HDR deghosting network, called HyHDRNet, to learn the complicated relationship between reference and non-reference images. The proposed HyHDRNet consists of a content alignment subnetwork and a Transformer-based fusion subnetwork. Specifically, to effectively avoid ghosting from the source, the content alignment subnetwork uses patch aggregation and ghost attention to integrate similar content from other non-reference images with patch level and suppress undesired components with pixel level. To achieve mutual guidance between patch-level and pixel-level, we leverage a gating module to sufficiently swap useful information both in ghosted and saturated regions. Furthermore, to obtain a high-quality HDR image, the Transformer-based fusion subnetwork uses a Residual Deformable Transformer Block (RDTB) to adaptively merge information for different exposed regions. We examined the proposed method on four widely used public HDR image deghosting datasets. Experiments demonstrate that HyHDRNet outperforms state-of-the-art methods both quantitatively and qualitatively, achieving appealing HDR visualization with unified textures and colors.
翻訳日:2023-04-17 14:32:54 公開日:2023-04-14
# AUTOSPARSE:ディープニューラルネットワークの自動スパーストレーニングに向けて

AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks ( http://arxiv.org/abs/2304.06941v1 )

ライセンス: Link先を確認
Abhisek Kundu, Naveen K. Mellempudi, Dharma Teja Vooturi, Bharat Kaul, Pradeep Dubey(参考訳) スパーストレーニングは、ニューラルネットワークのトレーニングの計算コストを削減するための有望な手段として現れています。 近年、モデル内に存在するスパーシティの非一様分布を効率的に探索するために学習可能なしきい値を用いた刈り取り法が提案されている。 本稿では,マスクの重みの勾配を非線形にスケールダウンするグラディエントアナリング(GA)を提案する。 GAは、余剰を誘導する正規化を必要とせずに、余剰と精度の間のエレガントなトレードオフを提供する。 GAを最新の学習可能なプルーニング手法と統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成し、ImageNet-1K上の既存の学習可能なResNet50やMobileNetV1よりも精度と/またはトレーニング/推論のFLOPS削減を実現した。 最後に、AutoSparseはSparse-to-sparse SotA法を80%のsparse ResNet50でパフォーマンスし、MESTは12%のトレーニングFLOPSと50%の推論FLOPSを使用する。

Sparse training is emerging as a promising avenue for reducing the computational cost of training neural networks. Several recent studies have proposed pruning methods using learnable thresholds to efficiently explore the non-uniform distribution of sparsity inherent within the models. In this paper, we propose Gradient Annealing (GA), where gradients of masked weights are scaled down in a non-linear manner. GA provides an elegant trade-off between sparsity and accuracy without the need for additional sparsity-inducing regularization. We integrated GA with the latest learnable pruning methods to create an automated sparse training algorithm called AutoSparse, which achieves better accuracy and/or training/inference FLOPS reduction than existing learnable pruning methods for sparse ResNet50 and MobileNetV1 on ImageNet-1K: AutoSparse achieves (2x, 7x) reduction in (training,inference) FLOPS for ResNet50 on ImageNet at 80% sparsity. Finally, AutoSparse outperforms sparse-to-sparse SotA method MEST (uniform sparsity) for 80% sparse ResNet50 with similar accuracy, where MEST uses 12% more training FLOPS and 50% more inference FLOPS.
翻訳日:2023-04-17 14:32:23 公開日:2023-04-14
# マルチモーダルc4:テキストとインターリーブされた10億規模の画像コーパス

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text ( http://arxiv.org/abs/2304.06939v1 )

ライセンス: Link先を確認
Wanrong Zhu and Jack Hessel and Anas Awadalla and Samir Yitzhak Gadre and Jesse Dodge and Alex Fang and Youngjae Yu and Ludwig Schmidt and William Yang Wang and Yejin Choi(参考訳) コンテキスト内ビジョンとflamingoのような言語モデルは、入力として画像とテキストの任意にインターリーブされたシーケンスをサポートする。 このフォーマットは、独立した教師付き(画像、テキスト)例をインターリーブすることで、少数のショット学習を可能にするだけでなく、画像間のインタラクションを含むより複雑なプロンプト、例えば「画像aと画像bの共通点は何か? このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 しかし、現在までこの形式の大規模データは公開されていない。 マルチモーダルc4 (mmc4) は、画像がインターリーブされた人気のテキストのみのc4コーパスの強化である。 線形代入アルゴリズムを用いて、CLIP機能を用いて、画像の長文体への配置を行う。 mmc4は、料理、旅行、技術など、日々のトピックを扱っている。 ランダムな文書のサンプルを手作業で検査すると、画像の90%が局所的に関連しており、線形代入は各画像に特異的に整列した個々の文を頻繁に選択する(78%)。 NSFW画像や広告等をフィルタリングした後、コーパスは43Bの英語トークンをインターリーブした585万の画像を含む103Mドキュメントを含む。

In-context vision and language models like Flamingo support arbitrarily interleaved sequences of images and text as input. This format not only enables few-shot learning via interleaving independent supervised (image, text) examples, but also, more complex prompts involving interaction between images, e.g., "What do image A and image B have in common?" To support this interface, pretraining occurs over web corpora that similarly contain interleaved images+text. To date, however, large-scale data of this form have not been publicly available. We release Multimodal C4 (mmc4), an augmentation of the popular text-only c4 corpus with images interleaved. We use a linear assignment algorithm to place images into longer bodies of text using CLIP features, a process that we show outperforms alternatives. mmc4 spans everyday topics like cooking, travel, technology, etc. A manual inspection of a random sample of documents shows that a vast majority (90%) of images are topically relevant, and that linear assignment frequently selects individual sentences specifically well-aligned with each image (78%). After filtering NSFW images, ads, etc., the corpus contains 103M documents containing 585M images interleaved with 43B English tokens.
翻訳日:2023-04-17 14:31:57 公開日:2023-04-14
# CAMM:モノクロビデオからカテゴリー非依存でアニマタブルな3Dモデルを構築する

CAMM: Building Category-Agnostic and Animatable 3D Models from Monocular Videos ( http://arxiv.org/abs/2304.06937v1 )

ライセンス: Link先を確認
Tianshu Kuai, Akash Karthikeyan, Yash Kant, Ashkan Mirzaei, Igor Gilitschenski(参考訳) 3dでオブジェクトをアニメーションするには、操作対象のキネマティック・チェーンやスケルトンなどの関節構造を適切なスキニング重量で必要とし、滑らかな動きと表面変形を得る。 しかしながら、直接ポーズ操作を可能にする既存のモデルは、特定の対象カテゴリに限られるか、特別な機器で構築される。 そこで,3dモデル作成に必要な作業を減らすため,任意の調音物体に対してアニメーション可能なキネマティックチェーンを学習する新しい再構築手法を提案する。 本手法は,物体の形状や基礎構造を事前に知ることなく,単眼映像で動作する。 本手法は,学習したキネマティック・チェーンを再構成することで直接ポーズ操作が可能でありながら,様々な対象カテゴリーにおける最先端の3次元表面再構成手法と同等である。

Animating an object in 3D often requires an articulated structure, e.g. a kinematic chain or skeleton of the manipulated object with proper skinning weights, to obtain smooth movements and surface deformations. However, existing models that allow direct pose manipulations are either limited to specific object categories or built with specialized equipment. To reduce the work needed for creating animatable 3D models, we propose a novel reconstruction method that learns an animatable kinematic chain for any articulated object. Our method operates on monocular videos without prior knowledge of the object's shape or underlying structure. Our approach is on par with state-of-the-art 3D surface reconstruction methods on various articulated object categories while enabling direct pose manipulations by re-posing the learned kinematic chain.
翻訳日:2023-04-17 14:31:36 公開日:2023-04-14
# Bitstream-Corrupted JPEG Imagesは復元可能:2段階補正と画像復元のためのアライメントフレームワーク

Bitstream-Corrupted JPEG Images are Restorable: Two-stage Compensation and Alignment Framework for Image Restoration ( http://arxiv.org/abs/2304.06976v1 )

ライセンス: Link先を確認
Wenyang Liu, Yi Wang, Kim-Hui Yap and Lap-Pui Chau(参考訳) 本稿では,暗号化ビットストリーム上でのビット誤りを伴う実世界のJPEG画像復元問題について検討する。 ビットエラーは、あらかじめ定義された画素領域の劣化モデルに依存する既存の画像復元法では解決できない、デコードされた画像内容に対する予測不可能なカラーキャストやブロックシフトをもたらす。 これらの課題に対処するために,ロバストなJPEGデコーダを提案し,その後に2段階の補償とアライメントのフレームワークを用いて,ビットストリーム崩壊したJPEG画像の復元を行う。 具体的には、堅牢なJPEGデコーダは、破損したJPEGビットストリームをデコードするエラー耐性機構を採用する。 2段階のフレームワークは、自己補償・アライメント(SCA)ステージと誘導補償・アライメント(GCA)ステージで構成されている。 SCAは、推定色に基づいてブロックワイズ画像色補正及びアライメントを行い、画像内容類似性を介してオフセットをブロックする。 GCAは、JPEGヘッダから抽出した低解像度サムネイルを利用して、粗い方法で全解像度の画素画像復元を誘導する。 粗誘導pix2pixネットワークと精製誘導二方向ラプラシアピラミッド融合ネットワークによって達成される。 ビット誤り率の異なる3つのベンチマークについて実験を行った。 実験結果とアブレーション実験により,提案手法の優位性を実証した。 コードはhttps://github.com/wenyang001/Two-ACIRで公開される。

In this paper, we study a real-world JPEG image restoration problem with bit errors on the encrypted bitstream. The bit errors bring unpredictable color casts and block shifts on decoded image contents, which cannot be resolved by existing image restoration methods mainly relying on pre-defined degradation models in the pixel domain. To address these challenges, we propose a robust JPEG decoder, followed by a two-stage compensation and alignment framework to restore bitstream-corrupted JPEG images. Specifically, the robust JPEG decoder adopts an error-resilient mechanism to decode the corrupted JPEG bitstream. The two-stage framework is composed of the self-compensation and alignment (SCA) stage and the guided-compensation and alignment (GCA) stage. The SCA adaptively performs block-wise image color compensation and alignment based on the estimated color and block offsets via image content similarity. The GCA leverages the extracted low-resolution thumbnail from the JPEG header to guide full-resolution pixel-wise image restoration in a coarse-to-fine manner. It is achieved by a coarse-guided pix2pix network and a refine-guided bi-directional Laplacian pyramid fusion network. We conduct experiments on three benchmarks with varying degrees of bit error rates. Experimental results and ablation studies demonstrate the superiority of our proposed method. The code will be released at https://github.com/wenyang001/Two-ACIR.
翻訳日:2023-04-17 14:25:31 公開日:2023-04-14
# HuaTuo:中国の医学知識でLLaMAモデルをチューニング

HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge ( http://arxiv.org/abs/2304.06975v1 )

ライセンス: Link先を確認
Haochun Wang, Chi Liu, Nuwa Xi, Zewen Qiang, Sendong Zhao, Bing Qin and Ting Liu(参考訳) LLaMAモデルのような大規模言語モデル(LLM)は、様々な汎用自然言語処理(NLP)タスクにおいてその効果を実証している。 にもかかわらず、LSMは反応に医学的専門知識が必要であるため、生物医学領域のタスクで最適に実行されていない。 この課題への対応として,生成したqa(question-answer)インスタンスで微調整されたllamaベースのモデルであるhuatuoを提案する。 実験の結果,HuaTuoはより信頼性の高い医療知識を持つ応答を生成することがわかった。 提案するHuaTuoモデルは, https://github.com/SCIR-HI/Huatuo-Llama-Med- Chineseで利用可能である。

Large Language Models (LLMs), such as the LLaMA model, have demonstrated their effectiveness in various general-domain natural language processing (NLP) tasks. Nevertheless, LLMs have not yet performed optimally in biomedical domain tasks due to the need for medical expertise in the responses. In response to this challenge, we propose HuaTuo, a LLaMA-based model that has been supervised-fine-tuned with generated QA (Question-Answer) instances. The experimental results demonstrate that HuaTuo generates responses that possess more reliable medical knowledge. Our proposed HuaTuo model is accessible at https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese.
翻訳日:2023-04-17 14:25:10 公開日:2023-04-14
# フーリエニューラル演算子を用いた伝達学習に基づく流体流動と温度場の多面的予測

Multi-fidelity prediction of fluid flow and temperature field based on transfer learning using Fourier Neural Operator ( http://arxiv.org/abs/2304.06972v1 )

ライセンス: Link先を確認
Yanfang Lyu, Xiaoyu Zhao, Zhiqiang Gong, Xiao Kang and Wen Yao(参考訳) 海洋・航空宇宙工学における流体流動と温度分布に関するデータ駆動予測は,近年,その可能性を実証している。 しかし、通常、複雑な物理情報を記述し正確に予測するために大量の高忠実度データが必要であるが、実際には、高い実験/計算コストのために限られた高忠実度データしか利用できない。 そこで本研究では, 豊富な低忠実度データと限られた高忠実度データを融合して, フーリエニューラル演算子に基づく新しいマルチ忠実度学習法を提案する。 まず、分解能不変演算子として、Fourier Neural Operatorを第一に、高忠実度データと豊富な低忠実度データを同時に利用できる多忠実度データを直接統合するために、適宜適用する。 そして、リッチな低忠実度データ知識を抽出して高忠実度モデリングトレーニングを支援するトランスファー学習フレームワークを開発し、データ駆動予測精度をさらに向上させる。 最後に,提案した多忠実度モデルの精度を評価するために,3つの典型的な流体および温度予測問題を選択する。 その結果,提案手法は他の高忠実度モデルと比較して高い有効性を示し,選択したフィールド問題に対して高いモデリング精度が99%であることがわかった。 提案手法は,高精度な単純な構造の可能性を秘めており,その後のモデル構築の参考となる。

Data-driven prediction of fluid flow and temperature distribution in marine and aerospace engineering has received extensive research and demonstrated its potential in real-time prediction recently. However, usually large amounts of high-fidelity data are required to describe and accurately predict the complex physical information, while in reality, only limited high-fidelity data is available due to the high experiment/computational cost. Therefore, this work proposes a novel multi-fidelity learning method based on the Fourier Neural Operator by jointing abundant low-fidelity data and limited high-fidelity data under transfer learning paradigm. First, as a resolution-invariant operator, the Fourier Neural Operator is first and gainfully applied to integrate multi-fidelity data directly, which can utilize the scarce high-fidelity data and abundant low-fidelity data simultaneously. Then, the transfer learning framework is developed for the current task by extracting the rich low-fidelity data knowledge to assist high-fidelity modeling training, to further improve data-driven prediction accuracy. Finally, three typical fluid and temperature prediction problems are chosen to validate the accuracy of the proposed multi-fidelity model. The results demonstrate that our proposed method has high effectiveness when compared with other high-fidelity models, and has the high modeling accuracy of 99% for all the selected physical field problems. Significantly, the proposed multi-fidelity learning method has the potential of a simple structure with high precision, which can provide a reference for the construction of the subsequent model.
翻訳日:2023-04-17 14:25:00 公開日:2023-04-14
# 授業増分学習のための視覚変換器の局所性保持

Preserving Locality in Vision Transformers for Class Incremental Learning ( http://arxiv.org/abs/2304.06971v1 )

ライセンス: Link先を確認
Bowen Zheng, Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan(参考訳) 新しいクラスを忘れることなく学ぶことは、分類モデルのための現実世界のアプリケーションにとって不可欠である。 vision transformers(vit)は最近、クラスインクリメンタル学習(cil)において驚くべきパフォーマンスを達成している。 これまでの作業は主にブロック設計とViTのモデル拡張に焦点を当てていた。 しかし,本論文では,ViTが漸進的に訓練されると,注目層が局所的な特徴に徐々に集中することがわかった。 この興味深い現象を、CIL の ViT における 'emph{Locality Degradation} と呼ぶ。 低レベルの局所情報は表現の転送性に不可欠であるため、注意層の局所性を保つことが有用である。 本稿では,学習手順が進むにつれて,より局所的な情報を保存することを奨励し,局所的特徴の重要性を強調するために,局所性保存注意層(LPA)を考案する。 具体的には,局所情報をバニラアテンションに直接組み込んで,バニラアテンションの初期勾配を小さな初期値で重み付けすることにより制御する。 広範な実験により、lpaによって促進された表現は、フォローアップタスクへの転送が容易なより低レベルの一般的な情報をキャプチャする。 改良されたモデルは、CIFAR100とImageNet100で一貫してパフォーマンスが向上する。

Learning new classes without forgetting is crucial for real-world applications for a classification model. Vision Transformers (ViT) recently achieve remarkable performance in Class Incremental Learning (CIL). Previous works mainly focus on block design and model expansion for ViTs. However, in this paper, we find that when the ViT is incrementally trained, the attention layers gradually lose concentration on local features. We call this interesting phenomenon as \emph{Locality Degradation} in ViTs for CIL. Since the low-level local information is crucial to the transferability of the representation, it is beneficial to preserve the locality in attention layers. In this paper, we encourage the model to preserve more local information as the training procedure goes on and devise a Locality-Preserved Attention (LPA) layer to emphasize the importance of local features. Specifically, we incorporate the local information directly into the vanilla attention and control the initial gradients of the vanilla attention by weighting it with a small initial value. Extensive experiments show that the representations facilitated by LPA capture more low-level general information which is easier to transfer to follow-up tasks. The improved model gets consistently better performance on CIFAR100 and ImageNet100.
翻訳日:2023-04-17 14:24:35 公開日:2023-04-14
# h2tne:双曲空間に埋め込まれた時間的異種情報ネットワーク

H2TNE: Temporal Heterogeneous Information Network Embedding in Hyperbolic Spaces ( http://arxiv.org/abs/2304.06970v1 )

ライセンス: Link先を確認
Qijie Bai, Jiawen Guo, Haiwei Zhang, Changli Nie, Lin Zhang, Xiaojie Yuan(参考訳) 低次元空間に異なるタイムスタンプの様々な種類のノードを表現し、構造的および意味的な情報を保存することを目的とした時間的異種情報ネットワーク(時間的HIN)の埋め込みは、多様な現実的なタスクにおいて極めて重要である。 研究者はユークリッド空間に時間的ヒンを埋め込むことに多大な努力をし、かなりの成果を得た。 しかし、多くの実世界のネットワークが階層的特性とパワーロー分布を示し、ユークリッド空間の等尺性ではないという根本的な矛盾は常にある。 近年、双曲空間における表現学習は階層構造とパワーロー構造を持つデータに対して有効であることが証明されている。 この特徴に触発されて、時間HINに対する双曲的異種時間ネットワーク埋め込み(H2TNE)モデルを提案する。 具体的には,時間的および不均質な二重拘束型ランダムウォーク戦略を用いて,構造的・意味的情報を収集し,近接測定における双曲的距離を利用した埋め込み計算を行う。 実験の結果,本手法はSOTAモデルと比較して時間的リンク予測とノード分類に優れていた。

Temporal heterogeneous information network (temporal HIN) embedding, aiming to represent various types of nodes of different timestamps into low dimensional spaces while preserving structural and semantic information, is of vital importance in diverse real-life tasks. Researchers have made great efforts on temporal HIN embedding in Euclidean spaces and got some considerable achievements. However, there is always a fundamental conflict that many real-world networks show hierarchical property and power-law distribution, and are not isometric of Euclidean spaces. Recently, representation learning in hyperbolic spaces has been proved to be valid for data with hierarchical and power-law structure. Inspired by this character, we propose a hyperbolic heterogeneous temporal network embedding (H2TNE) model for temporal HINs. Specifically, we leverage a temporally and heterogeneously double-constrained random walk strategy to capture the structural and semantic information, and then calculate the embedding by exploiting hyperbolic distance in proximity measurement. Experimental results show that our method has superior performance on temporal link prediction and node classification compared with SOTA models.
翻訳日:2023-04-17 14:24:17 公開日:2023-04-14
# UVA:ビュー合成, ポーズレンダリング, 幾何学, テクスチャ編集のための統一ボリュームアバターを目指して

UVA: Towards Unified Volumetric Avatar for View Synthesis, Pose rendering, Geometry and Texture Editing ( http://arxiv.org/abs/2304.06969v1 )

ライセンス: Link先を確認
Jinlong Fan and Jing Zhang and Dacheng Tao(参考訳) ニューラル・ラディアンス・フィールド(nerf)は、新しい視点やポーズなどの高いレンダリング能力により、ヒトアバターの再構成のための一般的な3d表現方法となっている。 しかし、それまでのアバターの形状や外観の編集方法は、ボディ形状パラメータと2次元テクスチャマップによるグローバルな編集しかできなかった。 本稿では,新しいビューやポーズを描画する能力を維持しつつ,テクスチャとテクスチャの両方を局所的かつ独立的に編集することのできる,‘textbf{U}nified \textbf{V}olumetric \textbf{A}vatar(\textbf{UVA})’という新しいアプローチを提案する。 UVAは、各観測点をスキン運動場を用いて標準空間に変換し、別々の神経場における幾何学とテクスチャを表現する。 各フィールドは、標準空間における変形可能なメッシュ上のアンカーノードにアタッチされ、補間によって空間全体に拡散し、局所的な編集を可能にする構造化された潜在コードからなる。 符号補間における空間的曖昧性に対処するために,局所符号付き高さ指標を用いる。 また、視点依存の輝度色をポーズ依存のシェーディングファクターに置き換え、異なるポーズで表面照明をより良く表現する。 複数の人体アバターを用いた実験により、我々のUVAは、幾何学と外観の局所的および独立的な編集を可能にしながら、新しいビュー合成と新しいポーズレンダリングにおいて競争的な結果が得られることを示した。 ソースコードはリリースされます。

Neural radiance field (NeRF) has become a popular 3D representation method for human avatar reconstruction due to its high-quality rendering capabilities, e.g., regarding novel views and poses. However, previous methods for editing the geometry and appearance of the avatar only allow for global editing through body shape parameters and 2D texture maps. In this paper, we propose a new approach named \textbf{U}nified \textbf{V}olumetric \textbf{A}vatar (\textbf{UVA}) that enables local and independent editing of both geometry and texture, while retaining the ability to render novel views and poses. UVA transforms each observation point to a canonical space using a skinning motion field and represents geometry and texture in separate neural fields. Each field is composed of a set of structured latent codes that are attached to anchor nodes on a deformable mesh in canonical space and diffused into the entire space via interpolation, allowing for local editing. To address spatial ambiguity in code interpolation, we use a local signed height indicator. We also replace the view-dependent radiance color with a pose-dependent shading factor to better represent surface illumination in different poses. Experiments on multiple human avatars demonstrate that our UVA achieves competitive results in novel view synthesis and novel pose rendering while enabling local and independent editing of geometry and appearance. The source code will be released.
翻訳日:2023-04-17 14:23:54 公開日:2023-04-14
# 皮膚内視鏡的皮膚癌データセットにおけるドメインシフト : 臨床翻訳に必須限度の評価

Domain shifts in dermoscopic skin cancer datasets: Evaluation of essential limitations for clinical translation ( http://arxiv.org/abs/2304.06968v1 )

ライセンス: Link先を確認
Katharina Fogelberg, Sireesha Chamarthi, Roman C. Maron, Julia Niebling, Titus J. Brinker(参考訳) 畳み込みニューラルネットワークによる画像への一般化能力の制限は、特に皮膚内視鏡的皮膚がん分類のような安全性に重要な臨床的タスクに対する大きな制限である。 cnnベースのアプリケーションをクリニックに翻訳するには、彼らがドメインシフトに適応できることが不可欠である。 このような新しい条件は、異なる画像取得システムや様々な照明条件を使用することによって生じる。 皮膚内視鏡では、シフトは患者の年齢の変化や、稀な病変の局在(例えば手のひら)によって起こることもある。 これらはほとんどのトレーニングデータセットで顕著に表現されていないため、パフォーマンスが低下する可能性がある。 実際の臨床現場における分類モデルの一般化性を検証するためには,そのような領域シフトを模倣したデータにアクセスすることが重要である。 私たちの知識では、そのような領域シフトが適切に記述され、定量化されるような、dermoscopic imageデータセットは存在しない。 そこで我々は,isicアーカイブのメタデータ(獲得位置,病変の局在,患者年齢など)に基づいて公開画像を作成し,有意義なドメインを生成する。 これらの領域が実際には異なることを確認するために、複数の定量化尺度を用いて領域シフトの存在度と強度を推定した。 さらに,教師なしのドメイン適応手法を使わずに,これらのドメインの性能を解析した。 グループ化されたドメインのほとんどは、実際にはドメインシフトが存在する。 以上の結果から,これらのデータセットは皮膚内視鏡的皮膚癌分類器の一般化能力の検証に有用であると考えられた。

The limited ability of Convolutional Neural Networks to generalize to images from previously unseen domains is a major limitation, in particular, for safety-critical clinical tasks such as dermoscopic skin cancer classification. In order to translate CNN-based applications into the clinic, it is essential that they are able to adapt to domain shifts. Such new conditions can arise through the use of different image acquisition systems or varying lighting conditions. In dermoscopy, shifts can also occur as a change in patient age or occurence of rare lesion localizations (e.g. palms). These are not prominently represented in most training datasets and can therefore lead to a decrease in performance. In order to verify the generalizability of classification models in real world clinical settings it is crucial to have access to data which mimics such domain shifts. To our knowledge no dermoscopic image dataset exists where such domain shifts are properly described and quantified. We therefore grouped publicly available images from ISIC archive based on their metadata (e.g. acquisition location, lesion localization, patient age) to generate meaningful domains. To verify that these domains are in fact distinct, we used multiple quantification measures to estimate the presence and intensity of domain shifts. Additionally, we analyzed the performance on these domains with and without an unsupervised domain adaptation technique. We observed that in most of our grouped domains, domain shifts in fact exist. Based on our results, we believe these datasets to be helpful for testing the generalization capabilities of dermoscopic skin cancer classifiers.
翻訳日:2023-04-17 14:23:25 公開日:2023-04-14
# 単眼画像からの自己監督学習による深度推定

Self-Supervised Learning based Depth Estimation from Monocular Images ( http://arxiv.org/abs/2304.06966v1 )

ライセンス: Link先を確認
Mayank Poddar, Akash Mishra, Mohit Kewlani and Haoyang Pei(参考訳) 深度推定は、目標追跡、拡張現実、自動運転車といったコンピュータビジョンの分野で広く応用されている。 単眼深度推定の目標は、2次元単眼rgb画像を入力として、深度マップを予測することである。 従来の深さ推定法は深さの手がかりに基づいており、エピポーラ幾何のような概念を用いている。 畳み込みニューラルネットワークの進化により、深度推定は飛躍的な進歩を遂げた。 本研究の目的は,既存のSoTAディープラーニングに基づく深度推定モデルの拡張の可能性を探究し,パフォーマンス指標をさらに改善できるかどうかを検討することである。 より広義には、提案アーキテクチャをさらに強化し、細粒度でよりグローバルな深度マップ予測を提供するため、ポース推定、効率的なサブピクセル畳み込み補間、セマンティックセグメンテーション推定技術を実装する可能性を検討している。 また、トレーニング中にカメラ固有のパラメータを廃止し、天気予報を適用してモデルをさらに一般化する計画である。

Depth Estimation has wide reaching applications in the field of Computer vision such as target tracking, augmented reality, and self-driving cars. The goal of Monocular Depth Estimation is to predict the depth map, given a 2D monocular RGB image as input. The traditional depth estimation methods are based on depth cues and used concepts like epipolar geometry. With the evolution of Convolutional Neural Networks, depth estimation has undergone tremendous strides. In this project, our aim is to explore possible extensions to existing SoTA Deep Learning based Depth Estimation Models and to see whether performance metrics could be further improved. In a broader sense, we are looking at the possibility of implementing Pose Estimation, Efficient Sub-Pixel Convolution Interpolation, Semantic Segmentation Estimation techniques to further enhance our proposed architecture and to provide fine-grained and more globally coherent depth map predictions. We also plan to do away with camera intrinsic parameters during training and apply weather augmentations to further generalize our model.
翻訳日:2023-04-17 14:23:04 公開日:2023-04-14
# ゼロショット常識推論のためのプロンプトエンジニアリングとキャリブレーション

Prompt Engineering and Calibration for Zero-Shot Commonsense Reasoning ( http://arxiv.org/abs/2304.06962v1 )

ライセンス: Link先を確認
Chenkai Ma(参考訳) プロンプトエンジニアリングとキャリブレーションにより、複数の選択コモンセンス推論を含む、大きな言語モデルが推論タスクに優れている。 実践的な観点から、より小さな言語モデルにおけるこれらの戦略を調査し、評価する。 5つのコモンセンス推論ベンチマークの実験を通して、それぞれの戦略が特定のモデルを好むが、それらの共同効果は概ね負である。

Prompt engineering and calibration make large language models excel at reasoning tasks, including multiple choice commonsense reasoning. From a practical perspective, we investigate and evaluate these strategies on smaller language models. Through experiments on five commonsense reasoning benchmarks, we find that each strategy favors certain models, but their joint effects are mostly negative.
翻訳日:2023-04-17 14:22:46 公開日:2023-04-14
# ソフトthresholdingを用いた2層畳み込みニューラルネットワークの凸双対理論解析

Convex Dual Theory Analysis of Two-Layer Convolutional Neural Networks with Soft-Thresholding ( http://arxiv.org/abs/2304.06959v1 )

ライセンス: Link先を確認
Chunyan Xiong, Mengli Lu, Xiaotong Yu, Jian Cao, Zhong Chen, Di Guo, and Xiaobo Qu(参考訳) ソフトスレッショニングはニューラルネットワークで広く使われている。 その基本的なネットワーク構造は、軟弱な2層畳み込みニューラルネットワークである。 ネットワークの非線形性と非凸性の性質から、トレーニングプロセスはネットワークパラメータの適切な初期化に大きく依存しており、グローバルな最適解を得るのが困難である。 この問題を解決するために、凸二重ネットワークが設計されている。 理論上,ネットワーク凸性を分析し,強双対性が成り立つことを数値的に確認する。 この結論は線形フィッティングおよび復調実験でさらに検証される。 この研究は、ソフトthresholdingニューラルネットワークを凸化する新しい方法を提供する。

Soft-thresholding has been widely used in neural networks. Its basic network structure is a two-layer convolution neural network with soft-thresholding. Due to the network's nature of nonlinearity and nonconvexity, the training process heavily depends on an appropriate initialization of network parameters, resulting in the difficulty of obtaining a globally optimal solution. To address this issue, a convex dual network is designed here. We theoretically analyze the network convexity and numerically confirm that the strong duality holds. This conclusion is further verified in the linear fitting and denoising experiments. This work provides a new way to convexify soft-thresholding neural networks.
翻訳日:2023-04-17 14:22:40 公開日:2023-04-14
# 言語理解のための対話ゲーム:モチベーション、分類、戦略

Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy ( http://arxiv.org/abs/2304.07007v1 )

ライセンス: Link先を確認
David Schlangen(参考訳) 言語を理解する能力"をどのように計測するか? どのような形式的テストが適用されたとしても、それは日常的な社会実践における人の言語の使用の背景で行われ、測定されるものは、専門化された言語理解(例えば、第二言語、または書かれた技術的言語)である。 コンピュータプログラムにはこの背景がない。 言語理解の形式的テストの適用性には,どのような意味があるのでしょう? このようなテストは、"人工言語理解"をより包括的に評価するために、プラクティスに埋め込まれた言語使用のテストで補う必要があると思います。 このようなテストを体系的に行うために,言語使用のための状況埋め込みを提供する「対話ゲーム」を構築することを提案する。 対話ゲームタイプの分類を記述し,テスト対象のキャパビライトのモデルと関連づけて,テスト対象の<emph{construct valid}>に対する議論を与える。 私は、分類学の内部構造が、より専門化されたものからより一般的な状況言語理解への命令をいかに示唆するかを示し、この分野の開発に戦略的なガイダンスを提供する可能性があるかを詳しく示します。

How does one measure "ability to understand language"? If it is a person's ability that is being measured, this is a question that almost never poses itself in an unqualified manner: Whatever formal test is applied, it takes place on the background of the person's language use in daily social practice, and what is measured is a specialised variety of language understanding (e.g., of a second language; or of written, technical language). Computer programs do not have this background. What does that mean for the applicability of formal tests of language understanding? I argue that such tests need to be complemented with tests of language use embedded in a practice, to arrive at a more comprehensive evaluation of "artificial language understanding". To do such tests systematically, I propose to use "Dialogue Games" -- constructed activities that provide a situational embedding for language use. I describe a taxonomy of Dialogue Game types, linked to a model of underlying capabilites that are tested, and thereby giving an argument for the \emph{construct validity} of the test. I close with showing how the internal structure of the taxonomy suggests an ordering from more specialised to more general situational language understanding, which potentially can provide some strategic guidance for development in this field.
翻訳日:2023-04-17 14:16:44 公開日:2023-04-14
# 高次元関数時系列における構造破壊の検出と推定

Detection and Estimation of Structural Breaks in High-Dimensional Functional Time Series ( http://arxiv.org/abs/2304.07003v1 )

ライセンス: Link先を確認
Degui Li, Runze Li, Han Lin Shang(参考訳) 本稿では,断面相関と時間依存が許容される高次元関数時系列の不均質平均関数のブレークの検出と推定について検討する。 機能的 CUSUM 統計量とパワーエンハンスメント成分を組み合わせた新しいテスト統計学を, 単一機能時系列に導かれる従来の CUSUM 理論に匹敵する漸近的 null 分布理論を用いて提案する。 特に、余剰電力増強成分は、提案した試験がパワーを持つ領域を拡大し、代替仮説では故障が少ない場合に安定した電力性能をもたらす。 さらに,不均質なブレークポイントを持つ被験者に対して潜在グループ構造を課し,未知のグループ数とメンバシップを一貫して推定する情報基準付き実装容易クラスタリングアルゴリズムを導入する。 推定群構造は、その後、クラスタリング後のブレークポイント推定の収束性を向上させることができる。 モンテカルロシミュレーション研究と経験的応用により,提案手法は有限サンプルで十分に評価できることがわかった。

In this paper, we consider detecting and estimating breaks in heterogeneous mean functions of high-dimensional functional time series which are allowed to be cross-sectionally correlated and temporally dependent. A new test statistic combining the functional CUSUM statistic and power enhancement component is proposed with asymptotic null distribution theory comparable to the conventional CUSUM theory derived for a single functional time series. In particular, the extra power enhancement component enlarges the region where the proposed test has power, and results in stable power performance when breaks are sparse in the alternative hypothesis. Furthermore, we impose a latent group structure on the subjects with heterogeneous break points and introduce an easy-to-implement clustering algorithm with an information criterion to consistently estimate the unknown group number and membership. The estimated group structure can subsequently improve the convergence property of the post-clustering break point estimate. Monte-Carlo simulation studies and empirical applications show that the proposed estimation and testing techniques have satisfactory performance in finite samples.
翻訳日:2023-04-17 14:16:23 公開日:2023-04-14
# SimpLex: 語彙テキストの単純化アーキテクチャ

SimpLex: a lexical text simplification architecture ( http://arxiv.org/abs/2304.07002v1 )

ライセンス: Link先を確認
Ciprian-Octavian Truic\u{a}, Andrei-Ionut Stan, Elena-Simona Apostol(参考訳) text simplification (ts) は、与えられた文やテキストから理解しやすい文を生成するプロセスである。 tsの目的は、意味やニュアンスを失うことなく、与えられたテキストや文の語彙的(語彙の複雑さと意味)と構文的複雑さ(文構造を意味する)の両方を減らすことである。 本稿では,単純化された英語文を生成するための新しい単純化アーキテクチャである \textsc{simplex} を提案する。 簡単な文を生成するために、提案アーキテクチャでは単語埋め込み(Word2Vec)とパープレキシティ、文変換器(BERT, RoBERTa, GPT2)とコサイン類似性を利用する。 このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。 我々は,SARIとPerplexity Decreaseの2つの指標を用いてシステムを評価する。 実験により, 変圧器モデルはSARIスコアにおいて他のモデルよりも優れていた。 しかし、パープレキシティの面では、単語埋め込みベースのモデルが最も減少する。 そこで本研究では,(1)テキスト簡易化のための新しい単語埋め込みおよびトランスフォーマーアルゴリズムを提案し,(2)さらなる研究のためのベースラインを提供するモジュール型新規テキスト簡易化システムである \textsc{simplex} を設計し,(3)ソリューションの詳細な分析を行い,その結果をlightls [19] と nts-w2v [44] という2つの最先端モデルと比較した。 コードをオンラインで公開しています。

Text simplification (TS) is the process of generating easy-to-understand sentences from a given sentence or piece of text. The aim of TS is to reduce both the lexical (which refers to vocabulary complexity and meaning) and syntactic (which refers to the sentence structure) complexity of a given text or sentence without the loss of meaning or nuance. In this paper, we present \textsc{SimpLex}, a novel simplification architecture for generating simplified English sentences. To generate a simplified sentence, the proposed architecture uses either word embeddings (i.e., Word2Vec) and perplexity, or sentence transformers (i.e., BERT, RoBERTa, and GPT2) and cosine similarity. The solution is incorporated into a user-friendly and simple-to-use software. We evaluate our system using two metrics, i.e., SARI, and Perplexity Decrease. Experimentally, we observe that the transformer models outperform the other models in terms of the SARI score. However, in terms of Perplexity, the Word-Embeddings-based models achieve the biggest decrease. Thus, the main contributions of this paper are: (1) We propose a new Word Embedding and Transformer based algorithm for text simplification; (2) We design \textsc{SimpLex} -- a modular novel text simplification system -- that can provide a baseline for further research; and (3) We perform an in-depth analysis of our solution and compare our results with two state-of-the-art models, i.e., LightLS [19] and NTS-w2v [44]. We also make the code publicly available online.
翻訳日:2023-04-17 14:16:06 公開日:2023-04-14
# 重力による絡み合いに対する電磁的類似性の実装

Implementation of electromagnetic analogy to gravity mediated entanglement ( http://arxiv.org/abs/2304.06996v1 )

ライセンス: Link先を確認
Ji Bian, Teng Liu, Pengfei Lu, Qifeng Lao, Xinxin Rao, Feng Zhu, Yang Liu, Le Luo(参考訳) 近年,2つの系が重力場との局所的相互作用によって絡み合っている場合,この場は量子である必要があるという仮定から,量子情報技術を用いて重力を媒介する絡み合い(gme)を測定する実験が提案されている。 GMEから何を引き出すかについては議論があるが、量子シミュレーションはいくつかの明確化をもたらすかもしれない。 ここでは、単一原子中の電子と核間の磁場媒介相互作用を用いたGMEの電磁異方性を示す。 本研究は,GME実験の一般的な手順の実装に成功し,メディア分野が平均フィールド記述をサポートしていないことを確認した。 また、光交差時間を考慮することなく、GME実験は量子場理論の記述と量子制御古典場の記述を区別しない。 さらに, 1つの原子に2量子ビット系を構築する新しい方法を提案し, 物質量子ビットを用いたgmeの最初の量子シミュレーションを提供する。 光交差時間のスケールで将来のGME実験を思いつくのに役立ちます。

Recently, experiments aimed at measuring gravity mediated entanglement (GME) using quantum information techniques have been proposed, based on the assumption that if two systems get entangled through local interactions with gravitational field, then this field must be quantum. While there is a debate about what could be drawn from GME, quantum simulation might provide some clarification. Here, we present electromagnetic analogy of GME using magnetic-field mediated interaction between the electron and nucleus in a single atom. Our work successfully implements the general procedures of GME experiments and confirms that the mediating field does not support the mean-field description. It also clarifies that, without considering the light-crossing time, the GME experiment would not distinguish a quantum-field-theory description from a quantum-controlled classical field one. Furthermore, this work provides a novel method to construct two-qubit systems in a single atom, and providing the first quantum simulation of GME using material qubits. It helps to conceive the future GME experiments on the scale of light-crossing time.
翻訳日:2023-04-17 14:15:35 公開日:2023-04-14
# ベイズ漸近法によるギブス試料の複雑度

Complexity of Gibbs samplers through Bayesian asymptotics ( http://arxiv.org/abs/2304.06993v1 )

ライセンス: Link先を確認
Filippo Ascolani and Giacomo Zanella(参考訳) ギブズサンプリングはベイズ階層モデルから生じる後続分布を近似する一般的なアルゴリズムである。 しかし、その人気と優れた経験的性能にもかかわらず、その拡張性や欠如について、例えば勾配に基づくサンプリング法よりもはるかに少ない定量的な結果はほとんどない。 本稿では,ベイズ症状のツールを用いたギブス・サンプラーの混合時間の漸近挙動の解析手法を提案する。 本手法を高次元階層モデルに適用し,確率的データ生成仮定の下でgibbsサンプラーの次元自由収束結果を得た。 ガウス的、二項的、カテゴリー的可能性に関する具体例を論じる。

Gibbs samplers are popular algorithms to approximate posterior distributions arising from Bayesian hierarchical models. Despite their popularity and good empirical performances, however, there are still relatively few quantitative theoretical results on their scalability or lack thereof, e.g. much less than for gradient-based sampling methods. We introduce a novel technique to analyse the asymptotic behaviour of mixing times of Gibbs Samplers, based on tools of Bayesian asymptotics. We apply our methodology to high dimensional hierarchical models, obtaining dimension-free convergence results for Gibbs samplers under random data-generating assumptions, for a broad class of two-level models with generic likelihood function. Specific examples with Gaussian, binomial and categorical likelihoods are discussed.
翻訳日:2023-04-17 14:15:16 公開日:2023-04-14
# 教師なしANNベースの等化器とそのFPGA実装

Unsupervised ANN-Based Equalizer and Its Trainable FPGA Implementation ( http://arxiv.org/abs/2304.06987v1 )

ライセンス: Link先を確認
Jonas Ney, Vincent Lauinger, Laurent Schmalen, Norbert Wehn(参考訳) 近年、コミュニケーションエンジニアは、システムとそのコンポーネントの柔軟性と自律性を高めることを目的として、人工知能(ANN)ベースのアルゴリズムに重点を置いている。 この文脈では、パイロットシンボルを送信するオーバーヘッドなしに適応できるため、教師なしの訓練は特に興味深い。 本研究では、新しいANNベースの教師なし等化器とそのトレーニング可能なフィールドプログラマブルゲートアレイ(FPGA)の実装を提案する。 我々のカスタム損失関数は、ANNが様々なチャネル条件に適応し、教師付きベースラインの性能に近づくことを実証する。 さらに,実用的な通信システムに向けた第一歩として,提案アルゴリズムのFPGAによる効率的な実装を設計し,Gbit/sの順番でスループットを達成し,高性能GPUよりも大きなマージンで性能を向上する。

In recent years, communication engineers put strong emphasis on artificial neural network (ANN)-based algorithms with the aim of increasing the flexibility and autonomy of the system and its components. In this context, unsupervised training is of special interest as it enables adaptation without the overhead of transmitting pilot symbols. In this work, we present a novel ANN-based, unsupervised equalizer and its trainable field programmable gate array (FPGA) implementation. We demonstrate that our custom loss function allows the ANN to adapt for varying channel conditions, approaching the performance of a supervised baseline. Furthermore, as a first step towards a practical communication system, we design an efficient FPGA implementation of our proposed algorithm, which achieves a throughput in the order of Gbit/s, outperforming a high-performance GPU by a large margin.
翻訳日:2023-04-17 14:15:03 公開日:2023-04-14
# 熱原子集合体の例外点の観測

Observation of Exceptional Points in Thermal Atomic Ensembles ( http://arxiv.org/abs/2304.06985v1 )

ライセンス: Link先を確認
Chao Liang and Yuanjiang Tang and An-Ning Xu and Yong-Chun Liu(参考訳) 非エルミート系における例外点(EPs)は近年広く関心を集めており、高感度化に向けた興味深い展望を生み出している。 しかし、EPは、量子センシングの最も重要なプラットフォームの一つである熱原子アンサンブルではまだ実現されていない。 ここでは,多層熱原子アンサンブル中のEPを実験的に観察し,一桁の磁場の高感度センシングを実現する。 我々は、原子の豊富なエネルギー準位を生かし、励起状態とレーザーカップリングして、異なるエネルギー準位に対して不均衡な崩壊率をもたらすことにより、選択されたエネルギー準位に対して効果的な崩壊を構築する。 さらに,吸収特性と分散特性を両立させた共振ピークの分離を検出するための光偏光回転測定法を提案し,従来の伝送計測法に比べて分割の増大が有利であることを示す。 また, 本システムでは, 効果的な結合強度と減衰速度は柔軟に調整可能であり, epの位置は調整可能であり, 測定範囲を拡大する。 我々の研究は、EPと非エルミート物理学を研究するための新しい制御可能なプラットフォームを提供するだけでなく、EP強化センサーの設計のための新しいアイデアを提供し、磁場やその他の物理量の高精度センシングにおける実践的応用のための現実的な機会を開く。

Exceptional points (EPs) in non-Hermitian systems have recently attracted wide interests and spawned intriguing prospects for enhanced sensing. However, EPs have not yet been realized in thermal atomic ensembles, which is one of the most important platforms for quantum sensing. Here we experimentally observe EPs in multi-level thermal atomic ensembles, and realize enhanced sensing of magnetic field for one order of magnitude. We take advantage of the rich energy levels of atoms and construct effective decays for selected energy levels by employing laser coupling with the excited state, yielding unbalanced decay rates for different energy levels, which finally results in the existence of EPs. Furthermore, we propose the optical polarization rotation measurement scheme to detect the splitting of the resonance peaks, which makes use of both the absorption and dispersion properties, and shows advantage with enhanced splitting compared with the conventional transmission measurement scheme. Besides, in our system both the effective coupling strength and decay rates are flexibly adjustable, and thus the position of the EPs are tunable, which expands the measurement range. Our work not only provides a new controllable platform for studying EPs and non-Hermitian physics, but also provide new ideas for the design of EP-enhanced sensors and opens up realistic opportunities for practical applications in the high-precision sensing of magnetic field and other physical quantities.
翻訳日:2023-04-17 14:14:48 公開日:2023-04-14
# バイトシーケンスはイメージである:ビットシフトとn-Gram埋め込みを用いたファイルフラグメント分類のためのCNN

A Byte Sequence is Worth an Image: CNN for File Fragment Classification Using Bit Shift and n-Gram Embeddings ( http://arxiv.org/abs/2304.06983v1 )

ライセンス: Link先を確認
Wenyang Liu, Yi Wang, Kejun Wu, Kim-Hui Yap and Lap-Pui Chau(参考訳) メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。 既存の方法は主にファイルフラグメントを1dバイト信号として扱い、キャプチャされたバイト間特徴を分類に利用するが、バイト内のビット情報(バイト内情報)はめったに考慮されない。 これは本質的に、シンボルがビットの可変数として表される可変長の符号化ファイルの分類に不適応である。 逆に,新しいデータ拡張手法であるByte2Imageを提案し,ファイルフラグメントに無視されたバイト内情報を2dグレースケールの画像として再処理することで,強力な畳み込みニューラルネットワーク(CNN)によって,バイト間相関とバイト内相関を同時に捉えることができる。 具体的には,ファイルフラグメントを2次元画像に変換するためにスライディングバイトウィンドウを用いて,無視したバイト内情報を公開し,n-gramの特徴を行単位で積み重ねる。 さらに、生の1dバイトシーケンスと変換された2dイメージを併用してFFCを行うことができる分類器としてバイトシーケンス \&画像融合ネットワークを提案する。 FFT-75データセットを用いた実験により,提案手法がほぼすべてのシナリオにおいて最先端手法に対して顕著な精度向上を達成できることを確認した。 コードはhttps://github.com/wenyang001/byte2imageでリリースされる。

File fragment classification (FFC) on small chunks of memory is essential in memory forensics and Internet security. Existing methods mainly treat file fragments as 1d byte signals and utilize the captured inter-byte features for classification, while the bit information within bytes, i.e., intra-byte information, is seldom considered. This is inherently inapt for classifying variable-length coding files whose symbols are represented as the variable number of bits. Conversely, we propose Byte2Image, a novel data augmentation technique, to introduce the neglected intra-byte information into file fragments and re-treat them as 2d gray-scale images, which allows us to capture both inter-byte and intra-byte correlations simultaneously through powerful convolutional neural networks (CNNs). Specifically, to convert file fragments to 2d images, we employ a sliding byte window to expose the neglected intra-byte information and stack their n-gram features row by row. We further propose a byte sequence \& image fusion network as a classifier, which can jointly model the raw 1d byte sequence and the converted 2d image to perform FFC. Experiments on FFT-75 dataset validate that our proposed method can achieve notable accuracy improvements over state-of-the-art methods in nearly all scenarios. The code will be released at https://github.com/wenyang001/Byte2Image.
翻訳日:2023-04-17 14:14:25 公開日:2023-04-14
# QNEAT: 変分量子回路アーキテクチャの自然進化

QNEAT: Natural Evolution of Variational Quantum Circuit Architecture ( http://arxiv.org/abs/2304.06981v1 )

ライセンス: Link先を確認
Alessandro Giovagnoli, Yunpu Ma, Volker Tresp(参考訳) 量子機械学習(Quantum Machine Learning, QML)は、量子力学の理論的枠組みと論理が機械学習の課題を解決するために用いられる、近年急速に進化している分野である。 量子古典的ハイブリダイゼーションのレベルが異なる様々な技術が提案されている。 ここでは、ノイズの多い中間スケール量子(NISQ)時代に、ニューラルネットワークの量子対する最も有望な候補として登場した変分量子回路(VQC)に焦点を当てる。 有望な結果を示す一方で、バレン高原、重みの周期性、アーキテクチャの選択といった様々な問題のために、VQCのトレーニングは困難である。 本稿では,様々なタスクにおける変分量子回路の最適アーキテクチャを求める最後の問題に着目する。 そこで本研究では,vqcの重みと構造を最適化するために,自然進化に触発された勾配フリーアルゴリズムを提案する。 特に、増大トポロジ(NEAT)アルゴリズムのよく知られた神経進化のバージョンを示し、変動量子回路の場合に適用する。 本稿では,VQCのアーキテクチャ探索アルゴリズムをQNEATと呼ぶ。 機械学習の古典的分野、すなわち強化学習と組合せ最適化の異なるベンチマーク問題を用いてアルゴリズムをテストする。

Quantum Machine Learning (QML) is a recent and rapidly evolving field where the theoretical framework and logic of quantum mechanics are employed to solve machine learning tasks. Various techniques with different levels of quantum-classical hybridization have been proposed. Here we focus on variational quantum circuits (VQC), which emerged as the most promising candidates for the quantum counterpart of neural networks in the noisy intermediate-scale quantum (NISQ) era. Although showing promising results, VQCs can be hard to train because of different issues, e.g., barren plateau, periodicity of the weights, or choice of architecture. This paper focuses on this last problem for finding optimal architectures of variational quantum circuits for various tasks. To address it, we propose a gradient-free algorithm inspired by natural evolution to optimize both the weights and the architecture of the VQC. In particular, we present a version of the well-known neuroevolution of augmenting topologies (NEAT) algorithm and adapt it to the case of variational quantum circuits. We refer to the proposed architecture search algorithm for VQC as QNEAT. We test the algorithm with different benchmark problems of classical fields of machine learning i.e. reinforcement learning and combinatorial optimization.
翻訳日:2023-04-17 14:13:43 公開日:2023-04-14
# DeePoint: 固定ビューからのポイント認識と方向推定

DeePoint: Pointing Recognition and Direction Estimation From A Fixed View ( http://arxiv.org/abs/2304.06977v1 )

ライセンス: Link先を確認
Shu Nakamura, Yasutomo Kawanishi, Shohei Nobuhara, Ko Nishino(参考訳) 本稿では,ポインティングの自動視覚認識と方向推定を実現する。 2つの重要な貢献に基づく最初のニューラルポインティング理解手法を提案する。 ひとつは,私たちがdpデータセットと呼ぶ,認識と方向推定を指さすための,初歩的な大規模データセットの導入です。 DP Datasetは、33人以上からなる200万フレーム以上で構成され、各フレームにアノテートされた様々なスタイルを指し、タイミングと3D方向を指示する。 第二のdeepointは、関節認識のための新しいディープネットワークモデルであり、ポインティングの3次元方向推定である。 DeePointはトランスフォーマーベースのネットワークで、手だけでなく身体部分の時空間的調整を完全に活用している。 広範な実験を通じて,deepointの精度と効率を実証する。 DP DatasetとDeePointは、視覚的人間の意図を理解するための健全な基盤になると思います。

In this paper, we realize automatic visual recognition and direction estimation of pointing. We introduce the first neural pointing understanding method based on two key contributions. The first is the introduction of a first-of-its-kind large-scale dataset for pointing recognition and direction estimation, which we refer to as the DP Dataset. DP Dataset consists of more than 2 million frames of over 33 people pointing in various styles annotated for each frame with pointing timings and 3D directions. The second is DeePoint, a novel deep network model for joint recognition and 3D direction estimation of pointing. DeePoint is a Transformer-based network which fully leverages the spatio-temporal coordination of the body parts, not just the hands. Through extensive experiments, we demonstrate the accuracy and efficiency of DeePoint. We believe DP Dataset and DeePoint will serve as a sound foundation for visual human intention understanding.
翻訳日:2023-04-17 14:13:07 公開日:2023-04-14
# 胎児超音波映像の品質自動評価のための階層的エージェントベース強化学習フレームワーク

Hierarchical Agent-based Reinforcement Learning Framework for Automated Quality Assessment of Fetal Ultrasound Video ( http://arxiv.org/abs/2304.07036v1 )

ライセンス: Link先を確認
Sijing Liu, Qilong Ying, Shuangchi He, Xin Yang, Dong Ni, Ruobing Huang(参考訳) 超音波は妊娠中の胎児の成長を観察する主要な手段であり、画像品質は様々な要因によって影響を受ける可能性がある。 超音波画像の品質管理には、知覚値と診断値の両方を保証するために品質評価が不可欠である。 既存の自動化アプローチは、しばしば重い構造的アノテーションを必要とし、予測は必ずしも人間の専門家による評価結果と一致しないかもしれない。 さらに、スキャンの全体的な品質とフレームの品質の相関性を見落としてはいけない。 本研究では,フレームレベルとビデオレベルの両方の品質評価を協調的に行う2つの階層エージェントによる強化学習フレームワークを提案する。 フレーム品質間の時間依存性を考慮した特別に設計された報酬機構を備えており、トレーニングには疎いバイナリアノテーションが必要である。 胎児脳データセットにおける実験結果から,提案手法は2段階品質評価が可能であり,その予測は主観的評価結果と良好に相関することを確認した。

Ultrasound is the primary modality to examine fetal growth during pregnancy, while the image quality could be affected by various factors. Quality assessment is essential for controlling the quality of ultrasound images to guarantee both the perceptual and diagnostic values. Existing automated approaches often require heavy structural annotations and the predictions may not necessarily be consistent with the assessment results by human experts. Furthermore, the overall quality of a scan and the correlation between the quality of frames should not be overlooked. In this work, we propose a reinforcement learning framework powered by two hierarchical agents that collaboratively learn to perform both frame-level and video-level quality assessments. It is equipped with a specially-designed reward mechanism that considers temporal dependency among frame quality and only requires sparse binary annotations to train. Experimental results on a challenging fetal brain dataset verify that the proposed framework could perform dual-level quality assessment and its predictions correlate well with the subjective assessment results.
翻訳日:2023-04-17 14:08:17 公開日:2023-04-14
# 熱画像のための分光移動誘導アクティブドメイン適応

Spectral Transfer Guided Active Domain Adaptation For Thermal Imagery ( http://arxiv.org/abs/2304.07031v1 )

ライセンス: Link先を確認
Berkcan Ustun, Ahmet Kagan Kaya, Ezgi Cakir Ayerden, Fazil Altinel(参考訳) 可視スペクトルデータセットの活用により、ディープネットワークは目覚ましい成功を収めた。 しかし、実際のタスクには、大規模なRGBイメージデータセットでトレーニングされたモデルのパフォーマンスボトルネックを引き起こす低照度条件が含まれる。 熱赤外線カメラはそのような条件に対してより堅牢である。 したがって,実世界における熱画像の利用は有用である。 unsupervised domain adaptation(uda)は、ソースドメインから完全にラベルなしのターゲットドメインへの情報転送を可能にする。 UDAは大幅に改善されているが、UDAと教師付き学習の差は依然として大きい。 少数のターゲットサンプルを選択してアノテーションをトレーニングに使用することで、アクティブドメイン適応は最小限のアノテーションコストでこのギャップを緩和しようとする。 本研究では,可視スペクトルと熱画像のモダリティを組み合わせる効率を検討するために,アクティブドメイン適応法を提案する。 ドメインギャップが可視-熱的タスクのようにかなり大きい場合、明示的なドメインアライメントを持たないメソッドは、その全ポテンシャルを達成できないと結論付けることができる。 そこで本研究では,ソースドメインとターゲットドメインを整列させながら,最も情報に富んだ未ラベルのターゲットサンプルを選択するためのスペクトル転送誘導アクティブドメイン適応手法を提案する。 大規模可視スペクトルデータセットMS-COCOをソース領域として,熱データセットFLIR ADASをターゲット領域として,本手法の結果を示した。 実験により,提案手法は最先端のアクティブドメイン適応法よりも優れた性能を示した。 コードとモデルは公開されている。

The exploitation of visible spectrum datasets has led deep networks to show remarkable success. However, real-world tasks include low-lighting conditions which arise performance bottlenecks for models trained on large-scale RGB image datasets. Thermal IR cameras are more robust against such conditions. Therefore, the usage of thermal imagery in real-world applications can be useful. Unsupervised domain adaptation (UDA) allows transferring information from a source domain to a fully unlabeled target domain. Despite substantial improvements in UDA, the performance gap between UDA and its supervised learning counterpart remains significant. By picking a small number of target samples to annotate and using them in training, active domain adaptation tries to mitigate this gap with minimum annotation expense. We propose an active domain adaptation method in order to examine the efficiency of combining the visible spectrum and thermal imagery modalities. When the domain gap is considerably large as in the visible-to-thermal task, we may conclude that the methods without explicit domain alignment cannot achieve their full potential. To this end, we propose a spectral transfer guided active domain adaptation method to select the most informative unlabeled target samples while aligning source and target domains. We used the large-scale visible spectrum dataset MS-COCO as the source domain and the thermal dataset FLIR ADAS as the target domain to present the results of our method. Extensive experimental evaluation demonstrates that our proposed method outperforms the state-of-the-art active domain adaptation methods. The code and models are publicly available.
翻訳日:2023-04-17 14:08:00 公開日:2023-04-14
# fairrec: 深いレコメンデーションシステムのためのフェアネステスト

FairRec: Fairness Testing for Deep Recommender Systems ( http://arxiv.org/abs/2304.07030v1 )

ライセンス: Link先を確認
Huizhong Guo, Jinfeng Li, Jingyi Wang, Xiangyu Liu, Dongxia Wang, Zehong Hu, Rong Zhang and Hui Xue(参考訳) ディープラーニングベースのレコメンデータシステム(DRS)は、業界にますます広く導入され、人々の日常生活に様々な方法で大きな利便性をもたらす。 しかし、レコメンダシステムは、例えばエコーチャンバーやマシュー効果といった、"フェアネス"という表記が中心的な役割を担う複数の問題に悩まされることも示されており、多くのフェアネス表記法やそれに対応するフェアネス試験法が従来の深層分類モデルで開発されているが、基本的にはDSSには適用できない。 最大の難点は、既存のフェアネス表記法と、より深い推奨システムに対する多様なテスト要件との間には、まだ体系的な理解とマッピングが欠けていることです。 このギャップに対処するため、FairRecは複数のカスタマイズされた視点、例えばモデルユーティリティ、アイテムの多様性、アイテムの人気度などから、DSSの公平性テストをサポートする統合フレームワークである。 また,新しい課題,すなわちdpso(double-ended discrete particle swarm optimization)アルゴリズムに対処し,多数の候補グループから特定の不利なグループによって隠れた公正問題を効果的に探索するための,新しい効率的な検索ベーステスト手法を提案する。 テスト報告から,これらの不利なグループに対する簡易な緩和戦略を採用することで,DSSの公平性を大幅に改善できることが示唆された。 大手企業が採用する複数の業界レベルのDSSについて広範な実験を行った。 その結果、FairRecは、例えば95%のテスト精度を半分から1/8時間で達成するなど、深く隠された公平性の問題を特定するのに効果的で効率的であることが確認された。

Deep learning-based recommender systems (DRSs) are increasingly and widely deployed in the industry, which brings significant convenience to people's daily life in different ways. However, recommender systems are also shown to suffer from multiple issues,e.g., the echo chamber and the Matthew effect, of which the notation of "fairness" plays a core role.While many fairness notations and corresponding fairness testing approaches have been developed for traditional deep classification models, they are essentially hardly applicable to DRSs. One major difficulty is that there still lacks a systematic understanding and mapping between the existing fairness notations and the diverse testing requirements for deep recommender systems, not to mention further testing or debugging activities. To address the gap, we propose FairRec, a unified framework that supports fairness testing of DRSs from multiple customized perspectives, e.g., model utility, item diversity, item popularity, etc. We also propose a novel, efficient search-based testing approach to tackle the new challenge, i.e., double-ended discrete particle swarm optimization (DPSO) algorithm, to effectively search for hidden fairness issues in the form of certain disadvantaged groups from a vast number of candidate groups. Given the testing report, by adopting a simple re-ranking mitigation strategy on these identified disadvantaged groups, we show that the fairness of DRSs can be significantly improved. We conducted extensive experiments on multiple industry-level DRSs adopted by leading companies. The results confirm that FairRec is effective and efficient in identifying the deeply hidden fairness issues, e.g., achieving 95% testing accuracy with half to 1/8 time.
翻訳日:2023-04-17 14:07:35 公開日:2023-04-14
# 気候システムの深層学習に基づくデジタル双生児の長期不安定性:原因と解決法

Long-term instabilities of deep learning-based digital twins of the climate system: The cause and a solution ( http://arxiv.org/abs/2304.07029v1 )

ライセンス: Link先を確認
Ashesh Chattopadhyay and Pedram Hassanzadeh(参考訳) 長期安定は、深層学習に基づくデータ駆動型デジタル双生児にとって重要な特性である。 このようなデータ駆動型デジタル双生児は、季節的および季節的な極端な環境事象の予測、多数のアンサンブルメンバーを必要とする確率的予測、および高価なモデルの部品を安価なデータ駆動サロゲートに置き換えることができる計算可能な高分解能地球系モデルを可能にする。 計算コストのため、物理学ベースのデジタルツインは長期安定しているが、リアルタイムな意思決定には難解である。 データ駆動デジタル双子は、より安価な代替手段を提供し、リアルタイムの予測を提供する。 しかし、このようなデジタル双生児は20日以上経つと不安定になるため、短期的な予測を精度良く行うことができる。 現在、不安定の原因は不明であり、安定性の地平線を改善するために用いられる手法はアドホックであり、厳密な理論を欠いている。 本稿では, 乱流におけるこれらの不安定性の普遍的因果メカニズムが, 大規模力学のみを学習し, 小スケールを完全に無視するために, 深層学習アーキテクチャに偏りが生じることを明らかにする。 さらに, 乱流物理学と深層学習に基づく時間積分器の収束の欠如が, このバイアスを増幅し, 不安定な誤差伝播をもたらすことを解明した。 最後に, 準ゲノゾルフローとECMWFリアナリシスデータをテストケースとして, 深層学習理論と基本数値解析のギャップを埋めて, そのような不安定性に対する1つの緩和解を提案する。 気候システムのための長期安定なデータ駆動型デジタルツインを開発し、正確な短期予測を示し、数百年間の長期安定な時間積分と正確な平均と変動性を示す。

Long-term stability is a critical property for deep learning-based data-driven digital twins of the Earth system. Such data-driven digital twins enable sub-seasonal and seasonal predictions of extreme environmental events, probabilistic forecasts, that require a large number of ensemble members, and computationally tractable high-resolution Earth system models where expensive components of the models can be replaced with cheaper data-driven surrogates. Owing to computational cost, physics-based digital twins, though long-term stable, are intractable for real-time decision-making. Data-driven digital twins offer a cheaper alternative to them and can provide real-time predictions. However, such digital twins can only provide short-term forecasts accurately since they become unstable when time-integrated beyond 20 days. Currently, the cause of the instabilities is unknown, and the methods that are used to improve their stability horizons are ad-hoc and lack rigorous theory. In this paper, we reveal that the universal causal mechanism for these instabilities in any turbulent flow is due to \textit{spectral bias} wherein, \textit{any} deep learning architecture is biased to learn only the large-scale dynamics and ignores the small scales completely. We further elucidate how turbulence physics and the absence of convergence in deep learning-based time-integrators amplify this bias leading to unstable error propagation. Finally, using the quasigeostrophic flow and ECMWF Reanalysis data as test cases, we bridge the gap between deep learning theory and fundamental numerical analysis to propose one mitigative solution to such instabilities. We develop long-term stable data-driven digital twins for the climate system and demonstrate accurate short-term forecasts, and hundreds of years of long-term stable time-integration with accurate mean and variability.
翻訳日:2023-04-17 14:07:04 公開日:2023-04-14
# 連続時間リカレントニューラルネットワーク : 集中治療室における血糖値予測の概観と応用

Continuous time recurrent neural networks: overview and application to forecasting blood glucose in the intensive care unit ( http://arxiv.org/abs/2304.07025v1 )

ライセンス: Link先を確認
Oisin Fitzgerald, Oscar Perez-Concha, Blanca Gallego-Luxan, Alejandro Metke-Jimenez, Lachlan Rudd, Louisa Jorm(参考訳) 不規則に測定された時系列は、医療を含む重要な統計ツールである時系列モデリングを応用した多くの分野で一般的である。 これはモデル選択の課題をもたらし、しばしばインプテーションや同様の戦略を必要とする。 連続時間自己回帰型リカレントニューラルネットワーク(ctrnn)は、観測間の隠れた状態の連続的な進化を組み込んだ不規則な観測を考慮に入れるディープラーニングモデルである。 これは、neural ordinary differential equation(ode)またはneural flow layerを使用して達成される。 本稿では,現在進行中の医療介入などの問題を考慮に入れた様々なアーキテクチャを含む,これらのモデルの概要を紹介する。 さらに,これらのモデルを用いて,電子カルテとシミュレーションデータを用いて,クリティカルケア環境における血糖値の確率的予測を行う。 実験により、ニューラルネットワークまたはニューラルフロー層の追加は、不規則な測定環境での自己回帰リカレントニューラルネットワークの性能を改善することが確認された。 しかし、CTRNNアーキテクチャは、連続的なランク付け確率スコア(ODE-LSTM: 0.118$\pm$0.001; Catboost: 0.118$\pm$0.001)、無知スコア(0.152$\pm$0.008; 0.149$\pm$0.002)、区間スコア(175$\pm$1; 176$\pm$0.002)などの確率予測指標に匹敵する性能を達成する、長い短期記憶(LSTM)とニューラルODEベースアーキテクチャ(ODE-LSTM)の2つしか持たない自己回帰勾配強化ツリーモデル(Catboost)により、性能が向上する。

Irregularly measured time series are common in many of the applied settings in which time series modelling is a key statistical tool, including medicine. This provides challenges in model choice, often necessitating imputation or similar strategies. Continuous time autoregressive recurrent neural networks (CTRNNs) are a deep learning model that account for irregular observations through incorporating continuous evolution of the hidden states between observations. This is achieved using a neural ordinary differential equation (ODE) or neural flow layer. In this manuscript, we give an overview of these models, including the varying architectures that have been proposed to account for issues such as ongoing medical interventions. Further, we demonstrate the application of these models to probabilistic forecasting of blood glucose in a critical care setting using electronic medical record and simulated data. The experiments confirm that addition of a neural ODE or neural flow layer generally improves the performance of autoregressive recurrent neural networks in the irregular measurement setting. However, several CTRNN architecture are outperformed by an autoregressive gradient boosted tree model (Catboost), with only a long short-term memory (LSTM) and neural ODE based architecture (ODE-LSTM) achieving comparable performance on probabilistic forecasting metrics such as the continuous ranked probability score (ODE-LSTM: 0.118$\pm$0.001; Catboost: 0.118$\pm$0.001), ignorance score (0.152$\pm$0.008; 0.149$\pm$0.002) and interval score (175$\pm$1; 176$\pm$1).
翻訳日:2023-04-17 14:06:32 公開日:2023-04-14
# 複数ラベルテキスト分類のためのラベル依存型セット予測ネットワーク

Label Dependencies-aware Set Prediction Networks for Multi-label Text Classification ( http://arxiv.org/abs/2304.07022v1 )

ライセンス: Link先を確認
Han Quanjie, Du Xinkai, Sun Yalin, Lv Chao(参考訳) マルチラベルテキスト分類は、シーケンス生成問題とみなすことができる文から関連するすべてのラベルを抽出することを目的としている。 しかし、トレーニングデータセットのラベルは未注文である。 我々は、直接セット予測問題として扱うことを提案し、ラベルの順序を考慮する必要はない。 また,ラベル間の相関をモデル化するために,ラベル間の統計的関係を利用して隣接行列を構築し,GCNを用いてラベル情報を学習する。 学習したラベル情報に基づいて、設定された予測ネットワークは、文情報とラベル情報の両方を同時にマルチラベルテキスト分類に利用することができる。 さらに、設定された予測ネットワークの出力確率分布にバッタリア距離を課し、リコール能力を高める。 4つのマルチラベルデータセットにおける実験結果は,提案手法の有効性を示し,従来の手法をかなりのマージンで上回った。

Multi-label text classification aims to extract all the related labels from a sentence, which can be viewed as a sequence generation problem. However, the labels in training dataset are unordered. We propose to treat it as a direct set prediction problem and don't need to consider the order of labels. Besides, in order to model the correlation between labels, the adjacency matrix is constructed through the statistical relations between labels and GCN is employed to learn the label information. Based on the learned label information, the set prediction networks can both utilize the sentence information and label information for multi-label text classification simultaneously. Furthermore, the Bhattacharyya distance is imposed on the output probability distributions of the set prediction networks to increase the recall ability. Experimental results on four multi-label datasets show the effectiveness of the proposed method and it outperforms previous method a substantial margin.
翻訳日:2023-04-17 14:05:52 公開日:2023-04-14
# オペレーショナル量子フレーム:量子参照フレームに対する操作的アプローチ

Operational Quantum Frames: An operational approach to quantum reference frames ( http://arxiv.org/abs/2304.07021v1 )

ライセンス: Link先を確認
Jan G{\l}owacki(参考訳) 量子参照フレームプログラムは、参照フレームを量子物理システムとして扱うべきだという考えに基づいている。 本研究では,これらの知見と運用性を重視し,測定結果の原理的検証可能な確率に直接関係しないフレームワークオブジェクトへの導入を控えた上で,その設定を区別できないものと捉えた。 Based on intuitions from special relativity and gauge theory, we introduce an operational notion of a quantum reference frame -- which is defined as a quantum system equipped with a covariant positive operator-valued measure (POVM) -- and build a framework on the concept of operational equivalence that allows us to enforce operationality by quotienting the quantum state spaces with equivalence relation of indistinguishability by the available effects, assumed to be invariant under gauge transformations, and framed in the sense of respecting the choice of the frame's POVM. このような効果は円構成を通じてアクセスされ、ゲージ不変性とフレーミングを満足し、システムへの影響を複合システムへの影響にマッピングする。 それらは相対状態と呼ばれ、それらによって区別できない状態のクラスは相対状態と呼ばれる。 フレームが局所化可能であるとき、つまり、フレームの可観測性の非常に局所化された確率分布を生じさせる状態に対して、そのような局所化フレーム準備の相対的記述を制限することにより、量子力学の通常の非関係形式性を回復できることを示す。 フレーム交換マップを用いて、異なる相対的記述間の一貫した翻訳方法を提供し、これらを他のQRF手法における対応する概念と比較し、共通適用性領域における運用上の合意を確立する。

The quantum reference frames program is based on the idea that reference frames should be treated as quantum physical systems. In this work, we combine these insights with the emphasis on operationality, understood as refraining from introducing into the framework objects not directly related to in principle verifiable probabilities of measurement outcomes, and identifying the setups indistinguishable as such. Based on intuitions from special relativity and gauge theory, we introduce an operational notion of a quantum reference frame -- which is defined as a quantum system equipped with a covariant positive operator-valued measure (POVM) -- and build a framework on the concept of operational equivalence that allows us to enforce operationality by quotienting the quantum state spaces with equivalence relation of indistinguishability by the available effects, assumed to be invariant under gauge transformations, and framed in the sense of respecting the choice of the frame's POVM. Such effects are accessed via the yen construction, which maps effects on the system to those on the composite system, satisfying gauge invariance and framing. They are called relative, and the classes of states indistinguishable by them are referred to as relative states. We show that when the frame is localizable, meaning that it allows for states that give rise to a highly localized probability distribution of the frame's observable, by restricting the relative description upon such localized frame preparation we recover the usual, non-relational formalism of quantum mechanics. We provide a consistent way of translating between different relative descriptions by means of frame-change maps and compare these with the corresponding notions in other approaches to QRF, establishing an operational agreement in the domain of common applicability.
翻訳日:2023-04-17 14:05:39 公開日:2023-04-14
# DIPNet: 画像超解像における高効率蒸留とイテレーティブプルーニング

DIPNet: Efficiency Distillation and Iterative Pruning for Image Super-Resolution ( http://arxiv.org/abs/2304.07018v1 )

ライセンス: Link先を確認
Lei Yu, Xinpeng Li, Youwei Li, Ting Jiang, Qi Wu, Haoqiang Fan, Shuaicheng Liu(参考訳) 深層学習に基づく効率的なアプローチは、単一画像の超解像において顕著な性能を達成した。 しかし,近年の高効率超解像の研究は,様々なネットワーク設計によるパラメータ数や浮動小数点演算の削減に主眼を置いている。 これらの方法はパラメータ数や浮動小数点演算を減少させるが、必ずしも実際の実行時間を減少させるわけではない。 そこで,本稿では,軽量ネットワークが優れた性能を実現するための,新しい多段軽量ネットワークブースティング手法を提案する。 具体的には,強化された高分解能出力を追加監督として活用し,軽量学生ネットワークの学習能力を向上させる。 学生ネットワークの収束に伴い、再パラメータ化技術と反復的ネットワークプルーニングを用いて、ネットワーク構造をより軽量なレベルに単純化する。 一方,マルチアンカー蒸留とプログレッシブラーニングを組み合わせた効果的な軽量ネットワークトレーニング戦略を採用し,軽量ネットワークの優れた性能を実現する。 提案手法は,競争力のある超解像性能を維持しつつ,NTIRE 2023の高効率超解像課題において,最も高速な推定時間を達成している。 さらに,提案手法の有効性を示すため,広範囲な実験を行った。 その結果,提案手法は定性的にも定量的にも,高速な推論とネットワークパラメータの少ない代表データセットDIV2Kで同等の性能を達成できた。

Efficient deep learning-based approaches have achieved remarkable performance in single image super-resolution. However, recent studies on efficient super-resolution have mainly focused on reducing the number of parameters and floating-point operations through various network designs. Although these methods can decrease the number of parameters and floating-point operations, they may not necessarily reduce actual running time. To address this issue, we propose a novel multi-stage lightweight network boosting method, which can enable lightweight networks to achieve outstanding performance. Specifically, we leverage enhanced high-resolution output as additional supervision to improve the learning ability of lightweight student networks. Upon convergence of the student network, we further simplify our network structure to a more lightweight level using reparameterization techniques and iterative network pruning. Meanwhile, we adopt an effective lightweight network training strategy that combines multi-anchor distillation and progressive learning, enabling the lightweight network to achieve outstanding performance. Ultimately, our proposed method achieves the fastest inference time among all participants in the NTIRE 2023 efficient super-resolution challenge while maintaining competitive super-resolution performance. Additionally, extensive experiments are conducted to demonstrate the effectiveness of the proposed components. The results show that our approach achieves comparable performance in representative dataset DIV2K, both qualitatively and quantitatively, with faster inference and fewer number of network parameters.
翻訳日:2023-04-17 14:05:15 公開日:2023-04-14
# 抗真菌ドメインと抗菌ドメイン間の伝達学習のための共生メッセージパッシングモデル

Symbiotic Message Passing Model for Transfer Learning between Anti-Fungal and Anti-Bacterial Domains ( http://arxiv.org/abs/2304.07017v1 )

ライセンス: Link先を確認
Ronen Taub, Tanya Wasserman, Yonatan Savir(参考訳) 機械学習、特に表現学習は、何十億もの化合物をスクリーニングすることで、薬物発見を促進する可能性がある。 例えば、成功したアプローチは分子をグラフとして表現し、グラフニューラルネットワーク(gnn)を利用する。 しかし、これらのアプローチは適切なトレーニングセットを構築するために何千もの化合物の実験的な測定を必要とする。 ある領域では実験データを取得するのが容易であるが、別の領域ではもっと制限があるかもしれない。 例えば、細菌上での化合物の試験は、生体内実験よりも容易である。 このようにして、重要な疑問は、大きな利用可能なデータセットからの情報と、両方のドメインが測定される化合物の小さなサブセットをどのように活用し、2番目の、実験的にあまり利用できない領域に対する化合物の効果を予測するかである。 現在の薬物発見のための伝達学習アプローチは、事前訓練されたモジュールのトレーニングやメタラーニングを含むが、成功は限られている。 本研究では,異なる領域のグラフニューラルネットワークモデルをマージするための共生型メッセージパッシングニューラルネットワーク(smpnn)という新しい手法を開発した。 新たなメッセージパスレーンをルーティングすることで、異なるドメイン間の潜在的な競合や、より大きなデータセットによって引き起こされる暗黙的な制約を解決します。 公開データを収集し,さらに高スループット実験を行うことで,抗菌活性から抗真菌活性を予測することにより,本手法の利点を実証する。 提案手法を標準転送学習手法と比較し,SMPNNがより優れた,より可変な性能を提供することを示す。 我々のアプローチは一般的であり、異なる生物、異なるオルガネラ、または異なる環境といった2つの領域間の情報伝達を容易にするために利用することができる。

Machine learning, and representation learning in particular, has the potential to facilitate drug discovery by screening billions of compounds. For example, a successful approach is representing the molecules as a graph and utilizing graph neural networks (GNN). Yet, these approaches still require experimental measurements of thousands of compounds to construct a proper training set. While in some domains it is easier to acquire experimental data, in others it might be more limited. For example, it is easier to test the compounds on bacteria than perform in-vivo experiments. Thus, a key question is how to utilize information from a large available dataset together with a small subset of compounds where both domains are measured to predict compounds' effect on the second, experimentally less available domain. Current transfer learning approaches for drug discovery, including training of pre-trained modules or meta-learning, have limited success. In this work, we develop a novel method, named Symbiotic Message Passing Neural Network (SMPNN), for merging graph-neural-network models from different domains. Using routing new message passing lanes between them, our approach resolves some of the potential conflicts between the different domains, and implicit constraints induced by the larger datasets. By collecting public data and performing additional high-throughput experiments, we demonstrate the advantage of our approach by predicting anti-fungal activity from anti-bacterial activity. We compare our method to the standard transfer learning approach and show that SMPNN provided better and less variable performances. Our approach is general and can be used to facilitate information transfer between any two domains such as different organisms, different organelles, or different environments.
翻訳日:2023-04-17 14:04:53 公開日:2023-04-14
# AGNN: オーバースムーシングを緩和するグラフ正規化ニューラルネットワーク

AGNN: Alternating Graph-Regularized Neural Networks to Alleviate Over-Smoothing ( http://arxiv.org/abs/2304.07014v1 )

ライセンス: Link先を確認
Zhaoliang Chen, Zhihao Wu, Zhenghong Lin, Shiping Wang, Claudia Plant, Wenzhong Guo(参考訳) グラフ構造データを探索する強力な能力を持つグラフ畳み込みネットワーク(GCN)は近年顕著な成功を収めている。 それでも、既存のGCNベースのモデルのほとんどは、浅いネットワークが広く採用されているため、過度にスムースな問題に悩まされている。 複雑なグラフデータセットには問題がありますが、より深いGCNは、リモートの隣人間で情報を伝達する上で有益であるべきです。 最近の研究は、残差接続構造の構築や多層モデルからの予測の融合など、余計な問題に対処することに尽力している。 深い層と区別できない埋め込みのため、様々な層からの出力の組み合わせを実行する前に、より信頼できる予測を生成するのが妥当である。 そこで我々は,グラフ畳み込み層 (GCL) とグラフ埋め込み層 (GEL) からなる交換グラフ正規化ニューラルネットワーク (AGNN) を提案する。 GELはラプラシアン埋め込み項を含むグラフ正規化最適化から導かれるもので、低階特徴空間から高階空間への周期的射影により過度に滑らかな問題を緩和することができる。 異なるレイヤのより区別可能な特徴により、改善されたAdaboost戦略を使用して各レイヤからの出力を集約し、マルチホップ隣人の統合埋め込みを探索する。 提案手法は,多層グラフや多階グラフニューラルネットワークの性能比較を含む多数の実験により評価され,最先端モデルと比較してagnnの性能改善が示された。

Graph Convolutional Network (GCN) with the powerful capacity to explore graph-structural data has gained noticeable success in recent years. Nonetheless, most of the existing GCN-based models suffer from the notorious over-smoothing issue, owing to which shallow networks are extensively adopted. This may be problematic for complex graph datasets because a deeper GCN should be beneficial to propagating information across remote neighbors. Recent works have devoted effort to addressing over-smoothing problems, including establishing residual connection structure or fusing predictions from multi-layer models. Because of the indistinguishable embeddings from deep layers, it is reasonable to generate more reliable predictions before conducting the combination of outputs from various layers. In light of this, we propose an Alternating Graph-regularized Neural Network (AGNN) composed of Graph Convolutional Layer (GCL) and Graph Embedding Layer (GEL). GEL is derived from the graph-regularized optimization containing Laplacian embedding term, which can alleviate the over-smoothing problem by periodic projection from the low-order feature space onto the high-order space. With more distinguishable features of distinct layers, an improved Adaboost strategy is utilized to aggregate outputs from each layer, which explores integrated embeddings of multi-hop neighbors. The proposed model is evaluated via a large number of experiments including performance comparison with some multi-layer or multi-order graph neural networks, which reveals the superior performance improvement of AGNN compared with state-of-the-art models.
翻訳日:2023-04-17 14:04:26 公開日:2023-04-14
# DroidBot-GPT: GPTを利用したAndroid用UIオートメーション

DroidBot-GPT: GPT-powered UI Automation for Android ( http://arxiv.org/abs/2304.07061v1 )

ライセンス: Link先を確認
Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li(参考訳) 本稿では,GPTライクな大規模言語モデル(LLM)を用いてAndroidモバイルアプリケーションとのインタラクションを自動化するツールであるDroidBot-GPTを紹介する。 必要なタスクの自然な言語記述が与えられると、droidbot-gptは、タスクを完了させるためにアプリをナビゲートするアクションを自動生成および実行することができる。 これは、スマートフォン画面のgui状態情報と利用可能なアクションを自然言語プロンプトに翻訳し、llmにアクションの選択を依頼することで機能する。 LLMは通常、多様なソフトウェアアプリケーションのハウツーマニュアルを含む大量のデータに基づいて訓練されているため、提供された情報に基づいて適切なアクションを選択することができる。 DroidBot-GPTは10のカテゴリにまたがる17のAndroidアプリケーションから収集した33のタスクを含む自己生成データセットで評価する。 39.39%のタスクを完了し、平均的な部分的な完了確率は約66.76%である。 当社の手法が完全に教師なしであるという事実(アプリとLLMの両方の修正は不要)を考えると、より良いアプリ開発パラダイムやカスタムモデルトレーニングで自動化性能を向上させる大きな可能性があると信じています。

This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
翻訳日:2023-04-17 13:57:52 公開日:2023-04-14
# dcface:デュアル条件拡散モデルを用いた合成顔生成

DCFace: Synthetic Face Generation with Dual Condition Diffusion Model ( http://arxiv.org/abs/2304.07060v1 )

ライセンス: Link先を確認
Minchul Kim, Feng Liu, Anil Jain, Xiaoming Liu(参考訳) 顔認識モデルのトレーニングのための合成データセットの生成は、データセット生成には高忠実度画像の作成以上の意味があるため、難しい。 それは、異なる因子(例えば、ポーズ、照明、表現、老化、閉塞)の下で同じ被験者の複数の画像を生成することを含み、これは実際の画像条件分布に従う。 従来の研究は、GANや3Dモデルを用いて合成データセットの生成を研究してきた。 本研究では,被写体外観 (id) と外的要因 (style) を組み合わせるという側面からこの問題にアプローチする。 これら2つの条件はクラス間およびクラス内変異を制御するための直接的手段を提供する。 そこで本研究では,拡散モデルに基づくDual Condition Face Generator (DCFace)を提案する。 われわれの新しいPatch-wiseスタイル抽出器と時間ステップ依存ID損失により、DCFaceは同じ対象の顔画像を、異なるスタイルで正確に制御できる。 提案されたDCFaceの合成画像に基づいてトレーニングされた顔認識モデルは、以前の5ドルのテストデータセット、LFW、CFP-FP、CPLFW、 AgeDB、CALFWの平均で6.11\%の検証精度を提供する。 コードはhttps://github.com/mk-minchul/dcfaceで入手できる。

Generating synthetic datasets for training face recognition models is challenging because dataset generation entails more than creating high fidelity images. It involves generating multiple images of same subjects under different factors (\textit{e.g.}, variations in pose, illumination, expression, aging and occlusion) which follows the real image conditional distribution. Previous works have studied the generation of synthetic datasets using GAN or 3D models. In this work, we approach the problem from the aspect of combining subject appearance (ID) and external factor (style) conditions. These two conditions provide a direct way to control the inter-class and intra-class variations. To this end, we propose a Dual Condition Face Generator (DCFace) based on a diffusion model. Our novel Patch-wise style extractor and Time-step dependent ID loss enables DCFace to consistently produce face images of the same subject under different styles with precise control. Face recognition models trained on synthetic images from the proposed DCFace provide higher verification accuracies compared to previous works by $6.11\%$ on average in $4$ out of $5$ test datasets, LFW, CFP-FP, CPLFW, AgeDB and CALFW. Code is available at https://github.com/mk-minchul/dcface
翻訳日:2023-04-17 13:57:31 公開日:2023-04-14
# 顔映像圧縮の知覚的品質評価 : ベンチマークと効果的な方法

Perceptual Quality Assessment of Face Video Compression: A Benchmark and An Effective Method ( http://arxiv.org/abs/2304.07056v1 )

ライセンス: Link先を確認
Yixuan Li, Bolin Chen, Baoliang Chen, Meng Wang, Shiqi Wang(参考訳) 近年、顔画像圧縮の需要が急激に増加し、人工知能の成功により、従来のハイブリッドビデオ符号化を超えて境界が拡大している。 生成的符号化アプローチは、顔ビデオの統計的先行性を利用して、合理的な知覚的レート歪みトレードオフを持つ有望な代替手段として認識されている。 しかしながら、伝統的なハイブリッドコーディングフレームワークから生成モデルまで、空間的および時間的領域における歪みタイプの大きな多様性は、vqa(compressed face video quality assessment)において大きな課題となっている。 本稿では,顔映像の知覚的品質と多角的圧縮歪みを体系的に理解する最初の試みである,cfvqaデータベースについて述べる。 このデータベースは3,240個の圧縮された顔ビデオクリップを複数の圧縮レベルに収めており、これは6つの代表ビデオコーデックを用いた135個のソースビデオから派生したもので、その中にはハイブリッドコーディングフレームワークに基づく2つの伝統的な方法、2つのエンドツーエンドメソッド、2つの生成方法が含まれる。 さらに,顔映像のコンテンツ特性と時間的先行性を考慮して,顔映像圧縮のためのFACE VideO IntegeRity(FAVOR)指標を開発した。 実験の結果,提案したCFVQAデータセットよりも優れた性能を示した。 ベンチマークは現在、https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessmentで公開されている。

Recent years have witnessed an exponential increase in the demand for face video compression, and the success of artificial intelligence has expanded the boundaries beyond traditional hybrid video coding. Generative coding approaches have been identified as promising alternatives with reasonable perceptual rate-distortion trade-offs, leveraging the statistical priors of face videos. However, the great diversity of distortion types in spatial and temporal domains, ranging from the traditional hybrid coding frameworks to generative models, present grand challenges in compressed face video quality assessment (VQA). In this paper, we introduce the large-scale Compressed Face Video Quality Assessment (CFVQA) database, which is the first attempt to systematically understand the perceptual quality and diversified compression distortions in face videos. The database contains 3,240 compressed face video clips in multiple compression levels, which are derived from 135 source videos with diversified content using six representative video codecs, including two traditional methods based on hybrid coding frameworks, two end-to-end methods, and two generative methods. In addition, a FAce VideO IntegeRity (FAVOR) index for face video compression was developed to measure the perceptual quality, considering the distinct content characteristics and temporal priors of the face videos. Experimental results exhibit its superior performance on the proposed CFVQA dataset. The benchmark is now made publicly available at: https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment.
翻訳日:2023-04-17 13:57:09 公開日:2023-04-14
# 第2回単眼深度推定チャレンジ

The Second Monocular Depth Estimation Challenge ( http://arxiv.org/abs/2304.07051v1 )

ライセンス: Link先を確認
Jaime Spencer, C. Stella Qian, Michaela Trescakova, Chris Russell, Simon Hadfield, Erich W. Graf, Wendy J. Adams, Andrew J. Schofield, James Elder, Richard Bowden, Ali Anwar, Hao Chen, Xiaozhi Chen, Kai Cheng, Yuchao Dai, Huynh Thai Hoa, Sadat Hossain, Jianmian Huang, Mohan Jing, Bo Li, Chao Li, Baojun Li, Zhiwen Liu, Stefano Mattoccia, Siegfried Mercelis, Myungwoo Nam, Matteo Poggi, Xiaohua Qi, Jiahui Ren, Yang Tang, Fabio Tosi, Linh Trinh, S. M. Nadim Uddin, Khan Muhammad Umair, Kaixuan Wang, Yufei Wang, Yixing Wang, Mochu Xiang, Guangkai Xu, Wei Yin, Jun Yu, Qi Zhang, Chaoqiang Zhao(参考訳) 本稿では,モノクル深度推定チャレンジ(MDEC)の第2版の結果について述べる。 このエディションは、完全な教師付き、自己監督型、マルチタスク、プロキシの深さを含む、いかなる形式の監視方法にも開放された。 この課題はSynS-Patchesデータセットに基づいており、高品質な高密度の地下構造を持つ幅広い環境が特徴である。 これには、例えば森林や畑のような複雑な自然環境が含まれており、現在のベンチマークでは、非常に過小評価されている。 この課題は、pointcloudやイメージベースのメトリクスで提供されるsataベースラインを上回る8つのユニークな提案を受けた。 上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。 監視された提出は一般的に、データの多様性を改善するために大量のデータセットのコレクションを活用する。 自己監督による提出は、代わりにネットワークアーキテクチャと事前トレーニングされたバックボーンを更新した。 これらの結果は、深度境界における補間アーティファクトの削減、自己監督型室内性能の向上、全体的な自然画像の精度の向上など、将来の研究の道のりを強調しながら、この分野における大きな進歩を示している。

This paper discusses the results for the second edition of the Monocular Depth Estimation Challenge (MDEC). This edition was open to methods using any form of supervision, including fully-supervised, self-supervised, multi-task or proxy depth. The challenge was based around the SYNS-Patches dataset, which features a wide diversity of environments with high-quality dense ground-truth. This includes complex natural environments, e.g. forests or fields, which are greatly underrepresented in current benchmarks. The challenge received eight unique submissions that outperformed the provided SotA baseline on any of the pointcloud- or image-based metrics. The top supervised submission improved relative F-Score by 27.62%, while the top self-supervised improved it by 16.61%. Supervised submissions generally leveraged large collections of datasets to improve data diversity. Self-supervised submissions instead updated the network architecture and pretrained backbones. These results represent a significant progress in the field, while highlighting avenues for future research, such as reducing interpolation artifacts at depth boundaries, improving self-supervised indoor performance and overall natural image accuracy.
翻訳日:2023-04-17 13:56:43 公開日:2023-04-14
# 大規模電波干渉データの損失圧縮

Lossy Compression of Large-Scale Radio Interferometric Data ( http://arxiv.org/abs/2304.07050v1 )

ライセンス: Link先を確認
M Atemkeng, S Perkins, E Seck, S Makhathini, O Smirnov, L Bester, B Hugo(参考訳) 本研究は,視野の端面にスミアリングを保持するベースライン依存型損失圧縮技術を用いて,可視データ量を削減することを提案する。 我々は,行列の階数と低ランク近似が,各基本成分が天空分布の特定のフーリエ成分に対応する基本成分の和として生の可視データを記述できるという事実を生かした。 このように、可視性データは単一のテンソルではなく、ベースラインからのデータ行列の集合として表現される。 提案手法は,全可視性データの大規模なデータセットを提供する。最初のアルゴリズムである$simple~SVD$は,データをランク$-r$のデータ行列の正規サンプリング空間に投影する。 この空間では、すべてのベースラインのデータは同じランクであり、すべてのベースラインで圧縮係数が等しくなる。 2番目のアルゴリズムである$BDSVD$は、データをランク$-r_{pq}$データ行列の不規則サンプリング空間に投影する。 サブスクリプト$pq$は、データマトリックスのランクがベースライン$pq$によって異なり、圧縮係数がベースラインに依存していることを示している。 MeerKAT と European Very Long Baseline Interferometry Network は、従来の平均化やベースライン依存平均化(BDA)といった従来の手法に対して提案手法の性能を評価し比較するために参照望遠鏡として使用される。 同じ空間分解能閾値に対して、$simple~SVD$と$BDSVD$は、従来の平均値やBDAよりも2桁高い効率の圧縮を示す。 同じ空間保存率では、空間分解能の低下はなく、S/Nを視野の端で1.5ドルdB以上に改善するデータのノイズ分散が減少する。

This work proposes to reduce visibility data volume using a baseline-dependent lossy compression technique that preserves smearing at the edges of the field-of-view. We exploit the relation of the rank of a matrix and the fact that a low-rank approximation can describe the raw visibility data as a sum of basic components where each basic component corresponds to a specific Fourier component of the sky distribution. As such, the entire visibility data is represented as a collection of data matrices from baselines, instead of a single tensor. The proposed methods are formulated as follows: provided a large dataset of the entire visibility data; the first algorithm, named $simple~SVD$ projects the data into a regular sampling space of rank$-r$ data matrices. In this space, the data for all the baselines has the same rank, which makes the compression factor equal across all baselines. The second algorithm, named $BDSVD$ projects the data into an irregular sampling space of rank$-r_{pq}$ data matrices. The subscript $pq$ indicates that the rank of the data matrix varies across baselines $pq$, which makes the compression factor baseline-dependent. MeerKAT and the European Very Long Baseline Interferometry Network are used as reference telescopes to evaluate and compare the performance of the proposed methods against traditional methods, such as traditional averaging and baseline-dependent averaging (BDA). For the same spatial resolution threshold, both $simple~SVD$ and $BDSVD$ show effective compression by two-orders of magnitude higher than traditional averaging and BDA. At the same space-saving rate, there is no decrease in spatial resolution and there is a reduction in the noise variance in the data which improves the S/N to over $1.5$ dB at the edges of the field-of-view.
翻訳日:2023-04-17 13:56:25 公開日:2023-04-14
# Wasserstein PAC-Bayes Learning: 一般化と最適化の橋渡し

Wasserstein PAC-Bayes Learning: A Bridge Between Generalisation and Optimisation ( http://arxiv.org/abs/2304.07048v1 )

ライセンス: Link先を確認
Maxime Haddouche and Benjamin Guedj(参考訳) PAC-Bayes学習は、学習段階における学習アルゴリズムの一般化能力を評価するための確立されたフレームワークである。 しかしながら、PAC-Bayesが学習前に、なぜよく知られたアルゴリズムの出力がうまく一般化されるのかを理解するのに有用かを知ることは依然として困難である。 我々は \cite{amit2022ipm} に簡潔に導入された \emph{wasserstein pac-bayes} フレームワークを拡張して、この質問に答える。 損失関数の幾何学的仮定を利用した新しい一般化境界を提供する。 我々のフレームワークを用いて、任意のトレーニングの前に、 \citet{lambert2022variational} からのアルゴリズムの出力が強い漸近的一般化能力を持つことを証明する。 より正確には、最適化結果を一般化フレームワークに組み込むことができ、PAC-Bayesと最適化アルゴリズムのブリッジを構築することができる。

PAC-Bayes learning is an established framework to assess the generalisation ability of learning algorithm during the training phase. However, it remains challenging to know whether PAC-Bayes is useful to understand, before training, why the output of well-known algorithms generalise well. We positively answer this question by expanding the \emph{Wasserstein PAC-Bayes} framework, briefly introduced in \cite{amit2022ipm}. We provide new generalisation bounds exploiting geometric assumptions on the loss function. Using our framework, we prove, before any training, that the output of an algorithm from \citet{lambert2022variational} has a strong asymptotic generalisation ability. More precisely, we show that it is possible to incorporate optimisation results within a generalisation framework, building a bridge between PAC-Bayes and optimisation algorithms.
翻訳日:2023-04-17 13:55:52 公開日:2023-04-14
# 限定ショット数による近接場iToF LIDAR深度改善

Near Field iToF LIDAR Depth Improvement from Limited Number of Shots ( http://arxiv.org/abs/2304.07047v1 )

ライセンス: Link先を確認
Mena Nagiub, Thorsten Beuth, Ganesh Sistu, Heinrich Gotzig, Ciar \'an Eising(参考訳) 間接飛行時間 LiDAR は、予め定義された周波数で変調された振幅で送信されたレーザ信号と受信されたレーザー信号の間の位相シフト角からシーンの深さを間接的に計算することができる。 残念ながら、この方法は位相シフト角値が2\pi$を超えると計算された深さで曖昧さを生成する。 現在の最先端手法では、2つの異なる変調周波数を用いて生成されたサンプルを用いて、あいまいさを克服している。 しかし、これはレーザー成分の応力を増大させ、温度を上昇させることで寿命を短縮し、消費電力を増大させる。 本研究では,レーザ部品の応力と消費電力を低減させるため,センサのグレースケール出力をサポートした単一変調周波数からのサンプルサンプルショットを少なくして,LiDARの全深度範囲を復元する2つの方法を検討した。

Indirect Time of Flight LiDARs can indirectly calculate the scene's depth from the phase shift angle between transmitted and received laser signals with amplitudes modulated at a predefined frequency. Unfortunately, this method generates ambiguity in calculated depth when the phase shift angle value exceeds $2\pi$. Current state-of-the-art methods use raw samples generated using two distinct modulation frequencies to overcome this ambiguity problem. However, this comes at the cost of increasing laser components' stress and raising their temperature, which reduces their lifetime and increases power consumption. In our work, we study two different methods to recover the entire depth range of the LiDAR using fewer raw data sample shots from a single modulation frequency with the support of sensor's gray scale output to reduce the laser components' stress and power consumption.
翻訳日:2023-04-17 13:55:34 公開日:2023-04-14
# 未知平均を持つledoit-wolf線形収縮

Ledoit-Wolf linear shrinkage with unknown mean ( http://arxiv.org/abs/2304.07045v1 )

ライセンス: Link先を確認
Benoit Oriol and Alexandre Miot(参考訳) この研究は、未知の平均で大きな次元の共分散行列推定に対処する。 経験的共分散推定器は、次元とサンプルの数が比例し、無限大になる傾向があるときに失敗する。 平均が知られているとき、Ledoit and Wolf (2004) は線形縮退推定器を提案し、それらの漸近の下でその収束を証明した。 我々の知る限りでは、平均が不明なときに正式な証明は提案されていない。 この問題に対処するため,我々は新しい推定器を提案し,その二次収束をledoit と wolf の仮定の下で証明する。 最後に、他の標準推定値よりも優れていることを示す。

This work addresses large dimensional covariance matrix estimation with unknown mean. The empirical covariance estimator fails when dimension and number of samples are proportional and tend to infinity, settings known as Kolmogorov asymptotics. When the mean is known, Ledoit and Wolf (2004) proposed a linear shrinkage estimator and proved its convergence under those asymptotics. To the best of our knowledge, no formal proof has been proposed when the mean is unknown. To address this issue, we propose a new estimator and prove its quadratic convergence under the Ledoit and Wolf assumptions. Finally, we show empirically that it outperforms other standard estimators.
翻訳日:2023-04-17 13:55:18 公開日:2023-04-14
# 低光度画像強調のための意味認識知識指導の学習

Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement ( http://arxiv.org/abs/2304.07039v1 )

ライセンス: Link先を確認
Yuhui Wu, Chen Pan, Guoqing Wang, Yang Yang, Jiwei Wei, Chongyi Li, Heng Tao Shen(参考訳) ローライトイメージエンハンスメント(llie)は、照明の改善とノーマルライトイメージの生成方法について調査する。 既存の手法の大部分は、異なる領域のセマンティック情報を考慮せずに、グローバルかつ均一な方法で低照度画像を改善する。 セマンティックな前提がなければ、ネットワークは地域の原色から容易に逸脱する。 そこで本研究では,セマンティックセグメンテーションモデルにカプセル化される多種多様な事前学習において,低照度強化モデルを支援する新しいセマンティック・アウェア・ナレッジ誘導フレームワーク(SKF)を提案する。 特徴表現空間における意味的優先事項を巧みに統合する意味的認識埋め込みモジュール,様々なインスタンスの色一貫性を保持する意味的指示付き色ヒストグラム損失,意味的優先によって自然なテクスチャを生成する意味的誘導型敵対的損失の3つの重要な側面から意味的知識を取り入れることに集中する。 我々のSKFはLLIEタスクの一般的なフレームワークとして機能することをアピールしています。 大規模な実験により、SKFを搭載したモデルは複数のデータセットのベースラインを大幅に上回り、SKFは異なるモデルやシーンによく一般化することがわかった。 コードはSemantic-Aware-Low-Light-Image-Enhancementで公開されている。

Low-light image enhancement (LLIE) investigates how to improve illumination and produce normal-light images. The majority of existing methods improve low-light images via a global and uniform manner, without taking into account the semantic information of different regions. Without semantic priors, a network may easily deviate from a region's original color. To address this issue, we propose a novel semantic-aware knowledge-guided framework (SKF) that can assist a low-light enhancement model in learning rich and diverse priors encapsulated in a semantic segmentation model. We concentrate on incorporating semantic knowledge from three key aspects: a semantic-aware embedding module that wisely integrates semantic priors in feature representation space, a semantic-guided color histogram loss that preserves color consistency of various instances, and a semantic-guided adversarial loss that produces more natural textures by semantic priors. Our SKF is appealing in acting as a general framework in LLIE task. Extensive experiments show that models equipped with the SKF significantly outperform the baselines on multiple datasets and our SKF generalizes to different models and scenes well. The code is available at Semantic-Aware-Low-Light-Image-Enhancement.
翻訳日:2023-04-17 13:55:05 公開日:2023-04-14
# No Easy Way Out: ヘイトとハラスメントを抑えるためのExtremist Forumの非プラットフォーム化の効果

No Easy Way Out: The Effectiveness of Deplatforming an Extremist Forum to Suppress Hate and Harassment ( http://arxiv.org/abs/2304.07037v1 )

ライセンス: Link先を確認
Anh V. Vu, Alice Hutchings, Ross Anderson(参考訳) 世界中の議員や政策立案者は、オンライン上で違法で有害で望ましくない物質を抑制する選択肢を議論している。 いくつかの定量的なデータセットをもとに,オンライン嫌がらせやハラスメントを抑制するアクティブなコミュニティの非プラットフォーム化は,いくつかのit企業による大規模な集団的活動であっても困難であることを示す。 私たちのケーススタディは、2022年末に最大かつ最長のハラスメントフォーラムであるkiwi farmsが崩壊したことです。 このサイトと、その主要なライバルであるllcow farmの完全なスナップショットを収集し、過去10年間で1470万の投稿を集めた。 これらのデータは、フォーラムのダウン時に新しいアップデートを広めるために使用されるtelegramチャンネルの完全なスクラップ、削除を主導するオンラインコミュニティによるツイート、イベントの2か月前と4ヶ月後のフォーラムへの検索関心とwebトラフィックによって補完される。 数ヵ月間、いくつかのテクノロジー企業が積極的に参加していたが、このキャンペーンはフォーラムを閉鎖し、不快なコンテンツを削除できなかった。 大衆の意識を高めながら、急激なプラットフォーム変位と交通の断片化につながった。 活動の一部はテレグラムに移され、トラフィックは主要領域から以前放棄された代替手段に移行した。 キャンペーンを主導するコミュニティはすぐに関心を失い、トラフィックはメインドメインに向けられ、利用者はすぐに戻り、フォーラムはオンラインに戻り、さらにつながりを増した。 主な効果は、フォーラムの活動、アクティブユーザ、スレッド、投稿、トラフィックがすべて半分に削減されたことだ。 個別のサービス提供者に対して一連の裁判所命令を用いて分散したコミュニティを構築することは、検閲がキーメンテナを逮捕したり、加わったり、妨げたりすることなく、無力化できなければ、非常に効果的とは思えない。

Legislators and policymakers worldwide are debating options for suppressing illegal, harmful and undesirable material online. Drawing on several quantitative datasets, we show that deplatforming an active community to suppress online hate and harassment, even with a substantial collective effort involving several tech firms, can be hard. Our case study is the disruption of the largest and longest-running harassment forum Kiwi Farms in late 2022, which is probably the most extensive industry effort to date. We collected complete snapshots of this site and its primary competitor Lolcow Farm, encompassing over 14.7M posts during their lifespan over the past decade. These data are supplemented with a full scrape of the Telegram channel used to disseminate new updates when the forum was down, tweets made by the online community leading the takedown, and search interest and web traffic to the forum spanning two months before and four months after the event. Despite the active participation of several tech firms over a few months, this campaign failed to shut down the forum and remove its objectionable content. While briefly raising public awareness, it led to rapid platform displacement and traffic fragmentation. Part of the activity decamped to Telegram, while traffic shifted from the primary domain to previously abandoned alternatives. The community leading the campaign lost interest quickly, traffic was directed back to the main domain, users quickly returned, and the forum was back online and became even more connected. The net effect was that forum activity, active users, threads, posts and traffic were all cut by about half. Deplatforming a dispersed community using a series of court orders against individual service providers appears unlikely to be very effective if the censor cannot incapacitate the key maintainers, whether by arresting them, enjoining them or otherwise deterring them.
翻訳日:2023-04-17 13:54:15 公開日:2023-04-14
# ダウンサンプリングと選択の相互作用の解析

Analyzing the Interaction Between Down-Sampling and Selection ( http://arxiv.org/abs/2304.07089v1 )

ライセンス: Link先を確認
Ryan Boldi, Ashley Bao, Martin Briesch, Thomas Helmuth, Dominik Sobania, Lee Spector, Alexander Lalejini(参考訳) 遺伝的プログラミングシステムは、選択のための候補ソリューションの品質を評価するために、しばしば大きなトレーニングセットを使用する。 しかし、大規模なトレーニングセットでの人口評価には計算コストがかかる。 ダウンサンプリングトレーニングセットは、幅広いアプリケーションドメインにおける評価の計算コストを削減するために長い間使われてきた。 実際、近年の研究では、ランダムなダウンサンプリングとインフォメーションなダウンサンプリングの両方が、レキシケース親選択アルゴリズムを用いたGPシステムにおける問題解決の成功を著しく改善できることが示されている。 私たちはpushgpフレームワークを使って、これらのダウンサンプリング技術が8つのgp問題(4つのプログラム合成と4つのシンボリックレグレッション)にまたがって、他の2つの一般的な選択方法であるfitness-proportionate と tournament selectionの文脈で問題解決の成功をも改善できるかどうかを実験的に検証します。 我々は、ダウンサンプリングが、フィットネスプロポーションとトーナメント選択の両方の問題解決の成功に有用であることを確認した。 しかし,ダウンサンプリングによる問題解決成功率の向上は,選択方式によって変化し,ダウンサンプリングの影響は選択方式の問題と選択に左右されることが示唆された。 驚くべきことに、ダウンサンプリングは、トーナメントやフィットネス・プロポータネート選択と比較して、レキシケース選択と組み合わせると、最も有益であることがわかった。 その結果,テストベースGP問題を解く場合には,ダウンサンプリングがより頻繁に考慮されるべきであることが示唆された。

Genetic programming systems often use large training sets to evaluate the quality of candidate solutions for selection. However, evaluating populations on large training sets can be computationally expensive. Down-sampling training sets has long been used to decrease the computational cost of evaluation in a wide range of application domains. Indeed, recent studies have shown that both random and informed down-sampling can substantially improve problem-solving success for GP systems that use the lexicase parent selection algorithm. We use the PushGP framework to experimentally test whether these down-sampling techniques can also improve problem-solving success in the context of two other commonly used selection methods, fitness-proportionate and tournament selection, across eight GP problems (four program synthesis and four symbolic regression). We verified that down-sampling can benefit the problem-solving success of both fitness-proportionate and tournament selection. However, the number of problems wherein down-sampling improved problem-solving success varied by selection scheme, suggesting that the impact of down-sampling depends both on the problem and choice of selection scheme. Surprisingly, we found that down-sampling was most consistently beneficial when combined with lexicase selection as compared to tournament and fitness-proportionate selection. Overall, our results suggest that down-sampling should be considered more often when solving test-based GP problems.
翻訳日:2023-04-17 13:48:03 公開日:2023-04-14
# パッチベース生成によるメモリ効率のよい拡散確率モデル

Memory Efficient Diffusion Probabilistic Models via Patch-based Generation ( http://arxiv.org/abs/2304.07087v1 )

ライセンス: Link先を確認
Shinei Arakawa, Hideki Tsunashima, Daichi Horita, Keitaro Tanaka, Shigeo Morishima(参考訳) 拡散確率モデルは高品質で多様な画像の生成に成功している。 しかし、入力と出力が高解像度画像である従来のモデルは過大なメモリ要件を抱えており、エッジデバイスでは実用性が低下している。 提案手法は, 位置符号化とグローバルコンテンツ情報を用いたパッチベースの手法である。 それにもかかわらず、拡散確率モデルに対するパッチベースのアプローチを設計することは非自明である。 本稿では,パッチバイパッチで画像を生成する拡散確率モデルについて再検討する。 パッチベース生成のための2つの条件付け手法を提案する。 まず,パッチが適切な位置にあることを保証するために,ワンホット表現を用いた位置対応条件を提案する。 次に,GCC(Global Content Conditioning)を提案する。 我々は,CelebA と LSUN の寝室データセットを定性的に定量的に評価し,最大メモリ消費と生成画像品質の中間的なトレードオフを示す。 具体的には,画像全体を2×2パッチに分割することで,画像品質を維持しながら最大メモリ消費量を半減させることができる。

Diffusion probabilistic models have been successful in generating high-quality and diverse images. However, traditional models, whose input and output are high-resolution images, suffer from excessive memory requirements, making them less practical for edge devices. Previous approaches for generative adversarial networks proposed a patch-based method that uses positional encoding and global content information. Nevertheless, designing a patch-based approach for diffusion probabilistic models is non-trivial. In this paper, we resent a diffusion probabilistic model that generates images on a patch-by-patch basis. We propose two conditioning methods for a patch-based generation. First, we propose position-wise conditioning using one-hot representation to ensure patches are in proper positions. Second, we propose Global Content Conditioning (GCC) to ensure patches have coherent content when concatenated together. We evaluate our model qualitatively and quantitatively on CelebA and LSUN bedroom datasets and demonstrate a moderate trade-off between maximum memory consumption and generated image quality. Specifically, when an entire image is divided into 2 x 2 patches, our proposed approach can reduce the maximum memory consumption by half while maintaining comparable image quality.
翻訳日:2023-04-17 13:47:36 公開日:2023-04-14
# クロスドメイン弱監視対象検出のためのグローバルアグリゲーションを付加したDETR

DETR with Additional Global Aggregation for Cross-domain Weakly Supervised Object Detection ( http://arxiv.org/abs/2304.07082v1 )

ライセンス: Link先を確認
Zongheng Tang, Yifan Sun, Si Liu, Yi Yang(参考訳) 本稿では、ソースからターゲット領域への検出器適応を目的とした、クロスドメイン弱教師対象検出(CDWSOD)のためのDETRに基づく手法を提案する。 DETRのエンコーダとデコーダはどちらも注意機構に基づいており、画像全体にわたってセマンティクスを集約することができる。 集約結果、すなわち画像レベルの予測は、ドメインアライメントの弱い監督を自然に利用することができる。 そこで我々は,cdwsod検出器であるdetr-gaを付加し,"instance-level + image-level"の予測を同時に行うとともに,"strong + weak"のスーパーバイザを併用したdetrを提案する。 detr-gaのキーポイントは非常に単純で、エンコーダ/デコーダでは、それぞれ複数のクラスクエリ/フォアグラウンドクエリを追加して、セマンティックを画像レベルの予測に集約します。 クエリベースのアグリゲーションには2つの利点があります。 まず、エンコーダにおいて、弱教師付きクラスクエリは、対応する位置を大まかに特定でき、非関連領域からの逸脱を排除できる。 次に、私たちの設計を通して、オブジェクトクエリとデコーダのフォアグラウンドクエリは、クラスセマンティクスに関するコンセンサスを共有します。 一般的な4つのクロスドメインベンチマークの大規模な実験は、DeTR-GAがCSWSODを著しく改善し、最先端技術(例えば、PASCAL VOCで29.0% --> 79.4% mAP)を進歩させることを示している。

This paper presents a DETR-based method for cross-domain weakly supervised object detection (CDWSOD), aiming at adapting the detector from source to target domain through weak supervision. We think DETR has strong potential for CDWSOD due to an insight: the encoder and the decoder in DETR are both based on the attention mechanism and are thus capable of aggregating semantics across the entire image. The aggregation results, i.e., image-level predictions, can naturally exploit the weak supervision for domain alignment. Such motivated, we propose DETR with additional Global Aggregation (DETR-GA), a CDWSOD detector that simultaneously makes "instance-level + image-level" predictions and utilizes "strong + weak" supervisions. The key point of DETR-GA is very simple: for the encoder / decoder, we respectively add multiple class queries / a foreground query to aggregate the semantics into image-level predictions. Our query-based aggregation has two advantages. First, in the encoder, the weakly-supervised class queries are capable of roughly locating the corresponding positions and excluding the distraction from non-relevant regions. Second, through our design, the object queries and the foreground query in the decoder share consensus on the class semantics, therefore making the strong and weak supervision mutually benefit each other for domain alignment. Extensive experiments on four popular cross-domain benchmarks show that DETR-GA significantly improves CSWSOD and advances the states of the art (e.g., 29.0% --> 79.4% mAP on PASCAL VOC --> Clipart_all dataset).
翻訳日:2023-04-17 13:47:19 公開日:2023-04-14
# BCE-Net:コントラスト学習を用いた歴史地図と最新画像に基づく信頼性の高い建物の足跡変化抽出

BCE-Net: Reliable Building Footprints Change Extraction based on Historical Map and Up-to-Date Images using Contrastive Learning ( http://arxiv.org/abs/2304.07076v1 )

ライセンス: Link先を確認
Cheng Liao, Han Hu, Xuekun Yuan, Haifeng Li, Chao Liu, Chunyang Liu, Gui Fu, Yulin Ding and Qing Zhu(参考訳) 都市環境の急速な発展において,最新の高解像度画像を用いたデータベースの自動および定期的な再コンパイルが重要な要件となっている。 しかし、変更抽出のための既存のアプローチのアーキテクチャは、変更に関連する特徴を学習しようとするが、建物に関連する目的を無視する。 これは必然的に、画像の季節変化やビルディング fa\c{c}ade の傾きなどの要因によって、重大な擬似変化が発生する。 上記の課題を緩和するため,従来の建物構跡をリモートセンシング画像1枚に対して検証し,対比学習手法を開発した。 この対照的な学習戦略により、建物と建物の特徴を区別しやすくすることで、変更検出のためのパイプラインに建物の意味論を注入することが可能となった。 さらに,最新の画像における歴史的多角形と建物の不整合の影響を低減するため,変形可能な畳み込みニューラルネットワークを用いて,オフセットを直感的に学習した。 総説として,新たに建設された建物と撤去された建物を識別する多層建物抽出手法を考案した。 提案手法を検証するために,武漢大学建築変更検出データセットとより実用的なデータセットであるsi-buを用いて比較実験を行った。 本手法はそれぞれ93.99%と70.74%のf1スコアを達成した。 さらに,従来の研究と同様の方法で公開データセットのデータを分割した場合,本手法は94.63%のF1スコアを達成し,最先端の手法を超越した。

Automatic and periodic recompiling of building databases with up-to-date high-resolution images has become a critical requirement for rapidly developing urban environments. However, the architecture of most existing approaches for change extraction attempts to learn features related to changes but ignores objectives related to buildings. This inevitably leads to the generation of significant pseudo-changes, due to factors such as seasonal changes in images and the inclination of building fa\c{c}ades. To alleviate the above-mentioned problems, we developed a contrastive learning approach by validating historical building footprints against single up-to-date remotely sensed images. This contrastive learning strategy allowed us to inject the semantics of buildings into a pipeline for the detection of changes, which is achieved by increasing the distinguishability of features of buildings from those of non-buildings. In addition, to reduce the effects of inconsistencies between historical building polygons and buildings in up-to-date images, we employed a deformable convolutional neural network to learn offsets intuitively. In summary, we formulated a multi-branch building extraction method that identifies newly constructed and removed buildings, respectively. To validate our method, we conducted comparative experiments using the public Wuhan University building change detection dataset and a more practical dataset named SI-BU that we established. Our method achieved F1 scores of 93.99% and 70.74% on the above datasets, respectively. Moreover, when the data of the public dataset were divided in the same manner as in previous related studies, our method achieved an F1 score of 94.63%, which surpasses that of the state-of-the-art method.
翻訳日:2023-04-17 13:46:48 公開日:2023-04-14
# ニューラルネットワークを用いた不確実性を考慮した車両エネルギー効率予測

Uncertainty-Aware Vehicle Energy Efficiency Prediction using an Ensemble of Neural Networks ( http://arxiv.org/abs/2304.07073v1 )

ライセンス: Link先を確認
Jihed Khiari, Cristina Olaverri-Monreal(参考訳) 交通部門は温室効果ガス排出量の約25%を占めている。 したがって、交通分野におけるエネルギー効率の向上は、炭素フットプリントの削減に不可欠である。 効率は通常、走行距離あたりのエネルギー使用量(例えば1kmあたりの燃料のリットル)で測定される。 エネルギー効率に影響を与える主要な要因は、車両の種類、環境、運転者の行動、気象条件である。 これらの異なる要因は、車両のエネルギー効率の推定に不確実性をもたらす。 本稿では,予測の不確かさを低減し,そのような不確実性の尺度を出力するために設計された,深層ニューラルネットワーク(enn)に基づくアンサンブル学習手法を提案する。 我々は、ved(public available vehicle energy dataset)を用いて評価し、車両毎およびエネルギータイプ毎のベースラインと比較した。 その結果,予測性能が高く,予測不確実性の指標を出力することができた。

The transportation sector accounts for about 25% of global greenhouse gas emissions. Therefore, an improvement of energy efficiency in the traffic sector is crucial to reducing the carbon footprint. Efficiency is typically measured in terms of energy use per traveled distance, e.g. liters of fuel per kilometer. Leading factors that impact the energy efficiency are the type of vehicle, environment, driver behavior, and weather conditions. These varying factors introduce uncertainty in estimating the vehicles' energy efficiency. We propose in this paper an ensemble learning approach based on deep neural networks (ENN) that is designed to reduce the predictive uncertainty and to output measures of such uncertainty. We evaluated it using the publicly available Vehicle Energy Dataset (VED) and compared it with several baselines per vehicle and energy type. The results showed a high predictive performance and they allowed to output a measure of predictive uncertainty.
翻訳日:2023-04-17 13:46:20 公開日:2023-04-14
# cornerformer: きめ細かい構造再構築のためのコーナー表現の強化

CornerFormer: Boosting Corner Representation for Fine-Grained Structured Reconstruction ( http://arxiv.org/abs/2304.07072v1 )

ライセンス: Link先を確認
Hongbo Tian and Yulong Li and Linzhi Huang and Yue Yang and Weihong Deng(参考訳) 構造化再構成は非自明な密集した予測問題であり、ラスター画像から構造情報(例えば、建物角とエッジ)を抽出し、それを2次元平面グラフに再構成する。 一般的なセグメンテーションや検出問題と比較すると、構造的推論に全体幾何学的情報を活用する能力に大きく依存する。 現在の変圧器ベースのアプローチは、第1モデルのコーナーを検出し、第2モデルのエッジ(コーナーペア)を分類する、2段階的な方法でこの問題に取り組む。 しかし、2段階を異なるモデルに分離し、バックボーンエンコーダのみを共有する。 既存のモデリング戦略と異なり,コーナー表現法が強化されている。 1) 異なる粒度で特徴を共有することにより,コーナー検出とエッジ予測の知識を融合させる。 2)角膜候補は4つの熱マップチャネルにおいてその方向を示す。 質的および定量的評価により,提案手法は隣接する角や微小な縁などの細粒構造をよりよく再構成できることが証明された。 その結果、Cornerでは+1.9\%@F-1、Edgeでは+3.0\%@F-1で最先端モデルより優れている。

Structured reconstruction is a non-trivial dense prediction problem, which extracts structural information (\eg, building corners and edges) from a raster image, then reconstructs it to a 2D planar graph accordingly. Compared with common segmentation or detection problems, it significantly relays on the capability that leveraging holistic geometric information for structural reasoning. Current transformer-based approaches tackle this challenging problem in a two-stage manner, which detect corners in the first model and classify the proposed edges (corner-pairs) in the second model. However, they separate two-stage into different models and only share the backbone encoder. Unlike the existing modeling strategies, we present an enhanced corner representation method: 1) It fuses knowledge between the corner detection and edge prediction by sharing feature in different granularity; 2) Corner candidates are proposed in four heatmap channels w.r.t its direction. Both qualitative and quantitative evaluations demonstrate that our proposed method can better reconstruct fine-grained structures, such as adjacent corners and tiny edges. Consequently, it outperforms the state-of-the-art model by +1.9\%@F-1 on Corner and +3.0\%@F-1 on Edge.
翻訳日:2023-04-17 13:46:07 公開日:2023-04-14
# 誰が早期にルーズを破る:ポートハミルトン力学に基づく深層ニューラルネットワークの目標指向トレーニング

Who breaks early, looses: goal oriented training of deep neural networks based on port Hamiltonian dynamics ( http://arxiv.org/abs/2304.07070v1 )

ライセンス: Link先を確認
Julian Burghoff, Marc Heinrich Monells and Hanno Gottschalk(参考訳) 深いニューラルネットワークのパラメータの関数としての損失の高度に構造化されたエネルギー環境は、適切な性能を保証する(局所的な)ミニマを見つけるために洗練された最適化戦略を使用する必要がある。 適当でない局所最小値の克服は重要な前提条件であり、これを達成するために運動量法がしばしば用いられる。 他の非局所最適化手順と同様に、これは探索と搾取のバランスをとる必要がある。 本研究では, 損失関数の予め定義された還元値に到達して, 探索から搾取へ切り替えるイベントベース制御機構を提案する。 モーメント法にポートハミルトン解釈を与えると、ある目標を達成する際に「摩擦を伴う重い球」解釈を適用し、破壊(または摩擦)を引き起こす。 本手法を標準確率勾配降下に対してベンチマークし,提案手法を適用したディープニューラルネットワークの性能向上のための実験的証拠を提供する。

The highly structured energy landscape of the loss as a function of parameters for deep neural networks makes it necessary to use sophisticated optimization strategies in order to discover (local) minima that guarantee reasonable performance. Overcoming less suitable local minima is an important prerequisite and often momentum methods are employed to achieve this. As in other non local optimization procedures, this however creates the necessity to balance between exploration and exploitation. In this work, we suggest an event based control mechanism for switching from exploration to exploitation based on reaching a predefined reduction of the loss function. As we give the momentum method a port Hamiltonian interpretation, we apply the 'heavy ball with friction' interpretation and trigger breaking (or friction) when achieving certain goals. We benchmark our method against standard stochastic gradient descent and provide experimental evidence for improved performance of deep neural networks when our strategy is applied.
翻訳日:2023-04-17 13:45:51 公開日:2023-04-14
# SEA: スケーラブルなエンティティアライメントシステム

SEA: A Scalable Entity Alignment System ( http://arxiv.org/abs/2304.07065v1 )

ライセンス: Link先を確認
Junyang Wu, Tianyi Li, Lu Chen, Yunjun Gao, Ziheng Wei(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)に等価なエンティティを見つけることを目的としている。 最先端のEAアプローチは一般的に、エンティティをエンコードするためにグラフニューラルネットワーク(GNN)を使用する。 しかし、彼らのほとんどはモデルをトレーニングし、その結果をフルバッチ方式で評価し、大規模データセット上でのeaのスケーラビリティを禁止している。 実世界のアプリケーションにおけるGNNベースのEAモデルのユーザビリティを高めるため、スケーラブルなエンティティアライメントシステムSEAを提案する。 (i)EA向けの大規模GNNの訓練 (ii)正規化及び評価工程の高速化、及び (iii)異なるモデルやパラメータの設定を推定するための明確な結果を報告すること。 SEAは1枚のグラフィックカードでコンピュータ上で実行することができる。 さらに、SEAは6つの最先端EAモデルを含み、ユーザが自身のモデルを迅速に確立し評価するためのアクセスを提供する。 これにより、負のサンプリングやgpuによる評価といった面倒な実装に関わらず、ユーザはeaを実行できる。 SEAでは、ユーザーはモデルパフォーマンスの明確なビューを得ることができる。 実演では,seaはユーザフレンドリーであり,計算資源の少ないコンピュータでも高いスケーラビリティを示す。

Entity alignment (EA) aims to find equivalent entities in different knowledge graphs (KGs). State-of-the-art EA approaches generally use Graph Neural Networks (GNNs) to encode entities. However, most of them train the models and evaluate the results in a fullbatch fashion, which prohibits EA from being scalable on largescale datasets. To enhance the usability of GNN-based EA models in real-world applications, we present SEA, a scalable entity alignment system that enables to (i) train large-scale GNNs for EA, (ii) speed up the normalization and the evaluation process, and (iii) report clear results for users to estimate different models and parameter settings. SEA can be run on a computer with merely one graphic card. Moreover, SEA encompasses six state-of-the-art EA models and provides access for users to quickly establish and evaluate their own models. Thus, SEA allows users to perform EA without being involved in tedious implementations, such as negative sampling and GPU-accelerated evaluation. With SEA, users can gain a clear view of the model performance. In the demonstration, we show that SEA is user-friendly and is of high scalability even on computers with limited computational resources.
翻訳日:2023-04-17 13:45:36 公開日:2023-04-14
# 知識グラフにおける存在一階述語推論について

On Existential First Order Queries Inference on Knowledge Graphs ( http://arxiv.org/abs/2304.07063v1 )

ライセンス: Link先を確認
Hang Yin, Zihao Wang, Yangqiu Song(参考訳) 知識グラフの推論は、観測情報を利用して欠落を予測できるため、難しい課題である。 特に、一階述語論理式への応答は、その明確な構文と意味論のために特に興味深い。 近年,一組のエンティティの埋め込みを学習し,論理演算を集合演算として扱うクエリ埋め込み手法が提案されている。 同じ方法論を踏襲する研究が数多く行われているが、論理学の観点からは体系的な検査が欠けている。 本稿では,前回調査した問合せの範囲を特徴とし,それと実数式全体のギャップを正確に同定する。 さらに,10の新たな公式を含む新しいデータセットを開発し,新たな課題を同時に議論する。 最後に, ファジィ論理理論に基づく新たな探索アルゴリズムを提案する。

Reasoning on knowledge graphs is a challenging task because it utilizes observed information to predict the missing one. Specifically, answering first-order logic formulas is of particular interest because of its clear syntax and semantics. Recently, the query embedding method has been proposed which learns the embedding of a set of entities and treats logic operations as set operations. Though there has been much research following the same methodology, it lacks a systematic inspection from the standpoint of logic. In this paper, we characterize the scope of queries investigated previously and precisely identify the gap between it and the whole family of existential formulas. Moreover, we develop a new dataset containing ten new formulas and discuss the new challenges coming simultaneously. Finally, we propose a new search algorithm from fuzzy logic theory which is capable of solving new formulas and outperforming the previous methods in existing formulas.
翻訳日:2023-04-17 13:45:20 公開日:2023-04-14
# 最小限の仮定から公に検証可能な削除

Publicly Verifiable Deletion from Minimal Assumptions ( http://arxiv.org/abs/2304.07062v1 )

ライセンス: Link先を確認
Fuyuki Kitagawa, Ryo Nishimaki, Takashi Yamakawa(参考訳) 我々は,公開鍵暗号,属性ベース暗号,量子完全準同型暗号など,様々な暗号プリミティブに対して公に検証可能な削除プロパティを追加する汎用コンパイラを提案する。 コンパイラは一方関数のみを使用し、より一般的には一方関数で示されるNPの量子プランド問題を用いる。 これは最小の仮定に依存し、上記のプリミティブに対する追加の仮定なしで、公に検証可能な削除プロパティを追加することができる。 以前は、そのようなコンパイラは、インジェクティブトラップドア片方向関数や擬似ランダム群アクション(Bartusek-Khurana-Poremba, ePrint:2023/370]のような追加の仮定を必要としていた。 技術的には、既存のコンパイラをプライベートに検証可能な削除(bartusek-khurana, eprint:2022/1178])にアップグレードして、デジタル署名を使用して公に検証可能な削除を実現する。

We present a general compiler to add the publicly verifiable deletion property for various cryptographic primitives including public key encryption, attribute-based encryption, and quantum fully homomorphic encryption. Our compiler only uses one-way functions, or more generally hard quantum planted problems for NP, which are implied by one-way functions. It relies on minimal assumptions and enables us to add the publicly verifiable deletion property with no additional assumption for the above primitives. Previously, such a compiler needs additional assumptions such as injective trapdoor one-way functions or pseudorandom group actions [Bartusek-Khurana-Poremba, ePrint:2023/370]. Technically, we upgrade an existing compiler for privately verifiable deletion [Bartusek-Khurana, ePrint:2022/1178] to achieve publicly verifiable deletion by using digital signatures.
翻訳日:2023-04-17 13:45:05 公開日:2023-04-14
# モデル適応とアンサンブルを用いた多言語セグメンテーション

Tailored Multi-Organ Segmentation with Model Adaptation and Ensemble ( http://arxiv.org/abs/2304.07123v1 )

ライセンス: Link先を確認
Jiahua Dong, Guohua Cheng, Yue Zhang, Chengtao Peng, Yu Song, Ruofeng Tong, Lanfen Lin, Yen-Wei Chen(参考訳) 医用画像の異なる臓器を識別・分離する多臓器セグメンテーションは、医用画像解析の基本的な課題である。 近年、ディープラーニングの大きな成功は、マルチオーガンセグメンテーションタスクに広く採用されるきっかけとなった。 しかしながら、高価な労働コストと専門知識のため、多言語アノテーションの使用は一般的に制限されており、深層学習に基づく手法で十分なトレーニングデータを得ることが困難である。 本稿では,本論文では,市販の単一オーガンセグメンテーションモデルを組み合わせて,ターゲットデータセット上でマルチオーガンセグメンテーションモデルを構築することで,マルチオーガンセグメンテーションのための注釈付きデータへの依存を解消することを目的とする。 そこで本研究では,モデル適応ステージとモデルアンサンブルステージからなる新しいデュアルステージ方式を提案する。 第1段階はターゲットドメイン上の各オフ・ザ・シェルフセグメンテーションモデルの一般化を強化し、第2段階は複数の適応された単一組織セグメンテーションモデルからの知識を蒸留して統合する。 4つの腹部データセットに対する広範囲な実験により,本手法はオフ・ザ・シェルフ単一組織セグメンテーションモデルを効果的に活用し,高精度な多臓器セグメンテーションに適したモデルが得られることを示した。

Multi-organ segmentation, which identifies and separates different organs in medical images, is a fundamental task in medical image analysis. Recently, the immense success of deep learning motivated its wide adoption in multi-organ segmentation tasks. However, due to expensive labor costs and expertise, the availability of multi-organ annotations is usually limited and hence poses a challenge in obtaining sufficient training data for deep learning-based methods. In this paper, we aim to address this issue by combining off-the-shelf single-organ segmentation models to develop a multi-organ segmentation model on the target dataset, which helps get rid of the dependence on annotated data for multi-organ segmentation. To this end, we propose a novel dual-stage method that consists of a Model Adaptation stage and a Model Ensemble stage. The first stage enhances the generalization of each off-the-shelf segmentation model on the target domain, while the second stage distills and integrates knowledge from multiple adapted single-organ segmentation models. Extensive experiments on four abdomen datasets demonstrate that our proposed method can effectively leverage off-the-shelf single-organ segmentation models to obtain a tailored model for multi-organ segmentation with high accuracy.
翻訳日:2023-04-17 13:38:23 公開日:2023-04-14
# 説明可能な収量予測のためのランダム林の群落共有価値特性

Grouping Shapley Value Feature Importances of Random Forests for explainable Yield Prediction ( http://arxiv.org/abs/2304.07111v1 )

ライセンス: Link先を確認
Florian Huber, Hannes Engler, Anna Kicherer, Katja Herzog, Reinhard T\"opfer, Volker Steinhage(参考訳) 収差予測における説明可能性は、すでに様々な収差予測シナリオに対して高い精度を達成できる機械学習モデルの可能性の解明に役立ちます。 収量予測に含まれるデータは複雑であり、モデルを理解することはしばしば困難である。 しかし、モデルの理解は、入力特徴の自然なグループ化を用いて単純化することができる。 グループ化は、例えば、特徴がキャプチャされた時や、それに用いるセンサーによって達成される。 機械学習モデルを解釈するための最先端技術は現在、Shapley値のゲーム理論的アプローチによって定義されている。 特徴群を扱うために、計算されたシェープリー値は通常、このアプローチの理論的制限を無視して、一緒に追加される。 本稿では,事前定義された特徴群に対して直接計算されたShapley値の概念を説明し,木構造上で効率的に計算するアルゴリズムを提案する。 グローバル理解のための多くのローカルな説明を組み合わせた、スワーミングプロットを設計するための青写真を提供します。 2つの異なる収率予測問題の広範な評価は、我々のアプローチの価値を示し、将来的な収率予測モデルの理解を深める方法を示し、最終的には研究と応用の相互強化に繋がる。

Explainability in yield prediction helps us fully explore the potential of machine learning models that are already able to achieve high accuracy for a variety of yield prediction scenarios. The data included for the prediction of yields are intricate and the models are often difficult to understand. However, understanding the models can be simplified by using natural groupings of the input features. Grouping can be achieved, for example, by the time the features are captured or by the sensor used to do so. The state-of-the-art for interpreting machine learning models is currently defined by the game-theoretic approach of Shapley values. To handle groups of features, the calculated Shapley values are typically added together, ignoring the theoretical limitations of this approach. We explain the concept of Shapley values directly computed for predefined groups of features and introduce an algorithm to compute them efficiently on tree structures. We provide a blueprint for designing swarm plots that combine many local explanations for global understanding. Extensive evaluation of two different yield prediction problems shows the worth of our approach and demonstrates how we can enable a better understanding of yield prediction models in the future, ultimately leading to mutual enrichment of research and application.
翻訳日:2023-04-17 13:37:59 公開日:2023-04-14
# 古典量子確率過程の客観性

Objectivity of classical quantum stochastic processes ( http://arxiv.org/abs/2304.07110v1 )

ライセンス: Link先を確認
Piotr Sza\'nkowski and {\L}ukasz Cywi\'nski(参考訳) ここでは、観測可能な量子確率過程(いわゆる量子確率過程)の逐次量子測度がコルモゴロフ整合条件を満たすとき、量子系について何を結論付けることができるかを検討する。 システムダイナミクスに課される物理条件のセットを同定し、満足すれば、上記測定結果の軌道解釈に繋がる。 そして、別の量子系が可観測性に結合されたとき、それを表わす演算子を外部ノイズに置き換えることができることを示す。 重要なことに、このサロゲート(古典的)確率過程の実現は、観測者によって測定されたものと同じ軌道に従っている。 したがって、連続測定以外の文脈においても、一貫した測定によって示唆される軌道解釈が適用されるといえる。

Here we investigate what can be concluded about the quantum system when the sequential quantum measurements of its observable -- the so-called quantum stochastic process -- fulfill the Kolmogorov consistency condition, and thus, appears to an observer as a sampling of classical trajectory. We identify a set of physical conditions imposed on the system dynamics, that, when satisfied, lead to the aforementioned trajectory interpretation of the measurement results. Then, we show that when another quantum system is coupled to the observable, the operator representing it can be replaced by an external noise. Crucially, the realizations of this surrogate (classical) stochastic process are following the same trajectories as those measured by the observer. Therefore, it can be said that the trajectory interpretation suggested by the consistent measurements also applies in contexts other than sequential measurements.
翻訳日:2023-04-17 13:37:38 公開日:2023-04-14
# 非定常非エルミート量子振動子とその有意義な物理解釈

Non-stationary non-Hermitian "wrong-sign'' quantum oscillators and their meaningful physical interpretation ( http://arxiv.org/abs/2304.07103v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 閉じたユニタリ量子系の量子力学は、状態と可観測物の両方が時間によって変化する非エルミート相互作用図(NIP)で定式化することができる。 すると、一般に、Schr\"{o}dinger-equation generators $G(t)$ だけでなく、ハイゼンベルク-equation generators $\Sigma(t)$ は現象論的に無関係であり、スペクトルは一般に複素である。 和 $H(t)=G(t)+\Sigma(t)$ のみが即時エネルギーの標準的な物理的意味を保持する。 図示では、 `wrong-sign' のクォート発振器をリコールして再検討する。

Quantum mechanics of closed, unitary quantum systems can be formulated in non-Hermitian interaction picture (NIP) in which both the states and the observables vary with time. Then, in general, not only the Schr\"{o}dinger-equation generators $G(t)$ but also the Heisenberg-equation generators $\Sigma(t)$ are phenomenologically irrelevant, with spectra which are, in general, complex. Only the sum $H(t)=G(t)+\Sigma(t)$ retains the standard physical meaning of instantaneous energy. For illustration, the ``wrong-sign'' quartic oscillators are recalled and reconsidered.
翻訳日:2023-04-17 13:37:24 公開日:2023-04-14
# DSTC9とDSTC10のためのHLTPR@RWTHによるタスク指向文書群対話システム

Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9 and DSTC10 ( http://arxiv.org/abs/2304.07101v1 )

ライセンス: Link先を確認
David Thulke, Nico Daheim, Christian Dugast, Hermann Ney(参考訳) 本稿では,第9回および第10回ダイアログシステム技術チャレンジ(dstc9およびdstc10)において,文書化されたダイアログタスクに対する我々の貢献を要約する。 どちらのイテレーションでも、タスクは3つのサブタスクから成り、まず現在のターンが知識を求めるかどうかを検知し、次に関連する知識ドキュメントを選択し、次に選択したドキュメントに基づいて応答を生成する。 DSTC9では、選択タスクをより効率的にするための様々なアプローチを提案しました。 最善の方法である階層的選択は、元のベースラインと比較して実際に結果を改善し、24倍のスピードアップを与える。 タスクのdstc10イテレーションでは、書き込みダイアログで訓練されたシステムがノイズの多い自動音声認識の書き起こしでうまく機能するように適応することが課題だった。 そこで本研究では,モデルのロバスト性を向上させるためのデータ拡張手法と,生成した応答のスタイルを進行ダイアログに適合させる手法を提案する。 さらに,生成した応答の事実性を増大させることができるノイズチャネルモデルを提案した。 本研究では, これまでの貢献の要約に加えて, 人的判断に相関が低い生成タスクの自動評価指標について, 若干の改善点を報告し, 再検討する。

This paper summarizes our contributions to the document-grounded dialog tasks at the 9th and 10th Dialog System Technology Challenges (DSTC9 and DSTC10). In both iterations the task consists of three subtasks: first detect whether the current turn is knowledge seeking, second select a relevant knowledge document, and third generate a response grounded on the selected document. For DSTC9 we proposed different approaches to make the selection task more efficient. The best method, Hierarchical Selection, actually improves the results compared to the original baseline and gives a speedup of 24x. In the DSTC10 iteration of the task, the challenge was to adapt systems trained on written dialogs to perform well on noisy automatic speech recognition transcripts. Therefore, we proposed data augmentation techniques to increase the robustness of the models as well as methods to adapt the style of generated responses to fit well into the proceeding dialog. Additionally, we proposed a noisy channel model that allows for increasing the factuality of the generated responses. In addition to summarizing our previous contributions, in this work, we also report on a few small improvements and reconsider the automatic evaluation metrics for the generation task which have shown a low correlation to human judgments.
翻訳日:2023-04-17 13:37:11 公開日:2023-04-14
# Adaptive LiDARの事前サンプリング

Prior based Sampling for Adaptive LiDAR ( http://arxiv.org/abs/2304.07099v1 )

ライセンス: Link先を確認
Amit Shomer, Shai Avidan(参考訳) 適応型LiDARに適した畳み込みニューラルネットワーク(CNN)であるSampleDepthを提案する。 通常、LiDARサンプリング戦略は事前に定義されており、観察されたシーンとは独立している。 この非依存的な方法でLiDARがシーンをサンプリングする代わりに、SampleDepthは現在のフレームをサンプリングするのに最適な場所を適応的に決定する。 sampledepthは、深度完了ダウンストリームタスクのパフォーマンスを最適化するために訓練される。 サンプルDepthは2つの異なる深度補完ネットワークと2つのLiDARデータセット、KITTI深度補完と新たに導入された合成データセットShiFTで評価される。 サンプルディテールは異なるディテール完了下流タスクに効果的かつ適していることを示す。

We propose SampleDepth, a Convolutional Neural Network (CNN), that is suited for an adaptive LiDAR. Typically,LiDAR sampling strategy is pre-defined, constant and independent of the observed scene. Instead of letting a LiDAR sample the scene in this agnostic fashion, SampleDepth determines, adaptively, where it is best to sample the current frame.To do that, SampleDepth uses depth samples from previous time steps to predict a sampling mask for the current frame. Crucially, SampleDepth is trained to optimize the performance of a depth completion downstream task. SampleDepth is evaluated on two different depth completion networks and two LiDAR datasets, KITTI Depth Completion and the newly introduced synthetic dataset, SHIFT. We show that SampleDepth is effective and suitable for different depth completion downstream tasks.
翻訳日:2023-04-17 13:36:48 公開日:2023-04-14
# MRI画像によるアルツハイマー病発症時期予測のための重み付きシームズネットワーク

Weighted Siamese Network to Predict the Time to Onset of Alzheimer's Disease from MRI Images ( http://arxiv.org/abs/2304.07097v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Niamh Belton, Ronan P. Killeen, Kathleen M. Curran, Brian Mac Namee(参考訳) 認知症の最も一般的な原因であるアルツハイマー病(ad)は、軽度認知障害(mci)が先行する進行性疾患である。 この疾患の早期発見は治療決定に不可欠である。 しかし、コンピュータ支援ADの検出に関する文献の多くは、脳画像を健康、MCI、ADの3つの主要なカテゴリの1つに分類することに焦点を当てている。 これは進行性mci患者の軌道を正確に特定する機会を逃す。 本稿では、AD鑑定のための脳画像分類タスクを再検討し、それを順序分類タスクとして再編成し、重症ADステージにどれくらい近いかを予測する。 この目的のために、アルツハイマー病神経画像イニシアチブ(ADNI)データセットから進行性MCI患者を選抜し、ADへの進行時間を示す予測ターゲットを備えた順序的データセットを構築する。 我々は、MRI脳画像に基づくAD開始時刻を予測するために、シアムネットワークモデルを訓練する。 また,重み付き多種多様なシャムネットワークを提案し,その性能をベースラインモデルと比較する。 評価の結果,シアメーゼネットワークに重み付け因子を組み込むことで,入力脳MRI画像がADにどれだけ近づいたかを予測することができることがわかった。

Alzheimer's Disease (AD), which is the most common cause of dementia, is a progressive disease preceded by Mild Cognitive Impairment (MCI). Early detection of the disease is crucial for making treatment decisions. However, most of the literature on computer-assisted detection of AD focuses on classifying brain images into one of three major categories: healthy, MCI, and AD; or categorising MCI patients into one of (1) progressive: those who progress from MCI to AD at a future examination time during a given study period, and (2) stable: those who stay as MCI and never progress to AD. This misses the opportunity to accurately identify the trajectory of progressive MCI patients. In this paper, we revisit the brain image classification task for AD identification and re-frame it as an ordinal classification task to predict how close a patient is to the severe AD stage. To this end, we select progressive MCI patients from the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and construct an ordinal dataset with a prediction target that indicates the time to progression to AD. We train a siamese network model to predict the time to onset of AD based on MRI brain images. We also propose a weighted variety of siamese networks and compare its performance to a baseline model. Our evaluations show that incorporating a weighting factor to siamese networks brings considerable performance gain at predicting how close input brain MRI images are to progressing to AD.
翻訳日:2023-04-17 13:36:35 公開日:2023-04-14
# 量子論と宇宙論の解釈

Interpretation of Quantum Theory and Cosmology ( http://arxiv.org/abs/2304.07095v1 )

ライセンス: Link先を確認
Giovanni M. Prosepri, Massimiliano Baldicchi(参考訳) 我々は、量子論(QT)の宇宙全体の観点からの解釈の問題と、古典言語が我々の経験の言語であるという考えを再考し、QTはそれへの言及だけで意味を習得する。 古典的あるいはマクロ的なレベルと、それが最初に引き起こす変化によってのみ知覚される量子的あるいは微視的レベルを区別する。 宇宙の巨視的状態は、一組の変数、古典的エネルギー運動量テンソル、いくつかの保存された電流によって指定され、それらは時空全体にわたって明確に定義された値であると考えられている。 エネルギー運動量テンソルに対して、古典計量はアインシュタイン方程式によって関連づけられる。 量子状態とダイナミクスは、密度作用素とハイゼンベルク像の通常の量子作用素の観点から、通常のqt形式によって表現される。 マクロ変数について、確率の基本的な分布は密度と対応する量子作用素によって仮定されるので、その進化は根底にあるQTによって駆動される。 このような仮定は、基本的に通常のエルファドジョイント作用素対応を置き換える。 宇宙では、オメガ=1、ヒッグス型ポテンシャルを持つ1つのインフロン、t=マイナス無限の初期時間を持つ {\lambda}cdmモデルの分散を採用する。 すべての基本場の期待値は、無限に減少する時間のために消えるはずである。 このフレームワークでは、宇宙マイクロ波背景のスカラー変動を正しく説明し、ポテンシャルのパラメータを適切に計算する。 より一般的なモデルと同様に、テンソルゆらぎの欠如は、量子計量が導入されたとしても、まだ理解されていない。 これは重力が純粋に古典的な現象であることを示唆しているように思われる。

We reconsider the problem of the interpretation of the Quantum Theory (QT) in the perspective of the entire universe and of Bphr idea that the classical language is the language of our experience and QT acquires a meaning only with a reference to it. We distinguish a classical or macroscopic level, and a quantum or microscopic one that is perceived only through the modifications that it induces in the first. The macroscopic state of the universe is assumed to be specified by a set of variables, a classical energy momentum tensor and some conserved currents, which are supposed to have a well defined value across the entire space-time. To the energy-momentum tensor a classical metric is related by the Einstein equation. The quantum state and dynamics are expressed by the usual QT formalism in terms of a density operator and the ordinary quantum operators in Heisenberg picture. For the macroscopic variables a basic distribution of probability is postulated in terms of a density and the corresponding quantum operators, so in some way their evolution is driven by the underlying QT. Such postulate essentially replaces the usual elfadjoint operators correspondence. For the Universe we adopt a variance of the {\Lambda}CDM model with Omega=1, one single inflaton with an Higgs type potential, the initial time at t=minus infinite. The expectation values of all fundamental fields are supposed to vanish for time going to minus infinite. In the framework the scalar fluctuation in the Cosmic Microwave Background are correctly explained giving appropriate calue to the parameters in the potential. As in more conventional models the absence of the tensor fluctuations remains not understood, if even a quantum metric is introduced. This seems to suggest that Gravity is a pure classical phenomenon, what could be consistently accommodated in our formalism by an appropriate even if somewhat ad hoc assumption
翻訳日:2023-04-17 13:36:08 公開日:2023-04-14
# 視覚関係の一般化における対象中心表現,注意誘導,外的記憶の役割

The role of object-centric representations, guided attention, and external memory on generalizing visual relations ( http://arxiv.org/abs/2304.07091v1 )

ライセンス: Link先を確認
Guillermo Puebla and Jeffrey S. Bowers(参考訳) 視覚推論は視覚研究の長期的な目標である。 過去10年間で、画像から視覚的関係を学習するタスクにディープニューラルネットワーク(DNN)を適用しようとする研究がいくつかある。 近年,画像から抽象関係を学習するために,dnnの革新がいくつも開発されている。 本研究では,最も単純な視覚的推論タスクにおいて,スロットアテンション,繰り返し誘導されるアテンション,外部メモリなどの機構を統合する一連のDNNを体系的に評価する。 あるモデルは、特定の種類の画像と同一の異なる関係を一般化する上で、他のモデルよりも優れた性能を示したが、ボード全体にわたってこの関係を一般化するモデルは存在しなかった。 DNNにとって抽象的な視覚的推論は未解決の課題である。

Visual reasoning is a long-term goal of vision research. In the last decade, several works have attempted to apply deep neural networks (DNNs) to the task of learning visual relations from images, with modest results in terms of the generalization of the relations learned. In recent years, several innovations in DNNs have been developed in order to enable learning abstract relation from images. In this work, we systematically evaluate a series of DNNs that integrate mechanism such as slot attention, recurrently guided attention, and external memory, in the simplest possible visual reasoning task: deciding whether two objects are the same or different. We found that, although some models performed better than others in generalizing the same-different relation to specific types of images, no model was able to generalize this relation across the board. We conclude that abstract visual reasoning remains largely an unresolved challenge for DNNs.
翻訳日:2023-04-17 13:35:38 公開日:2023-04-14
# Delta Denoising Score

Delta Denoising Score ( http://arxiv.org/abs/2304.07090v1 )

ライセンス: Link先を確認
Amir Hertz, Kfir Aberman, Daniel Cohen-Or(参考訳) 対象プロンプトで記述されたコンテンツに対して、入力画像の最小限の変更を導くテキストベースの画像編集のための新しいスコア関数であるdelta denoising score(dds)を導入する。 ddsは、テキストから画像への拡散モデルの豊かな生成前処理を活用し、テキストによって指示された所望の方向に向けて画像を制御するための最適化問題において、損失項として使用できる。 DDSは画像編集のためにScore Distillation Sampling (SDS) 機構を使用している。 本研究では,SDSのみを用いることで,ノイズ勾配による非詳細でぼやけた出力がしばしば発生することを示す。 この問題に対処するために、DDSは入力画像と一致するプロンプトを使用して、SDSの望ましくない誤った方向を特定し、削除する。 我々のキーとなる前提は、SDSは一致したプロンプトと画像のペアで計算されたときにゼロであるべきであり、スコアがゼロでない場合、その勾配はSDSの誤った成分に帰せられるということである。 本分析は,テキストによる画像から画像への変換におけるDDSの能力を示す。 さらに,実効的なゼロショット画像翻訳モデルの訓練にDDSを使用できることを示す。 実験の結果,DDSは既存の手法よりも安定性と品質が優れており,テキストベースの画像編集における現実的な応用の可能性を強調している。

We introduce Delta Denoising Score (DDS), a novel scoring function for text-based image editing that guides minimal modifications of an input image towards the content described in a target prompt. DDS leverages the rich generative prior of text-to-image diffusion models and can be used as a loss term in an optimization problem to steer an image towards a desired direction dictated by a text. DDS utilizes the Score Distillation Sampling (SDS) mechanism for the purpose of image editing. We show that using only SDS often produces non-detailed and blurry outputs due to noisy gradients. To address this issue, DDS uses a prompt that matches the input image to identify and remove undesired erroneous directions of SDS. Our key premise is that SDS should be zero when calculated on pairs of matched prompts and images, meaning that if the score is non-zero, its gradients can be attributed to the erroneous component of SDS. Our analysis demonstrates the competence of DDS for text based image-to-image translation. We further show that DDS can be used to train an effective zero-shot image translation model. Experimental results indicate that DDS outperforms existing methods in terms of stability and quality, highlighting its potential for real-world applications in text-based image editing.
翻訳日:2023-04-17 13:35:22 公開日:2023-04-14
# 2023年。 実世界展開のための良質なレコメンダシステム

EvalRS 2023. Well-Rounded Recommender Systems For Real-World Deployments ( http://arxiv.org/abs/2304.07145v1 )

ライセンス: Link先を確認
Federico Bianchi, Patrick John Chia, Ciro Greco, Claudio Pomo, Gabriel Moreira, Davide Eynard, Fahd Husain, Jacopo Tagliabue(参考訳) EvalRSは、業界や学界の実践者たちを集めて、さまざまなデプロイメントシナリオにおける現実の影響に焦点を当てた、レコメンダシステムの丸い評価に関する議論を促進することを目的としている。 レコメンダシステムは、しばしば精度の指標によってのみ評価され、それらの一般化能力を完全に特徴づけることができず、公正性、バイアス、有用性、情報性といった重要な側面を見逃す。 このワークショップは、CIKMでの昨年のワークショップの成功に基づいているが、幅広いスコープとインタラクティブなフォーマットがある。

EvalRS aims to bring together practitioners from industry and academia to foster a debate on rounded evaluation of recommender systems, with a focus on real-world impact across a multitude of deployment scenarios. Recommender systems are often evaluated only through accuracy metrics, which fall short of fully characterizing their generalization capabilities and miss important aspects, such as fairness, bias, usefulness, informativeness. This workshop builds on the success of last year's workshop at CIKM, but with a broader scope and an interactive format.
翻訳日:2023-04-17 13:28:55 公開日:2023-04-14
# 縦続車追従モデルの検討

A Review on Longitudinal Car-Following Model ( http://arxiv.org/abs/2304.07143v1 )

ライセンス: Link先を確認
Tianya Zhang, Peter J. Jin, Sean T. McQuade, Benedetto Piccoli(参考訳) 車追従(cf)モデルは交通シミュレーションのコアコンポーネントであり、先進運転支援システム(adas)を備えた多くの量産車に搭載されている。 cf挙動の研究により, 車両間相互作用の基礎過程によって引き起こされる異なるマクロ現象の発生源を同定できる。 cf行動制御モデルは交通工学、物理学、認知科学、機械学習、強化学習など様々な分野を包含している。 本稿では,各CFモデル間の相違点,相補点,重複点を,その基礎となる論理と原理に従って概説する。 我々は,理論に基づくキネマティックモデル,刺激応答モデル,クルーズ制御モデルから,データ駆動型行動クローニング(BC)やImitation Learning(IL)に至るまで,代表的なアルゴリズムを概説し,その強みと限界を概説した。 このレビューでは、様々な原則で概念化されたcfモデルを分類し、膨大な文献を総合的な枠組みで要約する。

The car-following (CF) model is the core component for traffic simulations and has been built-in in many production vehicles with Advanced Driving Assistance Systems (ADAS). Research of CF behavior allows us to identify the sources of different macro phenomena induced by the basic process of pairwise vehicle interaction. The CF behavior and control model encompasses various fields, such as traffic engineering, physics, cognitive science, machine learning, and reinforcement learning. This paper provides a comprehensive survey highlighting differences, complementarities, and overlaps among various CF models according to their underlying logic and principles. We reviewed representative algorithms, ranging from the theory-based kinematic models, stimulus-response models, and cruise control models to data-driven Behavior Cloning (BC) and Imitation Learning (IL) and outlined their strengths and limitations. This review categorizes CF models that are conceptualized in varying principles and summarize the vast literature with a holistic framework.
翻訳日:2023-04-17 13:28:45 公開日:2023-04-14
# ニューラルネットワーク音声分離モデルの訓練のためのデータサンプリング戦略について

On Data Sampling Strategies for Training Neural Network Speech Separation Models ( http://arxiv.org/abs/2304.07142v1 )

ライセンス: Link先を確認
William Ravenscroft and Stefan Goetze and Thomas Hain(参考訳) 音声分離は、マルチスピーカー信号処理の重要な領域である。 ディープニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成した。 これらのモデルのいくつかは、トレーニングにかなりの時間を要し、高いメモリ要件を持つ。 これまでの研究では、これらの問題に対処するトレーニング例を短縮することを提案したが、モデルパフォーマンスへの影響はまだよく分かっていない。 本研究では,これらの訓練信号長(tsl)制限を適用した影響を,トランスフォーマモデルsepformerと畳み込みモデルconv-tasnetの2つの音声分離モデルで解析した。 wjs0-2mix、whamr、libri2mixデータセットは、信号長分布とトレーニング効率への影響によって分析される。 特定の分布に対して、特定のTSL制限を適用すると、より良い性能が得られることが示されている。 これは主に波形の開始指数をランダムにサンプリングし、トレーニングのよりユニークな例をもたらすことが示されている。 TSL制限4.42と動的混合(DM)を用いて訓練されたSepFormerモデルは、DMと無制限信号長で訓練された最高の性能のSepFormerモデルと一致している。 さらに、4.42s TSL制限は、WHAMRによるトレーニング時間の44%削減をもたらす。

Speech separation remains an important area of multi-speaker signal processing. Deep neural network (DNN) models have attained the best performance on many speech separation benchmarks. Some of these models can take significant time to train and have high memory requirements. Previous work has proposed shortening training examples to address these issues but the impact of this on model performance is not yet well understood. In this work, the impact of applying these training signal length (TSL) limits is analysed for two speech separation models: SepFormer, a transformer model, and Conv-TasNet, a convolutional model. The WJS0-2Mix, WHAMR and Libri2Mix datasets are analysed in terms of signal length distribution and its impact on training efficiency. It is demonstrated that, for specific distributions, applying specific TSL limits results in better performance. This is shown to be mainly due to randomly sampling the start index of the waveforms resulting in more unique examples for training. A SepFormer model trained using a TSL limit of 4.42s and dynamic mixing (DM) is shown to match the best-performing SepFormer model trained with DM and unlimited signal lengths. Furthermore, the 4.42s TSL limit results in a 44% reduction in training time with WHAMR.
翻訳日:2023-04-17 13:28:26 公開日:2023-04-14
# TUM-FA\c{C}ADE: fa\c{c}adeセグメンテーションのためのポイントクラウドベンチマークのレビューと強化

TUM-FA\c{C}ADE: Reviewing and enriching point cloud benchmarks for fa\c{c}ade segmentation ( http://arxiv.org/abs/2304.07140v1 )

ライセンス: Link先を確認
Olaf Wysocki, Ludwig Hoegner, Uwe Stilla(参考訳) 点雲は都市マッピングの目的に最適なデータセットの1つとして広く見なされている。 したがって、ポイントクラウドデータセットは様々な都市解釈手法のベンチマークタイプとして一般的に研究されている。 しかし、fa\c{c}adeセグメンテーションにポイントクラウドベンチマークを使用する研究者はほとんどいない。 ロバストなfa\c{c}adeセグメンテーションは、自動運転機能のシミュレーションから文化遺産の保存まで、様々な応用において重要な要素となっている。 本研究では,fa\c{c}adeセグメンテーションテストを容易にするために設計されたfa\c{c}ade関連クラスを用いて,既存のポイントクラウドデータセットを濃縮する方法を提案する。 既存のデータセットを効率的に拡張し、fa\c{c}adeセグメンテーションの可能性を包括的に評価する方法を提案する。 我々は、TUM-MLS-2016の機能を拡張するTUM-FA\c{C}ADEデータセットを作成するためにこの手法を使用する。 TUM-FA\c{C}ADEは、ポイントクラウドベースのfa\c{c}adeセグメンテーションタスクの開発を容易にするだけでなく、さらなるデータセットの強化にも応用できる。

Point clouds are widely regarded as one of the best dataset types for urban mapping purposes. Hence, point cloud datasets are commonly investigated as benchmark types for various urban interpretation methods. Yet, few researchers have addressed the use of point cloud benchmarks for fa\c{c}ade segmentation. Robust fa\c{c}ade segmentation is becoming a key factor in various applications ranging from simulating autonomous driving functions to preserving cultural heritage. In this work, we present a method of enriching existing point cloud datasets with fa\c{c}ade-related classes that have been designed to facilitate fa\c{c}ade segmentation testing. We propose how to efficiently extend existing datasets and comprehensively assess their potential for fa\c{c}ade segmentation. We use the method to create the TUM-FA\c{C}ADE dataset, which extends the capabilities of TUM-MLS-2016. Not only can TUM-FA\c{C}ADE facilitate the development of point-cloud-based fa\c{c}ade segmentation tasks, but our procedure can also be applied to enrich further datasets.
翻訳日:2023-04-17 13:28:05 公開日:2023-04-14
# イベントカメラによるニューロモルフィック光流れとリアルタイム実装

Neuromorphic Optical Flow and Real-time Implementation with Event Cameras ( http://arxiv.org/abs/2304.07139v1 )

ライセンス: Link先を確認
Yannick Schnider, Stanislaw Wozniak, Mathias Gehrig, Jules Lecomte, Axel von Arnim, Luca Benini, Davide Scaramuzza, Angeliki Pantazi(参考訳) 光フローは、多くのコンピュータビジョンパイプラインの重要な要素である相対運動に関する情報を提供する。 ニューラルネットワークは高精度な光フローを提供するが、効率とレイテンシが重要な役割を果たすエッジやロボットでは、その複雑さがしばしば禁止される。 この課題に対処するため、イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。 timelensにインスパイアされた新しいネットワークアーキテクチャを提案する。スパイクモードと非スパイクモードの両方で動作する場合、最先端の自己教師付き光フロー精度を向上させる。 物理イベントカメラを用いたリアルタイムパイプラインの実現を目的として,アクティビティと遅延解析に基づくモデル単純化手法を提案する。 精度を維持しつつ複雑性を約2桁低減した高速光フロー予測を行い,リアルタイム展開への道を開く。

Optical flow provides information on relative motion that is an important component in many computer vision pipelines. Neural networks provide high accuracy optical flow, yet their complexity is often prohibitive for application at the edge or in robots, where efficiency and latency play crucial role. To address this challenge, we build on the latest developments in event-based vision and spiking neural networks. We propose a new network architecture, inspired by Timelens, that improves the state-of-the-art self-supervised optical flow accuracy when operated both in spiking and non-spiking mode. To implement a real-time pipeline with a physical event camera, we propose a methodology for principled model simplification based on activity and latency analysis. We demonstrate high speed optical flow prediction with almost two orders of magnitude reduced complexity while maintaining the accuracy, opening the path for real-time deployments.
翻訳日:2023-04-17 13:27:47 公開日:2023-04-14
# 1つの説明はXILに合わない

One Explanation Does Not Fit XIL ( http://arxiv.org/abs/2304.07136v1 )

ライセンス: Link先を確認
Felix Friedrich, David Steinmann, Kristian Kersting(参考訳) 現在の機械学習モデルは、多くの分野で優れた結果を生み出すが、同時に近道学習と散発的な相関に苦しむ。 このような欠陥に対処するため、モデルの説明にユーザフィードバックを取り入れてモデルを修正するために、説明対話型機械学習(XIL)フレームワークが提案されている。 この作業は、このフレームワークで使用される説明に光を当てています。 特に,複数の説明手法による同時モデル修正について検討する。 この目的のために, textit{one の説明が XIL に合わないことを確認し, XIL によるモデル修正時に複数の説明を検討することを提案する。

Current machine learning models produce outstanding results in many areas but, at the same time, suffer from shortcut learning and spurious correlations. To address such flaws, the explanatory interactive machine learning (XIL) framework has been proposed to revise a model by employing user feedback on a model's explanation. This work sheds light on the explanations used within this framework. In particular, we investigate simultaneous model revision through multiple explanation methods. To this end, we identified that \textit{one explanation does not fit XIL} and propose considering multiple ones when revising models via XIL.
翻訳日:2023-04-17 13:27:32 公開日:2023-04-14
# 逆ガイド探査による可制御拡散モデルに向けて

Towards Controllable Diffusion Models via Reward-Guided Exploration ( http://arxiv.org/abs/2304.07132v1 )

ライセンス: Link先を確認
Hengtong Zhang, Tingyang Xu(参考訳) データサンプルの形成をマルコフ発生過程として定式化することにより、拡散モデルはタスクの集合において最先端のパフォーマンスを達成する。 近年, サンプル生成制御が可能な拡散モデルが多数提案されている。 これらの既存の手法のほとんどは、制御情報をノイズ近似器の入力(すなわち条件表現)として定式化したり、テストフェーズで事前訓練された分類器を導入してランジュバンダイナミックを条件目標に向かって導くかのどちらかである。 しかし、前者の手法は制御情報を条件表現として定式化できる場合にのみ機能し、後者は事前訓練された誘導分類器を微分可能である必要がある。 本稿では,強化学習(rl)による拡散モデルのトレーニングフェーズを導くrgdm(reward-guided diffusion model)という新しい枠組みを提案する。 提案したトレーニングフレームワークは,ログの重み付けと最大エントロピーRLの目的を橋渡しする。これは,ポリシ自体からではなく,指数スケールの報酬に比例したペイオフ分布からのサンプルによるポリシ勾配の算出を可能にする。 このようなフレームワークは高勾配のばらつきを緩和し、拡散モデルが逆過程における高い報酬を持つサンプルを探索することを可能にする。 3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。

By formulating data samples' formation as a Markov denoising process, diffusion models achieve state-of-the-art performances in a collection of tasks. Recently, many variants of diffusion models have been proposed to enable controlled sample generation. Most of these existing methods either formulate the controlling information as an input (i.e.,: conditional representation) for the noise approximator, or introduce a pre-trained classifier in the test-phase to guide the Langevin dynamic towards the conditional goal. However, the former line of methods only work when the controlling information can be formulated as conditional representations, while the latter requires the pre-trained guidance classifier to be differentiable. In this paper, we propose a novel framework named RGDM (Reward-Guided Diffusion Model) that guides the training-phase of diffusion models via reinforcement learning (RL). The proposed training framework bridges the objective of weighted log-likelihood and maximum entropy RL, which enables calculating policy gradients via samples from a pay-off distribution proportional to exponential scaled rewards, rather than from policies themselves. Such a framework alleviates the high gradient variances and enables diffusion models to explore for highly rewarded samples in the reverse process. Experiments on 3D shape and molecule generation tasks show significant improvements over existing conditional diffusion models.
翻訳日:2023-04-17 13:27:21 公開日:2023-04-14
# OPI at SemEval 2023 Task 9: マルチリンガルツイート親和性分析へのシンプルだが効果的なアプローチ

OPI at SemEval 2023 Task 9: A Simple But Effective Approach to Multilingual Tweet Intimacy Analysis ( http://arxiv.org/abs/2304.07130v1 )

ライセンス: Link先を確認
S{\l}awomir Dadas(参考訳) 本稿では,SemEval 2023多言語ツイート親和性分析共有タスクについて述べる。 このタスクの目的は、Twitter投稿の親密さレベルを10言語で評価することであった。 提案手法はいくつかのステップからなる。 まず,twitterデータに適応した言語モデルを作成するために,ドメイン内事前学習を行う。 次のステップでは、擬似ラベル付き例でトレーニングセットを拡張するために回帰モデルのアンサンブルを訓練する。 拡張データセットは最終ソリューションのトレーニングに使用される。 提案手法は,言語サブタスク10項目中5項目で第1位にランクインし,全言語で最高得点を得た。

This paper describes our submission to the SemEval 2023 multilingual tweet intimacy analysis shared task. The goal of the task was to assess the level of intimacy of Twitter posts in ten languages. The proposed approach consists of several steps. First, we perform in-domain pre-training to create a language model adapted to Twitter data. In the next step, we train an ensemble of regression models to expand the training set with pseudo-labeled examples. The extended dataset is used to train the final solution. Our method was ranked first in five out of ten language subtasks, obtaining the highest average score across all languages.
翻訳日:2023-04-17 13:26:57 公開日:2023-04-14
# semeval 2023タスク1: 視覚障害のための画像テキスト埋め込みとマルチモーダル情報検索

OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal Information Retrieval for Visual Word Sense Disambiguation ( http://arxiv.org/abs/2304.07127v1 )

ライセンス: Link先を確認
S{\l}awomir Dadas(参考訳) 視覚的単語感覚の曖昧さの目標は、与えられた単語の意味の説明に最もよく一致する画像を見つけることである。 これは難しい問題であり、言語とイメージ理解を組み合わせるアプローチが必要です。 本稿では,本論文で提案するsemeval 2023 visual word sense disambiguation shared taskについて述べる。 提案システムは,マルチモーダル埋め込み,メソッドのランク付け学習,知識に基づくアプローチを統合する。 私たちはCLIPモデルに基づいて分類器を構築し、結果をウィキペディアと語彙データベースから検索した追加情報で豊かにする。 私たちのソリューションは多言語タスクで3位にランクされ、ペルシャのトラックで優勝しました。

The goal of visual word sense disambiguation is to find the image that best matches the provided description of the word's meaning. It is a challenging problem, requiring approaches that combine language and image understanding. In this paper, we present our submission to SemEval 2023 visual word sense disambiguation shared task. The proposed system integrates multimodal embeddings, learning to rank methods, and knowledge-based approaches. We build a classifier based on the CLIP model, whose results are enriched with additional information retrieved from Wikipedia and lexical databases. Our solution was ranked third in the multilingual task and won in the Persian track, one of the three language subtasks.
翻訳日:2023-04-17 13:26:46 公開日:2023-04-14
# 会話の継続:構造化表現を用いて会話質問回答の依存性を解消する

Keeping the Questions Conversational: Using Structured Representations to Resolve Dependency in Conversational Question Answering ( http://arxiv.org/abs/2304.07125v1 )

ライセンス: Link先を確認
Munazza Zaib and Quan Z. Sheng and Wei Emma Zhang and Adnan Mahmood(参考訳) 会話型質問応答(ConvQA)を行うインテリジェントな対話エージェントを持つことは、もはやSci-Fi映画に限らず、現実に変わった。 これらのインテリジェントエージェントは、与えられた質問のコンテキストとして提供されるシーケンシャルなターンを理解し、正しく解釈する必要がある。 しかし、これらのシーケンシャルな質問は暗黙に残され、アナフォラやエリプシスのような自然言語現象の解決を必要とすることがある。 質問を書き直すというタスクは、コンテキストの変化の中で依存関係を解決するという課題に対処できる可能性がある。 それでも、暗黙の質問を書き直すという解決策には、冗長な質問の結果や、自己完結した質問を生成することでシナリオから会話的側面を取り出すといった潜在的な課題が伴う。 本稿では,中間表現を会話の手がかりとして捉え,生成するための新しいフレームワークCONVSR(CONVQA using Structured Representations)を提案する。 また、より魅力的で雄弁な会話エージェントを設計するために、このタスクの強みをどのように活用するかも検討した。 我々は,quacおよびcanardデータセット上でモデルをテストするとともに,提案するフレームワークが標準質問書換えモデルよりも優れたf1スコアを達成できることを実験的に示す。

Having an intelligent dialogue agent that can engage in conversational question answering (ConvQA) is now no longer limited to Sci-Fi movies only and has, in fact, turned into a reality. These intelligent agents are required to understand and correctly interpret the sequential turns provided as the context of the given question. However, these sequential questions are sometimes left implicit and thus require the resolution of some natural language phenomena such as anaphora and ellipsis. The task of question rewriting has the potential to address the challenges of resolving dependencies amongst the contextual turns by transforming them into intent-explicit questions. Nonetheless, the solution of rewriting the implicit questions comes with some potential challenges such as resulting in verbose questions and taking conversational aspect out of the scenario by generating self-contained questions. In this paper, we propose a novel framework, CONVSR (CONVQA using Structured Representations) for capturing and generating intermediate representations as conversational cues to enhance the capability of the QA model to better interpret the incomplete questions. We also deliberate how the strengths of this task could be leveraged in a bid to design more engaging and eloquent conversational agents. We test our model on the QuAC and CANARD datasets and illustrate by experimental results that our proposed framework achieves a better F1 score than the standard question rewriting model.
翻訳日:2023-04-17 13:26:32 公開日:2023-04-14
# 顔認識精度における画像変化の探索

Exploring Causes of Demographic Variations In Face Recognition Accuracy ( http://arxiv.org/abs/2304.07175v1 )

ライセンス: Link先を確認
Gabriella Pangelinan, K.S. Krishnapriya, Vitor Albiero, Grace Bezold, Kai Zhang, Kushal Vangara, Michael C. King, Kevin W. Bowyer(参考訳) 近年、メディアは顔認識技術における偏見と人種差別を非難している。 本稿では,非対称クロスデポグラフィ性能の原因を考察する実験結果について検討する。 精度の違いは, 1対1の面マッチングに対する非調分布と/または交配分布の変化によって表される。 考えられる原因には、肌の色、顔の大きさ、形状の違い、トレーニングデータにおける身元や画像の数の不均衡、テストデータで見える顔の量(「顔のピクセル」)などがある。 テスト画像の顔画像情報の人口統計学的差異は、顔認識精度の相違に最も直接的に影響を与えると考えられる。

In recent years, media reports have called out bias and racism in face recognition technology. We review experimental results exploring several speculated causes for asymmetric cross-demographic performance. We consider accuracy differences as represented by variations in non-mated (impostor) and / or mated (genuine) distributions for 1-to-1 face matching. Possible causes explored include differences in skin tone, face size and shape, imbalance in number of identities and images in the training data, and amount of face visible in the test data ("face pixels"). We find that demographic differences in face pixel information of the test images appear to most directly impact the resultant differences in face recognition accuracy.
翻訳日:2023-04-17 13:20:20 公開日:2023-04-14
# 多体ハミルトン学習における量子制御の利点

The advantage of quantum control in many-body Hamiltonian learning ( http://arxiv.org/abs/2304.07172v1 )

ライセンス: Link先を確認
Alicja Dutkiewicz, Thomas E. O'Brien and Thomas Schuster(参考訳) 実験データから多体量子システムのハミルトニアンを学習する問題について検討する。 学習速度は,実験中に利用可能な制御量に依存することを示す。 実験者は未知のハミルトニアンの下での時間進化を瞬時量子演算でインターリーブできる「離散量子制御」モデル、実験者がハミルトニアンを有界制御項で拡張できる「連続量子制御」モデル、実験者がシステムの時間進化を制御できないモデル(ただし初期状態と最終測定は選択できる)という3つの制御モデルを考える。 連続量子制御では、Heisenberg 極限で多体ハミルトニアンを学習するための適応的アルゴリズム、$T = \mathcal{O}(\epsilon^{-1})$を提供する。 量子制御が存在しない場合、学習は標準的な量子制限であり、固有状態熱化仮説によって熱化するハミルトニアンを含む多体ハミルトニアンの大きなクラスに対して$t = \omega(\epsilon^{-2})$であることが証明される。 我々のno-goの結果は、量子メモリを利用する学習アルゴリズムや、任意の量子複雑性の限られた数の個別制御操作を含むアルゴリズムにも当てはまる。 これらの結果は、量子制御による学習のための実験ランタイムにおいて二次的な利点を立証する。

We study the problem of learning the Hamiltonian of a many-body quantum system from experimental data. We show that the rate of learning depends on the amount of control available during the experiment. We consider three control models: a 'discrete quantum control' model where the experimentalist can interleave time evolution under the unknown Hamiltonian with instantaneous quantum operations, a 'continuous quantum control' model where the experimentalist can augment the Hamiltonian with bounded control terms, and a model where the experimentalist has no control over the system's time evolution (but can choose initial states and final measurements). With continuous quantum control, we provide an adaptive algorithm for learning a many-body Hamiltonian at the Heisenberg limit, $T = \mathcal{O}(\epsilon^{-1})$, which requires only preparation of product states, time-evolution, and measurement in a product basis. In the absence of quantum control, we prove that learning is standard quantum limited, $T = \Omega(\epsilon^{-2})$, for large classes of many-body Hamiltonians, including any Hamiltonian that thermalizes via the eigenstate thermalization hypothesis. Our no-go results apply even to learning algorithms that utilize quantum memories or involve a limited number of discrete control operations of arbitrary quantum complexity. These results establish a quadratic advantage in experimental runtime for learning with quantum control.
翻訳日:2023-04-17 13:20:08 公開日:2023-04-14
# 高分解能太陽観測イメージングのための生成モデルの比較研究

A Comparative Study on Generative Models for High Resolution Solar Observation Imaging ( http://arxiv.org/abs/2304.07169v1 )

ライセンス: Link先を確認
Mehdi Cherti, Alexander Czernik, Stefan Kesselheim, Frederic Effenberger, Jenia Jitsev(参考訳) 太陽活動は、我々の太陽系における変動の主な要因の1つであり、地球や地球近傍に影響を及ぼす宇宙気象現象の重要な原因である。 太陽ダイナミクス観測所(SDO)による高分解能極紫外(EUV)観測の広範な記録は、前例のない非常に大きな太陽画像のデータセットを提供する。 本研究では、この包括的なデータセットを用いて、現在最先端の生成モデルの能力を調査し、観測された太陽活動状態の背後にあるデータ分布を正確に把握する。 スタイルガンに基づく手法から, 自然顔画像のトレーニングとは対照的に, 高分解能サンプルのトレーニングにおいて, 太陽画像の細部の詳細を扱う上で, このモデルファミリーの深刻な欠陥を明らかにする。 拡散に基づく生成モデルファミリに切り替える際、我々は細部生成の大幅な改善を観察する。 GANファミリーでは、予め訓練された凍結特徴抽出器を備えたマルチスケール識別器であるProjectedGANsに切り替える際に、同様の改善が達成できる。 我々は,適切な微細なハンドリングのメカニズムを明らかにするため,アブレーション研究を行う。 スーパーコンピュータ上での分散トレーニングを用いて、評価によって示唆されるように、高画質のサンプルを生成する1024×1024解像度の生成モデルを訓練することができる。 この研究で使用されるすべてのコード、モデル、ワークフローは、 \url{https://github.com/slampai/generative-models-for-highres-solar-images} で公開されている。

Solar activity is one of the main drivers of variability in our solar system and the key source of space weather phenomena that affect Earth and near Earth space. The extensive record of high resolution extreme ultraviolet (EUV) observations from the Solar Dynamics Observatory (SDO) offers an unprecedented, very large dataset of solar images. In this work, we make use of this comprehensive dataset to investigate capabilities of current state-of-the-art generative models to accurately capture the data distribution behind the observed solar activity states. Starting from StyleGAN-based methods, we uncover severe deficits of this model family in handling fine-scale details of solar images when training on high resolution samples, contrary to training on natural face images. When switching to the diffusion based generative model family, we observe strong improvements of fine-scale detail generation. For the GAN family, we are able to achieve similar improvements in fine-scale generation when turning to ProjectedGANs, which uses multi-scale discriminators with a pre-trained frozen feature extractor. We conduct ablation studies to clarify mechanisms responsible for proper fine-scale handling. Using distributed training on supercomputers, we are able to train generative models for up to 1024x1024 resolution that produce high quality samples indistinguishable to human experts, as suggested by the evaluation we conduct. We make all code, models and workflows used in this study publicly available at \url{https://github.com/SLAMPAI/generative-models-for-highres-solar-images}.
翻訳日:2023-04-17 13:19:40 公開日:2023-04-14
# リアルタイム・データ集約型アプリケーションのためのデータ層としてのハイブリッドDLT

Hybrid DLT as a data layer for real-time, data-intensive applications ( http://arxiv.org/abs/2304.07165v1 )

ライセンス: Link先を確認
Andrea Canciani, Claudio Felicioli, Andrea Lisi, Fabio Severino(参考訳) 本稿では,私的かつ公共的なDLTの特定の特性が有用であり,他の特性が不要あるいは有害であるような,幅広い産業用途に対処する,ハイブリッドDLTと呼ばれる新しい手法を提案する。 Hybrid DLTアプローチは、データブロックの拡散が制限されたプライベート台帳がプライベートネットワーク内のノードによって共同で作成されるシステムを含む。 公的な監査可能な権威コンポーネントであるnotaryは、データブロックへのアクセスを必要とせず、各プライベート台帳に対して、単一の公式なコヒーレント履歴を保持する。 これは、公開DLTソリューションを利用して、台帳履歴を改ざんし、その結果、外部アクターに開示された台帳データの改ざん証拠を提供する。 本稿では,ハイブリッドdltアプローチの商用実装であるtraent hybrid blockchainを提案する。不変データを求める組織のためのリアルタイムかつデータ集約型コラボレーションシステムであり,欧州一般データ保護規則(gdpr)にも準拠する必要がある。

We propose a new approach, termed Hybrid DLT, to address a broad range of industrial use cases where certain properties of both private and public DLTs are valuable, while other properties may be unnecessary or detrimental. The Hybrid DLT approach involves a system where private ledgers, with limited data block dissemination, are collaboratively created by nodes within a private network. The Notary, a publicly auditable authoritative component, maintains a single, official, coherent history for each private ledger without requiring access to data blocks. This is achieved by leveraging a public DLT solution to render the ledger histories tamper-proof, consequently providing tamper-evidence for ledger data disclosed to external actors. We present Traent Hybrid Blockchain, a commercial implementation of the Hybrid DLT approach: a real-time, data-intensive collaboration system for organizations seeking immutable data while also needing to comply with the European General Data Protection Regulation (GDPR).
翻訳日:2023-04-17 13:19:16 公開日:2023-04-14
# 強化学習における外部アドバイスを取り入れたbandit-based policy invariant explicit shaping

Bandit-Based Policy Invariant Explicit Shaping for Incorporating External Advice in Reinforcement Learning ( http://arxiv.org/abs/2304.07163v1 )

ライセンス: Link先を確認
Yash Satsangi, Paniz Behboudian(参考訳) 強化学習(RL)エージェントの重要な課題は、外部/専門家1のアドバイスを学習に取り入れることである。 外部アドバイスでRLエージェントの学習を形作るアルゴリズムの望ましいゴールは、以下である。 a) 政策の不変性を維持すること b) エージェントの学習を加速すること,及び (c)任意のアドバイスから学ぶ[3]。 この課題に対処するために, シェーピングバンドイットと呼ばれるマルチアームバンドイットとして, 外部アドバイスをRLに組み込むという問題を定式化する。 実環境報酬に基づいて学習した既定のrlアルゴリズムに従えば,各腕の報酬は,実環境報酬に従えば得られるリターンに相当し,基礎となるリターンの非定常性を理由としない既存のバンディットおよびシェーピングアルゴリズムを直接適用することは,結果に悪影響を与える可能性がある。 そこで本研究では,UCB-PIES (UPIES), Racing-PIES (RPIES), Lazy PIES (LPIES) の3つの異なる形状のアルゴリズムを提案する。 4つの異なる設定で実験した結果,これらのアルゴリズムは上記の目標を達成できたが,他のアルゴリズムでは達成できなかった。

A key challenge for a reinforcement learning (RL) agent is to incorporate external/expert1 advice in its learning. The desired goals of an algorithm that can shape the learning of an RL agent with external advice include (a) maintaining policy invariance; (b) accelerating the learning of the agent; and (c) learning from arbitrary advice [3]. To address this challenge this paper formulates the problem of incorporating external advice in RL as a multi-armed bandit called shaping-bandits. The reward of each arm of shaping bandits corresponds to the return obtained by following the expert or by following a default RL algorithm learning on the true environment reward.We show that directly applying existing bandit and shaping algorithms that do not reason about the non-stationary nature of the underlying returns can lead to poor results. Thus we propose UCB-PIES (UPIES), Racing-PIES (RPIES), and Lazy PIES (LPIES) three different shaping algorithms built on different assumptions that reason about the long-term consequences of following the expert policy or the default RL algorithm. Our experiments in four different settings show that these proposed algorithms achieve the above-mentioned goals whereas the other algorithms fail to do so.
翻訳日:2023-04-17 13:18:58 公開日:2023-04-14
# 時間動的モデリングを用いた多フレーム動的環境における教師なし学習光学流れ

Unsupervised Learning Optical Flow in Multi-frame Dynamic Environment Using Temporal Dynamic Modeling ( http://arxiv.org/abs/2304.07159v1 )

ライセンス: Link先を確認
Zitang Sun, Shin'ya Nishida, and Zhengbo Luo(参考訳) 光フローの視覚的な推定には、多くの視覚タスク、教師なし学習、ビュー合成の監督を用いた教師あり学習が有望な代替手段として現れており、多くのケースで地対地流は容易には利用できない。 しかし、教師なし学習は、咬合や動きのぼやけによって画素追跡が失われる場合や、画像内容や空間構造の変化によってピクセルマッチングが損なわれる場合、不安定になりがちである。 自然環境において、動的閉塞または物体の変動は、複数のフレームにまたがる比較的遅い時間過程である。 したがって,動的シーンの多重フレーム列からの光フロー推定を探索する一方で,既存の教師なし手法のほとんどは時間的静的モデルに基づいている。 本稿では,現在の光流推定器に先立って,前回の高次運動を伝達する予測符号化構造に基づいて,時間的動的モデルを用いて教師なし光流推定を行う。 光流の時間的平滑さを仮定し,隣接フレームの運動前兆を用いて,オクルード領域のより信頼性の高い監視を行う。 挑戦シーンの本質を理解するため, ダイナミックオクルージョン, コンテンツ変動, 空間変動など, 長いシーケンスの様々なシナリオをシミュレートし, 自己監督蒸留を適用して, 長期間の動的環境下での物体の動きパターンをモデルに理解させる。 kitti 2012, kitti 2015, sintel clean, sintel final datasetsにおける実験は, 教師なし光フロー推定における本手法の有効性を示すものである。 この提案はメモリオーバーヘッドの利点を生かして最先端のパフォーマンスを実現する。

For visual estimation of optical flow, a crucial function for many vision tasks, unsupervised learning, using the supervision of view synthesis has emerged as a promising alternative to supervised methods, since ground-truth flow is not readily available in many cases. However, unsupervised learning is likely to be unstable when pixel tracking is lost due to occlusion and motion blur, or the pixel matching is impaired due to variation in image content and spatial structure over time. In natural environments, dynamic occlusion or object variation is a relatively slow temporal process spanning several frames. We, therefore, explore the optical flow estimation from multiple-frame sequences of dynamic scenes, whereas most of the existing unsupervised approaches are based on temporal static models. We handle the unsupervised optical flow estimation with a temporal dynamic model by introducing a spatial-temporal dual recurrent block based on the predictive coding structure, which feeds the previous high-level motion prior to the current optical flow estimator. Assuming temporal smoothness of optical flow, we use motion priors of the adjacent frames to provide more reliable supervision of the occluded regions. To grasp the essence of challenging scenes, we simulate various scenarios across long sequences, including dynamic occlusion, content variation, and spatial variation, and adopt self-supervised distillation to make the model understand the object's motion patterns in a prolonged dynamic environment. Experiments on KITTI 2012, KITTI 2015, Sintel Clean, and Sintel Final datasets demonstrate the effectiveness of our methods on unsupervised optical flow estimation. The proposal achieves state-of-the-art performance with advantages in memory overhead.
翻訳日:2023-04-17 13:18:32 公開日:2023-04-14
# 量子コヒーレンスの非局所的利点に対する排除原理

Exclusion principle for nonlocal advantage of quantum coherence ( http://arxiv.org/abs/2304.07154v1 )

ライセンス: Link先を確認
Priya Ghosh, Mahasweta Pandit, Chirag Srivastava, Ujjwal Sen(参考訳) 孤立量子系の状態の相互に偏りのない基底におけるコヒーレンスは相補関係に従う。 量子コヒーレンス(英: Nonlocal advantage of quantum coherence、NAQC)は、二部構成のシナリオで定義される、あるサブシステムのアンサンブルの平均的な量子コヒーレンスが、他のサブシステムの測定によって影響される状況である。 両部量子状態のNAQCを検出するための2つの基準を解析する。 我々は、標準基準よりも優れたnaqcを検出するために、基準をより一般化したバージョンのnaqcを構築し、naqcを示すより多くの状態をキャプチャできる。 これらのnaqc基準の局所ユニタリ不変性を証明する。 さらに,三部作シナリオにおけるNAQCのモノガミー特性について考察する。 我々はNAQCのモノガミーを2つの視点から確認し、モノガミー関係のノードオブザーバが非局所的優位性の測定を行うか否かを区別する。 特に、結節観察者が測定を行わない場合には、NAQCによって強い一夫一婦制関係(排他原理)が示される。

Coherences in mutually unbiased bases of states of an isolated quantum system follow a complementarity relation. The nonlocal advantage of quantum coherence (NAQC), defined in a bipartite scenario, is a situation in which the average quantum coherences of the ensembles of one subsystem, effected by a measurement performed on the other subsystem, violates the complementarity relation. We analyze two criteria to detect NAQC for bipartite quantum states. We construct a more generalized version of the criterion to detect NAQC that is better than the standard criterion as it can capture more states exhibiting NAQC. We prove the local unitary invariance of these NAQC criteria. Further on, we focus on investigating the monogamy properties of NAQC in the tripartite scenario. We check for monogamy of NAQC from two perspectives, differentiated by whether or not the nodal observer in the monogamy relation performs the measurement for the nonlocal advantage. We find in particular that in the case where the nodal observer does not perform the measurement, a strong monogamy relation - an exclusion principle - is exhibited by NAQC.
翻訳日:2023-04-17 13:18:01 公開日:2023-04-14
# 確率的説明器とサブグラフニューラルネットワークを組み合わせることで、表現力と解釈性が向上する

Combining Stochastic Explainers and Subgraph Neural Networks can Increase Expressivity and Interpretability ( http://arxiv.org/abs/2304.07152v1 )

ライセンス: Link先を確認
Indro Spinelli, Michele Guerra, Filippo Maria Bianchi, Simone Scardapane(参考訳) サブグラフ強化グラフニューラルネットワーク(SGNN)は、標準メッセージパッシングフレームワークの表現力を高めることができる。 このモデルファミリは、各グラフをサブグラフの集合として表現し、一般にランダムサンプリングや手作りのヒューリスティックで抽出する。 我々は,gnnの表現性向上に加えて,「意味のある」部分グラフを選択することで,解釈可能な結果を得ることができることを重要視している。 そこで本研究では,グラフのクラスと説明的スパース部分グラフのセットを共同で予測する新しい枠組みを提案する。 我々は,ランダムノード/エッジ削除戦略のような標準サブグラフ抽出ポリシーと比較した。 私たちのフレームワークが生成するサブグラフは、説明を提供することによって、精度の面で同等のパフォーマンスを実現することができます。

Subgraph-enhanced graph neural networks (SGNN) can increase the expressive power of the standard message-passing framework. This model family represents each graph as a collection of subgraphs, generally extracted by random sampling or with hand-crafted heuristics. Our key observation is that by selecting "meaningful" subgraphs, besides improving the expressivity of a GNN, it is also possible to obtain interpretable results. For this purpose, we introduce a novel framework that jointly predicts the class of the graph and a set of explanatory sparse subgraphs, which can be analyzed to understand the decision process of the classifier. We compare the performance of our framework against standard subgraph extraction policies, like random node/edge deletion strategies. The subgraphs produced by our framework allow to achieve comparable performance in terms of accuracy, with the additional benefit of providing explanations.
翻訳日:2023-04-17 13:17:40 公開日:2023-04-14
# システム最適化リニューアブルのマルチモーダリティによるエンドツーエンド学習

End-to-End Learning with Multiple Modalities for System-Optimised Renewables Nowcasting ( http://arxiv.org/abs/2304.07151v1 )

ライセンス: Link先を確認
Rushil Vohra, Ali Rajaei, Jochen L. Cremer(参考訳) 風力や太陽などの再生可能エネルギーの浸透が進み、正確な短期的、再生可能エネルギー予測の重要性が高まっている。 本稿では,再生可能電力をエネルギー管理システムの中間として活用するためのマルチモーダル(MM)学習とエンド・ツー・エンド(E2E)学習について検討する。 mmは、全空画像と気象センサデータの特徴を2つのモードとして組み合わせ、再生可能発電を予測する。 組み合わせて予測された値は、エネルギー管理をシミュレートする微分可能な最適電力フロー(OPF)に入力される。 MMは、期待されるシステムコストを最小化するモデルのE2Eトレーニングと初めて組み合わせられる。 このケーススタディは、オランダの実際の空と気象データに関する提案手法をテストする。 本研究では,mm-e2eモデルにより,ユニモーダルベースラインと比較してシステムコストを30%削減した。

With the increasing penetration of renewable power sources such as wind and solar, accurate short-term, nowcasting renewable power prediction is becoming increasingly important. This paper investigates the multi-modal (MM) learning and end-to-end (E2E) learning for nowcasting renewable power as an intermediate to energy management systems. MM combines features from all-sky imagery and meteorological sensor data as two modalities to predict renewable power generation that otherwise could not be combined effectively. The combined, predicted values are then input to a differentiable optimal power flow (OPF) formulation simulating the energy management. For the first time, MM is combined with E2E training of the model that minimises the expected total system cost. The case study tests the proposed methodology on the real sky and meteorological data from the Netherlands. In our study, the proposed MM-E2E model reduced system cost by 30% compared to uni-modal baselines.
翻訳日:2023-04-17 13:17:26 公開日:2023-04-14
# マルチモーダル非教師付き全体PET異常検出用クロスアテンショントランス

Cross Attention Transformers for Multi-modal Unsupervised Whole-Body PET Anomaly Detection ( http://arxiv.org/abs/2304.07147v1 )

ライセンス: Link先を確認
Ashay Patel, Petru-Danial Tudiosu, Walter H.L. Pinaya, Gary Cook, Vicky Goh, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 癌は非常に異質な状態であり、ヒトの体内でほぼどこでも起こる。 18F-フルオロデオキシグルコース(18F-fluorodeoxyglucose)は、高い感度と代謝活性の明確な可視化により、がんを検出するために一般的に用いられる画像モダリティである。 それにもかかわらず、がんは非常に異種であるため、データ可用性と疾患の複雑さが制限要因としてしばしば挙げられる、汎用的な判別型がん検出モデルを訓練することは困難である。 教師なし異常検出モデルは仮定解として提案されている。 これらのモデルは組織を健全に表現し、健康な規範からの逸脱を予測することによってがんを検出する。 このような特性は、通常データでのトレーニングによって教師なし異常検出を行う最先端の結果を生成するトランスフォーマによって適切に満たされている。 本研究は, 対CTから解剖学的基準を提供するクロスアテンションにより, トランスフォーマーのマルチモーダルコンディショニングを導入することにより, そのアプローチを拡大する。 294例のPET/CT検体を用いて, 正常な訓練データがない場合でも, 異常検出法は頑健であり, 正確な癌局所化結果が得られることを示した。 さらに,本手法の汎用性を示すサンプル外データに対して,限られたトレーニングデータを用いた手法の有効性を示す。 最後に,新しいカーネル密度推定手法とモデル不確かさを組み合わせることを提案し,従来の残差に基づく異常マップと比較して臨床的,統計的に有意な改善をもたらすことを示す。 全体として、最先端の代替案に対して優れた性能を示し、これらのアプローチの可能性に注意を向けている。

Cancer is a highly heterogeneous condition that can occur almost anywhere in the human body. 18F-fluorodeoxyglucose is an imaging modality commonly used to detect cancer due to its high sensitivity and clear visualisation of the pattern of metabolic activity. Nonetheless, as cancer is highly heterogeneous, it is challenging to train general-purpose discriminative cancer detection models, with data availability and disease complexity often cited as a limiting factor. Unsupervised anomaly detection models have been suggested as a putative solution. These models learn a healthy representation of tissue and detect cancer by predicting deviations from the healthy norm, which requires models capable of accurately learning long-range interactions between organs and their imaging patterns with high levels of expressivity. Such characteristics are suitably satisfied by transformers, which have been shown to generate state-of-the-art results in unsupervised anomaly detection by training on normal data. This work expands upon such approaches by introducing multi-modal conditioning of the transformer via cross-attention i.e. supplying anatomical reference from paired CT. Using 294 whole-body PET/CT samples, we show that our anomaly detection method is robust and capable of achieving accurate cancer localization results even in cases where normal training data is unavailable. In addition, we show the efficacy of this approach on out-of-sample data showcasing the generalizability of this approach with limited training data. Lastly, we propose to combine model uncertainty with a new kernel density estimation approach, and show that it provides clinically and statistically significant improvements when compared to the classic residual-based anomaly maps. Overall, a superior performance is demonstrated against leading state-of-the-art alternatives, drawing attention to the potential of these approaches.
翻訳日:2023-04-17 13:17:12 公開日:2023-04-14
# 事前学習点クラウドモデルのためのインスタンス対応動的プロンプトチューニング

Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models ( http://arxiv.org/abs/2304.07221v1 )

ライセンス: Link先を確認
Yaohua Zha, Jinpeng Wang, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia(参考訳) 最近、事前訓練されたポイントクラウドモデルは、オブジェクト分類のような下流タスクに広範囲に応用されている。 しかし、これらのタスクは、しばしばモデルの完全な微調整を必要とし、ストレージ集約的な手順につながるため、事前訓練されたモデルの実際の応用は制限される。 視覚における視覚的プロンプトチューニング(VPT)の大成功に触発されて,大規模モデルのフル微調整の代替として有効なプロンプトチューニングを探究し,クラウド事前学習モデルを指してストレージコストを削減する。 しかし、ポイントクラウドデータの分布の多様性のため、従来の静的VPTをポイントクラウドに適用するのは簡単ではない。 例えば、スキャンされた点雲は様々な種類の欠点やノイズ点を示す。 この問題に対処するために、各インスタンスのセマンティックな事前特徴を認識するためにプロンプトモジュールを利用する、ポイントクラウド事前訓練モデルのためのインスタンス対応動的プロンプトチューニング(IDPT)を提案する。 このセマンティクスは、各インスタンスのユニークなプロンプトの学習を促進するため、ダウンストリームタスクがトレーニング済みのポイントクラウドモデルに堅牢に適応できるようにする。 特に、下流タスクで実施された広範囲な実験により、IDTはトレーニング可能なパラメータのわずか7倍の精度で、ほとんどのタスクにおいて完全な微調整よりも優れており、保存圧が著しく低下することが示された。 コードは \url{https://github.com/zyh16143998882/idpt} で入手できる。

Recently, pre-trained point cloud models have found extensive applications in downstream tasks like object classification. However, these tasks often require {full fine-tuning} of models and lead to storage-intensive procedures, thus limiting the real applications of pre-trained models. Inspired by the great success of visual prompt tuning (VPT) in vision, we attempt to explore prompt tuning, which serves as an efficient alternative to full fine-tuning for large-scale models, to point cloud pre-trained models to reduce storage costs. However, it is non-trivial to apply the traditional static VPT to point clouds, owing to the distribution diversity of point cloud data. For instance, the scanned point clouds exhibit various types of missing or noisy points. To address this issue, we propose an Instance-aware Dynamic Prompt Tuning (IDPT) for point cloud pre-trained models, which utilizes a prompt module to perceive the semantic prior features of each instance. This semantic prior facilitates the learning of unique prompts for each instance, thus enabling downstream tasks to robustly adapt to pre-trained point cloud models. Notably, extensive experiments conducted on downstream tasks demonstrate that IDPT outperforms full fine-tuning in most tasks with a mere 7\% of the trainable parameters, thus significantly reducing the storage pressure. Code is available at \url{https://github.com/zyh16143998882/IDPT}.
翻訳日:2023-04-17 13:11:15 公開日:2023-04-14
# 自己教師付き表現学習によるモデル予測制御

Model Predictive Control with Self-supervised Representation Learning ( http://arxiv.org/abs/2304.07219v1 )

ライセンス: Link先を確認
Jonas Matthies, Muhammad Burhan Hafez, Mostafa Kotb, Stefan Wermter(参考訳) ここ数年、モデルフリーやモデルベースの学習方法において、一方が他方に比べて時代遅れになるような大きな進展は見られていません。 ほとんどの場合、使用されるテクニックはユースケースのシナリオや環境など他の属性に大きく依存します。 どちらのアプローチも、サンプル効率や計算効率など、それぞれ独自の利点がある。 しかし、この2つを組み合わせると、それぞれの利点が組み合わされ、より良い性能が得られる。 TD-MPCフレームワークはこのアプローチの例である。 一方、モデル予測制御と組み合わせた世界モデルを用いて、値関数の適切な初期推定を行う。 一方、q関数は、良好な長期推定を提供するために使用される。 muzeroのようなアルゴリズムと同様に、タスク関連情報のみをエンコードして複雑さを減らす、潜在状態表現が使用される。 本稿では,TD-MPCフレームワーク内での再構成関数の利用を提案する。 これにより、エージェントはトレーニング中により安定した学習信号を得ることができ、サンプル効率も向上する。 提案する損失項の追加により,DeepMind-Controlスイートのステートベースタスクとイメージベースタスクの両方のパフォーマンスが向上した。

Over the last few years, we have not seen any major developments in model-free or model-based learning methods that would make one obsolete relative to the other. In most cases, the used technique is heavily dependent on the use case scenario or other attributes, e.g. the environment. Both approaches have their own advantages, for example, sample efficiency or computational efficiency. However, when combining the two, the advantages of each can be combined and hence achieve better performance. The TD-MPC framework is an example of this approach. On the one hand, a world model in combination with model predictive control is used to get a good initial estimate of the value function. On the other hand, a Q function is used to provide a good long-term estimate. Similar to algorithms like MuZero a latent state representation is used, where only task-relevant information is encoded to reduce the complexity. In this paper, we propose the use of a reconstruction function within the TD-MPC framework, so that the agent can reconstruct the original observation given the internal state representation. This allows our agent to have a more stable learning signal during training and also improves sample efficiency. Our proposed addition of another loss term leads to improved performance on both state- and image-based tasks from the DeepMind-Control suite.
翻訳日:2023-04-17 13:10:47 公開日:2023-04-14
# quacs:変分量子アルゴリズムによるサブグラフゲームにおける連立構造生成

QuACS: Variational Quantum Algorithm for Coalition Structure Generation in Induced Subgraph Games ( http://arxiv.org/abs/2304.07218v1 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Matthias Klusch(参考訳) CSG(Coalition Structure Generation)はNP-Hardの問題であり、エージェントは相互排他的なグループに分けられ、社会的福祉を最大化する。 本研究では,誘導部分グラフゲーム(isgs)における結合構造生成のためのハイブリッド量子古典アルゴリズムquacsを提案する。 すべてのエージェントが単一の連立に属する連立構造から始まり、QuACSは最適分割を2つの非結合部分集合に再帰的に特定する。 この問題はQUBOとして再編成され、QAOAを用いて解決される。 n$-agent ISG が与えられた場合、提案アルゴリズムは既存の近似古典的解法よりも$\mathcal{O}(n^2)$ と 92\%$ の近似比が優れていることを示す。 さらに、量子ビットの数が大幅に少なくなり、既存の量子解と比較して中規模の問題の実験が可能である。 QuACSの有効性を示すために、量子シミュレーションを用いて標準ベンチマークデータセットで実験を行う。

Coalition Structure Generation (CSG) is an NP-Hard problem in which agents are partitioned into mutually exclusive groups to maximize their social welfare. In this work, we propose QuACS, a novel hybrid quantum classical algorithm for Coalition Structure Generation in Induced Subgraph Games (ISGs). Starting from a coalition structure where all the agents belong to a single coalition, QuACS recursively identifies the optimal partition into two disjoint subsets. This problem is reformulated as a QUBO and then solved using QAOA. Given an $n$-agent ISG, we show that the proposed algorithm outperforms existing approximate classical solvers with a runtime of $\mathcal{O}(n^2)$ and an expected approximation ratio of $92\%$. Furthermore, it requires a significantly lower number of qubits and allows experiments on medium-sized problems compared to existing quantum solutions. To show the effectiveness of QuACS we perform experiments on standard benchmark datasets using quantum simulation.
翻訳日:2023-04-17 13:10:29 公開日:2023-04-14
# 自己教師付き学習と空中およびジェダイライダーを用いた視覚トランスフォーマーを用いたサブメートル分解能キャノピー高さマップ

Sub-meter resolution canopy height maps using self-supervised learning and a vision transformer trained on Aerial and GEDI Lidar ( http://arxiv.org/abs/2304.07213v1 )

ライセンス: Link先を確認
Jamie Tolan, Hung-I Yang, Ben Nosarzewski, Guillaume Couairon, Huy Vo, John Brandt, Justine Spore, Sayantan Majumdar, Daniel Haziza, Janaki Vamaraju, Theo Moutakani, Piotr Bojanowski, Tracy Johns, Brian White, Tobias Tiecke, Camille Couprie(参考訳) 植生構造マッピングは、地球規模の炭素循環を理解し、気候適応と緩和に対する自然に基づくアプローチを監視するために重要である。 これらのデータの繰り返し測定は、森林の森林破壊や劣化の観察、自然林の再生、アグロフォレストリーのような持続可能な農業の実践を可能にする。 樹冠の高さと樹冠突出部を高空間分解能で評価することは,特に農林システムにおいて,森林構造が空間的に不均一であることから,炭素フラックスのモニタリングや森林利用の評価にも重要である。 非常に高解像度の衛星画像(地上サンプル距離が1メートル未満)は、非常に大規模なモニタリングを可能にしながら、木レベルで情報を抽出することができる。 本稿では,複数の国別管轄区域で同時に作成される最初の高解像度天蓋の高さマップについて述べる。 具体的には、カリフォルニア州と s\~{a}o paolo のために、以前のセンチネル/gediベースのキャノピー高さのグローバルマップの10メートル (10m) の解像度を大幅に改善したキャノピー高さマップを作成する。 地図は、2017年から2020年にかけてマクサー画像の自己監督モデルから抽出された特徴に視覚変換器を適用して作成され、空中ライダーやGEDI観測に対して訓練されている。 提案したマップを,他のリモートセンシングマップやフィールド収集データと比較することにより,セットアサイド検証ライダーデータを用いて評価し,セットアサイド検証領域3.0mで平均平均平均絶対誤差(MAE)を生成する。

Vegetation structure mapping is critical for understanding the global carbon cycle and monitoring nature-based approaches to climate adaptation and mitigation. Repeat measurements of these data allow for the observation of deforestation or degradation of existing forests, natural forest regeneration, and the implementation of sustainable agricultural practices like agroforestry. Assessments of tree canopy height and crown projected area at a high spatial resolution are also important for monitoring carbon fluxes and assessing tree-based land uses, since forest structures can be highly spatially heterogeneous, especially in agroforestry systems. Very high resolution satellite imagery (less than one meter (1m) ground sample distance) makes it possible to extract information at the tree level while allowing monitoring at a very large scale. This paper presents the first high-resolution canopy height map concurrently produced for multiple sub-national jurisdictions. Specifically, we produce canopy height maps for the states of California and S\~{a}o Paolo, at sub-meter resolution, a significant improvement over the ten meter (10m) resolution of previous Sentinel / GEDI based worldwide maps of canopy height. The maps are generated by applying a vision transformer to features extracted from a self-supervised model in Maxar imagery from 2017 to 2020, and are trained against aerial lidar and GEDI observations. We evaluate the proposed maps with set-aside validation lidar data as well as by comparing with other remotely sensed maps and field-collected data, and find our model produces an average Mean Absolute Error (MAE) within set-aside validation areas of 3.0 meters.
翻訳日:2023-04-17 13:10:13 公開日:2023-04-14
# ハイパーグラフ上の3体相互作用を持つ非線形平均ダイナミクスの収束について

On the convergence of nonlinear averaging dynamics with three-body interactions on hypergraphs ( http://arxiv.org/abs/2304.07203v1 )

ライセンス: Link先を確認
Emilio Cruciani, Emanuela L. Giacomelli, Jinyeop Lee(参考訳) 物理学、生物学、社会科学などの分野における複雑なネットワークシステムは、単純なペアワイズ以上の相互作用を含むことが多い。 ハイパーグラフは、多体相互作用を持つシステムの複雑な振る舞いを記述および分析するための強力なモデリングツールとして機能する。 本稿では,3次元相互作用を持つ離散時間非線形平均化ダイナミクスについて検討する:三重項をハイパーエッジとして含むハイパーグラフは,これらの相互作用の構造を記述し,頂点は重み付けされた状態依存状態の状態を更新する。 このダイナミクスはピアプレッシャーのような強化群効果を捉え、初期状態、ハイパーグラフトポロジー、更新の非線形性の間の複雑な相互作用から生じる高次動的効果を示す。 2体相互作用を持つグラフ上の線形平均ダイナミクスとは異なり、このモデルは初期状態の平均に収束せず、シフトを誘導する。 ランダムな初期状態とハイパーグラフ上の正規性と密度の仮定を仮定することにより、この力学が確率の高い初期状態の乗法的にシフトした平均に収束することを証明する。 さらに,初期状態と相互作用強度を表す2つのパラメータの関数としてのシフトと,ハイパーグラフ構造の関数としての収束時間とを特徴付ける。

Complex networked systems in fields such as physics, biology, and social sciences often involve interactions that extend beyond simple pairwise ones. Hypergraphs serve as powerful modeling tools for describing and analyzing the intricate behaviors of systems with multi-body interactions. Herein, we investigate a discrete-time nonlinear averaging dynamics with three-body interactions: an underlying hypergraph, comprising triples as hyperedges, delineates the structure of these interactions, while the vertices update their states through a weighted, state-dependent average of neighboring pairs' states. This dynamics captures reinforcing group effects, such as peer pressure, and exhibits higher-order dynamical effects resulting from a complex interplay between initial states, hypergraph topology, and nonlinearity of the update. Differently from linear averaging dynamics on graphs with two-body interactions, this model does not converge to the average of the initial states but rather induces a shift. By assuming random initial states and by making some regularity and density assumptions on the hypergraph, we prove that the dynamics converges to a multiplicatively-shifted average of the initial states, with high probability. We further characterize the shift as a function of two parameters describing the initial state and interaction strength, as well as the convergence time as a function of the hypergraph structure.
翻訳日:2023-04-17 13:09:30 公開日:2023-04-14
# EV-Catcher:低レイテンシイベントベースニューラルネットワークを用いた高速物体キャッチ

EV-Catcher: High-Speed Object Catching Using Low-latency Event-based Neural Networks ( http://arxiv.org/abs/2304.07200v1 )

ライセンス: Link先を確認
Ziyun Wang, Fernando Cladera Ojeda, Anthony Bisulco, Daewon Lee, Camillo J. Taylor, Kostas Daniilidis, M. Ani Hsieh, Daniel D. Lee, and Volkan Isler(参考訳) イベントベースのセンサーは最近、標準のcmosベースのイメージ装置に比べてレイテンシが低く、ダイナミックレンジが高く、帯域幅が小さいため、ロボットの知覚への関心が高まっている。 これらの特性は、高ダイナミック環境におけるリアルタイム認識タスクに理想的なツールである。 本研究では,イベントカメラが優れ,高速移動物体の衝突位置を正確に推定するアプリケーションを実演する。 我々は、低レイテンシでイベントデータをエンコードするbinary event history image(behi)と呼ばれる軽量なイベント表現を導入するとともに、ロボットに信頼可能な制御信号のリアルタイム推論を可能にする学習ベースのアプローチを導入する。 提案手法を検証するために,高速飛行するピンポン球を捕獲する実験捕球システムを提案する。 Nvidia Jetson NXのような計算制約付き組込みプラットフォーム上でも最大13m/sの速度で、異なる場所をターゲットとしたボールをキャッチする際の81%の成功率を達成することができることを示す。

Event-based sensors have recently drawn increasing interest in robotic perception due to their lower latency, higher dynamic range, and lower bandwidth requirements compared to standard CMOS-based imagers. These properties make them ideal tools for real-time perception tasks in highly dynamic environments. In this work, we demonstrate an application where event cameras excel: accurately estimating the impact location of fast-moving objects. We introduce a lightweight event representation called Binary Event History Image (BEHI) to encode event data at low latency, as well as a learning-based approach that allows real-time inference of a confidence-enabled control signal to the robot. To validate our approach, we present an experimental catching system in which we catch fast-flying ping-pong balls. We show that the system is capable of achieving a success rate of 81% in catching balls targeted at different locations, with a velocity of up to 13 m/s even on compute-constrained embedded platforms such as the Nvidia Jetson NX.
翻訳日:2023-04-17 13:09:09 公開日:2023-04-14
# CROVIA: クロスビュー・アダプテーションで車からドローンシーンを見る

CROVIA: Seeing Drone Scenes from Car Perspective via Cross-View Adaptation ( http://arxiv.org/abs/2304.07199v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, Ashley Dowling, Son Lam Phung, Jackson Cothren, Khoa Luu(参考訳) 無人航空機(UAV)の観点から捉えた都市景観のセグメンテーションを理解することは、UAVの知覚モデルを構築する上で重要な役割を果たす。 大規模にラベル付けされたデータの制限により、UAVビューのセマンティックシーンセグメンテーションは、オブジェクトの上部と側面の両方から広く理解する必要がある。 十分な注釈付き自律運転データからラベルなしのUAVデータへの適応は、2つのデータタイプの違いにより困難である。 本研究は,車載ビューからUAVビューへ学習した知識を効果的に適用するための,新しいクロスビュー適応(CROVIA)アプローチを提案する。 まず、ビュー間の幾何相関に基づいて、クロスビュー適応に対する新しい幾何ベースの制約を導入する。 第2に、画像空間からのクロスビュー相関は、新しいGeometry-Constraint Cross-View (GeiCo)損失を介して、ペアオンロードとUAVビューデータを必要としないセグメンテーション空間に効果的に転送される。 第3に,マルチモーダル・バイジェクティブ・ネットワークの導入により,ビュー間のグローバル構造モデリングが実現される。 この研究で導入された新しいクロスビュー適応ベンチマーク、すなわち、UAVIDとGTA5とUAVIDに導入されたSynTHIAに関する実験結果は、我々のアプローチにおける事前適応手法に対するSOTA(State-of-the-Art)の性能を示す。

Understanding semantic scene segmentation of urban scenes captured from the Unmanned Aerial Vehicles (UAV) perspective plays a vital role in building a perception model for UAV. With the limitations of large-scale densely labeled data, semantic scene segmentation for UAV views requires a broad understanding of an object from both its top and side views. Adapting from well-annotated autonomous driving data to unlabeled UAV data is challenging due to the cross-view differences between the two data types. Our work proposes a novel Cross-View Adaptation (CROVIA) approach to effectively adapt the knowledge learned from on-road vehicle views to UAV views. First, a novel geometry-based constraint to cross-view adaptation is introduced based on the geometry correlation between views. Second, cross-view correlations from image space are effectively transferred to segmentation space without any requirement of paired on-road and UAV view data via a new Geometry-Constraint Cross-View (GeiCo) loss. Third, the multi-modal bijective networks are introduced to enforce the global structural modeling across views. Experimental results on new cross-view adaptation benchmarks introduced in this work, i.e., SYNTHIA to UAVID and GTA5 to UAVID, show the State-of-the-Art (SOTA) performance of our approach over prior adaptation methods
翻訳日:2023-04-17 13:08:51 公開日:2023-04-14
# DINOv2: スーパービジョンなしでロバストな視覚機能を学ぶ

DINOv2: Learning Robust Visual Features without Supervision ( http://arxiv.org/abs/2304.07193v1 )

ライセンス: Link先を確認
Maxime Oquab, Timoth\'ee Darcet, Th\'eo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Herv\'e Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski(参考訳) 大量のデータに基づくモデル事前学習のための自然言語処理の最近の進歩は、コンピュータビジョンにおける同様の基礎モデルへの道を開いた。 これらのモデルは、あらゆるシステムにおける画像の使用を大幅に単純化し、すべての目的の視覚的特徴、すなわち、微調整なしで画像分布やタスクをまたいで機能する機能を生成する。 この研究は、既存の事前学習方法、特に自己教師ありメソッドが、さまざまなソースからの十分なキュレーションデータに基づいてトレーニングされた場合、そのような特徴を生成できることを示しています。 既存のアプローチを再検討し、さまざまなテクニックを組み合わせて、データとモデルサイズの観点から事前トレーニングをスケールします。 技術的貢献のほとんどは、大規模なトレーニングの加速と安定化を目的としています。 データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。 モデルの面では、1bのパラメータを持つvitモデル(dosovitskiy et al., 2020)をトレーニングし、画像やピクセルレベルのベンチマークのほとんどにおいて、最高の汎用機能であるopenclip(ilharco et al., 2021)を超える一連の小さなモデルに蒸留します。

The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing all-purpose visual features, i.e., features that work across image distributions and tasks without finetuning. This work shows that existing pretraining methods, especially self-supervised methods, can produce such features if trained on enough curated data from diverse sources. We revisit existing approaches and combine different techniques to scale our pretraining in terms of data and model size. Most of the technical contributions aim at accelerating and stabilizing the training at scale. In terms of data, we propose an automatic pipeline to build a dedicated, diverse, and curated image dataset instead of uncurated data, as typically done in the self-supervised literature. In terms of models, we train a ViT model (Dosovitskiy et al., 2020) with 1B parameters and distill it into a series of smaller models that surpass the best available all-purpose features, OpenCLIP (Ilharco et al., 2021) on most of the benchmarks at image and pixel levels.
翻訳日:2023-04-17 13:08:25 公開日:2023-04-14
# Just Tell Me: ビジネスプロセスマネジメントにおけるプロンプトエンジニアリング

Just Tell Me: Prompt Engineering in Business Process Management ( http://arxiv.org/abs/2304.07183v1 )

ライセンス: Link先を確認
Kiran Busch, Alexander Rochlitzer, Diana Sola, Henrik Leopold(参考訳) GPT-3や他の言語モデル(LM)は、機械翻訳やテキスト要約など、様々な自然言語処理(NLP)タスクに効果的に対応できる。 最近、ビジネスプロセス管理(bpm)ドメイン(例えば、テキストからの予測プロセスモニタリングやプロセス抽出)でうまく使われています。 しかし、これは通常、採用したlmの微調整が必要であり、特に、適切なトレーニングデータが必要となる。 この問題の解決策の1つは、訓練済みのLMを微調整せずに活用するプロンプトエンジニアリングの利用である。 これを認識して、プロンプトエンジニアリングはbpm研究にlmsの能力をもたらすことができると論じる。 我々は、このポジションペーパーを使用して、関連するポテンシャルと課題を特定することにより、BPM研究に即時エンジニアリングを使用するための研究アジェンダを開発する。

GPT-3 and several other language models (LMs) can effectively address various natural language processing (NLP) tasks, including machine translation and text summarization. Recently, they have also been successfully employed in the business process management (BPM) domain, e.g., for predictive process monitoring and process extraction from text. This, however, typically requires fine-tuning the employed LM, which, among others, necessitates large amounts of suitable training data. A possible solution to this problem is the use of prompt engineering, which leverages pre-trained LMs without fine-tuning them. Recognizing this, we argue that prompt engineering can help bring the capabilities of LMs to BPM research. We use this position paper to develop a research agenda for the use of prompt engineering for BPM research by identifying the associated potentials and challenges.
翻訳日:2023-04-17 13:08:02 公開日:2023-04-14
# 室内環境に挑戦する光学フローからのポーズ回帰と運動からの融合構造

Fusing Structure from Motion and Simulation-Augmented Pose Regression from Optical Flow for Challenging Indoor Environments ( http://arxiv.org/abs/2304.07250v1 )

ライセンス: Link先を確認
Felix Ott, Lucas Heublein, David R\"ugamer, Bernd Bischl, Christopher Mutschler(参考訳) オブジェクトのローカライゼーションは、ロボット工学、バーチャルおよび拡張現実、倉庫における商品の輸送など、さまざまなアプリケーションにおいて重要なタスクである。 ディープラーニングの最近の進歩により、単眼視覚カメラを用いたローカライズが可能になった。 動きからの構造(SfM)が点雲から絶対的なポーズを予測する一方で、絶対的ポーズ回帰(APR)法はニューラルネットワークを通して環境の意味的理解を学ぶ。 しかし、どちらのフィールドも動きのぼやけ、照明の変化、繰り返しパターン、特徴のない構造といった環境によって引き起こされる課題に直面している。 本研究の目的は,これらの課題に対して,追加情報を導入し,相対的ポーズ回帰(RPR)法を用いて絶対的なポーズを規則化することである。 連続画像間の光学的流れはLucas-Kanadeアルゴリズムを用いて計算され、相対的なポーズは補助的な小さなリカレント畳み込みネットワークを用いて予測される。 絶対的なポーズと相対的なポーズの融合は、大域座標系と局所座標系のミスマッチによる複雑なタスクである。 絶対的なポーズと相対的なポーズを融合させる最先端の手法は、ポーズグラフ最適化(PGO)を用いて、相対的なポーズを用いて絶対的なポーズ予測を規則化する。 本研究では,絶対ポーズ予測と相対ポーズ予測を最適に調整し,絶対ポーズ予測を改善する再帰的融合ネットワークを提案する。 本研究では,APRおよびRPRネットワークを事前学習し,より汎用的なトレーニングを行うためのシミュレーション環境を構築する。 さらに,倉庫を輸送ロボットで模倣した大規模屋内環境において,様々なシナリオの大規模データベースを記録する。 PGOと比較して再帰融合法の有効性を示すために,超パラメータ探索と実験を行った。

The localization of objects is a crucial task in various applications such as robotics, virtual and augmented reality, and the transportation of goods in warehouses. Recent advances in deep learning have enabled the localization using monocular visual cameras. While structure from motion (SfM) predicts the absolute pose from a point cloud, absolute pose regression (APR) methods learn a semantic understanding of the environment through neural networks. However, both fields face challenges caused by the environment such as motion blur, lighting changes, repetitive patterns, and feature-less structures. This study aims to address these challenges by incorporating additional information and regularizing the absolute pose using relative pose regression (RPR) methods. The optical flow between consecutive images is computed using the Lucas-Kanade algorithm, and the relative pose is predicted using an auxiliary small recurrent convolutional network. The fusion of absolute and relative poses is a complex task due to the mismatch between the global and local coordinate systems. State-of-the-art methods fusing absolute and relative poses use pose graph optimization (PGO) to regularize the absolute pose predictions using relative poses. In this work, we propose recurrent fusion networks to optimally align absolute and relative pose predictions to improve the absolute pose prediction. We evaluate eight different recurrent units and construct a simulation environment to pre-train the APR and RPR networks for better generalized training. Additionally, we record a large database of different scenarios in a challenging large-scale indoor environment that mimics a warehouse with transportation robots. We conduct hyperparameter searches and experiments to show the effectiveness of our recurrent fusion method compared to PGO.
翻訳日:2023-04-17 13:01:07 公開日:2023-04-14
# ai倫理委員会をデザインする方法

How to design an AI ethics board ( http://arxiv.org/abs/2304.07249v1 )

ライセンス: Link先を確認
Jonas Schuett, Anka Reuel, Alexis Carlier(参考訳) 人工知能(AI)システムの開発と展開を行う組織は、関連するリスクを減らすための措置を講じる必要がある。 本稿では,AI企業がAI倫理委員会を設計して,AIのリスクを軽減する方法について検討する。 我々は、ハイレベルな5つの設計選択を識別する: (1) ボードはどのような責任を持つべきか? 2)その法的構造とは何か? (3)誰がボードに座るべきですか。 (4)どのように意思決定し、その決定を拘束すべきか? (5)どのリソースが必要なのか? これらの質問をそれぞれ、より具体的なサブ質問やリストオプションに分解し、さまざまなデザイン選択が、aiからのリスクを減らすボードの能力にどのように影響するかを議論します。 いくつかの失敗は、AI倫理委員会を設計することが困難であることを示している。 本稿は、AI企業がこれらの課題を克服するのに役立つツールボックスを提供する。

Organizations that develop and deploy artificial intelligence (AI) systems need to take measures to reduce the associated risks. In this paper, we examine how AI companies could design an AI ethics board in a way that reduces risks from AI. We identify five high-level design choices: (1) What responsibilities should the board have? (2) What should its legal structure be? (3) Who should sit on the board? (4) How should it make decisions and should its decisions be binding? (5) What resources does it need? We break down each of these questions into more specific sub-questions, list options, and discuss how different design choices affect the board's ability to reduce risks from AI. Several failures have shown that designing an AI ethics board can be challenging. This paper provides a toolbox that can help AI companies to overcome these challenges.
翻訳日:2023-04-17 13:00:13 公開日:2023-04-14
# カリフォルニア大学サンフランシスコ校脳転移性定位ラジオサージ(ucsf-bmsr)mriデータセット

The University of California San Francisco, Brain Metastases Stereotactic Radiosurgery (UCSF-BMSR) MRI Dataset ( http://arxiv.org/abs/2304.07248v1 )

ライセンス: Link先を確認
Jeffrey D. Rudie, Rachit Saluja David A. Weiss, Pierre Nedelec, Evan Calabrese, John B. Colby, Benjamin Laguna, John Mongan, Steve Braunstein, Christopher P. Hess, Andreas M. Rauschecker, Leo P. Sugrue, and Javier E. Villanueva-Meyer(参考訳) カリフォルニア大学サンフランシスコ校脳転移ステレオタクティック放射線外科(UCSF-BMSR)データセットは、5136脳転移の専門アノテーションを持つ412人の患者の560個の脳MRIからなる、パブリック、臨床、マルチモーダル脳MRIデータセットである。 データは、T1後コントラスト、T1前コントラスト、FLAIRおよびサブトラクション(T1前コントラスト - T1後コントラスト)の画像と、NifTIフォーマットで脳転移を増強するボクセルワイズセグメンテーションからなる。 このデータセットには、患者の人口統計、手術状況、および原発性がんの種類も含まれる。 UCSF-BSMRは、研究者たちがこれらのデータを使って脳転移のためのAIアプリケーションの境界を押し上げることを期待して、一般公開されている。

The University of California San Francisco Brain Metastases Stereotactic Radiosurgery (UCSF-BMSR) dataset is a public, clinical, multimodal brain MRI dataset consisting of 560 brain MRIs from 412 patients with expert annotations of 5136 brain metastases. Data consists of registered and skull stripped T1 post-contrast, T1 pre-contrast, FLAIR and subtraction (T1 pre-contrast - T1 post-contrast) images and voxelwise segmentations of enhancing brain metastases in NifTI format. The dataset also includes patient demographics, surgical status and primary cancer types. The UCSF-BSMR has been made publicly available in the hopes that researchers will use these data to push the boundaries of AI applications for brain metastases.
翻訳日:2023-04-17 12:59:56 公開日:2023-04-14
# R-mAtrIx ネット

The R-mAtrIx Net ( http://arxiv.org/abs/2304.07247v1 )

ライセンス: Link先を確認
Shailesh Lal, Suvajit Majumder, Evgeny Sobko(参考訳) 新たなニューラルネットワークアーキテクチャを提供しています 一 所定の量子可積分スピン鎖に対する出力R行列 二 ある種の対称性その他の制限の仮定の下で、可積分ハミルトニアン及び対応するR行列を探索すること。 三 すでに学んだモデルの周りにハミルトンの空間を探索し、彼らが属する可積分スピン鎖の族を再構成する。 ニューラルネットワークトレーニングは、ヤン・バクスター方程式、規則性、およびハーミシティなどのモデル固有の制約を符号化した損失関数を最小化する。 ホロモルフィズムは活性化関数の選択によって実装される。 我々は,差分形式の2次元スピンチェーン上でのニューラルネットワークの動作を実証する。 特に,14クラスすべてでr-行列を再構成した。 また、その有用性を \textit{explorer} として証明し、ハミルトニアンの特定の部分空間を走査し、クラスタ化後に可積分クラスを識別する。 将来の最後の戦略は、より高次元の積分可能なスピン鎖の写像と、解析的手法が利用できないより一般的な設定を彫るために使われる。

We provide a novel Neural Network architecture that can: i) output R-matrix for a given quantum integrable spin chain, ii) search for an integrable Hamiltonian and the corresponding R-matrix under assumptions of certain symmetries or other restrictions, iii) explore the space of Hamiltonians around already learned models and reconstruct the family of integrable spin chains which they belong to. The neural network training is done by minimizing loss functions encoding Yang-Baxter equation, regularity and other model-specific restrictions such as hermiticity. Holomorphy is implemented via the choice of activation functions. We demonstrate the work of our Neural Network on the two-dimensional spin chains of difference form. In particular, we reconstruct the R-matrices for all 14 classes. We also demonstrate its utility as an \textit{Explorer}, scanning a certain subspace of Hamiltonians and identifying integrable classes after clusterisation. The last strategy can be used in future to carve out the map of integrable spin chains in higher dimensions and in more general settings where no analytical methods are available.
翻訳日:2023-04-17 12:59:42 公開日:2023-04-14
# 機械学習に基づくフレキシブルディスク要素の多目的設計探索

Machine Learning-Based Multi-Objective Design Exploration Of Flexible Disc Elements ( http://arxiv.org/abs/2304.07245v1 )

ライセンス: Link先を確認
Gehendra Sharma, Sungkwang Mun, Nayeon Lee, Luke Peterson, Daniela Tellkamp, and Anand Balu Nellippallil(参考訳) 設計探索はエンジニアリング設計プロセスにおいて重要なステップです。 これは、指定された設計基準を満たし、事前に定義された目的/sを達成する設計/sの探索を含む。 近年,機械学習に基づく手法が工学設計問題に広く用いられている。 本稿では,エンジニアリング設計問題に適用し,改良した設計ソリューションを探索し,同定する人工ニューラルネットワーク(ann)アーキテクチャを紹介する。 本研究のケース問題は、ディスクカップリングに使用されるフレキシブルディスク要素の設計である。 トルク伝達や誤認性を低下させることなく、質量や応力を下げることでディスク要素の設計を改善することが求められている。 この目的を達成するために、ANNと遺伝的アルゴリズムを組み合わせることで、最小限の質量と応力を持ちながら、所定の基準(トルクと不適応)を満たす設計を特定する。 その結果は従来の応答面法で得られた最適化結果に匹敵する。 複数の矛盾する要件に対して概念設計を評価する場合、これは大きな利点となります。

Design exploration is an important step in the engineering design process. This involves the search for design/s that meet the specified design criteria and accomplishes the predefined objective/s. In recent years, machine learning-based approaches have been widely used in engineering design problems. This paper showcases Artificial Neural Network (ANN) architecture applied to an engineering design problem to explore and identify improved design solutions. The case problem of this study is the design of flexible disc elements used in disc couplings. We are required to improve the design of the disc elements by lowering the mass and stress without lowering the torque transmission and misalignment capability. To accomplish this objective, we employ ANN coupled with genetic algorithm in the design exploration step to identify designs that meet the specified criteria (torque and misalignment) while having minimum mass and stress. The results are comparable to the optimized results obtained from the traditional response surface method. This can have huge advantage when we are evaluating conceptual designs against multiple conflicting requirements.
翻訳日:2023-04-17 12:59:24 公開日:2023-04-14
# 新型コロナに関する学際的知識グラフ

Covidia: COVID-19 Interdisciplinary Academic Knowledge Graph ( http://arxiv.org/abs/2304.07242v1 )

ライセンス: Link先を確認
Cheng Deng, Jiaxin Ding, Luoyi Fu, Weinan Zhang, Xinbing Wang, Chenghu Zhou(参考訳) 新型コロナウイルスのパンデミックは、さまざまな研究分野の広範な研究に影響を与えた。 既存の新型コロナウイルスに関する文献や知識プラットフォームは、生物学や医学に関する論文の収集にのみ焦点を絞っており、学際的な取り組みを無視している。 学際的な研究には、効果的な分類とドメイン間知識の抽出と統合が必要である。 本研究では,covid-19学際知識グラフ(covid-19学際知識グラフ)を提案し,異なる領域におけるcovid-19知識のギャップを埋める。 我々は,学際分類のためのコントラスト学習に基づくフレームワークを設計し,学間研究に基づいて,エンティティ抽出,関係分類,オントロジー管理のための新しい学術知識グラフスキームを提案する。 また、covid-19の研究コミュニティを見つけ、潜在的なリンクを予測するための知識発見ベンチマークも確立しています。

The pandemic of COVID-19 has inspired extensive works across different research fields. Existing literature and knowledge platforms on COVID-19 only focus on collecting papers on biology and medicine, neglecting the interdisciplinary efforts, which hurdles knowledge sharing and research collaborations between fields to address the problem. Studying interdisciplinary researches requires effective paper category classification and efficient cross-domain knowledge extraction and integration. In this work, we propose Covidia, COVID-19 interdisciplinary academic knowledge graph to bridge the gap between knowledge of COVID-19 on different domains. We design frameworks based on contrastive learning for disciplinary classification, and propose a new academic knowledge graph scheme for entity extraction, relation classification and ontology management in accordance with interdisciplinary researches. Based on Covidia, we also establish knowledge discovery benchmarks for finding COVID-19 research communities and predicting potential links.
翻訳日:2023-04-17 12:59:08 公開日:2023-04-14
# 注意因子を有する単層変圧器による一般化ポッツモデルの最適推定

Optimal inference of a generalised Potts model by single-layer transformers with factored attention ( http://arxiv.org/abs/2304.07235v1 )

ライセンス: Link先を確認
Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt(参考訳) トランスフォーマーは、自然言語処理とタンパク質科学に革命をもたらしたニューラルネットワークの一種である。 彼らの重要な構築ブロックは、文中の欠落単語を予測するように訓練されたセルフアテンションと呼ばれるメカニズムである。 アプリケーションにおけるトランスフォーマーの実践的な成功にもかかわらず、データから自己注意が何を学ぶのか、どのように学習するかは、まだ不明である。 本稿では,サイトとポッツ色間の相互作用を考慮した一般化ポッツモデルから得られたデータに基づいて学習したトランスフォーマーの正確な解析および数値的特性について述べる。 オフザシェルフ変換器はこの分布を学習するために複数の層を必要とするが、小さな修正を伴う単層自己注意層が、無限サンプリングの極限でポッツモデルを正確に学習できることを解析的に示す。 この修正自己完結は「因子」と呼ばれ、他のスピンが与えられたポッツスピンの条件付き確率と同じ関数型を持ち、統計物理学のレプリカ法を用いてその一般化誤差を計算し、逆イジングやポッツ問題を解くための擬似類似法への正確なマッピングを導出する。

Transformers are the type of neural networks that has revolutionised natural language processing and protein science. Their key building block is a mechanism called self-attention which is trained to predict missing words in sentences. Despite the practical success of transformers in applications it remains unclear what self-attention learns from data, and how. Here, we give a precise analytical and numerical characterisation of transformers trained on data drawn from a generalised Potts model with interactions between sites and Potts colours. While an off-the-shelf transformer requires several layers to learn this distribution, we show analytically that a single layer of self-attention with a small modification can learn the Potts model exactly in the limit of infinite sampling. We show that this modified self-attention, that we call ``factored'', has the same functional form as the conditional probability of a Potts spin given the other spins, compute its generalisation error using the replica method from statistical physics, and derive an exact mapping to pseudo-likelihood methods for solving the inverse Ising and Potts problem.
翻訳日:2023-04-17 12:58:53 公開日:2023-04-14
# PARFormer:歩行者属性認識のためのトランスフォーマーベースのマルチタスクネットワーク

PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute Recognition ( http://arxiv.org/abs/2304.07230v1 )

ライセンス: Link先を確認
Xinwen Fan, Yukang Zhang, Yang Lu, Hanzi Wang(参考訳) 歩行者属性認識(PAR)はビデオ監視や歩行者分析に広く応用されているため注目されている。 堅牢な特徴表現を抽出することが、このタスクの重要な課題のひとつです。 既存の手法は主に、バックボーンネットワークとして畳み込みニューラルネットワーク(CNN)を用いて特徴を抽出する。 しかし、これらの手法は主に世界観を無視しながら、小さな差別地域に焦点を当てている。 これらの制約を克服するため,我々は4つのモジュールを含む純粋トランスフォーマー型マルチタスクパーネットワークparformerを提案する。 特徴抽出モジュールでは,特徴抽出のためのトランスフォーマーベースラインを構築し,既存のCNNベースライン手法と比較して複数のPARベンチマークで競合する結果を得る。 特徴処理モジュールでは、乱数パッチの注意的特徴学習を強化するために、バッチランダムマスク(BRM)ブロックと呼ばれる効果的なデータ拡張戦略を提案する。 さらに,特徴表現における属性間識別性を高めるために,多属性中心損失(MACL)を提案する。 視点認識モジュールでは,視点が歩行者属性に与える影響を探索し,ネットワークが視点情報を活用できるマルチビューコントラスト損失(mcvl)を提案する。 属性認識モジュールでは、負の正の不均衡問題を緩和して属性予測を生成する。 上記のモジュールは、高度に識別的な特徴空間を相互に学習し、最終的な特徴の生成を監督する。 大規模な実験結果から,提案するPARFormerネットワークは,PETA,RAP,PA100Kなど,いくつかの公開データセットの最先端手法と比較して高い性能を示した。 コードはhttps://github.com/xwf199/PARFormerでリリースされる。

Pedestrian attribute recognition (PAR) has received increasing attention because of its wide application in video surveillance and pedestrian analysis. Extracting robust feature representation is one of the key challenges in this task. The existing methods mainly use the convolutional neural network (CNN) as the backbone network to extract features. However, these methods mainly focus on small discriminative regions while ignoring the global perspective. To overcome these limitations, we propose a pure transformer-based multi-task PAR network named PARFormer, which includes four modules. In the feature extraction module, we build a transformer-based strong baseline for feature extraction, which achieves competitive results on several PAR benchmarks compared with the existing CNN-based baseline methods. In the feature processing module, we propose an effective data augmentation strategy named batch random mask (BRM) block to reinforce the attentive feature learning of random patches. Furthermore, we propose a multi-attribute center loss (MACL) to enhance the inter-attribute discriminability in the feature representations. In the viewpoint perception module, we explore the impact of viewpoints on pedestrian attributes, and propose a multi-view contrastive loss (MCVL) that enables the network to exploit the viewpoint information. In the attribute recognition module, we alleviate the negative-positive imbalance problem to generate the attribute predictions. The above modules interact and jointly learn a highly discriminative feature space, and supervise the generation of the final features. Extensive experimental results show that the proposed PARFormer network performs well compared to the state-of-the-art methods on several public datasets, including PETA, RAP, and PA100K. Code will be released at https://github.com/xwf199/PARFormer.
翻訳日:2023-04-17 12:58:25 公開日:2023-04-14
# クロスエントロピー損失関数の理論解析とその応用

Cross-Entropy Loss Functions: Theoretical Analysis and Applications ( http://arxiv.org/abs/2304.07288v1 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) クロスエントロピーはアプリケーションで広く使われる損失関数である。 これは、ソフトマックスを使用するニューラルネットワークの出力に適用されるロジスティック損失と一致する。 しかし、クロスエントロピーを代理損失として使うとき、私たちは何を保証できるだろうか? 本稿では, クロスエントロピー(あるいはロジスティック損失), 一般化されたクロスエントロピー, 平均絶対誤差, その他の損失クロスエントロピー様関数を含む, 幅広い損失群, 和和損失の理論的解析を行う。 これらの損失関数に対して最初の$h$-consistencyバウンダリを与える。 これらは、特定の仮説セットである$H$に対して、代理損失の推定誤差の観点からゼロ1損失推定誤差を上限とする漸近的でない保証である。 さらに、我々の限界が厳しいことも示します。 これらの境界はミニミザビリティギャップと呼ばれる量に依存し、損失関数と仮説集合のみに依存する。 より明確にするために、これらのギャップを和和損失に限定して分析する。 また,新しい損失関数の族であるsmooth adversarial comp-sum loss(smooth adversarial comp-sum loss)についても紹介する。 これらの損失関数は、h$-consistencyバウンダリを許容していることを証明することによって、敵対的設定において有益であることを示している。 これにより、正規化された滑らかな逆数和損失を最小限に抑える新しい逆数堅牢性アルゴリズムがもたらされる。 本研究の主な目的は理論解析であるが, 累積損失を比較検討した広範な実証分析も提示する。 さらに,我々の対向ロバスト性アルゴリズムが現在の最先端技術よりも優れており,非対向精度も優れていることを示す一連の実験結果について報告する。

Cross-entropy is a widely used loss function in applications. It coincides with the logistic loss applied to the outputs of a neural network, when the softmax is used. But, what guarantees can we rely on when using cross-entropy as a surrogate loss? We present a theoretical analysis of a broad family of losses, comp-sum losses, that includes cross-entropy (or logistic loss), generalized cross-entropy, the mean absolute error and other loss cross-entropy-like functions. We give the first $H$-consistency bounds for these loss functions. These are non-asymptotic guarantees that upper bound the zero-one loss estimation error in terms of the estimation error of a surrogate loss, for the specific hypothesis set $H$ used. We further show that our bounds are tight. These bounds depend on quantities called minimizability gaps, which only depend on the loss function and the hypothesis set. To make them more explicit, we give a specific analysis of these gaps for comp-sum losses. We also introduce a new family of loss functions, smooth adversarial comp-sum losses, derived from their comp-sum counterparts by adding in a related smooth term. We show that these loss functions are beneficial in the adversarial setting by proving that they admit $H$-consistency bounds. This leads to new adversarial robustness algorithms that consist of minimizing a regularized smooth adversarial comp-sum loss. While our main purpose is a theoretical analysis, we also present an extensive empirical analysis comparing comp-sum losses. We further report the results of a series of experiments demonstrating that our adversarial robustness algorithms outperform the current state-of-the-art, while also achieving a superior non-adversarial accuracy.
翻訳日:2023-04-17 12:53:09 公開日:2023-04-14
# 成長制約の少ない無磁場InAs-AlナノワイヤにおけるMajoranaゼロモードの実現

Realizing Majorana zero modes in magnetic field-free InAs-Al nanowires with fewer growth constraints ( http://arxiv.org/abs/2304.07286v1 )

ライセンス: Link先を確認
Benjamin D Woods, Mark Friesen(参考訳) 半導体-超伝導ハイブリッドにおけるトポロジカル超伝導とマヨラナゼロモードを実現するための一般的な提案は、親超伝導体の超伝導ギャップをパラドックス的に抑制する大きな磁場を必要とする。 2チャンネルスキームは磁場を排除する方法として提案されているが、幾何学的制約は、チャネルを反平行電界に浸す必要があるため、その実装を困難にしている。 本稿では,2チャネルのInAs-Alナノワイヤにおいて,磁場のないトポロジカル超伝導を実現する方法を提案する。 重要なことは、チャネルがエネルギ的にデチュレートされている場合、反並列フィールドは不要であることを示す。 我々は、現実的にモデル化されたナノワイヤの位相位相位相図を計算し、マヨルダナゼロモードを包含する可能性のある幅広いパラメータを見つける。 したがって、この研究は大きな技術的課題を解決し、短期的な実験への扉を開く。

Common proposals for realizing topological superconductivity and Majorana zero modes in semiconductor-superconductor hybrids require large magnetic fields, which paradoxically suppress the superconducting gap of the parent superconductor. Although two-channel schemes have been proposed as a way to eliminate magnetic fields, geometric constraints make their implementation challenging, since the channels should be immersed in nearly antiparallel electric fields. Here, we propose an experimentally favorable scheme for realizing field-free topological superconductivity, in two-channel InAs-Al nanowires, that overcomes such growth constraints. Crucially, we show that antiparallel fields are not required, if the channels are energetically detuned. We compute topological phase diagrams for realistically modeled nanowires, finding a broad range of parameters that could potentially harbor Majorana zero modes. This work, therefore, solves a major technical challenge and opens the door to near-term experiments.
翻訳日:2023-04-17 12:52:28 公開日:2023-04-14
# Reward-Shaped Imitation Learning を用いたシーケンス決定タスクのための人型データの合成

Synthetically Generating Human-like Data for Sequential Decision Making Tasks via Reward-Shaped Imitation Learning ( http://arxiv.org/abs/2304.07280v1 )

ライセンス: Link先を確認
Bryan Brandt and Prithviraj Dasgupta(参考訳) 我々は,コンピュータゲームのような対話型人間AIシステムにおいて,人間の判断と密接に類似するデータを合成的に生成する問題を考える。 本研究では,人間から収集された意思決定データの中から,人工的,人間的,意思決定データを生成する新しいアルゴリズムを提案する。 提案アルゴリズムは、報酬形成の概念と模倣学習アルゴリズムを統合して合成データを生成する。 我々は,人工的に生成されたデータをヒューマンインタラクションデータのサロゲートとして利用し,小型コンピュータゲーム環境における複雑さの増大という3つの逐次的決定課題を解決し,合成データ生成手法の検証を行った。 実験データと統計データを比較した結果, 人工的に生成したデータは, 人間のデータに代えて, ゲームプレイングタスクを, ほぼ区別がつかず, 非常に低いばらつきで行うことができることがわかった。

We consider the problem of synthetically generating data that can closely resemble human decisions made in the context of an interactive human-AI system like a computer game. We propose a novel algorithm that can generate synthetic, human-like, decision making data while starting from a very small set of decision making data collected from humans. Our proposed algorithm integrates the concept of reward shaping with an imitation learning algorithm to generate the synthetic data. We have validated our synthetic data generation technique by using the synthetically generated data as a surrogate for human interaction data to solve three sequential decision making tasks of increasing complexity within a small computer game-like setup. Different empirical and statistical analyses of our results show that the synthetically generated data can substitute the human data and perform the game-playing tasks almost indistinguishably, with very low divergence, from a human performing the same tasks.
翻訳日:2023-04-17 12:52:12 公開日:2023-04-14
# 強化学習における最小逆方向探索

Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning ( http://arxiv.org/abs/2304.07278v1 )

ライセンス: Link先を確認
Gen Li and Yuling Yan and Yuxin Chen and Jianqing Fan(参考訳) 本稿では,強化学習における報酬非依存探索(RL)について考察する。これは,学習者が探索段階における報酬関数を知らないシナリオであり,技術状況を改善するアルゴリズムを設計する。 より正確には、有限ホリゾン非定常マルコフ決定過程を$S$状態、$A$作用、地平線長$H$とみなし、与えられた利益関数の多項式数以上のものは存在しないと仮定する。 aign*} \begin{align*} \frac{sah^3}{\varepsilon^2} \text{ sample episodes (up to log factor)} \end{align*} の順序を報酬情報のガイダンスなしで収集することで、これらの報酬関数すべてに対して$\varepsilon$-optimalポリシーを見つけることができる。 これは、証明可能なミニマックス最適性を達成するこの文脈において、最初の報酬非依存な探索スキームを形成する。 さらに、サンプルサイズが$\frac{S^2AH^3}{\varepsilon^2}$のエピソード(ログファクタまで)を超えると、我々のアルゴリズムは任意の多くの報酬関数に対して$\varepsilon$の精度を得られる(逆フリー探索と呼ばれる)。 探索手法は,オフラインRLの性能を規定する重要な報酬非依存量を最大化しようとするが,政策学習パラダイムはサンプル最適オフラインRLパラダイムのアイデアを活用する。

This paper studies reward-agnostic exploration in reinforcement learning (RL) -- a scenario where the learner is unware of the reward functions during the exploration stage -- and designs an algorithm that improves over the state of the art. More precisely, consider a finite-horizon non-stationary Markov decision process with $S$ states, $A$ actions, and horizon length $H$, and suppose that there are no more than a polynomial number of given reward functions of interest. By collecting an order of \begin{align*} \frac{SAH^3}{\varepsilon^2} \text{ sample episodes (up to log factor)} \end{align*} without guidance of the reward information, our algorithm is able to find $\varepsilon$-optimal policies for all these reward functions, provided that $\varepsilon$ is sufficiently small. This forms the first reward-agnostic exploration scheme in this context that achieves provable minimax optimality. Furthermore, once the sample size exceeds $\frac{S^2AH^3}{\varepsilon^2}$ episodes (up to log factor), our algorithm is able to yield $\varepsilon$ accuracy for arbitrarily many reward functions (even when they are adversarially designed), a task commonly dubbed as ``reward-free exploration.'' The novelty of our algorithm design draws on insights from offline RL: the exploration scheme attempts to maximize a critical reward-agnostic quantity that dictates the performance of offline RL, while the policy learning paradigm leverages ideas from sample-optimal offline RL paradigms.
翻訳日:2023-04-17 12:51:56 公開日:2023-04-14
# Multi-Axis Vision Transformer を用いた CAD-RADS による冠動脈造影

CAD-RADS scoring of coronary CT angiography with Multi-Axis Vision Transformer: a clinically-inspired deep learning pipeline ( http://arxiv.org/abs/2304.07277v1 )

ライセンス: Link先を確認
Alessia Gerbasi, Arianna Dagliati, Giuseppe Albi, Mattia Chiesa, Daniele Andreini, Andrea Baggiano, Saima Mushtaq, Gianluca Pontone, Riccardo Bellazzi, Gualtiero Colombo(参考訳) 冠動脈疾患(cad)の重症度と程度を評価するための標準的な非侵襲的イメージング技術は、冠動脈ctアンギオグラフィー(ccta)である。 しかし, CAD-RADS(CAD-Reporting and Data System, CAD-RADS)による各患者のCCTAの経時的評価は, 特に境界症例では時間と操作者に依存している。 本研究はCADスクリーニング手順の意思決定支援システムとして使用される完全自動化された視覚的に説明可能なディープラーニングパイプラインを提案する。 一般的に使用されるCAD-RADS閾値によると、パイプラインは2つの分類タスクを実行する: 第一に、さらなる臨床試験を必要とする患者を識別し、第二に、患者を狭窄度に基づいてサブグループに分類する。 このパイプラインは、オリジナルのCCTAから抽出された冠状動脈の多平面投影を前処理し、微調整された多軸視覚変換器アーキテクチャを用いて分類する。 現在の臨床実践をエミュレートする目的で, 3つの主冠動脈の2次元縦断断面をチャネル次元に沿って積み重ねることで, 患者毎のスコアを割り当てるように訓練した。 さらに、予測の信頼性を評価するために視覚的に解釈可能な地図を生成する。 1873年にミラノのMonzino Cardiology Centerで収集された253人の患者の3チャンネル画像のデータベース上で走行すると、パイプラインは2つの分類タスクに対してそれぞれ0.87と0.93のAUCを得た。 我々の知る限り、CAD-RADSスコアを患者スコアのみから学習し、臨床ルーチンの一部ではないより微細な画像アノテーションステップを必要としないよう訓練された最初のモデルである。

The standard non-invasive imaging technique used to assess the severity and extent of Coronary Artery Disease (CAD) is Coronary Computed Tomography Angiography (CCTA). However, manual grading of each patient's CCTA according to the CAD-Reporting and Data System (CAD-RADS) scoring is time-consuming and operator-dependent, especially in borderline cases. This work proposes a fully automated, and visually explainable, deep learning pipeline to be used as a decision support system for the CAD screening procedure. The pipeline performs two classification tasks: firstly, identifying patients who require further clinical investigations and secondly, classifying patients into subgroups based on the degree of stenosis, according to commonly used CAD-RADS thresholds. The pipeline pre-processes multiplanar projections of the coronary arteries, extracted from the original CCTAs, and classifies them using a fine-tuned Multi-Axis Vision Transformer architecture. With the aim of emulating the current clinical practice, the model is trained to assign a per-patient score by stacking the bi-dimensional longitudinal cross-sections of the three main coronary arteries along channel dimension. Furthermore, it generates visually interpretable maps to assess the reliability of the predictions. When run on a database of 1873 three-channel images of 253 patients collected at the Monzino Cardiology Center in Milan, the pipeline obtained an AUC of 0.87 and 0.93 for the two classification tasks, respectively. According to our knowledge, this is the first model trained to assign CAD-RADS scores learning solely from patient scores and not requiring finer imaging annotation steps that are not part of the clinical routine.
翻訳日:2023-04-17 12:51:19 公開日:2023-04-14
# 希土類イオンを用いたスケーラブルな量子インターネットへの道のり

A perspective on the pathway to a scalable quantum internet using rare-earth ions ( http://arxiv.org/abs/2304.07272v1 )

ライセンス: Link先を確認
Robert M. Pettit, Farhang Hadad Farshi, Sean E. Sullivan, \'Alvaro Veliz Osorio, and Manish Kumar Singh(参考訳) グローバル量子インターネットの究極の実現には、量子情報を生成、保存、操作できるスケーラブルな技術の進歩が必要である。 これらのタスクを量子ネットワークで実行する重要なデバイスは量子リピータであり、遠方のネットワークノード間の絡み合いの長距離分布を可能にする。 本稿では,量子リピータの基本機能の概要と,希土類イオンドープ材料を用いたリピータの開発に向けた進展について述べるとともに,技術が成熟するにつれて直面する課題について述べる。 ネットワークアプリケーションに適したerbiumには特に注意を払っています。 最後に、近接量子ネットワークへの影響について、希土類イオンプラットフォームをさらに導くための短期ベンチマークについて論じる。

The ultimate realization of a global quantum internet will require advances in scalable technologies capable of generating, storing, and manipulating quantum information. The essential devices that will perform these tasks in a quantum network are quantum repeaters, which will enable the long-range distribution of entanglement between distant network nodes. In this perspective, we provide an overview of the primary functions of a quantum repeater and discuss progress that has been made toward the development of repeaters with rare-earth ion doped materials while noting challenges that are being faced as the technologies mature. We give particular attention to erbium, which is well suited for networking applications. Finally, we provide a discussion of near-term benchmarks that can further guide rare-earth ion platforms for impact in near-term quantum networks.
翻訳日:2023-04-17 12:50:49 公開日:2023-04-14
# Phantom Embeddings: ディープニューラルネットワークにおけるモデル正規化のための埋め込みスペースの利用

Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks ( http://arxiv.org/abs/2304.07262v1 )

ライセンス: Link先を確認
Mofassir ul Islam Arif, Mohsan Jameel, Josif Grabocka, and Lars Schmidt-Thieme(参考訳) 機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。 特に、複雑なモデルはトレーニングデータを記憶する傾向があり、テストデータに対する正規化性能が低下する。 L1,L2,Dropoutなどの正規化技術はオーバーフィッティング効果を低減するために提案されているが、これはさらに高パラメータチューニングの複雑さをもたらす。 これらの方法は、下位データ分布のためクラス間の類似度が高い場合にも不足し、精度の低いモデルとなる。 本稿では,情報豊富な潜在埋め込みと高いクラス内相関を利用してモデルを定式化する新しい手法を提案する。 我々は、同種標本のサブセットからファントム埋め込みを作成し、これらのファントム埋め込みを使用して、潜在埋め込み空間におけるインスタンスのクラス間類似性を減少させる。 結果として得られたモデルは、高価なハイパーパラメーターサーチを必要とせずに、埋め込みと正規化の組み合わせによってより良く一般化される。 提案手法は,人気のある2つの画像分類データセット(cifar と fashionmnist)上で評価し,トレーニング行動の改善とともに,標準ベースラインをいかに上回るかを示す。

The strength of machine learning models stems from their ability to learn complex function approximations from data; however, this strength also makes training deep neural networks challenging. Notably, the complex models tend to memorize the training data, which results in poor regularization performance on test data. The regularization techniques such as L1, L2, dropout, etc. are proposed to reduce the overfitting effect; however, they bring in additional hyperparameters tuning complexity. These methods also fall short when the inter-class similarity is high due to the underlying data distribution, leading to a less accurate model. In this paper, we present a novel approach to regularize the models by leveraging the information-rich latent embeddings and their high intra-class correlation. We create phantom embeddings from a subset of homogenous samples and use these phantom embeddings to decrease the inter-class similarity of instances in their latent embedding space. The resulting models generalize better as a combination of their embedding and regularize them without requiring an expensive hyperparameter search. We evaluate our method on two popular and challenging image classification datasets (CIFAR and FashionMNIST) and show how our approach outperforms the standard baselines while displaying better training behavior.
翻訳日:2023-04-17 12:50:37 公開日:2023-04-14
# 一般化のための単一領域のポテンシャルをタップする周波数分解

Frequency Decomposition to Tap the Potential of Single Domain for Generalization ( http://arxiv.org/abs/2304.07261v1 )

ライセンス: Link先を確認
Qingyue Yang, Hongjing Niu, Pengfei Xia, Wei Zhang, Bin Li(参考訳) ドメイン一般化(Domain Generalization, DG)は、汎用人工知能において必要不可欠な特徴である。 単一ソースのドメイントレーニングデータに基づくDGは、ドメイン不変の機能を特定するのに役立つ同等の情報がないため、より難しい。 本稿では,単一ソースドメインのトレーニングサンプルにドメイン不変機能を含めることができると判断し,そのタスクは、単一ソースドメインのサンプルからそのようなドメイン不変機能を抽出するための適切な方法を見つけることである。 領域不変な特徴が周波数と密接に関連していると仮定される。 そこで,複数の周波数領域から学習する新しい手法を提案する。 鍵となるアイデアは、各元の画像の周波数領域を複数のサブドメインに分割し、設計された2つのブランチネットワークによってサブドメインの特徴を学習することである。 このようにして、モデルは、特定の制限されたスペクトルのより多くのサンプルから特徴を学習するために強制される。 広範囲にわたる実験の結果 1)周波数分解は、モデルを学習しにくい特徴を学ぶのに役立つ。 2)提案手法は単一ソース領域一般化の最先端手法よりも優れている。

Domain generalization (DG), aiming at models able to work on multiple unseen domains, is a must-have characteristic of general artificial intelligence. DG based on single source domain training data is more challenging due to the lack of comparable information to help identify domain invariant features. In this paper, it is determined that the domain invariant features could be contained in the single source domain training samples, then the task is to find proper ways to extract such domain invariant features from the single source domain samples. An assumption is made that the domain invariant features are closely related to the frequency. Then, a new method that learns through multiple frequency domains is proposed. The key idea is, dividing the frequency domain of each original image into multiple subdomains, and learning features in the subdomain by a designed two branches network. In this way, the model is enforced to learn features from more samples of the specifically limited spectrum, which increases the possibility of obtaining the domain invariant features that might have previously been defiladed by easily learned features. Extensive experimental investigation reveals that 1) frequency decomposition can help the model learn features that are difficult to learn. 2) the proposed method outperforms the state-of-the-art methods of single-source domain generalization.
翻訳日:2023-04-17 12:50:15 公開日:2023-04-14
# 何が可能かを学び、何が最善かを選ぶ - テキストベースのゲームを通じて言語における一対一の関係を分離する

Learn What Is Possible, Then Choose What Is Best: Disentangling One-To-Many Relations in Language Through Text-based Games ( http://arxiv.org/abs/2304.07258v1 )

ライセンス: Link先を確認
Benjamin Towle and Ke Zhou(参考訳) 大規模自己教師型コーパスで事前訓練された言語モデルとタスク固有の微調整がNLPの主要なパラダイムとなっている。 これらの事前トレーニングデータセットは、しばしば1対多の構造を持ち、例えば対話では、与えられたコンテキストに対して有効な応答が多数存在する。 しかし、ダウンストリームタスクでは、これらのレスポンスの一部だけが望ましいでしょう。 これにより、望ましい振る舞いをエミュレートできるが、望ましくない振る舞いをエミュレートできるようにモデルをトレーニングする方法に関する疑問が持ち上がる。 現在のアプローチでは、1対1のセットアップでトレーニングされている - 単一の対話コンテキストに対して、単一のターゲット応答のみが与えられる。 テキストベースのゲームをテストベッドとして使用することで、当社のアプローチであるPASAは、個別の潜在変数を使用して、より大きな事前学習データセットで表現されるさまざまな動作範囲をキャプチャします。 次に, 知識蒸留法を用いて後確率分布を学生モデルに分解する。 この確率分布はデータセットのハードターゲットのみから学習するよりもはるかにリッチであるため、教師モデルが学んだよりリッチな行動の恩恵を受けることができる。 結果は、Jericho Walkthroughsデータセットの以前の最先端モデルよりも最大49%改善されている。

Language models pre-trained on large self-supervised corpora, followed by task-specific fine-tuning has become the dominant paradigm in NLP. These pre-training datasets often have a one-to-many structure--e.g. in dialogue there are many valid responses for a given context. However, only some of these responses will be desirable in our downstream task. This raises the question of how we should train the model such that it can emulate the desirable behaviours, but not the undesirable ones. Current approaches train in a one-to-one setup--only a single target response is given for a single dialogue context--leading to models only learning to predict the average response, while ignoring the full range of possible responses. Using text-based games as a testbed, our approach, PASA, uses discrete latent variables to capture the range of different behaviours represented in our larger pre-training dataset. We then use knowledge distillation to distil the posterior probability distribution into a student model. This probability distribution is far richer than learning from only the hard targets of the dataset, and thus allows the student model to benefit from the richer range of actions the teacher model has learned. Results show up to 49% empirical improvement over the previous state-of-the-art model on the Jericho Walkthroughs dataset.
翻訳日:2023-04-17 12:49:55 公開日:2023-04-14
# ボックスローカライゼーションにおけるIoUの直接最適化

Directly Optimizing IoU for Bounding Box Localization ( http://arxiv.org/abs/2304.07256v1 )

ライセンス: Link先を確認
Mofassir ul Islam Arif, Mohsan Jameel, and Lars Schmidt-Thieme(参考訳) オブジェクト検出は近年,畳み込みニューラルネットワーク(CNN)の導入によって顕著な進歩を遂げている。 オブジェクト検出は、画像内のオブジェクトの位置とクラスの両方を正しく識別する必要があるマルチタスク学習問題である。 ここでの考え方は、接地と接地の境界箱の重なり合いを最大化することであり、すなわち連合の断面積(IoU)の予測である。 現在この領域で見られる作業の範囲では、IoUはHuber損失をプロキシとして利用することで近似されるが、この間接的手法はIoU情報を活用せず、バウンディングボックスを4つの独立無関係な回帰項として扱う。 これは、4つの座標が高い相関関係にあり、結合すると意味的な意味を持つ境界ボックスには当てはまらない。 iou の直接最適化は、その非凸かつ非微分可能性のため不可能である。 本稿では,IoU をバウンディングボックスに直接最適化する新しい損失 Smooth IoU を定式化した。 この損失はOxford IIIT Pets、Udacityの自動運転車、PASCAL VOC、VWFSの車両損傷データセットで評価され、標準的なハマー損失よりもパフォーマンスが向上した。

Object detection has seen remarkable progress in recent years with the introduction of Convolutional Neural Networks (CNN). Object detection is a multi-task learning problem where both the position of the objects in the images as well as their classes needs to be correctly identified. The idea here is to maximize the overlap between the ground-truth bounding boxes and the predictions i.e. the Intersection over Union (IoU). In the scope of work seen currently in this domain, IoU is approximated by using the Huber loss as a proxy but this indirect method does not leverage the IoU information and treats the bounding box as four independent, unrelated terms of regression. This is not true for a bounding box where the four coordinates are highly correlated and hold a semantic meaning when taken together. The direct optimization of the IoU is not possible due to its non-convex and non-differentiable nature. In this paper, we have formulated a novel loss namely, the Smooth IoU, which directly optimizes the IoUs for the bounding boxes. This loss has been evaluated on the Oxford IIIT Pets, Udacity self-driving car, PASCAL VOC, and VWFS Car Damage datasets and has shown performance gains over the standard Huber loss.
翻訳日:2023-04-17 12:49:32 公開日:2023-04-14
# DreamPose:安定拡散によるファッション画像とビデオの合成

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion ( http://arxiv.org/abs/2304.06025v2 )

ライセンス: Link先を確認
Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman(参考訳) 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。 画像と人間のポーズのシーケンスが与えられたら、人間の動きと布の動きの両方を含むビデオを合成する。 そこで本研究では,事前学習したテキストから画像への拡散(stable diffusion)を,新たな微調整戦略,追加条件付信号をサポートするアーキテクチャ変更,時間的一貫性を促進する手法を用いて,ポーズ・アンド・イメージ誘導ビデオ合成モデルに変換する。 ubcのファッションデータセットのファッションビデオのコレクションについて詳しく調べた。 本手法は,様々な衣料品のスタイルやポーズについて評価し,ファッションビデオアニメーションで最新の結果が得られることを示す。 ビデオの結果はプロジェクトのページで確認できます。

We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transform a pretrained text-to-image model (Stable Diffusion) into a pose-and-image guided video synthesis model, using a novel finetuning strategy, a set of architectural changes to support the added conditioning signals, and techniques to encourage temporal consistency. We fine-tune on a collection of fashion videos from the UBC Fashion dataset. We evaluate our method on a variety of clothing styles and poses, and demonstrate that our method produces state-of-the-art results on fashion video animation. Video results are available on our project page.
翻訳日:2023-04-17 10:41:01 公開日:2023-04-14
# 高次元逆問題に対する物理形ニューラルネットワークの最大相似推定器

Maximum-likelihood Estimators in Physics-Informed Neural Networks for High-dimensional Inverse Problems ( http://arxiv.org/abs/2304.05991v2 )

ライセンス: Link先を確認
Gabriel S. Gusm\~ao and Andrew J. Medford(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、逆常微分方程式(ODE)と偏微分方程式(PDE)を解くのに適した数学的足場であることが証明されている。 典型的な逆PINNは、複数のハイパーパラメータを持つソフト制約付き多目的最適化問題として定式化される。 本研究では,超パラメータチューニングを必要とせず,補間からテイラー展開による物理モデル空間への明示的な誤差伝搬を可能にするために,最大形推定器(MLE)を用いて逆PINNをフレーム化できることを実証する。 我々は、過渡的な化学および生物学的運動学に共通する微分代数方程式によって制約される高次元結合ODEへの応用を探る。 さらに, ode結合行列 (reaction stoichiometry matrix) の特異値分解 (svd) により, ピンズ解を表現でき, 残差を射影できる非相関部分空間が縮小されることを示した。 最後に、SVD ベースは、MLE を 'kinetics-informed neural network'' へ適用する超パラメータフリーロバストな応用において、共分散行列の逆転の前提条件として機能する。

Physics-informed neural networks (PINNs) have proven a suitable mathematical scaffold for solving inverse ordinary (ODE) and partial differential equations (PDE). Typical inverse PINNs are formulated as soft-constrained multi-objective optimization problems with several hyperparameters. In this work, we demonstrate that inverse PINNs can be framed in terms of maximum-likelihood estimators (MLE) to allow explicit error propagation from interpolation to the physical model space through Taylor expansion, without the need of hyperparameter tuning. We explore its application to high-dimensional coupled ODEs constrained by differential algebraic equations that are common in transient chemical and biological kinetics. Furthermore, we show that singular-value decomposition (SVD) of the ODE coupling matrices (reaction stoichiometry matrix) provides reduced uncorrelated subspaces in which PINNs solutions can be represented and over which residuals can be projected. Finally, SVD bases serve as preconditioners for the inversion of covariance matrices in this hyperparameter-free robust application of MLE to ``kinetics-informed neural networks''.
翻訳日:2023-04-17 10:40:48 公開日:2023-04-14
# モデルのスパーシフィケーションは機械学習を単純化する

Model Sparsification Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v3 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制は、モデルから特定の例の効果を取り除き、マシン・アンラーニング(mu)を必要としている。 残りのデータをスクラッチから再トレーニングすることで、正確なアンラーニングが可能になるが、計算コストは近似的だが効率的なアンラーニングスキームの開発につながった。 データ中心のMUソリューション以外にも、新しいモデルベースの視点でMUを前進させます。 理論と実践の両方の結果から,モデルのスパーシティは,効率を保ちながら近似ギャップを閉じながら,近似未学習者のマルチクリテリアアンラーニング性能を向上できることが示唆された。 この知見を活かして,「prune first, then unlearn」と「sparsity-aware unlearning」の2つの新しい非学習メタスキームを開発した。 大規模な実験により,クラスワイドデータスクレイビング,ランダムデータスクレイビング,バックドアデータスレッディングなど,さまざまなシナリオにおいてMUのメリットが一貫して示された。 1つのハイライトは、提案されているスパーシティ・アウェア・アンラーニングパラダイムにおける微調整(最も近似的なアンラーニング手法の1つ)による77%のアンラーニング効果向上である。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

Recent data regulations necessitate machine unlearning (MU): The removal of the effect of specific examples from the model. While exact unlearning is possible by conducting a model retraining with the remaining data from scratch, its computational cost has led to the development of approximate but efficient unlearning schemes. Beyond data-centric MU solutions, we advance MU through a novel model-based viewpoint: sparsification via weight pruning. Our results in both theory and practice indicate that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. With this insight, we develop two new sparsity-aware unlearning meta-schemes, termed `prune first, then unlearn' and `sparsity-aware unlearning'. Extensive experiments show that our findings and proposals consistently benefit MU in various scenarios, including class-wise data scrubbing, random data scrubbing, and backdoor data forgetting. One highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest approximate unlearning methods) in the proposed sparsity-aware unlearning paradigm. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-04-17 10:40:28 公開日:2023-04-14
# 最適nによるnステップ時間差学習

n-Step Temporal Difference Learning with Optimal n ( http://arxiv.org/abs/2303.07068v4 )

ライセンス: Link先を確認
Lakshmi Mandal and Shalabh Bhatnagar(参考訳) 我々は,n段階時間差(TD)学習アルゴリズムにおいて,nの最適値を求める問題を考える。 ランダムなプロジェクションアプローチを用いて離散最適化設定に適用したSPSAに基づく一シミュレーション同時摂動確率近似(SPSA)に基づくモデルフリー最適化手法を用いて最適nを求める。 差分包摂法を用いて,提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求めることを示す。 実験により, n の最適値は任意の初期値に対して sdpsa で達成されることを示した。

We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) learning algorithm. We find the optimal n by resorting to a model-free optimization technique involving a one-simulation simultaneous perturbation stochastic approximation (SPSA) based procedure that we adopt to the discrete optimization setting by using a random projection approach. We prove the convergence of our proposed algorithm, SDPSA, using a differential inclusions approach and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for arbitrary initial values.
翻訳日:2023-04-17 10:39:41 公開日:2023-04-14
# レイアウト型画像生成のための診断ベンチマークと反復塗布

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation ( http://arxiv.org/abs/2304.06671v2 )

ライセンス: Link先を確認
Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal(参考訳) 空間制御は、制御可能な画像生成のコア機能である。 レイアウト誘導画像生成の進歩は、類似した空間構成を持つIDデータセットにおいて有望な結果を示している。 しかし、これらのモデルが任意で見当たらないレイアウトでout-of-distribution (ood) サンプルと向き合う際にどのように振る舞うかは不明である。 本稿では,空間制御スキルの4つのカテゴリ(数,位置,サイズ,形状)を調べる,レイアウト誘導画像生成のための診断ベンチマークであるlayoutbenchを提案する。 最近の2つの代表的なレイアウト誘導画像生成手法をベンチマークし、良質なidレイアウト制御が野生の任意のレイアウト(例えば境界にあるオブジェクト)にうまく一般化できないことを観察する。 次に,前景領域と背景領域をインペインティングによってステップバイステップで生成する新しいベースラインであるiterinpaintを提案する。 既存のモデルの弱点を特定するために,4つのLayoutBenchスキルの定量的,定性的な評価ときめ細かい分析を行う。 最後に, iterinpaintに関する包括的アブレーション研究を行い, 訓練タスク比, 作物/ペーストvs.レパント, 生成順序について検討した。 プロジェクトサイト: https://layoutbench.github.io

Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions in a step-by-step manner via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. Lastly, we show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Project website: https://layoutbench.github.io
翻訳日:2023-04-17 10:31:56 公開日:2023-04-14
# G2T:事前学習言語モデルとコミュニティ検出に基づくトピックモデリングのためのシンプルだが効果的なフレームワーク

G2T: A Simple but Effective Framework for Topic Modeling based on Pretrained Language Model and Community Detection ( http://arxiv.org/abs/2304.06653v2 )

ライセンス: Link先を確認
Leihang Zhang, Jiapeng Liu, Qiang Yan(参考訳) 適切な単語選択法で高品質な文埋め込みをクラスタリングするクラスタリングに基づくトピックモデルは、生成確率的トピックモデルよりも優れたトピックを生成することが報告されている。 しかし,これらの手法は,テキストによる話題と話題の量的関係を無視する適切なパラメータや不完全なモデルを選択することができない。 これらの問題を解決するために,トピックモデリングのためのシンプルかつ効果的なフレームワークであるグラフ to トピック (G2T) を提案する。 フレームワークは4つのモジュールで構成される。 まず、事前訓練された言語モデルを用いて文書表現を取得する。 次に、文書表現間の類似性に応じて意味グラフを構築する。 第3に,文書意味グラフのコミュニティを特定し,トピックと文書の関係を定量化する。 第4に、単語-話題分布は、TFIDFの変種に基づいて計算される。 自動評価の結果,G2Tは異なる長さの英語と中国語の文書で最先端のパフォーマンスを達成したことが示唆された。 人間の判断は、G2Tがベースラインよりも解釈可能性とカバレッジでトピックを生成できることを示している。 さらに、G2Tはトピック番号を自動的に決定するだけでなく、文書内のトピックやトピックにおける単語の確率分布を与える。 最後に、G2Tは公開されており、蒸留実験は、その動作方法の指示を与える。

It has been reported that clustering-based topic models, which cluster high-quality sentence embeddings with an appropriate word selection method, can generate better topics than generative probabilistic topic models. However, these approaches suffer from the inability to select appropriate parameters and incomplete models that overlook the quantitative relation between words with topics and topics with text. To solve these issues, we propose graph to topic (G2T), a simple but effective framework for topic modelling. The framework is composed of four modules. First, document representation is acquired using pretrained language models. Second, a semantic graph is constructed according to the similarity between document representations. Third, communities in document semantic graphs are identified, and the relationship between topics and documents is quantified accordingly. Fourth, the word--topic distribution is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T achieved state-of-the-art performance on both English and Chinese documents with different lengths. Human judgements demonstrate that G2T can produce topics with better interpretability and coverage than baselines. In addition, G2T can not only determine the topic number automatically but also give the probabilistic distribution of words in topics and topics in documents. Finally, G2T is publicly available, and the distillation experiments provide instruction on how it works.
翻訳日:2023-04-17 10:31:32 公開日:2023-04-14
# 法律qaシステムにおける技術の現状を探る

Exploring the State of the Art in Legal QA Systems ( http://arxiv.org/abs/2304.06623v2 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt(参考訳) 法的領域に関する質問に対する回答は、主に複雑な性質と多種多様な法的文書システムのために複雑なタスクである。 法的クエリに対する正確な回答を提供するには、典型的には関連する分野の専門知識が必要である。 質問応答(qa)システムは、人間の言語で質問に対する回答を生成するように設計されている。 QAは自然言語処理を使用して質問を理解し、情報を通して関連する回答を見つける。 QAには、カスタマーサービス、教育、研究、言語間コミュニケーションなど、さまざまな実践的応用がある。 しかし、qaは自然言語理解の改善や複雑であいまいな質問の扱いといった課題に直面している。 法的領域に関する質問に対する回答は、主に複雑な性質と多種多様な法的文書システムのために複雑なタスクである。 法的クエリに対する正確な回答を提供するには、典型的には関連する分野の専門知識が必要である。 現時点では、法的質問に対する回答を議論する調査が不足している。 この問題を解決するために,法分野における質問応答のための14のベンチマークデータセットをレビューし,ディープラーニングモデルに対する最新の法的質問を総合的にレビューする包括的な調査を行う。 これらの研究で使用される異なるアーキテクチャとテクニック、およびこれらのモデルの性能と限界について取り上げる。 さらに、最新の記事やオープンデータ、ソースコードを定期的にアップロードするGitHubリポジトリも公開しています。 リポジトリは \url{https://github.com/abdoelsayed2016/legal-question-answering-review} で利用可能である。

Answering questions related to the legal domain is a complex task, primarily due to the intricate nature and diverse range of legal document systems. Providing an accurate answer to a legal query typically necessitates specialized knowledge in the relevant domain, which makes this task all the more challenging, even for human experts. Question answering (QA) systems are designed to generate answers to questions asked in human languages. QA uses natural language processing to understand questions and search through information to find relevant answers. QA has various practical applications, including customer service, education, research, and cross-lingual communication. However, QA faces challenges such as improving natural language understanding and handling complex and ambiguous questions. Answering questions related to the legal domain is a complex task, primarily due to the intricate nature and diverse range of legal document systems. Providing an accurate answer to a legal query typically necessitates specialized knowledge in the relevant domain, which makes this task all the more challenging, even for human experts. At this time, there is a lack of surveys that discuss legal question answering. To address this problem, we provide a comprehensive survey that reviews 14 benchmark datasets for question-answering in the legal field as well as presents a comprehensive review of the state-of-the-art Legal Question Answering deep learning models. We cover the different architectures and techniques used in these studies and the performance and limitations of these models. Moreover, we have established a public GitHub repository where we regularly upload the most recent articles, open data, and source code. The repository is available at: \url{https://github.com/abdoelsayed2016/Legal-Question-Answering-Review}.
翻訳日:2023-04-17 10:31:12 公開日:2023-04-14
# PDF-VQA:PDFドキュメント上の実世界のVQAのための新しいデータセット

PDF-VQA: A New Dataset for Real-World VQA on PDF Documents ( http://arxiv.org/abs/2304.06447v2 )

ライセンス: Link先を確認
Yihao Ding, Siwen Luo, Hyunsuk Chung, Soyeon Caren Han(参考訳) 文書ベースの視覚的質問応答は、自然言語質問の条件下で文書画像の文書理解を調べる。 文書要素認識,文書レイアウト構造理解,コンテキスト理解,キー情報抽出など,さまざまな側面から文書理解を包括的に検討するための文書ベースVQAデータセットであるPDF-VQAを提案する。 我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。 また、異なる文書要素間の空間的・階層的構造関係を明示的に統合し、文書構造理解を促進するグラフベースの新しいVQAモデルを提案する。 パフォーマンスは、異なる質問タイプ上のいくつかのベースラインと比較され、tasks\footnote{the full datasetは、紙の受け入れ後にリリースされる。

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.
翻訳日:2023-04-17 10:30:47 公開日:2023-04-14
# あなたはここにいる! 1枚の画像から2次元地図上の位置と向きを見つける -flatlandia localization problem と dataset

You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset ( http://arxiv.org/abs/2304.06373v2 )

ライセンス: Link先を確認
Matteo Toso, Matteo Taiana, Stuart James and Alessio Del Bue(参考訳) そこで本稿では,2つのタスクからなる物体検出から画像の可視化問題であるflatlandiaを提案する。 一 粗い地図の定位:被写体の集合を観察する単一の画像を、被写体ランドマークの2次元地図に配置すること。 二 微粒な3DoF局所化:2次元地図内の画像の緯度、経度及び方位を推定すること。 これらの新しいタスクのソリューションは、一般的なオブジェクトのGPSロケーション(サーベイやクラウドソースによる)にアノテートされたオープンアーバンマップを広範囲に活用する。 このようなマップは、通常の大規模3Dモデルよりもストレージフレンドリーで、視覚的なローカライゼーションによく使われる。 既存のデータセットは、提案された問題に適さないため、複数の都市で3DoFの視覚的ローカライゼーション用に設計され、5つのヨーロッパの都市からのクラウドソースデータに基づいているFlatlandiaデータセットを提供する。 flatlandiaデータセットを使用して,提案するタスクの複雑性を検証する。

We introduce Flatlandia, a novel problem for visual localization of an image from object detections composed of two specific tasks: i) Coarse Map Localization: localizing a single image observing a set of objects in respect to a 2D map of object landmarks; ii) Fine-grained 3DoF Localization: estimating latitude, longitude, and orientation of the image within a 2D map. Solutions for these new tasks exploit the wide availability of open urban maps annotated with GPS locations of common objects (\eg via surveying or crowd-sourced). Such maps are also more storage-friendly than standard large-scale 3D models often used in visual localization while additionally being privacy-preserving. As existing datasets are unsuited for the proposed problem, we provide the Flatlandia dataset, designed for 3DoF visual localization in multiple urban settings and based on crowd-sourced data from five European cities. We use the Flatlandia dataset to validate the complexity of the proposed tasks.
翻訳日:2023-04-17 10:30:32 公開日:2023-04-14
# 授業ビデオからの手話翻訳

Sign Language Translation from Instructional Videos ( http://arxiv.org/abs/2304.06371v2 )

ライセンス: Link先を確認
Laia Tarr\'es, Gerard I. G\'allego, Amanda Duarte, Jordi Torres, Xavier Gir\'o-i-Nieto(参考訳) 音声言語への自動手話翻訳(SLT)の進歩は主に、限られたサイズと制限されたドメインのデータセットでベンチマークされている。 我々の研究は、大規模で広範なデータセットであるHow2Signの最初のベースライン結果を提供することで、最先端の技術の進歩を図っている。 i3dビデオ機能上のトランスフォーマーをトレーニングし、広く使用されているbleuスコアではなく、検証のための基準メトリクスとしてbleuを削減した。 我々はBLEUスコア8.03の結果を報告し、さらなる進歩を促進するためにその種のオープンソース実装を初めて公開する。

The advances in automatic sign language translation (SLT) to spoken languages have been mostly benchmarked with datasets of limited size and restricted domains. Our work advances the state of the art by providing the first baseline results on How2Sign, a large and broad dataset. We train a Transformer over I3D video features, using the reduced BLEU as a reference metric for validation, instead of the widely used BLEU score. We report a result of 8.03 on the BLEU score, and publish the first open-source implementation of its kind to promote further advances.
翻訳日:2023-04-17 10:30:15 公開日:2023-04-14
# mprotonet : 3次元マルチパラメトリックmriを用いた脳腫瘍分類のためのケースベース解釈モデル

MProtoNet: A Case-Based Interpretable Model for Brain Tumor Classification with 3D Multi-parametric Magnetic Resonance Imaging ( http://arxiv.org/abs/2304.06258v2 )

ライセンス: Link先を確認
Yuanyuan Wei, Roger Tam, Xiaoying Tang(参考訳) 最近の深層畳み込みニューラルネットワークの医療画像への応用は、その解釈可能性に懸念を生じさせている。 ほとんどの説明可能なディープラーニングアプリケーションは、機能帰属マップを生成するためにpost hocメソッド(gradcamなど)を使用しているが、新しいタイプのケースベースの推論モデル、すなわちprotopnetとその変種があり、トレーニング中にプロトタイプを特定し、入力イメージパッチとそれらのプロトタイプを比較する。 3次元マルチパラメトリック磁気共鳴画像(mpmri)データを用いて,protopnetを脳腫瘍分類に拡張した最初の医療プロトタイプネットワーク(mprotonet)を提案する。 特に注意領域の局所化における2次元自然画像と3D mpMRIの異なる要件に対処するために,ソフトマスクとオンラインCAMロスを備えた新しい注意モジュールを導入した。 ソフトマスクはアテンションマップのシャープ化に役立ち、オンラインCAMロスはアテンションモジュールのトレーニングに画像レベルのラベルを直接活用する。 MProtoNetは、GradCAMやいくつかのProtoPNetの変種と比較して、トレーニング中に人間のアノテートラベルなしで、正確性とローカライズコヒーレンスの両方の解釈可能性指標(最高のアクティベーション精度が0.713\pm0.058$)を統計的に大幅に改善した。 ソースコードはhttps://github.com/aywi/mprotonet。

Recent applications of deep convolutional neural networks in medical imaging raise concerns about their interpretability. While most explainable deep learning applications use post hoc methods (such as GradCAM) to generate feature attribution maps, there is a new type of case-based reasoning models, namely ProtoPNet and its variants, which identify prototypes during training and compare input image patches with those prototypes. We propose the first medical prototype network (MProtoNet) to extend ProtoPNet to brain tumor classification with 3D multi-parametric magnetic resonance imaging (mpMRI) data. To address different requirements between 2D natural images and 3D mpMRIs especially in terms of localizing attention regions, a new attention module with soft masking and online-CAM loss is introduced. Soft masking helps sharpen attention maps, while online-CAM loss directly utilizes image-level labels when training the attention module. MProtoNet achieves statistically significant improvements in interpretability metrics of both correctness and localization coherence (with a best activation precision of $0.713\pm0.058$) without human-annotated labels during training, when compared with GradCAM and several ProtoPNet variants. The source code is available at https://github.com/aywi/mprotonet.
翻訳日:2023-04-17 10:30:06 公開日:2023-04-14
# spcolor:意味的事前ガイドに基づく画像カラー化

SPColor: Semantic Prior Guided Exemplar-based Image Colorization ( http://arxiv.org/abs/2304.06255v2 )

ライセンス: Link先を確認
Siqi Chen, Xueming Li, Xianlin Zhang, Mingdao Wang, Yu Zhang, Yue Zhang(参考訳) Exemplar-based image colorizationは、色基準画像に基づいて対象のグレースケール画像をカラー化することを目的としており、鍵となるのは、これらの2つの画像間の正確なピクセルレベルのセマンティック対応を確立することである。 以前の手法では、参照画像全体にわたって対応を検索しており、このタイプのグローバルマッチングはミスマッチが容易である。 1)基準画像が対象画像に関連するオブジェクトの一部のみを含む場合,不適切な対応が非関連領域に確立される。 2) 物体の形状やテクスチャが容易に混同される地域では, ミスマッチが生じやすい。 これらの課題を克服するために,先進的な先進的な画像カラー化フレームワークであるSPColorを提案する。 従来の手法と異なり、SPColorはまず、参照画像とターゲット画像の画素をセマンティック先行の指示の下で複数の擬似クラスに分類し、その後、新たに設計されたセマンティック先行対応ネットワークを介して、同一クラスの画素間でのみ対応性を確立する。 このように、異なる意味クラス間の不適切な対応は明示的に除外され、明らかにミスマッチは緩和される。 また、色を基準からよりよく保つために、知覚的損失を隠蔽する類似性を設計する。 慎重に設計されたSPColorは、教師なしセグメンテーションモデルによって提供されるセグメンテーションの事前設定を利用する。 実験により,我々のモデルは,公開データセット上で定量的かつ定性的に,最新の最先端手法よりも優れていることが証明された。

Exemplar-based image colorization aims to colorize a target grayscale image based on a color reference image, and the key is to establish accurate pixel-level semantic correspondence between these two images. Previous methods search for correspondence across the entire reference image, and this type of global matching is easy to get mismatch. We summarize the difficulties in two aspects: (1) When the reference image only contains a part of objects related to target image, improper correspondence will be established in unrelated regions. (2) It is prone to get mismatch in regions where the shape or texture of the object is easily confused. To overcome these issues, we propose SPColor, a semantic prior guided exemplar-based image colorization framework. Different from previous methods, SPColor first coarsely classifies pixels of the reference and target images to several pseudo-classes under the guidance of semantic prior, then the correspondences are only established locally between the pixels in the same class via the newly designed semantic prior guided correspondence network. In this way, improper correspondence between different semantic classes is explicitly excluded, and the mismatch is obviously alleviated. Besides, to better reserve the color from reference, a similarity masked perceptual loss is designed. Noting that the carefully designed SPColor utilizes the semantic prior provided by an unsupervised segmentation model, which is free for additional manual semantic annotations. Experiments demonstrate that our model outperforms recent state-of-the-art methods both quantitatively and qualitatively on public dataset.
翻訳日:2023-04-17 10:29:37 公開日:2023-04-14
# コンフォメーション予測のためのポストセレクション推論:精度のためにカバレッジをトレードオフする

Post-selection Inference for Conformal Prediction: Trading off Coverage for Precision ( http://arxiv.org/abs/2304.06158v2 )

ライセンス: Link先を確認
Siddhaarth Sarkar, Arun Kumar Kuchibhotla(参考訳) 共形推論は、有限サンプル保証付きブラックボックスml予測アルゴリズムの不確実性定量化に重要な役割を果たしている。 伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。 現実的な応用では、予測セットを計算した後、誤発見レベルを更新したいかもしれない。 例えば、バイナリ分類の文脈では、アナリストは$95\%$の予測セットから始めて、ほとんどの予測セットがすべての結果クラスを含んでいることを確認できます。 両方のクラスが望ましくない予測セットは、例えば80\%$予測セットなど、検討したいかもしれない。 データ依存的ミスカバーレベルのカバレッジを保証する予測セットの構築は、選択後の推論問題と見なすことができる。 本研究では,分布関数の分布自由信頼帯域を用いて,任意のデータ依存的誤発見レベルを持つ有限サンプル予測保証付き共形推論を開発する。 これにより、従来の共形推論と類似した有限サンプル保証を維持しながら、任意の選択の基準(予測セットのサイズなど)によって設定された予測の品質に対して、自由にカバー確率を交換することができる。

Conformal inference has played a pivotal role in providing uncertainty quantification for black-box ML prediction algorithms with finite sample guarantees. Traditionally, conformal prediction inference requires a data-independent specification of miscoverage level. In practical applications, one might want to update the miscoverage level after computing the prediction set. For example, in the context of binary classification, the analyst might start with a $95\%$ prediction sets and see that most prediction sets contain all outcome classes. Prediction sets with both classes being undesirable, the analyst might desire to consider, say $80\%$ prediction set. Construction of prediction sets that guarantee coverage with data-dependent miscoverage level can be considered as a post-selection inference problem. In this work, we develop uniform conformal inference with finite sample prediction guarantee with arbitrary data-dependent miscoverage levels using distribution-free confidence bands for distribution functions. This allows practitioners to trade freely coverage probability for the quality of the prediction set by any criterion of their choice (say size of prediction set) while maintaining the finite sample guarantees similar to traditional conformal inference.
翻訳日:2023-04-17 10:29:07 公開日:2023-04-14
# ba$_6$cr$_2$s$_{10}$化合物の二量化、電子構造および磁気的性質:第一原理研究

Dimerisation, electronic structure, and magnetic properties in Ba$_6$Cr$_2$S$_{10}$ compounds: First principles studies ( http://arxiv.org/abs/2304.06156v2 )

ライセンス: Link先を確認
Jianfeng Zhang, Huancheng Yang, and Wei Wu(参考訳) 準一次元系は、非常に豊かで興味深い物理学を示すことができるので興味深い。 スピン鎖化合物ba$_6$cr$_2$s$_{10}$は、最近極端な条件下で実験的に合成され、二量化による興味深い磁気的およびトロイダル的性質を示した。 ここでは、[Zhang, et al, Adv. Mat. 34 (12), 2106728 (2022)]に示す磁気構造と特性の実験結果と一致するBa$_6$Cr$_2$S$_{10}$の電子構造と磁気特性を計算するための第一原理計算を行った。 さらに、計算に基づいて、より興味深い物理学が見つかる。 (i)周囲のba原子のスクリーニング効果を示すハバード$u$パラメータの小さいサイズ。 (二)主に硫黄配位子によって誘導されるCr原子の二量体化、及び 3) スピン鎖に沿った反強磁性相互作用により、スピンフラストレーションが進行し、スピン液体が形成される。

Quasi-one-dimensional systems are fascinating as they can exhibit very rich and interesting physics. The spin chain compound Ba$_6$Cr$_2$S$_{10}$ has been synthesised experimentally under extreme conditions recently, which has shown interesting magnetic and toroidal properties due to dimerisation. Here we have performed first principles calculations to compute the electronic structure and magnetic properties of Ba$_6$Cr$_2$S$_{10}$, which are consistent with the experimental results for the magnetic structure and properties shown in [Zhang, et al, Adv. Mat. 34 (12), 2106728 (2022)]. Moreover, based on our calculations, we can find more interesting physics, including (i) the small size of the Hubbard $U$ parameter that implies the screening effect of surrounding Ba atoms, (ii) the dimerisation of Cr atoms mainly induced by the sulfur ligands, and (iii) the next-nearest-neighbouring anti-ferromagnetic interaction along the spin chain, which could bring forward spin frustration, thus spin liquid.
翻訳日:2023-04-17 10:28:43 公開日:2023-04-14