このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230115となっている論文です。

PDF登録状況(公開日: 20230115)

TitleAuthorsAbstract論文公表日・翻訳日
# モバイルアプリデータを用いた社会経済的幸福の予測 : フランスを事例として

Predicting Socio-Economic Well-being Using Mobile Apps Data: A Case Study of France ( http://arxiv.org/abs/2301.09986v1 )

ライセンス: Link先を確認
Rahul Goel, Angelo Furno, Rajesh Sharma(参考訳) 社会経済指標は、国の全体状態を評価する文脈を提供する。 これらの指標には教育、性別、貧困、雇用、その他の要因に関する情報が含まれる。 そのため、社会調査や政府の監視には信頼性と正確性が不可欠である。 国勢調査など現在のデータソースの多くは、人口が少ないか、頻繁に更新されている。 それでも、コールデータレコード(CDR)やモバイルアプリの利用といった代替データソースは、社会経済的指標を特定するための費用対効果と最新の情報源として機能する。 本研究では,モバイルアプリデータを用いて社会経済的特徴を予測する。 約3000万のユーザが550,000平方km以上を分散し,25,000以上の基地局を運用する,数千のモバイルアプリケーションのトラフィックをキャプチャするデータを用いた大規模調査を行った。 データセットはフランス全土をカバーし、2019年3月16日から6月6日までの2.5ヶ月以上に及ぶ。 アプリの利用パターンを使うことで、最良のモデルは社会経済指標を見積もることができる(r-二乗スコアは0.16)。 さらに,モデルの説明可能性を用いて,モバイルアプリの利用パターンがirisの社会経済格差を明らかにする可能性を見出した。 本研究では,ユーザの時間的ネットワーク分析や代替データソースの探索など,今後の介入の道筋について考察する。

Socio-economic indicators provide context for assessing a country's overall condition. These indicators contain information about education, gender, poverty, employment, and other factors. Therefore, reliable and accurate information is critical for social research and government policing. Most data sources available today, such as censuses, have sparse population coverage or are updated infrequently. Nonetheless, alternative data sources, such as call data records (CDR) and mobile app usage, can serve as cost-effective and up-to-date sources for identifying socio-economic indicators. This work investigates mobile app data to predict socio-economic features. We present a large-scale study using data that captures the traffic of thousands of mobile applications by approximately 30 million users distributed over 550,000 km square and served by over 25,000 base stations. The dataset covers the whole France territory and spans more than 2.5 months, starting from 16th March 2019 to 6th June 2019. Using the app usage patterns, our best model can estimate socio-economic indicators (attaining an R-squared score upto 0.66). Furthermore, using models' explainability, we discover that mobile app usage patterns have the potential to reveal socio-economic disparities in IRIS. Insights of this study provide several avenues for future interventions, including users' temporal network analysis and exploration of alternative data sources.
翻訳日:2023-01-29 13:39:48 公開日:2023-01-15
# 動的ストックトレンド予測のための逐次グラフ注意学習(sudent abstract)

Sequential Graph Attention Learning for Predicting Dynamic Stock Trends (Student Abstract) ( http://arxiv.org/abs/2301.10153v1 )

ライセンス: Link先を確認
Tzu-Ya Lai, Wen Jung Cheng and Jun-En Ding(参考訳) 株式市場は企業と市場の間の複雑な関係が特徴である。 本研究では,時系列グラフ構造と注意機構を組み合わせることで,時間内にグローバルおよびローカル情報を学習する。 特に,提案するGAT-AGNNモジュールは,複数の産業および単一産業におけるモデル性能を比較した。 その結果,提案手法は台湾株データセット上での複数の産業における株価動向予測において,最先端の手法よりも優れていた。

The stock market is characterized by a complex relationship between companies and the market. This study combines a sequential graph structure with attention mechanisms to learn global and local information within temporal time. Specifically, our proposed "GAT-AGNN" module compares model performance across multiple industries as well as within single industries. The results show that the proposed framework outperforms the state-of-the-art methods in predicting stock trends across multiple industries on Taiwan Stock datasets.
翻訳日:2023-01-29 13:30:07 公開日:2023-01-15
# 量子機械学習モデルの学習ランドスケープをナビゲートするための時間外相関器のイマジナリー成分と情報スクランブル

Imaginary components of out-of-time correlators and information scrambling for navigating the learning landscape of a quantum machine learning model ( http://arxiv.org/abs/2208.13384v2 )

ライセンス: Link先を確認
Manas Sajjan, Vinit Singh, Raja Selvarajan, Sabre Kais(参考訳) 我々は、時間外相関器の未探索の虚構成分が、グラフニューラルネットワークの情報スクランブル能力に関する前例のない洞察を与えることができることを示す。 さらに,量子相互情報のような従来の相関尺度と関係があることを実証し,このような異質な量によって相互に共有される固有数界(上界と下界の両方)を厳密に確立する。 トレーニングの動的進化中にそのような境界の幾何学的分岐を統合するために、創発凸空間を構築した。 This newly designed space offers much surprising information including the saturation of lower bound by the trained network even for physical systems of large sizes, transference, and quantitative mirroring of spin correlation from the simulated physical system across phase boundaries as desirable features within the latent sub-units of the network (even though the latent units are directly oblivious to the simulated physical system) and the ability of the network to distinguish exotic spin connectivity(volume-law vs area law). このような分析は、量子情報が構成サブシステム間で漸近的に相関を導入し、モデルのエミュレーティブ能力の裏にある基盤となる物理的メカニズムに窓を開くネットワークを通してどのようにスクランブルされるかを明らかにすることによって、量子機械学習モデルのトレーニングをデミステレーションする。

We introduce and analytically illustrate that hitherto unexplored imaginary components of out-of-time correlators can provide unprecedented insight into the information scrambling capacity of a graph neural network. Furthermore, we demonstrate that it can be related to conventional measures of correlation like quantum mutual information and rigorously establish the inherent mathematical bounds (both upper and lower bound) jointly shared by such seemingly disparate quantities. To consolidate the geometrical ramifications of such bounds during the dynamical evolution of training we thereafter construct an emergent convex space. This newly designed space offers much surprising information including the saturation of lower bound by the trained network even for physical systems of large sizes, transference, and quantitative mirroring of spin correlation from the simulated physical system across phase boundaries as desirable features within the latent sub-units of the network (even though the latent units are directly oblivious to the simulated physical system) and the ability of the network to distinguish exotic spin connectivity(volume-law vs area law). Such an analysis demystifies the training of quantum machine learning models by unraveling how quantum information is scrambled through such a network introducing correlation surreptitiously among its constituent sub-systems and open a window into the underlying physical mechanism behind the emulative ability of the model.
翻訳日:2023-01-28 15:02:40 公開日:2023-01-15
# 励起状態に対する密度行列関数の導出

Deriving density-matrix functionals for excited states ( http://arxiv.org/abs/2210.00964v2 )

ライセンス: Link先を確認
Julia Liebert, Christian Schilling(参考訳) 最近提案された $\boldsymbol{w}$-enmble 1- Particle reduced density matrix functional theory (\boldsymbol{w}$-RDMFT) は、最初の汎函数近似を導出し、励起エネルギーを実際にどのように計算できるかを説明する。 この目的のために、我々はまず、ハバードモデルのビルディングブロックを構成する対称ハバードダイマーを研究し、レヴィ・リーブ制約付き探索を実行する。 第二に、ボース=アインシュタイン凝縮体を記述するための $\boldsymbol{w}$-RDMFT の特定の適合性から、ボゴリューボフ系における任意の対の相互作用のために同質なボース気体の普遍函数を導出する3つの概念的に異なるアプローチを示す。 どちらの系においても、函数の勾配は函数の領域の境界で反発的に分岐し、最近発見されたボース=アインシュタイン凝縮力を励起状態へと拡張する。 本研究は, フェルミオン混合状態とボゾン混合状態の一般排他原理と機能理論における普遍性の呪いとの関連性を明らかにする。

We initiate the recently proposed $\boldsymbol{w}$-ensemble one-particle reduced density matrix functional theory ($\boldsymbol{w}$-RDMFT) by deriving the first functional approximations and illustrate how excitation energies can be calculated in practice. For this endeavour, we first study the symmetric Hubbard dimer, constituting the building block of the Hubbard model, for which we execute the Levy-Lieb constrained search. Second, due to the particular suitability of $\boldsymbol{w}$-RDMFT for describing Bose-Einstein condensates, we demonstrate three conceptually different approaches for deriving the universal functional in a homogeneous Bose gas for arbitrary pair interaction in the Bogoliubov regime. Remarkably, in both systems the gradient of the functional is found to diverge repulsively at the boundary of the functional's domain, extending the recently discovered Bose-Einstein condensation force to excited states. Our findings highlight the physical relevance of the generalized exclusion principle for fermionic and bosonic mixed states and the curse of universality in functional theories.
翻訳日:2023-01-24 10:07:20 公開日:2023-01-15
# 量子フィッシャーおよびスキュー情報の単純解析的表現とそのデコヒーレンスチャネル下でのダイナミクス

A simple analytical expression of quantum Fisher and Skew information and their dynamics under decoherence channels ( http://arxiv.org/abs/2209.15593v2 )

ライセンス: Link先を確認
Nour-Eddine Abouelkhir, Hanane EL Hadfi, Abdallah Slaoui and Rachid Ahl Laamara(参考訳) 統計的推定理論では、ウィグナー・ヤネーゼスキュー情報が位相パラメータに関連する量子フィッシャー情報によって境界づけられていることが以前に示されている。 さらに、量子Cram\'er-Rao不等式はスキュー情報で表される。 これら2つの基本量は量子不確実性の概念に基づいているため、同じ解析手順を用いて任意の2 qubit $X$-states の解析式を導出する。 これら2つの準ワーナー状態に対する2つの情報量化器の比較を行った。 さらに,位相減衰,脱分極,振幅減衰チャネルによって生成された量に対するデコヒーレンス効果について検討した。 我々は、デコヒーレンスが進化中の量子基準に強く影響を与え、これらの量も同様の動的挙動を示すことを示した。 この現在の研究は、これらの2つの概念が同じ役割を担い、量子推定プロトコルで同様の性質を捉えているという事実が特徴である。

In statistical estimation theory, it has been shown previously that the Wigner-Yanase skew information is bounded by the quantum Fisher information associated with the phase parameter. Besides, the quantum Cram\'er-Rao inequality is expressed in terms of skew information. Since these two fundamental quantities are based on the concept of quantum uncertainty, we derive here their analytical formulas for arbitrary two qubit $X$-states using the same analytical procedures. A comparison of these two informational quantifiers for two quasi-Werner states composed of two bipartite superposed coherent states is examined. Moreover, we investigated the decoherence effects on such quantities generated by the phase damping, depolarization and amplitude damping channels. We showed that decoherence strongly influences the quantum criteria during the evolution and these quantities exhibit similar dynamic behaviors. This current work is characterized by the fact that these two concepts play the same role and capture similar properties in quantum estimation protocols.
翻訳日:2023-01-24 07:40:58 公開日:2023-01-15
# 近所で何が起きてるの? ローカルニュースを検出するための弱い監視手法

What's happening in your neighborhood? A Weakly Supervised Approach to Detect Local News ( http://arxiv.org/abs/2301.08146v1 )

ライセンス: Link先を確認
Deven Santosh Shah, Shiying He, Radhika Bansal(参考訳) ローカルニュース記事(英: local news articles)は、都市、郡、州などの地理的地域におけるユーザーに影響を与えるニュースのサブセットである。 ローカルニュースの検出(ステップ) 1)その地理的位置と衝突半径を決定する(ステップ) 2) 正確な地域ニュースレコメンデーションに向けた重要なステップは2つある。 ニュースタイトルから市名を検出するようなルールに基づくナイーブな手法は、ニュース内容の理解の欠如により誤った結果をもたらす傾向にある。 自然言語処理の最新開発の力を借りて,ローカルニュースの自動検出とコンテンツベースのローカルニュースレコメンデーションを可能にする統合パイプラインを開発した。 本稿では,(1)ドメイン知識と自動データ処理を組み込んだ弱教師付きフレームワーク,(2)多言語設定への拡張性について述べる。 スタンフォード大学のCoreNLP NERモデルと比較して、パイプラインの精度は高く、実世界および人間ラベル付きデータセットで評価される。 このパイプラインは、より正確なローカルニュースをユーザーに提供し、ローカルビジネスがより露出しやすくし、近隣の安全に関する情報を提供する可能性がある。

Local news articles are a subset of news that impact users in a geographical area, such as a city, county, or state. Detecting local news (Step 1) and subsequently deciding its geographical location as well as radius of impact (Step 2) are two important steps towards accurate local news recommendation. Naive rule-based methods, such as detecting city names from the news title, tend to give erroneous results due to lack of understanding of the news content. Empowered by the latest development in natural language processing, we develop an integrated pipeline that enables automatic local news detection and content-based local news recommendations. In this paper, we focus on Step 1 of the pipeline, which highlights: (1) a weakly supervised framework incorporated with domain knowledge and auto data processing, and (2) scalability to multi-lingual settings. Compared with Stanford CoreNLP NER model, our pipeline has higher precision and recall evaluated on a real-world and human-labeled dataset. This pipeline has potential to more precise local news to users, helps local businesses get more exposure, and gives people more information about their neighborhood safety.
翻訳日:2023-01-20 14:39:18 公開日:2023-01-15
# EENet: アダプティブ推論の早期排除を学ぶ

EENet: Learning to Early Exit for Adaptive Inference ( http://arxiv.org/abs/2301.07099v1 )

ライセンス: Link先を確認
Fatih Ilhan, Ling Liu, Ka-Ho Chow, Wenqi Wei, Yanzhao Wu, Myungjin Lee, Ramana Kompella, Hugo Latapie, Gaowen Liu(参考訳) 早期出口による予算適応推論は、テスト時に限られたリソースを持つエッジAIアプリケーションのためのディープニューラルネットワーク(DNN)の計算効率を改善する新しい技術である。 この方法は、異なるテストデータサンプルが正しい予測のために同じ量の計算を必要としないという事実を活用する。 テスト例では、DNN推論の全レイヤからの早期離脱を可能にすることで、レイテンシを削減し、パフォーマンスを維持しながらエッジ推論のスループットを向上させることができる。 アーリーエグジット可能なDNNモデルをトレーニングするためのDNNアーキテクチャを設計する研究は数多く行われているが、既存の作業の多くは手動または手動のルールベースのアーリーエグジットポリシーを採用している。 本研究では,多目的学習を活用し,所定の推論予算の下で訓練された多元性dnnの早期退出ポリシーを最適化する,新しい多元性dnn推論フレームワークeenetを提案する。 この論文は2つの新しい貢献をする。 まず,各出口におけるテストタイム予測の正しさをより正確に推定するために,多様な信頼度尺度とクラスワイズ予測スコアを組み合わせることで,早期出口ユーティリティスコアの概念を導入する。 次に,検証予測よりも軽量で予算駆動の多目的ニューラルネットワークをトレーニングし,クエリ例の終了割り当てスケジューリングをテスト時に学習する。 EENetアーリーエグゼクティブスケジューラは、異なるエグゼクティブへのテストサンプルの分布と、パフォーマンスメトリックを最大化しながら所定の推論予算を満たすエグゼクティブユーティリティしきい値の選択の両方を最適化する。 3つの画像データセット(CIFAR-10、CIFAR-100、ImageNet)と2つのNLPデータセット(SST-2、AgNews)を含む5つのベンチマークで大規模な実験が行われた。 その結果、既存の代表的早期退避技術と比較してEENetの性能改善が示された。

Budgeted adaptive inference with early exits is an emerging technique to improve the computational efficiency of deep neural networks (DNNs) for edge AI applications with limited resources at test time. This method leverages the fact that different test data samples may not require the same amount of computation for a correct prediction. By allowing early exiting from full layers of DNN inference for some test examples, we can reduce latency and improve throughput of edge inference while preserving performance. Although there have been numerous studies on designing specialized DNN architectures for training early-exit enabled DNN models, most of the existing work employ hand-tuned or manual rule-based early exit policies. In this study, we introduce a novel multi-exit DNN inference framework, coined as EENet, which leverages multi-objective learning to optimize the early exit policy for a trained multi-exit DNN under a given inference budget. This paper makes two novel contributions. First, we introduce the concept of early exit utility scores by combining diverse confidence measures with class-wise prediction scores to better estimate the correctness of test-time predictions at a given exit. Second, we train a lightweight, budget-driven, multi-objective neural network over validation predictions to learn the exit assignment scheduling for query examples at test time. The EENet early exit scheduler optimizes both the distribution of test samples to different exits and the selection of the exit utility thresholds such that the given inference budget is satisfied while the performance metric is maximized. Extensive experiments are conducted on five benchmarks, including three image datasets (CIFAR-10, CIFAR-100, ImageNet) and two NLP datasets (SST-2, AgNews). The results demonstrate the performance improvements of EENet compared to existing representative early exit techniques.
翻訳日:2023-01-19 17:50:52 公開日:2023-01-15
# 個人差によるLSTM学習

Distributed LSTM-Learning from Differentially Private Label Proportions ( http://arxiv.org/abs/2301.07101v1 )

ライセンス: Link先を確認
Timon Sachweh, Daniel Boiar, Thomas Liebig(参考訳) 近年,データプライバシと分散データ収集がますます普及している。 プライバシ、通信帯域幅、時空間データからの学習の問題を解決するために、差分プライバシーと分散LSTM学習を利用する2つの効率的なモデルを提案する:1つは、局所時間ノード制約を抽出し、それらをDense-Layer(LabelProportionToLocal)に供給するために長短記憶(LSTM)モデルを学ぶ。 別のアプローチは、隣人からヒストグラムデータを取得し、LSTM出力(LabelProportionToDense)で情報を結合することで、最初のアプローチを拡張する。 評価には、pems-bay と metr-la の2つの人気のあるデータセットを使用する。 さらに、LuSTをベースとした独自のデータセットも提供しています。 評価は、パフォーマンスとデータのプライバシのトレードオフを示す。

Data privacy and decentralised data collection has become more and more popular in recent years. In order to solve issues with privacy, communication bandwidth and learning from spatio-temporal data, we will propose two efficient models which use Differential Privacy and decentralized LSTM-Learning: One, in which a Long Short Term Memory (LSTM) model is learned for extracting local temporal node constraints and feeding them into a Dense-Layer (LabelProportionToLocal). The other approach extends the first one by fetching histogram data from the neighbors and joining the information with the LSTM output (LabelProportionToDense). For evaluation two popular datasets are used: Pems-Bay and METR-LA. Additionally, we provide an own dataset, which is based on LuST. The evaluation will show the tradeoff between performance and data privacy.
翻訳日:2023-01-19 17:38:16 公開日:2023-01-15
# 地球科学のための量子インスパイアテンソルネットワーク

Quantum-inspired tensor network for Earth science ( http://arxiv.org/abs/2301.07528v1 )

ライセンス: Link先を確認
Soronzonbold Otgonbaatar, Dieter Kranzlm\"uller(参考訳) ディープラーニング(DL)は、ノイズの多い大規模データセット(この場合、衛星画像)から情報的パターンと洞察を抽出する多くの成功手法の1つである。 しかし、DLモデルは数千から数百万のトレーニングパラメータで構成されており、これらのトレーニングパラメータはノイズの多い大規模データセット(例えば計算コスト)から情報パターンを抽出するために膨大な量の電力を必要とする。 そこで我々は,量子インスパイアされたテンソルネットワークを用いて,物理に変形したニューラルネットワーク(pinns)の学習可能なパラメータを圧縮する。 PINNは物理学の法則を強制することによって罰せられるDLモデルであり、特に物理学の法則はDLモデルに組み込まれている。 さらに,ハイパースペクトル画像(hsis)にテンソル分解を適用し,スペクトル分解能を向上させる。 量子インスパイアされたテンソルネットワークは、gpuテンソルコア上のビッグデータ上で量子機械学習モデルを効率的に表現し、トレーニングするためのネイティブな定式化でもある。 さらに,本論文の重要な貢献は2つある: (I) 量子インスパイアされたテンソルネットワークを用いてPINNのトレーニング可能なパラメータを減らし, (II) テンソル分解を用いてリモートセンシング画像のスペクトル分解を改善した。 ベンチマーク PDE として,Burger の方程式を解いた。 実際の衛星データとして,インド・パインとイタリア・パヴィア大学のHSIを用いた。

Deep Learning (DL) is one of many successful methodologies to extract informative patterns and insights from ever increasing noisy large-scale datasets (in our case, satellite images). However, DL models consist of a few thousand to millions of training parameters, and these training parameters require tremendous amount of electrical power for extracting informative patterns from noisy large-scale datasets (e.g., computationally expensive). Hence, we employ a quantum-inspired tensor network for compressing trainable parameters of physics-informed neural networks (PINNs) in Earth science. PINNs are DL models penalized by enforcing the law of physics; in particular, the law of physics is embedded in DL models. In addition, we apply tensor decomposition to HyperSpectral Images (HSIs) to improve their spectral resolution. A quantum-inspired tensor network is also the native formulation to efficiently represent and train quantum machine learning models on big datasets on GPU tensor cores. Furthermore, the key contribution of this paper is twofold: (I) we reduced a number of trainable parameters of PINNs by using a quantum-inspired tensor network, and (II) we improved the spectral resolution of remotely-sensed images by employing tensor decomposition. As a benchmark PDE, we solved Burger's equation. As practical satellite data, we employed HSIs of Indian Pine, USA and of Pavia University, Italy.
翻訳日:2023-01-19 15:51:39 公開日:2023-01-15
# AutoFraudNet:自動車保険業界の不正を検知するマルチモーダルネットワーク

AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance Industry ( http://arxiv.org/abs/2301.07526v1 )

ライセンス: Link先を確認
Azin Asgarian, Rohit Saha, Daniel Jakubovitz, Julia Peyre(参考訳) 保険業界では、不正なクレームを検出することが重大な経済的影響を伴う重要な課題である。 不正なクレームを識別する一般的な戦略は、支持する証拠の矛盾を探すことである。 しかし、保険請求は通常、さまざまなモダリティ(画像、テキスト、メタデータなど)から得られる大量のデータを伴っているため、これは人間の専門家にとって退屈で認知的な作業である。 この課題を克服するために、研究コミュニティは複数のデータソースを効率的に推論できるマルチモーダル機械学習フレームワークに注力してきた。 マルチモーダル学習の最近の進歩にもかかわらず、これらのフレームワークは依然として苦しむ (i)異なるモダリティの異なる特徴による関節訓練の課題と課題 (II)高モデル複雑さによる傾向の過度化。 本研究では,不正な自動保険請求を検出するためのマルチモーダル推論フレームワークであるAutoFraudNetを導入することで,これらの課題に対処する。 AutoFraudNetは、カスケードされたスローフュージョンフレームワークと最先端のフュージョンブロックであるBLOCK Tuckerを使用して、共同トレーニングの課題を軽減する。 さらに、オーバーフィットを防ぐために軽量なアーキテクチャ設計と追加の損失が組み込まれている。 実世界のデータセット上で行われた広範な実験を通して、我々は以下のことを実証する。 (i)ユニモーダル・バイモーダル法と比較した場合のマルチモーダルアプローチのメリット、 (II) AutoFraudNet が様々なモダリティを融合して性能を高める効果(PR AUC では 3 % 以上)。

In the insurance industry detecting fraudulent claims is a critical task with a significant financial impact. A common strategy to identify fraudulent claims is looking for inconsistencies in the supporting evidence. However, this is a laborious and cognitively heavy task for human experts as insurance claims typically come with a plethora of data from different modalities (e.g. images, text and metadata). To overcome this challenge, the research community has focused on multimodal machine learning frameworks that can efficiently reason through multiple data sources. Despite recent advances in multimodal learning, these frameworks still suffer from (i) challenges of joint-training caused by the different characteristics of different modalities and (ii) overfitting tendencies due to high model complexity. In this work, we address these challenges by introducing a multimodal reasoning framework, AutoFraudNet (Automobile Insurance Fraud Detection Network), for detecting fraudulent auto-insurance claims. AutoFraudNet utilizes a cascaded slow fusion framework and state-of-the-art fusion block, BLOCK Tucker, to alleviate the challenges of joint-training. Furthermore, it incorporates a light-weight architectural design along with additional losses to prevent overfitting. Through extensive experiments conducted on a real-world dataset, we demonstrate: (i) the merits of multimodal approaches, when compared to unimodal and bimodal methods, and (ii) the effectiveness of AutoFraudNet in fusing various modalities to boost performance (over 3\% in PR AUC).
翻訳日:2023-01-19 15:51:13 公開日:2023-01-15
# 臨界における非エルミート量子系とエルミート量子系の関係

Relating non-Hermitian and Hermitian quantum systems at criticality ( http://arxiv.org/abs/2211.12525v2 )

ライセンス: Link先を確認
Chang-Tse Hsieh, Po-Yao Chang(参考訳) エルミート量子系と非エルミート量子系を臨界度で関連付ける3種類の変換を、共形場理論(CFT)によって記述できる。 物理スペクトル(ps)とエンタングルメントスペクトル(es)の両方を保存する変換において、エンタングルメントエントロピーの対数スケーリングから抽出される対応する中心電荷は、エルミート系と非エルミート系の両方で同一である。 第2の変換はPSを保存するがESは保存しない。 絡み合いエントロピーのスケーリングは異なり、異なる中心電荷をもたらす。 この変換を自由フェルミオンの場合のダイレーション法で示し、中心電荷が$c=4$の非エルミタン系を$c=2$のエルミタン系にマッピングする。 最後に、パラメータ $\phi \to - 1/\phi$ を持つフィボナッチモデルにおけるガロア共役の研究を行い、この変換はps と es の両方を保存しない。 フィボナッチモデルとそのガロア共役は、三臨界イジングモデル/3状態ポッツモデルと、絡み合いエントロピーのスケーリング特性から負の中央電荷を持つリー・ヤンモデルに関係している。

We demonstrate three types of transformations that relate Hermitian and non-Hermitian quantum systems at criticality which can be described by conformal field theories (CFTs). For the transformation preserving both the physical spectrum (PS) and the entanglement spectrum (ES), the corresponding central charges extracted from the logarithmic scaling of the entanglement entropy are identical for both Hermitian and non-Hermitian systems. The second transformation preserves the PS but not the ES. The entanglement entropy scalings are different and lead to different central charges. We demonstrate this transformation by the dilation method for the free fermion cases, where the non-Hermitian system with central charge $c=-4$ can be mapped to the Hermitian system with $c=2$. Lastly, we study the Galois conjugation in the Fibonacci model with parameter $\phi \to - 1/\phi$, in which the transformation does not preserve both PS and ES. We demonstrate the Fibonacci model and its Galois conjugation relate the tricritical Ising model/3-state Potts model and the Lee-Yang model with negative central charges from the scaling property of the entanglement entropy.
翻訳日:2023-01-19 03:57:11 公開日:2023-01-15
# 集団プライバシ回復:分散型人工知能によるデータ共有コーディネーション

Collective Privacy Recovery: Data-sharing Coordination via Decentralized Artificial Intelligence ( http://arxiv.org/abs/2301.05995v1 )

ライセンス: Link先を確認
Evangelos Pournaras, Mark Christopher Ballandies, Stefano Bennati, Chien-fei Chen(参考訳) 集団的プライバシー喪失は、個人的な自由と民主主義の緊急問題となる。 しかし、私たちは個人情報を希少なリソースとして扱い、原則の下でデータをまとめて共有する準備ができていますか? データ集合である個人集団が、必要な品質でオンラインサービスを実行するための最小限のデータを共有するために調整した場合、プライバシの回復が著しいと仮定する。 ここでは、分散人工知能を用いたプライバシー回復のための複雑な集合的アレンジメントの自動化とスケールアップ方法を紹介する。 このために我々は,27,000以上のデータ共有選択を伴う高現実主義の厳密なリビングラボ実験において,初回,内在的,報酬的,協調的なデータ共有を比較した。 因果推論とクラスタ分析を用いて,プライバシの予測基準と5つの重要なデータ共有行動とを区別する。 興味深いことに、データ共有のコーディネーションは、すべての人にとって勝利であることが証明されている。

Collective privacy loss becomes a colossal problem, an emergency for personal freedoms and democracy. But, are we prepared to handle personal data as scarce resource and collectively share data under the doctrine: as little as possible, as much as necessary? We hypothesize a significant privacy recovery if a population of individuals, the data collective, coordinates to share minimum data for running online services with the required quality. Here we show how to automate and scale-up complex collective arrangements for privacy recovery using decentralized artificial intelligence. For this, we compare for first time attitudinal, intrinsic, rewarded and coordinated data sharing in a rigorous living-lab experiment of high realism involving >27,000 data-sharing choices. Using causal inference and cluster analysis, we differentiate criteria predicting privacy and five key data-sharing behaviors. Strikingly, data-sharing coordination proves to be a win-win for all: remarkable privacy recovery for people with evident costs reduction for service providers.
翻訳日:2023-01-18 17:58:59 公開日:2023-01-15
# Min-Max-Jump 距離とその応用

Min-Max-Jump distance and its applications ( http://arxiv.org/abs/2301.05994v1 )

ライセンス: Link先を確認
Gangli Liu(参考訳) Min-Max-Jump distance (MMJ distance) と呼ばれる新しい距離測定法を提案する。 3つの応用がテストされている。 MMJに基づくK平均は、MMJ距離でK平均を変更する。 MMJに基づくシルエット係数は、Silhouette係数をMMJ距離で補正する。 また,mmjに基づくシルエット係数を用いたニューラルネットワークとインデックス(cnni)モデルによるクラスタリングも行った。 最後のアプリケーションでは、データのクラスタリング分析の後、Min-Max-Jump距離を用いて新しい点のラベルを予測する。 結果,Min-Max-Jump 距離は提案した3つのアプリケーションすべてにおいて良好な性能を示す。

A new distance metric called Min-Max-Jump distance (MMJ distance) is proposed. Three applications of it are tested. MMJ-based K-means revises K-means with MMJ distance. MMJ-based Silhouette coefficient revises Silhouette coefficient with MMJ distance. We also tested the Clustering with Neural Network and Index (CNNI) model with MMJ-based Silhouette coefficient. In the last application, we tested using Min-Max-Jump distance for predicting labels of new points, after a clustering analysis of data. Result shows Min-Max-Jump distance achieves good performances in all the three proposed applications.
翻訳日:2023-01-18 17:58:43 公開日:2023-01-15
# コンピュータビジョン応用におけるアクティベーション関数としてのモジュラーの実証的研究

Empirical study of the modulus as activation function in computer vision applications ( http://arxiv.org/abs/2301.05993v1 )

ライセンス: Link先を確認
Iv\'an Vall\'es-P\'erez, Emilio Soria-Olivas, Marcelino Mart\'inez-Sober, Antonio J. Serrano-L\'opez, Joan Vila-Franc\'es, Juan G\'omez-Sanch\'is(参考訳) 本研究では,新しい非単調活性化関数であるモジュラスを提案する。 非線形性に関する多くの研究は単調関数に焦点が当てられている。 コンピュータビジョンタスクでモジュラーアクティベーション関数を用いることで、モデルが他の非線形性よりもうまく一般化することを示す実験を行い、cifar100では最大15%、cifar10では4%の精度向上が得られた。 活性化関数の導出は常に 1 または -1 であるため、提案された活性化関数により、消失する勾配と死するニューロンの問題は消失する。 提案する関数とその導関数の単純さは、TinyMLおよびハードウェアアプリケーションに特に適している。

In this work we propose a new non-monotonic activation function: the modulus. The majority of the reported research on nonlinearities is focused on monotonic functions. We empirically demonstrate how by using the modulus activation function on computer vision tasks the models generalize better than with other nonlinearities - up to a 15% accuracy increase in CIFAR100 and 4% in CIFAR10, relative to the best of the benchmark activations tested. With the proposed activation function the vanishing gradient and dying neurons problems disappear, because the derivative of the activation function is always 1 or -1. The simplicity of the proposed function and its derivative make this solution specially suitable for TinyML and hardware applications.
翻訳日:2023-01-18 17:58:36 公開日:2023-01-15
# 高精度なマルチビューヒューマンメッシュリカバリのための画素アライメント機能の深層化

Delving Deep into Pixel Alignment Feature for Accurate Multi-view Human Mesh Recovery ( http://arxiv.org/abs/2301.06020v1 )

ライセンス: Link先を確認
Kai Jia, Hongwen Zhang, Liang An, Yebin Liu(参考訳) 回帰に基づく手法は、マルチビューのヒューマンメッシュリカバリに高い効率と有効性を示している。 典型的な回帰器のキーコンポーネントは、入力ビューの特徴抽出とマルチビュー機能の融合にある。 本稿では,マルチビュー画像からの高精度かつ効率的なヒューマンメッシュリカバリのために,paff(pixel-aligned feedback fusion)を提案する。 PaFFは、機能の抽出と融合を交互に実行する反復回帰フレームワークである。 各イテレーションにおいて、PaFFは、現在の推定の再投影に従って、各入力ビューから画素整列フィードバック特徴を抽出し、ダウンサンプリングメッシュの各頂点に対してそれらを融合する。 このようにして、回帰器は、フィードバック機能から各ビューのアライメント状態を認識するだけでなく、メッシュ頂点上の機能融合に基づいて、メッシュパラメータをより効果的に修正することができる。 さらに, 私たちの回帰器は, 入力ビューのカメラパラメータをよりよく活用できるように, メッシュパラメータの推定から, ボディーメッシュのグローバルな配向と翻訳を遠ざけている。 提案手法の有効性をHuman3.6Mデータセットで総合的アブレーション実験により検証し,PaFFは33.02MPJPEを達成し,従来のベストソリューションよりも29%以上改善した。 コードとビデオの結果のプロジェクトページは、https://kairobo.github.io/paff/で見ることができる。

Regression-based methods have shown high efficiency and effectiveness for multi-view human mesh recovery. The key components of a typical regressor lie in the feature extraction of input views and the fusion of multi-view features. In this paper, we present Pixel-aligned Feedback Fusion (PaFF) for accurate yet efficient human mesh recovery from multi-view images. PaFF is an iterative regression framework that performs feature extraction and fusion alternately. At each iteration, PaFF extracts pixel-aligned feedback features from each input view according to the reprojection of the current estimation and fuses them together with respect to each vertex of the downsampled mesh. In this way, our regressor can not only perceive the misalignment status of each view from the feedback features but also correct the mesh parameters more effectively based on the feature fusion on mesh vertices. Additionally, our regressor disentangles the global orientation and translation of the body mesh from the estimation of mesh parameters such that the camera parameters of input views can be better utilized in the regression process. The efficacy of our method is validated in the Human3.6M dataset via comprehensive ablation experiments, where PaFF achieves 33.02 MPJPE and brings significant improvements over the previous best solutions by more than 29%. The project page with code and video results can be found at https://kairobo.github.io/PaFF/.
翻訳日:2023-01-18 17:50:53 公開日:2023-01-15
# CMAE-V:ビデオアクション認識のためのコントラストマスク付きオートエンコーダ

CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition ( http://arxiv.org/abs/2301.06018v1 )

ライセンス: Link先を確認
Cheng-Ze Lu, Xiaojie Jin, Zhicheng Huang, Qibin Hou, Ming-Ming Cheng, Jiashi Feng(参考訳) 新しい自己教師型フレームワークであるContrastive Masked Autoencoder (CMAE)は、視覚画像認識における表現的特徴表現の学習の可能性を示している。 この研究は、CMAEがアーキテクチャや損失基準を変更することなく、ビデオアクション認識を自明に一般化していることを示している。 元のピクセルシフトを時間シフトに置き換えることで、視覚行動認識のためのCMAE、略してCMAE-Vは、純粋なマスク付きオートエンコーダに基づいて、それよりも強力な特徴表現を生成することができる。 特にCMAE-Vはハイブリッドアーキテクチャで、Kinetics-400とSome-something V2データセットでそれぞれ82.2%と71.6%の精度を達成できる。 このレポートが今後の研究に何らかのインスピレーションを与えることを期待している。

Contrastive Masked Autoencoder (CMAE), as a new self-supervised framework, has shown its potential of learning expressive feature representations in visual image recognition. This work shows that CMAE also trivially generalizes well on video action recognition without modifying the architecture and the loss criterion. By directly replacing the original pixel shift with the temporal shift, our CMAE for visual action recognition, CMAE-V for short, can generate stronger feature representations than its counterpart based on pure masked autoencoders. Notably, CMAE-V, with a hybrid architecture, can achieve 82.2% and 71.6% top-1 accuracy on the Kinetics-400 and Something-something V2 datasets, respectively. We hope this report could provide some informative inspiration for future works.
翻訳日:2023-01-18 17:50:30 公開日:2023-01-15
# 拡散に基づく3次元シーンの生成・最適化・計画

Diffusion-based Generation, Optimization, and Planning in 3D Scenes ( http://arxiv.org/abs/2301.06015v1 )

ライセンス: Link先を確認
Siyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu, Wei Liang, Song-Chun Zhu(参考訳) 3dシーン理解のための条件付き生成モデルである scenediffuser を紹介する。 SceneDiffuserは、シーン条件付き生成、最適化、計画を解決する統一モデルを提供する。 以前の作品とは対照的に、SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。 反復的なサンプリング戦略により、シーンディフューザーは拡散に基づく分別処理を通じてシーンアウェア生成、物理ベースの最適化、ゴール指向計画を完全に微分可能な方法で共同で定式化する。 このような設計は、異なるモジュール間の相違や、以前のシーン条件生成モデルの後方崩壊を緩和する。 本研究では,人間のポーズや動きの生成,デクタブルな把持生成,3次元ナビゲーションの経路計画,ロボットアームの動作計画など,さまざまな3次元シーン理解タスクでシーンディフューザを評価する。 その結果,従来のモデルに比べて大幅に改善され,3dシーン理解の広いコミュニティにおけるscenediffuserの可能性が示された。

We introduce SceneDiffuser, a conditional generative model for 3D scene understanding. SceneDiffuser provides a unified model for solving scene-conditioned generation, optimization, and planning. In contrast to prior works, SceneDiffuser is intrinsically scene-aware, physics-based, and goal-oriented. With an iterative sampling strategy, SceneDiffuser jointly formulates the scene-aware generation, physics-based optimization, and goal-oriented planning via a diffusion-based denoising process in a fully differentiable fashion. Such a design alleviates the discrepancies among different modules and the posterior collapse of previous scene-conditioned generative models. We evaluate SceneDiffuser with various 3D scene understanding tasks, including human pose and motion generation, dexterous grasp generation, path planning for 3D navigation, and motion planning for robot arms. The results show significant improvements compared with previous models, demonstrating the tremendous potential of SceneDiffuser for the broad community of 3D scene understanding.
翻訳日:2023-01-18 17:50:14 公開日:2023-01-15
# 擬似ラベルの精度再考--相補学習によるテスト時間適応

Rethinking Precision of Pseudo Label: Test-Time Adaptation via Complementary Learning ( http://arxiv.org/abs/2301.06013v1 )

ライセンス: Link先を確認
Jiayi Han, Longbin Zeng, Liang Du, Weiyang Ding, Jianfeng Feng(参考訳) 本研究では,テスト時間適応(TTA)を向上させるための新たな補完学習手法を提案する。 テスト時間適応タスクでは、ソースドメインからの情報は通常利用できず、テスト時間サンプルの監督なしにモデルを最適化する必要がある。 したがって、通常の手法では、教師なし学習フレームワークにおいて、よく訓練されたソースモデルによる予測に注釈なしデータのラベルを割り当てる。 従来の研究では、モデル予測のエントロピーのような教師なしの目的を、テスト時間サンプルの特徴を効果的に学習するための最適化目標として採用していた。 しかし、擬似ラベルの不正確さがモデルにノイズをもたらすため、モデルの性能は擬似ラベルの品質によって容易に損なわれる。 そこで本研究では,誤った偽ラベルのリスクを減らすために,「あり得ないカテゴリ」を活用することを提案する。 これらのカテゴリを指定するために補完ラベルが導入される。 従来の真のラベル分布の下では,相補ラベルのリスク関数はバニラ損失公式と一致することを強調する。 実験により,提案した学習アルゴリズムは,異なるデータセットと実験環境上での最先端性能を実現することを示す。

In this work, we propose a novel complementary learning approach to enhance test-time adaptation (TTA), which has been proven to exhibit good performance on testing data with distribution shifts such as corruptions. In test-time adaptation tasks, information from the source domain is typically unavailable and the model has to be optimized without supervision for test-time samples. Hence, usual methods assign labels for unannotated data with the prediction by a well-trained source model in an unsupervised learning framework. Previous studies have employed unsupervised objectives, such as the entropy of model predictions, as optimization targets to effectively learn features for test-time samples. However, the performance of the model is easily compromised by the quality of pseudo-labels, since inaccuracies in pseudo-labels introduce noise to the model. Therefore, we propose to leverage the "less probable categories" to decrease the risk of incorrect pseudo-labeling. The complementary label is introduced to designate these categories. We highlight that the risk function of complementary labels agrees with their Vanilla loss formula under the conventional true label distribution. Experiments show that the proposed learning algorithm achieves state-of-the-art performance on different datasets and experiment settings.
翻訳日:2023-01-18 17:50:00 公開日:2023-01-15
# クラスミスマッチ半教師付き学習のための擬似ラベルについて

On Pseudo-Labeling for Class-Mismatch Semi-Supervised Learning ( http://arxiv.org/abs/2301.06010v1 )

ライセンス: Link先を確認
Lu Han, Han-Jia Ye, De-Chuan Zhan(参考訳) 他のクラスからラベル付けされていないout-Of-Distribution(OOD)データがある場合、Semi-Supervised Learning(SSL)メソッドはパフォーマンスの悪化に悩まされ、単にラベル付きデータでトレーニングするよりさらに悪化する。 本稿では,クラスミスマッチSSLにおけるPseudo-Labeling(PL)を実証分析する。 plは、モデルの予測に従ってラベルなしデータの擬似ラベルを作成することによって、ssl問題を教師付き学習に変換する、単純かつ代表的なsslメソッドである。 1)OODデータはPLにどのように影響するのか? 2) pl を用いた ood データの適切な使用状況は? まず,PLの主な問題はOODデータ上での擬似ラベルの不均衡であることを示す。 第二に、OODのデータは、OOD基底真理ラベルからID(In-Distribution)データを分類するのに役立ちます。 そこで本研究では,Re- Balanced Pseudo-Labeling (RPL) とSemantic Exploration Clustering (SEC) の2つのコンポーネントを用いたクラスミスマッチSSLにおけるPLの改善を提案する。 RPLは、高信頼データの擬似ラベルを再バランスさせ、同時にOODデータをフィルタリングし、不均衡問題に対処する。 SECは、低信頼データ上のバランスの取れたクラスタリングを使用して、追加クラス上の擬似ラベルを作成し、地上の真実でトレーニングのプロセスをシミュレートする。 提案手法は,すべてのクラスミスマッチ率の異なるベンチマークにおいて,教師付きベースラインよりも安定した改善を達成できることを示す。

When there are unlabeled Out-Of-Distribution (OOD) data from other classes, Semi-Supervised Learning (SSL) methods suffer from severe performance degradation and even get worse than merely training on labeled data. In this paper, we empirically analyze Pseudo-Labeling (PL) in class-mismatched SSL. PL is a simple and representative SSL method that transforms SSL problems into supervised learning by creating pseudo-labels for unlabeled data according to the model's prediction. We aim to answer two main questions: (1) How do OOD data influence PL? (2) What is the proper usage of OOD data with PL? First, we show that the major problem of PL is imbalanced pseudo-labels on OOD data. Second, we find that OOD data can help classify In-Distribution (ID) data given their OOD ground truth labels. Based on the findings, we propose to improve PL in class-mismatched SSL with two components -- Re-balanced Pseudo-Labeling (RPL) and Semantic Exploration Clustering (SEC). RPL re-balances pseudo-labels of high-confidence data, which simultaneously filters out OOD data and addresses the imbalance problem. SEC uses balanced clustering on low-confidence data to create pseudo-labels on extra classes, simulating the process of training with ground truth. Experiments show that our method achieves steady improvement over supervised baseline and state-of-the-art performance under all class mismatch ratios on different benchmarks.
翻訳日:2023-01-18 17:49:43 公開日:2023-01-15
# 逆情報校正による合理化予測

Rationalizing Predictions by Adversarial Information Calibration ( http://arxiv.org/abs/2301.06009v1 )

ライセンス: Link先を確認
Lei Sha, Oana-Maria Camburu, Thomas Lukasiewicz(参考訳) AIモデルの予測を説明することは、法律や医療分野など、安全クリティカルな応用において最重要である。 予測のための説明の1つの形式は、抽出的論理(extractive rationale)、すなわち、モデルをそのインスタンスにその予測を与えるように導くインスタンスの特徴のサブセットである。 例えば、‘he steal the mobile phone' という文は ``Theft'' の予測の抽出的根拠となる。 前回の抽出的合理性の生成には、通常、最も重要な特徴(すなわち合理性)を選択するセレクタと、選択された特徴のみに基づいて予測を行う予測器という2相モデルを用いる。 これらの研究の欠点の1つは、特徴を抽出するための学習の主信号が、予測器が与える答えと地味な答えの比較から得られることである。 本研究では,情報キャリブレーション手法を用いて,予測者からの情報を絞り込む手法を提案する。 より正確には、2つのモデルを共同でトレーニングする。1つは手前のタスクを正確だがブラックボックスな方法で解く典型的なニューラルモデルであり、もう1つはセレクタ予測モデルであり、予測の根拠も生み出す。 第1モデルは第2モデルのガイドとして使用される。 我々は,2つのモデルから抽出された情報を校正する手法を用いて,それらの違いが欠落した特徴や過選択特徴の指標となるように調整する。 さらに,自然言語タスクに対して,流線型論理の抽出を促進する言語モデルに基づく正規化器を提案する。 感情分析タスク,ヘイトスピーチ認識タスク,および法的領域からの3つのタスクに対する実験結果から,抽出の合理化へのアプローチの有効性が示された。

Explaining the predictions of AI models is paramount in safety-critical applications, such as in legal or medical domains. One form of explanation for a prediction is an extractive rationale, i.e., a subset of features of an instance that lead the model to give its prediction on that instance. For example, the subphrase ``he stole the mobile phone'' can be an extractive rationale for the prediction of ``Theft''. Previous works on generating extractive rationales usually employ a two-phase model: a selector that selects the most important features (i.e., the rationale) followed by a predictor that makes the prediction based exclusively on the selected features. One disadvantage of these works is that the main signal for learning to select features comes from the comparison of the answers given by the predictor to the ground-truth answers. In this work, we propose to squeeze more information from the predictor via an information calibration method. More precisely, we train two models jointly: one is a typical neural model that solves the task at hand in an accurate but black-box manner, and the other is a selector-predictor model that additionally produces a rationale for its prediction. The first model is used as a guide for the second model. We use an adversarial technique to calibrate the information extracted by the two models such that the difference between them is an indicator of the missed or over-selected features. In addition, for natural language tasks, we propose a language-model-based regularizer to encourage the extraction of fluent rationales. Experimental results on a sentiment analysis task, a hate speech recognition task as well as on three tasks from the legal domain show the effectiveness of our approach to rationale extraction.
翻訳日:2023-01-18 17:49:14 公開日:2023-01-15
# キラル状態間のトンネル存在下でのキラル混合物の光励起エナンチオ変換

Optical-pumping enantio-conversion of chiral mixtures in presence of tunneling between chiral states ( http://arxiv.org/abs/2301.06005v1 )

ライセンス: Link先を確認
Fen Zou, Chong Ye, Yong Li(参考訳) キラル混合物のエナンチオ変換は、化学的および生物学的分野において重要な研究トピックとなっている。 本稿では,2つのキラル基底状態と2つのアキラル励起状態からなるキラル分子の4レベルモデルに基づく光学ポンピングによるキラル混合物のエナンチオ変換法を提案する。 電磁場のデチューニングとカップリング強度をよく設計したアキラル励起状態の1つを除去することにより、直接トンネル相互作用によりキラル基底状態間の誘導間接トンネル相互作用をキャンセルすることができ、その間の直接トンネル相互作用により、左利きキラル状態と残りのアキラル励起状態との間の誘導間接相互作用をキャンセルすることができる。 したがって、左利きの基底状態は変化せず、右利きの状態をアキラル励起状態、すなわちキラル状態選択励起状態に励起することができる。 2つのキラルな基底状態の人口を数値的に計算することで、左利きの基底状態のみの人口で高いエナンチオマー過剰が達成できることがわかった。 すなわち、系散逸とキラル状態選択励起の組合せ効果により、キラル混合物の高効率エナンチオ変換を実現する。

Enantio-conversion of chiral mixtures has become an important research topic in chemical and biological fields. Here we propose a scheme for enantio-conversion of chiral mixtures via optical pumping based on a four-level model of chiral molecules composed of two chiral ground states and two achiral excited states, in which there exists a tunneling interaction between the chiral states. By eliminating one of the achiral excited states in the case of large detuning and well designing the detuning and coupling strengths of the electromagnetic fields, the induced indirect tunneling interaction between the chiral ground states can be cancelled with the direct tunneling interaction, and the induced indirect interaction between the left-handed chiral state and the remained achiral excited state can be cancelled with the direct one between them. Hence, the left-handed ground state is unchanged and the right-handed one can be excited to an achiral excited state, i.e., establishing chiral-state-selective excitations. By numerically calculating the populations of two chiral ground states, we find that the high enantiomeric excess can be achieved with almost only the left-handed ground state being populated. That means the high-efficiency enantio-conversion of chiral mixtures is realized under the combining effect of the system dissipation and the chiral-state-selective excitations.
翻訳日:2023-01-18 17:48:47 公開日:2023-01-15
# 非エルミート的 {\mathscr{pt}$-symmetric heisenberg spin chain の厳密解

Exact solution of a non-Hermitian $\mathscr{PT}$-symmetric Heisenberg spin chain ( http://arxiv.org/abs/2301.06004v1 )

ライセンス: Link先を確認
Pradip Kattel and Parameshwar R. Pasnoori and Natan Andrei(参考訳) 我々は、可積分境界場を持つ非エルミート的 $\mathscr{pt}$-symmetric isotropic heisenberg spin chain の厳密解を構成する。 このシステムは、$a$と$b$の2種類のフェーズを示しています。 b$ の型相では、$\mathscr{pt}$-対称性は崩壊せず、実エネルギーのみを持つ固有状態からなるが、$a$ の型相は、複素エネルギーのみを持つ固有状態からなる$\mathscr{pt}$-対称性破壊セクタと、実エネルギーの固有状態と非負の$\mathscr{pt}$-対称性を持つセクタを含む。 $\mathscr{PT}$-対称性破壊セクターは、エネルギーが互いに複素共役である固有状態のペアからなる。 A$型相における2つのセクターの存在は、境界弦によって記述される複雑なエネルギーを持つエッジにおける指数的局所化境界状態と関連している。 A$ と $B$ の両方の型相は、異なる基底状態を示す部分相にさらに分けることができる。 また、一マグノンセクタ内の境界状態波動関数を計算し、境界パラメータの虚数値が増加すると指数局所化された波動関数はバルクにさらに広がり、指数局所化された境界状態が境界パラメータの大きな虚数値に対して安定化されないことを示す。

We construct the exact solution of a non-Hermitian $\mathscr{PT}$-symmetric isotropic Heisenberg spin chain with integrable boundary fields. We find that the system exhibits two types of phases we refer to as $A$ and $B$ phases. In the $B$ type phase, the $\mathscr{PT}$- symmetry remains unbroken and it consists of eigenstates with only real energies, whereas the $A$ type phase contains a $\mathscr{PT}$-symmetry broken sector comprised of eigenstates with only complex energies and a sector of unbroken $\mathscr{PT}$-symmetry with eigenstates of real energies. The $\mathscr{PT}$-symmetry broken sector consists of pairs of eigenstates whose energies are complex conjugates of each other. The existence of two sectors in the $A$ type phase is associated with the exponentially localized bound states at the edges with complex energies which are described by boundary strings. We find that both $A$ and $B$ type phases can be further divided into sub-phases which exhibit different ground states. We also compute the bound state wavefunction in one magnon sector and find that as the imaginary value of the boundary parameter is increased, the exponentially localized wavefunction broadens thereby protruding more into the bulk, which indicates that exponentially localized bound states may not be stabilized for large imaginary values of the boundary parameter.
翻訳日:2023-01-18 17:48:21 公開日:2023-01-15
# active: 顕微鏡ビデオにおける精子の深層モデルと不純物検出

ACTIVE: A Deep Model for Sperm and Impurity Detection in Microscopic Videos ( http://arxiv.org/abs/2301.06002v1 )

ライセンス: Link先を確認
Ao Chen, Jinghua Zhang, Md Mamunur Rahaman, Hongzan Sun, M.D., Tieyong Zeng, Marcin Grzegorzek, Feng-Lei Fan, Chen Li(参考訳) 精子と不純物の正確な検出は、目標の小さなサイズ、不確定なターゲット形態、ビデオの低コントラストと解像度、精子と不純物の類似性といった問題に直面している非常に難しい課題である。 これまでのところ、精子や不純物の検出は、限られた性能しか得られず、しばしば手動による検出プロセスの介入を必要とする従来の画像処理と検出技術に大きく依存している。 本稿では,多数のオブジェクト検出タスクにおけるディープラーニング手法の成功にともなう,二重分岐特徴抽出ネットワーク(DBFEN)とクロス共役特徴ピラミッドネットワーク(CCFPN)に基づくディープラーニングモデルを報告する。 DBFENは、二重分岐構造を持つ小さなオブジェクトから視覚的特徴を抽出するように設計されており、CCFPNは、DBFENによって抽出された特徴を融合させ、位置と高レベルの意味情報の記述を強化する。 私たちの研究は、精子や不純物を検出するためのディープラーニングアプローチの導入の先駆者です。 実験により、精子および不純物検出の最高ap50は91.13%と59.64%であり、競争相手をかなりの利益率で導いて、この問題に新たな最先端の結果をもたらすことが示されている。

The accurate detection of sperms and impurities is a very challenging task, facing problems such as the small size of targets, indefinite target morphologies, low contrast and resolution of the video, and similarity of sperms and impurities. So far, the detection of sperms and impurities still largely relies on the traditional image processing and detection techniques which only yield limited performance and often require manual intervention in the detection process, therefore unfavorably escalating the time cost and injecting the subjective bias into the analysis. Encouraged by the successes of deep learning methods in numerous object detection tasks, here we report a deep learning model based on Double Branch Feature Extraction Network (DBFEN) and Cross-conjugate Feature Pyramid Networks (CCFPN).DBFEN is designed to extract visual features from tiny objects with a double branch structure, and CCFPN is further introduced to fuse the features extracted by DBFEN to enhance the description of position and high-level semantic information. Our work is the pioneer of introducing deep learning approaches to the detection of sperms and impurities. Experiments show that the highest AP50 of the sperm and impurity detection is 91.13% and 59.64%, which lead its competitors by a substantial margin and establish new state-of-the-art results in this problem.
翻訳日:2023-01-18 17:47:53 公開日:2023-01-15
# ビデオグラウンド用テンプレートキャプションの生成

Generating Templated Caption for Video Grounding ( http://arxiv.org/abs/2301.05997v1 )

ライセンス: Link先を確認
Hongxiang Li, Meng Cao, Xuxin Cheng, Zhihong Zhu, Yaowei Li, Yuexian Zou(参考訳) ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。 以前の作業では、ビデオアノテーションの「emph{sparsity dilemma}」を無視しており、潜在的なイベントとデータセットのクエリ文の間のコンテキスト情報の提供に失敗している。 本稿では,本論文で定義したテンプレート付きキャプションであるジェネラルアクションを記述可能なキャプションの提供により,性能が大幅に向上することを示す。 そこで本稿では,ビデオグラウンドのためのテンプレートキャプションネットワーク(TCNet)を提案する。 具体的には,まず,高密度キャプションを生成するために高密度キャプションを導入し,非テンプレートキャプション抑圧(NTCS)によりテンプレートキャプションを得る。 テンプレート付きキャプションをよりよく活用するために,テンプレート付きキャプションとクエリ文間の意味的関係を時間空間に反映し,それらを視覚表現に融合させるCGA(Caption Guided Attention)プロジェクトを提案する。 テンプレート付き字幕と接地真理のギャップを考慮し、よりネガティブなペアを構築し、相互情報を最大化するための非対称デュアルマッチング監視コントラスト学習(ADMSCL)を提案する。 ベルやホイッスルがなければ,3つの公開データセット(\ie, ActivityNet Captions, TACoS, ActivityNet-CG)の広範な実験により,我々の手法が最先端の手法よりも優れていることが示された。

Video grounding aims to locate a moment of interest matching the given query sentence from an untrimmed video. Previous works ignore the \emph{sparsity dilemma} in video annotations, which fails to provide the context information between potential events and query sentences in the dataset. In this paper, we contend that providing easily available captions which describe general actions \ie, templated captions defined in our paper, will significantly boost the performance. To this end, we propose a Templated Caption Network (TCNet) for video grounding. Specifically, we first introduce dense video captioning to generate dense captions, and then obtain templated captions by Non-Templated Caption Suppression (NTCS). To utilize templated captions better, we propose Caption Guided Attention (CGA) project the semantic relations between templated captions and query sentences into temporal space and fuse them into visual representations. Considering the gap between templated captions and ground truth, we propose Asymmetric Dual Matching Supervised Contrastive Learning (ADMSCL) for constructing more negative pairs to maximize cross-modal mutual information. Without bells and whistles, extensive experiments on three public datasets (\ie, ActivityNet Captions, TACoS and ActivityNet-CG) demonstrate that our method significantly outperforms state-of-the-art methods.
翻訳日:2023-01-18 17:47:27 公開日:2023-01-15
# 解剖学的ラベル合成画像を用いた非教師なし心筋分画

Unsupervised Cardiac Segmentation Utilizing Synthesized Images from Anatomical Labels ( http://arxiv.org/abs/2301.06043v1 )

ライセンス: Link先を確認
Sihan Wang, Fuping Wu, Lei Li, Zheyao Gao, Byung-Woo Hong, Xiahai Zhuang(参考訳) 心臓セグメンテーションは臨床実習に非常に必要である。 手作業による膨大な作業のため、教師なしのセグメンテーションが望まれている。 このタスクの不正な最適化問題は本質的に困難であり、十分に設計された制約を必要とする。 本研究では,強度制約と形状制約を両立したマルチクラスセグメンテーションのための教師なしフレームワークを提案する。 まず、従来の非凸エネルギー関数を強度制約として拡張し、U-Netで実装する。 形状制約に対しては, 画像から画像への変換により, 解剖学的ラベルから合成画像を生成する。 さらに,セグメント化ネットワークの形状的特徴を学習するための拡張不変性を適用した。 提案手法をMICCAI2019 MSCMR Challengeの公開データセットを用いて評価し,Diceスコア0.5737,0.7796,0.6287,Myo,LV,RVの心筋MRIで有望な結果を得た。

Cardiac segmentation is in great demand for clinical practice. Due to the enormous labor of manual delineation, unsupervised segmentation is desired. The ill-posed optimization problem of this task is inherently challenging, requiring well-designed constraints. In this work, we propose an unsupervised framework for multi-class segmentation with both intensity and shape constraints. Firstly, we extend a conventional non-convex energy function as an intensity constraint and implement it with U-Net. For shape constraint, synthetic images are generated from anatomical labels via image-to-image translation, as shape supervision for the segmentation network. Moreover, augmentation invariance is applied to facilitate the segmentation network to learn the latent features in terms of shape. We evaluated the proposed framework using the public datasets from MICCAI2019 MSCMR Challenge and achieved promising results on cardiac MRIs with Dice scores of 0.5737, 0.7796, and 0.6287 in Myo, LV, and RV, respectively.
翻訳日:2023-01-18 17:40:36 公開日:2023-01-15
# copulaエントロピーに基づく伝達エントロピーを用いた力学系の時間遅れの同定

Identifying Time Lag in Dynamical Systems with Copula Entropy based Transfer Entropy ( http://arxiv.org/abs/2301.06037v1 )

ライセンス: Link先を確認
Jian Ma(参考訳) 変数間の時間ラグは、異なる分野における力学系の重要な特徴であり、そのような時間ラグを特定することは、多くのアプリケーションを持つ複雑なシステムにおいて中心的な問題である。 移動エントロピー(TE)は近年,時間ラグ識別ツールとして提案されている。 残念ながら、TEを見積もるのは非常に難しい問題でした。 コピュラエントロピー(CE)は統計的な独立性の尺度であり、TEはCEのみで表せることが証明された。 そのため、近年、CEに基づくTEの非パラメトリック推定器が提案されている。 本稿では,TEのCEに基づく推定器を用いて動的システムの時間ラグを推定する。 シミュレーションデータと実データの両方を用いて実験における提案手法の有効性を検証する。 実験の結果,提案手法は3つのシミュレーションシステムの時間ラグを同定できることがわかった。 また, 都市における電力消費に関するデータを用いた実データ実験により, 気象要因から都市の電力消費まで, 推定されたteによる時間的遅れのパターンを同定できることを実証した。

Time lag between variables is a key characteristics of dynamical systems in different fields and identifying such time lag is a central problem in complex systems with many applications. Transfer Entropy (TE) was proposed as a tool for time lag identification recently. Unfortunately, estimating TE has been a notoriously difficult problem. Copula Entropy (CE) is a measure of statistical independence and it was proved that TE can be represented with only CE. Therefore, a non-parametric estimator of TE based on CE was proposed according to such representation recently. In this paper we propose to use the CE-based estimator of TE to identify time lag in dynamical systems. Both simulated and real data are used to verify the effectiveness of the proposed method in the experiments. Experimental results show that the proposed method can identify the time lags in the three simulated systems. The real data experiment with the data on power consumption of the Tetouan city also demonstrates that our method can identify the pattern of time lags through the estimated TE from the weather factors to the power consumption of the city.
翻訳日:2023-01-18 17:40:20 公開日:2023-01-15
# ビッグデータと置換エントロピーを用いた屋上PVシステムの効率的な異常検出法

Efficient anomaly detection method for rooftop PV systems using big data and permutation entropy ( http://arxiv.org/abs/2301.06035v1 )

ライセンス: Link先を確認
Sahand Karimi-Arpanahi and Ali Pourmousavi(参考訳) 屋上太陽光発電システム(PV)の数は、オーストラリアを含む世界各地で近年著しく増加している。 この傾向は今後数年も続くと予想されている。 電力系統の発電効率が高いことから、屋上PVシステムの故障や異常を検出することは、高い効率と安全性を確保する上で不可欠である。 本稿では,ビッグデータを用いた多数の屋上PVシステムに対する新しい異常検出手法と,重み付き置換エントロピー(WPE)と呼ばれる時系列複雑度測定手法を提案する。 この効率的な方法は、特定の領域における履歴PV生成データのみを使用して異常なPVシステムを特定し、新しいセンサやスマートデバイスを必要としない。 実世界のPV生成データセットを用いて、WPEのハイパーパラメータをどのように調整するかについて議論する。 提案したPV異常検出法は,100世帯以上の豪州世帯の屋上PV発生データを用いて検証した。 その結果,本手法で検出された異常システムは実際に問題に遭遇し,綿密な検査を必要とすることがわかった。 潜在的な欠陥の検出と解決は、より良い屋上PVシステム、寿命の延長、投資のリターンの向上をもたらす。

The number of rooftop photovoltaic (PV) systems has significantly increased in recent years around the globe, including in Australia. This trend is anticipated to continue in the next few years. Given their high share of generation in power systems, detecting malfunctions and abnormalities in rooftop PV systems is essential for ensuring their high efficiency and safety. In this paper, we present a novel anomaly detection method for a large number of rooftop PV systems installed in a region using big data and a time series complexity measure called weighted permutation entropy (WPE). This efficient method only uses the historical PV generation data in a given region to identify anomalous PV systems and requires no new sensor or smart device. Using a real-world PV generation dataset, we discuss how the hyperparameters of WPE should be tuned for the purpose. The proposed PV anomaly detection method is then tested on rooftop PV generation data from over 100 South Australian households. The results demonstrate that anomalous systems detected by our method have indeed encountered problems and require a close inspection. The detection and resolution of potential faults would result in better rooftop PV systems, longer lifetimes, and higher returns on investment.
翻訳日:2023-01-18 17:40:02 公開日:2023-01-15
# ポアソン方程式の量子放射基底関数法

Quantum radial basis function method for the Poisson equation ( http://arxiv.org/abs/2301.06032v1 )

ライセンス: Link先を確認
Lingxia Cui, Zongming Wu, Hua Xiang(参考訳) 高次元ポアソン問題の数値解には放射基底関数 (RBF) 法が用いられる。 近似解は、線形方程式の大きな系を解くことで得られる。 本稿では,線形方程式に対する効率的な量子アルゴリズムを用いて,RBF法が加速できる範囲について検討する。 量子アルゴリズムの理論的性能を、標準古典的アルゴリズムである共役勾配法と比較する。 量子アルゴリズムは多項式の高速化を実現することができる。

The radial basis function (RBF) method is used for the numerical solution of the Poisson problem in high dimension. The approximate solution can be found by solving a large system of linear equations. Here we investigate the extent to which the RBF method can be accelerated using an efficient quantum algorithm for linear equations. We compare the theoretical performance of our quantum algorithm with that of a standard classical algorithm, the conjugate gradient method. We find that the quantum algorithm can achieve a polynomial speedup.
翻訳日:2023-01-18 17:39:45 公開日:2023-01-15
# 計算鑑識を用いた次元縮小の有効性に関するレビュー:マルウェア解析への応用

A Review on the effectiveness of Dimensional Reduction with Computational Forensics: An Application on Malware Analysis ( http://arxiv.org/abs/2301.06031v1 )

ライセンス: Link先を確認
Aye Thaw Da Naing, Justin Soh Beng Guan, Yarzar Shwe Win, Jonathan Pan(参考訳) android osは、スマートデバイスに適したオペレーティングシステムプラットフォームとして広く採用されている。 しかし、強力な採用により、Androidベースの悪意のあるソフトウェアやマルウェアの数が指数関数的に増加した。 サイバー捜査やデジタル法医学の一部としてこのようなサイバー脅威に対処するために、このようなマルウェアの識別、検出、および法医学分析に機械学習アルゴリズムの形の計算技術が適用される。 しかし、そのような計算法則モデリング手法は、マルウェアランドスケープの体積、速度、多様性、妥当性を制約している。 これは、その同定と検出の有効性に影響する。 このような結果は、本質的にはそのようなソリューションアプローチによる持続可能性の問題を引き起こす。 効率を最適化する1つのアプローチは、アルゴリズムの性能を高めることを目的とした主成分分析のような次元還元手法を適用することである。 本稿では,Android ベースのマルウェアを検知する計算Forensics タスクにおける Principle Component Analysis の適用の有効性を評価する。 研究仮説を機械学習アルゴリズムの異なる3つのデータセットに適用した。 その結果, 次元的に低減されたデータセットは精度の劣化の指標となることがわかった。

The Android operating system is pervasively adopted as the operating system platform of choice for smart devices. However, the strong adoption has also resulted in exponential growth in the number of Android based malicious software or malware. To deal with such cyber threats as part of cyber investigation and digital forensics, computational techniques in the form of machine learning algorithms are applied for such malware identification, detection and forensics analysis. However, such Computational Forensics modelling techniques are constrained the volume, velocity, variety and veracity of the malware landscape. This in turn would affect its identification and detection effectiveness. Such consequence would inherently induce the question of sustainability with such solution approach. One approach to optimise effectiveness is to apply dimensional reduction techniques like Principal Component Analysis with the intent to enhance algorithmic performance. In this paper, we evaluate the effectiveness of the application of Principle Component Analysis on Computational Forensics task of detecting Android based malware. We applied our research hypothesis to three different datasets with different machine learning algorithms. Our research result showed that the dimensionally reduced dataset would result in a measure of degradation in accuracy performance.
翻訳日:2023-01-18 17:39:39 公開日:2023-01-15
# 生成再生による記憶の自己回復

Self-recovery of memory via generative replay ( http://arxiv.org/abs/2301.06030v1 )

ライセンス: Link先を確認
Zhenglong Zhou, Geshi Yeung, Anna C. Schapiro(参考訳) 脳の顕著な能力は、オフライン期間中に記憶を自律的に再構成する能力である。 生物学的オフライン学習を過小評価するメカニズムであるメモリリプレイ(Memory replay)は、連続的な学習環境での人工ニューラルネットワークの忘れを抑えるオフラインメソッドにインスピレーションを与えた。 連続的な学習ベンチマーク上でのアートパフォーマンスの状態を達成し、メモリ効率とニューラルネットワークによる再生を可能にする。 しかし、脳とは異なり、通常の生成的リプレイは、自身のリプレイサンプルでトレーニングされたオフライン時に記憶を自己組織化しない。 記憶を自律的に再生するための適応的な脳のような能力で生成再生を増強する新しいアーキテクチャを提案する。 このアーキテクチャのキャパシティを,複数の継続的学習タスクと環境にまたがって実証する。

A remarkable capacity of the brain is its ability to autonomously reorganize memories during offline periods. Memory replay, a mechanism hypothesized to underlie biological offline learning, has inspired offline methods for reducing forgetting in artificial neural networks in continual learning settings. A memory-efficient and neurally-plausible method is generative replay, which achieves state of the art performance on continual learning benchmarks. However, unlike the brain, standard generative replay does not self-reorganize memories when trained offline on its own replay samples. We propose a novel architecture that augments generative replay with an adaptive, brain-like capacity to autonomously recover memories. We demonstrate this capacity of the architecture across several continual learning tasks and environments.
翻訳日:2023-01-18 17:39:24 公開日:2023-01-15
# 幅と幅の狭いフェッシュバッハにおける熱ボース気体のクエンチダイナミクス

Quench Dynamics of Thermal Bose Gases Across Wide and Narrow Feshbach ( http://arxiv.org/abs/2301.06028v1 )

ライセンス: Link先を確認
Xiaoyi Yang and Ren Zhang(参考訳) 高温のビリアル展開を用いて,広い,狭く,中間のフェッシュバッハ共鳴付近の熱ボース気体のクエンチダイナミクスについて検討した。 その結果,feshbach共鳴近傍の浅い境界状態は興味深い現象をもたらすことがわかった。 広いフェシュバッハ共鳴の近くでは、長時間の$\hat{n}_{\bf k}$は、散乱長$a_{s}$が0から大きいが有限の正の値を持つときに振動する。 振動周波数 $\omega=e_{\rm b}/\hbar$ と $e_{\rm b}$ は結合エネルギーである。 a_{s}$が無限大または負の値に焼成されると、発振は消滅する。 狭いフェシュバッハ共鳴の近くでは、相互作用は2チャネルモデルによって特徴づけられるべきである。 背景散乱長 $a_{\rm bg}\gtrsim\lambda$ のとき、長時間のダイナミクスに振動があり、その周波数は開チャネルの浅い境界状態のエネルギーによって決定される。 a_{\rm bg}<0$ または $0<a_{\rm bg}\ll\lambda$ の場合、開水路に浅い境界状態が存在しないため、長時間の振動は起こらない。 いくつかの現実的なシステムを使って結論を確認し、その結果は結論と一致する。

Using high-temperature virial expansion, we study the quench dynamics of the thermal Bose gases near a wide, narrow, and intermediate Feshbach resonance. Our results show that the shallow bound state near Feshbach resonance leads to interesting phenomena. Near the wide Feshbach resonance, the long-time $\hat{n}_{\bf k}$ oscillates when the scattering length $a_{s}$ is quenched from zero to large but with finite positive values. The oscillation frequency $\omega=E_{\rm b}/\hbar$ with $E_{\rm b}$ being the binding energy. When $a_{s}$ is quenched to infinity or negative value, the oscillation vanishes. Near the narrow Feshbach resonance, the interaction should be characterized by a two-channel model. When the background scattering length $a_{\rm bg}\gtrsim\lambda$, there is an oscillation in the long-time dynamics, and the frequency is determined by the energy of the shallow bound state in the open channel. When $a_{\rm bg}<0$ or $0<a_{\rm bg}\ll\lambda$, there is no shallow bound state in the open channel, hence no long-time oscillation. We check our conclusion using some realistic systems, and the results are consistent with our conclusion.
翻訳日:2023-01-18 17:39:12 公開日:2023-01-15
# leisa/ralph近赤外観測からの教師なし学習による冥王星表面マッピング

Pluto's Surface Mapping using Unsupervised Learning from Near-Infrared Observations of LEISA/Ralph ( http://arxiv.org/abs/2301.06027v1 )

ライセンス: Link先を確認
A. Emran, C. M. Dalle Ore, C. J. Ahrens, M. K. H. Khan, V. F. Chevrier, and D. P. Cruikshank(参考訳) nasaの探査機ニュー・ホライズンズに搭載されたleisa/ralphの近赤外観測を用いて、教師なしの機械学習技術を用いて冥王星の表面をマッピングした。 主成分を還元したガウス混合モデルを導入し, 準惑星の表面単位の地理的分布を調査した。 また,画像画素レベルで各表面単位の可能性が示唆された。 各ユニットの平均I/Fスペクトルは、N${}_{2}$、CH${}_{4}$、COおよび非揮発性H${}_{2}$Oといった豊富な揮発物の吸収帯の位置と強度で分析され、ユニットを表面組成、地質、地理的位置に接続した。 表面単位の分布は、既存の文献と一致する、ボラティールの異なる表面組成を持つ緯度パターンを示す。 しかしながら、以前のマッピングは、主にスペクトル指標(指標)を用いた構成分析や、(主に)専門家の知識、ラベルデータ、または代表的エンドメンバーの光学定数を必要とする複雑な放射伝達モデルの実装に基づいている。 本研究では, 氷組成の空間分布を事前情報やラベルデータなしでマッピングすることで, 教師なし学習の適用が良好な結果をもたらすことを示す。 したがって、このような応用は、表層物質分布の理解が惑星規模での揮発性輸送モデリングに不可欠であるため、ラベルデータが制約や完全に未知である場合の惑星表面マッピングに特に有利である。 本研究で使用される教師なし学習は広範囲に適用可能であり,太陽系の他の惑星体にも適用可能であることを強調した。

We map the surface of Pluto using an unsupervised machine learning technique using the near-infrared observations of the LEISA/Ralph instrument onboard NASA's New Horizons spacecraft. The principal component reduced Gaussian mixture model was implemented to investigate the geographic distribution of the surface units across the dwarf planet. We also present the likelihood of each surface unit at the image pixel level. Average I/F spectra of each unit were analyzed -- in terms of the position and strengths of absorption bands of abundant volatiles such as N${}_{2}$, CH${}_{4}$, and CO and nonvolatile H${}_{2}$O -- to connect the unit to surface composition, geology, and geographic location. The distribution of surface units shows a latitudinal pattern with distinct surface compositions of volatiles -- consistent with the existing literature. However, previous mapping efforts were based primarily on compositional analysis using spectral indices (indicators) or implementation of complex radiative transfer models, which need (prior) expert knowledge, label data, or optical constants of representative endmembers. We prove that an application of unsupervised learning in this instance renders a satisfactory result in mapping the spatial distribution of ice compositions without any prior information or label data. Thus, such an application is specifically advantageous for a planetary surface mapping when label data are poorly constrained or completely unknown, because an understanding of surface material distribution is vital for volatile transport modeling at the planetary scale. We emphasize that the unsupervised learning used in this study has wide applicability and can be expanded to other planetary bodies of the Solar System for mapping surface material distribution.
翻訳日:2023-01-18 17:38:49 公開日:2023-01-15
# データサイエンスと機械学習によるシェイクスピア劇の連続分析

A data science and machine learning approach to continuous analysis of Shakespeare's plays ( http://arxiv.org/abs/2301.06024v1 )

ライセンス: Link先を確認
Charles Swisher, Lior Shamir(参考訳) テキストを解析できる量的手法が利用可能になったことで、先行情報時代には利用できなかった文学の新たな方法がもたらされた。 ここでは,ウィリアム・シェイクスピアの著作に包括的機械学習分析を適用する。 分析の結果,文章の長さ,形容詞と副詞の頻度,文章で表される感情など,文章のスタイルが時間とともに明らかに変化することがわかった。 機械学習を適用して戯曲の年を幾何学的に予測すると、実際の年と予測年のピアソンの相関は0.71であり、シェイクスピアの筆跡が時間とともに変化したことを示唆している。 また、一部の戯曲の体裁は、その作年前後に書かれたものに近いことが示されている。 例えば、ロミオとジュリエットは1596年にさかのぼるが、1600年以降のシェイクスピアの戯曲に類似している。 この分析のソースコードは無料でダウンロードできる。

The availability of quantitative methods that can analyze text has provided new ways of examining literature in a manner that was not available in the pre-information era. Here we apply comprehensive machine learning analysis to the work of William Shakespeare. The analysis shows clear change in style of writing over time, with the most significant changes in the sentence length, frequency of adjectives and adverbs, and the sentiments expressed in the text. Applying machine learning to make a stylometric prediction of the year of the play shows a Pearson correlation of 0.71 between the actual and predicted year, indicating that Shakespeare's writing style as reflected by the quantitative measurements changed over time. Additionally, it shows that the stylometrics of some of the plays is more similar to plays written either before or after the year they were written. For instance, Romeo and Juliet is dated 1596, but is more similar in stylometrics to plays written by Shakespeare after 1600. The source code for the analysis is available for free download.
翻訳日:2023-01-18 17:38:21 公開日:2023-01-15
# 複雑な時空間過程に対する解釈可能かつスケーラブルなグラフィカルモデル

Interpretable and Scalable Graphical Models for Complex Spatio-temporal Processes ( http://arxiv.org/abs/2301.06021v1 )

ライセンス: Link先を確認
Yu Wang(参考訳) この論文は、複雑な時空間構造を持つデータと、解釈可能でスケーラブルな方法で構造を学ぶ確率的グラフィカルモデルに焦点を当てている。 テンソル変量データのためのガウス的グラフィカルモデルと、トピックモデルを用いた複雑な時間変化テキストの要約である。 この作品は最先端の技術を様々な方向に進めている。 まず、シルベスターテンソル方程式を介して、テンソル変量ガウスのグラフィカルモデルの新しいクラスを導入する。 第2に、テンソル変量ガウス図形モデル推定を現代的なビッグデータ設定に拡張する高速収束近位線形化最小化法に基づく最適化手法を開発する。 第3に、クロネッカー構造(逆)共分散モデルと時空間偏微分方程式(pdes)を接続し、カオス物理系を追跡することのできるアンサンブルカルマンフィルタリングの新しい枠組みを導入する。 第4に、生成統計モデルと計算幾何学的手法を組み合わせた時間変化データの教師なしおよび弱教師付き確率的トピックモデリングのためのモジュラー・解釈可能なフレームワークを提案する。 全体を通して、実際のデータセットを用いて方法論の実践的応用を考察する。 これには脳波データを用いた脳結合分析、太陽画像データを用いた宇宙天気予報、twitterデータを用いた世論の縦断分析、talklifeデータを用いたメンタルヘルス関連の問題のマイニングが含まれる。 ここで導入されたグラフィカルモデリングフレームワークは、それぞれのケースにおいて、解釈可能性、正確性、スケーラビリティを改善します。

This thesis focuses on data that has complex spatio-temporal structure and on probabilistic graphical models that learn the structure in an interpretable and scalable manner. We target two research areas of interest: Gaussian graphical models for tensor-variate data and summarization of complex time-varying texts using topic models. This work advances the state-of-the-art in several directions. First, it introduces a new class of tensor-variate Gaussian graphical models via the Sylvester tensor equation. Second, it develops an optimization technique based on a fast-converging proximal alternating linearized minimization method, which scales tensor-variate Gaussian graphical model estimations to modern big-data settings. Third, it connects Kronecker-structured (inverse) covariance models with spatio-temporal partial differential equations (PDEs) and introduces a new framework for ensemble Kalman filtering that is capable of tracking chaotic physical systems. Fourth, it proposes a modular and interpretable framework for unsupervised and weakly-supervised probabilistic topic modeling of time-varying data that combines generative statistical models with computational geometric methods. Throughout, practical applications of the methodology are considered using real datasets. This includes brain-connectivity analysis using EEG data, space weather forecasting using solar imaging data, longitudinal analysis of public opinions using Twitter data, and mining of mental health related issues using TalkLife data. We show in each case that the graphical modeling framework introduced here leads to improved interpretability, accuracy, and scalability.
翻訳日:2023-01-18 17:38:06 公開日:2023-01-15
# 変分オートエンコーダによる記号表現生成

Symbolic expression generation via Variational Auto-Encoder ( http://arxiv.org/abs/2301.06064v1 )

ライセンス: Link先を確認
Sergei Popov, Mikhail Lazarev, Vladislav Belavin, Denis Derkach, Andrey Ustyuzhanin(参考訳) 物理学、生物学、その他の自然科学には多くの問題があり、記号回帰は貴重な洞察を与え、新しい自然法則を発見することができる。 広く使われているディープニューラルネットワークは解釈可能なソリューションを提供しない。 一方、記号表現は観測値と対象変数の間に明確な関係を与える。 しかし、現時点では、記号回帰タスクに支配的な解決策は存在せず、このギャップをアルゴリズムで減らそうとしている。 本稿では,可変オートエンコーダ(vae)を用いた記号表現生成のための新しいディープラーニングフレームワークを提案する。 簡単に言えば、VAEを使って数学的表現を生成することを提案し、トレーニング戦略は与えられたデータセットに適合する公式を生成する。 このフレームワークにより, 式に関する apriori の知識を高速チェック述語にエンコードし, 最適化プロセスを高速化する。 提案手法を現代の記号的回帰ベンチマークと比較し,ノイズ条件下での競合よりも優れた性能を示す。 SEGVAEの回復率は、Ngyuenデータセットでは65%であり、ノイズレベルは10%であり、従来報告したSOTAよりも20%良い。 この値はデータセットに依存しており、さらに高い値になることを実証する。

There are many problems in physics, biology, and other natural sciences in which symbolic regression can provide valuable insights and discover new laws of nature. A widespread Deep Neural Networks do not provide interpretable solutions. Meanwhile, symbolic expressions give us a clear relation between observations and the target variable. However, at the moment, there is no dominant solution for the symbolic regression task, and we aim to reduce this gap with our algorithm. In this work, we propose a novel deep learning framework for symbolic expression generation via variational autoencoder (VAE). In a nutshell, we suggest using a VAE to generate mathematical expressions, and our training strategy forces generated formulas to fit a given dataset. Our framework allows encoding apriori knowledge of the formulas into fast-check predicates that speed up the optimization process. We compare our method to modern symbolic regression benchmarks and show that our method outperforms the competitors under noisy conditions. The recovery rate of SEGVAE is 65% on the Ngyuen dataset with a noise level of 10%, which is better than the previously reported SOTA by 20%. We demonstrate that this value depends on the dataset and can be even higher.
翻訳日:2023-01-18 17:32:07 公開日:2023-01-15
# 3d顔アニメーションのための音声駆動ビセームダイナミクスの学習

Learning Audio-Driven Viseme Dynamics for 3D Face Animation ( http://arxiv.org/abs/2301.06059v1 )

ライセンス: Link先を確認
Linchao Bao, Haoxian Zhang, Yue Qian, Tangli Xue, Changhai Chen, Xuefei Zhe, Di Kang(参考訳) 入力音声からリアルな唇同期3次元顔アニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。 提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。 このアプローチの核心は,音声ビデオからvisemeパラメータを抽出するためにphoneme priorsを利用する新しいパラメトリックvisemeフィッティングアルゴリズムである。 音素の誘導により、抽出されたビセメ曲線は音素と相関しやすくなり、アニメーターに対してより制御可能で親しみやすい。 多言語音声入力と未知音声への一般化性を実現するため,複数言語で事前訓練されたディープオーディオ特徴モデルを利用して,音声からビセメ曲線へのマッピングを学習する。 入力音声が音量、ピッチ、速度、ノイズの歪みに苦しむ場合でも、音声から曲線へのマッピングは最先端のパフォーマンスを実現します。 最後に,高忠実度ビセム資産獲得のためのビセムスキャン手法を,効率的な音声アニメーション制作のために提案する。 予測したビセメ曲線を異なるビセメゴット文字に適用することで、リアルな顔の動きや自然な動きで様々なパーソナライズされたアニメーションが得られることを示す。 私たちのアプローチはアーティストフレンドリーで、blendshapeやボーンベースのアニメーションといった典型的なアニメーション制作ワークフローに簡単に統合できます。

We present a novel audio-driven facial animation approach that can generate realistic lip-synchronized 3D facial animations from the input audio. Our approach learns viseme dynamics from speech videos, produces animator-friendly viseme curves, and supports multilingual speech inputs. The core of our approach is a novel parametric viseme fitting algorithm that utilizes phoneme priors to extract viseme parameters from speech videos. With the guidance of phonemes, the extracted viseme curves can better correlate with phonemes, thus more controllable and friendly to animators. To support multilingual speech inputs and generalizability to unseen voices, we take advantage of deep audio feature models pretrained on multiple languages to learn the mapping from audio to viseme curves. Our audio-to-curves mapping achieves state-of-the-art performance even when the input audio suffers from distortions of volume, pitch, speed, or noise. Lastly, a viseme scanning approach for acquiring high-fidelity viseme assets is presented for efficient speech animation production. We show that the predicted viseme curves can be applied to different viseme-rigged characters to yield various personalized animations with realistic and natural facial motions. Our approach is artist-friendly and can be easily integrated into typical animation production workflows including blendshape or bone based animation.
翻訳日:2023-01-18 17:31:51 公開日:2023-01-15
# Hawk: 産業用多ラベル文書分類器

Hawk: An Industrial-strength Multi-label Document Classifier ( http://arxiv.org/abs/2301.06057v1 )

ライセンス: Link先を確認
Arshad Javeed(参考訳) 古典的なマルチラベル文書分類を解く方法やアルゴリズムは数多く存在する。 しかしながら、デプロイメントと業界環境での使用に関しては、ほぼすべての現代的アプローチが理想的なソリューションの重要な側面や要件に対処できていないとは限りません。 可変長テキストとランブルドキュメントで操作する機能。 私は... 悲惨な忘れ物問題です 第3回。 オンライン学習やモデルの更新に関してはモジュール性です。 iv 予測、すなわち予測を視覚化しながら、関連するテキストにスポットライトを当てる能力。 不均衡または歪んだデータセットで操作する機能。 vi。 スケーラビリティ。 本稿では,これらの問題の重要性を詳述し,上記の問題に対処する独自のニューラルネットワークアーキテクチャを提案する。 提案アーキテクチャでは,文書を文列とみなし,入力表現に文レベルの埋め込みを利用する。 ハイドラネットのようなアーキテクチャは、モジュール性を改善するための粒度の制御と、重み付けされた損失駆動タスク固有のヘッドを備えるように設計されている。 特に、Bi-LSTMとTransformerベースの2つのメカニズムを比較する。 このアーキテクチャは、Web of Science - 5763、Web of Science - 11967、BBC Sports、BBC Newsなどの人気のあるベンチマークデータセットでベンチマークされている。 実験結果から,提案手法は既存の手法よりもかなり優れていることがわかった。 アブレーション研究は, 注意機構の影響と加重損失関数のヒドラネットにおけるタスク固有頭部の訓練への応用の比較を含む。

There are a plethora of methods and algorithms that solve the classical multi-label document classification. However, when it comes to deployment and usage in an industry setting, most, if not all the contemporary approaches fail to address some of the vital aspects or requirements of an ideal solution: i. ability to operate on variable-length texts and rambling documents. ii. catastrophic forgetting problem. iii. modularity when it comes to online learning and updating the model. iv. ability to spotlight relevant text while producing the prediction, i.e. visualizing the predictions. v. ability to operate on imbalanced or skewed datasets. vi. scalability. The paper describes the significance of these problems in detail and proposes a unique neural network architecture that addresses the above problems. The proposed architecture views documents as a sequence of sentences and leverages sentence-level embeddings for input representation. A hydranet-like architecture is designed to have granular control over and improve the modularity, coupled with a weighted loss driving task-specific heads. In particular, two specific mechanisms are compared: Bi-LSTM and Transformer-based. The architecture is benchmarked on some of the popular benchmarking datasets such as Web of Science - 5763, Web of Science - 11967, BBC Sports, and BBC News datasets. The experimental results reveal that the proposed model outperforms the existing methods by a substantial margin. The ablation study includes comparisons of the impact of the attention mechanism and the application of weighted loss functions to train the task-specific heads in the hydranet.
翻訳日:2023-01-18 17:31:28 公開日:2023-01-15
# オブジェクト特性の学習計画

Planning for Learning Object Properties ( http://arxiv.org/abs/2301.06054v1 )

ライセンス: Link先を確認
Leonardo Lamanna, Luciano Serafini, Mohamadreza Faridghasemnia, Alessandro Saffiotti, Alessandro Saetti, Alfonso Gerevini, Paolo Traverso(参考訳) 物理的環境に埋め込まれた自律エージェントは、知覚データからオブジェクトとその特性を認識する能力を必要とする。 このような知覚能力は、ラベル付きデータのセットを使って事前学習される教師付き機械学習モデルによって実装されることが多い。 しかし、現実世界のオープンエンドデプロイメントでは、あらゆる可能な環境に対して事前訓練されたモデルを持つことは現実的ではない。 そのため、エージェントは自律的な方法で知覚能力のオンライン学習/適応/拡張を動的に行う必要がある。 本稿ではシンボリックプランニングを活用することで,その方法を説明する。 具体的には,オブジェクト特性を(pddlを用いて)シンボリックプランニング問題として認識するために,ニューラルネットワークを自動トレーニングする問題を定式化する。 トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。 最後に,シミュレーション環境と実環境の両方において実験的な評価を行い,提案手法が新たなオブジェクト特性の認識を効果的に学習できることを示す。

Autonomous agents embedded in a physical environment need the ability to recognize objects and their properties from sensory data. Such a perceptual ability is often implemented by supervised machine learning models, which are pre-trained using a set of labelled data. In real-world, open-ended deployments, however, it is unrealistic to assume to have a pre-trained model for all possible environments. Therefore, agents need to dynamically learn/adapt/extend their perceptual abilities online, in an autonomous way, by exploring and interacting with the environment where they operate. This paper describes a way to do so, by exploiting symbolic planning. Specifically, we formalize the problem of automatically training a neural network to recognize object properties as a symbolic planning problem (using PDDL). We use planning techniques to produce a strategy for automating the training dataset creation and the learning process. Finally, we provide an experimental evaluation in both a simulated and a real environment, which shows that the proposed approach is able to successfully learn how to recognize new object properties.
翻訳日:2023-01-18 17:31:07 公開日:2023-01-15
# T2M-GPT:個別表現によるテキスト記述からの人間の動きの生成

T2M-GPT: Generating Human Motion from Textual Descriptions with discrete Representations ( http://arxiv.org/abs/2301.06052v1 )

ライセンス: Link先を確認
Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong Zhang, Hongwei Zhao, Hongtao Lu and Xi Shen(参考訳) 本研究では,Vector Quantized-Variational AutoEncoder (VQ-VAE) とGenerative Pre-trained Transformer (GPT) に基づく簡易かつ必須な条件生成フレームワークについて検討する。 一般的なトレーニングレシピ (EMA と Code Reset) を用いた単純な CNN ベースの VQ-VAE により,高品質な離散表現が得られることを示す。 GPTでは、トレーニング中に簡単な汚職対策を取り入れて、トレーニングテストの相違を緩和する。 その単純さにもかかわらず、我々のT2M-GPTは、最近の拡散ベースのアプローチを含む競合アプローチよりも優れたパフォーマンスを示している。 例えば、現在最大のデータセットであるHumanML3Dでは、テキストと生成されたモーション(R-Precision)の一貫性で同等のパフォーマンスを実現していますが、FID 0.116ではMotionDiffuseの0.630を上回っています。 さらに、HumanML3Dの分析を行い、データセットのサイズが我々のアプローチの限界であることを観察する。 我々の研究は、VQ-VAEが未だに人間のモーション生成の競争的アプローチであることを示唆している。

In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.
翻訳日:2023-01-18 17:30:50 公開日:2023-01-15
# dsvt:回転セットを有する動的スパースボクセル変圧器

DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets ( http://arxiv.org/abs/2301.06051v1 )

ライセンス: Link先を確認
Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang(参考訳) スパースポイントクラウドを扱うために効率的だがデプロイしやすい3Dバックボーンを設計することは、3Dオブジェクト検出の根本的な問題である。 カスタマイズされたスパース畳み込みと比較して、トランスフォーマーのアテンションメカニズムは長距離関係を柔軟にモデル化するのに適しており、現実世界のアプリケーションでデプロイするのが容易である。 しかし、点雲のスパース特性のため、スパース点に標準変圧器を適用することは自明ではない。 本稿では,屋外3次元物体検出のためのシングルストライドウィンドウベースのボクセルトランスバータであるDynamic Sparse Voxel Transformer (DSVT)を提案する。 スパースポイントを効率よく並列に処理するために,各ウィンドウ内の複数のローカル領域を間隔に応じて分割し,全領域の特徴を並列に計算する動的スパースウィンドウアテンションを提案する。 クロスセット接続を実現するために、連続的な自己アテンション層における2つのパーティショニング構成を交互に切り替える回転セット分割戦略を設計する。 また,効率的なダウンサンプリングと幾何学的情報のエンコード化を支援するため,カスタマイズしたCUDA操作を使わずに,より強力で展開しやすい3Dプールモジュールを提案する。 我々のモデルは、大規模Waymo Open Datasetにおける最先端のパフォーマンスを著しく向上させる。 さらに、DSVTはリアルタイム推論速度(27Hz)でTensorRTで簡単にデプロイできる。 コードは \url{https://github.com/Haiyang-W/DSVT} で入手できる。

Designing an efficient yet deployment-friendly 3D backbone to handle sparse point clouds is a fundamental problem in 3D object detection. Compared with the customized sparse convolution, the attention mechanism in Transformers is more appropriate for flexibly modeling long-range relationships and is easier to be deployed in real-world applications. However, due to the sparse characteristics of point clouds, it is non-trivial to apply a standard transformer on sparse points. In this paper, we present Dynamic Sparse Voxel Transformer (DSVT), a single-stride window-based voxel Transformer backbone for outdoor 3D object detection. In order to efficiently process sparse points in parallel, we propose Dynamic Sparse Window Attention, which partitions a series of local regions in each window according to its sparsity and then computes the features of all regions in a fully parallel manner. To allow the cross-set connection, we design a rotated set partitioning strategy that alternates between two partitioning configurations in consecutive self-attention layers. To support effective downsampling and better encode geometric information, we also propose an attention-style 3D pooling module on sparse points, which is powerful and deployment-friendly without utilizing any customized CUDA operations. Our model achieves state-of-the-art performance on large-scale Waymo Open Dataset with remarkable gains. More importantly, DSVT can be easily deployed by TensorRT with real-time inference speed (27Hz). Code will be available at \url{https://github.com/Haiyang-W/DSVT}.
翻訳日:2023-01-18 17:30:28 公開日:2023-01-15
# ルビジウム蒸気の位相整合性向上による780nm単一光子の明るい低ノイズ源

Bright, low-noise source of single photons at 780 nm with improved phase-matching in rubidium vapor ( http://arxiv.org/abs/2301.06049v1 )

ライセンス: Link先を確認
Omri Davidson, Ohad Yogev, Eilon Poem, Ofer Firstenberg(参考訳) 将来の光量子ネットワークは、例えば量子記憶や決定論的フォトニックゲートなど、原子によく結合した単一光子から恩恵を受ける可能性がある。 しかし、そのような光子の効率的な生成は難しい課題である。 近年,ルビジウム蒸気中の4波長混合による波長可変GHz帯光子(Davidson et al. 2021 New J. Phys. 23 073050)による光子の多重化を実証した。 本稿では,この光子源の実装改善について報告する。 新しい実装では、位相整合性の良い周波数変調方式、単一モードファイバを用いた空間配向法、より高電圧セル伝送を採用する。 ソースのキャラクタリゼーションは、高い検出効率と低いジッタを持つ超伝導ナノワイヤ検出器を用いて行われる。 光源は,20%以上と検出された単一光子,88%のHong-Ou-Mandel干渉可視性,毎秒100キロ秒以上の発生率,100以上の信号-雑音比を有し,光子を用いた量子情報処理に適している。

Future optical quantum networks could benefit from single photons that couple well to atoms, for realizing, e.g., quantum memories and deterministic photonic gates. However, the efficient generation of such photons remains a difficult challenge. Recently, we demonstrated a bright multiplexed source of indistinguishable single photons with tunable GHz-bandwidth based on four-wave-mixing in rubidium vapor [Davidson et al. 2021 New J. Phys. 23 073050]. Here we report on an improved implementation of this photon source. The new implementation employs a frequency-detuning regime that is better phase matched, a spatial-alignment procedure using single-mode fibers, and higher vapor-cell transmission. Characterization of the source is performed using superconducting-nanowire detectors with higher detection efficiency and lower jitter. Our source produces single photons with detected heralding efficiency of over 20%, Hong-Ou-Mandel interference visibility of 88%, generation rate of over 100 kilo-counts per second, and signal-to-noise ratio greater than 100, making it suitable for quantum information processing with photons.
翻訳日:2023-01-18 17:30:02 公開日:2023-01-15
# 量子ビット冷却と加熱による熱力学的状態変換性の決定

Thermodynamic state convertibility is determined by qubit cooling and heating ( http://arxiv.org/abs/2301.06048v1 )

ライセンス: Link先を確認
Thomas Theurer, Elia Zanoni, Carlo Maria Scandolo, Gilad Gour(参考訳) 熱力学は物理学の基礎と技術応用の両方において重要な役割を担っている。 近年の運用の観点からは、量子資源理論として定式化されている。 この理論の核心は、熱平衡状態(すなわち熱平衡状態)の間の相互変換である。 ここでは、熱平衡状態にある他の量子系を熱して冷却するためにアサーモナリティをどのように利用できるかという問題を解く。 次に,準古典的資源(異なるエネルギー固有状態間のコヒーレンスを示さない資源)間の変換性は,量子ビットを冷却・加熱する能力,すなわち最も単純な量子系における2つの基本的な熱力学的タスクによって完全に特徴づけられることを示した。

Thermodynamics plays an important role both in the foundations of physics and in technological applications. An operational perspective adopted in recent years is to formulate it as a quantum resource theory. At the core of this theory is the interconversion between athermality states, i.e., states out of thermal equilibrium. Here, we solve the question how athermality can be used to heat and cool other quantum systems that are initially at thermal equilibrium. We then show that the convertibility between quasi-classical resources (resources that do not exhibit coherence between different energy eigenstates) is fully characterized by their ability to cool and heat qubits, i.e., by two of the most fundamental thermodynamical tasks on the simplest quantum systems.
翻訳日:2023-01-18 17:29:38 公開日:2023-01-15
# evoaaa:自動神経自動エンコーダ探索のための進化方法論

EvoAAA: An evolutionary methodology for automated \neural autoencoder architecture search ( http://arxiv.org/abs/2301.06047v1 )

ライセンス: Link先を確認
Francisco Charte and Antonio J. Rivera and Francisco Mart\'inez and Mar\'ia J. del Jesus(参考訳) 機械学習モデルは、キュレーションされた機能が提供されると、よりうまく機能する。 特徴工学的手法は通常、適切な特徴集合を入手または構築するための前処理ステップとして用いられてきた。 近年では、オートエンコーダ(特定のタイプの対称ニューラルネットワーク)が表現学習に広く使われ、古典的な特徴工学アルゴリズムに対する競争力を示している。 オートエンコーダの使用における主な障害は、多くの専門家が手動で直面する優れたアーキテクチャを見つけることだ。 本稿では,進化的手法に基づく自動オートエンコーダアーキテクチャ探索手順を提案する。 この手法は9つの異種データセットに対して検証される。 得られた結果は、より優れたアーキテクチャを見つけるためのこのアプローチの能力を示し、最小限のコーディングで有用な情報のほとんどを、少ない時間で集中させることができる。

Machine learning models work better when curated features are provided to them. Feature engineering methods have been usually used as a preprocessing step to obtain or build a proper feature set. In late years, autoencoders (a specific type of symmetrical neural network) have been widely used to perform representation learning, proving their competitiveness against classical feature engineering algorithms. The main obstacle in the use of autoencoders is finding a good architecture, a process that most experts confront manually. An automated autoencoder architecture search procedure, based on evolutionary methods, is proposed in this paper. The methodology is tested against nine heterogeneous data sets. The obtained results show the ability of this approach to find better architectures, able to concentrate most of the useful information in a minimized coding, in a reduced time.
翻訳日:2023-01-18 17:29:23 公開日:2023-01-15
# 調和トラップに閉じ込められた2つの単純化されたライドバーグ原子の詳細な解析

Detailed analysis of two simplified Rydberg dressed atoms confined in a harmonic trap ( http://arxiv.org/abs/2301.06045v1 )

ライセンス: Link先を確認
Nabila Grar and Leila Chia(参考訳) ステップのようなポテンシャルを用いることで、2つの原子間の相互作用のRydberg短距離部分を模倣することができる。 この場合、シュロディンガー方程式の分析解を確立することができる。 この貢献では,異なる相互作用スキーム(異なる強さと範囲),異なる次元,空間相関への影響を強調することで,この単純化されたモデルについて詳細に分析する。 我々は, 摂動処理をポテンシャルに適用することで, このモデルの改良を実現することができる。 また, 潜在的特徴の急激な変化に関連する動的側面についても検討した。

By using a step-like potential it is possible to mimic the Rydberg short range part of the interaction between two atoms. It is possible in this case to establish an analytical solution of the Schrodinger equation. In this contribution we are analyzing in detail this simplified model by highlighting the major players in different interaction schemes (different strengths and ranges), different dimensionalities and the impact on spatial correlation. We are able to achieve an improvement to this model by applying a perturbation treatment to the potential. The dynamical aspects related to a sudden change of the potential features are also investigated.
翻訳日:2023-01-18 17:29:10 公開日:2023-01-15
# マルチコントラストMRIの多様体射影からのセグメンテーション視床核

Segmenting thalamic nuclei from manifold projections of multi-contrast MRI ( http://arxiv.org/abs/2301.06114v1 )

ライセンス: Link先を確認
Chang Yan and Muhan Shao and Zhangxing Bian and Anqi Feng and Yuan Xue and Jiachen Zhuo and Rao P. Gullapalli and Aaron Carass and Jerry L. Prince(参考訳) 視床は皮質下灰白質構造であり、脳内の感覚と運動のシグナルの伝達に重要な役割を果たしている。 核は萎縮したり、神経疾患や軽度の外傷性脳損傷などによる損傷を受けることがある。 視床とその核のセグメンテーションは、従来の磁気共鳴(mr)画像における視床内および周辺でのコントラストが比較的低いため困難である。 本論文は,視床核を包含する自然に集合する組織の特徴を決定するための画像特徴について検討する。 組織コントラストには、T1強調画像とT2強調画像、FAを含むMR拡散測定、平均拡散率、繊維配向を表すKnutsson係数、FGATIRおよびT1強調画像から得られた合成マルチTI画像が含まれる。 これらのコントラストの登録と視床の分離の後、一様多様体近似投影法 (uniform manifold approximation and projection,umap) を用いて、視床内のデータの低次元表現を作成する。 視床を手動でラベル付けすることで、我々のUMAP埋め込みのラベルを提供し、そこから隣人k人が同じUMAP埋め込みに新しい未知のボクセルをラベル付けすることができる。 n-フォールドクロスバリデーション この手法は視床括弧術の最先端法に匹敵する性能を示す。

The thalamus is a subcortical gray matter structure that plays a key role in relaying sensory and motor signals within the brain. Its nuclei can atrophy or otherwise be affected by neurological disease and injuries including mild traumatic brain injury. Segmenting both the thalamus and its nuclei is challenging because of the relatively low contrast within and around the thalamus in conventional magnetic resonance (MR) images. This paper explores imaging features to determine key tissue signatures that naturally cluster, from which we can parcellate thalamic nuclei. Tissue contrasts include T1-weighted and T2-weighted images, MR diffusion measurements including FA, mean diffusivity, Knutsson coefficients that represent fiber orientation, and synthetic multi-TI images derived from FGATIR and T1-weighted images. After registration of these contrasts and isolation of the thalamus, we use the uniform manifold approximation and projection (UMAP) method for dimensionality reduction to produce a low-dimensional representation of the data within the thalamus. Manual labeling of the thalamus provides labels for our UMAP embedding from which k nearest neighbors can be used to label new unseen voxels in that same UMAP embedding. N -fold cross-validation of the method reveals comparable performance to state-of-the-art methods for thalamic parcellation.
翻訳日:2023-01-18 17:23:11 公開日:2023-01-15
# コヒーレント光通信のための位相空間における量子暗号

Quantum Encryption in Phase Space for Coherent Optical Communications ( http://arxiv.org/abs/2301.06113v1 )

ライセンス: Link先を確認
Adrian Chan, Mostafa Khalil, Kh Arif Shahriar, David V. Plant, Lawrence R. Chen, Randy Kuang(参考訳) 通信ネットワークに対する光層攻撃は、ネットワークの最も弱い強化領域の1つであり、適切な安全対策が実施されていない場合、攻撃者はセキュリティを克服することができる。 本稿では,新しいラウンドトリップコヒーレント型2フィールド量子鍵分布法(CTF-QKD)に基づいて,光ファイバー上のデータを保護する物理層暗号化手法であるQEPS(Quantum Encryption in Phase Space)を提案する。 シミュレーションによる理論的研究を行い,実証実験を行った。 この暗号は、CTF-QKDと同じQEPSで使用されるが、事前共有鍵と一方向送信設計によって実現される。 QEPSは、量子位相シフト演算子を適用して、コヒーレントな状態の光領域で暗号化を行う従来の技術とは異なる。 予め共有された秘密は、決定論的乱数発生器をシードし、暗号化のために送信機と復号のために受信機で位相変調器を制御する。 市販のシミュレーションソフトウェアを用いて,eavesdropperが何らかのデータを取得するのを防ぎ,異なる変調フォーマットに対する2つの予防策を検討する。 QEPSは、攻撃者が位相変調器と事前共有鍵に関する情報を持っていない場合、タッピング攻撃に対して安全であることを示した。 最後に、商用コンポーネントを用いた実験により、QEPSシステムの可積分性を示す。

Optical layer attacks on communication networks are one of the weakest reinforced areas of the network, allowing attackers to overcome security when proper safeguards are not put into place. Here, we present our solution or Quantum Encryption in Phase Space (QEPS), a physical layer encryption method to secure data over the optical fiber, based on our novel round-trip Coherent-based Two-Field Quantum Key Distribution (CTF-QKD) scheme. We perform a theoretical study through simulation and provide an experimental demonstration. The same encryption is used for QEPS as CTF-QKD but achieved through a pre-shared key and one-directional transmission design. QEPS is uniquely different from traditional technology where encryption is performed at the optical domain with coherent states by applying a quantum phase-shifting operator. The pre-shared secret is used to seed a deterministic random number generator and control the phase modulator at the transmitter for encryption and at the receiver for decryption. Using commercially available simulation software, we study two preventative measures for different modulation formats which will prevent an eavesdropper from obtaining any data. QEPS demonstrates that it is secure against tapping attacks when attackers have no information of the phase modulator and pre-shared key. Finally, an experiment with commercial components demonstrates QEPS system integrability.
翻訳日:2023-01-18 17:22:46 公開日:2023-01-15
# ベクトル解出力を用いた低ランク剛性線形回帰の量子アルゴリズムの改良

An improved quantum algorithm for low-rank rigid linear regressions with vector solution outputs ( http://arxiv.org/abs/2301.06107v1 )

ライセンス: Link先を確認
Changpeng Shao(参考訳) A\in \mathbb{R}^{n\times d}, \b \in \mathbb{R}^{n}$ and $\lambda>0$, for rigid linear regression \[ \argmin_{\x} \quad Z(\x) = \|A\x-\b\|^2 + \lambda^2 \|\x\|^2, \] 我々は、ブロックエンコーディングの枠組みにおいて、ベクトル解 $\tilde{\x}_{\rm opt}$Z(\tilde{\x}_{\rm opt}) \leq (1+\varepsilon) Z(\x_{\rm opt})$, ここで、$\x_{\rm}$が最適解であるような量子アルゴリズムを提案する。 もし$a$のブロックエンコーディングが時間$o(t)$で構築されているなら、量子アルゴリズムのコストは、$a$が低ランクで$n=\widetilde{o}(d)$の場合、およそ$\widetilde{o}(\k \sqrt{d}/\varepsilon^{1.5} + d/\varepsilon)$である。 ここで$\K=T\alpha/\lambda$と$\alpha$は正規化パラメータであり、ブロックエンコーディングを通して$A/\alpha$がユニタリにエンコードされる。 これは、量子線形解法や量子トモグラフィや振幅推定を用いたナイーブ量子アルゴリズムよりも効率的であり、通常は$\widetilde{o}(\k d/\varepsilon)$である。 私たちが使う主なテクニックは、他の応用があるかもしれないレバレッジスコアサンプリングの量子加速バージョンです。 レバレッジスコアサンプリングの高速化は、ある場合には二次的あるいは指数的である。 副産物として,剛性線形回帰のためのランダム化古典アルゴリズムを提案する。 最後に,量子コンピュータ上でのスコアサンプリングと線形回帰の解法について,下限を示す。

Let $A\in \mathbb{R}^{n\times d}, \b \in \mathbb{R}^{n}$ and $\lambda>0$, for rigid linear regression \[ \argmin_{\x} \quad Z(\x) = \|A\x-\b\|^2 + \lambda^2 \|\x\|^2, \] we propose a quantum algorithm, in the framework of block-encoding, that returns a vector solution $\tilde{\x}_{\rm opt}$ such that $Z(\tilde{\x}_{\rm opt}) \leq (1+\varepsilon) Z(\x_{\rm opt})$, where $\x_{\rm opt}$ is an optimal solution. If a block-encoding of $A$ is constructed in time $O(T)$, then the cost of the quantum algorithm is roughly $\widetilde{O}(\K \sqrt{d}/\varepsilon^{1.5} + d/\varepsilon)$ when $A$ is low-rank and $n=\widetilde{O}(d)$. Here $\K=T\alpha/\lambda$ and $\alpha$ is a normalization parameter such that $A/\alpha$ is encoded in a unitary through the block-encoding. This can be more efficient than naive quantum algorithms using quantum linear solvers and quantum tomography or amplitude estimation, which usually cost $\widetilde{O}(\K d/\varepsilon)$. The main technique we use is a quantum accelerated version of leverage score sampling, which may have other applications. The speedup of leverage score sampling can be quadratic or even exponential in certain cases. As a byproduct, we propose an improved randomized classical algorithm for rigid linear regressions. Finally, we show some lower bounds on performing leverage score sampling and solving linear regressions on a quantum computer.
翻訳日:2023-01-18 17:22:22 公開日:2023-01-15
# 床用体操選手の行動品質評価のための疎時間ビデオマッピングの学習

Learning Sparse Temporal Video Mapping for Action Quality Assessment in Floor Gymnastics ( http://arxiv.org/abs/2301.06103v1 )

ライセンス: Link先を確認
Sania Zahan, Ghulam Mubashar Hassan, Ajmal Mian(参考訳) スポーツビデオにおけるアスリートのパフォーマンス測定は、時空間の進行がパフォーマンスに大きく寄与するため、長いシーケンスをモデル化する必要がある。 正確な評価のために,局所的差別的空間依存とグローバルセマンティクスを理解することが重要である。 しかし、既存のベンチマークデータセットは、パフォーマンスがわずか数秒で終わるスポーツを主に含んでいる。 その結果,スポーツ品質評価手法は特に空間構造に焦点をあてている。 短期スポーツでは高いパフォーマンスを達成するが、長時間のビデオシーケンスをモデル化できず、長期スポーツでは同様のパフォーマンスを達成できない。 このような分析を容易にするために,芸術的な体操フロアルーチンを組み込んだ新しいデータセットAGF-Olympicsを導入する。 AFG-Olympicsは、最大2分間のサンプル期間を延長して、幅広い背景、視点、スケールのバリエーションを持つ非常に困難なシナリオを提供する。 さらに,重み付き特徴空間を複素結合を解離してスパース表現にマッピングする識別的注意モジュールを提案する。 実験の結果,提案モジュールは長期空間的および時間的相関のセマンティクスを組み込む効果的な方法であることがわかった。

Athlete performance measurement in sports videos requires modeling long sequences since the entire spatio-temporal progression contributes dominantly to the performance. It is crucial to comprehend local discriminative spatial dependencies and global semantics for accurate evaluation. However, existing benchmark datasets mainly incorporate sports where the performance lasts only a few seconds. Consequently, state-ofthe-art sports quality assessment methods specifically focus on spatial structure. Although they achieve high performance in short-term sports, they are unable to model prolonged video sequences and fail to achieve similar performance in long-term sports. To facilitate such analysis, we introduce a new dataset, coined AGF-Olympics, that incorporates artistic gymnastic floor routines. AFG-Olympics provides highly challenging scenarios with extensive background, viewpoint, and scale variations over an extended sample duration of up to 2 minutes. In addition, we propose a discriminative attention module to map the dense feature space into a sparse representation by disentangling complex associations. Extensive experiments indicate that our proposed module provides an effective way to embed long-range spatial and temporal correlation semantics.
翻訳日:2023-01-18 17:21:34 公開日:2023-01-15
# 量子再起動問題における不安定性

Instability in the quantum restart problem ( http://arxiv.org/abs/2301.06100v1 )

ライセンス: Link先を確認
Ruoyu Yin and Eli Barkai(参考訳) 量子初動時間問題に対する最適再起動時間について検討する。 再スタートを伴う1次元格子量子ウォークの監視により、対応する古典問題に不安定性が欠如していることが分かった。 この不安定さは、パラメータのわずかな変更が最適な再起動時間のかなり大きな変更につながることを意味する。 最適再起動時間と制御パラメータは階段と急降下のセットを示す。 急降下は、上述した不安定性によるもので、再起動がない場合の最初の打点確率の量子振動と関連している。 さらに, 格子定数の単位において, ターゲットとソースの距離のパリティに依存する2つの階段構造パターンが存在することを証明した。

We study optimal restart times for the quantum first hitting time problem. Using a monitored one-dimensional lattice quantum walk with restarts, we find an instability absent in the corresponding classical problem. This instability implies that a small change in parameters can lead to a rather large change of the optimal restart time. We show that the optimal restart time versus a control parameter, exhibits sets of staircases and plunges. The plunges, are due to the mentioned instability, which in turn is related to the quantum oscillation of the first hitting time probability, in the absence of restarts. Furthermore, we prove that there are only two patterns of the staircase structures, dependent on the parity of the distance between the target and source in units of lattice constant.
翻訳日:2023-01-18 17:21:17 公開日:2023-01-15
# スピン軌道結合ボース-アインシュタイン凝縮体における準安定超固体

Metastable supersolid in spin-orbit coupled Bose-Einstein condensates ( http://arxiv.org/abs/2301.06094v1 )

ライセンス: Link先を確認
Wei-Lei Xia, Lei Chen, Tian-Tian Li, Yongping Zhang, and Qizhong Zhu(参考訳) 超固体は超流動特性と粒子密度の自然変調の両方を持つ特別な物質の状態である。 本稿では,スピン軌道結合ボース・アインシュタイン凝縮法で実現される超固体ストライプ相に着目し,準安定な超固体のクラスの性質について検討する。 特に、特性波数$k$(波動ベクトルのマグニチュード)が$k_{m}$、すなわち基底状態にあるものから逸脱する1次元超固体について検討する。 言い換えると、密度変調の期間は基底状態の期間よりも短いか長い。 このような超固体のクラスは、その波数が$k_{c1}<k<k_{c2}$の範囲に落ちても安定であり、その閾値は$k_{c1}$と$k_{c2}$である。 この範囲の外にk$を持つストライプは、長い波長の複雑なボゴリューボフ励起スペクトルを持つ動的不安定性に苦しむ。 実験的に、$k$から$k_m$までの距離を持つこれらのストライプは、縦方向のスピン双極子モードによってアクセス可能であり、ストリップ周期の時間的振動と$k$が生じる。 平均場グロス・ピタエフスキー理論において、スピン双極子振動の振幅が大きい場合には、安定なストライプに対してk$のしきい値の存在と定性的に一致して、周期性の破れによってストライプ状態が不安定になることを数値的に確認する。 我々の研究は超固体の概念を拡張し、探索する新しい準安定超固体のクラスを明らかにする。

Supersolid is a special state of matter with both superfluid properties and spontaneous modulation of particle density. In this paper, we focus on the supersolid stripe phase realized in a spin-orbit coupled Bose-Einstein condensate and explore the properties of a class of metastable supersolids. In particular, we study a one-dimensional supersolid whose characteristic wave number $k$ (magnitude of wave vector) deviates from $k_{m}$, i.e., the one at ground state. In other words, the period of density modulation is shorter or longer than the one at ground state. We find that this class of supersolids can still be stable if their wave numbers fall in the range $k_{c1}<k<k_{c2}$, with two thresholds $k_{c1}$ and $k_{c2}$. Stripes with $k$ outside this range suffer from dynamical instability with complex Bogoliubov excitation spectrum at long wavelength. Experimentally, these stripes with $k$ away from $k_m$ are accessible by exciting the longitudinal spin dipole mode, resulting in temporal oscillation of stripe period as well as $k$. Within the mean-field Gross-Pitaevskii theory, we numerically confirm that for a large enough amplitude of spin dipole oscillation, the stripe states become unstable through breaking periodicity, in qualitative agreement with the existence of thresholds of $k$ for stable stripes. Our work extends the concept of supersolid and uncovers a new class of metastable supersolids to explore.
翻訳日:2023-01-18 17:21:05 公開日:2023-01-15
# 1つの光子と$^{40}$ca$^+$イオンの完全なベルベーシス検出による量子テレポーテーション

Quantum teleportation with full Bell-basis detection between a $^{40}$Ca$^+$ ion and a single photon ( http://arxiv.org/abs/2301.06091v1 )

ライセンス: Link先を確認
Elena Arensk\"otter, Stephan Kucera, Omar Elshey, Max Bergerhoff, Matthias Kreis, J\"urgen Eschner(参考訳) 我々は、単一の閉じ込められた原子と1つの光子の間のインターフェースプロトコルをいくつか提示し、そのうちの1つの閉じ込められた$^{40}$Ca$^+$イオンを1つの光子に量子テレポーテーションする。 適切なベル測定として、テレポーテーションプロトコルは偏光エンタングル対の1つの光子を吸収し、4つのベル状態をすべて識別する。 さらに、ヘラルド吸収によって実現されるプロトコルは、単一光子から単一イオンへの量子状態マッピングと、単一イオンとパートナー光子の絡み合いへの光子対の偏光子絡みの移動を含む。

We present several interface protocols between a single trapped atom and single photons from an entangled-pair source, among them the quantum teleportation of a qubit state from a single trapped $^{40}$Ca$^+$ ion onto a single photon. As appropriate Bell measurement, the teleportation protocol employs heralded absorption of one photon of the polarisation-entangled pair, which allows us to identify all four Bell states. Further protocols enabled by heralded absorption comprise quantum state mapping from a single photon to a single ion and transfer of polarization entanglement of a photon pair to entanglement between a single ion and the partner photon.
翻訳日:2023-01-18 17:20:35 公開日:2023-01-15
# Bloch State Tomography による光学ラマン格子の量子幾何学的テンソルの抽出

Extracting the Quantum Geometric Tensor of an Optical Raman Lattice by Bloch State Tomography ( http://arxiv.org/abs/2301.06090v1 )

ライセンス: Link先を確認
Chang-Rui Yi, Jinlong Yu, Huan Yuan, Rui-Heng Jiao, Yu-Meng Yang, Xiao Jiang, Jin-Yi Zhang, Shuai Chen, and Jian-Wei Pan(参考訳) ヒルベルト空間において、量子状態の幾何学は、虚部がベリー曲率であり、実部が量子計量テンソルである量子幾何学テンソル(qgt)によって同定される。 本稿では,超低温原子に対する光学ラマン格子の固有関数を直接測定する完全ブロッホ状態トモグラフィーを提案し,実験的に実装する。 測定された固有関数を通して、ブリルアンゾーンにおける完全QGTの分布を再構成し、ベリー曲率によって位相不変量を抽出し、運動量空間における量子状態の距離を量子計量テンソルで測定する。 さらに,ベリー曲率と量子計量テンソルの予測不等式を実験的に検証し,トポロジーと幾何学の深い関係を明らかにした。

In Hilbert space, the geometry of the quantum state is identified by the quantum geometric tensor (QGT), whose imaginary part is the Berry curvature and real part is the quantum metric tensor. Here, we propose and experimentally implement a complete Bloch state tomography to directly measure eigenfunction of an optical Raman lattice for ultracold atoms. Through the measured eigenfunction, the distribution of the complete QGT in the Brillouin zone is reconstructed, with which the topological invariants are extracted by the Berry curvature and the distances of quantum states in momentum space are measured by the quantum metric tensor. Further, we experimentally test a predicted inequality between the Berry curvature and quantum metric tensor, which reveals a deep connection between topology and geometry.
翻訳日:2023-01-18 17:20:23 公開日:2023-01-15
# 予後説明のためのMN対トラスト損傷表現とクラスタリング

MN-pair Contrastive Damage Representation and Clustering for Prognostic Explanation ( http://arxiv.org/abs/2301.06077v1 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Junichiro Fujii(参考訳) インフラストラクチャマネージャは、日々の活動でユーザにサービスを提供するために、ステータスを高い品質に保つことが重要です。 監視カメラとドローンによる損傷機能検査を用いて、劣化が変化したか否かに関わらず、健康状態の度合いを自動検査する作業が進められている。 一対の生画像と損傷クラスラベルを作成すると、教師付き学習を事前定義された損傷グレード、変位に向けて訓練することができる。 しかし、そのような損傷表現は、事前に定義された損傷グレードのクラスと必ずしも一致しないので、目に見えない損傷空間からの詳細なクラスターや、2つの損傷グレード間の重なり合う空間からのより複雑なクラスターが存在するかもしれない。 損傷表現は基本的に複雑な特徴を持つため、すべての損傷クラスを完全に事前定義することはできない。 提案手法により,より詳細なクラスタを含む予め定義されたクラスを超えて,埋没損傷表現を探索することができる。 この方法は、アンカーに近いM-1陽性画像の類似性を最大化し、同時に、両重み付け損失関数を用いて、N-1負画像の相似性を極端に最大化する。 このMNペア法は,1つの正のイメージを使用するのではなく,Nペアアルゴリズムよりも高速に学習されている。 埋込2次元縮小空間上の密度に基づくクラスタリングを用いて,損傷表現を学習し,より詳細なクラスタを識別するパイプラインを提案する。 また,MN対損傷距離学習におけるGrad-CAMを用いた損傷特徴の可視化を行った。 本手法は, 鋼製品欠陥, デッキおよび舗装のコンクリートひび割れ, 下水道管欠陥などの3つの実験的研究に対して実証した。 さらに,本手法の有用性と今後の課題についても述べる。

It is critical for infrastructure manager to keep the status high-quality for providing the service to users at daily activities. Using surveillance cameras and drone inspection toward the damage feature, there has been progress to automate its inspection toward the grade of health condition whether the deterioration has been changed or not. When we prepare a pair of raw images and damage class labels, it is possible to train supervised learning toward the predefined damage grade, displacement. However, such a damage representation does not always match the predefined classes of damage grade, so there may be some detailed clusters from unseen damage space, or more complex clusters from overlapped space between two damage grades. The damage representation has fundamentally complex feature, so all the damage classes could not be perfectly predefined. Our proposed MN-pair contrastive learning method enable to explore the embedding damage representation beyond the predefined classes including more detailed clusters. This method intends to maximize the similarity of M-1 positive images close to the anchor, and simultaneously to maximize the dissimilarity N-1 negative ones far apart, using both weighting loss function. This MN-pair method has been faster learning than the N-pair algorithm, instead of using one positive image. We propose a pipeline to learn the damage representation and to automate to discriminate more detailed clusters using the density based clustering on the embedding 2-D reduction space. We also visualize the explanation of damage feature using Grad-CAM for MN-pair damage metric learning. We demonstrate our method to three experimental studies such as steel product defect, concrete crack of deck and pavement, and sewer pipe defect. Furthermore, we mention the usefulness of our method and future works to tackle.
翻訳日:2023-01-18 17:20:08 公開日:2023-01-15
# 散乱体を有する高調波導波路における量子カオス

Quantum chaos in a harmonic waveguide with scatterers ( http://arxiv.org/abs/2301.06065v1 )

ライセンス: Link先を確認
Vladimir A. Yurovsky (School of Chemistry, Tel Aviv University)(参考訳) 軸に沿ったゼロレンジ散乱器の集合は、高調波導波路の可積分性を持ち上げる。 このモデルに対するシュリンガー方程式の効果的な解法は、散乱器の分離性のため可能であり、数百万の固有状態は控えめな計算資源を用いて計算できる。 モデルカオス性が散乱器の数と強みによって増加するにつれて、可積分性-カオス遷移が探求される。 完全な量子カオスと固有状態熱化の体制は32個の散乱器によってアプローチできる。 これは、エネルギースペクトルの特性、逆参加比、観測可能な期待値の変動によって確認される。

A set of zero-range scatterers along its axis lifts the integrability of a harmonic waveguide. Effective solution of the Schr\"odinger equation for this model is possible due to the separable nature of the scatterers and millions of eigenstates can be calculated using modest computational resources. Integrability-chaos transition can be explored as the model chaoticity increases with the number of scatterers and their strengths. The regime of complete quantum chaos and eigenstate thermalization can be approached with 32 scatterers. This is confirmed by properties of energy spectra, the inverse participation ratio, and fluctuations of observable expectation values.
翻訳日:2023-01-18 17:19:37 公開日:2023-01-15
# フォトリアリスティックフロントエンドモバイル拡張現実のためのマルチカメラ照明推定

Multi-Camera Lighting Estimation for Photorealistic Front-Facing Mobile Augmented Reality ( http://arxiv.org/abs/2301.06143v1 )

ライセンス: Link先を確認
Yiqin Zhao, Sean Fanello, Tian Guo(参考訳) 照明理解は、モバイル拡張現実(AR)アプリケーションを含む仮想オブジェクト合成において重要な役割を果たす。 以前の作業は、フォトリアリスティックARレンダリングをサポートするために、物理的環境からのリカバリを目標とすることが多い。 一般的なワークフローは、仮想オブジェクトをオーバーレイする物理世界を捉えるために、バックフェイスカメラを使用するため、この使用パターンをバックフェイスARと呼ぶ。 しかし、既存の方法は、ユーザーがフロントカメラを利用して様々なスタイルの製品(眼鏡や帽子など)の効果を探索する仮想トライオンなど、新興のモバイルARアプリケーションのサポートにおいて不足することが多い。 このサポートの欠如は、前面カメラや既存の技術から360$^\circ$ HDR環境マップ、照明表現の理想的なフォーマットを得るというユニークな課題に起因している。 本稿では,多視点照明再構成とパラメトリック方向照明推定を組み合わせた高画質環境マップを作成するために,デュアルカメラストリーミングを活用することを提案する。 本実験では,前面arに対するデュアルカメラによるレンダリング品質の向上を,商用ソリューションと比較して示した。

Lighting understanding plays an important role in virtual object composition, including mobile augmented reality (AR) applications. Prior work often targets recovering lighting from the physical environment to support photorealistic AR rendering. Because the common workflow is to use a back-facing camera to capture the physical world for overlaying virtual objects, we refer to this usage pattern as back-facing AR. However, existing methods often fall short in supporting emerging front-facing mobile AR applications, e.g., virtual try-on where a user leverages a front-facing camera to explore the effect of various products (e.g., glasses or hats) of different styles. This lack of support can be attributed to the unique challenges of obtaining 360$^\circ$ HDR environment maps, an ideal format of lighting representation, from the front-facing camera and existing techniques. In this paper, we propose to leverage dual-camera streaming to generate a high-quality environment map by combining multi-view lighting reconstruction and parametric directional lighting estimation. Our preliminary results show improved rendering quality using a dual-camera setup for front-facing AR compared to a commercial solution.
翻訳日:2023-01-18 17:14:41 公開日:2023-01-15
# 保証付き変分問題に対する下位境界に関する一考察

A note on lower bounds to variational problems with guarantees ( http://arxiv.org/abs/2301.06142v1 )

ライセンス: Link先を確認
J. Eisert(参考訳) 変分法は、テンソルネットワークに基づく古典変分原理のフレーバーと、近距離量子コンピューティングにおける量子変分原理の両方において、量子多体問題の研究において重要な役割を果たす。 この短い教育的注記は、翻訳的不変な格子ハミルトニアンの場合には、より効率的に計算可能な下限を基底状態エネルギーに導出することができ、上限を与える変分原理と比較することができることを強調する。 小さな技術的成果として (i)アンダーソン・バウンドとa (II)半定値緩和の共通階層はどちらも立方体格子のエネルギー密度の定数のようにスケールする性能保証付き近似を与える。 (iii)アンダーソン境界は限界問題に触発された半定値緩和の階層として体系的に改善されている。

Variational methods play an important role in the study of quantum many body problems, both in the flavour of classical variational principles based on tensor networks as well as of quantum variational principles in near-term quantum computing. This brief pedagogical note stresses that for translationally invariant lattice Hamiltonians, one can easily derive efficiently computable lower bounds to ground state energies that can and should be compared with variational principles providing upper bounds. As small technical results, it is shown that (i) the Anderson bound and a (ii) common hierarchy of semi-definite relaxations both provide approximations with performance guarantees that scale like a constant in the energy density for cubic lattices. (iii) Also, the Anderson bound is systematically improved as a hierarchy of semi-definite relaxations inspired by the marginal problem.
翻訳日:2023-01-18 17:14:21 公開日:2023-01-15
# ファジィデータを用いた近似重量行列の最大値学習

Max-min Learning of Approximate Weight Matrices from Fuzzy Data ( http://arxiv.org/abs/2301.06141v1 )

ライセンス: Link先を確認
Isma\"il Baaj(参考訳) 本稿では,$\max-\min$ ファジィ関係方程式 $(s): a \box_{\min}^{\max}x = b$ の不整合系の近似解である $\lambda_b$ について検討する。 l_\infty$ のノルムを用いて、明示的な解析式であるチェビシェフ距離 $\delta~=~\inf_{c \in \mathcal{c}} \vert b -c \vert$ で計算する。 第二元 $b$ のチェビシェフ近似のセット $\mathcal{c}_b$ 、すなわち、$\vert b -c \vert = \delta$ となるベクトル $c \in \mathcal{c}$ について、次の意味での近似解セット $\lambda_b$ に関連付けられている: 集合 $\lambda_b$ の要素は、系 $a \box_{\min}^{\max}x =c$ の解ベクトル $x^\ast$ である。 主な結果として、集合 $\lambda_b$ の構造と集合 $\mathcal{c}_b$ の構造の両方を記述する。 次に、トレーニングデータから入力および出力データを関連付ける学習重量行列を$\max-\min$で導入する。 学習誤差は$L_\infty$ノルムで表される。 トレーニングデータに従って学習誤差の最小値を明示的な式で計算する。 学習誤差が最小限である重み行列を構成する手法を提案し,これを近似重み行列と呼ぶ。 最後に,本研究の応用として,多元的ルールベースシステムのルールパラメータを,複数のトレーニングデータに基づいて学習する方法を示す。

In this article, we study the approximate solutions set $\Lambda_b$ of an inconsistent system of $\max-\min$ fuzzy relational equations $(S): A \Box_{\min}^{\max}x =b$. Using the $L_\infty$ norm, we compute by an explicit analytical formula the Chebyshev distance $\Delta~=~\inf_{c \in \mathcal{C}} \Vert b -c \Vert$, where $\mathcal{C}$ is the set of second members of the consistent systems defined with the same matrix $A$. We study the set $\mathcal{C}_b$ of Chebyshev approximations of the second member $b$ i.e., vectors $c \in \mathcal{C}$ such that $\Vert b -c \Vert = \Delta$, which is associated to the approximate solutions set $\Lambda_b$ in the following sense: an element of the set $\Lambda_b$ is a solution vector $x^\ast$ of a system $A \Box_{\min}^{\max}x =c$ where $c \in \mathcal{C}_b$. As main results, we describe both the structure of the set $\Lambda_b$ and that of the set $\mathcal{C}_b$. We then introduce a paradigm for $\max-\min$ learning weight matrices that relates input and output data from training data. The learning error is expressed in terms of the $L_\infty$ norm. We compute by an explicit formula the minimal value of the learning error according to the training data. We give a method to construct weight matrices whose learning error is minimal, that we call approximate weight matrices. Finally, as an application of our results, we show how to learn approximately the rule parameters of a possibilistic rule-based system according to multiple training data.
翻訳日:2023-01-18 17:14:07 公開日:2023-01-15
# 長寿命コヒーレンスをバイパスした量子熱化ダイナミクスの超加速:解析的処理

Hyper-acceleration of quantum thermalization dynamics by bypassing long-lived coherences: An analytical treatment ( http://arxiv.org/abs/2301.06135v1 )

ライセンス: Link先を確認
Felix Ivander, Nicholas Anto-Sztrikacs, Dvira Segal(参考訳) 我々はマルコフ量子散逸ダイナミクスを解くための摂動的手法を開発し、摂動パラメータは固有スペクトルの小さなギャップである。 例えば、量子コヒーレンスが非常に長い時間持続し、エネルギー分割2乗の逆に比例する、準退化励起状態を持つ3レベル系の力学を解析的に得る。 次に、この長寿命コヒーレントダイナミクスをバイパスし、超指数的方法で熱平衡への緩和を加速する方法を示し、マルコフ量子支援mpemba様効果を示す。 この平衡過程の過度加速は、初期状態が慎重に準備されている場合、そのコヒーレンスが初期状態から平衡状態への緩和する人口の量を正確に記憶するように現れる。 量子散逸ダイナミクスを解く解析手法は、平衡時間スケールを容易に提供し、それゆえ、力学におけるコヒーレントかつ非コヒーレントな効果がいかに相互に作用するかを明らかにする。 さらに、長い寿命の量子コヒーレンスが停滞する力学において望ましい緩和過程の加速についてアドバイスする。

We develop a perturbative technique for solving Markovian quantum dissipative dynamics, with the perturbation parameter being a small gap in the eigenspectrum. As an example, we apply the technique and straightforwardly obtain analytically the dynamics of a three-level system with quasidegenerate excited states, where quantum coherences persist for very long times, proportional to the inverse of the energy splitting squared. We then show how to bypass this long-lived coherent dynamics and accelerate the relaxation to thermal equilibration in a hyper-exponential manner, a Markovian quantum-assisted Mpemba-like effect. This hyper acceleration of the equilibration process manifests if the initial state is carefully prepared, such that its coherences precisely store the amount of population relaxing from the initial condition to the equilibrium state. Our analytical method for solving quantum dissipative dynamics readily provides equilibration timescales, and as such it reveals how coherent and incoherent effects interlace in the dynamics. It further advices on how to accelerate relaxation processes, which is desirable when long-lived quantum coherences stagnate dynamics.
翻訳日:2023-01-18 17:13:23 公開日:2023-01-15
# ブロックワイズ最適化による微調整の信頼性向上

Improving Reliability of Fine-tuning with Block-wise Optimisation ( http://arxiv.org/abs/2301.06133v1 )

ライセンス: Link先を確認
Basel Barakat and Qiang Huang(参考訳) 微調整は知識を転送することでドメイン固有のタスクに取り組むのに使うことができる。 従来のファインタニングの研究は、タスク固有の分類器の重みのみを適応することや、新しいタスクデータを用いてトレーニング済みモデルのすべての層を再最適化することに焦点を当てていた。 第1の方法は、事前学習されたモデルと新しいタスクデータとのミスマッチを緩和できず、第2のタイプのメソッドは、限られたデータでタスクを処理する場合に、オーバーフィッティングを容易に発生させる。 微調整の有効性を検討するために,事前学習したモデルの層群の重みを適応する新しいブロックワイズ最適化機構を提案する。 私たちの仕事では、レイヤの選択は4つの異なる方法で行えます。 1つは層順適応であり、分類性能に応じて最も有望な単一層を探索することを目的としている。 第2の方法は第1の方法に基づいており、個々のレイヤを使用する代わりに、少数の上位層を共同で適用する。 3つ目はブロックベースのセグメンテーションで、深層ネットワークの層はMaxPooling層やActivation層のような非重み付け層によってブロックに分割される。 最後に、固定長のスライディングウィンドウを使用して、ブロック単位でレイヤをブロックする。 どの層がファインタニングに最も適しているかを特定するために、探索はターゲット端から始まり、選択した層と分類層を除く他の層を凍結することにより行われる。 最も健全な層群は分類性能の点で決定される。 実験では,vgg16,mobilenet-v1,mobilenet-v2,mobilenet-v3,resnet50v2の5種を微調整して,よく使われるデータセットであるtf_flower上で提案手法を検証した。 その結果,提案手法を用いることで,2つの基本法と層法よりも優れた性能が得られることがわかった。

Finetuning can be used to tackle domain-specific tasks by transferring knowledge. Previous studies on finetuning focused on adapting only the weights of a task-specific classifier or re-optimizing all layers of the pre-trained model using the new task data. The first type of methods cannot mitigate the mismatch between a pre-trained model and the new task data, and the second type of methods easily cause over-fitting when processing tasks with limited data. To explore the effectiveness of fine-tuning, we propose a novel block-wise optimization mechanism, which adapts the weights of a group of layers of a pre-trained model. In our work, the layer selection can be done in four different ways. The first is layer-wise adaptation, which aims to search for the most salient single layer according to the classification performance. The second way is based on the first one, jointly adapting a small number of top-ranked layers instead of using an individual layer. The third is block based segmentation, where the layers of a deep network is segmented into blocks by non-weighting layers, such as the MaxPooling layer and Activation layer. The last one is to use a fixed-length sliding window to group layers block by block. To identify which group of layers is the most suitable for finetuning, the search starts from the target end and is conducted by freezing other layers excluding the selected layers and the classification layers. The most salient group of layers is determined in terms of classification performance. In our experiments, the proposed approaches are tested on an often-used dataset, Tf_flower, by finetuning five typical pre-trained models, VGG16, MobileNet-v1, MobileNet-v2, MobileNet-v3, and ResNet50v2, respectively. The obtained results show that the use of our proposed block-wise approaches can achieve better performances than the two baseline methods and the layer-wise method.
翻訳日:2023-01-18 17:13:02 公開日:2023-01-15
# 超スペクトル画像の深部多様性強調特徴表現

Deep Diversity-Enhanced Feature Representation of Hyperspectral Images ( http://arxiv.org/abs/2301.06132v1 )

ライセンス: Link先を確認
Jinhui Hou, Zhiyu Zhu, Junhui Hou, Hui Liu, Huanqiang Zeng, and Deyu Meng(参考訳) 本稿では,高スペクトル(HS)画像の高次元時空間情報を効率よく,特徴量の多様性に配慮して埋め込む問題について検討する。 具体的には、展開されたカーネル行列の階数と特徴多様性が相関する理論的な定式化に基づいて、そのトポロジを変更して階数を高めることで3次元畳み込みを修正し、多様で強力な特徴表現を学習できるだけでなく、ネットワークパラメータも保存できるランク付き空間スペクトル対称畳み込み集合(ReS$^3$-ConvSet)を得る。 また,要素間の独立性を最大化するために,特徴マップに直接作用する新しい多様性対応正規化(DA-Reg)項を提案する。 提案したReS$^3$-ConvSet と DA-Reg の優位性を実証するために,様々な HS 画像処理および解析タスクに適用する。 広範な実験により, 提案手法は, 定量的および定性的に最先端手法をかなり上回っていることが示された。 コードは \url{https://github.com/jinnh/ReSSS-ConvSet} で公開されている。

In this paper, we study the problem of embedding the high-dimensional spatio-spectral information of hyperspectral (HS) images efficiently and effectively, oriented by feature diversity. To be specific, based on the theoretical formulation that feature diversity is correlated with the rank of the unfolded kernel matrix, we rectify 3D convolution by modifying its topology to boost the rank upper-bound, yielding a rank-enhanced spatial-spectral symmetrical convolution set (ReS$^3$-ConvSet), which is able to not only learn diverse and powerful feature representations but also save network parameters. In addition, we also propose a novel diversity-aware regularization (DA-Reg) term, which acts directly on the feature maps to maximize the independence among elements. To demonstrate the superiority of the proposed ReS$^3$-ConvSet and DA-Reg, we apply them to various HS image processing and analysis tasks, including denoising, spatial super-resolution, and classification. Extensive experiments demonstrate that the proposed approaches outperform state-of-the-art methods to a significant extent both quantitatively and qualitatively. The code is publicly available at \url{https://github.com/jinnh/ReSSS-ConvSet}.
翻訳日:2023-01-18 17:12:31 公開日:2023-01-15
# ハイブリッド非エルミート相互作用表現における非定常量子力学

Non-stationary quantum mechanics in hybrid non-Hermitian interaction representation ( http://arxiv.org/abs/2301.06128v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) hip(hybrid interaction picture)と呼ばれる量子力学の再構成が提案されている。 現在の非エルミート相互作用ピクチャー (NIP) とは対照的に、新しい形式主義は、NIPヒルベルト空間計量の単純化と、関心の観測可能性の革新的な事前条件を組み合わせる。 例示的な例を通じて、このアイデアがユニタリ系の量子論における最適なモデル構築戦略への新しい道を開く可能性があることが示されている。

A reformulation of quantum mechanics called ``hybrid interaction picture'' (HIP) is proposed. In contrast to its current non-Hermitian-interaction-picture (NIP) predecessor the new formalism combines a simplification of the NIP Hilbert-space metric with an innovative preconditioning of the observables of interest. Via an illustrative example it is shown that the idea might open new ways towards optimal model-building strategies in quantum theory of unitary systems.
翻訳日:2023-01-18 17:12:07 公開日:2023-01-15
# core: 画像順序推定のための一貫した順序表現の学習

CORE: Learning Consistent Ordinal REpresentations for Image Ordinal Estimation ( http://arxiv.org/abs/2301.06122v1 )

ライセンス: Link先を確認
Yiming Lei, Zilong Li, Yangyang Li, Junping Zhang, Hongming Shan(参考訳) 画像順序推定の目標は、畳み込みニューラルネットワークを用いて、与えられた画像の順序ラベルを推定することである。 既存の手法は主に順序回帰に基づいており、特に入力の特徴表現から順序ラベル空間への順序写像のモデル化に重点を置いている。 しかし、結果として得られる特徴表現の多様体は、本質的な順序関係を保たず、画像の順序推定の有効性を妨げている。 そこで本論文では,低次元多様体を具体化する特徴表現を奨励しながら,基底ラベルに存在する順序関係から本質的一貫した順序表現(コア)を学ぶことを提案する。 まず、順序付き全順序集合(toset)分布(OTD)を開発し、これを適用できる。 (i)ラベル埋め込みをモデル化し、順序情報を継承し、近隣のサンプルの順序ラベル間の距離を測定する。 (ii) 異なるサンプルの特徴の中で未知の順序情報を持つ数値等級を推定するために埋め込みされた特徴をモデル化する。 第二に、otd を通じて特徴表現とラベルを同じ埋め込み空間に変換してアライメントを良くし、順序ラベルと特徴表現の間のkullback leibler (kl) の発散を計算し、一貫した順序関係を持つ潜在空間を与える。 第3に、順序付きプロトタイプ制約付き凸計画によるKL分散を2次分解で最適化し、この理論解析により勾配バックプロパゲーションによる最適解が得られることを示す。 広範な実験結果から,提案するコアは順序的潜在空間を正確に構築でき,より優れた結果を得るために既存の深層順序回帰法を大幅に向上できることが示された。

The goal of image ordinal estimation is to estimate the ordinal label of a given image with a convolutional neural network. Existing methods are mainly based on ordinal regression and particularly focus on modeling the ordinal mapping from the feature representation of the input to the ordinal label space. However, the manifold of the resultant feature representations does not maintain the intrinsic ordinal relations of interest, which hinders the effectiveness of the image ordinal estimation. Therefore, this paper proposes learning intrinsic Consistent Ordinal REpresentations (CORE) from ordinal relations residing in groundtruth labels while encouraging the feature representations to embody the ordinal low-dimensional manifold. First, we develop an ordinal totally ordered set (toset) distribution (OTD), which can (i) model the label embeddings to inherit ordinal information and measure distances between ordered labels of samples in a neighborhood, and (ii) model the feature embeddings to infer numerical magnitude with unknown ordinal information among the features of different samples. Second, through OTD, we convert the feature representations and labels into the same embedding space for better alignment, and then compute the Kullback Leibler (KL) divergence between the ordinal labels and feature representations to endow the latent space with consistent ordinal relations. Third, we optimize the KL divergence through ordinal prototype-constrained convex programming with dual decomposition; our theoretical analysis shows that we can obtain the optimal solutions via gradient backpropagation. Extensive experimental results demonstrate that the proposed CORE can accurately construct an ordinal latent space and significantly enhance existing deep ordinal regression methods to achieve better results.
翻訳日:2023-01-18 17:11:59 公開日:2023-01-15
# 正規ポリトープネットワークを用いた最大コンパクト・分離特性

Maximally Compact and Separated Features with Regular Polytope Networks ( http://arxiv.org/abs/2301.06116v1 )

ライセンス: Link先を確認
Federico Pernici, Matteo Bruni, Claudio Baecchi, Alberto Del Bimbo(参考訳) ソフトマックス損失で訓練された畳み込みニューラルネットワーク(CNN)は、視覚タスクの分類モデルとして広く使われている。 通常、学習可能な変換(すなわち分類器)は、ソフトマックスによってさらに正規化されるクラススコアを返すモデルの最後に置かれる。 この学習可能な変換は、ネットワーク内部の特徴表現を決定する基本的な役割を持つ。 本研究は,クラス間分離性とクラス内コンパクト性を持つCNN特徴量から,分類器変換のパラメータをトレーニング不可能(すなわち,固定)に設定することにより,CNN特徴量から抽出する方法を示す。 我々は、よく知られた ‘Center Loss'' \cite{wen2016discriminative} や他の類似したアプローチで得られる機能と類似しているが、利用可能な特徴空間表現の最大活用、ネットワークパラメータの削減、Softmax以外の補助的損失を使用する必要のないいくつかの実用的利点がある。 このアプローチは,2つの明らかに異なる手法の共通アプローチに統一し,一般化する: 中心損失 \cite{wen2016 discriminative} によって開拓された判別的特徴と,まず \cite{hoffer2018fix} で評価された固定的分類器である。 予備的定性的実験結果から, 総合戦略の可能性について考察した。

Convolutional Neural Networks (CNNs) trained with the Softmax loss are widely used classification models for several vision tasks. Typically, a learnable transformation (i.e. the classifier) is placed at the end of such models returning class scores that are further normalized into probabilities by Softmax. This learnable transformation has a fundamental role in determining the network internal feature representation. In this work we show how to extract from CNNs features with the properties of \emph{maximum} inter-class separability and \emph{maximum} intra-class compactness by setting the parameters of the classifier transformation as not trainable (i.e. fixed). We obtain features similar to what can be obtained with the well-known ``Center Loss'' \cite{wen2016discriminative} and other similar approaches but with several practical advantages including maximal exploitation of the available feature space representation, reduction in the number of network parameters, no need to use other auxiliary losses besides the Softmax. Our approach unifies and generalizes into a common approach two apparently different classes of methods regarding: discriminative features, pioneered by the Center Loss \cite{wen2016discriminative} and fixed classifiers, firstly evaluated in \cite{hoffer2018fix}. Preliminary qualitative experimental results provide some insight on the potentialities of our combined strategy.
翻訳日:2023-01-18 17:11:28 公開日:2023-01-15
# 無人航空機(uav)を圧縮するための学習ビデオ:ベンチマークと分析

Learning to Compress Unmanned Aerial Vehicle (UAV) Captured Video: Benchmark and Analysis ( http://arxiv.org/abs/2301.06115v1 )

ライセンス: Link先を確認
Chuanmin Jia, Feng Ye, Huifang Sun, Siwei Ma, Wen Gao(参考訳) 過去10年間、無人航空機(uavs)は柔軟で広範囲でダイナミックな空間感知能力によって注目を集めてきた。 UAVが捉えたビデオの量は、UAVに搭載されたセンサーの進歩によって生じるビットレートの増加とともに指数関数的に増加しており、デバイス上のUAVストレージと地上データ転送に新たな課題をもたらしている。 既存のビデオ圧縮方式の多くは、UAVビデオの特定のテクスチャやビュー特性を考慮せずに、自然のシーン用に設計されている。 本研究では,UAVビデオ符号化の現場における現状を詳細に分析する。 そこで我々は,学習されたUAVビデオ符号化のための新しいタスクを確立し,そのようなタスクの包括的かつ体系的なベンチマークを構築し,高品質なUAVビデオデータセットとベンチマークの徹底的なレビューを行い,学習したコーデックと従来のコーデックの大幅なレート・歪み効率比較に貢献する。 最後に,uavビデオのエンコーディングの課題について述べる。 このベンチマークは、ドローンプラットフォーム上のビデオコーディングの研究と開発を加速することが期待されている。

During the past decade, the Unmanned-Aerial-Vehicles (UAVs) have attracted increasing attention due to their flexible, extensive, and dynamic space-sensing capabilities. The volume of video captured by UAVs is exponentially growing along with the increased bitrate generated by the advancement of the sensors mounted on UAVs, bringing new challenges for on-device UAV storage and air-ground data transmission. Most existing video compression schemes were designed for natural scenes without consideration of specific texture and view characteristics of UAV videos. In this work, we first contribute a detailed analysis of the current state of the field of UAV video coding. Then we propose to establish a novel task for learned UAV video coding and construct a comprehensive and systematic benchmark for such a task, present a thorough review of high quality UAV video datasets and benchmarks, and contribute extensive rate-distortion efficiency comparison of learned and conventional codecs after. Finally, we discuss the challenges of encoding UAV videos. It is expected that the benchmark will accelerate the research and development in video coding on drone platforms.
翻訳日:2023-01-18 17:11:05 公開日:2023-01-15
# 映像からの動物行動分類のためのCNNに基づく行動認識と行動推定

CNN-Based Action Recognition and Pose Estimation for Classifying Animal Behavior from Videos: A Survey ( http://arxiv.org/abs/2301.06187v1 )

ライセンス: Link先を確認
Michael Perez and Corey Toler-Franklin(参考訳) ビデオからヒトや動物の行動を分類することは、脳の機能や刺激に対する反応を理解する上で重要である。 アクション認識は、1人または複数の被験者がトリミングビデオで行うアクティビティを分類し、これらの技術の多くの基礎を形成する。 人間の行動認識のためのディープラーニングモデルは、過去10年間で大きく進歩している。 近年,深層学習に基づく行動認識を動物行動分類に適用する研究への関心が高まっている。 しかし、人間の行動認識法はより発展している。 本研究は,神経科学における動物行動分類に適応した,畳み込みニューラルネットワーク(CNN)アーキテクチャに基づく人間の行動認識とポーズ推定手法の概要を示す。 動物の行動を分類する前にしばしば適用されるため、画像フレームから関節位置を推定するポーズ推定も含む。 まず,2D,2ストリーム,3D CNNを通じて時空間特徴を学習するアルゴリズムの基礎情報を提供する。 我々は,オプティマイザ,損失関数,トレーニング手順を決定するモチベーション要因を調査し,ベンチマークデータセットでの性能を比較する。 次に,これらの手法を利用したり構築したりする動物行動の枠組みを,それらが必要とする監督レベルによって整理する。 私たちの議論は、基礎となるcnnモデルの技術的な進化と、神経科学研究室での使用性よりも、そのアーキテクチャ的適応性に特化しています。 オープンな研究課題と可能な研究方向性について論じる。 本調査は, 完全に教師なしの動物行動分類システムを開発する研究者のための資源として設計されており, 文献にはほとんど例がない。

Classifying the behavior of humans or animals from videos is important in biomedical fields for understanding brain function and response to stimuli. Action recognition, classifying activities performed by one or more subjects in a trimmed video, forms the basis of many of these techniques. Deep learning models for human action recognition have progressed significantly over the last decade. Recently, there is an increased interest in research that incorporates deep learning-based action recognition for animal behavior classification. However, human action recognition methods are more developed. This survey presents an overview of human action recognition and pose estimation methods that are based on convolutional neural network (CNN) architectures and have been adapted for animal behavior classification in neuroscience. Pose estimation, estimating joint positions from an image frame, is included because it is often applied before classifying animal behavior. First, we provide foundational information on algorithms that learn spatiotemporal features through 2D, two-stream, and 3D CNNs. We explore motivating factors that determine optimizers, loss functions and training procedures, and compare their performance on benchmark datasets. Next, we review animal behavior frameworks that use or build upon these methods, organized by the level of supervision they require. Our discussion is uniquely focused on the technical evolution of the underlying CNN models and their architectural adaptations (which we illustrate), rather than their usability in a neuroscience lab. We conclude by discussing open research problems, and possible research directions. Our survey is designed to be a resource for researchers developing fully unsupervised animal behavior classification systems of which there are only a few examples in the literature.
翻訳日:2023-01-18 17:04:11 公開日:2023-01-15
# litar: モバイル拡張現実のための視覚的コヒーレント照明

LitAR: Visually Coherent Lighting for Mobile Augmented Reality ( http://arxiv.org/abs/2301.06184v1 )

ライセンス: Link先を確認
Yiqin Zhao, Chongyang Ma, Haibin Huang, Tian Guo(参考訳) 全方位環境照明の正確な理解は、モバイル拡張現実(AR)における高品質な仮想オブジェクトレンダリングに不可欠である。 特に、反射レンダリングをサポートするために、既存の手法はディープラーニングモデルを利用して物理光プローブを推定または使用し、通常は環境マップの形式で表現される物理照明を捉える。 しかし、これらのメソッドは視覚的に一貫性のある詳細を提供できず、追加のセットアップが必要となることが多い。 例えば、商用フレームワークのarkitでは、現実的な環境マップを生成する畳み込みニューラルネットワークを使用しているが、対応する反射レンダリングは物理的環境と一致しない可能性がある。 本稿では,現実的かつ視覚的に整合的なレンダリングを実現するLitARという照明再構成フレームワークの設計と実装について述べる。 LitARは、モバイルARの照明情報をサポートするいくつかの課題に対処する。 まず、空間分散問題に対処するため、litarは2フィールド照明再構成を用いて、照明再構成タスクを空間分散認識近接場再構成と方向認識遠方場再構成に分割する。 対応する環境マップは、正しい色調の反射レンダリングを可能にする。 第2に、LitARは2つのノイズ耐性データキャプチャポリシーを使用して、データ品質を保証する。 第3に,光再構成の計算能力と高い計算要求のミスマッチを処理するために,マルチレゾリューションプロジェクションとアンカー外挿という,2つの新しいリアルタイム環境マップレンダリング技術を採用している。 これら2つのテクニックは、視覚的品質を維持しながら、時間を要するメッシュ再構成の必要性を効果的に排除する。

An accurate understanding of omnidirectional environment lighting is crucial for high-quality virtual object rendering in mobile augmented reality (AR). In particular, to support reflective rendering, existing methods have leveraged deep learning models to estimate or have used physical light probes to capture physical lighting, typically represented in the form of an environment map. However, these methods often fail to provide visually coherent details or require additional setups. For example, the commercial framework ARKit uses a convolutional neural network that can generate realistic environment maps; however the corresponding reflective rendering might not match the physical environments. In this work, we present the design and implementation of a lighting reconstruction framework called LitAR that enables realistic and visually-coherent rendering. LitAR addresses several challenges of supporting lighting information for mobile AR. First, to address the spatial variance problem, LitAR uses two-field lighting reconstruction to divide the lighting reconstruction task into the spatial variance-aware near-field reconstruction and the directional-aware far-field reconstruction. The corresponding environment map allows reflective rendering with correct color tones. Second, LitAR uses two noise-tolerant data capturing policies to ensure data quality, namely guided bootstrapped movement and motion-based automatic capturing. Third, to handle the mismatch between the mobile computation capability and the high computation requirement of lighting reconstruction, LitAR employs two novel real-time environment map rendering techniques called multi-resolution projection and anchor extrapolation. These two techniques effectively remove the need of time-consuming mesh reconstruction while maintaining visual quality.
翻訳日:2023-01-18 17:03:44 公開日:2023-01-15
# 機能コネクティクスと行動のベイズモデル

Bayesian Models of Functional Connectomics and Behavior ( http://arxiv.org/abs/2301.06182v1 )

ライセンス: Link先を確認
Niharika Shimona D'Souza(参考訳) 機能コネクトミクスと行動データの共同分析の問題は、2つのドメイン間の複雑な相互作用のために非常に困難である。 さらに、臨床 rs-fMRI 研究は、特にまれな疾患の場合、限られたサンプルと競合することが多い。 このデータスターベッド・プリームは、接続データから振る舞いを予測するように設計された古典的な機械学習やディープラーニングの信頼性を著しく制限することができる。 本研究では,この問題を表現学習とベイズモデリングのレンズからアプローチする。 領域の分布特性をモデル化するために, 古典共分散分解を行った後, ベイズ線形回帰, 確率探索変数選択などのアプローチの能力について検討した。 最後に,共同表現学習と予測のための完全ベイズ式を提案する。 自閉症スペクトラム障害患者に対するr-fMRIによる臨床研究のサブセットについて予備的検討を行った。

The problem of jointly analysing functional connectomics and behavioral data is extremely challenging owing to the complex interactions between the two domains. In addition, clinical rs-fMRI studies often have to contend with limited samples, especially in the case of rare disorders. This data-starved regimen can severely restrict the reliability of classical machine learning or deep learning designed to predict behavior from connectivity data. In this work, we approach this problem from the lens of representation learning and bayesian modeling. To model the distributional characteristics of the domains, we first examine the ability of approaches such as Bayesian Linear Regression, Stochastic Search Variable Selection after performing a classical covariance decomposition. Finally, we present a fully bayesian formulation for joint representation learning and prediction. We present preliminary results on a subset of a publicly available clinical rs-fMRI study on patients with Autism Spectrum Disorder.
翻訳日:2023-01-18 17:03:18 公開日:2023-01-15
# 専用ハードウェアを用いたセキュアビデオストリーミング

Secure Video Streaming Using Dedicated Hardware ( http://arxiv.org/abs/2301.06180v1 )

ライセンス: Link先を確認
Nicholas Murray-Hill, Laura Fontes, Pedro Machado, Isibor Kennedy Ihianle(参考訳) 目的: 本論文の目的は, 監視・監視に使用されるIoT(Internet-of-Things)システムのセキュリティ, 効率, 再構成性を向上させるシステムを提案することである。 方法: スマートIoTエッジデバイスのセキュリティとフレームレートを高めるために,CPU(CPU)とFPGA(Field-Programmable Gate Array)で構成されるマルチプロセッサシステムオンチップ(MPSoC)を提案する。 秘密鍵はFPGAユニットに安全に埋め込まれ、ランダムアクセスメモリ(RAM)に露出することを避ける。 これにより、エッジデバイスはキーを安全に保存し、認証し、同じ集積回路(IC)から送信されたデータを保護することができる。 さらに、エッジ装置は、軽量通信プロトコルを用いてカメラストリームを同時にパブリッシュおよびルーティングすることができ、毎秒14フレーム(fps)のフレームレートを実現する。 mpsocの性能はnvidia jetson nano(njn)とraspberry pi 4(rpi4)と比較され、rpi4は最もコスト効率の高いソリューションであるが、フレームレートが低いため、njnはフレームレートが高いが安全ではないため最速であり、mpsocはフレームレートのバランスがあり、セキュアなキーをメモリに公開しないため、最適なソリューションである。 結果: 提案システムは,監視と監視に使用されるIoTシステムのセキュリティ,スケーラビリティ,効率性の課題に,うまく対処する。 暗号化キーをセキュアに保存して認証し、エッジ装置は、カメラストリームが高精細画像を14fpsで同時にパブリッシュしてルーティングすることができる。

Purpose: The purpose of this article is to present a system that enhances the security, efficiency, and reconfigurability of an Internet-of-Things (IoT) system used for surveillance and monitoring. Methods: A Multi-Processor System-On-Chip (MPSoC) composed of Central Processor Unit (CPU) and Field-Programmable Gate Array (FPGA) is proposed for increasing the security and the frame rate of a smart IoT edge device. The private encryption key is safely embedded in the FPGA unit to avoid being exposed in the Random Access Memory (RAM). This allows the edge device to securely store and authenticate the key, protecting the data transmitted from the same Integrated Circuit (IC). Additionally, the edge device can simultaneously publish and route a camera stream using a lightweight communication protocol, achieving a frame rate of 14 frames per Second (fps). The performance of the MPSoC is compared to a NVIDIA Jetson Nano (NJN) and a Raspberry Pi 4 (RPI4) and it is found that the RPI4 is the most cost-effective solution but with lower frame rate, the NJN is the fastest because it can achieve higher frame-rate but it is not secure, and the MPSoC is the optimal solution because it offers a balanced frame rate and it is secure because it never exposes the secure key into the memory. Results: The proposed system successfully addresses the challenges of security, scalability, and efficiency in an IoT system used for surveillance and monitoring. The encryption key is securely stored and authenticated, and the edge device is able to simultaneously publish and route a camera stream feed high-definition images at 14 fps.
翻訳日:2023-01-18 17:03:06 公開日:2023-01-15
# 自転車のフレーム:ニュースの中のサイクリストの暗黙の描写を理解する

Bike Frames: Understanding the Implicit Portrayal of Cyclists in the News ( http://arxiv.org/abs/2301.06178v1 )

ライセンス: Link先を確認
Xingmeng Zhao, Xavier Walton, Suhana Shrestha and Anthony Rios(参考訳) 一般交通機関やレクリエーションのための自転車の数が増加すると、健康が改善され、自動車輸送の環境影響が軽減される。 しかし、サイクリングに対する大衆の認識は、ニュース機関のイデオロギーと報道基準によって引き起こされる可能性がある。 例えば、報道機関がサイクリング事故を過度に報告し、交通機関の周期を制限した場合、道路上のサイクリストを「危険な」と特定することがある。 さらに、人々のサイクルが減れば、安全なインフラに投資するための政府からの資金も少なくなるかもしれない。 本稿では,ニュース見出しにおけるサイクリストの知覚について考察する。 これを実現するために、新しいデータセット「バイクフレーム」を導入し、見出しがサイクリストをどのように表現しているかを把握し、事故関連の見出しを検出するのに役立ちます。 次に,事故関連ポストの検出精度を高めるマルチタスク(mt)正規化手法を導入し,従来のmtフレームワークよりも改善することを示す。 最後に、サイクリストの認識とモーターサイクリスト関連の見出しを比較して、この発見を男性および女性関連記事の他の関連活動と比較する。 我々の調査によると、一般ニュースサイトは、他のイベントよりもサイクリストに関する事故を報告しやすい。 さらに、自転車専門のウェブサイトは、自転車専門のウェブサイトよりも事故について報告する傾向が強い。 最後に、男性と女性関連者の報告において、男性関連サイクリストの見出しは事故に関連するが、女性関連自転車の見出しは事故に関連している。 WARNING: 本論文では事故と死亡について記述する。

Increasing the number of cyclists, whether for general transport or recreation, can provide health improvements and reduce the environmental impact of vehicular transportation. However, the public's perception of cycling may be driven by the ideologies and reporting standards of news agencies. For instance, people may identify cyclists on the road as "dangerous" if news agencies overly report cycling accidents, limiting the number of people that cycle for transportation. Moreover, if fewer people cycle, there may be less funding from the government to invest in safe infrastructure. In this paper, we explore the perceived perception of cyclists within news headlines. To accomplish this, we introduce a new dataset, "Bike Frames", that can help provide insight into how headlines portray cyclists and help detect accident-related headlines. Next, we introduce a multi-task (MT) regularization approach that increases the detection accuracy of accident-related posts, demonstrating improvements over traditional MT frameworks. Finally, we compare and contrast the perceptions of cyclists with motorcyclist-related headlines to ground the findings with another related activity for both male- and female-related posts. Our findings show that general news websites are more likely to report accidents about cyclists than other events. Moreover, cyclist-specific websites are more likely to report about accidents than motorcycling-specific websites, even though there is more potential danger for motorcyclists. Finally, we show substantial differences in the reporting about male vs. female-related persons, e.g., more male-related cyclists headlines are related to accidents, but more female-related motorcycling headlines about accidents. WARNING: This paper contains descriptions of accidents and death.
翻訳日:2023-01-18 17:02:36 公開日:2023-01-15
# 生活科学フィードバック効果を高めるための機械学習感性分析に基づくサミティブ学生コースレビューツール

Summative Student Course Review Tool Based on Machine Learning Sentiment Analysis to Enhance Life Science Feedback Efficacy ( http://arxiv.org/abs/2301.06173v1 )

ライセンス: Link先を確認
Ben Hoar, Roshini Ramachandran, Marc Levis, Erin Sparck, Ke Wu, Chong Liu(参考訳) 機械学習は、既存の技術を拡大したり、新しい技術を発明したりできる新しい、補足的な、強力なツールの開発を可能にする。 教育において、教育実践に関する学生の見解を整理し再集計するための、汎用的な学生コースレビューフォーマットをサポートするツールとしてスペースが存在する。 学生の意見は一般的なコメント欄でまとめられ、コース内容に関する具体例をポーリングすることなくコースに対する感情を喚起する。 そこで本研究では,授業内容に関する意見を伝達する言語・語彙の機能として,授業に対する意識を分析することにより,学生の意見を要約し整理する新しいアプローチを提案する。 この分析は、コース後調査の最後に遭遇した一般的なコメントセクションに対する反応に由来する。 Python、LaTeX、GoogleのNatural Language APIで実現されたこの分析は、構造化されていないテキストデータを一般的なサブレポートとトピック固有のサブレポートに変換し、学生のビューをユニークで斬新な方法で伝達することを可能にする。

Machine learning enables the development of new, supplemental, and empowering tools that can either expand existing technologies or invent new ones. In education, space exists for a tool that supports generic student course review formats to organize and recapitulate students' views on the pedagogical practices to which they are exposed. Often, student opinions are gathered with a general comment section that solicits their feelings towards their courses without polling specifics about course contents. Herein, we show a novel approach to summarizing and organizing students' opinions via analyzing their sentiment towards a course as a function of the language/vocabulary used to convey their opinions about a class and its contents. This analysis is derived from their responses to a general comment section encountered at the end of post-course review surveys. This analysis, accomplished with Python, LaTeX, and Google's Natural Language API, allows for the conversion of unstructured text data into both general and topic-specific sub-reports that convey students' views in a unique, novel way.
翻訳日:2023-01-18 17:02:11 公開日:2023-01-15
# Coreset Learning Reality Check

A Coreset Learning Reality Check ( http://arxiv.org/abs/2301.06163v1 )

ライセンス: Link先を確認
Fred Lu, Edward Raff, James Holt(参考訳) サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適用する前にデータサイズを減らす自然なアプローチである。 近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。 これらの研究は理論と限定的な実験によって支持されているが、これまでこれらの方法の包括的な評価は行われていない。 本研究では,コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を直接比較し,その有効性の矛盾を明らかにする。 多くの場合、メソッドは単純な一様サブサンプリングを上回らない。

Subsampling algorithms are a natural approach to reduce data size before fitting models on massive datasets. In recent years, several works have proposed methods for subsampling rows from a data matrix while maintaining relevant information for classification. While these works are supported by theory and limited experiments, to date there has not been a comprehensive evaluation of these methods. In our work, we directly compare multiple methods for logistic regression drawn from the coreset and optimal subsampling literature and discover inconsistencies in their effectiveness. In many cases, methods do not outperform simple uniform subsampling.
翻訳日:2023-01-18 17:01:53 公開日:2023-01-15
# TextileNet: 材料分類に基づくファッションテクスチャデータセット

TextileNet: A Material Taxonomy-based Fashion Textile Dataset ( http://arxiv.org/abs/2301.06160v1 )

ライセンス: Link先を確認
Shu Zhong, Miriam Ribul, Youngjun Cho, Marianna Obrist(参考訳) 機械学習(ML)の台頭は、徐々にファッション業界をデジタル化し、形を変えつつある。 近年、たとえば仮想試行錯誤など、多くのファッションAIアプリケーションが目撃されている。 ファッションデザイン、小売業、リサイクルなど、ファッション繊維分野において、繊維素材の識別と分類が重要な役割を担っている。 同時に、ネットゼロは世界的な目標であり、ファッション産業は、繊維素材を持続可能な方法で再利用、修理、リサイクルできるように、大きな変化を遂げている。 衣料品の自動識別には、低コストで効果的な識別技術が欠けているため、依然として課題がある。 これを踏まえて、繊維分類学と繊維分類学を素材科学者と共同で作成した繊維分類学に基づいて、最初のファッション・テキスタイルデータセットであるTextileNetを構築した。 TextileNetは、繊維材料の最先端ディープラーニングモデルのトレーニングと評価に使用することができる。 分類学を用いて繊維関連データセットの標準化を期待する。 TextileNetには33のファイバーラベルと27のファブリックラベルがあり、合計760,949の画像がある。 我々は標準の畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を使用して、このデータセットのベースラインを確立する。 このデータセットの今後の応用は、繊維分類から繊維サプライチェーンの最適化、消費者のためのインタラクティブデザインまで様々である。 これは、新しいAIベースのファッションプラットフォームの開発に貢献できると考えています。

The rise of Machine Learning (ML) is gradually digitalizing and reshaping the fashion industry. Recent years have witnessed a number of fashion AI applications, for example, virtual try-ons. Textile material identification and categorization play a crucial role in the fashion textile sector, including fashion design, retails, and recycling. At the same time, Net Zero is a global goal and the fashion industry is undergoing a significant change so that textile materials can be reused, repaired and recycled in a sustainable manner. There is still a challenge in identifying textile materials automatically for garments, as we lack a low-cost and effective technique for identifying them. In light of this, we build the first fashion textile dataset, TextileNet, based on textile material taxonomies - a fibre taxonomy and a fabric taxonomy generated in collaboration with material scientists. TextileNet can be used to train and evaluate the state-of-the-art Deep Learning models for textile materials. We hope to standardize textile related datasets through the use of taxonomies. TextileNet contains 33 fibres labels and 27 fabrics labels, and has in total 760,949 images. We use standard Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) to establish baselines for this dataset. Future applications for this dataset range from textile classification to optimization of the textile supply chain and interactive design for consumers. We envision that this can contribute to the development of a new AI-based fashion platform.
翻訳日:2023-01-18 17:01:44 公開日:2023-01-15
# Generative Adversarial Networks を用いたボアホール画像の塗布

Inpainting borehole images using Generative Adversarial Networks ( http://arxiv.org/abs/2301.06152v1 )

ライセンス: Link先を確認
Rachid Belmeskine, Abed Benaichouche(参考訳) 本稿では,wireline microresistivity imaging toolsを用いて作製したボーリングホール画像におけるギャップ充填法を提案する。 提案手法は, 画像の欠落領域を遮蔽するために, ジェネレータ, グローバル判別器, ローカル判別器を利用する。 ジェネレータはスキップ接続を備えたオートエンコーダアーキテクチャに基づいており、使用する損失関数はwasserstein gan損失である。 ボーリングホール画像のデータセットを用いた実験により,提案モデルが大規模欠落画素を効果的に処理し,現実的な完成結果が得られることを示す。 この手法は, 貯水池の定量的評価を改善し, 地質現象や貯水池パラメータの解釈に不可欠な基礎を提供する。

In this paper, we propose a GAN-based approach for gap filling in borehole images created by wireline microresistivity imaging tools. The proposed method utilizes a generator, global discriminator, and local discriminator to inpaint the missing regions of the image. The generator is based on an auto-encoder architecture with skip-connections, and the loss function used is the Wasserstein GAN loss. Our experiments on a dataset of borehole images demonstrate that the proposed model can effectively deal with large-scale missing pixels and generate realistic completion results. This approach can improve the quantitative evaluation of reservoirs and provide an essential basis for interpreting geological phenomena and reservoir parameters.
翻訳日:2023-01-18 17:01:23 公開日:2023-01-15
# 最適化器の計算可能性

Computability of Optimizers ( http://arxiv.org/abs/2301.06148v1 )

ライセンス: Link先を確認
Yunseok Lee, Holger Boche and Gitta Kutyniok(参考訳) 最適化問題は、今日の科学的および技術的な展望の根幹である。 しかし、現在、そのような問題の解決者は、ほとんどデジタルハードウェア上で実行される。 本稿では,任意のデジタルハードウェアの数学的モデルとしてチューリングマシンを用い,最適化問題の解法におけるこの概念的アプローチの基本的限界を解析する。 ほとんどのアプリケーションでは、オプティマイザ自体が対応する関数の最適値よりもかなり関心があるので、オプティマイザの計算可能性に焦点を当てます。 実際、様々な状況において、オプティマイザはチューリングマシンやデジタルコンピュータでは持続不可能であることを示す。 さらに悪いことにチューリングマシンは存在せず、これは最適化器自体を一定の一定の誤差まで近似する。 我々は、人工知能、金融数学、情報理論など、非常に異なる分野の様々なよく知られた問題に対して、そのような問題がバナッハ・マズール計算可能でないというさらに強い結果をもたらすことを証明している。

Optimization problems are a staple of today's scientific and technical landscape. However, at present, solvers of such problems are almost exclusively run on digital hardware. Using Turing machines as a mathematical model for any type of digital hardware, in this paper, we analyze fundamental limitations of this conceptual approach of solving optimization problems. Since in most applications, the optimizer itself is of significantly more interest than the optimal value of the corresponding function, we will focus on computability of the optimizer. In fact, we will show that in various situations the optimizer is unattainable on Turing machines and consequently on digital computers. Moreover, even worse, there does not exist a Turing machine, which approximates the optimizer itself up to a certain constant error. We prove such results for a variety of well-known problems from very different areas, including artificial intelligence, financial mathematics, and information theory, often deriving the even stronger result that such problems are not Banach-Mazur computable, also not even in an approximate sense.
翻訳日:2023-01-18 17:01:11 公開日:2023-01-15
# イテレーションの日陰:elgotからkleeneへ

Shades of Iteration: from Elgot to Kleene ( http://arxiv.org/abs/2301.06202v1 )

ライセンス: Link先を確認
Sergey Goncharov(参考訳) 反復の記法は、最も一般的なエルゴット反復から非常に特定のクリーネ反復まで様々である。 エルゴット反復の基本的な性質はブルームとesikによって反復論の形で広く研究され、一方クリーネ反復はオートマトン理論、正規表現、クリーネ代数のような(型なし)形式論の積分部分として非常に人気になった。 ここで、エルゴット反復とクリーネ反復の間にそれぞれエルゴットモナドとクリーネモナドの形で公式な接続を確立する。 また、クリーン・モナドのように、純粋に代数的な用語で比較的単純な記述を認め、エルゴット・モナドのように、ストールループを有意義にサポートするが、クリーンスタイルの反復演算子を完全にサポートできないような、多種多様なモデルもカバーする、新しいタイプの while-monad も導入する。

Notions of iteration range from the arguably most general Elgot iteration to a very specific Kleene iteration. The fundamental nature of Elgot iteration has been extensively explored by Bloom and Esik in the form of iteration theories, while Kleene iteration became extremely popular as an integral part of (untyped) formalisms, such as automata theory, regular expressions and Kleene algebra. Here, we establish a formal connection between Elgot iteration and Kleene iteration in the form of Elgot monads and Kleene monads, respectively. We also introduce a novel class of while-monads, which like Kleene monads admit a relatively simple description in purely algebraic terms, and like Elgot monads cover a large diversity of models that meaningfully support while-loops, but may fail to support a Kleene-style iteration operator altogether, or else fail the Kleene algebra laws.
翻訳日:2023-01-18 16:56:07 公開日:2023-01-15
# q$-ary関数のスパースフーリエ変換の効率的な計算

Efficiently Computing Sparse Fourier Transforms of $q$-ary Functions ( http://arxiv.org/abs/2301.06200v1 )

ライセンス: Link先を確認
Yigit Efe Erginbas, Justin Singh Kang, Amirali Aghazadeh, Kannan Ramchandran(参考訳) 擬ブール関数のフーリエ変換は二進列の関数を解析するための一般的なツールである。 実世界の函数はしばしば疎フーリエ変換に現れる構造を持ち、以前の研究はスパーシティの仮定の下で変換を効率的に計算できることを示した。 しかし、$q$-aryアルファベット上で定義される関数のフーリエ変換を計算したい場合はどうだろう? このような機能は、生物学を含む多くの分野で自然に現れる。 典型的な回避策は、$q$-aryシーケンスをバイナリにエンコードすることであるが、このアプローチは計算効率が悪く、既存のスパースフーリエ変換技術と基本的に相容れない。 ここでは、長さ$n$列の$q$-ary関数に対して特別に$q$-ary関数に対して$q$-SFTというスパースフーリエ変換アルゴリズムを開発し、このアルゴリズムは、$q^n \rightarrow \infty$ in $O(Sn)$関数評価と$O(Sn^2 \log q)$演算と、$S = q^{n\delta}$ for some $\delta < 1$として証明的に$S$-sparse変換を演算する。 ある仮定の下では、固定$q$の場合、$q$-SFTのロバストバージョンはサンプル複雑性が$O(Sn^2)$であり、計算複雑性が$O(Sn^3)$で同じ漸近的保証を持つことを示す。 合成および実世界のRNAデータに対する数値シミュレーションを行い、超高次元の$q$-ary関数に対する$q$-SFTのスケーラビリティを示す。

Fourier transformations of pseudo-Boolean functions are popular tools for analyzing functions of binary sequences. Real-world functions often have structures that manifest in a sparse Fourier transform, and previous works have shown that under the assumption of sparsity the transform can be computed efficiently. But what if we want to compute the Fourier transform of functions defined over a $q$-ary alphabet? These types of functions arise naturally in many areas including biology. A typical workaround is to encode the $q$-ary sequence in binary, however, this approach is computationally inefficient and fundamentally incompatible with the existing sparse Fourier transform techniques. Herein, we develop a sparse Fourier transform algorithm specifically for $q$-ary functions of length $n$ sequences, dubbed $q$-SFT, which provably computes an $S$-sparse transform with vanishing error as $q^n \rightarrow \infty$ in $O(Sn)$ function evaluations and $O(S n^2 \log q)$ computations, where $S = q^{n\delta}$ for some $\delta < 1$. Under certain assumptions, we show that for fixed $q$, a robust version of $q$-SFT has a sample complexity of $O(Sn^2)$ and a computational complexity of $O(Sn^3)$ with the same asymptotic guarantees. We present numerical simulations on synthetic and real-world RNA data, demonstrating the scalability of $q$-SFT to massively high dimensional $q$-ary functions.
翻訳日:2023-01-18 16:55:47 公開日:2023-01-15
# 二重ロバストなカウンターファクト分類

Doubly Robust Counterfactual Classification ( http://arxiv.org/abs/2301.06199v1 )

ライセンス: Link先を確認
Kwangho Kim, Edward H. Kennedy, Jos\'e R. Zubizarreta(参考訳) 仮説的(事実的)シナリオの下での意思決定のための新たなツールとして,反事実分類について検討する。 そこで本研究では, 2重ロバスト非パラメトリック推定器を提案し, 分類問題を反事実を含む非線形数学的プログラムとして組み込むことにより, 柔軟な制約を組み込むことができる。 我々は,推定器の収束率を分析し,漸近分布に対する閉形式表現を提供する。 解析の結果,提案手法はニュアンスモデルの誤特定に対して頑健であり,非パラメトリック機械学習手法を用いても,高速な推定が可能な$\sqrt{n}$レートが得られることがわかった。 本手法の実証的性能をシミュレーションにより検討し,再帰的リスク予測に応用する。

We study counterfactual classification as a new tool for decision-making under hypothetical (contrary to fact) scenarios. We propose a doubly-robust nonparametric estimator for a general counterfactual classifier, where we can incorporate flexible constraints by casting the classification problem as a nonlinear mathematical program involving counterfactuals. We go on to analyze the rates of convergence of the estimator and provide a closed-form expression for its asymptotic distribution. Our analysis shows that the proposed estimator is robust against nuisance model misspecification, and can attain fast $\sqrt{n}$ rates with tractable inference even when using nonparametric machine learning approaches. We study the empirical performance of our methods by simulation and apply them for recidivism risk prediction.
翻訳日:2023-01-18 16:55:14 公開日:2023-01-15
# 解釈可能な一般化ニューラルクロージャモデル

Generalized Neural Closure Models with Interpretability ( http://arxiv.org/abs/2301.06198v1 )

ライセンス: Link先を確認
Abhinav Gupta and Pierre F.J. Lermusiaux(参考訳) 動的モデルの予測能力と計算コストの改善は、機械学習(ML)による計算物理学の強化の中心にあることが多い。 しかし、ほとんどの学習結果は、異なる計算グリッド解像度、初期および境界条件、ドメインジオメトリ、物理または問題固有のパラメータに対する解釈可能性と一般化に制限されている。 本研究では, ニューラル偏差微分方程式の新規かつ汎用的な手法を開発することにより, これらの課題を同時に解決する。 マルコフ型および非マルコフ型ニューラルネットワーク(NN)の閉包パラメータ化を用いて, 偏微分方程式(PDE)における既存/低忠実度力学モデルを直接拡張する。 連続時空間におけるnnsと既存のモデルの融合と数値的離散化は、自動的に所望の一般化を可能にする。 マルコフ項は解析形式の抽出を可能にし、解釈可能性を提供するように設計されている。 非マルコフ項は、現実世界を表すのに必要な本質的に欠落した時間遅延を説明できる。 連続形式で随伴pdesを得ることにより、微分可能および非微分可能計算物理符号、異なるmlフレームワーク、非一様空間時空間トレーニングデータの処理を直接実装することができる。 本稿では,非線形波,衝撃波,海洋酸性化モデルに基づく4つの実験セットを用いて,ニューラルクロージャモデル(gncms)フレームワークを実証する。 学習したgncmsは、物理の欠如を発見し、主要な数値的誤り項を発見し、解釈可能な方法で関数型候補を判別し、一般化し、より単純なモデルにおける複雑さの欠如を補償する。 最後に、新しいフレームワークの計算上の利点を分析する。

Improving the predictive capability and computational cost of dynamical models is often at the heart of augmenting computational physics with machine learning (ML). However, most learning results are limited in interpretability and generalization over different computational grid resolutions, initial and boundary conditions, domain geometries, and physical or problem-specific parameters. In the present study, we simultaneously address all these challenges by developing the novel and versatile methodology of unified neural partial delay differential equations. We augment existing/low-fidelity dynamical models directly in their partial differential equation (PDE) forms with both Markovian and non-Markovian neural network (NN) closure parameterizations. The melding of the existing models with NNs in the continuous spatiotemporal space followed by numerical discretization automatically allows for the desired generalizability. The Markovian term is designed to enable extraction of its analytical form and thus provides interpretability. The non-Markovian terms allow accounting for inherently missing time delays needed to represent the real world. We obtain adjoint PDEs in the continuous form, thus enabling direct implementation across differentiable and non-differentiable computational physics codes, different ML frameworks, and treatment of nonuniformly-spaced spatiotemporal training data. We demonstrate the new generalized neural closure models (gnCMs) framework using four sets of experiments based on advecting nonlinear waves, shocks, and ocean acidification models. Our learned gnCMs discover missing physics, find leading numerical error terms, discriminate among candidate functional forms in an interpretable fashion, achieve generalization, and compensate for the lack of complexity in simpler models. Finally, we analyze the computational advantages of our new framework.
翻訳日:2023-01-18 16:54:58 公開日:2023-01-15
# 誰が予測すべきか? 人間に推論する学習のための厳密なアルゴリズム

Who Should Predict? Exact Algorithms For Learning to Defer to Humans ( http://arxiv.org/abs/2301.06197v1 )

ライセンス: Link先を確認
Hussein Mozannar, Hunter Lang, Dennis Wei, Prasanna Sattigeri, Subhro Das, David Sontag(参考訳) 自動AI分類器は、より正確な予測を保証するために、人間の意思決定者に予測を推論することができるべきである。 本研究では,分類器とリジェクタを共同で訓練し,分類器が予測すべきか否かを各データポイントで決定する。 従来のアプローチでは,誤差ゼロの線形分類器やリジェクタ(実現可能な設定)が存在する場合でも,誤分類誤差の低いヒューマンaiシステムを見つけることができない。 誤差の低い線形対を得るには、問題が実現可能であってもNPハードであることが証明される。 この負の結果を補完するために、線形設定で問題を最適に解決できる混合整数線形プログラミング(milp)式を与える。 しかし、MILPは中程度の問題にしかスケールしない。 そこで,本研究では,実現可能で,実証的にも良好に機能する新しい代理損失関数を提案する。 私たちは、包括的なデータセットセットでアプローチをテストし、幅広いベースラインと比較します。

Automated AI classifiers should be able to defer the prediction to a human decision maker to ensure more accurate predictions. In this work, we jointly train a classifier with a rejector, which decides on each data point whether the classifier or the human should predict. We show that prior approaches can fail to find a human-AI system with low misclassification error even when there exists a linear classifier and rejector that have zero error (the realizable setting). We prove that obtaining a linear pair with low error is NP-hard even when the problem is realizable. To complement this negative result, we give a mixed-integer-linear-programming (MILP) formulation that can optimally solve the problem in the linear setting. However, the MILP only scales to moderately-sized problems. Therefore, we provide a novel surrogate loss function that is realizable-consistent and performs well empirically. We test our approaches on a comprehensive set of datasets and compare to a wide range of baselines.
翻訳日:2023-01-18 16:54:28 公開日:2023-01-15
# 満足度基準付き校正データ依存制約

Calibrated Data-Dependent Constraints with Exact Satisfaction Guarantees ( http://arxiv.org/abs/2301.06195v1 )

ライセンス: Link先を確認
Songkai Xue, Yuekai Sun, Mikhail Yurochkin(参考訳) データに依存した制約で機械学習モデルを訓練する作業を検討する。 このような制約はしばしば、公正性や安定性の目標を強制する期待値制約の実証バージョンとして生じる。 我々は、データ依存の制約を校正するように修正し、修正された制約を強制することで、期待値の制約がユーザ指定の確率で満たされることを保証する。 その結果得られた最適化問題は,標準確率最適化アルゴリズムに修正可能であり,本手法の有効性を実証し,分類器の公平性(テスト時)を保証することを望む。

We consider the task of training machine learning models with data-dependent constraints. Such constraints often arise as empirical versions of expected value constraints that enforce fairness or stability goals. We reformulate data-dependent constraints so that they are calibrated: enforcing the reformulated constraints guarantees that their expected value counterparts are satisfied with a user-prescribed probability. The resulting optimization problem is amendable to standard stochastic optimization algorithms, and we demonstrate the efficacy of our method on a fairness-sensitive classification task where we wish to guarantee the classifier's fairness (at test time).
翻訳日:2023-01-18 16:54:14 公開日:2023-01-15
# タンパク質-リガンド結合親和性予測のための拡張原子型幾何グラフ学習

Geometric Graph Learning with Extended Atom-Types Features for Protein-Ligand Binding Affinity Prediction ( http://arxiv.org/abs/2301.06194v1 )

ライセンス: Link先を確認
Md Masud Rana and Duc Duy Nguyen(参考訳) タンパク質-リガンド結合の親和性を理解し、正確に予測することは、薬物の設計と発見プロセスにおいて不可欠である。 現在,タンパク質-リガンド複合体の構造的および結合親和性データの増加とともに,その効率と精度から結合親和性を予測する手段として,機械学習ベースの手法が人気を集めている。 生分子研究において、グラフ理論は自然に分子や分子複合体をモデル化するのに使えるため、広く応用されている。 本研究では,SYBYLや拡張接続型対話機能 (ECIF) をマルチスケール重み付きカラーグラフ (MWCG) に統合することにより,タンパク質-リガンド相互作用の研究のためのグラフベース学習器を改良する。 グラデーションブースティング決定木(gbdt)機械学習アルゴリズムと組み合わせることで、このアプローチでは、$^\text{sybyl}\text{ggl}$-scoreと$^\text{ecif}\text{ggl}$-scoreという2つの異なる方法が得られる。 どちらのモデルも、薬物デザイン領域でよく使用される3つのベンチマークデータセット(CASF-2007, CASF-2013, CASF-2016)を用いて、評価能力において広範囲に検証されている。 ベストモデルである $^\text{sybyl}\text{GGL}$-Score の性能は、各ベンチマークのバインディング親和性予測における他の最先端モデルと比較する。 両モデルとも最先端の結果が得られたが、SYBYL原子型モデル $^\text{sybyl}\text{GGL}$-Score は全てのベンチマークで他の手法よりも優れていた。

Understanding and accurately predicting protein-ligand binding affinity are essential in the drug design and discovery process. At present, machine learning-based methodologies are gaining popularity as a means of predicting binding affinity due to their efficiency and accuracy, as well as the increasing availability of structural and binding affinity data for protein-ligand complexes. In biomolecular studies, graph theory has been widely applied since graphs can be used to model molecules or molecular complexes in a natural manner. In the present work, we upgrade the graph-based learners for the study of protein-ligand interactions by integrating extensive atom types such as SYBYL and extended connectivity interactive features (ECIF) into multiscale weighted colored graphs (MWCG). By pairing with the gradient boosting decision tree (GBDT) machine learning algorithm, our approach results in two different methods, namely $^\text{sybyl}\text{GGL}$-Score and $^\text{ecif}\text{GGL}$-Score. Both of our models are extensively validated in their scoring power using three commonly used benchmark datasets in the drug design area, namely CASF-2007, CASF-2013, and CASF-2016. The performance of our best model $^\text{sybyl}\text{GGL}$-Score is compared with other state-of-the-art models in the binding affinity prediction for each benchmark. While both of our models achieve state-of-the-art results, the SYBYL atom-type model $^\text{sybyl}\text{GGL}$-Score outperforms other methods by a wide margin in all benchmarks.
翻訳日:2023-01-18 16:54:03 公開日:2023-01-15
# RedBit: 量子CNNの正確性を評価するためのエンドツーエンドフレキシブルフレームワーク

RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of Quantized CNNs ( http://arxiv.org/abs/2301.06193v1 )

ライセンス: Link先を確認
Andr\'e Santos, Jo\~ao Dinis Ferreira, Onur Mutlu, Gabriel Falcao(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。 しかし、cnnによって得られた精度の大きな進歩は、ネットワークトポロジーの複雑さが増すことであり、cnnのトレーニングと推論において、大きな性能とエネルギーペナルティを伴っている。 近年の多くの研究で、ネットワークのパラメータのビット幅を減らすことによるパラメータ量子化の有効性が検証され、精度を損なうことなくかなりの性能とエネルギー効率の向上を実現している。 しかし,異なる量子化法の相対的有効性を比較することは困難である。 この問題に対処するために,さまざまなアルゴリズムとパラメータ構成がネットワーク精度に与える影響を評価するために,透過的で拡張性があり,使いやすいインターフェースを提供するオープンソースのフレームワークであるRedBitを紹介する。 我々はRedBitを用いて、MNIST、CIFAR-10、ImageNetデータセットに適用された5つの最先端量子化手法の包括的な調査を行う。 ネットワークの重みと入力活性化パラメータの幅を32ビットから1ビット(例えば8/8,2/2,1/32,1/1)まで独立に調整し,合計2300ビット幅の組み合わせを評価する。 この論文では、最先端GPUのプールにおける20000時間以上の計算時間を、すべての結果を生成するために使用した。 1ビット量子化では、MNIST、CIFAR-10、ImageNetデータセットの精度損失はそれぞれ [0.26%, 0.79%]、 [9.74%, 32.96%]、 [10.86%, 47.36%] である。 私たちは読者に対して、ソースコードをダウンロードしてredbitで実験することを積極的に推奨し、観察した結果を公開リポジトリに公開することを推奨しています。

In recent years, Convolutional Neural Networks (CNNs) have become the standard class of deep neural network for image processing, classification and segmentation tasks. However, the large strides in accuracy obtained by CNNs have been derived from increasing the complexity of network topologies, which incurs sizeable performance and energy penalties in the training and inference of CNNs. Many recent works have validated the effectiveness of parameter quantization, which consists in reducing the bit width of the network's parameters, to enable the attainment of considerable performance and energy efficiency gains without significantly compromising accuracy. However, it is difficult to compare the relative effectiveness of different quantization methods. To address this problem, we introduce RedBit, an open-source framework that provides a transparent, extensible and easy-to-use interface to evaluate the effectiveness of different algorithms and parameter configurations on network accuracy. We use RedBit to perform a comprehensive survey of five state-of-the-art quantization methods applied to the MNIST, CIFAR-10 and ImageNet datasets. We evaluate a total of 2300 individual bit width combinations, independently tuning the width of the network's weight and input activation parameters, from 32 bits down to 1 bit (e.g., 8/8, 2/2, 1/32, 1/1, for weights/activations). Upwards of 20000 hours of computing time in a pool of state-of-the-art GPUs were used to generate all the results in this paper. For 1-bit quantization, the accuracy losses for the MNIST, CIFAR-10 and ImageNet datasets range between [0.26%, 0.79%], [9.74%, 32.96%] and [10.86%, 47.36%] top-1, respectively. We actively encourage the reader to download the source code and experiment with RedBit, and to submit their own observed results to our public repository, available at https://github.com/IT-Coimbra/RedBit.
翻訳日:2023-01-18 16:53:29 公開日:2023-01-15
# 測定問題に対する有効な解決策はあるか?

Do We Have Any Viable Solution to the Measurement Problem? ( http://arxiv.org/abs/2301.06192v1 )

ライセンス: Link先を確認
Emily Adlam(参考訳) ウォレス (2022) は、最近、測定問題に対する多くの一般的なアプローチは相対論的量子力学や量子場理論に完全に拡張することはできないと主張した。 しかし、ユニタリのみのアプローチは、彼らの生存性を解決策として脅かす深刻な疫学問題に直面するため、相対論的量子力学に拡張可能な測定問題の実行可能な解を見つけることは、依然として急務であると考える。 この記事では、このようなものがどのようなものか、一般的に理解したいと思っています。 さらに、相対論的量子力学の予測を再現できるような単一世界の現実主義的アプローチは、我々の観測可能な現実が動的で正確に定義された微視的ビーブルに取って代わらないという特性を持つ可能性が高いと論じる。 したがって、観測可能な現実は近似的かつ創発的であるか、相互パースペクティブなリンクが加わった関係量子力学において、観測可能な現実は顕微鏡的に定義されていないビーブルを上回り、一貫性のあるヒストリーアプローチでは、観測可能な現実はローレンツ古典現実問題に対するケントの解のように動的でないビーブルを上回りうる。 これらの問題をすべて考慮に入れると、測定問題に対する有効な解決策の選択肢が大幅に狭くなると結論づけた。

Wallace (2022) has recently argued that a number of popular approaches to the measurement problem can't be fully extended to relativistic quantum mechanics and quantum field theory; Wallace thus contends that as things currently stand, only the unitary-only approaches to the measurement problem are viable. However, the unitary-only approaches face serious epistemic problems which may threaten their viability as solutions, and thus we consider that it remains an urgent outstanding problem to find a viable solution to the measurement problem which can be extended to relativistic quantum mechanics. In this article we seek to understand in general terms what such a thing might look like. We argue that in order to avoid serious epistemic problems, the solution must be a single-world realist approach, and we further argue that any single-world realist approach which is able to reproduce the predictions of relativistic quantum mechanics will most likely have the property that our observable reality does not supervene on dynamical, precisely-defined microscopic beables. Thus we suggest three possible routes for further exploration: observable reality could be approximate and emergent, as in relational quantum mechanics with the addition of cross-perspective links, or observable reality could supervene on beables which are not microscopically defined, as in the consistent histories approach, or observable reality could supervene on beables which are not dynamical, as in Kent's solution to the Lorentzian classical reality problem. We conclude that once all of these issues are taken into account, the options for a viable solution to the measurement problem are significantly narrowed down.
翻訳日:2023-01-18 16:52:55 公開日:2023-01-15
# BuildSeg: 建物のセグメンテーションのための一般的なフレームワーク

BuildSeg: A General Framework for the Segmentation of Buildings ( http://arxiv.org/abs/2301.06190v1 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Stefan Oehmcke, Fabian Gieseke, Christian Igel(参考訳) 空中画像と3Dレーザースキャン(LiDAR)からのセグメンテーションの構築は,背景の多様性,建築テクスチャ,画質の面で難しい課題である。 様々な種類の畳み込みネットワークとトランスフォーマーネットワークを用いた最近の研究は、このタスクの性能を大幅に向上させたが、自動マッピングのようなアプリケーションでは、より正確な建物のセグメンテーション方法が望ましい。 本研究では,セグメントビルディングに迅速に適用可能な汎用的なアプローチを用いた汎用フレームワークである \emph{buildseg} を提案する。 異なるデータソースが組み合わされ、一般化性能が向上した。 このアプローチは、ノルウェー、デンマーク、フランスの都市の高解像度マルチスペクトルおよびLiDAR画像の実験で示されているように、異なるデータソースに対して良い結果をもたらす。 我々は,MapAIコンペティションによる高解像度空中画像データセットに基づいて,ConvNeXtとSegFormerに基づくモデルを適用した。 この方法は0.7902のIOUと0.6185の境界IOUを達成した。 対象物の長方形を考慮した後処理を用いた。 これにより IOU は 0.6185 から 0.6189 に増加した。

Building segmentation from aerial images and 3D laser scanning (LiDAR) is a challenging task due to the diversity of backgrounds, building textures, and image quality. While current research using different types of convolutional and transformer networks has considerably improved the performance on this task, even more accurate segmentation methods for buildings are desirable for applications such as automatic mapping. In this study, we propose a general framework termed \emph{BuildSeg} employing a generic approach that can be quickly applied to segment buildings. Different data sources were combined to increase generalization performance. The approach yields good results for different data sources as shown by experiments on high-resolution multi-spectral and LiDAR imagery of cities in Norway, Denmark and France. We applied ConvNeXt and SegFormer based models on the high resolution aerial image dataset from the MapAI-competition. The methods achieved an IOU of 0.7902 and a boundary IOU of 0.6185. We used post-processing to account for the rectangular shape of the objects. This increased the boundary IOU from 0.6185 to 0.6189.
翻訳日:2023-01-18 16:52:26 公開日:2023-01-15
# ボルツマン機械とファインマン経路積分の類似性

Analogy between Boltzmann machines and Feynman path integrals ( http://arxiv.org/abs/2301.06217v1 )

ライセンス: Link先を確認
Srinivasan S. Iyengar and Sabre Kais(参考訳) 我々は、機械学習問題でよく用いられるボルツマンマシンと、ファインマンによる同様の記述を通じて既に量子統計力学で知られているアイデアとの接続を詳細に解説する。 この等価性は、ボルツマン機械やその他のニューラルネットワーク形式における隠れた層が、実際にはファインマン経路積分形式の中に存在するパス要素の離散バージョンであるという解釈を可能にする。 ファインマン経路(英語: feynman paths)は、量子力学における干渉現象の自然かつエレガントな描写であるから、機械学習では、与えられた数学的問題に対して正しい$x \rightarrow y$ mapを累積的にキャプチャするネットワークを通して、‘paths’と累積パスウェイトの適切な組み合わせを見つけることが目的である。 この分析の直接的な結果として、ボルツマンマシンとファインマンパス積分記述の両方に適用可能な一般的な量子回路モデルを提供できる。 接続はまた、‘`interpretable’'隠れ層を定義するロバストな方法を可能にする量子散乱の逆問題にも使われる。

We provide a detailed exposition of the connections between Boltzmann machines commonly utilized in machine learning problems and the ideas already well known in quantum statistical mechanics through Feynman's description of the same. We find that this equivalence allows the interpretation that the hidden layers in Boltzmann machines and other neural network formalisms are in fact discrete versions of path elements that are present within the Feynman path-integral formalism. Since Feynman paths are the natural and elegant depiction of interference phenomena germane to quantum mechanics, it appears that in machine learning, the goal is to find an appropriate combination of ``paths'', along with accumulated path-weights, through a network that cumulatively capture the correct $x \rightarrow y$ map for a given mathematical problem. As a direct consequence of this analysis, we are able to provide general quantum circuit models that are applicable to both Boltzmann machines and to Feynman path integral descriptions. Connections are also made to inverse quantum scattering problems which allow a robust way to define ``interpretable'' hidden layers.
翻訳日:2023-01-18 16:43:55 公開日:2023-01-15
# ハイブリッド深層強化学習エージェントによる人間認知のモデル化

Modeling Human Cognition with a Hybrid Deep Reinforcement Learning Agent ( http://arxiv.org/abs/2301.06216v1 )

ライセンス: Link先を確認
Songlin Xu and Xinyu Zhang(参考訳) 人間の認知モデルは、人間の認知行動が外部の刺激の下でどのように機能するかについての洞察を得るのに役立ち、合成データ生成の道を開き、認知制御のための適応的介入設計を支援する。 外部刺激が極めてダイナミックな場合、その刺激が人間の認知行動に与える影響をモデル化するのは困難である。 本稿では,人間の認知能力に及ぼす動的時間圧の影響をシミュレートするために,ドリフト拡散モデルを統合するハイブリッド深部強化学習(HDRL)フレームワークを提案する。 まずN=50のユーザ調査から始め、異なる要因が人間のパフォーマンスにどのように影響するかを調査し、フレームワーク設計における事前の知識を得るのに役立ちます。 この枠組みは, 定量的に人間の認知モデルを改善し, 人間の認知行動の一般的な傾向を定性的に捉えうることを示す。 また、我々のフレームワークは、異なる外部要因が人間の行動にどのように影響するかを探索し、シミュレートするために拡張することもできる。

Human cognition model could help us gain insights in how human cognition behaviors work under external stimuli, pave the way for synthetic data generation, and assist in adaptive intervention design for cognition regulation. When the external stimuli is highly dynamic, it becomes hard to model the effect that how the stimuli influences human cognition behaviors. Here we propose a novel hybrid deep reinforcement learning (HDRL) framework integrating drift-diffusion model to simulate the effect of dynamic time pressure on human cognition performance. We start with a N=50 user study to investigate how different factors may affect human performance, which help us gain prior knowledge in framework design. The evaluation demonstrates that this framework could improve human cognition modeling quantitatively and capture the general trend of human cognition behaviors qualitatively. Our framework could also be extended to explore and simulate how different external factors play a role in human behaviors.
翻訳日:2023-01-18 16:43:33 公開日:2023-01-15
# 4レベルスキームにおけるインバージョンのない周波数アップコンバージョン増幅の量子ジャンプ解析

Quantum-jump analysis of frequency up-conversion amplification without inversion in a four-level scheme ( http://arxiv.org/abs/2301.06214v1 )

ライセンス: Link先を確認
Juan Luis Rubio, Jordi Mompart, Ver\`onica Ahufinger(参考訳) 本研究では, 量子ジャンプ法を用いて, インバージョン無しの周波数アップコンバージョン増幅(AWI)を引き起こす4レベルスキームにおける光-マター相互作用を研究する。 その結果、中性Hg蒸気の場合、近年、UV系におけるプローブ場のAWIが報告され、この周波数範囲の逆転を伴わずにラシングの道を開いた。 このスキームでは、最大増幅を得るための鍵となる要素が、プローブ場ゲインに付随するコヒーレントな進化期間である3光子共鳴条件の実現であることを示す。 また、増幅を最適化するためにパラメータ値についても検討する。 本研究は、AWIに関係するメカニズムの理論的理解を拡張した。

In this work, we use the quantum-jump approach to study light-matter interactions in a four-level scheme giving rise to frequency up-conversion amplification without inversion (AWI). The results obtained apply to the case of neutral Hg vapour where, recently, it has been reported AWI of a probe field in the UV regime, opening the way for lasing without inversion in this range of frequencies. We show that, in this scheme, the key element to obtain maximum amplification is the fulfillment of the three-photon resonance condition, which favors coherent evolution periods associated with the probe field gain. We also investigate the parameter values in order to optimize amplification. The present study extends the theoretical understanding of the underlying mechanisms involved in AWI.
翻訳日:2023-01-18 16:43:16 公開日:2023-01-15
# 人工知能が人間の言語の起源を教えてくれるかもしれない

What artificial intelligence might teach us about the origin of human language ( http://arxiv.org/abs/2301.06211v1 )

ライセンス: Link先を確認
Alexander Kilpatrick(参考訳) この研究は、人工知能と音の象徴性を組み合わせた研究から生まれた興味深いパターンを探求する。 本研究では、教師付き機械学習アルゴリズムを用いて、参照名の音に基づいてサンプルを分類する。 機械学習アルゴリズムは、サウンドシンボルの効率的な学習者であるが、一方のカテゴリを他方に偏りがちである。 あるカテゴリが明らかにより大きな脅威を表す場合、アルゴリズムはそのカテゴリに過度に予測する傾向にある。 誤り管理理論によって構成された仮説が提示され、これは選好慎重な行動に適応する証拠である可能性が示唆されている。 この仮説は、中国語、日本語、韓国のポケモンの名前を構成する音を用いて、極端な勾配(XGBoost)モデルを構築し、分類誤差の分布を観察して検証する。

This study explores an interesting pattern emerging from research that combines artificial intelligence with sound symbolism. In these studies, supervised machine learning algorithms are trained to classify samples based on the sounds of referent names. Machine learning algorithms are efficient learners of sound symbolism, but they tend to bias one category over the other. The pattern is this: when a category arguably represents greater threat, the algorithms tend to overpredict to that category. A hypothesis, framed by error management theory, is presented that proposes that this may be evidence of an adaptation to preference cautious behaviour. This hypothesis is tested by constructing extreme gradient boosted (XGBoost) models using the sounds that make up the names of Chinese, Japanese and Korean Pokemon and observing classification error distribution.
翻訳日:2023-01-18 16:43:05 公開日:2023-01-15