このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230220となっている論文です。

PDF登録状況(公開日: 20230220)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子ブラスキャンプ-リーブ双対性

Quantum Brascamp-Lieb Dualities ( http://arxiv.org/abs/1909.02383v3 )

ライセンス: Link先を確認
Mario Berta, David Sutter, Michael Walter(参考訳) ブラスカンプ・リーブ不等式(Brascamp-Lieb inequalities)は、一般化されたヤング不等式として双対形式を持つエントロピー不等式である。 本研究では、この双対性の完全量子バージョンを導入し、量子相対エントロピー不等式とヤング型の行列指数的不等式を関連づける。 量子情報理論の例から、エントロピー不確実性関係、強いデータ処理の不等式、超付加性不等式など、この新たな双対性を示す。 応用として、ガウスの量子演算に対する新しい不確実性関係は、よく知られた '幾何学' ブラスカンプ-リーブ不等式の族における量子双対として解釈できる。

Brascamp-Lieb inequalities are entropy inequalities which have a dual formulation as generalized Young inequalities. In this work, we introduce a fully quantum version of this duality, relating quantum relative entropy inequalities to matrix exponential inequalities of Young type. We demonstrate this novel duality by means of examples from quantum information theory -- including entropic uncertainty relations, strong data-processing inequalities, super-additivity inequalities, and many more. As an application we find novel uncertainty relations for Gaussian quantum operations that can be interpreted as quantum duals of the well-known family of `geometric' Brascamp-Lieb inequalities.
翻訳日:2023-03-25 04:22:47 公開日:2023-02-20
# 雲の鏡としてのブラックホール:対称性を持つヘイデン・プレススキルプロトコル

Black holes as clouded mirrors: the Hayden-Preskill protocol with symmetry ( http://arxiv.org/abs/2007.00895v8 )

ライセンス: Link先を確認
Yoshifumi Nakata, Eyuri Wakakuwa, and Masato Koashi(参考訳) Hayden-Preskillプロトコルは、ブラックホール情報パラドックスの量子トイモデルである。 スクランブルの仮定に基づき、量子情報はブラックホールをモデル化する量子多体系から即座に漏れていることが明らかとなった。 本稿では,システムに対称性がある場合までプロトコルを拡張し,その対称性が情報の漏洩に与える影響について検討する。 特にアップスピンの数の保存に重点を置いている。 まず,部分分離法を考案し,対称性が漏洩の遅延と情報残差を誘発することを示す。 遅延は対称性に関連する系の熱力学的性質によって特徴づけられ、情報残差は初期状態の対称性破壊と密接に関連している。 これらの関係は、情報漏洩問題を量子多体系のマクロ物理学に橋渡しし、システムの物理的性質の観点からのみ情報漏洩を調査することができる。

The Hayden-Preskill protocol is a qubit-toy model of the black hole information paradox. Based on the assumption of scrambling, it was revealed that quantum information is instantly leaked out from the quantum many-body system that models a black hole. In this paper, we extend the protocol to the case where the system has symmetry and investigate how the symmetry affects the leakage of information. We especially focus on the conservation of the number of up-spins. Developing a partial decoupling approach, we first show that the symmetry induces a delay of leakage and an information remnant. We then clarify the physics behind them: the delay is characterized by thermodynamic properties of the system associated with the symmetry, and the information remnant is closely related to the symmetry-breaking of the initial state. These relations bridge the information leakage problem to macroscopic physics of quantum many-body systems and allow us to investigate the information leakage only in terms of physical properties of the system.
翻訳日:2023-03-25 04:03:37 公開日:2023-02-20
# スピノールボース・アインシュタイン凝縮体の位相特性:マヨラナの恒星表現アプローチ

Phase characterization of spinor Bose-Einstein condensates: a Majorana stellar representation approach ( http://arxiv.org/abs/2211.16428v2 )

ライセンス: Link先を確認
E. Serrano-Ens\'astiga, F. Mireles(参考訳) スピン自由度を持つ多体系は平均場(MF)理論を超えて記述された創発的な現象を示す。 本稿では,回転対称性を有する相互作用スピノル系のmf解の変動摂動を決定するための厳密な方法を提案する。 量子混合状態に対するマヨラナ星表象の一般化に基づいており、自己整合対称性を持つ任意の変分法やスピノールのような素粒子の任意の開アンサンブルを満たすことができる。 形式論の応用として、スピン1および2ボース・アインシュタイン凝縮の許容位相を特徴付け、スピン2凝縮の有限温度位相図を計算する。

Many-body systems with spin degree of freedom may exhibit emergent phenomena described only by beyond mean-field (MF) theories. Here we present a rigorous method to determine the variational perturbations for the MF solution of an interacting spinor system with rotational symmetries. It is based on a generalization of the Majorana stellar representation for quantum mixed states, and it is amenable to any variational method with self-consistent symmetries and for any open ensemble of spinor-like particles. As an application of the formalism, we characterize the allowed phases in spin 1 and 2 Bose-Einstein condensates and calculate the finite-temperature phase diagram of spin-2 condensates.
翻訳日:2023-03-25 03:46:12 公開日:2023-02-20
# se(3)不変トランスフォーマー、転送学習、ホモロジーに基づく拡張を用いた畳み込みニューラルネットワークのタンパク質結合部位予測能力の増強

Boosting Convolutional Neural Networks' Protein Binding Site Prediction Capacity Using SE(3)-invariant transformers, Transfer Learning and Homology-based Augmentation ( http://arxiv.org/abs/2303.08818v1 )

ライセンス: Link先を確認
Daeseok Lee, Bonggun Shin and Jeunghyun Byun(参考訳) 標的タンパク質中の小さな分子結合部位を、ポケットや残基の分解能で見つけることは、多くの仮想的および実際の薬物発見シナリオにおいて重要である。 ドメイン知識や従来の手法に基づく結合サイトを見つけることは必ずしも容易ではないため、タンパク質構造から結合サイトを予測する異なる深層学習法が近年開発されている。 ここでは,最先端のベースラインをそれぞれ$\unicode{x2013}$pocketと残差で大幅に上回る,新たなディープラーニングアルゴリズムを提案する。 この優れた性能は、ヒト血清アルブミンとその結合部位のタンパク質を含むケーススタディでも実証された。 我々のアルゴリズムには、モデルアーキテクチャとトレーニング方法の両方で新しいアイデアが含まれていた。 モデルアーキテクチャでは、残差レベルCNN出力上で動作するSE(3)不変な幾何学的自己アテンション層を組み込んだ。 このモデルの残差レベル処理により、2つの解像度間の転送学習が可能となり、バインディングポケット予測を大幅に改善することができた。 さらに,タンパク質のホモロジーに基づく新しい拡張法を開発し,モデルが過度に適合することを防止した。 全体として、我々の文学への貢献は2つあると信じている。 まず,異なるベンチマークやケーススタディの優れた性能で示されるように,実世界のアプリケーションに関係のあるサイト予測を結合するための新しい計算方法を提案する。 第二に、我々の方法である$\unicode{x2013}$ the model architecture, transfer learning and the homology augmentation$\unicode{x2013}$would の斬新なアイデアは、将来の作品において有用な構成要素となる。

Figuring out small molecule binding sites in target proteins, in the resolution of either pocket or residue, is critical in many virtual and real drug-discovery scenarios. Since it is not always easy to find such binding sites based on domain knowledge or traditional methods, different deep learning methods that predict binding sites out of protein structures have been developed in recent years. Here we present a new such deep learning algorithm, that significantly outperformed all state-of-the-art baselines in terms of the both resolutions$\unicode{x2013}$pocket and residue. This good performance was also demonstrated in a case study involving the protein human serum albumin and its binding sites. Our algorithm included new ideas both in the model architecture and in the training method. For the model architecture, it incorporated SE(3)-invariant geometric self-attention layers that operate on top of residue-level CNN outputs. This residue-level processing of the model allowed a transfer learning between the two resolutions, which turned out to significantly improve the binding pocket prediction. Moreover, we developed novel augmentation method based on protein homology, which prevented our model from over-fitting. Overall, we believe that our contribution to the literature is twofold. First, we provided a new computational method for binding site prediction that is relevant to real-world applications, as shown by the good performance on different benchmarks and case study. Second, the novel ideas in our method$\unicode{x2013}$the model architecture, transfer learning and the homology augmentation$\unicode{x2013}$would serve as useful components in future works.
翻訳日:2023-03-19 11:40:40 公開日:2023-02-20
# オンデマンドモビリティサービスの空間的・社会的・データ的ギャップ--サプライ指向maasに向けて

Spatial, Social and Data Gaps in On-Demand Mobility Services: Towards a Supply-Oriented MaaS ( http://arxiv.org/abs/2303.03881v1 )

ライセンス: Link先を確認
Ronit Purian and Daniel Polani(参考訳) 都市部における空間行動を変えるオンデマンドモビリティサービスの10年後、共有自動運転車(SAV)サービスによって交通渋滞が増加し、交通サービスへの不平等なアクセスが期待されている。 調整と社会的・行動的理解、都市認知とエージェントの権限付与を新たな情報枠組みに導入し、需要を認識しつつオンデマンドではないスケジュール供給のパラダイムを提案する。 日常のルーチンやその他の空間行動パターンは、主にグループで都市動態や時空間の挙動を捉えた供給指向パラダイムの基本的需要層を概説する。 予定外の行動に報いるリアルタイムの要求や即時応答ではなく、時刻表で旅行を予約するだけでなく、日時や場所、乗客などを考慮し、日中定期旅行における移動の流れを捉えることを目的としている。 モビリティ・アズ・ア・サービス(maas:motility as a service)という価値を保持するモビリティ・インタラクションの能力を考慮して、サービス資源とシステム全体の福祉に対する目標指向の行動とケアの規制を提案し、不確実性を最小化する。 スマートシティのプリンシパルエージェント問題は、サービス提供者やユーザ間での集団行動の問題であり、相互システムにおける過去のアクションと反応に基づいて期待を生んでいる。 サービス調整のために計画された行動は、過度の乗車と交通負荷を安定化し、認知的利得を誘導し、情報負荷のバランスをとり、認知的努力を促進することが期待されている。

After a decade of on-demand mobility services that change spatial behaviors in metropolitan areas, the Shared Autonomous Vehicle (SAV) service is expected to increase traffic congestion and unequal access to transport services. A paradigm of scheduled supply that is aware of demand but not on-demand is proposed, introducing coordination and social and behavioral understanding, urban cognition and empowerment of agents, into a novel informational framework. Daily routines and other patterns of spatial behaviors outline a fundamental demand layer in a supply-oriented paradigm that captures urban dynamics and spatial-temporal behaviors, mostly in groups. Rather than real-time requests and instant responses that reward unplanned actions, and beyond just reservation of travels in timetables, the intention is to capture mobility flows in scheduled travels along the day considering time of day, places, passengers etc. Regulating goal-directed behaviors and caring for service resources and the overall system welfare is proposed to minimize uncertainty, considering the capacity of mobility interactions to hold value, i.e., Motility as a Service (MaaS). The principal-agent problem in the smart city is a problem of collective action among service providers and users that create expectations based on previous actions and reactions in mutual systems. Planned behavior that accounts for service coordination is expected to stabilize excessive rides and traffic load, and to induce a cognitive gain, thus balancing information load and facilitating cognitive effort.
翻訳日:2023-03-12 03:51:18 公開日:2023-02-20
# 量子人文科学研究プログラムの紹介:応用

Introducing a Research Program for Quantum Humanities: Applications ( http://arxiv.org/abs/2303.05457v1 )

ライセンス: Link先を確認
Astrid B\"otticher, Zeki C. Seskir, Johannes Ruhland(参考訳) 量子コンピューティングは、量子開発の第2波において急速に発展する分野であり、幅広い産業や研究分野に革命をもたらす可能性がある。 量子コンピュータの能力が進歩し続けるにつれ、社会や私たちの生活、働き方、思考に大きな影響を与える可能性がある。 これにより、様々な分野の学者が集結し、これらの技術の意義を考えることが重要である。 この方法は既に説明されており、共同研究論文に抽象的な形で掲載されている。 しかし、これらの抽象的な理論的なアプローチがどのように実装されるのかは、今のところは示されていない。 この記事はまさにこれを示している。

Quantum computing is a rapidly developing field in the second wave of quantum development, with the potential to revolutionize a wide range of industries and fields of study. As the capabilities of quantum computers continue to advance, they have the potential to significantly impact society and the way we live, work, and think. This makes it important for scholars from a variety of disciplines to come together and consider the implications of these technologies. How this was done has already been explained and published in an abstract way in a joint research paper. But how exactly these abstract theoretical approaches come into an implementation could not be shown so far. The present article shows exactly this.
翻訳日:2023-03-12 03:32:59 公開日:2023-02-20
# 修復に基づく生成モデル

Restoration based Generative Models ( http://arxiv.org/abs/2303.05456v1 )

ライセンス: Link先を確認
Jaemoo Choi, Yesom Park, Myungjoo Kang(参考訳) 近年, 高い合成品質を示すことで, 拡散モデル (DDM) が注目されている。 DDMは拡散プロセス上に構築され、ノイズ分布にデータをプッシュし、モデルはノイズを学習する。 本稿では,画像復元(IR)の観点からDDMの解釈を確立する。 IR文献を統合することで、拡散過程を補うのではなく、別の目的と多様な前進過程を使うことができる。 MAPに基づく推定に基づく損失関数の事前知識を付与することにより,高価なDDMサンプリングの必要性を解消する。 また,前処理の柔軟性を生かして,拡散過程と比較して性能を向上させるマルチスケールトレーニングを提案する。 実験の結果,本モデルはトレーニングと推論の両方の品質と効率を改善した。 さらに, 逆問題に対するモデルの適用性を示す。 当社のフレームワークは、新しいタイプのフレキシブル汎用生成モデルを設計するための道を開くものだと考えています。

Denoising diffusion models (DDMs) have recently attracted increasing attention by showing impressive synthesis quality. DDMs are built on a diffusion process that pushes data to the noise distribution and the models learn to denoise. In this paper, we establish the interpretation of DDMs in terms of image restoration (IR). Integrating IR literature allows us to use an alternative objective and diverse forward processes, not confining to the diffusion process. By imposing prior knowledge on the loss function grounded on MAP-based estimation, we eliminate the need for the expensive sampling of DDMs. Also, we propose a multi-scale training, which improves the performance compared to the diffusion process, by taking advantage of the flexibility of the forward process. Experimental results demonstrate that our model improves the quality and efficiency of both training and inference. Furthermore, we show the applicability of our model to inverse problems. We believe that our framework paves the way for designing a new type of flexible general generative model.
翻訳日:2023-03-12 03:32:50 公開日:2023-02-20
# 266nm超低周波4H-SiC単光子検出器

Free-running 4H-SiC single-photon detector with ultralow afterpulse probability at 266 nm ( http://arxiv.org/abs/2302.14645v1 )

ライセンス: Link先を確認
Chao Yu, Tianyi Li, Xian-Song Zhao, Hai Lu, Rong Zhang, Feihu Xu, Jun Zhang, and Jian-Wei Pan(参考訳) 紫外単一光子検出器(uvspd)は、波長帯の超弱光検出を必要とするアプリケーションにとって重要なツールである。 ここでは, 4H-SiC単光子アバランシェダイオード (SPAD) を用いた自由走行型 UVSPD について報告する。 超低暗電流特性を示す4H-SiC SPADの設計と製造を行った。 さらに、可変ホールドオフ時間設定によるパッシブクエンチ及びアクティブリセットの読み出し回路を開発し、残脈効果を著しく抑制する。 光子検出効率 (pde) の非一様性について, 粒子径180$\sim$180$\mu$mのspad活性領域を横断し, 性能最適化について検討した。 その後、コンパクトUPSPDが特徴となり、典型的な性能は10.3% PDE、133kcpsダークカウントレート、266nmで0.3%アフターパルス確率である。 このような性能は、UVSPDが実用紫外光子計数に使用できることを示している。

Ultraviolet single-photon detector (UVSPD) provides a key tool for the applications requiring ultraweak light detection in the wavelength band. Here, we report a 4H-SiC single-photon avalanche diode (SPAD) based free-running UVSPD with ultralow afterpulse probability. We design and fabricate the 4H-SiC SPAD with a beveled mesa structure, which exhibits the characteristic of ultralow dark current. We further develop a readout circuit of passive quenching and active reset with tunable hold-off time setting to considerably suppress the afterpulsing effect. The nonuniformity of photon detection efficiency (PDE) across the SPAD active area with a diameter of $\sim$ 180 $\mu$m is investigated for performance optimization. The compact UVSPD is then characterized, exhibiting a typical performance of 10.3% PDE, 133 kcps dark count rate and 0.3% afterpulse probability at 266 nm. Such performance indicates that the compact UVSPD could be used for practical ultraviolet photon-counting applications
翻訳日:2023-03-05 05:44:20 公開日:2023-02-20
# 高周波取引における変圧器の利点を探る

Exploring the Advantages of Transformers for High-Frequency Trading ( http://arxiv.org/abs/2302.13850v1 )

ライセンス: Link先を確認
Fazl Barez, Paul Bilokon, Arthur Gervais, Nikita Lisitsyn(参考訳) 本稿では,高頻度bitcoin-usdtログリターン予測のための新しいディープラーニングトランスフォーマーアーキテクチャについて検討し,従来の長期記憶モデルと比較する。 その後、変圧器エンコーダ、線形デコーダ、スパイキングアクティベーション、分位損失関数を内蔵し、位置エンコーディングを使用しない時系列予測のために、ハイブリッドトランスフォーマモデルが導入された。 さらに,貿易規模,取引信号集約,取引閾値の最小化など,HFformerモデルを用いた高周波取引戦略についても論じる。 最終的に、HFformerおよびLong Short-Term Memoryモデルの性能を評価し、その結果、HFformerは、バックテスト中に複数の信号と交換する際にLSTMよりも高い累積PnLを達成することを示す。

This paper explores the novel deep learning Transformers architectures for high-frequency Bitcoin-USDT log-return forecasting and compares them to the traditional Long Short-Term Memory models. A hybrid Transformer model, called \textbf{HFformer}, is then introduced for time series forecasting which incorporates a Transformer encoder, linear decoder, spiking activations, and quantile loss function, and does not use position encoding. Furthermore, possible high-frequency trading strategies for use with the HFformer model are discussed, including trade sizing, trading signal aggregation, and minimal trading threshold. Ultimately, the performance of the HFformer and Long Short-Term Memory models are assessed and results indicate that the HFformer achieves a higher cumulative PnL than the LSTM when trading with multiple signals during backtesting.
翻訳日:2023-03-05 05:43:21 公開日:2023-02-20
# ChatGPT:2.5ヶ月後のメタ分析

ChatGPT: A Meta-Analysis after 2.5 Months ( http://arxiv.org/abs/2302.13795v1 )

ライセンス: Link先を確認
Christoph Leiter, Ran Zhang, Yanran Chen, Jonas Belouadi, Daniil Larionov, Vivian Fresen and Steffen Eger(参考訳) OpenAIが開発したチャットボットChatGPTは、2022年11月の公開以来、広く人気とメディアの注目を集めている。 しかし、様々な情報源でその認識についてはほとんど証拠が得られていない。 本稿では、30万以上のツイートと150以上の科学論文を分析し、ChatGPTがどのように認識され、議論されているかを調べる。 以上の結果から,ChatGPTは,ソーシャルメディアにおいて肯定的な感情や快楽の感情が支配的であり,品質の高いものと見なされている。 しかし、その認識はデビュー以来わずかに減少しており、喜びは減少し、(負の)驚きが増し、英語以外の言語ではより否定的に感じられる。 近年の科学論文では、ChatGPTは医学領域を含む様々な分野における大きな機会として特徴づけられているが、倫理に関する脅威として、教育のための混合評価を受けている。 発表から2.5ヶ月後のChatGPTの認知の包括的メタ分析は、公衆の議論の形成に寄与し、今後の発展に寄与する。 データを利用可能にします。

ChatGPT, a chatbot developed by OpenAI, has gained widespread popularity and media attention since its release in November 2022. However, little hard evidence is available regarding its perception in various sources. In this paper, we analyze over 300,000 tweets and more than 150 scientific papers to investigate how ChatGPT is perceived and discussed. Our findings show that ChatGPT is generally viewed as of high quality, with positive sentiment and emotions of joy dominating in social media. Its perception has slightly decreased since its debut, however, with joy decreasing and (negative) surprise on the rise, and it is perceived more negatively in languages other than English. In recent scientific papers, ChatGPT is characterized as a great opportunity across various fields including the medical domain, but also as a threat concerning ethics and receives mixed assessments for education. Our comprehensive meta-analysis of ChatGPT's current perception after 2.5 months since its release can contribute to shaping the public debate and informing its future development. We make our data available.
翻訳日:2023-03-05 05:43:02 公開日:2023-02-20
# ニューラルネットワークトレーニングにおけるインクリメンタルグレーボックス物理逆攻撃

An Incremental Gray-box Physical Adversarial Attack on Neural Network Training ( http://arxiv.org/abs/2303.01245v1 )

ライセンス: Link先を確認
Rabiah Al-qudah, Moayad Aloqaily, Bassem Ouni, Mohsen Guizani, Thierry Lestable(参考訳) ニューラルネットワークは、様々な分野における複雑なタスクの学習と解決に顕著な成功を収めている。 それでも、現代のコンピューティングにおけるこれらのネットワークの台頭には、敵の攻撃に対する脆弱性に関する懸念が伴っている。 本研究では,ニューラルネットワークのトレーニングプロセスをターゲットにした,グラデーションフリーでグレーボックスのインクリメンタルアタックを提案する。 トレーニング期間の間のトレーニングインスタンスを保持する中間データ構造を暗黙的に毒殺するこの攻撃は、一般的に専門家によって監視されないデータ構造を攻撃することによって、その高いリスク特性を取得する。 そのため、被害を受けたとしても攻撃は気づかない。 さらに、攻撃者はニューラルネットワーク構造やトレーニングデータに関する知識を必要とせずに攻撃を実行でき、より危険になる。 この攻撃は、安全な認知都市、すなわち生体認証の敏感な適用の下でテストされた。 実験の結果,提案した攻撃は有効でステルス性が高いことがわかった。 最後に, 実験結果の損失勾配の符号を正に反転させることで, 騒音, 不安定な訓練が可能であることから, 攻撃の有効性が結論された。 さらに、この攻撃は毒ネットワークの推測確率を、15.37%、14.68%、24.88%、密度ネット、vgg、xceptionでそれぞれ低下させた。 最後に、攻撃は高い有効性にもかかわらずステルス性を維持した。 これは、この攻撃がトレーニング時間において顕著な増加を起こさなかったことに加えて、毒Densenet、VGG、XceptionのFscore値は、それぞれ1.2%、1.9%、および1.5%しか低下しなかったことによる。

Neural networks have demonstrated remarkable success in learning and solving complex tasks in a variety of fields. Nevertheless, the rise of those networks in modern computing has been accompanied by concerns regarding their vulnerability to adversarial attacks. In this work, we propose a novel gradient-free, gray box, incremental attack that targets the training process of neural networks. The proposed attack, which implicitly poisons the intermediate data structures that retain the training instances between training epochs acquires its high-risk property from attacking data structures that are typically unobserved by professionals. Hence, the attack goes unnoticed despite the damage it can cause. Moreover, the attack can be executed without the attackers' knowledge of the neural network structure or training data making it more dangerous. The attack was tested under a sensitive application of secure cognitive cities, namely, biometric authentication. The conducted experiments showed that the proposed attack is effective and stealthy. Finally, the attack effectiveness property was concluded from the fact that it was able to flip the sign of the loss gradient in the conducted experiments to become positive, which indicated noisy and unstable training. Moreover, the attack was able to decrease the inference probability in the poisoned networks compared to their unpoisoned counterparts by 15.37%, 14.68%, and 24.88% for the Densenet, VGG, and Xception, respectively. Finally, the attack retained its stealthiness despite its high effectiveness. This was demonstrated by the fact that the attack did not cause a notable increase in the training time, in addition, the Fscore values only dropped by an average of 1.2%, 1.9%, and 1.5% for the poisoned Densenet, VGG, and Xception, respectively.
翻訳日:2023-03-05 05:35:07 公開日:2023-02-20
# 事前学習した視覚深層ネットワークの異種コミュニティにおける参照コミュニケーション

Referential communication in heterogeneous communities of pre-trained visual deep networks ( http://arxiv.org/abs/2302.08913v2 )

ライセンス: Link先を確認
Mat\'eo Mahaut, Francesca Franzon, Roberto Dess\`i, Marco Baroni(参考訳) ニューラルネットワークは、自動運転車やロボットのような自律エージェントに組み込まれているため、これらのシステムは、異なるアーキテクチャやトレーニング体制にもかかわらず、周囲の世界についてどのように相互に通信できるかという疑問が生まれている。 この方向性の第一歩として,最先端の事前学習済み視覚ネットワークのコミュニティにおける参照コミュニケーションの課題を体系的に検討し,対象画像を参照するための共有プロトコルの開発が可能であることを示す。 このような共有プロトコルは、自己監督的な方法で誘導され、これまで見つからなかった対象のカテゴリについてある程度のコミュニケーションや、元のネットワークに教えられたカテゴリと比較してより細かく区別することができる。 マルチエージェント創発的コミュニケーション研究における共通見解と矛盾するものとして,コミュニケーションに離散的ボトルネックを課すことは,一般的なコードの出現を阻害する。 さらに、新しいニューラルネットワークは、コミュニティ内で開発された共有プロトコルを驚くほど容易に学習でき、元のコミュニティがより大きな異種ネットワークを含む場合、新しいエージェントをコミュニティに統合するプロセスがより安定して成功することを示す。 最後に、オブジェクト分類器をネットワークから他のネットワークへ直接転送することによる共有通信層の開発における独立的な利点を説明し、その創発的特性を質的に定量的に研究する。

As large pre-trained image-processing neural networks are being embedded in autonomous agents such as self-driving cars or robots, the question arises of how such systems can communicate with each other about the surrounding world, despite their different architectures and training regimes. As a first step in this direction, we systematically explore the task of referential communication in a community of state-of-the-art pre-trained visual networks, showing that they can develop a shared protocol to refer to a target image among a set of candidates. Such shared protocol, induced in a self-supervised way, can to some extent be used to communicate about previously unseen object categories, as well as to make more granular distinctions compared to the categories taught to the original networks. Contradicting a common view in multi-agent emergent communication research, we find that imposing a discrete bottleneck on communication hampers the emergence of a general code. Moreover, we show that a new neural network can learn the shared protocol developed in a community with remarkable ease, and the process of integrating a new agent into a community more stably succeeds when the original community includes a larger set of heterogeneous networks. Finally, we illustrate the independent benefits of developing a shared communication layer by using it to directly transfer an object classifier from a network to another, and we qualitatively and quantitatively study its emergent properties.
翻訳日:2023-02-26 14:53:27 公開日:2023-02-20
# PPPML-HMIを用いたパーソナライズおよびプライバシ保護フェデレーションヘテロジニアス画像解析

Personalized and privacy-preserving federated heterogeneous medical image analysis with PPPML-HMI ( http://arxiv.org/abs/2302.11571v1 )

ライセンス: Link先を確認
Juexiao Zhou, Longxi Zhou, Di Wang, Xiaopeng Xu, Haoyang Li, Yuetan Chu, Wenkai Han, Xin Gao(参考訳) 不均一なデータは、医療画像の分野における病院による多様なモデルや機器の設定が原因で固有である。 しかし、既存のモデル構造を変更したり、プライベートデータを共有したりすることなく、パーソナライズとプライバシ保護を同時に行う統合異種医療画像分析のためのオープンソースフレームワークはほとんどない。 本稿では,PPPML-HMIを提案する。PPPML-HMIは,パーソナライズおよびプライバシ保護のためのフェデレーション・ヘテロジニアスな医用画像解析のためのオープンソースの学習パラダイムである。 最善の知識として,perfedavgアルゴリズムの統合とホモモルフィック暗号アルゴリズムによる新しい巡回的セキュアアグリゲーションの設計により,フェデレーションシナリオの下で初めてパーソナライゼーションとプライバシ保護を同時に達成した。 PPPML-HMIの有用性を示すために, RAD-ChestCTデータセットから健康な人や患者を分類するシミュレートされた分類タスクと, COVID-19 CTスキャンから肺感染症を分離する実世界のセグメンテーションタスクに応用した。 実世界のタスクでは、pppml-hmiは不均質なシナリオで従来のflよりも平均で$\sim$5\%高いダイススコアを達成した。 一方, PPPML-HMIでは, 対向攻撃をシミュレートするために, 勾配からの深部リークを改良した。 PPPML-HMIを、異なるニューラルネットワーク、多様なユーザ数、サンプルサイズの両方のタスクに適用することにより、PPPML-HMIの強靭性をさらに証明した。

Heterogeneous data is endemic due to the use of diverse models and settings of devices by hospitals in the field of medical imaging. However, there are few open-source frameworks for federated heterogeneous medical image analysis with personalization and privacy protection simultaneously without the demand to modify the existing model structures or to share any private data. In this paper, we proposed PPPML-HMI, an open-source learning paradigm for personalized and privacy-preserving federated heterogeneous medical image analysis. To our best knowledge, personalization and privacy protection were achieved simultaneously for the first time under the federated scenario by integrating the PerFedAvg algorithm and designing our novel cyclic secure aggregation with the homomorphic encryption algorithm. To show the utility of PPPML-HMI, we applied it to a simulated classification task namely the classification of healthy people and patients from the RAD-ChestCT Dataset, and one real-world segmentation task namely the segmentation of lung infections from COVID-19 CT scans. For the real-world task, PPPML-HMI achieved $\sim$5\% higher Dice score on average compared to conventional FL under the heterogeneous scenario. Meanwhile, we applied the improved deep leakage from gradients to simulate adversarial attacks and showed the solid privacy-preserving capability of PPPML-HMI. By applying PPPML-HMI to both tasks with different neural networks, a varied number of users, and sample sizes, we further demonstrated the strong robustness of PPPML-HMI.
翻訳日:2023-02-24 17:15:55 公開日:2023-02-20
# 反射エントロピーは相関測度ではない

Reflected entropy is not a correlation measure ( http://arxiv.org/abs/2302.10208v1 )

ライセンス: Link先を確認
Patrick Hayden, Marius Lemm, and Jonathan Sorce(参考訳) 明示的な反例により、デュッタとフォークナーによって定義される「反射エントロピー」は部分的トレースの下で単調に減少せず、物理的相関の尺度ではないことを示す。 実際、我々の逆の例では、r\'enyi の反射エントロピー $s_{r}^{(\alpha)}$ for $0 < \alpha < 2$ は相関測度であり、通常の反射エントロピーはこの族の$\alpha=1$ のメンバーとして実現される。 反例は古典的確率分布に対応する量子状態によって与えられるため、反射エントロピーは古典的レベルでも相関を測定することができない。

By explicit counterexample, we show that the "reflected entropy" defined by Dutta and Faulkner is not monotonically decreasing under partial trace, and so is not a measure of physical correlations. In fact, our counterexamples show that none of the R\'enyi reflected entropies $S_{R}^{(\alpha)}$ for $0 < \alpha < 2$ is a correlation measure; the usual reflected entropy is realized as the $\alpha=1$ member of this family. The counterexamples are given by quantum states that correspond to classical probability distributions, so reflected entropy fails to measure correlations even at the classical level.
翻訳日:2023-02-24 17:15:27 公開日:2023-02-20
# 半教師付きグラフニューラルネットワークによる繰り返しMIPの解法

Solving Recurrent MIPs with Semi-supervised Graph Neural Networks ( http://arxiv.org/abs/2302.11992v1 )

ライセンス: Link先を確認
Konstantinos Benidis, Ugo Rosolia, Syama Rangapuram, George Iosifidis, Georgios Paschos(参考訳) 本稿では,変数の値を予測することで,MIPの解を自動化・高速化するMLモデルを提案する。 我々のアプローチは、多くの問題インスタンスが有意な特徴と解構造を共有しているという観察に動機づけられている。 例えば輸送やルーティングといった問題では,コモディティボリュームやリンクコストが変化するたびに,意思決定を再最適化する必要がある。 本手法は,周期的に解くインスタンスのシーケンシャルな性質を利用する最初の方法であり,半教師あり設定で解が得られない場合に ``unlabeled''' インスタンスでトレーニングすることができる。 また,確率的予測を積分解に変換する原理的な方法を提案する。 代表的バイナリMIPを用いた実験のバッテリを用いて、他のMLベースの最適化手法よりもモデルの利点を示す。

We propose an ML-based model that automates and expedites the solution of MIPs by predicting the values of variables. Our approach is motivated by the observation that many problem instances share salient features and solution structures since they differ only in few (time-varying) parameters. Examples include transportation and routing problems where decisions need to be re-optimized whenever commodity volumes or link costs change. Our method is the first to exploit the sequential nature of the instances being solved periodically, and can be trained with ``unlabeled'' instances, when exact solutions are unavailable, in a semi-supervised setting. Also, we provide a principled way of transforming the probabilistic predictions into integral solutions. Using a battery of experiments with representative binary MIPs, we show the gains of our model over other ML-based optimization approaches.
翻訳日:2023-02-24 15:17:39 公開日:2023-02-20
# 人工知能技術と制御方法による2つのマクロ経済モデルにおけるカオス状態の予測と安定化

Forecasting and stabilizing chaotic regimes in two macroeconomic models via artificial intelligence technologies and control methods ( http://arxiv.org/abs/2302.12019v1 )

ライセンス: Link先を確認
Tatyana Alexeeva and Quoc Bao Diep and Nikolay Kuznetsov and Ivan Zelinka(参考訳) 経済における重要な課題の1つは、数学モデルを用いて将来の経済変数の値に対する経済エージェントの期待を予測することである。 数学的モデルの振る舞いはカオスを含む不規則であり、予測力を低下させる。 本稿では,2つの経済モデルの振舞いの状況を調査し,不規則な力学を同定する。 これらのモデルを用いて,不安定周期軌道を安定させカオスダイナミクスを抑制する制御作用を導出するためのピラガス制御法と組み合わせ,進化アルゴリズムと連続的深層q学習法の有効性を示す。 制御の適用前後におけるモデル力学の質的・定量的特性の比較を行い, 数値シミュレーションにより得られた結果の検証を行った。 提案するアプローチは、最大意思決定効率を達成するための経済メカニズムの予測とチューニングの信頼性を向上させることができる。

One of the key tasks in the economy is forecasting the economic agents' expectations of the future values of economic variables using mathematical models. The behavior of mathematical models can be irregular, including chaotic, which reduces their predictive power. In this paper, we study the regimes of behavior of two economic models and identify irregular dynamics in them. Using these models as an example, we demonstrate the effectiveness of evolutionary algorithms and the continuous deep Q-learning method in combination with Pyragas control method for deriving a control action that stabilizes unstable periodic trajectories and suppresses chaotic dynamics. We compare qualitative and quantitative characteristics of the model's dynamics before and after applying control and verify the obtained results by numerical simulation. Proposed approach can improve the reliability of forecasting and tuning of the economic mechanism to achieve maximum decision-making efficiency.
翻訳日:2023-02-24 15:07:42 公開日:2023-02-20
# セキュアなIoT環境のための分散機械学習における機能選択

Harris Hawks Feature Selection in Distributed Machine Learning for Secure IoT Environments ( http://arxiv.org/abs/2302.12205v1 )

ライセンス: Link先を確認
Neveen Hijazi, Moayad Aloqaily, Bassem Ouni, Fakhri Karray, Merouane Debbah(参考訳) IoT(Internet of Things)の開発は、私たちの日常生活を劇的に拡大し、スマートシティやヘルスケア、建物の実現に重要な役割を果たしています。 IoTのような新興技術は、認知都市におけるサービス品質の向上を目指している。 IoTアプリケーションはスマートなビルディングアプリケーションでは有効だが、異種ネットワークを使用した建物内の多数の相互接続デバイスがIoT攻撃の可能性を増大させるため、真のリスクが生じる。 IoTアプリケーションは機密データを収集および転送することができる。 したがって、ハックされたIoTデバイスを検出する新しい方法を開発する必要がある。 本稿では,harris hawks optimization(hho)とrandom weight network(rwn)に基づく機能選択(fs)モデルを提案する。 分散機械学習(DML)は、データを中央サーバに共有することなく、エッジデバイス上でモデルをローカルにトレーニングすることを目的としている。 そこで我々は,集中型および分散型MLモデルを用いて提案手法を適用した。 両方の学習モデルは、iotボットネット攻撃のための2つのベンチマークデータセットで評価され、異なる評価指標を使用して他のよく知られた分類技術と比較される。 実験の結果, 精度, 精度, 記憶率, およびf-測定値において, 精度が向上した。 提案手法は平均F値が99.9\%に達する。 その結果,DMLモデルでは,データをローカルに保持しながら,集中型MLと競合する性能が得られた。

The development of the Internet of Things (IoT) has dramatically expanded our daily lives, playing a pivotal role in the enablement of smart cities, healthcare, and buildings. Emerging technologies, such as IoT, seek to improve the quality of service in cognitive cities. Although IoT applications are helpful in smart building applications, they present a real risk as the large number of interconnected devices in those buildings, using heterogeneous networks, increases the number of potential IoT attacks. IoT applications can collect and transfer sensitive data. Therefore, it is necessary to develop new methods to detect hacked IoT devices. This paper proposes a Feature Selection (FS) model based on Harris Hawks Optimization (HHO) and Random Weight Network (RWN) to detect IoT botnet attacks launched from compromised IoT devices. Distributed Machine Learning (DML) aims to train models locally on edge devices without sharing data to a central server. Therefore, we apply the proposed approach using centralized and distributed ML models. Both learning models are evaluated under two benchmark datasets for IoT botnet attacks and compared with other well-known classification techniques using different evaluation indicators. The experimental results show an improvement in terms of accuracy, precision, recall, and F-measure in most cases. The proposed method achieves an average F-measure up to 99.9\%. The results show that the DML model achieves competitive performance against centralized ML while maintaining the data locally.
翻訳日:2023-02-24 14:12:39 公開日:2023-02-20
# Ti:LiNbO$_3$とポリマー技術に基づく繊維結合型プラグアンドプレイ型単一光子源

Fiber-coupled plug-and-play heralded single photon source based on Ti:LiNbO$_3$ and polymer technology ( http://arxiv.org/abs/2302.10976v1 )

ライセンス: Link先を確認
Christian Kie{\ss}ler (1), Hauke Conradi (2), Moritz Kleinert (2), Viktor Quiring (1), Harald Herrmann (1), Christine Silberhorn (1) ((1) Paderborn University, (2) Fraunhofer HHI Berlin)(参考訳) 信頼できるが費用対効果の高い単一光子状態の生成は、実用的な量子通信システムにとって鍵となる。 実世界のデプロイメントでは、Waveguideソースはファイバネットワークとの最適な互換性を提供し、ハイブリッド統合モジュールに組み込むことができる。 ここでは, 非線形リチウムニオブ酸リチウム導波管をポリマー基板にハイブリッドに統合した, チップサイズで完全に結合したHeralded Single Photon Source (HSPS) モジュールについて述べる。 810nm(信号)と1550nm(イドラー)の光子対は、532nmで励起されたパラメトリックダウンコンバージョンによって生成される。 ペアはポリマー基板に分割され、別々の出力ポートにルーティングされる。 モジュールのサイズは(2 \times 1)\, \mathrm{cm^2}$で、1つの入力ファイバと2つの出力ファイバが完全に結合している。 低ポンプパワーでのヘラルド二次相関関数は$g_h^{(2)}=0.05$であり、ヘラルド効率は$\eta_h=4.5\, \mathrm{\%}$である。

A reliable, but cost-effective generation of single-photon states is key for practical quantum communication systems. For real-world deployment, waveguide sources offer optimum compatibility with fiber networks and can be embedded in hybrid integrated modules. Here, we present the first chip-size fully integrated fiber-coupled Heralded Single Photon Source (HSPS) module based on a hybrid integration of a nonlinear lithium niobate waveguide into a polymer board. Photon pairs at 810nm (signal) and 1550nm (idler) are generated via parametric down-conversion pumped at 532nm in the $\mathrm{LiNbO_3}$ waveguide. The pairs are splitted in the polymer board and routed to separate output ports. The module has a size of $(2 \times 1)\, \mathrm{cm^2}$ and is fully fiber-coupled with one pump input fiber and two output fibers. We measure a heralded second-order correlation function of $g_h^{(2)}=0.05$ with a heralding efficiency of $\eta_h=4.5\, \mathrm{\%}$ at low pump powers.
翻訳日:2023-02-23 17:11:24 公開日:2023-02-20
# 思考推論理論による多エージェント逆強化学習

Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning ( http://arxiv.org/abs/2302.10238v1 )

ライセンス: Link先を確認
Haochen Wu, Pedro Sequeira, David V. Pynadath(参考訳) 特に個人がチームメイトについてほとんど知らない状況において、人々がどのように相互作用するかを理解するために、Multiagent Inverse Reinforcement Learning (MIRL)は、タスクパフォーマンス中の各チームの振る舞いの与えられた軌跡を導く報酬関数を推論することを目的としている。 現在のmirlのアプローチとは異なり、チームメンバはお互いのゴールを優先的に知っていると仮定しており、その代わりに、タスクを共同で実行しながら、自分の行動を観察することで認識される他者のゴールに適応することで協力する。 この問題に対処するために,MIRL-ToM(Theory of Mind)を用いた新しいアプローチを提案する。 各エージェントに対して、まずToM推論を用いて、その動作が実証された場合のベースライン報酬プロファイルの後方分布を推定する。 次に,単一エージェントの最大エントロピーirlを用いて,各エージェントに対する報酬関数を推定し,プロファイル上の時間変動分布に応じて他のチームメイトの挙動をシミュレートする。 本研究は,エージェントの目的が環境中の被害者を探索・避難させることを目標とした,シミュレーション2人探索救助作戦におけるアプローチを評価する。 その結果、ベースラインプロファイルの選択は、基礎的な報酬の回収に最重要であり、mirl-tomは、既知のチームメイトまたは未知のチームメイトと相互作用するエージェントが使用する報酬を回収することができる。

To understand how people interact with each other in collaborative settings, especially in situations where individuals know little about their teammates, Multiagent Inverse Reinforcement Learning (MIRL) aims to infer the reward functions guiding the behavior of each individual given trajectories of a team's behavior during task performance. Unlike current MIRL approaches, team members \emph{are not} assumed to know each other's goals a priori, rather they collaborate by adapting to the goals of others perceived by observing their behavior, all while jointly performing a task. To address this problem, we propose a novel approach to MIRL via Theory of Mind (MIRL-ToM). For each agent, we first use ToM reasoning to estimate a posterior distribution over baseline reward profiles given their demonstrated behavior. We then perform MIRL via decentralized equilibrium by employing single-agent Maximum Entropy IRL to infer a reward function for each agent, where we simulate the behavior of other teammates according to the time-varying distribution over profiles. We evaluate our approach in a simulated 2-player search-and-rescue operation where the goal of the agents, playing different roles, is to search for and evacuate victims in the environment. Results show that the choice of baseline profiles is paramount to the recovery of ground-truth rewards, and MIRL-ToM is able to recover the rewards used by agents interacting with either known and unknown teammates.
翻訳日:2023-02-22 17:29:53 公開日:2023-02-20
# シリコン中のキャビティ強化単一人工原子

Cavity-enhanced single artificial atoms in silicon ( http://arxiv.org/abs/2302.10230v1 )

ライセンス: Link先を確認
Valeria Saggio, Carlos Errando-Herranz, Samuel Gyger, Christopher Panuski, Mihika Prabhu, Lorenzo De Santis, Ian Christen, Dalia Ornelas-Huerta, Hamza Raniwala, Connor Gerlach, Marco Colangelo, Dirk Englund(参考訳) 固体中の人工原子は、長寿命スピンとモバイルおよび堅牢なフォトニック量子ビットを組み合わせた量子ネットワーク、スケーラブルな量子コンピューティング、センシングの有力候補である。 これらのシステムの中心にあるスピン-光子界面の中心的な要件は、長いスピンコヒーレンス時間と通信波長での効率的なスピン-光子結合である。 シリコンの人工原子は、シリコンのスピンの長いコヒーレンス時間と、世界で最も先進的なマイクロエレクトロニクスおよびフォトニクスプラットフォームの通信波長光子を結合するユニークなポテンシャルを持っている。 しかし、現在のボトルネックは自然に弱い人工原子の放出速度である。 オープンな課題は、光学キャビティとのカップリングによってこの相互作用を強化することである。 ここでは、シリコンの共振波長における空洞強化単一人工原子を実証する。 逆設計によりフォトニック結晶空洞を最適化し,電気通信用oバンドにおける単一g中心のキャビティ結合性を示す。 以上の結果から, シリコンのスピン光子界面を通信波長で実現し, スケーラブルな量子情報処理への道を開く可能性を示す。

Artificial atoms in solids are leading candidates for quantum networks, scalable quantum computing, and sensing, as they combine long-lived spins with mobile and robust photonic qubits. The central requirements for the spin-photon interface at the heart of these systems are long spin coherence times and efficient spin-photon coupling at telecommunication wavelengths. Artificial atoms in silicon have a unique potential to combine the long coherence times of spins in silicon with telecommunication wavelength photons in the world's most advanced microelectronics and photonics platform. However, a current bottleneck is the naturally weak emission rate of artificial atoms. An open challenge is to enhance this interaction via coupling to an optical cavity. Here, we demonstrate cavity-enhanced single artificial atoms at telecommunication wavelengths in silicon. We optimize photonic crystal cavities via inverse design and show controllable cavity-coupling of single G-centers in the telecommunications O-band. Our results illustrate the potential to achieve a deterministic spin-photon interface in silicon at telecommunication wavelengths, paving the way for scalable quantum information processing.
翻訳日:2023-02-22 17:29:25 公開日:2023-02-20
# 非線形シュリンガー方程式の観点からみたガウス波束力学法の一家系

Family of Gaussian wavepacket dynamics methods from the perspective of a nonlinear Schr\"odinger equation ( http://arxiv.org/abs/2302.10221v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Van\'i\v{c}ek(参考訳) 時間依存schr\"odinger方程式の多くの近似解は、系の状態に依存する効果的なハミルトニアン作用素を持つ非線形schr\"odinger方程式の厳密解として定式化することができる。 Heller の元々のソードガウス近似や Coalson や Karplus の変分ガウス近似のようなよく知られたガウス波束力学法が、実効ポテンシャルが状態依存係数を持つ二次多項式である場合、この枠組みに適合することを示す。 特に、ガウスのパラメータの一般運動方程式を導出し、時間の可逆性とノルム保存を実証し、エネルギー、有効エネルギー、シンプレクティック構造の保存を解析する。 また、この非線形シュリンガー方程式の数値解の時間ステップにおいて、任意の偶数の精度の効率的な幾何積分器を記述する。 一般表現は、変分および非変量解法および凍結ガウス近似を含むガウス波束力学のこのファミリーの例と、大域調和、局所調和、単一ヘッシアン、局所立方体、ポテンシャルエネルギーの単一四次近似に基づくこれらの方法の特別な極限によって示される。 提案手法はコストを大幅に増加させることなく,局所的な立方体近似よりも精度を向上させるとともに,より高価な局所的四量体近似とは対照的に,有効エネルギーとシンプレクティック構造の両方を保存できる。 ほとんどの結果は、ガウス波束のヘラーとヘッジルンのパラメトリゼーションで示される。

Many approximate solutions of the time-dependent Schr\"odinger equation can be formulated as exact solutions of a nonlinear Schr\"odinger equation with an effective Hamiltonian operator depending on the state of the system. We show that several well-known Gaussian wavepacket dynamics methods, such as Heller's original thawed Gaussian approximation or Coalson and Karplus's variational Gaussian approximation, fit into this framework if the effective potential is a quadratic polynomial with state-dependent coefficients. We study such a nonlinear Schr\"odinger equation in general: in particular, we derive general equations of motion for the Gaussian's parameters, demonstrate the time reversibility and norm conservation, and analyze conservation of the energy, effective energy, and symplectic structure. We also describe efficient geometric integrators of arbitrary even orders of accuracy in the time step for the numerical solution of this nonlinear Schr\"odinger equation. The general presentation is illustrated by examples of this family of Gaussian wavepacket dynamics, including the variational and nonvariational thawed and frozen Gaussian approximations, and special limits of these methods based on the global harmonic, local harmonic, single-Hessian, local cubic, and single quartic approximations for the potential energy. Without substantially increasing the cost, the proposed single quartic variational thawed Gaussian wavepacket dynamics improves the accuracy over the local cubic approximation and, at the same time, conserves both the effective energy and symplectic structure, in contrast to the much more expensive local quartic approximation. Most results are presented in both Heller's and Hagedorn's parametrizations of the Gaussian wavepacket.
翻訳日:2023-02-22 17:29:12 公開日:2023-02-20
# 量子コンピュータ上でのボソニックおよびフェルミオン相関関数のシミュレーションのための線形応答フレームワーク

A linear response framework for simulating bosonic and fermionic correlation functions illustrated on quantum computers ( http://arxiv.org/abs/2302.10219v1 )

ライセンス: Link先を確認
Efekan K\"okc\"u, Heba A. Labib, J. K. Freericks, and Alexander F. Kemper(参考訳) 応答関数は物理学の基本的な側面であり、実験的な観測と基礎となる量子多体状態の関係を表す。 しかし、線形反応における応答関数を得るリーマン形式主義は実験に直接関連しないため、このリンクはしばしば過小評価される。 量子コンピューティングの文脈において、線形応答フレームワークを用いて、実験を量子シミュレーションの一部とすることで、このリンクを復元する。 この方法は周波数と運動量選択性があり、直接測定できる演算子の制限を避け、アンシラフリーである。 応答関数の原型例として、ボゾンとフェルミオングリーンの両方の関数が得られ、これらのアイデアをibm_auckland上の電荷密度波材料の研究に適用する。 線形応答法は、量子コンピュータを用いて物理と化学のシステムを研究するための堅牢なフレームワークを提供する。 また、古典コンピュータ上で応答関数を計算するための新しいパラダイムを提供する。

Response functions are a fundamental aspect of physics; they represent the link between experimental observations and the underlying quantum many-body state. However, this link is often under-appreciated, as the Lehmann formalism for obtaining response functions in linear response has no direct link to experiment. Within the context of quantum computing, and by using a linear response framework, we restore this link by making the experiment an inextricable part of the quantum simulation. This method can be frequency- and momentum-selective, avoids limitations on operators that can be directly measured, and is ancilla-free. As prototypical examples of response functions, we demonstrate that both bosonic and fermionic Green's functions can be obtained, and apply these ideas to the study of a charge-density-wave material on ibm_auckland. The linear response method provides a robust framework for using quantum computers to study systems in physics and chemistry. It also provides new paradigms for computing response functions on classical computers.
翻訳日:2023-02-22 17:28:43 公開日:2023-02-20
# ChatGPTを用いたチャットによるゼロショット情報抽出

Zero-Shot Information Extraction via Chatting with ChatGPT ( http://arxiv.org/abs/2302.10205v1 )

ライセンス: Link先を確認
Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, Jinan Xu, Yufeng Chen, Meishan Zhang, Yong Jiang, and Wenjuan Han(参考訳) ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。 人間の介入がほとんどないため、これは難しい。 価値はあるものの、ゼロショットIEはデータのラベル付けにかかる時間と労力を減らす。 大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定における有望なパフォーマンスを示しており、プロンプトベースの手法を探求するきっかけとなっている。 本研究では,LLMを直接的に推進することで,強力なIEモデルを構築できるかどうかを問う。 具体的には、ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。 本稿では,ChatGPTの力により,エンティティリレーショントリプル抽出,名前付きエンティティ認識,イベント抽出という3つのIEタスクの枠組みを広く評価する。 2つの言語にわたる6つのデータセットの実証的な結果から、ChatIEは印象的なパフォーマンスを実現し、いくつかのデータセット(例えばNYT11-HRL)のフルショットモデルを超えている。 私たちは、限られたリソースでIEモデルを構築することに注力できると考えています。

Zero-shot information extraction (IE) aims to build IE systems from the unannotated text. It is challenging due to involving little human intervention. Challenging but worthwhile, zero-shot IE reduces the time and effort that data labeling takes. Recent efforts on large language models (LLMs, e.g., GPT-3, ChatGPT) show promising performance on zero-shot settings, thus inspiring us to explore prompt-based methods. In this work, we ask whether strong IE models can be constructed by directly prompting LLMs. Specifically, we transform the zero-shot IE task into a multi-turn question-answering problem with a two-stage framework (ChatIE). With the power of ChatGPT, we extensively evaluate our framework on three IE tasks: entity-relation triple extract, named entity recognition, and event extraction. Empirical results on six datasets across two languages show that ChatIE achieves impressive performance and even surpasses some full-shot models on several datasets (e.g., NYT11-HRL). We believe that our work could shed light on building IE models with limited resources.
翻訳日:2023-02-22 17:28:25 公開日:2023-02-20
# iot都市シナリオにおけるモバイル医療監視システムの効率的なマイクロデータセンタ展開

Efficient micro data centres deployment for mobile healthcare monitoring systems in IoT urban scenarios ( http://arxiv.org/abs/2302.10201v1 )

ライセンス: Link先を確認
Kevin Henares, Jos\'e L. Risco-Mart\'in, Jos\'e L Ayala, Rom\'an Hermida(参考訳) 過去10年間で、モノのインターネット(Internet of Things)パラダイムは、コネクテッドデバイスの数を大幅に増加させました。 このトレンドは、インターネットを日々のアクティビティに近づけ、さまざまなサービスやアプリケーションの作成や改善に使用できるデータ収集を可能にします。 その大きなメリットにもかかわらず、このパラダイムにはいくつかの課題もある。 これらすべてのデバイスを運用するには、より強力なストレージと処理能力が必要である。 さらに、これらのリソースを効率的にサポートするためのインフラストラクチャのデプロイと管理の必要性は、依然として課題である。 モデリングとシミュレーションはこれらのシナリオを設計し分析するのに役立ち、異なる戦略やインフラを研究し比較するための柔軟で強力なメカニズムを提供する。 このシナリオでは、micro data center(mdcs)を、圧倒的なクラウドデータセンタインフラストラクチャを削減する効果的な方法として使用できる。 本稿では、医療用IoTシナリオの全体的な消費電力を研究するためのM\&S方法論について検討する。 患者は定期的にMDCで実行されるタスクを生成する非侵襲的な監視装置を装着する。 既存の都市インフラのレイアウトを抽出し,監視対象住民の挙動をシミュレートし,複数のデータセンター構成の消費電力を比較した。

In the last decade, the Internet of Things paradigm has caused an exponential increase in the number of connected devices. This trend brings the Internet closer to everyday activities and enables data collection that can be used to create and improve a great variety of services and applications. Despite its great benefits, this paradigm also comes with several challenges. More powerful storage and processing capabilities are required to service all these devices. Additionally, the need to deploy and manage the infrastructure to efficiently support these resources continues to pose a challenge. Modeling and simulation can help to design and analyze these scenarios, providing flexible and powerful mechanisms to study and compare different strategies and infrastructures. In this scenario, Micro Data Centers (MDCs) can be used as an effective way of reducing overwhelmed Cloud Data Center infrastructures. This paper explores an M\&S methodology to study the overall power consumption of a healthcare IoT scenario. The patients wear non-intrusive monitoring devices that periodically generate tasks to be executed in MDCs. We extract the layout of existing urban infrastructures, simulate the monitored population's behavior, and compare the power consumption of several data center configurations.
翻訳日:2023-02-22 17:28:05 公開日:2023-02-20
# 深部画像先行空間における高速・無痛画像再構成

Fast and Painless Image Reconstruction in Deep Image Prior Subspaces ( http://arxiv.org/abs/2302.10279v1 )

ライセンス: Link先を確認
Riccardo Barbano, Javier Antor\'an, Johannes Leuschner, Jos\'e Miguel Hern\'andez-Lobato, \v{Z}eljko Kereta, Bangti Jin(参考訳) deep image prior (dip) は、画像の線形逆問題を解くための最先端の非教師なしアプローチである。 DIPの実践的な展開を妨げた2つの重要な問題に対処する: 再構成毎に個別のディープネットワークをトレーニングするのに要する長いコンピューティング時間と、教師なし環境での堅牢な早期停止戦略の欠如により過度に適合する可能性。 この目的のために、ディップ最適化を全パラメータ空間のスパース線型部分空間に制限する。 合成タスク非依存データに対するディップ事前学習中に等間隔でサンプリングされたパラメータベクトルの集合の主固有空間から部分空間を構成する。 結果として生じる部分空間の低次元性は、DIPのノイズに適合する容量を減少させ、例えば自然勾配降下やL-BFGSのような高速な2階最適化手法を使用できる。 異なる幾何学、不適切性、停止基準のトモグラフィータスクにおける実験は、部分空間における二階最適化が、再構成忠実性トレードオフに対する最適化時間の観点からパレート最適化であることを示している。

The deep image prior (DIP) is a state-of-the-art unsupervised approach for solving linear inverse problems in imaging. We address two key issues that have held back practical deployment of the DIP: the long computing time needed to train a separate deep network per reconstruction, and the susceptibility to overfitting due to a lack of robust early stopping strategies in the unsupervised setting. To this end, we restrict DIP optimisation to a sparse linear subspace of the full parameter space. We construct the subspace from the principal eigenspace of a set of parameter vectors sampled at equally spaced intervals during DIP pre-training on synthetic task-agnostic data. The low-dimensionality of the resulting subspace reduces DIP's capacity to fit noise and allows the use of fast second order optimisation methods, e.g., natural gradient descent or L-BFGS. Experiments across tomographic tasks of different geometry, ill-posedness and stopping criteria consistently show that second order optimisation in a subspace is Pareto-optimal in terms of optimisation time to reconstruction fidelity trade-off.
翻訳日:2023-02-22 17:21:41 公開日:2023-02-20
# カーネル関数が畳み込みニューラルネットワークに与える影響

Kernel function impact on convolutional neural networks ( http://arxiv.org/abs/2302.10266v1 )

ライセンス: Link先を確認
M.Amine Mahmoudi, Aladine Chetouani, Fatma Boufera, Hedi Tabia(参考訳) 本稿では,畳み込みニューラルネットワークの異なる層におけるカーネル関数の利用について検討する。 我々は, 畳み込み層, プール層, および完全連結層への影響について詳細な研究を行う。 我々は、線形カーネルが入力データ分布に適合するには十分ではないかもしれないことに気付き、一方高次カーネルは過剰フィッティングを起こしやすい。 この結果、複雑性とパフォーマンスのトレードオフが達成されるべきだと結論付けている。 カーネル関数を効果的に活用する方法を示し、より歪みに敏感なプール層を導入し、後続のレイヤに供給される情報の大半を追跡しながら過度に適合する情報を減らす。 さらに,完全連結層を置き換え,高次特徴的相互作用をキャプチャするカーネル化高密度層(kdl)を提案する。 従来の分類データセットであるMNIST, FASHION-MNIST, CIFAR-10では, 従来の畳み込み, プール, 完全連結層に比べてネットワーク性能が向上した。 さらに,詳細な分類,すなわちraf-db,fer2013,expwを用いた実験により,ネットワークの識別能力が向上していることが示される。

This paper investigates the usage of kernel functions at the different layers in a convolutional neural network. We carry out extensive studies of their impact on convolutional, pooling and fully-connected layers. We notice that the linear kernel may not be sufficiently effective to fit the input data distributions, whereas high order kernels prone to over-fitting. This leads to conclude that a trade-off between complexity and performance should be reached. We show how one can effectively leverage kernel functions, by introducing a more distortion aware pooling layers which reduces over-fitting while keeping track of the majority of the information fed into subsequent layers. We further propose Kernelized Dense Layers (KDL), which replace fully-connected layers, and capture higher order feature interactions. The experiments on conventional classification datasets i.e. MNIST, FASHION-MNIST and CIFAR-10, show that the proposed techniques improve the performance of the network compared to classical convolution, pooling and fully connected layers. Moreover, experiments on fine-grained classification i.e. facial expression databases, namely RAF-DB, FER2013 and ExpW demonstrate that the discriminative power of the network is boosted, since the proposed techniques improve the awareness to slight visual details and allows the network reaching state-of-the-art results.
翻訳日:2023-02-22 17:21:24 公開日:2023-02-20
# 費用対効果医療診断のための深層強化学習

Deep Reinforcement Learning for Cost-Effective Medical Diagnosis ( http://arxiv.org/abs/2302.10261v1 )

ライセンス: Link先を確認
Zheng Yu, Yikuan Li, Joseph Kim, Kaixuan Huang, Yuan Luo, Mengdi Wang(参考訳) 医療検査の費用や時間を要する場合には、動的診断が望ましい。 本研究では,強化学習(rl)を用いて,過去の観測に基づいて連続的にラボテストパネルを選択し,低コストで正確なテストを実現する動的ポリシを提案する。 臨床診断データは非常に不均衡な場合が多いため,誤差率の代わりにF_1$スコアを最大化することを目指している。 しかし、$F_1$スコアを最適化することは古典的なRL問題ではなく、標準のRLメソッドを無効にする。 この問題を改善するため,我々は,予算制約付き$f_1$スコアの属性と政策最適化の二重性を活用した報酬形成手法を開発し,予算制約付き$f_1$スコア最大化のためのパレート最適政策のセットを確実に見つける。 複合的な状態空間を扱うために,エンド・ツー・エンドのトレーニングやオンライン学習と互換性のあるセミモデルに基づく深層診断ポリシー最適化(SM-DDPO)フレームワークを提案する。 SM-DDPOは、フェリチン異常検出、敗血症死亡予測、急性腎障害の診断など、様々な臨床的タスクでテストされている。 実世界のデータを用いた実験では、SM-DDPOは効率よくトレーニングし、全てのPareto-frontソリューションを識別する。 全てのタスクにおいて、SM-DDPOは最先端の診断精度(場合によっては従来の方法よりも高い場合)を最大8,5\%のコストで達成することができる。 コードは[https://github.com/Zheng321/Blood_Panel]で入手できる。

Dynamic diagnosis is desirable when medical tests are costly or time-consuming. In this work, we use reinforcement learning (RL) to find a dynamic policy that selects lab test panels sequentially based on previous observations, ensuring accurate testing at a low cost. Clinical diagnostic data are often highly imbalanced; therefore, we aim to maximize the $F_1$ score instead of the error rate. However, optimizing the non-concave $F_1$ score is not a classic RL problem, thus invalidates standard RL methods. To remedy this issue, we develop a reward shaping approach, leveraging properties of the $F_1$ score and duality of policy optimization, to provably find the set of all Pareto-optimal policies for budget-constrained $F_1$ score maximization. To handle the combinatorially complex state space, we propose a Semi-Model-based Deep Diagnosis Policy Optimization (SM-DDPO) framework that is compatible with end-to-end training and online learning. SM-DDPO is tested on diverse clinical tasks: ferritin abnormality detection, sepsis mortality prediction, and acute kidney injury diagnosis. Experiments with real-world data validate that SM-DDPO trains efficiently and identifies all Pareto-front solutions. Across all tasks, SM-DDPO is able to achieve state-of-the-art diagnosis accuracy (in some cases higher than conventional methods) with up to $85\%$ reduction in testing cost. The code is available at [https://github.com/Zheng321/Blood_Panel].
翻訳日:2023-02-22 17:21:03 公開日:2023-02-20
# DIETにおける教師なし学習:自己スーパービジョン、再構築、プロジェクタヘッドの目的としてのDatum IndEx

Unsupervised Learning on a DIET: Datum IndEx as Target Free of Self-Supervision, Reconstruction, Projector Head ( http://arxiv.org/abs/2302.10260v1 )

ライセンス: Link先を確認
Randall Balestriero(参考訳) 安価で信頼性が高く、転送可能なモデルを学びたいのであれば、コストが高く、うるさく、専門的なラベルは、教師なし学習に置き換えるべきです。 その目的のために、スペクトル埋め込み、自己教師付き学習、もしくは生成モデリングは競争力のあるソリューションを提供してきた。 これらの手法には、測地距離の推定、プロジェクタアーキテクチャの指定、反崩壊損失、デコーダアーキテクチャの指定、再構築損失など、多くの課題がある。 対照的に、ラベルのないデータから表現を学習するために、簡単な説明可能な代替手段 --textbf{DIET} を導入します。 お気に入りの分類設定を取り、 \textbf{D}atum \textbf{I}nd\textbf{E}x を \textbf{T}arget クラスとして使用する。 \textbf{DIET}はデコーダ/プロジェクタネットワークなしで動作し、肯定的なペアや再構成をベースとせず、ハイパーパラメータを導入せず、データセットやアーキテクチャをまたいだアウト・オブ・ボックスで動作する。 \textbf{DIET} の単純さにもかかわらず、学習された表現は高品質であり、DIET の学習された表現の上の線形分類器を使った最先端の \textit{e.g.} と同等であり、Resnet101 で CIFAR100 で 71.4\% 、Resnext50 で TinyImagenet で 52.5\% となる。

Costly, noisy, and over-specialized, labels are to be set aside in favor of unsupervised learning if we hope to learn cheap, reliable, and transferable models. To that end, spectral embedding, self-supervised learning, or generative modeling have offered competitive solutions. Those methods however come with numerous challenges \textit{e.g.} estimating geodesic distances, specifying projector architectures and anti-collapse losses, or specifying decoder architectures and reconstruction losses. In contrast, we introduce a simple explainable alternative -- coined \textbf{DIET} -- to learn representations from unlabeled data, free of those challenges. \textbf{DIET} is blatantly simple: take one's favorite classification setup and use the \textbf{D}atum \textbf{I}nd\textbf{E}x as its \textbf{T}arget class, \textit{i.e. each sample is its own class}, no further changes needed. \textbf{DIET} works without a decoder/projector network, is not based on positive pairs nor reconstruction, introduces no hyper-parameters, and works out-of-the-box across datasets and architectures. Despite \textbf{DIET}'s simplicity, the learned representations are of high-quality and often on-par with the state-of-the-art \textit{e.g.} using a linear classifier on top of DIET's learned representation reaches $71.4\%$ on CIFAR100 with a Resnet101, $52.5\%$ on TinyImagenet with a Resnext50.
翻訳日:2023-02-22 17:20:37 公開日:2023-02-20
# 因果規則化を伴うニューラルアルゴリズム推論

Neural Algorithmic Reasoning with Causal Regularisation ( http://arxiv.org/abs/2302.10258v1 )

ライセンス: Link先を確認
Beatrice Bevilacqua, Kyriacos Nikiforou, Borja Ibarz, Ioana Bica, Michela Paganini, Charles Blundell, Jovana Mitrovic, Petar Veli\v{c}kovi\'c(参考訳) ニューラルアルゴリズム推論に関する最近の研究は、ニューラルネットワークの推論能力を調査し、列車の分布から得られる見えないデータの古典的アルゴリズムを効果的に実行できることを実証している。 しかし、既存のニューラル推論の性能は、入力がより大きなサイズを持つout-of-distribution(ood)テストデータで著しく低下する。 この研究では、アルゴリズムが特定の中間計算を行う多くの \emph{different} 入力が存在するという重要な観察を行う。 この洞察によって、アルゴリズムの中間軌道が与えられると、ターゲットアルゴリズムが次の軌道ステップで \emph{exactly} を持つ入力を生成するデータ拡張手順を開発することができます。 次に, 自己教師付き目標の設計に因果的枠組みを用い, 推論者のood一般化能力を向上させることを証明した。 提案手法をclrsアルゴリズム推論ベンチマークで評価し,oodテストデータに対して最大3$\times$改善を行った。

Recent work on neural algorithmic reasoning has investigated the reasoning capabilities of neural networks, effectively demonstrating they can learn to execute classical algorithms on unseen data coming from the train distribution. However, the performance of existing neural reasoners significantly degrades on out-of-distribution (OOD) test data, where inputs have larger sizes. In this work, we make an important observation: there are many \emph{different} inputs for which an algorithm will perform certain intermediate computations \emph{identically}. This insight allows us to develop data augmentation procedures that, given an algorithm's intermediate trajectory, produce inputs for which the target algorithm would have \emph{exactly} the same next trajectory step. Then, we employ a causal framework to design a corresponding self-supervised objective, and we prove that it improves the OOD generalisation capabilities of the reasoner. We evaluate our method on the CLRS algorithmic reasoning benchmark, where we show up to 3$\times$ improvements on the OOD test data.
翻訳日:2023-02-22 17:20:00 公開日:2023-02-20
# NeuralStagger: 時空間分解を伴う物理制約型ニューラルPDEソルバ

NeuralStagger: accelerating physics-constrained neural PDE solver with spatial-temporal decomposition ( http://arxiv.org/abs/2302.10255v1 )

ライセンス: Link先を確認
Xinquan Huang, Wenlei Shi, Qi Meng, Yue Wang, Xiaotian Gao, Jia Zhang, Tie-Yan Liu(参考訳) ニューラルネットワークは偏微分方程式(PDE)の解を加速する大きな可能性を示している。 近年、コストのかかるデータの使用を減らし、一般化能力を向上させるために、ニューラルネットワークPDEソルバのトレーニングに物理制約を導入することへの関心が高まっている。 しかし、これらの物理制約は関数空間上の有限次元近似に基づいており、シミュレーションの精度と安定性を確保するために最小のスケール物理学を解決し、大きな入力、出力、ニューラルネットワークの計算コストが高くなる。 本稿では,元の学習タスクを複数の粗いサブタスクに空間的および時間的に分解することにより,neuralstaggerと呼ばれる一般的な加速度法を提案する。 計算資源の少ないサブタスク毎に粗分解能ニューラルソルバを定義し、元の解を再構成するために出力をアレンジするだけでバニラ物理制約による損失を共同で訓練する。 それらの間の完全な並列性のため、解法は粗分解性ニューラルソルバと同じくらい早く達成される。 さらに、訓練されたソルバは、複数のレベルの解像度でシミュレートする柔軟性をもたらす。 2次元および3次元流体力学シミュレーションにおけるneuralstaggerの応用の成功を実証し、さらに$10\sim100\times$のスピードアップを実現する。 さらに,実験結果から,学習モデルが最適制御に有効であることが示唆された。

Neural networks have shown great potential in accelerating the solution of partial differential equations (PDEs). Recently, there has been a growing interest in introducing physics constraints into training neural PDE solvers to reduce the use of costly data and improve the generalization ability. However, these physics constraints, based on certain finite dimensional approximations over the function space, must resolve the smallest scaled physics to ensure the accuracy and stability of the simulation, resulting in high computational costs from large input, output, and neural networks. This paper proposes a general acceleration methodology called NeuralStagger by spatially and temporally decomposing the original learning tasks into several coarser-resolution subtasks. We define a coarse-resolution neural solver for each subtask, which requires fewer computational resources, and jointly train them with the vanilla physics-constrained loss by simply arranging their outputs to reconstruct the original solution. Due to the perfect parallelism between them, the solution is achieved as fast as a coarse-resolution neural solver. In addition, the trained solvers bring the flexibility of simulating with multiple levels of resolution. We demonstrate the successful application of NeuralStagger on 2D and 3D fluid dynamics simulations, which leads to an additional $10\sim100\times$ speed-up. Moreover, the experiment also shows that the learned model could be well used for optimal control.
翻訳日:2023-02-22 17:19:42 公開日:2023-02-20
# トランスファーラーニングによるディープニューラルネットワークの多目的進化pruningとその性能とロバスト性向上

Multiobjective Evolutionary Pruning of Deep Neural Networks with Transfer Learning for improving their Performance and Robustness ( http://arxiv.org/abs/2302.10253v1 )

ライセンス: Link先を確認
Javier Poyatos, Daniel Molina, Aitor Mart\'inez, Javier Del Ser, Francisco Herrera(参考訳) 進化的計算アルゴリズムは、アーキテクチャ、ハイパーパラメータ、トレーニング構成に関連する最適化問題を解くために使われており、今日のニューラルアーキテクチャ探索として知られる分野を鍛造している。 これらのアルゴリズムは、ネットワークの複雑さを減らすニューラルネットワークのプルーニングや、目の前のものに関連する別の問題から知識をインポートするTransfer Learningといった他の手法と組み合わせられている。 進化的提案の品質を評価するためのいくつかの基準の使用は、ネットワークのパフォーマンスと複雑さが最もよく使われる基準である、一般的なケースでもある。 本研究は多目的進化解析アルゴリズムMO-EvoPruneDeepTLを提案する。 遺伝的アルゴリズムによって進化した疎層に置き換えることで、ネットワークのパフォーマンス、複雑性、堅牢性に基づく進化を導いてくれる。 提案の利点を評価するために,複数のデータセットを用いて異なる実験を行った。 その結果,提案手法はすべての目的において有望な結果が得られ,その間に直接関係が提示されることがわかった。 実験の結果、最も影響力のあるニューロンは、入力画像のどの部分がプルーンドニューラルネットワークの予測に最も関連しているかを説明するのに役立ちます。 最後に,提案手法によるプルーニングパターンのパレートフロントにおける多様性を活かし,異なるプルーニングモデルのアンサンブルによって,トレーニングされたネットワーク全体の性能と頑健性が向上することを示す。

Evolutionary Computation algorithms have been used to solve optimization problems in relation with architectural, hyper-parameter or training configuration, forging the field known today as Neural Architecture Search. These algorithms have been combined with other techniques such as the pruning of Neural Networks, which reduces the complexity of the network, and the Transfer Learning, which lets the import of knowledge from another problem related to the one at hand. The usage of several criteria to evaluate the quality of the evolutionary proposals is also a common case, in which the performance and complexity of the network are the most used criteria. This work proposes MO-EvoPruneDeepTL, a multi-objective evolutionary pruning algorithm. \proposal uses Transfer Learning to adapt the last layers of Deep Neural Networks, by replacing them with sparse layers evolved by a genetic algorithm, which guides the evolution based in the performance, complexity and robustness of the network, being the robustness a great quality indicator for the evolved models. We carry out different experiments with several datasets to assess the benefits of our proposal. Results show that our proposal achieves promising results in all the objectives, and direct relation are presented among them. The experiments also show that the most influential neurons help us explain which parts of the input images are the most relevant for the prediction of the pruned neural network. Lastly, by virtue of the diversity within the Pareto front of pruning patterns produced by the proposal, it is shown that an ensemble of differently pruned models improves the overall performance and robustness of the trained networks.
翻訳日:2023-02-22 17:19:18 公開日:2023-02-20
# アルゴリズムウォームスタートによる高速高精度ログコンケーブサンプリング

Faster high-accuracy log-concave sampling via algorithmic warm starts ( http://arxiv.org/abs/2302.10249v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Sinho Chewi(参考訳) 強い対数凹と対数平滑分布から高精度へのサンプリングの複雑さを理解することは、実用的、理論的両面の観点からの根本的な問題である。 実際には、古典的なメトロポリス調整ランゲヴィンアルゴリズム (MALA) のような高精度なサンプリングは事実上のゴールド標準のままであり、理論上は、近位サンプリング器の還元により、このようなサンプリング器は対数共振性を超えたサンプリングの鍵となる(特に等長的な仮定を満たす分布に対して)。 本研究では、このサンプリング問題の次元依存性を$\tilde{O}(d^{1/2})$に改善する一方、MALAの以前の最良の結果は$\tilde{O}(d)$である。 これにより、MALAの複雑さに関する長い作業が終了し、さらに、強いログ凹凸とそれ以上の(前述の削減による)高精度サンプリングの最先端保証につながります。 我々の出発点は、MALAの複雑さは$\tilde{O}(d^{1/2})$に改善されるが、温かいスタート(定数 R\enyi divergence w.r.t.$\pi$ による初期化)の下でのみ改善されるということである。 それまでのアルゴリズムは、それを使うよりも温かいスタートを見つけるのにずっと時間がかかり、このギャップを埋めることは、この分野において重要なオープンな問題のままである。 我々の主要な技術的貢献は、離散弱減衰ランジュバン拡散に対する最初の$\tilde{o}(d^{1/2})$ r\'enyi混合率を確立することでこの問題を解決している。 そこで我々は,orlicz--wassersteinシフトを用いたr\'enyi divergencesに基づく微分プライバシーに着想を得た新しい手法を開発した。

Understanding the complexity of sampling from a strongly log-concave and log-smooth distribution $\pi$ on $\mathbb{R}^d$ to high accuracy is a fundamental problem, both from a practical and theoretical standpoint. In practice, high-accuracy samplers such as the classical Metropolis-adjusted Langevin algorithm (MALA) remain the de facto gold standard; and in theory, via the proximal sampler reduction, it is understood that such samplers are key for sampling even beyond log-concavity (in particular, for distributions satisfying isoperimetric assumptions). In this work, we improve the dimension dependence of this sampling problem to $\tilde{O}(d^{1/2})$, whereas the previous best result for MALA was $\tilde{O}(d)$. This closes the long line of work on the complexity of MALA, and moreover leads to state-of-the-art guarantees for high-accuracy sampling under strong log-concavity and beyond (thanks to the aforementioned reduction). Our starting point is that the complexity of MALA improves to $\tilde{O}(d^{1/2})$, but only under a warm start (an initialization with constant R\'enyi divergence w.r.t. $\pi$). Previous algorithms took much longer to find a warm start than to use it, and closing this gap has remained an important open problem in the field. Our main technical contribution settles this problem by establishing the first $\tilde{O}(d^{1/2})$ R\'enyi mixing rates for the discretized underdamped Langevin diffusion. For this, we develop new differential-privacy-inspired techniques based on R\'enyi divergences with Orlicz--Wasserstein shifts, which allow us to sidestep longstanding challenges for proving fast convergence of hypocoercive differential equations.
翻訳日:2023-02-22 17:18:52 公開日:2023-02-20
# VoxSRC 2022: 第4回VoxCeleb話者認識チャレンジ

VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge ( http://arxiv.org/abs/2302.10248v1 )

ライセンス: Link先を確認
Jaesung Huh, Andrew Brown, Jee-weon Jung, Joon Son Chung, Arsha Nagrani, Daniel Garcia-Romero, Andrew Zisserman(参考訳) 本稿では,InterSPEECH 2022とともに開催されたVoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)の成果を要約する。 この課題の目的は、最先端の話者認識システムがいかに「野放し」で得られた音声から話者を識別し認識できるかを評価することである。 挑戦は以下の通りである。 (i)youtubeビデオからの公に入手可能な話者認識及びダイアリゼーションデータの提供及び地上真実の注釈及び標準化評価ソフトウェア (II)InterSPEECH 2022で開かれた公的なチャレンジとハイブリッドワークショップ。 我々は、ベースライン、メソッド、結果とともに、課題の4つのトラックについて説明する。 我々は、VoxSRC-22の新しいドメイン・トランスファーの焦点と、以前の3版からの挑戦の進行について議論する。

This paper summarises the findings from the VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22), which was held in conjunction with INTERSPEECH 2022. The goal of this challenge was to evaluate how well state-of-the-art speaker recognition systems can diarise and recognise speakers from speech obtained "in the wild". The challenge consisted of: (i) the provision of publicly available speaker recognition and diarisation data from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a public challenge and hybrid workshop held at INTERSPEECH 2022. We describe the four tracks of our challenge along with the baselines, methods, and results. We conclude with a discussion on the new domain-transfer focus of VoxSRC-22, and on the progression of the challenge from the previous three editions.
翻訳日:2023-02-22 17:18:13 公開日:2023-02-20
# 基本量子サブルーチン:複数の有マーク要素の発見と総和数

Basic quantum subroutines: finding multiple marked elements and summing numbers ( http://arxiv.org/abs/2302.10244v1 )

ライセンス: Link先を確認
Joran van Apeldoorn, Sander Gribling, Harold Nieuwboer(参考訳) 最小の量子メモリを持つ設定において、最適な数$O(\sqrt{Nk})$とゲート複雑性におけるポリ対数的オーバーヘッドのみを用いて、$k$マークされた要素を$N$の一覧で見つける方法を示す。 以前のアルゴリズムでは、ゲートの複雑さで$k$のオーバーヘッドを発生させたり、クエリの複雑さで$\log(k)$を増加させたりしていた。 次に、$s = \sum_{i=1}^N v_i$, $v=(v_i) \in [0,1]^N$の乗法的な$\delta$-approximationを求める問題を考える。 我々は、$O(\sqrt{N \log(1/\rho) / \delta})$クエリ($\rho$の穏やかな仮定の下で)を用いて、少なくとも1-\rho$の確率を持つアルゴリズムを与える。 これにより、1/\delta$ と $\log(1/\rho)$ への依存度は振幅推定の直接的な適用よりも向上する。 改良された$\log(1/\rho)$ 依存を得るには、最初の結果を使う。

We show how to find all $k$ marked elements in a list of size $N$ using the optimal number $O(\sqrt{N k})$ of quantum queries and only a polylogarithmic overhead in the gate complexity, in the setting where one has a small quantum memory. Previous algorithms either incurred a factor $k$ overhead in the gate complexity, or had an extra factor $\log(k)$ in the query complexity. We then consider the problem of finding a multiplicative $\delta$-approximation of $s = \sum_{i=1}^N v_i$ where $v=(v_i) \in [0,1]^N$, given quantum query access to a binary description of $v$. We give an algorithm that does so, with probability at least $1-\rho$, using $O(\sqrt{N \log(1/\rho) / \delta})$ queries (under mild assumptions on $\rho$). This quadratically improves the dependence on $1/\delta$ and $\log(1/\rho)$ compared to a straightforward application of amplitude estimation. To obtain the improved $\log(1/\rho)$ dependence we use the first result.
翻訳日:2023-02-22 17:18:00 公開日:2023-02-20
# 適応スパースガウス過程

Adaptive Sparse Gaussian Process ( http://arxiv.org/abs/2302.10325v1 )

ライセンス: Link先を確認
Vanessa G\'omez-Verdejo and Manel Mart\'inez-Ram\'on(参考訳) 学習機械が過去のデータ分布を忘れなければならない非定常環境においては、適応学習が必要である。 効率的なアルゴリズムは、オンラインパラメータ更新の計算コストが最小で、入力データによる計算負荷を増大させることなく、コンパクトなモデル更新を必要とする。 既存のソリューションは、これらのニーズを部分的にカバーするだけです。 本稿では,これらの問題をすべて解決できる最初の適応的スパースガウス過程(gp)を提案する。 まず,変分スパースGPアルゴリズムを変形係数によって適応的に再構成する。 次に、モデル推論をできるだけシンプルにするために、新しいサンプルが到着するたびに残りのモデルパラメータとともにスパースGPモデルの単一誘導点を更新することを提案する。 結果として、アルゴリズムは推論プロセスの高速収束を示し、非常に非定常な環境でも効率的なモデル更新(単一推論反復)を可能にする。 実験により,提案アルゴリズムの性能と,その予測後続平均と信頼区間推定のモデル化における性能を,最先端手法と比較して実証した。

Adaptive learning is necessary for non-stationary environments where the learning machine needs to forget past data distribution. Efficient algorithms require a compact model update to not grow in computational burden with the incoming data and with the lowest possible computational cost for online parameter updating. Existing solutions only partially cover these needs. Here, we propose the first adaptive sparse Gaussian Process (GP) able to address all these issues. We first reformulate a variational sparse GP algorithm to make it adaptive through a forgetting factor. Next, to make the model inference as simple as possible, we propose updating a single inducing point of the sparse GP model together with the remaining model parameters every time a new sample arrives. As a result, the algorithm presents a fast convergence of the inference process, which allows an efficient model update (with a single inference iteration) even in highly non-stationary environments. Experimental results demonstrate the capabilities of the proposed algorithm and its good performance in modeling the predictive posterior in mean and confidence interval estimation compared to state-of-the-art approaches.
翻訳日:2023-02-22 17:11:42 公開日:2023-02-20
# ショートカットのないディープトランスフォーマー:忠実な信号伝達のための自己注意の修正

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation ( http://arxiv.org/abs/2302.10322v1 )

ライセンス: Link先を確認
Bobby He, James Martens, Guodong Zhang, Aleksandar Botev, Andrew Brock, Samuel L Smith, Yee Whye Teh(参考訳) スキップ接続と正規化レイヤは、ディープニューラルネットワーク(DNN)のトレーニングにユビキタスな2つの標準的なアーキテクチャコンポーネントを形成するが、正確な役割は理解されていない。 近年のDeep Kernel Shapingのようなアプローチは、広範NNカーネル理論からの洞察を用いて、バニラDNN(スキップや正規化のないネットワークと定義する)の信号伝搬を改善することで、それらへの依存を減らしている。 しかしながら、これらのアプローチは、カーネルが本質的に解析と制御が複雑であるトランスフォーマーに存在する自己アテンション層とは相容れない。 では、問題は残る: 深いバニラトランスフォーマーを訓練することは可能か? 本稿では, パラメータ初期化, バイアス行列, 位置依存再スケーリングの組み合わせを用いて, バニラ変圧器の忠実な信号伝達を実現する手法をいくつか設計して, この疑問に答える。 本手法はトランスにおける信号伝搬に特有の様々な複雑さに対処し,位置符号化や因果マスキングとの相互作用を含む。 WikiText-103 と C4 の実験では,標準値と一致する速度でのトレーニングを正規化せずに行うディープ・トランスフォーマーと,約5倍のイテレーションを経て,ディープ・バニラ・トランスフォーマーが標準値と同じ性能に達することができる。

Skip connections and normalisation layers form two standard architectural components that are ubiquitous for the training of Deep Neural Networks (DNNs), but whose precise roles are poorly understood. Recent approaches such as Deep Kernel Shaping have made progress towards reducing our reliance on them, using insights from wide NN kernel theory to improve signal propagation in vanilla DNNs (which we define as networks without skips or normalisation). However, these approaches are incompatible with the self-attention layers present in transformers, whose kernels are intrinsically more complicated to analyse and control. And so the question remains: is it possible to train deep vanilla transformers? We answer this question in the affirmative by designing several approaches that use combinations of parameter initialisations, bias matrices and location-dependent rescaling to achieve faithful signal propagation in vanilla transformers. Our methods address various intricacies specific to signal propagation in transformers, including the interaction with positional encoding and causal masking. In experiments on WikiText-103 and C4, our approaches enable deep transformers without normalisation to train at speeds matching their standard counterparts, and deep vanilla transformers to reach the same performance as standard ones after about 5 times more iterations.
翻訳日:2023-02-22 17:11:27 公開日:2023-02-20
# メタワールド条件付き神経プロセス

Meta-World Conditional Neural Processes ( http://arxiv.org/abs/2302.10320v1 )

ライセンス: Link先を確認
Suzan Ece Ada, Emre Ugur(参考訳) 本稿では,条件付きニューラルネットワークのサンプル効率と拡張性を活用した条件付き世界モデル生成装置であるmeta-world conditional neural processes (mw-cnp)を提案する。 テスト時にターゲット環境とのエージェントのインタラクションを可能な限り削減するつもりです。 テスト時間に必要なサンプル数を減らすために,まず,隠れパラメータを持つテスト環境から単一ロールアウトから遷移ダイナミクスの潜在表現を得る。 そこで,メタワールドモデルが生み出す「幻覚」と相互作用することで,数ショット学習のためのロールアウトを得る。 MW-CNPのワールドモデル表現を用いて、メタRLエージェントは、ベースラインに比べてターゲット環境から収集したサンプルを著しく少なく、目に見えないターゲット環境に適応することができる。 エージェントは、トレーニングとテストを通じてタスクパラメータにアクセスできず、mw-cnpは、メタトレーニング中にログされたオフラインインタラクションデータでトレーニングされる。

We propose Meta-World Conditional Neural Processes (MW-CNP), a conditional world model generator that leverages sample efficiency and scalability of Conditional Neural Processes to enable an agent to sample from its own "hallucination". We intend to reduce the agent's interaction with the target environment at test time as much as possible. To reduce the number of samples required at test time, we first obtain a latent representation of the transition dynamics from a single rollout from the test environment with hidden parameters. Then, we obtain rollouts for few-shot learning by interacting with the "hallucination" generated by the meta-world model. Using the world model representation from MW-CNP, the meta-RL agent can adapt to an unseen target environment with significantly fewer samples collected from the target environment compared to the baselines. We emphasize that the agent does not have access to the task parameters throughout training and testing, and MW-CNP is trained on offline interaction data logged during meta-training.
翻訳日:2023-02-22 17:11:00 公開日:2023-02-20
# レジームスイッチングモデルのための微分可能なブートストラップ粒子フィルタ

Differentiable Bootstrap Particle Filters for Regime-Switching Models ( http://arxiv.org/abs/2302.10319v1 )

ライセンス: Link先を確認
Wenhan Li, Xiongjie Chen, Wenwu Wang, V\'ictor Elvira and Yunpeng Li(参考訳) 微分可能な粒子フィルタは、ニューラルネットワークを用いてパラメトリック状態空間モデルを構築し、学習する新しい種類の粒子フィルタリング法である。 現実世界のアプリケーションでは、状態力学と測定の両方が候補モデルのセットを切り替えることができる。 例えば、目標追跡では、車両はアイドルしたり、交通を移動したり、高速道路を巡航したりすることができ、測度は異なる地理的または天候条件で収集される。 本稿では、状態空間モデルに対する新しい微分可能な粒子フィルタを提案する。 この手法は、未知の候補動的および測定モデルの集合を学習し、状態後部を追跡する。 本稿では,新しいアルゴリズムの性能を関連モデルで評価し,他の競合アルゴリズムと比較して優れた性能を示す。

Differentiable particle filters are an emerging class of particle filtering methods that use neural networks to construct and learn parametric state-space models. In real-world applications, both the state dynamics and measurements can switch between a set of candidate models. For instance, in target tracking, vehicles can idle, move through traffic, or cruise on motorways, and measurements are collected in different geographical or weather conditions. This paper proposes a new differentiable particle filter for regime-switching state-space models. The method can learn a set of unknown candidate dynamic and measurement models and track the state posteriors. We evaluate the performance of the novel algorithm in relevant models, showing its great performance compared to other competitive algorithms.
翻訳日:2023-02-22 17:10:30 公開日:2023-02-20
# セマンティクスセグメンテーションを改善するアダマール層

Hadamard Layer to Improve Semantic Segmentation ( http://arxiv.org/abs/2302.10318v1 )

ライセンス: Link先を確認
Angello Hoyos and Mariano Rivera(参考訳) セマンティックセグメンテーションタスクの結果を改善するためのシンプルで効率的な方法であるアダマール層を提示する。 このレイヤにはトレーニングが必要な自由パラメータが存在しない。 したがって、モデルパラメータの数が増加せず、余分な計算コストは限界である。 実験の結果,新しいアダマール層は検討したモデル(Pix2Pixモデルの変種)の性能を大幅に向上させることがわかった。 パフォーマンスの改善は、すべてのbinがアクティブになるように、ネットワークにクラスの内部エンコーディングを強制するhadaard層によって説明できる。 したがって、ネットワーク計算はより分散している。 Hadamard層が予測クラスを変更する必要があるような方法では、エンコーディングに$k$ binsを仮定して$2^{k-1}$ binsを変更する必要がある。 特定の損失関数は安定かつ高速な訓練収束を可能にする。

The Hadamard Layer, a simple and computationally efficient way to improve results in semantic segmentation tasks, is presented. This layer has no free parameters that require to be trained. Therefore it does not increase the number of model parameters, and the extra computational cost is marginal. Experimental results show that the new Hadamard layer substantially improves the performance of the investigated models (variants of the Pix2Pix model). The performance's improvement can be explained by the Hadamard layer forcing the network to produce an internal encoding of the classes so that all bins are active. Therefore, the network computation is more distributed. In a sort that the Hadamard layer requires that to change the predicted class, it is necessary to modify $2^{k-1}$ bins, assuming $k$ bins in the encoding. A specific loss function allows a stable and fast training convergence.
翻訳日:2023-02-22 17:10:10 公開日:2023-02-20
# 段階ごとに異なる量のリプレイの効果を理解する

Understanding the effect of varying amounts of replay per step ( http://arxiv.org/abs/2302.10311v1 )

ライセンス: Link先を確認
Animesh Kumar Paul and Videh Raj Nema(参考訳) モデルに基づく強化学習では、モデルを用いてエージェントの予測とポリシーを、環境からの追加データなしでより多くの計算を使用することで改善し、サンプル効率を向上させる。 しかし,モデルの正確な推定は困難である。 その後の自然な疑問は、モデルフリーのメソッドで計画するのと同じような利点を得られるかどうかである。 experience replayは、グラデーション計算プロセスのさらなる再利用のために過去の経験を保存するメカニズムを提供することで、サンプル効率のよい学習と安定性を実現する多くのモデルフリーアルゴリズムの重要なコンポーネントである。 先行研究は、モデルと、後者との計画による経験リプレイとのつながりを確立した。 これは、ミニバッチがサンプリングされ、各ステップで更新(ステップごとのリプレイ数)に使用される回数を増やすことを含む。 我々は,マウンテンカー環境におけるモデルフリーアルゴリズムであるdeep q-network (dqn) において,ステップ毎のリプレイ量が変動することの効果を体系的に研究することで,この関係を生かそうとする。 リプレイの増加はDQNのサンプル効率を向上し、その性能の変動を低減し、ハイパーパラメータの変化をより堅牢にすることを示す。 いずれにせよ、これはデプロイメントのためのより良いアルゴリズムへの一歩だ。

Model-based reinforcement learning uses models to plan, where the predictions and policies of an agent can be improved by using more computation without additional data from the environment, thereby improving sample efficiency. However, learning accurate estimates of the model is hard. Subsequently, the natural question is whether we can get similar benefits as planning with model-free methods. Experience replay is an essential component of many model-free algorithms enabling sample-efficient learning and stability by providing a mechanism to store past experiences for further reuse in the gradient computational process. Prior works have established connections between models and experience replay by planning with the latter. This involves increasing the number of times a mini-batch is sampled and used for updates at each step (amount of replay per step). We attempt to exploit this connection by doing a systematic study on the effect of varying amounts of replay per step in a well-known model-free algorithm: Deep Q-Network (DQN) in the Mountain Car environment. We empirically show that increasing replay improves DQN's sample efficiency, reduces the variation in its performance, and makes it more robust to change in hyperparameters. Altogether, this takes a step toward a better algorithm for deployment.
翻訳日:2023-02-22 17:09:47 公開日:2023-02-20
# 量子機械学習ハイパーパラメータ探索

Quantum Machine Learning hyperparameter search ( http://arxiv.org/abs/2302.10298v1 )

ライセンス: Link先を確認
S. Consul-Pacareu, R. Monta\~no, Kevin Rodriguez-Fernandez, \`Alex Corretg\'e, Esteve Vilella-Moreno, Daniel Casado-Faul\'i and Parfait Atchade-Adelomou(参考訳) 本稿では,航空業界における予測問題に関連するデータセット上でトレーニングされたモデルのベンチマークに適用した,機械学習ハイパーパラメータ最適化のための量子ベースのフーリエ回帰手法を提案する。 本研究では,ハイパーパラメータ探索空間をフーリエ級数法を用いて表現し,量子アルゴリズムを用いて与えられた機械学習モデルに対して最適なハイパーパラメータ集合を求める。 本研究は,標準ハイパーパラメータオプティマイザ(hpo)を用いて,航空会社の予測問題を予測するために訓練されたモデルのベンチマークで提案手法を評価する。 その結果,提案手法は与えられた探索空間の精度と収束速度の観点から従来のハイパーパラメータ最適化手法よりも優れていた。 本研究は,量子ベース機械学習ハイパーパラメータ最適化の新たな方向性を提供する。

This paper presents a quantum-based Fourier-regression approach for machine learning hyperparameter optimization applied to a benchmark of models trained on a dataset related to a forecast problem in the airline industry. Our approach utilizes the Fourier series method to represent the hyperparameter search space, which is then optimized using quantum algorithms to find the optimal set of hyperparameters for a given machine learning model. Our study evaluates the proposed method on a benchmark of models trained to predict a forecast problem in the airline industry using a standard HyperParameter Optimizer (HPO). The results show that our approach outperforms traditional hyperparameter optimization methods in terms of accuracy and convergence speed for the given search space. Our study provides a new direction for future research in quantum-based machine learning hyperparameter optimization.
翻訳日:2023-02-22 17:09:27 公開日:2023-02-20
# ポジティブかつネガティブなペアワイズフィードバックによるアクティブラーニング

Active Learning with Positive and Negative Pairwise Feedback ( http://arxiv.org/abs/2302.10295v1 )

ライセンス: Link先を確認
Linus Aronsson, Morteza Haghir Chehreghani(参考訳) 本稿では,オブジェクト間の相互類似性を考慮したクエリによるアクティブクラスタリングのための汎用フレームワークを提案する。 まず、ペアの類似性は任意の正あるいは負の数であり、ユーザ/アノテータが提供するフィードバックのタイプに完全な柔軟性をもたらす。 第二に、対関係の類似性をクエリするプロセスがクラスタリングアルゴリズムから切り離され、クエリ戦略の構築方法の柔軟性が向上する。 第三に、同じペアの類似性に対して複数のクエリを許容することで、クエリはノイズに対して堅牢である(非永続ノイズモデルが仮定される)。 最後に、クラスタの数は、現在知られているペアワイズ類似度に基づいて自動的に識別される。 さらに、このアクティブクラスタリングフレームワークに適した新しいクエリ戦略をいくつか提案し、分析する。 本手法の有効性と提案する問合せ戦略を,いくつかの実験により実証する。

In this paper, we propose a generic framework for active clustering with queries for pairwise similarities between objects. First, the pairwise similarities can be any positive or negative number, yielding full flexibility in the type of feedback that a user/annotator can provide. Second, the process of querying pairwise similarities is separated from the clustering algorithm, leading to more flexibility in how the query strategies can be constructed. Third, the queries are robust to noise by allowing multiple queries for the same pairwise similarity (i.e., a non-persistent noise model is assumed). Finally, the number of clusters is automatically identified based on the currently known pairwise similarities. In addition, we propose and analyze a number of novel query strategies suited to this active clustering framework. We demonstrate the effectiveness of our framework and the proposed query strategies via several experimental studies.
翻訳日:2023-02-22 17:09:16 公開日:2023-02-20
# AERoS:自律型ロボット群における創発的行動の保証

AERoS: Assurance of Emergent Behaviour in Autonomous Robotic Swarms ( http://arxiv.org/abs/2302.10292v1 )

ライセンス: Link先を確認
Dhaminda B. Abeywickrama, James Wilson, Suet Lee, Greg Chance, Peter D. Winter, Arianna Manzini, Ibrahim Habli, Shane Windsor, Sabine Hauert, Kerstin Eder(参考訳) Swarmの動作は明示的に設計されていない。 むしろそれらは、個々のエージェント同士の相互作用と、その環境からの創発的な結果である。 この突発的な機能は安全性の保証に挑戦する。 本論文の主な貢献は,自律システム(AMLAS)における機械学習の保証に関するガイダンスに従って,自律型ロボット群(AERoS)における緊急行動の安全性を保証するプロセスである。 我々は,公開クロークルームを運用するロボット群を中心としたケーススタディを用いて,提案手法を検討する。

The behaviours of a swarm are not explicitly engineered. Instead, they are an emergent consequence of the interactions of individual agents with each other and their environment. This emergent functionality poses a challenge to safety assurance. The main contribution of this paper is a process for the safety assurance of emergent behaviour in autonomous robotic swarms called AERoS, following the guidance on the Assurance of Machine Learning for use in Autonomous Systems (AMLAS). We explore our proposed process using a case study centred on a robot swarm operating a public cloakroom.
翻訳日:2023-02-22 17:09:02 公開日:2023-02-20
# route, interpret, repeat: post hoc descriptionability と interpretable models の境界線を曖昧にする

Route, Interpret, Repeat: Blurring the Line Between Post hoc Explainability and Interpretable Models ( http://arxiv.org/abs/2302.10289v1 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) 現在のmlモデル設計のアプローチは、フレキシブルなブラックボックスモデルを選択して、hoc後に説明するか、解釈可能なモデルから始めるかのどちらかだ。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは説明可能なように設計されている。 しかし、解釈可能なモデルを開発するには広範なML知識が必要であり、結果として得られるモデルはより柔軟性が低くなり、ブラックボックスの同等モデルと比べて性能が劣る可能性がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 我々は、フレキシブルなBlackBoxモデルと、解釈可能なモデルとemph{residual network}を混合したemph{carving out}を提案する。 我々の設計では、サンプルのサブセットを特定し、解釈可能なモデルを通してそれらを\emph{routes} 化する。 残りのサンプルは柔軟な残留ネットワークを介してルーティングされる。 我々は一階述語論理(FOL)を解釈可能なモデルのバックボーンとして採用し、ブラックボックスモデルから得られる概念の基本的な推論を提供する。 残差ネットワークでは、残差ネットワークで説明されるデータの比率が所望のしきい値以下になるまで、この方法を繰り返す。 我々のアプローチにはいくつかの利点がある。 第一に、解釈可能な残差ネットワークとフレキシブルな残差ネットワークの混合は、ほとんど性能を損なわない。 第二に、経路、解釈、繰り返しアプローチは、非常に柔軟な解釈可能なモデルをもたらす。 本研究では,様々なデータセット上でのモデルの性能を示す。 FOLモデルを編集することで、元のBlackBoxモデルで学んだショートカットを修正できることが示される。 最後に,本手法は,多くのアプリケーションに対して簡単に訓練し,適応できるハイブリッドシンボリック・コネクショニストネットワークのためのフレームワークを提供する。

The current approach to ML model design is either to choose a flexible Blackbox model and explain it post hoc or to start with an interpretable model. Blackbox models are flexible but difficult to explain, whereas interpretable models are designed to be explainable. However, developing interpretable models necessitates extensive ML knowledge, and the resulting models tend to be less flexible, offering potentially subpar performance compared to their Blackbox equivalents. This paper aims to blur the distinction between a post hoc explanation of a BlackBox and constructing interpretable models. We propose beginning with a flexible BlackBox model and gradually \emph{carving out} a mixture of interpretable models and a \emph{residual network}. Our design identifies a subset of samples and \emph{routes} them through the interpretable models. The remaining samples are routed through a flexible residual network. We adopt First Order Logic (FOL) as the interpretable model's backbone, which provides basic reasoning on concepts retrieved from the BlackBox model. On the residual network, we repeat the method until the proportion of data explained by the residual network falls below a desired threshold. Our approach offers several advantages. First, the mixture of interpretable and flexible residual networks results in almost no compromise in performance. Second, the route, interpret, and repeat approach yields a highly flexible interpretable model. Our extensive experiment demonstrates the performance of the model on various datasets. We show that by editing the FOL model, we can fix the shortcut learned by the original BlackBox model. Finally, our method provides a framework for a hybrid symbolic-connectionist network that is simple to train and adaptable to many applications.
翻訳日:2023-02-22 17:08:54 公開日:2023-02-20
# 多変量非定常時系列予測のためのオンライン進化的ニューラルネットワーク探索

Online Evolutionary Neural Architecture Search for Multivariate Non-Stationary Time Series Forecasting ( http://arxiv.org/abs/2302.10347v1 )

ライセンス: Link先を確認
Zimeng Lyu, Alexander Ororbia, Travis Desell(参考訳) 時系列予測(TSF)は、正確な時系列予測モデル(TS)が金融、交通、医療、電力システムなど幅広い領域で重要な役割を果たしているという事実から、データサイエンスにおいて最も重要なタスクの1つである。 機械学習(ML)の現実的な利用は、一般的に、収集された履歴データに基づいて(事前)トレーニングモデルを実行し、見当たらないデータポイントに適用する。 しかし、現実のアプリケーションでは、時系列データストリームは、通常、静的で訓練されたMLモデルであり、時間とともにデータやコンセプトドリフトの問題に直面します。 この問題に対処するためには、モデルを定期的に再訓練または再設計する必要がある。 さらに、過去のデータはモデルの再トレーニングや再設計には存在しません。 その結果、モデルがオンライン形式で設計され、訓練されることが非常に望ましい。 このアルゴリズムは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し動的に訓練することのできる、新しいニューラルネットワーク探索手法である。 ONE-NASは事前トレーニングなしで、新しい多変量入力データに応答して、新しいネットワーク構造と重みを継続的に更新するRNNの人口を利用する。 ONE-NASは、DJIA(Dow Jones Industrial Average)データセットと同様に、実世界の大規模多変量風力タービンデータで試験される。 その結果、ONE-NASはオンライン線形回帰、固定長短期メモリ(LSTM)、ゲートリカレントユニット(GRU)モデル、そして最先端のオンラインARIMA戦略など、従来の統計時系列予測手法よりも優れていた。

Time series forecasting (TSF) is one of the most important tasks in data science given the fact that accurate time series (TS) predictive models play a major role across a wide variety of domains including finance, transportation, health care, and power systems. Real-world utilization of machine learning (ML) typically involves (pre-)training models on collected, historical data and then applying them to unseen data points. However, in real-world applications, time series data streams are usually non-stationary and trained ML models usually, over time, face the problem of data or concept drift. To address this issue, models must be periodically retrained or redesigned, which takes significant human and computational resources. Additionally, historical data may not even exist to re-train or re-design model with. As a result, it is highly desirable that models are designed and trained in an online fashion. This work presents the Online NeuroEvolution-based Neural Architecture Search (ONE-NAS) algorithm, which is a novel neural architecture search method capable of automatically designing and dynamically training recurrent neural networks (RNNs) for online forecasting tasks. Without any pre-training, ONE-NAS utilizes populations of RNNs that are continuously updated with new network structures and weights in response to new multivariate input data. ONE-NAS is tested on real-world, large-scale multivariate wind turbine data as well as the univariate Dow Jones Industrial Average (DJIA) dataset. Results demonstrate that ONE-NAS outperforms traditional statistical time series forecasting methods, including online linear regression, fixed long short-term memory (LSTM) and gated recurrent unit (GRU) models trained online, as well as state-of-the-art, online ARIMA strategies.
翻訳日:2023-02-22 17:03:08 公開日:2023-02-20
# サイバーセキュリティ領域における統一モデルによるトランスファー学習の限界を探る

Exploring the Limits of Transfer Learning with Unified Model in the Cybersecurity Domain ( http://arxiv.org/abs/2302.10346v1 )

ライセンス: Link先を確認
Kuntal Kumar Pal, Kazuaki Kashihara, Ujjwala Anantheswaran, Kirby C. Kuznia, Siddhesh Jagtap and Chitta Baral(参考訳) ソフトウェアシステムのサイバーセキュリティ脆弱性の増加に伴い、それらを利用する方法も増加している。 さらに、マルウェアの脅威、不規則なネットワークの相互作用、公開フォーラムでのエクスプロイトに関する議論も増えている。 これらの脅威を素早く識別し、あらゆるテキストから潜在的に関連するエンティティを検出し、ソフトウェア脆弱性を認識するためには、自動化されたアプローチが必要である。 サイバーセキュリティ領域における自然言語処理(NLP)技術の適用は、これを実現するのに役立つ。 しかし、サイバーセキュリティ領域に関わるテキストの多様さ、大規模な公開データセットの可用性の欠如、アノテーションの専門家を雇うことの大幅なコストといった課題がある。 ソリューションの1つは、限られたデータと共同でトレーニングできるマルチタスクモデルを構築することだ。 本研究では, マルウェアレポート, フィッシングサイトURL, プログラミングコード構造, ソーシャルメディアデータ, ブログ, ニュース記事, パブリックフォーラム投稿をトレーニングした, 汎用マルチタスクモデルである統一テキスト・テキスト・サイバーセキュリティ(UTS)を導入する。 UTSはいくつかのサイバーセキュリティデータセットの性能を改善している。 いくつか例を挙げると、utは未発見の新たなタスクやデータの性質に適応できることを示している。

With the increase in cybersecurity vulnerabilities of software systems, the ways to exploit them are also increasing. Besides these, malware threats, irregular network interactions, and discussions about exploits in public forums are also on the rise. To identify these threats faster, to detect potentially relevant entities from any texts, and to be aware of software vulnerabilities, automated approaches are necessary. Application of natural language processing (NLP) techniques in the Cybersecurity domain can help in achieving this. However, there are challenges such as the diverse nature of texts involved in the cybersecurity domain, the unavailability of large-scale publicly available datasets, and the significant cost of hiring subject matter experts for annotations. One of the solutions is building multi-task models that can be trained jointly with limited data. In this work, we introduce a generative multi-task model, Unified Text-to-Text Cybersecurity (UTS), trained on malware reports, phishing site URLs, programming code constructs, social media data, blogs, news articles, and public forum posts. We show UTS improves the performance of some cybersecurity datasets. We also show that with a few examples, UTS can be adapted to novel unseen tasks and the nature of data
翻訳日:2023-02-22 17:02:33 公開日:2023-02-20
# ニューラルネットワークのためのモデルに基づく特徴選択:混合整数プログラミングアプローチ

Model-based feature selection for neural networks: A mixed-integer programming approach ( http://arxiv.org/abs/2302.10344v1 )

ライセンス: Link先を確認
Shudian Zhao, Calvin Tsay, Jan Kronqvist(参考訳) 本研究では,混合整数最適化手法を基盤とした,reluベースのディープニューラルネットワーク(dnns)のための新しい入力特徴選択フレームワークを開発した。 本手法は, 様々な分類タスクに適用できるが, 画像分類のための入力特徴の探索とプレゼンテーションの明確化に焦点をあてる。 そのアイデアは、訓練されたDNNまたは訓練されたDNNのアンサンブルを使用して、適切な入力機能を特定することである。 入力特徴選択は、各カテゴリの分類信頼性を最大化するスパース入力の集合を求める混合整数線形プログラミング(MILP)問題の列として定式化される。 これらの「逆」問題は、カテゴリごとに選択された入力数と分布制約によって正規化される。 有名なMNISTデータセットとFashionMNISTデータセットの数値結果から,提案した入力特徴の選択により,高い分類精度を維持しつつ,入力サイズを$\sim$15\%に劇的に削減できることがわかった。 これにより、接続が大幅に少ないDNNを設計し、計算労力を削減し、敵攻撃に対してより堅牢なDNNを作成できる。

In this work, we develop a novel input feature selection framework for ReLU-based deep neural networks (DNNs), which builds upon a mixed-integer optimization approach. While the method is generally applicable to various classification tasks, we focus on finding input features for image classification for clarity of presentation. The idea is to use a trained DNN, or an ensemble of trained DNNs, to identify the salient input features. The input feature selection is formulated as a sequence of mixed-integer linear programming (MILP) problems that find sets of sparse inputs that maximize the classification confidence of each category. These ''inverse'' problems are regularized by the number of inputs selected for each category and by distribution constraints. Numerical results on the well-known MNIST and FashionMNIST datasets show that the proposed input feature selection allows us to drastically reduce the size of the input to $\sim$15\% while maintaining a good classification accuracy. This allows us to design DNNs with significantly fewer connections, reducing computational effort and producing DNNs that are more robust towards adversarial attacks.
翻訳日:2023-02-22 17:02:13 公開日:2023-02-20
# 物理インフォームドニューラルネットワークを用いた非剛性医用画像登録

Non-rigid Medical Image Registration using Physics-informed Neural Networks ( http://arxiv.org/abs/2302.10343v1 )

ライセンス: Link先を確認
Zhe Min, Zachary M. C. Baum, Shaheer U. Saeed, Mark Emberton, Dean C. Barratt, Zeike A. Taylor, Yipeng Hu(参考訳) 軟部組織の生体力学的モデリングは、推定空間変換が生物学的に妥当であると考えられるように、医療画像登録を制限する非データ駆動方式を提供する。 MR-to-ultrasound(MR-to-ultrasound)の登録など、実際の臨床応用のみならず、臓器の動きや空間対応の確立を理解するための説明可能な手段も提供されてきた。 この研究は、最近提案された物理インフォームドニューラルネットワーク(PINN)を、経直腸超音波ガイド下手術でよく発生する前立腺運動をモデル化するための3次元線形弾性モデルにインスタンス化する。 PINNを異なる主題に一般化する上で広く認識されている課題を克服するため,我々は,PINNに付与された生体力学を考慮に入れながら,ポイントセットをアライメントする登録アルゴリズムとともに,ノード置換不変な特徴抽出器としてPointNetを使用することを提案する。 提案手法は, 患者固有の方法と多患者の方法の両方で開発, 検証されている。

Biomechanical modelling of soft tissue provides a non-data-driven method for constraining medical image registration, such that the estimated spatial transformation is considered biophysically plausible. This has not only been adopted in real-world clinical applications, such as the MR-to-ultrasound registration for prostate intervention of interest in this work, but also provides an explainable means of understanding the organ motion and spatial correspondence establishment. This work instantiates the recently-proposed physics-informed neural networks (PINNs) to a 3D linear elastic model for modelling prostate motion commonly encountered during transrectal ultrasound guided procedures. To overcome a widely-recognised challenge in generalising PINNs to different subjects, we propose to use PointNet as the nodal-permutation-invariant feature extractor, together with a registration algorithm that aligns point sets and simultaneously takes into account the PINN-imposed biomechanics. The proposed method has been both developed and validated in both patient-specific and multi-patient manner.
翻訳日:2023-02-22 17:01:54 公開日:2023-02-20
# ファンタスティック・リワードとテイト・テーマ:タスク指向対話システムにおけるリワード学習を事例として

Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems ( http://arxiv.org/abs/2302.10342v1 )

ライセンス: Link先を確認
Yihao Feng, Shentao Yang, Shujian Zhang, Jianguo Zhang, Caiming Xiong, Mingyuan Zhou, Huan Wang(参考訳) タスク指向対話(ToD)エージェントを学習する場合、強化学習(RL)技術は自然に対話戦略を訓練してユーザ固有の目標を達成するために利用できる。 先行研究は主にtodエージェントの訓練に高度なrl技術を採用することに焦点を当てているが、報酬関数の設計はよく研究されていない。 本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効率的に学習し,活用する方法に関する質問に答えることを目的とする。 具体的には、古典的な学習からランクへの文学に触発された報奨関数学習の2つの一般化目標を紹介する。 さらに,学習報酬関数を用いて,E2E ToDエージェントのトレーニングを指導する。 提案手法により,Multiwoz 2.0データセット上でのE2E応答生成タスクにおける競合結果が得られた。 ソースコードとチェックポイントはhttps://github.com/Shentao-YANG/Fantastic_Reward_ICLR2023で公開されている。

When learning task-oriented dialogue (ToD) agents, reinforcement learning (RL) techniques can naturally be utilized to train dialogue strategies to achieve user-specific goals. Prior works mainly focus on adopting advanced RL techniques to train the ToD agents, while the design of the reward function is not well studied. This paper aims at answering the question of how to efficiently learn and leverage a reward function for training end-to-end (E2E) ToD agents. Specifically, we introduce two generalized objectives for reward-function learning, inspired by the classical learning-to-rank literature. Further, we utilize the learned reward function to guide the training of the E2E ToD agent. With the proposed techniques, we achieve competitive results on the E2E response-generation task on the Multiwoz 2.0 dataset. Source code and checkpoints are publicly released at https://github.com/Shentao-YANG/Fantastic_Reward_ICLR2023.
翻訳日:2023-02-22 17:01:36 公開日:2023-02-20
# Take Me Home: 強化学習を用いた分散シフトの反転

Take Me Home: Reversing Distribution Shifts using Reinforcement Learning ( http://arxiv.org/abs/2302.10341v1 )

ライセンス: Link先を確認
Vivian Lin, Kuk Jang, Souradeep Dutta, Michele Caprio, Oleg Sokolsky, Insup Lee(参考訳) ディープニューラルネットワークは、現実世界の不確実性に非ロバストであることが繰り返し示されている。 微妙な敵意攻撃や自然発生の分布シフトでさえ、深層ニューラルネットワークに依存するシステムを混乱させる。 これに対応して、現在の最先端技術では、データ拡張を使用してモデルのトレーニング分布を強化し、結果として自然分布シフトに対する堅牢性を向上させる。 そこで本研究では,オンライン配信のシフトからシステムを回復するための代替手法を提案する。 具体的には,wasserstein距離で測定した分布変化をトレーニングセットに近づけるために,意味保存変換のシーケンスを適用する。 我々は,mdpとしてシーケンス選択の問題を定式化し,強化学習を用いて解く。 ワッサーシュタイン距離の推定を支援するために、正則射影による次元の減少を用いる。 正規直交射影が分布レベルでデータの特性を保存するという理論的および実証的な証拠を提供する。 最後に, 分布変化に対する分布変化回復手法をImageNet-Cベンチマークに適用し, 加算雑音や画像ヒストグラム修正による変化をターゲットとした。 我々は、様々な最先端のImageNet分類器で平均精度を14.21%改善することを示した。

Deep neural networks have repeatedly been shown to be non-robust to the uncertainties of the real world. Even subtle adversarial attacks and naturally occurring distribution shifts wreak havoc on systems relying on deep neural networks. In response to this, current state-of-the-art techniques use data-augmentation to enrich the training distribution of the model and consequently improve robustness to natural distribution shifts. We propose an alternative approach that allows the system to recover from distribution shifts online. Specifically, our method applies a sequence of semantic-preserving transformations to bring the shifted data closer in distribution to the training set, as measured by the Wasserstein distance. We formulate the problem of sequence selection as an MDP, which we solve using reinforcement learning. To aid in our estimates of Wasserstein distance, we employ dimensionality reduction through orthonormal projection. We provide both theoretical and empirical evidence that orthonormal projection preserves characteristics of the data at the distributional level. Finally, we apply our distribution shift recovery approach to the ImageNet-C benchmark for distribution shifts, targeting shifts due to additive noise and image histogram modifications. We demonstrate an improvement in average accuracy up to 14.21% across a variety of state-of-the-art ImageNet classifiers.
翻訳日:2023-02-22 17:01:19 公開日:2023-02-20
# Qubit, Coin, and an Advice String Walk into a Relational problem

A Qubit, a Coin, and an Advice String Walk Into a Relational Problem ( http://arxiv.org/abs/2302.10332v1 )

ライセンス: Link先を確認
Scott Aaronson and Harry Buhrman and William Kretschmer(参考訳) 関係問題(多くの有効なアウトプットがある)は決定問題とは異なるが、どの程度の違いがあるかを忘れるのは容易である。 本稿では、FBQP/qpoly、多項式サイズの量子アドバイスの助けを借りて量子多項式時間で解ける関係問題のクラス、決定論的およびランダム化された計算(FP, FBPP)とアドバイス(/poly, /rpoly)の研究を開始する。 最初の結果はfbqp/qpolyです! FBQP/poly, unconditionally, with no oracle -- 類似の意思決定クラスについて知っていることとは対照的です。 この証明は、Bar-Yossef、Jayram、Kerenidisによる量子的および古典的な一方的な通信複雑性の分離を再利用する。 この分離が、未証明の複雑性の仮定に依存しない量子超越性(quantum information supremacy)の形式である「量子情報優位性(quantum information supremacy)」を示すための短期的な実験の見通しをいかに高めるかについて議論する。 2つ目の結果は、fbpp が fp/poly に含まれないこと、つまり、adleman の定理は関係問題に対して失敗する、つまり pspace が np/poly に含まれない限り。 我々の証明はIP=PSPACEと時間境界コルモゴロフ複雑性を用いる。 一方,FP/poly では FBPP の証明は困難であり,PromiseBPEXP ではスーパーポリノミカル回路が低いことを示す。 以下の結果が証明される: * 非条件、FP! FBPP と FP/poly ! FBPP/poly (これらのクラスが慎重に定義された場合でも)。 ※FBPP/poly=FBPP/rpoly(FBQPも同様) サンプリング問題に対して、SampBPP/poly ! SampBPP/rpoly(SampBQPも同様)。

Relational problems (those with many possible valid outputs) are different from decision problems, but it is easy to forget just how different. This paper initiates the study of FBQP/qpoly, the class of relational problems solvable in quantum polynomial-time with the help of polynomial-sized quantum advice, along with its analogues for deterministic and randomized computation (FP, FBPP) and advice (/poly, /rpoly). Our first result is that FBQP/qpoly != FBQP/poly, unconditionally, with no oracle -- a striking contrast with what we know about the analogous decision classes. The proof repurposes the separation between quantum and classical one-way communication complexities due to Bar-Yossef, Jayram, and Kerenidis. We discuss how this separation raises the prospect of near-term experiments to demonstrate "quantum information supremacy," a form of quantum supremacy that would not depend on unproved complexity assumptions. Our second result is that FBPP is not contained in FP/poly -- that is, Adleman's Theorem fails for relational problems -- unless PSPACE is contained in NP/poly. Our proof uses IP=PSPACE and time-bounded Kolmogorov complexity. On the other hand, we show that proving FBPP not in FP/poly will be hard, as it implies a superpolynomial circuit lower bound for PromiseBPEXP. We prove the following further results: * Unconditionally, FP != FBPP and FP/poly != FBPP/poly (even when these classes are carefully defined). * FBPP/poly = FBPP/rpoly (and likewise for FBQP). For sampling problems, by contrast, SampBPP/poly != SampBPP/rpoly (and likewise for SampBQP).
翻訳日:2023-02-22 17:00:59 公開日:2023-02-20
# 因果カミソリ

Causal Razors ( http://arxiv.org/abs/2302.10331v1 )

ライセンス: Link先を確認
Wai-yin Lam(参考訳) 因果発見を行う場合、真の因果メカニズムが基礎となる確率分布とどのように対応しているかを仮定する必要がある。 これらの仮定は、この作品において因果的なカミソリとしてラベル付けされる。 文献に登場する多数のカミソリについて検討し,それらを包括的に比較した。 特に,多項因果モデルにおける不人気因果関係,すなわちパラメータ最小性,および他のよく研究された因果関係を精査する。 我々の論理的結果は、スコアベースのカジュアル検索アルゴリズムの適切なスコアリング基準を選択する際のジレンマとなる。

When performing causal discovery, assumptions have to be made on how the true causal mechanism corresponds to the underlying joint probability distribution. These assumptions are labeled as causal razors in this work. We review numerous causal razors that appeared in the literature, and offer a comprehensive logical comparison of them. In particular, we scrutinize an unpopular causal razor, namely parameter minimality, in multinomial causal models and its logical relations with other well-studied causal razors. Our logical result poses a dilemma in selecting a reasonable scoring criterion for score-based casual search algorithms.
翻訳日:2023-02-22 17:00:26 公開日:2023-02-20
# エージェントアルゴリズムの高度化によるハーム

Harms from Increasingly Agentic Algorithmic Systems ( http://arxiv.org/abs/2302.10329v1 )

ライセンス: Link先を確認
Alan Chan, Rebecca Salganik, Alva Markelius, Chris Pang, Nitarshan Rajkumar, Dmitrii Krasheninnikov, Lauro Langosco, Zhonghao He, Yawen Duan, Micah Carroll, Michelle Lin, Alex Mayhew, Katherine Collins, Maryam Molamohammadi, John Burden, Wanru Zhao, Shalaleh Rismani, Konstantinos Voudouris, Umang Bhatt, Adrian Weller, David Krueger, Tegan Maharaj(参考訳) FATE(Research in Fairness, Accountability, Transparency, and Ethics)は、医療、金融、警察、レコメンデーションといった様々な分野において、アルゴリズムによる害の源泉と形態を確立している。 これらのシステムの深刻な被害を緩和するために多くの作業が継続され、特に周辺地域社会に不釣り合いに影響を及ぼしている。 これらの継続的な害にもかかわらず、同じ害の永続性と新しい害の創出を脅かす新しいシステムが開発され、展開されている。 これに対し、FATEコミュニティは害を予想することの重要性を強調している。 我々の研究は、ますますエージェントシステムからの危害の予測に焦点を当てている。 二元性としてエージェンシーの定義を提供する代わりに、特に組み合わせて、特定のアルゴリズムシステムのエージェンシーを増加させる傾向がある4つの重要な特徴を識別する: 下位特定、影響の直接性、目標指向性、長期計画である。 我々はまた、機関の増加によって生じる重要な危害についても論じる -- 特に、システム的および/または長距離的影響、しばしば限界化されたステークホルダーへの影響を含む。 我々は、アルゴリズムシステムの認識機関が、アルゴリズムの害に対する人間の責任を解消またはシフトしないことを強調した。 むしろ、私たちはこの用語を使って、MLシステムが完全に人間のコントロール下にないという、ますます明白な事実を強調しています。 本研究は,3つの部分のエージェント型アルゴリズムシステムについて検討する。 まず,アルゴリズムシステムにおけるエージェントの増加という概念を,分野横断のエージェントに対する多様な視点の文脈で説明する。 第2に,エージェントシステムの増加に伴う被害を予測する必要性について論じる。 第3に,エージェントシステムの増加に伴う重要な害とその対処方法について議論する。 我々は,新興システムからのアルゴリズム的害を予想する作業の意義を反映して結論付ける。

Research in Fairness, Accountability, Transparency, and Ethics (FATE) has established many sources and forms of algorithmic harm, in domains as diverse as health care, finance, policing, and recommendations. Much work remains to be done to mitigate the serious harms of these systems, particularly those disproportionately affecting marginalized communities. Despite these ongoing harms, new systems are being developed and deployed which threaten the perpetuation of the same harms and the creation of novel ones. In response, the FATE community has emphasized the importance of anticipating harms. Our work focuses on the anticipation of harms from increasingly agentic systems. Rather than providing a definition of agency as a binary property, we identify 4 key characteristics which, particularly in combination, tend to increase the agency of a given algorithmic system: underspecification, directness of impact, goal-directedness, and long-term planning. We also discuss important harms which arise from increasing agency -- notably, these include systemic and/or long-range impacts, often on marginalized stakeholders. We emphasize that recognizing agency of algorithmic systems does not absolve or shift the human responsibility for algorithmic harms. Rather, we use the term agency to highlight the increasingly evident fact that ML systems are not fully under human control. Our work explores increasingly agentic algorithmic systems in three parts. First, we explain the notion of an increase in agency for algorithmic systems in the context of diverse perspectives on agency across disciplines. Second, we argue for the need to anticipate harms from increasingly agentic systems. Third, we discuss important harms from increasingly agentic systems and ways forward for addressing them. We conclude by reflecting on implications of our work for anticipating algorithmic harms from emerging systems.
翻訳日:2023-02-22 17:00:15 公開日:2023-02-20
# 拡散塗布による教師なし分布検出

Unsupervised Out-of-Distribution Detection with Diffusion Inpainting ( http://arxiv.org/abs/2302.10326v1 )

ライセンス: Link先を確認
Zhenzhen Liu, Jin Peng Zhou, Yufan Wang, Kilian Q. Weinberger(参考訳) 教師なしのアウト・オブ・ディストリビューション検出(OOD)は、未ラベルのドメイン内データのみから学習することで、ドメイン外のデータを識別する。 本稿では,近年の拡散モデルの発展を生かした新しい手法であるLift, Map, Detect (LMD)を提案する。 拡散モデルは生成モデルの一種である。 コアとなるのが反復的なデノイジングプロセスで、ノイズの多い画像を徐々にトレーニング多様体に近づける。 LMDはこの直感を利用してOODを検出する。 具体的には、LMDは元の多様体からイメージを持ち上げ、それを拡散モデルでドメイン内多様体にマッピングする。 領域外画像の場合、マッピングされた画像は元の多様体から遠く離れており、MDはそれに従ってOODと識別する。 我々は、LMDが様々なデータセットで競合性能を達成するための広範な実験を通して示す。

Unsupervised out-of-distribution detection (OOD) seeks to identify out-of-domain data by learning only from unlabeled in-domain data. We present a novel approach for this task - Lift, Map, Detect (LMD) - that leverages recent advancement in diffusion models. Diffusion models are one type of generative models. At their core, they learn an iterative denoising process that gradually maps a noisy image closer to their training manifolds. LMD leverages this intuition for OOD detection. Specifically, LMD lifts an image off its original manifold by corrupting it, and maps it towards the in-domain manifold with a diffusion model. For an out-of-domain image, the mapped image would have a large distance away from its original manifold, and LMD would identify it as OOD accordingly. We show through extensive experiments that LMD achieves competitive performance across a broad variety of datasets.
翻訳日:2023-02-22 16:59:49 公開日:2023-02-20
# 分解法による連続エネルギー固有状態

Continuum energy eigenstates via the factorization method ( http://arxiv.org/abs/2302.10365v1 )

ライセンス: Link先を確認
James K. Freericks and W. N. Mathews Jr(参考訳) 分解法は1940年にシュレーディンガーによって導入された。 境界状態問題におけるその使用は広く知られており、超対称量子力学では分解チェインを作成できるが、これは最小の固有値を除いて、チェーン内の隣接するハミルトニアンと共通の固有値を共有する補助ハミルトニアン列を同時に解くことができる。 本研究では,連続エネルギー固有状態に対する分解法を一般化する。 代わりにすべてのエネルギーは「単発の分解」によって解決され、この超ポテンシャルは収束超幾何関数の対数微分を含む形で記述される。 単発因子分解アプローチは「微分方程式を導出してその解を探す」従来の方法に代わるものであるが、合流超幾何関数の動作知識を必要とする。 これはまた、超ポテンシャルを構成するために必要なリカティ方程式の解法と見なすこともできる。

The factorization method was introduced by Schroedinger in 1940. Its use in bound-state problems is widely known, including in supersymmetric quantum mechanics; one can create a factorization chain, which simultaneously solves a sequence of auxiliary Hamiltonians that share common eigenvalues with their adjacent Hamiltonians in the chain, except for the lowest eigenvalue. In this work, we generalize the factorization method to continuum energy eigenstates. Here, one does not generically have a factorization chain -- instead all energies are solved using a "single-shot factorization," enabled by writing the superpotential in a form that includes the logarithmic derivative of a confluent hypergeometric function. The single-shot factorization approach is an alternative to the conventional method of "deriving a differential equation and looking up its solution," but it does require some working knowledge of confluent hypergeometric functions. This can also be viewed as a method for solving the Ricatti equation needed to construct the superpotential.
翻訳日:2023-02-22 16:53:31 公開日:2023-02-20
# ヘルム(ホルツ)におけるガウス過程 : 海流のより流動的なモデル

Gaussian processes at the Helm(holtz): A more fluid model for ocean currents ( http://arxiv.org/abs/2302.10364v1 )

ライセンス: Link先を確認
Renato Berlinghieri, Brian L. Trippe, David R. Burt, Ryan Giordano, Kaushik Srinivasan, Tamay \"Ozg\"okmen, Junfei Xia, Tamara Broderick(参考訳) 海洋学者は、ブイ速度のばらばらな観測に基づいて、海流の予測と電流ベクトル場のダイバーシティの同定に興味を持っている。 現在の力学は滑らかだが非線形であると予想するため、ガウス過程(GP)は魅力的なモデルを提供する。 しかし、標準定常カーネルでgpをbuoyデータに直接適用することは、物理的に非現実的な事前仮定のため、現在の予測と分岐識別の両方に苦労する可能性がある。 電流の既知の物理的性質をよりよく反映するために、ヘルムホルツ分解によって得られるベクトル場の発散およびカールフリー成分に標準定常核を置くことを提案する。 この分解は、混合部分微分によってのみ元のベクトル場に関係しているため、計算コストを一定に増やすだけで、元のデータを推論できることが示される。 合成および実海データに対する本手法の利点について述べる。

Oceanographers are interested in predicting ocean currents and identifying divergences in a current vector field based on sparse observations of buoy velocities. Since we expect current dynamics to be smooth but highly non-linear, Gaussian processes (GPs) offer an attractive model. But we show that applying a GP with a standard stationary kernel directly to buoy data can struggle at both current prediction and divergence identification -- due to some physically unrealistic prior assumptions. To better reflect known physical properties of currents, we propose to instead put a standard stationary kernel on the divergence and curl-free components of a vector field obtained through a Helmholtz decomposition. We show that, because this decomposition relates to the original vector field just via mixed partial derivatives, we can still perform inference given the original data with only a small constant multiple of additional computational expense. We illustrate the benefits of our method on synthetic and real ocean data.
翻訳日:2023-02-22 16:53:14 公開日:2023-02-20
# 欠落値インプテーションに対する変換分布マッチング

Transformed Distribution Matching for Missing Value Imputation ( http://arxiv.org/abs/2302.10363v1 )

ライセンス: Link先を確認
He Zhao, Ke Sun, Amir Dezfouli, Edwin Bonilla(参考訳) 我々は、多くの領域で重要な応用があるデータセット内の値の欠落を暗示する問題を考察する。 欠落した値インプテーションの鍵は、不完全なサンプルでデータ分布をキャプチャし、欠落した値をインプットすることです。 本稿では,値が不足している2つのデータ集合が同じデータ分布から来ているという事実を生かして,それらを深い可逆関数を通じて潜在空間に変換し,分布的にマッチングすることにより,サンプルの2つのバッチの欠落値を推測する。 変換を学習し、欠落した値を同時にインプットするために、単純で動機のよいアルゴリズムを提案する。 多数のデータセットと競合するベンチマークアルゴリズムに対する大規模な実験により,本手法が最先端の性能を達成することを示す。

We study the problem of imputing missing values in a dataset, which has important applications in many domains. The key to missing value imputation is to capture the data distribution with incomplete samples and impute the missing values accordingly. In this paper, by leveraging the fact that any two batches of data with missing values come from the same data distribution, we propose to impute the missing values of two batches of samples by transforming them into a latent space through deep invertible functions and matching them distributionally. To learn the transformations and impute the missing values simultaneously, a simple and well-motivated algorithm is proposed. Extensive experiments over a large number of datasets and competing benchmark algorithms show that our method achieves state-of-the-art performance.
翻訳日:2023-02-22 16:52:58 公開日:2023-02-20
# 双曲グラフ表現によるヘテロジニアスなソーシャルイベント検出

Heterogeneous Social Event Detection via Hyperbolic Graph Representations ( http://arxiv.org/abs/2302.10362v1 )

ライセンス: Link先を確認
Zitai Qiu, Jia Wu, Jian Yang, Xing Su and Charu C. Aggarwal(参考訳) 社会的な出来事は社会のダイナミクスを反映しており、自然災害や非常事態が注目される。 これらのイベントをタイムリーに検出することで、組織や個人に損失を減らす、あるいは回避するための貴重な情報を提供することができる。 しかし、ソーシャルメディアの内容と構造の複雑な異質性のため、既存のモデルは限られた情報しか学べず、大量の意味や構造情報は無視される。 また、高い労働コストのため、ソーシャルメディアのデータセットが高品質なラベルを含むことは稀であり、モデルがソーシャルメディアから情報を学ぶのも困難である。 本研究では,ヘテロジニアスなソーシャルメディア環境からソーシャルイベントを検出する2つの双曲グラフ表現に基づく手法を提案する。 データセットにラベルがある場合、複雑なソーシャル情報を統一されたソーシャルメッセージグラフに変換するHyperbolic Social Event Detection (HSED)モデルを設計した。 このモデルは、ソーシャルメディアの多様性に対処し、このグラフでは、ソーシャルメディアの情報は双曲空間の性質に基づいて構造情報を取得するのに使うことができる。 データセットがラップされていない場合、unsupervised Hyperbolic Social Event Detection (UHSED)を設計した。 このモデルはHSEDモデルに基づいているが、グラフのコントラスト学習を含まないシナリオで機能させる。 広範な実験が提案手法の優越性を示している。

Social events reflect the dynamics of society and, here, natural disasters and emergencies receive significant attention. The timely detection of these events can provide organisations and individuals with valuable information to reduce or avoid losses. However, due to the complex heterogeneities of the content and structure of social media, existing models can only learn limited information; large amounts of semantic and structural information are ignored. In addition, due to high labour costs, it is rare for social media datasets to include high-quality labels, which also makes it challenging for models to learn information from social media. In this study, we propose two hyperbolic graph representation-based methods for detecting social events from heterogeneous social media environments. For cases where a dataset has labels, we designed a Hyperbolic Social Event Detection (HSED) model that converts complex social information into a unified social message graph. This model addresses the heterogeneity of social media, and, with this graph, the information in social media can be used to capture structural information based on the properties of hyperbolic space. For cases where the dataset is unlabelled, we designed an Unsupervised Hyperbolic Social Event Detection (UHSED). This model is based on the HSED model but includes graph contrastive learning to make it work in unlabelled scenarios. Extensive experiments demonstrate the superiority of the proposed approaches.
翻訳日:2023-02-22 16:52:43 公開日:2023-02-20
# 光変圧器

Optical Transformers ( http://arxiv.org/abs/2302.10360v1 )

ライセンス: Link先を確認
Maxwell G. Anderson, Shi-Yuan Ma, Tianyu Wang, Logan G. Wright, Peter L. McMahon(参考訳) ディープラーニングモデルのサイズが急速に増加すると、デジタルコンピュータに代わるものへの関心が高まり、最先端ニューラルネットワークのエネルギーコストが劇的に削減された。 光学行列ベクトル乗算器は、非常に大きなオペランドを持つ計算に最も適しており、これは大きなトランスフォーマーモデルが光学計算に適したターゲットであることを示唆している。 このアイデアをテストするために,プロトタイプアクセラレーターを用いて小型の光学実験を行い,ノイズやエラーにもかかわらずトランスフォーマーが光ハードウェア上で動作できることを実証した。 実験により検証したシミュレーションを用いて、トランスフォーマーの光実装のエネルギー効率について検討し、光エネルギー利用に関するモデル性能のスケーリング法則を同定した。 mac (multiply-accumulate) あたりの光エネルギーは$\frac{1}{d}$でスケールし、ここで$d$ はトランスフォーマー幅であり、デジタルシステムに対する漸近的な利点である。 我々は、高度に設計された大規模光学ハードウェアで、現在最大のトランスフォーマーモデルのいくつかを実行する上で、100ドル以上のエネルギー効率の利点を達成できると結論付け、もしモデルと光学ハードウェアの両方を4次パラメータにスケールすれば、300fJ/MACを達成する最先端のデジタルエレクトロニクスプロセッサよりも、8000ドル以上のエネルギー効率の利点を持つことができると結論付けた。 我々は、これらの結果が将来の光加速器の構築にどのように動機付け、情報を与えるか分析した。 電子回路とトランスフォーマー量子化技術(5$\times$安価なメモリアクセス、デジタルアナログ変換効率の2倍、4ビット精度)の今後の進歩を前提として、現在の300fJ/MACデジタルプロセッサに対する光学コンピュータの優位性は100,000\times$と見積もった。

The rapidly increasing size of deep-learning models has caused renewed and growing interest in alternatives to digital computers to dramatically reduce the energy cost of running state-of-the-art neural networks. Optical matrix-vector multipliers are best suited to performing computations with very large operands, which suggests that large Transformer models could be a good target for optical computing. To test this idea, we performed small-scale optical experiments with a prototype accelerator to demonstrate that Transformer operations can run on optical hardware despite noise and errors. Using simulations, validated by our experiments, we then explored the energy efficiency of optical implementations of Transformers and identified scaling laws for model performance with respect to optical energy usage. We found that the optical energy per multiply-accumulate (MAC) scales as $\frac{1}{d}$ where $d$ is the Transformer width, an asymptotic advantage over digital systems. We conclude that with well-engineered, large-scale optical hardware, it may be possible to achieve a $100 \times$ energy-efficiency advantage for running some of the largest current Transformer models, and that if both the models and the optical hardware are scaled to the quadrillion-parameter regime, optical computers could have a $>8,000\times$ energy-efficiency advantage over state-of-the-art digital-electronic processors that achieve 300 fJ/MAC. We analyzed how these results motivate and inform the construction of future optical accelerators along with optics-amenable deep-learning approaches. With assumptions about future improvements to electronics and Transformer quantization techniques (5$\times$ cheaper memory access, double the digital--analog conversion efficiency, and 4-bit precision), we estimated that optical computers' advantage against current 300-fJ/MAC digital processors could grow to $>100,000\times$.
翻訳日:2023-02-22 16:52:25 公開日:2023-02-20
# replicableクラスタリング

Replicable Clustering ( http://arxiv.org/abs/2302.10359v1 )

ライセンス: Link先を確認
Hossein Esfandiari, Amin Karbasi, Vahab Mirrokni, Grigoris Velegkas, Felix Zhou(参考訳) 本稿では,最近導入された再現性の概念に基づき,統計クラスタリングの文脈で複製可能アルゴリズムを設計する。 クラスタリングアルゴリズムは、高い確率で、内部ランダム性が実行間で共有されるとき、同じ分布から引き出されたデータセットで2つの実行後に、全く同じクラスタを出力する。 そこで本研究では,統計量k$-medians,統計値k$-means,統計値k$-centers問題に対する近似ルーチンをブラックボックス方式で利用するアルゴリズムを提案する。 特に、統計的ユークリッドの$k$-medians(k$-means)に対して$\operatorname{poly}(d)$サンプル複雑性を持つレプリカブルな$O(1)$-approximationアルゴリズムを実証する。 また、統計的ユークリッド$k$-centersに対して$O(1)$-approximationアルゴリズムを付加的な$O(1)$-additive errorで記述する。

In this paper, we design replicable algorithms in the context of statistical clustering under the recently introduced notion of replicability. A clustering algorithm is replicable if, with high probability, it outputs the exact same clusters after two executions with datasets drawn from the same distribution when its internal randomness is shared across the executions. We propose such algorithms for the statistical $k$-medians, statistical $k$-means, and statistical $k$-centers problems by utilizing approximation routines for their combinatorial counterparts in a black-box manner. In particular, we demonstrate a replicable $O(1)$-approximation algorithm for statistical Euclidean $k$-medians ($k$-means) with $\operatorname{poly}(d)$ sample complexity. We also describe a $O(1)$-approximation algorithm with an additional $O(1)$-additive error for statistical Euclidean $k$-centers, albeit with $\exp(d)$ sample complexity.
翻訳日:2023-02-22 16:51:45 公開日:2023-02-20
# セキュアなコルーシオン耐性機能暗号化の証明等

Certified Everlasting Secure Collusion-Resistant Functional Encryption, and More ( http://arxiv.org/abs/2302.10354v1 )

ライセンス: Link先を確認
Taiga Hiroka and Fuyuki Kitagawa and Tomoyuki Morimae and Ryo Nishimaki and Tapas Pal and Takashi Yamakawa(参考訳) 我々は,本研究において,永久持続型セキュア関数暗号(fe)および他の多くの暗号プリミティブについて検討した。 永続セキュリティの認定は、大体以下の意味である。 量子暗号オブジェクトを有する受信機は、受信機が暗号オブジェクトを削除し、そのオブジェクトに含まれる情報が失われたことを示す証明書を発行することができる。 証明書が有効であれば、受信機が削除後に計算不能になった場合でも、セキュリティが保証される。 多くの暗号プリミティブは、量子世界においても情報理論上のセキュリティを持つことは不可能(あるいは不可能)であることが知られている。 したがって、認証された永遠のセキュリティは(量子的な)素晴らしい妥協です。 本研究では,fe,compute-and-compare obfuscation,predicate encryption (pe),secret-key encryption (ske),public-key encryption (pke), receiver non-committing encryption (rnce), garbled回路の認証を継続するセキュアバージョンを定義する。 また, 多項式サイズの回路に対して, 不明瞭な難読化や片方向関数からセキュアなコラシオン耐性公開鍵FEを適応的に証明する。 -標準PKEのNC1回路に対するセキュアな有界コラシオン耐性公開鍵FEを適応的に認定する。 - 標準の完全同型暗号化と標準のコンピュート・アンド・コンプリート難読化からセキュアなコンプリート・アンド・コンプリート難読化を認定する - 適宜(resp.、選択的に)標準のアプリート・アプリート・アプリート・PEを標準のアプリート(resp.、選択的に)・アプリート・アプリート・アプリート・アプリート・アプリート・コンプリート・アンド・コンプリート難読化を認定する。 -標準SKEとPKEからそれぞれ安全安全SKEとPKEを認定。 -標準のPKEからRNCEを継続する認証。 -標準SKEからの安全ガーブラード回路の永遠認証。

We study certified everlasting secure functional encryption (FE) and many other cryptographic primitives in this work. Certified everlasting security roughly means the following. A receiver possessing a quantum cryptographic object can issue a certificate showing that the receiver has deleted the cryptographic object and information included in the object was lost. If the certificate is valid, the security is guaranteed even if the receiver becomes computationally unbounded after the deletion. Many cryptographic primitives are known to be impossible (or unlikely) to have information-theoretical security even in the quantum world. Hence, certified everlasting security is a nice compromise (intrinsic to quantum). In this work, we define certified everlasting secure versions of FE, compute-and-compare obfuscation, predicate encryption (PE), secret-key encryption (SKE), public-key encryption (PKE), receiver non-committing encryption (RNCE), and garbled circuits. We also present the following constructions: - Adaptively certified everlasting secure collusion-resistant public-key FE for all polynomial-size circuits from indistinguishability obfuscation and one-way functions. - Adaptively certified everlasting secure bounded collusion-resistant public-key FE for NC1 circuits from standard PKE. - Certified everlasting secure compute-and-compare obfuscation from standard fully homomorphic encryption and standard compute-and-compare obfuscation - Adaptively (resp., selectively) certified everlasting secure PE from standard adaptively (resp., selectively) secure attribute-based encryption and certified everlasting secure compute-and-compare obfuscation. - Certified everlasting secure SKE and PKE from standard SKE and PKE, respectively. - Certified everlasting secure RNCE from standard PKE. - Certified everlasting secure garbled circuits from standard SKE.
翻訳日:2023-02-22 16:51:29 公開日:2023-02-20
# 変分オートエンコーディングニューラル演算子

Variational Autoencoding Neural Operators ( http://arxiv.org/abs/2302.10351v1 )

ライセンス: Link先を確認
Jacob H. Seidman, Georgios Kissas, George J. Pappas, Paris Perdikaris(参考訳) 関数型データによる教師なし学習は、コンピュータビジョン、気候モデリング、物理システムへの応用を含む機械学習研究の新たなパラダイムである。 関数データモデリングの自然な方法は、無限次元空間間の演算子を学習することで、サンプルグリッド分解とは独立にスケールする離散化不変表現をもたらす。 本稿では,大規模な演算子学習アーキテクチャを変分オートエンコーダとして機能させる一般的な戦略である,変分オートエンコードニューラルネットワーク(VANO)を提案する。 この目的のために,訓練用関数空間における変分目的の厳密な数学的定式化を提案する。 VANOはまずパラメトリックエンコーダを用いて入力関数を潜時空間上の分布にマッピングし、次に潜時分布からサンプルをデコードして、古典的変分オートエンコーダのように入力を再構成する。 様々なベンチマークの異なるモデルセットとアーキテクチャの選択でVANOをテストします。 まず、単純なガウス確率場からモデルが何を学習するかを解析的に追跡し、カーン・ヒリアード系の位相分離や地球表面の変形を測定するための実世界の衛星データを含むより困難なベンチマークへと徐々に遷移する。

Unsupervised learning with functional data is an emerging paradigm of machine learning research with applications to computer vision, climate modeling and physical systems. A natural way of modeling functional data is by learning operators between infinite dimensional spaces, leading to discretization invariant representations that scale independently of the sample grid resolution. Here we present Variational Autoencoding Neural Operators (VANO), a general strategy for making a large class of operator learning architectures act as variational autoencoders. For this purpose, we provide a novel rigorous mathematical formulation of the variational objective in function spaces for training. VANO first maps an input function to a distribution over a latent space using a parametric encoder and then decodes a sample from the latent distribution to reconstruct the input, as in classic variational autoencoders. We test VANO with different model set-ups and architecture choices for a variety of benchmarks. We start from a simple Gaussian random field where we can analytically track what the model learns and progressively transition to more challenging benchmarks including modeling phase separation in Cahn-Hilliard systems and real world satellite data for measuring Earth surface deformation.
翻訳日:2023-02-22 16:50:40 公開日:2023-02-20
# オンライン学習分子動力学を用いた内因性障害タンパク質の結合・折り畳み認識

Binding-and-folding recognition of an intrinsically disordered protein using online learning molecular dynamics ( http://arxiv.org/abs/2302.10348v1 )

ライセンス: Link先を確認
Pablo Herrera-Nieto, Adri\`a P\'erez and Gianni De Fabritiis(参考訳) 内在的に不規則なタンパク質は、他のタンパク質と結合することで多くの生物学的過程に関与する。 しかし、折り畳みと結合の過程は原子論的な観点からはよく理解されていない。 主な質問の1つは、結合の前後に折りたたみが発生するかどうかである。 ここでは,新しい非バイアス高スループット適応サンプリング法を用いて, \mbox{c-myb} の不規則なトランスアクティベーションドメインと creb 結合タンパク質の kix ドメインとの間の結合と折り畳みを再構成する。 再建された長期の動的過程は、mbox{c-Myb} 上の短いアミノ酸の結合を$\alpha$-helix として強調する。 ロイシン残基、特にLeu298からLeu302は、N末端領域のコンフォメーション選択とC末端の誘導適合を混合して、ペプチドの他の部分の結合と折り畳みを誘導する最初のネイティブ接触を確立する。

Intrinsically disordered proteins participate in many biological processes by folding upon binding with other proteins. However, coupled folding and binding processes are not well understood from an atomistic point of view. One of the main questions is whether folding occurs prior to or after binding. Here we use a novel unbiased high-throughput adaptive sampling approach to reconstruct the binding and folding between the disordered transactivation domain of \mbox{c-Myb} and the KIX domain of the CREB-binding protein. The reconstructed long-term dynamical process highlights the binding of a short stretch of amino acids on \mbox{c-Myb} as a folded $\alpha$-helix. Leucine residues, specially Leu298 to Leu302, establish initial native contacts that prime the binding and folding of the rest of the peptide, with a mixture of conformational selection on the N-terminal region with an induced fit of the C-terminal.
翻訳日:2023-02-22 16:50:20 公開日:2023-02-20
# 確率-量子対応

The Stochastic-Quantum Correspondence ( http://arxiv.org/abs/2302.10778v1 )

ライセンス: Link先を確認
Jacob A. Barandes(参考訳) 本稿では,確率過程の理論と量子論の正確な対応について述べる。 この対応はヒルベルト空間法を用いて高度に汎用的な確率力学の型を定式化するための新しい枠組みを提供する。 本論文は、古典力学と確率力学を組み合わせた物理モデルから、量子論を一般に再構築するために、反対方向の対応も用いている。 この再構成アプローチは、干渉、デコヒーレンス、絡み合い、非可換可観測物、波動関数崩壊といった量子論的現象を理解する新しい方法を開く。

This paper introduces a precise correspondence between the theory of stochastic processes and quantum theory. This correspondence provides a new framework for using Hilbert-space methods to formulate highly generic types of stochastic dynamics, with potential applications throughout the sciences. This paper also uses the correspondence in the other direction to reconstruct quantum theory in general from physical models that consist of classical kinematics combined with stochastic dynamics. This reconstruction approach opens up new ways of understanding quantum-theoretic phenomena like interference, decoherence, entanglement, noncommutative observables, and wave-function collapse.
翻訳日:2023-02-22 14:37:16 公開日:2023-02-20
# フェデレーション勾配マッチング追跡

Federated Gradient Matching Pursuit ( http://arxiv.org/abs/2302.10755v1 )

ライセンス: Link先を確認
Halyun Jeong, Deanna Needell, Jing Qin(参考訳) 従来の機械学習技術では、すべてのトレーニングデータをひとつのサーバやデータハブに集中化する必要がある。 通信技術の発展と多くのクライアント上の大量の分散データにより、協調的な機械学習は、プライバシ保護フレームワークを提供しながら大きな関心を集めている。 特にfederated learning(fl)は、トレーニングデータをローカルクライアントに保持しながら、共有モデルを学ぶためのソリューションを提供する。 一方、幅広い機械学習および信号処理アプリケーションにおいて、所望の解は自然に特定の辞書に対して疎さとみなすことができる一定の構造を持つ。 この問題は、分散性制約を伴う最適化問題として定式化することができ、効率よく解決することが、従来の集中型環境における主要な研究トピックの1つである。 本稿では,fedgradmp(federated gradient matching pursuit)という新しいアルゴリズムフレームワークを提案し,fl設定におけるスパーシティ制約最小化問題を解く。 また,本アルゴリズムは,1ラウンドあたりのクライアントのサブセットのみ参加する場合や,クライアントの局所モデル推定が不正確である場合,あるいは一般辞書に関してモデルパラメータが疎結合である場合,様々なFLシナリオに対応するように一般化する。 本理論解析は,提案アルゴリズムの線形収束性を示す。 複雑なパラメータチューニングを伴わない多くの重要なシナリオに対して,通信ラウンドと計算時間の両方において高速収束を実現するため,提案フレームワークの大きな可能性を示すために,様々な数値実験を行った。

Traditional machine learning techniques require centralizing all training data on one server or data hub. Due to the development of communication technologies and a huge amount of decentralized data on many clients, collaborative machine learning has become the main interest while providing privacy-preserving frameworks. In particular, federated learning (FL) provides such a solution to learn a shared model while keeping training data at local clients. On the other hand, in a wide range of machine learning and signal processing applications, the desired solution naturally has a certain structure that can be framed as sparsity with respect to a certain dictionary. This problem can be formulated as an optimization problem with sparsity constraints and solving it efficiently has been one of the primary research topics in the traditional centralized setting. In this paper, we propose a novel algorithmic framework, federated gradient matching pursuit (FedGradMP), to solve the sparsity constrained minimization problem in the FL setting. We also generalize our algorithms to accommodate various practical FL scenarios when only a subset of clients participate per round, when the local model estimation at clients could be inexact, or when the model parameters are sparse with respect to general dictionaries. Our theoretical analysis shows the linear convergence of the proposed algorithms. A variety of numerical experiments are conducted to demonstrate the great potential of the proposed framework -- fast convergence both in communication rounds and computation time for many important scenarios without sophisticated parameter tuning.
翻訳日:2023-02-22 14:35:41 公開日:2023-02-20
# Wav2vec 2.0に基づくASRのフェデレーション学習

Federated Learning for ASR based on Wav2vec 2.0 ( http://arxiv.org/abs/2302.10790v1 )

ライセンス: Link先を確認
Tuan Nguyen, Salima Mdhaffar, Natalia Tomashenko, Jean-Fran\c{c}ois Bonastre, Yannick Est\`eve(参考訳) 本稿では,自己管理により事前学習されたwav2vec 2.0モデルに基づくasrモデルの訓練におけるフェデレート学習の利用について検討する。 TED-Lium 3 データセットをベースとした実験により,言語モデルを用いることなく,公式のTED-Lium 3 テストセットで10.92% の単語誤り率を,異なるユーザからのデータを共有することなく得ることを示した。 また,連合学習への参加による話者のASRパフォーマンスの分析を行った。 フェデレーション学習はプライバシの目的で最初に導入されたので、スピーカーのアイデンティティを保護する能力も測定しました。 そこで本研究では,インジケータデータセット上のニューラルネットワークの足跡に基づいて,交換モデルに含まれる情報を分析する手法を提案する。 この分析は層単位で行われ、交換されたwav2vec 2.0ベースのモデルのどの層が話者識別情報をもたらすかを示す。

This paper presents a study on the use of federated learning to train an ASR model based on a wav2vec 2.0 model pre-trained by self supervision. Carried out on the well-known TED-LIUM 3 dataset, our experiments show that such a model can obtain, with no use of a language model, a word error rate of 10.92% on the official TED-LIUM 3 test set, without sharing any data from the different users. We also analyse the ASR performance for speakers depending to their participation to the federated learning. Since federated learning was first introduced for privacy purposes, we also measure its ability to protect speaker identity. To do that, we exploit an approach to analyze information contained in exchanged models based on a neural network footprint on an indicator dataset. This analysis is made layer-wise and shows which layers in an exchanged wav2vec 2.0 based model bring the speaker identity information.
翻訳日:2023-02-22 14:25:09 公開日:2023-02-20
# 関数近似による強化学習:線形から非線形へ

Reinforcement Learning with Function Approximation: From Linear to Nonlinear ( http://arxiv.org/abs/2302.09703v1 )

ライセンス: Link先を確認
Jihao Long and Jiequn Han(参考訳) 関数近似は、高次元の大きな状態空間の問題に対処するために設計された現代の強化学習アルゴリズムにおいて欠かせない要素である。 本稿では、線形あるいは非線形近似の設定における強化学習アルゴリズムの誤差解析に関する最近の結果について、近似誤差と推定誤差/サンプル複雑性に着目して概説する。 これらの特性が真である遷移確率と報酬関数に関する近似誤差と具体的な条件に関する諸特性について論じる。 強化学習におけるサンプルの複雑さは、主に分布ミスマッチ現象のため、教師付き学習に比べて分析が複雑である。 問題の線形構造を仮定した文献には, 特徴数, エピソード長, 正確性に関して, 多項式サンプル複雑性を達成するための様々なアルゴリズムが存在するが, 最小化速度はまだ達成されていない。 これらの結果は、分布ミスマッチ現象を処理できる推定誤差の$l^\infty$およびucb推定に依存する。 l^\infty$ と ucb のどちらも高い次元の精度で誤差をバインドするのに不適当であるため、問題と解析は非線形関数近似の設定においてより困難になる。 分布ミスマッチを処理し、非線形RL問題に対して有意な結果をもたらすために、異なる仮定を議論する。

Function approximation has been an indispensable component in modern reinforcement learning algorithms designed to tackle problems with large state space in high dimensions. This paper reviews the recent results on the error analysis of those reinforcement learning algorithms in the settings of linear or nonlinear approximation, with an emphasis on the approximation error and the estimation error/sample complexity. We discuss different properties related to the approximation error and concrete conditions on the transition probability and reward function under which these properties hold true. The sample complexity in reinforcement learning is more complicated for analysis compared to supervised learning, mainly due to the distribution mismatch phenomenon. With assumptions on the linear structure of the problem, there are various algorithms in the literature that can achieve polynomial sample complexity with respect to the number of features, episode length, and accuracy, although the minimax rate has not been achieved yet. These results rely on the $L^\infty$ and UCB estimation of estimation error, which can handle the distribution mismatch phenomenon. The problem and analysis become much more challenging in the setting of nonlinear function approximation since both $L^\infty$ and UCB estimation are inadequate to help bound the error with a good rate in high dimensions. We discuss different additional assumptions needed to handle the distribution mismatch and derive meaningful results for nonlinear RL problems.
翻訳日:2023-02-21 17:07:01 公開日:2023-02-20
# レバレッジレビュー:バイヤーとセラーの不確実性による価格の学習

Leveraging Reviews: Learning to Price with Buyer and Seller Uncertainty ( http://arxiv.org/abs/2302.09700v1 )

ライセンス: Link先を確認
Wenshuo Guo, Nika Haghtalab, Kirthevasan Kandasamy, Ellen Vitercik(参考訳) オンラインマーケットプレースでは、顧客は単一の製品に対する数百のレビューにアクセスできます。 購入者は、服の身長、スキンケア製品用のスキンタイプ、屋外家具の場所など、自分のタイプを共有する他の顧客からのレビューを使って、優先順位を知らないかもしれない価値を見積もることが多い。 関連するレビューがほとんどない顧客は、低価格で購入することをためらうため、売り手にとって、高い価格設定と、買い手が自信を持って自分の価値を見積もることができる十分なレビューがあることの確証との間には緊張がある。 同時に、売り手は、売りたい商品の需要を評価するためにレビューを利用することができる。 本研究では,この価格設定問題を,販売者が一連のT$ラウンドで,有限個のタイプの購入者と1対1で対話するオンライン環境で検討する。 各ラウンドにおいて、売り手はまず価格を設定する。 次に買い手が到着し、同じタイプの前の買い手のレビューを調べ、その買い手の元ポストの価値を明らかにする。 レビューに基づいて、買い手は、前者のユーティリティが肯定的であると信じる正当な理由があるかどうかを判断する。 重要なことに、売り手は、価格を設定するときの買い手のタイプや、タイプに対する分配さえ知らない。 我々は、売り手が高い収入を得るために使用できる非レグレットアルゴリズムを提供する。 d$型があると、$t$ ラウンドの後、アルゴリズムは問題に依存しない$\tilde o(t^{2/3}d^{1/3})$ regretboundを達成する。 しかしながら、任意の型が現れる最小の確率 $q_{\text{min}}$ が大きければ、特に$q_{\text{min}} \in \omega(d^{-2/3}t^{-1/3})$ の場合、同じアルゴリズムは$\tilde o(t^{1/2}q_{\text{min}}^{-1/2})$ regret bound が得られる。 これらの上限を両レジームで一致する下限で補うことにより、我々のアルゴリズムが最少で最下位の項まで最適であることを示す。

In online marketplaces, customers have access to hundreds of reviews for a single product. Buyers often use reviews from other customers that share their type -- such as height for clothing, skin type for skincare products, and location for outdoor furniture -- to estimate their values, which they may not know a priori. Customers with few relevant reviews may hesitate to make a purchase except at a low price, so for the seller, there is a tension between setting high prices and ensuring that there are enough reviews so that buyers can confidently estimate their values. Simultaneously, sellers may use reviews to gauge the demand for items they wish to sell. In this work, we study this pricing problem in an online setting where the seller interacts with a set of buyers of finitely-many types, one-by-one, over a series of $T$ rounds. At each round, the seller first sets a price. Then a buyer arrives and examines the reviews of the previous buyers with the same type, which reveal those buyers' ex-post values. Based on the reviews, the buyer decides to purchase if they have good reason to believe that their ex-ante utility is positive. Crucially, the seller does not know the buyer's type when setting the price, nor even the distribution over types. We provide a no-regret algorithm that the seller can use to obtain high revenue. When there are $d$ types, after $T$ rounds, our algorithm achieves a problem-independent $\tilde O(T^{2/3}d^{1/3})$ regret bound. However, when the smallest probability $q_{\text{min}}$ that any given type appears is large, specifically when $q_{\text{min}} \in \Omega(d^{-2/3}T^{-1/3})$, then the same algorithm achieves a $\tilde O(T^{1/2}q_{\text{min}}^{-1/2})$ regret bound. We complement these upper bounds with matching lower bounds in both regimes, showing that our algorithm is minimax optimal up to lower order terms.
翻訳日:2023-02-21 17:06:38 公開日:2023-02-20
# プライベート(確率的)非凸最適化の再検討:2次定常点と余剰リスク

Private (Stochastic) Non-Convex Optimization Revisited: Second-Order Stationary Points and Excess Risks ( http://arxiv.org/abs/2302.09699v1 )

ライセンス: Link先を確認
Arun Ganesh, Daogao Liu, Sewoong Oh, Abhradeep Thakurta(参考訳) 本稿では,非凸目標を最小化しつつ,サンプルのプライバシをトレーニングデータに保持する問題を考える。 従来の分散還元アルゴリズムであるSpiderBoostに基づいて、2種類の勾配オラクルを利用する新しいフレームワークを導入する。 1つ目の種類のオラクルは1つのポイントの勾配を見積もることができ、2番目の種類のオラクルはより正確でコスト効率が良いので、2つのポイント間の勾配差を見積もることができる。 spiderboostは定期的に、数ステップに一度だけ、最初の種類のoracleを使用しますが、私たちのフレームワークでは、全体のドリフトが大きくなり、2番目のoracleに依存するたびに、最初のoracleを使うように提案しています。 この新しいフレームワークは、勾配推定が常に正確であることを保証するため、2次静止点を見つけるための速度が向上する。 さらに, 指数関数機構を用いて非凸対象のグローバルミニマを探索するより困難な課題に対処した。 本研究は, 多項式実行時間を持つアルゴリズムのスムーズな仮定を必要とせず, 従来の経験的, 集団的リスク境界と密に一致できることを示唆する。 さらに, ランニングタイムの考慮を無視することにより, 指数的メカニズムが良好な集団リスクバウンドを実現し, ほぼ一致する低いバウンドを提供できることを示す。

We consider the problem of minimizing a non-convex objective while preserving the privacy of the examples in the training data. Building upon the previous variance-reduced algorithm SpiderBoost, we introduce a new framework that utilizes two different kinds of gradient oracles. The first kind of oracles can estimate the gradient of one point, and the second kind of oracles, less precise and more cost-effective, can estimate the gradient difference between two points. SpiderBoost uses the first kind periodically, once every few steps, while our framework proposes using the first oracle whenever the total drift has become large and relies on the second oracle otherwise. This new framework ensures the gradient estimations remain accurate all the time, resulting in improved rates for finding second-order stationary points. Moreover, we address a more challenging task of finding the global minima of a non-convex objective using the exponential mechanism. Our findings indicate that the regularized exponential mechanism can closely match previous empirical and population risk bounds, without requiring smoothness assumptions for algorithms with polynomial running time. Furthermore, by disregarding running time considerations, we show that the exponential mechanism can achieve a good population risk bound and provide a nearly matching lower bound.
翻訳日:2023-02-21 17:05:56 公開日:2023-02-20
# ブラックボックスによるバンディットとそれ以上の世界のベストを尽くすアプローチ

A Blackbox Approach to Best of Both Worlds in Bandits and Beyond ( http://arxiv.org/abs/2302.09739v1 )

ライセンス: Link先を確認
Christoph Dann, Chen-Yu Wei, Julian Zimmert(参考訳) オンライン学習のための最善の両世界のアルゴリズムは、敵対者と確率的体制の両方において、ほぼ最適の後悔を達成している。 既存の手法では、特殊ポテンシャルやアルゴリズムパラメータの注意調整など、新しい問題の設定に注意深く適応する必要があることが多い。 しかし、線形バンドイットのような領域では、確率的レジームにおいて$o(\log(t))$の後悔と、敵対的レジームで$\tilde{o}(\sqrt{t})$の後悔を同時に得るアルゴリズムが存在するかどうかはまだ不明である。 本稿では,この問題を肯定的に解決し,両世界の最善点から,フォロー・ザ・レギュラライズド・リーダー(ftrl)とオンラインミラー・ダイニング(omd)アルゴリズムの広いファミリーへと一般還元する。 我々は,コンテキストバンディット,グラフバンディット,表型マルコフ決定プロセスにおいて,最善の両世界保証を持つ新たなアルゴリズムに,最悪の保証を達成するためにのみ知られている既存のアルゴリズムを変換することで,この削減の能力を示す。

Best-of-both-worlds algorithms for online learning which achieve near-optimal regret in both the adversarial and the stochastic regimes have received growing attention recently. Existing techniques often require careful adaptation to every new problem setup, including specialised potentials and careful tuning of algorithm parameters. Yet, in domains such as linear bandits, it is still unknown if there exists an algorithm that can simultaneously obtain $O(\log(T))$ regret in the stochastic regime and $\tilde{O}(\sqrt{T})$ regret in the adversarial regime. In this work, we resolve this question positively and present a general reduction from best of both worlds to a wide family of follow-the-regularized-leader (FTRL) and online-mirror-descent (OMD) algorithms. We showcase the capability of this reduction by transforming existing algorithms that are only known to achieve worst-case guarantees into new algorithms with best-of-both-worlds guarantees in contextual bandits, graph bandits and tabular Markov decision processes.
翻訳日:2023-02-21 16:57:09 公開日:2023-02-20
# モーメントに基づくリーマン部分多様体最適化の簡易化

Simplifying Momentum-based Riemannian Submanifold Optimization ( http://arxiv.org/abs/2302.09738v1 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を伴うリーマン部分多様体の最適化は、しばしば難しい微分方程式を解く必要があるため、計算的に困難である。 我々は、アフィン不変量を持つ対称正定値行列の部分多様体に対するそのような最適化アルゴリズムを単純化する。 我々は、問題をユークリッド非制約問題に動的に自明化するリーマン正規座標の一般化版を提案する。 我々は,既存の構造共分散法を説明・単純化し,明示的な行列逆数を伴わずに,ディープラーニングのための効率的な二階最適化法を開発した。

Riemannian submanifold optimization with momentum is computationally challenging because ensuring iterates remain on the submanifold often requires solving difficult differential equations. We simplify such optimization algorithms for the submanifold of symmetric positive-definite matrices with the affine invariant metric. We propose a generalized version of the Riemannian normal coordinates which dynamically trivializes the problem into a Euclidean unconstrained problem. We use our approach to explain and simplify existing approaches for structured covariances and develop efficient second-order optimizers for deep learning without explicit matrix inverses.
翻訳日:2023-02-21 16:56:46 公開日:2023-02-20
# STOA-VLP:ビデオ言語事前学習のためのオブジェクトとアクションの空間時間モデリング

STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training ( http://arxiv.org/abs/2302.09736v1 )

ライセンス: Link先を確認
Weihong Zhong, Mao Zheng, Duyu Tang, Xuan Luo, Heng Gong, Xiaocheng Feng, Bing Qin(参考訳) 映像とテキストのグローバルアライメントを構築する大規模ビデオ言語事前学習モデルは,下流の様々なタスクにおいて著しい進歩を遂げてきたが,事前学習段階においてきめ細かい情報を導入するという考え方は十分に検討されていない。 本稿では,空間的および時間的次元にまたがるオブジェクト情報とアクション情報を協調的にモデル化する事前学習フレームワークであるstaa-vlpを提案する。 より具体的には、このモデルはフレームをまたいだオブジェクトの軌跡と、ビデオからの複数のアクション特徴をきめ細かい特徴として捉えている。 さらに,ビデオ言語モデルの事前学習プロセスに両情報をよりうまく組み込むための2つの補助タスクを設計する。 ひとつは動的オブジェクトテキストアライメントタスクで、オブジェクトのトラジェクタと関連する名詞トークンとの間のより良い接続を構築する。 2つ目は時空間のアクションセットの予測であり、これはテキストにあるアクションを予測することによって一貫したアクション特徴を生成するためにモデルを導く。 3つの下流タスク(動画キャプション、テキスト-ビデオ検索、ビデオ質問応答)に対する大規模な実験は、提案したSTOA-VLPの有効性を示している(例えば、MSR-VTTビデオキャプションベンチマークの3.7ルージュ-L、MSVDビデオ質問応答ベンチマークの2.9%の精度改善)。

Although large-scale video-language pre-training models, which usually build a global alignment between the video and the text, have achieved remarkable progress on various downstream tasks, the idea of adopting fine-grained information during the pre-training stage is not well explored. In this work, we propose STOA-VLP, a pre-training framework that jointly models object and action information across spatial and temporal dimensions. More specifically, the model regards object trajectories across frames and multiple action features from the video as fine-grained features. Besides, We design two auxiliary tasks to better incorporate both kinds of information into the pre-training process of the video-language model. The first is the dynamic object-text alignment task, which builds a better connection between object trajectories and the relevant noun tokens. The second is the spatial-temporal action set prediction, which guides the model to generate consistent action features by predicting actions found in the text. Extensive experiments on three downstream tasks (video captioning, text-video retrieval, and video question answering) demonstrate the effectiveness of our proposed STOA-VLP (e.g. 3.7 Rouge-L improvements on MSR-VTT video captioning benchmark, 2.9% accuracy improvements on MSVD video question answering benchmark, compared to previous approaches).
翻訳日:2023-02-21 16:56:35 公開日:2023-02-20
# CMVAE:教師なしメタラーニングのための因果メタVAE

CMVAE: Causal Meta VAE for Unsupervised Meta-Learning ( http://arxiv.org/abs/2302.09731v1 )

ライセンス: Link先を確認
Guodong Qi, Huimin Yu(参考訳) unsupervised meta-learningは、ラベルのないデータからメタ知識を学び、新しいタスクに迅速に適応することを目的としている。 しかし、既存のアプローチはトレーニングデータからコンテキストバイアス(背景など)によって誤解される可能性がある。 本稿では,教師なしメタラーニング問題を構造因果モデル (Structure Causal Model: SCM) に抽象化し,そのようなバイアスが隠れた共同設立者によって生じることを指摘する。 共同設立者を排除するため、前者はtextit{conditionally} 独立であると定義し、前者間の関係を学習し、それらをカジュアルな分解で介入する。 さらに,先行コードを因果空間内の潜在符号にエンコードし,それらの関係を同時に学習し,下流の少数ショット画像分類タスクを実現する因果メタvae(cmvae)を提案する。 おもちゃのデータセットと3つのベンチマークデータセットの結果から、この手法は文脈バイアスを取り除き、バイアス除去のため、他の最先端の教師なしメタラーニングアルゴリズムよりも優れています。 コードは \url{https://github.com/GuodongQi/CMVAE} で入手できる。

Unsupervised meta-learning aims to learn the meta knowledge from unlabeled data and rapidly adapt to novel tasks. However, existing approaches may be misled by the context-bias (e.g. background) from the training data. In this paper, we abstract the unsupervised meta-learning problem into a Structural Causal Model (SCM) and point out that such bias arises due to hidden confounders. To eliminate the confounders, we define the priors are \textit{conditionally} independent, learn the relationships between priors and intervene on them with casual factorization. Furthermore, we propose Causal Meta VAE (CMVAE) that encodes the priors into latent codes in the causal space and learns their relationships simultaneously to achieve the downstream few-shot image classification task. Results on toy datasets and three benchmark datasets demonstrate that our method can remove the context-bias and it outperforms other state-of-the-art unsupervised meta-learning algorithms because of bias-removal. Code is available at \url{https://github.com/GuodongQi/CMVAE}
翻訳日:2023-02-21 16:56:08 公開日:2023-02-20
# オンライン最小二乗SGDの線形関数に対する高次元中心極限定理

High-dimensional Central Limit Theorems for Linear Functionals of Online Least-Squares SGD ( http://arxiv.org/abs/2302.09727v1 )

ライセンス: Link先を確認
Bhavya Agrawalla, Krishnakumar Balasubramanian, Promit Ghosal(参考訳) 確率的勾配降下(sgd)は、データサイエンティストのツールボックスにおいて重要な手法である。 学習理論と最適化文学におけるSGDの反復複雑性(期待と高い確率)を理解するために、過去20年間に多くの進歩がなされてきた。 しかし、sgdを高スループットアプリケーションに適用するには、関連する不確かさを慎重に定量化する必要がある。 そこで本研究では,オンライン最小二乗 SGD の線型汎関数に対する高次元中心極限定理(CLT)をガウス的設計仮定の下で反復する。 本研究の主目的は,オンラインSGDの反復回数において次元が指数関数的に指数関数である場合でもCLTは成り立ち,オンラインSGDによる高次元推論を可能にすることである。 本手法は,マルティンゲール差分列用に開発されたベリー・エスセン境界を活用し,製品乱数行列に対する最近の濃度不等式の発展を通じて,必要なモーメントと二次変動項を注意深く評価するものである。 また,clt(実際に信頼区間を構築するために要求される)に現れる分散を推定し,高次元設定における一貫性を確立するためのオンライン手法を提案する。

Stochastic gradient descent (SGD) has emerged as the quintessential method in a data scientist's toolbox. Much progress has been made in the last two decades toward understanding the iteration complexity of SGD (in expectation and high-probability) in the learning theory and optimization literature. However, using SGD for high-stakes applications requires careful quantification of the associated uncertainty. Toward that end, in this work, we establish high-dimensional Central Limit Theorems (CLTs) for linear functionals of online least-squares SGD iterates under a Gaussian design assumption. Our main result shows that a CLT holds even when the dimensionality is of order exponential in the number of iterations of the online SGD, thereby enabling high-dimensional inference with online SGD. Our proof technique involves leveraging Berry-Esseen bounds developed for martingale difference sequences and carefully evaluating the required moment and quadratic variation terms through recent advances in concentration inequalities for product random matrices. We also provide an online approach for estimating the variance appearing in the CLT (required for constructing confidence intervals in practice) and establish consistency results in the high-dimensional setting.
翻訳日:2023-02-21 16:55:46 公開日:2023-02-20
# 正確かつスケーラブルな暗黙的分化のためのナイストロム法

Nystrom Method for Accurate and Scalable Implicit Differentiation ( http://arxiv.org/abs/2302.09726v1 )

ライセンス: Link先を確認
Ryuichiro Hataya and Makoto Yamada(参考訳) 暗黙微分を用いた勾配に基づく双レベル最適化の重要な難しさは、ニューラルネットワークパラメータに関する逆ヘッセンベクトル積を推定することである。 本稿では,この問題にNystrom法とWoodbury行列等式を用いて対処し,ヘッセンの低ランク性を活用することを提案する。 共役勾配やノイマン級数近似などの反復近似を用いた既存手法と比較して,提案手法は数値不安定を回避し,反復を伴わない行列演算で効率的に計算できる。 その結果,提案手法は様々なタスクで安定に動作し,反復近似よりも高速である。 大規模なハイパーパラメータ最適化やメタラーニングを含む実験を通して,Nystrom法が他の手法と同等あるいは優れた性能を確実に達成できることを実証した。 ソースコードはhttps://github.com/moskomule/hypergrad.comから入手できる。

The essential difficulty of gradient-based bilevel optimization using implicit differentiation is to estimate the inverse Hessian vector product with respect to neural network parameters. This paper proposes to tackle this problem by the Nystrom method and the Woodbury matrix identity, exploiting the low-rankness of the Hessian. Compared to existing methods using iterative approximation, such as conjugate gradient and the Neumann series approximation, the proposed method avoids numerical instability and can be efficiently computed in matrix operations without iterations. As a result, the proposed method works stably in various tasks and is faster than iterative approximations. Throughout experiments including large-scale hyperparameter optimization and meta learning, we demonstrate that the Nystrom method consistently achieves comparable or even superior performance to other approaches. The source code is available from https://github.com/moskomule/hypergrad.
翻訳日:2023-02-21 16:55:27 公開日:2023-02-20
# 未知語を強調する:エンドツーエンド音声認識のための新しい語彙獲得

Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End Speech Recognition ( http://arxiv.org/abs/2302.09723v1 )

ライセンス: Link先を確認
Leyuan Qu, Cornelius Weber and Stefan Wermter(参考訳) ヒト言語の動的な性質のため、自動音声認識(ASR)システムは新たな語彙を継続的に取得する必要がある。 トレンディングワードや新しい名前を持つエンティティなどのOf-Vocabulary(OOV)ワードは、多数のパラメータを適応するために長いトレーニング時間を必要とする現代のASRシステムに問題を引き起こす。 言語モデル後処理に焦点をあてたこれまでの研究とは違って、より早い処理レベルでこの問題に取り組み、音響モデリングにおけるバイアスを排除し、OOV単語を音響的に認識する。 我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。 具体的には、これまでに訓練された合成音声モデルにおいて、OV単語(文レベル)を含む発話のニューラルネットワークのパラメータのトレーニングや、OOV単語(語レベル)のバックプロパゲーションに使用される勾配の再スケールに使用する分類損失を拡大する。 また, 損失再スケーリングとモデル正規化(L2正則化と弾性重み強化(EWC))の組み合わせについても検討した。 合成音声をEWCで微調整する従来の手法と比較して,提案手法による損失再スケーリング手法は,単語誤り率をわずかに低下させるだけで,リコール率を大幅に向上できることを示した。 さらに、単語レベルの再スケーリングは発話レベルの再スケーリングよりも安定しており、OOVワード認識におけるリコール率と精度が向上する。 さらに,ASRシステムの継続学習を支援するために,損失再スケーリングと重み強化を組み合わせた手法を提案する。

Due to the dynamic nature of human language, automatic speech recognition (ASR) systems need to continuously acquire new vocabulary. Out-Of-Vocabulary (OOV) words, such as trending words and new named entities, pose problems to modern ASR systems that require long training times to adapt their large numbers of parameters. Different from most previous research focusing on language model post-processing, we tackle this problem on an earlier processing level and eliminate the bias in acoustic modeling to recognize OOV words acoustically. We propose to generate OOV words using text-to-speech systems and to rescale losses to encourage neural networks to pay more attention to OOV words. Specifically, we enlarge the classification loss used for training neural networks' parameters of utterances containing OOV words (sentence-level), or rescale the gradient used for back-propagation for OOV words (word-level), when fine-tuning a previously trained model on synthetic audio. To overcome catastrophic forgetting, we also explore the combination of loss rescaling and model regularization, i.e. L2 regularization and elastic weight consolidation (EWC). Compared with previous methods that just fine-tune synthetic audio with EWC, the experimental results on the LibriSpeech benchmark reveal that our proposed loss rescaling approach can achieve significant improvement on the recall rate with only a slight decrease on word error rate. Moreover, word-level rescaling is more stable than utterance-level rescaling and leads to higher recall rates and precision on OOV word recognition. Furthermore, our proposed combined loss rescaling and weight consolidation methods can support continual learning of an ASR system.
翻訳日:2023-02-21 16:55:11 公開日:2023-02-20
# 葉の果実を見る: リンゴの果実の薄肉化に向けて

Seeing the Fruit for the Leaves: Towards Automated Apple Fruitlet Thinning ( http://arxiv.org/abs/2302.09716v1 )

ライセンス: Link先を確認
Ans Qureshi, Neville Loh, Young Min Kwon, David Smith, Trevor Gee, Oliver Bachelor, Josh McCulloch, Mahla Nejati, JongYoon Lim, Richard Green, Ho Seok Ahn, Bruce MacDonald, Henry Williams(参考訳) グローバルな傾向を受けて、熟練労働者への信頼できるアクセスの欠如が、リンゴ果樹園の効果的な管理に重大な問題を引き起こしている。 主な課題の1つは、正確な果実の薄片決定ができる熟練した人間操作者の維持である。 薄型化には、個々のリンゴ樹の真の作物負荷を正確に測定し、最適な薄型化決定を個別に行う必要がある。 木構造内の果実を隠蔽する濃厚な葉が原因の課題である。 本稿では,このニーズを満たすために,リンゴ果実の薄型化ロボットの視覚システムの初期設計,実装,評価の詳細について述べる。 プラットフォームはUR5ロボットアームとステレオカメラで構成されており、葉を見回してリンゴの枝の果実の正確な数と大きさを地図化することができる。 このプラットホームは、実世界の市販のリンゴ果樹園では84%の精度で、しかも87%の精度で、リンゴの木の果実の負荷を計測できる。

Following a global trend, the lack of reliable access to skilled labour is causing critical issues for the effective management of apple orchards. One of the primary challenges is maintaining skilled human operators capable of making precise fruitlet thinning decisions. Thinning requires accurately measuring the true crop load for individual apple trees to provide optimal thinning decisions on an individual basis. A challenging task due to the dense foliage obscuring the fruitlets within the tree structure. This paper presents the initial design, implementation, and evaluation details of the vision system for an automatic apple fruitlet thinning robot to meet this need. The platform consists of a UR5 robotic arm and stereo cameras which enable it to look around the leaves to map the precise number and size of the fruitlets on the apple branches. We show that this platform can measure the fruitlet load on the apple tree to with 84% accuracy in a real-world commercial apple orchard while being 87% precise.
翻訳日:2023-02-21 16:54:41 公開日:2023-02-20
# 前後に何が起こるか:イベントコリファレンス解決におけるマルチイベントコモンセンス

What happens before and after: Multi-Event Commonsense in Event Coreference Resolution ( http://arxiv.org/abs/2302.09715v1 )

ライセンス: Link先を確認
Sahithya Ravi, Chris Tanner, Raymond Ng, Vered Shwarz(参考訳) イベントコリファレンスモデル クラスタイベントは、同じ現実世界のイベントに関連するものだ。 最近のモデルは、語彙的または文脈的に類似した言及間の相互参照を認識するために文脈化された表現に依存している。 しかし、モデルは通常コモンセンス推論の活用に失敗し、特に語彙分割の言及の解決に制限される。 本稿では,イベント参照を時間的コモンセンス推論で拡張するモデルを提案する。 例えば、「男は妻を殺し、逮捕された」といった複雑な刑期が与えられ、ターゲットイベントは「逮捕」され、我々のモデルは「警察が到着した」など、対象イベントの前に起こり、その後に「判決」が下された。 このような推論を既存のイベントコリファレンスモデルに組み込むことで、そのパフォーマンスが向上することを示すとともに、時間的知識が必要なコリファレンスの分析を行う。

Event coreference models cluster event mentions pertaining to the same real-world event. Recent models rely on contextualized representations to recognize coreference among lexically or contextually similar mentions. However, models typically fail to leverage commonsense inferences, which is particularly limiting for resolving lexically-divergent mentions. We propose a model that extends event mentions with temporal commonsense inferences. Given a complex sentence with multiple events, e.g., "The man killed his wife and got arrested", with the target event "arrested", our model generates plausible events that happen before the target event - such as "the police arrived", and after it, such as "he was sentenced". We show that incorporating such inferences into an existing event coreference model improves its performance, and we analyze the coreferences in which such temporal knowledge is required.
翻訳日:2023-02-21 16:54:27 公開日:2023-02-20
# ニューラルネットワークの深さ縮退:初期化における完全連結reluネットワークの消失角

Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization ( http://arxiv.org/abs/2302.09712v1 )

ライセンス: Link先を確認
Cameron Jakub and Mihai Nica(参考訳) 多くの層を積み重ねて真のディープニューラルネットワークを構築することが、この方法の最近の爆発につながったことは間違いない。 しかし、ディープニューラルネットワークの多くの特性はまだ理解されていない。 ネットワークが深ければ深いほど、ネットワークは初期化時に一定の機能に近づきます。 本稿では,層数の関数としてのReLUニューラルネットワークに対する2つの入力間の角度の進化について検討する。 組合せ展開を用いることで、深さが増加するにつれてこの角度がゼロになる速度の正確な公式が見つかる。 我々の公式は無限幅制限の一般的な枠組みでは見えない微視的ゆらぎを捉えるが、予測された振る舞いには大きな影響を与える。 公式は、ReLU関数を通過した相関ガウスの混合モーメントの観点から与えられる。 また、これらの混合モーメントとベッセル数の間には驚くべき組合せ関係がある。

Stacking many layers to create truly deep neural networks is arguably what has led to the recent explosion of these methods. However, many properties of deep neural networks are not yet understood. One such mystery is the depth degeneracy phenomenon: the deeper you make your network, the closer your network is to a constant function on initialization. In this paper, we examine the evolution of the angle between two inputs to a ReLU neural network as a function of the number of layers. By using combinatorial expansions, we find precise formulas for how fast this angle goes to zero as depth increases. Our formulas capture microscopic fluctuations that are not visible in the popular framework of infinite width limits, and yet have a significant effect on predicted behaviour. The formulas are given in terms of the mixed moments of correlated Gaussians passed through the ReLU function. We also find a surprising combinatorial connection between these mixed moments and the Bessel numbers.
翻訳日:2023-02-21 16:54:09 公開日:2023-02-20
# 単体画像詳細強調におけるメトロポリス理論とその応用

Metropolis Theorem and Its Applications in Single Image Detail Enhancement ( http://arxiv.org/abs/2302.09762v1 )

ライセンス: Link先を確認
He Jiang, Mujtaba Asad, Jingjing Liu, Haoxiang Zhang, Deqiang Cheng(参考訳) 従来の画像詳細強調は、ローカルフィルタベースまたはグローバルフィルタベースである。 どちらのアプローチでも、元の画像をまずベース層とディテール層に分割し、ディテール層を増幅して強化画像を得る。 我々の手法は異なり、その革新は画像の詳細層を得るための特別な方法にあります。 本手法では,残像の更新により詳細層が得られ,更新機構は通常,類似したパッチの検索とマッチングに基づいて行われる。 しかし、画像テクスチャの多様性のため、完全マッチングは不可能であることが多い。 本稿では,メトロポリスの定理が内部エネルギーを最小化し,この課題のグローバルな最適解が得られる熱力学的プロセスとして,探索とマッチングのプロセスが扱われる。 広範な実験により, 定量的メトリクス検査と視覚効果評価において, アルゴリズムがよりよい結果が得られることが証明された。 ソースコードはリンクから取得できる。

Traditional image detail enhancement is local filter-based or global filter-based. In both approaches, the original image is first divided into the base layer and the detail layer, and then the enhanced image is obtained by amplifying the detail layer. Our method is different, and its innovation lies in the special way to get the image detail layer. The detail layer in our method is obtained by updating the residual features, and the updating mechanism is usually based on searching and matching similar patches. However, due to the diversity of image texture features, perfect matching is often not possible. In this paper, the process of searching and matching is treated as a thermodynamic process, where the Metropolis theorem can minimize the internal energy and get the global optimal solution of this task, that is, to find a more suitable feature for a better detail enhancement performance. Extensive experiments have proven that our algorithm can achieve better results in quantitative metrics testing and visual effects evaluation. The source code can be obtained from the link.
翻訳日:2023-02-21 16:48:06 公開日:2023-02-20
# 認知移動ロボットにおけるモチベーションモデルによるゴールベース運動の学習

Learning Goal-based Movement via Motivational-based Models in Cognitive Mobile Robots ( http://arxiv.org/abs/2302.09759v1 )

ライセンス: Link先を確認
Let\'icia Berto, Paula Costa, Alexandre Sim\~oes, Ricardo Gudwin and Esther Colombini(参考訳) 人間は強さや文脈に応じて行動に動機づける必要がある。 しかし、私たちはまた、時間とともに変化しうる、各アクションの知覚された快楽に関連する嗜好も生み出します。 これにより、意思決定がより複雑になり、コンテキストに応じてニーズと好みのバランスを取る必要がある。 このプロセスがどのように機能するかを理解し,モチベーションに基づく学習モデルを用いたロボットの開発を可能にするために,ハルが提唱したモチベーション理論を計算的にモデル化する。 このモデルでは、エージェント(移動ロボットの抽象化)は、ホメオスタシス状態に保つことを動機としている。 我々は、好みが意思決定にどう影響するかを調べるため、ヘドニック次元を追加し、モチベーションに基づくエージェントのトレーニングに強化学習を採用した。 2つの異なる環境で異なる代謝を示すエネルギー減衰率を持つ3つのエージェントを実行し、その戦略、運動、行動への影響を観察した。 その結果, その代謝に応じて選択がより適切に行える環境において, エージェントはより良い戦略を学習した。 動機づけメカニズムにおける快楽の使用は、主に低代謝剤に対する行動学習に大きな影響を及ぼした。 生存が危険である場合、エージェントは快楽と均衡を無視し、厳しいシナリオでどのように振る舞うかを示唆する。

Humans have needs motivating their behavior according to intensity and context. However, we also create preferences associated with each action's perceived pleasure, which is susceptible to changes over time. This makes decision-making more complex, requiring learning to balance needs and preferences according to the context. To understand how this process works and enable the development of robots with a motivational-based learning model, we computationally model a motivation theory proposed by Hull. In this model, the agent (an abstraction of a mobile robot) is motivated to keep itself in a state of homeostasis. We added hedonic dimensions to see how preferences affect decision-making, and we employed reinforcement learning to train our motivated-based agents. We run three agents with energy decay rates representing different metabolisms in two different environments to see the impact on their strategy, movement, and behavior. The results show that the agent learned better strategies in the environment that enables choices more adequate according to its metabolism. The use of pleasure in the motivational mechanism significantly impacted behavior learning, mainly for slow metabolism agents. When survival is at risk, the agent ignores pleasure and equilibrium, hinting at how to behave in harsh scenarios.
翻訳日:2023-02-21 16:47:49 公開日:2023-02-20
# 不均一ネットワークにおける動的マッチングの連続時間解析

Continuous Time Analysis of Dynamic Matching in Heterogeneous Networks ( http://arxiv.org/abs/2302.09757v1 )

ライセンス: Link先を確認
Xiaowu Dai and Hengzhi He(参考訳) 本稿では,エージェントが互換性制限と確率的到着・出発時間を受ける異種ネットワークにおける動的マッチングの問題について述べる。 特に,一種類の使い易いエージェントと複数種類の使い易いエージェントを持つネットワークについて検討し,それぞれに独自の互換性制約を課す。 このような設定は、腎臓交換プログラムやカープールプラットフォームなど、現実世界の多くのアプリケーションで発生し、一部の参加者は、他の参加者よりも厳密な互換性要件を持つ可能性がある。 本稿では,正規微分方程式(ode)モデルを確立することによって,動的マッチングをモデル化する新しい手法を提案する。 本研究では,不均質ネットワークにおいて,適合性のあるハード・トゥ・マッチエージェントと容易・マッチ・エージェントのマッチングを優先するグリーディアルゴリズムと患者アルゴリズムの2つのアルゴリズムについて検討した。 この結果から,エージェントの相反する目標間のトレードオフを迅速かつ最適に示し,実世界の動的マッチングシステムの設計に関する洞察を提供する。 本稿では,Organ Procurement and Transplantation Networkのデータを用いたシミュレーションと実世界のケーススタディを行い,理論的予測を検証した。

This paper addresses the problem of dynamic matching in heterogeneous networks, where agents are subject to compatibility restrictions and stochastic arrival and departure times. In particular, we consider networks with one type of easy-to-match agents and multiple types of hard-to-match agents, each subject to its own set of compatibility constraints. Such a setting arises in many real-world applications, including kidney exchange programs and carpooling platforms, where some participants may have more stringent compatibility requirements than others. We introduce a novel approach to modeling dynamic matching by establishing ordinary differential equation (ODE) models, offering a new perspective for evaluating various matching algorithms. We study two algorithms, the Greedy Algorithm and the Patient Algorithm, which prioritize the matching of compatible hard-to-match agents over easy-to-match agents in heterogeneous networks. Our results show the trade-off between the conflicting goals of matching agents quickly and optimally, offering insights into the design of real-world dynamic matching systems. We present simulations and a real-world case study using data from the Organ Procurement and Transplantation Network to validate theoretical predictions.
翻訳日:2023-02-21 16:47:29 公開日:2023-02-20
# 半教師付きノード分類のための信頼度に基づくサブグラフマッチングによる親和性近傍の探索

Finding Heterophilic Neighbors via Confidence-based Subgraph Matching for Semi-supervised Node Classification ( http://arxiv.org/abs/2302.09755v1 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフベースのアプリケーションで強力であることが証明されている。 しかし、近隣ノードが異なるラベルを持つヘテロ親和的な設定では、うまく一般化できない。 この課題に対処するために、エッジの一部が相反する(ヘテロ親和性)ことを前提として、信頼率を超パラメータとして採用する。 本稿では,二相アルゴリズムを提案する。 まず,補足モジュールを用いた部分グラフマッチングによりエッジ係数を決定する。 次に, エッジ係数を効果的に活用するために, 改良ラベル伝搬機構をgnnに適用する。 具体的には,与えられた信頼率に基づいてタスク関連エッジの一定割合を補足モジュールで特定する。 残りのエッジを用いて,2つのノード間の類似度をサブグラフで測定するために,広く使用される最適トランスポートを用いる。 最後に,GNNの補足情報として係数を用いることで,より小さな重みを持つ2ノードの接近を防止するラベル伝搬機構を改善する。 ベンチマークデータセットにおける実験は、モデルが過剰動作を緩和し、パフォーマンスが向上することを示している。

Graph Neural Networks (GNNs) have proven to be powerful in many graph-based applications. However, they fail to generalize well under heterophilic setups, where neighbor nodes have different labels. To address this challenge, we employ a confidence ratio as a hyper-parameter, assuming that some of the edges are disassortative (heterophilic). Here, we propose a two-phased algorithm. Firstly, we determine edge coefficients through subgraph matching using a supplementary module. Then, we apply GNNs with a modified label propagation mechanism to utilize the edge coefficients effectively. Specifically, our supplementary module identifies a certain proportion of task-irrelevant edges based on a given confidence ratio. Using the remaining edges, we employ the widely used optimal transport to measure the similarity between two nodes with their subgraphs. Finally, using the coefficients as supplementary information on GNNs, we improve the label propagation mechanism which can prevent two nodes with smaller weights from being closer. The experiments on benchmark datasets show that our model alleviates over-smoothing and improves performance.
翻訳日:2023-02-21 16:47:09 公開日:2023-02-20
# 機械学習のためのVQE生成量子回路データセット

VQE-generated Quantum Circuit Dataset for Machine Learning ( http://arxiv.org/abs/2302.09751v1 )

ライセンス: Link先を確認
Akimoto Nakayama, Kosuke Mitarai, Leonardo Placidi, Takanori Sugimoto, Keisuke Fujii(参考訳) 量子機械学習は、古典的な機械学習を計算的に上回る可能性を秘めているが、実際に現実的な問題に価値があるかどうかはまだ分かっていない。 いくつかの人工的なシナリオでは、特定の量子機械学習技術が従来のものに比べて有利である可能性が示されているが、量子機械学習がmnistのようなポピュラーな古典的データセットの伝統的な手法を上回っている可能性は低い。 対照的に、量子状態や回路のような量子データを扱うことは、量子手法の恩恵を受けることができるタスクであるかもしれない。 したがって、量子手法が優れていると期待する実用的な量子データセットを開発することが重要である。 本稿では,量子回路のクラスタリングと分類という,現実の世界でまもなく発生するであろう機械学習タスクを提案する。 変動量子固有解法により最適化された量子回路のデータセットを提供する。 我々は、凝縮物質物理学において6つの一般的な種類のハミルトンを4から16キュービットの範囲で利用し、それぞれ300のサンプルを含む6つの異なるクラスの量子回路データセットを生成するために、深さの異なる10種類のアンス\"{a}tzeを適用した。 このデータセットは量子的手法で容易に学習できることを示す。 特に、IBMQを通じて利用可能な実際の4ビットデバイスを用いて、データセットの分類に成功したことを実証する。 量子機械学習が有益な設定と基本データセットを提供することで、フィールドの進歩を奨励し、緩和したいと思っています。

Quantum machine learning has the potential to computationally outperform classical machine learning, but it is not yet clear whether it will actually be valuable for practical problems. While some artificial scenarios have shown that certain quantum machine learning techniques may be advantageous compared to their classical counterpart, it is unlikely that quantum machine learning will outclass traditional methods on popular classical datasets such as MNIST. In contrast, dealing with quantum data, such as quantum states or circuits, may be the task where we can benefit from quantum methods. Therefore, it is important to develop practically meaningful quantum datasets for which we expect quantum methods to be superior. In this paper, we propose a machine learning task that is likely to soon arise in the real world: clustering and classification of quantum circuits. We provide a dataset of quantum circuits optimized by the variational quantum eigensolver. We utilized six common types of Hamiltonians in condensed matter physics, with a range of 4 to 16 qubits, and applied ten different ans\"{a}tze with varying depths (ranging from 3 to 32) to generate a quantum circuit dataset of six distinct classes, each containing 300 samples. We show that this dataset can be easily learned using quantum methods. In particular, we demonstrate a successful classification of our dataset using real 4-qubit devices available through IBMQ. By providing a setting and an elementary dataset where quantum machine learning is expected to be beneficial, we hope to encourage and ease the advancement of the field.
翻訳日:2023-02-21 16:46:53 公開日:2023-02-20
# dynamic simplex: 自律サイバー物理システムにおける安全性とパフォーマンスのバランス

Dynamic Simplex: Balancing Safety and Performance in Autonomous Cyber Physical Systems ( http://arxiv.org/abs/2302.09750v1 )

ライセンス: Link先を確認
Baiting Luo, Shreyas Ramakrishna, Ava Pettet, Christopher Kuhn, Gabor Karsai, Ayan Mukhopadhyay(参考訳) 学習可能コンポーネント(LEC)は、より高いレベルの自律性を達成するために、サイバー物理システムを大いに助けてきた。 しかし、LECの動的かつ不確実な動作条件への感受性は、これらのシステムの安全性にとって重要な課題である。 このような状況において、冗長コントローラアーキテクチャは安全性を保証するために広く採用されている。 これらのアーキテクチャにより、LECの"パフォーマンス"コントローラが強化され、"安全"コントローラで検証しにくくなり、その間の切り替えが決定される。 これらのアーキテクチャは安全性を保証するが、2つの制限を指摘した。 まず、システムの安全性を維持するコントローラを常に選択する保守的なポリシーを学習するためにオフラインでトレーニングされ、システムの動的および非定常環境への適応性を制限する。 第2に、安全に対する脅威がもはや存在しない場合でも、安全制御装置からパフォーマンスコントローラへのリバーススイッチをサポートしない。 これらの制約に対処するため,オンラインコントローラスイッチングロジックを用いた動的シンプル化戦略を提案し,双方向スイッチングを実現する。 スイッチングをシーケンシャルな意思決定問題として検討し,半マルコフ決定プロセスとしてモデル化する。 安全性と性能のバランスをとるために,サロゲートモデル(フォワードスイッチ)と非ミオピックプランナー(リバーススイッチ)を用いたミオピックセレクタの組み合わせを利用する。 我々は、異なる運転条件、位置、部品故障を用いたCARLAシミュレーターにおける自動運転車ケーススタディを用いてこのアプローチを評価する。 提案手法は,最先端の代替品よりも衝突が少なく,高い性能をもたらすことを示す。

Learning Enabled Components (LEC) have greatly assisted cyber-physical systems in achieving higher levels of autonomy. However, LEC's susceptibility to dynamic and uncertain operating conditions is a critical challenge for the safety of these systems. Redundant controller architectures have been widely adopted for safety assurance in such contexts. These architectures augment LEC "performant" controllers that are difficult to verify with "safety" controllers and the decision logic to switch between them. While these architectures ensure safety, we point out two limitations. First, they are trained offline to learn a conservative policy of always selecting a controller that maintains the system's safety, which limits the system's adaptability to dynamic and non-stationary environments. Second, they do not support reverse switching from the safety controller to the performant controller, even when the threat to safety is no longer present. To address these limitations, we propose a dynamic simplex strategy with an online controller switching logic that allows two-way switching. We consider switching as a sequential decision-making problem and model it as a semi-Markov decision process. We leverage a combination of a myopic selector using surrogate models (for the forward switch) and a non-myopic planner (for the reverse switch) to balance safety and performance. We evaluate this approach using an autonomous vehicle case study in the CARLA simulator using different driving conditions, locations, and component failures. We show that the proposed approach results in fewer collisions and higher performance than state-of-the-art alternatives.
翻訳日:2023-02-21 16:46:28 公開日:2023-02-20
# ニューラルネットワーク探索アンサンブルを用いた深層学習に基づく予測とフロー再構成のための不確かさの定量化

Quantifying uncertainty for deep learning based forecasting and flow-reconstruction using neural architecture search ensembles ( http://arxiv.org/abs/2302.09748v1 )

ライセンス: Link先を確認
Romit Maulik, Romain Egele, Krishnan Raghavan, Prasanna Balaprakash(参考訳) データ駆動予測やスパースセンサーからの信号再構成といった計算物理学における古典的な問題は、最近ディープニューラルネットワーク(DNN)ベースのアルゴリズムアプローチが爆発的に増加した。 しかし、ほとんどのDNNモデルは、下流の意思決定タスクやシナリオにおいてこれらの手法の信頼性を確立するために重要な不確実性推定を提供していない。 近年,多くのベンチマーク問題に対するDNNの不確実性定量化において,アンサンブルに基づく手法は大きな成功を収めている。 しかし、実世界のアプリケーションでのパフォーマンスは未調査のままである。 本研究では,DNN発見の自動化手法を提案するとともに,アンサンブルに基づく不確実性定量化にも有効であることを示す。 具体的には、拡張性のあるニューラルネットワークとハイパーパラメータアーキテクチャを用いて、複雑な力学系に対するDNNモデルのアンサンブルを発見することを提案する。 提案手法は,タスクの高パフォーマンスニューラルネットワークアンサンブルを検出するだけでなく,不確実性をシームレスに定量化する。 これは、ニューラルネットワークアーキテクチャとハイパーパラメータの探索空間をサンプリングするために遺伝的アルゴリズムとベイズ最適化を用いることによって達成される。 その後、モデル選択アプローチを用いてアンサンブル集合構成の候補モデルを特定する。 その後、分散分解法を用いて、アンサンブルから予測の不確かさを推定する。 本研究では, 歴史的データからの予測と, 海面温度のスパースセンサからのフロー再構成という2つの課題に対して, この枠組みの有効性を実証する。 我々は、個々のハイパフォーマンスモデルや他のベンチマークと対照的に、アンサンブルの優れた性能を示す。

Classical problems in computational physics such as data-driven forecasting and signal reconstruction from sparse sensors have recently seen an explosion in deep neural network (DNN) based algorithmic approaches. However, most DNN models do not provide uncertainty estimates, which are crucial for establishing the trustworthiness of these techniques in downstream decision making tasks and scenarios. In recent years, ensemble-based methods have achieved significant success for the uncertainty quantification in DNNs on a number of benchmark problems. However, their performance on real-world applications remains under-explored. In this work, we present an automated approach to DNN discovery and demonstrate how this may also be utilized for ensemble-based uncertainty quantification. Specifically, we propose the use of a scalable neural and hyperparameter architecture search for discovering an ensemble of DNN models for complex dynamical systems. We highlight how the proposed method not only discovers high-performing neural network ensembles for our tasks, but also quantifies uncertainty seamlessly. This is achieved by using genetic algorithms and Bayesian optimization for sampling the search space of neural network architectures and hyperparameters. Subsequently, a model selection approach is used to identify candidate models for an ensemble set construction. Afterwards, a variance decomposition approach is used to estimate the uncertainty of the predictions from the ensemble. We demonstrate the feasibility of this framework for two tasks - forecasting from historical data and flow reconstruction from sparse sensors for the sea-surface temperature. We demonstrate superior performance from the ensemble in contrast with individual high-performing models and other benchmarks.
翻訳日:2023-02-21 16:46:06 公開日:2023-02-20
# PriSTI:時空間インプットのための条件拡散フレームワーク

PriSTI: A Conditional Diffusion Framework for Spatiotemporal Imputation ( http://arxiv.org/abs/2302.09746v1 )

ライセンス: Link先を確認
Mingzhe Liu, Han Huang, Hao Feng, Leilei Sun, Bowen Du, Yanjie Fu(参考訳) 時空間データマイニングは,大気質モニタリング,クラウドフローモデリング,気候予報において重要な役割を担っている。 しかし、現実のシナリオで収集された時空間データは、センサーの故障や伝送損失のために通常不完全である。 時空間的インプテーションは、観測された値とそれらの時空間的依存に応じて欠落した値を満たすことを目的としている。 以前の支配的モデルは、自己回帰的に値の欠落を引き起こし、エラー蓄積の問題に苦しむ。 強力な生成モデルが出現するにつれて、拡散確率モデルは、観測によって条件づけられた欠落値や、不正確な歴史的含意からの欠落値の推測を避けるために用いられる。 しかし,時空間計算に拡散モデルを適用する場合,条件情報の構築と利用は避けられない課題である。 上記の問題に対処するため,PriSTIという事前モデリングを改良した時空間計算のための条件拡散フレームワークを提案する。 提案フレームワークは条件付き特徴抽出モジュールを提供し,まず条件付き情報から不規則かつ有効な時空間的依存関係をグローバルコンテキストとして抽出する。 そして、雑音推定モジュールは、条件付き特徴によって計算された時空間的注意重みと地理的関係を考慮したランダムノイズを現実的な値に変換する。 PriSTIは、様々な現実世界の時空間データの欠落パターンにおいて既存の計算方法よりも優れており、高い欠落率やセンサーの故障といったシナリオを効果的に処理する。 実装コードはhttps://github.com/lmzzml/pristiで入手できる。

Spatiotemporal data mining plays an important role in air quality monitoring, crowd flow modeling, and climate forecasting. However, the originally collected spatiotemporal data in real-world scenarios is usually incomplete due to sensor failures or transmission loss. Spatiotemporal imputation aims to fill the missing values according to the observed values and the underlying spatiotemporal dependence of them. The previous dominant models impute missing values autoregressively and suffer from the problem of error accumulation. As emerging powerful generative models, the diffusion probabilistic models can be adopted to impute missing values conditioned by observations and avoid inferring missing values from inaccurate historical imputation. However, the construction and utilization of conditional information are inevitable challenges when applying diffusion models to spatiotemporal imputation. To address above issues, we propose a conditional diffusion framework for spatiotemporal imputation with enhanced prior modeling, named PriSTI. Our proposed framework provides a conditional feature extraction module first to extract the coarse yet effective spatiotemporal dependencies from conditional information as the global context prior. Then, a noise estimation module transforms random noise to realistic values, with the spatiotemporal attention weights calculated by the conditional feature, as well as the consideration of geographic relationships. PriSTI outperforms existing imputation methods in various missing patterns of different real-world spatiotemporal data, and effectively handles scenarios such as high missing rates and sensor failure. The implementation code is available at https://github.com/LMZZML/PriSTI.
翻訳日:2023-02-21 16:45:42 公開日:2023-02-20
# 情動条件付き画像生成

Affect-Conditioned Image Generation ( http://arxiv.org/abs/2302.09742v1 )

ライセンス: Link先を確認
Francisco Ibarrola, Rohan Lulham and Kazjon Grace(参考訳) クリエイティビティ支援と計算共同創造性コンテキストでは、テキストから画像への生成モデルで使用する適切なプロンプトを見つける作業は依然として困難である。 多くの場合、作者はイメージにある種の印象を与えたいがるが、テキストで簡潔に表現するタスクは、課題を提起する: 情緒的言語は、ニュアンスがあり、複雑で、モデル特有のものである。 本稿では,テキスト記述の条件付けと組み合わせた心理計測的検証3成分法を用いて,所望の情動に基づく画像を生成する手法を提案する。 まず、セマンティック埋め込みからテキストや画像の影響内容を推定するためにニューラルネットワークをトレーニングし、それを様々な生成モデルを制御するためにどのように使用できるかを実証する。 本研究では, 出力の変化に対する影響の例を示し, 定量的かつ質的な分析を行い, 拡張可能性やユースケースについて議論する。

In creativity support and computational co-creativity contexts, the task of discovering appropriate prompts for use with text-to-image generative models remains difficult. In many cases the creator wishes to evoke a certain impression with the image, but the task of conferring that succinctly in a text prompt poses a challenge: affective language is nuanced, complex, and model-specific. In this work we introduce a method for generating images conditioned on desired affect, quantified using a psychometrically validated three-component approach, that can be combined with conditioning on text descriptions. We first train a neural network for estimating the affect content of text and images from semantic embeddings, and then demonstrate how this can be used to exert control over a variety of generative models. We show examples of how affect modifies the outputs, provide quantitative and qualitative analysis of its capabilities, and discuss possible extensions and use cases.
翻訳日:2023-02-21 16:45:15 公開日:2023-02-20
# 流体力学schr\"odinger方程式を用いた流体力学の量子計算

Quantum computing of fluid dynamics using the hydrodynamic Schr\"odinger equation ( http://arxiv.org/abs/2302.09741v1 )

ライセンス: Link先を確認
Zhaoyuan Meng and Yue Yang(参考訳) 量子コンピュータ上での流体力学のシミュレーションは、navier-stokes方程式(nse)の非線形および非ハミルトニアン性のため、本質的に困難である。 本研究では,流体力学における流体力学の量子計算を流体力学的シュリンガー方程式 (HSE) に基づいて提案し,様々な工学的応用における三次元乱流のシミュレーションに有効であることを示す。 HSEはMadelung変換を有限渦と散逸を伴う圧縮・非圧縮性流れに一般化することによって導出される。 HSEは2成分波動関数上のユニタリ演算子として表されるので、量子コンピューティングのNSEよりも適している。 HSEが支配する流れは、エネルギースペクトルの5/3のスケールで絡み合った渦管からなる乱流に似ている。 我々はHSEを解くための予測補正量子アルゴリズムを開発した。 このアルゴリズムは指数的高速化を伴う量子シミュレータQiskit上の単純な流れに対して実装されている。

Simulating fluid dynamics on a quantum computer is intrinsically difficult due to the nonlinear and non-Hamiltonian nature of the Navier-Stokes equation (NSE). We propose a framework for quantum computing of fluid dynamics based on the hydrodynamic Schr\"odinger equation (HSE), which can be promising in simulating three-dimensional turbulent flows in various engineering applications. The HSE is derived by generalizing the Madelung transform to compressible/incompressible flows with finite vorticity and dissipation. Since the HSE is expressed as a unitary operator on a two-component wave function, it is more suitable than the NSE for quantum computing. The flow governed by the HSE can resemble a turbulent flow consisting of tangled vortex tubes with the five-thirds scaling of energy spectrum. We develop a prediction-correction quantum algorithm to solve the HSE. This algorithm is implemented for simple flows on the quantum simulator Qiskit with exponential speedup.
翻訳日:2023-02-21 16:44:47 公開日:2023-02-20
# フロッケ系における自発$\cal{PT}$対称性の破れへの遷移における時間外相関子のスケーリング則

Scaling laws of the out-of-time-order correlators at the transition to the spontaneous $\cal{PT}$-symmetry breaking in a Floquet system ( http://arxiv.org/abs/2302.09793v1 )

ライセンス: Link先を確認
Wen-Lei Zhao, Ru-Ru Wang, Han Ke, Jie Liu(参考訳) 我々は,非エルミートキックロータモデルにおける時間外相関器(OTOC)の動的挙動を数値的および解析的に検討し,自発的な$\mathcal{PT}$対称性の破れへの遷移におけるOTOCsの時間依存性のスケーリング則を考察した。 unbroken phase of $\mathcal{pt}$ symmetry において、otoc は単調に増大し、最終的に時間とともに飽和し、情報スクランブルの凍結を示す。 相転移点のすぐ向こうでは、OTOCsは2より大きい指数で、時間の法則を増大させる。 興味深いことに、OTOCの時間による二次的な成長は、系が相転移点を超えているときに現れる。 以上の数値的な知見を理論的解析により検証し,フロッケ工学とカオスシステムに潜む情報に重要な意味を持つ一般的な枠組みを提供する。

We investigate both numerically and analytically the dynamics of out-of-time-order correlators (OTOCs) in a non-Hermitian kicked rotor model, addressing the scaling laws of the time dependence of OTOCs at the transition to the spontaneous $\mathcal{PT}$ symmetry breaking. In the unbroken phase of $\mathcal{PT}$ symmetry, the OTOCs increase monotonically and eventually saturate with time, demonstrating the freezing of information scrambling. Just beyond the phase transition points, the OTOCs increase in the power-laws of time, with the exponent larger than two. Interestingly, the quadratic growth of OTOCs with time emerges when the system is far beyond the phase transition points. Above numerical findings have been validated by our theoretical analysis, which provides a general framework with important implications for Floquet engineering and the information scrambling in chaotic systems.
翻訳日:2023-02-21 16:38:31 公開日:2023-02-20
# HTNet:3次元人文推定のための人文トポロジ認識ネットワーク

HTNet: Human Topology Aware Network for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.09790v1 )

ライセンス: Link先を確認
Jialun Cai, Hong Liu, Runwei Ding, Wenhao Li, Jianbing Wu, Miaoju Ban(参考訳) 人間の3次元ポーズ推定誤差は、人体トポロジーに沿って伝播し、手足の端関節に蓄積する。 自動制御システムにおけるバックトラッキング機構に触発されて,親ノードを参照として部品内制約モジュールを設計し,部品レベルでのエンドジョイントに対するトポロジカル制約を構築する。 さらに、人間のトポロジーの階層を考慮し、グラフ畳み込みネットワークとセルフアテンションを介して、ジョイントレベルとボディーレベルの依存関係をそれぞれキャプチャする。 これらの設計に基づき、チャネル分割プログレッシブ戦略を採用し、複数の意味レベル(関節、部分、身体)から人間のトポロジの構造的先行を逐次学習する新しいヒューマントポロジ認識ネットワーク(HTNet)を提案する。 広範囲な実験により,提案手法は手足の端関節における推定精度を18.7%向上し,Human3.6MおよびMPI-INF-3DHPデータセットの最先端結果が得られた。 コードはhttps://github.com/vefalun/HTNetで入手できる。

3D human pose estimation errors would propagate along the human body topology and accumulate at the end joints of limbs. Inspired by the backtracking mechanism in automatic control systems, we design an Intra-Part Constraint module that utilizes the parent nodes as the reference to build topological constraints for end joints at the part level. Further considering the hierarchy of the human topology, joint-level and body-level dependencies are captured via graph convolutional networks and self-attentions, respectively. Based on these designs, we propose a novel Human Topology aware Network (HTNet), which adopts a channel-split progressive strategy to sequentially learn the structural priors of the human topology from multiple semantic levels: joint, part, and body. Extensive experiments show that the proposed method improves the estimation accuracy by 18.7% on the end joints of limbs and achieves state-of-the-art results on Human3.6M and MPI-INF-3DHP datasets. Code is available at https://github.com/vefalun/HTNet.
翻訳日:2023-02-21 16:38:09 公開日:2023-02-20
# 自己参照蒸留とパリティオフセット補正を用いた自己教師付き単眼深度推定

Self-Supervised Monocular Depth Estimation with Self-Reference Distillation and Disparity Offset Refinement ( http://arxiv.org/abs/2302.09789v1 )

ライセンス: Link先を確認
Zhong Liu, Ran Li, Shuwei Shao, Xingming Wu and Weihai Chen(参考訳) 単眼深度推定はコンピュータビジョンにおいて基本的な役割を果たす。 深層地盤の真理の高コスト取得により、隣接するフレームを活用して監視信号を確立する自己監督手法が最も有望なパラダイムとして登場した。 本研究では, 自己教師付き単眼深度推定を改善するための2つの新しいアイデアを提案する。 1)自己参照蒸留及び 2)格差オフセット改良 具体的には、教師がトレーニング期間に更新したパラメータ最適化モデルを使用して、トレーニングプロセス中に追加の監督を行う。 教師モデルは学生モデルと同じ構造であり、歴史学生モデルから重みが受け継がれている。 さらに,教師モデルが生成する外れ値のフィルタリングを行うために,マルチビューチェックを導入する。 さらに,高次特徴量と低次特徴量との文脈的整合性を利用して,異なるスケールで異性情報を整列させることで,相違出力を漸進的に改善するマルチスケール異性オフセットを得る。 KITTIおよびMake3Dデータセットの実験結果から,本手法が従来の競合相手よりも優れていることが示された。

Monocular depth estimation plays a fundamental role in computer vision. Due to the costly acquisition of depth ground truth, self-supervised methods that leverage adjacent frames to establish a supervisory signal have emerged as the most promising paradigms. In this work, we propose two novel ideas to improve self-supervised monocular depth estimation: 1) self-reference distillation and 2) disparity offset refinement. Specifically, we use a parameter-optimized model as the teacher updated as the training epochs to provide additional supervision during the training process. The teacher model has the same structure as the student model, with weights inherited from the historical student model. In addition, a multiview check is introduced to filter out the outliers produced by the teacher model. Furthermore, we leverage the contextual consistency between high-scale and low-scale features to obtain multiscale disparity offsets, which are used to refine the disparity output incrementally by aligning disparity information at different scales. The experimental results on the KITTI and Make3D datasets show that our method outperforms previous state-of-the-art competitors.
翻訳日:2023-02-21 16:37:47 公開日:2023-02-20
# 肝腫瘍と肝内血管の同時分節化に向けて

Towards Simultaneous Segmentation of Liver Tumors and Intrahepatic Vessels via Cross-attention Mechanism ( http://arxiv.org/abs/2302.09785v1 )

ライセンス: Link先を確認
Haopeng Kuang, Dingkang Yang, Shunli Wang, Xiaoying Wang, Lihua Zhang(参考訳) 肝腫瘍とその周囲の血管の正確な可視化は腫瘍の非侵襲的診断と予後予測に不可欠である。 医用画像のセグメンテーションでは、肝腫瘍と経時的血管の同時セグメンテーションに関する詳細な研究がまだ残っていない。 この目的のために, 肝, 肝腫瘍, 血管アノテーションを併用した52門脈相CT画像を含む第1肝腫瘍と血管分画ベンチマークデータセットを収集した。 本稿では,従来のスキップ接続ではなく,適切なクロスアテンション機構を用いて,エンコーダとデコーダ機能を効果的にモデル化する3次元U字型クロスアテンションネットワーク(UCA-Net)を提案する。 具体的には、UCA-Netは、チャネルワイドのクロスアテンションモジュールを使用して、エンコーダとデコーダのセマンティックギャップを減らし、スライスワイドのクロスアテンションモジュールを使用して、異なるスライス間のコンテキストセマンティック学習能力を向上する。 実験の結果,提案したUCA-Netは,肝腫瘍および肝内血管分割作業において,正確に3次元医用画像のセグメンテーションを行い,最先端のパフォーマンスを達成できることが示唆された。

Accurate visualization of liver tumors and their surrounding blood vessels is essential for noninvasive diagnosis and prognosis prediction of tumors. In medical image segmentation, there is still a lack of in-depth research on the simultaneous segmentation of liver tumors and peritumoral blood vessels. To this end, we collect the first liver tumor, and vessel segmentation benchmark datasets containing 52 portal vein phase computed tomography images with liver, liver tumor, and vessel annotations. In this case, we propose a 3D U-shaped Cross-Attention Network (UCA-Net) that utilizes a tailored cross-attention mechanism instead of the traditional skip connection to effectively model the encoder and decoder feature. Specifically, the UCA-Net uses a channel-wise cross-attention module to reduce the semantic gap between encoder and decoder and a slice-wise cross-attention module to enhance the contextual semantic learning ability among distinct slices. Experimental results show that the proposed UCA-Net can accurately segment 3D medical images and achieve state-of-the-art performance on the liver tumor and intrahepatic vessel segmentation task.
翻訳日:2023-02-21 16:37:29 公開日:2023-02-20
# 簡易微調整法によるインクリメンタルFew-Shot物体検出

Incremental Few-Shot Object Detection via Simple Fine-Tuning Approach ( http://arxiv.org/abs/2302.09779v1 )

ライセンス: Link先を確認
Tae-Min Choi, Jong-Hwan Kim(参考訳) 本稿では,基本クラスを再考することなく,いくつかの例を用いて新しいクラスを漸進的に学習するインクリメンタル・ショット・オブジェクト検出(iFSD)について検討する。 従来のiFSD研究はメタラーニングを適用して望ましい結果を得た。 しかし,メタラーニング手法は,実践的な問題に適用し難い性能を示す。 そこで本研究では,iFSDのための簡易な微調整手法であるIncrmental Two-stage Fine-tuning Approach (iTFA)を提案する。 1)クラス非依存のボックス回帰器を用いた豊富なベースクラスを用いたベーストレーニング 2 RoI特徴抽出器及び分類器を基礎知識の保存のための基礎及び新しいクラス分岐に分離し、 3) 新規分岐の微調整は, 少数の新規クラス例のみを用いて行う。 実世界のデータセットPASCAL VOC,COCO,LVISを用いてiTFAを評価した。 iTFAはCOCOの競争性能を達成し、LVISデータセットのメタ学習手法よりも30%高いAP精度を示す。 実験の結果,提案手法の有効性と適用性を示した。

In this paper, we explore incremental few-shot object detection (iFSD), which incrementally learns novel classes using only a few examples without revisiting base classes. Previous iFSD works achieved the desired results by applying meta-learning. However, meta-learning approaches show insufficient performance that is difficult to apply to practical problems. In this light, we propose a simple fine-tuning-based approach, the Incremental Two-stage Fine-tuning Approach (iTFA) for iFSD, which contains three steps: 1) base training using abundant base classes with the class-agnostic box regressor, 2) separation of the RoI feature extractor and classifier into the base and novel class branches for preserving base knowledge, and 3) fine-tuning the novel branch using only a few novel class examples. We evaluate our iTFA on the real-world datasets PASCAL VOC, COCO, and LVIS. iTFA achieves competitive performance in COCO and shows a 30% higher AP accuracy than meta-learning methods in the LVIS dataset. Experimental results show the effectiveness and applicability of our proposed method.
翻訳日:2023-02-21 16:37:07 公開日:2023-02-20
# Composer: 構成可能な条件による創造的で制御可能な画像合成

Composer: Creative and Controllable Image Synthesis with Composable Conditions ( http://arxiv.org/abs/2302.09778v1 )

ライセンス: Link先を確認
Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou(参考訳) ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。 この作品は、合成品質とモデルの創造性を維持しつつ、空間レイアウトやパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。 合成性が中心となるアイデアとして、まずイメージを代表的要因に分解し、次にこれらの要素をすべて入力を再構成する条件として拡散モデルを訓練する。 推論段階では、リッチ中間表現は構成可能な要素として機能し、カスタマイズ可能なコンテンツ生成のための巨大な設計空間(すなわち分解因子の数に指数関数的に比例する)につながる。 私たちがComposerと呼ぶアプローチは、グローバル情報としてのテキスト記述、ローカルガイダンスとしての深度マップとスケッチ、低レベルの詳細のためのカラーヒストグラムなど、さまざまなレベルの条件をサポートしています。 制御性の向上に加えて,composerが汎用的なフレームワークとして機能し,再トレーニングすることなく,幅広い古典的生成タスクを促進できることを確認した。 コードとモデルは利用可能になる。

Recent large-scale generative models learned on big data are capable of synthesizing incredible images yet suffer from limited controllability. This work offers a new generation paradigm that allows flexible control of the output image, such as spatial layout and palette, while maintaining the synthesis quality and model creativity. With compositionality as the core idea, we first decompose an image into representative factors, and then train a diffusion model with all these factors as the conditions to recompose the input. At the inference stage, the rich intermediate representations work as composable elements, leading to a huge design space (i.e., exponentially proportional to the number of decomposed factors) for customizable content creation. It is noteworthy that our approach, which we call Composer, supports various levels of conditions, such as text description as the global information, depth map and sketch as the local guidance, color histogram for low-level details, etc. Besides improving controllability, we confirm that Composer serves as a general framework and facilitates a wide range of classical generative tasks without retraining. Code and models will be made available.
翻訳日:2023-02-21 16:36:53 公開日:2023-02-20
# 人語関連とグラフ埋め込みに基づくペルシャ語話題の検出

Persian topic detection based on Human Word association and graph embedding ( http://arxiv.org/abs/2302.09775v1 )

ライセンス: Link先を確認
Mehrdad Ranjbar-Khadivi, Shahin Akbarpour, Mohammad-Reza Feizi-Derakhshi, Babak Anari(参考訳) 本稿では,人間の単語連想に基づくソーシャルメディアの話題を検出する枠組みを提案する。 これらのメディアで議論されているトピックの特定は、批判的かつ重要な課題となっている。 この地域での作業のほとんどは英語で行われているが、ペルシア語、特にペルシア語で書かれたマイクロブラッグで行われている。 また、既存の研究は頻繁なパターンやセマンティックな関係を探究することに集中し、言語の構造的手法を無視した。 本稿では,ヒューマンワードアソシエーションの手法であるHWAを用いた話題検出フレームワークを提案する。 この方法は、単語連想に精神能力の模倣という概念を用いる。 この方法はまた、単語がどう関連しているかを示す結合重力を計算する。 このパラメータを使ってグラフを生成することができる。 このグラフを埋め込み、クラスタリング手法を使ってトピックを抽出することができる。 このアプローチはTelegramから収集されたペルシア語のデータセットに適用されている。 提案フレームワークの性能を評価するための実験がいくつか行われている。 実験結果から,本手法は他のトピック検出手法よりも有効であることがわかった。

In this paper, we propose a framework to detect topics in social media based on Human Word Association. Identifying topics discussed in these media has become a critical and significant challenge. Most of the work done in this area is in English, but much has been done in the Persian language, especially microblogs written in Persian. Also, the existing works focused more on exploring frequent patterns or semantic relationships and ignored the structural methods of language. In this paper, a topic detection framework using HWA, a method for Human Word Association, is proposed. This method uses the concept of imitation of mental ability for word association. This method also calculates the Associative Gravity Force that shows how words are related. Using this parameter, a graph can be generated. The topics can be extracted by embedding this graph and using clustering methods. This approach has been applied to a Persian language dataset collected from Telegram. Several experimental studies have been performed to evaluate the proposed framework's performance. Experimental results show that this approach works better than other topic detection methods.
翻訳日:2023-02-21 16:36:36 公開日:2023-02-20
# 手術ロボットのタスク自動化のための効率的な探索によるデモンストレーション誘導強化学習

Demonstration-Guided Reinforcement Learning with Efficient Exploration for Task Automation of Surgical Robot ( http://arxiv.org/abs/2302.09772v1 )

ライセンス: Link先を確認
Tao Huang, Kai Chen, Bin Li, Yun-Hui Liu, Qi Dou(参考訳) 手術ロボットのタスク自動化は,手術効率を向上させる可能性がある。 最近の強化学習(RL)ベースのアプローチは、外科的自動化に対するスケーラブルなソリューションを提供するが、通常、事前の知識が与えられなければ、タスクを解決するために広範なデータ収集を必要とする。 この問題はexploring challengeと呼ばれ、rlエージェントに専門家のデモンストレーションを提供することで緩和することができる。 しかし、探索効率を改善するために実証データを効果的に活用する方法は、依然としてオープンな課題である。 本研究では,手術自動化のための専門家実験を用いて探索問題を克服することを目的とした,効率的な強化学習アルゴリズムであるdex(experiment-guided exploration)を提案する。 実演を効果的に活用するため,提案手法では,高い価値を持つ専門家的な振る舞いを推定し,生産的相互作用を促進させ,非パラメトリック回帰を適用して,実演データに観察できない状態の指導を可能にする。 包括的手術シミュレーションプラットフォームであるsurrolによる10ドルの手術操作タスクに関する広範囲な実験により,本手法の探索効率と作業成功率に有意な改善が示された。 さらに,学習方針をda Vinci Research Kit (dVRK)プラットフォームに展開し,実ロボットの有効性を示す。 コードはhttps://github.com/med-air/DEXで入手できる。

Task automation of surgical robot has the potentials to improve surgical efficiency. Recent reinforcement learning (RL) based approaches provide scalable solutions to surgical automation, but typically require extensive data collection to solve a task if no prior knowledge is given. This issue is known as the exploration challenge, which can be alleviated by providing expert demonstrations to an RL agent. Yet, how to make effective use of demonstration data to improve exploration efficiency still remains an open challenge. In this work, we introduce Demonstration-guided EXploration (DEX), an efficient reinforcement learning algorithm that aims to overcome the exploration problem with expert demonstrations for surgical automation. To effectively exploit demonstrations, our method estimates expert-like behaviors with higher values to facilitate productive interactions, and adopts non-parametric regression to enable such guidance at states unobserved in demonstration data. Extensive experiments on $10$ surgical manipulation tasks from SurRoL, a comprehensive surgical simulation platform, demonstrate significant improvements in the exploration efficiency and task success rates of our method. Moreover, we also deploy the learned policies to the da Vinci Research Kit (dVRK) platform to show the effectiveness on the real robot. Code is available at https://github.com/med-air/DEX.
翻訳日:2023-02-21 16:36:24 公開日:2023-02-20
# 非凸確率合成最適化のための一サンプル分散近似アルゴリズム

A One-Sample Decentralized Proximal Algorithm for Non-Convex Stochastic Composite Optimization ( http://arxiv.org/abs/2302.09766v1 )

ライセンス: Link先を確認
Tesi Xiao, Xuxing Chen, Krishnakumar Balasubramanian, Saeed Ghadimi(参考訳) 我々は分散確率的非凸最適化に焦点をあて、$n$エージェントは滑らかな項と非滑らかな凸項の和である複合目的関数を最適化するために協力する。 そこで本研究では, Prox-DASA と Prox-DASA-GT の2つの単一時間スケールアルゴリズムを提案する。 これらのアルゴリズムは、$\mathcal{O}(n^{-1}\epsilon^{-2})$イテレーションにおいて、一定のバッチサイズ(つまり、$\mathcal{O}(1)$)で$\epsilon$-定常点を見つけることができる。 従来の作業とは異なり、我々のアルゴリズムは、大きなバッチサイズ、より複雑な(二重ループのような)操作、より強い仮定を必要とすることなく、同等に複雑な結果が得られる。 我々の理論的な発見は、これまでのアプローチよりもアルゴリズムの優越性を示す広範な数値実験によって裏付けられている。

We focus on decentralized stochastic non-convex optimization, where $n$ agents work together to optimize a composite objective function which is a sum of a smooth term and a non-smooth convex term. To solve this problem, we propose two single-time scale algorithms: Prox-DASA and Prox-DASA-GT. These algorithms can find $\epsilon$-stationary points in $\mathcal{O}(n^{-1}\epsilon^{-2})$ iterations using constant batch sizes (i.e., $\mathcal{O}(1)$). Unlike prior work, our algorithms achieve a comparable complexity result without requiring large batch sizes, more complex per-iteration operations (such as double loops), or stronger assumptions. Our theoretical findings are supported by extensive numerical experiments, which demonstrate the superiority of our algorithms over previous approaches.
翻訳日:2023-02-21 16:36:00 公開日:2023-02-20
# ENInst: 弱教師付きローショットインスタンスセグメンテーションの強化

ENInst: Enhancing Weakly-supervised Low-shot Instance Segmentation ( http://arxiv.org/abs/2302.09765v1 )

ライセンス: Link先を確認
Moon Ye-Bin, Dongmin Choi, Yongjin Kwon, Junsik Kim, Tae-Hyun Oh(参考訳) 我々は,新しいクラスを効果的に扱うためのアノテーション効率のよい訓練手法である,弱教師付きローショットインスタンスセグメンテーションに対処する。 まず,問題の難易度を調査し,単純なベースラインモデルを用いてモデルコンポーネントと個々のサブタスクの系統的分析を行い,性能ボトルネックを特定する。 そこで本研究では,画素の局在性向上のためのインスタンスワイズマスク改良法と,分類精度向上のための新しい分類器構成法を提案する。 提案手法は,各サブタスクの性能を向上させることで全体の性能を高める。 ENInstは、既存の完全に教師されたいくつかのショットモデルに匹敵するパフォーマンスを達成する上で、7.5倍の効率を示します。

We address a weakly-supervised low-shot instance segmentation, an annotation-efficient training method to deal with novel classes effectively. Since it is an under-explored problem, we first investigate the difficulty of the problem and identify the performance bottleneck by conducting systematic analyses of model components and individual sub-tasks with a simple baseline model. Based on the analyses, we propose ENInst with sub-task enhancement methods: instance-wise mask refinement for enhancing pixel localization quality and novel classifier composition for improving classification accuracy. Our proposed method lifts the overall performance by enhancing the performance of each sub-task. We demonstrate that our ENInst is 7.5 times more efficient in achieving comparable performance to the existing fully-supervised few-shot models and even outperforms them at times.
翻訳日:2023-02-21 16:35:43 公開日:2023-02-20
# 条件付き生成逆ネットワークによる擬似ラベル誘導モデル反転攻撃

Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network ( http://arxiv.org/abs/2302.09814v1 )

ライセンス: Link先を確認
Xiaojian Yuan, Kejiang Chen, Jie Zhang, Weiming Zhang, Nenghai Yu, Yang Zhang(参考訳) モデルインバージョン(MI)攻撃は、パブリックモデルからトレーニングデータを再構築できるプライバシーに対する懸念が高まっている。 実際、mi攻撃は特定の空間内のプライベートデータを求める最適化問題として形式化することができる。 最近のMI攻撃では、探索空間を狭める前にGAN(generative adversarial network)を画像として利用し、高次元データ(例えば顔画像)でさえも再構成できる。 しかし、これらの生成的MI攻撃はターゲットモデルの潜在能力を十分に活用していないため、あいまいで結合した検索空間、すなわち、画像の異なるクラスが検索空間に結合される。 さらに、これらの攻撃で広く使用されるクロスエントロピー損失は勾配の消失に苦しむ。 これらの問題に対処するために,条件付きGAN(cGAN)を介してPseudo Label-Guided MI(PLG-MI)攻撃を提案する。 まず、公開データに擬似ラベルを提供するためのトップn選択戦略を提案し、cGANのトレーニングを誘導するために擬似ラベルを使用する。 このようにして、検索空間は異なるクラスの画像に対して分離される。 次に、最大マージン損失を導入し、対象クラスのサブスペースにおける検索プロセスを改善する。 大規模な実験により、我々のPLG-MI攻撃は様々なデータセットやモデルの攻撃成功率と視覚的品質を著しく向上させることが示された。 私たちのコードは、https://github.com/LetheSec/PLG-MI-Attack.comで利用可能です。

Model inversion (MI) attacks have raised increasing concerns about privacy, which can reconstruct training data from public models. Indeed, MI attacks can be formalized as an optimization problem that seeks private data in a certain space. Recent MI attacks leverage a generative adversarial network (GAN) as an image prior to narrow the search space, and can successfully reconstruct even the high-dimensional data (e.g., face images). However, these generative MI attacks do not fully exploit the potential capabilities of the target model, still leading to a vague and coupled search space, i.e., different classes of images are coupled in the search space. Besides, the widely used cross-entropy loss in these attacks suffers from gradient vanishing. To address these problems, we propose Pseudo Label-Guided MI (PLG-MI) attack via conditional GAN (cGAN). At first, a top-n selection strategy is proposed to provide pseudo-labels for public data, and use pseudo-labels to guide the training of the cGAN. In this way, the search space is decoupled for different classes of images. Then a max-margin loss is introduced to improve the search process on the subspace of a target class. Extensive experiments demonstrate that our PLG-MI attack significantly improves the attack success rate and visual quality for various datasets and models, notably, 2~3 $\times$ better than state-of-the-art attacks under large distributional shifts. Our code is available at: https://github.com/LetheSec/PLG-MI-Attack.
翻訳日:2023-02-21 16:29:35 公開日:2023-02-20
# Audit to Forget:Intelligent Healthcareにおける患者の個人データを一元化する方法

Audit to Forget: A Unified Method to Revoke Patients' Private Data in Intelligent Healthcare ( http://arxiv.org/abs/2302.09813v1 )

ライセンス: Link先を確認
Juexiao Zhou, Haoyang Li, Xingyu Liao, Bin Zhang, Wenjia He, Zhongxiao Li, Longxi Zhou, Xin Gao(参考訳) 個人情報の取り消しは、多くの国ですでにプライバシー保護法によって保護されている基本的人権の1つだ。 しかし、データサイエンス、機械学習、ディープラーニング技術の発展に伴い、この権利は、特にインテリジェントヘルスケアにおいて、より多くの患者のデータが収集され、モデルトレーニングに使用されているため、一般的に無視または侵害される。 患者が忘れられる権利を確保するために,我々は,データ集合がモデルのトレーニングに使われたかどうかを監査手段で判断し,そのデータ集合がターゲットモデルから忘れられるかどうかを判断する監査手法を用いて,新しい解決法を提案した。 我々はこれら2つのタスクを知識浄化という新しいアプローチによって統合した。 このソリューションを実現するため,我々は,事前学習したディープラーニングモデルから患者の個人データを評価・削除できる統合オープンソースソフトウェアafsを開発した。 深層学習ネットワークのさまざまなデータサイズとアーキテクチャを持つ異なるデータセット上の4つのタスクに適用することで、AFSの汎用性を実証した。 このソフトウェアは \url{https://github.com/JoshuaChou2018/AFS} で公開されている。

Revoking personal private data is one of the basic human rights, which has already been sheltered by several privacy-preserving laws in many countries. However, with the development of data science, machine learning and deep learning techniques, this right is usually neglected or violated as more and more patients' data are being collected and used for model training, especially in intelligent healthcare, thus making intelligent healthcare a sector where technology must meet the law, regulations, and privacy principles to ensure that the innovation is for the common good. In order to secure patients' right to be forgotten, we proposed a novel solution by using auditing to guide the forgetting process, where auditing means determining whether a dataset has been used to train the model and forgetting requires the information of a query dataset to be forgotten from the target model. We unified these two tasks by introducing a new approach called knowledge purification. To implement our solution, we developed AFS, a unified open-source software, which is able to evaluate and revoke patients' private data from pre-trained deep learning models. We demonstrated the generality of AFS by applying it to four tasks on different datasets with various data sizes and architectures of deep learning networks. The software is publicly available at \url{https://github.com/JoshuaChou2018/AFS}.
翻訳日:2023-02-21 16:29:07 公開日:2023-02-20
# 漸近的最適性に向けて:早期分類のための連続的教師なし密度比回帰

Toward Asymptotic Optimality: Sequential Unsupervised Regression of Density Ratio for Early Classification ( http://arxiv.org/abs/2302.09810v1 )

ライセンス: Link先を確認
Akinori F. Ebihara, Taiki Miyagawa, Kazuyuki Sakurai, Hitoshi Imaoka(参考訳) 時系列の早期分類に理論的に着想を得た逐次密度比推定(SDRE)アルゴリズムを提案する。 従来のsdreアルゴリズムは、内部過正規化問題によりdrmを正確に推定できないため、drmに基づく逐次確率比検定(sprt)が漸近ベイズ最適度に達するのを防いでいる。 2つの新しいSPRTベースのアルゴリズムであるB2Bsqrt-TANDEMとTANDEMformerは、SDRの正確な教師なし回帰に対する過正規化問題を回避するために設計されている。 この2つのアルゴリズムは, 人工連続ガウスデータセットと実データセット(SiW, UCF101, HMDB51)のDR推定誤差と分類誤差を統計的に有意に低減する。 コードは、https://github.com/Akinori-F-Ebihara/LLR_saturation_problemで入手できる。

Theoretically-inspired sequential density ratio estimation (SDRE) algorithms are proposed for the early classification of time series. Conventional SDRE algorithms can fail to estimate DRs precisely due to the internal overnormalization problem, which prevents the DR-based sequential algorithm, Sequential Probability Ratio Test (SPRT), from reaching its asymptotic Bayes optimality. Two novel SPRT-based algorithms, B2Bsqrt-TANDEM and TANDEMformer, are designed to avoid the overnormalization problem for precise unsupervised regression of SDRs. The two algorithms statistically significantly reduce DR estimation errors and classification errors on an artificial sequential Gaussian dataset and real datasets (SiW, UCF101, and HMDB51), respectively. The code is available at: https://github.com/Akinori-F-Ebihara/LLR_saturation_problem.
翻訳日:2023-02-21 16:28:45 公開日:2023-02-20
# RecFNO:フーリエニューラル演算子を用いたスパース観測による分解能不変流れと熱場再構成法

RecFNO: a resolution-invariant flow and heat field reconstruction method from sparse observations via Fourier neural operator ( http://arxiv.org/abs/2302.09808v1 )

ライセンス: Link先を確認
Xiaoyu Zhao, Xiaoqian Chen, Zhiqiang Gong, Weien Zhou, Wen Yao, Yunyang Zhang(参考訳) 完全な状態の認識は、物理的システムの監視、分析、設計を支援するために不可欠な技術であり、その課題の1つは、疎い観測から地球界を回復することである。 深層ニューラルネットワークは、卓越した近似能力で知られており、データ駆動の流れや熱場再構成の研究に魅力がある。 しかし、ネットワーク構造によって制限された既存の研究は、主に有限次元空間の再構成写像を学習し、出力の可変分解能に弱い。 本稿では,ニューラル演算子の新しいパラダイムを拡張し,優れた性能とメッシュ転送性を備えたエンドツーエンドの物理フィールド再構成手法であるrecfnoを提案する。 提案手法は, スパース観測から無限次元空間内の流れと熱場へのマッピングを学習し, より強力な非線形適合能力と分解能不変特性をもたらす。 まず, 異なる利用シナリオに基づいて, MLP, マスク, ボロノイ埋め込みという, 疎い観測入力をモデル化する3種類の埋め込みを開発する。 MLP埋め込みは、よりスパースな入力に近づき、他は空間情報保存の恩恵を受け、観測データの増加によりより良い性能を発揮する。 次に,フーリエモード重ね合わせにより回収フィールド全体を正則化するフーリエ空間の物理場を再構築するために,積み重ねられたフーリエ層を採用する。 無限次元空間における演算子の恩恵を受けることにより,メッシュ間の精度と分解能の向上が期待できる。 流体力学および熱力学に関する実験により,提案手法は既存のPOD法およびCNN法よりも優れ,ゼロショット超解像を実現する能力を有することが示された。

Perception of the full state is an essential technology to support the monitoring, analysis, and design of physical systems, one of whose challenges is to recover global field from sparse observations. Well-known for brilliant approximation ability, deep neural networks have been attractive to data-driven flow and heat field reconstruction studies. However, limited by network structure, existing researches mostly learn the reconstruction mapping in finite-dimensional space and has poor transferability to variable resolution of outputs. In this paper, we extend the new paradigm of neural operator and propose an end-to-end physical field reconstruction method with both excellent performance and mesh transferability named RecFNO. The proposed method aims to learn the mapping from sparse observations to flow and heat field in infinite-dimensional space, contributing to a more powerful nonlinear fitting capacity and resolution-invariant characteristic. Firstly, according to different usage scenarios, we develop three types of embeddings to model the sparse observation inputs: MLP, mask, and Voronoi embedding. The MLP embedding is propitious to more sparse input, while the others benefit from spatial information preservation and perform better with the increase of observation data. Then, we adopt stacked Fourier layers to reconstruct physical field in Fourier space that regularizes the overall recovered field by Fourier modes superposition. Benefiting from the operator in infinite-dimensional space, the proposed method obtains remarkable accuracy and better resolution transferability among meshes. The experiments conducted on fluid mechanics and thermology problems show that the proposed method outperforms existing POD-based and CNN-based methods in most cases and has the capacity to achieve zero-shot super-resolution.
翻訳日:2023-02-21 16:28:27 公開日:2023-02-20
# 放射能データの協調的自己教師あり学習法

A Novel Collaborative Self-Supervised Learning Method for Radiomic Data ( http://arxiv.org/abs/2302.09807v1 )

ライセンス: Link先を確認
Zhiyuan Li, Hailong Li, Anca L. Ralescu, Jonathan R. Dillman, Nehal A. Parikh, and Lili He(参考訳) 放射線データからのコンピュータ支援疾患診断は,多くの医学的応用において重要である。 しかし、そのような技術を開発するには、時間を要する、労力がかかる、高価なプロセスである放射線画像に注釈をつける必要がある。 本稿では,テキストや画像データと特徴が異なるラベル付き放射能データの不足という課題を解決するために,最初の協調型自己教師付き学習手法を提案する。 これを実現するために,関心領域間の潜伏する病理的・生物学的関係と,被験者間の類似性および相違性情報を探る2つの協調的前提課題を提案する。 本手法は, 放射線データからロバストな潜伏特徴表現を自己教師ありで学習し, 疾患診断に有利な注記作業を減らす。 提案手法を,シミュレーション研究と2つの独立データセットを用いて,最先端の自己教師付き学習手法と比較した。 総合的な実験結果から,本手法は他の自己指導型学習法よりも高い性能を示した。 さらなる改良により,大規模未ラベルデータを用いた自動疾患診断の利点が示された。

The computer-aided disease diagnosis from radiomic data is important in many medical applications. However, developing such a technique relies on annotating radiological images, which is a time-consuming, labor-intensive, and expensive process. In this work, we present the first novel collaborative self-supervised learning method to solve the challenge of insufficient labeled radiomic data, whose characteristics are different from text and image data. To achieve this, we present two collaborative pretext tasks that explore the latent pathological or biological relationships between regions of interest and the similarity and dissimilarity information between subjects. Our method collaboratively learns the robust latent feature representations from radiomic data in a self-supervised manner to reduce human annotation efforts, which benefits the disease diagnosis. We compared our proposed method with other state-of-the-art self-supervised learning methods on a simulation study and two independent datasets. Extensive experimental results demonstrated that our method outperforms other self-supervised learning methods on both classification and regression tasks. With further refinement, our method shows the potential advantage in automatic disease diagnosis with large-scale unlabeled data available.
翻訳日:2023-02-21 16:27:57 公開日:2023-02-20
# 確率ゲームのための効率的なQ学習

Efficient-Q Learning for Stochastic Games ( http://arxiv.org/abs/2302.09806v1 )

ライセンス: Link先を確認
Muhammed O. Sayin and Onur Unlu(参考訳) 確率ゲームのための新しい効率的なQ学習力学を、証明可能な収束に対する最近の進歩の集中を超越して非効率均衡の可能性を示す。 エージェントがq関数であるステージゲームにおける対数線形学習ダイナミクスを追従させ,q関数を逐次評価し,ステップを消失させる。 この2時間スケールのダイナミクスは、エージェントがステージゲームの効率的な平衡を追跡することができるように、ログ線形更新のためにステージゲームを比較的静止させる。 対数線形更新におけるソフトマックス応答による近似誤差とほぼ確実に一致し,Q-関数の推定値が同一関心確率ゲームにおけるQ-関数に収束することを示した。 鍵となるアイデアは、q関数推定が有限長エポック上で定常であるような架空のシナリオでダイナミクスを近似することである。 次に、主シナリオと虚構シナリオのダイナミクスを組み合わせることで、近似誤差が消滅するステップによってゼロになることを示す。

We present the new efficient-Q learning dynamics for stochastic games beyond the recent concentration of progress on provable convergence to possibly inefficient equilibrium. We let agents follow the log-linear learning dynamics in stage games whose payoffs are the Q-functions and estimate the Q-functions iteratively with a vanishing stepsize. This (implicitly) two-timescale dynamic makes stage games relatively stationary for the log-linear update so that the agents can track the efficient equilibrium of stage games. We show that the Q-function estimates converge to the Q-function associated with the efficient equilibrium in identical-interest stochastic games, almost surely, with an approximation error induced by the softmax response in the log-linear update. The key idea is to approximate the dynamics with a fictional scenario where Q-function estimates are stationary over finite-length epochs. We then couple the dynamics in the main and fictional scenarios to show that the approximation error decays to zero due to the vanishing stepsize.
翻訳日:2023-02-21 16:27:39 公開日:2023-02-20
# フロッケによるキラル誘起スピン選択性

Floquet-engineered chiral-induced spin selectivity ( http://arxiv.org/abs/2302.09805v1 )

ライセンス: Link先を確認
Nguyen Thanh Phuc(参考訳) 物質の安定性に不可欠な電子スピンの制御は、分子や物質の特性を操作する新たな可能性を与え、スピントロニクスや化学反応に応用できる可能性がある。 最近の実験では、キラル分子による電子伝達は、キラル誘起スピン選択性(CISS)として知られる電子スピン配向に依存することが示されている。 本研究では,Floquet 工学の枠組みにおいて,外周偏光レーザー場によって駆動されるアキラル系において CISS が観測可能であることを示す。 時間周期駆動系のフロッケ理論を用いてスピン依存電子輸送を二端子系で検討することにより、光強度が十分強く、デファスメントの速度が十分小さく、2つのリードの平均化学ポテンシャルが適切な値の範囲内にあり、レーザー磁場の高頻度のため狭くなる場合にスピン偏極が一元に近づくことを実証する。 より大きなスピン偏光のためのより広い範囲のエネルギーを得るために、キラル分子と光-物質相互作用の組合せを考慮し、レーザー場によって駆動されるヘリカル分子を介して輸送される電子のスピン偏光を評価する。

The control of electron spin, which is crucial to the stability of matter, offers new possibilities for manipulating the properties of molecules and materials with potential applications in spintronics and chemical reactions. Recent experiments have demonstrated that electron transmission through chiral molecules depends on the electron spin orientation, a phenomenon known as chiral-induced spin selectivity (CISS). In this study, we show that CISS can be observed in achiral systems driven by an external circularly polarized laser field in the framework of Floquet engineering. By using the Floquet theory for a time-periodically driven system to investigate spin-dependent electron transport in a two-terminal setup, we demonstrate that the spin polarization can approach unity if the light intensity is sufficiently strong, the rate of dephasing is sufficiently small, and the average chemical potential of the two leads is within an appropriate range of values, which is narrow because of the high frequency of the laser field. To obtain a wider range of energies for large spin polarization, a combination of chiral molecules and light-matter interactions is considered and the spin polarization of electrons transported through a helical molecule driven by a laser field is evaluated.
翻訳日:2023-02-21 16:27:22 公開日:2023-02-20
# CNTS:時系列協調ネットワーク

CNTS: Cooperative Network for Time Series ( http://arxiv.org/abs/2302.09800v1 )

ライセンス: Link先を確認
Jinsheng Yang, Yuanhai Shao, ChunNa Li(参考訳) 時系列データにおける異常検出におけるディープラーニング技術の利用は、長い開発の歴史と様々なアプローチを持つ研究の活発な領域である。 特に,リコンストラクションに基づく教師なし異常検出手法は,直観的な仮定と計算要件の低さから人気を集めている。 しかしながら、これらの手法は、しばしば外れ値に影響を受けやすく、効果的に異常をモデル化せず、最適以下の結果をもたらす。 本稿では,CNTS(Cooperative Network Time Series)アプローチと呼ばれる,教師なし異常検出のための新しい手法を提案する。 cntsシステムは検出器と再構成器の2つの構成要素で構成されている。 検出器は異常を直接検出し、再構成器は検出器に再構成情報を提供し、検出器から受信した異常情報に基づいて学習を更新する。 CNTSの中心的な側面は多目的最適化の問題であり、協調的な解法戦略によって解決される。 実世界の3つのデータセットの実験は、CNTSの最先端性能を示し、検出器と再構成器の協調的有効性を確認する。 この研究のソースコードはgithubで公開されている。

The use of deep learning techniques in detecting anomalies in time series data has been an active area of research with a long history of development and a variety of approaches. In particular, reconstruction-based unsupervised anomaly detection methods have gained popularity due to their intuitive assumptions and low computational requirements. However, these methods are often susceptible to outliers and do not effectively model anomalies, leading to suboptimal results. This paper presents a novel approach for unsupervised anomaly detection, called the Cooperative Network Time Series (CNTS) approach. The CNTS system consists of two components: a detector and a reconstructor. The detector is responsible for directly detecting anomalies, while the reconstructor provides reconstruction information to the detector and updates its learning based on anomalous information received from the detector. The central aspect of CNTS is a multi-objective optimization problem, which is solved through a cooperative solution strategy. Experiments on three real-world datasets demonstrate the state-of-the-art performance of CNTS and confirm the cooperative effectiveness of the detector and reconstructor. The source code for this study is publicly available on GitHub.
翻訳日:2023-02-21 16:27:02 公開日:2023-02-20
# 視覚表現におけるスタイルと内容の単純な切り離し

Simple Disentanglement of Style and Content in Visual Representations ( http://arxiv.org/abs/2302.09795v1 )

ライセンス: Link先を確認
Lilian Ngweta, Subha Maity, Alex Gittens, Yuekai Sun, Mikhail Yurochkin(参考訳) 解釈可能な特徴を持つ視覚表現、すなわち非絡み合った表現を学習することは難しい問題である。 既存の手法はある程度の成功を示しているが、imagenetのような大規模ビジョンデータセットに適用することは難しい。 本研究では,事前学習した視覚モデルから学習表現の内容とスタイルを分離する簡易な後処理フレームワークを提案する。 事前学習した特徴を,潜在コンテンツとスタイル因子の線形絡み合い結合として確率論的にモデル化し,確率モデルに基づく単純な絡み合いアルゴリズムを開発した。 本手法は,コンテンツとスタイルの特徴を解消し,その効果を実証的に検証する。 我々の後処理機能は、スタイル変化やスタイル関連スプリアス相関による分散シフトが発生すると、ドメインの一般化性能が大幅に向上する。

Learning visual representations with interpretable features, i.e., disentangled representations, remains a challenging problem. Existing methods demonstrate some success but are hard to apply to large-scale vision datasets like ImageNet. In this work, we propose a simple post-processing framework to disentangle content and style in learned representations from pre-trained vision models. We model the pre-trained features probabilistically as linearly entangled combinations of the latent content and style factors and develop a simple disentanglement algorithm based on the probabilistic model. We show that the method provably disentangles content and style features and verify its efficacy empirically. Our post-processed features yield significant domain generalization performance improvements when the distribution shift occurs due to style changes or style-related spurious correlations.
翻訳日:2023-02-21 16:26:45 公開日:2023-02-20
# 産業異常検出のための2ストリームデコーダ特徴正規性推定ネットワーク

Two-stream Decoder Feature Normality Estimating Network for Industrial Anomaly Detection ( http://arxiv.org/abs/2302.09794v1 )

ライセンス: Link先を確認
Chaewon Park, Minhyeok Lee, Suhwan Cho, Donghyeong Kim, Sangyoun Lee(参考訳) 画像再構成に基づく異常検出は、異常データセットの構築が困難であるため、最近注目を浴びている。 これらのアプローチは、トレーニング中に異常なサンプルを見ることなく正常な特徴をモデル化し、再構成エラーに基づいてテスト時に異常を識別することで機能する。 しかし,これらのモデルでは特徴の無差別伝達による異常サンプルの再構成に限界がある。 さらに、これらのアプローチは区別可能な異常に対して明示的に最適化されていない。 これらの問題に対処するために,正常な特徴と異常な特徴の両方を学習するための2ストリームデコーダネットワーク(TSDN)を提案する。 さらに,異常な特徴を排除し,異常領域の高品質な再構成を防止する特徴正規度推定器 (FNE) を提案する。 標準ベンチマークの評価では、最先端モデルよりも性能が向上した。

Image reconstruction-based anomaly detection has recently been in the spotlight because of the difficulty of constructing anomaly datasets. These approaches work by learning to model normal features without seeing abnormal samples during training and then discriminating anomalies at test time based on the reconstructive errors. However, these models have limitations in reconstructing the abnormal samples due to their indiscriminate conveyance of features. Moreover, these approaches are not explicitly optimized for distinguishable anomalies. To address these problems, we propose a two-stream decoder network (TSDN), designed to learn both normal and abnormal features. Additionally, we propose a feature normality estimator (FNE) to eliminate abnormal features and prevent high-quality reconstruction of abnormal regions. Evaluation on a standard benchmark demonstrated performance better than state-of-the-art models.
翻訳日:2023-02-21 16:26:33 公開日:2023-02-20
# 開ハイゼンベルクスピン鎖におけるスピンスクイーズ

Spin squeezing in open Heisenberg spin chains ( http://arxiv.org/abs/2302.09829v1 )

ライセンス: Link先を確認
Tanaus\'u Hern\'andez Yanes, Giedrius \v{Z}labys, Marcin P{\l}odzie\'n, Domantas Burba, Ma\v{z}ena Mackoit Sinkevi\v{c}ien\.e, Emilia Witkowska, Gediminas Juzeli\=unas(参考訳) スピンスクイージングプロトコルは、第2次量子革命の重要な柱である絡み合った多体量子状態を生成することに成功した。 最近の研究(Phys. Rev. Lett. 129, 090403 (2022))では、単一レーザー場によって誘導される位置依存スピン-フリップカップリングを伴うとき、周期的境界条件を持つハイゼンベルクスピン-1/2鎖で、1軸ねじれモデルで記述されたスピンスクイーズが生成されることを示した。 この研究は、周期状態から開状態への境界条件の変化がスピンスクイージングダイナミクスを著しく修飾していることを解析的に示している。 幅広いツイストモデル群は、特定の条件下での1軸および2軸のツイストを含む弱結合状態の系によってシミュレートされ、ハイゼンベルクのスクイーズとダイナミクスの加速レベルを提供する。 全数値シミュレーションで解析結果が確認された。

Spin squeezing protocols successfully generate entangled many-body quantum states, the key pillars of the second quantum revolution. In our recent work [Phys. Rev. Lett. 129, 090403 (2022)] we showed that spin squeezing described by the one-axis twisting model could be generated in the Heisenberg spin-1/2 chain with periodic boundary conditions when accompanied by a position-dependent spin-flip coupling induced by a single laser field. This work shows analytically that the change of boundary conditions from the periodic to the open ones significantly modifies spin squeezing dynamics. A broad family of twisting models can be simulated by the system in the weak coupling regime, including the one- and two-axis twisting under specific conditions, providing the Heisenberg level of squeezing and acceleration of the dynamics. Full numerical simulations confirm our analytical findings.
翻訳日:2023-02-21 16:20:48 公開日:2023-02-20
# グラフ学習における永続ホモロジーの表現性について

On the Expressivity of Persistent Homology in Graph Learning ( http://arxiv.org/abs/2302.09826v1 )

ライセンス: Link先を確認
Bastian Rieck(参考訳) 計算トポロジのテクニックである永続化ホモロジーは、最近、グラフ分類の文脈で強い経験的性能を示した。 任意の長さのサイクルや多スケールのトポロジ記述子といった高次のトポロジ的特徴により、長い範囲のグラフ特性をキャプチャできるようになり、分子のような顕著なトポロジ的構造を持つデータセットの予測性能が向上した。 同時に、永続ホモロジーの理論的性質はこの文脈で公式に評価されていない。 本稿では、グラフの文脈における持続的ホモロジーの簡単な紹介と、グラフ学習タスクにおけるその表現性に関する理論的議論と経験的分析を提供することにより、計算トポロジーとグラフ機械学習のギャップを埋めることを目的としている。

Persistent homology, a technique from computational topology, has recently shown strong empirical performance in the context of graph classification. Being able to capture long range graph properties via higher-order topological features, such as cycles of arbitrary length, in combination with multi-scale topological descriptors, has improved predictive performance for data sets with prominent topological structures, such as molecules. At the same time, the theoretical properties of persistent homology have not been formally assessed in this context. This paper intends to bridge the gap between computational topology and graph machine learning by providing a brief introduction to persistent homology in the context of graphs, as well as a theoretical discussion and empirical analysis of its expressivity for graph learning tasks.
翻訳日:2023-02-21 16:20:17 公開日:2023-02-20
# TBPos: 大規模高精度ビジュアルローカライゼーションのためのデータセット

TBPos: Dataset for Large-Scale Precision Visual Localization ( http://arxiv.org/abs/2302.09825v1 )

ライセンス: Link先を確認
Masud Fahim, Ilona S\"ochting, Luca Ferranti, Juho Kannala, Jani Boutellier(参考訳) イメージベースのローカライゼーションは、いくつかのよく知られたデータセットを持つ、古典的なコンピュータビジョンの課題である。 一般的にデータセットは、モデル化された景色をキャプチャするビジュアル3dデータベースと、3dポーズが発見される画像のクエリで構成される。 通常、クエリ画像は3Dデータベースの収集に使われる撮像ハードウェアとは異なるカメラで取得されているため、クエリ画像と3Dデータベースの間の正確な真実のポーズを取得することは困難である。 視覚的ローカライゼーションアルゴリズムの精度が常に向上するにつれて、正確な基底真理がますます重要になる。 本稿では,データベース画像と問合せ画像が同一のレーザスキャナーデータから導出され,データベース画像と問合せ画像の両方が完全に正確な真実のポーズを問合せ画像に提供する,画像ベースの位置決めのための新しい大規模ビジュアルデータセットであるTPPosを提案する。 実験では,画像に基づく局所化パイプラインを用いて,提案したデータセットの評価を行った。

Image based localization is a classical computer vision challenge, with several well-known datasets. Generally, datasets consist of a visual 3D database that captures the modeled scenery, as well as query images whose 3D pose is to be discovered. Usually the query images have been acquired with a camera that differs from the imaging hardware used to collect the 3D database; consequently, it is hard to acquire accurate ground truth poses between query images and the 3D database. As the accuracy of visual localization algorithms constantly improves, precise ground truth becomes increasingly important. This paper proposes TBPos, a novel large-scale visual dataset for image based positioning, which provides query images with fully accurate ground truth poses: both the database images and the query images have been derived from the same laser scanner data. In the experimental part of the paper, the proposed dataset is evaluated by means of an image-based localization pipeline.
翻訳日:2023-02-21 16:19:55 公開日:2023-02-20
# 電子-フォノン系のハイブリッド量子古典法

A Hybrid Quantum-Classical Method for Electron-Phonon Systems ( http://arxiv.org/abs/2302.09824v1 )

ライセンス: Link先を確認
M. Michael Denner, Alexander Miessen, Haoran Yan, Ivano Tavernelli, Titus Neupert, Eugene Demler, Yao Wang(参考訳) 電子とフォノンの相互作用は量子材料において重要な役割を果たす。 しかし、強い電子-フォノン相互作用と電子相関を同時に正確に説明できる普遍的な方法はない。 変分量子固有解法と変分非ガウジアン解法を組み合わせることにより、このタイプの相関系に適したハイブリッド量子古典アルゴリズムを開発した。 このハイブリッド法は、純粋な電子モデルと比較して必要な量子ビットや量子ゲートの数を増やすことなく、任意に強い電子-フォノンカップリングを持つシステムに取り組む。 本手法は,半充填時のパラダイム的ハバード・ホルシュタインモデルに適用し,電荷密度波と反強磁性相の競合を正確に捉え,正確な対角化と定量的に一致していることを示す。

Interactions between electrons and phonons play a crucial role in quantum materials. Yet, there is no universal method that would simultaneously accurately account for strong electron-phonon interactions and electronic correlations. By combining methods of the variational quantum eigensolver and the variational non-Gaussian solver, we develop a hybrid quantum-classical algorithm suitable for this type of correlated systems. This hybrid method tackles systems with arbitrarily strong electron-phonon coupling without increasing the number of required qubits and quantum gates, as compared to purely electronic models. We benchmark the new method by applying it to the paradigmatic Hubbard-Holstein model at half filling, and show that it correctly captures the competition between charge density wave and antiferromagnetic phases, quantitatively consistent with exact diagonalization.
翻訳日:2023-02-21 16:19:40 公開日:2023-02-20
# 騒音計測におけるsu(2)およびsu(1,1)干渉計の究極精度限界

Ultimate precision limit of SU(2) and SU(1,1) interferometers in noisy metrology ( http://arxiv.org/abs/2302.09823v1 )

ライセンス: Link先を確認
Jie Zeng, Dong Li, L. Q. Chen, Weiping Zhang, and Chun-Hua Yuan(参考訳) SU(2)およびSU(1,1)干渉計における量子フィッシャー情報(QFI)が検討され、QFIのみの計算が過大評価された。 一般に、2パラメータ推定問題としての位相推定と量子フィッシャー情報行列(QFIM)が必要である。 本稿では,Escher et al (Nature Physics 7, 406 (2011)) によるQFIMケースにノイズを伴って開発されたモデルを理論的に一般化し,位相測定プロセスにおいて光子損失がごく普通のノイズとなるため,SU(2)およびSU(1,1)干渉計の最終的な精度限界について検討する。 本研究では, コヒーレント状態と圧縮真空状態を具体例として, 過大評価QFIと損失係数の変動を数値解析し, その消失と回復現象を見出した。

The quantum Fisher information (QFI) in SU(2) and SU(1,1) interferometers was considered, and the QFI-only calculation was overestimated. In general, the phase estimation as a two-parameter estimation problem, and the quantum Fisher information matrix (QFIM) is necessary. In this paper, we theoretically generalize the model developed by Escher et al [Nature Physics 7, 406 (2011)] to the QFIM case with noise and study the ultimate precision limits of SU(2) and SU(1,1) interferometers with photon losses because photon losses as a very usual noise may happen to the phase measurement process. Using coherent state and squeezed vacuum state as a specific example, we numerically analyze the variation of the overestimated QFI with the loss coefficient, and find its disappearance and recovery phenomenon.
翻訳日:2023-02-21 16:19:26 公開日:2023-02-20
# ユーザ制御テーブル-テキスト生成ロバストネスの改善

Improving User Controlled Table-To-Text Generation Robustness ( http://arxiv.org/abs/2302.09820v1 )

ライセンス: Link先を確認
Hanxu Hu, Yunqing Liu, Zhongyi Yu and Laura Perez-Beltrachini(参考訳) 本研究では,ユーザがテーブル内のコンテンツを検索するテーブル・ツー・テキスト生成について,セルを選択し,自然言語生成装置によって自動生成される自然言語記述を読み取ることによって検討する。 このような生成モデルは、通常は慎重に選択された細胞の組み合わせ(クリーンな細胞選択)から学習するが、実際には、予期せぬ、冗長な、あるいは不整合な細胞の組み合わせ(ノイズの多い細胞選択)を選択することができる。 実験では、モデルが列車データと同じ分布から来るテストセットでうまく機能するが、実際の騒がしいユーザ入力で評価すると性能が低下することがわかった。 本稿では,ユーザシミュレーションによるノイズセル選択を付加した微調整方式を提案する。 提案されたシステムで微調整されたモデルは、ユーザノイズテストケースで4.85 BLEUポイント、クリーンテストケースで1.4、ToTToデータセットで同等の最先端パフォーマンスを達成する。

In this work we study user controlled table-to-text generation where users explore the content in a table by selecting cells and reading a natural language description thereof automatically produce by a natural language generator. Such generation models usually learn from carefully selected cell combinations (clean cell selections); however, in practice users may select unexpected, redundant, or incoherent cell combinations (noisy cell selections). In experiments, we find that models perform well on test sets coming from the same distribution as the train data but their performance drops when evaluated on realistic noisy user inputs. We propose a fine-tuning regime with additional user-simulated noisy cell selections. Models fine-tuned with the proposed regime gain 4.85 BLEU points on user noisy test cases and 1.4 on clean test cases; and achieve comparable state-of-the-art performance on the ToTTo dataset.
翻訳日:2023-02-21 16:19:06 公開日:2023-02-20
# フッ化ニウム量子ビット上のカップラーマイクロ波励起制御相ゲート

Coupler microwave-activated controlled phase gate on fluxonium qubits ( http://arxiv.org/abs/2302.09819v1 )

ライセンス: Link先を確認
Ilya A. Simakov, Grigoriy S. Mazhorin, Ilya N. Moskalenko, Nikolay N. Abramov, Alexander A. Grigorev, Dmitry O. Moskalev, Anastasiya A. Pishchimova, Nikita S. Smirnov, Evgeniy V. Zikiy, Ilya A. Rodionov, Ilya S. Besedin(参考訳) チューナブルカップルは超伝導量子ビット間の2ビットゲートを実装するための最も強力なツールの1つである。 チューナブルカプラは通常、2つのキュービットを接続するLC回路の共振周波数を調整するために使用されるSQUIDのような非線形要素を含む。 本稿では,準定常制御信号を適用することで,可変カプラの共振周波数を調整する代わりに,マイクロ波によってカプラ自体に関連する自由度を励起する手法を提案する。 カプラとキュービットの間の強い有効長のカップリングのため、この遷移の周波数は計算状態に大きく依存し、異なる状態における異なる位相の蓄積に繋がる。 この方法を用いて、フラックスニウムベースの量子プロセッサ上で44ns持続時間czゲートを実験的に実証し、クロスエントロピーベンチマークによって特徴付けられる97.6\pm 0.4 \%$を得た。

Tunable couplers have recently become one of the most powerful tools for implementing two-qubit gates between superconducting qubits. A tunable coupler typically includes a nonlinear element, such as a SQUID, which is used to tune the resonance frequency of an LC circuit connecting two qubits. Here we propose a complimentary approach where instead of tuning the resonance frequency of the tunable coupler by applying a quasistatic control signal, we excite by microwave the degree of freedom associated with the coupler itself. Due to strong effective longitudinal coupling between the coupler and the qubits, the frequency of this transition strongly depends on the computational state, leading to different phase accumulations in different states. Using this method, we experimentally demonstrate a CZ gate of 44 ns duration on a fluxonium-based quantum processor, obtaining a fidelity of $97.6\pm 0.4 \%$ characterized by cross-entropy benchmarking.
翻訳日:2023-02-21 16:18:50 公開日:2023-02-20
# formerTime:多変量時系列分類のための階層型マルチスケール表現

FormerTime: Hierarchical Multi-Scale Representations for Multivariate Time Series Classification ( http://arxiv.org/abs/2302.09818v1 )

ライセンス: Link先を確認
Mingyue Cheng, Qi Liu, Zhiding Liu, Zhi Li, Yucong Luo, Enhong Chen(参考訳) 深層学習に基づくアルゴリズム、例えば畳み込みネットワークは、多変量時系列分類(MTSC)タスクを著しく促進している。 それにもかかわらず、畳み込み操作の性質から長距離依存のモデル化の限界に苦しむ。 近年の進歩は、長距離依存を捉えるトランスフォーマーの可能性を示している。 しかし、時系列データの異なる性質のため、MTSCタスクに直接変換器を適用することで、固定スケール表現、時間不変性、二次時間複雑性などの深刻な問題が発生する。 そこで本研究では,mtscタスクの分類能力を向上させるための階層表現モデルである formertime を提案する。 提案手法では,階層型ネットワークアーキテクチャを用いてマルチスケール機能マップを実行する。 さらに、効率的な時間的減少注意層と、よく表現された文脈的位置符号化生成戦略を開発する新しいトランスフォーマーエンコーダを更に設計する。 結論として,(1)時系列データから階層的なマルチスケール表現を学習すること,(2)トランスフォーマーと畳み込みネットワークの強さを継承すること,(3)自己認識機構によって生じる効率上の課題に対処すること,の3つのメリットを示す。 uea archive の 10 ドルの公開データセットで行った広範囲な実験は、以前の競合ベースラインと比較して、前時代の優位性を検証している。

Deep learning-based algorithms, e.g., convolutional networks, have significantly facilitated multivariate time series classification (MTSC) task. Nevertheless, they suffer from the limitation in modeling long-range dependence due to the nature of convolution operations. Recent advancements have shown the potential of transformers to capture long-range dependence. However, it would incur severe issues, such as fixed scale representations, temporal-invariant and quadratic time complexity, with transformers directly applicable to the MTSC task because of the distinct properties of time series data. To tackle these issues, we propose FormerTime, an hierarchical representation model for improving the classification capacity for the MTSC task. In the proposed FormerTime, we employ a hierarchical network architecture to perform multi-scale feature maps. Besides, a novel transformer encoder is further designed, in which an efficient temporal reduction attention layer and a well-informed contextual positional encoding generating strategy are developed. To sum up, FormerTime exhibits three aspects of merits: (1) learning hierarchical multi-scale representations from time series data, (2) inheriting the strength of both transformers and convolutional networks, and (3) tacking the efficiency challenges incurred by the self-attention mechanism. Extensive experiments performed on $10$ publicly available datasets from UEA archive verify the superiorities of the FormerTime compared to previous competitive baselines.
翻訳日:2023-02-21 16:18:32 公開日:2023-02-20
# 頭部運動と表情動態から説明可能な人間中心特性

Explainable Human-centered Traits from Head Motion and Facial Expression Dynamics ( http://arxiv.org/abs/2302.09817v1 )

ライセンス: Link先を確認
Surbhi Madan, Monika Gahalawat, Tanaya Guha, Roland Goecke and Ramanathan Subramanian(参考訳) パーソナリティと面接特有の特徴を説明可能な予測にマルチモーダル行動手がかりの有効性を検討する。 頭部運動単位であるkinemes,行動単位と呼ばれる原子性顔面運動,発話特徴を用いて,これらの人間中心の特徴を推定する。 実験の結果、キネムとアクションユニットは複数の特性特異的な振る舞いの発見を可能にすると同時に、予測をサポートするための説明可能性も実現している。 そこで我々は,特徴予測のための3つのモードの相対的重要性を定量化する付加的な注意に基づく融合戦略について検討する。 mitインタビューと第1印象候補スクリーニング(fics)データセットにおける分類と回帰のための様々なlong-short term memory(lstm)アーキテクチャについて検討し、(1)マルチモーダルアプローチがユニモーダルアプローチよりも優れていること、(2)効率的な特性予測と説明がユニモーダルとマルチモーダルの両方で達成されていること、(3)シンスライスアプローチに従って、2秒の動作スニペットからでも効果的な特性予測が達成されていることを指摘した。

We explore the efficacy of multimodal behavioral cues for explainable prediction of personality and interview-specific traits. We utilize elementary head-motion units named kinemes, atomic facial movements termed action units and speech features to estimate these human-centered traits. Empirical results confirm that kinemes and action units enable discovery of multiple trait-specific behaviors while also enabling explainability in support of the predictions. For fusing cues, we explore decision and feature-level fusion, and an additive attention-based fusion strategy which quantifies the relative importance of the three modalities for trait prediction. Examining various long-short term memory (LSTM) architectures for classification and regression on the MIT Interview and First Impressions Candidate Screening (FICS) datasets, we note that: (1) Multimodal approaches outperform unimodal counterparts; (2) Efficient trait predictions and plausible explanations are achieved with both unimodal and multimodal approaches, and (3) Following the thin-slice approach, effective trait prediction is achieved even from two-second behavioral snippets.
翻訳日:2023-02-21 16:18:10 公開日:2023-02-20
# トリプルト学習の安定性と一般化について

On the Stability and Generalization of Triplet Learning ( http://arxiv.org/abs/2302.09815v1 )

ライセンス: Link先を確認
Jun Chen, Hong Chen, Xue Jiang, Bin Gu, Weifu Li, Tieliang Gong, Feng Zheng(参考訳) トリプルトラーニング(トリプルトラーニング)、すなわちトリプルトデータから学ぶことは、コンピュータビジョンタスクにおいて非常に多くのカテゴリー(顔認識や人物の再識別など)で注目を集めている。 三重項学習アルゴリズムの設計と適用の急速な進歩に加えて、その一般化性能の理論的理解に関する研究は乏しい。 このギャップを埋めるために,安定解析を利用して三重項学習の一般化保証を検討する。 具体的には、一様安定性を満足する三重項学習アルゴリズムに束縛された最初の一般高確率一般化を行い、次いで確率勾配降下 (sgd) と正規化リスク最小化 (rrm) の両方に対して、o(n^{-\frac{1}{2}} \mathrm{log}n)$ の余剰リスク境界を得る。 さらに、平均安定性解析により、低雑音の場合において、RRMに対して$O(n^{-1})$の期待値の楽観的な一般化が導出される。 最後に,その理論的基盤を特徴付けるために三重項計量学習に適用した。

Triplet learning, i.e. learning from triplet data, has attracted much attention in computer vision tasks with an extremely large number of categories, e.g., face recognition and person re-identification. Albeit with rapid progress in designing and applying triplet learning algorithms, there is a lacking study on the theoretical understanding of their generalization performance. To fill this gap, this paper investigates the generalization guarantees of triplet learning by leveraging the stability analysis. Specifically, we establish the first general high-probability generalization bound for the triplet learning algorithm satisfying the uniform stability, and then obtain the excess risk bounds of the order $O(n^{-\frac{1}{2}} \mathrm{log}n)$ for both stochastic gradient descent (SGD) and regularized risk minimization (RRM), where $2n$ is approximately equal to the number of training samples. Moreover, an optimistic generalization bound in expectation as fast as $O(n^{-1})$ is derived for RRM in a low noise case via the on-average stability analysis. Finally, our results are applied to triplet metric learning to characterize its theoretical underpinning.
翻訳日:2023-02-21 16:17:48 公開日:2023-02-20
# 部分監督型時間文接地における制約と統一

Constraint and Union for Partially-Supervised Temporal Sentence Grounding ( http://arxiv.org/abs/2302.09850v1 )

ライセンス: Link先を確認
Chen Ju, Haicheng Wang, Jinxiang Liu, Chaofan Ma, Ya Zhang, Peisen Zhao, Jianlong Chang, Qi Tian(参考訳) 時間文グラウンドティングは、与えられた未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。 既存の完全教師付き設定は優れた性能を実現するが、高価なアノテーションコストを必要とする。 アノテーションコストを少なくして高いパフォーマンスを追求するために,中間部分教師付き設定,すなわち,トレーニング中に短いクリップラベルやシングルフレームラベルのみを利用可能にする。 部分ラベルを最大限に活用するために,イベントクエリアラインメント表現を包括的に形成し,サンプル間およびサンプル間,ユニモダリティ,マルチモダリティをカバーする新しい4重項制約パイプラインを提案する。 前者はクラスタ内コンパクト性とクラスタ間分離性を高め、後者はイベントバックグラウンド分離とイベントクエリ収集を可能にする。 明示的な接地最適化によるより強力な性能を実現するために,我々はさらに,完全教師付き分岐を付加した部分完全結合フレームワークを導入し,その印象的な接地ボーナスを享受し,部分アノテーションに頑健である。 Charades-STAとActivityNet Captionsの大規模な実験と改善は、部分的な監督の重要性と優れたパフォーマンスを示している。

Temporal sentence grounding aims to detect the event timestamps described by the natural language query from given untrimmed videos. The existing fully-supervised setting achieves great performance but requires expensive annotation costs; while the weakly-supervised setting adopts cheap labels but performs poorly. To pursue high performance with less annotation cost, this paper introduces an intermediate partially-supervised setting, i.e., only short-clip or even single-frame labels are available during training. To take full advantage of partial labels, we propose a novel quadruple constraint pipeline to comprehensively shape event-query aligned representations, covering intra- and inter-samples, uni- and multi-modalities. The former raises intra-cluster compactness and inter-cluster separability; while the latter enables event-background separation and event-query gather. To achieve more powerful performance with explicit grounding optimization, we further introduce a partial-full union framework, i.e., bridging with an additional fully-supervised branch, to enjoy its impressive grounding bonus, and be robust to partial annotations. Extensive experiments and ablations on Charades-STA and ActivityNet Captions demonstrate the significance of partial supervision and our superior performance.
翻訳日:2023-02-21 16:11:31 公開日:2023-02-20
# FederatedTrust: 信頼できるフェデレーション学習のためのソリューション

FederatedTrust: A Solution for Trustworthy Federated Learning ( http://arxiv.org/abs/2302.09844v1 )

ライセンス: Link先を確認
Pedro Miguel S\'anchez S\'anchez, Alberto Huertas Celdr\'an, Ning Xie, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez, Burkhard Stiller(参考訳) IoT(Internet of Things)とエッジコンピューティング(Edge Computing)のパラダイムが広く普及するにつれ、センシティブな情報を含む既存の分散データサイロによって、集中型機械学習(ML/DL)は困難になってきた。 データプライバシに対する関心が高まっているのは、フェデレートラーニング(FL)のような、協調的でプライバシ保護のML/DL技術の開発を促進することだ。 FLは、グローバルでコラボレーティブなモデルの作成中に参加者のローカルデータが公開されないため、設計によるデータプライバシを実現する。 しかし、データプライバシとパフォーマンスはもはや不十分であり、モデル予測を信頼する必要がある。 文献は、信頼性の高いML/DL(データプライバシなし)に関するいくつかの研究を提案しており、堅牢性、公正性、説明可能性、説明責任が関連する柱として特定されている。 しかし、FLモデルに関連する信頼性柱と評価指標を特定し、FLモデルの信頼性レベルを計算するソリューションを作成するためには、さらなる努力が必要である。 そこで本研究では,flにおける信頼性評価の既存要件を分析し,信頼度計算のための概念と30以上の指標を含む6つの柱(プライバシー,ロバスト性,公平性,説明可能性,説明責任,連合)の包括的分類法を提案する。 そして、FLモデルの信頼性スコアを計算するために、以前の分類法で同定された柱と指標に基づいてFederatedTrustと呼ばれるアルゴリズムを設計した。 FederatedTrustのプロトタイプが実装され、よく知られたFLフレームワークであるFederatedScopeの学習プロセスにデプロイされた。 最後に,femnistデータセットを用いたフェデレーションスコープの異なる構成を用いた4つの実験により,flモデルの信頼性計算におけるフェデレーション信頼の有用性が示された。

With the ever-widening spread of the Internet of Things (IoT) and Edge Computing paradigms, centralized Machine and Deep Learning (ML/DL) have become challenging due to existing distributed data silos containing sensitive information. The rising concern for data privacy is promoting the development of collaborative and privacy-preserving ML/DL techniques such as Federated Learning (FL). FL enables data privacy by design since the local data of participants are not exposed during the creation of the global and collaborative model. However, data privacy and performance are no longer sufficient, and there is a real necessity to trust model predictions. The literature has proposed some works on trustworthy ML/DL (without data privacy), where robustness, fairness, explainability, and accountability are identified as relevant pillars. However, more efforts are needed to identify trustworthiness pillars and evaluation metrics relevant to FL models and to create solutions computing the trustworthiness level of FL models. Thus, this work analyzes the existing requirements for trustworthiness evaluation in FL and proposes a comprehensive taxonomy of six pillars (privacy, robustness, fairness, explainability, accountability, and federation) with notions and more than 30 metrics for computing the trustworthiness of FL models. Then, an algorithm called FederatedTrust has been designed according to the pillars and metrics identified in the previous taxonomy to compute the trustworthiness score of FL models. A prototype of FederatedTrust has been implemented and deployed into the learning process of FederatedScope, a well-known FL framework. Finally, four experiments performed with different configurations of FederatedScope using the FEMNIST dataset under different federation configurations demonstrated the usefulness of FederatedTrust when computing the trustworthiness of FL models.
翻訳日:2023-02-21 16:11:09 公開日:2023-02-20
# JNDMix:非参照画像品質評価のためのJNDベースのデータ拡張

JNDMix: JND-Based Data Augmentation for No-reference Image Quality Assessment ( http://arxiv.org/abs/2302.09838v1 )

ライセンス: Link先を確認
Jiamu Sheng, Jiayuan Fan, Peng Ye, Jianjian Cao(参考訳) 参照なし画像品質評価(nr-iqa)の大幅な進歩にもかかわらず、既存のトレーニングモデルは、使用済みデータセットのスケールが限られているため、過剰フィッティングに苦しめられ、結果としてモデルパフォーマンスのボトルネックが発生する。 この課題に対処するために、データ拡張を活用してデータ効率を改善し、モデルの堅牢性を向上する可能性を探る。 しかし、既存のデータ拡張手法の多くは、画像の品質を変更し、元のラベルとミスマッチした画像をトレーニングするという深刻な問題を引き起こしている。 加えて、NR-IQAタスクで利用可能なデータ拡張メソッドはわずかだが、データセットの多様性を豊かにする能力はまだ不十分である。 これらの問題に対処するため, NR-IQAタスクのノイズ混合(JND)に基づく, JNDMix という, 有効かつ汎用的なデータ拡張を提案する。 そこで本研究では,人間の視覚システム(HVS)に非受容なJNDノイズを,ラベルの調整なしにトレーニング画像にランダムに注入する。 大規模な実験により、JNDMixは様々な最先端NR-IQAモデルと一般的なベースラインモデルの性能とデータ効率を向上し、一般化能力も向上することが示された。 さらに重要なことは、JNDMixはMANIQAをLIVECとKonIQ-10kで最先端のパフォーマンスを達成するのに役立てている。

Despite substantial progress in no-reference image quality assessment (NR-IQA), previous training models often suffer from over-fitting due to the limited scale of used datasets, resulting in model performance bottlenecks. To tackle this challenge, we explore the potential of leveraging data augmentation to improve data efficiency and enhance model robustness. However, most existing data augmentation methods incur a serious issue, namely that it alters the image quality and leads to training images mismatching with their original labels. Additionally, although only a few data augmentation methods are available for NR-IQA task, their ability to enrich dataset diversity is still insufficient. To address these issues, we propose a effective and general data augmentation based on just noticeable difference (JND) noise mixing for NR-IQA task, named JNDMix. In detail, we randomly inject the JND noise, imperceptible to the human visual system (HVS), into the training image without any adjustment to its label. Extensive experiments demonstrate that JNDMix significantly improves the performance and data efficiency of various state-of-the-art NR-IQA models and the commonly used baseline models, as well as the generalization ability. More importantly, JNDMix facilitates MANIQA to achieve the state-of-the-art performance on LIVEC and KonIQ-10k.
翻訳日:2023-02-21 16:10:37 公開日:2023-02-20
# One-of-Many Unclonable Cryptography:定義、構成など

One-out-of-Many Unclonable Cryptography: Definitions, Constructions, and More ( http://arxiv.org/abs/2302.09836v1 )

ライセンス: Link先を確認
Fuyuki Kitagawa and Ryo Nishimaki(参考訳) 量子力学の非閉鎖原理により、古典暗号では不可能な、信じられない暗号プリミティブを実現することができる。 しかし、解読不能な暗号のセキュリティ定義は難しい。 unclonabilityのための望ましいセキュリティ概念の実現は、難しい課題です。 特に、標準モデルでは、単一ビット出力点関数に対する識別不能な暗号と量子コピー保護は存在しない。 この問題に取り組むため,本研究では,実装不能な暗号に対して,緩やかだが有意義なセキュリティ概念を導入し,検討する。 我々は、新しいセキュリティ概念を一対一のセキュリティと呼んでいます。 以下の結果が得られる。 また,sde (single-decryptor encryption) は,一対一の識別不能でセキュアな不正な暗号であることを示す。 -LWE仮定から標準モデルに強力な海賊対策秘密鍵SDEスキームを1回構築する。 単一ビット出力点関数に対する一対一のコピー保護を、一対一の識別不能なセキュアな暗号化とLWE仮定から構築する。 -一対一の無作為暗号とLWE仮定から一対一の無作為暗号(PE)を構築する。 したがって、LWEの仮定から、標準モデルにおける1-out-of-many indistinguishable-Secure unclonablecrypt、シングルビット出力ポイント関数に対する1-out-many copy- protection、および1-out-many unclonable PEを得る。 さらに、我々の一時期のSDEスキームは、いかなるオラクルヒューリスティックにも依存せず、不明瞭な難読化や証人暗号といった強い仮定に依存しない最初のSDEスキームである。

The no-cloning principle of quantum mechanics enables us to achieve amazing unclonable cryptographic primitives, which is impossible in classical cryptography. However, the security definitions for unclonable cryptography are tricky. Achieving desirable security notions for unclonability is a challenging task. In particular, there is no indistinguishable-secure unclonable encryption and quantum copy-protection for single-bit output point functions in the standard model. To tackle this problem, we introduce and study relaxed but meaningful security notions for unclonable cryptography in this work. We call the new security notion one-out-of-many unclonable security. We obtain the following results. - We show that one-time strong anti-piracy secure secret key single-decryptor encryption (SDE) implies one-out-of-many indistinguishable-secure unclonable encryption. - We construct a one-time strong anti-piracy secure secret key SDE scheme in the standard model from the LWE assumption. - We construct one-out-of-many copy-protection for single-bit output point functions from one-out-of-many indistinguishable-secure unclonable encryption and the LWE assumption. - We construct one-out-of-many unclonable predicate encryption (PE) from one-out-of-many indistinguishable-secure unclonable encryption and the LWE assumption. Thus, we obtain one-out-of-many indistinguishable-secure unclonable encryption, one-out-of-many copy-protection for single-bit output point functions, and one-out-of-many unclonable PE in the standard model from the LWE assumption. In addition, our one-time SDE scheme is the first SDE scheme that does not rely on any oracle heuristics and strong assumptions such as indistinguishability obfuscation and witness encryption.
翻訳日:2023-02-21 16:10:12 公開日:2023-02-20
# 単純なU-netによる合成ポリプ画像生成:ポリプを負、ポリプを負とする

Simple U-net Based Synthetic Polyp Image Generation: Polyp to Negative and Negative to Polyp ( http://arxiv.org/abs/2302.09835v1 )

ライセンス: Link先を確認
Hemin Ali Qadir, Ilangko Balasingham, Younghak Shin(参考訳) 合成ポリープ生成は、医療データのプライバシー問題と様々なポリープサンプルの欠如を克服する優れた代替手段である。 本研究では,実画像と類似した合成ポリプ画像を生成する深層学習に基づくポリプ画像生成フレームワークを提案する。 簡単な条件付きGANアーキテクチャを用いて、与えられたポリプ画像を負のイメージ(ポリプのないイメージ)に変換し、同じネットワークを用いて、その負の画像を新しいポリプ画像に変換するフレームワークを提案する。 また、制御可能なポリプマスクを用いて、1つの入力条件から様々な特性を有するポリプを生成することができる。 生成されたポリープ画像は、付加的なラベル付けなしに、ポリープ検出とセグメンテーションのためのトレーニング画像として直接使用できる。 生成した合成ポリプの品質を定量的に評価するために,生成した合成画像と組み合わせたポリープ画像と映像データセットを用いて,複数の検出・分割モデルの性能改善を検討する。 実験の結果,生成したポリプ画像がトレーニングセットに追加されると,性能が向上することがわかった。

Synthetic polyp generation is a good alternative to overcome the privacy problem of medical data and the lack of various polyp samples. In this study, we propose a deep learning-based polyp image generation framework that generates synthetic polyp images that are similar to real ones. We suggest a framework that converts a given polyp image into a negative image (image without a polyp) using a simple conditional GAN architecture and then converts the negative image into a new-looking polyp image using the same network. In addition, by using the controllable polyp masks, polyps with various characteristics can be generated from one input condition. The generated polyp images can be used directly as training images for polyp detection and segmentation without additional labeling. To quantitatively assess the quality of generated synthetic polyps, we use public polyp image and video datasets combined with the generated synthetic images to examine the performance improvement of several detection and segmentation models. Experimental results show that we obtain performance gains when the generated polyp images are added to the training set.
翻訳日:2023-02-21 16:09:44 公開日:2023-02-20
# マルチタスク学習のためのキャリブレーションを用いたトランスダクティブマトリクス補完

Transductive Matrix Completion with Calibration for Multi-Task Learning ( http://arxiv.org/abs/2302.09834v1 )

ライセンス: Link先を確認
Hengfang Wang, Yasi Zhang, Xiaojun Mao and Zhonglei Wang(参考訳) マルチタスク学習は、複数の関連データソースを用いた多目的研究の進展により、多くの注目を集めている。 さらに,行列補完を用いたトランスダクションは,マルチラベル学習に有用である。 本稿では,マルチタスク学習フレームワークにおける特徴量に対する校正制約を組み込んだトランスダクティブ行列補完アルゴリズムを提案する。 提案アルゴリズムは,不完全特徴行列とターゲット行列を同時に復元する。 幸いなことに、校正情報は完了結果を改善する。 特に,提案アルゴリズムに対する統計的保証を提供し,校正情報による理論的改善についても検討した。 さらに,提案アルゴリズムは,部分線形収束率を享受する。 いくつかの合成データ実験を行い、特に目的行列が非線形に特徴行列に関連付けられている場合、提案アルゴリズムは既存の手法よりも優れていることを示す。

Multi-task learning has attracted much attention due to growing multi-purpose research with multiple related data sources. Moreover, transduction with matrix completion is a useful method in multi-label learning. In this paper, we propose a transductive matrix completion algorithm that incorporates a calibration constraint for the features under the multi-task learning framework. The proposed algorithm recovers the incomplete feature matrix and target matrix simultaneously. Fortunately, the calibration information improves the completion results. In particular, we provide a statistical guarantee for the proposed algorithm, and the theoretical improvement induced by calibration information is also studied. Moreover, the proposed algorithm enjoys a sub-linear convergence rate. Several synthetic data experiments are conducted, which show the proposed algorithm out-performs other existing methods, especially when the target matrix is associated with the feature matrix in a nonlinear way.
翻訳日:2023-02-21 16:09:25 公開日:2023-02-20
# ドメイン特化事前学習による全スライド画像分類の信頼性向上

Domain-Specific Pretraining Improves Confidence in Whole Slide Image Classification ( http://arxiv.org/abs/2302.09833v1 )

ライセンス: Link先を確認
Soham Rohit Chitnis, Sidong Liu, Tirtharaj Dash, Tanmay Tulsidas Verlekar, Antonio Di Ieva, Shlomo Berkovsky, Lovekesh Vig, Ashwin Srinivasan(参考訳) 全スライド画像(WSI)または病理像はデジタル病理学で使用される。 WSIは、そのサイズとピクセルレベルのアノテーションの欠如により、臨床診断のためのディープラーニングモデルに大きな課題を提起する。 近年の計算病理学の発展に伴い,より新しいマルチインスタンス学習モデルが提案されている。 WSIの多重インスタンス学習は、パッチの作成を必要とし、これらのパッチのエンコーディングを使用して診断を行う。 これらのモデルはパッチエンコーディングに一般的な事前トレーニングモデル(imagenetで事前トレーニングされたresnet-50)を使用する。 最近提案されたkimianetは、tcga slidesで事前トレーニングされたdrknet121モデルであり、ドメイン固有の事前トレーニングモデルである。 本稿では,ドメイン固有の事前学習がWSI分類に及ぼす影響を示す。 ドメイン固有の事前学習の影響を調べるために,現在最先端のマルチインスタンス学習モデルを検討した。 1)注意に基づくモデルであるCLAM 2)自己着床モデルであるtransmilは,原発性脳腫瘍(グリオーマ)の検出におけるモデルの信頼性と予測性能を評価した。 ドメイン固有の事前訓練はモデルの信頼性を高め、またwsiベースのグリオーマサブタイプ分類の新たな最先端性能を達成し、グリオーマ診断の補助に高い臨床応用性を示す。

Whole Slide Images (WSIs) or histopathology images are used in digital pathology. WSIs pose great challenges to deep learning models for clinical diagnosis, owing to their size and lack of pixel-level annotations. With the recent advancements in computational pathology, newer multiple-instance learning-based models have been proposed. Multiple-instance learning for WSIs necessitates creating patches and uses the encoding of these patches for diagnosis. These models use generic pre-trained models (ResNet-50 pre-trained on ImageNet) for patch encoding. The recently proposed KimiaNet, a DenseNet121 model pre-trained on TCGA slides, is a domain-specific pre-trained model. This paper shows the effect of domain-specific pre-training on WSI classification. To investigate the impact of domain-specific pre-training, we considered the current state-of-the-art multiple-instance learning models, 1) CLAM, an attention-based model, and 2) TransMIL, a self-attention-based model, and evaluated the models' confidence and predictive performance in detecting primary brain tumors - gliomas. Domain-specific pre-training improves the confidence of the models and also achieves a new state-of-the-art performance of WSI-based glioma subtype classification, showing a high clinical applicability in assisting glioma diagnosis.
翻訳日:2023-02-21 16:09:14 公開日:2023-02-20
# TAMUNA: ローカルトレーニングと部分参加による促進的フェデレーション学習

TAMUNA: Accelerated Federated Learning with Local Training and Partial Participation ( http://arxiv.org/abs/2302.09832v1 )

ライセンス: Link先を確認
Laurent Condat, Grigory Malinovsky, Peter Richt\'arik(参考訳) 連合学習では、多数のユーザが協調的な方法でグローバルな学習タスクに関与している。 ローカル計算と遠隔サーバとの通信を交互に行う。 通信は遅くてコストがかかる可能性があるが、この設定の主なボトルネックは通信だ。 分散勾配降下を加速するために、局所学習の一般的な戦略は、より頻繁に通信すること、すなわち、通信ステップ間で局所的な計算を繰り返し行うことである。 この分野における最近のブレークスルーは、mishchenkoら (2022) によってなされた: 彼らのスカフニューアルゴリズムは、おそらく最初のローカルトレーニングの恩恵を受け、通信の複雑さを加速する。 しかしながら、Scaffnewの背後にある強力なメカニズムが部分的な参加と互換性があるかどうかを知ることは、オープンで難しい問題でした。 本稿では,この問題を肯定的に解き,局所的なトレーニングと部分的参加を扱う新しいアルゴリズムを提案する。

In federated learning, a large number of users are involved in a global learning task, in a collaborative way. They alternate local computations and communication with a distant server. Communication, which can be slow and costly, is the main bottleneck in this setting. To accelerate distributed gradient descent, the popular strategy of local training is to communicate less frequently; that is, to perform several iterations of local computations between the communication steps. A recent breakthrough in this field was made by Mishchenko et al. (2022): their Scaffnew algorithm is the first to probably benefit from local training, with accelerated communication complexity. However, it was an open and challenging question to know whether the powerful mechanism behind Scaffnew would be compatible with partial participation, the desirable feature that not all clients need to participate to every round of the training process. We answer this question positively and propose a new algorithm, which handles local training and partial participation, with state-of-the-art communication complexity.
翻訳日:2023-02-21 16:08:53 公開日:2023-02-20
# エスケープ極限サイクル:制約付き非凸非凸ミニマックス問題に対する大域収束

Escaping limit cycles: Global convergence for constrained nonconvex-nonconcave minimax problems ( http://arxiv.org/abs/2302.09831v1 )

ライセンス: Link先を確認
Thomas Pethick, Puya Latafat, Panagiotis Patrinos, Olivier Fercoq, Volkan Cevher(参考訳) 本稿では,非凸非凸ミニマックス問題に対する新しい超勾配型アルゴリズムを提案する。 一般ミニマックス問題に対する局所解を見つけることは計算上難解であることはよく知られている。 この観測は、いわゆる弱ミンティ変分不等式(MVI)が成立するより一般的な変分不等式の設定において、一階法の収束に十分な構造の研究を動機付けている。 この問題クラスは、実例で示すような非自明な構造を捉え、既存のアルゴリズムの大規模なファミリーは、確実に極限サイクルに収束する。 その結果,従来知られていたよりも弱いmviの制約パラメータ範囲が小さくなり,提案手法の適用性が向上した。 提案アルゴリズムは制約付きおよび正規化問題に適用可能であり、適応的なステップサイズを伴い、潜在的により大きなステップサイズを実現する。 我々のスキームは、基礎となる演算子がリミットサイクルを示す設定でもグローバルに収束する。

This paper introduces a new extragradient-type algorithm for a class of nonconvex-nonconcave minimax problems. It is well-known that finding a local solution for general minimax problems is computationally intractable. This observation has recently motivated the study of structures sufficient for convergence of first order methods in the more general setting of variational inequalities when the so-called weak Minty variational inequality (MVI) holds. This problem class captures non-trivial structures as we demonstrate with examples, for which a large family of existing algorithms provably converge to limit cycles. Our results require a less restrictive parameter range in the weak MVI compared to what is previously known, thus extending the applicability of our scheme. The proposed algorithm is applicable to constrained and regularized problems, and involves an adaptive stepsize allowing for potentially larger stepsizes. Our scheme also converges globally even in settings where the underlying operator exhibits limit cycles.
翻訳日:2023-02-21 16:08:35 公開日:2023-02-20
# 有向非巡回グラフ公理を用いた重み付き一階数モデル

Weighted First Order Model Counting with Directed Acyclic Graph Axioms ( http://arxiv.org/abs/2302.09830v1 )

ライセンス: Link先を確認
Sagar Malhotra and Luciano Serafini(参考訳) WFOMC(Weighted First Order Model Counting)は、一階述語論理文のモデルの重み付け和を計算するタスクである。 多くの統計的関係学習フレームワークにおける確率論的推論問題は、WFOMC問題として考えられる。 しかし、一般にWFOMCは難解であることが知られている(#P_1-complete)。 したがって、多項式時間 WFOMC を許容する論理的断片は重要な関心事である。 このような断片はドメインリフトと呼ばれる。 近年の研究では、数量化子で拡張された一階述語論理の2変数の断片をドメインリフト可能と定義している。 本稿では,この断片を有向非巡回グラフ公理(Directed Acyclic Graph axiom)で拡張し,関係を有向非巡回グラフ(Directed Acyclic Graph)と解釈する。

Weighted First Order Model Counting (WFOMC) is the task of computing the weighted sum of the models of a first-order logic sentence. Probabilistic inference problems in many statistical relational learning frameworks can be cast as a WFOMC problem. However, in general, WFOMC is known to be intractable (#P_1- complete). Hence, logical fragments that admit polynomial time WFOMC are of significant interest. Such fragments are called domain liftable. Recent works have identified the two-variable fragment of first-order logic, extended with counting quantifiers, to be domain liftable. In this paper, we extend this fragment with a Directed Acyclic Graph axiom, i.e., a relation is interpreted as a Directed Acyclic Graph.
翻訳日:2023-02-21 16:08:18 公開日:2023-02-20
# 超伝導トランスモン量子ビットを用いた量子誤り訂正のための全マイクロ波リーク低減ユニット

All-microwave leakage reduction units for quantum error correction with superconducting transmon qubits ( http://arxiv.org/abs/2302.09876v1 )

ライセンス: Link先を確認
J. F. Marques, H. Ali, B. M. Varbanov, M. Finkel, H. M. Veen, S. L. M. van der Meer, S. Valles-Sanclemente, N. Muthusubramanian, M. Beekman, N. Haider, B. M. Terhal, L. DiCarlo(参考訳) 量子回路を量子ビットとして使用する場合、計算状態からの漏洩を最小化することは課題である。 Battistelらによって提案された回路QEDアーキテクチャにおいて,トランスモンの量子ハードウエア効率,全マイクロ波リーク低減ユニット(LRU)を実現し,拡張する。 このlruは、キュービットのサブスペースへの影響を最小限に抑えつつ、最大$99\%$の220〜\mathrm{ns}$で、第2および第3のトランスモン状態におけるリークを効果的に低減する。 量子誤差補正における第1の応用として,重み2パリティ測定の50サイクル以上において,複数のlrusが誤り検出率を低減し,漏洩ビルドアップを1〜%$以内で抑制できることを実証する。

Minimizing leakage from computational states is a challenge when using many-level systems like superconducting quantum circuits as qubits. We realize and extend the quantum-hardware-efficient, all-microwave leakage reduction unit (LRU) for transmons in a circuit QED architecture proposed by Battistel et al. This LRU effectively reduces leakage in the second- and third-excited transmon states with up to $99\% $ efficacy in $220~\mathrm{ns}$, with minimum impact on the qubit subspace. As a first application in the context of quantum error correction, we demonstrate the ability of multiple simultaneous LRUs to reduce the error detection rate and to suppress leakage buildup within $1\%$ in data and ancilla qubits over 50 cycles of a weight-2 parity measurement.
翻訳日:2023-02-21 16:02:20 公開日:2023-02-20
# バックステップ時間差学習

Backstepping Temporal Difference Learning ( http://arxiv.org/abs/2302.09875v1 )

ライセンス: Link先を確認
Han-Dong Lim and Donghwan Lee(参考訳) オフポリシー学習能力は,強化学習(rl)の実用的利用において重要な特徴である。 しかしながら、最も基本的なRLアルゴリズムの1つである時間差分学習(TD)も、線形関数近似とともにオフポリシースキームが使用される際に、形式分岐問題に悩まされることが知られている。 この分散行動を克服するために,gtd(gradient-td learning)やtdc(td-learning with correction)などのオフポリシーtd-learningアルゴリズムがこれまで開発されてきた。 本研究では、純粋制御理論の観点から、そのようなアルゴリズムの統一的なビューを提供し、新しい収束アルゴリズムを提案する。 本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。 最後に、標準TD学習が不安定な環境において、提案アルゴリズムの収束を実験的に検証する。

Off-policy learning ability is an important feature of reinforcement learning (RL) for practical applications. However, even one of the most elementary RL algorithms, temporal-difference (TD) learning, is known to suffer form divergence issue when the off-policy scheme is used together with linear function approximation. To overcome the divergent behavior, several off-policy TD-learning algorithms, including gradient-TD learning (GTD), and TD-learning with correction (TDC), have been developed until now. In this work, we provide a unified view of such algorithms from a purely control-theoretic perspective, and propose a new convergent algorithm. Our method relies on the backstepping technique, which is widely used in nonlinear control theory. Finally, convergence of the proposed algorithm is experimentally verified in environments where the standard TD-learning is known to be unstable.
翻訳日:2023-02-21 16:02:02 公開日:2023-02-20
# 機械学習を用いた態度と潜在クラス選択モデル

Attitudes and Latent Class Choice Models using Machine learning ( http://arxiv.org/abs/2302.09871v1 )

ライセンス: Link先を確認
Lorena Torres Lahoz (1), Francisco Camara Pereira (1), Georges Sfeir (1), Ioanna Arkoudi (1), Mayara Moraes Monteiro (1), Carlos Lima Azevedo (1) ((1) DTU Management, Technical University of Denmark)(参考訳) LCCM(Latent Class Choice Models)は、選好類似性の仮定に基づいて集団を分割することにより、選択過程における観測されない不均一性を捉える離散選択モデル(DCM)の拡張である。 本稿では,潜伏変数の構成を定式化するために人工ニューラルネットワーク(ANN)を導入し,LCCMの仕様に位置インジケータを効率的に組み込む手法を提案する。 この定式化は、態度や信念のような観察不能で複雑な行動的特徴を捉える機械学習(ml)の柔軟性とパワーを考慮に入れることで、位置指標と決定選択との関係を探求する能力において、構造方程式を克服する。 これら全ては、一般化ランダムユーティリティモデルで提示される理論的仮定と推定パラメータの解釈可能性の整合性を維持しながら維持される。 提案するカーシェアリング(cs)サービスのサブスクリプション選択のためのフレームワークをデンマークのコペンハーゲンで提案する選好データを用いてテストした。 その結果,提案手法は完全かつ現実的なセグメンテーションを提供し,より優れたポリシー設計を支援することを示す。

Latent Class Choice Models (LCCM) are extensions of discrete choice models (DCMs) that capture unobserved heterogeneity in the choice process by segmenting the population based on the assumption of preference similarities. We present a method of efficiently incorporating attitudinal indicators in the specification of LCCM, by introducing Artificial Neural Networks (ANN) to formulate latent variables constructs. This formulation overcomes structural equations in its capability of exploring the relationship between the attitudinal indicators and the decision choice, given the Machine Learning (ML) flexibility and power in capturing unobserved and complex behavioural features, such as attitudes and beliefs. All of this while still maintaining the consistency of the theoretical assumptions presented in the Generalized Random Utility model and the interpretability of the estimated parameters. We test our proposed framework for estimating a Car-Sharing (CS) service subscription choice with stated preference data from Copenhagen, Denmark. The results show that our proposed approach provides a complete and realistic segmentation, which helps design better policies.
翻訳日:2023-02-21 16:01:48 公開日:2023-02-20
# 離散情報抽出プロンプトは言語モデルにまたがって一般化できるか?

Can discrete information extraction prompts generalize across language models? ( http://arxiv.org/abs/2302.09865v1 )

ライセンス: Link先を確認
Nathana\"el Carraz Rakotonirina, Roberto Dess\`i, Fabio Petroni, Sebastian Riedel, Marco Baroni(参考訳) 言語モデルから情報を効果的に抽出する自動的なプロンプトが、同じ情報に対して他の言語モデルを調べるのに使えるかどうかについても検討する。 AutoPromptアルゴリズムによって誘導される離散的なプロンプトが、スロット充足タスクにおいて手動および半手動のプロンプトより優れていることを確認した後、モデル上で学習したAutoPromptプロンプトの性能低下を実証し、別のモデルでテストした。 学習時間に言語モデルを混合することでプロンプトを誘発する手法を導入し,モデル間をうまく一般化するプロンプトを生成する。 誘導プロンプトの広範な解析を行い、より一般的なプロンプトは、既存の英語単語の比率を大きく含み、より順序に依存しない、より均一な情報分布を有することを発見した。 我々の研究は、複数の異なるモデルで一度誘発され、使用できる離散的なプロンプトを生成できるという予備的な証拠を提供し、そのようなプロンプトを特徴付ける特性についての洞察を与えます。

We study whether automatically-induced prompts that effectively extract information from a language model can also be used, out-of-the-box, to probe other language models for the same information. After confirming that discrete prompts induced with the AutoPrompt algorithm outperform manual and semi-manual prompts on the slot-filling task, we demonstrate a drop in performance for AutoPrompt prompts learned on a model and tested on another. We introduce a way to induce prompts by mixing language models at training time that results in prompts that generalize well across models. We conduct an extensive analysis of the induced prompts, finding that the more general prompts include a larger proportion of existing English words and have a less order-dependent and more uniform distribution of information across their component tokens. Our work provides preliminary evidence that it's possible to generate discrete prompts that can be induced once and used with a number of different models, and gives insights on the properties characterizing such prompts.
翻訳日:2023-02-21 16:01:27 公開日:2023-02-20
# 概念モデリングにおける役割の概念

The notion of role in conceptual modelling ( http://arxiv.org/abs/2302.09863v1 )

ライセンス: Link先を確認
Chantal Reynaud (LRI), Nathalie Aussenac-Gilles (IRIT-MELODI, CNRS), Pierre Tchounikine (LIUM, MeTAH ), Franckie Trichet (LIUM)(参考訳) 本稿では,知識の役割の概念を分析する。 まず、異なるアプローチで問題解決手法とドメインモデルの関係がどのように取り組まれているかを示す。 知識工学のプロセスにおいて、この問題にどう対処するかに集中します。 次に,役割概念の分析,特徴化,定義に使用できるいくつかの特性を紹介する。 これらの次元に先行して公開された作品を評価・比較する。 この分析は、推論とドメイン知識の関係をよりよく活用するいくつかの開発を示唆している。 最後のセクションで紹介します。

In this article we analyse the notion of knowledge role. First of all, we present how the relationship between problem solving methods and domain models is tackled in different approaches. We concentrate on how they cope with this issue in the knowledge engineering process. Secondly, we introduce several properties which can be used to analyse, characterise and define the notion of role. We evaluate and compare the works exposed previously following these dimensions. This analysis suggests some developments to better exploit the relationship between reasoning and domain knowledge. We present them in a last section.
翻訳日:2023-02-21 16:01:06 公開日:2023-02-20
# RDataFrameへのAwkwardとBack

Awkward to RDataFrame and back ( http://arxiv.org/abs/2302.09860v1 )

ライセンス: Link先を確認
Ianna Osborne and Jim Pivarski(参考訳) Awkward ArraysとRDataFrameは、2つの非常に異なる計算方法を提供している。 両者にゼロコピー変換機能を加えることで、ユーザーは両方を最大限に活用できる。 分析にさまざまなパッケージや言語を混ぜる際の柔軟性が向上します。 Awkward Arrayバージョン2では、ak.to_rdataframe関数がRDataFrameソースとしてAwkward Arrayのビューを表示する。 このビューはオンデマンドで生成され、データはコピーされない。 カラムリーダーは、ビューのランタイムタイプに基づいて生成される。 読者はROOT::RDF::RDataSourceから生成されたソースに渡される。 ak.from_rdataframe関数は、選択した列をネイティブなAwkward Arrayとして変換する。 JIT技術を利用した実装の詳細について論じる。 RDataFrameの高レベルインターフェースを介してAwkward Arraysに格納されたデータの分析例を示す。 C++で書かれたユーザ定義フィルタを適用し、Awkward Arrayとして列データをプロットまたは抽出する列定義のいくつかの例を示す。 現在の限界と今後の計画について論じる。

Awkward Arrays and RDataFrame provide two very different ways of performing calculations at scale. By adding the ability to zero-copy convert between them, users get the best of both. It gives users a better flexibility in mixing different packages and languages in their analysis. In Awkward Array version 2, the ak.to_rdataframe function presents a view of an Awkward Array as an RDataFrame source. This view is generated on demand and the data are not copied. The column readers are generated based on the run-time type of the views. The readers are passed to a generated source derived from ROOT::RDF::RDataSource. The ak.from_rdataframe function converts the selected columns as native Awkward Arrays. The details of the implementation exploiting JIT techniques are discussed. The examples of analysis of data stored in Awkward Arrays via a high-level interface of an RDataFrame are presented. A few examples of the column definition, applying user-defined filters written in C++, and plotting or extracting the columnar data as Awkward Arrays are shown. Current limitations and future plans are discussed.
翻訳日:2023-02-21 16:00:58 公開日:2023-02-20
# 社会的・非社会的罪の共進化

Co-evolution of Social and Non-Social Guilt ( http://arxiv.org/abs/2302.09859v1 )

ライセンス: Link先を確認
Theodor Cimpeanu, Luis Moniz Pereira, The Anh Han(参考訳) 倫理的機械を構築するには、彼らの行動に自己評価し、後悔する感情的な能力を与える必要がある。 謝罪のような賠償措置は、しばしば戦略的相互作用の可能性と見なされるが、行動的表現型としての罪悪感の明示的な進化はまだよく分かっていない。 本稿では,不均質・異質な集団の社会的・非社会的な罪悪感の共進化について,よく混合された格子型ネットワーク,スケールフリーネットワークなどについて検討する。 社会的に認識された罪悪感はコストがかかるが、非社会的な罪悪感はエージェント自身の状態の認識しか必要とせず、それ故に社会的コストを伴わない。 しかし、非社会性を選択する人々は、社会的無知のため、他のエージェントによる搾取に敏感である。 進化ゲーム理論の手法に準じて、我々は、分析的および広範囲な数値とエージェントに基づくシミュレーションを通して、そのような社会的および非社会的罪が、エージェントの集団、またはシステムの基盤構造に依存してどのように進化し、展開できるかを調査する。 その結果, 格子ネットワークとスケールフリーネットワークのどちらにおいても, より広い範囲の罪悪感と社会的コストに感情的罪悪感の戦略が支配的であり, より広い範囲での協力のレベルが著しく高くなることがわかった。 構造化された集団設定では、社会的および非社会的罪悪感は、感情的な傾向の戦略によるクラスタリングを通じて進化し、展開することができる。 全体として,本研究は,自己組織化・分散協調型マルチエージェントシステムの設計とエンジニアリングに関する重要な知見を提供する。

Building ethical machines may involve bestowing upon them the emotional capacity to self-evaluate and repent on their actions. While reparative measures, such as apologies, are often considered as possible strategic interactions, the explicit evolution of the emotion of guilt as a behavioural phenotype is not yet well understood. Here, we study the co-evolution of social and non-social guilt of homogeneous or heterogeneous populations, including well-mixed, lattice and scale-free networks. Socially aware guilt comes at a cost, as it requires agents to make demanding efforts to observe and understand the internal state and behaviour of others, while non-social guilt only requires the awareness of the agents' own state and hence incurs no social cost. Those choosing to be non-social are however more sensitive to exploitation by other agents due to their social unawareness. Resorting to methods from evolutionary game theory, we study analytically, and through extensive numerical and agent-based simulations, whether and how such social and non-social guilt can evolve and deploy, depending on the underlying structure of the populations, or systems, of agents. The results show that, in both lattice and scale-free networks, emotional guilt prone strategies are dominant for a larger range of the guilt and social costs incurred, compared to the well-mixed population setting, leading therefore to significantly higher levels of cooperation for a wider range of the costs. In structured population settings, both social and non-social guilt can evolve and deploy through clustering with emotional prone strategies, allowing them to be protected from exploiters, especially in case of non-social (less costly) strategies. Overall, our findings provide important insights into the design and engineering of self-organised and distributed cooperative multi-agent systems.
翻訳日:2023-02-21 16:00:45 公開日:2023-02-20
# マルチモーダル感情認識のためのナレッジアウェアベイズ協調

Knowledge-aware Bayesian Co-attention for Multimodal Emotion Recognition ( http://arxiv.org/abs/2302.09856v1 )

ライセンス: Link先を確認
Zihan Zhao, Yu Wang, Yanfeng Wang(参考訳) マルチモーダル感情認識は、異なるモダリティを融合して人間の感情を予測することを目的とした、挑戦的な研究分野である。 しかし,注意機構に基づく既存のモデルでは,感情的な部分の学習が困難である。 そこで本研究では,事前学習モデルの融合に外部感情に関する知識を組み込むことを提案する。 この知識を効果的に取り入れるために,感情関連知識を用いて事前分布を推定するベイズアテンションモジュール(bam)を用いたコアテンションモデルを強化する。 IEMOCAPデータセットの実験結果から、提案手法は、少なくとも0.7%の未重み付き精度(UA)で、最先端のアプローチより優れていることが示された。

Multimodal emotion recognition is a challenging research area that aims to fuse different modalities to predict human emotion. However, most existing models that are based on attention mechanisms have difficulty in learning emotionally relevant parts on their own. To solve this problem, we propose to incorporate external emotion-related knowledge in the co-attention based fusion of pre-trained models. To effectively incorporate this knowledge, we enhance the co-attention model with a Bayesian attention module (BAM) where a prior distribution is estimated using the emotion-related knowledge. Experimental results on the IEMOCAP dataset show that the proposed approach can outperform several state-of-the-art approaches by at least 0.7% unweighted accuracy (UA).
翻訳日:2023-02-21 16:00:13 公開日:2023-02-20
# スパッタリングRF環境における高速領域ベースCNNスペクトルセンシングと信号同定

Faster Region-Based CNN Spectrum Sensing and Signal Identification in Cluttered RF Environments ( http://arxiv.org/abs/2302.09854v1 )

ライセンス: Link先を確認
Todd Morehouse, Charles Montes, Ruolin Zhou(参考訳) 本稿では,高速領域ベース畳み込みニューラルネットワーク(FRCNN)を1次元(1次元)信号処理と電磁スペクトルセンシングに最適化する。 我々は、複数のRF伝送を異なる帯域幅で様々な周波数で行うことができる、散在無線周波数(RF)環境をターゲットにしている。 課題は、興味のある帯域内の信号の最小の事前情報で、各信号を正確かつ迅速に検出し、ローカライズすることである。 無線機器の数が増加し、ソフトウェア定義無線(SDR)などの進歩によりデバイスが複雑化するにつれ、この作業はますます困難になる。 デバイスを検知することで、この変化に追随し、最適なスペクトル使用を確保すること、セキュリティ上の問題に対するトラフィックの監視、電子機器の識別が重要である。 機械学習オブジェクト検出はスペクトル検出に有効であることが示されているが、現在の技術は遅く、過剰なリソースを使用することができる。 FRCNNは2Dスペクトログラムを用いたスペクトルセンシングに応用されているが、直接1D信号に適用することはできない。 スペクトル検出のための高速フーリエ変換(FFT)を含む1次元信号を処理するためにFRCNNを最適化する。 その結果,本手法は局所化性能が向上し,2次元法よりも高速であることがわかった。 さらに,複数の非協調的伝送の変調型を同定するユースケースを示す。 最後に,本手法が実世界のシナリオに一般化されることを証明する。

In this paper, we optimize a faster region-based convolutional neural network (FRCNN) for 1-dimensional (1D) signal processing and electromagnetic spectrum sensing. We target a cluttered radio frequency (RF) environment, where multiple RF transmission can be present at various frequencies with different bandwidths. The challenge is to accurately and quickly detect and localize each signal with minimal prior information of the signal within a band of interest. As the number of wireless devices grow, and devices become more complex from advances such as software defined radio (SDR), this task becomes increasingly difficult. It is important for sensing devices to keep up with this change, to ensure optimal spectrum usage, to monitor traffic over-the-air for security concerns, and for identifying devices in electronic warfare. Machine learning object detection has shown to be effective for spectrum sensing, however current techniques can be slow and use excessive resources. FRCNN has been applied to perform spectrum sensing using 2D spectrograms, however is unable to be applied directly to 1D signals. We optimize FRCNN to handle 1D signals, including fast Fourier transform (FFT) for spectrum sensing. Our results show that our method has better localization performance, and is faster than the 2D equivalent. Additionally, we show a use case where the modulation type of multiple uncooperative transmissions is identified. Finally, we prove our method generalizes to real world scenarios, by testing it over-the-air using SDR.
翻訳日:2023-02-21 16:00:01 公開日:2023-02-20
# テキストOOD検出のための教師なしレイヤワイズスコアアグリゲーション

Unsupervised Layer-wise Score Aggregation for Textual OOD Detection ( http://arxiv.org/abs/2302.09852v1 )

ライセンス: Link先を確認
Maxime Darrin, Guillaume Staerman, Eduardo Dadalto C\^amara Gomes, Jackie CK Cheung, Pablo Piantanida, Pierre Colombo(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、AIベースのシステムの増加によって、新たな堅牢性とセキュリティ要件によって急速に成長する分野である。 既存のOODテキスト検出器は、しばしばエンコーダの最後の層の埋め込み出力に計算された異常スコア(例えば、マハラノビス距離)に依存する。 本研究では,OOD検出性能がタスクやレイヤの出力によって大きく異なることを観察する。 さらに重要なことは、通常の選択(最後のレイヤ)がOOD検出に最適であることは滅多になく、最高のレイヤを選択したらはるかに良い結果が得られます。 そこで本研究では,データ駆動型非教師なし手法を提案する。 さらに,より現実的な設定を反映するクラス数(最大77まで)の分類タスクを含めることで,古典的テキスト型oodベンチマークを拡張する。 本ベンチマークでは,提案手法が手動の特徴選択を完全に除去しつつ,頑健で一貫した結果が得られることを示す。 彼らのパフォーマンスはoracleの最高のレイヤパフォーマンスに近い。

Out-of-distribution (OOD) detection is a rapidly growing field due to new robustness and security requirements driven by an increased number of AI-based systems. Existing OOD textual detectors often rely on an anomaly score (e.g., Mahalanobis distance) computed on the embedding output of the last layer of the encoder. In this work, we observe that OOD detection performance varies greatly depending on the task and layer output. More importantly, we show that the usual choice (the last layer) is rarely the best one for OOD detection and that far better results could be achieved if the best layer were picked. To leverage this observation, we propose a data-driven, unsupervised method to combine layer-wise anomaly scores. In addition, we extend classical textual OOD benchmarks by including classification tasks with a greater number of classes (up to 77), which reflects more realistic settings. On this augmented benchmark, we show that the proposed post-aggregation methods achieve robust and consistent results while removing manual feature selection altogether. Their performance achieves near oracle's best layer performance.
翻訳日:2023-02-21 15:59:37 公開日:2023-02-20
# 半監督セマンティックセグメンテーションに関する調査

A Survey on Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2302.09899v1 )

ライセンス: Link先を確認
Adrian Pel\'aez-Vegas, Pablo Mesejo and Juli\'an Luengo(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて最も困難なタスクの1つである。 しかし、多くのアプリケーションでは、高コストのピクセルレベルのラベリングのため、ラベル付き画像の欠如が頻繁に発生する。 このシナリオでは、ラベル付き画像とラベルなし画像の両方が利用される半教師付き視点からこの問題にアプローチすることは理にかなっている。 近年、この研究の行方が注目され、この方向に多くのアプローチが公表されている。 そこで本研究の目的は, 半教師付き意味セグメンテーションにおける技術の現状を概観することであり, 既存の手法の最新の分類法を提供することである。 これは、文献の中で最も広く使われているベクンマークデータセットの分類のすべてのカテゴリを表す様々なモデルによる実験と、得られた結果、課題、そして将来の研究の最も有望なラインに関する最終的な議論によって補完される。

Semantic segmentation is one of the most challenging tasks in computer vision. However, in many applications, a frequent obstacle is the lack of labeled images, due to the high cost of pixel-level labeling. In this scenario, it makes sense to approach the problem from a semi-supervised point of view, where both labeled and unlabeled images are exploited. In recent years this line of research has gained much interest and many approaches have been published in this direction. Therefore, the main objective of this study is to provide an overview of the current state of the art in semi-supervised semantic segmentation, offering an updated taxonomy of all existing methods to date. This is complemented by an experimentation with a variety of models representing all the categories of the taxonomy on the most widely used becnhmark datasets in the literature, and a final discussion on the results obtained, the challenges and the most promising lines of future research.
翻訳日:2023-02-21 15:52:49 公開日:2023-02-20
# 記号回帰のための効率的な数式生成法

Efficient Generator of Mathematical Expressions for Symbolic Regression ( http://arxiv.org/abs/2302.09893v1 )

ライセンス: Link先を確認
Sebastian Me\v{z}nar, Sa\v{s}o D\v{z}eroski, Ljup\v{c}o Todorovski(参考訳) 本稿では,階層構造を生成するための新しい変分オートエンコーダに基づく記号回帰手法を提案する。 単純な原子単位と共有重み付けを組み合わせることで、階層内の個々のノードを再帰的にエンコードし、デコードする。 エンコーディングはボトムアップで行われ、トップダウンでデコードされる。 実験により,hvaeは少ないコーパス数式で効率的に学習でき,表現を滑らかな低次元潜在空間に正確にエンコードできることを示した。 後者は記号回帰の課題に対処する様々な最適化手法で効率的に探索することができる。 実際、HVAEの潜伏空間におけるランダム探索は、数学的表現のための手作業による確率的文法によって生成される表現によるランダム探索よりも優れている。 最後に、HVAEの潜在空間に進化的アルゴリズムを適用するEDHiEシステムは、ディープラーニングと進化的アルゴリズムの類似した組み合わせに基づく最先端のシステムよりも、標準的な記号的回帰ベンチマークから方程式を再構築する。 \v{z}

We propose an approach to symbolic regression based on a novel variational autoencoder for generating hierarchical structures, HVAE. It combines simple atomic units with shared weights to recursively encode and decode the individual nodes in the hierarchy. Encoding is performed bottom-up and decoding top-down. We empirically show that HVAE can be trained efficiently with small corpora of mathematical expressions and can accurately encode expressions into a smooth low-dimensional latent space. The latter can be efficiently explored with various optimization methods to address the task of symbolic regression. Indeed, random search through the latent space of HVAE performs better than random search through expressions generated by manually crafted probabilistic grammars for mathematical expressions. Finally, EDHiE system for symbolic regression, which applies an evolutionary algorithm to the latent space of HVAE, reconstructs equations from a standard symbolic regression benchmark better than a state-of-the-art system based on a similar combination of deep learning and evolutionary algorithms.\v{z}
翻訳日:2023-02-21 15:52:33 公開日:2023-02-20
# エンベロープ理論の精度に関する研究

Study on the Accuracy of the Envelope Theory ( http://arxiv.org/abs/2302.09892v1 )

ライセンス: Link先を確認
Lorenzo Cimino, Cyrille Chevalier, Ethan Carlier, Joachim Viseur(参考訳) エンベロープ理論は、量子多体系の固有解を得るための簡単な近似法である。 ソリューションが信頼性が高く改善手順が存在するとしても、いくつかのシステムでは精度の欠如が生じる。 以前の研究では、ポテンシャルのばらつきと変分文字の混合という2つの仮説が低精度を説明するために提案された。 本研究では,これらの仮説を検証するための異なるシステムについて検討する。 これらの試験により, 発散の有無によって精度が低下し, 変分文字の混合は改善手順の影響を減少させることがわかった。

The envelope theory is an easy-to-use approximation method to obtain eigensolutions for some quantum many-body systems. Even if the solutions are reliable and an improvement procedure exists, the method can lack of accuracy for some systems. In a previous work, two hypotheses were proposed to explain the low precision: the presence of a divergence in the potential and a mix of variational characters. In the present work, different systems are studied to test these hypotheses. Theses tests show that the presence of a divergence causes indeed less accurate results, while the mix of variational characters reduces the impact of the improvement procedure.
翻訳日:2023-02-21 15:52:17 公開日:2023-02-20
# 再帰的分離による信頼できない部分ラベル学習

Unreliable Partial Label Learning with Recursive Separation ( http://arxiv.org/abs/2302.09891v1 )

ライセンス: Link先を確認
Yu Shi, Ning Xu, Hua Yuan and Xin Geng(参考訳) 部分ラベル学習(Partial label learning, PLL)は、典型的な弱教師付き学習問題であり、各インスタンスが候補ラベルセットと関連付けられている。 しかし、実世界のアプリケーションにおける候補ラベルセットの信頼性はアノテーションによって保証されないため、基底ラベルが常に候補ラベルセットに含まれるという仮定は現実的ではない。 したがって、Unreliable partial Label Learning (UPLL) と呼ばれる一般化されたPLLが提案され、真のラベルが候補ラベルセットに含まれない可能性がある。 信頼性の低いラベル付けによって生じる課題のため、以前のPLLメソッドはUPLLに適用した場合、パフォーマンスが著しく低下する。 この問題に対処するため,unreliable partial Label Learning with Recursive separation (UPLLRS) という2段階のフレームワークを提案する。 最初の段階では、訓練セットを信頼できないサブセットと信頼できないサブセットに分離するために、自己適応的再帰的分離戦略を提案する。 第2段階では、信頼性サブセットの基幹トラックラベルを段階的に識別するための曖昧化戦略が採用されている。 同時に、信頼できないサブセットから貴重な情報を抽出する半教師付き学習手法が採用される。 本手法は,実験結果,特に信頼性の低い状況において,最先端の性能を示す。

Partial label learning (PLL) is a typical weakly supervised learning problem in which each instance is associated with a candidate label set, and among which only one is true. However, the assumption that the ground-truth label is always among the candidate label set would be unrealistic, as the reliability of the candidate label sets in real-world applications cannot be guaranteed by annotators. Therefore, a generalized PLL named Unreliable Partial Label Learning (UPLL) is proposed, in which the true label may not be in the candidate label set. Due to the challenges posed by unreliable labeling, previous PLL methods will experience a marked decline in performance when applied to UPLL. To address the issue, we propose a two-stage framework named Unreliable Partial Label Learning with Recursive Separation (UPLLRS). In the first stage, the self-adaptive recursive separation strategy is proposed to separate the training set into a reliable subset and an unreliable subset. In the second stage, a disambiguation strategy is employed to progressively identify the ground-truth labels in the reliable subset. Simultaneously, semi-supervised learning methods are adopted to extract valuable information from the unreliable subset. Our method demonstrates state-of-the-art performance as evidenced by experimental results, particularly in situations of high unreliability.
翻訳日:2023-02-21 15:52:07 公開日:2023-02-20
# 関係抽出におけるゼロカーディナリティ処理の2段階的アプローチ

A Two-step Approach for Handling Zero-Cardinality in Relation Extraction ( http://arxiv.org/abs/2302.09887v1 )

ライセンス: Link先を確認
Pratik Saini and Tapas Nayak and Samiran Pal and Indrajit Bhattacharya(参考訳) テキストからの関係タプル抽出は知識ベースを構築する上で重要な課題である。 近年,コネクテッドエンティティと関係抽出モデルが非常に高いf1スコアを達成している。 しかし、これらのモデルで使われる実験的な設定は制限的で、実験で使われるデータセットは現実的ではない。 それらはゼロタプル(ゼロカルディナリティ)の文を含まない。 本稿では,よりリアルな設定で,最先端の関節エンティティと関係抽出モデルを評価する。 実験にはタプルを含まない文が含まれています。 当社の実験では、この設定では、f1スコアにかなりの低下(1つのデータセットに$\sim 10-15\%$、別のデータセットに$\sim 6-14\%$)があることが示されています。 また,単純なBERTに基づく分類器を用いた2段階モデリングを提案し,これらのモデル全体の性能を向上させる。

Relation tuple extraction from text is an important task for building knowledge bases. Recently, joint entity and relation extraction models have achieved very high F1 scores in this task. However, the experimental settings used by these models are restrictive and the datasets used in the experiments are not realistic. They do not include sentences with zero tuples (zero-cardinality). In this paper, we evaluate the state-of-the-art joint entity and relation extraction models in a more realistic setting. We include sentences that do not contain any tuples in our experiments. Our experiments show that there is significant drop ($\sim 10-15\%$ in one dataset and $\sim 6-14\%$ in another dataset) in their F1 score in this setting. We also propose a two-step modeling using a simple BERT-based classifier that leads to improvement in the overall performance of these models in this realistic experimental setup.
翻訳日:2023-02-21 15:51:46 公開日:2023-02-20
# InOR-Net:ポイントクラウド表現のためのインクリメンタル3次元オブジェクト認識ネットワーク

InOR-Net: Incremental 3D Object Recognition Network for Point Cloud Representation ( http://arxiv.org/abs/2302.09886v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Lixu Wang, Lingjuan Lyu, Jun Li, and Ender Konukoglu(参考訳) 3Dオブジェクト認識は、現実世界で魅力的な研究トピックとなっている。 しかし、既存の認識モデルの多くは、3Dオブジェクトのカテゴリが現実世界の時間とともに変化しないと不当に仮定している。 この非現実的な仮定は、3Dオブジェクトの新しいクラスを連続的に学習する上で大きなパフォーマンス劣化をもたらす可能性がある。 さらに、3Dオブジェクトの古いクラスにおける破滅的な忘れを緩和するためには、どの3次元幾何学的特徴が不可欠かを探ることができない。 以上の課題に対処するため,我々は,古いクラスにおける破滅的な忘れを克服して,新しい3Dオブジェクトのクラスを連続的に認識できる新しいインクリメンタル3Dオブジェクト認識ネットワーク(Inor-Net)を開発した。 具体的には,各クラス固有の3次元特徴を持つ局所幾何学的構造を,内在的カテゴリ情報を利用して推論する。 そこで本研究では,従来の3次元物体の破壊的忘れ去れを克服するために,各クラス内の3次元幾何学的特徴を識別する新しい批判的幾何学的注意機構を提案する。 さらに,偏り重みと分類器の予測を補償することにより,クラス不均衡がもたらした忘れを克服するために,二重適応フェアネス補償戦略を考案した。 比較実験は、いくつかのパブリッククラウドデータセット上で提案したInOR-Netモデルの最先端性能を検証する。

3D object recognition has successfully become an appealing research topic in the real-world. However, most existing recognition models unreasonably assume that the categories of 3D objects cannot change over time in the real-world. This unrealistic assumption may result in significant performance degradation for them to learn new classes of 3D objects consecutively, due to the catastrophic forgetting on old learned classes. Moreover, they cannot explore which 3D geometric characteristics are essential to alleviate the catastrophic forgetting on old classes of 3D objects. To tackle the above challenges, we develop a novel Incremental 3D Object Recognition Network (i.e., InOR-Net), which could recognize new classes of 3D objects continuously via overcoming the catastrophic forgetting on old classes. Specifically, a category-guided geometric reasoning is proposed to reason local geometric structures with distinctive 3D characteristics of each class by leveraging intrinsic category information. We then propose a novel critic-induced geometric attention mechanism to distinguish which 3D geometric characteristics within each class are beneficial to overcome the catastrophic forgetting on old classes of 3D objects, while preventing the negative influence of useless 3D characteristics. In addition, a dual adaptive fairness compensations strategy is designed to overcome the forgetting brought by class imbalance, by compensating biased weights and predictions of the classifier. Comparison experiments verify the state-of-the-art performance of the proposed InOR-Net model on several public point cloud datasets.
翻訳日:2023-02-21 15:51:32 公開日:2023-02-20
# ソーシャルメディア上でのメンタルヘルスコーピングストーリー--パパジェノ効果の因果推論研究

Mental Health Coping Stories on Social Media: A Causal-Inference Study of Papageno Effect ( http://arxiv.org/abs/2302.09885v1 )

ライセンス: Link先を確認
Yunhao Yuan, Koustuv Saha, Barbara Keller, Erkki Tapio Isomets\"a, Talayeh Aledavood(参考訳) パパジェノ効果は、メディアが自殺の考えや行動の予防と緩和に肯定的な役割を果たすかに関するものである。 ソーシャルメディアの普及と普及に伴い、個人はしばしば生きた経験を表現し共有し、メンタルヘルスと闘う。 しかし,ソーシャルメディアにおけるパパジェノ効果の存在と有効性についての理解にはギャップがあり,本稿で研究する。 特に、Twitter上でのメンタルヘルス対応ストーリーへの露出が個人に与える影響を調べるために、因果推論フレームワークを採用する。 我々は$\sim$2Mの投稿を$\sim$10Kの個人によってTwitterデータセットを取得する。 我々は,治療介入としての対処物語の関与を考察し,治療・管理者の一致したコホートを見つけるために,階層化された妥当性スコアアプローチを採用する。 コーピング・ストーリーの前後の縦断的twitterデータにおける感情的・行動的・認知的結果の心理社会的変化を測定した。 その結果,対処するストーリに関わり,ストレスや抑うつが減少し,表現力,多様性,対話性が向上することが明らかとなった。 本研究は,精神保健支援における実践的・プラットフォーム設計の意義について論じる。

The Papageno effect concerns how media can play a positive role in preventing and mitigating suicidal ideation and behaviors. With the increasing ubiquity and widespread use of social media, individuals often express and share lived experiences and struggles with mental health. However, there is a gap in our understanding about the existence and effectiveness of the Papageno effect in social media, which we study in this paper. In particular, we adopt a causal-inference framework to examine the impact of exposure to mental health coping stories on individuals on Twitter. We obtain a Twitter dataset with $\sim$2M posts by $\sim$10K individuals. We consider engaging with coping stories as the Treatment intervention, and adopt a stratified propensity score approach to find matched cohorts of Treatment and Control individuals. We measure the psychosocial shifts in affective, behavioral, and cognitive outcomes in longitudinal Twitter data before and after engaging with the coping stories. Our findings reveal that, engaging with coping stories leads to decreased stress and depression, and improved expressive writing, diversity, and interactivity. Our work discusses the practical and platform design implications in supporting mental wellbeing.
翻訳日:2023-02-21 15:51:03 公開日:2023-02-20
# glocalfuse-depth:全日自己教師付き単眼深度推定のための変圧器とcnnの融合

GlocalFuse-Depth: Fusing Transformers and CNNs for All-day Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2302.09884v1 )

ライセンス: Link先を確認
Zezheng Zhang, Ryan K. Y. Chan and Kenneth K. Y. Wong(参考訳) 近年, 自己監督型単分子深度推定は, 深度アノテーションが不要であり, 標準ベンチマークで顕著な結果を得たため, 注目されている。 しかし,既存の手法の多くは昼夜画像のみに焦点を絞っているため,昼夜画像と夜間画像の間に大きな領域シフトがあるため,その性能は他領域に低下する。 そこで本稿では,全日画像の自己教師付き深度推定のために,glocalfuse-depthという2分岐ネットワークを提案する。 CNNブランチとTransformerブランチの2つのブランチに、入力画像対の日時画像と夜間画像が供給され、細粒度の詳細とグローバル依存の両方を効率的にキャプチャすることができる。 さらに,2つの枝から多次元的特徴を融合させる新たな融合モジュールを提案する。 GlocalFuse-DepthがOxford RobotCarデータセット上の全日画像の最先端化を実現し,本手法の優位性を実証した。

In recent years, self-supervised monocular depth estimation has drawn much attention since it frees of depth annotations and achieved remarkable results on standard benchmarks. However, most of existing methods only focus on either daytime or nighttime images, thus their performance degrades on the other domain because of the large domain shift between daytime and nighttime images. To address this problem, in this paper we propose a two-branch network named GlocalFuse-Depth for self-supervised depth estimation of all-day images. The daytime and nighttime image in input image pair are fed into the two branches: CNN branch and Transformer branch, respectively, where both fine-grained details and global dependency can be efficiently captured. Besides, a novel fusion module is proposed to fuse multi-dimensional features from the two branches. Extensive experiments demonstrate that GlocalFuse-Depth achieves state-of-the-art results for all-day images on the Oxford RobotCar dataset, which proves the superiority of our method.
翻訳日:2023-02-21 15:50:43 公開日:2023-02-20
# アンバウンドマシン・アンラーニングに向けて

Towards Unbounded Machine Unlearning ( http://arxiv.org/abs/2302.09880v1 )

ライセンス: Link先を確認
Meghdad Kurmanji, Peter Triantafillou, Eleni Triantafillou(参考訳) ディープラーニングアンラーニング(deep machine unlearning)とは、トレーニングされた深層モデルの重みから、データのコホートの影響を取り除く問題である。 この課題は、ユーザデータを含むアプリケーションでニューラルネットワークが広く使用されていることによる注目を集めている。 しかし、モデルからデータを削除することは、個々のユーザのプライバシが必ずしも考慮されていない他のアプリケーションにとって、実践的な関心事である。 本研究では,新しい非学習アルゴリズム(SCRUB)を提案し,従来の最先端モデルに対する総合的な実験評価を行う。 結果は、SCRUBが、モデルのパフォーマンスを劣化させることなく、異なるアプリケーションシナリオを反映しながら、学習されていない品質を測定するための3つのメトリクスで一貫してトップパフォーマーであることを示している。

Deep machine unlearning is the problem of removing the influence of a cohort of data from the weights of a trained deep model. This challenge is enjoying increasing attention due to the widespread use of neural networks in applications involving user data: allowing users to exercise their `right to be forgotten' necessitates an effective unlearning algorithm. However, deleting data from models is also of interest in practice for other applications where individual user privacy is not necessarily a consideration: removing biases, out-of-date examples, outliers, or noisy labels, and different such applications come with different desiderata. We propose a new unlearning algorithm (coined SCRUB) and conduct a comprehensive experimental evaluation against several previous state-of-the-art models. The results reveal that SCRUB is consistently a top performer across three different metrics for measuring unlearning quality, reflecting different application scenarios, while not degrading the model's performance.
翻訳日:2023-02-21 15:50:21 公開日:2023-02-20
# エージェントの経済ダイナミクス

Economic Dynamics of Agents ( http://arxiv.org/abs/2302.09877v1 )

ライセンス: Link先を確認
Dibakar Das(参考訳) パンデミック後の世界は、高いインフレ、低い成長、高い負債、経済の崩壊、政治的不安定、雇用の喪失、自然災害による損害に加えて収入の低下など、気候変動に起因するより説得力のある課題を提起した。 これらの課題をさまざまなレベルで緩和する努力が行われている。 著者の知識を最大限に活用するために、以前の研究のほとんどは、特定のシナリオ、ユースケース、複数のセクター間の相互関係など、個人に対する炭素税の影響、税と福祉の相互作用など、より最適な政策に焦点を当ててきた。 しかし、多様な政策変化による個々のエージェントへの影響や、エージェントが経済のダイナミクスの変化にどう対処するかを理解するための努力はあまり行われていない。 本稿では, 費用の増大, 環境ユーティリティの低下, 課税の増加, 福祉の縮小, 財産の相続, 債権, 投資の還元に伴う所得の低下といった段階的な悪化条件を検討し, 貯蓄, 信用, 資産に関する行列を用いたエージェントベースモデルを用いて, エージェントがどのような状況に対処しているかを理解しようとする。 その結果、エージェントの経済状態の崩壊は、ほとんどの場合、すべての所得グループにとって非常に速く、突然で、劇的であることが示された。

Post-pandemic world has thrown up several challenges, such as, high inflation, low growth, high debt, collapse of economies, political instability, job losses, lowering of income in addition to damages caused natural disasters, more convincing attributed to climate change, apart from existing inequalities. Efforts are being made to mitigate these challenges at various levels. To the best of the knowledge of the author, most of the prior researches have focussed on specific scenarios, use cases, inter-relationships between couple of sectors and more so on optimal policies, such as, impact of carbon tax on individuals, interaction between taxes and welfare, etc. However, not much effort have been made to understand the actual impact on individual agents due to diverse policy changes and how agents cope with changing economic dynamics. This paper considers progressive deteriorating conditions of increase in expense, degrading environmental utility, increase in taxation, decrease in welfare and lowering of income with recourse to inherited properties, credits and return on investments, and tries to understand how the agents cope with the changing situations using an agent based model with matrices related to savings, credits, assets. Results indicate that collapse of agents' economic conditions can be quite fast, sudden and drastic for all income groups in most cases.
翻訳日:2023-02-21 15:50:06 公開日:2023-02-20
# FAIRデータに基づく食品システムのゴール指向指標

Goal oriented indicators for food systems based on FAIR data ( http://arxiv.org/abs/2302.09916v1 )

ライセンス: Link先を確認
Ronit Purian(参考訳) 食品サプライチェーンを通じて、生産、輸送、包装、グリーン雇用の間、多くの指標が環境フットプリントと資源利用をカバーしている。 食品サプライチェーンとその効果の非効率なプラクティスを定義し,追跡することで,農業のパフォーマンス向上や栄養価の追跡,食料安全保障に貢献するとともに環境に対する大きなリスクの低減に重点を置くことが可能となる。 本研究の目的は, 廃棄物ゼロ, 排出ゼロというビジョンを念頭に置いて, 温暖化対策における包括的グリーンエコノミーへの幅広いコミットメントを実現する, 食品サプライチェーンの枠組みを提案することである。 このビジョンを達成するスマートシティソリューションの基盤となるために、主要な指標と評価フレームワークを導入し、続いて、北イタリアにおけるケーススタディにおいて、グローバルおよびローカルの両方において最も重要な問題にドリルダウンする。 メタンは気候アジェンダの上昇中であり、特にイタリアでは農業分野での排出削減は困難である。 したがって、一般的なフレームワークからフェデレーションデプロイメントに移行することで、食品分野におけるコスト効率の良いユースケースの理由を提供し、価値あるデジタルツインを作ります。 ユースケースを評価し、選択したシナリオを選択するベイズ的アプローチが提案され、FAIRデータによるデジタルツインフレキシビリティの可能性を認識しつつ、環境と社会の目標、すなわち不確実性に対処し、グリーン雇用と食品安全保障を組み合わせる。 提案手法は, デジタル双生児におけるFAIRデータの文脈における情報の価値を再考し, 組織的, 経済的, 政治的考察に適応することができる。

Throughout the food supply chain, between production, transportation, packaging, and green employment, a plethora of indicators cover the environmental footprint and resource use. By defining and tracking the more inefficient practices of the food supply chain and their effects, we can better understand how to improve agricultural performance, track nutrition values, and focus on the reduction of a major risk to the environment while contributing to food security. Our aim is to propose a framework for a food supply chain, devoted to the vision of zero waste and zero emissions, and at the same time, fulfilling the broad commitment on inclusive green economy within the climate action. To set the groundwork for a smart city solution which achieves this vision, main indicators and evaluation frameworks are introduced, followed by the drill down into most crucial problems, both globally and locally, in a case study in north Italy. Methane is on the rise in the climate agenda, and specifically in Italy emission mitigation is difficult to achieve in the farming sector. Accordingly, going from the generic frameworks towards a federation deployment, we provide the reasoning for a cost-effective use case in the domain of food, to create a valuable digital twin. A Bayesian approach to assess use cases and select preferred scenarios is proposed, realizing the potential of the digital twin flexibility with FAIR data, while understanding and acting to achieve environmental and social goals, i.e., coping uncertainties, and combining green employment and food security. The proposed framework can be adjusted to organizational, financial, and political considerations in different locations worldwide, rethinking the value of information in the context of FAIR data in digital twins.
翻訳日:2023-02-21 15:44:19 公開日:2023-02-20
# ta-moe:トポロジーを意識した大規模訓練

TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training ( http://arxiv.org/abs/2302.09915v1 )

ライセンス: Link先を確認
Chang Chen, Min Li, Zhihua Wu, Dianhai Yu, Chao Yang(参考訳) sparsely gated mixture-of-expert (moe)は、ディープニューラルネットワークを極端な規模にスケールアップする効果を実証している。 モデル設計やシステム最適化の観点から、MoEの性能を改善するために多くの努力がなされているが、既存のMoEディスパッチパターンは、基盤となる異種ネットワーク環境を完全に活用することはできない。 本稿では,ネットワークトポロジに従って動的にmoeディスパッチパターンを調整できるモデルシステム設計の観点から,大規模moeトレーニングのためのトポロジ認識ルーティング戦略であるta-moeを提案する。 通信モデルに基づいて,提案課題を最適化対象に抽象化し,異なるトポロジの下で近似的なディスパッチパターンを得る。 その上,モデルの精度を犠牲にすることなく,基盤となるトポロジに適合するように適応的にデータをルーティングできるトポロジ認識補助損失の設計を行う。 実験の結果、TA-MoEは、DeepSpeed-MoE、FastMoE、FasterMoEよりも約1.01x-1.61x、1.01x-4.77x、1.25x-1.54xの改善により、様々なハードウェアやモデル構成で大幅に性能が向上した。

Sparsely gated Mixture-of-Expert (MoE) has demonstrated its effectiveness in scaling up deep neural networks to an extreme scale. Despite that numerous efforts have been made to improve the performance of MoE from the model design or system optimization perspective, existing MoE dispatch patterns are still not able to fully exploit the underlying heterogeneous network environments. In this paper, we propose TA-MoE, a topology-aware routing strategy for large-scale MoE trainging, from a model-system co-design perspective, which can dynamically adjust the MoE dispatch pattern according to the network topology. Based on communication modeling, we abstract the dispatch problem into an optimization objective and obtain the approximate dispatch pattern under different topologies. On top of that, we design a topology-aware auxiliary loss, which can adaptively route the data to fit in the underlying topology without sacrificing the model accuracy. Experiments show that TA-MoE can substantially outperform its counterparts on various hardware and model configurations, with roughly 1.01x-1.61x, 1.01x-4.77x, 1.25x-1.54x improvements over the popular DeepSpeed-MoE, FastMoE and FasterMoE.
翻訳日:2023-02-21 15:43:49 公開日:2023-02-20
# 符号化計算とベクトルコミットメントに基づく連合学習のためのビザンチン耐性セキュアアグリゲーション

Byzantine-Resistant Secure Aggregation for Federated Learning Based on Coded Computing and Vector Commitment ( http://arxiv.org/abs/2302.09913v1 )

ライセンス: Link先を確認
Tayyebeh Jahani-Nezhad and Mohammad Ali Maddah-Ali and Giuseppe Caire(参考訳) 本稿では,ビザンチン攻撃やプライバシ漏洩から保護されるフェデレート学習のための効率的なセキュアアグリゲーション手法を提案する。 個々の更新を処理して敵の行動を管理するには、データのプライバシをノードの結束に対して保ちながら、ある種のセキュアなシークレット共有が必要となる。 しかし、更新の長いベクトルの秘密共有のための通信負荷は非常に高い。 この問題を解決するため,提案手法では,ローカル更新を小さなサブベクタに分割し,ランプ秘密共有を用いて共有する。 しかし、この共有法では、対距離計算など、外乱検出アルゴリズムが必要とする二線形計算は認めない。 この問題を解決するために、各ユーザは別のラウンドのランプ共有を実行し、共有多項式に異なるデータの埋め込みを行う。 この技術は、符号化コンピューティングのアイデアに動機付けられ、ペア距離の安全な計算を可能にする。 さらに、ローカル更新の完全性とプライバシを維持するため、提案手法では、コミットサイズが一定であり(すなわち、ローカル更新の長さで増加しない)、同時に秘密共有プロセスの検証を可能にするベクトルコミットメント手法も採用している。

In this paper, we propose an efficient secure aggregation scheme for federated learning that is protected against Byzantine attacks and privacy leakages. Processing individual updates to manage adversarial behavior, while preserving privacy of data against colluding nodes, requires some sort of secure secret sharing. However, communication load for secret sharing of long vectors of updates can be very high. To resolve this issue, in the proposed scheme, local updates are partitioned into smaller sub-vectors and shared using ramp secret sharing. However, this sharing method does not admit bi-linear computations, such as pairwise distance calculations, needed by outlier-detection algorithms. To overcome this issue, each user runs another round of ramp sharing, with different embedding of data in the sharing polynomial. This technique, motivated by ideas from coded computing, enables secure computation of pairwise distance. In addition, to maintain the integrity and privacy of the local update, the proposed scheme also uses a vector commitment method, in which the commitment size remains constant (i.e. does not increase with the length of the local update), while simultaneously allowing verification of the secret sharing process.
翻訳日:2023-02-21 15:43:24 公開日:2023-02-20
# ボース・アインシュタイン凝縮体の平坦バンド系における位相ボゴリューボフ準粒子

Topological Bogoliubov quasiparticles from Bose-Einstein condensate in a flat band system ( http://arxiv.org/abs/2302.09910v1 )

ライセンス: Link先を確認
Zahra Jalali-Mola, Tobias Grass, Valentin Kasper, Maciej Lewenstein, Utso Bhattacharya(参考訳) 平坦なエネルギー分散を持つボソンの場合、凝縮は異なる対称性のセクタで起こる。 ここでは、平均場相互作用の存在下では、$\Gamma$-および$K$-pointの縮退縮合を示す、$\pi$-fluxホッピングを持つカゴメ格子内のボソンを考える。 K$-point condensate に対して、Bogoliubov-de Gennes (BdG) Hamiltonian は粒子ホール対称性(PHS)を破り、位相的に自明な準粒子バンド構造を示す。 しかし、バンド平坦性は、BdGハミルトニアンの時間反転対称性(TRS)を$\Gamma$-point Condensateで破る上で重要な役割を果たす。 その結果、準粒子バンド構造は非零チャーン数とエッジ状態の存在を特徴とする非自明なトポロジーを示す。 量子揺らぎはk$-point condensateをエネルギー的に好むが、$\gamma$-point condensate の興味深い性質は異方性ホッピングに関係している。 \gamma$-point condensate の位相的性質は、拡張されたボース-ハバード相互作用の存在下でさらに豊かになる。 我々は、高チャーン数で特徴づけられる位相位相の凝縮体への遷移と、そのような励起の実現と検出についてコメントする。

For bosons with flat energy dispersion, condensation can occur in different symmetry sectors. Here, we consider bosons in a Kagome lattice with $\pi$-flux hopping, which in the presence of mean-field interactions exhibit degenerate condensates in the $\Gamma$- and the $K$-point. We analyze the excitation above both condensates and find strikingly different properties: For the $K$-point condensate, the Bogoliubov-de Gennes (BdG) Hamiltonian has broken particle-hole symmetry (PHS) and exhibits a topologically trivial quasiparticle band structure. However, band flatness plays a key role in breaking the time reversal symmetry (TRS) of the BdG Hamiltonian for a $\Gamma$-point condensate. Consequently, its quasiparticle band structure exhibits non-trivial topology, characterized by non-zero Chern numbers and the presence of edge states. Although quantum fluctuations energetically favor the $K$-point condensate, the interesting properties of the $\Gamma$-point condensate become relevant for anisotropic hopping. The topological properties of the $\Gamma$-point condensate get even richer in the presence of extended Bose-Hubbard interactions. We find a topological phase transition into a topological condensate characterized by high Chern number and also comment on the realization and detection of such excitations.
翻訳日:2023-02-21 15:43:05 公開日:2023-02-20
# サイドカー分離器は、シングルスピーカー音声認識システムをマルチスピーカーに変換できる

A Sidecar Separator Can Convert a Single-Speaker Speech Recognition System to a Multi-Speaker One ( http://arxiv.org/abs/2302.09908v1 )

ライセンス: Link先を確認
Lingwei Meng, Jiawen Kang, Mingyu Cui, Yuejiao Wang, Xixin Wu, Helen Meng(参考訳) 自動音声認識(asr)は非重複環境において良好に機能するが,複数話者重畳音声認識の性能維持はいまだに困難である。 最近の研究では、ASRモデルのエンコーダが異なるレイヤで異なるレベルの情報をキャプチャすることが明らかになっている。 これにより,2つの適切な層間に混在する混合音声を分離することにより,多話者シナリオのためのよく訓練されたASRモデルを実現するためのサイドカーセパレータを開発することができる。 我々はサイドカー搭載のwav2vec 2.0ベースのasrモデルを実験した。 元のモデルのパラメータを凍結し,Sidecar(全パラメータの8.7M,8.4%)のみのトレーニングを行うことで,提案手法は,2話者混合LibriMixデータセットの差を大きく上回り,単語誤り率(WER)が10.36%に達し,限られたトレーニングでLibriSpeechMixデータセットに匹敵する結果(7.56%)が得られる。

Although automatic speech recognition (ASR) can perform well in common non-overlapping environments, sustaining performance in multi-speaker overlapping speech recognition remains challenging. Recent research revealed that ASR model's encoder captures different levels of information with different layers -- the lower layers tend to have more acoustic information, and the upper layers more linguistic. This inspires us to develop a Sidecar separator to empower a well-trained ASR model for multi-speaker scenarios by separating the mixed speech embedding between two suitable layers. We experimented with a wav2vec 2.0-based ASR model with a Sidecar mounted. By freezing the parameters of the original model and training only the Sidecar (8.7 M, 8.4% of all parameters), the proposed approach outperforms the previous state-of-the-art by a large margin for the 2-speaker mixed LibriMix dataset, reaching a word error rate (WER) of 10.36%; and obtains comparable results (7.56%) for LibriSpeechMix dataset when limited training.
翻訳日:2023-02-21 15:42:38 公開日:2023-02-20
# 重み特徴アライメントによる点雲の一般回転不変性学習

General Rotation Invariance Learning for Point Clouds via Weight-Feature Alignment ( http://arxiv.org/abs/2302.09907v1 )

ライセンス: Link先を確認
Liang Xie, Yibo Yang, Wenxiao Wang, Binbin Lin, Deng Cai, Xiaofei He(参考訳) 2d画像と比較して、3dポイント雲は回転に対してずっと敏感である。 我々は、回転変換に不変なパターンを記述する点特徴を期待する。 最近のSOTAは3次元点雲の回転不変学習に特化している。 しかし、現在の回転不変法は、グローバル分布に依存し、グローバルシーンと背景に依存するため、オープンシーンにおける点雲の一般化性を欠いている。 本稿では,入力点と同じ3次元空間に分布する点の集合としてネットワーク重みを考慮し,その特徴をネットワーク重みの主軸と整列させて局所的不変参照フレーム(IRF)を構築するために,出力活性化がパターンとその向きの関数であることを考慮し,ネットワーク重みを入力点と同じ3次元空間に分布する点の集合と見なすことができるという考えから着想を得た。 当社のwfaアルゴリズムは,すべてのシーンのポイントクラウドに対する一般的なソリューションを提供します。 WFAは、応答アクティビティがパターン整合度の必要十分条件であることをモデルが目標を達成することを保証します。 実際、私たちは単一のオブジェクトのポイントクラウド上で実験を行い、広い範囲のシーンを開きます。 その結果,本手法は回転不変性学習と通常の手法とのギャップをほぼ埋めることが示唆された。

Compared to 2D images, 3D point clouds are much more sensitive to rotations. We expect the point features describing certain patterns to keep invariant to the rotation transformation. There are many recent SOTA works dedicated to rotation-invariant learning for 3D point clouds. However, current rotation-invariant methods lack generalizability on the point clouds in the open scenes due to the reliance on the global distribution, \ie the global scene and backgrounds. Considering that the output activation is a function of the pattern and its orientation, we need to eliminate the effect of the orientation.In this paper, inspired by the idea that the network weights can be considered a set of points distributed in the same 3D space as the input points, we propose Weight-Feature Alignment (WFA) to construct a local Invariant Reference Frame (IRF) via aligning the features with the principal axes of the network weights. Our WFA algorithm provides a general solution for the point clouds of all scenes. WFA ensures the model achieves the target that the response activity is a necessary and sufficient condition of the pattern matching degree. Practically, we perform experiments on the point clouds of both single objects and open large-range scenes. The results suggest that our method almost bridges the gap between rotation invariance learning and normal methods.
翻訳日:2023-02-21 15:42:15 公開日:2023-02-20
# エネルギー貯蔵量子系の電池容量

The battery capacity of energy-storing quantum systems ( http://arxiv.org/abs/2302.09905v1 )

ライセンス: Link先を確認
Xue Yang, Yan-Han Yang, Mir Alimuddin, Raffaele Salvia, Shao-Ming Fei, Li-Ming Zhao, Stefan Nimmrichter, Ming-Xing Luo(参考訳) 量子バッテリ容量は、エネルギーを蓄え供給する量子システムのポテンシャルを表わすメリットの象徴としてこの手紙で紹介される。 これは、系のユニタリ進化によって到達できる最高エネルギーと最低エネルギーの差として定義される。 この関数はエルゴトロピーと密接に結びついているが、系の一時的なエネルギーレベルには依存しない。 量子バッテリの容量は、バッテリ状態のエントロピーや、コヒーレンスや絡み合いの尺度と直接リンクすることができる。

The quantum battery capacity is introduced in this letter as a figure of merit that expresses the potential of a quantum system to store and supply energy. It is defined as the difference between the highest and the lowest energy that can be reached by means of the unitary evolution of the system. This function is closely connected to the ergotropy, but it does not depend on the temporary level of energy of the system. The capacity of a quantum battery can be directly linked with the entropy of the battery state, as well as with measures of coherence and entanglement.
翻訳日:2023-02-21 15:41:54 公開日:2023-02-20
# HyFL: プライベートフェデレーション学習のためのハイブリッドアプローチ

HyFL: A Hybrid Approach For Private Federated Learning ( http://arxiv.org/abs/2302.09904v1 )

ライセンス: Link先を確認
Felix Marx, Thomas Schneider, Ajith Suresh, Tobias Wehrle, Christian Weinert, Hossein Yalame(参考訳) 分散機械学習パラダイムとして、フェデレーション学習(FL)は、トレーニングデータがデバイスを離れることはないため、参加者にプライバシの感覚を伝える。 しかし、勾配の更新と集約されたモデルはまだ機密情報を明らかにしている。 本研究では,HyFLを提案する。HyFLは,プライベートトレーニングと推論を,セキュアなアグリゲーションと階層的なFLと組み合わせて,エンドツーエンドの保護と大規模グローバル展開を促進するためのフレームワークである。 さらに,hyflは悪意のある参加者に対して攻撃面を厳密に制限していることを示す。

As a distributed machine learning paradigm, federated learning (FL) conveys a sense of privacy to contributing participants because training data never leaves their devices. However, gradient updates and the aggregated model still reveal sensitive information. In this work, we propose HyFL, a new framework that combines private training and inference with secure aggregation and hierarchical FL to provide end-to-end protection and facilitate large-scale global deployments. Additionally, we show that HyFL strictly limits the attack surface for malicious participants: they are restricted to data-poisoning attacks and cannot significantly reduce accuracy.
翻訳日:2023-02-21 15:41:43 公開日:2023-02-20
# RRAMに基づくニューロモルフィックコンピューティングシステムに対する変動増強攻撃

Variation Enhanced Attacks Against RRAM-based Neuromorphic Computing System ( http://arxiv.org/abs/2302.09902v1 )

ライセンス: Link先を確認
Hao Lv, Bing Li, Lei Zhang, Cheng Liu, Ying Wang(参考訳) RRAMベースのニューロモルフィックコンピューティングシステムは、従来のアーキテクチャよりも優れたデータ処理能力とエネルギー効率のために爆発的な関心を集めており、多くのデータ中心のアプリケーションで広く利用されている。 したがって、NCSの信頼性とセキュリティの問題は重要な問題となっている。 本稿では,RRAM ベースの NCS に対する敵対的脅威を系統的に検討し,RRAM のハードウェア機能は攻撃効果を高めるために有効であることを示した。 そこで本研究では,異なる攻撃シナリオと目的に対して2種類のハードウェアアウェアアタック手法を提案する。 1つ目は、ニューラルネットワークの予測を誤解させるために入力サンプルを摂動させる敵攻撃VADERである。 第2の障害注入攻撃(EFI)は、特定のサンプルをターゲットラベルに分類し、他のサンプルの予測精度を維持しつつ、ネットワークパラメータ空間を摂動させる。 どちらのアタック手法も従来のアタック手法と比較してRRAM特性を活用して性能を向上させる。 実験の結果,ハードウェアアウェアアタック手法は,攻撃ステルス性を維持しつつ,極めて低い運用コストで100%のアタック成功率を達成できることがわかった。

The RRAM-based neuromorphic computing system has amassed explosive interests for its superior data processing capability and energy efficiency than traditional architectures, and thus being widely used in many data-centric applications. The reliability and security issues of the NCS therefore become an essential problem. In this paper, we systematically investigated the adversarial threats to the RRAM-based NCS and observed that the RRAM hardware feature can be leveraged to strengthen the attack effect, which has not been granted sufficient attention by previous algorithmic attack methods. Thus, we proposed two types of hardware-aware attack methods with respect to different attack scenarios and objectives. The first is adversarial attack, VADER, which perturbs the input samples to mislead the prediction of neural networks. The second is fault injection attack, EFI, which perturbs the network parameter space such that a specified sample will be classified to a target label, while maintaining the prediction accuracy on other samples. Both attack methods leverage the RRAM properties to improve the performance compared with the conventional attack methods. Experimental results show that our hardware-aware attack methods can achieve nearly 100% attack success rate with extremely low operational cost, while maintaining the attack stealthiness.
翻訳日:2023-02-21 15:41:33 公開日:2023-02-20
# 磁気キャビティにおける1次超ラジアント相転移:2脚ラグモデル

First-order superradiant phase transition in magnetic cavities: A two-leg ladder model ( http://arxiv.org/abs/2302.09901v1 )

ライセンス: Link先を確認
Zeno Bacciconi, Gian Marcello Andolina, Titas Chanda, Giuliano Chiriac\`o, Marco Schir\'o, Marcello Dalmonte(参考訳) ピエルス置換により非一様キャビティモードに結合したラダー幾何学における自由フェルミオンのモデルを考える。 キャビティモードは磁場を生成するため、自発的光子凝縮に関するno-go定理は適用されず、超ラジアント相への相転移を観察する。 正方形および三角形のはしご幾何学を考察し、系のエネルギー構造、光物質絡み、光子モードの特性、キラル電流の研究により遷移を特徴づける。 超ラジアント遷移は1次であり、フェルミ点の数だけでなくフェルミイオン帯の構造の急激な変化に対応する。 擬1次元幾何学により,大規模密度行列再正規化群シミュレーションに対するキャビティ・マッター分離の精度を検証した。 有限サイズでの物質特性の補正と正しい光子状態の記述には,光物質の絡み合いが不可欠であることがわかった。 後者は、ノーマル相と超ラジアン相の両方における熱力学的極限においてガウス的のままである。

We consider a model of free fermions in a ladder geometry coupled to a non-uniform cavity mode via Peierls substitution. Since the cavity mode generates a magnetic field, no-go theorems on spontaneous photon condensation do not apply, and we indeed observe a phase transition to a superradiant phase. We consider both square and triangular ladder geometries, and characterize the transition by studying the energy structure of the system, light-matter entanglement, the properties of the photon mode, and chiral currents. The superradiant transition is of first order and corresponds to a sudden change in the fermionic band structure as well as the number of its Fermi points. Thanks to the quasi-one dimensional geometry we scrutinize the accuracy of (mean field) cavity-matter decoupling against large scale density-matrix renormalization group simulations. We find that light-matter entanglement is essential for capturing corrections to matter properties at finite sizes and for the description of the correct photon state. The latter remains Gaussian in the the thermodynamic limit both in the normal and superradiant phases.
翻訳日:2023-02-21 15:41:11 公開日:2023-02-20
# 法執行機関による国境横断データアクセスの最近の動向

Recent Trends in Cross-Border Data Access by Law Enforcement Agencies ( http://arxiv.org/abs/2302.09942v1 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) オンラインデータへのアクセスは、法執行機関が電子証拠収集と犯罪調査において、長い間重要であった。 これらの活動は長い間、国境を越えた調査や、機関と司法当局の国際協力にも関わってきた。 しかし、クラウドコンピューティングのような技術進歩は、調査と協力の手配を複雑にしている。 そのため、クラウドコンピューティングの文脈における国境を越えた犯罪調査を促進するために、米国と欧州連合の両方でいくつかの新しい法律が可決され提案されている。 これらの新しい法律と提案は、治外法権、データ保護、プライバシー、監視に関する多くの新しい法的課題と論争をもたらした。 これらの課題を念頭に置いて、欧州に焦点をあて、法執行機関による国境を越えたデータアクセスに関する最近の傾向と政策イニシアティブをレビューする。

Access to online data has long been important for law enforcement agencies in their collection of electronic evidence and investigation of crimes. These activities have also long involved cross-border investigations and international cooperation between agencies and jurisdictions. However, technological advances such as cloud computing have complicated the investigations and cooperation arrangements. Therefore, several new laws have been passed and proposed both in the United States and the European Union for facilitating cross-border crime investigations in the context of cloud computing. These new laws and proposals have also brought many new legal challenges and controversies regarding extraterritoriality, data protection, privacy, and surveillance. With these challenges in mind and with a focus on Europe, this paper reviews the recent trends and policy initiatives for cross-border data access by law enforcement agencies.
翻訳日:2023-02-21 15:35:09 公開日:2023-02-20
# データ保護政治のテキストマイニング分析--欧州議会本会議を事例として

A Text Mining Analysis of Data Protection Politics: The Case of Plenary Sessions of the European Parliament ( http://arxiv.org/abs/2302.09939v1 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) データ保護法や政策は近年広く研究されているが、データ保護の議会政治についてはほとんど分かっていない。 この模倣は、データ保護とプライバシー規制の世界的主導権を握った欧州連合(EU)にも適用される。 既存の研究におけるこの顕著なギャップにパッチを当てるために、本論文は欧州議会の総会で欧州議会(meps)のメンバーが提起したデータ保護問題と、欧州委員会が提示した回答について検討する。 このような質問や回答は、1995年から2023年初めの期間に数千を超える。 テキストマイニングに基づく計算解析から,そのことが示唆される。 a) 過去20年間,議会で積極的にデータ保護が議論されてきた。 縦断的な傾向は見られず、議論は比較的絶え間ない。 予想通りだ。 b)EUにおける特定のデータ保護法は、これらの議論においてしばしば言及されている。 (c)左右軸のような従来の政治的側面に沿わないように思われる。 さらに (d)eu内のデータ保護政策は、最近制定された規制以上に順調に進んでいることを示唆する、多くの異なるデータ保護の話題が議会で議論されている。

Data protection laws and policies have been studied extensively in recent years, but little is known about the parliamentary politics of data protection. This imitation applies even to the European Union (EU) that has taken the global lead in data protection and privacy regulation. For patching this notable gap in existing research, this paper explores the data protection questions raised by the Members of the European Parliament (MEPs) in the Parliament's plenary sessions and the answers given to these by the European Commission. Over a thousand of such questions and answers are covered in a period from 1995 to early 2023. Given computational analysis based on text mining, the results indicate that (a) data protection has been actively debated in the Parliament during the past twenty years. No noticeable longitudinal trends are present; the debates have been relatively constant. As could be expected, (b) the specific data protection laws in the EU have frequently been referenced in these debates, which (c) do not seem to align along conventional political dimensions such as the left-right axis. Furthermore, (d) numerous distinct data protection topics have been debated by the parliamentarians, indicating that data protection politics in the EU go well-beyond the recently enacted regulations.
翻訳日:2023-02-21 15:34:59 公開日:2023-02-20
# SkillRec: キャリアインサイトのためのジョブスキル推奨へのデータ駆動アプローチ

SkillRec: A Data-Driven Approach to Job Skill Recommendation for Career Insights ( http://arxiv.org/abs/2302.09938v1 )

ライセンス: Link先を確認
Xiang Qian Ong and Kwan Hui Lim(参考訳) あらゆるキャリアに必要なスキルセットや知識を理解することは最も重要であるが、ツールやテクニックの急速な変化とともに、今日のダイナミックな世界ではますます困難になっている。 したがって、キャリアの洞察と開発を改善するために、あらゆる仕事に必要なスキルセットを正確に特定できることが特に重要です。 本稿では,その職種に基づいて,特定の職種に必要なスキルを推薦するスキルレコメンデーション(Skill Recommendation, SkillRec)システムを提案し,開発する。 SkillRecは、これらの役割を雇用する企業が公開する仕事の説明に基づいて、仕事に必要なスキルを収集し、特定する。 データ収集と前処理機能に加えて、skillrecは、ジョブタイトル表現に基づくジョブスキル推奨のためのフィードフォワードニューラルネットワークとともに、ジョブタイトル表現のためのワード/センテンス埋め込み技術も活用している。 6000の肩書と説明のデータセットに関する予備実験に基づき、skillrecは精度とf1-scoreの観点から有望なパフォーマンスを示している。

Understanding the skill sets and knowledge required for any career is of utmost importance, but it is increasingly challenging in today's dynamic world with rapid changes in terms of the tools and techniques used. Thus, it is especially important to be able to accurately identify the required skill sets for any job for better career insights and development. In this paper, we propose and develop the Skill Recommendation (SkillRec) system for recommending the relevant job skills required for a given job based on the job title. SkillRec collects and identify the skill set required for a job based on the job descriptions published by companies hiring for these roles. In addition to the data collection and pre-processing capabilities, SkillRec also utilises word/sentence embedding techniques for job title representation, alongside a feed-forward neural network for job skill recommendation based on the job title representation. Based on our preliminary experiments on a dataset of 6,000 job titles and descriptions, SkillRec shows a promising performance in terms of accuracy and F1-score.
翻訳日:2023-02-21 15:34:39 公開日:2023-02-20
# cisum:マルチモーダル要約のためのマルチモーダルセマンティクスカバレッジ向上のためのクロスモダリティインタラクションの学習

CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization ( http://arxiv.org/abs/2302.09934v1 )

ライセンス: Link先を確認
Litian Zhang, Xiaoming Zhang, Ziming Guo, Zhipeng Liu(参考訳) multimodal summarization (ms) はマルチモーダル入力から要約を生成することを目的としている。 これまでの研究は主に、視覚内容を補足データとみなすROUGEのようなテキストセマンティックカバレッジメトリクスに焦点を当てていた。 したがって、要約は異なるモダリティのセマンティクスをカバーするのに効果がない。 本稿では,マルチモーダル記事におけるクロスモーダルインタラクションを学習することにより,マルチモーダル意味範囲を改善するマルチタスククロスモーダル学習フレームワーク(cisum)を提案する。 視覚意味論を得るために,テキスト内容との相関に基づいて画像を視覚的な記述に翻訳する。 そして、視覚記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャし、最も関連性の高い画像を視覚要約として選択する。 さらに、性能を評価するために、自動マルチモーダルセマンティクスカバレッジメトリックを設計する。 実験の結果,CISumはROUGEとBLEUの優れた性能を維持しつつ,マルチモーダルセマンティクスのカバレッジ指標のベースラインよりも優れていた。

Multimodal summarization (MS) aims to generate a summary from multimodal input. Previous works mainly focus on textual semantic coverage metrics such as ROUGE, which considers the visual content as supplemental data. Therefore, the summary is ineffective to cover the semantics of different modalities. This paper proposes a multi-task cross-modality learning framework (CISum) to improve multimodal semantic coverage by learning the cross-modality interaction in the multimodal article. To obtain the visual semantics, we translate images into visual descriptions based on the correlation with text content. Then, the visual description and text content are fused to generate the textual summary to capture the semantics of the multimodal content, and the most relevant image is selected as the visual summary. Furthermore, we design an automatic multimodal semantics coverage metric to evaluate the performance. Experimental results show that CISum outperforms baselines in multimodal semantics coverage metrics while maintaining the excellent performance of ROUGE and BLEU.
翻訳日:2023-02-21 15:34:21 公開日:2023-02-20
# 神秘的で操作的なブラックボックス:レコメンダシステムにおける知覚の質的分析

Mysterious and Manipulative Black Boxes: A Qualitative Analysis of Perceptions on Recommender Systems ( http://arxiv.org/abs/2302.09933v1 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 推薦システムは、様々な事項に関する適切な提案を提供するために使用される。 これらの制度は古典的な研究テーマであるが、これらの制度に関する世論についてはまだ知識が限られている。 システムは様々な問題を引き起こすことが知られているため、世論も重要である。 そこで本研究では,欧州における一般市民,市民団体,企業等の推薦制度に対する認識の質的分析について述べる。 調査されたデータセットは、欧州連合(EU)で最近施行されたデジタルサービス法(DSA)に関する協議に提出された回答に基づいています。 したがって,本論文は,新たな技術やオンラインプラットフォームを規制する上での圧力的問題に寄与するだけでなく,DSAの政策決定に関する洞察も明らかにする。 定性的な結果によると、ヨーロッパ人は概してレコメンダシステムとレコメンデーションの品質について否定的な意見を持っている。 このシステムは、プライバシーやその他の基本的権利を侵害していると広く見られている。 多くのヨーロッパ人によれば、これらもまた民主主義への脅威を含む様々な社会問題を引き起こしている。 さらに、EUの既存の規制は、適切な執行力の欠如により失敗していたと一般的にみられている。 状況改善のための協議について,多くの意見が寄せられたが,DSAに終わったのはごくわずかであった。

Recommender systems are used to provide relevant suggestions on various matters. Although these systems are a classical research topic, knowledge is still limited regarding the public opinion about these systems. Public opinion is also important because the systems are known to cause various problems. To this end, this paper presents a qualitative analysis of the perceptions of ordinary citizens, civil society groups, businesses, and others on recommender systems in Europe. The dataset examined is based on the answers submitted to a consultation about the Digital Services Act (DSA) recently enacted in the European Union (EU). Therefore, not only does the paper contribute to the pressing question about regulating new technologies and online platforms, but it also reveals insights about the policy-making of the DSA. According to the qualitative results, Europeans have generally negative opinions about recommender systems and the quality of their recommendations. The systems are widely seen to violate privacy and other fundamental rights. According to many Europeans, these also cause various societal problems, including even threats to democracy. Furthermore, existing regulations in the EU are commonly seen to have failed due to a lack of proper enforcement. Numerous suggestions were made by the respondents to the consultation for improving the situation, but only a few of these ended up to the DSA.
翻訳日:2023-02-21 15:34:02 公開日:2023-02-20
# nystr\"om $m$-hilbert-schmidt 独立基準

Nystr\"om $M$-Hilbert-Schmidt Independence Criterion ( http://arxiv.org/abs/2302.09930v1 )

ライセンス: Link先を確認
Florian Kalinke and Zolt\'an Szab\'o(参考訳) カーネル技術は、データサイエンスの最もポピュラーで強力なアプローチの1つです。 カーネルをユビキタスにする重要な特徴の1つは (i)彼らが設計した藩の数 (ii)その統計解析を容易にする核に関連する函数類のヒルベルト構造 (iii)情報を失うことなく確率分布を表現する能力。 これらの性質はヒルベルト・シュミット独立基準(HSIC)の大きな成功をもたらし、緩やかな条件下でランダム変数の連立独立を捉え、2次計算複雑性を持つ閉形式推定器(例:サンプルサイズ)を許容する。 大規模アプリケーションにおける二次的計算ボトルネックを軽減するため、複数のHSIC近似が提案されているが、これらの推定値はM=2$ランダム変数に制限され、自然に$M\ge 2$ケースに拡張されず、理論的保証がない。 本研究では,$m\ge 2$ ケースを処理し,一貫性を証明し,合成例,メディアアノテーションの依存性テスト,因果発見など,複数のコンテキストにおける適用性を示す nystr\"om ベースの hsic 推定器を提案する。

Kernel techniques are among the most popular and powerful approaches of data science. Among the key features that make kernels ubiquitous are (i) the number of domains they have been designed for, (ii) the Hilbert structure of the function class associated to kernels facilitating their statistical analysis, and (iii) their ability to represent probability distributions without loss of information. These properties give rise to the immense success of Hilbert-Schmidt independence criterion (HSIC) which is able to capture joint independence of random variables under mild conditions, and permits closed-form estimators with quadratic computational complexity (w.r.t. the sample size). In order to alleviate the quadratic computational bottleneck in large-scale applications, multiple HSIC approximations have been proposed, however these estimators are restricted to $M=2$ random variables, do not extend naturally to the $M\ge 2$ case, and lack theoretical guarantees. In this work, we propose an alternative Nystr\"om-based HSIC estimator which handles the $M\ge 2$ case, prove its consistency, and demonstrate its applicability in multiple contexts, including synthetic examples, dependency testing of media annotations, and causal discovery.
翻訳日:2023-02-21 15:33:44 公開日:2023-02-20
# テキスト・画像生成モデルに対するプロンプトステアリング攻撃

Prompt Stealing Attacks Against Text-to-Image Generation Models ( http://arxiv.org/abs/2302.09923v1 )

ライセンス: Link先を確認
Xinyue Shen and Yiting Qu and Michael Backes and Yang Zhang(参考訳) テキストから画像への生成モデルはアートワークの設計プロセスに革命をもたらし、プロンプトと呼ばれるテキスト記述を入力すれば誰でも高品質な画像を作れるようになった。 主題といくつかの修飾子で構成される高品質なプロンプトを作成するには、時間と費用がかかる。 その結果、専門市場における高品質なプロンプトの取引の傾向が現れた。 本稿では,テキスト・画像生成モデルにより生成された画像からのプロンプトを盗むことを目的とした,新たな攻撃手法を提案する。 プロンプト盗みの成功した攻撃は、プロンプトエンジニアの知的財産とプライバシに直接違反し、プロンプト取引市場のビジネスモデルを脅かしている。 まず,自分自身が収集したデータセットを大規模に分析し,プロンプト攻撃を成功させた場合,プロンプトの被写体とその修正子を考慮すべきであることを示す。 次に,最初の学習に基づくプロンプトステアラー攻撃,PromptStealerを提案し,その2つのベースライン法に対する優位性を定量的に定性的に示す。 PromptStealerの防御も試みています。 概して、一般的なテキスト・画像生成モデルによって生成されるエコシステムの新たな攻撃面を明らかにする。 われわれの結果が脅威を和らげる助けになることを期待している。 この分野での研究を促進するため、私たちはデータセットとコードをコミュニティと共有します。

Text-to-Image generation models have revolutionized the artwork design process and enabled anyone to create high-quality images by entering text descriptions called prompts. Creating a high-quality prompt that consists of a subject and several modifiers can be time-consuming and costly. In consequence, a trend of trading high-quality prompts on specialized marketplaces has emerged. In this paper, we propose a novel attack, namely prompt stealing attack, which aims to steal prompts from generated images by text-to-image generation models. Successful prompt stealing attacks direct violate the intellectual property and privacy of prompt engineers and also jeopardize the business model of prompt trading marketplaces. We first perform a large-scale analysis on a dataset collected by ourselves and show that a successful prompt stealing attack should consider a prompt's subject as well as its modifiers. We then propose the first learning-based prompt stealing attack, PromptStealer, and demonstrate its superiority over two baseline methods quantitatively and qualitatively. We also make some initial attempts to defend PromptStealer. In general, our study uncovers a new attack surface in the ecosystem created by the popular text-to-image generation models. We hope our results can help to mitigate the threat. To facilitate research in this field, we will share our dataset and code with the community.
翻訳日:2023-02-21 15:33:23 公開日:2023-02-20
# unsupervised omnimvs: pseudo-stereo supervisorの確立による効率の良い全方位深度推定

Unsupervised OmniMVS: Efficient Omnidirectional Depth Inference via Establishing Pseudo-Stereo Supervision ( http://arxiv.org/abs/2302.09922v1 )

ライセンス: Link先を確認
Zisong Chen, Chunyu Lin, Nie Lang, Kang Liao, Yao Zhao(参考訳) 全方位多視点ステレオ(mvs)ビジョンはその超広視野(fov)にとって魅力的であり、マシンは360{\deg} 3d環境を知覚できる。 しかし、既存のソリューションは監督のために高価な深度ラベルを必要とするため、現実のアプリケーションでは実用的ではない。 本稿では,複数の魚眼画像に基づく非教師なし全方位mvsフレームワークを提案する。 そこで我々は,すべての画像を仮想ビューセンターに投影し,2対のバックツーバック魚眼画像から球形状のパノラマ画像を合成する。 2つの360{\deg}画像は、特別なポーズを持つステレオペアを定式化し、光度整合性を利用して教師なしの制約を確立し、これを「擬似ステレオスーパービジョン」と呼ぶ。 さらに,2つの効率的なコンポーネントを用いた推論速度の向上を目的として,効率的な全方位MVSネットワークUn-OmniMVSを提案する。 まず,非局所的なフーリエ特徴と局所的な空間特徴を同時に捉え,特徴表現を明示的に促進する特徴抽出器を提案する。 次に、分散に基づく光コストボリュームをフォワードして計算複雑性を低減する。 実験の結果, 教師なしソリューションの性能は, 実世界のデータにおけるより優れた一般化を伴う最先端(SoTA)教師付き手法と競合することがわかった。

Omnidirectional multi-view stereo (MVS) vision is attractive for its ultra-wide field-of-view (FoV), enabling machines to perceive 360{\deg} 3D surroundings. However, the existing solutions require expensive dense depth labels for supervision, making them impractical in real-world applications. In this paper, we propose the first unsupervised omnidirectional MVS framework based on multiple fisheye images. To this end, we project all images to a virtual view center and composite two panoramic images with spherical geometry from two pairs of back-to-back fisheye images. The two 360{\deg} images formulate a stereo pair with a special pose, and the photometric consistency is leveraged to establish the unsupervised constraint, which we term "Pseudo-Stereo Supervision". In addition, we propose Un-OmniMVS, an efficient unsupervised omnidirectional MVS network, to facilitate the inference speed with two efficient components. First, a novel feature extractor with frequency attention is proposed to simultaneously capture the non-local Fourier features and local spatial features, explicitly facilitating the feature representation. Then, a variance-based light cost volume is put forward to reduce the computational complexity. Experiments exhibit that the performance of our unsupervised solution is competitive to that of the state-of-the-art (SoTA) supervised methods with better generalization in real-world data.
翻訳日:2023-02-21 15:33:00 公開日:2023-02-20
# ガウス過程状態空間モデルに対する自由形式変分推論

Free-Form Variational Inference for Gaussian Process State-Space Models ( http://arxiv.org/abs/2302.09921v1 )

ライセンス: Link先を確認
Xuhui Fan, Edwin V. Bonilla, Terence J. O'Kane, Scott A. Sisson(参考訳) ガウス過程状態空間モデル(英: gaussian process state-space model、gpssms)は、潜在状態のダイナミクスをモデル化するための原理的かつ柔軟なアプローチである。 しかし、GPSSMの推論は、モデル内の大量の潜伏変数とそれらの間の強い時間的依存関係のために、計算的に、統計的に困難である。 本稿では,従来の手法,すなわち過剰に単純化された仮定と高い計算要求の欠点を克服したベイズGPSSMの推論手法を提案する。 本手法は帰納的形式論における確率勾配ハミルトンモンテカルロによる自由形式変分推論に基づく。 さらに,提案した変分分布を利用して,帰納変数を解析的に疎外化する手法の拡張を行う。 また,本手法を粒子MCMC法と組み合わせた結果を示す。 実世界の6つのデータセットにおいて、我々のアプローチは競合する手法よりもより正確に遷移力学や潜伏状態を学ぶことができることを示す。

Gaussian process state-space models (GPSSMs) provide a principled and flexible approach to modeling the dynamics of a latent state, which is observed at discrete-time points via a likelihood model. However, inference in GPSSMs is computationally and statistically challenging due to the large number of latent variables in the model and the strong temporal dependencies between them. In this paper, we propose a new method for inference in Bayesian GPSSMs, which overcomes the drawbacks of previous approaches, namely over-simplified assumptions, and high computational requirements. Our method is based on free-form variational inference via stochastic gradient Hamiltonian Monte Carlo within the inducing-variable formalism. Furthermore, by exploiting our proposed variational distribution, we provide a collapsed extension of our method where the inducing variables are marginalized analytically. We also showcase results when combining our framework with particle MCMC methods. We show that, on six real-world datasets, our approach can learn transition dynamics and latent states more accurately than competing methods.
翻訳日:2023-02-21 15:32:39 公開日:2023-02-20
# インタラクティブな顔ビデオ符号化 - 生成圧縮フレームワーク

Interactive Face Video Coding: A Generative Compression Framework ( http://arxiv.org/abs/2302.09919v1 )

ライセンス: Link先を確認
Bolin Chen, Zhao Wang, Binzhe Li, Shurun Wang, Shiqi Wang, Yan Ye(参考訳) 本稿では,対話型顔画像符号化(IFVC)のための新しいフレームワークを提案する。 提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。 特に,内部寸法増加 (idi) に基づく表現を提案し,適切な表現コストを維持しつつ,外観の再現性と柔軟性を大幅に向上させる。 強い統計的規則性を活用することで、視覚信号を3次元空間における制御可能な意味論(例えば、口の動き、点滅、頭部回転、頭部翻訳)に効果的に投影し、送信することができる。 編集可能なビットストリームは、意味レベルでの相互作用を自然にサポートし、深層生成モデルの強い推論能力によって顔フレームを合成することができる。 実験結果は,提案するifvc方式の性能と適用可能性を示した。 特に,提案方式は,最先端のビデオ符号化規格であるVersatile Video Coding (VVC) と最新の生成圧縮方式を,顔ビデオのレート歪み性能の観点から上回るだけでなく,新たな操作プロセスを導入することなくインタラクティブな符号化を可能にする。 さらに,提案手法は,メタバースにおけるデジタルヒューマンコミュニケーションの将来設計に光を当てることが期待されている。

In this paper, we propose a novel framework for Interactive Face Video Coding (IFVC), which allows humans to interact with the intrinsic visual representations instead of the signals. The proposed solution enjoys several distinct advantages, including ultra-compact representation, low delay interaction, and vivid expression and headpose animation. In particular, we propose the Internal Dimension Increase (IDI) based representation, greatly enhancing the fidelity and flexibility in rendering the appearance while maintaining reasonable representation cost. By leveraging strong statistical regularities, the visual signals can be effectively projected into controllable semantics in the three dimensional space (e.g., mouth motion, eye blinking, head rotation and head translation), which are compressed and transmitted. The editable bitstream, which naturally supports the interactivity at the semantic level, can synthesize the face frames via the strong inference ability of the deep generative model. Experimental results have demonstrated the performance superiority and application prospects of our proposed IFVC scheme. In particular, the proposed scheme not only outperforms the state-of-the-art video coding standard Versatile Video Coding (VVC) and the latest generative compression schemes in terms of rate-distortion performance for face videos, but also enables the interactive coding without introducing additional manipulation processes. Furthermore, the proposed framework is expected to shed lights on the future design of the digital human communication in the metaverse.
翻訳日:2023-02-21 15:32:12 公開日:2023-02-20
# 手指バイオメトリックスにおける画像品質評価の高度化

Advanced Image Quality Assessment for Hand- and Fingervein Biometrics ( http://arxiv.org/abs/2302.09973v1 )

ライセンス: Link先を確認
Simon Kirchgasser, Christof Kauba, Georg Wimmer and Andreas Uhl(参考訳) 血管画像のバイオメトリック品質指標として,非参照画像品質測定や深層学習に基づく品質評価手法によく用いられる自然シーン統計法を提案する。 NIQEとBRISQUEは、通常の歪みのある一般的な画像でトレーニングされた場合、血管パターンのサンプルの品質を評価するのにうまく機能しないが、高品質で低品質の血管サンプルデータで訓練された変異は、ほとんどの場合、バイオメトリックな品質推定器から期待通りに振る舞う(特定のデータセットや特徴抽出方法の全体的な傾向から推定される)。 提案する深層学習に基づく品質指標は, 指や手の静脈のパターンによらず, たいていの場合, 正確な品質クラスを空孔パターンサンプルに割り当てることができる。 実験は、合計13個の指と手静脈のデータセットを用いて実施され、3つの異なるテンプレート表現(うち2つは特に血管バイオメトリックス用に設計された)を含んでいる。 提案された(訓練された)品質指標は、いくつかの古典的な品質指標と比較される。

Natural Scene Statistics commonly used in non-reference image quality measures and a deep learning based quality assessment approach are proposed as biometric quality indicators for vasculature images. While NIQE and BRISQUE if trained on common images with usual distortions do not work well for assessing vasculature pattern samples' quality, their variants being trained on high and low quality vasculature sample data behave as expected from a biometric quality estimator in most cases (deviations from the overall trend occur for certain datasets or feature extraction methods). The proposed deep learning based quality metric is capable of assigning the correct quality class to the vaculature pattern samples in most cases, independent of finger or hand vein patterns being assessed. The experiments were conducted on a total of 13 publicly available finger and hand vein datasets and involve three distinct template representations (two of them especially designed for vascular biometrics). The proposed (trained) quality measures are compared to a several classical quality metrics, with their achieved results underlining their promising behaviour.
翻訳日:2023-02-21 15:25:19 公開日:2023-02-20
# 点学習と対学習の混合に対する安定性に基づく一般化解析

Stability-based Generalization Analysis for Mixtures of Pointwise and Pairwise Learning ( http://arxiv.org/abs/2302.09967v1 )

ライセンス: Link先を確認
Jiahuan Wang, Jun Chen, Hong Chen, Bin Gu, Weifu Li, Xin Tang(参考訳) 近年,「ポイントワイド・ペアワイド・ラーニング(PPL)」の混合アルゴリズムが「ポイントワイド・ロス+ペアワイド・ロス」というハイブリッド・エラー・メトリックを用いて定式化され,特徴選択,ランキング,レコメンデーションに実証的な効果が示された。 しかし、我々の知る限りでは、PPLの学習理論の基礎は、既存の研究には触れられていない。 本稿では,PPLの一般化特性を解明し,この理論的ギャップを埋めようとしている。 アルゴリズム安定性の定義をPPL設定に拡張した後、一様安定なPPLアルゴリズムの高確率一般化境界を確立する。 さらに,ペアワイズ学習の安定性解析手法を開発し,確率的勾配降下 (sgd) と正則化リスク最小化 (rrm) の明示的な収束率について述べる。 さらに、一様安定性を平均安定性に置き換えることで、PPLの洗練された一般化境界が得られる。

Recently, some mixture algorithms of pointwise and pairwise learning (PPL) have been formulated by employing the hybrid error metric of "pointwise loss + pairwise loss" and have shown empirical effectiveness on feature selection, ranking and recommendation tasks. However, to the best of our knowledge, the learning theory foundation of PPL has not been touched in the existing works. In this paper, we try to fill this theoretical gap by investigating the generalization properties of PPL. After extending the definitions of algorithmic stability to the PPL setting, we establish the high-probability generalization bounds for uniformly stable PPL algorithms. Moreover, explicit convergence rates of stochastic gradient descent (SGD) and regularized risk minimization (RRM) for PPL are stated by developing the stability analysis technique of pairwise learning. In addition, the refined generalization bounds of PPL are obtained by replacing uniform stability with on-average stability.
翻訳日:2023-02-21 15:24:57 公開日:2023-02-20
# 光子凝縮, ファン・ヴレック常磁性, キラル空洞

Photon condensation, Van Vleck paramagnetism, and chiral cavities ( http://arxiv.org/abs/2302.09964v1 )

ライセンス: Link先を確認
Alberto Mercurio, Gian Marcello Andolina, Francesco M. D. Pellegrino, Omar Di Stefano, Pablo Jarillo-Herrero, Claudia Felser, Frank H. L. Koppens, Salvatore Savasta, and Marco Polini(参考訳) 空間変化の量子化された空洞電磁ベクトルポテンシャル$\hat{\bm A}({\bm r})$に結合した平面二乗分子のゲージ不変モデルを導入する。 具体的には、一様磁場 $\hat{\bm b}$ を持つ時間的 {\it chiral} キャビティを選択するが、これは横方向の空間的に変動する $\hat{\bm a}({\bm r})$ が作用する最も単純な例である。 分子がVan Vleck常磁性状態にある場合、光子凝縮状態への平衡量子相転移が起こる。

We introduce a gauge-invariant model of planar, square molecules coupled to a quantized spatially-varying cavity electromagnetic vector potential $\hat{\bm A}({\bm r})$. Specifically, we choose a temporally {\it chiral} cavity hosting a uniform magnetic field $\hat{\bm B}$, as this is the simplest instance in which a transverse spatially-varying $\hat{\bm A}({\bm r})$ is at play. We show that when the molecules are in the Van Vleck paramagnetic regime, an equilibrium quantum phase transition to a photon condensate state occurs.
翻訳日:2023-02-21 15:24:38 公開日:2023-02-20
# すべてのセンサがユニークなので、すべてのペア:トラフィック予測の動的処理

Because Every Sensor Is Unique, so Is Every Pair: Handling Dynamicity in Traffic Forecasting ( http://arxiv.org/abs/2302.09956v1 )

ライセンス: Link先を確認
Arian Prabowo, Wei Shao, Hao Xue, Piotr Koniusz, Flora D. Salim(参考訳) 交通予測は、スマートトランスポーテーションのバックボーンであるサイバー物理インフラストラクチャから価値を抽出するための重要なタスクである。 しかし、外部のコンテキストのため、各センサーのダイナミクスはユニークである。 例えば、学校近くのセンサーの午後のピークは、住宅地に近いものよりも早く起こる可能性が高い。 本稿では,まず実世界の交通データを解析し,各センサがユニークなダイナミクスを持つことを示す。 さらに分析したところ、それぞれのセンサーにはユニークなダイナミクスがあることがわかった。 次に,ノード埋め込みがセンサ位置毎にユニークなダイナミクスを学習する方法について検討する。 次に,SGT(Spatial Graph Transformers)と呼ばれる新しいモジュールを提案する。このモジュールはノード埋め込みを用いて,2つのセンサ間の情報フローが各ペアのユニークなダイナミクスに対して適応していることを保証する。 最後に,グラフ自己アテンション・ウェーブネット(G-SWaN)を提案する。 実世界の4つのオープンデータセットの実証実験を通して,提案手法が交通速度と流速予測の両方において優れた性能を発揮することを示す。 コードは、https://github.com/aprbw/G-SWaNで入手できる。

Traffic forecasting is a critical task to extract values from cyber-physical infrastructures, which is the backbone of smart transportation. However owing to external contexts, the dynamics at each sensor are unique. For example, the afternoon peaks at sensors near schools are more likely to occur earlier than those near residential areas. In this paper, we first analyze real-world traffic data to show that each sensor has a unique dynamic. Further analysis also shows that each pair of sensors also has a unique dynamic. Then, we explore how node embedding learns the unique dynamics at every sensor location. Next, we propose a novel module called Spatial Graph Transformers (SGT) where we use node embedding to leverage the self-attention mechanism to ensure that the information flow between two sensors is adaptive with respect to the unique dynamic of each pair. Finally, we present Graph Self-attention WaveNet (G-SWaN) to address the complex, non-linear spatiotemporal traffic dynamics. Through empirical experiments on four real-world, open datasets, we show that the proposed method achieves superior performance on both traffic speed and flow forecasting. Code is available at: https://github.com/aprbw/G-SWaN
翻訳日:2023-02-21 15:24:26 公開日:2023-02-20
# 二部量子系における普遍スペクトル相関

Universal spectral correlations in bipartite chaotic quantum systems ( http://arxiv.org/abs/2302.09955v1 )

ライセンス: Link先を確認
Felix Fritzsch and Maximilian F. I. Kieler(参考訳) 量子カオスの概念はスペクトル相関のようなランダム行列と密接に結びついている。 このようなスペクトル相関の尺度として、スペクトル形成因子とそのすべてのモーメントを研究する二部量子系を考える。 スペクトル形式因子は、大きなヒルベルト空間次元に対して正確に得られる。 これらの結果を有限ヒルベルト空間次元に外挿すると、サブシステムのハイゼンベルク時間よりも大きい1つのスケーリングパラメータに対するスペクトル形式係数の普遍的依存が見つかる。 これらの結果は,解析結果と広範囲な数値研究との間に優れた一致が得られた2部構成の性質に適応したランダム行列モデルから導出される。 同様の一致は、2つの連結されたキックローターの量子力学系で見られ、その結果がランダム行列モデルを超えた適用性を示す。 さらに, オール・ツー・オール相互作用を対象とする多体システムに対して, 結果の一般化を行った。 最終的に、我々は2部と多体の両方の小さな結合状態をカバーする摂動的アプローチで分析を補完する。

The notion of quantum chaos is closely tied to random-matrix like spectral correlations. We consider bipartite chaotic quantum systems in which we study the spectral form factor and all its moments as a measure of such spectral correlations. We obtain the spectral form factor exactly for large Hilbert space dimension. Extrapolating those results to finite Hilbert space dimension we find a universal dependence of the spectral form factor on a single scaling parameter for times larger than the subsystems' Heisenberg times. These results are derived in a random matrix model adapted to the bipartite nature of our setting in which we find excellent agreement between analytical results and extensive numerical studies. Similar agreement is found in a quantized dynamical system of two coupled kicked rotors, thereby demonstrating the applicability of our results beyond random matrix models. Moreover, we generalize our results to many-body systems subject to an all-to-all interaction. Ultimately we complement our analysis by a perturbative approach covering the small coupling regime for both the bipartite and the many-body setting.
翻訳日:2023-02-21 15:24:06 公開日:2023-02-20
# なぜ予測が間違っているのか? メタ分類による不適合事例説明に向けて

Why is the prediction wrong? Towards underfitting case explanation via meta-classification ( http://arxiv.org/abs/2302.09952v1 )

ライセンス: Link先を確認
Sheng Zhou (CEDRIC - VERTIGO, CNAM, LADIS), Pierre Blanchart (LADIS), Michel Crucianu (CEDRIC - VERTIGO, CNAM), Marin Ferecatu (CEDRIC - VERTIGO, CNAM)(参考訳) 本稿では,与えられた分類器によって誤って予測されるデータセット(データポイント)内の要素について,個々の説明を提供するヒューリスティックな手法を提案する。 一般的なケースは難しいので、本研究では、不適切なモデルからのデータに焦点を合わせます。 まず, 故障データを手作りの中間表現(メタ表現, プロファイルベクトル)に投影し, 分類器の強度が十分でないか, あるいはデータポイントがクラスが分離できない入力空間の領域に属するかの2つの主な原因を分離する。 次に、これらのプロファイルベクトルの空間において、メタ分類器(決定木)に適合し、その出力を解釈可能な(可読性のある)説明規則のセットとして表現する手法を示し、いくつかのターゲット診断ラベルに導く。 いくつかの実データセットにおける実験結果は、80%以上の診断ラベル精度を示し、提案中間表現により、入力空間で使用される分類器および分類対象データセットに対する高い不変性、すなわち、所定の分類器でデータセット上のメタ分類器を学習し、異なるデータセットまたは分類器(またはその両方)の診断ラベルをうまく予測できることを確認した。

In this paper we present a heuristic method to provide individual explanations for those elements in a dataset (data points) which are wrongly predicted by a given classifier. Since the general case is too difficult, in the present work we focus on faulty data from an underfitted model. First, we project the faulty data into a hand-crafted, and thus human readable, intermediate representation (meta-representation, profile vectors), with the aim of separating the two main causes of miss-classification: the classifier is not strong enough, or the data point belongs to an area of the input space where classes are not separable. Second, in the space of these profile vectors, we present a method to fit a meta-classifier (decision tree) and express its output as a set of interpretable (human readable) explanation rules, which leads to several target diagnosis labels: data point is either correctly classified, or faulty due to a too weak model, or faulty due to mixed (overlapped) classes in the input space. Experimental results on several real datasets show more than 80% diagnosis label accuracy and confirm that the proposed intermediate representation allows to achieve a high degree of invariance with respect to the classifier used in the input space and to the dataset being classified, i.e. we can learn the metaclassifier on a dataset with a given classifier and successfully predict diagnosis labels for a different dataset or classifier (or both).
翻訳日:2023-02-21 15:23:51 公開日:2023-02-20
# SpecXAI - 深層学習モデルのスペクトル解釈可能性

SpecXAI -- Spectral interpretability of Deep Learning Models ( http://arxiv.org/abs/2302.09949v1 )

ライセンス: Link先を確認
Stefan Druc, Peter Wooldridge, Adarsh Krishnamurthy, Soumik Sarkar, Aditya Balu(参考訳) 大量のデータをハイパフォーマンスなモデルに変換する能力によって、ビジネスや業界ではディープラーニングがますます採用されている。 しかし、これらのモデルは一般にブラックボックスと見なされ、性能にもかかわらず使用を妨げられる可能性がある。 この文脈では、eXplainable AIの分野は、モデルの難解な性質を誘惑し、それらの振る舞いの理解のレベルを促進する技術を開発しようとしている。 本稿では,ネットワーク全体のスペクトル特性に基づくSpecXAIというフレームワークの形で,XAI手法へのコントリビューションを示す。 本稿では,このフレームワークがネットワークを理解するだけでなく,それを線形解釈可能な記号表現に操作できることを示す。

Deep learning is becoming increasingly adopted in business and industry due to its ability to transform large quantities of data into high-performing models. These models, however, are generally regarded as black boxes, which, in spite of their performance, could prevent their use. In this context, the field of eXplainable AI attempts to develop techniques that temper the impenetrable nature of the models and promote a level of understanding of their behavior. Here we present our contribution to XAI methods in the form of a framework that we term SpecXAI, which is based on the spectral characterization of the entire network. We show how this framework can be used to not only understand the network but also manipulate it into a linear interpretable symbolic representation.
翻訳日:2023-02-21 15:23:26 公開日:2023-02-20
# 絡み合い測定を用いた量子冷却エンジンの実験的実証

Experimental demonstration of quantum cooling engine powered by entanglement measurement ( http://arxiv.org/abs/2302.09948v1 )

ライセンス: Link先を確認
Ning-Ning Wang, Huan Cao, Chao Zhang, Xiao-Ye Xu, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, and Guang-Can Guo(参考訳) 従来の冷蔵は外部の力または情報フィードバック機構によって駆動される。 驚くべきことに、一般的に有害な量子測定と崩壊は、フィードバック機構を必要とせずに冷却エンジンを駆動するためにも使用できる。 本研究では,熱浴のエネルギーレベル間隔と熱浴の温度を任意に調整できる新しい線形光学シミュレータを用いて,量子計測冷却(qmc)を実験的に実証する。 実験により, 測定対象の事前知識がなければ, QMCは発生しそうであることを示す。 また,QMCは測定ノイズに対して頑健であることを示す。 これらの実験結果は、量子測定は必ずしも有害ではなく、貴重な熱力学資源であることを示している。

Traditional refrigeration is driven either by external force or an information-feedback mechanism. Surprisingly, quantum measurement and collapse, which are generally detrimental, can also be used to power a cooling engine even without requiring any feedback mechanism. In this work, we experimentally demonstrate quantum measurement cooling (QMC) by using a novel linear-optical simulator, in which energy-level spacing of working substance and temperature of thermal bath can be arbitrarily adjusted. We show experimentally that, without prior knowledge of the measurement to be made, QMC remains likely to occur. We also demonstrate that QMC is robust against measurement noise. Those experimental results show that quantum measurement is not always detrimental but can be a valuable thermodynamic resource.
翻訳日:2023-02-21 15:23:15 公開日:2023-02-20
# 幾何変化下における乱流に対する条件付きGANの一般化能力

Generalization capabilities of conditional GAN for turbulent flow under changes of geometry ( http://arxiv.org/abs/2302.09945v1 )

ライセンス: Link先を確認
Claudia Drygala, Francesca di Mare, Hanno Gottschalk(参考訳) 乱流は、数値的に解決が難しい広範囲の空間的・時間的スケールの構造からなる。 大渦シミュレーション(LES)のような古典的な数値法は乱流構造の微細な詳細を捉えることができるが、計算コストが高い。 乱流の合成モデリングにGAN(Generative Adversarial Network)を適用することは、この問題を克服するための数学的に確立されたアプローチである。 本研究では,gan系合成乱流発生器の流動形態における幾何学的変化(例えば,翼などの構造物の空力幾何学的最適化)における一般化容量について検討する。 トレーニングデータとして,高分解能LESから得られる周期的な覚醒衝撃を有する低圧タービンステータ(LPT)まわりの流れを用いる。 LPTステータのまわりの流れをシミュレートするために、ステータの前における回転ウェイクの位置に条件付き深部畳み込みGANフレームワークpix2pixHDを用いる。 一般化実験では,特定の領域に位置するウェイク位置の画像をトレーニングデータから除外し,未発見のデータを用いてテストを行う。 本稿では,抽出したウェイク位置の領域を連続的に拡張することにより,条件付きGANの一般化能力と限界を示す。 最後に, 合成流れ場の統計的特性を, 対応するLES結果と比較して評価した。

Turbulent flow consists of structures with a wide range of spatial and temporal scales which are hard to resolve numerically. Classical numerical methods as the Large Eddy Simulation (LES) are able to capture fine details of turbulent structures but come at high computational cost. Applying generative adversarial networks (GAN) for the synthetic modeling of turbulence is a mathematically well-founded approach to overcome this issue. In this work, we investigate the generalization capabilites of GAN-based synthetic turbulence generators when geometrical changes occur in the flow configuration (e.g. aerodynamic geometric optimization of structures such as airfoils). As training data, we use the flow around a low-pressure turbine (LPT) stator with periodic wake impact obtained from highly resolved LES. To simulate the flow around a LPT stator, we use the conditional deep convolutional GAN framework pix2pixHD conditioned on the position of a rotating wake in front of the stator. For the generalization experiments we exclude images of wake positions located at certain regions from the training data and use the unseen data for testing. We show the abilities and limits of generalization for the conditional GAN by extending the regions of the extracted wake positions successively. Finally, we evaluate the statistical properties of the synthesized flow field by comparison with the corresponding LES results.
翻訳日:2023-02-21 15:23:04 公開日:2023-02-20
# データガバナンス法に関する考察

Reflections on the Data Governance Act ( http://arxiv.org/abs/2302.09944v1 )

ライセンス: Link先を確認
Jukka Ruohonen and Sini Mickelsson(参考訳) 欧州連合(EU)は、デジタル主権という傘の下に新たな戦略を模索している。 データはこの戦略の重要な要素です。 このため、2022年に特定のデータガバナンス法が制定された。 この新たな規制は、公共部門機関が保持するデータの再利用と、データ利他主義のラベルの下でのデータの自発的共有という2つの考え方に基づいている。 この短い解説は、新しい規制の主な内容についてレビューする。 レビューによると、潜在的な課題についてもいくつかのポイントが挙げられている。

The European Union (EU) has been pursuing a new strategy under the umbrella label of digital sovereignty. Data is an important element in this strategy. To this end, a specific Data Governance Act was enacted in 2022. This new regulation builds upon two ideas: reuse of data held by public sector bodies and voluntary sharing of data under the label of data altruism. This short commentary reviews the main content of the new regulation. Based on the review, a few points are also raised about potential challenges.
翻訳日:2023-02-21 15:22:43 公開日:2023-02-20
# アナログフィルム損傷シミュレーションによる高分解能スキャンによるアーティファクト復元

Simulating analogue film damage to analyse and improve artefact restoration on high-resolution scans ( http://arxiv.org/abs/2302.10004v1 )

ライセンス: Link先を確認
Daniela Ivanova, John Williamson, Paul Henderson(参考訳) アナログ写真フィルムのデジタルスキャンは通常、ほこりや傷などの人工物を含む。 これらの自動除去は、歴史的・文化的に重要な写真の保存と普及の重要な部分である。 最先端のディープラーニングモデルは、一般的な画像の塗り絵や装飾において印象的な結果を示しているが、フィルムアーティファクトの除去は未研究の問題である。 アナログ損傷の複雑な性質、フィルムスキャンの高解像度化、修復における潜在的な曖昧さなど、特に困難な要件がある。 実世界のアナログフィルムのトレーニングや評価のための高品質なデータセットは公開されておらず、定量的研究は不可能である。 人手による手動復元版と組み合わせた4K損傷アナログフィルムスキャンのデータセットを収集し, 復元性能の定量的評価を行うことにより, 地下構造データの欠如を解消する。 本研究では,実画像から学習したアーティファクト形状と発生現象の統計モデルを用いて,損傷画像の合成データセットを構築した。 シミュレーションされた損傷の現実性について,人間の知覚による検証により慎重に検証し,専門家でさえ,我々の人工的な損傷が現実と区別できないことがわかった。 また, 従来提案していた合成アナログ損傷と比較して, 合成損傷データセットを用いた訓練が人工物セグメンテーション性能の向上につながることを実証した。 最後に,これらのデータセットを用いて,高解像度スキャンにおける8つの最先端画像復元法の性能を訓練し,解析する。 本研究では,スキャンによる修復作業を直接行う方法と,工芸品の塗布に損傷マスクを必要とする方法を比較した。

Digital scans of analogue photographic film typically contain artefacts such as dust and scratches. Automated removal of these is an important part of preservation and dissemination of photographs of historical and cultural importance. While state-of-the-art deep learning models have shown impressive results in general image inpainting and denoising, film artefact removal is an understudied problem. It has particularly challenging requirements, due to the complex nature of analogue damage, the high resolution of film scans, and potential ambiguities in the restoration. There are no publicly available high-quality datasets of real-world analogue film damage for training and evaluation, making quantitative studies impossible. We address the lack of ground-truth data for evaluation by collecting a dataset of 4K damaged analogue film scans paired with manually-restored versions produced by a human expert, allowing quantitative evaluation of restoration performance. We construct a larger synthetic dataset of damaged images with paired clean versions using a statistical model of artefact shape and occurrence learnt from real, heavily-damaged images. We carefully validate the realism of the simulated damage via a human perceptual study, showing that even expert users find our synthetic damage indistinguishable from real. In addition, we demonstrate that training with our synthetically damaged dataset leads to improved artefact segmentation performance when compared to previously proposed synthetic analogue damage. Finally, we use these datasets to train and analyse the performance of eight state-of-the-art image restoration methods on high-resolution scans. We compare both methods which directly perform the restoration task on scans with artefacts, and methods which require a damage mask to be provided for the inpainting of artefacts.
翻訳日:2023-02-21 15:16:13 公開日:2023-02-20
# STB-VMM:スウィントランスによる動画モーション拡大

STB-VMM: Swin Transformer Based Video Motion Magnification ( http://arxiv.org/abs/2302.10001v1 )

ライセンス: Link先を確認
Ricard Lado-Roig\'e, Marco A. P\'erez(参考訳) ビデオモーション拡大技術の目的は、ビデオ内の小さな動きを拡大して、これまで目に見えない、あるいは見えない動きを明らかにすることである。 その用途は、生体医学的応用やディープフェイク検出から、構造的様相解析や予測的メンテナンスにまで及んでいる。 しかし、ノイズから小さな動きを識別することは複雑な作業であり、特に非常に微妙にしばしばサブピクセルの動きを拡大しようとする場合である。 結果として、運動拡大技術は一般にノイズとぼやけた出力に苦しむ。 この研究は、スウィントランスに基づく新しい最先端のモデルを提供し、ノイズ入力に対する耐性と、先行技術よりもノイズ、ぼやけ、アーティファクトの少ない高品質な出力を提供する。 出力画像の品質の向上は、拡大されたビデオシーケンスに依存するアプリケーションに対してより正確な測定を可能にし、新しい技術分野におけるビデオモーション倍率技術のさらなる発展を可能にする。

The goal of video motion magnification techniques is to magnify small motions in a video to reveal previously invisible or unseen movement. Its uses extend from bio-medical applications and deep fake detection to structural modal analysis and predictive maintenance. However, discerning small motion from noise is a complex task, especially when attempting to magnify very subtle often sub-pixel movement. As a result, motion magnification techniques generally suffer from noisy and blurry outputs. This work presents a new state-of-the-art model based on the Swin Transformer, which offers better tolerance to noisy inputs as well as higher-quality outputs that exhibit less noise, blurriness and artifacts than prior-art. Improvements in output image quality will enable more precise measurements for any application reliant on magnified video sequences, and may enable further development of video motion magnification techniques in new technical fields.
翻訳日:2023-02-21 15:15:49 公開日:2023-02-20
# 自動車両のキーポイントとレーダストリーム融合によるジェスチャー認識

Gesture Recognition with Keypoint and Radar Stream Fusion for Automated Vehicles ( http://arxiv.org/abs/2302.09998v1 )

ライセンス: Link先を確認
Adrian Holzbock, Nicolai Kern, Christian Waldschmidt, Klaus Dietmayer, Vasileios Belagiannis(参考訳) 我々は、自動運転車が日常の交通における人間のジェスチャーを理解し、反応できるようにするために、共同カメラとレーダーのアプローチを提案する。 当初,レーダデータをPointNetで処理し,次に時空間多層パーセプトロン(stMLP)で処理する。 独立して、カメラフレームから人体ポーズを抽出し、別個のstmlpネットワークで処理する。 両モードに対する融合ニューラルネットワークを提案し,各モードに対する補助的損失を含む。 収集したデータセットを用いた実験では,2つのモードによるジェスチャー認識の利点を示す。 悪天候に動機づけられ、センサーの1つに機能がない場合に有望な性能を示す。

We present a joint camera and radar approach to enable autonomous vehicles to understand and react to human gestures in everyday traffic. Initially, we process the radar data with a PointNet followed by a spatio-temporal multilayer perceptron (stMLP). Independently, the human body pose is extracted from the camera frame and processed with a separate stMLP network. We propose a fusion neural network for both modalities, including an auxiliary loss for each modality. In our experiments with a collected dataset, we show the advantages of gesture recognition with two modalities. Motivated by adverse weather conditions, we also demonstrate promising performance when one of the sensors lacks functionality.
翻訳日:2023-02-21 15:15:34 公開日:2023-02-20
# 大規模ホログラフィーベンチマーク

A Large Scale Homography Benchmark ( http://arxiv.org/abs/2302.09997v1 )

ライセンス: Link先を確認
Daniel Barath, Dmytro Mishkin, Michal Polic, Wolfgang F\"orstner, Jiri Matas(参考訳) 1DSfMデータセットから10万の画像で観測された約1000の平面の3D, Pi3Dにおける平面の大規模データセットと, Pi3Dを利用した大規模ホモグラフィ推定ベンチマークであるHEBを示す。 Pi3Dデータセットの応用は、例えば、単分子深度、表面正規推定および画像マッチングアルゴリズムのトレーニングや評価など、多様である。 HEBデータセットは226の260のホモグラフで構成され、約4Mの対応を含んでいる。 相同性は、しばしば重要な視点と照明の変化を受ける画像をリンクする。 hebの応用として,多種多様なロバスト推定器とディープラーニングに基づく対応フィルタリング手法の厳密な評価を行い,ロバストホモグラフィ推定における現状を確立した。 また,基礎となる相同性から生じる基底的真理をw.r.t.のsift方向とスケールの不確実性を評価し,カスタム検出器の不確実性を比較するためのコードを提供する。 データセットは \url{https://github.com/danini/homography-benchmark} で利用可能である。

We present a large-scale dataset of Planes in 3D, Pi3D, of roughly 1000 planes observed in 10 000 images from the 1DSfM dataset, and HEB, a large-scale homography estimation benchmark leveraging Pi3D. The applications of the Pi3D dataset are diverse, e.g. training or evaluating monocular depth, surface normal estimation and image matching algorithms. The HEB dataset consists of 226 260 homographies and includes roughly 4M correspondences. The homographies link images that often undergo significant viewpoint and illumination changes. As applications of HEB, we perform a rigorous evaluation of a wide range of robust estimators and deep learning-based correspondence filtering methods, establishing the current state-of-the-art in robust homography estimation. We also evaluate the uncertainty of the SIFT orientations and scales w.r.t. the ground truth coming from the underlying homographies and provide codes for comparing uncertainty of custom detectors. The dataset is available at \url{https://github.com/danini/homography-benchmark}.
翻訳日:2023-02-21 15:15:23 公開日:2023-02-20
# 信頼度予測による信頼度校正手がかりの選択的提供

Selectively Providing Reliance Calibration Cues With Reliance Prediction ( http://arxiv.org/abs/2302.09995v1 )

ライセンス: Link先を確認
Yosuke Fukuchi, Seiji Yamada(参考訳) 意思決定に機械学習を利用する人間とインテリジェントエージェントの効果的なコラボレーションには、過度な信頼を避けるために、人間は何が可能で何ができないのかを理解する必要がある。 この問題に対する解決策は、rcc(reliance calibration cues)を用いたコミュニケーションによる人間依存度調整であり、エージェントの能力を評価するのに役立つ。 従来の研究は通常、RCCを継続的に提示することで依存度を調整しようとしたが、いつエージェントがRCCを提供するべきかは未解決のままである。 そこで我々は,RCCを選択的に提供するためのPred-RCを提案する。 Pred-RCは認知信頼モデルを使用して、人間がエージェントにタスクを割り当てるかどうかを予測する。 両症例の予測結果とRCCの有無を比較することにより,Pred-RCはRCCが人的依存に与える影響を評価する。 我々は,人間とAIの協調作業においてPred-RCを試験し,RCCの削減による人的依存のキャリブレーションに成功した。

For effective collaboration between humans and intelligent agents that employ machine learning for decision-making, humans must understand what agents can and cannot do to avoid over/under-reliance. A solution to this problem is adjusting human reliance through communication using reliance calibration cues (RCCs) to help humans assess agents' capabilities. Previous studies typically attempted to calibrate reliance by continuously presenting RCCs, and when an agent should provide RCCs remains an open question. To answer this, we propose Pred-RC, a method for selectively providing RCCs. Pred-RC uses a cognitive reliance model to predict whether a human will assign a task to an agent. By comparing the prediction results for both cases with and without an RCC, Pred-RC evaluates the influence of the RCC on human reliance. We tested Pred-RC in a human-AI collaboration task and found that it can successfully calibrate human reliance with a reduced number of RCCs.
翻訳日:2023-02-21 15:15:00 公開日:2023-02-20
# 話者ダイアリゼーションフェアネスの測定と評価に向けて

Towards Measuring and Scoring Speaker Diarization Fairness ( http://arxiv.org/abs/2302.09991v1 )

ライセンス: Link先を確認
Yannis Tevissen, J\'er\^ome Boudy, G\'erard Chollet, Fr\'ed\'eric Petitpont(参考訳) 話者ダイアリゼーション(話者ダイアリゼーション)あるいは"誰がいつ話すか"を見つけるタスクが、現在ではほぼすべての音声処理アプリケーションで使用されている。 しかしながら、その公平性はまだ評価されていない。なぜなら、そのバイアスを一つずつ研究するプロトコルがなかったからである。 本稿では,話者ダイアリゼーションの公平性を評価するためのプロトコルとスコアリング手法を提案する。 このプロトコルは音声発話の大規模なデータセットに適用され、話者の性別、年齢、アクセント、発話の長さに応じて話者ダイアリゼーションのパフォーマンスが報告される。 現状話者ダイアリゼーション法を適用した際,性別や話者のアクセントによって誘発されるいくつかのバイアスを同定した。

Speaker diarization, or the task of finding "who spoke and when", is now used in almost every speech processing application. Nevertheless, its fairness has not yet been evaluated because there was no protocol to study its biases one by one. In this paper we propose a protocol and a scoring method designed to evaluate speaker diarization fairness. This protocol is applied on a large dataset of spoken utterances and report the performances of speaker diarization depending on the gender, the age, the accent of the speaker and the length of the spoken sentence. Some biases induced by the gender, or the accent of the speaker were identified when we applied a state-of-the-art speaker diarization method.
翻訳日:2023-02-21 15:14:42 公開日:2023-02-20
# レーダーデータの分析と認識における深いビジョン:達成、進歩、挑戦

Deep Vision in Analysis and Recognition of Radar Data: Achievements, Advancements and Challenges ( http://arxiv.org/abs/2302.09990v1 )

ライセンス: Link先を確認
Qi Liu, Zhiyun Yang, Ru Ji, Yonghong Zhang, Muhammad Bilal, Xiaodong Liu, S Vimal, Xiaolong Xu(参考訳) レーダは降水流などの効果的な予測のためにエコー情報を得るために広く使用されている。 本稿では,特にビームブロック補正,レーダーエコー推定,降水ナキャストの分野において,気象レーダデータ解析とパターン認識のための深層学習モデルを用いた最近の科学的研究と実践について検討した。 従来の手法と比較して, DL法は性能と利便性が向上するが, 安定性と一般化に悩まされている。 近年の業績に加えて,最近の進歩や既存の課題も提示・議論され,この高度に関心のある分野における合理的な可能性とトレンドを導こうとしている。

Radars are widely used to obtain echo information for effective prediction, such as precipitation nowcasting. In this paper, recent relevant scientific investigation and practical efforts using Deep Learning (DL) models for weather radar data analysis and pattern recognition have been reviewed; particularly, in the fields of beam blockage correction, radar echo extrapolation, and precipitation nowcast. Compared to traditional approaches, present DL methods depict better performance and convenience but suffer from stability and generalization. In addition to recent achievements, the latest advancements and existing challenges are also presented and discussed in this paper, trying to lead to reasonable potentials and trends in this highly-concerned field.
翻訳日:2023-02-21 15:14:30 公開日:2023-02-20
# 2次元電子分光法における静的障害が中心線傾斜に及ぼす影響

The effect of static disorder on the center line slope in 2D electronic spectroscopy ( http://arxiv.org/abs/2302.09989v1 )

ライセンス: Link先を確認
Zong-Hao Sun, Yi-Xuan Yao, Qing Ai, Yuan-Chung Cheng(参考訳) 2次元電子分光法(2DES)は、複雑なシステムの力学を研究する強力なツールである。 しかし、得られたスペクトルを分析することは困難であり、理論的モデリング技術を使う必要がある。 中心線傾斜法 (CLS) は, 2DES から時間相関関数 (TCF) を最小誤差で抽出することを目的とした手法の1つである。 複雑なシステムでは静的障害が広く観察されているため、clsアプローチが静的障害の存在下で機能するかどうかを問うことが興味深い。 本稿では, CLS法により得られたTCFに対する静的障害の影響について検討した。 CLSの定常値が静的な障害に対して単調に増加することが判明し、長期の限界においてCLSを用いて静的な障害の振幅を決定できることが示唆された。 さらに、静的障害が増加するにつれて、CLSの崩壊速度はまず一定の値に低下し、静的障害が十分に大きくなるまでこの値にとどまる。 その後、CLSは著しく変動し始め、CLS法で崩壊率を得る。 これらの発見に基づいて,誤りを修正し,tcfを得る手法を提案する。 本研究は,2DESを現実の状況で分析することにより,信頼性の高いシステムバス情報を得るための道を開くことができる。

Two-dimensional electronic spectroscopy (2DES) is a powerful tool for investigating the dynamics of complex systems. However, analyzing the resulting spectra can be challenging, and thus may require the use of theoretical modeling techniques. The center line slope (CLS) method is one of such approaches, which aims to extract the time correlation function (TCF) from 2DES with minimal error. Since static disorder is widely observed in complex systems, it may be interesting to ask whether the CLS approach still work in the presence of the static disorder. In this paper, the effect of the static disorder on the TCF obtained through the CLS method is investigated. It is found that the steady-state value of the CLS increases monotonically with respect to the static disorder, which suggests that the amplitude of the static disorder can be determined using the CLS in the long-time limit. Additionally, as the static disorder rises, the decay rate of the CLS first decreases to a certain value and remains at this value until the static disorder is sufficiently large. Afterward, the CLS begins to fluctuate significantly and thus results in obtaining the decay rate through the CLS method unreliable. Based on these discoveries, we propose a method to fix the error and obtain the TCF. Our findings may pave the way for obtaining reliable system-bath information by analyzing 2DES in the practical situations.
翻訳日:2023-02-21 15:14:16 公開日:2023-02-20
# 適応エッジ属性を持つ動的グラフニューラルネットワークによる空気質予測

Dynamic Graph Neural Network with Adaptive Edge Attributes for Air Quality Predictions ( http://arxiv.org/abs/2302.09977v1 )

ライセンス: Link先を確認
Jing Xu, Shuo Wang, Na Ying, Xiao Xiao, Jiang Zhang, Yun Cheng, Zhiling Jin, Gangfeng Zhang(参考訳) 空気質予測は典型的な時空間モデリング問題であり、複雑なシステムにおける空間的および時間的依存性を別々に扱うために常に異なるコンポーネントを使用する。 時系列解析とリカレントニューラルネットワーク(RNN)法に基づく従来のモデルは,空間情報を無視しながら時系列のみをモデル化した。 従来のGCNに基づく手法では、事前に観測地点の空間相関グラフ構造を提供する必要がある。 これらのサイトと強度の相関は、通常、事前情報を用いて計算される。 しかし、人間の認識の限界のため、限られた事前情報は実際の駅構造を反映したり、正確な予測のためにより効果的な情報をもたらすことはできない。 そこで本研究では,適応エッジ属性をモデルパラメータとして学習することで,適応双方向動的グラフを生成する,適応エッジ属性を持つ動的グラフニューラルネットワーク(DGN-AEA)を提案する。 エッジを確立するための事前情報とは異なり、事前情報なしでエンドツーエンドのトレーニングを通じて適応的なエッジ情報を得ることができる。 したがって、問題の複雑さを減らした。 さらに、ステーション間の隠れた構造情報はモデル副産物として得ることができ、その後の意思決定分析に役立つ。 実験結果から,本モデルが他のベースラインよりも高い性能を示した。

Air quality prediction is a typical spatio-temporal modeling problem, which always uses different components to handle spatial and temporal dependencies in complex systems separately. Previous models based on time series analysis and Recurrent Neural Network (RNN) methods have only modeled time series while ignoring spatial information. Previous GCNs-based methods usually require providing spatial correlation graph structure of observation sites in advance. The correlations among these sites and their strengths are usually calculated using prior information. However, due to the limitations of human cognition, limited prior information cannot reflect the real station-related structure or bring more effective information for accurate prediction. To this end, we propose a novel Dynamic Graph Neural Network with Adaptive Edge Attributes (DGN-AEA) on the message passing network, which generates the adaptive bidirected dynamic graph by learning the edge attributes as model parameters. Unlike prior information to establish edges, our method can obtain adaptive edge information through end-to-end training without any prior information. Thus reduced the complexity of the problem. Besides, the hidden structural information between the stations can be obtained as model by-products, which can help make some subsequent decision-making analyses. Experimental results show that our model received state-of-the-art performance than other baselines.
翻訳日:2023-02-21 15:13:55 公開日:2023-02-20
# 階層型変分オートエンコーダの後方崩壊解析

Analyzing the Posterior Collapse in Hierarchical Variational Autoencoders ( http://arxiv.org/abs/2302.09976v1 )

ライセンス: Link先を確認
Anna Kuzina and Jakub M. Tomczak(参考訳) 階層的変分オートエンコーダ(vaes)は最も一般的な確率に基づく生成モデルである。 トップダウンの階層型VAEは、深い潜伏構造を効果的に学習し、後部崩壊のような問題を回避できるというコンセンサスがある。 ここでは,必ずしもそうではないことを示すとともに,後方崩壊の問題も残る。 後方崩壊を回避するために,部分的に固定されたエンコーダを備えた新しい階層型VAEを提案する。 一連の実験で,提案する修正により潜在空間の利用性が向上することを確認した。 さらに,提案手法は敵攻撃に対する圧縮と堅牢性に有用であることを示す。

Hierarchical Variational Autoencoders (VAEs) are among the most popular likelihood-based generative models. There is rather a consensus that the top-down hierarchical VAEs allow to effectively learn deep latent structures and avoid problems like the posterior collapse. Here, we show that it is not necessarily the case and the problem of collapsing posteriors remains. To discourage the posterior collapse, we propose a new deep hierarchical VAE with a partly fixed encoder, specifically, we use Discrete Cosine Transform to obtain top latent variables. In a series of experiments, we observe that the proposed modification allows us to achieve better utilization of the latent space. Further, we demonstrate that the proposed approach can be useful for compression and robustness to adversarial attacks.
翻訳日:2023-02-21 15:13:37 公開日:2023-02-20
# 大規模マルチモーダル事前学習モデル:包括的調査

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey ( http://arxiv.org/abs/2302.10035v1 )

ライセンス: Link先を確認
Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao(参考訳) 一般化された深層モデルの緊急需要により、BERT、ViT、GPTなど多くの事前訓練済みの大型モデルが提案されている。 単一ドメイン(コンピュータビジョンや自然言語処理など)でのこれらのモデルの成功に触発されて、マルチモーダル事前学習された大型モデルも近年ますます注目を集めている。 本稿では,これらのモデルに関する総合的な調査を行い,本論文が新たな洞察を与え,最先端の研究成果の追跡を支援することを期待する。 具体的には, 従来のディープラーニング, 自然言語処理における事前学習, コンピュータビジョン, 音声によるマルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。 その後、生成タスク、分類タスク、回帰タスクを含む大規模MM-PTMの検証に使用される下流タスクを紹介した。 また、モデルパラメータと結果の可視化と分析を下流の代表的なタスクで行う。 最後に,今後の研究に利益をもたらす可能性のある研究の方向性を指摘する。 さらに、大規模事前トレーニングされたマルチモーダルビッグモデルのための、継続的に更新されたペーパーリストも保持しています。 https://github.com/wangxiao5791509/multimodal_bigmodels_survey。

With the urgent demand for generalized deep models, many pre-trained big models are proposed, such as BERT, ViT, GPT, etc. Inspired by the success of these models in single domains (like computer vision and natural language processing), the multi-modal pre-trained big models have also drawn more and more attention in recent years. In this work, we give a comprehensive survey of these models and hope this paper could provide new insights and helps fresh researchers to track the most cutting-edge works. Specifically, we firstly introduce the background of multi-modal pre-training by reviewing the conventional deep learning, pre-training works in natural language process, computer vision, and speech. Then, we introduce the task definition, key challenges, and advantages of multi-modal pre-training models (MM-PTMs), and discuss the MM-PTMs with a focus on data, objectives, network architectures, and knowledge enhanced pre-training. After that, we introduce the downstream tasks used for the validation of large-scale MM-PTMs, including generative, classification, and regression tasks. We also give visualization and analysis of the model parameters and results on representative downstream tasks. Finally, we point out possible research directions for this topic that may benefit future works. In addition, we maintain a continuously updated paper list for large-scale pre-trained multi-modal big models: https://github.com/wangxiao5791509/MultiModal_BigModels_Survey
翻訳日:2023-02-21 15:08:14 公開日:2023-02-20
# 過度パラメータ化は1つのニューロンを学習するグラディエントDescentを指数的に遅くする

Over-Parameterization Exponentially Slows Down Gradient Descent for Learning a Single Neuron ( http://arxiv.org/abs/2302.10034v1 )

ライセンス: Link先を確認
Weihang Xu, Simon S. Du(参考訳) 正方形損失を持つガウス入力下でのrelu活性化による単一ニューロン学習の課題を再考する。 特に,学生ネットワークが$n\ge 2$ニューロンを持つ過パラメータ設定に注目する。 ランダム初期化勾配勾配のグローバル収束を$O\left(T^{-3}\right)$ rateで証明する。 これは、勾配降下が$\exp(-\Omega(T))$レートを楽しむ正確なパラメータ化設定(n=1$)を超えるこの問題に対する最初のグローバル収束結果である。 おそらく意外なことに、オーバーパラメータ設定においてランダムに初期化された勾配流に対して、$\Omega\left(T^{-3}\right)$ lowerboundを示す。 これら2つの境界は、収束率の正確な特徴を与え、初めて過度パラメータ化が収束率を指数関数的に遅くすることができることを暗示する。 大域収束を証明するためには、正確なパラメータ化の場合に存在しない勾配降下ダイナミクスにおいて、学生ニューロン間の相互作用に取り組む必要がある。 gdの動力学解析には三相構造を用いる。 その過程で、勾配降下が自動的に学生ニューロンのバランスをとることを証明し、この特性を用いて目的関数の非滑らか性に対処する。 収束率の低い境界を証明するために、学生ニューロン間の対距離を特徴付ける新しいポテンシャル関数を構築する(正確なパラメータ化の場合では実現できない)。 このポテンシャル関数はゆっくりと収束し、損失関数の緩やかな収束率を示す。

We revisit the problem of learning a single neuron with ReLU activation under Gaussian input with square loss. We particularly focus on the over-parameterization setting where the student network has $n\ge 2$ neurons. We prove the global convergence of randomly initialized gradient descent with a $O\left(T^{-3}\right)$ rate. This is the first global convergence result for this problem beyond the exact-parameterization setting ($n=1$) in which the gradient descent enjoys an $\exp(-\Omega(T))$ rate. Perhaps surprisingly, we further present an $\Omega\left(T^{-3}\right)$ lower bound for randomly initialized gradient flow in the over-parameterization setting. These two bounds jointly give an exact characterization of the convergence rate and imply, for the first time, that over-parameterization can exponentially slow down the convergence rate. To prove the global convergence, we need to tackle the interactions among student neurons in the gradient descent dynamics, which are not present in the exact-parameterization case. We use a three-phase structure to analyze GD's dynamics. Along the way, we prove gradient descent automatically balances student neurons, and use this property to deal with the non-smoothness of the objective function. To prove the convergence rate lower bound, we construct a novel potential function that characterizes the pairwise distances between the student neurons (which cannot be done in the exact-parameterization case). We show this potential function converges slowly, which implies the slow convergence rate of the loss function.
翻訳日:2023-02-21 15:07:28 公開日:2023-02-20
# タスクレベル特性検証による安全な深層強化学習

Safe Deep Reinforcement Learning by Verifying Task-Level Properties ( http://arxiv.org/abs/2302.10030v1 )

ライセンス: Link先を確認
Enrico Marchesini, Luca Marzari, Alessandro Farinelli, Christopher Amato(参考訳) コスト関数は一般的に Safe Deep Reinforcement Learning (DRL) で使用される。 しかし、そのコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。 このようなエンコーディングでは、エージェントは多数の安全でない状態を訪れてコスト価値関数を学習し、学習プロセスを安全性に向かって進める必要がある。 したがって、安全でない相互作用の数を増やし、サンプル効率を低下させる。 本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。 このメトリックは、入出力条件として形成されるタスクレベルの特性を検証することで計算され、付加価値関数を学習することなく、安全でない状態からポリシーをバイアスするペナルティとして使用される。 標準安全DRLベンチマークとロボットマップレスナビゲーションタスクにおいて,違反基準を用いることの利点について検討する。 ナビゲーション実験は、Safe DRLとロボティクスのギャップを埋め、本物のロボットの迅速なテストを可能にするフレームワークを導入する。 本実験により, 安全DRLベースラインよりも高い性能を達成し, 訪問不安全状態の数を大幅に削減できることが示唆された。

Cost functions are commonly employed in Safe Deep Reinforcement Learning (DRL). However, the cost is typically encoded as an indicator function due to the difficulty of quantifying the risk of policy decisions in the state space. Such an encoding requires the agent to visit numerous unsafe states to learn a cost-value function to drive the learning process toward safety. Hence, increasing the number of unsafe interactions and decreasing sample efficiency. In this paper, we investigate an alternative approach that uses domain knowledge to quantify the risk in the proximity of such states by defining a violation metric. This metric is computed by verifying task-level properties, shaped as input-output conditions, and it is used as a penalty to bias the policy away from unsafe states without learning an additional value function. We investigate the benefits of using the violation metric in standard Safe DRL benchmarks and robotic mapless navigation tasks. The navigation experiments bridge the gap between Safe DRL and robotics, introducing a framework that allows rapid testing on real robots. Our experiments show that policies trained with the violation penalty achieve higher performance over Safe DRL baselines and significantly reduce the number of visited unsafe states.
翻訳日:2023-02-21 15:07:00 公開日:2023-02-20
# DINOISER:ノイズ制御による拡散条件系列学習

DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises ( http://arxiv.org/abs/2302.10025v1 )

ライセンス: Link先を確認
Jiasheng Ye, Zaixiang Zheng, Yu Bao, Lihua Qian, Mingxuan Wang(参考訳) 拡散モデルは画像や音声などの連続的な信号を生成する上で大きな成功を収めてきたが、自然言語のような離散的なシーケンスデータを学習する際には拡散モデルが有用である。 最近の進歩は、離散トークンを連続的なサロゲートとして埋め込むことによって、離散性というこの課題を回避しているが、それでもそれらは満足できる世代の品質に欠ける。 これを理解するために,我々はまず拡散に基づく系列生成モデルの非正規化学習プロトコルを深く掘り下げ,それらの3つの深刻な問題,すなわち重大問題を決定する。 1) 学習に失敗する。 2)スケーラビリティの欠如,及び 3) ソース条件の無視。 これらの問題は、埋め込み空間における完全に排除されていない離散性の落とし穴に沸騰しうるし、ここではノイズの規模が決定的である。 本稿では,ノイズ操作による系列生成のための拡散モデルを容易にするディノワザを提案する。 本研究では,非離散性学習のためのサンプル雑音スケールの範囲を適応的に決定し,提案する拡散シーケンス学習者に対して,推定中に増幅雑音スケールを用いた音源条件の活用を促す。 実験の結果,DINOISERは,複数の条件付きシーケンスモデリングベンチマークにおいて,従来の拡散型シーケンス生成モデルのベースラインよりも一貫した改善を可能にすることがわかった。 分析は、DINOISERがその生成過程を管理するためにソース条件をよりよく利用できることをさらに検証する。

While diffusion models have achieved great success in generating continuous signals such as images and audio, it remains elusive for diffusion models in learning discrete sequence data like natural languages. Although recent advances circumvent this challenge of discreteness by embedding discrete tokens as continuous surrogates, they still fall short of satisfactory generation quality. To understand this, we first dive deep into the denoised training protocol of diffusion-based sequence generative models and determine their three severe problems, i.e., 1) failing to learn, 2) lack of scalability, and 3) neglecting source conditions. We argue that these problems can be boiled down to the pitfall of the not completely eliminated discreteness in the embedding space, and the scale of noises is decisive herein. In this paper, we introduce DINOISER to facilitate diffusion models for sequence generation by manipulating noises. We propose to adaptively determine the range of sampled noise scales for counter-discreteness training; and encourage the proposed diffused sequence learner to leverage source conditions with amplified noise scales during inference. Experiments show that DINOISER enables consistent improvement over the baselines of previous diffusion-based sequence generative models on several conditional sequence modeling benchmarks thanks to both effective training and inference strategies. Analyses further verify that DINOISER can make better use of source conditions to govern its generative process.
翻訳日:2023-02-21 15:06:41 公開日:2023-02-20
# Arena-Rosnav 2.0: 高ダイナミック環境におけるロボットナビゲーションのための開発とベンチマークプラットフォーム

Arena-Rosnav 2.0: A Development and Benchmarking Platform for Robot Navigation in Highly Dynamic Environments ( http://arxiv.org/abs/2302.10023v1 )

ライセンス: Link先を確認
Linh K\"astner, Reyk Carstens, Huajian Zeng, Jacek Kmiecik, Tuan Anh Le, Teham Bhuiyan, Boris Meinardus, and Jens Lambrecht(参考訳) 本稿では,ロボットナビゲーションアプローチの開発とベンチマークを行うためのモジュールを多種追加した,前作のarena-benchとarena-rosnavを拡張したarena-rosnav 2.0を提案する。 プラットフォームは根本的に再構築され、計画アルゴリズムやシミュレータ、評価機能などの追加機能を追加するための統一APIを提供する。 より現実的なシミュレーションと歩行者の振る舞いを含み、参入障壁を低くするための深いドキュメントを提供しています。 まず,経験豊富な研究者や,新しい実践者や学生にシステムをテストするよう依頼するユーザスタディを実施し,システムの評価を行った。 フィードバックは概ね肯定的であり,多くの参加者が他の研究にシステムを活用している。 最後に,本システムの実現可能性を示すために,2つの新しいシミュレータと,アートナビゲーションアプローチのさまざまな状態を統合し,相互にベンチマークを行う。 プラットフォームはhttps://github.com/Arena-Rosnav.comで公開されている。

Following up on our previous works, in this paper, we present Arena-Rosnav 2.0 an extension to our previous works Arena-Bench and Arena-Rosnav, which adds a variety of additional modules for developing and benchmarking robotic navigation approaches. The platform is fundamentally restructured and provides unified APIs to add additional functionalities such as planning algorithms, simulators, or evaluation functionalities. We have included more realistic simulation and pedestrian behavior and provide a profound documentation to lower the entry barrier. We evaluated our system by first, conducting a user study in which we asked experienced researchers as well as new practitioners and students to test our system. The feedback was mostly positive and a high number of participants are utilizing our system for other research endeavors. Finally, we demonstrate the feasibility of our system by integrating two new simulators and a variety of state of the art navigation approaches and benchmark them against one another. The platform is openly available at https://github.com/Arena-Rosnav.
翻訳日:2023-02-21 15:06:18 公開日:2023-02-20
# 医療用フェイスマスクと身体からの感情認識--深層学習の視点からの考察

Medical Face Masks and Emotion Recognition from the Body: Insights from a Deep Learning Perspective ( http://arxiv.org/abs/2302.10021v1 )

ライセンス: Link先を確認
Nikolaos Kegkeroglou, Panagiotis P. Filntisis, Petros Maragos(参考訳) 新型コロナウイルス(COVID-19)パンデミックは間違いなく基準を変え、私たちの生活、特に社会生活のあらゆる側面に影響を与えた。 感染防止のため、医療用マスクを広範囲に着用せざるを得なくなった。 この顔の閉塞は、顔からの感情的な読みを強く刺激し、その相補的な性質にもかかわらず、より大きな役割を果たす必要があるため、身体全体を感情認識に組み込むよう促す。 本稿では,顔のオクルージョンが感情認識性能に及ぼす影響に関する洞察的な研究を行い,マスク付き顔に対する全身入力の優越性を示す。 テンポラリセグメントネットワークフレームワークに基づくディープラーニングモデルを利用し,フェイスマスクの結果を完全に克服することを目指している。 単一のRGBストリームモデルは、顔と身体の特徴の両方を適応し、学習することができるが、これは無関係な情報混乱を引き起こす可能性がある。 これらの特徴を別々に処理し、その予備予測スコアを後期融合スキームと融合することにより、両者のモダリティをより効果的に活用する。 このアーキテクチャは、隣接するセグメントフレーム間で情報を混ざり合うことによって、時間的モデリングも自然にサポートする。 実験の結果,時間構造が相補的であるのに対し,空間構造は感情表現においてより重要な役割を担っていることが示唆された。

The COVID-19 pandemic has undoubtedly changed the standards and affected all aspects of our lives, especially social life. It has forced people to extensively wear medical face masks, in order to prevent transmission. This face occlusion can strongly irritate emotional reading from the face and urges us to incorporate the whole body for emotion recognition, as it needs to play a more major role, despite its complementary nature. In this paper, we want to conduct insightful studies about the effect of face occlusion on emotion recognition performance, and showcase the superiority of full body input over plain masked face. We utilize a deep learning model based on the Temporal Segment Network framework and aspire to fully overcome the consequences of the face mask. Although single RGB stream models can adapt and learn both facial and bodily features, this may lead to irrelevant information confusion. By processing those features separately and fusing their preliminary prediction scores with a late fusion scheme, we are more effectively taking advantage of both modalities. This architecture can also naturally support temporal modeling, by mingling information among neighboring segment frames. Experimental results suggest that spatial structure plays a more important role for an emotional expression, while temporal structure is complementary.
翻訳日:2023-02-21 15:06:02 公開日:2023-02-20
# 長期運転におけるnlp変圧器モデルの分類信頼性向上

Boosting classification reliability of NLP transformer models in the long run ( http://arxiv.org/abs/2302.10016v1 )

ライセンス: Link先を確認
Zolt\'an Kmetty, Bence Koll\'anyi and Kriszti\'an Boros(参考訳) トランスフォーマーベースの機械学習モデルは,この手法の導入以来,多くの自然言語処理(NLP)タスクに不可欠なツールとなっている。 これらのプロジェクトの一般的な目的は、テキストデータの分類である。 分類モデルは、しばしば異なるトピックや時間に拡張される。 このような状況では、分類が適切か、いつ再トレーニングする価値があるかを決定するのは難しい。 本稿では,長期にわたる分類課題に対して,BERTモデルを微調整する方法を比較する。 我々は、異なる期間のデータを使用して、元のBERTモデルを微調整し、また、第2ラウンドのアノテーションが分類品質をいかに向上させるかを測定する。 当社のコーパスには、2020年9月から2021年12月までのハンガリーでの新型コロナウイルスワクチン接種に関するコメントが800万件以上含まれています。 我々の結果によると、最良の解決策は、利用可能なすべてのコメントを使ってモデルを微調整することである。 より効率的な解決策は、新しい期間のランダムなサンプルコメントである。 微調整はモデルのパフォーマンスを損なうことを妨げないが、単に速度を落とすだけである。 急速に変化する言語環境では、定期的に新しいテキストに注釈を付けずにモデルのパフォーマンスを維持することはできない。

Transformer-based machine learning models have become an essential tool for many natural language processing (NLP) tasks since the introduction of the method. A common objective of these projects is to classify text data. Classification models are often extended to a different topic and/or time period. In these situations, deciding how long a classification is suitable for and when it is worth re-training our model is difficult. This paper compares different approaches to fine-tune a BERT model for a long-running classification task. We use data from different periods to fine-tune our original BERT model, and we also measure how a second round of annotation could boost the classification quality. Our corpus contains over 8 million comments on COVID-19 vaccination in Hungary posted between September 2020 and December 2021. Our results show that the best solution is using all available unlabeled comments to fine-tune a model. It is not advisable to focus only on comments containing words that our model has not encountered before; a more efficient solution is randomly sample comments from the new period. Fine-tuning does not prevent the model from losing performance but merely slows it down. In a rapidly changing linguistic environment, it is not possible to maintain model performance without regularly annotating new text.
翻訳日:2023-02-21 15:05:40 公開日:2023-02-20
# 代数的QFTにおける複雑性

Complexity in algebraic QFT ( http://arxiv.org/abs/2302.10013v1 )

ライセンス: Link先を確認
Stefan Hollands and Alessio Ranallo(参考訳) 相対論的連続体量子場理論(QFT)における量子チャネルの複雑性の概念を、自明な(同一性)チャネルへの距離によって定義する。 我々の距離測定は、Belavkin-Staszewski(BS)の発散から導かれる量子チャネル間の特定のばらつきに基づいている。 我々は、QFT の代数に必要な前提条件の一般性において、対応する複雑性がいくつかの妥当な性質を持つことを証明する。 (i)複合チャネルの複雑さは、その部分の総和よりも大きくない。 (ii)空間的分離領域に局在したチャネルの添加物。 (iii)凸である。 (iv)$N$-ary測定チャネルは$\log N$である。 (v) 有限ジョーンズ指数の QFT の包含に関連する条件付き予想に対して、$\log (\text{Jones Index})$ が与えられる。 我々の研究における主要な技術ツールは、BS分岐の新しい変分原理である。

We consider a notion of complexity of quantum channels in relativistic continuum quantum field theory (QFT) defined by the distance to the trivial (identity) channel. Our distance measure is based on a specific divergence between quantum channels derived from the Belavkin-Staszewski (BS) divergence. We prove in the prerequisite generality necessary for the algebras in QFT that the corresponding complexity has several reasonable properties: (i) the complexity of a composite channel is not larger than the sum of its parts, (ii) it is additive for channels localized in spacelike separated regions, (iii) it is convex, (iv) for an $N$-ary measurement channel it is $\log N$, (v) for a conditional expectation associated with an inclusion of QFTs with finite Jones index it is given by $\log (\text{Jones Index})$. The main technical tool in our work is a new variational principle for the BS divergence.
翻訳日:2023-02-21 15:05:23 公開日:2023-02-20
# フラクタル格子上のラウリン状態の特性

Properties of Laughlin states on fractal lattices ( http://arxiv.org/abs/2302.10010v1 )

ライセンス: Link先を確認
Mani Chandra Jha, Anne E. B. Nielsen(参考訳) ラウリン状態は最近フラクタル格子上に構築されており、そのような系では位相的であることが示されている。 しかし、それらの性質の一部は二次元の場合とは全く異なる。 例えば、シェルピンスキー三角形では、絡み合いエントロピーは粒子数関数として振動を示し、位相的に順序付けられたにもかかわらず領域法則に従わず、粒子密度はバルク内では不均一である。 ここでは、これらの逸脱した性質をシエピンスキー三角形についてより詳細に検討し、シエピンスキーカーペットとTフラクタルの物性についても検討する。 フラクタル全体の密度変化は、フラクタル格子と考えられる全てのものと、粒子数の選択のほとんどに存在していることが判明した。 格子ラウリン状態に挿入されるイオンのサイズもフラクタル格子上の位置によって異なる。 準ホールと準粒子は同じ大きさであり、オースドルフ次元が減少するにつれてオーノンのサイズが増加することが観察される。 2次元の周期格子とは対照的に、シルピンスキー三角形とカーペットは内縁を持つ。 内縁状態と外縁状態の両方の試行状態を構築します。 粒子数の関数としてのエントロピーの振動は、Tフラクタルには存在するが、シエルピンスキーカーペットには存在しない。 最後に、Sierpinski三角形上のいくつかの異なる分割に対する領域法則からの偏差を観察する。

Laughlin states have recently been constructed on fractal lattices and have been shown to be topological in such systems. Some of their properties are, however, quite different from the two-dimensional case. On the Sierpinski triangle, for instance, the entanglement entropy shows oscillations as a function of particle number and does not obey the area law despite being topologically ordered, and the particle density is non-uniform in the bulk. Here, we investigate these deviant properties in greater detail on the Sierpinski triangle, and we also study the properties on the Sierpinski carpet and the T-fractal. We find that the density variations across the fractal are present for all the considered fractal lattices and for most choices of the number of particles. The size of anyons inserted into the lattice Laughlin state also varies with position on the fractal lattice. We observe that quasiholes and quasiparticles have similar sizes and that the size of the anyons typically increases with decreasing Hausdorff dimension. As opposed to periodic lattices in two dimensions, the Sierpinski triangle and carpet have inner edges. We construct trial states for both inner and outer edge states. We find that oscillations of the entropy as a function of particle number are present for the T-fractal, but not for the Sierpinski carpet. Finally, we observe deviations from the area law for several different bipartitions on the Sierpinski triangle.
翻訳日:2023-02-21 15:05:13 公開日:2023-02-20
# 単眼深度推定のための指標について

On the Metrics for Evaluating Monocular Depth Estimation ( http://arxiv.org/abs/2302.10007v1 )

ライセンス: Link先を確認
Akhil Gurram, Antonio M. Lopez(参考訳) 単眼深度推定(MDE)は、自動運転車(AV)の車載認識や運転支援システムなどの下流タスクで使用できる3D情報を生成するために行われる。 したがって、MDE評価の基準基準基準が、将来のMDEに基づく運転関連認知タスクの精度の指標であるかどうかが問題となる。 本論文ではこの問題に対処する。 特に、オンボード知覚の代理として、ポイントクラウド上の3dオブジェクト検出のタスクを取り上げます。 我々はmdeモデルからの3dポイントクラウドを用いて最先端の3dオブジェクト検出器を訓練およびテストする。 我々は,MDEモデルの深度推定指標を用いて,物体検出結果のランク付けを行う。 実際、MDE評価基準は、私たちが期待する3Dオブジェクト検出結果を比較的よく反映した手法のランキングをもたらすと結論付けている。 異なるメトリクスの中では、絶対相対誤差(絶対誤差)がその目的に最適であるように思われる。

Monocular Depth Estimation (MDE) is performed to produce 3D information that can be used in downstream tasks such as those related to on-board perception for Autonomous Vehicles (AVs) or driver assistance. Therefore, a relevant arising question is whether the standard metrics for MDE assessment are a good indicator of the accuracy of future MDE-based driving-related perception tasks. We address this question in this paper. In particular, we take the task of 3D object detection on point clouds as a proxy of on-board perception. We train and test state-of-the-art 3D object detectors using 3D point clouds coming from MDE models. We confront the ranking of object detection results with the ranking given by the depth estimation metrics of the MDE models. We conclude that, indeed, MDE evaluation metrics give rise to a ranking of methods that reflects relatively well the 3D object detection results we may expect. Among the different metrics, the absolute relative (abs-rel) error seems to be the best for that purpose.
翻訳日:2023-02-21 15:04:51 公開日:2023-02-20
# UAVStereo:UAVシナリオにおけるステレオマッチングのための多重解像度データセット

UAVStereo: A Multiple Resolution Dataset for Stereo Matching in UAV Scenarios ( http://arxiv.org/abs/2302.10082v1 )

ライセンス: Link先を確認
Zhang Xiaoyi, Cao Xuefeng, Yu Anzhu, Yu Wenshuai, Li Zhenqi, Quan Yujun(参考訳) ステレオマッチングは3次元シーン再構築の基本課題である。 近年,KITTIやScene Flowなどのベンチマークデータセットでは,ディープラーニングに基づく手法が有効であることが証明されている。 UAV (Unmanned Aerial Vehicles) は地表観測によく使われ、高分解能・低高度取得による詳細な3D再構成にしばしば使用される。 現在、主流の教師付き学習ネットワークでは、モデルパラメータを学習するためには、地道ラベルを用いた大量のトレーニングデータが必要である。 しかし、UAVステレオマッチングデータセットが不足しているため、学習ベースネットワークはUAV画像に適用できない。 本稿では,UAV画像とLiDAR点雲によって再構成された詳細なメッシュを用いて,高精度で高密度な不均質マップを生成するパイプラインを提案する。 提案するパイプラインを通じて,UAVStereoと呼ばれる多解像度UAVシナリオデータセットを構築し,34k以上のステレオ画像ペアが3つの典型的なシーンをカバーする。 われわれが知る限り、UAVStereoはUAV低高度シナリオの最初のステレオマッチングデータセットである。 このデータセットは合成ドメインから実ドメインへの一般化を可能にする合成および実ステレオペアを含む。 さらに、UAVStereoデータセットは、さまざまなセンサーや環境に対応するために、マルチ解像度とマルチシーンの画像ペアを提供する。 本稿では,UAVシナリオにおける課題に対処する上での限界を強調し,今後の研究に向けて提案する,従来型および最先端のディープラーニング手法の評価を行う。 データセットはhttps://github.com/rebecca0011/uavstereo.gitで入手できる。

Stereo matching is a fundamental task for 3D scene reconstruction. Recently, deep learning based methods have proven effective on some benchmark datasets, such as KITTI and Scene Flow. UAVs (Unmanned Aerial Vehicles) are commonly utilized for surface observation, and their captured images are frequently used for detailed 3D reconstruction due to high resolution and low-altitude acquisition. At present, the mainstream supervised learning network requires a significant amount of training data with ground-truth labels to learn model parameters. However, due to the scarcity of UAV stereo matching datasets, the learning-based network cannot be applied to UAV images. To facilitate further research, this paper proposes a novel pipeline to generate accurate and dense disparity maps using detailed meshes reconstructed by UAV images and LiDAR point clouds. Through the proposed pipeline, this paper constructs a multi-resolution UAV scenario dataset, called UAVStereo, with over 34k stereo image pairs covering 3 typical scenes. As far as we know, UAVStereo is the first stereo matching dataset of UAV low-altitude scenarios. The dataset includes synthetic and real stereo pairs to enable generalization from the synthetic domain to the real domain. Furthermore, our UAVStereo dataset provides multi-resolution and multi-scene images pairs to accommodate a variety of sensors and environments. In this paper, we evaluate traditional and state-of-the-art deep learning methods, highlighting their limitations in addressing challenges in UAV scenarios and offering suggestions for future research. The dataset is available at https://github.com/rebecca0011/UAVStereo.git
翻訳日:2023-02-21 14:58:07 公開日:2023-02-20
# サンプリングのための近位アルゴリズムの次元依存性の改善

Improved dimension dependence of a proximal algorithm for sampling ( http://arxiv.org/abs/2302.10081v1 )

ライセンス: Link先を確認
Jiaojiao Fan, Bo Yuan and Yongxin Chen(参考訳) 本研究では,すべての古典的設定(特にlog-concave,log-concave,logarithmic-sobolev inequality (lsi),poincar\'e inequality)において,より汎用的な半スムースあるいは複合ポテンシャルを用いた,より優れた複雑性境界を実現するサンプリングアルゴリズムを提案する。 提案アルゴリズムは, 〜\citet{lee2021structured} で導入された近位標本に基づく。 この近位サンプリング器の性能は、近位サンプリング器の重要なステップである制限されたガウスオラクル(RGO)によって決定される。 この研究の主な貢献は、近似的拒絶サンプリングに基づくRGOの不正確な実現である。 RGOの不等式を束縛するために、ガウス分布上の半滑らか関数に対する新しい濃度不等式を確立し、リプシッツ函数に対するよく知られた濃度不等式を拡張する。 RGOの実装を近位サンプリングに応用し、ほぼすべての設定で最先端の複雑さ境界を達成する。 例えば、強い対数対数分布の場合、我々の手法は、MALA の minimax 境界よりも、ウォームスタートのない$\tilde\mathcal{O}(\kappa d^{1/2})$ の複雑さを持つ。 LSIを満たす分布に対して、我々の境界は$\tilde \mathcal{O}(\hat \kappa d^{1/2})$である。

We propose a sampling algorithm that achieves superior complexity bounds in all the classical settings (strongly log-concave, log-concave, Logarithmic-Sobolev inequality (LSI), Poincar\'e inequality) as well as more general settings with semi-smooth or composite potentials. Our algorithm is based on the proximal sampler introduced in~\citet{lee2021structured}. The performance of this proximal sampler is determined by that of the restricted Gaussian oracle (RGO), a key step in the proximal sampler. The main contribution of this work is an inexact realization of RGO based on approximate rejection sampling. To bound the inexactness of RGO, we establish a new concentration inequality for semi-smooth functions over Gaussian distributions, extending the well-known concentration inequality for Lipschitz functions. Applying our RGO implementation to the proximal sampler, we achieve state-of-the-art complexity bounds in almost all settings. For instance, for strongly log-concave distributions, our method has complexity bound $\tilde\mathcal{O}(\kappa d^{1/2})$ without warm start, better than the minimax bound for MALA. For distributions satisfying the LSI, our bound is $\tilde \mathcal{O}(\hat \kappa d^{1/2})$ where $\hat \kappa$ is the ratio between smoothness and the LSI constant, better than all existing bounds.
翻訳日:2023-02-21 14:57:42 公開日:2023-02-20
# 完全状態伝達を用いた平面グラフの量子ルーティング

Quantum routing in planar graph using perfect state transfer ( http://arxiv.org/abs/2302.10074v1 )

ライセンス: Link先を確認
Supriyo Dutta(参考訳) 本稿では、$XX + YY$ Hamiltonian が支配するスピンスピン相互作用ネットワークを考える。 ネットワークの頂点とエッジはそれぞれスピンオブジェクトとその相互作用を表す。 相互作用のオン/オフを特権とすることで、グラフ内で複数の完全な状態転送を同時に実行するのを支援します。 我々はまた、2つの任意の頂点間の量子通信を可能にする有望なネットワークを構築する。 その後,ハイパーキューブグラフの組合せ特性を利用して,送信者群と平面ネットワーク内の受信者群とを同時に通信する静的ルーティングスキーマを提案する。 私たちの建設は新しく、非常に強力です。 古典的ルーティングが不可能であるような量子ルーティングをサポートする平面グラフの複数の例を詳述する。

In this article, we consider a spin-spin interaction network governed by $XX + YY$ Hamiltonian. The vertices and edges of the network represent the spin objects and their interactions, respectively. We take a privilege to switch on or off any interaction, that assists us to perform multiple perfect state transfers in a graph simultaneously. We also build up a salable network allowing quantum communication between two arbitrary vertices. Later we utilize the combinatorial characteristics of hypercube graphs to propose a static routing schema to communicate simultaneously between a set of senders and a set of receivers in a planar network. Our construction is new and significantly powerful. We elaborate multiple examples of planar graphs supporting quantum routing where classical routing is not possible.
翻訳日:2023-02-21 14:57:10 公開日:2023-02-20
# ペアワイズ差の混合学習のためのemの鋭い解析

Sharp analysis of EM for learning mixtures of pairwise differences ( http://arxiv.org/abs/2302.10066v1 )

ライセンス: Link先を確認
Abhishek Dhawan, Cheng Mao, Ashwin Pananjady(参考訳) 線形回帰とランダムなサンプルの対称な混合をペア比較設計から考えると、ユークリッド距離幾何学のタイプのノイズのあるバージョンと見なすことができる。 予測最大化(EM)アルゴリズムを地平線周辺で局所的に解析し、その列が線形に収束することを証明し、反復数の推定誤差に対して$\ell_\infty$-norm保証を与える。 さらに,em系列の極限は$\ell_2$-norm において,情報理論上最適定数に適合する鋭い推定率が得られることを示す。 また、この設定では、ランダム初期化からの収束がはるかに繊細であり、一般には発生しないというシミュレーションを通じて論じる。 その結果,共変量分布が適切に構成された場合,EMアルゴリズムはいくつかのユニークな挙動を示すことがわかった。

We consider a symmetric mixture of linear regressions with random samples from the pairwise comparison design, which can be seen as a noisy version of a type of Euclidean distance geometry problem. We analyze the expectation-maximization (EM) algorithm locally around the ground truth and establish that the sequence converges linearly, providing an $\ell_\infty$-norm guarantee on the estimation error of the iterates. Furthermore, we show that the limit of the EM sequence achieves the sharp rate of estimation in the $\ell_2$-norm, matching the information-theoretically optimal constant. We also argue through simulation that convergence from a random initialization is much more delicate in this setting, and does not appear to occur in general. Our results show that the EM algorithm can exhibit several unique behaviors when the covariate distribution is suitably structured.
翻訳日:2023-02-21 14:57:00 公開日:2023-02-20
# 都市洪水における水深進化予測のための深層学習モデルの評価

An evaluation of deep learning models for predicting water depth evolution in urban floods ( http://arxiv.org/abs/2302.10062v1 )

ライセンス: Link先を確認
Stefania Russo, Nathana\"el Perraudin, Steven Stalder, Fernando Perez-Cruz, Joao Paulo Leitao, Guillaume Obozinski, Jan Dirk Wegner(参考訳) 本研究では,高分解能水深ラスタの予測のために,異なる深層学習モデルを比較した。 気候変動、都市の拡大、土地利用の変化による降雨強度の増加により都市洪水が増加しているため、水深予測の効率的、正確、迅速な方法が現在重要である。 流体力学モデルでは, キャッチメントの各地点で水深をシミュレーションすることで, 信頼性の高い予測を行うことができるが, 空間分解能の高い大都市におけるリアルタイム予測への適用を阻害する計算負担も大きい。 本稿では,データ駆動手法を用いてこの問題に対処することを提案する。 具体的には,caddies cell-automata floodモデルによってシミュレーションされたデータを再現するために訓練された深層学習モデルを評価する。 このようなモデルを使用することの利点は、基礎となる物理現象を事前学習できることであり、手動のパラメータ設定や計算負荷を防止できる。 スイスの2つの漁獲地域からなり、18の単純で短い降雨パターンと4つの長く複雑なパターンからなるデータセットで実験を行った。 以上の結果から, 深層学習モデルは他の手法と比較して, 一般に低い誤差を示しており, 特に水深$>0.5m$。 しかし、より複雑な降雨イベントや目立たない漁獲エリアでテストする場合、より単純なものよりも深いモデルは利点を示さない。

In this technical report we compare different deep learning models for prediction of water depth rasters at high spatial resolution. Efficient, accurate, and fast methods for water depth prediction are nowadays important as urban floods are increasing due to higher rainfall intensity caused by climate change, expansion of cities and changes in land use. While hydrodynamic models models can provide reliable forecasts by simulating water depth at every location of a catchment, they also have a high computational burden which jeopardizes their application to real-time prediction in large urban areas at high spatial resolution. Here, we propose to address this issue by using data-driven techniques. Specifically, we evaluate deep learning models which are trained to reproduce the data simulated by the CADDIES cellular-automata flood model, providing flood forecasts that can occur at different future time horizons. The advantage of using such models is that they can learn the underlying physical phenomena a priori, preventing manual parameter setting and computational burden. We perform experiments on a dataset consisting of two catchments areas within Switzerland with 18 simpler, short rainfall patterns and 4 long, more complex ones. Our results show that the deep learning models present in general lower errors compared to the other methods, especially for water depths $>0.5m$. However, when testing on more complex rainfall events or unseen catchment areas, the deep models do not show benefits over the simpler ones.
翻訳日:2023-02-21 14:56:44 公開日:2023-02-20
# ゼロサムマルコフゲームにおける微分可能調停

Differentiable Arbitrating in Zero-sum Markov Games ( http://arxiv.org/abs/2302.10058v1 )

ライセンス: Link先を確認
Jing Wang, Meichen Song, Feng Gao, Boyi Liu, Zhaoran Wang, Yi Wu(参考訳) 我々は,ゼロサムマルコフゲームにおいて,2人のプレイヤーが望ましいナッシュ均衡,すなわち調停を誘導するために,報酬をどのように摂動させるかの研究を開始する。 このような問題は二段階最適化の定式化を認める。 低いレベルでは、与えられた報酬関数の下でナッシュ均衡を解決する必要があるため、全体的な問題はエンドツーエンドで最適化することが困難になる。 我々は,nash平衡を通した逆伝播スキームを提案し,上層層への勾配フィードバックを提供する。 特に本手法は(正規化)nash平衡 (ne) に対してのみブラックボックス解法を必要とする。 ブラックボックスNEソルバを用いたフレームワークの収束解析を開発し、2つのマルチエージェント強化学習(MARL)環境での経験的成功を実証する。

We initiate the study of how to perturb the reward in a zero-sum Markov game with two players to induce a desirable Nash equilibrium, namely arbitrating. Such a problem admits a bi-level optimization formulation. The lower level requires solving the Nash equilibrium under a given reward function, which makes the overall problem challenging to optimize in an end-to-end way. We propose a backpropagation scheme that differentiates through the Nash equilibrium, which provides the gradient feedback for the upper level. In particular, our method only requires a black-box solver for the (regularized) Nash equilibrium (NE). We develop the convergence analysis for the proposed framework with proper black-box NE solvers and demonstrate the empirical successes in two multi-agent reinforcement learning (MARL) environments.
翻訳日:2023-02-21 14:56:21 公開日:2023-02-20
# マルチコンパートメントニューロンと非ヘビアン可塑性を有するニューラルネットワークの導出のための規範的枠組み

A normative framework for deriving neural networks with multi-compartmental neurons and non-Hebbian plasticity ( http://arxiv.org/abs/2302.10051v1 )

ライセンス: Link先を確認
David Lipshutz, Yanis Bahroun, Siavash Golkar, Anirvan M. Sengupta, Dmitri B. Chklovskii(参考訳) 神経計算のアルゴリズム的基礎を理解するための確立された規範的アプローチは、原理計算の目的からオンラインアルゴリズムを導出し、解剖学的および生理学的観察との適合性を評価することである。 類似性マッチングの目標は、ニューラルネットワーク(nns)に点ニューロンとヘビアン/反ヘビアン可塑性をマップするオンラインアルゴリズムを導出する成功の出発点となった。 これらのNNモデルは解剖学および生理学的な観察を多く含んでいるが、目的は計算能力に限られており、派生したNNは脳全体に広く分布する多部分神経構造や非ヘビーンの可塑性を説明できない。 本稿では,汎用固有値問題や非負行列分解問題として定式化できる非教師なし・自己教師あり学習タスクを含む,より複雑な目的に対処するための類似性マッチングアプローチの最近の拡張を概観し,統一する。 興味深いことに、これらの目的から導かれるオンラインアルゴリズムは、自然にマルチセクションのニューロンとローカルな非ヘビーンの学習ルールを持つNNにマップされる。 したがって、この類似性マッチングアプローチの統一的な拡張は、脳全体に見られる多部分神経構造と非ヘビアン可塑性の理解を容易にする規範的な枠組みを提供する。

An established normative approach for understanding the algorithmic basis of neural computation is to derive online algorithms from principled computational objectives and evaluate their compatibility with anatomical and physiological observations. Similarity matching objectives have served as successful starting points for deriving online algorithms that map onto neural networks (NNs) with point neurons and Hebbian/anti-Hebbian plasticity. These NN models account for many anatomical and physiological observations; however, the objectives have limited computational power and the derived NNs do not explain multi-compartmental neuronal structures and non-Hebbian forms of plasticity that are prevalent throughout the brain. In this article, we review and unify recent extensions of the similarity matching approach to address more complex objectives, including a broad range of unsupervised and self-supervised learning tasks that can be formulated as generalized eigenvalue problems or nonnegative matrix factorization problems. Interestingly, the online algorithms derived from these objectives naturally map onto NNs with multi-compartmental neurons and local, non-Hebbian learning rules. Therefore, this unified extension of the similarity matching approach provides a normative framework that facilitates understanding the multi-compartmental neuronal structures and non-Hebbian plasticity found throughout the brain.
翻訳日:2023-02-21 14:56:09 公開日:2023-02-20
# 可逆関数に対するテール再帰変換

Tail recursion transformation for invertible functions ( http://arxiv.org/abs/2302.10049v1 )

ライセンス: Link先を確認
Joachim Tilsted Kristensen, Robin Kaarsgaard, Michael Kirkedal Thomsen(参考訳) テール再帰関数は一般再帰関数よりも幅広い最適化を可能にする。 このため、この関数の族、特に連続パス形式(CPS)で書かれた関数の変換と最適化について多くの研究がなされている。 再帰的関数を等価なテール再帰的関数に変換することができるCPS変換は、(高次関数のような厄介な特徴に依存するため)可逆プログラミングの文脈で深く問題となるが、(局所的)可逆性への緩和(局所的)可逆性は、状況を大幅に改善すると主張する。 そこで本研究では,特に可逆関数に対する末尾再帰変換のアルゴリズムを提案する。 鍵となる洞察は、可逆性を保つプログラム変換によって導入された関数は、変換の対象関数がそれらを呼び出すコンテキストにおいてのみ可逆である。 このような文脈に対応する固有データ型が、この文脈に作用する一対のテール再帰関数に、呼び出しが強調表示され、テール再帰逆逆関数が直接抽出されるように、可逆再帰関数を変換する方法を示す。

Tail recursive functions allow for a wider range of optimisations than general recursive functions. For this reason, much research has gone into the transformation and optimisation of this family of functions, in particular those written in continuation passing style (CPS). Though the CPS transformation, capable of transforming any recursive function to an equivalent tail recursive one, is deeply problematic in the context of reversible programming (as it relies on troublesome features such as higher-order functions), we argue that relaxing (local) reversibility to (global) invertibility drastically improves the situation. On this basis, we present an algorithm for tail recursion conversion specifically for invertible functions. The key insight is that functions introduced by program transformations that preserve invertibility, need only be invertible in the context in which the functions subject of transformation calls them. We show how a bespoke data type, corresponding to such a context, can be used to transform invertible recursive functions into a pair of tail recursive function acting on this context, in a way where calls are highlighted, and from which a tail recursive inverse can be straightforwardly extracted.
翻訳日:2023-02-21 14:55:45 公開日:2023-02-20
# エッジトランスフォーマーの事前学習によるオンラインゲームでの友人リコール

Friend Recall in Online Games via Pre-training Edge Transformers ( http://arxiv.org/abs/2302.10043v1 )

ライセンス: Link先を確認
Liang Yao, Jiazhen Peng, Shenggong Ji, Qiang Liu, Hongyun Cai, Feng He, Xu Cheng(参考訳) friend recallは、tencentゲームにおけるdau(daily active users)を改善する重要な方法だ。 伝統的な友人リコール手法は、失った選手の復帰確率を予測するために、友人親密さや分類器の訓練のようなルールに焦点を当てるが、(アクティブな)選手の特徴情報や歴史的な友人リコールイベントは無視する。 本研究では,友人のリコールをリンク予測問題として扱うとともに,履歴イベントだけでなく,アクティブプレイヤーとロスプレイヤーの両方の特徴を活用可能なリンク予測手法について検討する。 さらに,新しいEdge Transformerモデルを提案し,マスク付きオートエンコーダによる事前学習を行う。 本手法は3つのTencentゲームにおけるオフライン実験とオンラインA/Bテストの最先端結果を実現する。

Friend recall is an important way to improve Daily Active Users (DAU) in Tencent games. Traditional friend recall methods focus on rules like friend intimacy or training a classifier for predicting lost players' return probability, but ignore feature information of (active) players and historical friend recall events. In this work, we treat friend recall as a link prediction problem and explore several link prediction methods which can use features of both active and lost players, as well as historical events. Furthermore, we propose a novel Edge Transformer model and pre-train the model via masked auto-encoders. Our method achieves state-of-the-art results in the offline experiments and online A/B Tests of three Tencent games.
翻訳日:2023-02-21 14:55:23 公開日:2023-02-20
# ゼロショットスケッチに基づく画像検索のためのオントロジアウェアネットワーク

Ontology-aware Network for Zero-shot Sketch-based Image Retrieval ( http://arxiv.org/abs/2302.10040v1 )

ライセンス: Link先を確認
Haoxiang Zhang, He Jiang, Ziqiang Wang, Deqiang Cheng(参考訳) Zero-Shot Sketch-Based Image Retrieval (ZSSBIR)は、新しいタスクである。 先駆的な研究はモーダルギャップに焦点をあてたが、クラス間情報を無視した。 最近の研究では、クラス間情報のマイニングにおける三重項またはコントラストに基づく損失について検討が始まっているが、ポジティブなサンプルとネガティブなサンプルを慎重に選択する必要がある。 これらの問題に対処するため,オントロジー・アウェアネットワーク(OAN)を提案する。 具体的には、クラス間の特異性を維持するために、クラス間のスムーズな独立学習メカニズムが推進される。 一方、蒸留に基づく一貫性保存は、モダリティ固有の情報を保持するために利用される。 大規模な実験により、SketchyとTu-Berlinの2つのデータセットに対して、アルゴリズムの優れた性能が実証された。

Zero-Shot Sketch-Based Image Retrieval (ZSSBIR) is an emerging task. The pioneering work focused on the modal gap but ignored inter-class information. Although recent work has begun to consider the triplet-based or contrast-based loss to mine inter-class information, positive and negative samples need to be carefully selected, or the model is prone to lose modality-specific information. To respond to these issues, an Ontology-Aware Network (OAN) is proposed. Specifically, the smooth inter-class independence learning mechanism is put forward to maintain inter-class peculiarity. Meanwhile, distillation-based consistency preservation is utilized to keep modality-specific information. Extensive experiments have demonstrated the superior performance of our algorithm on two challenging Sketchy and Tu-Berlin datasets.
翻訳日:2023-02-21 14:55:09 公開日:2023-02-20
# Sketch In, Sketch Out:カーネルによる構造化予測のための学習と推論の高速化

Sketch In, Sketch Out: Accelerating both Learning and Inference for Structured Prediction with Kernels ( http://arxiv.org/abs/2302.10128v1 )

ライセンス: Link先を確認
Tamim El Ahmad, Luc Brogat-Motte, Pierre Laforgue, Florence d'Alch\'e-Buc(参考訳) surrogateカーネルベースのメソッドは、入出力空間と出力空間の両方でカーネルトリックを活用することで、構造化出力予測への柔軟なソリューションを提供する。 エネルギーベースのモデルとは対照的に、統計的保証を享受しながら、トレーニング中の推論コストの支払いを避ける。 しかし、近似がなければ、これらのアプローチは限られた量のトレーニングデータでのみ使用されると非難される。 本稿では,特徴写像の入力と出力の両方で特徴写像の低階射影と見なされるスケッチに基づく近似を用いて,カーネル手法に代用する手法を提案する。 入力出力カーネルリッジ回帰(またはカーネル依存性推定)のアプローチを示し、最終的な予測モデルに直接接続可能な過剰なリスク境界を提供する。 時間とメモリの複雑さの分析によると、入力カーネルのスケッチはトレーニング時間を短縮し、出力カーネルのスケッチは推論時間を短縮する。 さらに,ガウスと準ガウスのスケッチは,リスクの小さい射影演算子を誘導するという意味では許容できるスケッチであることを示す。 異なるタスクに関する実験は、我々の発見を固める。

Surrogate kernel-based methods offer a flexible solution to structured output prediction by leveraging the kernel trick in both input and output spaces. In contrast to energy-based models, they avoid to pay the cost of inference during training, while enjoying statistical guarantees. However, without approximation, these approaches are condemned to be used only on a limited amount of training data. In this paper, we propose to equip surrogate kernel methods with approximations based on sketching, seen as low rank projections of feature maps both on input and output feature maps. We showcase the approach on Input Output Kernel ridge Regression (or Kernel Dependency Estimation) and provide excess risk bounds that can be in turn directly plugged on the final predictive model. An analysis of the complexity in time and memory show that sketching the input kernel mostly reduces training time while sketching the output kernel allows to reduce the inference time. Furthermore, we show that Gaussian and sub-Gaussian sketches are admissible sketches in the sense that they induce projection operators ensuring a small excess risk. Experiments on different tasks consolidate our findings.
翻訳日:2023-02-21 14:48:48 公開日:2023-02-20
# iQPP: 画像クエリのパフォーマンス予測のためのベンチマーク

iQPP: A Benchmark for Image Query Performance Prediction ( http://arxiv.org/abs/2302.10126v1 )

ライセンス: Link先を確認
Eduard Poesina, Radu Tudor Ionescu, Josiane Mothe(参考訳) 現在まで、コンテンツベースの画像検索の文脈におけるクエリ性能予測(QPP)は、特にクエリがイメージであるクエリ・バイ・サンプルのシナリオにおいて、ほとんど探索されていないタスクである。 画像検索におけるQPPタスクの探索を促進するため,画像クエリ性能予測のための最初のベンチマーク(iQPP)を提案する。 まず,4つのデータセット(PASCAL VOC 2012 Caltech-101, ROxford5k, RParis6k)のセットを構築し,2つの最先端画像検索モデルを用いて,各クエリの真正度を平均精度または精度として推定する。 次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。 実験の結果、ほとんどの予測子は評価シナリオをまたいで一般化しないことがわかった。 総合実験の結果,iqppは難解なベンチマークであり,今後の研究で取り組むべき重要な研究ギャップを明らかにすることができた。 コードとデータはhttps://github.com/Eduard6421/iQPPでオープンソースとして公開しています。

To date, query performance prediction (QPP) in the context of content-based image retrieval remains a largely unexplored task, especially in the query-by-example scenario, where the query is an image. To boost the exploration of the QPP task in image retrieval, we propose the first benchmark for image query performance prediction (iQPP). First, we establish a set of four data sets (PASCAL VOC 2012, Caltech-101, ROxford5k and RParis6k) and estimate the ground-truth difficulty of each query as the average precision or the precision@k, using two state-of-the-art image retrieval models. Next, we propose and evaluate novel pre-retrieval and post-retrieval query performance predictors, comparing them with existing or adapted (from text to image) predictors. The empirical results show that most predictors do not generalize across evaluation scenarios. Our comprehensive experiments indicate that iQPP is a challenging benchmark, revealing an important research gap that needs to be addressed in future work. We release our code and data as open source at https://github.com/Eduard6421/iQPP, to foster future research.
翻訳日:2023-02-21 14:48:28 公開日:2023-02-20
# 乱れキタエフハニカム格子の端における量子計算

Quantum computation at the edge of a disordered Kitaev honeycomb lattice ( http://arxiv.org/abs/2302.10123v1 )

ライセンス: Link先を確認
Igor Timoshuk, Konstantin Tikhonov, and Yuriy Makhlin(参考訳) 二次元トポロジー材料におけるキラルマヨラナエッジ状態に沿った量子情報の伝播を解析する。 エッジ状態の使用は、トポロジカル量子計算において重要な要素であるブレイディング操作を促進する可能性がある。 トポロジカルフェーズにおける北エブハニカムモデルのエッジに対しては、エッジ状態が量子情報処理にどのように関与するかを議論し、エッジに結合された遠方キュービット間の2量子論理ゲートを考える。 本稿では,エッジ状態と量子ゲート忠実性に及ぼす乱れと雑音の影響について解析する。 現実的に弱い障害は、エッジを介して高忠実度操作を実施することを妨げない。

We analyze propagation of quantum information along chiral Majorana edge states in two-dimensional topological materials. The use of edge states may facilitate the braiding operation, an important ingredient in topological quantum computations. For the edge of the Kitaev honeycomb model in a topological phase, we discuss how the edge states can participate in quantum-information processing, and consider a two-qubit logic gate between distant external qubits coupled to the edge. Here we analyze the influence of disorder and noise on properties of the edge states and quantum-gate fidelity. We find that realistically weak disorder does not prevent one from implementation of a high-fidelity operation via the edge.
翻訳日:2023-02-21 14:48:05 公開日:2023-02-20
# 非エルミート的強く相互作用するディラックフェルミオン:量子モンテカルロ研究

Non-Hermitian strongly interacting Dirac fermions: a quantum Monte-Carlo study ( http://arxiv.org/abs/2302.10115v1 )

ライセンス: Link先を確認
Xue-Jia Yu, Zhiming Pan, Limei Xu and Zi-Xiang Li(参考訳) 強い相互作用を持つディラック系のエキゾチックな量子相と相転移は大きな関心を集めている。 一方、非エルミート物理学は、通常は環境との結合から生じる散逸と結びついており、近年近代物理学のフロンティアとして出現している。 本稿では,非エルミート物理とディラック・フェルミオン系の強い相関の相互作用について検討する。 非エルミート相互作用型フェルミオン系のための符号プログレムフリープロジェクター量子モンテカルロ(qmc)アルゴリズムを開発した。 最先端プロジェクタQMCシミュレーションを用いて、非エルミート非対称スピン分解ホッピング過程におけるハバード模型の基底状態位相図を解読する。 興味深いことに、ハバード相互作用によって引き起こされる反強磁性秩序は非エルミート非対称ホッピングによって強化される。 さらに興味深いことに、drac半金属とaf秩序相間の量子相転移の臨界性質は、エルミート系のxy普遍性クラスと一致しており、量子臨界点においてエルミート性が出現することを示唆している。 本研究で用いた数値的なQMCアプローチは、他の非エルミート相互作用フェルミオンモデルにも容易に適用でき、したがって非エルミート系における量子多体物理学の研究に新たな道を開くことができる。

Exotic quantum phases and phase transition in the strongly interacting Dirac systems has attracted tremendous interests. On the other hand, non-Hermitian physics, usually associated with dissipation arising from the coupling to environment, emerges as a frontier of modern physics in recent years. In this letter, we investigate the interplay between non-Hermitian physics and strong correlation in Dirac-fermion systems. We develop a sign-problem-free projector quantum Monte-Carlo (QMC) algorithm for the non-Hermitian interacting fermionic systems. Employing state-of-the-art projector QMC simulation, we decipher the ground-state phase diagram of the Honeycomb Hubbard model in the presence non-Hermitian asymmetric spin resolved hopping processes. Intriguingly, the antiferromagnetic ordering induced by Hubbard interaction is enhanced by the non-Hermitian asymmetric hopping. More remarkably, our study reveals that critical properties of the quantum phase transition between Dirac semi-metal and AF ordered phases are consistent with the XY universality class in Hermitian system, implying Hermiticity is emergent at the quantum critical point. The numerically-exact QMC approach utilized in this study is easily applied to other non-Hermitian interacting fermionic models, hence paving a new avenue to investigating quantum many-body physics in non-Hermitian systems.
翻訳日:2023-02-21 14:47:56 公開日:2023-02-20
# NerfDiff: 3D-Aware DiffusionによるNeRF誘導蒸留を用いた単一画像ビュー合成

NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from 3D-aware Diffusion ( http://arxiv.org/abs/2302.10109v1 )

ライセンス: Link先を確認
Jiatao Gu, Alex Trevithick, Kai-En Lin, Josh Susskind, Christian Theobalt, Lingjie Liu, Ravi Ramamoorthi(参考訳) 単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。 既存の条件ニューラル放射場(NeRF)は、局所画像の特徴、入力画像平面への投影点、ボリュームレンダリングを行うために2D特徴を集約する。 しかし、激しい閉塞下では、この投影は不確かさの解消に失敗し、詳細を欠いたぼやけたレンダリングに繋がる。 本研究では,3次元認識型条件拡散モデル(cdm)の知識を,テスト時に一連の仮想ビューを合成・精錬し,nrfに蒸留することにより,この問題に対処したnrfdiffを提案する。 さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。 提案手法は,ShapeNet,ABO,Clevr3Dなど,既存のNeRFベースおよびジオメトリフリーアプローチよりも優れている。

Novel view synthesis from a single image requires inferring occluded regions of objects and scenes whilst simultaneously maintaining semantic and physical consistency with the input. Existing approaches condition neural radiance fields (NeRF) on local image features, projecting points to the input image plane, and aggregating 2D features to perform volume rendering. However, under severe occlusion, this projection fails to resolve uncertainty, resulting in blurry renderings that lack details. In this work, we propose NerfDiff, which addresses this issue by distilling the knowledge of a 3D-aware conditional diffusion model (CDM) into NeRF through synthesizing and refining a set of virtual views at test time. We further propose a novel NeRF-guided distillation algorithm that simultaneously generates 3D consistent virtual views from the CDM samples, and finetunes the NeRF based on the improved virtual views. Our approach significantly outperforms existing NeRF-based and geometry-free approaches on challenging datasets, including ShapeNet, ABO, and Clevr3D.
翻訳日:2023-02-21 14:47:33 公開日:2023-02-20
# 高グレード消化器系神経内分泌腫瘍の生存理解に向けて : 総生存予測におけるエンサンブル特徴選択の検討

Towards Understanding the Survival of Patients with High-Grade Gastroenteropancreatic Neuroendocrine Neoplasms: An Investigation of Ensemble Feature Selection in the Prediction of Overall Survival ( http://arxiv.org/abs/2302.10106v1 )

ライセンス: Link先を確認
Anna Jenul, Henning Langen Stokmo, Stefan Schrunner, Mona-Elisabeth Revheim, Geir Olav Hjortland, Oliver Tomic(参考訳) 上部消化管性神経内分泌腫瘍と診断された患者の生存率を予測するための最も有用な特徴は、患者の個別治療計画の改善、および疾患の生物学的理解に不可欠である。 最近開発されたRepeated Elastic Net Technique for Feature Selection (RENT)やUser-Guided Bayesian Framework for Feature Selection (UBayFS)のようなアンサンブル機能セレクタは、サンプルサイズの低いデータセットでそのような機能を識別することができる。 RENTは純粋にデータ駆動だが、UBayFSは機能選択プロセスに専門家の知識を統合することができる。 本研究は, 基礎疾患の特徴, 基礎血液値, 腫瘍組織学, 画像診断, 治療情報など, 患者63名, 患者134名からなるデータセットにおける特徴セレクタの比較を行った。 私たちの実験には、データ駆動とエキスパート駆動のセットアップ、両方の組み合わせが含まれています。 専門知識の源泉として臨床文献の知見を用いる。 その結果,どちらの機能選択者でも正確な予測が可能であり,専門家の知識が機能セットに安定した影響を与えることが示され,予測性能への影響は限られている。 WHOパフォーマンスステータス,アルブミン,血小板,Ki-67,腫瘍形態,トータルMTV,トータルTLG,SUVmaxは,本研究で最も安定かつ予測的な特徴である。

Determining the most informative features for predicting the overall survival of patients diagnosed with high-grade gastroenteropancreatic neuroendocrine neoplasms is crucial to improve individual treatment plans for patients, as well as the biological understanding of the disease. Recently developed ensemble feature selectors like the Repeated Elastic Net Technique for Feature Selection (RENT) and the User-Guided Bayesian Framework for Feature Selection (UBayFS) allow the user to identify such features in datasets with low sample sizes. While RENT is purely data-driven, UBayFS is capable of integrating expert knowledge a priori in the feature selection process. In this work we compare both feature selectors on a dataset comprising of 63 patients and 134 features from multiple sources, including basic patient characteristics, baseline blood values, tumor histology, imaging, and treatment information. Our experiments involve data-driven and expert-driven setups, as well as combinations of both. We use findings from clinical literature as a source of expert knowledge. Our results demonstrate that both feature selectors allow accurate predictions, and that expert knowledge has a stabilizing effect on the feature set, while the impact on predictive performance is limited. The features WHO Performance Status, Albumin, Platelets, Ki-67, Tumor Morphology, Total MTV, Total TLG, and SUVmax are the most stable and predictive features in our study.
翻訳日:2023-02-21 14:47:10 公開日:2023-02-20
# 位相的エッジ状態をもつ量子計算

Quantum computations with topological edge states ( http://arxiv.org/abs/2302.10101v1 )

ライセンス: Link先を確認
Igor Timoshuk and Yuriy Makhlin(参考訳) トポロジカル量子計算は、ローカルの majorana zero mode で実装できる。 操作を簡単にするために、ギャップ付き2次元システムでMajoranaエッジ状態を使用することができる。 本稿では,この手法をキタエフ六角形モデルに適用し,エッジモードを介する2量子ビットゲートとエッジに沿った量子状態転送の実装について述べる。

Topological quantum computations can be implemented with local Majorana zero modes. To simplify manipulations, one can use Majorana edge states in gapped two-dimensional systems. Here we demonstrate how this approach can be used for a Kitaev hexagonal model and discuss implementation of quantum-state transfer along the edge and two-qubit gates mediated by the edge modes.
翻訳日:2023-02-21 14:46:42 公開日:2023-02-20
# ネットワーク支援回帰のコンフォーマル予測

Conformal Prediction for Network-Assisted Regression ( http://arxiv.org/abs/2302.10095v1 )

ライセンス: Link先を確認
Robert Lunde, Elizaveta Levina, Ji Zhu(参考訳) ネットワーク解析における重要な問題は、グラフ埋め込み座標や局所グラフ数のようなネットワーク共変量と、人口統計特性のような従来のノード共変量の両方を用いてノード属性を予測することである。 両種類の共変量を用いた標準回帰法が予測に使用されるが、統計的推論はノーダル要約統計がしばしば複雑な方法に依存するという事実によって複雑である。 本研究では, 共形予測のネットワークアナログが, 幅の広いネットワーク共変量に対して有限標本妥当性を達成できることを示す。 また,漸近条件付き妥当性の形式が実現可能であることを示す。 これらの手法はシミュレーションネットワークと引用ネットワークデータセットの両方で示される。

An important problem in network analysis is predicting a node attribute using both network covariates, such as graph embedding coordinates or local subgraph counts, and conventional node covariates, such as demographic characteristics. While standard regression methods that make use of both types of covariates may be used for prediction, statistical inference is complicated by the fact that the nodal summary statistics are often dependent in complex ways. We show that under a mild joint exchangeability assumption, a network analog of conformal prediction achieves finite sample validity for a wide range of network covariates. We also show that a form of asymptotic conditional validity is achievable. The methods are illustrated on both simulated networks and a citation network dataset.
翻訳日:2023-02-21 14:46:37 公開日:2023-02-20
# プログレッシブ知識蒸留:効率的な推論のためのアンサンブルの構築

Progressive Knowledge Distillation: Building Ensembles for Efficient Inference ( http://arxiv.org/abs/2302.10093v1 )

ライセンス: Link先を確認
Don Kurian Dennis, Abhishek Shetty, Anish Sevekari, Kazuhito Koishida, Virginia Smith(参考訳) 大きく、事前訓練された教師モデル$g$が与えられた場合、我々はモデルをより小さく、低会議コストの学生モデル$f_i$のアンサンブルに分解することを目指している。 結果として得られるアンサンブルは、デバイス上の推論における多くのアプリケーションに有用な精度と推論コストを柔軟に調整することができる。 提案手法であるb-distilは,中間アクティベーション上の関数合成を用いて,$g$と同等の性能を持つ表現型アンサンブルを構築するアルゴリズム手法に依拠している。 標準画像,音声,センサデータセット間で事前学習したモデルを分解することで, \algAの有効性を示す。 また、収束と一般化の観点から、理論的な保証を提供する。

We study the problem of progressive distillation: Given a large, pre-trained teacher model $g$, we seek to decompose the model into an ensemble of smaller, low-inference cost student models $f_i$. The resulting ensemble allows for flexibly tuning accuracy vs. inference cost, which is useful for a number of applications in on-device inference. The method we propose, B-DISTIL, relies on an algorithmic procedure that uses function composition over intermediate activations to construct expressive ensembles with similar performance as $g$, but with much smaller student models. We demonstrate the effectiveness of \algA by decomposing pretrained models across standard image, speech, and sensor datasets. We also provide theoretical guarantees for our method in terms of convergence and generalization.
翻訳日:2023-02-21 14:46:27 公開日:2023-02-20
# NLP研究の事前登録に関する2つの考察

A Two-Sided Discussion of Preregistration of NLP Research ( http://arxiv.org/abs/2302.10086v1 )

ライセンス: Link先を確認
Anders S{\o}gaard, Daniel Hershcovich, Miryam de Lhoneux(参考訳) Van Miltenburg et al. (2021) は、NLP研究は漁業遠征を阻止し、ネガティブな結果の公表を促進するために事前登録を採用するべきだと提案している。 フェイスバリューでは、これは非常に合理的な提案であり、NLP研究で多くの方法論的な問題を解決しているように見える。 長所と短所を議論します -- 古くて新しいものもあります。 a) 事前登録は,結果が判明した後の仮説を回収する慣行に異議を唱える。 b) 事前登録は,NLPを確認研究にバイアスすることができる。 c) 事前登録は,調査として研究の再分類を許可しなければならない。 d) 前登録は,出版バイアスを増加させることができる。 e) 事前登録は,旗の植え付けを増やすことができる。 f) 事前登録は、pハックを増加させ、そして最後に g) 事前登録は,リスク耐性を低下させる可能性がある。 私たちは議論を対話として、議論の両面を提示した。

Van Miltenburg et al. (2021) suggest NLP research should adopt preregistration to prevent fishing expeditions and to promote publication of negative results. At face value, this is a very reasonable suggestion, seemingly solving many methodological problems with NLP research. We discuss pros and cons -- some old, some new: a) Preregistration is challenged by the practice of retrieving hypotheses after the results are known; b) preregistration may bias NLP toward confirmatory research; c) preregistration must allow for reclassification of research as exploratory; d) preregistration may increase publication bias; e) preregistration may increase flag-planting; f) preregistration may increase p-hacking; and finally, g) preregistration may make us less risk tolerant. We cast our discussion as a dialogue, presenting both sides of the debate.
翻訳日:2023-02-21 14:46:12 公開日:2023-02-20
# 組合せ最適化のための効率的なソリューションQuantum Dueling

Quantum Dueling: an Efficient Solution for Combinatorial Optimization ( http://arxiv.org/abs/2302.10151v1 )

ライセンス: Link先を確認
Letian Tang, Haorui Wang, Zhengyang Li, Haozhan Tang, Chi Zhang, Shujin Li(参考訳) 量子最適化アルゴリズムは、古典的アルゴリズムよりも効率的に組合せ最適化問題を解く可能性から、長い間大きな注目を集めてきた。 本稿では,Grover Adaptive Search (GAS) や量子近似最適化アルゴリズム (QAOA) などの確立された設計に基づいて,量子組合せ最適化のための新しい戦略を提案する。 他の量子最適化アルゴリズムで用いられるレジスタに加えて、第2レジスタを導入し、ヒルベルト空間を拡大する。 この空間では、量子最適化は量子振幅増幅に単純化される。 様々なパラメータで量子デュエルの能力をテストするために、幅広いデータに対する実験的な証拠を広範囲に利用した。 この結果から, 量子デュエルは解分布に大きく依存するが, ナイーブなパラメータに対して良好に機能することが示唆された。 この場合、成功確率の進化は非常に規則的である。 したがって、状態進化を数学的に近似する方法があるかもしれない。 本稿では,量子コンピューティングの定式化を定量的な解を求めるよりも単純化することができる。 しかし、量子デュエルが解決できれば、最適なパラメータを見つけるための体系的なアプローチが存在する。 この場合、データは量子デュエルが$o(\sqrt{n})$に達し、ほぼすべての解分布でうまく機能することを示唆している。 振り返ると、量子デュエルは多くの変分最適化アルゴリズム、特にQAOAと類似している。 これは量子デュエルの戦略がハミルトニアン配置に移植されることを示唆している。 さらなる研究により、量子最適化の候補がさらに増えるかもしれない。

Quantum optimization algorithms have long garnered significant attention due to their potential to solve combinatorial optimization problems more efficiently than classical algorithms. Building upon established designs such as Grover adaptive search (GAS) and quantum approximate optimization algorithm (QAOA), in this paper we present a new strategy for quantum combinatorial optimization, which we term quantum dueling. In addition to the register used in other quantum optimization algorithms, we introduce a second register, boosting the Hilbert space. In this space, quantum optimization is simplified to quantum amplitude amplification. We extensively use experimental evidence for a wide range of data to test the ability of quantum dueling under different parameters. Our result suggests that quantum dueling performs well for naive parameters, though such performance is highly dependent on solution distribution. In this case, the evolution of the success probability is highly regular. Thus, there might be ways to approximate the state evolution mathematically. In this paper, we are able to simplify the formulation of quantum computing rather than finding a quantitative solution. However, if quantum dueling can be solved, there will be a systematic approach to locate optimal parameters. In this case, data suggest that quantum dueling seems to reach $O(\sqrt{N})$ and performs well for almost all solution distributions. In retrospect, quantum dueling shares similarities with many variational optimization algorithms, most notably QAOA. This suggests that the strategy of quantum dueling might be transplanted into a Hamiltonian setup. With more research, we might obtain more candidates for quantum optimization.
翻訳日:2023-02-21 14:39:40 公開日:2023-02-20
# webスケールのトレーニングデータセットの毒殺は実用的

Poisoning Web-Scale Training Datasets is Practical ( http://arxiv.org/abs/2302.10149v1 )

ライセンス: Link先を確認
Nicholas Carlini, Matthew Jagielski, Christopher A. Choquette-Choo, Daniel Paleka, Will Pearce, Hyrum Anderson, Andreas Terzis, Kurt Thomas, Florian Tram\`er(参考訳) ディープラーニングモデルは、インターネットからクロールされた分散Webスケールデータセットでトレーニングされることが多い。 本稿では,モデルの性能に悪意のある事例を意図的に導入する2つの新しいデータセット中毒攻撃を提案する。 私たちの攻撃はすぐに実用的になり、今日では10の人気のデータセットを毒する可能性がある。 最初の攻撃であるスプリットビュー中毒は、インターネットコンテンツの不変性を利用して、データセットアノテータの初期ビューが、その後のクライアントがダウンロードしたビューとは異なることを保証します。 特定の不正な信頼の仮定を利用することで、LAION-400MまたはCOYO-700Mデータセットの0.01%をわずか60USDで毒したことを示す。 第2の攻撃であるfront running poisoningは、ウィキペディアのようなクラウドソースのコンテンツを定期的にスナップショットするwebスケールのデータセットをターゲットにしています。 どちらの攻撃も考慮し、影響を受ける各データセットのメンテナに通知し、いくつかの低オーバーヘッド防御を推奨します。

Deep learning models are often trained on distributed, webscale datasets crawled from the internet. In this paper, we introduce two new dataset poisoning attacks that intentionally introduce malicious examples to a model's performance. Our attacks are immediately practical and could, today, poison 10 popular datasets. Our first attack, split-view poisoning, exploits the mutable nature of internet content to ensure a dataset annotator's initial view of the dataset differs from the view downloaded by subsequent clients. By exploiting specific invalid trust assumptions, we show how we could have poisoned 0.01% of the LAION-400M or COYO-700M datasets for just $60 USD. Our second attack, frontrunning poisoning, targets web-scale datasets that periodically snapshot crowd-sourced content -- such as Wikipedia -- where an attacker only needs a time-limited window to inject malicious examples. In light of both attacks, we notify the maintainers of each affected dataset and recommended several low-overhead defenses.
翻訳日:2023-02-21 14:39:17 公開日:2023-02-20
# 広帯域DoA推定のためのDNNに基づく正規化時間周波数重み付き基準

A DNN based Normalized Time-frequency Weighted Criterion for Robust Wideband DoA Estimation ( http://arxiv.org/abs/2302.10147v1 )

ライセンス: Link先を確認
Kuan-Lin Chen and Ching-Hua Lee and Bhaskar D. Rao and Harinath Garudadri(参考訳) ディープニューラルネットワーク (DNN) は, 雑音環境下での音源定位のための到着方向推定法 (DoA) に大きく貢献している。 しかし,その位置推定精度は,非スパイチ干渉による脆弱性のため,まだ十分ではない。 干渉に対するロバスト性を改善するため,T-F領域における候補ステアリングベクトルとフィルタスナップショットとの距離を最小化するDNNベースの正規化時間周波数重み付き基準を提案する。 本手法は, 固有分解を必要とせず, 単純な正規化を用いて, ノイズの多いフィルタ付きスナップショットによる最適化目標の誤認を防止する。 また、DNNでガイドされるT-F重みの異なる設計についても検討する。 音声比マスクのアダマール積の重複は, 直接マスキングや提案手法における平均化など, 他の手法よりも効果的かつ良好であることがわかった。 しかし、t-f重みの最も優れた設計は概して基準依存である。 実験により,提案手法は,雑音および残響環境において広く用いられている部分空間法を含む,一般的なDNNに基づくDoA推定法よりも優れていた。

Deep neural networks (DNNs) have greatly benefited direction of arrival (DoA) estimation methods for speech source localization in noisy environments. However, their localization accuracy is still far from satisfactory due to the vulnerability to nonspeech interference. To improve the robustness against interference, we propose a DNN based normalized time-frequency (T-F) weighted criterion which minimizes the distance between the candidate steering vectors and the filtered snapshots in the T-F domain. Our method requires no eigendecomposition and uses a simple normalization to prevent the optimization objective from being misled by noisy filtered snapshots. We also study different designs of T-F weights guided by a DNN. We find that duplicating the Hadamard product of speech ratio masks is highly effective and better than other techniques such as direct masking and taking the mean in the proposed approach. However, the best-performing design of T-F weights is criterion-dependent in general. Experiments show that the proposed method outperforms popular DNN based DoA estimation methods including widely used subspace methods in noisy and reverberant environments.
翻訳日:2023-02-21 14:38:59 公開日:2023-02-20
# 多世代労働市場:機械学習を用いたマルチパースペクティブシステムパラメーターのデータ駆動検出

Multi-generational labour markets: data-driven discovery of multi-perspective system parameters using machine learning ( http://arxiv.org/abs/2302.10146v1 )

ライセンス: Link先を確認
Abeer Abdullah Alaql, Fahad Alqurashi, Rashid Mehmood(参考訳) インフレ、エネルギーコスト、税金、金利といった経済問題は、私たちの日常生活において常に存在しており、パンデミック、環境災害、戦争といった世界的な出来事によって悪化している。 金融危機の持続的な歴史は、近代経済の基盤における重大な弱点と脆弱性を明らかにしている。 もうひとつの大きな問題は、多くの人々が仕事を辞めることだ。 さらに、多くの組織は、新しい課題を示す複数の世代からなる多様な労働力を持っています。 経済や労働市場における変革的アプローチは、我々の社会、経済、惑星を保護するために必要である。 本研究では,ビッグデータと機械学習を用いて多世代労働市場のマルチパースペクティブパラメータを探索する。 学術的視点のパラメータは、1958-2022年のウェブ・オブ・サイエンスの35,000の論文の要約と、2022年のLinkedInの57,000の投稿を用いて専門家の視点で発見されている。 合計28のパラメータを発見し,これらを5つのマクロパラメータ,学習・技能,雇用セクター,消費者産業,学習・雇用問題,世代固有の課題に分類した。 データ駆動パラメータ発見のための完全な機械学習ソフトウェアツールが開発されている。 様々な定量化および可視化手法を適用し,多世代労働市場を探索するために複数の分類群を抽出した。 100以上の研究論文を用いた多世代労働市場の知識構造と文献レビューを行う。 この研究は、自律的な能力とシステムを開発するための知識発見とシステムパラメータ発見のためのaiベースの方法の理論と実践を強化し、労働経済学と市場への新しいアプローチを促進し、持続可能な社会と経済の発展に繋がると予想されている。

Economic issues, such as inflation, energy costs, taxes, and interest rates, are a constant presence in our daily lives and have been exacerbated by global events such as pandemics, environmental disasters, and wars. A sustained history of financial crises reveals significant weaknesses and vulnerabilities in the foundations of modern economies. Another significant issue currently is people quitting their jobs in large numbers. Moreover, many organizations have a diverse workforce comprising multiple generations posing new challenges. Transformative approaches in economics and labour markets are needed to protect our societies, economies, and planet. In this work, we use big data and machine learning methods to discover multi-perspective parameters for multi-generational labour markets. The parameters for the academic perspective are discovered using 35,000 article abstracts from the Web of Science for the period 1958-2022 and for the professionals' perspective using 57,000 LinkedIn posts from 2022. We discover a total of 28 parameters and categorised them into 5 macro-parameters, Learning & Skills, Employment Sectors, Consumer Industries, Learning & Employment Issues, and Generations-specific Issues. A complete machine learning software tool is developed for data-driven parameter discovery. A variety of quantitative and visualisation methods are applied and multiple taxonomies are extracted to explore multi-generational labour markets. A knowledge structure and literature review of multi-generational labour markets using over 100 research articles is provided. It is expected that this work will enhance the theory and practice of AI-based methods for knowledge discovery and system parameter discovery to develop autonomous capabilities and systems and promote novel approaches to labour economics and markets, leading to the development of sustainable societies and economies.
翻訳日:2023-02-21 14:38:42 公開日:2023-02-20
# 価値関数探索による深いポリシー勾配の改善

Improving Deep Policy Gradients with Value Function Search ( http://arxiv.org/abs/2302.10145v1 )

ライセンス: Link先を確認
Enrico Marchesini, Christopher Amato(参考訳) Deep Policy Gradient (PG)アルゴリズムは、パラメータ化されたポリシーの学習を駆動し、勾配推定のばらつきを低減するために値ネットワークを使用する。 しかし、値関数近似は局所最適値に留まり、実際のリターンに適合し、分散低減効果を制限し、準最適性能のポリシーを導出する。 本稿では, 値予測, 分散低減, 勾配推定と真の勾配との相関など, 深いpgプリミティブへの影響を, 値近似の改善と解析に着目する。 そこで本研究では,よりよい近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。 我々のフレームワークは、付加的な環境相互作用、勾配計算、アンサンブルを必要とせず、バリューネットワークが学習する教師付き学習タスクを強化するための計算的に安価なアプローチを提供する。 重要なこととして、Deep PGプリミティブの改善によりサンプル効率が向上し、共通の連続制御ベンチマークドメインを用いたリターンが向上することを示す。

Deep Policy Gradient (PG) algorithms employ value networks to drive the learning of parameterized policies and reduce the variance of the gradient estimates. However, value function approximation gets stuck in local optima and struggles to fit the actual return, limiting the variance reduction efficacy and leading policies to sub-optimal performance. This paper focuses on improving value approximation and analyzing the effects on Deep PG primitives such as value prediction, variance reduction, and correlation of gradient estimates with the true gradient. To this end, we introduce a Value Function Search that employs a population of perturbed value networks to search for a better approximation. Our framework does not require additional environment interactions, gradient computations, or ensembles, providing a computationally inexpensive approach to enhance the supervised learning task on which value networks train. Crucially, we show that improving Deep PG primitives results in improved sample efficiency and policies with higher returns using common continuous control benchmark domains.
翻訳日:2023-02-21 14:38:15 公開日:2023-02-20
# ハッシュタグ誘導型低リソースツイート分類

Hashtag-Guided Low-Resource Tweet Classification ( http://arxiv.org/abs/2302.10143v1 )

ライセンス: Link先を確認
Shizhe Diao, Sedrick Scott Keh, Liangming Pan, Zhiliang Tian, Yan Song, Tong Zhang(参考訳) ソーシャルメディアの分類タスク(例えば、ツイートの感情分析、ツイートのスタンス検出)は、ソーシャルメディアの投稿が短く、非公式で曖昧であるために難しい。 したがって、ツイートのトレーニングは困難であり、時間とコストのかかる大規模なラベルを必要とする。 本稿では,ソーシャルメディアのつぶやきにハッシュタグを提供することによって,話題や感情,スタンスといったさまざまな情報の観点から,ハッシュタグが短く曖昧なツイートを豊かにすることができるため,この問題を軽減することができる。 これにより、入力ツイートに対して意味のあるハッシュタグを自動的に生成し、ツイート分類に有用な補助信号を提供するHashtag-guided Tweet Classification Model (HashTation)を提案する。 高品質で洞察に富んだハッシュタグを生成するために、ハッシュタグ生成モデルは、コーパス全体にわたってポストレベルおよびエンティティレベルの情報を検索およびエンコードします。 実験によれば、ハッシュ化は、限られた量のトレーニングデータしか提供されない7つの低リソースなツイート分類タスクにおいて、大幅な改善を達成している。 さらに分析すると、ハッシュ化はツイートとそのラベルと一致する高品質なハッシュタグを生成することができる。 コードはhttps://github.com/shizhediao/hashtationで入手できる。

Social media classification tasks (e.g., tweet sentiment analysis, tweet stance detection) are challenging because social media posts are typically short, informal, and ambiguous. Thus, training on tweets is challenging and demands large-scale human-annotated labels, which are time-consuming and costly to obtain. In this paper, we find that providing hashtags to social media tweets can help alleviate this issue because hashtags can enrich short and ambiguous tweets in terms of various information, such as topic, sentiment, and stance. This motivates us to propose a novel Hashtag-guided Tweet Classification model (HashTation), which automatically generates meaningful hashtags for the input tweet to provide useful auxiliary signals for tweet classification. To generate high-quality and insightful hashtags, our hashtag generation model retrieves and encodes the post-level and entity-level information across the whole corpus. Experiments show that HashTation achieves significant improvements on seven low-resource tweet classification tasks, in which only a limited amount of training data is provided, showing that automatically enriching tweets with model-generated hashtags could significantly reduce the demand for large-scale human-labeled data. Further analysis demonstrates that HashTation is able to generate high-quality hashtags that are consistent with the tweets and their labels. The code is available at https://github.com/shizhediao/HashTation.
翻訳日:2023-02-21 14:37:42 公開日:2023-02-20
# 導波路に適用可能な量子インスパイア画像拡張とアンダーソン局在による光画像転送

Quantum inspired image augmentation applicable to waveguides and optical image transfer via Anderson Localization ( http://arxiv.org/abs/2302.10138v1 )

ライセンス: Link先を確認
Nikolaos E. Palaiodimopoulos, Vitor Fortes Rey, Matthias Tsch\"ope, Christina J\"org, Paul Lukowicz and Maximilian Kiefer-Emmanouilidis(参考訳) 本稿では、古典的画像に適用可能な量子インスパイア画像拡張プロトコルと、量子システムや量子機械学習に適用可能な既知の量子定式化について述べる。 拡大法はアンダーソンの局所化現象に依存する。 数値例で示すように、この手法は材料中の不純物の散乱による干渉効果によって古典波の性質を変化させる。 そこで本論文では,増倍を乗法的雑音として理解し,非直観的平均化と解釈する。 さらに,光伝送の効率を高めるために,無秩序導波路の配列に拡張を実装できることを示す。

We present a quantum inspired image augmentation protocol which is applicable to classical images and, in principle, due to its known quantum formulation applicable to quantum systems and quantum machine learning in the future. The augmentation technique relies on the phenomenon Anderson localization. As we will illustrate by numerical examples the technique changes classical wave properties by interference effects resulting from scatterings at impurities in the material. We explain that the augmentation can be understood as multiplicative noise, which counter-intuitively averages out, by sampling over disorder realizations. Furthermore, we show how the augmentation can be implemented in arrays of disordered waveguides with direct implications for an efficient optical image transfer.
翻訳日:2023-02-21 14:37:17 公開日:2023-02-20
# 計測誘起相転移の計測と多成分絡み合い

Metrology and multipartite entanglement in measurement-induced phase transition ( http://arxiv.org/abs/2302.10132v1 )

ライセンス: Link先を確認
Giovanni Di Fresco, Bernardo Spagnolo, Davide Valenti, Angelo Carollo(参考訳) 測定誘起相転移は、決定論的量子進化と繰り返し測定過程の競合から生じる。 量子フィッシャー情報を通して測定誘起相転移を2つの異なるメトロロジカルなシナリオで検討する。 我々は、量子フィッシャー情報のスケーリング動作を通じて、位相間の多粒子交絡の遷移を実演する。 標準量子相転移と同様、測定強度が臨界値に近づくにつれて、量子フィッシャー情報の非解析的挙動における測定誘起相転移のシグネチャが明らかにされる。 以上の結果は、測定誘起相転移中の量子系の特徴に新たな洞察を与え、量子物理学の分野におけるさらなる探究の道筋を示す。

Measurement-induced phase transition arises from the competition between a deterministic quantum evolution and a repeated measurement process. We explore the measurement-induced phase transition through the Quantum Fisher Information in two different metrological scenarios. We demonstrate through the scaling behavior of the quantum Fisher information the transition of the multi-partite entanglement across the phases. In analogy with standard quantum phase transition, we reveal signature of a measurement-induced phase transition in the non-analytic behaviour of the quantum Fisher information as the measurement strength approaches the critical value. Our results offer novel insights into the features of a quantum systems undergoing measurement-induced phase transition and indicate potential avenues for further exploration in the field of quantum physics.
翻訳日:2023-02-21 14:37:05 公開日:2023-02-20
# 関数空間に対する無限次元拡散モデル

Infinite-Dimensional Diffusion Models for Function Spaces ( http://arxiv.org/abs/2302.10130v1 )

ライセンス: Link先を確認
Jakiw Pidstrigach, Youssef Marzouk, Sebastian Reich, Sven Wang(参考訳) 拡散に基づく生成モデルを無限次元で定義し,関数の生成モデルに適用する。 そのようなモデルをまず無限次元の極限で定式化し、それを離散化することで、サンプル測度から目標測度までの距離に 'emph{dimension-free' 境界を持つサンプリングアルゴリズムが得られる。 さらに,無限次元空間において条件付きサンプリングを行う新しい手法を提案し,提案手法が提案手法よりも優れていることを示す。

We define diffusion-based generative models in infinite dimensions, and apply them to the generative modeling of functions. By first formulating such models in the infinite-dimensional limit and only then discretizing, we are able to obtain a sampling algorithm that has \emph{dimension-free} bounds on the distance from the sample measure to the target measure. Furthermore, we propose a new way to perform conditional sampling in an infinite-dimensional space and show that our approach outperforms previously suggested procedures.
翻訳日:2023-02-21 14:36:56 公開日:2023-02-20
# Spatio-Temporal Momentum: 時系列と横断戦略を共同学習する

Spatio-Temporal Momentum: Jointly Learning Time-Series and Cross-Sectional Strategies ( http://arxiv.org/abs/2302.10175v1 )

ライセンス: Link先を確認
Wee Ling Tan, Stephen Roberts, Stefan Zohren(参考訳) 本稿では,時間的・時間的モーメント的特徴に基づく取引資産による時系列的・横断的なモーメント的戦略を統一するモデルである時空間的モーメント的戦略を紹介する。 時系列および断面運動量戦略は、組織的に運動量リスクの前兆を捉えるように設計されているが、これらの戦略は明確な実装と見なされており、異なる資産の時間的および横断的運動量特徴の同時関係と予測可能性を考慮していない。 複雑度の異なるニューラルネットワークを用いて時空間モーメントをモデル化し、単一の完全連結層のみを持つ単純なニューラルネットワークが、ポートフォリオ内のすべての資産のトレーディング信号を同時に生成することを学習することを示す。 46株のアクティブトレーディングと12株指数先物取引のポートフォリオをバックテストし、最大5-10ベーシックポイントの高取引コストでベンチマークを上回るパフォーマンスを維持することを実証した。 特に、最小の絶対的な収縮とターンオーバの正規化と組み合わせたモデルが、様々なトランザクションコストシナリオに対して最高のパフォーマンスをもたらすことが分かりました。

We introduce Spatio-Temporal Momentum strategies, a class of models that unify both time-series and cross-sectional momentum strategies by trading assets based on their cross-sectional momentum features over time. While both time-series and cross-sectional momentum strategies are designed to systematically capture momentum risk premia, these strategies are regarded as distinct implementations and do not consider the concurrent relationship and predictability between temporal and cross-sectional momentum features of different assets. We model spatio-temporal momentum with neural networks of varying complexities and demonstrate that a simple neural network with only a single fully connected layer learns to simultaneously generate trading signals for all assets in a portfolio by incorporating both their time-series and cross-sectional momentum features. Backtesting on portfolios of 46 actively-traded US equities and 12 equity index futures contracts, we demonstrate that the model is able to retain its performance over benchmarks in the presence of high transaction costs of up to 5-10 basis points. In particular, we find that the model when coupled with least absolute shrinkage and turnover regularization results in the best performance over various transaction cost scenarios.
翻訳日:2023-02-21 14:31:31 公開日:2023-02-20
# 生成モデル全体で一般化するユニバーサルフェイク画像検出器を目指して

Towards Universal Fake Image Detectors that Generalize Across Generative Models ( http://arxiv.org/abs/2302.10174v1 )

ライセンス: Link先を確認
Utkarsh Ojha, Yuheng Li, Yong Jae Lee(参考訳) 生成モデルが急速に増殖するにつれ、汎用的な偽画像検出器の必要性が高まっている。 本研究は,実物vsフェイク分類のための深層ネットワークを訓練した既存のパラダイムが,ganフェイク画像の検出訓練において,新たな種類の生成モデルからのフェイク画像の検出に失敗したことを最初に示す。 解析すると、結果の分類器は非対称に調整され、イメージを偽造するパターンを検出する。 実際のクラスは、トレーニング中にアクセスできないモデルから生成された画像を含む、偽でないものを保持するシンククラスになる。 この発見に基づいて,実画像と偽画像とを明示的に区別する訓練を受けていない特徴空間を用いて,学習せずに実画像分類を行うことを提案する。 我々は、このアイデアのインスタンス化として、最も近い近傍と線形探索を用いる。 大きな事前訓練された視覚言語モデルの特徴空間へのアクセスが与えられたとき、近辺の分類の非常に単純なベースラインは、様々な生成モデルから偽の画像を検出するのに驚くほどよい一般化能力を持っている。

With generative models proliferating at a rapid rate, there is a growing need for general purpose fake image detectors. In this work, we first show that the existing paradigm, which consists of training a deep network for real-vs-fake classification, fails to detect fake images from newer breeds of generative models when trained to detect GAN fake images. Upon analysis, we find that the resulting classifier is asymmetrically tuned to detect patterns that make an image fake. The real class becomes a sink class holding anything that is not fake, including generated images from models not accessible during training. Building upon this discovery, we propose to perform real-vs-fake classification without learning; i.e., using a feature space not explicitly trained to distinguish real from fake images. We use nearest neighbor and linear probing as instantiations of this idea. When given access to the feature space of a large pretrained vision-language model, the very simple baseline of nearest neighbor classification has surprisingly good generalization ability in detecting fake images from a wide variety of generative models; e.g., it improves upon the SoTA by +15.07 mAP and +25.90% acc when tested on unseen diffusion and autoregressive models.
翻訳日:2023-02-21 14:31:05 公開日:2023-02-20
# 予混合拡散モデルを用いたクロスドメイン合成

Cross-domain Compositing with Pretrained Diffusion Models ( http://arxiv.org/abs/2302.10167v1 )

ライセンス: Link先を確認
Roy Hachnochi, Mingrui Zhao, Nadav Orzech, Rinon Gal, Ali Mahdavi-Amiri, Daniel Cohen-Or, Amit Haim Bermano(参考訳) 拡散モデルは高品質で条件付き画像編集機能を実現している。 そこで本論文では,両機を拡張し,既製の拡散モデルが多種多様なクロスドメイン合成タスクに利用できることを示す。 画像のブレンド、オブジェクトの没入、テクスチャの再構成、cg2現実の翻訳やスタイリゼーションなどだ。 我々は,局所的で反復的なリファインメント・スキームを採用し,インジェクションされたオブジェクトに背景シーンから派生したコンテキスト情報を与え,オブジェクトが行う可能性のある変更の程度や種類を制御できる。 我々は,事前の作業と定性的かつ定量的な比較を行い,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られることを示した。 最後に,本手法が下流タスクのデータ拡張にどのように利用されるかを示す。

Diffusion models have enabled high-quality, conditional image editing capabilities. We propose to expand their arsenal, and demonstrate that off-the-shelf diffusion models can be used for a wide range of cross-domain compositing tasks. Among numerous others, these include image blending, object immersion, texture-replacement and even CG2Real translation or stylization. We employ a localized, iterative refinement scheme which infuses the injected objects with contextual information derived from the background scene, and enables control over the degree and types of changes the object may undergo. We conduct a range of qualitative and quantitative comparisons to prior work, and exhibit that our method produces higher quality and realistic results without requiring any annotations or training. Finally, we demonstrate how our method may be used for data augmentation of downstream tasks.
翻訳日:2023-02-21 14:30:44 公開日:2023-02-20
# テスト完了のためのDeep Semanticsの学習

Learning Deep Semantics for Test Completion ( http://arxiv.org/abs/2302.10166v1 )

ライセンス: Link先を確認
Pengyu Nie, Rahul Banerjee, Junyi Jessy Li, Raymond J. Mooney, Milos Gligoric(参考訳) テストを書くことは、ソフトウェア開発において時間を要するが必須のタスクである。 我々は、開発者がテストを書くのを助けるために、テキストとコード生成のためのディープラーニングの最近の進歩を活用することを提案する。 テスト完了の新たなタスクを形式化し,事前文とテスト対象コードのコンテキストに基づいて,テストメソッドで次の文を自動的に補完する。 テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。 tecoの根底にある重要な洞察は、テストメソッドにおける次のステートメントの予測にはコード実行に関する推論が必要であるということだ。 TeCoは、事前ステートメントの実行結果とテストメソッドの実行コンテキストを含む、6種類のコードセマンティクスデータを抽出し、使用する。 この新しいタスクのテストベッドを提供するとともに、TeCoを評価するために1,270のオープンソースJavaプロジェクトから130,934のテストメソッドのコーパスを収集します。 その結果,TeCoの精度は18で,構文レベルのデータのみを用いて最良ベースラインよりも29%高いことがわかった。 生成した次のステートメントの関数的正当性を測定する場合、TeCoは29%のケースで実行可能なコードを生成することができる。 さらに、TeCoは、テストオラクル生成の以前の作業よりもはるかに優れている。

Writing tests is a time-consuming yet essential task during software development. We propose to leverage recent advances in deep learning for text and code generation to assist developers in writing tests. We formalize the novel task of test completion to automatically complete the next statement in a test method based on the context of prior statements and the code under test. We develop TeCo -- a deep learning model using code semantics for test completion. The key insight underlying TeCo is that predicting the next statement in a test method requires reasoning about code execution, which is hard to do with only syntax-level data that existing code completion models use. TeCo extracts and uses six kinds of code semantics data, including the execution result of prior statements and the execution context of the test method. To provide a testbed for this new task, as well as to evaluate TeCo, we collect a corpus of 130,934 test methods from 1,270 open-source Java projects. Our results show that TeCo achieves an exact-match accuracy of 18, which is 29% higher than the best baseline using syntax-level data only. When measuring functional correctness of generated next statement, TeCo can generate runnable code in 29% of the cases compared to 18% obtained by the best baseline. Moreover, TeCo is significantly better than prior work on test oracle generation.
翻訳日:2023-02-21 14:30:28 公開日:2023-02-20
# 量子エントロピー熱化

Quantum entropy thermalization ( http://arxiv.org/abs/2302.10165v1 )

ライセンス: Link先を確認
Yichen Huang and Aram W. Harrow(参考訳) ユニタリ進化を行う孤立量子多体系では、サブシステム(システムサイズの半分以下)のエントロピーが長い時間で熱化すると、同じエネルギーでサブシステムの熱力学的エントロピーに等しい次数となる。 本稿では,ほぼ可積分なsachdev-ye-kitaevモデルに対するエントロピー熱化の証明を行う。 このモデルは、ランダムなフリーフェミオンモデルに摂動として、ランダムな全対全4ドルの相互作用を加えることで得られる。

In an isolated quantum many-body system undergoing unitary evolution, the entropy of a subsystem (smaller than half the system size) thermalizes if at long times, it is to leading order equal to the thermodynamic entropy of the subsystem at the same energy. In this paper, we prove entropy thermalization for a nearly integrable Sachdev-Ye-Kitaev model initialized in a pure product state. The model is obtained by adding random all-to-all $4$-body interactions as a perturbation to a random free-fermion model.
翻訳日:2023-02-21 14:30:11 公開日:2023-02-20
# 逆流・自然分布シフトに対するロバスト性を考慮した調味料モデルスープ

Seasoning Model Soups for Robustness to Adversarial and Natural Distribution Shifts ( http://arxiv.org/abs/2302.10164v1 )

ライセンス: Link先を確認
Francesco Croce, Sylvestre-Alvise Rebuffi, Evan Shelhamer, Sven Gowal(参考訳) 敵対的訓練は、与えられた$p$-normの$\ell_p$-norm有界摂動のような特定の脅威や敵に対して堅牢な分類子を作るために広く用いられている。 しかし、複数の脅威に対して堅牢な既存の分類器の訓練方法は、訓練中にすべての攻撃の知識を必要とし、見つからない分布シフトに弱いままである。 本稿では,異なる$\ell_p$-norm有界敵に対する円滑なトレードオフ頑健性を実現する,逆ロバストモデルスープ(すなわちパラメータの線形結合)の入手方法について述べる。 このようなスープはロバスト性の種類やレベルを制御でき、すべての脅威に対して、共同でトレーニングすることなく堅牢性を実現できることを実証する。 結果のモデルスープは、与えられた$\ell_p$-norm敵に対して、同じ敵に対して特殊化された構成モデルよりも堅牢である場合もあります。 最後に, 逆回転モデルスープは, いくつかの例から, 分布シフトに適応するための有効なツールであることを示す。

Adversarial training is widely used to make classifiers robust to a specific threat or adversary, such as $\ell_p$-norm bounded perturbations of a given $p$-norm. However, existing methods for training classifiers robust to multiple threats require knowledge of all attacks during training and remain vulnerable to unseen distribution shifts. In this work, we describe how to obtain adversarially-robust model soups (i.e., linear combinations of parameters) that smoothly trade-off robustness to different $\ell_p$-norm bounded adversaries. We demonstrate that such soups allow us to control the type and level of robustness, and can achieve robustness to all threats without jointly training on all of them. In some cases, the resulting model soups are more robust to a given $\ell_p$-norm adversary than the constituent model specialized against that same adversary. Finally, we show that adversarially-robust model soups can be a viable tool to adapt to distribution shifts from a few examples.
翻訳日:2023-02-21 14:30:03 公開日:2023-02-20
# 共変量シフト下におけるカーネルリッジ回帰の擬似ラベル付け

Pseudo-labeling for Kernel Ridge Regression under Covariate Shift ( http://arxiv.org/abs/2302.10160v1 )

ライセンス: Link先を確認
Kaizheng Wang(参考訳) 共変量シフトの下でカーネルリッジ回帰の原理的アプローチを開発し解析する。 目的は、対象の分布に対する平均2乗誤差が小さい回帰関数を、ラベルのないデータと異なる特徴分布を持つ可能性のあるラベル付きデータに基づいて学習することである。 ラベル付きデータを2つのサブセットに分割し、カーネルリッジの回帰処理を行い、候補モデルの集合と計算モデルを得る。 不足しているラベルを埋めるために後者を使用し、それに従って最適な候補モデルを選択します。 我々の非漸近的過剰リスク境界は、非常に一般的なシナリオでは、推定器が目標分布の構造と共変量シフトに適応することを示している。 最小の最適誤差率を対数係数まで達成する。 モデル選択における擬似ラベルの使用は、大きな悪影響をもたらさない。

We develop and analyze a principled approach to kernel ridge regression under covariate shift. The goal is to learn a regression function with small mean squared error over a target distribution, based on unlabeled data from there and labeled data that may have a different feature distribution. We propose to split the labeled data into two subsets and conduct kernel ridge regression on them separately to obtain a collection of candidate models and an imputation model. We use the latter to fill the missing labels and then select the best candidate model accordingly. Our non-asymptotic excess risk bounds show that in quite general scenarios, our estimator adapts to the structure of the target distribution as well as the covariate shift. It achieves the minimax optimal error rate up to a logarithmic factor. The use of pseudo-labels in model selection does not have major negative impacts.
翻訳日:2023-02-21 14:29:43 公開日:2023-02-20
# 状態トモグラフィーを伴わない2量子量子相関の実験的階層

Experimental hierarchy of two-qubit quantum correlations without state tomography ( http://arxiv.org/abs/2302.10159v1 )

ライセンス: Link先を確認
Shilan Abo, Jan Soubusta, Kate\v{r}ina Jir\'akov\'a, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Karel Lemr, Adam Miranowicz(参考訳) ワーナー状態(英: Werner state)は、ホワイトノイズによって影響を受ける一重項ベル状態であり、ノイズの量をコントロールすることによって量子エンタングルメント、ステアリング、ベル非局所性の階層を明らかにする状態のプロトタイプである。 しかし、この階層を十分かつ必要な方法で(つまり、これらの量子相関の測度や普遍的な証人を適用することによって)実験的に実証するには、少なくとも15の2量子ビット状態の実パラメータを計測する完全な量子状態トモグラフィーが必要であった。 本稿では,2キュービットストークスパラメータの線形結合に依存する相関行列の6要素のみを測定することにより,この階層構造を実験的に実証する。 また,白色雑音の影響を受ける2量子ビット純状態である一般化ヴェルナー状態の量子相関の階層構造も実験的に明らかにできることを示した。

A Werner state, which is the singlet Bell state affected by white noise, is a prototype example of states, which can reveal a hierarchy of quantum entanglement, steering, and Bell nonlocality by controlling the amount of noise. However, experimental demonstrations of this hierarchy in a sufficient and necessary way (i.e., by applying measures or universal witnesses of these quantum correlations) required so far full quantum state tomography, which is based on measuring at least 15 real parameters of two-qubit states. Here we report an experimental demonstration of this hierarchy by measuring only six elements of a correlation matrix depending on linear combinations of two-qubit Stokes parameters. We show that our experimental setup can also reveal the hierarchy of these quantum correlations of generalized Werner states, which are any two-qubit pure states affected by white noise.
翻訳日:2023-02-21 14:29:30 公開日:2023-02-20
# 分散閾値を超えるスパースPCA

Sparse PCA Beyond Covariance Thresholding ( http://arxiv.org/abs/2302.10158v1 )

ライセンス: Link先を確認
Gleb Novikov(参考訳) スパースPCAのウィッシュアートモデルでは、$n$サンプル$Y_1,\ldots, Y_n$を$d$次元ガウス分布$N({0, Id + \beta vv^\top})$から独立に描画し、$\beta > 0$と$v\in \mathbb{R}^d$を$k$スパース単位ベクトルとし、$v$を回復したい。 すると、$n \ge \Omega(d)$ であれば、すべての $t \ll k$ に対して \[ \beta \gtrsim \frac{k}{\sqrt{nt}}\sqrt{\ln({2 + td/k^2})}\ である限り、この問題を解くアルゴリズムが存在することを示す。 この研究に先立ち、$k\approx \sqrt{d}$、すなわち \emph{Covariance Thresholding} ([KNV15a]で提案され、[DM14]で解析された) における最良の多項式時間アルゴリズムは、$\beta \gtrsim \frac{k}{\sqrt{n}}\sqrt{\ln({2 + d/k^2})}$である。 十分大きな定数$t$の場合、我々のアルゴリズムは多項式時間で動き、Covariance Thresholdingよりも保証が高い。 このような保証を持つ既知アルゴリズムは、準多項式時間 $d^{O(\log d)}$ を必要とする。 さらに,本手法は[dKNS20]で研究した対向摂動を伴うスパースPCAで動作することを示す。 このモデルはスパースPCAだけでなく、スパース植込みベクトル問題を含む以前の研究で研究された他の問題も一般化する。 結果として、いくつかのレジームにおける最先端技術よりも優れた保証を持つ疎植ベクトル問題に対する多項式時間アルゴリズムを提供する。 我々のアプローチは、スパースPCAのためのWignerモデルとも連携する。 さらに,本手法とスパースpcaの最近の結果と対称重み付き雑音 [dnns22] を組み合わせることが可能であることを示した。 特に、レジーム $k \approx \sqrt{d}$ では、[dNNS22] のアルゴリズムが対称重み付きノイズを扱う最初の多項式時間アルゴリズムが得られます。 これらの設定では準多項時間を必要とする。

In the Wishart model for sparse PCA we are given $n$ samples $Y_1,\ldots, Y_n$ drawn independently from a $d$-dimensional Gaussian distribution $N({0, Id + \beta vv^\top})$, where $\beta > 0$ and $v\in \mathbb{R}^d$ is a $k$-sparse unit vector, and we wish to recover $v$ (up to sign). We show that if $n \ge \Omega(d)$, then for every $t \ll k$ there exists an algorithm running in time $n\cdot d^{O(t)}$ that solves this problem as long as \[ \beta \gtrsim \frac{k}{\sqrt{nt}}\sqrt{\ln({2 + td/k^2})}\,. \] Prior to this work, the best polynomial time algorithm in the regime $k\approx \sqrt{d}$, called \emph{Covariance Thresholding} (proposed in [KNV15a] and analyzed in [DM14]), required $\beta \gtrsim \frac{k}{\sqrt{n}}\sqrt{\ln({2 + d/k^2})}$. For large enough constant $t$ our algorithm runs in polynomial time and has better guarantees than Covariance Thresholding. Previously known algorithms with such guarantees required quasi-polynomial time $d^{O(\log d)}$. In addition, we show that our techniques work with sparse PCA with adversarial perturbations studied in [dKNS20]. This model generalizes not only sparse PCA, but also other problems studied in prior works, including the sparse planted vector problem. As a consequence, we provide polynomial time algorithms for the sparse planted vector problem that have better guarantees than the state of the art in some regimes. Our approach also works with the Wigner model for sparse PCA. Moreover, we show that it is possible to combine our techniques with recent results on sparse PCA with symmetric heavy-tailed noise [dNNS22]. In particular, in the regime $k \approx \sqrt{d}$ we get the first polynomial time algorithm that works with symmetric heavy-tailed noise, while the algorithm from [dNNS22]. requires quasi-polynomial time in these settings.
翻訳日:2023-02-21 14:29:13 公開日:2023-02-20
# 非保存拡散過程のダイナミクス

Dynamics of nonconservative diffusion processes ( http://arxiv.org/abs/2302.10154v1 )

ライセンス: Link先を確認
P. Garbaczewski, M. \.Zaba(参考訳) 我々は、非平衡拡散過程の力学が、最小の電磁結合を持つシュル・"{o}ディンガー量子力学のフルユークリッドバージョンと関連している最近の理論フレームワークの長所と短所を分析し、磁場中のブラウン運動の標準理論に対して「磁性」親和性が設定される。 利点は、マルコフ拡散過程の遷移確率密度関数に対する既存の正確な公式が、[Phys. Rev. E 107,014101, (2023)] の非エルミート的設定においてそれらの(単なる形式的な)経路積分に写像できることである。 これは、拡散荷電粒子の電磁摂動という概念を必ずしも具現化していないが、この設定を超えている非保存拡散過程の研究に現れる標準的なブラウン磁気軌跡と潜在的に有用な電磁類似物を識別することができる。

We analyze pros and cons of the recently introduced theoretical framework, within which the dynamics of nonequilibrium diffusion processes is related to the fully Euclidean version of the Schr\"{o}dinger quantum mechanics with a minimal electromagnetic coupling. The arising "magnetic" affinity is set against the standard theory of the Brownian motion in a magnetic field. The benefit is that the existing exact formulas for transition probability density functions of the involved Markovian diffusion processes, can be mapped into their (merely formal) path integral counterparts in the non-Hermitean setting of [Phys. Rev. E 107,014101, (2023)]. This allows to discriminate beween the standard Brownian magnetic lore and potentially useful electromagnetic analogies appearing in the study of nonconservative diffusion processes, which do not necessarily embody the very concept of electromagnetic perturbations of diffusing charged particles, but extend far beyond this setting.
翻訳日:2023-02-21 14:28:19 公開日:2023-02-20
# sMRI-PatchNet: アルツハイマー病診断と構造MRIによる識別性萎縮の鑑別のための新しいパッチベースディープラーニングネットワーク

sMRI-PatchNet: A novel explainable patch-based deep learning network for Alzheimer's disease diagnosis and discriminative atrophy localisation with Structural MRI ( http://arxiv.org/abs/2302.08967v2 )

ライセンス: Link先を確認
Xin Zhang, Liangxiu Han, Lianghao Han, Haoming Chen, Darren Dancey, Daoqiang Zhang(参考訳) 構造磁気共鳴イメージング(sMRI)は、軟部組織に対する高いコントラストと高空間分解能による微妙な脳変化を識別することができる。 アルツハイマー病(ad)などの神経性脳疾患の診断に広く用いられている。 しかし,3次元高解像度データのサイズは,データ解析や処理において大きな課題となる。 画像データ全体をいくつかの小さな正規パッチに分割するパッチベースの手法は、より効率的なsMRIベースの画像解析に有望であることが示されている。 sMRIにおけるパッチベースの手法の主な課題は、識別パッチの識別、識別パッチの特徴の組み合わせ、適切な分類器の設計である。 本研究は、sMRIを用いたAD診断のための説明可能なパッチローカライズと選択が可能なパッチベースの新しいディープラーニングネットワーク(sMRI-PatchNet)を提案する。 具体的には2つの主成分から構成される。 1) 大量医療データによる広告診断のための伝達学習モデルへのシャプレーア添加説明(shap)の寄与を計算して、最も識別可能なパッチを決定する迅速かつ効率的なパッチ選択機構 2) 位置埋め込みにより選択したパッチから深い特徴や広告分類を抽出し, 位置情報を保持し, パッチ間およびパッチ内情報を取り込むことのできる新しいパッチベースネットワーク。 この手法はAD分類と、実際のデータセットによる遷移状態中等認知障害(MCI)変換の予測に応用されている。

Structural magnetic resonance imaging (sMRI) can identify subtle brain changes due to its high contrast for soft tissues and high spatial resolution. It has been widely used in diagnosing neurological brain diseases, such as Alzheimer disease (AD). However, the size of 3D high-resolution data poses a significant challenge for data analysis and processing. Since only a few areas of the brain show structural changes highly associated with AD, the patch-based methods dividing the whole image data into several small regular patches have shown promising for more efficient sMRI-based image analysis. The major challenges of the patch-based methods on sMRI include identifying the discriminative patches, combining features from the discrete discriminative patches, and designing appropriate classifiers. This work proposes a novel patch-based deep learning network (sMRI-PatchNet) with explainable patch localisation and selection for AD diagnosis using sMRI. Specifically, it consists of two primary components: 1) A fast and efficient explainable patch selection mechanism for determining the most discriminative patches based on computing the SHapley Additive exPlanations (SHAP) contribution to a transfer learning model for AD diagnosis on massive medical data; and 2) A novel patch-based network for extracting deep features and AD classfication from the selected patches with position embeddings to retain position information, capable of capturing the global and local information of inter- and intra-patches. This method has been applied for the AD classification and the prediction of the transitional state moderate cognitive impairment (MCI) conversion with real datasets.
翻訳日:2023-02-21 12:16:12 公開日:2023-02-20
# 近似ベイズ最適擬似ラベル選択

Approximate Bayes Optimal Pseudo-Label Selection ( http://arxiv.org/abs/2302.08883v2 )

ライセンス: Link先を確認
Julian Rodemann, Jann Goschenhofer, Emilio Dorigatti, Thomas Nagler, Thomas Augustin(参考訳) 自己学習による半教師付き学習は擬似ラベル選択(pls)に大きく依存する。 選択はしばしばラベル付きデータに適合する初期モデルに依存する。 したがって、初期オーバーフィッティングは、しばしば確認バイアスと呼ばれる過信だが誤った予測を持つインスタンスを選択することで最終モデルに伝播する可能性がある。 本稿では,この問題の緩和を目的としたBPLSについて述べる。 その核となるのは、ラベルのインスタンスを選択するための基準である:擬似サンプルの後方予測の解析的近似である。 この選択基準を疑似サンプルの後方予測のベイズ最適性を証明することによって導出する。 さらに、評価基準を解析的に近似することで計算ハードルを克服する。 その限界確率との関係により、ラプラスの方法とガウス積分に基づく近似を導き出すことができる。 シミュレーションおよび実世界のデータに基づいて,パラメトリック一般化線形および非パラメトリック一般化加法モデルに対してBPLSを実験的に評価する。 高次元データに直面すると、BPLSは従来のPLS法よりも優れている。

Semi-supervised learning by self-training heavily relies on pseudo-label selection (PLS). The selection often depends on the initial model fit on labeled data. Early overfitting might thus be propagated to the final model by selecting instances with overconfident but erroneous predictions, often referred to as confirmation bias. This paper introduces BPLS, a Bayesian framework for PLS that aims to mitigate this issue. At its core lies a criterion for selecting instances to label: an analytical approximation of the posterior predictive of pseudo-samples. We derive this selection criterion by proving Bayes optimality of the posterior predictive of pseudo-samples. We further overcome computational hurdles by approximating the criterion analytically. Its relation to the marginal likelihood allows us to come up with an approximation based on Laplace's method and the Gaussian integral. We empirically assess BPLS for parametric generalized linear and non-parametric generalized additive models on simulated and real-world data. When faced with high-dimensional data prone to overfitting, BPLS outperforms traditional PLS methods.
翻訳日:2023-02-21 12:15:48 公開日:2023-02-20
# 物理インフォームドニューラルネットワークによるCOVID-19の疫学的ダイナミックスへのアプローチ

Approaching epidemiological dynamics of COVID-19 with physics-informed neural networks ( http://arxiv.org/abs/2302.08796v2 )

ライセンス: Link先を確認
Shuai Han, Lukas Stelz, Horst Stoecker, Lingxiao Wang, Kai Zhou(参考訳) SIRモデルに埋め込まれた物理インフォームドニューラルネットワーク(PINN)は、感染症の時間的進化のダイナミクスを理解するために考案された。 第一に, 本手法の有効性を, 感受性アシンプタマティック・infected-recovered-dead (saird) モデルの数値解から得られる合成データを用いて実証した。 そして、ドイツで報告された新型コロナウイルス(COVID-19)のデータに適用し、ウイルスの拡散傾向を正確に把握し予測できることを示す。 その結果,不完全な物理モデルではより複雑なダイナミクスに効率的にアプローチできることがわかった。 そこで本研究では, PINNなどの機械学習手法を用いて, コンパートメンタルモデルと組み合わせて, 流行のダイナミクスを研究・予測する可能性を示す。

A physics-informed neural network (PINN) embedded with the susceptible-infected-removed (SIR) model is devised to understand the temporal evolution dynamics of infectious diseases. Firstly, the effectiveness of this approach is demonstrated on synthetic data as generated from the numerical solution of the susceptible-asymptomatic-infected-recovered-dead (SAIRD) model. Then, the method is applied to COVID-19 data reported for Germany and shows that it can accurately identify and predict virus spread trends. The results indicate that an incomplete physics-informed model can approach more complicated dynamics efficiently. Thus, the present work demonstrates the high potential of using machine learning methods, e.g., PINNs, to study and predict epidemic dynamics in combination with compartmental models.
翻訳日:2023-02-21 12:15:35 公開日:2023-02-20
# グラフ畳み込みネットワークのためのバイファインマッピングによる距離ノード間のショートカット構築

Building Shortcuts between Distant Nodes with Biaffine Mapping for Graph Convolutional Networks ( http://arxiv.org/abs/2302.08727v2 )

ライセンス: Link先を確認
Acong Zhang and Jincheng Huang and Ping Li and Kai Zhang(参考訳) 近年の複数の研究により、グラフ畳み込みネットワーク(gcns)におけるパラドックス、すなわち浅いアーキテクチャは、高階の隣人からの情報を学習する能力を制限する。 本研究では,浅層アーキテクチャの単純さを享受し,その限界を克服するために,浅層アーキテクチャを用いたグラフ畳み込みネットワークの表現性を向上するバイファイン手法を提案する。 本手法の核となる設計は、ノード表現のためのリッチな情報をキャプチャできる1ホップメッセージパッシングのみを含む、ノードの長距離近傍への直接依存を学習することである。 さらに,長距離依存から学習した表現を活用できる多視点コントラスト学習手法を提案する。 9つのグラフベンチマークデータセットの大規模な実験により、浅いバイファイングラフ畳み込みネットワーク(BAGCN)は、半教師付きノード分類における最先端のGCN(深いアーキテクチャや浅いアーキテクチャ)よりも著しく優れていることが示唆された。 さらに,ノード表現学習におけるbiaffine設計の有効性と,トレーニングデータのサイズによるパフォーマンス一貫性を検証した。

Multiple recent studies show a paradox in graph convolutional networks (GCNs), that is, shallow architectures limit the capability of learning information from high-order neighbors, while deep architectures suffer from over-smoothing or over-squashing. To enjoy the simplicity of shallow architectures and overcome their limits of neighborhood extension, in this work, we introduce Biaffine technique to improve the expressiveness of graph convolutional networks with a shallow architecture. The core design of our method is to learn direct dependency on long-distance neighbors for nodes, with which only one-hop message passing is capable of capturing rich information for node representation. Besides, we propose a multi-view contrastive learning method to exploit the representations learned from long-distance dependencies. Extensive experiments on nine graph benchmark datasets suggest that the shallow biaffine graph convolutional networks (BAGCN) significantly outperforms state-of-the-art GCNs (with deep or shallow architectures) on semi-supervised node classification. We further verify the effectiveness of biaffine design in node representation learning and the performance consistency on different sizes of training data.
翻訳日:2023-02-21 12:15:22 公開日:2023-02-20
# 多重グラフにおける量子対称性

Quantum symmetry in multigraphs ( http://arxiv.org/abs/2302.08726v2 )

ライセンス: Link先を確認
Debashish Goswami and Sk Asfaq Hossain(参考訳) 有向あるいは無向の多重グラフにおいて、孤立頂点を持たない様々な量子対称性の概念を導入し、それらの関係を探求する。 多重グラフが(ループの有無に関わらず)単純であれば、量子対称性のすべての概念は、ビコンとバナカによって既に存在する量子対称性の概念に還元される。

We introduce various notions of quantum symmetry in a directed or undirected multigraph with no isolated vertex and explore relations among them. If the multigraph is simple (with or without loops), all our notions of quantum symmetry reduce to the already existing notions of quantum symmetry provided by Bichon and Banica.
翻訳日:2023-02-21 12:15:01 公開日:2023-02-20
# 微細粒状クロスモーダル核融合によるテキスト・画像合成

Fine-grained Cross-modal Fusion based Refinement for Text-to-Image Synthesis ( http://arxiv.org/abs/2302.08706v2 )

ライセンス: Link先を確認
Haoran Sun, Yang Wang, Haipeng Liu, Biao Qian(参考訳) テキストから画像への合成(text-to-image synthesis)とは、与えられたテキスト記述から視覚的かつ意味的に一貫した画像を生成することを指す。 以前のアプローチでは、最初の低解像度イメージを生成し、それを高解像度に洗練する。 著しい進歩にもかかわらず、これらの手法は与えられたテキストを十分に活用することは限られており、特にテキスト記述が複雑であれば、テキストミスマッチ画像を生成することができる。 本稿では, ff-ganと呼ばれる, きめ細かなテキスト画像融合ブロック (ff-block) とglobal semanticfine (gsr) の2つのモジュールからなる, きめ細かなテキスト画像融合ベースの生成逆ネットワークを提案する。 提案するFF-Blockは、注目ブロックと複数の畳み込み層を統合し、細粒度の単語コンテキスト特徴を対応する視覚特徴に効果的に融合させる。 また,言語的特徴と視覚的特徴のグローバルな意味的整合性を改善するため,GSRを提案する。 CUB-200とCOCOデータセットに関する大規模な実験は、与えられたテキストにセマンティック一貫性のある画像を生成する場合、FF-GANが他の最先端アプローチよりも優れていることを示す。

Text-to-image synthesis refers to generating visual-realistic and semantically consistent images from given textual descriptions. Previous approaches generate an initial low-resolution image and then refine it to be high-resolution. Despite the remarkable progress, these methods are limited in fully utilizing the given texts and could generate text-mismatched images, especially when the text description is complex. We propose a novel Fine-grained text-image Fusion based Generative Adversarial Networks, dubbed FF-GAN, which consists of two modules: Fine-grained text-image Fusion Block (FF-Block) and Global Semantic Refinement (GSR). The proposed FF-Block integrates an attention block and several convolution layers to effectively fuse the fine-grained word-context features into the corresponding visual features, in which the text information is fully used to refine the initial image with more details. And the GSR is proposed to improve the global semantic consistency between linguistic and visual features during the refinement process. Extensive experiments on CUB-200 and COCO datasets demonstrate the superiority of FF-GAN over other state-of-the-art approaches in generating images with semantic consistency to the given texts.Code is available at https://github.com/haoranhfut/FF-GAN.
翻訳日:2023-02-21 12:14:55 公開日:2023-02-20
# マグノンスクイーズを用いたキャビティマグノメカニカルシステムにおける量子相関のコヒーレントフィードバック制御

Coherent feedback control of quantum correlations in cavity magnomechanical system with magnon squeezing ( http://arxiv.org/abs/2302.08567v2 )

ライセンス: Link先を確認
M. Amazioug, S. K. Singh, B. Teklu and M. Asjad(参考訳) 我々は,マグノンスクイーズの存在下でのコヒーレントフィードバックループを用いて,キャビティ・オプティコメカニカルシステムの量子相関性を高める手法に対処する。 提案するコヒーレントフィードバック制御は、フォトンフォノン、フォノンマグノン、フォノンマグノンの3つの2成分サブシステムの絡み合いを著しく向上させる。 また, アインシュタイン・ポドルスキー・ローゼンステアリングと一方向ステアリングについても, サブシステム内の非対称損失やノイズの条件を付加することなく, 熱効果の存在下で検討した。 さらに, 本手法のマグノンスクイーズに対する感度と, 損失や騒音を考慮した非理想的状況における性能について検討した。

We address a scheme to enhance the quantum correlations in cavity opto-magnomechanical system by using the coherent feedback loop in the presence of magnon squeezing. The proposed coherent feedback-control allows a significant enhancement of the entanglement of three bipartite subsystems, i.e., photon-phonon, photon-magnon and phonon-magnon. We also study the Einstein-Podolsky-Rosen steering and one-way steering in the presence of thermal effects without imposing additional conditions of asymmetric losses or noises in the subsystems. Furthermore, we investigate the sensitiveness of the scheme to the magnon squeezing, and its performance in non-ideal situations in which losses and noises are taken into account.
翻訳日:2023-02-21 12:14:28 公開日:2023-02-20
# 大規模言語モデルは思考理論への微妙な変更に失敗する

Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks ( http://arxiv.org/abs/2302.08399v3 )

ライセンス: Link先を確認
Tomer Ullman(参考訳) 直観心理学は常識推論の柱である。 マシンインテリジェンスにおけるこの推論の再現は、人間のような人工知能への道のりの重要な一歩である。 大規模モデルにおけるこの推論を検証するための最近のいくつかのタスクとベンチマークは、特に思考理論のタスクにおける信念の帰属に焦点を当てている。 これらのタスクは成功と失敗の両方を示しています。 特に,最近報告された成功事例について考察し,ToMの原則を維持する小さなバリエーションが,その結果を反映していることを示す。 一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であり,失敗事例は平均的成功率を上回るべきであると論じる。 また、より強力なLCMによる「ミステリー・オブ・ミンド」タスクにおける将来的な成功の可能性についても検討する。

Intuitive psychology is a pillar of common-sense reasoning. The replication of this reasoning in machine intelligence is an important stepping-stone on the way to human-like artificial intelligence. Several recent tasks and benchmarks for examining this reasoning in Large-Large Models have focused in particular on belief attribution in Theory-of-Mind tasks. These tasks have shown both successes and failures. We consider in particular a recent purported success case, and show that small variations that maintain the principles of ToM turn the results on their head. We argue that in general, the zero-hypothesis for model evaluation in intuitive psychology should be skeptical, and that outlying failure cases should outweigh average success rates. We also consider what possible future successes on Theory-of-Mind tasks by more powerful LLMs would mean for ToM tasks with people.
翻訳日:2023-02-21 12:14:12 公開日:2023-02-20