このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230110となっている論文です。

PDF登録状況(公開日: 20230110)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子コンピューティングのためのアプリケーション指向パフォーマンスベンチマーク

Application-Oriented Performance Benchmarks for Quantum Computing ( http://arxiv.org/abs/2110.03137v3 )

ライセンス: Link先を確認
Thomas Lubinski, Sonika Johri, Paul Varosy, Jeremiah Coleman, Luning Zhao, Jason Necaise, Charles H. Baldwin, Karl Mayer, Timothy Proctor(参考訳) 本稿では、量子アプリケーション実行における量子コンピューティングハードウェアの有効性を測定するために設計された、量子アプリケーション指向のパフォーマンスベンチマークのオープンソーススイートを紹介する。 これらのベンチマークは、回路幅と深さの関数として、ボリュームベンチマークの枠組みを用いて結果の忠実度をマッピングすることにより、様々なアルゴリズムと小さなアプリケーション上での量子コンピュータの性能を探索する。 このスイートは、量子実行によって生成された結果の忠実度を推定するだけでなく、実行パイプラインの特定の側面をベンチマークして、エンドユーザに品質と解決までの時間の両方の実用的な測定値を提供するように設計されている。 我々の手法は、今後5年以内に出現するであろう量子コンピューティングハードウェアの進歩を予想するために構築されている。 このベンチマークスイートは、広く使用可能なように設計されており、よく知られた量子コンピューティングアルゴリズムに対応するベンチマークを提供する。

In this work we introduce an open source suite of quantum application-oriented performance benchmarks that is designed to measure the effectiveness of quantum computing hardware at executing quantum applications. These benchmarks probe a quantum computer's performance on various algorithms and small applications as the problem size is varied, by mapping out the fidelity of the results as a function of circuit width and depth using the framework of volumetric benchmarking. In addition to estimating the fidelity of results generated by quantum execution, the suite is designed to benchmark certain aspects of the execution pipeline in order to provide end-users with a practical measure of both the quality of and the time to solution. Our methodology is constructed to anticipate advances in quantum computing hardware that are likely to emerge in the next five years. This benchmarking suite is designed to be readily accessible to a broad audience of users and provides benchmarks that correspond to many well-known quantum computing algorithms.
翻訳日:2023-03-12 06:07:22 公開日:2023-01-10
# リアルタイムダイナミクスシミュレーションのための完全コヒーレント量子信号処理アルゴリズム

Efficient Fully-Coherent Quantum Signal Processing Algorithms for Real-Time Dynamics Simulation ( http://arxiv.org/abs/2110.11327v6 )

ライセンス: Link先を確認
John M. Martyn, Yuan Liu, Zachary E. Chin, and Isaac L. Chuang(参考訳) 量子システムのユニタリダイナミクスをシミュレートすることは量子力学の根本的な問題であり、量子コンピュータはその古典的コンピュータよりも大きな利点があると考えられている。 そのような例として、化学反応、非平衡力学、材料設計において重要な役割を果たす電子力学のシミュレーションがある。 これらのシステムはしばしば時間に依存し、対応するシミュレーションアルゴリズムがシステムの全体的なコヒーレントな量子力学を再現するために、異なる時間間隔で自分自身とうまく結合することを要求している。 本稿では,このようなシミュレーションアルゴリズムを完全コヒーレントと呼ばれる特性により定量化する。このアルゴリズムは,初期状態のコピーを1個だけ必要としながら,任意に高い成功確率1-\delta$で成功する。 その後、量子信号処理(QSP)に基づく完全コヒーレントなシミュレーションアルゴリズムを開発し、振幅増幅の使用を回避しつつ、時間$t$, $\ln(1/\delta)$, $\ln(1/\epsilon)$ for error tolerance $\epsilon$: $\Theta\big( \|\mathcal{H}\| |t| + \ln(1/\epsilon) + \ln(1/\delta)\big)$でクエリ複雑性を加算する新しいアルゴリズムを開発した。 さらに, これらのアルゴリズムをハイゼンベルク模型のスピンダイナミクスとH$2$分子の相関電子力学のシミュレーションに応用して数値解析を行った。 任意の電子ハミルトニアンはスピンハミルトニアンに写像できるので、量子計算の回路モデルにおいて時間依存ab慣性電子力学を効率的にシミュレートすることができる。 したがって、本研究がQSPベースの量子アルゴリズムと化学動力学の橋渡しとなり、これらのエキサイティングな場間の交叉受精を促進することを願っている。

Simulating the unitary dynamics of a quantum system is a fundamental problem of quantum mechanics, in which quantum computers are believed to have significant advantage over their classical counterparts. One prominent such instance is the simulation of electronic dynamics, which plays an essential role in chemical reactions, non-equilibrium dynamics, and material design. These systems are often time-dependent, which requires that the corresponding simulation algorithm can be successfully concatenated with itself over different time intervals to reproduce the overall coherent quantum dynamics of the system. In this paper, we quantify such simulation algorithms by a property called fully-coherent: the algorithm succeeds with arbitrarily high success probability $1-\delta$, while only requiring a single copy of the initial state. We subsequently develop fully-coherent simulation algorithms based on quantum signal processing (QSP), including a novel algorithm that circumvents the use of amplitude amplification while also achieving a query complexity additive in time $t$, $\ln(1/\delta)$, and $\ln(1/\epsilon)$ for error tolerance $\epsilon$: $\Theta\big( \|\mathcal{H}\| |t| + \ln(1/\epsilon) + \ln(1/\delta)\big)$. Furthermore, we numerically analyze these algorithms by applying them to the simulation of the spin dynamics of the Heisenberg model and the correlated electronic dynamics of an H$_2$ molecule. Since any electronic Hamiltonian can be mapped to a spin Hamiltonian, our algorithm can efficiently simulate time-dependent ab initio electronic dynamics in the circuit model of quantum computation. Accordingly, it is also our hope that the present work serves a bridge between QSP-based quantum algorithms and chemical dynamics, stimulating a cross-fertilization between these exciting fields.
翻訳日:2023-03-10 21:32:49 公開日:2023-01-10
# ナシアンゲーム理論は量子物理学と相容れない

Nashian game theory is incompatible with quantum physics ( http://arxiv.org/abs/2112.03881v2 )

ライセンス: Link先を確認
Michal Baczyk and Ghislain Fourny(参考訳) 我々は、確率論のレンズを通してではなく、意思決定理論を通して量子測定結果を見ることを推奨する。 本稿では,計測シナリオをオブザーバ非依存構造を持つマルチプレイヤーゲームとする,オリジナルのゲーム理論的フレームワーク,モデル,アルゴリズム手順を提案する。 測定軸と新たな測定結果は、自然が行動最小化経済要因である決定としてモデル化される。 我々は因果性、相関性、反事実性、文脈性の物理的概念をゲーム理論の特定の側面に翻訳する。 量子的な観点からは,不完全な情報を持つ動的ゲームの因果一貫性を検証し,反事実的依存関係と因果関係を分離現象として区別すべきと結論づける。 最も注目すべきは、ナッシュ平衡に基づくゲーム理論がベルの不等式違反と矛盾する点である。 そこで,本論文では,量子物理学を非ナシアンゲーム理論を用いて解析し,その内部動作をモデルを用いて検証する。

We suggest to look at quantum measurement outcomes not through the lens of probability theory, but instead through decision theory. We introduce an original game-theoretical framework, model and algorithmic procedure where measurement scenarios are multiplayer games with an observer-independent structure. Measurement axes and, newly, measurement outcomes are modelled as decisions with nature being an action-minimizing economic agent. We translate physical notions of causality, correlation, counterfactuals, and contextuality to particular aspects of game theory. We investigate the causal consistency of dynamic games with imperfect information from the quantum perspective and conclude that counterfactual dependencies should be distinguished from causation and correlation as a separate phenomenon. Most significantly, we observe that game theory based on Nash equilibria stands in contradiction with violation of Bell inequalities. Hence, we propose that quantum physics should be analysed with non-Nashian game theory, the inner-workings of which we demonstrate using our proposed model.
翻訳日:2023-03-05 07:41:14 公開日:2023-01-10
# 捕捉イオン中のキラルカップリングによる冷凍

Chiral-coupling-assisted refrigeration in trapped ions ( http://arxiv.org/abs/2203.00877v2 )

ライセンス: Link先を確認
Chi-Chih Chen, Yi-Cheng Wang, Chun-Che Wang, and H. H. Jen(参考訳) タップされたイオンは、量子計算と量子シミュレーションの実装に必須である運動基底状態の近くで冷却することができる。 ここでは、サイドバンド冷却の単一イオン限界を超える優れた冷却スキームを可能にする、イオン間の光媒介キラルカップリングの能力を示す。 非対称駆動下での加熱価格で目標イオンのキラルカップリング支援冷凍を行い,その定常フォノン占有は単一イオンで設定した下界よりも優れることを示した。 さらに, 冷蔵の最適運転条件を特定し, 冷却速度が速くなるパラメータ領域を同定する。 追加の非誘導減衰チャネルの下では、相互結合状態の加熱効果が抑制され、代わりに冷却される。 本研究は, 量子コンピュータやシミュレータにおける冷却過程のボトルネックを克服するための, 集合的キラルカップリングの資源を提案する。

The tapped ions can be cooled close to their motional ground state, which is imperative in implementing quantum computation and quantum simulation. Here we demonstrate the capability of light-mediated chiral couplings between ions, which enables a superior cooling scheme exceeding the single-ion limit of sideband cooling. We present the chiral-coupling-assisted refrigeration in the target ion at the price of heating the others under asymmetric drivings, where its steady-state phonon occupation outperforms the lower bound set by a single ion. We further locate the optimal operation condition of the refrigeration and identify the parameter region where a faster rate of cooling emerges. Under an additional nonguided decay channel, the heating effect in the reciprocal coupling regime becomes suppressed and turns into cooling instead. Our results present a resource of collective chiral couplings which help surpass the bottleneck of cooling procedure in applications of trapped-ion-based quantum computer and simulator.
翻訳日:2023-02-23 08:10:22 公開日:2023-01-10
# パリティ時間対称性に由来する散逸時間結晶

Dissipative time crystals originating from parity-time symmetry ( http://arxiv.org/abs/2203.06672v2 )

ライセンス: Link先を確認
Yuma Nakanishi and Tomohiro Sasamoto(参考訳) 本研究は,リンドブラッドダイナミクスを持つ集団スピン系において,系の$\mathcal{pt}$対称性が復元されるとき,散逸時間結晶のクラスが出現する証拠を提供することを目的としている。 まず、境界時間結晶(BTCs)の標準モデルがリウヴィリアの$\mathcal{PT}$対称性を満たすことを示し、BTCが大スピン極限における定常状態が$\mathcal{PT}$対称性である場合にのみ存在することを証明する。 また、別のBTCモデルに対して同様の声明が数値的に確認される。 さらに、BTCの出現のメカニズムは、弱い散逸の下でのワンスピンモデルのクラスに対する摂動理論の発展を通じて議論される。 その結果,総利得と損失のバランスが取れた場合には,BTCが一階補正に現れることがわかった。 これらの結果は btc が $\mathcal{pt}$ 対称性に由来する時間結晶であることを強く示唆している。

This study aims to provide evidence regarding the emergence of a class of dissipative time crystals when $\mathcal{PT}$ symmetry of the systems is restored in collective spin systems with Lindblad dynamics. First, we show that a standard model of boundary time crystals (BTCs) satisfies the Liouvillian $\mathcal{PT}$ symmetry, and prove that BTC exists only when the stationary state is $\mathcal{PT}$ symmetric in the large-spin limit. Also, a similar statement is confirmed numerically for another BTC model. In addition, the mechanism of the appearance of BTCs is discussed through the development of a perturbation theory for a class of the one-spin models under weak dissipations. Consequently, we show that BTCs appear in the first-order correction when the total gain and loss are balanced. These results strongly suggest that BTCs are time crystals originating from $\mathcal{PT}$ symmetry.
翻訳日:2023-02-22 05:41:51 公開日:2023-01-10
# rydbergプラットフォーム上のquditを持つ非可換ゲージ理論のハードウェア効率の量子シミュレーション

Hardware efficient quantum simulation of non-abelian gauge theories with qudits on Rydberg platforms ( http://arxiv.org/abs/2203.15541v2 )

ライセンス: Link先を確認
Daniel Gonz\'alez-Cuadra, Torsten V. Zache, Jose Carrasco, Barbara Kraus, and Peter Zoller(参考訳) 非アーベルゲージ理論は、自然界の基本的な力を理解し、それらをシミュレートするための調整された量子ハードウェアとアルゴリズムを開発することは、急速に進化する量子シミュレーションの分野において顕著な課題である。 ここでは、時空に離散化されたゲージ場がクディットによって表現され、マルチキュート量子ゲートを持つトロッターステップで時間発展するアプローチを取る。 これは、長期内部原子状態が四重項を表すRydberg tweezer配列に基づくアーキテクチャに自然かつハードウェア効率でマッピングされ、必要な量子ゲートは、Rydbergブロック機構によって支えられるホロノミック操作として実行される。 そこで本研究では,非可換ゲージ理論のシミュレーションをnisqデバイスの範囲内に置く従来の量子ビット法と比較し,回路深度とゲート誤差の大幅な低減を示すため,su(2)ゲージ場の最小デジタル化を提案する。

Non-abelian gauge theories underlie our understanding of fundamental forces in nature, and developing tailored quantum hardware and algorithms to simulate them is an outstanding challenge in the rapidly evolving field of quantum simulation. Here we take an approach where gauge fields, discretized in spacetime, are represented by qudits and are time-evolved in Trotter steps with multiqudit quantum gates. This maps naturally and hardware-efficiently to an architecture based on Rydberg tweezer arrays, where long-lived internal atomic states represent qudits, and the required quantum gates are performed as holonomic operations supported by a Rydberg blockade mechanism. We illustrate our proposal for a minimal digitization of SU(2) gauge fields, demonstrating a significant reduction in circuit depth and gate errors in comparison to a traditional qubit-based approach, which puts simulations of non-abelian gauge theories within reach of NISQ devices.
翻訳日:2023-02-20 09:25:07 公開日:2023-01-10
# 機械学習の実践者(Try To)がフェアネスツールキットを使う方法を探る

Exploring How Machine Learning Practitioners (Try To) Use Fairness Toolkits ( http://arxiv.org/abs/2205.06922v2 )

ライセンス: Link先を確認
Wesley Hanwen Deng, Manish Nagireddy, Michelle Seng Ah Lee, Jatinder Singh, Zhiwei Steven Wu, Kenneth Holstein, Haiyi Zhu(参考訳) 近年,ML実践者がシステムの不公平さを評価し,対処することを目的とした,オープンソースのMLフェアネスツールキットが数多く開発されている。 しかし、ML実践者が実際にこれらのツールキットをどのように使っているかは、ほとんど研究されていない。 本稿では,産業実践者が既存のフェアネスツールキットでどのように機能するかについて,詳細な実証調査を行った。 特に,参加者がフェアネスツールキットをどのように学習し,活用するかを理解するために,シンク・アラウド・インタビューを実施し,匿名のオンライン調査を通じて調査を行った。 フェアネスツールキットが実践者のニーズに対処し、ツールキットを効果的かつ責任を持って利用する上で足場を構築するためのいくつかの機会を特定した。 これらの知見に基づいて,mlフェアネスの取り組みに関する実践者のコンテクスト化,コミュニケーション,コラボレーションを支援する,将来のオープンソースフェアネスツールキットの設計への示唆を強調する。

Recent years have seen the development of many open-source ML fairness toolkits aimed at helping ML practitioners assess and address unfairness in their systems. However, there has been little research investigating how ML practitioners actually use these toolkits in practice. In this paper, we conducted the first in-depth empirical exploration of how industry practitioners (try to) work with existing fairness toolkits. In particular, we conducted think-aloud interviews to understand how participants learn about and use fairness toolkits, and explored the generality of our findings through an anonymous online survey. We identified several opportunities for fairness toolkits to better address practitioner needs and scaffold them in using toolkits effectively and responsibly. Based on these findings, we highlight implications for the design of future open-source fairness toolkits that can support practitioners in better contextualizing, communicating, and collaborating around ML fairness efforts.
翻訳日:2023-02-19 16:51:54 公開日:2023-01-10
# リアルタイム遠隔術中神経生理学的モニタリング(ionm)の進化

The Evolution of Real-time Remote Intraoperative Neurophysiological Monitoring (IONM) ( http://arxiv.org/abs/2301.10225v1 )

ライセンス: Link先を確認
Jeffrey Balzer, Julia Caviness, Don Krieger(参考訳) 外科医との即時通信による神経系機能のリアルタイムモニタリングは,多くの外科手術における医原性障害の予防および/または軽減を可能にする。 IONMをサポートするためのハードウェアとソフトウェアインフラとテレメディシンの有用性は、大学健康センター環境に起源を持ち、商用機器メーカーによって同等の機能が追加されるにつれて広く普及した。 初期の実装にはプリミティブなデータアーカイブとケースドキュメンテーション機能が含まれており、主にセキュリティの特定に頼っていた。 彼らはリモートオブザーバによるリアルタイムデータ表示のフル機能制御を強調した。 今日では、米国では20万人以上のハイリスク手術/年にリモートIONMが日常的に使用されている。 多くの場合、リモートオブザーバは、高度なセキュリティ機能とデータアーカイブと標準化されたメタデータとケースドキュメントを提供しながら、リモート操作室で表示されるデータを見るためにスクリーンキャプチャに依存している。

Real-time monitoring of nervous system function with immediate communication of relevant information to the surgeon enables prevention and/or mitigation of iatrogenic injury in many surgical procedures. The hardware and software infrastructure and demonstrated usefulness of telemedicine in support of IONM originated in a busy university health center environment and then spread widely as comparable functional capabilities were added by commercial equipment manufacturers. The earliest implementations included primitive data archival and case documentation capabilities and relied primarily on deidentification for security. They emphasized full-featured control of the real-time data display by remote observers. Today, remote IONM is routinely utilized in more than 200,000 high-risk surgical procedures/year in the United States. For many cases, remote observers rely on screen capture to view the data as it is displayed in the remote operating room while providing sophisticated security capabilities and data archival and standardized metadata and case documentation.
翻訳日:2023-02-19 13:49:22 公開日:2023-01-10
# 生成言語モデルと自動影響操作: 新たな脅威と潜在的な緩和

Generative Language Models and Automated Influence Operations: Emerging Threats and Potential Mitigations ( http://arxiv.org/abs/2301.04246v1 )

ライセンス: Link先を確認
Josh A. Goldstein (1 and 3), Girish Sastry (2), Micah Musser (1), Renee DiResta (3), Matthew Gentzel (2), and Katerina Sedova (1) ((1) Georgetown's Center for Security and Emerging Technology, (2) OpenAI, (3) Stanford Internet Observatory)(参考訳) 生成言語モデルは大幅に改善され、人間の文章と区別が難しいリアルなテキスト出力を生成できるようになった。 悪意のあるアクターにとって、これらの言語モデルは、影響操作で使用する説得力と誤解を招くテキストの作成を自動化するという約束をもたらす。 本報告では,言語モデルが将来のオペレーションにどのように影響するか,また,この脅威を軽減するためにどのような措置が取られるかを評価する。 我々は,オンライン・インフルエンス・オペレーションのアクター,行動,内容の変更の可能性を明らかにし,緩和がターゲットとなる言語モデル・インフルエンス・オペレーション・パイプラインの段階(モデル構築,モデルアクセス,コンテンツ普及,信念形成)の枠組みを提供する。 AIによる影響操作の脅威を完全に防ぐ合理的な緩和は期待できないが、複数の緩和の組み合わせは重要な違いをもたらす可能性がある。

Generative language models have improved drastically, and can now produce realistic text outputs that are difficult to distinguish from human-written content. For malicious actors, these language models bring the promise of automating the creation of convincing and misleading text for use in influence operations. This report assesses how language models might change influence operations in the future, and what steps can be taken to mitigate this threat. We lay out possible changes to the actors, behaviors, and content of online influence operations, and provide a framework for stages of the language model-to-influence operations pipeline that mitigations could target (model construction, model access, content dissemination, and belief formation). While no reasonable mitigation can be expected to fully prevent the threat of AI-enabled influence operations, a combination of multiple mitigations may make an important difference.
翻訳日:2023-02-19 13:33:31 公開日:2023-01-10
# 技術的錯覚による民主主義的錯覚--モスクワの電子投票プラットフォーム(アクティブシチズン)を支援するブロックチェーンの実装を事例として

The Democratic Illusion through the Technological Illusion: a Case Study of the Implementation of a Blockchain to Support an E-voting Platform in Moscow (Active Citizen) ( http://arxiv.org/abs/2301.03954v1 )

ライセンス: Link先を確認
Hugo Estecahandy(参考訳) 本稿では,モスクワ市役所が提案するアクティブ市民電子投票システムの現在進行中の分析を行う。 この研究は、このプラットフォームの目的はモスクワ市民の民主的権力を強化することではなく、モスクワを世界規模で近代都市としての地位とロシア政治における市役所の地位を強化することであると指摘している。

This paper presents an ongoing analyze of the Active Citizen e-voting system proposed by the Moscow city hall. This research points out that the main objective of the platform is not to enhance the democratic power of the Muscovites, but to strengthen the position of Moscow as a modern city at a world scale and the position of the city hall in the Russian political system.
翻訳日:2023-02-19 13:33:15 公開日:2023-01-10
# ブラックボックスの内側:大学生成功予測における人種集団間のアルゴリズムバイアスの検出と緩和

Inside the Black Box: Detecting and Mitigating Algorithmic Bias across Racialized Groups in College Student-Success Prediction ( http://arxiv.org/abs/2301.03784v1 )

ライセンス: Link先を確認
Denisa G\'andara, Hadis Anahideh, Matthew P. Ison, Anuja Tayal(参考訳) 大学や大学は、入学、予算、学生教育の介入など、様々な決定を伝えるために、大学学生の成功を予測するアルゴリズムに目を向けている。 予測アルゴリズムは歴史的データに依存するため、人種差別を含む社会的不正を捉えている。 人種的カテゴリーを含むモデルは、人種的にマイノリティ化された学生が好ましくない結果をもたらすと予測することができる。 本研究では,様々な機械学習モデリング手法を用いて学士の学位取得をモデル化し,教育データのバイアスについて検討する。 また,不公平に対処するためのバイアス緩和手法の有用性も評価した。 2002年教育縦断研究の全国代表データを用いて、大学学生の成功を予測するためによく使われる特徴を取り入れたモデルが人種的に偏った結果をもたらすことを示す。

Colleges and universities are increasingly turning to algorithms that predict college-student success to inform various decisions, including those related to admissions, budgeting, and student-success interventions. Because predictive algorithms rely on historical data, they capture societal injustices, including racism. A model that includes racial categories may predict that racially minoritized students will have less favorable outcomes. In this study, we explore bias in education data by modeling bachelor's degree attainment using various machine-learning modeling approaches. We also evaluate the utility of leading bias-mitigating techniques in addressing unfairness. Using nationally representative data from the Education Longitudinal Study of 2002, we demonstrate how models incorporating commonly used features to predict college-student success produce racially biased results.
翻訳日:2023-02-19 13:32:40 公開日:2023-01-10
# 雑音中規模量子プロセッサの連続監視

Continuous monitoring for noisy intermediate-scale quantum processors ( http://arxiv.org/abs/2205.06191v3 )

ライセンス: Link先を確認
Y.F. Zolotarev, I.A. Luchnikov, J.A. L\'opez-Sald\'ivar, A.K. Fedorov, E.O. Kiktenko(参考訳) 本稿では,実行された量子回路のセットに基づいて,ノイズの多いネイティブゲートとリードアウトの測定値の抽出を可能にする,中間スケール量子プロセッサの連続監視システムを提案する。 量子プロセッサの校正やベンチマークの標準的なアプローチとは対照的に、実行された回路は監視システムに入力され、いかなる制御も外れていると仮定される。 本研究では, 量子エミュレータから得られた合成データと, 一般にアクセス可能なクラウドベースの量子プロセッサから収集した実験データに本システムを適用した。 いずれの場合も,エミュレータ/プロセッサ固有のノイズについて,開発手法が有益であることを示す。 我々のアプローチでは、追加のアルゴリズムを実行することなく実装された回路からアクセス可能なデータのみを使用するため、監視システムは既存のアプローチを補完することができる。 当社の監視システムは,クラウドベースのプラットフォームへのアクセスや,ベンチマークやキャリブレーションに必要なリソースの削減など,近い将来,さまざまな量子コンピュータにとって有用なツールになると期待している。

We present a continuous monitoring system for intermediate-scale quantum processors that allows extracting estimates of noisy native gate and read-out measurements based on the set of executed quantum circuits and resulting measurement outcomes. In contrast to standard approaches for calibration and benchmarking quantum processors, the executed circuits, which are input to the monitoring system, are assumed to be out of any control. We provide the results of applying our system to the synthetically generated data obtained from a quantum emulator, as well as to the experimental data collected from a publicly accessible cloud-based quantum processor. In the both cases, we demonstrate that the developed approach provides valuable results about inherent noises of emulators/processors. Considering that our approach uses only already accessible data from implemented circuits without the need to run additional algorithms, the monitoring system can complement existing approaches. We expect that our monitoring system can become a useful tool for various quantum computers in the near-term horizon, including publicly accessible cloud-based platforms, and reduce resources that are required for their benchmarking and calibration.
翻訳日:2023-02-13 09:28:08 公開日:2023-01-10
# UAVビデオにおけるリアルタイムトラフィック終端検出と追跡

Real-Time Traffic End-of-Queue Detection and Tracking in UAV Video ( http://arxiv.org/abs/2302.01923v1 )

ライセンス: Link先を確認
Russ Messenger, Md Zobaer Islam, Matthew Whitlock, Erik Spong, Nate Morton, Layne Claggett, Chris Matthews, Jordan Fox, Leland Palmer, Dane C. Johnson, John F. O'Hara, Christopher J. Crick, Jamey D. Jacob, Sabit Ekin(参考訳) 高速道路の作業ゾーンは、事故を防止するために動的作業ゾーン警告標識を要求する自動車の過剰な蓄積の影響を受けやすい。 作業ゾーンの標識は、通常急速に変化する車両の終着点の位置に従って置かれる。 無人航空機(UAV)が捉えた映像中の移動物体の検出は、これまで広く研究されており、交通監視を含む幅広いアプリケーションで利用されている。 固定された交通カメラとは異なり、UAVはワークゾーンの交通をリアルタイムで監視し、よりコスト効率の良い方法で監視することができる。 本研究では,UAVが捉えた高速道路作業区域のリアルタイム映像を処理し,交通の終端(EOQ)を検出するための概念実証手法を提案する。 EOQは、バックグラウンドサブトラクションとブロブ検出方法を含む画像処理によってビデオ中に検出される。 車両のEOQのダイナミックなローカライゼーションにより、運転者の作業ゾーン警告標識のより高速かつより正確な移動が可能となり、作業ゾーン死亡率の低減が図られる。 この方法は、特定のイベント、交通渋滞、建設、事故によって車両が急速に蓄積している他の道路や交差点のドライバーにeoqを検知し、通知することができる。

Highway work zones are susceptible to undue accumulation of motorized vehicles which calls for dynamic work zone warning signs to prevent accidents. The work zone signs are placed according to the location of the end-of-queue of vehicles which usually changes rapidly. The detection of moving objects in video captured by Unmanned Aerial Vehicles (UAV) has been extensively researched so far, and is used in a wide array of applications including traffic monitoring. Unlike the fixed traffic cameras, UAVs can be used to monitor the traffic at work zones in real-time and also in a more cost-effective way. This study presents a method as a proof of concept for detecting End-of-Queue (EOQ) of traffic by processing the real-time video footage of a highway work zone captured by UAV. EOQ is detected in the video by image processing which includes background subtraction and blob detection methods. This dynamic localization of EOQ of vehicles will enable faster and more accurate relocation of work zone warning signs for drivers and thus will reduce work zone fatalities. The method can be applied to detect EOQ of vehicles and notify drivers in any other roads or intersections too where vehicles are rapidly accumulating due to special events, traffic jams, construction, or accidents.
翻訳日:2023-02-12 13:14:15 公開日:2023-01-10
# 非符号相関を用いたマルチアクセスチャネル符号化

Multiple-Access Channel Coding with Non-Signaling Correlations ( http://arxiv.org/abs/2206.10968v2 )

ライセンス: Link先を確認
Omar Fawzi, Paul Ferm\'e(参考訳) 我々は,従来のマルチアクセスチャネル(MAC)のコーディング問題に,当事者間の非署名相関の助けを借りて対処する。 非シグナリング支援が古典的ポイントツーポイントチャネルの容量を変化させないことはよく知られている。 しかし、最近、ゲームが勝利する確率とMACの容量を関連づけつつ、2人プレイヤの非ローカルゲームからMACを構築することができることが観察された。 エンタングルメント(特別な種類の非シグナリング相関)が勝利確率(例えばマジックスクエアゲーム)を増加させるゲームを考えると、特定の種類のチャネルに対して、送信者間のエンタングルメントがキャパシティを増加させることを示す。 本研究では,MACの容量領域の理解に,当事者間の非署名相関の助けを借りて貢献する。 我々は,$n$で多項式成長したMAC$W$のコピーを$n$で符号化する最適成功確率を計算する線形プログラムを開発する。 この線形プログラムを解くことでMACの内部境界を達成することができる。 この手法をバイナリ加算器のチャネルに適用すると、非シグナリング補助を用いて、ゼロエラーでもsum-rate $\frac{\log_2(72)}{4} \simeq 1.5425$が到達できることが示される。 ゼロエラー非シグナリング補助容量領域が自明なノイズチャネルでは、連結符号を用いてキャパシティ領域の達成可能な点を得ることができる。 binary adder channelのノイズバージョンに適用すると、ノンシグナリングアシスタンスが依然として合計レート容量を改善することが分かる。 これらの実現可能性の結果を補完することにより、チャネル入力が独立である必要がなければ、アンアシスト領域と同じ表現を持つ非シグナリングアシスト容量領域の外界を与える。

We address the problem of coding for classical multiple-access channels (MACs) with the assistance of non-signaling correlations between parties. It is well-known that non-signaling assistance does not change the capacity of classical point-to-point channels. However, it was recently observed that one can construct MACs from two-player non-local games while relating the winning probability of the game to the capacity of the MAC. By considering games for which entanglement (a special kind of non-signaling correlation) increases the winning probability (e.g., the Magic Square game), this shows that for some specific kinds of channels, entanglement between the senders can increase the capacity. In this work, we make several contributions towards understanding the capacity region for MACs with the assistance of non-signaling correlations between the parties. We develop a linear program computing the optimal success probability for coding over $n$ copies of a MAC $W$ with size growing polynomially in $n$. Solving this linear program allows us to achieve inner bounds for MACs. Applying this method to the binary adder channel, we show that using non-signaling assistance, the sum-rate $\frac{\log_2(72)}{4} \simeq 1.5425$ can be reached even with zero error, which beats the maximum sum-rate capacity of $1.5$ in the unassisted case. For noisy channels, where the zero-error non-signaling assisted capacity region is trivial, we can use concatenated codes to obtain achievable points in the capacity region. Applied to a noisy version of the binary adder channel, we show that non-signaling assistance still improves the sum-rate capacity. Complementing these achievability results, we give an outer bound on the non-signaling assisted capacity region that has the same expression as the unassisted region except that the channel inputs are not required to be independent.
翻訳日:2023-02-08 09:55:29 公開日:2023-01-10
# 量子教師あり学習のための指数データ符号化

Exponential data encoding for quantum supervised learning ( http://arxiv.org/abs/2206.12105v2 )

ライセンス: Link先を確認
S. Shin, Y. S. Teo, H. Jeong(参考訳) 多変量関数マッピングの信頼性のある量子教師付き学習は、対応する量子回路と測定リソースの表現性に依存する。 本稿では,非エンタングリングパウリエンコードスキームにおいて,ハードウェア効率と最適な指数データエンコード戦略を導入する。量子回路が指数関数的に少ないエンコードゲートを用いて,非常に広いフーリエ周波数スペクトルを持つ一般関数を表現するのに十分である。 このような符号化戦略は、量子資源を減らすだけでなく、多項式深度学習回路を用いる場合の既知の効率的な古典的戦略とは対照的に、訓練中に実践的な資源優位性を示す。 計算資源が制約されている場合、単層トレーニングモジュールを持つ指数データ符号化回路でさえ、一般に古典的に表現可能な領域外にある関数を表現できることを数値的に示す。 最後に、エタノール分子のポテンシャルエネルギー表面とカリフォルニアの住宅価格の学習における指数関数符号化の性能を示す。

Reliable quantum supervised learning of a multivariate function mapping depends on the expressivity of the corresponding quantum circuit and measurement resources. We introduce exponential-data-encoding strategies that are hardware-efficient and optimal amongst all non-entangling Pauli-encoded schemes, which is sufficient for a quantum circuit to express general functions having very broad Fourier frequency spectra using only exponentially few encoding gates. We show that such an encoding strategy not only reduces the quantum resources, but also exhibits practical resource advantage during training in contrast with known efficient classical strategies when polynomial-depth training circuits are also employed. When computation resources are constrained, we numerically demonstrate that even exponential-data-encoding circuits with single-layer training modules can generally express functions that lie outside the classically-expressible region, thereby supporting the practical benefits of such a resource advantage. Finally, we illustrate the performance of exponential encoding in learning the potential-energy surface of the ethanol molecule and California's housing prices
翻訳日:2023-02-08 04:38:40 公開日:2023-01-10
# su(n$)スピン対称性を持つ散逸型朝永ルッティンガー液体の普遍的記述:スペクトルと臨界指数

Universal description of dissipative Tomonaga-Luttinger liquids with SU($N$) spin symmetry: Exact spectrum and critical exponents ( http://arxiv.org/abs/2207.04395v2 )

ライセンス: Link先を確認
Kazuki Yamamoto and Norio Kawakami(参考訳) SU($N$)のスピン対称性を持つ散逸的友長・ラッティンガー(TL)液体に対する普遍的スケーリング関係は、SU($N$)対称性を持つ一次元非エルミート量子多体系における漸近的ベーテ・アンザッツ解と共形場理論(CFT)を用いて、フェルミオンとボソンの両方に対して得られる。 SU($N$) スピン対称性を持つ散逸性 TL 液体のスペクトルは、$c=1$ U(1) ガウス CFT の複素一般化を特徴とし、$N-1$ スピンモードの次数-$1$ SU($N$) Kac-Moody algebra の共形異常を特徴とする次数-$1$ SU($N$) Kac-Moody algebra の和によって記述される。 この導出はハルダンのイデアル-ガス記述の複素一般化に基づいているが、これは逆二乗の長距離相互作用を持つsu($n$) calogero-sutherlandモデルによって実装されている。

Universal scaling relations for dissipative Tomonaga-Luttinger (TL) liquids with SU($N$) spin symmetry are obtained for both fermions and bosons, by using asymptotic Bethe-ansatz solutions and conformal field theory (CFT) in one-dimensional non-Hermitian quantum many-body systems with SU($N$) symmetry. We uncover that the spectrum of dissipative TL liquids with SU($N$) spin symmetry is described by the sum of one charge mode characterized by a complex generalization of $c=1$ U(1) Gaussian CFT, and $N-1$ spin modes characterized by level-$1$ SU($N$) Kac-Moody algebra with the conformal anomaly $c=N-1$, and thereby dissipation only affects the charge mode as a result of spin-charge separation in one-dimensional non-Hermitian quantum systems. The derivation is based on a complex generalization of Haldane's ideal-gas description, which is implemented by the SU($N$) Calogero-Sutherland model with inverse-square long-range interactions.
翻訳日:2023-02-05 14:52:40 公開日:2023-01-10
# ミリeV暗光子検出器としての1電子量子サイクロトロン

One-Electron Quantum Cyclotron as a Milli-eV Dark-Photon Detector ( http://arxiv.org/abs/2208.06519v2 )

ライセンス: Link先を確認
Xing Fan, Gerald Gabrielse, Peter W. Graham, Roni Harnik, Thomas G. Myers, Harikrishnan Ramani, Benedict A. D. Sukra, Samuel S. Y. Wong, Yawen Xiao(参考訳) 閉じ込められた電子を高q$共振器としてmev暗光子暗黒物質を検出することを提案する。 ダーク光子の残りのエネルギーが2つの最低シクロトロンレベルのエネルギー分割と一致するとき、電子サイクロトロンの最初の励起状態は共鳴的に励起される。 1つの電子による原理実証測定では、7.4日間の探索において背景なしであることが示されている。 ダークフォトンダークマターの限界は、148 GHz (0.6 meV)であり、これは以前の制約の約75倍である。 0.1-1 meVの質量範囲(20-200 GHz)における暗光子暗黒物質は、暗光子検出のために設計された装置において同様の感度で検出される可能性がある。

We propose using trapped electrons as high-$Q$ resonators for detecting meV dark photon dark matter. When the rest energy of the dark photon matches the energy splitting of the two lowest cyclotron levels, the first excited state of the electron cyclotron will be resonantly excited. A proof-of-principle measurement, carried out with one electron, demonstrates that the method is background-free over a 7.4 day search. It sets a limit on dark photon dark matter at 148 GHz (0.6 meV) that is around 75 times better than previous constraints. Dark photon dark matter in the 0.1-1 meV mass range (20-200 GHz) could likely be detected at a similar sensitivity in an apparatus designed for dark photon detection.
翻訳日:2023-01-31 08:29:08 公開日:2023-01-10
# rydberg原子センサを用いた同時マルチバンド復調

Simultaneous Multi-Band Demodulation Using a Rydberg Atomic Sensor ( http://arxiv.org/abs/2208.10287v2 )

ライセンス: Link先を確認
David H. Meyer, Joshua C. Hill, Paul D. Kunz, and Kevin C. Cox(参考訳) Rydberg原子に基づく電界センサは、電波信号を検出するために、従来のセンサーと比較してユニークな機能を提供する。 本研究では,1.7GHzから116GHzまでの約20年間(6オクターブ)にわたる5つのrf音の同時復調と検出を実演する。 本稿では,各音の位相と振幅の連続回復を示し,マルチバンド検出のためのシステムの感度と帯域幅について報告する。 我々は、これらの機能をデジタル通信プロトコルの実証に利用し、同時に10年以上の周波数にまたがる4つのバンドから鍵付きバイナリデータを受信する。

Electric field sensors based on Rydberg atoms offer unique capabilities, relative to traditional sensors, for detecting radio-frequency signals. In this work, we demonstrate simultaneous demodulation and detection of five rf tones spanning nearly two decades (6 octaves), from 1.7 GHz to 116 GHz. We show continuous recovery of the phase and amplitude of each tone and report on the system's sensitivity and bandwidth capabilities for multi-band detection. We use these capabilities to demonstrate a digital communication protocol, simultaneously receiving on-off-keyed binary data from four bands spanning over one decade of frequency.
翻訳日:2023-01-30 05:01:00 公開日:2023-01-10
# AIに基づく音楽生成システム : 方法と課題のレビュー

AI-Based Affective Music Generation Systems: A Review of Methods, and Challenges ( http://arxiv.org/abs/2301.06890v1 )

ライセンス: Link先を確認
Adyasha Dash, Kat R. Agres(参考訳) 音楽はリスナーの感情状態を変える強力な媒体である。 近年、コンピューティング能力の大幅な向上に伴い、人工知能ベースの(aiベースの)アプローチが、感情音楽の生成能力を備えた感情音楽生成(amg)システムの作成に人気が高まっている。 エンタテインメント、ヘルスケア、センサー統合型インタラクティブシステムデザインは、AIベースの感情音楽生成(AI-AMG)システムが大きな影響を与える可能性がある分野のいくつかである。 この話題に対する関心の高まりを踏まえ、この記事ではAI-AMGシステムの総合的なレビューを提供する。 AI-AMGシステムの主なビルディングブロックについて論じ、既存のシステムは音楽生成に使用されるコアアルゴリズムに基づいて正式に分類される。 さらに本論文では,情緒的音楽の作曲に使用される主な音楽的特徴と,それらを調整するためのaiベースのアプローチについて述べる。 最後に、この分野における主要な課題とオープンな疑問、およびその潜在的な解決策が今後の研究の指針として提示される。 このレビューは、AI-AMGシステムの最先端を理解し、開発に使用される手法の概要を把握し、将来この分野を探求する上で、読者にとって有用なものになるだろう。

Music is a powerful medium for altering the emotional state of the listener. In recent years, with significant advancement in computing capabilities, artificial intelligence-based (AI-based) approaches have become popular for creating affective music generation (AMG) systems that are empowered with the ability to generate affective music. Entertainment, healthcare, and sensor-integrated interactive system design are a few of the areas in which AI-based affective music generation (AI-AMG) systems may have a significant impact. Given the surge of interest in this topic, this article aims to provide a comprehensive review of AI-AMG systems. The main building blocks of an AI-AMG system are discussed, and existing systems are formally categorized based on the core algorithm used for music generation. In addition, this article discusses the main musical features employed to compose affective music, along with the respective AI-based approaches used for tailoring them. Lastly, the main challenges and open questions in this field, as well as their potential solutions, are presented to guide future research. We hope that this review will be useful for readers seeking to understand the state-of-the-art in AI-AMG systems, and gain an overview of the methods used for developing them, thereby helping them explore this field in the future.
翻訳日:2023-01-29 14:17:53 公開日:2023-01-10
# 理論物理学と湿地計画へのAIの洞察:ChatGPTによる宇宙の旅

AI Insights into Theoretical Physics and the Swampland Program: A Journey Through the Cosmos with ChatGPT ( http://arxiv.org/abs/2301.08155v1 )

ライセンス: Link先を確認
Kay Lehnert (Department of Theoretical Physics, Maynooth University, Maynooth, Ireland)(参考訳) 本稿では,OpenAIによって開発された自然言語処理モデルChatGPTの機能と限界を,弦理論的な湿地予想の分野において検討する。 様々なスタイルで概念を言い換えたり説明したりするのに有効であるが、真に繋がる概念ではない。 虚偽の情報を十分に信頼して提供し、必要であれば声明をまとめる。 しかし、その巧妙な言語の使用は、類似点を特定し、抽象概念の視覚的表現を記述することに有益である。

In this case study, we explore the capabilities and limitations of ChatGPT, a natural language processing model developed by OpenAI, in the field of string theoretical swampland conjectures. We find that it is effective at paraphrasing and explaining concepts in a variety of styles, but not at genuinely connecting concepts. It will provide false information with full confidence and make up statements when necessary. However, its ingenious use of language can be fruitful for identifying analogies and describing visual representations of abstract concepts.
翻訳日:2023-01-29 13:59:35 公開日:2023-01-10
# 人工知能を実現するための意識と時間の統合

Unifying Consciousness and Time to Enhance Artificial Intelligence ( http://arxiv.org/abs/2301.08742v1 )

ライセンス: Link先を確認
Mahendra Samarawickrama(参考訳) 意識は、一度に1つの情報に集中できる意識の連続的なプロセスである。 この意識の過程は、時間の概念を基礎として、物質やエネルギーと相互作用し、現実を形成する因果を経験する。 意識、時間、現実の研究は、メタ物理や基礎物理学を含む多くの分野で複雑で急速に進化している。 現実は自然の規則性に応じて人間の意識のパターンを構成する。 これらの規則性は物理的(天文学、環境など)、生物学的、化学的、精神的、社会的などである。 意識に現れるパターンは、環境、生活、社会的行動と相関し、次いで構築された枠組み、システム、構造が続いた。 複雑な構造は文化、慣習、規範、価値観として発展し、多様な社会を生み出した。 責任あるAIの進化において、意識を通して進化した文化的、倫理的、道徳的な価値観に順応することが重要である。 これは、時間知覚と人間の倫理を意識した自己学習AIの提唱された設計を必要とする。

Consciousness is a sequential process of awareness which can focus on one piece of information at a time. This process of awareness experiences causation which underpins the notion of time while it interplays with matter and energy, forming reality. The study of Consciousness, time and reality is complex and evolving fast in many fields, including metaphysics and fundamental physics. Reality composes patterns in human Consciousness in response to the regularities in nature. These regularities could be physical (e.g., astronomical, environmental), biological, chemical, mental, social, etc. The patterns that emerged in Consciousness were correlated to the environment, life and social behaviours followed by constructed frameworks, systems and structures. The complex constructs evolved as cultures, customs, norms and values, which created a diverse society. In the evolution of responsible AI, it is important to be attuned to the evolved cultural, ethical and moral values through Consciousness. This requires the advocated design of self-learning AI aware of time perception and human ethics.
翻訳日:2023-01-29 13:50:07 公開日:2023-01-10
# ソフト適応しきい値スペクトル強調を用いたスペクトルクロスドメインニューラルネットワーク

Spectral Cross-Domain Neural Network with Soft-adaptive Threshold Spectral Enhancement ( http://arxiv.org/abs/2301.10171v1 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Weiping Ding and Rossella Arcucci(参考訳) 心電図(ECG)信号は多変量時系列と見なすことができる。 最新のECGデータ分類アプローチは、機能エンジニアリングまたはディープラーニング技術に基づいて、機械学習システムにおけるスペクトル領域と時間領域を別々に扱う。 分類器モデル内のスペクトル時間領域通信機構は、現在のアプローチでは見つからないため、複雑なECG形式を特定するのが困難である。 本稿では,SCDNN(Spectral Cross-domain Neural Network)と呼ばれる新しい深層学習モデルを提案し,SCDNN(Soft-Adaptive threshold Spectrum enhancement)と呼ばれる新しいブロックを用いて,ニューラルネットワーク内のスペクトル領域と時間領域に埋め込まれた鍵情報を同時に明らかにする。 より正確には、一般畳み込みニューラルネットワーク(cnn)バックボーンでドメインクロス情報をキャプチャし、異なる情報ソースを自己適応機構でマージして時間領域とスペクトル領域間の接続をマイニングする。 SATSEでは、時間とスペクトル領域からの知識は、修正シグモイド関数のソフトトレーニング可能な閾値を持つ高速フーリエ変換(FFT)によって抽出される。 提案したSCDNNは、パブリックECGデータベース \textit{PTB-XL} と \textit{MIT-BIH} に実装されたいくつかの分類タスクでテストされる。 SCDNNは、無限スペクトルマッピングから適切な領域を見つけることにより、両方のデータベース上のすべての分類タスクにおける様々なメトリクスに関する計算コストの低い最先端アプローチよりも優れている。 スペクトル領域におけるトレーニング可能なしきい値の収束性についても数値解析を行った。 SCDNNの堅牢なパフォーマンスは、時間とスペクトルドメインからのディープラーニングモデル間の知識を活用するための、新たな視点を提供する。 リポジトリは以下のとおりである。 https://github.com/dl-wg/scdnn-ts

Electrocardiography (ECG) signals can be considered as multi-variable time-series. The state-of-the-art ECG data classification approaches, based on either feature engineering or deep learning techniques, treat separately spectral and time domains in machine learning systems. No spectral-time domain communication mechanism inside the classifier model can be found in current approaches, leading to difficulties in identifying complex ECG forms. In this paper, we proposed a novel deep learning model named Spectral Cross-domain neural network (SCDNN) with a new block called Soft-adaptive threshold spectral enhancement (SATSE), to simultaneously reveal the key information embedded in spectral and time domains inside the neural network. More precisely, the domain-cross information is captured by a general Convolutional neural network (CNN) backbone, and different information sources are merged by a self-adaptive mechanism to mine the connection between time and spectral domains. In SATSE, the knowledge from time and spectral domains is extracted via the Fast Fourier Transformation (FFT) with soft trainable thresholds in modified Sigmoid functions. The proposed SCDNN is tested with several classification tasks implemented on the public ECG databases \textit{PTB-XL} and \textit{MIT-BIH}. SCDNN outperforms the state-of-the-art approaches with a low computational cost regarding a variety of metrics in all classification tasks on both databases, by finding appropriate domains from the infinite spectral mapping. The convergence of the trainable thresholds in the spectral domain is also numerically investigated in this paper. The robust performance of SCDNN provides a new perspective to exploit knowledge across deep learning models from time and spectral domains. The repository can be found: https://github.com/DL-WG/SCDNN-TS
翻訳日:2023-01-29 13:32:27 公開日:2023-01-10
# ECGデータセットによる不整脈分類の解析

Analysis of Arrhythmia Classification on ECG Dataset ( http://arxiv.org/abs/2301.10174v1 )

ライセンス: Link先を確認
Taminul Islam, Arindom Kundu, Tanzim Ahmed and Nazmul Islam Khan(参考訳) 心臓は人間の体内で最も重要な臓器の1つである。 血液や栄養素を体内の他の部位に供給する。 したがって、健康な心を維持することが不可欠である。 心臓疾患としては、不整脈は心臓のポンプ機構が異常になる状態である。 心電図は、その困難さと安価さから、心電図信号から不整脈問題を分析するために用いられる。 ECGグラフで示される心臓ピークは心臓疾患の検出に使用され、Rピークは不整脈疾患の分析に使用される。 不整脈は、検出のためにTachycardiaとBradycardiaの2つのグループに分けられる。 本稿では,過去10年間にさまざまなデータセットを用いた不整脈検出に用いられてきたディープCNN,LSTM,SVM,NN分類器,ウェーブレット,TQWTなど,さまざまなテクニックについて論じる。 本研究は、ECGデータセット上の不整脈分類の分析である。 そこで,データ前処理,特徴抽出,分類処理をほとんどの研究に応用し,不整脈を検出するためのECG信号の分類性能を向上した。 自動不整脈検出は、心臓科医がすぐに人間の命を救うための正しい判断を下すのに役立つ。 さらに, 本研究は, 今後の研究に役立つ不整脈の検出にいくつかの課題を生んでいる。

The heart is one of the most vital organs in the human body. It supplies blood and nutrients in other parts of the body. Therefore, maintaining a healthy heart is essential. As a heart disorder, arrhythmia is a condition in which the heart's pumping mechanism becomes aberrant. The Electrocardiogram is used to analyze the arrhythmia problem from the ECG signals because of its fewer difficulties and cheapness. The heart peaks shown in the ECG graph are used to detect heart diseases, and the R peak is used to analyze arrhythmia disease. Arrhythmia is grouped into two groups - Tachycardia and Bradycardia for detection. In this paper, we discussed many different techniques such as Deep CNNs, LSTM, SVM, NN classifier, Wavelet, TQWT, etc., that have been used for detecting arrhythmia using various datasets throughout the previous decade. This work shows the analysis of some arrhythmia classification on the ECG dataset. Here, Data preprocessing, feature extraction, classification processes were applied on most research work and achieved better performance for classifying ECG signals to detect arrhythmia. Automatic arrhythmia detection can help cardiologists make the right decisions immediately to save human life. In addition, this research presents various previous research limitations with some challenges in detecting arrhythmia that will help in future research.
翻訳日:2023-01-29 13:20:20 公開日:2023-01-10
# 熱力学的長さによる量子ドットの最小消散情報消去

Minimally dissipative information erasure in a quantum dot via thermodynamic length ( http://arxiv.org/abs/2209.01852v2 )

ライセンス: Link先を確認
Matteo Scandi, David Barker, Sebastian Lehmann, Kimberly A. Dick, Ville F. Maisi, Mart\'i Perarnau-Llobet(参考訳) 本研究では,熱力学長を用いた実験プロトコルの性能向上について検討する。 特に、半導体量子ドットにおける駆動電子レベルに対するランダウアー消去を実装し、幾何学的最適化から得られるエネルギーを線形に増加させる標準プロトコルと比較する。 後者は、測地線が遅い駆動状態における最適有限時間熱力学プロトコルに対応する適切な計量構造を選択して得られる。 本研究では, ジオデシック駆動が低速プロトコルの散逸を最小限に抑え, 完全消去に近づくにつれ, 改良が進んでいることを示す。 さらに、幾何学的なアプローチは、プロトコルの時間がシステムの平衡時間スケール(つまり遅い駆動状態から離れたもの)に匹敵するときにも、より小さな散逸をもたらす。 また,単一電子デバイスにおいては,熱力学幾何学の基本原理である: 最適有限時間熱力学プロトコルは,プロセスに沿った散逸速度が一定である。

In this work we explore the use of thermodynamic length to improve the performance of experimental protocols. In particular, we implement Landauer erasure on a driven electron level in a semiconductor quantum dot, and compare the standard protocol in which the energy is increased linearly in time with the one coming from geometric optimisation. The latter is obtained by choosing a suitable metric structure, whose geodesics correspond to optimal finite-time thermodynamic protocols in the slow driving regime. We show experimentally that geodesic drivings minimise dissipation for slow protocols, with a bigger improvement as one approaches perfect erasure. Moreover, the geometric approach also leads to smaller dissipation even when the time of the protocol becomes comparable with the equilibration timescale of the system, i.e., away from the slow driving regime. Our results also illustrate, in a single-electron device, a fundamental principle of thermodynamic geometry: optimal finite-time thermodynamic protocols are those with constant dissipation rate along the process.
翻訳日:2023-01-27 20:56:47 公開日:2023-01-10
# グラフ状態のテンソルランクとその他の多部絡み合い対策

Tensor Rank and Other Multipartite Entanglement Measures of Graph States ( http://arxiv.org/abs/2209.06320v2 )

ライセンス: Link先を確認
Louis Schatzki, Linjian Ma, Edgar Solomonik, Eric Chitambar(参考訳) グラフ状態は、測定ベースの計算と誤り訂正との接続を通じて量子情報理論において重要な役割を果たす。 以前の研究により、これらの状態のグラフ構造と多部交絡内容の間のエレガントな接続が明らかになった。 我々は、特定の種類のグラフ状態に対するさらなる絡み合い特性を特定することにより、この調査を継続する。 テンソル理論の観点から、奇環状態のテンソルランク(|R_{2n+1}\rangle$)の上界と下界の両方を締めて、2^n+1 \leq rank(|R_{2n+1}\rangle) \leq 3*2^{n-1}$を読み取る。 次に,両部エンタングルメント尺度の多部拡張が,対応するグラフの接続性に基づいたグラフ状態に対する二分法であることを示す。 最後に、n-tangle $\tau_n$ を計算するための単純なグラフルールを与える。

Graph states play an important role in quantum information theory through their connection to measurement-based computing and error correction. Prior work has revealed elegant connections between the graph structure of these states and their multipartite entanglement content. We continue this line of investigation by identifying additional entanglement properties for certain types of graph states. From the perspective of tensor theory, we tighten both upper and lower bounds on the tensor rank of odd ring states ($|R_{2n+1}\rangle$) to read $2^n+1 \leq rank(|R_{2n+1}\rangle) \leq 3*2^{n-1}$. Next, we show that several multipartite extensions of bipartite entanglement measures are dichotomous for graph states based on the connectivity of the corresponding graph. Lastly, we give a simple graph rule for computing the n-tangle $\tau_n$.
翻訳日:2023-01-26 19:19:33 公開日:2023-01-10
# XYスピン鎖における解離ブロックの絡み合いダイナミクスの解析結果

Analytical results for the entanglement dynamics of disjoint blocks in the XY spin chain ( http://arxiv.org/abs/2210.03637v2 )

ライセンス: Link先を確認
Gilles Parez, Riccarda Bonsignori(参考訳) 焼入れ後の絡み合い対策のダイナミクスの研究は, 実験技術の発展に動機づけられ, 過去20年間で非常に活発な研究領域となっている。 しかし、この文脈での正確な結果はごくわずかなケースでしか得られない。 本研究では,量子クエンチ後のxy鎖内の2つの不連続ブロックの絡み合いエントロピーのダイナミクスに対する準粒子図の証明を提案する。 副産物として、そのモデルにおける相互情報に対する準粒子予想も証明する。 本計算は, [m. fagotti, p. calabrese, phys. rev. a 78, 010306 (2008)] で示されたことを, 相関行列がブロック-トプリッツ行列である場合に一般化し, スケーリング限界における多次元定常位相近似に依存する。 また, 正確な数値計算に対して準粒子予測をテストし, 良好な一致を求める。 3つのブロックの場合、少なくとも2つのブロックが隣接しているとトリパルタイト情報が消えることを示す。

The study of the dynamics of entanglement measures after a quench has become a very active area of research in the last two decades, motivated by the development of experimental techniques. However, exact results in this context are available in only very few cases. In this work, we present the proof of the quasiparticle picture for the dynamics of entanglement entropies for two disjoint blocks in the XY chain after a quantum quench. As a byproduct, we also prove the quasiparticle conjecture for the mutual information in that model. Our calculations generalize those presented in [M. Fagotti, P. Calabrese, Phys. Rev. A 78, 010306 (2008)] to the case where the correlation matrix is a block-Toeplitz matrix, and rely on the multidimensional stationary phase approximation in the scaling limit. We also test the quasiparticle predictions against exact numerical calculations, and find excellent agreement. In the case of three blocks, we show that the tripartite information vanishes when at least two blocks are adjacent.
翻訳日:2023-01-23 08:05:46 公開日:2023-01-10
# 破壊的干渉による固体高調波発生高原の形成

Formation of the solid-state high-harmonic generation plateau through destructive interference ( http://arxiv.org/abs/2211.06244v2 )

ライセンス: Link先を確認
Lina Bielke, Christoph J\"ur{\ss}, Vincent Burgtorf, Dieter Bauer(参考訳) 固体高調波発生のためのよく研究される2バンドモデルでは、原理的にバンド間高調波は最小から最大バンドギャップまで様々である。 しかし、レーザー強度が非常に高く、電子がブリルアンゾーン全体を探索するほどでない限り、最大バンドギャップよりかなり低いレーザー強度依存のカットオフが存在することが知られている。 このレーザー強度依存遮断は、ブリルアンゾーンの異なる初期状態から始まる電子の放出の破壊的干渉によって形成されることを示す。 本研究の計算はSu-Schrieffer-Heeger 連鎖に対するものであるが、他の二バンド系にも応用できる。 ブリルアンゾーンのサンプリングが十分に微細である場合、または同等に、有限鎖が位置空間において十分長い場合のみ、破壊的干渉は完了し、切断を形成する。 粗いサンプリングと短いチェーンでは、最小バンドギャップと最大バンドギャップの間のすべてのハーモニックが放出される。 時間周波数分析は、特定の軌道がカットオフの形成にどのように関与しているかを示す。

In frequently studied two-band models for solid-state high-harmonic generation, interband harmonics in principle can range from the minimum to the maximum bandgap. However, it is known that a laser-intensity dependent cutoff exists that may be well below the maximum bandgap unless the laser intensity is so high that the electrons explore the entire Brillouin zone. We show that this laser-intensity dependent cutoff is formed by destructive interference of the emission of electrons starting at different initial states in the Brillouin zone. The calculations in this work are for Su-Schrieffer-Heeger chains but our findings apply to other two-band systems as well. Only when the sampling of the Brillouin zone is fine enough or, equivalently, a finite chain is long enough in position space, the destructive interference is complete and forms the cutoff. For coarser sampling and shorter chains all harmonics between minimum and maximum bandgap are emitted. A time-frequency analysis shows how certain trajectories are responsible for the formation of the cutoff.
翻訳日:2023-01-19 18:28:56 公開日:2023-01-10
# 経路和を伴う仮想検出器理論を用いた非系列二重イオン化の解析

Analysis of Nonsequential Double Ionization Using Virtual Detector Theory with Path Summation ( http://arxiv.org/abs/2211.10862v2 )

ライセンス: Link先を確認
Daniel Younis and Joseph H. Eberly(参考訳) 本研究では,非破壊的な数値量子検出と仮想古典粒子の伝播に基づく仮想検出器法を適用し,ヘリウムキャラクタを持つモデル2電子原子の非系列イオン化ダイナミクスの研究を行った。 二重光電子運動量分布は仮想粒子軌道上のコヒーレント経路和によって計算される。 異なるイオン化と電子再構成経路への洞察は、詳細な仮想粒子追跡とエネルギー時間読み込みから得られる。 本研究は, 強磁場多電子量子力学への仮想検出器理論の適用の新たな拡張を示す。

We apply the virtual detector method, which is based on non-destructive numerical quantum detections and the propagation of virtual classical particles, to study in an ab initio way the nonsequential ionization dynamics of a model two-electron atom with helium character. The double photoelectron momentum distribution is calculated via coherent path-summation over virtual particle trajectories. Insights into different ionization and electron recollision pathways are gained from detailed virtual-particle tracking and energy-time readouts. This study demonstrates a new extension of our application of virtual detector theory to strong-field multi-electron quantum dynamics.
翻訳日:2023-01-17 23:47:43 公開日:2023-01-10
# AIを活用したコネクテッド産業に向けて:AGV通信とセンサ計測データセット

Towards an AI-enabled Connected Industry: AGV Communication and Sensor Measurement Datasets ( http://arxiv.org/abs/2301.03364v2 )

ライセンス: Link先を確認
Rodrigo Hernang\'omez, Alexandros Palaios, Cara Watermann, Daniel Sch\"aufele, Philipp Geuer, Rafail Ismayilov, Mohammad Parvini, Anton Krause, Martin Kasparick, Thomas Neugebauer, Oscar D. Ramos-Cantor, Hugues Tchouankem, Jose Leon Calvo, Bo Chen, S{\l}awomir Sta\'nczak, Gerhard Fettweis(参考訳) 本稿では,産業用車対車(iv2v)と産業用車対インフラセンサ(iv2i+)の2つの無線計測手法を提案する。 キャプチャされた2つのデータセットの詳細情報も提供されている。 iV2Vは、自動誘導車両(AGV)間のサイドリンク通信シナリオをカバーし、iV2I+は、自律的なクリーニングロボットがプライベートなセルネットワークに接続されている産業環境で実行される。 さまざまなコミュニケーション技術の組み合わせは、共通の測定手法とともに、指紋認証、ラインオブフォーカス検出、サービス品質の予測、リンク選択といったタスクに機械学習(ML)が活用できる洞察を提供する。 さらにデータセットはラベル付けされ、高速なオンボードと適用性のために事前フィルタされる。 対応するテストベッドと測定値も、両方のデータセットについて詳細に示されている。

This paper presents two wireless measurement campaigns in industrial testbeds: industrial Vehicle-to-vehicle (iV2V) and industrial Vehicle-to-infrastructure plus Sensor (iV2I+). Detailed information about the two captured datasets is provided as well. iV2V covers sidelink communication scenarios between Automated Guided Vehicles (AGVs), while iV2I+ is conducted at an industrial setting where an autonomous cleaning robot is connected to a private cellular network. The combination of different communication technologies, together with a common measurement methodology, provides insights that can be exploited by Machine Learning (ML) for tasks such as fingerprinting, line-of-sight detection, prediction of quality of service or link selection. Moreover, the datasets are labelled and pre-filtered for fast on-boarding and applicability. The corresponding testbeds and measurements are also presented in detail for both datasets.
翻訳日:2023-01-15 23:16:45 公開日:2023-01-10
# ハイゼンベルク・ワイル・ゲルマン基底における非可換ボネンブラスト・ヒル不等式と高速学習への応用

Noncommutative Bohnenblust-Hille inequality in the Heisenberg-Weyl and Gell-Mann bases with applications to fast learning ( http://arxiv.org/abs/2301.01438v2 )

ライセンス: Link先を確認
Joseph Slote, Alexander Volberg, Haonan Zhang(参考訳) 以前の非可換 Bohnenblust--Hille の不等式はテンソル積空間 $SU(2)^{\otimes n}$ \cite{HCP22,VZ22} における作用素分解に対処した。 ここでは任意の局所次元の積空間の不等式(例えば、$su(n)^{\otimes n}$ または $n$-fold tensor products of $n\times n$ hermitian matrices)を証明する。 我々はgell-mannとheisenberg-weyl基底の作用素分解を可換の場合に還元することで扱う。 後者の基底は、我々が証明した巡回群に対するスカラーbohnenblust-hille不等式に還元される。 量子ユンタ定理の応用や、おそらくほぼ正しい枠組みでqudit量子観測可能性の学習もリストアップされている。

Previous noncommutative Bohnenblust--Hille inequalities addressed operator decompositions in the tensor product space $SU(2)^{\otimes n}$ \cite{HCP22,VZ22}. Here we prove the inequalities for product spaces of arbitrary local dimension, e.g., $SU(N)^{\otimes n}$ or $n$-fold tensor products of $N\times N$ Hermitian matrices. We treat operator decompositions in both the Gell-Mann and Heisenberg-Weyl bases by reducing to commutative cases. The latter basis is reduced to a scalar Bohnenblust-Hille inequality for cyclic groups which we also prove. Applications to quantum junta theorems and learning qudit quantum observables in the Probably Approximately Correct framework are also listed.
翻訳日:2023-01-15 23:08:25 公開日:2023-01-10
# 厄介なカーネル -- 幻覚、無料ランチなし、逆問題における精度-安定性トレードオフについて

The troublesome kernel -- On hallucinations, no free lunches and the accuracy-stability trade-off in inverse problems ( http://arxiv.org/abs/2001.01258v2 )

ライセンス: Link先を確認
Nina M. Gottschling, Vegard Antun, Anders C. Hansen and Ben Adcock(参考訳) 人工知能(AI)にインスパイアされた手法は、困難な問題に対するブレークスルーパフォーマンスを通じて、計算科学と工学を根本的に変え始めている。 しかし,このような手法の信頼性や信頼性が大きな関心事となっている。 画像の逆問題において,本論文では,手法が幻覚,すなわち虚偽だが現実的に見えるアーティファクト,不安定性,すなわちデータの摂動に対する感受性,予測不能な一般化,すなわち画像に対する優れた性能と他の画像に対する著しい劣化に苦しむという実証的証拠が増加している。 本稿ではこれらの現象の理論的基礎を示す。 aiに触発された技術だけでなく、このような効果が任意のレコンストラクション法でどのように発生し、いつ起こるかを記述する数学的枠組みを与える。 いくつかの結果は'no free lunch'定理の形式を取っている。 具体的には (i)一つの画像上で過度に表現する手法は、ある画像から別の画像へ詳細を誤って転送し、幻覚を生じさせることができる。 二以上の画像にオーバーパフォーマンスする手法は幻覚や不安定になることがある。 三 精度安定トレードオフの最適化は概ね困難である。 (四 幻覚及び不安定は、まれな出来事ではなく、標準訓練により奨励することができる。) (v)特定の問題に対して最適なレコンストラクションマップを構築することは不可能かもしれない。 (vi)信頼性を向上させるための標準的な方法(例えば、正規化や敵対的訓練)は、それ自体が不安定な問題を引き起こす可能性がある。 結果は、これらの効果をフォワード演算子のカーネルに追従する。 これらの効果は、カーネルに関する情報が再構成手順にエンコードされた場合にのみ回避できる、と彼らは主張する。 これに基づいて、この研究は、画像の逆問題に対する堅牢で信頼性の高いAIインスパイアされた手法を開発する新しい方法の研究を促進することを目的としている。

Methods inspired by Artificial Intelligence (AI) are starting to fundamentally change computational science and engineering through breakthrough performances on challenging problems. However, reliability and trustworthiness of such techniques is becoming a major concern. In inverse problems in imaging, the focus of this paper, there is increasing empirical evidence that methods may suffer from hallucinations, i.e., false, but realistic-looking artifacts; instability, i.e., sensitivity to perturbations in the data; and unpredictable generalization, i.e., excellent performance on some images, but significant deterioration on others. This paper presents a theoretical foundation for these phenomena. We give a mathematical framework describing how and when such effects arise in arbitrary reconstruction methods, not just AI-inspired techniques. Several of our results take the form of 'no free lunch' theorems. Specifically, we show that (i) methods that overperform on a single image can wrongly transfer details from one image to another, creating a hallucination, (ii) methods that overperform on two or more images can hallucinate or be unstable, (iii) optimizing the accuracy-stability trade-off is generally difficult, (iv) hallucinations and instabilities, if they occur, are not rare events, and may be encouraged by standard training, (v) it may be impossible to construct optimal reconstruction maps for certain problems, (vi) standard methods to improve reliability (e.g., regularization or adversarial training) may themselves lead to unstable problems. Our results trace these effects to the kernel of the forwards operator. They assert that such effects can be avoided only if information about the kernel is encoded into the reconstruction procedure. Based on this, this work aims to spur research into new ways to develop robust and reliable AI-inspired methods for inverse problems in imaging.
翻訳日:2023-01-14 07:32:33 公開日:2023-01-10
# 有効寿命推定のための相互作用モデル

Interaction models for remaining useful life estimation ( http://arxiv.org/abs/2301.05029v1 )

ライセンス: Link先を確認
Dmitry Zhevnenko, Mikhail Kazantsev, Ilya Makarov(参考訳) 本論文は, センサの読み方に応じて, 産業機器の状態を制御している問題に対処する。 現在の手法は、予測が起こる特徴抽出への1つのアプローチに依存している。 複数の異なる機能抽出ブロックを組み合わせたスケーラブルなモデルを構築する手法を提案した。 逐次センサ空間解析に基づく新しいモデルにより,C-MAPSSベンチマークにおける有用寿命推定のための最先端結果が得られる。 その結果,スケーリングに伴う予測変更を含むモデル性能が検証された。

The paper deals with the problem of controlling the state of industrial devices according to the readings of their sensors. The current methods rely on one approach to feature extraction in which the prediction occurs. We proposed a technique to build a scalable model that combines multiple different feature extractor blocks. A new model based on sequential sensor space analysis achieves state-of-the-art results on the C-MAPSS benchmark for equipment remaining useful life estimation. The resulting model performance was validated including the prediction changes with scaling.
翻訳日:2023-01-13 14:44:36 公開日:2023-01-10
# 硫化亜鉛コロイドナノ結晶における銅空色中心からの赤色発光

Red Emission from Copper-Vacancy Color Centers in Zinc Sulfide Colloidal Nanocrystals ( http://arxiv.org/abs/2301.04223v1 )

ライセンス: Link先を確認
Sarah M. Thompson, C\"uneyt \c{S}ahin, Shengsong Yang, Michael E. Flatt\'e, Christopher B. Murray, Lee C. Bassett, and Cherie R. Kagan(参考訳) 銅ドープ硫化亜鉛(zns:cu)は、電磁波スペクトルのuv領域、可視領域、ir領域において下方変換発光を示し、可視赤色、緑色、青色の発光をそれぞれr-cu、g-cu、b-cuと呼ぶ。 サブバンドギャップ放出は、点欠陥によって生じる局所電子状態間の光遷移から生じ、ZnS:Cuは多量の蛍光体材料であり、点欠陥が単一光子源やスピン量子ビットとして優れている量子情報科学の興味深い候補物質となる。 zns:cuのコロイドナノ結晶(ncs)は、そのサイズ、組成、表面化学がバイオセンシングおよび光電子応用のために正確に調整できるため、量子欠陥の生成、単離、測定のホストとして特に興味深い。 本稿では,Cu$_{Zn}$-V$_S$錯体を主成分とするコロイドZnS:Cu NCを合成する方法を提案する。 第一原理計算は、Cu$_{Zn}$-V$_S$の熱力学的安定性と電子構造を確認する。 ZnS:Cu NCsの温度および時間依存性光学特性は、温度が19Kから290Kに増加するにつれてブルーシフト発光と非単調強度依存性を示し、ZnSバンドギャップ内の2つの状態間の熱活性化結合に基づく経験的力学モデルを提案する。 コロイドNCホストにおけるR-Cu中心の制御合成法と組み合わせることで、Cu$_{Zn}$-V$_S$および関連錯体のZnSにおける量子点欠陥としての開発が大幅に促進される。

Copper-doped zinc sulfide (ZnS:Cu) exhibits down-conversion luminescence in the UV, visible, and IR regions of the electromagnetic spectrum; the visible red, green, and blue emission is referred to as R-Cu, G-Cu, and B-Cu, respectively. The sub-bandgap emission arises from optical transitions between localized electronic states created by point defects, making ZnS:Cu a prolific phosphor material and an intriguing candidate material for quantum information science, where point defects excel as single-photon sources and spin qubits. Colloidal nanocrystals (NCs) of ZnS:Cu are particularly interesting as hosts for the creation, isolation, and measurement of quantum defects, since their size, composition, and surface chemistry can be precisely tailored for bio-sensing and opto-electronic applications. Here, we present a method for synthesizing colloidal ZnS:Cu NCs that emit primarily R-Cu, which has been proposed to arise from the Cu$_{Zn}$-V$_S$ complex, an impurity-vacancy point defect structure analogous to well-known quantum defects in other materials that produce favorable optical and spin dynamics. First principles calculations confirm the thermodynamic stability and electronic structure of Cu$_{Zn}$-V$_S$. Temperature- and time-dependent optical properties of ZnS:Cu NCs show blueshifting luminescence and a non-monotonic intensity dependence as temperature is increased from 19 K to 290 K, for which we propose an empirical dynamical model based on thermally-activated coupling between two manifolds of states inside the ZnS bandgap. Understanding of R-Cu emission dynamics, combined with a controlled synthesis method for obtaining R-Cu centers in colloidal NC hosts, will greatly facilitate the development of Cu$_{Zn}$-V$_S$ and related complexes as quantum point defects in ZnS.
翻訳日:2023-01-12 18:22:16 公開日:2023-01-10
# 簡素なマツリシカの花

Entanglement blossom in a simplex matryoshka ( http://arxiv.org/abs/2301.04170v1 )

ライセンス: Link先を確認
Zhao Zhang(参考訳) エキゾチックな絡み合いエントロピースケーリング特性は、通常、実空間における興味深い絡み合い構造と時空格子の新しい計量をもたらす。 1つの顕著な例は、結合強度の強い不均一性から有効に長い範囲のカップリングにより、中心形状のベル対に対称な格子サイトが存在する虹鎖である。 この写本はレインボー連鎖をハウスドルフ次元 1 の格子上の高次元空間に一般化し、ハミルトニアンフラストレーションを自由に保つ局所ヒルベルト空間を拡大する。 シュリーファー・ウルフ変換の有効なハミルトニアンは、0$-次元(完全連結)の反強磁性ハミルトニアンを持つ、k$-単体の層を積み重ねることで与えられる。 元の格子は、通常のk$-次元立方体格子で不傾斜欠陥を増殖させ、格子の中心に曲率を導入することで得られる。 このモデルはSYKモデルと自由フェルミオンXXスピン鎖の間を補間するので、ブラックホール物理学やホログラフィーを理解するのに有用かもしれない。

Exotic entanglement entropy scaling properties usually come with interesting entanglement structures in real space and novel metrics of the spacetime lattice. One prominent example is the rainbow chain where lattice sites symmetric about the center form entangled Bell pairs due to an effective long-range coupling from the strong inhomogeneity of the coupling strength. This manuscript generalizes the rainbow chain to higher dimensional space on lattices with Hausdorff dimension one and enlarged local Hilbert space keeping the Hamiltonian frustration free. The effective Hamiltonian from the Schrieffer-Wolf transformation is given by a stacking of layers of $k$-simplices with $0$-dimensional (fully-connected) antiferromagnetic Hamiltonians, which can be diagonalized analytically with Young operators. The original lattice can be obtained from proliferating disinclination defects in a regular $k$-dimensional cubical lattice, which introduces curvature at the center of the lattice. The model interpolates between the SYK model and the free-fermionic XX spin chain, and hence might be potentially useful in understanding black hole physics and holography.
翻訳日:2023-01-12 18:20:30 公開日:2023-01-10
# 光ポテンシャルにおける原子分離制御のためのアコーディオン超格子

An accordion superlattice for controlling atom separation in optical potentials ( http://arxiv.org/abs/2301.04144v1 )

ライセンス: Link先を確認
Simon Wili, Tilman Esslinger, and Konrad Viebahn(参考訳) 光学格子中の閉じ込められた原子を遠距離で分離する方法を提案する。 鍵となる考え方は、アコーディオン格子と呼ばれる2つの格子間の原子の循環移動であり、それぞれが格子間隔における少なくとも2つの因子をカバーしている。 2つの重ね合わされたポテンシャルの間に原子をコヒーレントに積み込むことにより、原理上、任意に大きな原子分離に到達でき、比較的小さな開口しか必要としない。 アコーディオン超格子(accordion superlattice)の数値シミュレーションにより、原子は分離過程を通じて、中程度の格子深度でも1つの格子部位に局在していることが示された。 原理実証実験では、アコーディオン超格子に必要な光学場を音響光学偏向器を用いて実証する。 この方法は、光トウィーザーを用いた中性原子量子コンピューティングや、低エントロピー多体状態の量子シミュレーションにも応用できる。 例えば、ユニット充填原子モット絶縁体は、非常に高い充填量を持つ光ツイーザアレイをロードするために、10の係数でコヒーレントに拡張することができる。 順番にソートされたツイーザーアレイを圧縮し、光学格子中の超低温原子の高密度状態を形成する。 この方法は、粒子の動的分離が必要な生体システムにも適用することができる。

We propose a method for separating trapped atoms in optical lattices by large distances. The key idea is the cyclic transfer of atoms between two lattices of variable spacing, known as accordion lattices, each covering at least a factor of two in lattice spacing. By coherently loading atoms between the two superimposed potentials, we can reach, in principle, arbitrarily large atom separations, while requiring only a relatively small numerical aperture. Numerical simulations of our `accordion superlattice' show that the atoms remain localised to one lattice site throughout the separation process, even for moderate lattice depths. In a proof-of-principle experiment we demonstrate the optical fields required for the accordion superlattice using acousto-optic deflectors. The method can be applied to neutral-atom quantum computing with optical tweezers, as well as quantum simulation of low-entropy many-body states. For instance, a unit-filling atomic Mott insulator can be coherently expanded by a factor of ten in order to load an optical tweezer array with very high filling. In turn, sorted tweezer arrays can be compressed to form high-density states of ultracold atoms in optical lattices. The method can be also be applied to biological systems where dynamical separation of particles is required.
翻訳日:2023-01-12 18:14:10 公開日:2023-01-10
# 量子コンピューティングのための設計ツールの基礎:配列、決定図、テンソルネットワーク、ZX-計算

The Basis of Design Tools for Quantum Computing: Arrays, Decision Diagrams, Tensor Networks, and ZX-Calculus ( http://arxiv.org/abs/2301.04147v1 )

ライセンス: Link先を確認
Robert Wille, Lukas Burgholzer, Stefan Hillmich, Thomas Grurl, Alexander Ploier, and Tom Peham(参考訳) 量子コンピュータは、古典的コンピュータが決して起こらない重要な問題を解決することを約束する。 しかし、これらの展望に乗じるためには、完全に自動化された量子ソフトウェアスタックを開発する必要がある。 これには、量子回路の古典的なシミュレーションから、そのコンパイルから特定のデバイスへのコンパイル、実行すべき回路の検証、および得られた結果まで、数多くの複雑なタスクが含まれる。 これらのタスクはすべて極めて自明で、固有の複雑性に取り組むために効率的なデータ構造を必要とします。 決定ダイアグラム(設計自動化コミュニティから着想を得た)よりも直線的な配列からテンソルネットワークやzx計算まで、様々な相補的なアプローチが提案されている。 この研究は、今日のツールの「内部」の外観を提供し、量子回路のシミュレーション、コンパイル、検証などにおいてこれらの手段をどのように利用するかを示す。

Quantum computers promise to efficiently solve important problems classical computers never will. However, in order to capitalize on these prospects, a fully automated quantum software stack needs to be developed. This involves a multitude of complex tasks from the classical simulation of quantum circuits, over their compilation to specific devices, to the verification of the circuits to be executed as well as the obtained results. All of these tasks are highly non-trivial and necessitate efficient data structures to tackle the inherent complexity. Starting from rather straight-forward arrays over decision diagrams (inspired by the design automation community) to tensor networks and the ZX-calculus, various complementary approaches have been proposed. This work provides a look "under the hood" of today's tools and showcases how these means are utilized in them, e.g., for simulation, compilation, and verification of quantum circuits.
翻訳日:2023-01-12 18:13:47 公開日:2023-01-10
# 減算式による量子コンピューティングからの散乱振幅

Scattering Amplitude from Quantum Computing with Reduction Formula ( http://arxiv.org/abs/2301.04179v1 )

ライセンス: Link先を確認
Tianyin Li, Wai Kin Lai, Enke Wang, Hongxi Xing(参考訳) 本稿では,lehmann-symanzik-zimmermann (lsz) 還元式を用いて,量子コンピュータを用いた量子場理論における散乱振幅の計算法を提案する。 この枠組みでは、運動量ゼロの1粒子状態のみを構築する必要があり、入ってくる粒子の波のパケットは不要である。 この枠組みは境界状態の散乱を組み込むことができ、少数の粒子を含む散乱に理想的である。 排他的ハドロン散乱に適用すると、このフレームワークに特別な利点があることを期待している。 概念実証として, 古典的ハードウェア上でのシミュレーションにより, 提案する量子アルゴリズムから得られる1+1次元ナムブ・ジョナ・ラシニオ(njl)モデルの2点関数が, lsz還元式の実装に必須の極構造を持つことを実証する。

Utilizing the Lehmann-Symanzik-Zimmermann (LSZ) reduction formula, we present a new general framework for computing scattering amplitudes in quantum field theory with quantum computers in a fully nonperturbative way. In this framework, one only has to construct one-particle states of zero momentum, and no wave packets of incoming particles are needed. The framework is able to incorporate scatterings of bound states, and is ideal for scatterings involving a small number of particles. We expect this framework to have particular advantages when applied to exclusive hadron scatterings. As a proof of concept, by simulations on classical hardware, we demonstrate that the two-point function in the 1+1-dimensional Nambu-Jona-Lasinio (NJL) model obtained from our proposed quantum algorithm has the desired pole structure crucial to the implementation of the LSZ reduction formula.
翻訳日:2023-01-12 18:13:33 公開日:2023-01-10
# バイオフィルムの細菌決定のための遺伝子制御ニューラルネットの推定

Inferring Gene Regulatory Neural Networks for Bacterial Decision Making in Biofilms ( http://arxiv.org/abs/2301.04225v1 )

ライセンス: Link先を確認
Samitha Somathilaka, Daniel P. Martins, Xu Li, Yusong Li, Sasitharan Balasubramaniam(参考訳) 細菌細胞は環境を学習するのに用いられる様々な外部信号に敏感である。 これらの外部信号は遺伝子制御ネットワーク(GRN)を使用して処理され、現代の計算アルゴリズムと類似性を示す。 遺伝子発現動態の詳細な解析により、GRN内の遺伝性遺伝子制御ニューラルネットワーク(GRNN)の挙動が示唆され、環境や周辺細胞からの受信信号に基づいて細胞決定を可能にする。 本研究では, 緑膿菌GRNのサブネットワークを抽出し, 1つの病原性因子: ピオシアニン産生を指標として, GRNNの挙動を解明する。 さらに,グラフニューラルネットワーク(gnn)アーキテクチャを用いて単一種のバイオフィルムをモデル化し,grnnダイナミクスがエコシステム全体の意思決定に果たす役割を明らかにする。 環境条件を条件として,抽出したGRNNは,セルの自然な決定プロセスと同様の入力信号を計算する。 GRNにおけるニューラルネットワークの挙動の同定は、人間の健康問題や農業用途を含む多くの応用において、より正確な細菌の細胞活動予測モデルをもたらす可能性がある。 さらに,本モデルはネットワーク全体の因果関係に関するデータを生成することができ,感染制御機構を設計することができる。 さらに興味深いことに、これらのGRNNはバイオハイブリッドコンピューティングシステムのための計算タスクを実行することができる。

Bacterial cells are sensitive to a range of external signals used to learn the environment. These incoming external signals are then processed using a Gene Regulatory Network (GRN), exhibiting similarities to modern computing algorithms. An in-depth analysis of gene expression dynamics suggests an inherited Gene Regulatory Neural Network (GRNN) behavior within the GRN that enables the cellular decision-making based on received signals from the environment and neighbor cells. In this study, we extract a sub-network of \textit{Pseudomonas aeruginosa} GRN that is associated with one virulence factor: pyocyanin production as a use case to investigate the GRNN behaviors. Further, using Graph Neural Network (GNN) architecture, we model a single species biofilm to reveal the role of GRNN dynamics on ecosystem-wide decision-making. Varying environmental conditions, we prove that the extracted GRNN computes input signals similar to natural decision-making process of the cell. Identifying of neural network behaviors in GRNs may lead to more accurate bacterial cell activity predictive models for many applications, including human health-related problems and agricultural applications. Further, this model can produce data on causal relationships throughout the network, enabling the possibility of designing tailor-made infection-controlling mechanisms. More interestingly, these GRNNs can perform computational tasks for bio-hybrid computing systems.
翻訳日:2023-01-12 18:05:43 公開日:2023-01-10
# 蛍光スペクトルのデータセットとオリーブ油の化学的パラメータ

Dataset of Fluorescence Spectra and Chemical Parameters of Olive Oils ( http://arxiv.org/abs/2301.04471v1 )

ライセンス: Link先を確認
Francesca Venturini, Michela Sperti, Umberto Michelucci, Arnaud Gucciardi, Vanessa M. Martos, Marco A. Deriu(参考訳) このデータセットは、スペインのグラナダ州コンデ・デ・ベナルーアの2019-2020年の収穫から得られた24個のオリーブオイルの蛍光スペクトルと化学的パラメータを含む。 この油は,10種類の追加のヴァージンオリーブ油 (EVOO),8種のヴァージンオリーブ油 (VOO),6種のランプアンデオリーブ油 (LOO) が特徴である。 各試料について、このデータセットは、2つの励起波長、油質、およびオリーブ油の品質評価に必要な5つの化学パラメータで得られた蛍光スペクトルを含む。 蛍光スペクトルは365nmおよび395nmの試料を同一条件下で励起することで得られた。 このデータセットは、オリーブ油試料ごとに、酸性度、過酸化物値、K270、K232、エチルエステル、および試料の品質(EVOO、VOO、LOO)の以下の化学パラメータの値を含む。 このデータセットは、食品技術の研究者にとって、分光データと化学データの両方が利用できるため、オリーブオイルの品質評価のための蛍光データに基づく機械学習モデルを開発するためのユニークな可能性を提供する。 データセットは、例えば、1つまたは複数の化学パラメータを予測したり、蛍光スペクトルからその品質に基づいてサンプルを分類するために使用することができる。

This dataset encompasses fluorescence spectra and chemical parameters of 24 olive oil samples from the 2019-2020 harvest provided by the producer Conde de Benalua, Granada, Spain. The oils are characterized by different qualities: 10 extra virgin olive oil (EVOO), 8 virgin olive oil (VOO), and 6 lampante olive oil (LOO) samples. For each sample, the dataset includes fluorescence spectra obtained with two excitation wavelengths, oil quality, and five chemical parameters necessary for the quality assessment of olive oil. The fluorescence spectra were obtained by exciting the samples at 365 nm and 395 nm under identical conditions. The dataset includes the values of the following chemical parameters for each olive oil sample: acidity, peroxide value, K270, K232, ethyl esters, and the quality of the samples (EVOO, VOO, or LOO). The dataset offers a unique possibility for researchers in food technology to develop machine learning models based on fluorescence data for the quality assessment of olive oil due to the availability of both spectroscopic and chemical data. The dataset can be used, for example, to predict one or multiple chemical parameters or to classify samples based on their quality from fluorescence spectra.
翻訳日:2023-01-12 17:57:38 公開日:2023-01-10
# 高分解能オンチップ薄膜窒化リチウム一光子バッファ

High Resolution On-Chip Thin-Film Lithium Niobate Single-Photon Buffer ( http://arxiv.org/abs/2301.04140v1 )

ライセンス: Link先を確認
Cagin Ekici, Yonghe Yu, Jeremy C. Adcock, Alif Laila Muthali, Heyun Tan, Hao Li, Leif Katsuo Oxenl{\o}we, Xinlun Cai, and Yunhong Ding(参考訳) ニオブ酸リチウムチップ上で室温,電圧制御,短期量子フォトニクスメモリを実験的に実証した。 チップは100psのタイムステップを1ラウンドトリップあたり0.74dBのロスで解決できる。

We experimentally demonstrate a room-temperature, voltage controlled, short-term quantum photonics memory on a lithium niobate chip. Our chip is capable of resolving 100 ps time steps with 0.74 dB loss per round-trip.
翻訳日:2023-01-12 17:56:21 公開日:2023-01-10
# 非相対論的量子力学のホログラフィ原理

A Holographic Principle for Non-Relativistic Quantum Mechanics ( http://arxiv.org/abs/2301.04180v1 )

ライセンス: Link先を確認
Russell B. Thompson(参考訳) 5次元の熱時空間に埋め込まれた古典的一次元スレッドとして時空の量子粒子を表現できる自己整合場理論の量子古典同型を要約し、量子現象の選択を説明するために用いる。 ファインマンによって導入され、現代の量子シミュレーションに使われた同型は、場理論的な方法で句されるとき、量子密度汎関数論と同じであることが示されており、これは非相対論的量子力学と等価な予測を保証する定理である。 ファインマン次元が実数であると考えられる場合、5次元の古典スレッドと4次元の量子粒子の間には双対性が存在する。 5次元図を用いて、不確実性原理、トンネル、幾何位相、干渉効果を含む量子現象について直感的な説明を与える。 5D画像の利点として, 被写体数が少なく, 測定問題がなく, 高次元空間における古典的概念のみの必要性がある。 絡み合いやスピンの解釈のようなアプローチの限界について議論する。

The quantum-classical isomorphism for self-consistent field theory, which allows quantum particles in space-time to be represented as classical one-dimensional threads embedded in a five dimensional thermal-space-time, is summarized and used to explain a selection of quantum phenomena. Introduced by Feynman, and used for modern quantum simulations, the isomorphism, when phrased in a field-theoretic way, has been shown to be the same as quantum density functional theory, the theorems of which guarantee equivalent predictions with non-relativistic quantum mechanics. If the Feynman dimension is considered to be real, there is a duality between classical threads in five dimensions and quantum particles in four dimensions. Using the 5D picture, intuitive explanations are given for quantum phenomena including the uncertainty principle, tunnelling, geometric phase, and interference effects. Advantages of the 5D picture are presented, which include fewer postulates, no measurement problem, and the need for only classical concepts in the higher dimensional space. Limitations of the approach such as the interpretation of entanglement and spin are discussed.
翻訳日:2023-01-12 17:56:15 公開日:2023-01-10
# 量子軌道に沿った幾何学的位相

Geometric phases along quantum trajectories ( http://arxiv.org/abs/2301.04222v1 )

ライセンス: Link先を確認
Ludmila Viotti, Ana Laura Gramajo, Paula I. Villar, Fernando C. Lombardo, Rosario Fazio(参考訳) ハミルトニアンを統治するパラメータの循環的進化を行う監視量子系は、量子軌道に依存する幾何学的位相を蓄積し、それに続く系は進化する。 フェーズ値は、ユニタリダイナミクスと、システムと環境の相互作用の両方によって決定されます。 したがって、幾何学的位相はランダムな量子ジャンプの発生により確率的特性を得る。 本稿では,観測量子系における幾何位相の分布関数について検討し,開量子系における幾何位相を測定するために,いつ,何が異なるかについて議論する。 また,監視されたエコープロトコルについて検討し,実験で抽出された干渉パターンの分布が幾何位相と関連している場合について議論する。 さらに, 量子ジャンプを伴わない単一軌道に対して, サイクル後に得られた位相の位相遷移を示し, この臨界挙動がエコープロトコルでどのように観測されるかを示す。 同じパラメータに対して、密度行列は特異点を示さない。 外部環境下での時間変化磁場に浸漬したスピン1/2のパラダイムケースを考慮し,本研究の主な成果を概説する。 しかしながら、我々の分析の主な結果は非常に一般的であり、その定性的特徴において、研究されたモデルの選択に依存しない。

A monitored quantum system undergoing a cyclic evolution of the parameters governing its Hamiltonian accumulates a geometric phase that depends on the quantum trajectory followed by the system on its evolution. The phase value will be determined both by the unitary dynamics and by the interaction of the system with the environment. Consequently, the geometric phase will acquire a stochastic character due to the occurrence of random quantum jumps. Here we study the distribution function of geometric phases in monitored quantum systems and discuss when/if different quantities, proposed to measure geometric phases in open quantum systems, are representative of the distribution. We also consider a monitored echo protocol and discuss in which cases the distribution of the interference pattern extracted in the experiment is linked to the geometric phase. Furthermore, we unveil, for the single trajectory exhibiting no quantum jumps, a topological transition in the phase acquired after a cycle and show how this critical behavior can be observed in an echo protocol. For the same parameters, the density matrix does not show any singularity. We illustrate all our main results by considering a paradigmatic case, a spin-1/2 immersed in time-varying a magnetic field in presence of an external environment. The major outcomes of our analysis are however quite general and do not depend, in their qualitative features, on the choice of the model studied.
翻訳日:2023-01-12 17:55:54 公開日:2023-01-10
# 行列乗算時間におけるQUBOの半定緩和の解法と量子コンピュータによる高速化

Solving the semidefinite relaxation of QUBOs in matrix multiplication time, and faster with a quantum computer ( http://arxiv.org/abs/2301.04237v1 )

ライセンス: Link先を確認
Brandon Augustino, Giacomo Nannicini, Tam\'as Terlaky and Luis Zuluaga(参考訳) 半定値最適化(SDO)問題を解く量子アルゴリズムに関する最近の研究は、正半定値行列の量子力学的解釈を利用して、次元$n$と制約数$m$に関する量子スピードアップを求める方法を開発した。 他のパラメータへの依存は古典的手法よりも全体的なスピードアップを示さないが、量子SDOソルバによっては低精度な方式でスピードアップを提供する。 我々はこの事実を有利に活用し、Brand\~ao et al.のハミルトン更新アルゴリズムの反復的改良スキームを提案する。 ~(\emph{Quantum} 6, 625 (2022)) はアルゴリズムの精度への依存を指数関数的に改善する。 その結果,行列乗算時間における二次非拘束二元最適化問題 (qubos) の半定義緩和を解く古典的なアルゴリズムが得られる。 量子リード/古典的書き込みランダムアクセスメモリ(QRAM)へのアクセスにより、我々のアルゴリズムの量子実装は、$\mathcal{O} \left(ns + n^{1.5} \cdot \text{polylog} \left(n, \| C \|_F, \frac{1}{\epsilon} \right)$の最悪の実行時間を示す。

Recent works on quantum algorithms for solving semidefinite optimization (SDO) problems have leveraged a quantum-mechanical interpretation of positive semidefinite matrices to develop methods that obtain quantum speedups with respect to the dimension $n$ and number of constraints $m$. While their dependence on other parameters suggests no overall speedup over classical methodologies, some quantum SDO solvers provide speedups in the low-precision regime. We exploit this fact to our advantage, and present an iterative refinement scheme for the Hamiltonian Updates algorithm of Brand\~ao et al.~(\emph{Quantum} 6, 625 (2022)) to exponentially improve the dependence of their algorithm on precision. As a result, we obtain a classical algorithm to solve the semidefinite relaxation of Quadratic Unconstrained Binary Optimization problems (QUBOs) in matrix multiplication time. Provided access to a quantum read/classical write random access memory (QRAM), a quantum implementation of our algorithm exhibits a worst case running time of $\mathcal{O} \left(ns + n^{1.5} \cdot \text{polylog} \left(n, \| C \|_F, \frac{1}{\epsilon} \right) \right)$.
翻訳日:2023-01-12 17:55:33 公開日:2023-01-10
# 水流速度場評価のための効率的なドリフトター配置法

An Efficient Drifters Deployment Strategy to Evaluate Water Current Velocity Fields ( http://arxiv.org/abs/2301.04216v1 )

ライセンス: Link先を確認
Murad Tukan, Eli Biton, Roee Diamant(参考訳) 水流予測は生態系を理解するのに不可欠であり、地球規模の気候における海洋の役割に光を当てている。 解は物理的モデリングや長期観測から短期測定まで様々である。 本稿では,流速場を反映する要素の軌道を補間することにより,流れ予測にラグランジアンフロートを用いた水流予測の一般的な手法を検討する。 ここで、これまでに取り組んだことのない重要な側面は、取得した速度場が水流を効率的に表せるように、ドリフト要素を最初に展開する場所である。 そのため、速度場の物理モデルに依存するクラスタリングアプローチを採用しています。 本手法では,モデルマップをセグメンテーションし,フロータが異なるセグメントの中心を'訪問'する場所として配置位置を決定する。 これにより,フローターがカバーする領域が速度場において不均質に捕獲されることを確認した。 1年以上にわたるvelocity field mapのデータセットの探索は、我々のアプローチの適用性を示し、初期配置サイトをランダムに選択する一般的なアプローチよりも大幅に改善しています。 最後に、実装コードは[1]で見つけることができます。

Water current prediction is essential for understanding ecosystems, and to shed light on the role of the ocean in the global climate context. Solutions vary from physical modeling, and long-term observations, to short-term measurements. In this paper, we consider a common approach for water current prediction that uses Lagrangian floaters for water current prediction by interpolating the trajectory of the elements to reflect the velocity field. Here, an important aspect that has not been addressed before is where to initially deploy the drifting elements such that the acquired velocity field would efficiently represent the water current. To that end, we use a clustering approach that relies on a physical model of the velocity field. Our method segments the modeled map and determines the deployment locations as those that will lead the floaters to 'visit' the center of the different segments. This way, we validate that the area covered by the floaters will capture the in-homogeneously in the velocity field. Exploration over a dataset of velocity field maps that span over a year demonstrates the applicability of our approach, and shows a considerable improvement over the common approach of uniformly randomly choosing the initial deployment sites. Finally, our implementation code can be found in [1].
翻訳日:2023-01-12 17:45:53 公開日:2023-01-10
# ORBIT:対話型ロボット学習環境のための統一シミュレーションフレームワーク

ORBIT: A Unified Simulation Framework for Interactive Robot Learning Environments ( http://arxiv.org/abs/2301.04195v1 )

ライセンス: Link先を確認
Mayank Mittal, Calvin Yu, Qinxi Yu, Jingzhou Liu, Nikita Rudin, David Hoeller, Jia Lin Yuan, Pooria Poorsarvi Tehrani, Ritvik Singh, Yunrong Guo, Hammad Mazhar, Ajay Mandlekar, Buck Babich, Gavriel State, Marco Hutter, Animesh Garg(参考訳) ORBITはNVIDIA Isaac Simによるロボット学習のための統一的でモジュール化されたフレームワークである。 写真リアリスティックなシーンと高速で正確な剛性と変形可能な身体シミュレーションを備えたロボット環境を、簡単かつ効率的に作成するためのモジュラーデザインを提供する。 ORBITでは、単一ステージのキャビネットのオープニングや布の折り畳みから、部屋の再編成などのマルチステージタスクに至るまで、さまざまな困難を伴うベンチマークタスクのスイートを提供しています。 多様な観察と行動空間での作業をサポートするため、異なる物理的センサーとモーションジェネレータを備えた固定アームと移動マニピュレータを含む。 ORBITは、GPUベースの並列化を活用することで、強化学習ポリシのトレーニングと、手作りあるいはエキスパートソリューションから大規模なデモデータセットを数分で収集することを可能にする。 要約すると、オープンソースのフレームワークは16のロボットプラットフォーム、4つのセンサーモジュール、10のモーションジェネレータ、20以上のベンチマークタスク、そして4つの学習ライブラリへのラッパーが簡単に提供される。 このフレームワークでは,表現学習,強化学習,模倣学習,タスク・モーション計画など,さまざまな研究分野をサポートすることを目指している。 これらのコミュニティで学際的なコラボレーションを確立するのに役立ち、モジュラリティによって将来的により多くのタスクやアプリケーションを簡単に拡張できることを願っています。 ビデオ、ドキュメント、コードについて: https://isaac-orbit.github.io/。

We present ORBIT, a unified and modular framework for robot learning powered by NVIDIA Isaac Sim. It offers a modular design to easily and efficiently create robotic environments with photo-realistic scenes and fast and accurate rigid and deformable body simulation. With ORBIT, we provide a suite of benchmark tasks of varying difficulty -- from single-stage cabinet opening and cloth folding to multi-stage tasks such as room reorganization. To support working with diverse observations and action spaces, we include fixed-arm and mobile manipulators with different physically-based sensors and motion generators. ORBIT allows training reinforcement learning policies and collecting large demonstration datasets from hand-crafted or expert solutions in a matter of minutes by leveraging GPU-based parallelization. In summary, we offer an open-sourced framework that readily comes with 16 robotic platforms, 4 sensor modalities, 10 motion generators, more than 20 benchmark tasks, and wrappers to 4 learning libraries. With this framework, we aim to support various research areas, including representation learning, reinforcement learning, imitation learning, and task and motion planning. We hope it helps establish interdisciplinary collaborations in these communities, and its modularity makes it easily extensible for more tasks and applications in the future. For videos, documentation, and code: https://isaac-orbit.github.io/.
翻訳日:2023-01-12 17:39:16 公開日:2023-01-10
# リカレント推論マシンを用いた重力レンズシステムにおける前景密度と背景輝度の画素再構成

Pixelated Reconstruction of Foreground Density and Background Surface Brightness in Gravitational Lensing Systems using Recurrent Inference Machines ( http://arxiv.org/abs/2301.04168v1 )

ライセンス: Link先を確認
Alexandre Adam, Laurence Perreault-Levasseur, Yashar Hezaveh and Max Welling(参考訳) 背景画像の歪みを定量化し,前景レンズの質量密度を再構築するために,強い重力レンズをモデル化することは困難であった。 重力レンズ画像の品質が高まるにつれて、その情報を完全に活用する作業は計算的にもアルゴリズム的にも困難になる。 本研究では,リカレント推論マシン(rim)に基づくニューラルネットワークを用いて,背景音源の未修正画像とレンズ質量密度分布を同時に画素マップとして再構成する。 本発明の方法は、物理モデル(レイトレーシングシミュレーション)を用いてデータを与えられた確率を最適化する過程を学習し、トレーニングデータを介してニューラルネットワークによって暗黙的に学習された事前のモデルパラメータ(ソースの画像及び画素密度マップ)を反復的に再構成する。 従来のパラメトリックモデルと比較すると,提案手法はより表現力が高く,複雑な質量分布を再構成することができる。

Modeling strong gravitational lenses in order to quantify the distortions in the images of background sources and to reconstruct the mass density in the foreground lenses has been a difficult computational challenge. As the quality of gravitational lens images increases, the task of fully exploiting the information they contain becomes computationally and algorithmically more difficult. In this work, we use a neural network based on the Recurrent Inference Machine (RIM) to simultaneously reconstruct an undistorted image of the background source and the lens mass density distribution as pixelated maps. The method iteratively reconstructs the model parameters (the image of the source and a pixelated density map) by learning the process of optimizing the likelihood given the data using the physical model (a ray-tracing simulation), regularized by a prior implicitly learned by the neural network through its training data. When compared to more traditional parametric models, the proposed method is significantly more expressive and can reconstruct complex mass distributions, which we demonstrate by using realistic lensing galaxies taken from the IllustrisTNG cosmological hydrodynamic simulation.
翻訳日:2023-01-12 17:37:53 公開日:2023-01-10
# ランダム化適応量子状態準備

Randomized adaptive quantum state preparation ( http://arxiv.org/abs/2301.04201v1 )

ライセンス: Link先を確認
Alicia B. Magann, Sophia E. Economou, Christian Arenz(参考訳) 本研究では、ランダム性を必須成分とし、古典的最適化を必要としない量子状態準備のための適応法を開発した。 代わりに、コスト関数を最小化し、適応的に構築された量子回路を通じて所望の量子状態を作成する。 ほぼ全ての初期状態に対して、対象状態への収束が達成できるという理論的議論と数値的な証拠を提供する。 本研究では,不連続高原への接続を可能にし,大規模問題に対するアルゴリズムの適用性を評価するために,異なるランダム化手順を調査し,期待コスト関数変化の低域を開拓する。

We develop an adaptive method for quantum state preparation that utilizes randomness as an essential component and that does not require classical optimization. Instead, a cost function is minimized to prepare a desired quantum state through an adaptively constructed quantum circuit, where each adaptive step is informed by feedback from gradient measurements in which the associated tangent space directions are randomized. We provide theoretical arguments and numerical evidence that convergence to the target state can be achieved for almost all initial states. We investigate different randomization procedures and develop lower bounds on the expected cost function change, which allows for drawing connections to barren plateaus and for assessing the applicability of the algorithm to large-scale problems.
翻訳日:2023-01-12 17:30:53 公開日:2023-01-10
# Rydberg Atom を持つ非アベリア異性体

Non-Abelian Anyons with Rydberg Atoms ( http://arxiv.org/abs/2301.04250v1 )

ライセンス: Link先を確認
Nora M. Bauer, Elias Kokkas, Victor Ale, George Siopsis(参考訳) Ruby格子中の中性リドバーグ原子の二次元系におけるトポロジカル物質の発生について検討する。 このようなシステムではアーベル・アノンが予測されているが、フォールトトレラント量子コンピューティングの基盤を形成する非アーベル・アノンは生成されていない。 非可換ブレイディング統計量を持つエノンを生成するために、混合境界パンクチャーを持つ系を考える。 我々は,iDMRG法を用いて,システムの位相的に異なる基底状態を求める。 我々は、これらのトポロジカルな状態が、異なるタイプのアンシラ原子を用いてどのように生成できるかを論じる。 2n+2のパンクチャーと等しい数のアンシラ原子を持つ系は、そのヒルベルト空間がアンシラ原子上の安定化条件の組によって決定されるn個の論理量子ビットに導く。 量子ゲートは、安定化器と交換して非可換イジング・アノンのブレイディング群を実現するアンシラ原子に作用するゲートの集合を用いて実装できる。

We study the emergence of topological matter in two-dimensional systems of neutral Rydberg atoms in Ruby lattices. While Abelian anyons have been predicted in such systems, non-Abelian anyons, which would form a substrate for fault-tolerant quantum computing, have not been generated. To generate anyons with non-Abelian braiding statistics, we consider systems with mixed-boundary punctures. We obtain the topologically distinct ground states of the system numerically using the iDMRG technique. We discuss how these topological states can be created using ancilla atoms of a different type. We show that a system with 2N+2 punctures and an equal number of ancilla atoms leads to N logical qubits whose Hilbert space is determined by a set of stabilizing conditions on the ancilla atoms. Quantum gates can be implemented using a set of gates acting on the ancilla atoms that commute with the stabilizers and realize the braiding group of non-Abelian Ising anyons.
翻訳日:2023-01-12 17:30:41 公開日:2023-01-10
# 特異性を持つ特殊解法Schr\"odinger方程式:複素ポテンシャルを解くための体系的アプローチ(その1)

Exactly Solvable Schr\"odinger equations with Singularities: A Systematic Approach to Solving Complexified Potentials (part1) ( http://arxiv.org/abs/2301.04138v1 )

ライセンス: Link先を確認
Jamal Benbourenane(参考訳) 本稿では,正規形式で書かれた2階線形微分方程式の解法について述べる。 ポテンシャルの引数を複素数に拡張すると、因子化法を用いてポテンシャルが複素であるとき、シュリンガー方程式を正確に解くことができる。 この方法は2つのリッカティ非線形方程式を解き、唯一の可能な超ポテンシャルを構成することによって、形状不変性を満たすポテンシャルに対して固有値と固有関数を閉じた形で与える。 複素論証にポテンシャルを拡大すると、新しい正確に解ける論証が発見された。 この第一部分において、基本超ポテンシャルは異なる群に分割され、各群は共通項を共有する超ポテンシャルを含む。 既に知られている可解な実ポテンシャルは全てこの圏に該当し、特別な場合として導かれる。 この正確に可解な複素化ポテンシャルの組は、禁断領域を通るトンネル効果のような量子力学のいくつかの性質を既に発見しており、マルチウェル、連続体(bic)の束縛状態、その他の性質の間に高い確率で起こる。 これらの結果は、固有値問題が重要な役割を果たす物理学、化学、生物学など、科学のあらゆる分野に潜在的に応用できる。

This paper gives a new perspective on how to solve the second-order linear differential equation written in normal form. Extending the argument of the potential to a complex number leads to solving exactly the Schr\"odinger equation when the potential is complex using the factorization method. This method leads to solving two Riccati nonlinear equations and by constructing the only possible superpotential, the factorization method gives the eigenvalues and eigenfunctions in closed form for potentials satisfying the shape invariance property. Extending the potential to the complex argument has led to discovering new exactly solvable ones. In this first part, the basic superpotentials are divided into different groups, each group contains the superpotentials that share common terms. All of the already known solvable real potentials will fall into this category and are derived as special cases. This set of exactly solvable complexified potentials has already uncovered some of the properties of quantum mechanics, like the tunneling effect through the forbidden region, happening with high probabilities between multiwells, bound states in the continuum (BIC), and other properties. These results have potential applications in all fields of sciences, from physics, chemistry, biology, etc., where the eigenvalue problem plays an important role.
翻訳日:2023-01-12 17:20:16 公開日:2023-01-10
# Clifford+$T$-gate Decomposition with limited number of $T$ gates, its Error Analysis and Performance of Unitary Coupled Cluster Ansatz in Pre-FTQC Era (特集:一般セッション)

Clifford+$T$-gate Decomposition with Limited Number of $T$ gates, its Error Analysis, and Performance of Unitary Coupled Cluster Ansatz in Pre-FTQC Era ( http://arxiv.org/abs/2301.04150v1 )

ライセンス: Link先を確認
Kohdai Kuroiwa and Yuya O. Nakagawa(参考訳) フォールトトレラント量子計算(FTQC)は、量子アルゴリズムを堅牢に実装し、量子コンピュータの利点を最大化するために不可欠である。 この文脈では、量子回路は普遍ゲートに分解され、例えばClifford+$T$ゲートのようにフォールトトレラントに実装できる。 ここでは、$T$ gateは古典的なコンピュータでは効率的にシミュレートできないため、量子計算にとって不可欠なリソースとみなされる。 実際、フォールトトレラントな実装が実験的に困難であることから、近い将来にt$ゲートは限定的な数しか利用できない可能性が高い。 本稿では,ftqc以前の時代を考慮し,t$ゲートの限られた予算でclifford+$t$分解を調べ,そのような分解の誤差の新しいモデルを提案する。 より具体的には、与えられた単一ビット回転ゲートの最も正確なClifford+$T$-gate分解を一定数のT$ゲートで生成するアルゴリズムを提案する。 また,誤差の影響の平均を考慮し,よく知られた非分極ノイズを用いたclifford+$t$分解の誤差をモデル化する。 本モデルを用いて, 種々の分子の分解誤差を数値的に検証した。 そこで我々は,量子コンピュータの第一段階の応用について,実用的視点から考察し,今後の量子計算の達成に向けてさらなる研究を展開する。

Fault-tolerant quantum computation (FTQC) is essential to robustly implement quantum algorithms and thus to maximize advantages of quantum computers. In this context, a quantum circuit is decomposed into universal gates that can be fault-tolerantly implemented, for example, Clifford+$T$ gates. Here, $T$ gate is usually regarded as an essential resource for quantum computation because its action cannot be simulated efficiently on classical computers. Practically, it is highly likely that only a limited number of $T$ gates are available in the near future due to its experimental difficulty of fault-tolerant implementation. In this paper, considering this Pre-FTQC era, we investigate Clifford+$T$ decomposition with a limited budget of $T$ gates and propose a new model of the error of such decomposition. More concretely, we propose an algorithm to generate the most accurate Clifford+$T$-gate decomposition of a given single-qubit rotation gate with a fixed number of $T$ gates. We also propose to model the error of Clifford+$T$ decomposition using well-known depolarizing noise by considering the average of the effects of the error. We numerically verified our model successfully explains the decomposition error for a wide variety of molecules using our decomposition algorithm. Thus, we shed light on a first-stage application of quantum computers from a practical point of view and fuel further research towards what quantum computation can achieve in the upcoming future.
翻訳日:2023-01-12 17:19:53 公開日:2023-01-10
# 高次元量子システムのためのエンタングルゲートのコンパイル

Compilation of Entangling Gates for High-Dimensional Quantum Systems ( http://arxiv.org/abs/2301.04155v1 )

ライセンス: Link先を確認
Kevin Mato, Martin Ringbauer, Stefan Hillmich, Robert Wille(参考訳) これまでほとんどの量子コンピューティングアーキテクチャは、バイナリ形式で操作されるが、多値論理をネイティブにサポートしている。 qudit(multi-valued)またはqudit(qudit)と呼ばれる量子プロセッサは、よりリッチな量子絡み合いにアクセスでき、量子デバイスの性能と有用性を大幅に向上させることができる。 しかし、そのようなハードウェアを利用するのに必要な設計手法と同様に理論の多くは不十分であり、キュービットからの一般化は簡単ではない。 特に課題は、量子回路を最先端の量子ハードウェアでサポートされているネイティブquditゲートの集合にコンパイルすることである。 本研究では,任意のネイティブゲート集合に任意の2キュートユニタリをコンパイルするための完全なワークフローを導入することで,この問題に対処した。 ケーススタディでは、提案されたアプローチと対応する実装(https://github.com/cda-tum/qudit-entanglement-compilation)の両方が実現可能であることが示されている。

Most quantum computing architectures to date natively support multi-valued logic, albeit being typically operated in a binary fashion. Multi-valued, or qudit, quantum processors have access to much richer forms of quantum entanglement, which promise to significantly boost the performance and usefulness of quantum devices. However, much of the theory as well as corresponding design methods required for exploiting such hardware remain insufficient and generalizations from qubits are not straightforward. A particular challenge is the compilation of quantum circuits into sets of native qudit gates supported by state-of-the-art quantum hardware. In this work, we address this challenge by introducing a complete workflow for compiling any two-qudit unitary into an arbitrary native gate set. Case studies demonstrate the feasibility of both, the proposed approach as well as the corresponding implementation (which is freely available at https://github.com/cda-tum/qudit-entanglement-compilation).
翻訳日:2023-01-12 17:19:26 公開日:2023-01-10
# 量子コンピュータシミュレーションのためのノイズゲートアプローチ

Noisy gates approach for simulating quantum computers ( http://arxiv.org/abs/2301.04173v1 )

ライセンス: Link先を確認
Giovanni Di Bartolomeo, Michele Vischi, Francesco Cesa, Michele Grossi, Sandro Donadi and Angelo Bassi(参考訳) 本稿では,量子コンピュータの雑音挙動をシミュレーションし,量子ビット上のゲートを実装する駆動進化における環境効果を効率的に組み込む方法を提案する。 我々は、コンピュータが実行したノイズのないゲートをマルコフノイズを含むように修正する方法を示し、その結果、ノイズのないゲートと呼ぶ。 我々は,本手法をIBM Qiskitシミュレータに対して検証し,リンドブラッド方程式の解析的進化と実量子コンピュータの挙動をより深く追従し,NISQデバイスのより正確なノイズシミュレータを提供することを示した。 この手法は、マルコフでないノイズを含むあらゆるノイズを潜在的に記述できるほど柔軟である。

We present a novel method for simulating the noisy behaviour of quantum computers, which allows to efficiently incorporate environmental effects in the driven evolution implementing the gates on the qubits. We show how to modify the noiseless gate executed by the computer to include any Markovian noise, hence resulting in what we will call a noisy gate. We test our method against the IBM Qiskit simulator, and show that it follows more closely both the analytical evolution of the Lindblad equation as well as the behaviour of a real quantum computer, thus offering a more accurate noise simulator of NISQ devices. The method is flexible enough to potentially describe any noise, including non-Markovian ones.
翻訳日:2023-01-12 17:19:11 公開日:2023-01-10
# 標準局所量子観測値に基づく量子外非局所性の検出

Detection of Beyond-Quantum Non-locality based on Standard Local Quantum Observables ( http://arxiv.org/abs/2301.04196v1 )

ライセンス: Link先を確認
Hayato Arai and Masahito Hayashi(参考訳) Bell-CHSHの不等式は、局所観測器によってプロトコル全体を実装できるため、量子非局所性を検出する重要な方法の1つである。 しかし、理論上は一般確率論において超量子非局所性には多くの種類がある。 1つの重要なクラスはエンタングルメント構造 (ES) であり、これは局所系が標準量子系と完全に等価であるにもかかわらず、量子外非局所状態を含む。 ベルの不等式はESの量子外非局所状態を検出することができず、その局所観測値に基づく検出はオープンである。 本稿では,2量子ESにおける非局所状態の発見方法として,局所観測値のみを観測することで,局所観測値の超量子非局所状態を検出する方法を提案する。

Bell-CHSH inequality is one of the important ways to detect quantum non-locality because the whole protocol can be implemented by local observables. However, there are theoretically many types of beyond-quantum non-locality in General Probabilistic Theories. One important class is Entanglement Structures (ESs), which contain beyond-quantum non-local states even though their local systems are completely equivalent to standard quantum systems. It is known that Bell's inequality cannot detect any beyond-quantum non-local states in ESs, and its detection based on local observables is open. This paper gives a way based on local observables to detect beyond-quantum non-local states in ESs, and especially, we give a way to detect beyond-quantum non-local states in two-qubit ESs by observing only spin observables on local systems.
翻訳日:2023-01-12 17:19:00 公開日:2023-01-10
# 自然言語処理におけるユーザ中心型セキュリティ

User-Centered Security in Natural Language Processing ( http://arxiv.org/abs/2301.04230v1 )

ライセンス: Link先を確認
Chris Emmery(参考訳) この論文は、自然言語処理(nlp)におけるユーザ中心のセキュリティの枠組みを提案し、関連する研究のアクセシビリティを向上させる方法を示している。 そのため、NLP内の2つのセキュリティドメインに重点を置いている。 まず、侵入的推論によってオンラインのプライバシーを侵害するために使用できる著者のプロファイリング。 これらのモデルの予測へのアクセスと詳細な洞察がなければ、インターネットユーザがそのような推論から自分を守れる合理的なヒューリスティックは存在しない。 第二に、デフォルトでは中央集権的な実装、すなわちソーシャルプラットフォーム間でのコンテンツモデレーションを前提とするサイバーいじめ検出の方法である。 適切なデータへのアクセスが制限され、タスクの性質が急速に進化し(語彙の変化と文化の変化の両方を通じて)、分類器の有効性は大きく低下し、しばしば誤表現される。 提案手法では,主に言語に対する敵対的攻撃,すなわち,あるモデルが意図通りに機能しないような所定の入力(生成する逆のサンプル)を変更することを検討する。 これらの攻撃は、我々のユーザ中心のセキュリティ問題の間に共通のスレッドを形成しており、それらは著者のプロファイリングに対するプライバシー保護の難読化手法に非常に関係している。

This dissertation proposes a framework of user-centered security in Natural Language Processing (NLP), and demonstrates how it can improve the accessibility of related research. Accordingly, it focuses on two security domains within NLP with great public interest. First, that of author profiling, which can be employed to compromise online privacy through invasive inferences. Without access and detailed insight into these models' predictions, there is no reasonable heuristic by which Internet users might defend themselves from such inferences. Secondly, that of cyberbullying detection, which by default presupposes a centralized implementation; i.e., content moderation across social platforms. As access to appropriate data is restricted, and the nature of the task rapidly evolves (both through lexical variation, and cultural shifts), the effectiveness of its classifiers is greatly diminished and thereby often misrepresented. Under the proposed framework, we predominantly investigate the use of adversarial attacks on language; i.e., changing a given input (generating adversarial samples) such that a given model does not function as intended. These attacks form a common thread between our user-centered security problems; they are highly relevant for privacy-preserving obfuscation methods against author profiling, and adversarial samples might also prove useful to assess the influence of lexical variation and augmentation on cyberbullying detection.
翻訳日:2023-01-12 17:11:22 公開日:2023-01-10
# メモリ拡張大言語モデルは計算的に普遍的である

Memory Augmented Large Language Models are Computationally Universal ( http://arxiv.org/abs/2301.04589v1 )

ライセンス: Link先を確認
Dale Schuurmans(参考訳) 外部メモリを付加すると,トランスフォーマティブな大規模言語モデルが計算的に普遍的であることを示す。 有界長弦の条件が有限オートマトンと等価であるような決定論的言語モデルは、計算的に制限される。 しかし、このようなモデルを読み取り-書き込みメモリで拡張することで、任意に大きな入力を処理でき、アルゴリズムをシミュレートできる可能性がある。 我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンである$U_{15,2}$の実行を正確にシミュレートできることを確立する。 この発見の重要な側面は、言語モデルの重みを変更する必要がないことである。 代わりに、構築は、後に特定のプロンプトセットでプログラムできるストアド命令コンピュータの形式を設計することのみに依存する。

We show that transformer-based large language models are computationally universal when augmented with an external memory. Any deterministic language model that conditions on strings of bounded length is equivalent to a finite automaton, hence computationally limited. However, augmenting such models with a read-write memory creates the possibility of processing arbitrarily large inputs and, potentially, simulating any algorithm. We establish that an existing large language model, Flan-U-PaLM 540B, can be combined with an associative read-write memory to exactly simulate the execution of a universal Turing machine, $U_{15,2}$. A key aspect of the finding is that it does not require any modification of the language model weights. Instead, the construction relies solely on designing a form of stored instruction computer that can subsequently be programmed with a specific set of prompts.
翻訳日:2023-01-12 17:10:13 公開日:2023-01-10
# ポース推定を用いたロバストな人物識別

Robust Human Identity Anonymization using Pose Estimation ( http://arxiv.org/abs/2301.04243v1 )

ライセンス: Link先を確認
Hengyuan Zhang, Jing-Yan Liao, David Paz, Henrik I. Christensen(参考訳) 多くのアウトドア自律型モバイルプラットフォームは、データ駆動アルゴリズムを駆動するために、より人間のアイデンティティ匿名化データを必要とする。 人間のアイデンティティの匿名化は、手作業による介入を減らすために堅牢でなければならない。 本稿では,最先端の人間のポーズ推定モデルから生成された骨格を用いて,頭部の局所化を支援する。 評価基準を開発し,顔検出手法と比較する。 提案アルゴリズムは,欠落した顔を減らし,歩行者の身元情報をよりよく保護できることを示す。 また,信頼性に基づく融合法を開発し,さらなる性能向上を図る。

Many outdoor autonomous mobile platforms require more human identity anonymized data to power their data-driven algorithms. The human identity anonymization should be robust so that less manual intervention is needed, which remains a challenge for current face detection and anonymization systems. In this paper, we propose to use the skeleton generated from the state-of-the-art human pose estimation model to help localize human heads. We develop criteria to evaluate the performance and compare it with the face detection approach. We demonstrate that the proposed algorithm can reduce missed faces and thus better protect the identity information for the pedestrians. We also develop a confidence-based fusion method to further improve the performance.
翻訳日:2023-01-12 16:55:15 公開日:2023-01-10
# frustumformer:マルチビュー3d検出のための適応型インスタンスアウェアリサンプリング

FrustumFormer: Adaptive Instance-aware Resampling for Multi-view 3D Detection ( http://arxiv.org/abs/2301.04467v1 )

ライセンス: Link先を確認
Yuqi Wang, Yuntao Chen, and Zhaoxiang Zhang(参考訳) 2次元視点空間から3次元空間への特徴の変換は、多視点3次元オブジェクト検出に不可欠である。 近年のアプローチでは、視界を3D空間に引き上げる画素ワイジングや、3DプロジェクションによってBEV機能をグリッドワイジングで構築し、すべてのピクセルやグリッドを等しく扱うという視点変換の設計に重点を置いている。 しかし、トランスフォーメーションの選択も重要だが、これまで議論されることはめったにない。 動く車のピクセルは、空のピクセルよりも情報的です。 画像に含まれる情報を十分に活用するためには、ビュー変換はその内容に応じて異なる画像領域に適応できる必要がある。 本稿では,アダプティブ・インスタンス・アウェア・リサンプリング(adaptive instance-aware resampling)によってインスタンス領域の機能にさらに注目する,frustumformerという新しいフレームワークを提案する。 具体的には、画像ビューオブジェクトの提案を利用して、鳥の視線上のインスタンスフラストレーションを取得する。 インスタンスの場所を洗練するために、インスタンスフラスタム内のアダプティブ占有マスクが学習される。 さらに、時間的フラストタル交叉は、物体の局在不確実性をさらに減少させる可能性がある。 nuScenesデータセットに関する総合的な実験はFrustumFormerの有効性を示し、ベンチマークで新しい最先端性能を実現する。 コードはまもなくリリースされる予定だ。

The transformation of features from 2D perspective space to 3D space is essential to multi-view 3D object detection. Recent approaches mainly focus on the design of view transformation, either pixel-wisely lifting perspective view features into 3D space with estimated depth or grid-wisely constructing BEV features via 3D projection, treating all pixels or grids equally. However, choosing what to transform is also important but has rarely been discussed before. The pixels of a moving car are more informative than the pixels of the sky. To fully utilize the information contained in images, the view transformation should be able to adapt to different image regions according to their contents. In this paper, we propose a novel framework named FrustumFormer, which pays more attention to the features in instance regions via adaptive instance-aware resampling. Specifically, the model obtains instance frustums on the bird's eye view by leveraging image view object proposals. An adaptive occupancy mask within the instance frustum is learned to refine the instance location. Moreover, the temporal frustum intersection could further reduce the localization uncertainty of objects. Comprehensive experiments on the nuScenes dataset demonstrate the effectiveness of FrustumFormer, and we achieve a new state-of-the-art performance on the benchmark. Codes will be released soon.
翻訳日:2023-01-12 16:52:28 公開日:2023-01-10
# InstaGraM: ベクトル化HDマップ学習のためのインスタンスレベルのグラフモデリング

InstaGraM: Instance-level Graph Modeling for Vectorized HD Map Learning ( http://arxiv.org/abs/2301.04470v1 )

ライセンス: Link先を確認
Juyeb Shin, Francois Rameau, Hyeonjun Jeong, Dongsuk Kum(参考訳) 幾何情報と意味情報を含む軽量ハイデフィニション(HD)マップの構築は、自動運転の大規模展開において最も重要である。 車両が捉えた一連の画像からそのようなマップを自動的に生成するために、ほとんどの作業は、このマッピングをセグメント化問題として定式化し、重い後処理によって最終的なベクトル化表現を得る。 代替技術は、エンドツーエンドでHDマップを生成する能力を持つが、計算に高価な自動回帰モデルに依存している。 InstaGraMは,地図要素のインスタンスレベルグラフモデリングにより,ベクトル化されたHDマップを生成する高速なエンドツーエンドネットワークである。 我々の戦略は,トップビュー特徴抽出,道路要素の頂点とエッジ検出,意味ベクトル表現への変換の三段階からなる。 トップダウン特徴抽出後、エンコーダ・デコーダアーキテクチャを使用して、道路要素の頂点とエッジマップのセットを予測する。 最後に、これらの頂点とエッジマップは、意味ベクトルマップを生成する注意グラフニューラルネットワークを介して関連付けられる。 我々は,共通セグメント化アプローチに頼る代わりに,頂点間の空間的関係と方向情報を提供するため,距離変換マップを回帰することを提案する。 nuScenesデータセットの総合的な実験により、提案したネットワークはHDMapNetを13.7mAPで上回り、VectorMapNet 5倍高速な推論速度で同等の精度を達成している。

The construction of lightweight High-definition (HD) maps containing geometric and semantic information is of foremost importance for the large-scale deployment of autonomous driving. To automatically generate such type of map from a set of images captured by a vehicle, most works formulate this mapping as a segmentation problem, which implies heavy post-processing to obtain the final vectorized representation. Alternative techniques have the ability to generate an HD map in an end-to-end manner but rely on computationally expensive auto-regressive models. To bring camera-based to an applicable level, we propose InstaGraM, a fast end-to-end network generating a vectorized HD map via instance-level graph modeling of the map elements. Our strategy consists of three main stages: top-view feature extraction, road elements' vertices and edges detection, and conversion to a semantic vector representation. After top-down feature extraction, an encoder-decoder architecture is utilized to predict a set of vertices and edge maps of the road elements. Finally, these vertices along with edge maps are associated through an attentional graph neural network generating a semantic vectorized map. Instead of relying on a common segmentation approach, we propose to regress distance transform maps as they provide strong spatial relations and directional information between vertices. Comprehensive experiments on nuScenes dataset show that our proposed network outperforms HDMapNet by 13.7 mAP and achieves comparable accuracy with VectorMapNet 5x faster inference speed.
翻訳日:2023-01-12 16:52:07 公開日:2023-01-10
# より強力な顔モフ攻撃のための拡散モデル

Diffusion Models For Stronger Face Morphing Attacks ( http://arxiv.org/abs/2301.04218v1 )

ライセンス: Link先を確認
Zander Blasingame and Chen Liu(参考訳) 顔のモーフィング攻撃は、2つのアイデンティティのうちの1つで誤認を誘発することを目的として、2つの異なるアイデンティティから生体認証品質からなるモーフィング画像を提示することにより、顔認識(fr)システムを欺き、生体認証システムに重大な脅威を与える。 モーフィング攻撃の成功は、画像の作成に使用された2つのアイデンティティの生体認証特性を表現するためのモーフィング画像の能力に依存する。 本稿では,拡散型アーキテクチャを用いて画像の視覚的忠実度を向上し,その特徴を表現するためのモーフィング攻撃の能力を向上させる新しいモーフィング攻撃を提案する。 提案する攻撃の忠実度をフレシェット開始距離を通して評価することで実証する。 提案した攻撃に対するFRシステムの脆弱性を測定するために大規模な実験を行った。 提案された攻撃は、最先端の2つのGANベースのモーフィング攻撃と、ランドマークベースの2つの攻撃と比較される。 モーフィング攻撃検出器が提案した攻撃を検出する能力を測定し,他の攻撃と比較した。 さらに, モーフィング攻撃の相対強度を計測する新しい指標を導入し, 評価した。

Face morphing attacks seek to deceive a Face Recognition (FR) system by presenting a morphed image consisting of the biometric qualities from two different identities with the aim of triggering a false acceptance with one of the two identities, thereby presenting a significant threat to biometric systems. The success of a morphing attack is dependent on the ability of the morphed image to represent the biometric characteristics of both identities that were used to create the image. We present a novel morphing attack that uses a Diffusion-based architecture to improve the visual fidelity of the image and improve the ability of the morphing attack to represent characteristics from both identities. We demonstrate the high fidelity of the proposed attack by evaluating its visual fidelity via the Frechet Inception Distance. Extensive experiments are conducted to measure the vulnerability of FR systems to the proposed attack. The proposed attack is compared to two state-of-the-art GAN-based morphing attacks along with two Landmark-based attacks. The ability of a morphing attack detector to detect the proposed attack is measured and compared against the other attacks. Additionally, a novel metric to measure the relative strength between morphing attacks is introduced and evaluated.
翻訳日:2023-01-12 14:39:10 公開日:2023-01-10
# 音声合成拡散モデルによる音声駆動映像編集

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model ( http://arxiv.org/abs/2301.04474v1 )

ライセンス: Link先を確認
Dan Bigioi, Shubhajit Basak, Hugh Jordan, Rachel McDonnell, Peter Corcoran(参考訳) 本稿では,雑音拡散モデルを用いたエンド・ツー・エンド音声映像編集手法を提案する。 話し手の映像から,顔のランドマークや3次元顔モデルなどの中間的構造表現に頼ることなく,別の聴覚音声記録に応答して,人の唇と顎の動きを再同期させることが目的である。 音声スペクトル特徴を持つ偏波拡散モデルを用いて、同期顔の動きを生成することで、これを実現できることを示す。 そこで本研究では,非構造化単一話者ビデオ編集作業において,オフセルフリップ読解モデルを用いて単語誤り率45%を達成し,説得力のある結果を得た。 さらに、我々のアプローチがマルチスピーカー領域にどのように拡張できるかを示す。 我々の知る限り、これは音声駆動ビデオ編集のタスクに難読化拡散モデルを適用する可能性を探る最初の試みである。

In this paper we propose a method for end-to-end speech driven video editing using a denoising diffusion model. Given a video of a person speaking, we aim to re-synchronise the lip and jaw motion of the person in response to a separate auditory speech recording without relying on intermediate structural representations such as facial landmarks or a 3D face model. We show this is possible by conditioning a denoising diffusion model with audio spectral features to generate synchronised facial motion. We achieve convincing results on the task of unstructured single-speaker video editing, achieving a word error rate of 45% using an off the shelf lip reading model. We further demonstrate how our approach can be extended to the multi-speaker domain. To our knowledge, this is the first work to explore the feasibility of applying denoising diffusion models to the task of audio-driven video editing.
翻訳日:2023-01-12 14:38:19 公開日:2023-01-10
# 一般非凸円錐最適化のためのNewton-CGに基づくバリア拡張ラグランジアン法

A Newton-CG based barrier-augmented Lagrangian method for general nonconvex conic optimization ( http://arxiv.org/abs/2301.04204v1 )

ライセンス: Link先を確認
Chuan He, Heng Huang and Zhaosong Lu(参考訳) 本稿では,非凸円錐最適化の2次定常点(SOSP)について,非線形等式制約と凸円錐制約の2つの微分可能な関数を最小化することを検討する。 特に, ニュートン共役勾配 (newton-cg) に基づくバリア型ラグランジアン法を提案し, この問題の近似 sosp を求める。 いくつかの穏やかな仮定の下では、本手法は、$\widetilde{\cal o}(\epsilon^{-11/2})$ と$\widetilde{\cal o}(\epsilon^{-11/2}\min\{n,\epsilon^{-5/4}\})$ という、高確率の一般非凸錐最適化の完全内的反復複雑性と、$(\epsilon,\sqrt{\epsilon})$-sosp の演算複雑性を享受できることを示した。 さらに、制約条件の下では、これらの複雑性境界は、それぞれ$\widetilde{\cal o}(\epsilon^{-7/2})$と$\widetilde{\cal o}(\epsilon^{-7/2}\min\{n,\epsilon^{-3/4}\})$に改善される。 我々の知る限りでは、一般的な非凸円錐最適化の近似SOSPを求める複雑さに関する最初の研究である。 提案手法が一階法よりも解品質の点で優れていることを示すために, 予備的な数値計算結果を示す。

In this paper we consider finding an approximate second-order stationary point (SOSP) of general nonconvex conic optimization that minimizes a twice differentiable function subject to nonlinear equality constraints and also a convex conic constraint. In particular, we propose a Newton-conjugate gradient (Newton-CG) based barrier-augmented Lagrangian method for finding an approximate SOSP of this problem. Under some mild assumptions, we show that our method enjoys a total inner iteration complexity of $\widetilde{\cal O}(\epsilon^{-11/2})$ and an operation complexity of $\widetilde{\cal O}(\epsilon^{-11/2}\min\{n,\epsilon^{-5/4}\})$ for finding an $(\epsilon,\sqrt{\epsilon})$-SOSP of general nonconvex conic optimization with high probability. Moreover, under a constraint qualification, these complexity bounds are improved to $\widetilde{\cal O}(\epsilon^{-7/2})$ and $\widetilde{\cal O}(\epsilon^{-7/2}\min\{n,\epsilon^{-3/4}\})$, respectively. To the best of our knowledge, this is the first study on the complexity of finding an approximate SOSP of general nonconvex conic optimization. Preliminary numerical results are presented to demonstrate superiority of the proposed method over first-order methods in terms of solution quality.
翻訳日:2023-01-12 14:38:06 公開日:2023-01-10
# Graph Transformer NetworksとCommunal Contextを用いたRedditの好意的な議論の予測

Predicting Hateful Discussions on Reddit using Graph Transformer Networks and Communal Context ( http://arxiv.org/abs/2301.04248v1 )

ライセンス: Link先を確認
Liam Hebert, Lukasz Golab, Robin Cohen(参考訳) ソーシャルメディアプラットフォーム上で有害な議論を予測するシステムを提案する。 本ソリューションでは,文脈的深層言語モデルを用いて,最先端グラフトランスフォーマーネットワークを統合し,最初の投稿に続くすべての会話を分析するという新しいアイデアを提案する。 このフレームワークは、会話が広がるにつれて、将来のコメントへの適応もサポートする。 さらに,コミュニティ固有のヘイトスピーチの分析によって,ヘイトフルな議論をより効果的に検出できるかどうかを検討した。 我々は,様々なコミュニティから333,487件のRedditディスカッションを行った。 コミュニティ固有のモデリングは、パフォーマンスを2倍に改善し、より広義のコンテクストをキャプチャするモデルは、限られたコンテキストモデルと比較して、精度を28\%(35\%)向上させる。

We propose a system to predict harmful discussions on social media platforms. Our solution uses contextual deep language models and proposes the novel idea of integrating state-of-the-art Graph Transformer Networks to analyze all conversations that follow an initial post. This framework also supports adapting to future comments as the conversation unfolds. In addition, we study whether a community-specific analysis of hate speech leads to more effective detection of hateful discussions. We evaluate our approach on 333,487 Reddit discussions from various communities. We find that community-specific modeling improves performance two-fold and that models which capture wider-discussion context improve accuracy by 28\% (35\% for the most hateful content) compared to limited context models.
翻訳日:2023-01-12 14:29:55 公開日:2023-01-10
# スキューに適応する:3次元部分的畳み込みとバイアスドマスキングによる時空間的都市データ

Adapting to Skew: Imputing Spatiotemporal Urban Data with 3D Partial Convolutions and Biased Masking ( http://arxiv.org/abs/2301.04233v1 )

ライセンス: Link先を確認
Bin Han, Bill Howe(参考訳) 画像インパインティング手法を用いて,空間と時間のばらつき,異常な事象を特徴とする都市環境における大きな不規則な欠落領域を暗示する。 都市データの欠落する領域は、センサやソフトウェア障害、データ品質の問題、気象イベントからの干渉、不完全なデータ収集、さまざまなデータ使用規則によって引き起こされる可能性がある。 カバー範囲と有用性を確保するために,画像インペインティングのためのコンピュータビジョン技術を適用し,都市におけるデータ交換に一般的に使用される3次元ヒストグラム(2d空間+1d時間)を操作する。 都市データは人口密度パターン(大きなスパース領域に囲まれた小さな密度の領域)に従う傾向があり、これらのパターンは学習過程を支配し、モデルを局所的または過渡的効果を無視して騙すことができる。 スキューと戦うために 1) 空間と時間で同時に訓練し、 2) 密集領域に注意を向け, トレーニング用マスクの偏りをデータ中のスキューに向ける。 我々は、nyc taxiデータとnyc bikeshareデータを用いて、コアモデルとこれら2つの拡張を評価し、行方不明データについて異なる条件をシミュレートする。 我々は,コアモデルが質的かつ定量的に有効であることを示し,トレーニング中の偏りマスキングが様々なシナリオにおける誤差を低減することを示した。 トレーニングサンプルあたりのタイムステップ数の変更 – 過度なタイムステップとモデルによる過渡的なイベントの無視 – 時間ステップの多さと,モデルのパフォーマンス向上の制限によるトレーニングの遅さ – も明確にしています。

We adapt image inpainting techniques to impute large, irregular missing regions in urban settings characterized by sparsity, variance in both space and time, and anomalous events. Missing regions in urban data can be caused by sensor or software failures, data quality issues, interference from weather events, incomplete data collection, or varying data use regulations; any missing data can render the entire dataset unusable for downstream applications. To ensure coverage and utility, we adapt computer vision techniques for image inpainting to operate on 3D histograms (2D space + 1D time) commonly used for data exchange in urban settings. Adapting these techniques to the spatiotemporal setting requires handling skew: urban data tend to follow population density patterns (small dense regions surrounded by large sparse areas); these patterns can dominate the learning process and fool the model into ignoring local or transient effects. To combat skew, we 1) train simultaneously in space and time, and 2) focus attention on dense regions by biasing the masks used for training to the skew in the data. We evaluate the core model and these two extensions using the NYC taxi data and the NYC bikeshare data, simulating different conditions for missing data. We show that the core model is effective qualitatively and quantitatively, and that biased masking during training reduces error in a variety of scenarios. We also articulate a tradeoff in varying the number of timesteps per training sample: too few timesteps and the model ignores transient events; too many timesteps and the model is slow to train with limited performance gain.
翻訳日:2023-01-12 14:29:03 公開日:2023-01-10
# 忘れられる学習ダイナミクスによる深層モデルの説明

Explaining Deep Models through Forgettable Learning Dynamics ( http://arxiv.org/abs/2301.04221v1 )

ライセンス: Link先を確認
Ryan Benkert, Oluwaseun Joseph Aribido, and Ghassan AlRegib(参考訳) ディープニューラルネットワークは無数のアプリケーションで大きな成功を収めているが、モデルの振る舞いや予測を説明することは、オープンリサーチの問題である。 本稿では,意味的セグメンテーションタスクにおける深層ニューラルネットワークの学習力学を解析し,単純で効果的な手法を用いてこの問題に対処する。 具体的には、トレーニング中の学習行動の可視化を行い、その後のトレーニング時代において、サンプルが学習され、忘れられた頻度を追跡する。 これにより、クラス決定境界に近接する重要な情報を導き出し、モデルに特定の課題をもたらす領域を特定することができる。 この現象に触発されて,この情報を積極的に利用して,困難領域の多様性を増すことにより,モデル内のデータ表現を変化させる新しいセグメンテーション手法を提案する。 最後に,提案手法は,頻繁に忘れられる領域の量を一定に削減することを示す。 セグメンテーション性能の観点から,本手法をさらに評価する。

Even though deep neural networks have shown tremendous success in countless applications, explaining model behaviour or predictions is an open research problem. In this paper, we address this issue by employing a simple yet effective method by analysing the learning dynamics of deep neural networks in semantic segmentation tasks. Specifically, we visualize the learning behaviour during training by tracking how often samples are learned and forgotten in subsequent training epochs. This further allows us to derive important information about the proximity to the class decision boundary and identify regions that pose a particular challenge to the model. Inspired by this phenomenon, we present a novel segmentation method that actively uses this information to alter the data representation within the model by increasing the variety of difficult regions. Finally, we show that our method consistently reduces the amount of regions that are forgotten frequently. We further evaluate our method in light of the segmentation performance.
翻訳日:2023-01-12 14:20:22 公開日:2023-01-10
# Pix2Map:画像からストリートマップを推測するクロスモーダル検索

Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images ( http://arxiv.org/abs/2301.04224v1 )

ライセンス: Link先を確認
Xindi Wu, KwunFung Lau, Francesco Ferroni, Aljo\v{s}a O\v{s}ep, Deva Ramanan(参考訳) 自動運転車は都市部の道路地図に頼っている。 本稿では,既存の地図を継続的に更新・拡張するために,都市街路図のトポロジーを直接エゴビュー画像から推定するpix2mapを提案する。 生の画像データから直接複雑な都市道路トポロジーを推測する必要があるので、これは難しい作業です。 本研究の主な知見は,画像と既存地図の連接なクロスモーダルな埋め込み空間を学習することで,視覚環境のトポロジ的レイアウトを符号化する離散グラフとしてこの問題を提起できるということである。 我々はArgoverseデータセットを用いて実験評価を行い、画像データのみから見える道路と見えない道路の両方に対応する道路マップを正確に検索できることを示す。 さらに,検索した地図は既存の地図を更新・拡張したり,空間グラフからの視覚的位置付けや画像検索のための概念実証結果を示すことができる。

Self-driving vehicles rely on urban street maps for autonomous navigation. In this paper, we introduce Pix2Map, a method for inferring urban street map topology directly from ego-view images, as needed to continually update and expand existing maps. This is a challenging task, as we need to infer a complex urban road topology directly from raw image data. The main insight of this paper is that this problem can be posed as cross-modal retrieval by learning a joint, cross-modal embedding space for images and existing maps, represented as discrete graphs that encode the topological layout of the visual surroundings. We conduct our experimental evaluation using the Argoverse dataset and show that it is indeed possible to accurately retrieve street maps corresponding to both seen and unseen roads solely from image data. Moreover, we show that our retrieved maps can be used to update or expand existing maps and even show proof-of-concept results for visual localization and image retrieval from spatial graphs.
翻訳日:2023-01-12 14:20:06 公開日:2023-01-10
# 深層学習に基づく抗議活動のマルチラベル画像分類

Deep Learning based Multi-Label Image Classification of Protest Activities ( http://arxiv.org/abs/2301.04212v1 )

ライセンス: Link先を確認
Yingzhou Lu, Kosaku Sato, Jialu Wang(参考訳) 都市化が進む中、インターネット技術の台頭により、デジタル通信のためのグローバルなプラットフォームのおかげで、情報の共有が容易になったことはない。 大量のユーザ生成データのアウトプットは、特に都市化における重要な社会問題に対する理解を高めるために利用することができる。 抗議行動をよりよく分析するために,gsrデータセットを拡張し,すべての画像を手作業でラベル付けした。 深層学習技術を用いてソーシャルメディアデータを解析し,複数属性の予測に優れた画像分類による社会的不安の検出を行い,さらに全国の抗議行動の地図可視化を行った。

With the rise of internet technology amidst increasing rates of urbanization, sharing information has never been easier thanks to globally-adopted platforms for digital communication. The resulting output of massive amounts of user-generated data can be used to enhance our understanding of significant societal issues particularly for urbanizing areas. In order to better analyze protest behavior, we enhanced the GSR dataset and manually labeled all the images. We used deep learning techniques to analyze social media data to detect social unrest through image classification, which performed good in predict multi-attributes, then also used map visualization to display protest behaviors across the country.
翻訳日:2023-01-12 14:13:06 公開日:2023-01-10
# schlably: 深層強化学習に基づくスケジューリング実験のためのPythonフレームワーク

schlably: A Python Framework for Deep Reinforcement Learning Based Scheduling Experiments ( http://arxiv.org/abs/2301.04182v1 )

ライセンス: Link先を確認
Constantin Waubert de Puiseau, Jannik Peters, Christian D\"orpelkus, Tobias Meisen(参考訳) 近年,高度強化学習(DRL)に基づく生産スケジューリング(PS)の研究が注目されている。 多くの研究が独立した実験として実施され、しばしば問題設定や解法アプローチに関してわずかにしか変化しない。 これらの実験のプログラム的核は典型的に非常によく似ている。 この事実にもかかわらず、DRLアルゴリズムを用いたPS問題の実験のための標準的でレジリエントなフレームワークは、これまで確立できなかった。 本稿では,drlに基づくpsソリューション戦略の開発を容易にする包括的なツールセットを研究者に提供するpythonベースのフレームワークであるschlablyを紹介する。 頑丈で柔軟なバックボーンの作成に必要な冗長なオーバーヘッド処理をスラブリーに排除し、実施された研究作業の可視性と再利用性を高める。

Research on deep reinforcement learning (DRL) based production scheduling (PS) has gained a lot of attention in recent years, primarily due to the high demand for optimizing scheduling problems in diverse industry settings. Numerous studies are carried out and published as stand-alone experiments that often vary only slightly with respect to problem setups and solution approaches. The programmatic core of these experiments is typically very similar. Despite this fact, no standardized and resilient framework for experimentation on PS problems with DRL algorithms could be established so far. In this paper, we introduce schlably, a Python-based framework that provides researchers a comprehensive toolset to facilitate the development of PS solution strategies based on DRL. schlably eliminates the redundant overhead work that the creation of a sturdy and flexible backbone requires and increases the comparability and reusability of conducted research work.
翻訳日:2023-01-12 14:10:27 公開日:2023-01-10
# ローカライゼーションは編集をインフォームするか? 因果関係に基づく局所化と言語モデルにおける知識編集の相違

Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models ( http://arxiv.org/abs/2301.04213v1 )

ライセンス: Link先を確認
Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun(参考訳) 言語モデルは事前訓練中に大量の事実情報を学習することが知られており、最近の研究は、この情報を中層MLP重みなどの特定のモデル重みにローカライズしている(Meng et al., 2022)。 本稿では,既存の方法がモデルに格納されていることを示唆する重みと異なる位置にある重みを編集することで,モデル内の事実の保存方法を変更することが可能であることを示す。 これは、モデル内の特定のパラメータに事実をローカライズすることで、モデル内の知識をどこで操作するかがわかると期待できるためであり、この仮定はモデル編集方法に関する過去の研究を動機付けている。 具体的には、表現記述の局所化の結論(因果トレースとも呼ばれる)が、既存の保存された事実を新しいもので上書きするために、どのモデルMLP層を編集するのが最適かという洞察を与えていないことを示す。 この発見は、過去の作業がどのモデルレイヤを編集するかをCausal Tracingに頼っている(Meng et al., 2022)。 次に,表現の重み付けと重み付けの差異をよりよく理解するために,その設計と目的において表現の重み付けのように見える編集問題のいくつかの変種を考案する。 実験の結果,編集性能が表現の局所化結果と関係していることがわかったが,どのレイヤを編集するかは,より優れた性能予測因子であることが判明した。 我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。 コードは、https://github.com/google/belief-localization.comで入手できる。

Language models are known to learn a great quantity of factual information during pretraining, and recent work localizes this information to specific model weights like mid-layer MLP weights (Meng et al., 2022). In this paper, we find that we can change how a fact is stored in a model by editing weights that are in a different location than where existing methods suggest that the fact is stored. This is surprising because we would expect that localizing facts to specific parameters in models would tell us where to manipulate knowledge in models, and this assumption has motivated past work on model editing methods. Specifically, we show that localization conclusions from representation denoising (also known as Causal Tracing) do not provide any insight into which model MLP layer would be best to edit in order to override an existing stored fact with a new one. This finding raises questions about how past work relies on Causal Tracing to select which model layers to edit (Meng et al., 2022). Next, to better understand the discrepancy between representation denoising and weight editing, we develop several variants of the editing problem that appear more and more like representation denoising in their design and objective. Experiments show that, for one of our editing problems, editing performance does relate to localization results from representation denoising, but we find that which layer we edit is a far better predictor of performance. Our results suggest, counterintuitively, that better mechanistic understanding of how pretrained language models work may not always translate to insights about how to best change their behavior. Code is available at: https://github.com/google/belief-localization
翻訳日:2023-01-12 14:03:59 公開日:2023-01-10
# 宇宙論における波動相関と量子ノイズ

Wave correlations and quantum noise in cosmology ( http://arxiv.org/abs/2301.03795v1 )

ライセンス: Link先を確認
Ulf Leonhardt(参考訳) 波の音は相関する。 空間ではランダムに見えるが、ノイズは波動伝播によって運ばれるため、時空に相関が現れる。 これらの波のノイズの相関は、カシミール力のようなゆらぎ力を生み出し、動的カシミール効果や膨張する宇宙における粒子の生成に責任を持つ。 本稿では,非指数展開平坦空間における光波の雑音相関について考察する。 共形真空中における相関スペクトルの高周波漸近性を決定する。 これらのノイズ相関は、宇宙定数として現れる非自明な真空エネルギーをもたらす。

Wave noise is correlated. While it may look random in space, correlations appear in space-time, because the noise is carried by wave propagation. These correlations of wave noise give rise to fluctuation forces such as the Casimir force, they are responsible for the particle creation in the dynamical Casimir effect and in the expanding universe. This paper considers the noise correlations for light waves in non-exponentially expanding flat space. The paper determines the high-frequency asymptotics of the correlation spectrum in the conformal vacuum. These noise correlations give rise to a nontrivial vacuum energy that may appear as the cosmological constant.
翻訳日:2023-01-11 18:07:28 公開日:2023-01-10
# 群対称性に基づく絡み合い検出のための普遍的枠組み

A universal framework for entanglement detection under group symmetry ( http://arxiv.org/abs/2301.03849v1 )

ライセンス: Link先を確認
Sang-Jun Park, Yeong-Gwang Jung, Jeongeun Park, Sang-Gyun Youn(参考訳) 量子情報理論における最も基本的な問題の1つは、一般にNPハード問題である量子状態のPT絡み合いである。 しかし、この論文では、すべての PPT $(\overline{\pi}_A\otimes \pi_B)$-不変量子状態が分離可能であることと、すべての極端ユニタリ正の$(\pi_A,\pi_B)$-共変写像が分解可能である場合にのみ、$\pi_A,\pi_B$はコンパクト群のユニタリ表現であり、$\pi_A$は既約であることを示す。 さらに、極値単位正の $(\pi_B,\pi_A)$-共変写像 $\mathcal{L}$ が分解可能であることと、$\mathcal{L}$ が完全正あるいは完全共正であることは同値である。 結果は、$$\Phi(\rho)=a\rho+b\rho^T+\frac{c\text{Tr}(\rho)}{d}\text{Id}_d+(1-a-b-c)\text{diag}(\rho)$$はエンタングルメントブレーキングであり、全てのA-BC PPT$(U\otimes \overline{U}\otimes U)$-不変三部分量子状態はA-BC分離であることを示す。 前者は [DFV08, KMS20] で提起されたいくつかの開質問を解決し、後者は PPT-絡み合った$(U\otimes U\otimes U)$-invariant tripartite Werner state [EW01] が存在するという事実と強く対照的である。

One of the most fundamental questions in quantum information theory is PPT-entanglement of quantum states, which is an NP-hard problem in general. In this paper, however, we prove that all PPT $(\overline{\pi}_A\otimes \pi_B)$-invariant quantum states are separable if and only if all extremal unital positive $(\pi_A,\pi_B)$-covariant maps are decomposable where $\pi_A,\pi_B$ are unitary representations of a compact group and $\pi_A$ is irreducible. Moreover, an extremal unital positive $(\pi_B,\pi_A)$-covariant map $\mathcal{L}$ is decomposable if and only if $\mathcal{L}$ is completely positive or completely copositive. We apply the results to prove that all PPT quantum channels of the form $$\Phi(\rho)=a\rho+b\rho^T+\frac{c\text{Tr}(\rho)}{d}\text{Id}_d+(1-a-b-c)\text{diag}(\rho)$$ are entanglement-breaking, and that all A-BC PPT $(U\otimes \overline{U}\otimes U)$-invariant tripartite quantum states are A-BC separable. The former resolves some open questions raised in [DFV08, KMS20] and the latter is a strong contrast to the fact that there exist PPT-entangled $(U\otimes U\otimes U)$-invariant tripartite Werner states [EW01].
翻訳日:2023-01-11 18:07:19 公開日:2023-01-10
# 未解決サイドバンド状態における連続光-機械量子状態転移

Continuous optical-to-mechanical quantum state transfer in the unresolved sideband regime ( http://arxiv.org/abs/2301.03855v1 )

ライセンス: Link先を確認
Amy Navarathna, James S. Bennett, Warwick P. Bowen(参考訳) 光-機械間量子状態伝達は将来の量子ネットワーク、量子通信、分散量子センシングにおいて重要な機能である。 しかし、既存の連続状態転送プロトコルは解決されたサイドバンド方式で動作し、高品質の光共振器と高い機械的共振周波数を必要とする。 本稿では,未解決のサイドバンド方式で動作する連続プロトコルを提案する。 このプロトコルはフィードバック冷却に基づいており、現在の技術で実装することができ、非ガウス量子状態を高い忠実度で転送することができる。 本プロトコルは、連続的な光-機械状態転移が可能な光機械デバイスの種類を著しく拡大し、量子技術応用への道を開き、量子科学の基礎をテストするためのマクロ重ね合わせを作成する。

Optical-to-mechanical quantum state transfer is an important capability for future quantum networks, quantum communication, and distributed quantum sensing. However, existing continuous state transfer protocols operate in the resolved sideband regime, necessitating a high-quality optical cavity and a high mechanical resonance frequency. Here, we propose a continuous protocol that operates in the unresolved sideband regime. The protocol is based on feedback cooling, can be implemented with current technology, and is able to transfer non-Gaussian quantum states with high fidelity. Our protocol significantly expands the kinds of optomechanical devices for which continuous optical-to-mechanical state transfer is possible, paving the way towards quantum technological applications and the preparation of macroscopic superpositions to test the fundamentals of quantum science.
翻訳日:2023-01-11 18:06:33 公開日:2023-01-10
# ANNNIモデルにおける量子クエンチの簡単な理論

A simple theory for quantum quenches in the ANNNI model ( http://arxiv.org/abs/2301.04070v1 )

ライセンス: Link先を確認
Jacob H. Robertson, Riccardo Senese and Fabian H. L. Essler(参考訳) 最近の数値研究 [1] では、近位量子臨界点のシグネチャは、ある量子クエンチの後に早期および中期に観測できることが示されている。 この研究は、主に軸方向のnext-nearest nearby ising(annni)モデルに焦点をあてた。 ここでは,これらのクエンチを短時間で定量的に正確に記述できる単純な時間依存平均場理論を構築し,後期の熱化ダイナミクスを驚くほどよく近似した。 本手法は, 量子臨界点検出におけるクエンチダイナミクスによる基本的な限界に加えて, 報告された数値結果を理解するための簡単な枠組みを提供する。 さらに,長期間の有界状態の形成から生じる様々な観測物に見られる特異な振動挙動の起源を説明する。 [1] doi:10.1103/physrevx.11.031062

In a recent numerical study [1] it was shown that signatures of proximate quantum critical points can be observed at early and intermediate times after certain quantum quenches. Said work focused mainly on the case of the axial next-nearest neighbour Ising (ANNNI) model. Here we construct a simple time-dependent mean-field theory that allows us to obtain a quantitatively accurate description of these quenches at short times and a surprisingly good approximation to the thermalization dynamics at late times. Our approach provides a simple framework for understanding the reported numerical results as well as fundamental limitations on detecting quantum critical points through quench dynamics. We moreover explain the origin of the peculiar oscillatory behaviour seen in various observables as arising from the formation of a long-lived bound state. [1] doi:10.1103/physrevx.11.031062.
翻訳日:2023-01-11 18:06:20 公開日:2023-01-10
# 散乱積分の新しい計算法

A novel way of calculating scattering integrals ( http://arxiv.org/abs/2301.04082v1 )

ライセンス: Link先を確認
Alfredo Takashi Suzuki and Timothy Suzuki(参考訳) ndim - negative dimensional integration method by their discoveryers と呼ばれるこの手法は、ガウス積分、級数展開、解析継続という3つの基礎に依存している。 この手法は一般次元正規化空間における共変および非共変ファインマン積分の計算、すなわち負の領域値を含むD次元の時空の計算に成功している。 次元性は一般であるため、特に一次元積分に利用できる。 本研究では、この手法が特定の不適切な積分に取り組むためにどのように適用できるかを示し、量子力学的散乱過程に現れる特定の不適切な積分の例を示す。 伝統的に、不適切な積分は制限的アプローチまたは知られているように、剰余概念技法によるコーシー主値によって、ある値が与えられる。 ここではNDIM法を用いて計算を行い、不適切な積分に対してうまく動作することを示す。 この斬新なアプローチはより単純で、従来のアプローチのように極や残差、あるいは難しい閉じた輪郭を扱う必要はないと考えています。

The technique coined as NDIM - Negative Dimensional Integration Method by their discoverers, relies on a three-pronged basis: Gaussian integration, series expansion and analytic continuation. The technique has been successfully applied to the calculation of covariant and non covariant Feynman integrals in a generic dimensional regularization space, i.e., D-dimensional space-time for D including the negative domain values. Since the dimensionality is general, we can use specifically for one-dimensional integrals. In this work we show how this technique can be applied to tackle certain improper integrals and give an example of a particular improper integral that appears in quantum mechanical scattering process. Traditionally, improper integrals are ascribed certain values through the limiting approach or as is known, by the Cauchy principal value via residues concept technique. Here we use the NDIM approach to do the calculations and show it works fine for the improper integrals. This novel approach we believe is more straightforward and does not require to handle poles, residues, or difficult closed contours as in the traditional approach.
翻訳日:2023-01-11 18:06:06 公開日:2023-01-10
# ハイブリッド量子システムにおけるトリガー超輝度とインバージョンストレージ

Triggered Superradiance and Inversion Storage in a Hybrid Quantum System ( http://arxiv.org/abs/2301.04100v1 )

ライセンス: Link先を確認
Wenzel Kersten, Nikolaus de Zordo, Oliver Diekmann, Tobias Reiter, Matthias Zens, Andrew N. Kanagin, Stefan Rotter, J\"org Schmiedmayer, and Andreas Angerer(参考訳) 超伝導空洞に強く結合した逆スピンアンサンブルの超ラジアント放出について検討した。 高速な反転の後、スピンを空洞から切り離し、数十ミリ秒間反転を保存し、残りの横スピン成分は消滅する。 共鳴に切り替えることで、超放射の開始を研究できる。 数百光子の弱いトリガーパルスは、スーパーラジアントバーストを早期にシフトさせ、その位相を放出された放射に印加する。 長い保持時間の間、インバージョンは自然発振のしきい値以下に減少する。 そこで、アンサンブルに蓄えられたエネルギーは、キャビティを通過するマイクロ波パルスの増幅に使用できる。

We study the superradiant emission of an inverted spin ensemble strongly coupled to a superconducting cavity. After fast inversion, we detune the spins from the cavity and store the inversion for tens of milliseconds, during which the remaining transverse spin components disappear. Switching back on resonance enables to study the onset of superradiance. A weak trigger pulse of a few hundred photons shifts the superradiant burst to earlier times and imprints its phase onto the emitted radiation. For long hold times, the inversion decreases below the threshold for spontaneous superradiance. There the energy stored in the ensemble can be used to amplify microwave pulses passing through the cavity.
翻訳日:2023-01-11 18:05:11 公開日:2023-01-10
# 量子力学と量子場理論。 代数的および幾何学的アプローチ

Quantum mechanics and quantum field theory. Algebraic and geometric approaches ( http://arxiv.org/abs/2301.03804v1 )

ライセンス: Link先を確認
Igor Frolov, Albert Schwarz(参考訳) これは量子力学と量子場理論の主要な概念の非標準表現であり、近年の結果も含んでいる。 これは、開始点が畳み込みのある連想代数であり、状態がこの代数上の正の線型汎関数として定義される代数的アプローチと、開始点が線型空間の凸部分集合と見なされる状態の集合である幾何学的アプローチに基づいている。 展示は量子力学の教科書に依存しない。 量子確率の標準公式はデコヒーレンスから導かれる。 この導出により、幾何学的アプローチで量子論を超えることができる。 粒子は基底状態の初等励起として定義される(準粒子は任意の変換不変状態の初等励起として)。 この定義から、同一粒子の概念は非常に自然である。 粒子の散乱は、Hag-Ruelle理論の一般化の枠組みで解析される。 従来の散乱行列は準粒子に対しては機能しない(理論が素粒子解釈を持っていない場合は粒子に対しても)。 これらの場合の散乱の解析は包含的散乱行列の概念に基づいており、包含的断面積と密接に関連している。 従来の散乱行列は、非平衡統計物理学のケルディッシュ形式に現れる一般化されたグリーン関数を用いて、グリーン関数 (lsz公式) anf包括散乱行列を表現できることが証明されている。 一般化グリーン函数や包含散乱行列は、ワイル環やクリフォード環上の正の函数と同一視できるL-函数の形式論にも現れることが示されている。 函数積分の観点からの進化作用素とその他の物理量の表現の導出は作用素の記号の概念に基づいており、これらの議論は幾何学的アプローチにも適用することができる。 この結果は、特に、一般化されたグリーン関数に対するダイアグラム技法の簡単な導出を与えるために使うことができる。 包括的散乱行列の概念は幾何学的アプローチで理にかなっている(しかし、この状況では従来の散乱行列の定義を与えることはできないようである)。 幾何学的アプローチは、量子力学とその一般化が、我々のデバイスが観測可能な部分のみを測定できる古典理論として考えられることを示すために用いられる。 このテキストは、2022年の春にA. Schwarzが教えたコースの最初の10の講義に基づいており、講義(ロシア語)とスライド(英語)についてwww.mathnet.ruを参照。 キーワード:包含散乱行列、一般化グリーン関数、幾何学的アプローチ

This is a non-standard exposition of main notions of quantum mechanics and quantum field theory that also includes some recent results. It is based on algebraic approach where the starting point is an associative algebra with involution and states are defined as positive linear functionals on this algebra and on geometric approach where the starting point is a set of states considered as a convex subset of linear space. The exposition does not depend on textbooks in quantum mechanics. Standard formulas for quantum probabilities are derived from decoherence. This derivation allows us to go beyond quantum theory in geometric approach. Particles are defined as elementary excitations of ground state (and quasiparticles as elementary excitations of any translation invariant state). It follows from this definition that the notion of identical particles is very natural. The scattering of particles is analyzed in the framework of generalization of Haag-Ruelle theory. The conventional scattering matrix does not work for quasiparticles (and even for particles if the theory does not have particle interpretation). The analysis of scattering in these cases is based on the notion of inclusive scattering matrix, closely related to inclusive cross-sections. It is proven that the conventional scattering matrix can be expressed in terms of Green functions (LSZ formula) anf inclusive scattering matrix can be expressed in terms of generalized Green functions that appear in the Keldysh formalism of non-equilibrium statistical physics. It is shown that generalized Green functions and inclusive scattering matrices appear also in the formalism of L-functionals that can be identified with positive functionals on Weyl or Clifford algebras. The derivation of the expression of the evolution operator and other physical quantities in terms of functional integrals is based on the notion of symbol of operator; these arguments can be applied also in geometric approach. This result can be used, in particular, to give a simple derivation of diagram technique for generalized Green functions. The notion of inclusive scattering matrix makes sense in geometric approach (but it seems that one cannot give a definition of conventional scattering matrix in this situation). The geometric approach is used to show that quantum mechanics and its generalizations can be considered as classical theories where our devices are able to measure only a part of observables. This text is based on first ten lectures of the course taught by A. Schwarz in the Spring of 2022; see www.mathnet.ru for lectures (in Russian) and slides (in English). Keywords: Inclusive scattering matrix; generalized Green function, geometric approach
翻訳日:2023-01-11 18:04:35 公開日:2023-01-10
# ai制御型fes-rerestoration of arm movement---3次元到達のための神経メカニクスに基づく強化学習

Towards AI-controlled FES-restoration of arm movements: neuromechanics-based reinforcement learning for 3-D reaching ( http://arxiv.org/abs/2301.04004v1 )

ライセンス: Link先を確認
Nat Wannawas and A.Aldo Faisal(参考訳) 障害者は生活の質に影響を及ぼす。 機能的電気刺激(FES)は失われた運動機能を回復することができる。 しかし、FESを制御して望ましい動きを誘発する上ではまだ課題がある。 神経力学モデルはfes制御法の開発に有用である。 しかし、上肢領域に焦点をあてると、いくつかの既存モデルは過剰に単純化されているか、制御目的のために計算的に要求されすぎている。 モデルに関する問題に加えて、異なるタスクや課題の制御ルールを管理する一般的な方法を見つけることはエンジニアリングの課題である。 本稿では、FES制御における基本的な課題に対処するため、FESに基づく腕の動きの復元に向けたアプローチを提案する。 まず, 十分に認識されたオープンソースソフトウェアを用いて構築したヒトの腕の, 表面fes指向の神経力学的モデルを提案する。 モデルは計算コストを最小限に抑えて、FES制御における重要なダイナミクスを捉えるように設計されている。 私たちのモデルはカスタマイズ可能で、さまざまな制御メソッドのテストに使用できます。 第2に、制御ルール管理の一般的な方法として強化学習(RL)の適用について述べる。 カスタマイズ可能なモデルとRLベースの制御手法を組み合わせることで、異なる主題や最小限のエンジニアリング介入で、カスタマイズされたFESコントロールを提供することが可能になる。 平面と3D設定でのアプローチを実証する。

Reaching disabilities affect the quality of life. Functional Electrical Stimulation (FES) can restore lost motor functions. Yet, there remain challenges in controlling FES to induce desired movements. Neuromechanical models are valuable tools for developing FES control methods. However, focusing on the upper extremity areas, several existing models are either overly simplified or too computationally demanding for control purposes. Besides the model-related issues, finding a general method for governing the control rules for different tasks and subjects remains an engineering challenge. Here, we present our approach toward FES-based restoration of arm movements to address those fundamental issues in controlling FES. Firstly, we present our surface-FES-oriented neuromechanical models of human arms built using well-accepted, open-source software. The models are designed to capture significant dynamics in FES controls with minimal computational cost. Our models are customisable and can be used for testing different control methods. Secondly, we present the application of reinforcement learning (RL) as a general method for governing the control rules. In combination, our customisable models and RL-based control method open the possibility of delivering customised FES controls for different subjects and settings with minimal engineering intervention. We demonstrate our approach in planar and 3D settings.
翻訳日:2023-01-11 17:58:24 公開日:2023-01-10
# 腕運動のAI制御FES回復に向けて:ガウス状態空間モデルによる進行性筋疲労の制御

Towards AI-controlled FES-restoration of arm movements: Controlling for progressive muscular fatigue with Gaussian state-space models ( http://arxiv.org/abs/2301.04005v1 )

ライセンス: Link先を確認
Nat Wannawas and A.Aldo Faisal(参考訳) 障害に達することは、日々の作業を行う個人の能力を制限する。 表面機能電気刺激(FES)は、失われた能力を回復するための非侵襲的な解決策を提供する。 しかし、FESを用いて所望の動作を誘導することは、まだオープンエンジニアリングの問題である。 この問題は、人間の腕の神経機構の複雑さと個人間の多様性によって強調される。 強化学習(rl)は、異なる設定でカスタマイズされた制御ルールを管理するための有望なアプローチとして現れる。 しかし、RLのFES系を制御するための残る課題は、刺激の未知の機能として徐々に変化し、RLのマルコフ的仮定を破る、観測不能な筋肉疲労である。 本研究では, 筋疲労問題に対処し, RLコントローラの制御性能を向上させる方法を提案する。 本手法は,繰り返しニューラルネットワークを用いて部分観測からマルコフ状態空間を学習するガウス状態空間モデル(GSSM)に基づく。 gssm は、観察を rl の状態空間表現に変換し、マルコフの仮定を保存するフィルターとして用いられる。 ここでは、過信問題に対処するため、元のGSSMの変更を提示することから始める。 次に、RLと改良GSSMの相互作用を示し、次にFES制御学習のセットアップを示す。 シミュレーションの平面到達設定において,神経力学モデルを用いてrl-gssmシステムをテストした。 その結果、GSSMはRLの制御性能を、疲労が観測可能な理想ケースの同等レベルまで向上させることができることがわかった。

Reaching disability limits an individual's ability in performing daily tasks. Surface Functional Electrical Stimulation (FES) offers a non-invasive solution to restore lost ability. However, inducing desired movements using FES is still an open engineering problem. This problem is accentuated by the complexities of human arms' neuromechanics and the variations across individuals. Reinforcement Learning (RL) emerges as a promising approach to govern customised control rules for different settings. Yet, one remaining challenge of controlling FES systems for RL is unobservable muscle fatigue that progressively changes as an unknown function of the stimulation, thereby breaking the Markovian assumption of RL. In this work, we present a method to address the unobservable muscle fatigue issue, allowing our RL controller to achieve higher control performances. Our method is based on a Gaussian State-Space Model (GSSM) that utilizes recurrent neural networks to learn Markovian state-spaces from partial observations. The GSSM is used as a filter that converts the observations into the state-space representation for RL to preserve the Markovian assumption. Here, we start with presenting the modification of the original GSSM to address an overconfident issue. We then present the interaction between RL and the modified GSSM, followed by the setup for FES control learning. We test our RL-GSSM system on a planar reaching setting in simulation using a detailed neuromechanical model. The results show that the GSSM can help improve the RL's control performance to the comparable level of the ideal case that the fatigue is observable.
翻訳日:2023-01-11 17:58:04 公開日:2023-01-10
# 機械学習と物理モデルを統合する微分モデリングと地球科学の進歩

Differentiable modeling to unify machine learning and physical models and advance Geosciences ( http://arxiv.org/abs/2301.04027v1 )

ライセンス: Link先を確認
Chaopeng Shen, Alison P. Appling, Pierre Gentine, Toshiyuki Bandai, Hoshin Gupta, Alexandre Tartakovsky, Marco Baity-Jesi, Fabrizio Fenicia, Daniel Kifer, Li Li, Xiaofeng Liu, Wei Ren, Yi Zheng, Ciaran J. Harman, Martyn Clark, Matthew Farthing, Dapeng Feng, Praveen Kumar, Doaa Aboelyazeed, Farshid Rahmani, Hylke E. Beck, Tadd Bindas, Dipankar Dwivedi, Kuai Fang, Marvin H\"oge, Chris Rackauckas, Tirthankar Roy, Chonggang Xu, Kathryn Lawson(参考訳) プロセスベースモデリング(PBM)と機械学習(ML)は、しばしば地球科学において異なるパラダイムと見なされる。 ここでは,その間の障壁を解消し,パラダイムシフトを導くための強力な経路として,微分可能な地学モデリングを提案する。 pbmは何十年もの間、解釈可能性と物理的一貫性の利点を提供してきたが、大規模なデータセットを効率的に活用するのに苦労した。 ML手法、特にディープネットワークは、強い予測スキルを示していたが、特定の科学的疑問に答える能力に欠けていた。 ML-物理統合のための様々な手法が提案されているが、重要なテーマである微分可能モデリングは十分に認識されていない。 ここでは、微分可能地科学モデリング(DG)の概念、適用性、意義について概説する。 微分可能」とは、モデル変数に関する勾配を正確かつ効率的に計算し、高次元の未知の関係の学習を可能にする。 DGは、様々な事前知識をニューラルネットワークに接続し、それらを一緒に訓練し、物理誘導機械学習とは異なるスコープを捉え、第一原理を強調する様々な方法を指す。 予備的な証拠は、DGがMLよりも優れた解釈可能性と因果性、一般化性と外挿能力の改善、知識発見の強力な可能性、そして純粋にデータ駆動型MLの性能にアプローチしていることを示している。 DGモデルは、データ量の増加とともに、パフォーマンスと効率を良好にスケーリングしながら、より少ないトレーニングデータを必要とする。 DGでは、地質学者は質問をフレーム化し、調査し、仮説を検証し、認識されていないリンクを発見することができる。

Process-Based Modeling (PBM) and Machine Learning (ML) are often perceived as distinct paradigms in the geosciences. Here we present differentiable geoscientific modeling as a powerful pathway toward dissolving the perceived barrier between them and ushering in a paradigm shift. For decades, PBM offered benefits in interpretability and physical consistency but struggled to efficiently leverage large datasets. ML methods, especially deep networks, presented strong predictive skills yet lacked the ability to answer specific scientific questions. While various methods have been proposed for ML-physics integration, an important underlying theme -- differentiable modeling -- is not sufficiently recognized. Here we outline the concepts, applicability, and significance of differentiable geoscientific modeling (DG). "Differentiable" refers to accurately and efficiently calculating gradients with respect to model variables, critically enabling the learning of high-dimensional unknown relationships. DG refers to a range of methods connecting varying amounts of prior knowledge to neural networks and training them together, capturing a different scope than physics-guided machine learning and emphasizing first principles. Preliminary evidence suggests DG offers better interpretability and causality than ML, improved generalizability and extrapolation capability, and strong potential for knowledge discovery, while approaching the performance of purely data-driven ML. DG models require less training data while scaling favorably in performance and efficiency with increasing amounts of data. With DG, geoscientists may be better able to frame and investigate questions, test hypotheses, and discover unrecognized linkages.
翻訳日:2023-01-11 17:57:23 公開日:2023-01-10
# 故障タービンデータにおける不均衡分類 : 新しい近似最適化

Imbalanced Classification In Faulty Turbine Data: New Proximal Policy Optimization ( http://arxiv.org/abs/2301.04049v1 )

ライセンス: Link先を確認
Mohammad Hossein Modirrousta, Mahdi Aliyari Shoorehdeli, Mostafa Yari and Arash Ghahremani(参考訳) 障害の検出や,産業システムや現実システムにおける最善の方法の実装は,ますます重要になっています。 我々は,人工知能応用によって提案された,最も信頼性が高く実用的なデータに基づく故障検出手法を探っている。 本稿では,強化学習に基づく障害検出の枠組みと,近位政策最適化として知られる方針を提案する。 フォールトデータ不足の結果として、従来の政策における重大な問題のひとつは、コスト関数の変更によって対処されたフォールトクラスの検出の弱点である。 修正された近位ポリシー最適化を使用することで、パフォーマンスの向上、データ不均衡の克服、将来的な障害の予測が向上します。 修正されたポリシーが実装されると、最初のベンチマークの従来のポリシーと比較して、すべての評価指標が$3\%$から$4\%$に、第2ベンチマークの$20\%$から$5\%$に、第3ベンチマークの$6\%$から$14\%に、そして以前の方法と比較してパフォーマンスと予測速度が向上する。

There is growing importance to detecting faults and implementing the best methods in industrial and real-world systems. We are searching for the most trustworthy and practical data-based fault detection methods proposed by artificial intelligence applications. In this paper, we propose a framework for fault detection based on reinforcement learning and a policy known as proximal policy optimization. As a result of the lack of fault data, one of the significant problems with the traditional policy is its weakness in detecting fault classes, which was addressed by changing the cost function. Using modified Proximal Policy Optimization, we can increase performance, overcome data imbalance, and better predict future faults. When our modified policy is implemented, all evaluation metrics will increase by $3\%$ to $4\%$ as compared to the traditional policy in the first benchmark, between $20\%$ and $55\%$ in the second benchmark, and between $6\%$ and $14\%$ in the third benchmark, as well as an improvement in performance and prediction speed compared to previous methods.
翻訳日:2023-01-11 17:56:57 公開日:2023-01-10
# 改良された動的ギブスサンプリングによるゼロサムゲームの量子スピードアップ

Quantum Speedups for Zero-Sum Games via Improved Dynamic Gibbs Sampling ( http://arxiv.org/abs/2301.03763v1 )

ライセンス: Link先を確認
Adam Bouland, Yosheb Getachew, Yujia Jin, Aaron Sidford, Kevin Tian(参考訳) 有界なエントリを持つ$m \times n$ペイオフ行列において、ゼロサムゲームの$\epsilon$-approximate nash平衡を計算する量子アルゴリズムを与える。 支払い行列にアクセスする標準的な量子神託が与えられると、アルゴリズムは時間$\widetilde{o}(\sqrt{m + n}\cdot \epsilon^{-2.5} + \epsilon^{-3})$で実行され、$\epsilon$-approximate nash平衡の古典的な表現を出力する。 これは、$\widetilde{O}(\sqrt{m + n} \cdot \epsilon^{-3})$と$\widetilde{O}((m + n) \cdot \epsilon^{-2})$ $\epsilon = \Omega((m + n)^{-1})$$のときの [GK95] によるランタイムによって得られる古典的な$\widetilde{O}((m + n) \cdot \epsilon^{-2})$の最高前の量子ランタイムを改善する。 この結果は、ゆっくりと変化するギブス分布から効率的にサンプリングする新しい量子データ構造を設計することによって得られる。

We give a quantum algorithm for computing an $\epsilon$-approximate Nash equilibrium of a zero-sum game in a $m \times n$ payoff matrix with bounded entries. Given a standard quantum oracle for accessing the payoff matrix our algorithm runs in time $\widetilde{O}(\sqrt{m + n}\cdot \epsilon^{-2.5} + \epsilon^{-3})$ and outputs a classical representation of the $\epsilon$-approximate Nash equilibrium. This improves upon the best prior quantum runtime of $\widetilde{O}(\sqrt{m + n} \cdot \epsilon^{-3})$ obtained by [vAG19] and the classic $\widetilde{O}((m + n) \cdot \epsilon^{-2})$ runtime due to [GK95] whenever $\epsilon = \Omega((m +n)^{-1})$. We obtain this result by designing new quantum data structures for efficiently sampling from a slowly-changing Gibbs distribution.
翻訳日:2023-01-11 17:55:42 公開日:2023-01-10
# 変分マイクロカノニカル推定器

Variational Microcanonical Estimator ( http://arxiv.org/abs/2301.04129v1 )

ライセンス: Link先を確認
Kl\'ee Pollock, Peter P. Orth and Thomas Iadecola(参考訳) 固有状態熱化仮説に従うモデルにおけるマイクロカノニカル期待値を推定するための変分量子アルゴリズムを提案する。 変動最適化ループの収束に緩和された基準を用いて、アルゴリズムは与えられた目標エネルギー密度で固有状態の弱い絡み合った重ね合わせを生成する。 これらの変分状態のアンサンブルは、局所作用素のマイクロカノニカル平均を推定するために使用され、アンサンブルの大きさのパワー則として支配的な寄与が減少する誤差を持つ。 このアルゴリズムを1次元混合場Isingモデルに適用し,システムサイズにほぼ線形な深さのアンザッツ回路に収束する。 最も正確な熱推定は、中間エネルギー密度と、ハミルトニアンに現れる局所作用素のために生成される。 誤差解析では, 固有状態熱化仮説の基盤を解明する最近の研究とのつながりを見出した。 特に、独立な確率変数として振る舞う局所作用素のエネルギー-ベイシ行列要素の失敗は、変分状態のアンサンブルを平均することでアルゴリズムが克服できる潜在的な誤差源である。

We propose a variational quantum algorithm for estimating microcanonical expectation values in models obeying the eigenstate thermalization hypothesis. Using a relaxed criterion for convergence of the variational optimization loop, the algorithm generates weakly entangled superpositions of eigenstates at a given target energy density. An ensemble of these variational states is then used to estimate microcanonical averages of local operators, with an error whose dominant contribution decreases as a power law in the size of the ensemble. We apply the algorithm to the one-dimensional mixed-field Ising model, where it converges for ansatz circuits of depth roughly linear in system size. The most accurate thermal estimates are produced for intermediate energy densities and for local operators that appear in the Hamiltonian. In our error analysis, we find connections with recent works investigating the underpinnings of the eigenstate thermalization hypothesis. In particular, the failure of energy-basis matrix elements of local operators to behave as independent random variables is a potential source of error that the algorithm can overcome by averaging over an ensemble of variational states.
翻訳日:2023-01-11 17:49:42 公開日:2023-01-10
# 専門的意思決定プロセスを導入したビデオサーベイランスシステム:牛のカルビング信号検出を事例として

Video Surveillance System Incorporating Expert Decision-making Process: A Case Study on Detecting Calving Signs in Cattle ( http://arxiv.org/abs/2301.03926v1 )

ライセンス: Link先を確認
Ryosuke Hyodo, Susumu Saito, Teppei Nakano, Makoto Akabane, Ryoichi Kasuga, Tetsuji Ogawa(参考訳) 畜産分野のユーザ研究を通じて,ビデオ監視システムにおけるXAIフレームワークの有効性を検証する。 システムは専門家の意思決定プロセスを取り込むことで解釈可能である。 AIシステムは、現実世界のアプリケーション、特に人間の意思決定に関連する分野において、ますます一般的になりつつある。 しかし、現実世界のアプリケーションにおける機械学習ベースのシステムの解釈可能性を評価するための標準的な方法はまだ比較的少ない。 本研究では,通知対象のドメイン知識に富んだ専門家の意思決定プロセスを取り込むことで,予測の背後にある推論を提示するビデオ監視aiシステムの枠組みを検討する。 一般的なブラックボックスAIシステムは最終的な確率値しか提示できないが、提案するフレームワークは専門家の判断に関連する情報を提示することができる。 本研究は,提案手法に基づき,牛の産卵の兆候を検知するシステムを設計し,農耕関係者を対象に,ユーザ・スタディ (n=6) によるシステム評価を行った。 ブラックボックスAIシステムとの比較では、多くの参加者が予測結果の提示された理由について言及しており、6人中5人が将来使いたいシステムとして提案されたシステムを選択した。 予測結果の理由を考慮に入れたユーザインターフェースを設計する必要があることが明らかになった。

Through a user study in the field of livestock farming, we verify the effectiveness of an XAI framework for video surveillance systems. The systems can be made interpretable by incorporating experts' decision-making processes. AI systems are becoming increasingly common in real-world applications, especially in fields related to human decision-making, and its interpretability is necessary. However, there are still relatively few standard methods for assessing and addressing the interpretability of machine learning-based systems in real-world applications. In this study, we examine the framework of a video surveillance AI system that presents the reasoning behind predictions by incorporating experts' decision-making processes with rich domain knowledge of the notification target. While general black-box AI systems can only present final probability values, the proposed framework can present information relevant to experts' decisions, which is expected to be more helpful for their decision-making. In our case study, we designed a system for detecting signs of calving in cattle based on the proposed framework and evaluated the system through a user study (N=6) with people involved in livestock farming. A comparison with the black-box AI system revealed that many participants referred to the presented reasons for the prediction results, and five out of six participants selected the proposed system as the system they would like to use in the future. It became clear that we need to design a user interface that considers the reasons for the prediction results.
翻訳日:2023-01-11 17:49:06 公開日:2023-01-10
# 材料特性モデリングのための機械駆動力場の伝達性評価

Evaluating the Transferability of Machine-Learned Force Fields for Material Property Modeling ( http://arxiv.org/abs/2301.03729v1 )

ライセンス: Link先を確認
Shaswat Mohanty, Sanghyuk Yoo, Keonwook Kang, Wei Cai(参考訳) 近年、機械学習力場は分子動力学(MD)シミュレーションのツールとして大きな関心を集めており、従来の原子間ポテンシャルを置き換える正確で効率的なモデルの開発を目指している。 しかし、これらのモデルを材料シミュレーションに確実に適用する前には、徹底的に検証し、検証する必要がある。 放射分布関数と平均2乗変位に関する既存の試験は,これらのモデルの伝達性を評価するには不十分である。 ここでは、機械学習力場の伝達性を評価するためのより包括的なベンチマークテストについて述べる。 我々は、OpenMMパッケージと結合したグラフニューラルネットワーク(GNN)ベースの力場を用いて、ArgonのMDシミュレーションをテストケースとして実施する。 実験では, 液体相における様々な長さスケールでの密度変動を捉えるX線光子相関分光法 (XPCS) と, 固体相におけるフォノン密度と液-固体相転移挙動について検討した。 実験結果から, モデルが固体相の挙動を正確に把握できるのは, 固体相からの構成がトレーニングデータセットに含まれる場合のみであることがわかった。 これは、機械主導の力場を開発する際にトレーニングデータセットを適切に選択することの重要性を強調する。 本研究で示された試験は、材料シミュレーションのための機械学習力場の開発と応用に必要な基礎を提供する。

Machine-learned force fields have generated significant interest in recent years as a tool for molecular dynamics (MD) simulations, with the aim of developing accurate and efficient models that can replace classical interatomic potentials. However, before these models can be confidently applied to materials simulations, they must be thoroughly tested and validated. The existing tests on the radial distribution function and mean-squared displacements are insufficient in assessing the transferability of these models. Here we present a more comprehensive set of benchmarking tests for evaluating the transferability of machine-learned force fields. We use a graph neural network (GNN)-based force field coupled with the OpenMM package to carry out MD simulations for Argon as a test case. Our tests include computational X-ray photon correlation spectroscopy (XPCS) signals, which capture the density fluctuation at various length scales in the liquid phase, as well as phonon density-of-state in the solid phase and the liquid-solid phase transition behavior. Our results show that the model can accurately capture the behavior of the solid phase only when the configurations from the solid phase are included in the training dataset. This underscores the importance of appropriately selecting the training data set when developing machine-learned force fields. The tests presented in this work provide a necessary foundation for the development and application of machine-learned force fields for materials simulations.
翻訳日:2023-01-11 17:48:33 公開日:2023-01-10
# マルコフ決定過程の枠組みに基づく逐次的公平資源配分

Sequential Fair Resource Allocation under a Markov Decision Process Framework ( http://arxiv.org/abs/2301.03758v1 )

ライセンス: Link先を確認
Parisa Hassanzadeh, Eleonora Kreacic, Sihan Zeng, Yuchen Xiao, Sumitra Ganesh(参考訳) 有限地平線上の到達に対する確率的要求を明らかにするエージェントに対して限られた資源を割り当てる逐次意思決定問題について検討する。 私たちの目標は、利用可能なリソース予算を浪費する公平な割り当てアルゴリズムを設計することです。 これは、意思決定時に将来の要求に関する情報が得られないシーケンシャルな設定では難しい。 この問題を離散時間マルコフ決定過程(MDP)として定式化する。 我々は,到着時に期待される将来の要求を考慮し,地平線上で明らかになった要求全体に対して公平にアロケーションを行う新しいアルゴリズムであるSAFFEを提案する。 このアルゴリズムは、エージェントの将来の要求の不確実性に応じて、将来の潜在的な要求に対する現在の明らかにされた要求の優先順位付けを可能にする正規化を導入する。 mdpの定式化を用いて,saffeはnash社会福祉フェアネス目標の上限に基づいて割り当てを最適化し,そのギャップを将来の総需要に対する濃度境界の使用による最適性に限定した。 合成データと実データを用いて,SAFFEの性能を既存のアプローチと比較し,MDPで訓練された強化学習政策と比較した。 SAFFEはより公平で効率的なアロケーションを実現し、密着度の高い設定で最適に近い性能を実現する。

We study the sequential decision-making problem of allocating a limited resource to agents that reveal their stochastic demands on arrival over a finite horizon. Our goal is to design fair allocation algorithms that exhaust the available resource budget. This is challenging in sequential settings where information on future demands is not available at the time of decision-making. We formulate the problem as a discrete time Markov decision process (MDP). We propose a new algorithm, SAFFE, that makes fair allocations with respect to the entire demands revealed over the horizon by accounting for expected future demands at each arrival time. The algorithm introduces regularization which enables the prioritization of current revealed demands over future potential demands depending on the uncertainty in agents' future demands. Using the MDP formulation, we show that SAFFE optimizes allocations based on an upper bound on the Nash Social Welfare fairness objective, and we bound its gap to optimality with the use of concentration bounds on total future demands. Using synthetic and real data, we compare the performance of SAFFE against existing approaches and a reinforcement learning policy trained on the MDP. We show that SAFFE leads to more fair and efficient allocations and achieves close-to-optimal performance in settings with dense arrivals.
翻訳日:2023-01-11 17:48:10 公開日:2023-01-10
# 価値学習データ生成を用いた物理モデル統合ニューラルネットワークによる最適電力フロー

Optimal Power Flow Based on Physical-Model-Integrated Neural Network with Worth-Learning Data Generation ( http://arxiv.org/abs/2301.03766v1 )

ライセンス: Link先を確認
Zuntao Hu and Hongcai Zhang(参考訳) 最適潮流(OPF)問題に対する高速で信頼性の高い解法が研究の関心を喚起している。 物理モデルに基づくOPFソルバのサロゲートとして、ニューラルネットワーク(NN)ソルバは解決プロセスを加速することができる。 しかし、トレーニングデータセットが表現できない場合、`unseen'入力に対して信頼できない場合がある。 NNソルバのトレーニングデータセットの代表性を高めることは不可欠であるが、文献では十分に研究されていない。 この課題に対処するため、我々は、価値学習データ生成を伴う物理モデル統合NNに基づくOPFソルバを提案する。 設計NNは、従来の多層パーセプトロン(MLP)とOPFモデルモジュールの組み合わせであり、OPF問題の最適決定変数だけでなく、制約違反度も出力する。 このNNに基づいて、NNが十分に一般化していない有意義なサンプルを識別する価値学習データ生成手法を提案する。 この方法を繰り返し適用し、新たに特定した価値学習サンプルをトレーニングセットに含むことにより、トレーニングセットの表現性を大幅に向上させることができる。 したがって、NNソルバのソリューション信頼性を著しく向上させることができる。 実験の結果,提案手法は従来のNN解法に比べて50%以上の制約違反と最適性損失を減少させることがわかった。

Fast and reliable solvers for optimal power flow (OPF) problems are attracting surging research interest. As surrogates of physical-model-based OPF solvers, neural network (NN) solvers can accelerate the solving process. However, they may be unreliable for ``unseen" inputs when the training dataset is unrepresentative. Enhancing the representativeness of the training dataset for NN solvers is indispensable but is not well studied in the literature. To tackle this challenge, we propose an OPF solver based on a physical-model-integrated NN with worth-learning data generation. The designed NN is a combination of a conventional multi-layer perceptron (MLP) and an OPF-model module, which outputs not only the optimal decision variables of the OPF problem but also the constraints violation degree. Based on this NN, the worth-learning data generation method can identify feasible samples that are not well generalized by the NN. By iteratively applying this method and including the newly identified worth-learning samples in the training set, the representativeness of the training set can be significantly enhanced. Therefore, the solution reliability of the NN solver can be remarkably improved. Experimental results show that the proposed method leads to an over 50% reduction of constraint violations and optimality loss compared to conventional NN solvers.
翻訳日:2023-01-11 17:47:48 公開日:2023-01-10
# ハニーポット世界のチャットボット

Chatbots in a Honeypot World ( http://arxiv.org/abs/2301.03771v1 )

ライセンス: Link先を確認
Forrest McKee, David Noever(参考訳) ChatGPTのような質問と回答のエージェントは、サイバーセキュリティのハニーポットインターフェースとして使える新しいツールを提供する。 linux、mac、windows terminalのコマンドを模倣し、teamviewer、nmap、pingのインターフェイスを提供することで、攻撃者のアクションに適応し、その戦術、技術、手順(ttp)についての洞察を提供する動的環境を作成することができる。 この論文は、会話エージェントまたは大きな言語モデルがコマンドライン攻撃の効果に適切に答えるかもしれない10の多様なタスクを説明している。 元々の成果は、防御チームが最小限のリスクで期待されるハニーポットインターフェースを模倣するための10のモデルタスクの実現可能性研究を特徴としている。 究極的には、法医学的活動以外の有用性は、動的ハニーポットがデータベースや機密情報といった重要なネットワーク資産に到達せずに、探索までの時間を延ばすことができるか、攻撃者のタイムラインを延ばすことができるかどうかに起因している。 継続的なメンテナンスと監視が必要かもしれないが、ChatGPTの悪意のある活動を検出し、無視する能力は、サイバーセキュリティの姿勢を強化しようとする組織にとって貴重な選択肢である。 今後は、周辺セキュリティ、ホストウイルス検出、データセキュリティなど、サイバーセキュリティ層に注力していく予定だ。

Question-and-answer agents like ChatGPT offer a novel tool for use as a potential honeypot interface in cyber security. By imitating Linux, Mac, and Windows terminal commands and providing an interface for TeamViewer, nmap, and ping, it is possible to create a dynamic environment that can adapt to the actions of attackers and provide insight into their tactics, techniques, and procedures (TTPs). The paper illustrates ten diverse tasks that a conversational agent or large language model might answer appropriately to the effects of command-line attacker. The original result features feasibility studies for ten model tasks meant for defensive teams to mimic expected honeypot interfaces with minimal risks. Ultimately, the usefulness outside of forensic activities stems from whether the dynamic honeypot can extend the time-to-conquer or otherwise delay attacker timelines short of reaching key network assets like databases or confidential information. While ongoing maintenance and monitoring may be required, ChatGPT's ability to detect and deflect malicious activity makes it a valuable option for organizations seeking to enhance their cyber security posture. Future work will focus on cybersecurity layers, including perimeter security, host virus detection, and data security.
翻訳日:2023-01-11 17:47:30 公開日:2023-01-10
# セッションベースレコメンデーションのための時間対応双曲グラフアテンションネットワーク

Time-aware Hyperbolic Graph Attention Network for Session-based Recommendation ( http://arxiv.org/abs/2301.03780v1 )

ライセンス: Link先を確認
Xiaohan Li, Yuqing Liu, Zheng Liu, Philip S. Yu(参考訳) セッションベースレコメンデーション(sbr)は、以前のブラウジングセッションに基づいてユーザーの次の興味のあるアイテムを予測することである。 既存のメソッドはセッションをグラフやシーケンスとしてモデル化し、インタラクションされたアイテムに基づいてユーザの関心を見積もって推奨する。 近年,グラフベースの手法はSBRにおいて優れた性能を発揮している。 しかし、これらの手法は時相情報を考慮せず、これはSBRにおいてタイムラインや通貨を示す重要な特徴である。 さらに、セッショングラフは階層構造を示し、双曲幾何学に適していることが示される。 しかし、双曲空間でモデルを設計する論文はほとんどなく、この方向はまだ探索中である。 本稿では,時間情報を考慮したセッションベースレコメンデーションモデルを構築するための,新しいハイパーボリックグラフニューラルネットワークフレームワークであるTA-HGAT(Time-Aware Hyperbolic Graph Attention Network)を提案する。 具体的には、TA-HGATには3つのコンポーネントがある。 まず、双曲射影モジュールはアイテムの特徴を双曲空間に変換する。 第2に、タイムアウェアグラフアテンションモジュールは、アイテムとユーザの現在の関心の間の時間間隔をモデル化する。 第三に、モデルの最後に発生する進化的損失は、与えられたタイムスタンプに基づいて推奨項目の正確な予測を提供する。 TA-HGATは、セッショングラフの階層構造を学ぶために双曲空間で構築される。 実験結果から,提案したTA-HGATは,実世界の2つのデータセット上で10のベースラインモデルと比較して最高の性能を示した。

Session-based Recommendation (SBR) is to predict users' next interested items based on their previous browsing sessions. Existing methods model sessions as graphs or sequences to estimate user interests based on their interacted items to make recommendations. In recent years, graph-based methods have achieved outstanding performance on SBR. However, none of these methods consider temporal information, which is a crucial feature in SBR as it indicates timeliness or currency. Besides, the session graphs exhibit a hierarchical structure and are demonstrated to be suitable in hyperbolic geometry. But few papers design the models in hyperbolic spaces and this direction is still under exploration. In this paper, we propose Time-aware Hyperbolic Graph Attention Network (TA-HGAT) - a novel hyperbolic graph neural network framework to build a session-based recommendation model considering temporal information. More specifically, there are three components in TA-HGAT. First, a hyperbolic projection module transforms the item features into hyperbolic space. Second, the time-aware graph attention module models time intervals between items and the users' current interests. Third, an evolutionary loss at the end of the model provides an accurate prediction of the recommended item based on the given timestamp. TA-HGAT is built in a hyperbolic space to learn the hierarchical structure of session graphs. Experimental results show that the proposed TA-HGAT has the best performance compared to ten baseline models on two real-world datasets.
翻訳日:2023-01-11 17:47:06 公開日:2023-01-10
# min-max optimization made simple: 縮約写像による近点法近似

Min-Max Optimization Made Simple: Approximating the Proximal Point Method via Contraction Maps ( http://arxiv.org/abs/2301.03931v1 )

ライセンス: Link先を確認
Volkan Cevher, Georgios Piliouras, Ryann Sim, Stratis Skoulakis(参考訳) 本稿では,単純で直感的な解析を必要としながら,凸・凹ミンマックス問題に対して近似収束率を許容する一階法を提案する。 ネミロフスキーのセミナルな研究や、通常の形式ゲームにおけるピリオラスらの最近のアプローチと同様に、我々の研究は、近点法(PP)の更新規則が、縮約写像の反復を通して追加の勾配呼び出しをわずか$\mathcal{O}(\log 1/\epsilon)$で、精度$\epsilon$に近似できるという事実に基づいている。 次に, (pp) 法の解析と誤差伝播解析を組み合わせることで, 生成する一階法である \textit{clairvoyant extra gradient} が一般領域に対する近似時間平均収束と無拘束の場合のラストイテレート収束を許容することを示す。

In this paper we present a first-order method that admits near-optimal convergence rates for convex/concave min-max problems while requiring a simple and intuitive analysis. Similarly to the seminal work of Nemirovski and the recent approach of Piliouras et al. in normal form games, our work is based on the fact that the update rule of the Proximal Point method (PP) can be approximated up to accuracy $\epsilon$ with only $\mathcal{O}(\log 1/\epsilon)$ additional gradient-calls through the iterations of a contraction map. Then combining the analysis of (PP) method with an error-propagation analysis we establish that the resulting first order method, called \textit{Clairvoyant Extra Gradient}, admits near-optimal time-average convergence for general domains and last-iterate convergence in the unconstrained case.
翻訳日:2023-01-11 17:46:44 公開日:2023-01-10
# neurips 2021ワークショップ on machine learning for the developing world: global challenges の開催報告

Proceedings of the NeurIPS 2021 Workshop on Machine Learning for the Developing World: Global Challenges ( http://arxiv.org/abs/2301.04007v1 )

ライセンス: Link先を確認
Paula Rodriguez Diaz, Tejumade Afonja, Konstantin Klemmer, Aya Salama, Niveditha Kalavakonda, Oluwafemi Azeez, Simone Fobi(参考訳) 以下は,2021年12月14日,ニューラル情報処理システムに関する第35回会議(NeurIPS)の一環として開催されたML4D(Machine Learning for the developing World)の第5回ワークショップの手順である。

These are the proceedings of the 5th workshop on Machine Learning for the Developing World (ML4D), held as part of the Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS) on December 14th, 2021.
翻訳日:2023-01-11 17:40:15 公開日:2023-01-10
# alphafoldのロバスト性について:新型コロナのケーススタディ

On the Robustness of AlphaFold: A COVID-19 Case Study ( http://arxiv.org/abs/2301.04093v1 )

ライセンス: Link先を確認
Ismail Alkhouri, Sumit Jha, Andre Beckus, George Atia, Alvaro Velasquez, Rickard Ewetz, Arvind Ramanathan, Susmit Jha(参考訳) alphafoldのようなタンパク質折り畳みニューラルネットワーク(pfnn)は、他のアプローチと比較して驚くほど正確なタンパク質の構造を予測する。 しかし,このようなネットワークの頑健性は検討されていない。 これは、このような技術の幅広い社会的意味と、生物学的にタンパク質配列の摂動が一般的にタンパク質構造に劇的な変化をもたらすわけではないという事実を考えると、特に関係がある。 本稿では,アルファフォールドの精度は高いが,そのような頑健性は示さないことを示す。 これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。 予測した構造物のロバスト性を測定するために (i)根平均二乗偏差(RMSD)と (II)GDT(Global Distance Test)類似度尺度は、元のシーケンスの予測構造と、その逆摂動バージョンの構造との間のものである。 タンパク質配列を最小に摂動することで、タンパク質折り畳みニューラルネットワークがNP完全であることを証明した。 確立されたblosum62配列配列アライメントスコアリングマトリクスに基づいて、逆タンパク質配列を生成し、予測されたタンパク質構造と元の配列の構造との間のrmsdが非常に大きいことを示す。 (i)BLOSUM62距離の20ユニット、及び (ii)与えられたタンパク質配列中の5つの残基(数百から数千の残基のうち) 本実験では,欧州バイオインフォマティクス研究所,スイスバイオインフォマティクス研究所,米国タンパク質情報資源が管理するタンパク質データの中心的資源であるUniProt(UniProt)の111個のCOVID-19タンパク質について検討した。 これらの結果、gdtの類似度テストスコアは平均で約34%となり、アルファフォールドの性能が大幅に低下した。

Protein folding neural networks (PFNNs) such as AlphaFold predict remarkably accurate structures of proteins compared to other approaches. However, the robustness of such networks has heretofore not been explored. This is particularly relevant given the broad social implications of such technologies and the fact that biologically small perturbations in the protein sequence do not generally lead to drastic changes in the protein structure. In this paper, we demonstrate that AlphaFold does not exhibit such robustness despite its high accuracy. This raises the challenge of detecting and quantifying the extent to which these predicted protein structures can be trusted. To measure the robustness of the predicted structures, we utilize (i) the root-mean-square deviation (RMSD) and (ii) the Global Distance Test (GDT) similarity measure between the predicted structure of the original sequence and the structure of its adversarially perturbed version. We prove that the problem of minimally perturbing protein sequences to fool protein folding neural networks is NP-complete. Based on the well-established BLOSUM62 sequence alignment scoring matrix, we generate adversarial protein sequences and show that the RMSD between the predicted protein structure and the structure of the original sequence are very large when the adversarial changes are bounded by (i) 20 units in the BLOSUM62 distance, and (ii) five residues (out of hundreds or thousands of residues) in the given protein sequence. In our experimental evaluation, we consider 111 COVID-19 proteins in the Universal Protein resource (UniProt), a central resource for protein data managed by the European Bioinformatics Institute, Swiss Institute of Bioinformatics, and the US Protein Information Resource. These result in an overall GDT similarity test score average of around 34%, demonstrating a substantial drop in the performance of AlphaFold.
翻訳日:2023-01-11 17:39:50 公開日:2023-01-10
# 幾何学的にフラストレーションしたスピン-1ハイゼンベルクダイヤモンドクラスターの熱的絡み合い

Thermal entanglement of a geometrically frustrated spin-1 Heisenberg diamond cluster ( http://arxiv.org/abs/2301.03868v1 )

ライセンス: Link先を確認
Azadeh Ghannadan, Katarina Karlova and Jozef Strecka(参考訳) 幾何学的にフラストレーションされたスピン-1ハイゼンベルクダイヤモンドクラスターの熱エンタングルメントを, エンタングルメント負性度を計算し, 正確な対角化法の枠組みの中で検討した。 その結果, 四核ニッケル錯体[Ni4(CO3)2(aetpy)8](ClO4)4(aetpy = 2-aminoethyl-pyridine)の高温および磁場に対する二部構造熱絡の堅牢性の理論的予測が得られた。

Thermal entanglement of a geometrically frustrated spin-1 Heisenberg diamond cluster is examined within the framework of the exact diagonalization method by computing the measure of entanglement negativity. The calculated exact analytical results are applied in order to obtain theoretical prediction of the robustness of bipartite thermal entanglement of the tetranuclear nickel complex [Ni4(CO3)2(aetpy)8](ClO4)4 (aetpy = 2-aminoethyl-pyridine) against rising temperature and magnetic field.
翻訳日:2023-01-11 17:38:55 公開日:2023-01-10
# 純粋非ガウスエンタングルメントのメトロロジカル検出

Metrological detection of purely-non-Gaussian entanglement ( http://arxiv.org/abs/2301.03909v1 )

ライセンス: Link先を確認
David Barral, Mathieu Isoard, Giacomo Sorelli, Manuel Gessner, Nicolas Treps, Mattia Walschaers(参考訳) 絡み合いと非ゲージ性は、多くの量子光学プロトコルに不可欠な物理資源である。 非ガウス的絡み合いは量子計算の優位性には不可欠であり、多くの量子情報プロトコルにおいてガウス的よりも優れている。 非ガウス的絡み合いの特性は、一般に資源の観点から非常に要求されるため、重要な問題である。 本稿では,非ガウス的絡み合い状態の重要クラスにおける絡み合いを目撃するためのフィッシャー情報に基づく簡単なプロトコルを提案する。 我々は,本プロトコルが純粋に非ガウス的絡み合いの検出とホモダイン検出により実験的に実現可能であることを示す。

Entanglement and non-Gaussianity are physical resources essential for a large number of quantum-optics protocols. Non-Gaussian entanglement is indispensable for quantum-computing advantage and outperforms its Gaussian counterparts in a number of quantum-information protocols. The characterization of non-Gaussian entanglement is a critical matter as it is in general highly demanding in terms of resources. We propose a simple protocol based on the Fisher information for witnessing entanglement in an important class of non-Gaussian entangled states: photon-subtracted states. We demonstrate that our protocol is relevant for the detection of purely-non-Gaussian entanglement and that it is experimentally feasible through homodyne detection.
翻訳日:2023-01-11 17:38:47 公開日:2023-01-10
# 分散量子コンピューティングにおけるサービス分化と公平共有

Service Differentiation and Fair Sharing in Distributed Quantum Computing ( http://arxiv.org/abs/2301.03977v1 )

ライセンス: Link先を確認
Claudio Cicconetti and Marco Conti and Andrea Passarella(参考訳) 将来的には、量子コンピュータが普及し、量子リピータのネットワークによって、リモート量子ビットのエンドツーエンドの絡み合いが提供される。 その結果、分散量子コンピューティングを含むいくつかの新しいアプリケーションをアンロックし、複数の計算ノードにリソースをプールすることで、個々の量子コンピュータが到達できない問題に対処する。 本稿では,この新環境におけるサービス分化の問題について検討する。 次に、利用可能な量子ネットワークリソースの公平な共有を達成するために、どの計算ノードが各プールに参加するべきかを選択すべきかという問題を定義する。 分析はオープンソースシミュレータを通して行われ、その結果は完全かつ容易に入手できる。

In the future, quantum computers will become widespread and a network of quantum repeaters will provide them with end-to-end entanglement of remote quantum bits. As a result, a pervasive quantum computation infrastructure will emerge, which will unlock several novel applications, including distributed quantum computing, that is the pooling of resources on multiple computation nodes to address problem instances that are unattainable by any individual quantum computer. In this paper, we first investigate the issue of service differentiation in this new environment. Then, we define the problem of how to select which computation nodes should participate in each pool, so as to achieve a fair share of the quantum network resources available. The analysis is performed via an open source simulator and the results are fully and readily available.
翻訳日:2023-01-11 17:38:35 公開日:2023-01-10
# グレースケールリソグラフィーによるエアブリッジの低温製造と回路QED量子プロセッサにおけるナノワイヤトランスモンの収率向上

Lower-temperature fabrication of airbridges by grayscale lithography to increase yield of nanowire transmons in circuit QED quantum processors ( http://arxiv.org/abs/2301.04065v1 )

ライセンス: Link先を確認
T. Stavenga and L. DiCarlo(参考訳) 回路量子力学に基づく量子ハードウェアは、コプラナー導波路伝送路における不要な波動伝播のモードを抑制するためにエアブリッジを広範囲に利用している。 エアブリッジはまた、送電線の交差を可能にするインターコネクトを提供する。 従来のエアブリッジ製造は、金属化前に高温でレジストを還流させることで湾曲した形状を作り出す。 高温は、超伝導量子ビット、チューニング可能なカプラ、共振器のプレハブジョセフソン素子の結合エネルギーや収量に影響を及ぼす可能性がある。 我々は,リフローの代わりに灰色スケールリソグラフィを用いてピークエアブリッジ処理温度を200ドルから150ドルに削減し,al接触inasナノワイヤを用いたジョセフソン素子を用いたトランスモン量子ビットのかなりの収率増加を示した。

Quantum hardware based on circuit quantum electrodynamics makes extensive use of airbridges to suppress unwanted modes of wave propagation in coplanar-waveguide transmission lines. Airbridges also provide an interconnect enabling transmission lines to cross. Traditional airbridge fabrication produces a curved profile by reflowing resist at elevated temperature prior to metallization. The elevated temperature can affect the coupling energy and even yield of pre-fabricated Josephson elements of superconducting qubits, tuneable couplers and resonators. We employ grayscale lithography in place of reflow to reduce the peak airbridge processing temperature from $200$ to $150^\circ\mathrm{C}$, showing a substantial yield increase of transmon qubits with Josephson elements realized using Al-contacted InAs nanowires.
翻訳日:2023-01-11 17:38:22 公開日:2023-01-10
# 振動強い結合下での絡み合った分子集合におけるキャビティ触媒水素移動ダイナミクス

Cavity-Catalyzed Hydrogen Transfer Dynamics in an Entangled Molecular Ensemble under Vibrational Strong Coupling ( http://arxiv.org/abs/2301.04074v1 )

ライセンス: Link先を確認
Eric W. Fischer, Peter Saalfrank(参考訳) マイクロキャビティは分子振動と量子化されたキャビティモードとの強い結合によって分子アンサンブルの反応性に影響を与えることが示されている。 このようなシナリオの量子力学的処理では、単一の分子とスケール化された、効果的な分子-キャビティ相互作用や、単純化されたモデルハミルトニアンによるオルタナブルモデルが頻繁に用いられる。 本研究では,振動強結合(vsc)条件下で水素移動を行うチオアセチルアセトン(taa)分子のアンサンブルにおける空洞誘起量子力学を研究するため,ビブロ・ポーラニオン化学にポーリ・フィエルツ・ハミルトニアンのアンサンブル変種を適用し,基礎となる時間依存シュル・オディンガー方程式を数値的に解いた。 単一分子を単一キャビティモードに結合させることから、キャビティはエノールからエンチオールへの水素移動を実際に強制し、光-物質相互作用の強さによって移動速度が著しく増加することを示した。 この空洞の反応速度に対する正の効果は、これまでのいくつかのシステムと異なり、空洞の反応速度に対する再ターディング効果が発見された。 空洞の「触媒」は仮想光子の分子への移動による反応であると考えられている。 同じ概念は、1つのキャビティモードに最大$n=20$のtaa分子を結合したアンサンブルにも適用される。 後者は、フォン・ノイマン-エントロピーによって定量化されるアンサンブルの複雑な絡み合いダイナミクスに遡る。 アンサンブルサイズに対する力学の非自明な依存は、明らかにスケールした単一分子モデルを超えており、N$が増加するにつれて、マルチモード Rabi からシステムバス型状態への遷移として解釈される。

Microcavities have been shown to influence the reactivity of molecular ensembles by strong coupling of molecular vibrations to quantized cavity modes. In quantum mechanical treatments of such scenarios, frequently idealized models with single molecules and scaled, effective molecule-cavity interactions or alternatively ensemble models with simplified model Hamiltonians are used. In this work, we go beyond these models by applying an ensemble variant of the Pauli-Fierz Hamiltonian for vibro-polaritonic chemistry and numerically solve the underlying time-dependent Schr\"odinger equation to study the cavity-induced quantum dynamics in an ensemble of thioacetylacetone (TAA) molecules undergoing hydrogen transfer under vibrational strong coupling (VSC) conditions. Beginning with a single molecule coupled to a single cavity mode, we show that the cavity indeed enforces hydrogen transfer from an enol to an enethiol configuration with transfer rates significantly increasing with light-matter interaction strength. This positive effect of the cavity on reaction rates is different from several other systems studied so far, where a retarding effect of the cavity on rates was found. It is argued that the cavity ``catalyzes'' the reaction by transfer of virtual photons to the molecule. The same concept applies to ensembles with up to $N=20$ TAA molecules coupled to a single cavity mode, where an additional, significant, ensemble-induced collective isomerization rate enhancement is found. The latter is traced back to complex entanglement dynamics of the ensemble, which we quantify by means of von Neumann-entropies. A non-trivial dependence of the dynamics on ensemble size is found, clearly beyond scaled single-molecule models, which we interpret as transition from a multi-mode Rabi to a system-bath-type regime as $N$ increases.
翻訳日:2023-01-11 17:38:06 公開日:2023-01-10
# アンプリフィケーションと安定ランク法によるテンソルDenoising

Tensor Denoising via Amplification and Stable Rank Methods ( http://arxiv.org/abs/2301.03761v1 )

ライセンス: Link先を確認
Jonathan Gryak, Kayvan Najarian, Harm Derksen(参考訳) 多重線形配列の形のテンソルは、データサイエンスの応用においてユビキタスである。 ビデオ、ハイパースペクトル画像、離散化された物理システムを含む実世界のデータは自然にテンソルとして発生し、しばしば付随するノイズを伴う。 付加雑音モデルと基礎となるクリーンテンソルが低ランクであるという仮定の下では、低ランクテンソル近似によるデノージング効果にテンソル分解を利用する多くのデノージング法が作成されている。 しかし、そのような分解法はすべてテンソル階数、あるいはテンソルスペクトルや核ノルムといった関連する測度を推定する必要がある。 本研究では, 様々な大きさ, ランク, 騒音レベルの合成テンソルと, 生理的信号から導出される実世界のテンソルを識別するために, スペクトルおよび核テンソルノルムの良好な近似を与えるテンソル増幅の枠組みを適用する。 また,x$-rankとstable slice rankという,ランク推定の2つのバリエーションに基づく分類法も導入した。 実験結果から, テンソルによる増幅は, 高信号対雑音比(SNR)設定において同等の性能を示し, ノイズ(低SNR)設定では優れた性能を示す一方, 安定な$X$-rank法では生理的信号データに対して優れたノイズ除去性能が得られることがわかった。

Tensors in the form of multilinear arrays are ubiquitous in data science applications. Captured real-world data, including video, hyperspectral images, and discretized physical systems, naturally occur as tensors and often come with attendant noise. Under the additive noise model and with the assumption that the underlying clean tensor has low rank, many denoising methods have been created that utilize tensor decomposition to effect denoising through low rank tensor approximation. However, all such decomposition methods require estimating the tensor rank, or related measures such as the tensor spectral and nuclear norms, all of which are NP-hard problems. In this work we adapt the previously developed framework of tensor amplification, which provides good approximations of the spectral and nuclear tensor norms, to denoising synthetic tensors of various sizes, ranks, and noise levels, along with real-world tensors derived from physiological signals. We also introduce denoising methods based on two variations of rank estimates called stable $X$-rank and stable slice rank. The experimental results show that in the low rank context, tensor-based amplification provides comparable denoising performance in high signal-to-noise ratio (SNR) settings and superior performance in noisy (i.e., low SNR) settings, while the stable $X$-rank method achieves superior denoising performance on the physiological signal data.
翻訳日:2023-01-11 17:30:38 公開日:2023-01-10
# 大規模言語モデルを用いたクラウドインシデントに対する根管拡大と緩和手順

Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models ( http://arxiv.org/abs/2301.03797v1 )

ライセンス: Link先を確認
Toufique Ahmed, Supriyo Ghosh, Chetan Bansal, Thomas Zimmermann, Xuchao Zhang, Saravan Rajmohan(参考訳) クラウドサービスのインシデント管理は、いくつかのステップを含む複雑なプロセスであり、サービスの健全性と開発者の生産性に大きな影響を与えます。 オンコールエンジニアは、生産インシデントの根本原因と緩和のために、かなりの量のドメイン知識と手作業を必要とします。 人工知能の最近の進歩により GPT-3.x (GPT-3.0 と GPT-3.5 の両方) のような最先端の大規模言語モデルは、質問応答からテキスト要約まで様々な問題を解決するために使われている。 本研究では,これらのモデルの有効性を評価するため,技術者が原因を突き止め,生産インシデントを緩和する上で,最初の大規模研究を行う。 われわれはMicrosoftで4万件以上のインシデントについて厳格な調査を行い、セマンティックメトリクスと語彙メトリクスを使用したゼロショット、微調整、マルチタスク設定でいくつかの大きな言語モデルを比較した。 最後に、実際のインシデント所有者による人間評価では、クラウドインシデントを解決するために人工知能を使用する効果と将来性が示されています。

Incident management for cloud services is a complex process involving several steps and has a huge impact on both service health and developer productivity. On-call engineers require significant amount of domain knowledge and manual effort for root causing and mitigation of production incidents. Recent advances in artificial intelligence has resulted in state-of-the-art large language models like GPT-3.x (both GPT-3.0 and GPT-3.5), which have been used to solve a variety of problems ranging from question answering to text summarization. In this work, we do the first large-scale study to evaluate the effectiveness of these models for helping engineers root cause and mitigate production incidents. We do a rigorous study at Microsoft, on more than 40,000 incidents and compare several large language models in zero-shot, fine-tuned and multi-task setting using semantic and lexical metrics. Lastly, our human evaluation with actual incident owners show the efficacy and future potential of using artificial intelligence for resolving cloud incidents.
翻訳日:2023-01-11 17:30:12 公開日:2023-01-10
# ヒント支援強化学習:電波天文学への応用

Hint assisted reinforcement learning: an application in radio astronomy ( http://arxiv.org/abs/2301.03933v1 )

ライセンス: Link先を確認
Sarod Yatawatta(参考訳) モデルに基づく強化学習は、モデルフリー手法よりもサンプル効率が高いことが証明されている。 一方,モデルベース強化学習におけるダイナミクスモデルの構築は,複雑さを増している。 電波天文学におけるデータ処理タスクは、強化学習自身によって解決されている元の問題は、モデルの作成である。 幸運なことに、ヒューリスティックスや信号処理に基づく多くの手法が同じタスクを実行するために存在し、それらを活用して最良のアクションを提案し、言い換えれば 'hint' を提供することができます。 モデル構築の複雑さを緩和する強化学習プロセスを支援するために,環境が生成した'hints' を用いることを提案する。 我々は,soft actor criticアルゴリズムをヒントを使用するように修正し,不等式制約のある乗算アルゴリズムの交互方向法を用いてエージェントを訓練する。 いくつかの環境において, モデルフリー手法と比較して, ヒントを用いることで, サンプル効率が向上することを示す。

Model based reinforcement learning has proven to be more sample efficient than model free methods. On the other hand, the construction of a dynamics model in model based reinforcement learning has increased complexity. Data processing tasks in radio astronomy are such situations where the original problem which is being solved by reinforcement learning itself is the creation of a model. Fortunately, many methods based on heuristics or signal processing do exist to perform the same tasks and we can leverage them to propose the best action to take, or in other words, to provide a `hint'. We propose to use `hints' generated by the environment as an aid to the reinforcement learning process mitigating the complexity of model construction. We modify the soft actor critic algorithm to use hints and use the alternating direction method of multipliers algorithm with inequality constraints to train the agent. Results in several environments show that we get the increased sample efficiency by using hints as compared to model free methods.
翻訳日:2023-01-11 17:29:53 公開日:2023-01-10
# 量子コンピュータにおける薬物設計

Drug design on quantum computers ( http://arxiv.org/abs/2301.04114v1 )

ライセンス: Link先を確認
Raffaele Santagati, Alan Aspuru-Guzik, Ryan Babbush, Matthias Degroote, Leticia Gonzalez, Elica Kyoseva, Nikolaj Moll, Markus Oppel, Robert M. Parrish, Nicholas C. Rubin, Michael Streif, Christofer S. Tautermann, Horst Weiss, Nathan Wiebe, and Clemens Utschig-Utschig(参考訳) 量子コンピュータは、高い精度で量子化学計算を必要とする産業応用に影響を与えることを約束する。 この視点は、量子コンピュータを薬物設計に適用する挑戦と機会を探求し、産業研究を変革し、この目標を達成するために必要なものについて詳細に論じる。

Quantum computers promise to impact industrial applications, for which quantum chemical calculations are required, by virtue of their high accuracy. This perspective explores the challenges and opportunities of applying quantum computers to drug design, discusses where they could transform industrial research and elaborates on what is needed to reach this goal.
翻訳日:2023-01-11 17:22:27 公開日:2023-01-10
# AIアライメント問題のためのマルチレベルフレームワーク

A Multi-Level Framework for the AI Alignment Problem ( http://arxiv.org/abs/2301.03740v1 )

ライセンス: Link先を確認
Betty Li Hou, Brian Patrick Green(参考訳) AIアライメントは、人間の価値と互換性のある方法でAIシステムをエンコードする方法を検討します。 この問題の規範的な側面は、倫理的価値観や原則をAIでエンコードすべきかどうかを問うものである。 この目的のために, 個人, 組織, 国家, グローバルの4つのレベルで質問を検討する枠組みを提案する。 我々は、AIアライメントが、それぞれのレベルにおける価値アライメントの問題でどのように構成されているかを説明することを目的としている。 我々は、各レベルの重要な疑問と考察を概説し、AIコンテンツモデレーションのトピックへのこのフレームワークの適用を実証する。

AI alignment considers how we can encode AI systems in a way that is compatible with human values. The normative side of this problem asks what moral values or principles, if any, we should encode in AI. To this end, we present a framework to consider the question at four levels: Individual, Organizational, National, and Global. We aim to illustrate how AI alignment is made up of value alignment problems at each of these levels, where values at each level affect the others and effects can flow in either direction. We outline key questions and considerations of each level and demonstrate an application of this framework to the topic of AI content moderation.
翻訳日:2023-01-11 17:22:22 公開日:2023-01-10
# 幾何学的解釈によるフェアレコメンデーションと行列分解の解析

Fair Recommendation by Geometric Interpretation and Analysis of Matrix Factorization ( http://arxiv.org/abs/2301.03791v1 )

ライセンス: Link先を確認
Hao Wang(参考訳) 行列分解に基づくレコメンデータシステムは、事実上次元減少技術を保存する角度を保存するものである。 アイテムの頻度は電力-法則分布に従うため、ユーザー特徴ベクトルとアイテム特徴ベクトルの原次元のほとんどのベクトルは同じ超平面上にある。 しかし, 元の次元の埋め込みを解析的に再構築することは極めて困難であり, 次元減少問題を保存する角度を次元減少問題を保存する距離に再構成する。 そこで本研究では,レコメンダシステムの入力データの幾何学的形状を,興味深い特性を持つ同心円上に分散し,パラマトと呼ばれるパラボロイドベースの行列分解をデザインし,レコメンデーション問題を解いた。 実験では,アルゴリズムを他の8つのアルゴリズムと比較し,ZeroMatやDotMat Hybridといった現代の推奨システムと比較して,新しい手法が最も公平であることを示す。

Matrix factorization-based recommender system is in effect an angle preserving dimensionality reduction technique. Since the frequency of items follows power-law distribution, most vectors in the original dimension of user feature vectors and item feature vectors lie on the same hyperplane. However, it is very difficult to reconstruct the embeddings in the original dimension analytically, so we reformulate the original angle preserving dimensionality reduction problem into a distance preserving dimensionality reduction problem. We show that the geometric shape of input data of recommender system in its original higher dimension are distributed on co-centric circles with interesting properties, and design a paraboloid-based matrix factorization named ParaMat to solve the recommendation problem. In the experiment section, we compare our algorithm with 8 other algorithms and prove our new method is the most fair algorithm compared with modern day recommender systems such as ZeroMat and DotMat Hybrid.
翻訳日:2023-01-11 17:22:10 公開日:2023-01-10
# ML対応システムにおける複雑性の理解とテストへの影響

Understanding the Complexity and Its Impact on Testing in ML-Enabled Systems ( http://arxiv.org/abs/2301.03837v1 )

ライセンス: Link先を確認
Junming Cao, Bihuan Chen, Longjie Hu, Jie Gao, Kaifeng Huang, Xin Peng(参考訳) 機械学習(ML)が有効になったシステムは、MLの最近のブレークスルーと共に出現している。 モデル中心の視点は、mlモデルの分析のみに焦点を当てる文献によって広く受け入れられている。 しかしながら、MLコンポーネントがシステムとどのように機能し、それがML対応システムのソフトウェアエンジニアリングにどのように影響するかを調べるシステムビューは、ごくわずかの作業のみである。 本稿では,このシステム・ビューを採用し,世界中の企業で広く採用されている産業対話システムであるrasa 3.0について事例研究を行う。 私たちの目標は、このような大規模なml対応システムの複雑性を特徴付け、テストにおける複雑さの影響を理解することです。 本研究は,ML対応システムにおけるソフトウェア工学の実践的意義を明らかにする。

Machine learning (ML) enabled systems are emerging with recent breakthroughs in ML. A model-centric view is widely taken by the literature to focus only on the analysis of ML models. However, only a small body of work takes a system view that looks at how ML components work with the system and how they affect software engineering for MLenabled systems. In this paper, we adopt this system view, and conduct a case study on Rasa 3.0, an industrial dialogue system that has been widely adopted by various companies around the world. Our goal is to characterize the complexity of such a largescale ML-enabled system and to understand the impact of the complexity on testing. Our study reveals practical implications for software engineering for ML-enabled systems.
翻訳日:2023-01-11 17:21:52 公開日:2023-01-10
# 最小限の労力で学習する:細胞と核のセグメンテーションにおけるシリコラベリングの活用

Learning with minimal effort: leveraging in silico labeling for cell and nucleus segmentation ( http://arxiv.org/abs/2301.03914v1 )

ライセンス: Link先を確認
Thomas Bonte, Maxence Philbert, Emeline Coleno, Edouard Bertrand, Arthur Imbert and Thomas Walter(参考訳) ディープラーニングは、前例のない品質で核または細胞分割を実行する強力な方法を提供します。 しかし、これらの手法は通常、手動で注釈付けされた画像の大規模なトレーニングセットを必要とする。 本稿では,分節タスクの事前学習手法としてISL(In Silico Labeling)を提案する。 その戦略は、蛍光標識画像(dapiやcellmaskなど)に沿ってラベルのない顕微鏡画像(明るい磁場や位相コントラストなど)を取得することである。 次に、ラベルのない顕微鏡画像から蛍光標識画像を予測するモデルを訓練する。 いくつかのトレーニングセットサイズでセグメンテーション性能を比較することで、このようなスキームは必要なアノテーションの数を大幅に削減できることを示す。

Deep learning provides us with powerful methods to perform nucleus or cell segmentation with unprecedented quality. However, these methods usually require large training sets of manually annotated images, which are tedious and expensive to generate. In this paper we propose to use In Silico Labeling (ISL) as a pretraining scheme for segmentation tasks. The strategy is to acquire label-free microscopy images (such as bright-field or phase contrast) along fluorescently labeled images (such as DAPI or CellMask). We then train a model to predict the fluorescently labeled images from the label-free microscopy images. By comparing segmentation performance across several training set sizes, we show that such a scheme can dramatically reduce the number of required annotations.
翻訳日:2023-01-11 17:21:26 公開日:2023-01-10
# 胸部X線像は結核性病変の細粒化に影響を及ぼすか?

Does image resolution impact chest X-ray based fine-grained Tuberculosis-consistent lesion segmentation? ( http://arxiv.org/abs/2301.04032v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Feng Yang, Ghada Zamzmi, Zhiyun Xue, Sameer Antani(参考訳) 深層学習(DL)モデルは、医学画像、特に胸部X線(CXR)において、解剖学的および疾患領域の関心領域(ROI)を区分する最先端のモデルになりつつある。 しかし、これらのモデルは計算資源の不足を理由に画像解像度の低下を訓練していると伝えられている。 CXRの結核性病変の分節化を考慮し、研究中の課題に対してこれらのモデルを訓練するための最適な画像解像度を特定することを検討する文献は少ない。 本研究では,その方法を用いた。 (i)深センTB CXRデータセットを用いて、肺ROIのトリミングとアスペクト比の調整を伴わない様々な画像/マスク解像度を用いて、インセプションV3ベースのUNetモデルをトレーニングし、性能向上を調べた。 (II) TB含有病変分割性能を向上させるため, 広範囲な実験的評価により最適な画像解像度を同定した。 我々は,モデルスナップショットの保存,テスト時間拡張(TTA)手法の最適化,最適セグメンテーションしきい値の選択などによる組合せ的アプローチを提案し,最適な解像度で性能を向上させる。 強調するのは (i)高解像度は必ずしも必要ではない。 (ii)研究対象の課題に対して優れた性能を達成するためには、最適な画像解像度を特定することが不可欠である。

Deep learning (DL) models are becoming state-of-the-art in segmenting anatomical and disease regions of interest (ROIs) in medical images, particularly chest X-rays (CXRs). However, these models are reportedly trained on reduced image resolutions citing reasons for the lack of computational resources. Literature is sparse considering identifying the optimal image resolution to train these models for the task under study, particularly considering segmentation of Tuberculosis (TB)-consistent lesions in CXRs. In this study, we used the (i) Shenzhen TB CXR dataset, investigated performance gains achieved through training an Inception-V3-based UNet model using various image/mask resolutions with/without lung ROI cropping and aspect ratio adjustments, and (ii) identified the optimal image resolution through extensive empirical evaluations to improve TB-consistent lesion segmentation performance. We proposed a combinatorial approach consisting of storing model snapshots, optimizing test-time augmentation (TTA) methods, and selecting the optimal segmentation threshold to further improve performance at the optimal resolution. We emphasize that (i) higher image resolutions are not always necessary and (ii) identifying the optimal image resolution is indispensable to achieve superior performance for the task under study.
翻訳日:2023-01-11 17:21:12 公開日:2023-01-10
# データサイエンティストが学術文献をレビューする方法

How Data Scientists Review the Scholarly Literature ( http://arxiv.org/abs/2301.03774v1 )

ライセンス: Link先を確認
Sheshera Mysore, Mahmood Jasim, Haoru Song, Sarah Akbar, Andre Kenneth Chase Randall, Narges Mahyar(参考訳) 研究文献に追いつくことは、科学者のワークフローにおいて重要な役割を担います – 分野を理解し、焦点を絞った問題を定式化し、彼らが貢献するソリューションを開発し、それが規律の性質を形作るのです。 本稿では,データ科学者の文献レビューの実践について検討する。 データサイエンスは、論文が指数関数的に増加し、ますます様々な分野に応用されていく分野である。 最近の取り組みでは、データサイエンティストが大量の研究に対処し、研究のフロンティアを明らかにするためのaiツールを開発するための協力的な取り組みを支援する、いくつかのツールの開発が見られる。 これらの傾向は、データ科学者が直面する情報過負荷を示すものだが、これらの科学者が学際的な分野において直面する特定の実践や課題について、学術的な規範が進化する以前の研究は行われていない。 本稿では,このギャップを,産業および学術データサイエンティストの半構造化インタビューと思考情報プロトコル(N=20)を通じて埋める。 その結果,(1) 個人は学際的なバブルを超えて論文の発見・理解に挑戦し,(2) 詳細や数学的内容の欠如に直面した論文の理解に苦慮し,(3) コード,ブログ,講演における知識コンテキストを活用することで,論文の難しさに対処し,(4) オンラインで,かつ,直接,同僚に頼りにしている,という新たな知見が明らかになった。 さらに,データ科学者が急成長する研究文献に対処できるであろう今後の方向性について概説する。

Keeping up with the research literature plays an important role in the workflow of scientists - allowing them to understand a field, formulate the problems they focus on, and develop the solutions that they contribute, which in turn shape the nature of the discipline. In this paper, we examine the literature review practices of data scientists. Data science represents a field seeing an exponential rise in papers, and increasingly drawing on and being applied in numerous diverse disciplines. Recent efforts have seen the development of several tools intended to help data scientists cope with a deluge of research and coordinated efforts to develop AI tools intended to uncover the research frontier. Despite these trends indicative of the information overload faced by data scientists, no prior work has examined the specific practices and challenges faced by these scientists in an interdisciplinary field with evolving scholarly norms. In this paper, we close this gap through a set of semi-structured interviews and think-aloud protocols of industry and academic data scientists (N = 20). Our results while corroborating other knowledge workers' practices uncover several novel findings: individuals (1) are challenged in seeking and sensemaking of papers beyond their disciplinary bubbles, (2) struggle to understand papers in the face of missing details and mathematical content, (3) grapple with the deluge by leveraging the knowledge context in code, blogs, and talks, and (4) lean on their peers online and in-person. Furthermore, we outline future directions likely to help data scientists cope with the burgeoning research literature.
翻訳日:2023-01-11 17:20:44 公開日:2023-01-10
# 繰り返しネスト予測のための最適ランダム化マルチレベルモンテカルロ

Optimal randomized multilevel Monte Carlo for repeatedly nested expectations ( http://arxiv.org/abs/2301.04095v1 )

ライセンス: Link先を確認
Yasa Syed, Guanyang Wang(参考訳) 繰り返しネストされた予測の推定は、多くの現実世界システムで発生する難しい問題である。 しかし,従来の手法ではネスト数が大きくなると計算コストが高くなるのが一般的である。 ネスティングの総数に対して、非負整数 $d$ を固定する。 標準モンテカルロ法は通常、少なくとも$\mathcal{o}(\varepsilon^{-(2+d)})$と$\mathcal{o}(\varepsilon^{-2(1+d)})$で、最大$\varepsilon$-errorの推定値を得る。 マルチレベルモンテカルロのようなより高度な手法は現在、$d = 1$ でのみ存在する。 本稿では, "任意の深さに対する再帰的推定子" を意味する "\mathsf{read}$" という新しいモンテカルロ推定器を提案する。 私たちの推定器は、適切な仮定の下で固定された$d$ に対して $\mathcal{o}(\varepsilon^{-2})$ の最適計算コストと、より一般的な仮定の下での任意の$0 < \delta < \frac12$ に対する$\mathcal{o}(\varepsilon^{-2(1 + \delta)}) のほぼ最適計算コストを持っています。 私たちの推定器もバイアスがなく、並列化が容易です。 我々の構築における重要な要素は、問題の再帰的構造とランダム化マルチレベルモンテカルロ法の再帰的利用の観察である。

The estimation of repeatedly nested expectations is a challenging problem that arises in many real-world systems. However, existing methods generally suffer from high computational costs when the number of nestings becomes large. Fix any non-negative integer $D$ for the total number of nestings. Standard Monte Carlo methods typically cost at least $\mathcal{O}(\varepsilon^{-(2+D)})$ and sometimes $\mathcal{O}(\varepsilon^{-2(1+D)})$ to obtain an estimator up to $\varepsilon$-error. More advanced methods, such as multilevel Monte Carlo, currently only exist for $D = 1$. In this paper, we propose a novel Monte Carlo estimator called $\mathsf{READ}$, which stands for "Recursive Estimator for Arbitrary Depth.'' Our estimator has an optimal computational cost of $\mathcal{O}(\varepsilon^{-2})$ for every fixed $D$ under suitable assumptions, and a nearly optimal computational cost of $\mathcal{O}(\varepsilon^{-2(1 + \delta)})$ for any $0 < \delta < \frac12$ under much more general assumptions. Our estimator is also unbiased, which makes it easy to parallelize. The key ingredients in our construction are an observation of the problem's recursive structure and the recursive use of the randomized multilevel Monte Carlo method.
翻訳日:2023-01-11 17:20:13 公開日:2023-01-10
# 量子アニーラを用いたノイズフィルタの設計最適化

Design Optimization of Noise Filter using Quantum Annealer ( http://arxiv.org/abs/2301.03733v1 )

ライセンス: Link先を確認
Akihisa Okada, Hiroaki Yoshida, Kiyosumi Kidono, Tadayoshi Matsumori, Takanori Takeno, Tadashi Kadowaki(参考訳) ブラックボックス最適化における量子アニールの使用により、少数の試行錯誤を伴う製品の望ましい特性を得ることができた。 しかし,工学設計問題への本手法の適用は依然として限られている。 本稿では,電子回路の設計に量子アニールを用いたブラックボックス最適化の適用性を実証し,例えば$\pi$型ノイズフィルタに着目した。 そこで我々は,量子アニーリングを用いて,部品を接続する電気部品と導体経路の最適な位置を探索し,その学習過程が複数の試行で適切に機能し,高性能な設計を効率的に探索する枠組みを開発した。 その結果,電気回路の設計問題に対する量子アニールの適用可能性を示した。

The use of quantum annealers in black-box optimization to obtain the desired properties of a product with a small number of trials has attracted attention. However, the application of this technique to engineering design problems is still limited. Here, we demonstrate the applicability of black-box optimization with a quantum annealer to the design of electric circuit systems, focusing on $\pi$-type noise filters as an example. We develop a framework that uses quantum annealing to find the optimal location of electrical components and conductor paths connecting the components, and confirm that the learning process appropriately works over a number of trials to efficiently search for a design with high performance. The results show the potential applicability of quantum annealing to design problems of electric circuit systems.
翻訳日:2023-01-11 17:13:19 公開日:2023-01-10
# 量子化学のための真のニューラルネットワーク状態

A real neural network state for quantum chemistry ( http://arxiv.org/abs/2301.03755v1 )

ライセンス: Link先を確認
Yangjun Wu, Xiansong Xu, Dario Poletti, Yi Fan, Chu Guo, Honghui Shang(参考訳) 制限ボルツマンマシン(RBM)は多電子Schr$\ddot{\text{o}}$dinger方程式を解くのに成功している。 本研究では, RBM を応用した単層完全連結ニューラルネットワークを提案し, 量子化学問題の研究に応用する。 私たちの貢献は2つあります。 1) ニューラルネットワークは実際の電子波動関数を表すためにのみ実数を用いるが, 様々な原型分子に対して, RBMに匹敵する精度が得られる。 2)Hartree-Fock参照状態の知識は,変動モンテカルロアルゴリズムの収束を体系的に加速し,最終エネルギーの精度を高めるために利用できることを示す。

The restricted Boltzmann machine (RBM) has been successfully applied to solve the many-electron Schr$\ddot{\text{o}}$dinger equation. In this work we propose a single-layer fully connected neural network adapted from RBM and apply it to study ab initio quantum chemistry problems. Our contribution is two-fold: 1) our neural network only uses real numbers to represent the real electronic wave function, while we obtain comparable precision to RBM for various prototypical molecules; 2) we show that the knowledge of the Hartree-Fock reference state can be used to systematically accelerate the convergence of the variational Monte Carlo algorithm as well as to increase the precision of the final energy.
翻訳日:2023-01-11 17:13:06 公開日:2023-01-10
# invariant-based inverse engineering による効率的かつロバストなカイラル識別

Efficient and robust chiral discrimination by invariant-based inverse engineering ( http://arxiv.org/abs/2301.03778v1 )

ライセンス: Link先を確認
Hang Xu, Xue-Ke Song, Dong Wang, Liu Ye(参考訳) ルイス=リースフェルト不変量を用いたキラル分子の100\%の識別を実現するための正確かつ便利な方法を提案する。 手動分解のパルススキームを逆向きに設計することで、この目標を達成するために3レベルハミルトンのパラメータを得る。 同じ初期状態の場合、その個体群は左利き分子の1つのエネルギーレベルに完全に移行し、右利き分子の別のエネルギーレベルに移すことができる。 さらに,本手法はエラー発生時にさらなる最適化が可能であり,逆ダイアバティックやオリジナルの不変値に基づく近距離スキームよりも最適手法の方が頑健であることを示す。 これは分子のハンドネスを識別するための効果的で正確で堅牢な方法である。

We propose an accurate and convenient method to achieve 100\% discrimination of chiral molecules with Lewis-Riesenfeld invariant. By reversely designing the pulse scheme of handed resolution, we obtain the parameters of the three-level Hamiltonians to achieve this goal. For the same initial state, we can completely transfer its population to one energy level for left-handed molecules, while transfer it to another energy level for right-handed molecules. Moreover, this method can be further optimized when errors exist, and it shows that the optimal method are more robust against these errors than the counterdiabatic and original invariant-based shortcut schemes. This provides an effective, accurate, and robust method to distinguish the handedness of molecules.
翻訳日:2023-01-11 17:12:53 公開日:2023-01-10
# 直列配列におけるジョセフソン接合の同期

Synchronization of Josephson junction in series array ( http://arxiv.org/abs/2301.03787v1 )

ライセンス: Link先を確認
Abhijit Bhattacharyya(参考訳) ネットワークに結合したマルチキュービット量子プロセッサは、最先端の量子コンピューティングプラットフォームを提供する。 しかし、各量子ビットは同じプロセスで作られるにもかかわらず、固有固有周波数を持つ。 誤りの検出と訂正に加えて量子ゲート操作を継続するには、同じ周波数で量子ビットを同期する必要がある。 本研究では,統計平均場法と非線形力学のリンクである倉本モデルを用いて,システム内の小ノイズを同期する。 このノイズは、外部に応用されたノイズ関数や、キュービットの周波数差のノイズである。 倉本モデルは、結合振動子を調整し、不整合状態から同期状態へ発展させる振動子間の結合強度を調整する。

Multi-qubit quantum processors coupled to networking provides the state-of-the-art quantum computing platform. However, each qubit has unique eigenfrequency even though fabricated in the same process. To continue quantum gate operations besides the detection and correction of errors it is required that the qubits must be synchronized in the same frequency. This study uses Kuramoto model which is a link between statistical mean-field technique and non-linear dynamics to synchronize the qubits applying small noise in the system. This noise could be any externally applied noise function or just noise from the difference of frequencies of qubits. The Kuramoto model tunes the coupled oscillators adjusting the coupling strength between the oscillators to evolve from the state of incoherence to the synchronized state.
翻訳日:2023-01-11 17:12:38 公開日:2023-01-10
# スピンの平均値による量子コンピュータ上の変分量子状態絡み合いの評価

Evaluation of variational quantum states entanglement on a quantum computer by the mean value of spin ( http://arxiv.org/abs/2301.03885v1 )

ライセンス: Link先を確認
Kh. P. Gnatenko(参考訳) 変分量子状態の絡み合いの幾何学的測度は、スピンの平均値との関係に基づいて研究されている。 回転ゲートと2量子制御相ゲートによって形成される層を有する変分回路で作成されたn量子状態について検討する。 変分回路は、量子生成逆数ネットワーク状態の生成に使用される回路の一般化である。 変分量子状態における量子ビットと他の量子ビットの絡み合いは、制御された位相ゲートとそのパラメータによって絡み合う量子ビットと量子ビットに作用する回転ゲートの角度によって決定される。 1層の変動回路の場合、状態は2つの量子ビットゲートに対応する頂点とエッジを表す頂点を持つグラフに関連付けられる。 量子グラフ状態における量子ビットの他の量子ビットとの絡み合いの幾何学的測度は、それをグラフで表す頂点の性質、すなわち、頂点次数に依存する。 変分量子状態のパラメータへの絡み合いの幾何学的尺度の依存は、IBMの量子コンピュータ上で量子化される。

The geometric measure of entanglement of variational quantum states is studied on the basis of its relation with the mean value of spin. We examine n-qubit quantum states prepared by a variational circuit with a layer formed by the rotational gates and two-qubit controlled phase gates. The variational circuit is a generalization of that used for preparing quantum Generative Adversarial Network states. The entanglement of a qubit with other qubits in the variational quantum states is determined by the angles of rotational gates that act on the qubit and qubits entangled with it by controlled phase gates and also their parameters. In the case of one layer variational circuit, the states can be associated with graphs with vertices representing qubits and edges corresponding to two-qubit gates. The geometric measure of entanglement of a qubit with other qubits in the quantum graph state depends on the properties of the vertex that represents it in the graph, namely it depends on the vertex degree. The dependence of the geometric measure of entanglement of variational quantum states on their parameters is quantified on IBM's quantum computer.
翻訳日:2023-01-11 17:12:28 公開日:2023-01-10
# 窒素空洞中心におけるスピン量子ビット制御のための可変帯域、高効率マイクロ波共振器

Variable bandwidth, high efficiency microwave resonator for control of spin-qubits in nitrogen-vacancy centers ( http://arxiv.org/abs/2301.03911v1 )

ライセンス: Link先を確認
Anton Savitsky, Jingfu Zhang, Dieter Suter(参考訳) ダイヤモンド中の窒素空洞(NV)センターは、センシングと量子情報のための魅力的なツールである。 このポテンシャルを実現するには、マイクロ波(mw)磁場によるスピン自由度を制御する効果的なツールが必要である。 本研究では,ダイヤモンド中の単一窒素空孔(NV)中心におけるマイクロ波-光二重共鳴実験に最適化された平面マイクロ波共振器を提案する。 幅広のマイクロストリップラインで構成されており、2つの50$\Omega$マイクロストリップフィードラインに対称に接続されている。 共振器の中心では、$\Omega$型のループが電流とmw磁場に焦点を当てている。 体積0.07mm$^2\times$0.1mmの比較的均一な磁場を生成する。 それぞれ1000MHzと400MHzの帯域を持つ伝送モードと反射モードの両方で2.9GHzで動作する。 高出力から電磁場への変換効率は、伝送と反射でそれぞれ約200mWと50mWのマイクロ波パワーしか持たない50 nsの$\pi$-pulssを生成することができる。 伝送モードはまた、効率的な高周波励起の機能を提供する。 共振周波数は共振器の長さを調整することで1.3GHzから6GHzの間で調整できる。 これは、より高い外部磁場と異なる種類の光学活性スピン中心でのnv中心の実験に有用である。

Nitrogen-Vacancy (NV) centers in diamond are attractive tools for sensing and quantum information. Realization of this potential requires effective tools for controlling the spin degree of freedom by microwave (mw) magnetic fields. In this work we present a planar microwave resonator optimized for microwave-optical double resonance experiments on single nitrogen-vacancy (NV) centers in diamond. It consists of a piece of wide microstrip line which is symmetrically connected to two 50 $\Omega$ microstrip feed lines. In the center of the resonator, an $\Omega$-shaped loop focuses the current and the mw magnetic field. It generates a relatively homogeneous magnetic field over a volume of 0.07mm$^2\times$0.1mm. It can be operated at 2.9 GHz in both transmission and reflection modes with bandwidths of 1000 MHz and 400 MHz, respectively. The high power-to-magnetic field conversion efficiency allows to produce $\pi$-pulses with a duration of 50 ns with only about 200 mW and 50 mW microwave power in transmission and reflection, respectively. The transmission mode also offers capability for efficient radio frequency excitation. The resonance frequency can be tuned between 1.3 GHz and 6 GHz by adjusting the length of the resonator. This will be useful for experiments on NV-centers at higher external magnetic fields and on different types of optically active spin centers.
翻訳日:2023-01-11 17:12:12 公開日:2023-01-10
# 電界センシング用ダイヤモンド中の窒素空洞アンサンブルからのodmrスペクトルのシミュレーション

Simulation of ODMR Spectra from Nitrogen-Vacancy Ensembles in Diamond for Electric Field Sensing ( http://arxiv.org/abs/2301.04106v1 )

ライセンス: Link先を確認
Yuchun Zhu, Elena Losero, Christophe Galland and Valentin Goblot(参考訳) ダイヤモンド中の固体スピン、特に負電荷の窒素空孔中心(NV)は、量子センシングの分野において主要な候補である。 単一NVのアドレス化はナノスケールの空間分解能を提供するが、多くの実装では信号の大きさと感度を高めるために大きなアンサンブルを使用することで恩恵を受ける。 しかし、アンサンブルによるセンシングは、ダイヤモンド結晶格子内のスピン量子化軸のランダムな配向を考えると、独自の課題をもたらす。 本稿では,NVアンサンブルの電子スピン状態および核スピン状態に対する任意の電場および磁場の影響をモデル化し,他の色中心にも拡張可能なオープンソースシミュレーションツールを提案する。 具体的には、符号は遷移強度を計算し、ショットノイズ制限光検出磁気共鳴下で感度を予測する。 バイオセンシングや電子工学への応用が期待できるNV中心の新興機能である電場センシングにおけるコードの利用について説明するとともに,異なるNV配向と外部電気・マイクロ波電場との相互作用に起因する微妙な特徴を光にもたらす。 さらに,ハミルトニアン項の無視項に基づく通常の議論が準最適結果を与える状況において,コードを用いて感度を最適化できることを示す。 最後に, 精密なバイアス磁場アライメントを必要とせず, 完全なベクトル電気計測が可能となり, 実験の複雑さを低減し, 測定手順を高速化できる新しいセンシング方式を提案する。

Solid state spins in diamond, in particular negatively charged nitrogen-vacancy centers (NV), are leading contenders in the field of quantum sensing. While addressing of single NVs offers nanoscale spatial resolution, many implementations benefit from using large ensembles to increase signal magnitude and therefore sensitivity. However, sensing with ensembles brings its own challenges given the random orientation of the spin quantization axis within the diamond crystal lattice. Here, we present an open source simulation tool that models the influence of arbitrary electric and magnetic fields on the electronic and nuclear spin states of NV ensembles, and can be extended to other color centers. Specifically, the code computes the transition strengths and predicts the sensitivity under shot-noise-limited optically-detected magnetic resonance. We illustrate the use of the code in the context of electric field sensing, a promising emerging functionality of NV centers with applications in biosensing and electronics, and bring several subtle features to light that are due to the interplay between different NV orientations and the external electric and microwave fields. Moreover, we show that our code can be used to optimize sensitivity in situations where usual arguments based on neglecting terms in the full Hamiltonian would give sub-optimal results. Finally, we propose a novel sensing scheme which allows to perform full vector electrometry without the need for precise bias magnetic field alignment, thus reducing the experimental complexity and speeding up the measurement procedure.
翻訳日:2023-01-11 17:11:20 公開日:2023-01-10
# ROBUSfT: C++ライブラリのテンプレートによるロバストリアルタイムシェイプ

ROBUSfT: Robust Real-Time Shape-from-Template, a C++ Library ( http://arxiv.org/abs/2301.04037v1 )

ライセンス: Link先を確認
Mohammadreza Shetab-Bushehri, Miguel Aranda, Youcef Mezouar, Adrien Bartoli, Erol Ozgur(参考訳) 単眼2次元視覚のみを用いて変形物体の3次元形状を追跡することは難しい課題である。 これは、あるべきであるからである (i)過度に制約された問題である2次元画像から3次元形状を推定し、 (ii)ソリューションパイプライン全体をリアルタイムで実装する。 パイプラインは通常、特徴検出とマッチング、ミスマッチフィルタリング、3次元形状推論、特徴追跡アルゴリズムを必要とする。 本稿では,物体の静止形状,テクスチャマップ,変形法則を含むテンプレートに基づく従来のパイプラインであるROBUSfTを提案する。 ROBUSfTは、大きな変形を処理でき、30fpsまで高速で、トレーニングなしで、ビデオフレームにおける部分的な閉塞や不連続に対して堅牢である。 挑戦的なデータセットでは最先端の手法よりも優れています。 ROBUSfTはC++ライブラリとして実装されており、https://github.com/mrshetab/ROBUSfTで使用するためのチュートリアルを提供している。

Tracking the 3D shape of a deforming object using only monocular 2D vision is a challenging problem. This is because one should (i) infer the 3D shape from a 2D image, which is a severely underconstrained problem, and (ii) implement the whole solution pipeline in real-time. The pipeline typically requires feature detection and matching, mismatch filtering, 3D shape inference and feature tracking algorithms. We propose ROBUSfT, a conventional pipeline based on a template containing the object's rest shape, texturemap and deformation law. ROBUSfT is ready-to-use, wide-baseline, capable of handling large deformations, fast up to 30 fps, free of training, and robust against partial occlusions and discontinuity in video frames. It outperforms the state-of-the-art methods in challenging datasets. ROBUSfT is implemented as a publicly available C++ library and we provide a tutorial on how to use it in https://github.com/mrshetab/ROBUSfT
翻訳日:2023-01-11 17:04:47 公開日:2023-01-10
# ニューラルラジアンス分野におけるロバスト性ベンチマーク

Benchmarking Robustness in Neural Radiance Fields ( http://arxiv.org/abs/2301.04075v1 )

ライセンス: Link先を確認
Chen Wang, Angtian Wang, Junbo Li, Alan Yuille, Cihang Xie(参考訳) ニューラルレージアンス場(NeRF)は、簡潔な定式化で3次元オブジェクトのジオメトリーをモデル化できるため、新規なビュー合成において優れた品質を示している。 しかし、現在のNeRFベースのモデルへのアプローチは、正確なカメラキャリブレーションによるクリーンなイメージに依存しており、データの破損や歪みが頻繁に発生する現実世界では入手が困難である。 本研究では,NeRFを用いた新しいビュー合成アルゴリズムの強靭性について,様々な種類の汚職の存在下での包括的解析を行った。 nerfベースのモデルは腐敗の存在下で著しく劣化しており、画像認識モデルとは異なる腐敗に敏感であることがわかった。 さらに,畳み込みニューラルネットワークやトランスフォーマーを用いて抽出したニューラル特徴を用いて画像を合成する一般化可能な手法により,特徴エンコーダのロバスト性を分析し,ロバスト性にわずかに寄与することを発見した。 最後に,認識モデルのロバスト性を大幅に向上させる標準データ拡張技術は,NeRFモデルのロバスト性に寄与しないことを明らかにした。 我々は、NeRFベースのアプローチの堅牢性の研究により多くの研究者を惹きつけ、実世界でのパフォーマンス向上に役立てることを願っている。

Neural Radiance Field (NeRF) has demonstrated excellent quality in novel view synthesis, thanks to its ability to model 3D object geometries in a concise formulation. However, current approaches to NeRF-based models rely on clean images with accurate camera calibration, which can be difficult to obtain in the real world, where data is often subject to corruption and distortion. In this work, we provide the first comprehensive analysis of the robustness of NeRF-based novel view synthesis algorithms in the presence of different types of corruptions. We find that NeRF-based models are significantly degraded in the presence of corruption, and are more sensitive to a different set of corruptions than image recognition models. Furthermore, we analyze the robustness of the feature encoder in generalizable methods, which synthesize images using neural features extracted via convolutional neural networks or transformers, and find that it only contributes marginally to robustness. Finally, we reveal that standard data augmentation techniques, which can significantly improve the robustness of recognition models, do not help the robustness of NeRF-based models. We hope that our findings will attract more researchers to study the robustness of NeRF-based approaches and help to improve their performance in the real world.
翻訳日:2023-01-11 17:04:26 公開日:2023-01-10
# 行政を支えるために新しい技術を使うこと。 感情分析とapp ioの場合

The use of new technologies to support Public Administration. Sentiment analysis and the case of the app IO ( http://arxiv.org/abs/2301.03848v1 )

ライセンス: Link先を確認
Vincenzo Miracula and Antonio Picone(参考訳) App IOはイタリアのPA向けに開発されたアプリだ。 市民がPAと対話し、まだデジタル化されていないサービスを入手することは、間違いなく有用である。 しかし、市民からは好意的な評価を受けておらず、批判されている。 これらの悪いレビューの原因を探すために、私たちはモバイルアプリストアからのフィードバックをカスタムコード化された自動化ツールを使って取り上げ、その後、悪いレビューの原因を理解するために感情分析と感情検出の両方を実行するために2つの機械学習モデルをトレーニングしました。

App IO is an app developed for the Italian PA. It is definitely useful for citizens to interact with the PA and to get services that were not digitized yet. Nevertheless, it was not perceived in a good way by the citizens and it has been criticized. As we wanted to find the root that caused all these bad reviews we scraped feedback from mobile app stores using custom-coded automated tools and - after that - we trained two machine learning models to perform both sentiment analysis and emotion detection to understand what caused the bad reviews.
翻訳日:2023-01-11 17:04:05 公開日:2023-01-10
# 対向注意型ポインターニューラルネットワークを用いたラストマイル配送におけるドライバーの経路予測

Predicting Drivers' Route Trajectories in Last-Mile Delivery Using A Pair-wise Attention-based Pointer Neural Network ( http://arxiv.org/abs/2301.03802v1 )

ライセンス: Link先を確認
Baichuan Mo, Qing Yi Wang, Xiaotong Guo, Matthias Winkenbach, Jinhua Zhao(参考訳) 最終マイルの配達では、ドライバーは、道路や縁石のインフラ、顧客の可用性、および各サービスエリアの他の特性に関する暗黙の知識から、計画された配達ルートから逸脱することが多い。 したがって、経験豊富な人間の運転者が選択した実際の停止シーケンスは、実際の運用条件下での理論的最短経路に好適である可能性がある。 したがって、人間のドライバーが従う実際の停止シーケンスを予測できることは、ラストマイル配送の経路計画を改善するのに役立つ。 本稿では,ドライバーの過去の配送軌跡データを用いて,この予測タスクのための対向注意型ポインターニューラルネットワークを提案する。 シーケンスからシーケンスへの予測によく使われるエンコーダ-デコーダアーキテクチャに加えて、各ストップの局所的なペアワイズ情報をキャプチャする代替ニューラルネットワークに基づく新しい注意機構を提案する。 そこで本研究では,経路のグローバルな効率をさらに向上するために,モデルトレーニング後に使用する新たな反復シーケンス生成アルゴリズムを提案する。 米国におけるAmazonのラストマイル配送運用による実運用データに関する広範なケーススタディの結果,提案手法は,経験豊富なドライバが実行した高品質なルートに近い停止シーケンスを見つける上で,従来の最適化ベースのアプローチや,その他の機械学習手法(例えば,Long Short-Term Memory Encoderとオリジナルポインタネットワーク)を大幅に上回っていることが示された。 ベンチマークモデルと比較して, 提案手法は, 最初の4つの停止の平均予測精度を0.2から0.312に向上させ, 予測経路と実際の経路との差を約15%低減できる。

In last-mile delivery, drivers frequently deviate from planned delivery routes because of their tacit knowledge of the road and curbside infrastructure, customer availability, and other characteristics of the respective service areas. Hence, the actual stop sequences chosen by an experienced human driver may be potentially preferable to the theoretical shortest-distance routing under real-life operational conditions. Thus, being able to predict the actual stop sequence that a human driver would follow can help to improve route planning in last-mile delivery. This paper proposes a pair-wise attention-based pointer neural network for this prediction task using drivers' historical delivery trajectory data. In addition to the commonly used encoder-decoder architecture for sequence-to-sequence prediction, we propose a new attention mechanism based on an alternative specific neural network to capture the local pair-wise information for each pair of stops. To further capture the global efficiency of the route, we propose a new iterative sequence generation algorithm that is used after model training to identify the first stop of a route that yields the lowest operational cost. Results from an extensive case study on real operational data from Amazon's last-mile delivery operations in the US show that our proposed method can significantly outperform traditional optimization-based approaches and other machine learning methods (such as the Long Short-Term Memory encoder-decoder and the original pointer network) in finding stop sequences that are closer to high-quality routes executed by experienced drivers in the field. Compared to benchmark models, the proposed model can increase the average prediction accuracy of the first four stops from around 0.2 to 0.312, and reduce the disparity between the predicted route and the actual route by around 15%.
翻訳日:2023-01-11 17:03:36 公開日:2023-01-10
# Actor-Director-Critic - 新しい強化学習フレームワーク

Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework ( http://arxiv.org/abs/2301.03887v1 )

ライセンス: Link先を確認
Zongwei Liu, Yonghong Song, Yuanlin Zhang(参考訳) 本稿では,深層強化学習のための新しいフレームワークであるactor-director-criticを提案する。 アクター批判フレームワークと比較して、監督役が追加され、同時に行動分類と行動評価が適用され、エージェントの意思決定性能が向上する。 第1に、エージェントのアクションは、環境から返される報酬に応じて、高品質なアクションと品質の低いアクションに分割される。 そして、監督ネットワークは、ハイクオリティアクションと低クオリティアクションとを判別し、アクタネットワークを誘導し、トレーニングの初期段階における低クオリティアクションの繰り返し探索を低減する能力を有するように訓練される。 さらに,強化学習分野における過大評価問題を改善するために,改良された二重推定器を提案する。 使用する2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。 これにより、2つの目標批評家ネットワークの出力の平均を1つの目標批評家ネットワークのみを用いて算出し、目標値を得るよりも安定かつ精度の高い各批評家ネットワークの目標値を算出できる。 アクタ-ディレクトリ-クリティック・フレームワークと改良されたdouble estimator法の性能を検証するために, td3アルゴリズムに適用し, td3アルゴリズムの改善を行った。 次に,MuJoCoの複数の環境で実験を行い,アルゴリズムの改良前後の実験データを比較した。 最終実験の結果,改良アルゴリズムはより高速な収束速度と総帰納率を達成できることがわかった。

In this paper, we propose actor-director-critic, a new framework for deep reinforcement learning. Compared with the actor-critic framework, the director role is added, and action classification and action evaluation are applied simultaneously to improve the decision-making performance of the agent. Firstly, the actions of the agent are divided into high quality actions and low quality actions according to the rewards returned from the environment. Then, the director network is trained to have the ability to discriminate high and low quality actions and guide the actor network to reduce the repetitive exploration of low quality actions in the early stage of training. In addition, we propose an improved double estimator method to better solve the problem of overestimation in the field of reinforcement learning. For the two critic networks used, we design two target critic networks for each critic network instead of one. In this way, the target value of each critic network can be calculated by taking the average of the outputs of the two target critic networks, which is more stable and accurate than using only one target critic network to obtain the target value. In order to verify the performance of the actor-director-critic framework and the improved double estimator method, we applied them to the TD3 algorithm to improve the TD3 algorithm. Then, we carried out experiments in multiple environments in MuJoCo and compared the experimental data before and after the algorithm improvement. The final experimental results show that the improved algorithm can achieve faster convergence speed and higher total return.
翻訳日:2023-01-11 17:03:05 公開日:2023-01-10
# 実世界赤外小ターゲット検出における共通性能指標の適用性の評価

Assessing the applicability of common performance metrics for real-world infrared small-target detection ( http://arxiv.org/abs/2301.03796v1 )

ライセンス: Link先を確認
Saed Moradi, Alireza Memarmoghadam, Payman Moallem, Mohamad Farzan Sabahi(参考訳) 赤外線小目標検出(IRSTD)はコンピュータビジョンにおいて難しい課題である。 過去20年間で、研究者の努力はIRSTDの検出能力の向上に向けられている。 新しいアルゴリズムの設計が大幅に改善されたにもかかわらず、評価指標の広範囲な調査の欠如は明らかである。 そこで本研究では,まず,現在のメトリクスの評価能力について検討し,次に,共通メトリクスの欠点に対処するための新しい評価指標を提案する。 このために、問題を慎重に検討した後、検出に成功するために必要な条件を解析する。 そして、thresholdingとpost-thresholdingメトリックを含む現在の評価メトリクスの欠点を判定する。 実世界のシステム要件に基づいて,新しいメトリクスを提案する。 最後に,提案手法を用いて,既知の4つの小型赤外線ターゲット検出アルゴリズムを比較し,評価する。 その結果、新しい指標は定性的な結果と一致していることがわかった。

Infrared small target detection (IRSTD) is a challenging task in computer vision. During the last two decades, researchers' efforts are devoted to improving detection ability of IRSTDs. Despite the huge improvement in designing new algorithms, lack of extensive investigation of the evaluation metrics are evident. Therefore, in this paper, a systematic approach is utilized to: First, investigate the evaluation ability of current metrics; Second, propose new evaluation metrics to address shortcoming of common metrics. To this end, after carefully reviewing the problem, the required conditions to have a successful detection are analyzed. Then, the shortcomings of current evaluation metrics which include pre-thresholding as well as post-thresholding metrics are determined. Based on the requirements of real-world systems, new metrics are proposed. Finally, the proposed metrics are used to compare and evaluate four well-known small infrared target detection algorithms. The results show that new metrics are consistent with qualitative results.
翻訳日:2023-01-11 16:56:20 公開日:2023-01-10
# cda:コントラスト・adversarial domain adaptation

CDA: Contrastive-adversarial Domain Adaptation ( http://arxiv.org/abs/2301.03826v1 )

ライセンス: Link先を確認
Nishant Yadav, Mahbubul Alam, Ahmed Farahat, Dipanjan Ghosh, Chetan Gupta, Auroop R. Ganguly(参考訳) ドメイン適応の最近の進歩により、ディープニューラルネットワークの逆学習は、ソース領域とターゲット領域の間のシフトを減らすために、ドメイン不変機能を学ぶことができる。 このような敵対的アプローチはドメインレベルのアライメントを実現するが、クラス(ラベル)シフトを無視する。 クラス条件のデータ分散がソースとターゲットのドメインと大きく異なる場合、クラスの境界付近で曖昧な特徴を発生させることができる。 本研究では,ドメイン適応のための二段階モデルである \textbf{c}ontrastive-adversarial \textbf{d}omain \textbf{a}daptation \textbf{(cda)}を提案する。 逆成分はドメインレベルのアライメントを促進するが、2段階のコントラッシブ学習はクラス情報を利用してドメイン間の高いクラス内コンパクト性を達成する。 さらに、提案するコントラストフレームワークはプラグアンドプレイモジュールとして設計されており、ドメイン適応のために既存の敵メソッドと簡単に組み込むことができる。 我々は、ドメイン適応のために広く使われている2つのベンチマークデータセット、すなわち \textit{office-31} と \textit{digits-5} の実験を行い、cdaが両方のデータセットで最先端の結果を得ることを示す。

Recent advances in domain adaptation reveal that adversarial learning on deep neural networks can learn domain invariant features to reduce the shift between source and target domains. While such adversarial approaches achieve domain-level alignment, they ignore the class (label) shift. When class-conditional data distributions are significantly different between the source and target domain, it can generate ambiguous features near class boundaries that are more likely to be misclassified. In this work, we propose a two-stage model for domain adaptation called \textbf{C}ontrastive-adversarial \textbf{D}omain \textbf{A}daptation \textbf{(CDA)}. While the adversarial component facilitates domain-level alignment, two-stage contrastive learning exploits class information to achieve higher intra-class compactness across domains resulting in well-separated decision boundaries. Furthermore, the proposed contrastive framework is designed as a plug-and-play module that can be easily embedded with existing adversarial methods for domain adaptation. We conduct experiments on two widely used benchmark datasets for domain adaptation, namely, \textit{Office-31} and \textit{Digits-5}, and demonstrate that CDA achieves state-of-the-art results on both datasets.
翻訳日:2023-01-11 16:56:09 公開日:2023-01-10
# 視覚トランスフォーマの動的粒度エンコーダ

Dynamic Grained Encoder for Vision Transformers ( http://arxiv.org/abs/2301.03831v1 )

ライセンス: Link先を確認
Lin Song, Songyang Zhang, Songtao Liu, Zeming Li, Xuming He, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) 言語モデリングのデファクトスタンダードであるtransformersが、視覚タスクに最近適用された。 本稿では,自然画像の空間的冗長性を生かして計算コストを節約するために,視覚トランスフォーマのスパースクエリを提案する。 具体的には、各空間領域に適切な数のクエリを適応的に割り当てることができる視覚変換器用の動的グラインドエンコーダを提案する。 これにより、高い効率を維持しながら、識別領域におけるきめ細かい表現を実現する。 さらに、動的粒度のエンコーダは、ほとんどのビジョントランスフォーマーフレームワークと互換性がある。 ベルやホイッスルがなければ、最先端の視覚トランスフォーマーは、画像分類で同等の性能を維持しつつ、計算の複雑さを40%から60%削減できます。 対象検出とセグメンテーションに関する広範な実験により,本手法の一般化性がさらに証明された。 コードはhttps://github.com/StevenGrove/vtpackで入手できる。

Transformers, the de-facto standard for language modeling, have been recently applied for vision tasks. This paper introduces sparse queries for vision transformers to exploit the intrinsic spatial redundancy of natural images and save computational costs. Specifically, we propose a Dynamic Grained Encoder for vision transformers, which can adaptively assign a suitable number of queries to each spatial region. Thus it achieves a fine-grained representation in discriminative regions while keeping high efficiency. Besides, the dynamic grained encoder is compatible with most vision transformer frameworks. Without bells and whistles, our encoder allows the state-of-the-art vision transformers to reduce computational complexity by 40%-60% while maintaining comparable performance on image classification. Extensive experiments on object detection and segmentation further demonstrate the generalizability of our approach. Code is available at https://github.com/StevenGrove/vtpack.
翻訳日:2023-01-11 16:55:48 公開日:2023-01-10
# フレーム間特徴融合と内部フレーム特徴の細分化による映像意味セグメンテーション

Video Semantic Segmentation with Inter-Frame Feature Fusion and Inner-Frame Feature Refinement ( http://arxiv.org/abs/2301.03832v1 )

ライセンス: Link先を確認
Jiafan Zhuang, Zilei Wang, Junjie Li(参考訳) ビデオセマンティクスセグメンテーションは、各ビデオフレームの正確なセマンティクスマップを生成することを目的としている。 この目的のために、連続するフレームから多様な情報を統合して、推定光流による特徴アライメント手順が通常必要となる予測のための特徴を強化するために、多くの研究が費やされている。 しかし、光学流は必然的に不正確さに悩まされ、特徴融合にノイズを導入し、さらに不満足なセグメンテーション結果をもたらす。 本稿では,不整合問題に対処するため,多フレーム特徴間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。 従来の手法と異なり、STFは空間的および時間的位置の異なる特徴を均一かつ適応的に融合し、エラーを起こしやすい光フロー推定を回避する。 さらに,単一フレーム内の機能改善をさらに活用し,意味境界間の難解な予測に対処すべく,新しいメモリ・オーグメンテーション・リファインメント(mar)モジュールを提案する。 具体的には、MARはトレーニングサンプルから抽出した境界特徴とプロトタイプを格納し、タスク固有のメモリをまとめて、推論時に特徴を洗練させる。 基本的に、MARはハード機能を最も可能性の高いカテゴリに近づけることで、より差別的になる。 本研究では,Cityscapes と CamVid に関する広範な実験を行い,提案手法が従来の手法より大幅に優れ,最先端の性能を実現することを示す。 コードと事前トレーニングされたモデルはhttps://github.com/jfzhuang/st_memoryで入手できる。

Video semantic segmentation aims to generate accurate semantic maps for each video frame. To this end, many works dedicate to integrate diverse information from consecutive frames to enhance the features for prediction, where a feature alignment procedure via estimated optical flow is usually required. However, the optical flow would inevitably suffer from inaccuracy, and then introduce noises in feature fusion and further result in unsatisfactory segmentation results. In this paper, to tackle the misalignment issue, we propose a spatial-temporal fusion (STF) module to model dense pairwise relationships among multi-frame features. Different from previous methods, STF uniformly and adaptively fuses features at different spatial and temporal positions, and avoids error-prone optical flow estimation. Besides, we further exploit feature refinement within a single frame and propose a novel memory-augmented refinement (MAR) module to tackle difficult predictions among semantic boundaries. Specifically, MAR can store the boundary features and prototypes extracted from the training samples, which together form the task-specific memory, and then use them to refine the features during inference. Essentially, MAR can move the hard features closer to the most likely category and thus make them more discriminative. We conduct extensive experiments on Cityscapes and CamVid, and the results show that our proposed methods significantly outperform previous methods and achieves the state-of-the-art performance. Code and pretrained models are available at https://github.com/jfzhuang/ST_Memory.
翻訳日:2023-01-11 16:55:35 公開日:2023-01-10
# ConvMixer モデルのためのランダム直交行列を用いたプライバシー保護手法

A Privacy Preserving Method with a Random Orthogonal Matrix for ConvMixer Models ( http://arxiv.org/abs/2301.03843v1 )

ライセンス: Link先を確認
Rei Aso, Tatsuya Chuman and Hitoshi Kiya(参考訳) 本稿では,ConvMixerモデルを用いて,プライバシ保護画像分類手法を提案する。 テスト画像の視覚情報を保護するため、テスト画像はブロックに分割され、各ブロックはランダム直交行列を用いて暗号化される。 また、試験画像の暗号化に用いられるランダム直交行列により、convmixerの埋め込み構造に基づいて、プレーンイメージで訓練されたconvmixerモデルが変換される。 提案手法は,プライバシ保護を考慮せずに,コンブミキサーモデルと同じ分類精度を用いるだけでなく,従来のプライバシ保存学習と比較して各種攻撃に対する頑健性を高める。

In this paper, a privacy preserving image classification method is proposed under the use of ConvMixer models. To protect the visual information of test images, a test image is divided into blocks, and then every block is encrypted by using a random orthogonal matrix. Moreover, a ConvMixer model trained with plain images is transformed by the random orthogonal matrix used for encrypting test images, on the basis of the embedding structure of ConvMixer. The proposed method allows us not only to use the same classification accuracy as that of ConvMixer models without considering privacy protection but to also enhance robustness against various attacks compared to conventional privacy-preserving learning.
翻訳日:2023-01-11 16:55:09 公開日:2023-01-10
# Modiff:拡散確率モデルを用いたアクションコンディション3次元運動生成

Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.03949v1 )

ライセンス: Link先を確認
Mengyi Zhao, Mengyuan Liu, Bin Ren, Shuling Dai, and Nicu Sebe(参考訳) 拡散に基づく生成モデルは最近、複数の領域における高品質な合成のための強力な解として登場している。 双方向マルコフ連鎖を利用する拡散確率モデルは、前方拡散過程における学習分布写像に基づいて逆マルコフ連鎖を推定することによりサンプルを生成する。 本研究では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,DDPM(Denoising diffusion Probabilistic Model)の利点を生かした条件付きパラダイムであるModiffを提案する。 我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。 我々は,大規模NTU RGB+Dデータセットに対するアプローチを評価し,最先端のモーション生成手法の改善を示す。

Diffusion-based generative models have recently emerged as powerful solutions for high-quality synthesis in multiple domains. Leveraging the bidirectional Markov chains, diffusion probabilistic models generate samples by inferring the reversed Markov chain based on the learned distribution mapping at the forward diffusion process. In this work, we propose Modiff, a conditional paradigm that benefits from the denoising diffusion probabilistic model (DDPM) to tackle the problem of realistic and diverse action-conditioned 3D skeleton-based motion generation. We are a pioneering attempt that uses DDPM to synthesize a variable number of motion sequences conditioned on a categorical action. We evaluate our approach on the large-scale NTU RGB+D dataset and show improvements over state-of-the-art motion generation methods.
翻訳日:2023-01-11 16:54:55 公開日:2023-01-10
# AdvBiom: バイオメトリックマッチの敵攻撃

AdvBiom: Adversarial Attacks on Biometric Matchers ( http://arxiv.org/abs/2301.03966v1 )

ライセンス: Link先を確認
Debayan Deb, Vishesh Mistry, Rahul Parthe(参考訳) ディープラーニングモデルの出現により、顔認識システムは印象的な認識率を達成した。 この成功の背景にあるのは、畳み込みニューラルネットワーク(CNN)と大規模なトレーニングデータセットの可用性だ。 しかし,顔のサンプルに対する人間の影響を受けやすい小さな変化は,最も普及している顔認識システムから回避できることを示す。 さらに心配なのは、同じジェネレータが将来的に他の特性にも拡張可能であることだ。 本研究では,このような生成器を訓練し,指紋認識システムなど他の生体情報にも拡張する方法について述べる。

With the advent of deep learning models, face recognition systems have achieved impressive recognition rates. The workhorses behind this success are Convolutional Neural Networks (CNNs) and the availability of large training datasets. However, we show that small human-imperceptible changes to face samples can evade most prevailing face recognition systems. Even more alarming is the fact that the same generator can be extended to other traits in the future. In this work, we present how such a generator can be trained and also extended to other biometric modalities, such as fingerprint recognition systems.
翻訳日:2023-01-11 16:54:42 公開日:2023-01-10
# 擬似負ラベルを用いた半教師付き学習による画像分類

Semi-Supervised Learning with Pseudo-Negative Labels for Image Classification ( http://arxiv.org/abs/2301.03976v1 )

ライセンス: Link先を確認
Hao Xu, Hui Xiao, Huazheng Hao, Li Dong, Xiaojie Qiu and Chengbin Peng(参考訳) 半教師付き学習フレームワークは通常、異なる視点から学ぶために複数のサブモデルを持つ相互学習アプローチを採用する。 これらのサブモデル間の誤った擬似ラベルの転送を避けるために、ラベルなしデータに対する多くの低信頼予測をフィルタするために高閾値が使用される。 しかし、そのようなフィルタリングは、予測信頼性の低いラベル付きデータを十分に活用することはできない。 そこで本研究では,疑似負のラベルに基づく相互学習フレームワークを提案する。 負のラベルは、対応するデータ項目が属さないラベルである。 各イテレーションで、1つのサブモデルがデータ項目ごとに擬似負のラベルを生成し、もう1つのサブモデルがこれらのラベルから学習する。 2つのサブモデルの役割は、収束するまで各イテレーション後に交換される。 擬似負ラベルの予測確率を減少させることで、双対モデルは予測能力を向上させることができる。 また,サブモデルにフィードする擬似負のラベルを選択する機構を提案する。 実験では,本フレームワークはいくつかの主要なベンチマークで最先端の結果を得る。 特に,13層cnnモデルの誤差率は,1000ラベルと4000ラベルのcifar-10では9.35%,7.94%であった。 さらに,20のラベルしか持たない拡張されていないMNISTでは,我々のフレームワークによるエラー率は0.81%であり,他のアプローチよりもはるかに小さい。 このアプローチはまた、ドメイン適応の大幅なパフォーマンス向上を示す。

Semi-supervised learning frameworks usually adopt mutual learning approaches with multiple submodels to learn from different perspectives. To avoid transferring erroneous pseudo labels between these submodels, a high threshold is usually used to filter out a large number of low-confidence predictions for unlabeled data. However, such filtering can not fully exploit unlabeled data with low prediction confidence. To overcome this problem, in this work, we propose a mutual learning framework based on pseudo-negative labels. Negative labels are those that a corresponding data item does not belong. In each iteration, one submodel generates pseudo-negative labels for each data item, and the other submodel learns from these labels. The role of the two submodels exchanges after each iteration until convergence. By reducing the prediction probability on pseudo-negative labels, the dual model can improve its prediction ability. We also propose a mechanism to select a few pseudo-negative labels to feed into submodels. In the experiments, our framework achieves state-of-the-art results on several main benchmarks. Specifically, with our framework, the error rates of the 13-layer CNN model are 9.35% and 7.94% for CIFAR-10 with 1000 and 4000 labels, respectively. In addition, for the non-augmented MNIST with only 20 labels, the error rate is 0.81% by our framework, which is much smaller than that of other approaches. Our approach also demonstrates a significant performance improvement in domain adaptation.
翻訳日:2023-01-11 16:54:32 公開日:2023-01-10
# 大規模画像検索のためのレギュレットのないオンラインバックフィル

Online Backfilling with No Regret for Large-Scale Image Retrieval ( http://arxiv.org/abs/2301.03767v1 )

ライセンス: Link先を確認
Seonguk Seo, Mustafa Gokhan Uzunbas, Bohyung Han, Sara Cao, Joena Zhang, Taipeng Tian, Ser-Nam Lim(参考訳) backfillingは、画像検索システムにおけるアップグレードされたモデルからすべてのギャラリー埋め込みを再抽出するプロセスである。 必然的に膨大な計算コストを必要とし、サービスのダウンタイムも伴います。 後方互換性のある学習は、クエリサイドの表現に対処することでこの課題を一歩先導するが、これは原則として、ギャラリーの埋め込みがモデルアップグレードの恩恵を受けることができないため、サブ最適ソリューションにつながる。 このジレンマに対処するために,オンラインのバックフィルングアルゴリズムを導入することで,バックフィルの完了後に新たなモデルの最終的なパフォーマンスを犠牲にすることなく,バックフィルプロセス中にプログレッシブなパフォーマンス改善を実現することができる。 そこで我々はまず,オンラインバックフィルのための単純な距離ランクマージ手法を提案する。 そして、より効率的かつ効率的なマージを実現するために、逆変換モジュールを組み込み、メトリック互換のコントラスト学習アプローチを採用することでさらに強化する。 これら2つのコンポーネントは、古いモデルと新しいモデルの距離を互換性を持たせるのに役立つ。 様々な環境で4つの標準ベンチマークにおけるフレームワークの有効性を示す広範な実験を行った。

Backfilling is the process of re-extracting all gallery embeddings from upgraded models in image retrieval systems. It inevitably requires a prohibitively large amount of computational cost and even entails the downtime of the service. Although backward-compatible learning sidesteps this challenge by tackling query-side representations, this leads to suboptimal solutions in principle because gallery embeddings cannot benefit from model upgrades. We address this dilemma by introducing an online backfilling algorithm, which enables us to achieve a progressive performance improvement during the backfilling process while not sacrificing the final performance of new model after the completion of backfilling. To this end, we first propose a simple distance rank merge technique for online backfilling. Then, we incorporate a reverse transformation module for more effective and efficient merging, which is further enhanced by adopting a metric-compatible contrastive learning approach. These two components help to make the distances of old and new models compatible, resulting in desirable merge results during backfilling with no extra computational overhead. Extensive experiments show the effectiveness of our framework on four standard benchmarks in various settings.
翻訳日:2023-01-11 16:46:41 公開日:2023-01-10
# 感性に基づく直感的ロボットインタラクションのためのエンゲージメント戦略

Sentiment-based Engagement Strategies for intuitive Human-Robot Interaction ( http://arxiv.org/abs/2301.03867v1 )

ライセンス: Link先を確認
Thorsten Hempel and Laslo Dinges and Ayoub Al-Hamadi(参考訳) 感情表現は重要なコミュニケーションシグナルであり、人間同士の直感的な相互作用において重要な手がかりである。 したがって、人間と対話して相互理解を促進し、誤った判断を減らすためには、ロボット行動戦略にこれらの基本を組み込むことが不可欠である。 この課題は、潜在的な人間相互作用パートナーの感情分析に感情状態と注意を検知し、利用し、適切に調整されたエンゲージメント戦略を選択することで解決される。 このように、ロボットの動作は人の気分や期待に合致するため、より直感的な人間とロボットのインタラクションへの道を開く。 我々は,モバイルロボットプラットフォーム上で実験を行う暗黙的かつ明示的なコミュニケーション技術を用いた4つのエンゲージメント戦略を提案する。

Emotion expressions serve as important communicative signals and are crucial cues in intuitive interactions between humans. Hence, it is essential to include these fundamentals in robotic behavior strategies when interacting with humans to promote mutual understanding and to reduce misjudgements. We tackle this challenge by detecting and using the emotional state and attention for a sentiment analysis of potential human interaction partners to select well-adjusted engagement strategies. This way, we pave the way for more intuitive human-robot interactions, as the robot's action conforms to the person's mood and expectation. We propose four different engagement strategies with implicit and explicit communication techniques that we implement on a mobile robot platform for initial experiments.
翻訳日:2023-01-11 16:46:22 公開日:2023-01-10
# 視覚トランスフォーマーは、優れたマスク自動ラベルだ

Vision Transformers Are Good Mask Auto-Labelers ( http://arxiv.org/abs/2301.03992v1 )

ライセンス: Link先を確認
Shiyi Lan, Xitong Yang, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez, Anima Anandkumar(参考訳) ボックスアノテーションのみを用いた,高品質なトランスフォーマーベースのマスク自動ラベルフレームワークであるMask Auto-Labeler (MAL)を提案する。 MALは、箱詰め画像を入力として取り出し、マスク擬似ラベルを生成する。 本手法は,マスク品質に関する人的アノテーションと自動ラベルのギャップを著しく低減する。 MAL生成マスクを使用してトレーニングされたインスタンスセグメンテーションモデルは、完全に教師されたモデルのパフォーマンスとほぼ一致し、完全な教師されたモデルのパフォーマンスは97.4 %まで保持できる。 最高のモデルでは、COCOインスタンスセグメンテーションの44.1\% mAP(test-dev 2017)が達成され、最先端のボックス管理手法よりもかなりの差がある。 質的な結果は、MALが生成するマスクが人間のアノテーションよりも優れていることを示している。

We propose Mask Auto-Labeler (MAL), a high-quality Transformer-based mask auto-labeling framework for instance segmentation using only box annotations. MAL takes box-cropped images as inputs and conditionally generates their mask pseudo-labels.We show that Vision Transformers are good mask auto-labelers. Our method significantly reduces the gap between auto-labeling and human annotation regarding mask quality. Instance segmentation models trained using the MAL-generated masks can nearly match the performance of their fully-supervised counterparts, retaining up to 97.4\% performance of fully supervised models. The best model achieves 44.1\% mAP on COCO instance segmentation (test-dev 2017), outperforming state-of-the-art box-supervised methods by significant margins. Qualitative results indicate that masks produced by MAL are, in some cases, even better than human annotations.
翻訳日:2023-01-11 16:46:09 公開日:2023-01-10
# 連続音声認識のための双方向文脈を利用した新しい句読解手法

Streaming Punctuation: A Novel Punctuation Technique Leveraging Bidirectional Context for Continuous Speech Recognition ( http://arxiv.org/abs/2301.03819v1 )

ライセンス: Link先を確認
Piyush Behre, Sharman Tan, Padma Varadharajan and Shuangyu Chang(参考訳) 音声認識における単語誤り率 (WER) は英語では人間と同等であるが、音声タイピングやミーティングの書き起こしなどの連続音声認識シナリオは、いまだにセグメンテーションや句読点の問題に悩まされており、不規則なポーズパターンや遅い話者が原因である。 トランスフォーマーシーケンスのタグ付けモデルは、自動句読点に不可欠である長い双方向コンテキストのキャプチャに有効である。 しかし、自動音声認識(ASR)生産システムは、リアルタイムな要求によって制約されており、句読点決定を行う際に適切なコンテキストを組み込むことが困難である。 asrデコーダが生成するセグメント内のコンテキストは、連続音声セッションの句読点全体のパフォーマンスを制限しながらも有用である。 本稿では,動的復号窓を用いたasr出力の句読点や再句読点に対するストリーミング手法を提案し,シナリオ間の句読点やセグメント精度への影響を計測する。 新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。 ストリームの句読点は、機械翻訳(MT)の下流タスクにおいて平均BLEUスコアの改善率0.66を達成する。

While speech recognition Word Error Rate (WER) has reached human parity for English, continuous speech recognition scenarios such as voice typing and meeting transcriptions still suffer from segmentation and punctuation problems, resulting from irregular pausing patterns or slow speakers. Transformer sequence tagging models are effective at capturing long bi-directional context, which is crucial for automatic punctuation. Automatic Speech Recognition (ASR) production systems, however, are constrained by real-time requirements, making it hard to incorporate the right context when making punctuation decisions. Context within the segments produced by ASR decoders can be helpful but limiting in overall punctuation performance for a continuous speech session. In this paper, we propose a streaming approach for punctuation or re-punctuation of ASR output using dynamic decoding windows and measure its impact on punctuation and segmentation accuracy across scenarios. The new system tackles over-segmentation issues, improving segmentation F0.5-score by 13.9%. Streaming punctuation achieves an average BLEUscore improvement of 0.66 for the downstream task of Machine Translation (MT).
翻訳日:2023-01-11 16:45:36 公開日:2023-01-10
# マンダリン・カントネーゼ機械翻訳

Unsupervised Mandarin-Cantonese Machine Translation ( http://arxiv.org/abs/2301.03971v1 )

ライセンス: Link先を確認
Megan Dare, Valentina Fajardo Diaz, Averie Ho Zoen So, Yifan Wang, Shibingfeng Zhang(参考訳) 教師なし機械翻訳の進歩により、並列データが豊富でない言語間で翻訳できる機械翻訳システムの開発が可能になった。 中国語とカントン語の教師なし機械翻訳について検討した。 カントン語話者が多数いるにもかかわらず、カントン語が主に口頭コミュニケーションに使われているという事実から、この言語には大規模なコーパスがまだ存在しない。 私たちのプロジェクトの主な貢献は以下のとおりです。 1)約100万のカントン文を含む新しいコーパスの作成と, 2. 異なるモデルアーキテクチャ、トークン化スキーム、埋め込み構造に対する大規模な比較。 文字ベースのトークン化とトランスフォーマーアーキテクチャを訓練した最良のモデルは,マンダリンからカントン語への翻訳で,文字レベルのBLEUが25.1,カントン語からマンダリンへの翻訳で24.4に達した。 本稿では,本研究のプロセス,実験,成果について論じる。

Advancements in unsupervised machine translation have enabled the development of machine translation systems that can translate between languages for which there is not an abundance of parallel data available. We explored unsupervised machine translation between Mandarin Chinese and Cantonese. Despite the vast number of native speakers of Cantonese, there is still no large-scale corpus for the language, due to the fact that Cantonese is primarily used for oral communication. The key contributions of our project include: 1. The creation of a new corpus containing approximately 1 million Cantonese sentences, and 2. A large-scale comparison across different model architectures, tokenization schemes, and embedding structures. Our best model trained with character-based tokenization and a Transformer architecture achieved a character-level BLEU of 25.1 when translating from Mandarin to Cantonese and of 24.4 when translating from Cantonese to Mandarin. In this paper we discuss our research process, experiments, and results.
翻訳日:2023-01-11 16:45:14 公開日:2023-01-10
# ドメイン探索のための会話探索行動の調査

Investigating Conversational Search Behavior For Domain Exploration ( http://arxiv.org/abs/2301.04098v1 )

ライセンス: Link先を確認
Phillip Schneider, Anum Afzal, Juraj Vladika, Daniel Braun and Florian Matthes(参考訳) 会話検索は新しい情報検索パラダイムとして進化し、従来の検索システムからインテリジェント検索エージェントとの対話へと移行した。 この変化は探索的な情報探索の文脈に特に影響し、会話検索システムが未知の領域の発見を導く。 これらのシナリオでは、背景知識の不足のため、情報目標の表現が難しいことが多い。 会話インターフェイスは、情報要求を回避し、検索空間を狭めることで支援を提供することができる。 しかし,情報探索行動の複雑さのため,情報検索のための対話インタフェースの設計は依然として大きな課題である。 これまでの研究では、システム設計を実証的に基礎づけるためにユーザスタディを採用してきたが、既存の研究はよく定義された検索タスクや既知のドメインに限られており、自然界での探索は少ない。 そこで本研究では,未知の情報環境におけるナビゲーションのオープンエンド探索行動に関する実験研究を行った。 この研究は、テキストチャットインタフェースの検索に制限を受けた26人の参加者で構成された。 収集された対話の書き起こしに基づいて,統計解析とプロセスマイニング手法を適用し,5つの異なるドメインにわたる一般的な情報探索パターンを明らかにする。 我々は、ドメイン知識の発見を可能にするコア対話行為とその相互関係を識別するだけでなく、対話型検索システムの設計提案を導出する。

Conversational search has evolved as a new information retrieval paradigm, marking a shift from traditional search systems towards interactive dialogues with intelligent search agents. This change especially affects exploratory information-seeking contexts, where conversational search systems can guide the discovery of unfamiliar domains. In these scenarios, users find it often difficult to express their information goals due to insufficient background knowledge. Conversational interfaces can provide assistance by eliciting information needs and narrowing down the search space. However, due to the complexity of information-seeking behavior, the design of conversational interfaces for retrieving information remains a great challenge. Although prior work has employed user studies to empirically ground the system design, most existing studies are limited to well-defined search tasks or known domains, thus being less exploratory in nature. Therefore, we conducted a laboratory study to investigate open-ended search behavior for navigation through unknown information landscapes. The study comprised of 26 participants who were restricted in their search to a text chat interface. Based on the collected dialogue transcripts, we applied statistical analyses and process mining techniques to uncover general information-seeking patterns across five different domains. We not only identify core dialogue acts and their interrelations that enable users to discover domain knowledge, but also derive design suggestions for conversational search systems.
翻訳日:2023-01-11 16:44:58 公開日:2023-01-10
# ボードゲーム距離の測定

Measuring Board Game Distance ( http://arxiv.org/abs/2301.03913v1 )

ライセンス: Link先を確認
Matthew Stephenson and Dennis J.N.J. Soemers and \'Eric Piette and Cameron Browne(参考訳) 本稿では,ゲームシステムにおけるボードゲーム間の距離を測定するための一般的な手法を提案する。 これらの距離は、共通のゲームアイデアや共有プロパティを表す一般的なゲームコンセプトの集合を用いて計算される。 その結果,二つの異なる距離尺度を比較して比較し,これらの指標の主観的性質を強調し,解釈可能な異なる方法について議論した。

This paper presents a general approach for measuring distances between board games within the Ludii general game system. These distances are calculated using a previously published set of general board game concepts, each of which represents a common game idea or shared property. Our results compare and contrast two different measures of distance, highlighting the subjective nature of such metrics and discussing the different ways that they can be interpreted.
翻訳日:2023-01-11 16:44:35 公開日:2023-01-10
# 既に存在するものから学ぶ:オンライン辞書を用いた手話認識

Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries ( http://arxiv.org/abs/2301.03769v1 )

ライセンス: Link先を確認
Maty\'a\v{s} Boh\'a\v{c}ek and Marek Hr\'uz(参考訳) 今日の手話認識モデルは、膨大な労働力と資金を必要とする実験室のようなビデオのトレーニングコーパスを必要とする。 結果として、人口の少ない手話言語に対する限定的なローカライゼーション能力は言うまでもなく、そのようなシステムはほとんど公開されていない。 様々な属性や手話の注釈付きデータを本質的に保持するオンラインのテキスト・ビデオ辞書を利用し、数ショットでモデルを訓練することで、この技術の民主化に有望な道をたどる。 そこで本研究では,uwb-sl-wild small-shotデータセットの収集とオープンソース化を行った。 このデータセットは、利用可能なオンライン手話データの実際の分布と特性を表す。 我々は、既存のデータセットWLASL100とASLLVDと直接重複するグルースを選択し、クラスマッピングを共有して、転送学習実験を可能にします。 ポーズベースのアーキテクチャでの基礎的な結果を提供するのとは別に、手話認識モデルのトレーニングを数回のシナリオで行う新しいアプローチを導入し、asllvd-skeletonとasllvd-skeleton-20データセットに最新結果を与え、それぞれ30.97~$$と9.5.45~$%というtop-1精度を付けた。

Today's sign language recognition models require large training corpora of laboratory-like videos, whose collection involves an extensive workforce and financial resources. As a result, only a handful of such systems are publicly available, not to mention their limited localization capabilities for less-populated sign languages. Utilizing online text-to-video dictionaries, which inherently hold annotated data of various attributes and sign languages, and training models in a few-shot fashion hence poses a promising path for the democratization of this technology. In this work, we collect and open-source the UWB-SL-Wild few-shot dataset, the first of its kind training resource consisting of dictionary-scraped videos. This dataset represents the actual distribution and characteristics of available online sign language data. We select glosses that directly overlap with the already existing datasets WLASL100 and ASLLVD and share their class mappings to allow for transfer learning experiments. Apart from providing baseline results on a pose-based architecture, we introduce a novel approach to training sign language recognition models in a few-shot scenario, resulting in state-of-the-art results on ASLLVD-Skeleton and ASLLVD-Skeleton-20 datasets with top-1 accuracy of $30.97~\%$ and $95.45~\%$, respectively.
翻訳日:2023-01-11 16:44:28 公開日:2023-01-10
# DiffTalk: 汎用トーキングヘッド合成のための拡散モデルの構築

DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis ( http://arxiv.org/abs/2301.03786v1 )

ライセンス: Link先を確認
Shuai Shen, Wenliang Zhao, Zibin Meng, Wanhua Li, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 音声合成はビデオ制作業界にとって有望なアプローチである。 近年, この研究分野において, 生成品質の向上やモデル一般化の促進に多くの努力が注がれている。 しかし,両課題を同時に解決できる作業は少なく,実用的応用には不可欠である。 そこで本稿では,新たに出現する強力な潜在拡散モデルに注目し,音声駆動時間的コヒーレント雑音化プロセス(difftalk)として発話頭部生成をモデル化する。 具体的には、音声信号を単一の駆動要因として使用する代わりに、話し手の制御機構を調査し、参照顔画像とランドマークを人格認識の一般化合成条件として組み込む。 このようにして、提案されたdifftalkは、ソースオーディオと同期して高品質なトークヘッドビデオを生成することができ、さらに重要なことは、さらに微調整することなく、異なるアイデンティティにまたがって自然に一般化することができることである。 さらに、我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。 広範な実験により,提案するdifftalkは,高忠実度音声駆動対話型頭部映像を効率的に合成することを示す。 さらなるビデオ結果については、このデモである \url{https://cloud.tsinghua.edu.cn/f/e13f5aad2f4c4f898ae7/} を参照してください。

Talking head synthesis is a promising approach for the video production industry. Recently, a lot of effort has been devoted in this research area to improve the generation quality or enhance the model generalization. However, there are few works able to address both issues simultaneously, which is essential for practical applications. To this end, in this paper, we turn attention to the emerging powerful Latent Diffusion Models, and model the Talking head generation as an audio-driven temporally coherent denoising process (DiffTalk). More specifically, instead of employing audio signals as the single driving factor, we investigate the control mechanism of the talking face, and incorporate reference face images and landmarks as conditions for personality-aware generalized synthesis. In this way, the proposed DiffTalk is capable of producing high-quality talking head videos in synchronization with the source audio, and more importantly, it can be naturally generalized across different identities without any further fine-tuning. Additionally, our DiffTalk can be gracefully tailored for higher-resolution synthesis with negligible extra computational cost. Extensive experiments show that the proposed DiffTalk efficiently synthesizes high-fidelity audio-driven talking head videos for generalized novel identities. For more video results, please refer to this demonstration \url{https://cloud.tsinghua.edu.cn/f/e13f5aad2f4c4f898ae7/}.
翻訳日:2023-01-11 16:44:01 公開日:2023-01-10
# 多様体制限介入シャプレー値

Manifold Restricted Interventional Shapley Values ( http://arxiv.org/abs/2301.04041v1 )

ライセンス: Link先を確認
Muhammad Faaiz Taufiq, Patrick Bl\"obaum, Lenon Minorics(参考訳) shapley値はモデル予測を説明するためのモデルに依存しない手法である。 シェープリー値を計算する多くの一般的な方法、すなわち 'emph{off-manifold method} は、分布外入力サンプルのモデル評価に依存している。 したがって、得られた説明はデータ分布外のモデルの振る舞いに敏感であり、すべての実用的目的に無関係である。 この問題に苦しむような 'emph{on-manifold method} が提案されているが、そのような手法は入力データ分布に過度に依存するため、直観的で誤解を招く説明となる。 これらの問題を回避するために,モデル評価をデータ多様体に限定することによりモデルの妥当性を尊重する「emph{ManifoldShap}」を提案する。 理論上,実証上,ManifoldShapはモデルの摂動のオフマニフォールドに頑健であり,既存のShapley法よりも正確で直感的な説明につながることを示す。

Shapley values are model-agnostic methods for explaining model predictions. Many commonly used methods of computing Shapley values, known as \emph{off-manifold methods}, rely on model evaluations on out-of-distribution input samples. Consequently, explanations obtained are sensitive to model behaviour outside the data distribution, which may be irrelevant for all practical purposes. While \emph{on-manifold methods} have been proposed which do not suffer from this problem, we show that such methods are overly dependent on the input data distribution, and therefore result in unintuitive and misleading explanations. To circumvent these problems, we propose \emph{ManifoldShap}, which respects the model's domain of validity by restricting model evaluations to the data manifold. We show, theoretically and empirically, that ManifoldShap is robust to off-manifold perturbations of the model and leads to more accurate and intuitive explanations than existing state-of-the-art Shapley methods.
翻訳日:2023-01-11 16:38:42 公開日:2023-01-10
# ニューラル・ラミアンス・フィールド・コードブック

Neural Radiance Field Codebooks ( http://arxiv.org/abs/2301.04101v1 )

ライセンス: Link先を確認
Matthew Wallingford, Aditya Kusupati, Alex Fang, Vivek Ramanujan, Aniruddha Kembhavi, Roozbeh Mottaghi, Ali Farhadi(参考訳) 世界の構成表現は、高レベルのシーン理解と下流タスクへの効率的な転送を可能にするための有望なステップである。 このような複雑なシーンやタスクの表現を学ぶことは、まだ未解決の課題です。 この目的に向けて、新しいビュー再構成を通してオブジェクト中心表現を学習するスケーラブルな方法であるNeural Radiance Field Codebooks (NRC)を導入する。 nrcはボリュームレンダラを通じてデコードされるオブジェクトコードの辞書を使用して、新しいビューからシーンを再構築することを学ぶ。 これにより、下流タスクに転送可能なシーン間で、視覚的および幾何学的パターンの再帰を発見できる。 NRC表現は、THORのオブジェクトナビゲーションによく対応し、2Dおよび3D表現学習法を3.1%の成功率で上回ることを示す。 我々は,従来の手法(29%の相対的改善)よりも複雑な合成(thor)と実シーン(nyu深度)に対して教師なしセグメンテーションを実行できることを示す。 最後に, NRC は THOR において5.5% の精度で深度順序付け作業を改善することを示す。

Compositional representations of the world are a promising step towards enabling high-level scene understanding and efficient transfer to downstream tasks. Learning such representations for complex scenes and tasks remains an open challenge. Towards this goal, we introduce Neural Radiance Field Codebooks (NRC), a scalable method for learning object-centric representations through novel view reconstruction. NRC learns to reconstruct scenes from novel views using a dictionary of object codes which are decoded through a volumetric renderer. This enables the discovery of reoccurring visual and geometric patterns across scenes which are transferable to downstream tasks. We show that NRC representations transfer well to object navigation in THOR, outperforming 2D and 3D representation learning methods by 3.1% success rate. We demonstrate that our approach is able to perform unsupervised segmentation for more complex synthetic (THOR) and real scenes (NYU Depth) better than prior methods (29% relative improvement). Finally, we show that NRC improves on the task of depth ordering by 5.5% accuracy in THOR.
翻訳日:2023-01-11 16:38:23 公開日:2023-01-10
# 言語理解における神経機能向上のためのクロスモデル比較損失

Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language Understanding ( http://arxiv.org/abs/2301.03765v1 )

ライセンス: Link先を確認
Yunchang Zhu, Liang Pang, Kangxi Wu, Yanyan Lan, Huawei Shen, Xueqi Cheng(参考訳) 現在の自然言語理解(NLU)モデルは、モデルサイズと入力コンテキストの両方の観点から継続的にスケールアップされ、より隠された入力ニューロンが導入されている。 これは概して平均的なパフォーマンスを改善するが、余分なニューロンは全てのインスタンスに対して一貫した改善をもたらすわけではない。 これは、いくつかの隠れたニューロンが冗長であり、入力ニューロンに混ざったノイズがモデルに注意をそらす傾向があるためである。 従来の研究は主に、この問題を避けるために、ネットワークプルーニングやコンテキスト選択といった後処理や前処理を追加することで、低ユーティリティニューロンを極端に削減することに焦点を当てていた。 さらに、各ニューロンの有用性を本質的に強化することにより、冗長パラメータの削減と入力ノイズの抑制が可能であるか? モデルがニューロンを効果的に活用できる場合、どのニューロンが消滅したとしても(無効)、そのサブモデルは元の完全モデルに勝るものでなければならない。 このようなモデル間の比較原理に基づいて,幅広いタスクに対するクロスモデル比較損失を提案する。 比較損失は、基本的に、フルモデルとアブレーションモデルのタスク固有の損失の上位のランキングロスであり、フルモデルのタスク固有の損失は最小であると予想されている。 3つの異なるnluタスクから得られた14のデータセットを、4つのトレーニング済み言語モデルに基づいて広範囲に実験し、比較損失の普遍的効果を実証し、パラメータや長い入力の少ないモデルに特に優れていることを見出した。

Current natural language understanding (NLU) models have been continuously scaling up, both in terms of model size and input context, introducing more hidden and input neurons. While this generally improves performance on average, the extra neurons do not yield a consistent improvement for all instances. This is because some hidden neurons are redundant, and the noise mixed in input neurons tends to distract the model. Previous work mainly focuses on extrinsically reducing low-utility neurons by additional post- or pre-processing, such as network pruning and context selection, to avoid this problem. Beyond that, can we make the model reduce redundant parameters and suppress input noise by intrinsically enhancing the utility of each neuron? If a model can efficiently utilize neurons, no matter which neurons are ablated (disabled), the ablated submodel should perform no better than the original full model. Based on such a comparison principle between models, we propose a cross-model comparative loss for a broad range of tasks. Comparative loss is essentially a ranking loss on top of the task-specific losses of the full and ablated models, with the expectation that the task-specific loss of the full model is minimal. We demonstrate the universal effectiveness of comparative loss through extensive experiments on 14 datasets from 3 distinct NLU tasks based on 4 widely used pretrained language models, and find it particularly superior for models with few parameters or long input.
翻訳日:2023-01-11 16:38:06 公開日:2023-01-10
# UnifySpeech: ゼロショットテキスト音声変換と音声変換のための統一フレームワーク

UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice Conversion ( http://arxiv.org/abs/2301.03801v1 )

ライセンス: Link先を確認
Haogeng Liu, Tao Wang, Ruibo Fu, Jiangyan Yi, Zhengqi Wen, Jianhua Tao(参考訳) text-to-speech (tts) と voice conversion (vc) は2つの異なるタスクである。 その類似性から,本論文では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。 このモデルは、音声をコンテンツ情報、話者情報、韻律情報という3つの独立した構成要素に分解できるという仮定に基づいている。 TTSとVCはどちらも、入力からこれら3つの情報をマイニングし、音声の再構成を完了していると見なすことができる。 TTSでは、音声内容情報はテキストから導出され、VCではソース音声から導出されるので、2つのタスクにおける音声内容抽出モジュールを除いて、残りの全てのユニットが共有される。 ベクトル量子化と領域制約を適用して、TSとVCのコンテンツ領域間のギャップを埋める。 客観的および主観的評価は、この2つのタスクを組み合わせることで、TTSはより良い話者モデリング能力を得る一方、VCは印象的な音声コンテンツデカップリング能力を持つことを示す。

Text-to-speech (TTS) and voice conversion (VC) are two different tasks both aiming at generating high quality speaking voice according to different input modality. Due to their similarity, this paper proposes UnifySpeech, which brings TTS and VC into a unified framework for the first time. The model is based on the assumption that speech can be decoupled into three independent components: content information, speaker information, prosody information. Both TTS and VC can be regarded as mining these three parts of information from the input and completing the reconstruction of speech. For TTS, the speech content information is derived from the text, while in VC it's derived from the source speech, so all the remaining units are shared except for the speech content extraction module in the two tasks. We applied vector quantization and domain constrain to bridge the gap between the content domains of TTS and VC. Objective and subjective evaluation shows that by combining the two task, TTS obtains better speaker modeling ability while VC gets hold of impressive speech content decoupling capability.
翻訳日:2023-01-11 16:37:41 公開日:2023-01-10
# 自律的イチゴ収穫ロボットシステム(robofruit)

Autonomous Strawberry Picking Robotic System (Robofruit) ( http://arxiv.org/abs/2301.03947v1 )

ライセンス: Link先を確認
Soran Parsa, Bappaditya Debnath, Muhammad Arshad Khan, Amir Ghalamzan E.(参考訳) イチゴの摘みの課題は、選択的な収穫ロボット技術を必要とした。 しかし、イチゴの選択的収穫は、いくつかの科学的研究課題を形成する複雑である。 ほとんどの利用可能なソリューションは、特定のピッキングシナリオ(例えば、単一の種類の果物を単独で摘み取るなど)にのみ対処する。 それでも、ほとんどの経済的に実現可能なイチゴ(例えば、高収率や耐病性)品種は密集したクラスターで栽培されている。 このようなユースケースにおける現在の知覚技術は非効率である。 そこで本研究では,イチゴを収穫できる新システムを開発した。 この機能により、システムは非常に複雑な選択シナリオ、例えば、密集したクラスタを扱うことができる。 モジュラーシステムの概念は、システムを異なるピックシナリオに適応するように再構成可能にする。 果実果肉に接触することなく, 除去可能なオクルージョンを除去し, イチゴを収穫し, 損傷や傷を回避できる2.5DOF(独立機構と1依存切削システム)を設計, 製造, 試験した。 また,イチゴをローカライズし,そのキーポイント,ピッキングポイントを検知し,熟度を判定する新しい知覚システムを開発した。 この目的で、2つの新しいデータセットを導入しました。 最後に,市販のイチゴ栽培場と3種類のイチゴ品種を用いた研究農場で試験を行った。 その結果,提案システムの有効性と信頼性が示された。 設計したピッキングヘッドは、閉塞を除去し、イチゴを効果的に収穫することができた。 知覚システムはイチゴの熟度を95%の精度で検出・判定することができた。 このシステムでは、検出されたイチゴの87%を収穫し、すべての包装可能な果実の83%の成功率を得た。 議論セクションでは、オープンリサーチの一連の質問についても論じる。

Challenges in strawberry picking made selective harvesting robotic technology demanding. However, selective harvesting of strawberries is complicated forming a few scientific research questions. Most available solutions only deal with a specific picking scenario, e.g., picking only a single variety of fruit in isolation. Nonetheless, most economically viable (e.g. high-yielding and/or disease-resistant) varieties of strawberry are grown in dense clusters. The current perception technology in such use cases is inefficient. In this work, we developed a novel system capable of harvesting strawberries with several unique features. The features allow the system to deal with very complex picking scenarios, e.g. dense clusters. Our concept of a modular system makes our system reconfigurable to adapt to different picking scenarios. We designed, manufactured, and tested a picking head with 2.5 DOF (2 independent mechanisms and 1 dependent cutting system) capable of removing possible occlusions and harvesting targeted strawberries without contacting fruit flesh to avoid damage and bruising. In addition, we developed a novel perception system to localise strawberries and detect their key points, picking points, and determine their ripeness. For this purpose, we introduced two new datasets. Finally, we tested the system in a commercial strawberry growing field and our research farm with three different strawberry varieties. The results show the effectiveness and reliability of the proposed system. The designed picking head was able to remove occlusions and harvest strawberries effectively. The perception system was able to detect and determine the ripeness of strawberries with 95% accuracy. In total, the system was able to harvest 87% of all detected strawberries with a success rate of 83% for all pluckable fruits. We also discuss a series of open research questions in the discussion section.
翻訳日:2023-01-11 16:37:19 公開日:2023-01-10
# RedMule: フレキシブルでエネルギー効率の良いオンチップ線形代数とTinyMLトレーニング加速のための混合精度マトリックス演算エンジン

RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration ( http://arxiv.org/abs/2301.03904v1 )

ライセンス: Link先を確認
Yvan Tortorella, Luca Bertaccini, Luca Benini, Davide Rossi, Francesco Conti(参考訳) TinyMLへの関心の高まり、すなわち数十mWの電力予算に対するニアセンサー機械学習は、現在推論のみではなく、TinyMLクラスのトレーニングの実現を目指している。 現在のトレーニングアルゴリズムは、様々な形式の誤りと勾配バックプロパゲーションに基づいており、精度とダイナミックレンジ要件を満たすために浮動小数点行列演算に依存している。 これまでのところ、これらのオペレーションのエネルギーと電力コストはTinyMLのシナリオでは高すぎると考えられてきた。 本稿では,いくつかのmwパワー予算における近距離センサトレーニングのオープン課題に対処し,マルチ精度浮動小数点一般行列行列演算(gemm-ops)のための低消費電力専用加速器であるredmule - reduced-precision matrix multiplication engine(redmule - reduced-precision matrix multiplication engine)を提案する。 我々はRedMuleを8つのエネルギー効率の高いRISC-Vコアを含むParallel Ultra-Low-Power(PULP)クラスタに統合し、密結合したデータメモリを共用し、22nmで実装した。 GEMM(General Matrix Multiplication)において、RedMulEで強化されたPULPクラスタは755 GFLOPS/Wと920 GFLOPS/Wを達成し、GEMM-Opsの実行時にそれぞれ1.19 TFLOPS/Wと1.67 TFLOPS/Wを達成している。 613MHz、0.8Vの最高のパフォーマンスポイントにおいて、RedMulEはFP16とFP8の最大58.5GFLOPSと117GFLOPSをそれぞれ達成し、計算要素の配列を99.4%利用し、平均60mW未満を消費している。

The increasing interest in TinyML, i.e., near-sensor machine learning on power budgets of a few tens of mW, is currently pushing toward enabling TinyML-class training as opposed to inference only. Current training algorithms, based on various forms of error and gradient backpropagation, rely on floating-point matrix operations to meet the precision and dynamic range requirements. So far, the energy and power cost of these operations has been considered too high for TinyML scenarios. This paper addresses the open challenge of near-sensor training on a few mW power budget and presents RedMulE - Reduced-Precision Matrix Multiplication Engine, a low-power specialized accelerator conceived for multi-precision floating-point General Matrix-Matrix Operations (GEMM-Ops) acceleration, supporting FP16, as well as hybrid FP8 formats, with {sign, exponent, mantissa}=({1,4,3}, {1,5,2}). We integrate RedMule into a Parallel Ultra-Low-Power (PULP) cluster containing eight energy-efficient RISC-V cores sharing a tightly-coupled data memory and implement the resulting system in a 22 nm technology. At its best efficiency point (@ 470 MHz, 0.65 V), the RedMulE-augmented PULP cluster achieves 755 GFLOPS/W and 920 GFLOPS/W during regular General Matrix-Matrix Multiplication (GEMM), and up to 1.19 TFLOPS/W and 1.67 TFLOPS/W when executing GEMM-Ops, respectively, for FP16 and FP8 input/output tensors. In its best performance point (@ 613 MHz, 0.8 V), RedMulE achieves up to 58.5 GFLOPS and 117 GFLOPS for FP16 and FP8, respectively, with 99.4% utilization of the array of Computing Elements and consuming less than 60 mW on average, thus enabling on-device training of deep learning models in TinyML application scenarios while retaining the flexibility to tackle other classes of common linear algebra problems efficiently.
翻訳日:2023-01-11 16:36:44 公開日:2023-01-10
# 深層学習による空間データの半パラメトリック回帰

Semiparametric Regression for Spatial Data via Deep Learning ( http://arxiv.org/abs/2301.03747v1 )

ライセンス: Link先を確認
Kexuan Li, Jun Zhu, Anthony R. Ives, Volker C. Radeloff, Fangfang Wang(参考訳) 本研究では,空間依存データに対する半パラメトリック回帰分析を行う深層学習に基づく手法を提案する。 具体的には、整流線形単位(relu)活性化関数を有する疎結合深層ニューラルネットワークを用いて、空間依存の存在下での応答と共変量の関係を記述する未知回帰関数を推定する。 いくつかの穏やかな条件下では、推定器の一貫性が証明され、収束速度は、(1)ニューラルネットワーククラスのアーキテクチャ、(2)真の平均関数の滑らかさと(内在的な)次元、(3)空間依存の大きさの3つの要因によって決定される。 本手法は,確率勾配勾配勾配最適化アルゴリズムにより,大きなデータセットを扱うことができる。 合成データのシミュレーション実験を行い, 実験結果から, 反応と共変量との複雑な関係を把握できることが示唆された。 最後に,提案手法の有効性と有効性を示すために,実データ解析を行う。

In this work, we propose a deep learning-based method to perform semiparametric regression analysis for spatially dependent data. To be specific, we use a sparsely connected deep neural network with rectified linear unit (ReLU) activation function to estimate the unknown regression function that describes the relationship between response and covariates in the presence of spatial dependence. Under some mild conditions, the estimator is proven to be consistent, and the rate of convergence is determined by three factors: (1) the architecture of neural network class, (2) the smoothness and (intrinsic) dimension of true mean function, and (3) the magnitude of spatial dependence. Our method can handle well large data set owing to the stochastic gradient descent optimization algorithm. Simulation studies on synthetic data are conducted to assess the finite sample performance, the results of which indicate that the proposed method is capable of picking up the intricate relationship between response and covariates. Finally, a real data analysis is provided to demonstrate the validity and effectiveness of the proposed method.
翻訳日:2023-01-11 16:35:04 公開日:2023-01-10
# 言語モデルは知識グラフの死角に聞こえる

Language Models sounds the Death Knell of Knowledge Graphs ( http://arxiv.org/abs/2301.03980v1 )

ライセンス: Link先を確認
Kunal Suri, Atul Singh, Prakhar Mishra, Swapna Sourav Rout, Rajesh Sabapathy(参考訳) 医療ドメインは多くの非構造化テキストと半構造化テキストを生成します。 自然言語処理(NLP)はこのデータを処理するために広く使われている。 深層学習に基づくNLP、特にBERTのような大規模言語モデル(LLM)は広く受け入れられており、多くのアプリケーションで広く使われている。 言語モデルは単語列上の確率分布である。 大量のデータに対する自己教師型学習は、ディープラーニングに基づく言語モデルを自動的に生成する。 BioBERTとMed-BERTは医療分野向けに事前訓練された言語モデルである。 ヘルスケアは、質問応答、情報抽出、名前付きエンティティ認識、検索などの典型的なNLPタスクを使用してプロセスの簡素化と改善を行っている。 しかし、結果の堅牢な適用を保証するためには、NLP実践者はそれらを標準化し標準化する必要がある。 正規化と標準化を達成する主要な方法の1つは知識グラフの利用である。 ナレッジグラフは特定のドメインの概念とその関係をキャプチャしますが、その作成には時間がかかり、ドメインの専門家による手作業による介入が必要です。 SNOMED CT (Systematized Nomenclature of Medicine -- Clinical Terms)、Unified Medical Language System (UMLS)、Gene Ontology (GO) は、医療領域から人気のオントロジーである。 SNOMED CTとUMLSは疾患、症状、診断などの概念を捉え、GOは遺伝子の機能に関する世界最大の情報源である。 医療は様々な種類の薬物、病気、手順に関する情報の爆発に対処してきた。 本稿では、知識グラフは、この領域の問題を解決する最良の解決策ではない、と論じる。 医療分野のLLMを用いて、言語モデルが知識グラフと同じ機能を提供することを示す実験を行い、知識グラフを冗長にする。

Healthcare domain generates a lot of unstructured and semi-structured text. Natural Language processing (NLP) has been used extensively to process this data. Deep Learning based NLP especially Large Language Models (LLMs) such as BERT have found broad acceptance and are used extensively for many applications. A Language Model is a probability distribution over a word sequence. Self-supervised Learning on a large corpus of data automatically generates deep learning-based language models. BioBERT and Med-BERT are language models pre-trained for the healthcare domain. Healthcare uses typical NLP tasks such as question answering, information extraction, named entity recognition, and search to simplify and improve processes. However, to ensure robust application of the results, NLP practitioners need to normalize and standardize them. One of the main ways of achieving normalization and standardization is the use of Knowledge Graphs. A Knowledge Graph captures concepts and their relationships for a specific domain, but their creation is time-consuming and requires manual intervention from domain experts, which can prove expensive. SNOMED CT (Systematized Nomenclature of Medicine -- Clinical Terms), Unified Medical Language System (UMLS), and Gene Ontology (GO) are popular ontologies from the healthcare domain. SNOMED CT and UMLS capture concepts such as disease, symptoms and diagnosis and GO is the world's largest source of information on the functions of genes. Healthcare has been dealing with an explosion in information about different types of drugs, diseases, and procedures. This paper argues that using Knowledge Graphs is not the best solution for solving problems in this domain. We present experiments using LLMs for the healthcare domain to demonstrate that language models provide the same functionality as knowledge graphs, thereby making knowledge graphs redundant.
翻訳日:2023-01-11 16:28:39 公開日:2023-01-10
# テキスト対SQLパーサの推論時間適応のための構造化ケースベース推論

Structured Case-based Reasoning for Inference-time Adaptation of Text-to-SQL parsers ( http://arxiv.org/abs/2301.04110v1 )

ライセンス: Link先を確認
Abhijeet Awasthi, Soumen Chakrabarti, Sunita Sarawagi(参考訳) 意味解析のための推論時間適応法は、新しく観測された領域からの例を反復的な微調整なしで活用するのに有用である。 既存のアプローチは通常、Seq-to-Seqモデルにおけるエンコーダの入力において、新しいドメインから入出力サンプルペア(ケース)を単純に結合することでデコーダをバイアスする。 そのような方法は、ケース例における論理形式の構造を十分に活用できない。 ケースの論理形式と候補出力のサブツリーレベルの類似性を利用して,より優れたデコーダ決定を行う構造的ケースベース推論手法であるStructCBRを提案する。 テキストからSQLへのモデルを適用するタスクにおいて、StructCBRを介してケース例を構造化的に利用することで、5つの異なるデータベースにわたる事前の推論時適応手法よりも一貫したパフォーマンス向上が得られることを示す。 私たちの知る限りでは、テキストからsqlへのモデルの推論時間適応を最初に試み、サブキュー間の構造的類似性をトレーニング可能にする。

Inference-time adaptation methods for semantic parsing are useful for leveraging examples from newly-observed domains without repeated fine-tuning. Existing approaches typically bias the decoder by simply concatenating input-output example pairs (cases) from the new domain at the encoder's input in a Seq-to-Seq model. Such methods cannot adequately leverage the structure of logical forms in the case examples. We propose StructCBR, a structured case-based reasoning approach, which leverages subtree-level similarity between logical forms of cases and candidate outputs, resulting in better decoder decisions. For the task of adapting Text-to-SQL models to unseen schemas, we show that exploiting case examples in a structured manner via StructCBR offers consistent performance improvements over prior inference-time adaptation methods across five different databases. To the best of our knowledge, we are the first to attempt inference-time adaptation of Text-to-SQL models, and harness trainable structured similarity between subqueries.
翻訳日:2023-01-11 16:28:11 公開日:2023-01-10
# ラベル数が少ない学習のための近傍正規化自己学習

Neighborhood-Regularized Self-Training for Learning with Few Labels ( http://arxiv.org/abs/2301.03726v1 )

ライセンス: Link先を確認
Ran Xu, Yue Yu, Hejie Cui, Xuan Kan, Yanqiao Zhu, Joyce Ho, Chao Zhang, Carl Yang(参考訳) 詳細なニューラルネットワーク(DNN)を限定的な監視でトレーニングすることは、アノテーションの負担を大幅に軽減できるため、一般的な研究トピックである。 自己学習は半教師付き学習タスクでうまく適用されているが、自己学習の欠点は、誤った擬似ラベルからのラベルノイズに弱いことである。 類似ラベルを持つサンプルが類似表現を共有する傾向にあるという事実にインスパイアされた我々は、うるさい擬似ラベルの問題に取り組むために、近隣のサンプル選択アプローチを開発する。 さらに,サンプル選択時に異なるラウンドからの予測を集約することで,自己学習を安定化する。 8つのタスクの実験結果から,提案手法はテキストとグラフのデータセットの平均値において,1.83%,2.51%で最強の自己学習ベースラインを上回った。 さらに,提案手法により疑似ラベルのノイズを36.8%低減し,最適なベースラインと比較した場合,57.3%の時間を節約できることを示した。 私たちのコードと付録はhttps://github.com/ritaranx/NeSTにアップロードされます。

Training deep neural networks (DNNs) with limited supervision has been a popular research topic as it can significantly alleviate the annotation burden. Self-training has been successfully applied in semi-supervised learning tasks, but one drawback of self-training is that it is vulnerable to the label noise from incorrect pseudo labels. Inspired by the fact that samples with similar labels tend to share similar representations, we develop a neighborhood-based sample selection approach to tackle the issue of noisy pseudo labels. We further stabilize self-training via aggregating the predictions from different rounds during sample selection. Experiments on eight tasks show that our proposed method outperforms the strongest self-training baseline with 1.83% and 2.51% performance gain for text and graph datasets on average. Our further analysis demonstrates that our proposed data selection strategy reduces the noise of pseudo labels by 36.8% and saves 57.3% of the time when compared with the best baseline. Our code and appendices will be uploaded to https://github.com/ritaranx/NeST.
翻訳日:2023-01-11 16:27:53 公開日:2023-01-10
# 3次元物体検出のためのボクセル化と分類の再考

Rethinking Voxelization and Classification for 3D Object Detection ( http://arxiv.org/abs/2301.04058v1 )

ライセンス: Link先を確認
Youshaa Murhij, Alexander Golodkov, Dmitry Yudin(参考訳) LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。 言い換えれば、検出ネットワークはその予測に十分自信を持っていなければならない。 本稿では,voxelが遅いvoxelベースモデルで動作するのと同じように,高速なピラーベースモデルで動作する高速動的voxelizerを実装することにより,ネットワーク推論の速度と精度を両立させるソリューションを提案する。 さらに,予測対象の分類と誤検出対象のフィルタリングを行う軽量な検出サブヘッドモデルを提案する。 開発済みのコードは、https://github.com/YoushaaMurhij/RVCDet.comで公開されている。

The main challenge in 3D object detection from LiDAR point clouds is achieving real-time performance without affecting the reliability of the network. In other words, the detecting network must be confident enough about its predictions. In this paper, we present a solution to improve network inference speed and precision at the same time by implementing a fast dynamic voxelizer that works on fast pillar-based models in the same way a voxelizer works on slow voxel-based models. In addition, we propose a lightweight detection sub-head model for classifying predicted objects and filter out false detected objects that significantly improves model precision in a negligible time and computing cost. The developed code is publicly available at: https://github.com/YoushaaMurhij/RVCDet.
翻訳日:2023-01-11 16:27:36 公開日:2023-01-10
# マルチターン対話理解のためのチャネル対応デカップリングネットワーク

Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension ( http://arxiv.org/abs/2301.03953v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao, Longxiang Liu(参考訳) 自然言語を理解し、人間と対話するための訓練機械は、人工知能の主要な目標の1つである。 近年では、マッチングネットワークから事前訓練言語モデル(PrLM)への進化が見られる。 prlmの焦点としてのプレーンテキストモデリングとは対照的に、対話テキストは複数の話者を巻き込み、トピック遷移や遠隔発話間の構造依存性といった特別な特徴を反映している。 しかし,関連するprlmモデルでは,対話履歴全体を処理して対話を逐次表現することが一般的である。 したがって、これらの表現に結合された発話相互関係または話者役割の階層的な情報にはよく対応できない。 本研究では,対話履歴に係わる発話認識および話者認識表現を捉えるために,PrLMからの逐次的文脈化を超えた発話間の包括的相互作用のための合成学習を提案する。 本研究では,Transformer ベースの PrLM のマスキング機構により,各単語が現在発話中の単語,他の発話,および2つの話者役割(受信者の発話,受信者の発話)にのみ焦点をあてることにより,文脈化された単語表現を分離する。 さらに、モデルの対話領域への適応を支援するために、ドメイン適応型トレーニング戦略を採用する。 実験の結果,4つのベンチマークデータセットにおけるprlmのベースラインが大幅に向上し,従来の手法よりも新たな性能が得られた。

Training machines to understand natural language and interact with humans is one of the major goals of artificial intelligence. Recent years have witnessed an evolution from matching networks to pre-trained language models (PrLMs). In contrast to the plain-text modeling as the focus of the PrLMs, dialogue texts involve multiple speakers and reflect special characteristics such as topic transitions and structure dependencies between distant utterances. However, the related PrLM models commonly represent dialogues sequentially by processing the pairwise dialogue history as a whole. Thus the hierarchical information on either utterance interrelation or speaker roles coupled in such representations is not well addressed. In this work, we propose compositional learning for holistic interaction across the utterances beyond the sequential contextualization from PrLMs, in order to capture the utterance-aware and speaker-aware representations entailed in a dialogue history. We decouple the contextualized word representations by masking mechanisms in Transformer-based PrLM, making each word only focus on the words in current utterance, other utterances, and two speaker roles (i.e., utterances of sender and utterances of the receiver), respectively. In addition, we employ domain-adaptive training strategies to help the model adapt to the dialogue domains. Experimental results show that our method substantially boosts the strong PrLM baselines in four public benchmark datasets, achieving new state-of-the-art performance over previous methods.
翻訳日:2023-01-11 16:27:26 公開日:2023-01-10
# マルコフのスライスなワッサースタイン距離:独立の予測を超える

Markovian Sliced Wasserstein Distances: Beyond Independent Projections ( http://arxiv.org/abs/2301.03749v1 )

ライセンス: Link先を確認
Khai Nguyen and Tongzheng Ren and Nhat Ho(参考訳) Sliced Wasserstein (SW) 距離は、独立な一様ランダム射影方向による冗長な投影に悩まされる。 問題を部分的に克服するために、マックス K はワッサーシュタイン (Max-K-SW) 距離 (K\geq 1$) をスライスした。 射影数を減らすことができるにもかかわらず、最適化の非最適性のため、Max-K-SWの計量性は保証できない。 さらに、直交制約もまた計算コストが高く、効果的ではないかもしれない。 この問題に対処するために、我々は、射影方向に対して1次マルコフ構造を課すマルコフスライスドワッサースタイン距離(msw)と呼ばれる新しいsw距離の族を導入する。 先行分布,遷移分布,燃焼・薄肉化技術を含むマルコフ構造を同定し,MSWの様々な部材について考察する。 さらに,mswの理論特性として,位相特性(計量性,弱収束性,他距離との接続性),統計特性(サンプル複雑性,モンテカルロ推定誤差),計算特性(計算複雑性とメモリ複雑性)について検討した。 最後に, 勾配流, 色転移, 深部生成モデルなどの様々な応用において, msw 距離とこれまでの sw 変種を比較し, msw の良好な性能を示す。

Sliced Wasserstein (SW) distance suffers from redundant projections due to independent uniform random projecting directions. To partially overcome the issue, max K sliced Wasserstein (Max-K-SW) distance ($K\geq 1$), seeks the best discriminative orthogonal projecting directions. Despite being able to reduce the number of projections, the metricity of Max-K-SW cannot be guaranteed in practice due to the non-optimality of the optimization. Moreover, the orthogonality constraint is also computationally expensive and might not be effective. To address the problem, we introduce a new family of SW distances, named Markovian sliced Wasserstein (MSW) distance, which imposes a first-order Markov structure on projecting directions. We discuss various members of MSW by specifying the Markov structure including the prior distribution, the transition distribution, and the burning and thinning technique. Moreover, we investigate the theoretical properties of MSW including topological properties (metricity, weak convergence, and connection to other distances), statistical properties (sample complexity, and Monte Carlo estimation error), and computational properties (computational complexity and memory complexity). Finally, we compare MSW distances with previous SW variants in various applications such as gradient flows, color transfer, and deep generative modeling to demonstrate the favorable performance of MSW.
翻訳日:2023-01-11 16:26:30 公開日:2023-01-10
# 確率帯域における最高の腕識別:$\beta-$optimalityを超える

Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality ( http://arxiv.org/abs/2301.03785v1 )

ライセンス: Link先を確認
Arpan Mukherjee and Ali Tajer(参考訳) 本稿では,固定信頼パラメトリック設定における確率的多腕バンディット(mabs)における最良腕識別(bai)に着目した。 このような純粋な探索問題において、サンプリング戦略の精度は、アーム間のサンプリング資源の逐次配置に決定的に影響を及ぼす。 BAIの既存のアプローチは次のような問題に対処している。 ベストアームのサンプルの$\beta$分を費やすとき、最適なサンプリング戦略は何ですか? これらのアプローチは$\beta$を調整可能なパラメータとして扱い、$\beta$を選択するまでの最適性を保証する効率的なアルゴリズムを提供する。 しかし、BAIの決定とパフォーマンスは$\beta$の選択に非常に敏感である。 本稿では、$\beta$に非依存なBAIアルゴリズムを提供し、$\beta$をチューニングする必要がなく、$\beta$の最適値を含む最適なアロケーション戦略を指定する。 さらに、既存の関連文献は指数分布の族に焦点をあてている。 本稿では, 平均値によってパラメータ化された任意の分布列のより一般的な設定について考察する。

This paper focuses on best arm identification (BAI) in stochastic multi-armed bandits (MABs) in the fixed-confidence, parametric setting. In such pure exploration problems, the accuracy of the sampling strategy critically hinges on the sequential allocation of the sampling resources among the arms. The existing approaches to BAI address the following question: what is an optimal sampling strategy when we spend a $\beta$ fraction of the samples on the best arm? These approaches treat $\beta$ as a tunable parameter and offer efficient algorithms that ensure optimality up to selecting $\beta$, hence $\beta-$optimality. However, the BAI decisions and performance can be highly sensitive to the choice of $\beta$. This paper provides a BAI algorithm that is agnostic to $\beta$, dispensing with the need for tuning $\beta$, and specifies an optimal allocation strategy, including the optimal value of $\beta$. Furthermore, the existing relevant literature focuses on the family of exponential distributions. This paper considers a more general setting of any arbitrary family of distributions parameterized by their mean values (under mild regularity conditions).
翻訳日:2023-01-11 16:26:05 公開日:2023-01-10
# 生成混合モーダル言語モデルのスケーリング法則

Scaling Laws for Generative Mixed-Modal Language Models ( http://arxiv.org/abs/2301.03728v1 )

ライセンス: Link先を確認
Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer(参考訳) 生成言語モデルは、本質的にデータモダリティ(VQ-VAEからの任意の画像トークンの置換、HuBERTからの音声トークン、言語やコードのBPEトークンなど)の組み合わせを表現することができるトークンの列上の分布を定義する。 このような混合モーダルモデルのスケーリング特性をよりよく理解するために,8億から300億までの7つの異なるモーダルとモデルサイズを用いて,5100億トークンでトレーニングした250以上の実験を行った。 個々のモダリティとそれらの相互作用の寄与を統一する新しい混合モーダルスケーリング則を報告する。 具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。 また, 学習中に観察された4つの経験的現象, 自然にモダリティを交互に行う創発的座標・アセント型トレーニング, 臨界ハイパーパラメータ選択ガイドライン, 混合モーダル競争とトレーニング安定性の関連を見出した。 最後に、30bの音声テキストモデルをトレーニングしてスケーリング法則をテストし、対応するユニモーダルモデルを大幅に上回らせます。 全体として、我々の研究は、一意な分布特性を持つ統一モデルの重要な新しいクラスである混合モーダル生成モデルの設計と訓練に関する貴重な洞察を提供する。

Generative language models define distributions over sequences of tokens that can represent essentially any combination of data modalities (e.g., any permutation of image tokens from VQ-VAEs, speech tokens from HuBERT, BPE tokens for language or code, and so on). To better understand the scaling properties of such mixed-modal models, we conducted over 250 experiments using seven different modalities and model sizes ranging from 8 million to 30 billion, trained on 5-100 billion tokens. We report new mixed-modal scaling laws that unify the contributions of individual modalities and the interactions between them. Specifically, we explicitly model the optimal synergy and competition due to data and model size as an additive term to previous uni-modal scaling laws. We also find four empirical phenomena observed during the training, such as emergent coordinate-ascent style training that naturally alternates between modalities, guidelines for selecting critical hyper-parameters, and connections between mixed-modal competition and training stability. Finally, we test our scaling law by training a 30B speech-text model, which significantly outperforms the corresponding unimodal models. Overall, our research provides valuable insights into the design and training of mixed-modal generative models, an important new class of unified models that have unique distributional properties.
翻訳日:2023-01-11 16:20:30 公開日:2023-01-10
# ビッグブラザーや弟はいない - リンク予測と質問応答のための言語モデルへの知識の注入

There is No Big Brother or Small Brother: Knowledge Infusion in Language Models for Link Prediction and Question Answering ( http://arxiv.org/abs/2301.04013v1 )

ライセンス: Link先を確認
Ankush Agarwal, Sakharam Gawade, Sachin Channabasavarajendra, Pushpak Bhattacharyya(参考訳) 知識グラフとディープラーニングの統合は、様々な自然言語処理(NLP)タスクの性能向上に成功している。 本稿では,航空,映画,webの3領域にまたがる言語モデル,t5,bloomを用いて,知識を注入したリンク予測と質問応答に着目する。 この文脈では、大小の言語モデルで知識を注入し、その性能を研究し、類似した性能を見出す。 Aviation Knowledge Graphのリンク予測タスクでは,T5-small,T5-base,T5-large,BLOOMを用いて0.2 hit@1スコアを得る。 テンプレートベースのスクリプトを使用して、NTSB(National Transportation Safety Board)レポートから100万組の合成ファクトイドQAペアを航空領域に作成する。 キュレートされたQAペアでは、T5の3つのモデルが0.7 Hit@1スコアを獲得しました。 学生のt-test と cohen の kappa スコアで結果を確認した。 T5-smallおよびT5-largeを用いた航空知識グラフのリンク予測では,コーエンのカッパスコアが0.76であり,モデル間ではかなりの一致を示した。 そこで我々は,小言語モデルが知識の流入とともに大規模言語モデルと類似していることを推察する。

The integration of knowledge graphs with deep learning is thriving in improving the performance of various natural language processing (NLP) tasks. In this paper, we focus on knowledge-infused link prediction and question answering using language models, T5, and BLOOM across three domains: Aviation, Movie, and Web. In this context, we infuse knowledge in large and small language models and study their performance, and find the performance to be similar. For the link prediction task on the Aviation Knowledge Graph, we obtain a 0.2 hits@1 score using T5-small, T5-base, T5-large, and BLOOM. Using template-based scripts, we create a set of 1 million synthetic factoid QA pairs in the aviation domain from National Transportation Safety Board (NTSB) reports. On our curated QA pairs, the three models of T5 achieve a 0.7 hits@1 score. We validate out findings with the paired student t-test and Cohen's kappa scores. For link prediction on Aviation Knowledge Graph using T5-small and T5-large, we obtain a Cohen's kappa score of 0.76, showing substantial agreement between the models. Thus, we infer that small language models perform similar to large language models with the infusion of knowledge.
翻訳日:2023-01-11 16:20:06 公開日:2023-01-10
# アンサンブル学習における多様性の統一理論

A Unified Theory of Diversity in Ensemble Learning ( http://arxiv.org/abs/2301.03962v1 )

ライセンス: Link先を確認
Danny Wood and Tingting Mu and Andrew Webb and Henry Reeve and Mikel Lujan and Gavin Brown(参考訳) 本稿では,多様な教師付き学習シナリオにおける多様性の性質と効果を説明する,アンサンブル多様性の理論を提案する。 アンサンブルの多様性を理解するというこの課題は、アンサンブルの学習の聖杯と呼ばれ、30年以上にわたり公然とされてきた。 我々の枠組みは,アンサンブルの偏差分解において,多様性が隠された次元であることを明らかにする。 特に、分類と回帰損失、例えば正方形とクロスエントロピーの両方について、バイアス分散-多様性分解の族が証明される。 このフレームワークは、損失に特有のそのような分解を可能にするコンバインダールールを自動的に識別する方法論を提供する。 したがって多様性の定式化は、損失と組み合わせという2つの設計選択にのみ依存する。 特定の選択肢(多数決で 0-1 の損失など)については、多様性の効果は必ずターゲットラベルに依存する。 実験は、我々のフレームワークを使って、一般的なアンサンブル手法の多様性を増進するメカニズムを理解する方法を示している。

We present a theory of ensemble diversity, explaining the nature and effect of diversity for a wide range of supervised learning scenarios. This challenge, of understanding ensemble diversity, has been referred to as the holy grail of ensemble learning, an open question for over 30 years. Our framework reveals that diversity is in fact a hidden dimension in the bias-variance decomposition of an ensemble. In particular, we prove a family of exact bias-variance-diversity decompositions, for both classification and regression losses, e.g., squared, and cross-entropy. The framework provides a methodology to automatically identify the combiner rule enabling such a decomposition, specific to the loss. The formulation of diversity is therefore dependent on just two design choices: the loss, and the combiner. For certain choices (e.g., 0-1 loss with majority voting) the effect of diversity is necessarily dependent on the target label. Experiments illustrate how we can use our framework to understand the diversity-encouraging mechanisms of popular ensemble methods: Bagging, Boosting, and Random Forests.
翻訳日:2023-01-11 16:19:45 公開日:2023-01-10
# 世界モデルによる海外ドメインのマスタリング

Mastering Diverse Domains through World Models ( http://arxiv.org/abs/2301.04104v1 )

ライセンス: Link先を確認
Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap(参考訳) 汎用インテリジェンスには、多くのドメインにわたるタスクの解決が必要である。 現在の強化学習アルゴリズムはこの可能性を秘めているが、新しいタスクに調整するために必要なリソースと知識に支えられている。 本稿では,世界モデルに基づく汎用かつスケーラブルなアルゴリズムであるDreamerV3について述べる。 これらのドメインには、連続的かつ離散的なアクション、視覚的および低次元の入力、2Dおよび3Dの世界、異なるデータ予算、報酬頻度、報酬スケールが含まれる。 我々はDreamerV3の優れたスケーリング特性を観察し、より大きなモデルでデータ効率と最終的な性能を直接変換する。 DreamerV3は、人間のデータやカリキュラムを使わずにMinecraftのダイヤモンドをゼロから収集する最初のアルゴリズムだ。 我々の一般的なアルゴリズムは、強化学習を広く適用し、難しい意思決定問題へのスケーリングを可能にします。

General intelligence requires solving tasks across many domains. Current reinforcement learning algorithms carry this potential but are held back by the resources and knowledge required to tune them for new tasks. We present DreamerV3, a general and scalable algorithm based on world models that outperforms previous approaches across a wide range of domains with fixed hyperparameters. These domains include continuous and discrete actions, visual and low-dimensional inputs, 2D and 3D worlds, different data budgets, reward frequencies, and reward scales. We observe favorable scaling properties of DreamerV3, with larger models directly translating to higher data-efficiency and final performance. Applied out of the box, DreamerV3 is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula, a long-standing challenge in artificial intelligence. Our general algorithm makes reinforcement learning broadly applicable and allows scaling to hard decision making problems.
翻訳日:2023-01-11 16:19:27 公開日:2023-01-10
# 深層モデルフリー強化学習における知覚学習

Learning to Perceive in Deep Model-Free Reinforcement Learning ( http://arxiv.org/abs/2301.03730v1 )

ライセンス: Link先を確認
Gon\c{c}alo Querido, Alberto Sardinha, Francisco Melo(参考訳) 本研究は、入力観察の一部にのみアクセス可能な未知のタスクの完了方法を学ぶことができる、新しいモデルフリー強化学習(RL)エージェントを提案する。 我々は、人間の特徴である視覚的注意と能動的知覚の概念からインスピレーションを得て、エージェントにそれらを適用しようとした。 このメカニズムでは、モデルはまず入力画像のどの領域を見るべきかを決定し、その後にその領域のピクセルにアクセスする。 現在のRLエージェントはこの原則に従わず、これらのメカニズムが本研究と同じ目的に適用されるのを見たことがない。 私たちのアーキテクチャでは、リカレント・アテンション・モデル(ram)と呼ばれる既存のモデルに適応させ、ppo(proximal policy optimization)アルゴリズムと組み合わせます。 これらの特徴を持つモデルが、完全な入力観測にアクセスできる最先端のモデルフリーRLエージェントと同等の性能を達成できるかどうかを考察する。 この分析は、離散的なアクション空間を持つPongとSpaceInvadersと、連続的なアクション空間を持つCarRacingの2つのAtariゲームで行われている。 その性能を評価することに加えて、モデルの注意の動きを分析し、人間の行動の例であるものと比較する。 このような視覚的制限があっても、テストされた3つのゲームのうち2つのPPO+LSTMの性能に一致していることを示す。

This work proposes a novel model-free Reinforcement Learning (RL) agent that is able to learn how to complete an unknown task having access to only a part of the input observation. We take inspiration from the concepts of visual attention and active perception that are characteristic of humans and tried to apply them to our agent, creating a hard attention mechanism. In this mechanism, the model decides first which region of the input image it should look at, and only after that it has access to the pixels of that region. Current RL agents do not follow this principle and we have not seen these mechanisms applied to the same purpose as this work. In our architecture, we adapt an existing model called recurrent attention model (RAM) and combine it with the proximal policy optimization (PPO) algorithm. We investigate whether a model with these characteristics is capable of achieving similar performance to state-of-the-art model-free RL agents that access the full input observation. This analysis is made in two Atari games, Pong and SpaceInvaders, which have a discrete action space, and in CarRacing, which has a continuous action space. Besides assessing its performance, we also analyze the movement of the attention of our model and compare it with what would be an example of the human behavior. Even with such visual limitation, we show that our model matches the performance of PPO+LSTM in two of the three games tested.
翻訳日:2023-01-11 16:18:32 公開日:2023-01-10
# エントロピーな逆データ拡張でバイアスを超えて見る

Look Beyond Bias with Entropic Adversarial Data Augmentation ( http://arxiv.org/abs/2301.03844v1 )

ライセンス: Link先を確認
Thomas Duboudin (imagine), Emmanuel Dellandr\'ea, Corentin Abgrall, Gilles H\'enaff, Liming Chen(参考訳) ディープニューラルネットワークは、スパイラルパターンと因果パターンを区別せず、他を無視しながら最も予測的なパターンのみを学ぶ。 この近距離学習行動は、ネットワークがスプリアス相関がもはや保持されない未知のテスト時間分布に一般化する能力に有害である。 デバイアス法(debiasing method)は、このようなスプリアスバイアスに対してネットワークを堅牢にするために開発されたが、データセットが偏りがあるかどうかを事前に知る必要があり、クラスの大部分の偏りを表示しないマイノリティの反例を多用する。 本稿では,'隠れ'因果情報もバイアス画像に含まれることが多いため,このようなサンプルは必ずしも必要ではないと主張する。 そこで,本研究では,それぞれが異質で難解な特徴を持つ予測的分類ショートカットを,反例として機能するマイノリティサンプルを伴わずに,3つの公開合成分類ベンチマークを提案する。 まず,我々のベンチマークにおける最先端戦略の有効性を検証し,満足のいく結果が得られないことを示す。 そこで我々は,その特異な性質にもかかわらず,エントロピーな逆データ拡張訓練方式を用いて,ベンチマークで成功できるアーキテクチャを提案する。 エンコーダデコーダアーキテクチャは、その出力の条件エントロピーを最大化し、初期コンテンツのできるだけ多く保持することにより、分類器によって認識されない画像を生成する。 混乱するプロセスを通じて破壊された情報を正確に制御することで、ショートカットを取り除き、他の全てをそのままにすることができるのです。 さらに,BARデータセットの最先端と競合する結果により,実環境における本手法の適用性が保証される。

Deep neural networks do not discriminate between spurious and causal patterns, and will only learn the most predictive ones while ignoring the others. This shortcut learning behaviour is detrimental to a network's ability to generalize to an unknown test-time distribution in which the spurious correlations do not hold anymore. Debiasing methods were developed to make networks robust to such spurious biases but require to know in advance if a dataset is biased and make heavy use of minority counterexamples that do not display the majority bias of their class. In this paper, we argue that such samples should not be necessarily needed because the ''hidden'' causal information is often also contained in biased images. To study this idea, we propose 3 publicly released synthetic classification benchmarks, exhibiting predictive classification shortcuts, each of a different and challenging nature, without any minority samples acting as counterexamples. First, we investigate the effectiveness of several state-of-the-art strategies on our benchmarks and show that they do not yield satisfying results on them. Then, we propose an architecture able to succeed on our benchmarks, despite their unusual properties, using an entropic adversarial data augmentation training scheme. An encoder-decoder architecture is tasked to produce images that are not recognized by a classifier, by maximizing the conditional entropy of its outputs, and keep as much as possible of the initial content. A precise control of the information destroyed, via a disentangling process, enables us to remove the shortcut and leave everything else intact. Furthermore, results competitive with the state-of-the-art on the BAR dataset ensure the applicability of our method in real-life situations.
翻訳日:2023-01-11 16:18:10 公開日:2023-01-10
# シンガポールの食品データを用いた効果的な食品認識による栄養支援型ヘルスケアプラットフォーム

A Dietary Nutrition-aided Healthcare Platform via Effective Food Recognition on a Localized Singaporean Food Dataset ( http://arxiv.org/abs/2301.03829v1 )

ライセンス: Link先を確認
Kaiping Zheng, Thao Nguyen, Jesslyn Hwei Sing Chong, Charlene Enhui Goh, Melanie Herschel, Hee Hoon Lee, Beng Chin Ooi, Wei Wang and James Yip(参考訳) ローカライズドフードデータセットは、国民の食事行動を調べるための国の特別な料理を明らかにする上で重要な意味を持ち、健康状態や病気の開発に光を当てる。 本稿では,シンガポールにおける正確な食品認識の需要を軸として,シンガポールにおける多様な医療関連アプリケーションをサービスとしてインキュベーションするFoodSGプラットフォームを開発した。 我々は,シンガポールの食品データデータセットfoosg-233を,食品コンピューティングにおける今後のデータ管理研究を促進するための体系的な清掃・キュレーションパイプラインと共にリリースする。 シンガポールの多孔食料理がもたらす認知能力のハードルを克服するため,食品認識モデルであるFoodSG-SCLに教師付きコントラスト学習を統合して,固い正・負のサンプルを抽出し,精度を高めることを提案する。 包括的評価を通じて,食品関連データ集約型医療アプリケーションに関するデータ管理コミュニティの実践者との洞察に富んだ経験を共有する。 foodsg-233データセットは、https://foodlg.comp.nus.edu.sg/からアクセスできる。

Localized food datasets have profound meaning in revealing a country's special cuisines to explore people's dietary behaviors, which will shed light on their health conditions and disease development. In this paper, revolving around the demand for accurate food recognition in Singapore, we develop the FoodSG platform to incubate diverse healthcare-oriented applications as a service in Singapore, taking into account their shared requirements. We release a localized Singaporean food dataset FoodSG-233 with a systematic cleaning and curation pipeline for promoting future data management research in food computing. To overcome the hurdle in recognition performance brought by Singaporean multifarious food dishes, we propose to integrate supervised contrastive learning into our food recognition model FoodSG-SCL for the intrinsic capability to mine hard positive/negative samples and therefore boost the accuracy. Through a comprehensive evaluation, we share the insightful experience with practitioners in the data management community regarding food-related data-intensive healthcare applications. The FoodSG-233 dataset can be accessed via: https://foodlg.comp.nus.edu.sg/.
翻訳日:2023-01-11 16:17:42 公開日:2023-01-10
# オンライン教育コースにおけるトレーサ生成へのAIによるアプローチ

AI based approach to Trailer Generation for Online Educational Courses ( http://arxiv.org/abs/2301.03957v1 )

ライセンス: Link先を確認
Prakhar Mishra, Chaitali Diwan, Srinath Srinivasa, G. Srinivasaraghavan(参考訳) 本稿では,オンライン教育コースのショートビデオという形で,AIによるトレーサ生成手法を提案する。 トレーラーはコースの概要を学習者に提供し、学習したいコースについて情報を得る手助けをする。 また、学習者の間で好奇心や興味を喚起し、コースを追求することを奨励する。 手動でトレーラーを製作することは可能だが、幅広いデザイン、スパン選択、ビデオ編集、ドメイン知識など幅広い分野にわたる人間の努力とスキルを必要とするため、特に学術的な環境では、時間がかかり、費用がかかる。 本研究で提案するフレームワークは、機械学習と自然言語処理技術を利用して、トレーラーのテキストコンテンツのほとんどが自動生成され、トレーラー映像が自動生成されるビデオトレーラー生成のためのテンプレートベース手法である。 提案するトレーラーは,様々な手法を用いてコンテンツを選択,パラフレーズ化,あるいは生成した様々な断片からなるタイムラインの形式である。 音声オーバーテキスト、字幕、アニメーションなどを追加して、全体的な体験を作り出すことで、フラグメントをさらに強化する。 最後に,63人の評価者によるユーザ評価を行い,システムによって生成されたトレーラの評価を行い,その結果を得た。

In this paper, we propose an AI based approach to Trailer Generation in the form of short videos for online educational courses. Trailers give an overview of the course to the learners and help them make an informed choice about the courses they want to learn. It also helps to generate curiosity and interest among the learners and encourages them to pursue a course. While it is possible to manually generate the trailers, it requires extensive human efforts and skills over a broad spectrum of design, span selection, video editing, domain knowledge, etc., thus making it time-consuming and expensive, especially in an academic setting. The framework we propose in this work is a template based method for video trailer generation, where most of the textual content of the trailer is auto-generated and the trailer video is automatically generated, by leveraging Machine Learning and Natural Language Processing techniques. The proposed trailer is in the form of a timeline consisting of various fragments created by selecting, para-phrasing or generating content using various proposed techniques. The fragments are further enhanced by adding voice-over text, subtitles, animations, etc., to create a holistic experience. Finally, we perform user evaluation with 63 human evaluators for evaluating the trailers generated by our system and the results obtained were encouraging.
翻訳日:2023-01-11 16:17:23 公開日:2023-01-10
# ReVoLT: ターゲット駆動ナビゲーションのための関係推論とボロノイ局所グラフ計画

ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for Target-driven Navigation ( http://arxiv.org/abs/2301.02382v2 )

ライセンス: Link先を確認
Junjia Liu, Jianfei Guo, Zehui Meng, Jingtao Xue(参考訳) Embodied AIは、インテリジェントなエンティティと現実世界の相互作用を強調する必然的なトレンドであり、ロボティクス、特にターゲット駆動ナビゲーションに広く応用されている。 このタスクは、未知の家庭環境において、特定のカテゴリーのオブジェクトを効率的に見つけることを必要とする。 最近の研究は、グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に焦点を当てている。 しかし、ほとんどのロボットは、不完全な関係グラフを通して、エンドツーエンドで観察から直接ロボットの動作を得るが、これは解釈可能で信頼性に欠ける。 このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。 (a)物体検出用視覚フロントエンド (b)高水準推論者(意味サブゴールを推定する) (c)中間レベルプランナー(幾何学的位置を計算)、及び (d)低レベルコントローラ(アクションの実行)。 ReVoLTは多層意味空間トポロジグラフで動作する。 推論器は、教師なしグラフsage、gcn、およびgraphrnnベースの領域ロールアウトからなる組合せ関係抽出ネットワークから得られる、事前としてマルチフォーム構造化関係を用いる。 セマンティックなサブゴールを推論し、エクスプロイト(深み優先探索)と探索(参照)のトレードオフを考慮し、アッパー信頼境界木(UCT)で実行します。 軽量中間レベルプランナーは、オンライン構築されたボロノイ局所グラフを介して、瞬時空間的な部分ゴール位置を生成する。 シミュレーション実験により,本フレームワークは目標駆動型ナビゲーションタスクの性能向上と,既存の最先端手法と比較して80%向上した一般化を実現していることが示された。 コードと結果のビデオはhttps://ventusff.github.io/ReVoLT-website/で公開される。

Embodied AI is an inevitable trend that emphasizes the interaction between intelligent entities and the real world, with broad applications in Robotics, especially target-driven navigation. This task requires the robot to find an object of a certain category efficiently in an unknown domestic environment. Recent works focus on exploiting layout relationships by graph neural networks (GNNs). However, most of them obtain robot actions directly from observations in an end-to-end manner via an incomplete relation graph, which is not interpretable and reliable. We decouple this task and propose ReVoLT, a hierarchical framework: (a) an object detection visual front-end, (b) a high-level reasoner (infers semantic sub-goals), (c) an intermediate-level planner (computes geometrical positions), and (d) a low-level controller (executes actions). ReVoLT operates with a multi-layer semantic-spatial topological graph. The reasoner uses multiform structured relations as priors, which are obtained from combinatorial relation extraction networks composed of unsupervised GraphSAGE, GCN, and GraphRNN-based Region Rollout. The reasoner performs with Upper Confidence Bound for Tree (UCT) to infer semantic sub-goals, accounting for trade-offs between exploitation (depth-first searching) and exploration (regretting). The lightweight intermediate-level planner generates instantaneous spatial sub-goal locations via an online constructed Voronoi local graph. The simulation experiments demonstrate that our framework achieves better performance in the target-driven navigation tasks and generalizes well, which has an 80% improvement compared to the existing state-of-the-art method. The code and result video will be released at https://ventusff.github.io/ReVoLT-website/.
翻訳日:2023-01-11 14:07:39 公開日:2023-01-10
# the algonauts project 2023 challenge: 人間の脳が自然の場面をどのように理解するか

The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes ( http://arxiv.org/abs/2301.03198v2 )

ライセンス: Link先を確認
A.T. Gifford, B. Lahner, S. Saba-Sadiya, M.G. Vilas, A. Lascelles, A. Oliva, K. Kay, G. Roig, R.M. Cichy(参考訳) 生物学と人工知能の科学はいっそう絡み合っている。 ニューラルコンピューティングの原理は、脳の理論的理解を進めるために使われる新しいインテリジェントマシンを刺激する。 生物と人工知能の研究者間のさらなるアイデアの交換とコラボレーションを促進するために、我々は2023年のalgonauts project challenge: how the human brain makes sense of natural scene (http://algonauts.csail.mit.edu)の設置を紹介する。 このインストールは、視覚シーンに対するfMRI応答の最大かつ最もリッチなデータセットであるNatural Scenes Dataset(NSD)を使用して、視覚脳の計算モデルを構築するために、人工知能と生物学的インテリジェンス分野の協力を促す。 nsdは73,000の異なる自然色シーンに対して高品質なfmri応答を提供し、2023年のチャレンジで推進されたデータ駆動モデル構築アプローチの理想的な候補となっている。 課題はすべてオープンであり、公開リーダボードを通じて結果を直接比較し、透過的に各提出後に自動的に更新することで、迅速なモデル開発が可能になる。 2023年の設置は、生物と人工知能の科学者の間で共生的なコラボレーションを引き起こし、最先端の計算モデルを通じて脳をより深く理解し、生物学的システムからの帰納的バイアスを通じて人工知能エージェントをエンジニアリングする新しい方法につながると信じている。

The sciences of biological and artificial intelligence are ever more intertwined. Neural computational principles inspire new intelligent machines, which are in turn used to advance theoretical understanding of the brain. To promote further exchange of ideas and collaboration between biological and artificial intelligence researchers, we introduce the 2023 installment of the Algonauts Project challenge: How the Human Brain Makes Sense of Natural Scenes (http://algonauts.csail.mit.edu). This installment prompts the fields of artificial and biological intelligence to come together towards building computational models of the visual brain using the largest and richest dataset of fMRI responses to visual scenes, the Natural Scenes Dataset (NSD). NSD provides high-quality fMRI responses to ~73,000 different naturalistic colored scenes, making it the ideal candidate for data-driven model building approaches promoted by the 2023 challenge. The challenge is open to all and makes results directly comparable and transparent through a public leaderboard automatically updated after each submission, thus allowing for rapid model development. We believe that the 2023 installment will spark symbiotic collaborations between biological and artificial intelligence scientists, leading to a deeper understanding of the brain through cutting-edge computational models and to novel ways of engineering artificial intelligent agents through inductive biases from biological systems.
翻訳日:2023-01-11 14:07:14 公開日:2023-01-10
# 複素ブラウンSachdev-Ye-Kitaevモデルの情報スクランブルと絡み合いダイナミクス

Information Scrambling and Entanglement Dynamics of Complex Brownian Sachdev-Ye-Kitaev Models ( http://arxiv.org/abs/2301.03189v2 )

ライセンス: Link先を確認
Pengfei Zhang(参考訳) 本研究では, 複素ブラウン・サハデフ・イ・キタエフ(cBSYK)モデルにおける情報スクランブルと絡み合いのダイナミクスについて検討し, 電荷密度$n$への依存性に着目した。 まず1つのcBSYKモデルでスクランブルンの有効理論を導出し、遅延時間OTOCと演算子サイズの閉形式表現を与える。 特に、OTOCの結果は[1]の数値的な観測と一致している。 次に、cBSYK鎖の絡み合いのダイナミクスを研究する。 R'enyiエントロピーとフォン・ノイマンエントロピーの両エンタングルメント速度の密度依存性をバタフライ速度と比較して導出した。 さらに、繰り返し測定を加えて、非相互作用モデルに対する$U(2)_L\otimes U(2)_R$対称性を示す測定誘起遷移の有効理論を導出する。

In this work, we study the information scrambling and the entanglement dynamics in the complex Brownian Sachdev-Ye-Kitaev (cBSYK) models, focusing on their dependence on the charge density $n$. We first derive the effective theory for scramblons in a single cBSYK model, which gives closed-form expressions for the late-time OTOC and operator size. In particular, the result for OTOC is consistent with numerical observations in [1]. We then study the entanglement dynamics in cBSYK chains. We derive the density dependence of the entanglement velocity for both R\'enyi entropies and the Von Neumann entropy, with a comparison to the butterfly velocity. We further consider adding repeated measurements and derive the effective theory of the measurement induced transition which shows $U(2)_L\otimes U(2)_R$ symmetry for non-interacting models.
翻訳日:2023-01-11 14:06:45 公開日:2023-01-10
# 畳み込みネットワークのためのBERTの設計:スパースと階層型マスケッドモデリング

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling ( http://arxiv.org/abs/2301.03580v2 )

ライセンス: Link先を確認
Keyu Tian, Yi Jiang, Qishuai Diao, Chen Lin, Liwei Wang and Zehuan Yuan(参考訳) BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する上での2つの重要な障害を特定し克服する。 (i)畳み込み操作は、不規則で無作為な入力画像を処理できない。 (ii) bertプリトレーニングの単スケール性は、convnetの階層構造と矛盾する。 のために i) 未知の画素を3次元点雲のスパースボクセルとして扱い, スパース畳み込みを用いてエンコードする。 これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。 のために (II) 階層型デコーダを開発し, マルチスケール特徴量から画像を再構成する。 Sparse masKed Modeling (SparK) と呼ばれる手法は一般的に、バックボーンの修正なしに任意の畳み込みモデル上で直接使用できる。 古典的(ResNet)モデルと現代的(ConvNeXt)モデルの両方で検証する:3つの下流タスクでは、最先端のコントラスト学習とトランスフォーマーベースのマスクモデリングを、同様に大きなマージン(約+1.0%)で上回る。 オブジェクト検出とインスタンスセグメンテーションの改善(+3.5%まで)により、学習した機能の強い転送可能性を検証する。 また、より大きなモデルでより多くの利得を観察することで、その好ましいスケーリング行動を見つけます。 これらすべての証拠は、convnetsにおける生成前訓練の有望な未来を明らかにする。 コードとモデルはhttps://github.com/keyu-tian/sparkでリリースされている。

We identify and overcome two key obstacles in extending the success of BERT-style pre-training, or the masked image modeling, to convolutional networks (convnets): (i) convolution operation cannot handle irregular, random-masked input images; (ii) the single-scale nature of BERT pre-training is inconsistent with convnet's hierarchical structure. For (i), we treat unmasked pixels as sparse voxels of 3D point clouds and use sparse convolution to encode. This is the first use of sparse convolution for 2D masked modeling. For (ii), we develop a hierarchical decoder to reconstruct images from multi-scale encoded features. Our method called Sparse masKed modeling (SparK) is general: it can be used directly on any convolutional model without backbone modifications. We validate it on both classical (ResNet) and modern (ConvNeXt) models: on three downstream tasks, it surpasses both state-of-the-art contrastive learning and transformer-based masked modeling by similarly large margins (around +1.0%). Improvements on object detection and instance segmentation are more substantial (up to +3.5%), verifying the strong transferability of features learned. We also find its favorable scaling behavior by observing more gains on larger models. All this evidence reveals a promising future of generative pre-training on convnets. Codes and models are released at https://github.com/keyu-tian/SparK.
翻訳日:2023-01-11 14:04:25 公開日:2023-01-10
# 従来の可読性公式と英語の比較

Traditional Readability Formulas Compared for English ( http://arxiv.org/abs/2301.02975v2 )

ライセンス: Link先を確認
Bruce W. Lee, Jason Hyung-Jong Lee(参考訳) 伝統的な英語の可読性公式(式)は20世紀に大きく発展した。 それでも、多くの研究者が様々なNLPアプリケーションに頼っている。 この現象はおそらく可読性の公式の利便性と単純さに起因する。 本研究ではNLPコミュニティに貢献する。 1.新英語可読性公式(NERF)の導入 2. 旧可読性式(フレッシュ・キンケイド級、フォッグ指数、SMOG指数、コールマン・リオー指数、自動可読性指数)の係数の補正 3 可読性式の評価、簡易化研究及び医用テキストにおける使用、及び さまざまなNLPプロジェクトに広く適用するためのPythonベースのプログラムの開発。

Traditional English readability formulas, or equations, were largely developed in the 20th century. Nonetheless, many researchers still rely on them for various NLP applications. This phenomenon is presumably due to the convenience and straightforwardness of readability formulas. In this work, we contribute to the NLP community by 1. introducing New English Readability Formula (NERF), 2. recalibrating the coefficients of old readability formulas (Flesch-Kincaid Grade Level, Fog Index, SMOG Index, Coleman-Liau Index, and Automated Readability Index), 3. evaluating the readability formulas, for use in text simplification studies and medical texts, and 4. developing a Python-based program for the wide application to various NLP projects.
翻訳日:2023-01-11 14:03:58 公開日:2023-01-10
# 単眼深度推定のためのニューラルネットワーク構造の一般性に関する研究

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation ( http://arxiv.org/abs/2301.03169v2 )

ライセンス: Link先を確認
Jinwoo Bae and Kyumin Hwang and Sunghoon Im(参考訳) 単眼深度推定は広く研究されており、近年は性能が大幅に向上している。 しかしながら、KITTIデータセットのようないくつかのベンチマークデータセットで以前の研究が評価されており、いずれの論文も単眼深度推定の一般化性能の詳細な分析を提供していない。 本稿では,単眼深度推定の一般化に向けて,様々なバックボーンネットワーク(cnnやトランスフォーマモデルなど)について深く検討する。 まず,ネットワークトレーニング中に一度も見られなかった分布内および分布外両方のモデルを評価する。 次に,合成テクスチャシフトデータセットを用いて,cnn/トランスフォーマモデル中間層からの表現の内部特性について検討する。 広範な実験により,トランスフォーマーは強いテクスチャバイアスを持つCNNよりも強い形状バイアスを示すことが明らかとなった。 また,テクスチャバイアスモデルでは,形状バイアスモデルよりも単眼深度推定の一般化性能が劣ることがわかった。 我々は、様々な環境下でキャプチャされた実世界の運転データセットで、同様の側面が観察されることを示した。 最後に,現代の戦略に活用される各種バックボーンネットワークを用いた高密度アブレーション研究を行った。 実験により, cnnの固有局所性とトランスフォーマーの自己付着がテクスチャバイアスと形状バイアスをそれぞれ引き起こすことが示された。

Monocular depth estimation has been widely studied, and significant improvements in performance have been recently reported. However, most previous works are evaluated on a few benchmark datasets, such as KITTI datasets, and none of the works provide an in-depth analysis of the generalization performance of monocular depth estimation. In this paper, we deeply investigate the various backbone networks (e.g.CNN and Transformer models) toward the generalization of monocular depth estimation. First, we evaluate state-of-the-art models on both in-distribution and out-of-distribution datasets, which have never been seen during network training. Then, we investigate the internal properties of the representations from the intermediate layers of CNN-/Transformer-based models using synthetic texture-shifted datasets. Through extensive experiments, we observe that the Transformers exhibit a strong shape-bias rather than CNNs, which have a strong texture-bias. We also discover that texture-biased models exhibit worse generalization performance for monocular depth estimation than shape-biased models. We demonstrate that similar aspects are observed in real-world driving datasets captured under diverse environments. Lastly, we conduct a dense ablation study with various backbone networks which are utilized in modern strategies. The experiments demonstrate that the intrinsic locality of the CNNs and the self-attention of the Transformers induce texture-bias and shape-bias, respectively.
翻訳日:2023-01-11 14:03:48 公開日:2023-01-10
# IMKGA-SM:シーケンスモデリングによる解釈可能なマルチモーダル知識グラフ回答予測

IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling ( http://arxiv.org/abs/2301.02445v3 )

ライセンス: Link先を確認
Yilin Wen, Biao Luo and Yuqian Zhao(参考訳) マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。 しかし、複雑なマルチモーダル情報やスパーストレーニングデータの場合、ほとんどの手法では解釈可能性と高い精度を同時に達成することは困難である。 そこで本稿では,この課題に対処するために,多変量知識グラフ応答予測(imkga-sm)という新しいモデルを開発した。 まず,マルチモーダル微細粒度融合法を提案し,vgg16とocr(optical character recognition)技術を用いて画像や画像からテキスト情報を効果的に抽出する。 次に、知識グラフリンク予測タスクをオフライン強化学習マルコフ決定モデルとしてモデル化し、統一シーケンスフレームワークに抽象化する。 対話的な知覚に基づく報酬期待機構と特別な因果的マスキング機構が設計され、クエリを推論パスに`変換する。 そこで,マルチモーダル最適化の問題点を軽減するために,自己回帰動的勾配調整機構を提案する。 最後に、2つのデータセットが実験に採用され、一般的なSOTAベースラインが比較に使用される。 その結果,開発したIMKGA-SMは,異なるサイズのマルチモーダルリンク予測データセット上でのSOTAベースラインよりもはるかに優れた性能が得られることがわかった。

Multimodal knowledge graph link prediction aims to improve the accuracy and efficiency of link prediction tasks for multimodal data. However, for complex multimodal information and sparse training data, it is usually difficult to achieve interpretability and high accuracy simultaneously for most methods. To address this difficulty, a new model is developed in this paper, namely Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling (IMKGA-SM). First, a multi-modal fine-grained fusion method is proposed, and Vgg16 and Optical Character Recognition (OCR) techniques are adopted to effectively extract text information from images and images. Then, the knowledge graph link prediction task is modelled as an offline reinforcement learning Markov decision model, which is then abstracted into a unified sequence framework. An interactive perception-based reward expectation mechanism and a special causal masking mechanism are designed, which ``converts" the query into an inference path. Then, an autoregressive dynamic gradient adjustment mechanism is proposed to alleviate the insufficient problem of multimodal optimization. Finally, two datasets are adopted for experiments, and the popular SOTA baselines are used for comparison. The results show that the developed IMKGA-SM achieves much better performance than SOTA baselines on multimodal link prediction datasets of different sizes.
翻訳日:2023-01-11 14:03:29 公開日:2023-01-10
# 微調整GPT-2モデルを用いたドイツ語ドラマテキストの自動生成

Automatic Generation of German Drama Texts Using Fine Tuned GPT-2 Models ( http://arxiv.org/abs/2301.03119v2 )

ライセンス: Link先を確認
Mariam Bangura, Kristina Barabashova, Anna Karnysheva, Sarah Semczuk, Yifan Wang(参考訳) この研究は、ドイツのドラマテキストの自動生成に向けられている。 GPT-2モデル(アウトラインモデル)を微調整し、キーワードに基づいてシーンのアウトラインを生成する方法と、シーンのアウトラインからシーンを生成する第2モデル(生成モデル)を微調整する手法を提案する。 ニューラルネットワークの入力は、ドイツのドラマコーパス(gerdracor)とドイツのテキストアーカイブ(deutsches textarchivまたはdta)の2つのデータセットからなる。 提案手法の有効性を推定するために,本モデルとベースラインGPT-2モデルを比較した。 提案手法は自動定量的評価により良好に機能するが,逆に手作業による質的分析では生成テキストの品質が低かった。 これはデータセットやトレーニング入力の品質に起因する可能性がある。

This study is devoted to the automatic generation of German drama texts. We suggest an approach consisting of two key steps: fine-tuning a GPT-2 model (the outline model) to generate outlines of scenes based on keywords and fine-tuning a second model (the generation model) to generate scenes from the scene outline. The input for the neural model comprises two datasets: the German Drama Corpus (GerDraCor) and German Text Archive (Deutsches Textarchiv or DTA). In order to estimate the effectiveness of the proposed method, our models are compared with baseline GPT-2 models. Our models perform well according to automatic quantitative evaluation, but, conversely, manual qualitative analysis reveals a poor quality of generated texts. This may be due to the quality of the dataset or training inputs.
翻訳日:2023-01-11 14:02:53 公開日:2023-01-10
# 視覚変換器を用いた医用画像解析の進歩 : 総合的考察

Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review ( http://arxiv.org/abs/2301.03505v2 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Moein Heidari, Ehsan Khodapanah Aghdam, Amirali Molaei, Yiwei Jia, Abin Jose, Rijo Roy, Dorit Merhof(参考訳) 自然言語処理におけるTransformerアーキテクチャの顕著な性能は、最近コンピュータビジョンへの幅広い関心を呼び起こしている。 その他のメリットの中で、トランスフォーマーは長距離の依存関係と空間的相関を学習できると見られ、これはコンピュータビジョン問題のデファクトスタンダードとなっている畳み込みニューラルネットワーク(CNN)に対して明らかな優位性である。 このように、トランスフォーマーは現代の医療画像解析の不可欠な部分となっている。 本稿では,医療画像におけるトランスフォーマーの応用に関する百科事典レビューを行う。 具体的には, 分類, セグメンテーション, 検出, 登録, 合成, 臨床報告書生成など, 様々な医用画像解析課題に対して, 関連する最近のトランスフォーマー文献を体系的かつ徹底的に検討する。 それぞれの応用について,提案した戦略の新規性,強み,弱点について検討し,重要な特性と貢献を強調した分類学を開発する。 さらに、適用可能な場合は、異なるデータセットに関する現在のベンチマークを概説する。 最後に,重要な課題を要約し,今後の研究の方向性について考察する。 さらに、https://github.com/mindflow-institue/awesome-transformerで対応する実装に関する引用論文も提供しています。

The remarkable performance of the Transformer architecture in natural language processing has recently also triggered broad interest in Computer Vision. Among other merits, Transformers are witnessed as capable of learning long-range dependencies and spatial correlations, which is a clear advantage over convolutional neural networks (CNNs), which have been the de facto standard in Computer Vision problems so far. Thus, Transformers have become an integral part of modern medical image analysis. In this review, we provide an encyclopedic review of the applications of Transformers in medical imaging. Specifically, we present a systematic and thorough review of relevant recent Transformer literature for different medical image analysis tasks, including classification, segmentation, detection, registration, synthesis, and clinical report generation. For each of these applications, we investigate the novelty, strengths and weaknesses of the different proposed strategies and develop taxonomies highlighting key properties and contributions. Further, if applicable, we outline current benchmarks on different datasets. Finally, we summarize key challenges and discuss different future research directions. In addition, we have provided cited papers with their corresponding implementations in https://github.com/mindflow-institue/Awesome-Transformer.
翻訳日:2023-01-11 14:02:34 公開日:2023-01-10
# 自己完結型複素多項式を用いた画像に基づく散乱係数のモデル化

Modeling Scattering Coefficients using Self-Attentive Complex Polynomials with Image-based Representation ( http://arxiv.org/abs/2301.02747v2 )

ライセンス: Link先を確認
Andrew Cohen, Weiping Dou, Jiang Zhu, Slawomir Koziel, Peter Renner, Jan-Ove Mattsson, Xiaomeng Yang, Beidi Chen, Kevin Stone, Yuandong Tian(参考訳) 周波数要件を満たし、複数の物理基準に対して最適であるアンテナ設計を見つけることは、次世代ハードウェアの設計において重要な要素である。 しかし、目的関数は一般に非常に非線形であり、微妙な設計変更に敏感であるため、そのようなプロセスは自明ではない。 さらに、最適化される目的は、しばしば電磁シミュレーション(EM)であり、商業シミュレーションソフトウェアでは遅くて高価である。 本研究では,CZP (Constant Zeros Poles) と呼ばれるサンプル効率・精度の高い代理モデルを提案し,シミュレータを使わずに与えられた2次元平面アンテナ設計の周波数領域における散乱係数を直接推定する。 CZPは散乱係数の周波数応答に関する複素零点と極を予測し、マクスウェル方程式を含む任意の線形PDEに対して理論的に正当化した。 さらに、czpは、低次元表現を使用する代わりに、既存のメッシュベースのemシミュレーション技術や注意に基づくニューラルネットワークアーキテクチャにインスパイアされたアンテナトポロジーのための新しいイメージベース表現を利用する。 実験では,czpが試験損失の点でベースラインを上回るだけでなく,40kのトレーニングサンプルしか持たない商用ソフトウェアで検証可能な2dアンテナ設計を,強化学習などの先進的な逐次探索技術と組み合わせることで検証できることを実証した。

Finding antenna designs that satisfy frequency requirements and are also optimal with respect to multiple physical criteria is a critical component in designing next generation hardware. However, such a process is non-trivial because the objective function is typically highly nonlinear and sensitive to subtle design change. Moreover, the objective to be optimized often involves electromagnetic (EM) simulations, which is slow and expensive with commercial simulation software. In this work, we propose a sample-efficient and accurate surrogate model, named CZP (Constant Zeros Poles), to directly estimate the scattering coefficients in the frequency domain of a given 2D planar antenna design, without using a simulator. CZP achieves this by predicting the complex zeros and poles for the frequency response of scattering coefficients, which we have theoretically justified for any linear PDE, including Maxwell's equations. Moreover, instead of using low-dimensional representations, CZP leverages a novel image-based representation for antenna topology inspired by the existing mesh-based EM simulation techniques, and attention-based neural network architectures. We demonstrate experimentally that CZP not only outperforms baselines in terms of test loss, but also is able to find 2D antenna designs verifiable by commercial software with only 40k training samples, when coupling with advanced sequential search techniques like reinforcement learning.
翻訳日:2023-01-11 14:02:15 公開日:2023-01-10