このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230113となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 直交畳み込みニューラルネットワークの存在, 安定性, 拡張性 Existence, Stability and Scalability of Orthogonal Convolutional Neural Networks ( http://arxiv.org/abs/2108.05623v3 ) ライセンス: Link先を確認 | El Mehdi Achour (IMT), Fran\c{c}ois Malgouyres (IMT), Franck Mamalet | (参考訳) ニューラルネットワークの層に直交性を導入することは、勾配の爆発/消滅を制限することによって学習を促進することが知られている。
本稿では,直交畳み込み層の理論的性質を考察し,直交畳み込み変換の存在を保証するため,層構造に必要かつ十分な条件を確立する。
直交畳み込み変換は,「循環」パディングに使用されるほとんどすべてのアーキテクチャにおいて存在することを証明し,また,「有価」境界条件と「同」境界条件をゼロパディングで満たす限界を示すとともに,畳み込み層の直交性を表す正規化項が提案されており,異なる応用で印象的な実験結果が得られている(wang et al. 2020)。
本論文の第二の動機は,この正規化項と直交測度との関係を明らかにすることである。
そこで我々は,この正規化戦略が数値的および最適化的誤差に対して安定であること,信号/画像のサイズが大きくなると畳み込み層が等方性に近づき,理論的な結果が実験によって確認され,正規化項のランドスケープが研究されることを示す。
実データ集合における実験により、正統性を用いて強靭性を強制する場合、正則化項を乗じて精度と正統性の両方のトレードオフを調整できることが示され、Wang et al. (2020) で提案された正則化は、直交畳み込み層を学習するための効率的で柔軟で安定した数値戦略であることを保証している。 Imposing orthogonality on the layers of neural networks is known to facilitate the learning by limiting the exploding/vanishing of the gradient; decorrelate the features; improve the robustness. This paper studies the theoretical properties of orthogonal convolutional layers.We establish necessary and sufficient conditions on the layer architecture guaranteeing the existence of an orthogonal convolutional transform. The conditions prove that orthogonal convolutional transforms exist for almost all architectures used in practice for 'circular' padding.We also exhibit limitations with 'valid' boundary conditions and 'same' boundary conditions with zero-padding.Recently, a regularization term imposing the orthogonality of convolutional layers has been proposed, and impressive empirical results have been obtained in different applications (Wang et al. 2020).The second motivation of the present paper is to specify the theory behind this.We make the link between this regularization term and orthogonality measures. In doing so, we show that this regularization strategy is stable with respect to numerical and optimization errors and that, in the presence of small errors and when the size of the signal/image is large, the convolutional layers remain close to isometric.The theoretical results are confirmed with experiments and the landscape of the regularization term is studied. Experiments on real data sets show that when orthogonality is used to enforce robustness, the parameter multiplying the regularization termcan be used to tune a tradeoff between accuracy and orthogonality, for the benefit of both accuracy and robustness.Altogether, the study guarantees that the regularization proposed in Wang et al. (2020) is an efficient, flexible and stable numerical strategy to learn orthogonal convolutional layers. | 翻訳日:2023-03-18 17:23:08 公開日:2023-01-13 |
# 複合系における文脈性:コッチェン・スペックの定理における絡み合いの役割 Contextuality in composite systems: the role of entanglement in the Kochen-Specker theorem ( http://arxiv.org/abs/2109.13594v3 ) ライセンス: Link先を確認 | Victoria J Wright and Ravi Kunjwal | (参考訳) Kochen-Specker (KS) の定理は、単一量子系の非古典性を明らかにする。
対照的に、ベルの定理と絡み合いは複合量子系の非古典性に関するものである。
したがって、非可逆性とは異なり、KS-文脈性を示すために絡み合いやベル非局所性は必要ない。
しかし、ここではマルチキュービット系では、絡み合いと非局所性は共にコッチェン=スペクターの定理の証明に不可欠である。
まず、無絡測定(局所測定の厳密なスーパーセット)は、マルチキュービット系に対するKS定理の論理的(状態に依存しない)証明を決して得られないことを示す。
特に、「絡み合いのない非局所性」を示す非絡み合いだが非局所的な測定は、そのような証明には不十分であり、また、マルチ量子ビット系上でのグリーソンの定理の証明には、ワラッハ(contemp math, 305: 291-298 (2002))で示されるように、絡み合う射影が必要であることも示唆する。
第二に、マルチ量子ビット状態が ks 定理の統計的(状態に依存しない)証明を持つことは、ベルの不等式を射影的測定で破ることができることと同値である。
また, ks集合の新たな例を構築することにより, 絡み合いとkochen-specker と gleason の定理との関係も確立した。
最後に, 状態注入による量子計算のパラダイムにおける資源としてのマルチ量子ビット文脈性の役割について, 新たな光を当てた。 The Kochen--Specker (KS) theorem reveals the nonclassicality of single quantum systems. In contrast, Bell's theorem and entanglement concern the nonclassicality of composite quantum systems. Accordingly, unlike incompatibility, entanglement and Bell non-locality are not necessary to demonstrate KS-contextuality. However, here we find that for multiqubit systems, entanglement and non-locality are both essential to proofs of the Kochen--Specker theorem. Firstly, we show that unentangled measurements (a strict superset of local measurements) can never yield a logical (state-independent) proof of the KS theorem for multiqubit systems. In particular, unentangled but nonlocal measurements -- whose eigenstates exhibit "nonlocality without entanglement" -- are insufficient for such proofs.This also implies that proving Gleason's theorem on a multiqubit system necessarily requires entangled projections, as shown by Wallach [Contemp Math, 305: 291-298 (2002)]. Secondly, we show that a multiqubit state admits a statistical (state-dependent) proof of the KS theorem if and only if it can violate a Bell inequality with projective measurements. We also establish the relationship between entanglement and the theorems of Kochen--Specker and Gleason more generally in multiqudit systems by constructing new examples of KS sets. Finally, we discuss how our results shed new light on the role of multiqubit contextuality as a resource within the paradigm of quantum computation with state injection. | 翻訳日:2023-03-13 07:47:13 公開日:2023-01-13 |
# 圧縮ゲートセットトモグラフィ Compressive gate set tomography ( http://arxiv.org/abs/2112.05176v3 ) ライセンス: Link先を確認 | Raphael Brieger, Ingo Roth, Martin Kliesch | (参考訳) 現実的な仮定の下で実験の不完全性を識別し定量化するフレキシブルなキャラクタリゼーション技術は、量子コンピュータの開発に不可欠である。
ゲートセットトモグラフィー(Gate set tomography)は、実験データから、量子ゲート全体の実装に関するトモグラフィ記述と初期状態と測定を同時に、かつ自己整合的に抽出する特徴付け手法である。
このような実験的な実装の詳細な図を得るには、シーケンス数とその設計に関する高い要求が伴うため、ゲートセットトモグラフィーは2つのキュービットに対してさえ難しい課題となる。
本研究では, ゲート集合の低ランク近似が極めて少ないゲート列から得ることができ, それらをランダムに描画するのに十分であることを示す。
このようなトモグラフィー情報は、コヒーレントノイズに対処する重要なタスクに必要である。
そこで我々は,ゲートセットトモグラフィーのデータ処理問題をランク制約テンソル完備問題として定式化する。
複素スティーフェル多様体上の二次幾何最適化法を用いて、量子力学の通常の正値性と正規化制約を尊重しながらこの問題を解くアルゴリズムを提供する。
シーケンスの削減に加えて,このアルゴリズムはゲートセットの構造化や回路設計に頼らず,ゲートセットトモグラフィーを堅牢に行うことを数値的に示す。
したがって、従来のアプローチよりも柔軟である。
また,ゲートセットトモグラフィーによる推定により,影推定プロトコルのコヒーレント誤差を緩和できることを示す。 Flexible characterization techniques that identify and quantify experimental imperfections under realistic assumptions are crucial for the development of quantum computers. Gate set tomography is a characterization approach that simultaneously and self-consistently extracts a tomographic description of the implementation of an entire set of quantum gates, as well as the initial state and measurement, from experimental data. Obtaining such a detailed picture of the experimental implementation is associated with high requirements on the number of sequences and their design, making gate set tomography a challenging task even for only two qubits. In this work, we show that low-rank approximations of gate sets can be obtained from significantly fewer gate sequences and that it is sufficient to draw them randomly. Such tomographic information is needed for the crucial task of dealing with coherent noise. To this end, we formulate the data processing problem of gate set tomography as a rank-constrained tensor completion problem. We provide an algorithm to solve this problem while respecting the usual positivity and normalization constraints of quantum mechanics by using second-order geometrical optimization methods on the complex Stiefel manifold. Besides the reduction in sequences, we demonstrate numerically that the algorithm does not rely on structured gate sets or an elaborate circuit design to robustly perform gate set tomography. Therefore, it is more flexible than traditional approaches. We also demonstrate how coherent errors in shadow estimation protocols can be mitigated using estimates from gate set tomography. | 翻訳日:2023-03-05 00:39:16 公開日:2023-01-13 |
# 量子不純物に対する絡み合いに基づく可観測物 Entanglement based observables for quantum impurities ( http://arxiv.org/abs/2201.07461v2 ) ライセンス: Link先を確認 | Lidia Stocker, Stefan H. Sack, Michael S. Ferguson and Oded Zilberberg | (参考訳) 量子不純物は、小さな相互作用の不純物が大きな非相互作用環境の物理を変化させるときに興味深い多体現象を示す。
このような強い相関のない非摂動効果の特性は、環境の無限の大きさと、システム内の長距離の絡み合いの蓄積を捉えるための局所的コレレータの欠如により特に困難である。
ここでは、強い相関関係の形成の証人として、絡み合いに基づく不純物の純度を観測できる。
オープンコンドボックスモデルを小箱制限で正確に解き、全電子ドットキャビティデバイスを記述することで、本手法の有用性を実証する。
具体的には、系内の金属-絶縁体相転移を決定的に特徴付け、(導電性)ドットリードの近藤一重項が(絶縁性)不純物一重項形成によってどのように焼かれるかを特定する。
さらに,不純物物理の観測の動機となる純物測定のためのトモグラフィープロトコルを実験的に提案する。 Quantum impurities exhibit fascinating many-body phenomena when the small interacting impurity changes the physics of a large noninteracting environment. The characterisation of such strongly correlated non-perturbative effects is particularly challenging due to the infinite size of the environment, and the inability of local correlators to capture the build-up of long-ranged entanglement in the system. Here, we harness an entanglement-based observable - the purity of the impurity - as a witness for the formation of strong correlations. We showcase the utility of our scheme by exactly solving the open Kondo box model in the small box limit, and thus describe all-electronic dot-cavity devices. Specifically, we conclusively characterise the metal-to-insulator phase transition in the system and identify how the (conducting) dot-lead Kondo singlet is quenched by an (insulating) intra-impurity singlet formation. Furthermore, we propose an experimentally feasible tomography protocol for the measurement of the purity, which motivates the observation of impurity physics through their entanglement build-up. | 翻訳日:2023-02-28 12:25:34 公開日:2023-01-13 |
# タッチによる連続認証への一方向アプローチ An Omnidirectional Approach to Touch-based Continuous Authentication ( http://arxiv.org/abs/2302.08498v1 ) ライセンス: Link先を確認 | Peter Aaby, Mario Valerio Giuffrida, William J Buchanan, Zhiyuan Tan | (参考訳) 本稿では,スマートフォン上でのタッチ操作が,タッチスクリーンが捉えた動作を通じて,継続的なユーザ認証サービスを実現する方法に焦点を当てる。
タッチベースの行動認証を向上するために努力されている一方で、研究者はしばしばデータ収集、分類器のチューニング、独立してではなく、シーケンス内のタッチインタラクションを評価することでパフォーマンスの向上に注力している。
しかし、そのようなシステムは異なる行動特性を表すデータを提供することでのみ機能する。
典型的なアプローチでは、振る舞いをタッチ方向に分離し、複数のユーザプロファイルを生成する。
この研究は、最適な行動特徴とバランスの取れたトレーニングセットに依存する、タッチ方向とは無関係に従来の手法より優れた一方向アプローチを示す。
そこで本研究では,方向非依存手法に対する従来の手法を用いた5つの行動特徴集合の評価を行い,木や勾配ブースティング分類器を含む複数の分類器をテストした。
その結果, 従来手法と比較すると, ストロークの組み合わせでは, 提案手法の方が優れていることがわかった。
しかし、パフォーマンスは適用された機能セットに依存する。
TouchAlyticsの機能は、3つ以上のストロークを組み合わせれば、私たちのアプローチよりも優れています。
最後に,シングルストローク演奏において,曲線下の平均面積と等しい誤差率を報告し,ストロークの順序を別々に変化させることの重要性を強調する。 This paper focuses on how touch interactions on smartphones can provide a continuous user authentication service through behaviour captured by a touchscreen. While efforts are made to advance touch-based behavioural authentication, researchers often focus on gathering data, tuning classifiers, and enhancing performance by evaluating touch interactions in a sequence rather than independently. However, such systems only work by providing data representing distinct behavioural traits. The typical approach separates behaviour into touch directions and creates multiple user profiles. This work presents an omnidirectional approach which outperforms the traditional method independent of the touch direction - depending on optimal behavioural features and a balanced training set. Thus, we evaluate five behavioural feature sets using the conventional approach against our direction-agnostic method while testing several classifiers, including an Extra-Tree and Gradient Boosting Classifier, which is often overlooked. Results show that in comparison with the traditional, an Extra-Trees classifier and the proposed approach are superior when combining strokes. However, the performance depends on the applied feature set. We find that the TouchAlytics feature set outperforms others when using our approach when combining three or more strokes. Finally, we highlight the importance of reporting the mean area under the curve and equal error rate for single-stroke performance and varying the sequence of strokes separately. | 翻訳日:2023-02-19 14:25:25 公開日:2023-01-13 |
# パラメータ, 特性, プロセス:ML支援製造に向けた実写SEM画像の条件付きニューラル生成 Parameters, Properties, and Process: Conditional Neural Generation of Realistic SEM Imagery Towards ML-assisted Advanced Manufacturing ( http://arxiv.org/abs/2302.08495v1 ) ライセンス: Link先を確認 | Scott Howland, Lara Kassab, Keerti Kappagantula, Henry Kvinge, Tegan Emerson | (参考訳) 先進的な製造プロセスの研究開発サイクルは伝統的に時間と資源の大きな投資を必要とする。
実験は高価であり、そのため比較的小さなスケールで行われる。
このことは、通常なら開発サイクルを短縮できるデータハングリー機械学習ツールに問題を引き起こす。
本研究では, 新規製造プロセスからの走査型電子顕微鏡(SEM)画像, せん断補助加工および押出成形(ShAPE)に, 条件生成対向ネットワーク(GAN)を適用し, 先行研究に基づいて構築する。
我々は,テンパと実験パラメータ,材料特性を条件とした現実的な画像を生成する。
これによって、特定のプロセスパラメータやプロパティから発生する微視的な構造を、ユーザがすぐに視覚化できるようになり、マシンラーニングを開発サイクルに統合することが可能になります。
この研究は、第一原理モデルがない中で製造プロセスを理解するための基本的な新しいアプローチの技術的バックボーンを形成する。
トポロジカルな視点からミクロ構造を特徴づけることで、実験電子顕微鏡(SEM)試料の幅と多様性を捉えることのできるモデルの能力を評価することができる。
提案手法は, 合成画像のトポロジ的リアリズムをさらに向上させるために, 検討したプロセスから発生する視覚的, 一般的な微細構造的特徴を捉えることに成功している。 The research and development cycle of advanced manufacturing processes traditionally requires a large investment of time and resources. Experiments can be expensive and are hence conducted on relatively small scales. This poses problems for typically data-hungry machine learning tools which could otherwise expedite the development cycle. We build upon prior work by applying conditional generative adversarial networks (GANs) to scanning electron microscope (SEM) imagery from an emerging manufacturing process, shear assisted processing and extrusion (ShAPE). We generate realistic images conditioned on temper and either experimental parameters or material properties. In doing so, we are able to integrate machine learning into the development cycle, by allowing a user to immediately visualize the microstructure that would arise from particular process parameters or properties. This work forms a technical backbone for a fundamentally new approach for understanding manufacturing processes in the absence of first-principle models. By characterizing microstructure from a topological perspective we are able to evaluate our models' ability to capture the breadth and diversity of experimental scanning electron microscope (SEM) samples. Our method is successful in capturing the visual and general microstructural features arising from the considered process, with analysis highlighting directions to further improve the topological realism of our synthetic imagery. | 翻訳日:2023-02-19 14:25:04 公開日:2023-01-13 |
# 人工知能のためのアナログ・インメモリ計算アーキテクチャ Analog, In-memory Compute Architectures for Artificial Intelligence ( http://arxiv.org/abs/2302.06417v1 ) ライセンス: Link先を確認 | Patrick Bowen, Guy Regev, Nir Regev, Bruno Pedroni, Edward Hanson, and Yiran Chen | (参考訳) 本稿では,デジタルおよびアナログのインメモリ・コンピューティング・アーキテクチャにおけるエネルギー効率に関する基礎的限界の解析を行い,その性能を機械推論の文脈における単一命令・単一データ(スカラー)マシンと比較する。
分析の焦点は、計算対象のサイズ、演算強度、ビット精度によって効率がどのようにスケールするかである。
アナログなインメモリコンピューティングアーキテクチャは、問題サイズとプロセッササイズの両方のスケールで、任意に高いエネルギー効率にアプローチできることが示されている。 This paper presents an analysis of the fundamental limits on energy efficiency in both digital and analog in-memory computing architectures, and compares their performance to single instruction, single data (scalar) machines specifically in the context of machine inference. The focus of the analysis is on how efficiency scales with the size, arithmetic intensity, and bit precision of the computation to be performed. It is shown that analog, in-memory computing architectures can approach arbitrarily high energy efficiency as both the problem size and processor size scales. | 翻訳日:2023-02-19 14:20:28 公開日:2023-01-13 |
# 教育における社会的要因の理解と改善--計算社会科学のアプローチ Understanding and improving social factors in education: a computational social science approach ( http://arxiv.org/abs/2301.05619v1 ) ライセンス: Link先を確認 | Nabeel Gillani, Rebecca Eynon | (参考訳) 過去10年間で、教育関連データセットの可用性が爆発的に高まり、教育における新しい計算研究が可能になった。
この研究の多くは、認知学習プロセスをより理解し最適化するために、オンライン学習者のデジタルトレースを調査した。
しかし、デジタルプラットフォームでの認知学習は教育と同等ではない。
その代わり、教育は本質的に社会的、文化的、経済的、政治的プロセスであり、教育の成果は認知学習プロセスに先行して形成する多くの要因に影響される。
これらの多くは、学校(教師、カウンセラー、ロールモデルなど)との子どものつながり、両親や家族、そして彼らが住んでいる広い地域といった社会的要因である。
本稿では,大規模デジタルプラットフォームによる学習の最近の研究について概説するが,教育の社会学的側面を探求する人々を中心に考察する。
私たちは、計算社会科学者が、この新たな研究フロンティアを創造的に前進させ、より公平な教育と生活の成果を促進することができると信じています。 Over the past decade, an explosion in the availability of education-related datasets has enabled new computational research in education. Much of this work has investigated digital traces of online learners in order to better understand and optimize their cognitive learning processes. Yet cognitive learning on digital platforms does not equal education. Instead, education is an inherently social, cultural, economic, and political process manifesting in physical spaces, and educational outcomes are influenced by many factors that precede and shape the cognitive learning process. Many of these are social factors like children's connections to schools (including teachers, counselors, and role models), parents and families, and the broader neighborhoods in which they live. In this article, we briefly discuss recent studies of learning through large-scale digital platforms, but largely focus on those exploring sociological aspects of education. We believe computational social scientists can creatively advance this emerging research frontier-and in doing so, help facilitate more equitable educational and life outcomes. | 翻訳日:2023-02-19 13:37:14 公開日:2023-01-13 |
# ソーシャルネットワークにおける衝突リスク最小化のための近似時間アルゴリズム A Nearly-Linear Time Algorithm for Minimizing Risk of Conflict in Social Networks ( http://arxiv.org/abs/2301.05466v1 ) ライセンス: Link先を確認 | Liwang Zhu and Zhongzhi Zhang | (参考訳) オンラインソーシャルメディアプラットフォームが急速に普及している中で、個人間の交流は前例のないほど強化されている。
人々は知り合いと自由に対話し、コメント、好み、リツイートを通じて自分の意見を交換し、議論を呼んでいる社会問題に対する抵抗、論争、その他の重要な現象を招き、近年の多くの著作の主題となっている。
本稿では,少数のノードの初期の意見を変更することで,ソーシャルネットワークにおける衝突のリスクを最小化する問題について検討する。
組合せ最適化問題の目的関数は単調かつ超モジュラーであることを示す。
次に,この問題を立方時間で解く近似比(1-1/e)$のna\"{\i}ve greedyアルゴリズムを提案する。
大規模ネットワークの計算課題を克服するため, 誤差パラメータ$\epsilon>0$に対して$(1-1/e-\epsilon)$近似比のほぼ線形時間アルゴリズムを提供するために, いくつかの効率的な近似戦略を統合する。
様々な実世界のデータセットに対する大規模な実験は、アルゴリズムの効率性と有効性を示している。
特にfast oneは、200万以上のノードを持つ大規模ネットワークにスケールし、最先端アルゴリズムよりも最大20\times$のスピードアップを実現している。 Concomitant with the tremendous prevalence of online social media platforms, the interactions among individuals are unprecedentedly enhanced. People are free to interact with acquaintances, express and exchange their own opinions through commenting, liking, retweeting on online social media, leading to resistance, controversy and other important phenomena over controversial social issues, which have been the subject of many recent works. In this paper, we study the problem of minimizing risk of conflict in social networks by modifying the initial opinions of a small number of nodes. We show that the objective function of the combinatorial optimization problem is monotone and supermodular. We then propose a na\"{\i}ve greedy algorithm with a $(1-1/e)$ approximation ratio that solves the problem in cubic time. To overcome the computation challenge for large networks, we further integrate several effective approximation strategies to provide a nearly linear time algorithm with a $(1-1/e-\epsilon)$ approximation ratio for any error parameter $\epsilon>0$. Extensive experiments on various real-world datasets demonstrate both the efficiency and effectiveness of our algorithms. In particular, the fast one scales to large networks with more than two million nodes, and achieves up to $20\times$ speed-up over the state-of-the-art algorithm. | 翻訳日:2023-02-19 13:36:44 公開日:2023-01-13 |
# ジェンダーに関する多くの事柄--性別対応情報アクセスの現状と今後の提言 Much Ado About Gender: Current Practices and Future Recommendations for Appropriate Gender-Aware Information Access ( http://arxiv.org/abs/2301.04780v2 ) ライセンス: Link先を確認 | Christine Pinney, Amifa Raj, Alex Hanna, and Michael D. Ekstrand | (参考訳) 情報アクセス研究(および開発)は、時には、ユーザー研究の参加者の人口統計を報告したり、パーソナライズされた結果やレコメンデーションへのインプットとして利用したり、システムにジェンダーフェアを与えるなど、性別を利用する。
しかし、この研究は、ジェンダーとは何か、どのようにエンコードされるべきなのか、そして、性別変数が倫理的にどのように使われるべきかに関する現在の理解と必ずしも一致しているわけではない。
本研究では,ジェンダーが現在どのように使われているかを示すために,ジェンダーに言及する情報検索とレコメンデーションシステムに関する論文を体系的にレビューする。
性別を言及する論文の多くは明確な性別変数を使用しないが、そのほとんどは、モデルパフォーマンスの結果の文脈化、ユーザー性別の仮定に基づくシステムのパーソナライズ、公平性やその他のプライバシー関連の問題に対するモデルの行動の監査に焦点をあてている。
さらに、我々がレビューする論文のほとんどは、性別を2つのカテゴリーに分割することができないことを認めても、性別のバイナリ概念に依存している。
本研究は,人間とコンピュータの相互作用と自然言語処理におけるジェンダーに関する最近の研究と,性理論に関する奨学金と結びつける。
我々は、情報アクセスシステムの構築と研究において、倫理的かつ十分に基礎づけられたジェンダーの利用を推奨することで結論づける。 Information access research (and development) sometimes makes use of gender, whether to report on the demographics of participants in a user study, as inputs to personalized results or recommendations, or to make systems gender-fair, amongst other purposes. This work makes a variety of assumptions about gender, however, that are not necessarily aligned with current understandings of what gender is, how it should be encoded, and how a gender variable should be ethically used. In this work, we present a systematic review of papers on information retrieval and recommender systems that mention gender in order to document how gender is currently being used in this field. We find that most papers mentioning gender do not use an explicit gender variable, but most of those that do either focus on contextualizing results of model performance, personalizing a system based on assumptions of user gender, or auditing a model's behavior for fairness or other privacy-related issues. Moreover, most of the papers we review rely on a binary notion of gender, even if they acknowledge that gender cannot be split into two categories. We connect these findings with scholarship on gender theory and recent work on gender in human-computer interaction and natural language processing. We conclude by making recommendations for ethical and well-grounded use of gender in building and researching information access systems. | 翻訳日:2023-02-19 13:35:11 公開日:2023-01-13 |
# twitchへのヘイトクライド:過去の反響、新しいモダリティ、プラットフォームのガバナンスへの意味 Hate Raids on Twitch: Echoes of the Past, New Modalities, and Implications for Platform Governance ( http://arxiv.org/abs/2301.03946v2 ) ライセンス: Link先を確認 | Catherine Han, Joseph Seering, Deepak Kumar, Jeffrey T. Hancock, Zakir Durumeric | (参考訳) 2021年夏には、ライブストリーミングプラットフォームのTwitchのユーザーは、ボットや自動化を使って、嫌悪なメッセージでストリーマーのチャットルームを圧倒する攻撃の「ヘイト・レイド」の波を標的にしていた。
混合手法を用いて,プラットフォーム全体でのアタックの定量的測定と,ストリーマーとサードパーティのボット開発者とのインタビューを組み合わせる。
我々は、一部のヘイトクライドが高度に標的化され、ヘイト駆動の攻撃であったことを裏付ける証拠を示す一方で、ネットワーク化されたハラスメントや特定のサブカルチャーのトロルに類似した別のヘイトレイドモードも観察する。
lgbtq+や黒人と自認するストリーマーは不釣り合いな標的であり、ヘイトクライドメッセージは反黒人人種差別や反ユダヤ主義に根ざしていた。
また、これらの攻撃がコミュニティの反応を迅速に引き起こし、反応の抑制と今後の攻撃の予防策の開発を促進させる。
我々は、コミュニティモデレーター、ツールビルダー、プラットフォーム間の労働の分断を考慮しつつ、プラットフォームが攻撃に備え、リスクの高いコミュニティを保護するのにどう役立つかを議論することで締めくくります。 In the summer of 2021, users on the livestreaming platform Twitch were targeted by a wave of "hate raids," a form of attack that overwhelms a streamer's chatroom with hateful messages, often through the use of bots and automation. Using a mixed-methods approach, we combine a quantitative measurement of attacks across the platform with interviews of streamers and third-party bot developers. We present evidence that confirms that some hate raids were highly-targeted, hate-driven attacks, but we also observe another mode of hate raid similar to networked harassment and specific forms of subcultural trolling. We show that the streamers who self-identify as LGBTQ+ and/or Black were disproportionately targeted and that hate raid messages were most commonly rooted in anti-Black racism and antisemitism. We also document how these attacks elicited rapid community responses in both bolstering reactive moderation and developing proactive mitigations for future attacks. We conclude by discussing how platforms can better prepare for attacks and protect at-risk communities while considering the division of labor between community moderators, tool-builders, and platforms. | 翻訳日:2023-02-19 13:33:07 公開日:2023-01-13 |
# トーリックコードのためのマルチプレイヤー、マルチチーム非ローカルゲーム A multi-player, multi-team nonlocal game for the toric code ( http://arxiv.org/abs/2205.12251v2 ) ライセンス: Link先を確認 | Vir B. Bulchandani, Fiona J. Burnell, S. L. Sondhi | (参考訳) 非局所ゲームは、絡み合った量子状態に対する異常な視点を与える。
そのようなゲームの定義的な性質は、エンタングル状態を持つプレイヤーの集合が、古典物理学で許されるよりも高い確率でゲームに勝つことができることである。
ここでは、数キュービットの toric コードの基底状態にアクセスできれば、確実に$2n$ のプレイヤーで勝利できる非ローカルゲームを構築します。
対照的に、このゲームは古典的プレイヤーが最大$n$の制限で半分以上の時間以上で勝つことはできない。
我々のゲームは、プレイヤーを格子上に配置し、構成を動的に指定したチームで量子演算を行うことができるため、以前の例とは異なる。
これは、非自明な多体状態の量子度を特徴付けようとするときに自然であり、トーリック符号よりも多くの異なる状態の物質を含む可能性がある。
我々は,$\mathbb{z}_m$位相次数を持つ状態に対する toric code game の一般化を提案する。 Nonlocal games yield an unusual perspective on entangled quantum states. The defining property of such games is that a set of players in joint possession of an entangled state can win the game with higher probability than is allowed by classical physics. Here we construct a nonlocal game that can be won with certainty by $2N$ players if they have access to the ground state of the toric code on as many qubits. By contrast, the game cannot be won by classical players more than half the time in the large $N$ limit. Our game differs from previous examples because it arranges the players on a lattice and allows them to carry out quantum operations in teams, whose composition is dynamically specified. This is natural when seeking to characterize the degree of quantumness of non-trivial many-body states, which potentially include states in much more varied phases of matter than the toric code. We present generalizations of the toric code game to states with $\mathbb{Z}_M$ topological order. | 翻訳日:2023-02-11 21:55:49 公開日:2023-01-13 |
# Pauli Check Sandwiching による量子エラー低減 Quantum Error Mitigation by Pauli Check Sandwiching ( http://arxiv.org/abs/2206.00215v3 ) ライセンス: Link先を確認 | Alvin Gonzales and Ruslan Shaydulin and Zain Saleem and Martin Suchara | (参考訳) 複数対のパリティチェックを用いて誤りの有無を検知する誤差軽減手法を記述・解析する。
各チェックは1つのアンシラキュービットを使用してエラー演算子のコンポーネントを検出し、テクニックの1つのレイヤを表す。
私たちは、拡張フラグガジェットの成果を基に構築し、しっかりとした理論的基盤にしました。
本手法は,チェックに影響を与えないノイズを前提に,ノイズのない状態を回復できることを実証する。
この方法は符号化オーバーヘッドを発生せず、代わりに入力回路に基づいてチェックを選択する。
任意のターゲット回路に対してそのようなチェックを取得するアルゴリズムを提案する。
この方法は任意の回路や入力状態に適用できるため、他の誤差軽減手法と簡単に組み合わせることができる。
提案手法は,クリフォードゲートと非クリフォード単一量子回転からなる1,850個のランダム入力回路において,最も一般的な変分アルゴリズム回路を包含する1,850個のランダム入力回路上での大規模数値シミュレーションを用いて性能評価を行った。
我々は6層のチェックで34ポイントの忠実度の平均的な改善を観察する。 We describe and analyze an error mitigation technique that uses multiple pairs of parity checks to detect the presence of errors. Each pair of checks uses one ancilla qubit to detect a component of the error operator and represents one layer of the technique. We build on the results on extended flag gadgets and put it on a firm theoretical foundation. We prove that this technique can recover the noiseless state under the assumption of noise not affecting the checks. The method does not incur any encoding overhead and instead chooses the checks based on the input circuit. We provide an algorithm for obtaining such checks for an arbitrary target circuit. Since the method applies to any circuit and input state, it can be easily combined with other error mitigation techniques. We evaluate the performance of the proposed methods using extensive numerical simulations on 1,850 random input circuits composed of Clifford gates and non-Clifford single-qubit rotations, a class of circuits encompassing most commonly considered variational algorithm circuits. We observe average improvements in fidelity of 34 percentage points with six layers of checks. | 翻訳日:2023-02-11 01:22:53 公開日:2023-01-13 |
# 量子物質の相で非ローカルゲームをする Playing nonlocal games with phases of quantum matter ( http://arxiv.org/abs/2206.11252v2 ) ライセンス: Link先を確認 | Vir B. Bulchandani, Fiona J. Burnell and S. L. Sondhi | (参考訳) パリティゲームは非局所ゲームの一例であり、グリーンバーガー=ホルン=ザイリンガー状態(GHZ)をプレイする前に共有することで、プレイヤーは古典物理学よりも高い確率で勝ち取ることができる。
また、$N$ qubitsのGHZ状態は、強弱な量子ゆらぎの極限における$N$ qubits上の強磁性量子イジングモデルの基底状態でもある。
この観測により,GHZ状態に最適化されたプロトコルを用いて,非消滅的な量子揺らぎを示す汎用量子イジングモデルの基底状態を共有する$N$プレーヤーが,まだパリティゲームに勝利する確率を検証した。
私たちの主な結果は、このプロトコルが量子イジングモデルの強磁性相において量子アドバンテージを漸近的に示すように修正されたパリティゲームである。
さらに、完全に可溶な$d=1+1$ 横磁場イジングモデルの基底状態は、強磁性相全体、臨界点、および常磁性相の一部を含む、より広い領域におけるパリティゲームに量子的な利点を与えることができることをさらに証明する。
対照的に、トポロジカル位相と対称性保護トポロジカル位相(SPT)の例、すなわち、トリック符号ハミルトニアンの分解位相と1次元の $\mathbb{Z}_2 \times \mathbb{Z}_2$ SPT 位相は、それらの固定点から類似の量子的優位性を示さない。 The parity game is an example of a nonlocal game: by sharing a Greenberger-Horne-Zeilinger (GHZ) state before playing this game, the players can win with a higher probability than is allowed by classical physics. The GHZ state of $N$ qubits is also the ground state of the ferromagnetic quantum Ising model on $N$ qubits in the limit of vanishingly weak quantum fluctuations. Motivated by this observation, we examine the probability that $N$ players who share the ground state of a generic quantum Ising model, which exhibits non-vanishing quantum fluctuations, still win the parity game using the protocol optimized for the GHZ state. Our main result is a modified parity game for which this protocol asymptotically exhibits quantum advantage in precisely the ferromagnetic phase of the quantum Ising model. We further prove that the ground state of the exactly soluble $d=1+1$ transverse-field Ising model can provide a quantum advantage for the parity game over an even wider region, which includes the entire ferromagnetic phase, the critical point and part of the paramagnetic phase. By contrast, we find examples of topological phases and symmetry-protected topological (SPT) phases of matter, namely the deconfined phase of the toric code Hamiltonian and the $\mathbb{Z}_2 \times \mathbb{Z}_2$ SPT phase in one dimension, that do not exhibit an analogous quantum advantage away from their fixed points. | 翻訳日:2023-02-08 09:37:41 公開日:2023-01-13 |
# 分別エンタングルメント拡散解析としてのクエンチプローブのセットアップ Quench-Probe Setup as Analyzer of Fractionalized Entanglement Spreading ( http://arxiv.org/abs/2207.04833v2 ) ライセンス: Link先を確認 | Nicolas P. Bauer, Jan Carl Budich, Bj\"orn Trauzettel, Alessio Calzona | (参考訳) エンタングルメントダイナミクスにおけるクエンチ誘起分数化励起の空間的不均質な構成を提案する。
このクエンチプローブ設定では、量子クエンチを受ける領域は静的領域、プローブにトンネル結合される。
その後、プローブに伝播する励起の可変サブセットの時間依存性絡み合いシグネチャをエネルギー選択性により監視する。
我々は、ポストクエンチハミルトニアンにおける孤立マヨラナ零モードの存在に関連するユニークな動的シグネチャを同定することによって、この一般的なアプローチのパワーを実証する。
この場合、系の位相的部分から放出される励起は、プローブの絡み合いエントロピーにおいて$\log(2)/2$の分数化ジャンプを引き起こす。
この動的効果はマヨラナ・ゼロモードの局所的性質に非常に敏感であるが、位相的初期状態の準備は必要ない。 We propose a novel spatially inhomogeneous setup for revealing quench-induced fractionalized excitations in entanglement dynamics. In this quench-probe setting, the region undergoing a quantum quench is tunnel-coupled to a static region, the probe. Subsequently, the time-dependent entanglement signatures of a tunable subset of excitations propagating to the probe are monitored by energy selectivity. We exemplify the power of this generic approach by identifying a unique dynamical signature associated with the presence of an isolated Majorana zero mode in the post-quench Hamiltonian. In this case excitations emitted from the topological part of the system give rise to a fractionalized jump of $\log(2)/2$ in the entanglement entropy of the probe. This dynamical effect is highly sensitive to the localized nature of the Majorana zero mode, but does not require the preparation of a topological initial state. | 翻訳日:2023-02-05 12:32:40 公開日:2023-01-13 |
# 位相的領域壁を介する高速量子移動 Fast quantum transfer mediated by topological domain walls ( http://arxiv.org/abs/2208.00797v2 ) ライセンス: Link先を確認 | Juan Zurita, Charles E. Creffield and Gloria Platero | (参考訳) 1次元位相モデルの転送プロトコルは通常、システムの左端モードと右端モードの間で実装され、その速度は転送距離によって指数関数的に減少する。
本研究では,マルチドメイン・クルーツ・ラグの局所化特性,すなわち2つの保護状態を持つフラットバンド・トポロジ・モデルを用いて,ラグに沿った2つのモードを選択する手法を提案する。
保護状態のみが転移に関与するため、対称性保存障害に対して堅牢である。
驚くべきことに、ドメインの壁ごとに保護された状態は、2つの交換された状態の間にあるとしても、乱れなく残されている。
その後、保護状態の効果的な1D連鎖が確立され、それぞれのペアが他のものに影響を与えることなく交換可能となり、量子情報目的の汎用的でレジリエントなプラットフォームが提供される。
さらに,複数ドメインのCreutzラグとSSHチェーンの転送プロトコルを提案する。これは単一ドメインに対してプロセスが指数関数的に高速化され,エラーの蓄積が減少し,対称性破壊障害があっても性能が劇的に向上する。 Transfer protocols in 1D topological models are usually implemented between the left and right end modes of the system, and their speed often exponentially reduces with transfer distance. In this work, we propose a way to harness the localization properties of a multidomain Creutz ladder, a flat-band topological model with two protected states per domain wall, to choose the two modes along the ladder which will be swapped using a transfer protocol. Only protected states are involved in the transfer, and so it is robust against symmetry-preserving disorder. Remarkably, one protected state per domain wall is left undisturbed, even if it is located between the two swapped states. An effective 1D chain of protected states is then established, where any pair of them can be swapped without affecting the others, providing a versatile and resilient platform for quantum information purposes. Additionally, we propose transfer protocols in multidomain Creutz ladders and SSH chains which exponentially speed up the process with respect to their single-domain counterparts, thus reducing the accumulation of errors and drastically increasing their performance, even in the presence of symmetry-breaking disorder. | 翻訳日:2023-02-02 19:03:43 公開日:2023-01-13 |
# 積層誘起チャーン絶縁体 Stacking-induced Chern insulator ( http://arxiv.org/abs/2208.02491v3 ) ライセンス: Link先を確認 | Marwa Manna\"i, Jean-No\"el Fuchs, Fr\'ed\'eric Pi\'echon and Sonia Haddad | (参考訳) グラフェンは、変形したハルダンモデルのようにディラック点エネルギーを反対方向に移動するバレー依存擬スカラーポテンシャルを加えることで、時間反転対称性を破った半金属にすることができる。
修正Haldaneモデルの2つの時間反転コピーを積み重ねて得られた2層構造を考える。
AB積層では、層間ホッピングは節線の縮退性を持ち上げ、バンドの反発を誘発し、チャーン数$C=\pm2$のキラル絶縁体に驚くほど繋がる。
その結果、一対のキラルエッジ状態がリボン二重層幾何の境界に現れる。
対照的に、AA積み重ねは非自明な位相位相を示さない。
実験結果の実装の可能性について論じる。 Graphene can be turned into a semimetal with broken time-reversal symmetry by adding a valley-dependent pseudo-scalar potential that shifts the Dirac point energies in opposite directions, as in the modified Haldane model. We consider a bilayer obtained by stacking two time-reversed copies of the modified Haldane model, where conduction and valence bands cross to give rise to a nodal line in each valleys. In the AB stacking, the interlayer hopping lifts the degeneracy of the nodal lines and induces a band repulsion, leading surprisingly to a chiral insulator with a Chern number $C=\pm2$. As a consequence a pair of chiral edge states appears at the boundaries of the ribbon bilayer geometry. In contrast, the AA stacking does not show nontrivial topological phases. We discuss possible experimental implementations of our results. | 翻訳日:2023-02-02 07:31:36 公開日:2023-01-13 |
# 現代オブジェクトセグメンテーションアプローチの包括的レビュー A Comprehensive Review of Modern Object Segmentation Approaches ( http://arxiv.org/abs/2301.07499v1 ) ライセンス: Link先を確認 | Yuanbo Wang, Unaiza Ahsan, Hanyan Li, Matthew Hagen | (参考訳) 画像分割は、それぞれのオブジェクトクラスラベルと画像内のピクセルを関連付けるタスクである。
医療、交通、ロボティクス、ファッション、住宅改良、観光など、多くの産業に幅広く応用されている。
深層学習に基づく多くのアプローチが画像レベルのオブジェクト認識とピクセルレベルのシーン理解のために開発されている。
イメージセグメンテーションタスクの拡張には、3Dとビデオセグメンテーションが含まれており、ボクセル、ポイントクラウド、ビデオフレームの各ユニットは異なるオブジェクトに分類される。
私たちはこれらのセグメンテーションタスクの結合を参照するために「オブジェクトセグメンテーション」を使用します。
本報告では,従来のオブジェクトセグメンテーション手法と現代オブジェクトセグメンテーション手法の両方について,その強度,弱点,ユーティリティを比較して検討する。
近年開発された深層学習に基づくセグメンテーション手法を詳細に検討し,広く利用されているデータセットと評価指標のレビューを行い,今後の研究の方向性について考察する。 Image segmentation is the task of associating pixels in an image with their respective object class labels. It has a wide range of applications in many industries including healthcare, transportation, robotics, fashion, home improvement, and tourism. Many deep learning-based approaches have been developed for image-level object recognition and pixel-level scene understanding-with the latter requiring a much denser annotation of scenes with a large set of objects. Extensions of image segmentation tasks include 3D and video segmentation, where units of voxels, point clouds, and video frames are classified into different objects. We use "Object Segmentation" to refer to the union of these segmentation tasks. In this monograph, we investigate both traditional and modern object segmentation approaches, comparing their strengths, weaknesses, and utilities. We examine in detail the wide range of deep learning-based segmentation techniques developed in recent years, provide a review of the widely used datasets and evaluation metrics, and discuss potential future research directions. | 翻訳日:2023-01-29 14:08:27 公開日:2023-01-13 |
# ChatGPTの道徳的権威 The moral authority of ChatGPT ( http://arxiv.org/abs/2301.07098v1 ) ライセンス: Link先を確認 | Sebastian Kr\"ugel, Andreas Ostermaier, Matthias Uhl | (参考訳) chatgptはチャットが楽しいだけでなく、情報を検索したり、質問に答えたり、アドバイスをしたりする。
一貫した道徳的アドバイスにより、しばしば矛盾する道徳的信念を持つユーザーの道徳的判断と決定が改善される可能性がある。
残念ながら、ChatGPTはモラルアドバイザーとしては非常に矛盾している。
それでも、実験で見つけたユーザーのモラル判断に影響を与え、たとえチャットボットによってアドバイスされていることを知っても、その影響を過小評価します。
したがって、ChatGPTはユーザーの判断を改善するよりも、腐敗を脅かす。
これらの発見は、ChatGPTと同様のAIの責任ある使用を確実にする方法に関する疑問を提起する。
透明性はしばしば評価されるが、効果がないように見える。
我々はデジタルリテラシーを改善するためのトレーニングを提案する。 ChatGPT is not only fun to chat with, but it also searches information, answers questions, and gives advice. With consistent moral advice, it might improve the moral judgment and decisions of users, who often hold contradictory moral beliefs. Unfortunately, ChatGPT turns out highly inconsistent as a moral advisor. Nonetheless, it influences users' moral judgment, we find in an experiment, even if they know they are advised by a chatting bot, and they underestimate how much they are influenced. Thus, ChatGPT threatens to corrupt rather than improves users' judgment. These findings raise the question of how to ensure the responsible use of ChatGPT and similar AI. Transparency is often touted but seems ineffective. We propose training to improve digital literacy. | 翻訳日:2023-01-29 14:06:54 公開日:2023-01-13 |
# 対話型プログラミングアシスタントのペルソナ設計における事例研究 A Case Study in Engineering a Conversational Programming Assistant's Persona ( http://arxiv.org/abs/2301.10016v1 ) ライセンス: Link先を確認 | Steven I. Ross, Michael Muller, Fernando Martinez, Stephanie Houde, Justin D. Weisz | (参考訳) プログラマのアシスタントは、チャットボットとコードエディタを統合する実験的なプロトタイプソフトウェア開発環境である。
会話能力は、既存のコード流大言語モデルを使用して、会話の相互作用パターン、一連の規約、アプリケーションに適したインタラクションスタイルを確立するプロンプトを提供することによって達成された。
プロンプトの進化に関する議論は、特定のアプリケーションのために望ましい方法で振る舞うために既存の基礎モデルをどのように活用するかのケーススタディを提供する。 The Programmer's Assistant is an experimental prototype software development environment that integrates a chatbot with a code editor. Conversational capability was achieved by using an existing code-fluent Large Language Model and providing it with a prompt that establishes a conversational interaction pattern, a set of conventions, and a style of interaction appropriate for the application. A discussion of the evolution of the prompt provides a case study in how to coax an existing foundation model to behave in a desirable manner for a particular application. | 翻訳日:2023-01-29 13:41:03 公開日:2023-01-13 |
# 複数のアプローチによるソーシャルネットワーク上の頂点の分類 Classification of vertices on social networks by multiple approaches ( http://arxiv.org/abs/2301.11288v1 ) ライセンス: Link先を確認 | Hac{\i} \.Ismail Aslan, Chang Choi, Hoon Ko | (参考訳) 表形式以外のデータ表現の出現により、サンプルを相互に関連づけるトポロジカルな構成が注目されるようになった。
同様に、これらのネットワークは、社会的接続、データフローマップ、引用影響グラフ、タンパク質結合などと解釈できる。
しかし、ソーシャルネットワークの場合、個別のコミュニティのラベルを評価することは極めて重要である。
このような研究の根底にある理由は、ネットワークグラフのトポロジ的特徴を用いて頂点を分割するグラフネットワークを解析することが、無視できない重要性である。
これらのインタラクションベースのエンティティそれぞれに対して、テストベンチリポジトリとして、ソーシャルグラフ、メーリングデータセット、および2つの引用セットが選択される。
本稿では,最も有用な手法であるだけでなく,グラフニューラルネットワークの動作や,高速かつ計算コスト効率の高い非ニューラルネットワークアプローチに対する改善の必要性についても検討した。
また,本論文では,ネットワークのトポロジカルな特徴を用いて,予測グラフニューラルネットワークの変動による超過の限界を示した。 Due to the advent of the expressions of data other than tabular formats, the topological compositions which make samples interrelated came into prominence. Analogically, those networks can be interpreted as social connections, dataflow maps, citation influence graphs, protein bindings, etc. However, in the case of social networks, it is highly crucial to evaluate the labels of discrete communities. The reason underneath for such a study is the non-negligible importance of analyzing graph networks to partition the vertices by using the topological features of network graphs, solely. For each of these interaction-based entities, a social graph, a mailing dataset, and two citation sets are selected as the testbench repositories. This paper, it was not only assessed the most valuable method but also determined how graph neural networks work and the need to improve against non-neural network approaches which are faster and computationally cost-effective. Also, this paper showed a limit to be excesses by prospective graph neural network variations by using the topological features of networks trialed. | 翻訳日:2023-01-29 13:13:12 公開日:2023-01-13 |
# 非相互作用性自由粒子と特殊型検出器との干渉 Interference with non-interacting free particles and a special type of detector ( http://arxiv.org/abs/2208.14076v3 ) ライセンス: Link先を確認 | Ioannis Contopoulos, Athanasios C. Tzemos, Foivos Zanias, George Contopoulos | (参考訳) 我々は,非相互作用な個々の古典的自由粒子に対する干渉の古典的図式を考案する。
粒子は検出されない限り、その軌道に沿った作用積分と等しい位相の情報を運ぶ。
検出の時点では、特別なタイプの検出器が到達した個々の粒子の位相を収集し、それを複素数として時間をかけて加算し、それらの数の平方根で分割する。
検出器は、結果として生じる複素数の振幅の2乗に等しい多くの検出を報知する。
干渉パターンは、実験を繰り返した後、検出器の検出ビン内の粒子相の集合から徐々に構築される。
自由粒子に対するシュリンガー方程式の3つの解 – ガウス波束、ガウス波束が互いに接近する2つのガウス波束、壁から反射するガウス波束 – との完全一致が得られる。 We develop a classical picture of interference for non-interacting individual classical massive free particles. As long as they remain undetected, particles carry the information of a phase equal to an action integral along their trajectory. At the point of their detection, a special type of detector collects the phases from all individual particles reaching it, adds them up over time as complex numbers, and divides them by the square root of their number. The detector announces a number of detections equal to the square of the amplitude of the resulting complex number. An interference pattern is gradually built from the collection of particle phases in the detection bins of the detector after several repetitions of the experiment. We obtain perfect agreement with three solutions of the Schr\"odinger equation for free particles: a Gaussian wavepacket, two Gaussian wavepackets approaching each other, and a Gaussian wavepacket reflecting off a wall. | 翻訳日:2023-01-28 11:59:53 公開日:2023-01-13 |
# 後期遷移金属超薄膜の軌道相関 Orbital correlations in ultrathin films of late transition metals ( http://arxiv.org/abs/2209.04949v3 ) ライセンス: Link先を確認 | Sergei Ivanov, Joshua Peacock, Sergei Urazhdin | (参考訳) 我々はCoやNiなどの後期遷移金属の超薄膜(111)配向fcc膜における電子相関の2軌道ハバードモデルを開発した。
我々のモデルは、モット・ハウンドの相互作用が強磁性近傍の軌道相関をもたらすことを示している。
軌道対称性と結晶対称性のミスマッチに伴うフラストレーションは、軌道秩序を阻害し、軌道液体状態を引き起こす。
この状態は、磁気異方性のようなスピン軌道結合を含む現象に現れる。 We develop a two-orbital Hubbard model of electron correlations in ultrathin (111)-oriented fcc films of late transition metals such as Co and Ni. Our model indicates that the Mott-Hund's interaction results in ferromagnetic nearest-neighbor orbital correlations. Frustration associated with the mismatch between orbital and crystal symmetries prevents orbital ordering, resulting in the orbital liquid state. This state can be manifested in phenomena involving spin-orbit coupling, such as magnetic anisotropy. | 翻訳日:2023-01-27 00:36:23 公開日:2023-01-13 |
# 超伝導トランスモン量子共振器量子電池 Superconducting transmon qubit-resonator quantum battery ( http://arxiv.org/abs/2210.04415v2 ) ライセンス: Link先を確認 | Fu-Quan Dou, Fang-Mei Yang | (参考訳) 量子電池(QB)は小型エネルギー貯蔵・放出装置であり、将来の量子技術において重要な役割を果たす。
ここでは,1次元伝送線路共振器と$N$結合トランスモン量子ビットからなる超伝導回路上で,QBの実装方式を提案する。
qb系のハミルトニアンを導出し、3つの減衰チャネルを考慮した帯電性能を検討する。
減衰チャネルの存在は, エネルギー貯蔵過程の高振動を抑制することにより, 安定かつ強力なqbを実現する。
特に、共振器の減衰とクォービット緩和と比較すると、クォービットの退化はQBに反直観的な優位性を示す。
近接相互作用は安定エネルギーに常に正の影響を与え、結合は全非退化基底状態領域の最大帯電電力にのみ影響することを示した。
また,実験パラメータによるQB性能の評価により,本手法の有効性を示す。 Quantum battery (QB) is the miniature energy storage and release device and plays a crucial role in future quantum technology. Here, an implementation scheme of a QB is proposed on a superconducting circuit which is composed by $N$ coupled transmon qubits and a one-dimensional transmission line resonator. We derive the Hamiltonian of the QB system and investigate its charging performance by considering three decay channels. We find that the presence of the decay channels suppresses the high oscillation of the energy storage process, thereby realizing a stable and powerful QB. In particular, compared with the resonator decay and the qubit relaxation, the qubit dephasing shows a counterintuitive advantage in our QB. We show that the nearest neighbor interaction always have a positive impact on the stable energy and the coupling only significantly influences the maximum charging power in the fully nondegenerate ground state region. We also demonstrate the feasibility of our approach by evaluating the QB performance under experimental parameters. | 翻訳日:2023-01-23 01:07:36 公開日:2023-01-13 |
# 量子カオス=体積則時空間の絡み合い Quantum Chaos = Volume-Law Spatiotemporal Entanglement ( http://arxiv.org/abs/2210.14926v2 ) ライセンス: Link先を確認 | Neil Dowling and Kavan Modi | (参考訳) カオスシステムは小さな摂動に非常に敏感であり、生物学的科学、物理科学、社会科学にも至る所に存在する。
これを基本原理として、量子カオスの運用概念を構築します。
すなわち、大規模で孤立した量子システムの将来の状態は、そのシステムの小さな部分における過去のマルチタイム操作に非常に敏感である。
これにより、量子カオスと摂動プロトコルの根底にある過程の体積則時空間の絡み合いの間の直接のつながりがもたらされる。
驚くべきことに、我々の運用基準には、ルーチンの概念と、量子カオスのよく知られた診断が含まれています。
これには、Peres-Loschmidt Echo、Dynamical Entropy、Local Operator-Space Entanglement、Out-of-Time-Order Correlatorが含まれる。
それゆえ我々の原則は、既存の診断を単一の構造に統一する。
このフレームワークでは、ランダム回路から発生する進化など、量子カオスにつながるいくつかのメカニズムを定量化します。
本研究は,多体局在,計測誘起相転移,フロッケ動力学などの異種多体力学現象を体系的に研究する方法である。 Chaotic systems are highly sensitive to a small perturbation, and are ubiquitous throughout biological sciences, physical sciences and even social sciences. Taking this as the underlying principle, we construct an operational notion for quantum chaos. Namely, we demand that the whole future state of a large, isolated quantum system is highly sensitive to past multitime operations on a small subpart of that system. This immediately leads to a direct link between quantum chaos and volume-law spatiotemporal entanglement of the process underlying the perturbation protocol. Remarkably, our operational criterion already contains the routine notions, as well as the well-known diagnostics for quantum chaos. This includes the Peres-Loschmidt Echo, Dynamical Entropy, Local Operator-Space Entanglement, and Out-of-Time-Order Correlators. Our principle therefore unifies these existing diagnostics within a single structure. Within this framework, we also go on to quantify how several mechanisms lead to quantum chaos, such as evolution generated from random circuits. Our work paves the way to systematically study exotic many-body dynamical phenomena like Many-Body Localization, measurement-induced phase transitions, and Floquet dynamics. | 翻訳日:2023-01-21 13:05:37 公開日:2023-01-13 |
# 量子場論におけるR'enyi相互情報 R\'enyi Mutual Information in Quantum Field Theory ( http://arxiv.org/abs/2211.01392v2 ) ライセンス: Link先を確認 | Jonah Kudler-Flam | (参考訳) 量子論におけるR'enyi相互情報(RMI)の適切な定義を、ペッツ・R'enyi相対エントロピーによって定義する。
標準的な定義とは異なり、我々の計算するRMIは局所演算の下での非負性や単調性によって証明されるように、サブシステム間の相関の真の尺度である。
さらに、RMI は UV 有限であり、連続極限において well-defined である。
量子場理論におけるRMIのレプリカパス積分法を開発し、ツイスト場を用いた1+1D共形場理論で明確に評価する。
連結相関関数の束縛を証明し、質量のない自由フェルミオン理論の正確な数値に対して結果をチェックする。 We study a proper definition of R\'enyi mutual information (RMI) in quantum field theory as defined via the Petz R\'enyi relative entropy. Unlike the standard definition, the RMI we compute is a genuine measure of correlations between subsystems, as evidenced by its non-negativity and monotonicity under local operations. Furthermore, the RMI is UV finite and well-defined in the continuum limit. We develop a replica path integral approach for the RMI in quantum field theories and evaluate it explicitly in 1+1D conformal field theory using twist fields. We prove that it bounds connected correlation functions and check our results against exact numerics in the massless free fermion theory. | 翻訳日:2023-01-20 16:27:11 公開日:2023-01-13 |
# スピン不純物存在下でのダイヤモンド中の量子レジスタの性能 Performance of quantum registers in diamond in the presence of spin impurities ( http://arxiv.org/abs/2211.06234v2 ) ライセンス: Link先を確認 | Dominik Maile and Joachim Ankerhold | (参考訳) ダイヤモンド中の窒素Vacancy Centerは、将来の量子技術のための汎用的なビルディングブロックを形成している。
これまでのアクティビティでは、単一のスピンかごく少数のスピンのみを検知することに集中していたが、近年、量子情報処理のためにマルチキュービットレジスタがうまく実装されている。
さらなる進歩には、連続ゲート演算のための量子プロトコルの性能の詳細な理解が必要であり、緩和と強調のための確立された処理以上のものが必要となる。
ここでは、NVと環境成分から構成される最大4つのスピンを持つ小さなスピンレジスタに対して、相互作用する不純物スピンのアンサンブルが存在する場合の理論的解析を行う。
クラスタ相関の展開に適応し, パルスのデカップリングの存在下でのGHZ-およびベルゲート演算のコヒーレンス特性および忠実度を予測する。
置換窒素原子からなるスピンバスの体積密度と形状の影響も考慮される。 The Nitrogen Vacancy Center in diamond coupled to addressable surrounding nuclear spins forms a versatile building block for future quantum technologies. While previous activities focused on sensing with only a single or very few spins in operation, recently multi-qubit registers have been successfully implemented for quantum information processing. Further progress requires a detailed understanding of the performance of quantum protocols for consecutive gate operations and thus, beyond established treatments for relaxation and dephasing. Here, we provide such a theoretical analysis for a small spin registers with up to four spins built out of NV and environmental constituents in presence of ensembles of interacting impurity spins. Adapting a cluster correlation expansion, we predict coherence properties as well as fidelities for GHZ- and Bell-gate operations also in presence of decoupling pulses. The influence of the volume density and the geometry of the spin-bath consisting of substitutional nitrogen atoms are also taken into account. | 翻訳日:2023-01-19 18:28:29 公開日:2023-01-13 |
# 相互作用に対するウィルソン的アプローチ $\phi^2(i\phi)^\varepsilon$ Wilsonian approach to the interaction $\phi^2(i\phi)^\varepsilon$ ( http://arxiv.org/abs/2211.06273v2 ) ライセンス: Link先を確認 | Wen-Yuan Ai, Jean Alexandre and Sarben Sarkar | (参考訳) 非エルミート的$\mathcal{p}\mathcal{t}$-symmetric scalar field theory の再正規化について、wilsonian approach を用いて、かつ$\varepsilon$ の展開を伴わない相互作用 $\phi^2(i\phi)^\varepsilon$ を用いて検討する。
具体的には、紫外線状態とループ展開の両方において、局所ポテンシャル近似におけるウェッテリッヒ方程式を解く。
スケール依存の有効ポテンシャルとその赤外限界を計算する。
この理論は 1 ループレベルでは $\varepsilon$ の整数値に対してのみ正規化可能であることが判明し、これは$\varepsilon$-expansion ではまだ確立されていない。
したがって、2つの興味深いケースに特に注意が払われる:$\varepsilon=1,2$、相互作用の$i\phi^3$と$-\phi^4$に関連する結合に対する1ループベータ関数が計算される。
4次元時空における-\phi^4$理論は漸近自由度を持つ。
ユークリッド分割関数と$n$-point関数のいくつかの一般的な性質も導出される。 We study the renormalisation of the non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric scalar field theory with the interaction $\phi^2(i\phi)^\varepsilon$ using the Wilsonian approach and without any expansion in $\varepsilon$. Specifically, we solve the Wetterich equation in the local potential approximation, both in the ultraviolet regime and with the loop expansion. We calculate the scale-dependent effective potential and its infrared limit. The theory is found to be renormalisable at the one-loop level only for integer values of $\varepsilon$, a result which is not yet established within the $\varepsilon$-expansion. Particular attention is therefore paid to the two interesting cases $\varepsilon=1,2$, and the one-loop beta functions for the coupling associated with the interaction $i\phi^3$ and $-\phi^4$ are computed. It is found that the $-\phi^4$ theory has asymptotic freedom in four-dimensional spacetime. Some general properties for the Euclidean partition function and $n$-point functions are also derived. | 翻訳日:2023-01-19 18:18:35 公開日:2023-01-13 |
# スピン-ボソンディックモデルにおけるカオスと熱化 Chaos and Thermalization in the Spin-Boson Dicke Model ( http://arxiv.org/abs/2211.08434v2 ) ライセンス: Link先を確認 | David Villase\~nor, Sa\'ul Pilatowsky-Cameo, Miguel A. Bastarrachea-Magnani, Sergio Lerma-Hern\'andez, Lea F. Santos, Jorge G. Hirsch | (参考訳) 本稿では,スピン・ボーソン・ディッケモデルにおけるカオスと熱分解の開始との関係について詳細に解析する。
このシステムは、2つの自由度を持つよく定義された古典的極限を持ち、正規領域とカオス領域の両方を示す。
光子数と励起原子数の対角的および対角的固有状態熱化仮説(ETH)のカオス領域における固有状態期待値と対角的要素の分布について検討し、熱化を確実にする。
ethの妥当性は、フォン・ノイマンのエンタングルメントエントロピーとシャノンエントロピーを用いて共役する固有状態のカオス構造を反映している。
シャノンエントロピーに対する我々の結果は、ディックモデルの非有界スペクトルを研究する際に広く用いられるフォック基底よりも、いわゆる「効率的な基底」の利点を明らかにした。
効率的な基底は、フォック基底で到達できるものよりも多くの収束状態へのアクセスを与える。 We present a detailed analysis of the connection between chaos and the onset of thermalization in the spin-boson Dicke model. This system has a well-defined classical limit with two degrees of freedom, and it presents both regular and chaotic regions. Our studies of the eigenstate expectation values and the distributions of the off-diagonal elements of the number of photons and the number of excited atoms validate the diagonal and off-diagonal eigenstate thermalization hypothesis (ETH) in the chaotic region, thus ensuring thermalization. The validity of the ETH reflects the chaotic structure of the eigenstates, which we corroborate using the von Neumann entanglement entropy and the Shannon entropy. Our results for the Shannon entropy also make evident the advantages of the so-called "efficient basis" over the widespread employed Fock basis when investigating the unbounded spectrum of the Dicke model. The efficient basis gives us access to a larger number of converged states than what can be reached with the Fock basis. | 翻訳日:2023-01-19 12:30:26 公開日:2023-01-13 |
# 大気圧の10.2km上空における真の高次元絡み合いの分布 Distribution of genuine high-dimensional entanglement over 10.2 km of noisy metropolitan atmosphere ( http://arxiv.org/abs/2301.05724v1 ) ライセンス: Link先を確認 | Lukas Bulla, Kristian Hjorth, Oskar Kohout, Jan Lang, Sebastian Ecker, Sebastian P. Neumann, Julius Bittermann, Robert Kindler, Marcus Huber, Martin Bohmann, Rupert Ursin, Matej Pivoluska | (参考訳) 最近の量子鍵分布実験では、10.2kmの自由空間チャネル上のノイズ抵抗の改善を示すために高次元プロトコルが用いられた。
この文脈で未解決の質問の1つは、通信相手が実際に真の高次元の絡み合いを共有しているかどうかである。
本稿では,高次元時間ビン設定のための離散化および絡み合い認証方式を改良し,実験中に得られたデータに適用する。
この分析は, 上記の質問に対して肯定的に回答し, 長距離自由空間チャネル上の単一自由度において, 真の高次元絡み合いを初めて伝達する実験である。 In a recent quantum key distribution experiment, high-dimensional protocols were used to show an improved noise resistance over a 10.2 km free-space channel. One of the unresolved questions in this context is whether the communicating parties actually shared genuine high-dimensional entanglement. In this letter we introduce an improved discretisation and entanglement certification scheme for high-dimensional time-bin setups and apply it to the data obtained during the experiment. Our analysis answers the aforementioned question affirmatively and thus the experiment constitutes the first transmission of genuine high-dimensional entanglement in a single degree of freedom over a long-range free-space channel. | 翻訳日:2023-01-18 19:20:51 公開日:2023-01-13 |
# zx-計算は安定化量子力学のハイゼンベルク図において正準的である The ZX-Calculus is Canonical in the Heisenberg Picture for Stabilizer Quantum Mechanics ( http://arxiv.org/abs/2301.05717v1 ) ライセンス: Link先を確認 | J Biamonte and A Nasrallah | (参考訳) 2008年、coeckeとduncanは、量子回路、測定、量子状態による推論を形式化するグラフィカルなzx計算書き換えシステムを提案した。
ZX-計算は量子量子力学の音である。
したがって、ZX-同値変換の下での図形の等式は、行列上の対応する方程式の等式へと持ち上げられる。
逆に、2014年、バックンスは完全性を証明し、安定な量子力学における行列による導出は、ZX-計算を用いてグラフィカルに導出できることを確認した。
書き直しの代替シーケンスを同じ初期図形に適用すると、すべての図形を編集してグラフィカル同値性を確立することができれば、書き直しシステムは収束する。
ここでは、安定化量子力学のために、還元ZX書き換え系がハイゼンベルク図に既に収束していることを示す。
さらに、zx-rewrites の部分集合の任意の応用は、安定化量子力学のハイゼンベルク像における項書き換えの順序によらず一意かつ無関係に終了する。
従って、ZX系は安定化器量子力学のハイゼンベルクカノニカルである。
n$-qubits 上の$l$シングルキュービットゲートと$g$ 2-キュービットゲートの安定化回路では、回路出力は$(\frac{1}{2}\cdot g+l)\cdot n$グラフィック書き換えなしでハイゼンベルクの図式的に導出でき、それによってゴッテマン=クニールの定理のグラフィカルな証明を提供する。
最後に、クリフォード回路によって記述される各安定化器状態は、n+1$項の非負の親ハミルトニアンと対応する安定化器状態にまたがる1次元の核を生じさせる。
そのような親ハミルトニアンは、$t$ゲートクリフォード回路で作成された低エネルギー状態に対して$\mathcal{O}(t\cdot n)$グラフィカルリライトで導出される。 In 2008 Coecke and Duncan proposed the graphical ZX-calculus rewrite system which came to formalize reasoning with quantum circuits, measurements and quantum states. The ZX-calculus is sound for qubit quantum mechanics. Hence, equality of diagrams under ZX-equivalent transformations lifts to an equality of corresponding equations over matrices. Conversely, in 2014 Backens proved completeness, establishing that any derivation done in stabilizer quantum mechanics with matrices can be derived graphically using the ZX-calculus. A graphical rewrite system that is both confluent and also terminates uniquely is called canonical: Applying alternate sequences of rewrites to the same initial diagram, a rewrite system is confluent whenever all resulting diagrams can be manipulated to establish graphical equivalence. Here we show that a reduced ZX-rewrite system is already confluent in the Heisenberg picture for stabilizer quantum mechanics. Moreover, any application of a subset of ZX-rewrites terminates uniquely and irrespective of the order of term rewrites in the Heisenberg picture for stabilizer quantum mechanics. The ZX-system is hence Heisenberg-canonical for stabiliser quantum mechanics. For a stabilizer circuit on $n$-qubits with $l$ single-qubit gates and $g$ two-qubit gates, the circuit output can be derived graphically in the Heisenberg picture using no more than $(\frac{1}{2}\cdot g+l)\cdot n$ graphical rewrites, thereby providing a graphical proof of the Gottesman-Knill theorem. Finally, we establish that each stabilizer state described by a Clifford circuit gives rise to a non-negative parent Hamiltonian with $n+1$ terms and a one-dimensional kernel spanned by the corresponding stabilizer state. Such parent Hamiltonians can be derived with $\mathcal{O}(t\cdot n)$ graphical rewrites for a low energy state prepared by a $t$-gate Clifford circuit. | 翻訳日:2023-01-18 19:20:39 公開日:2023-01-13 |
# 複数の視点から学ぶ自己指導型学習:アルゴリズム,理論,応用,今後の展望 A Survey of Self-Supervised Learning from Multiple Perspectives: Algorithms, Theory, Applications and Future Trends ( http://arxiv.org/abs/2301.05712v1 ) ライセンス: Link先を確認 | Jie Gui, Tuo Chen, Qiong Cao, Zhenan Sun, Hao Luo, Dacheng Tao | (参考訳) 深い教師付き学習アルゴリズムは一般に、十分な性能を得るために多くのラベル付き例を必要とする。
教師なし学習(unsupervised learning)のサブセットとして、人間が注釈付きラベルを付けずに、多くのラベルなしの例から良い特徴を学ぶための自己教師付き学習(ssl)が提案されている。
SSLは最近ホットな研究トピックとなり、関連する多くのアルゴリズムが提案されている。
しかし、様々なssl変種間の接続とそれらがどのように進化したかについての包括的な研究はほとんどない。
本稿では,アルゴリズム,理論,応用,3つの主要なトレンド,オープンな質問の観点から,さまざまなSSL手法のレビューを試みる。
まず、ほとんどのSSLアルゴリズムのモチベーションを詳細に紹介し、共通点と相違点を比較した。
次に,SSLに関する理論的問題について検討した。
第3に、画像処理やコンピュータビジョン(CV)、自然言語処理(NLP)といった分野におけるSSLの典型的な応用について論じる。
最後に、SSLの主な3つのトレンドとオープンな研究課題について論じる。
有用な資料のコレクションはhttps://github.com/guijiejie/sslで入手できる。 Deep supervised learning algorithms generally require large numbers of labeled examples to attain satisfactory performance. To avoid the expensive cost incurred by collecting and labeling too many examples, as a subset of unsupervised learning, self-supervised learning (SSL) was proposed to learn good features from many unlabeled examples without any human-annotated labels. SSL has recently become a hot research topic, and many related algorithms have been proposed. However, few comprehensive studies have explained the connections among different SSL variants and how they have evolved. In this paper, we attempt to provide a review of the various SSL methods from the perspectives of algorithms, theory, applications, three main trends, and open questions. First, the motivations of most SSL algorithms are introduced in detail, and their commonalities and differences are compared. Second, the theoretical issues associated with SSL are investigated. Third, typical applications of SSL in areas such as image processing and computer vision (CV), as well as natural language processing (NLP), are discussed. Finally, the three main trends of SSL and the open research questions are discussed. A collection of useful materials is available at https://github.com/guijiejie/SSL. | 翻訳日:2023-01-18 19:20:00 公開日:2023-01-13 |
# oa-bev: 多カメラ3d物体検出のためのバードズ・アイ・ビュー表現への物体認識 OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for Multi-Camera 3D Object Detection ( http://arxiv.org/abs/2301.05711v1 ) ライセンス: Link先を確認 | Xiaomeng Chu, Jiajun Deng, Yuan Zhao, Jianmin Ji, Yu Zhang, Houqiang Li, Yanyong Zhang | (参考訳) マルチカメラ3dオブジェクト検出の最近のトレンドは、unified bird's-eye view (bev)表現である。
しかし、画像平面ビューから抽出された特徴を直接BEVに変換すると、特に興味のある物体の周囲に特徴歪みが生じ、背景にぼやけてしまう。
そこで本研究では,BEVベースの3Dオブジェクト検出フレームワークに接続可能なネットワークであるOA-BEVを提案する。
このような特徴には、オブジェクトの位置と3D構造に関する情報が含まれる。
まず,各3次元オブジェクト中心からオブジェクトレベルの監視によって深度分布を学習するために,ネットワークを明示的に指導する。
そして、2Dオブジェクト検出器で前景画素を選択し、3D空間に投影して擬似ボクセル特徴符号化を行う。
最後に、変形可能な注意機構を備えたBEV表現に、オブジェクト認識深度特徴と擬似ボクセル特徴を組み込む。
提案するOA-BEVの有効性を検証するため, nuScenesデータセットの広範な実験を行った。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
私たちのコードは公表されます。 The recent trend for multi-camera 3D object detection is through the unified bird's-eye view (BEV) representation. However, directly transforming features extracted from the image-plane view to BEV inevitably results in feature distortion, especially around the objects of interest, making the objects blur into the background. To this end, we propose OA-BEV, a network that can be plugged into the BEV-based 3D object detection framework to bring out the objects by incorporating object-aware pseudo-3D features and depth features. Such features contain information about the object's position and 3D structures. First, we explicitly guide the network to learn the depth distribution by object-level supervision from each 3D object's center. Then, we select the foreground pixels by a 2D object detector and project them into 3D space for pseudo-voxel feature encoding. Finally, the object-aware depth features and pseudo-voxel features are incorporated into the BEV representation with a deformable attention mechanism. We conduct extensive experiments on the nuScenes dataset to validate the merits of our proposed OA-BEV. Our method achieves consistent improvements over the BEV-based baselines in terms of both average precision and nuScenes detection score. Our codes will be published. | 翻訳日:2023-01-18 19:19:39 公開日:2023-01-13 |
# 外乱を用いたコミュニティ検出のための人工ベンチマーク(ABCD+o) Artificial Benchmark for Community Detection with Outliers (ABCD+o) ( http://arxiv.org/abs/2301.05749v1 ) ライセンス: Link先を確認 | Bogumi{\l} Kami\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge | (参考訳) ABCD(Artificial Benchmark for Community Detection graph)は、コミュニティ構造とコミュニティサイズの両方のパワー-ロー分布を持つランダムグラフモデルである。
このモデルは、よく知られたLFRモデルと類似した性質を持つグラフを生成し、主要なパラメータ $\xi$ は LFRモデルで対応するパラメータ $\mu$ を模倣するように調整することができる。
本稿では、ABCDモデルを拡張し、潜在的な外れ値を含む。
我々はABCD+oモデルと実世界のネットワークの両方で探索実験を行い、外れ値が所望の特性を持つことを示す。 The Artificial Benchmark for Community Detection graph (ABCD) is a random graph model with community structure and power-law distribution for both degrees and community sizes. The model generates graphs with similar properties as the well-known LFR one, and its main parameter $\xi$ can be tuned to mimic its counterpart in the LFR model, the mixing parameter $\mu$. In this paper, we extend the ABCD model to include potential outliers. We perform some exploratory experiments on both the new ABCD+o model as well as a real-world network to show that outliers possess some desired, distinguishable properties. | 翻訳日:2023-01-18 19:11:52 公開日:2023-01-13 |
# レーザー: 3次元生成モデリングのための潜在集合表現 Laser: Latent Set Representations for 3D Generative Modeling ( http://arxiv.org/abs/2301.05747v1 ) ライセンス: Link先を確認 | Pol Moreno, Adam R. Kosiorek, Heiko Strathmann, Daniel Zoran, Rosalia G. Schneider, Bj\"orn Winckler, Larisa Markeeva, Th\'eophane Weber, Danilo J. Rezende | (参考訳) NeRFは、任意の視点から3Dシーンをレンダリングする、新規ビュー合成の非並列な忠実性を提供する。
NeRFはシーンを完全にカバーする多数のビューをトレーニングする必要があるため、適用性が制限される。
これらの問題は、様々な形態のシーンで事前学習することで対処できるが、以前のアプローチは、あまりにも単純なシーンに適用されるか、観察できない部分のレンダリングに苦労している。
本研究では,高モデリング能力を達成し,流れの正規化をモデルとした集合値潜在表現に基づく生成モデルであるlaser-nvを提案する。
従来のアモールト化アプローチと同様に、Laser-NVは複数のシーンから構造を学び、少数のビューから高速でフィードフォワード推論を行うことができる。
観察されたビューに対するレンダリングの忠実さと一貫性を高めるために、Laser-NVはさらに、観察されたビューに幾何学的インフォームドアテンション機構を組み込む。
レーザー-NVはさらに、観察と整合性を維持しながら、シーンの隠蔽部分の多様かつ可視的な完了を発生させる。
レーザ-NVは、ShapeNetや、未観測領域で高い不確実性を特徴とする、新しいシミュレートされた都市データセット上での評価において、最先端のノベルビュー合成品質を示す。 NeRF provides unparalleled fidelity of novel view synthesis: rendering a 3D scene from an arbitrary viewpoint. NeRF requires training on a large number of views that fully cover a scene, which limits its applicability. While these issues can be addressed by learning a prior over scenes in various forms, previous approaches have been either applied to overly simple scenes or struggling to render unobserved parts. We introduce Laser-NV: a generative model which achieves high modelling capacity, and which is based on a set-valued latent representation modelled by normalizing flows. Similarly to previous amortized approaches, Laser-NV learns structure from multiple scenes and is capable of fast, feed-forward inference from few views. To encourage higher rendering fidelity and consistency with observed views, Laser-NV further incorporates a geometry-informed attention mechanism over the observed views. Laser-NV further produces diverse and plausible completions of occluded parts of a scene while remaining consistent with observations. Laser-NV shows state-of-the-art novel-view synthesis quality when evaluated on ShapeNet and on a novel simulated City dataset, which features high uncertainty in the unobserved regions of the scene. | 翻訳日:2023-01-18 19:11:42 公開日:2023-01-13 |
# グラフ知識を用いたコモンセンス世界モデルの導入 Infusing Commonsense World Models with Graph Knowledge ( http://arxiv.org/abs/2301.05746v1 ) ライセンス: Link先を確認 | Alexander Gurung, Mojtaba Komeili, Arthur Szlam, Jason Weston, and Jack Urbanek | (参考訳) 言語モデルは魅力的な言語を生成できるようになりましたが、特に動的に変化する世界でイベントを記述する場合、一貫性を維持することにはまだギャップがあります。
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討し、基礎となるゲーム状態のグラフ表現を用いて、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練する。
クラウドソースのゲームプレイとシミュレートされたゲームプレイと、複雑なアクションのデータセットを組み合わせることで、これらのモデルを構築する。
グラフがテスト時に存在しない場合でも,グラフコンテキストやターゲットをトレーニングすることで,アクションナレーションモデルの整合性を改善することが可能である。
これは自動測定と人的評価の両方で示される。
コード、新しいタスクセット、最高のパフォーマンスモデルをリリースする予定です。 While language models have become more capable of producing compelling language, we find there are still gaps in maintaining consistency, especially when describing events in a dynamically changing world. We study the setting of generating narratives in an open world text adventure game, where a graph representation of the underlying game state can be used to train models that consume and output both grounded graph representations and natural language descriptions and actions. We build a large set of tasks by combining crowdsourced and simulated gameplays with a novel dataset of complex actions in order to to construct such models. We find it is possible to improve the consistency of action narration models by training on graph contexts and targets, even if graphs are not present at test time. This is shown both in automatic metrics and human evaluations. We plan to release our code, the new set of tasks, and best performing models. | 翻訳日:2023-01-18 19:11:20 公開日:2023-01-13 |
# 残差フィッティングを用いた適応ニューラルネットワーク Adaptive Neural Networks Using Residual Fitting ( http://arxiv.org/abs/2301.05744v1 ) ライセンス: Link先を確認 | Noah Ford, John Winder, Josh McClellan | (参考訳) 与えられた問題クラスに必要なニューラルネットワークサイズを推定するための現在の手法は、ニューラルアーキテクチャ探索やプルーニングのような計算集約的な手法に焦点を当てている。
対照的に、必要に応じてニューラルネットワークにキャパシティを追加するメソッドは、アーキテクチャ検索やプラニングと同じような結果を与えるが、適切なネットワークサイズを見つけるために計算量を必要としない。
本稿では,ネットワークの残差における説明可能なエラーを探索し,十分なエラーが検出できればネットワークを拡大するネットワーク成長手法を提案する。
本手法は,分類,模倣学習,強化学習の例を用いて実証する。
これらのタスクの中で、成長中のネットワークは、成長しない小さなネットワークよりも優れたパフォーマンスを達成し、はるかに大きなネットワークと同じようなパフォーマンスを得られる。 Current methods for estimating the required neural-network size for a given problem class have focused on methods that can be computationally intensive, such as neural-architecture search and pruning. In contrast, methods that add capacity to neural networks as needed may provide similar results to architecture search and pruning, but do not require as much computation to find an appropriate network size. Here, we present a network-growth method that searches for explainable error in the network's residuals and grows the network if sufficient error is detected. We demonstrate this method using examples from classification, imitation learning, and reinforcement learning. Within these tasks, the growing network can often achieve better performance than small networks that do not grow, and similar performance to networks that begin much larger. | 翻訳日:2023-01-18 19:11:07 公開日:2023-01-13 |
# Eco-PiNN:Eco-toll推定のための物理情報ニューラルネットワーク Eco-PiNN: A Physics-informed Neural Network for Eco-toll Estimation ( http://arxiv.org/abs/2301.05739v1 ) ライセンス: Link先を確認 | Yan Li (1), Mingzhou Yang (1), Matthew Eagon (1), Majid Farhadloo (1), Yiqun Xie (2), William F. Northrop (1), Shashi Shekhar (1) ((1) University of Minnesota, (2) University of Maryland) | (参考訳) エコトール推定問題は、車両が経路を走行する際の期待される環境コスト(例えば、エネルギー消費、排気ガス)を定量化する。
この問題はエコルーティングのような社会的な応用において重要であり、排出の少ない経路やエネルギー需要の少ない経路を見つけることを目的としている。
本問題の課題は,(1)車両のエコトールの物理的パラメータ依存性,(2)エコトール情報によるデータへのアクセスの欠如,(3)道路セグメントのエコトールに対するコンテキスト情報(経路内の隣接セグメントの接続)の影響である。
Eco-toll推定の以前の研究は、主に純粋なデータ駆動型アプローチに依存しており、限られたトレーニングデータから高い推定誤差がある。
これらの制約に対処するために,(1)車両エンジンの物理法則をネットワークに統合する物理情報デコーダ,(2)注意に基づく文脈情報エンコーダ,(3)物理情報正規化によるオーバーフィッティングの低減という,3つの新しいアイデアを用いたEco-toll Estimation Physics-informed Neural Network framework(Eco-PiNN)を提案する。
実世界の大型トラックデータ実験により,提案手法が最先端手法と比較してエコトール推定の精度を大幅に向上できることを示した。 The eco-toll estimation problem quantifies the expected environmental cost (e.g., energy consumption, exhaust emissions) for a vehicle to travel along a path. This problem is important for societal applications such as eco-routing, which aims to find paths with the lowest exhaust emissions or energy need. The challenges of this problem are three-fold: (1) the dependence of a vehicle's eco-toll on its physical parameters; (2) the lack of access to data with eco-toll information; and (3) the influence of contextual information (i.e. the connections of adjacent segments in the path) on the eco-toll of road segments. Prior work on eco-toll estimation has mostly relied on pure data-driven approaches and has high estimation errors given the limited training data. To address these limitations, we propose a novel Eco-toll estimation Physics-informed Neural Network framework (Eco-PiNN) using three novel ideas, namely, (1) a physics-informed decoder that integrates the physical laws of the vehicle engine into the network, (2) an attention-based contextual information encoder, and (3) a physics-informed regularization to reduce overfitting. Experiments on real-world heavy-duty truck data show that the proposed method can greatly improve the accuracy of eco-toll estimation compared with state-of-the-art methods. | 翻訳日:2023-01-18 19:10:53 公開日:2023-01-13 |
# 古典的絡み合いとエントロピー Classical Entanglement and Entropy ( http://arxiv.org/abs/2301.05735v1 ) ライセンス: Link先を確認 | Haowu Duan, Alex Kovner, Vladimir V. Skokov | (参考訳) 高エネルギー散乱の文脈における絡み合いの最近の議論により、量子系の高励起状態の絡み合いエントロピーと対応する古典系の古典的絡み合いエントロピーの関係を考察した。
2つの弱結合調和振動子の例に、2つのエントロピーが等しいことを示す。
量子力学的には、このエントロピーをもたらす還元密度行列は最大エンタングル状態に近い。
したがって、このタイプの状態における絡み合いの性質は純粋に古典的である。 Motivated by recent discussions of entanglement in the context of high energy scattering, we consider the relation between the entanglement entropy of a highly excited state of a quantum system and the classical entanglement entropy of the corresponding classical system. We show on the example of two weakly coupled harmonic oscillators, that the two entropies are equal. Quantum mechanically, the reduced density matrix which yields this entropy is close to the maximally entangled state. We thus observe that the nature of entanglement in this type of state is purely classical. | 翻訳日:2023-01-18 19:10:27 公開日:2023-01-13 |
# 量子コンピューティングにおける誤り訂正符号の自動実装と評価: 誤り訂正のためのオープンソースフレームワーク Automatic Implementation and Evaluation of Error-Correcting Codes for Quantum Computing: An Open-Source Framework for Quantum Error Correction ( http://arxiv.org/abs/2301.05731v1 ) ライセンス: Link先を確認 | Thomas Grurl, Christoph Pichler, J\"urgen Fu{\ss}, Robert Wille | (参考訳) 量子力学的効果の脆弱さのため、実際の量子コンピュータは、計算中にエラーを引き起こす頻繁なノイズ効果に悩まされている。
量子誤り訂正符号は、対応するエラーを識別し修正する手段を提供することでこの問題に対処する。
しかしながら、量子誤差補正の研究のほとんどは理論上、あるいは特定のハードウェアモデルでのみ評価されている。
さらに、対応するコードの開発と、それが特定のハードウェアモデルの問題を解決するかどうかの評価は、これまでも退屈な試行錯誤にかかっていることが多い。
本研究では、与えられたアプリケーションに対してエラー訂正コードを自動的に適用し、次いで自動ノイズ認識量子回路シミュレーションにより、これらのタスクにおけるエンジニアや研究者を支援するオープンソースフレームワークを提案する。
ケーススタディでは、これはエラー訂正コードのより効率的な実装と評価を可能にすることを示している。 Due to the fragility of quantum mechanical effects, real quantum computers are plagued by frequent noise effects that cause errors during computations. Quantum error-correcting codes address this problem by providing means to identify and correct corresponding errors. However, most of the research on quantum error correction is theoretical or has been evaluated for specific hardware models only. Moreover, the development of corresponding codes and the evaluation of whether they indeed solve the problem for a particular hardware model, still often rests on tedious trial-and-error thus far. In this work, we propose an open-source framework that supports engineers and researchers in these tasks by automatically applying error-correcting codes for a given application followed by an automatic noise-aware quantum circuit simulation. Case studies showcase that this allows for a substantially more efficient implementation and evaluation of error-correcting codes. | 翻訳日:2023-01-18 19:10:11 公開日:2023-01-13 |
# gar:多元融合のための一般化自己回帰 GAR: Generalized Autoregression for Multi-Fidelity Fusion ( http://arxiv.org/abs/2301.05729v1 ) ライセンス: Link先を確認 | Yuxin Wang, Zheng Xing, Wei W. Xing | (参考訳) 複雑なシステムの繰り返しシミュレーションを行う多くの科学研究や工学応用において、サロゲートはシステム全体を素早く見積もるために一般的に用いられる。
トレーニングサンプルの生成コストを削減するため、低忠実度(高速だが不正確な)と高忠実度(低いが正確)のシミュレーションの結果を組み合わせた、有望なアプローチとなっている。
マルチフィデリティ融合技術の急速な発展にもかかわらず、既存の手法の多くは特定のデータ構造を必要とし、高次元出力にはあまりスケールしない。
これらの問題を解決するために,従来の自己回帰(AR)を一般化し,その単純さ,堅牢性,正確性,トラクタビリティを活かし,テンソル定式化と潜時特徴を用いた一般化自己回帰(GAR)を提案する。
garは任意の次元の出力と任意の多重忠実性データ構造を扱うことができ、複雑な問題に対する多重忠実性融合の需要を満たす。
さらに,多面体の場合のGARに基づく自己クリゲビリティ定理を証明し,dが出力の次元性であるd3の係数による計算平均精度を正確に予測した簡易なGARであるCIGARを開発する。
実験的な評価には、多くの標準PDEと実科学的な例が含まれており、提案手法がSOTA法を高いマージン(RMSEの最大6倍改善)で一貫した性能を示し、高忠実度トレーニングサンプルが2つしかない。 In many scientific research and engineering applications where repeated simulations of complex systems are conducted, a surrogate is commonly adopted to quickly estimate the whole system. To reduce the expensive cost of generating training examples, it has become a promising approach to combine the results of low-fidelity (fast but inaccurate) and high-fidelity (slow but accurate) simulations. Despite the fast developments of multi-fidelity fusion techniques, most existing methods require particular data structures and do not scale well to high-dimensional output. To resolve these issues, we generalize the classic autoregression (AR), which is wildly used due to its simplicity, robustness, accuracy, and tractability, and propose generalized autoregression (GAR) using tensor formulation and latent features. GAR can deal with arbitrary dimensional outputs and arbitrary multifidelity data structure to satisfy the demand of multi-fidelity fusion for complex problems; it admits a fully tractable likelihood and posterior requiring no approximate inference and scales well to high-dimensional problems. Furthermore, we prove the autokrigeability theorem based on GAR in the multi-fidelity case and develop CIGAR, a simplified GAR with the exact predictive mean accuracy with computation reduction by a factor of d 3, where d is the dimensionality of the output. The empirical assessment includes many canonical PDEs and real scientific examples and demonstrates that the proposed method consistently outperforms the SOTA methods with a large margin (up to 6x improvement in RMSE) with only a couple high-fidelity training samples. | 翻訳日:2023-01-18 19:09:44 公開日:2023-01-13 |
# 変分量子固有解法を応用した大規模スパース波動関数回路シミュレータ Large-scale sparse wavefunction circuit simulator for applications with the variational quantum eigensolver ( http://arxiv.org/abs/2301.05726v1 ) ライセンス: Link先を確認 | J. Wayne Mullinax and Norm M. Tubman | (参考訳) 近未来における物理システムのシミュレーションのための量子コンピュータの状態準備のための標準パラダイムは、様々なアルゴリズム手法で広く研究されてきた。
そのようなアプローチの1つはパラメータ化回路の最適化であるが、回路サイズではますます困難になっている。
その結果、大規模回路最適化の実用性は比較的不明である。
本研究では、純粋に古典的資源を近似的だが頑健な方法で量子回路の最適化に利用し、ハイパフォーマンスコンピューティングから得た資源を橋渡しし、量子的優位性に直接移行できることを示す。
本報告では, スパース波動関数回路解法を用いてこれを実証し, 高速な古典シミュレーションの領域を実証する。
このようなツールを使用すると、実用的で合理的な古典計算資源のみを用いて数百量子ビットの回路の回路最適化に悩む多くの問題を回避することができる。
これらのツールにより、量子コンピュータにおける変分最適化アプローチの真の利点を調査できるため、物理的システムのための短期ハードウェアで期待できるものに窓を開くことができる。
我々は、数万の変動パラメータを持つ64キュービットまでの様々な分子上のユニタリ結合型クラスター ansatz を用いてこれを実証する。 The standard paradigm for state preparation on quantum computers for the simulation of physical systems in the near term has been widely explored with different algorithmic methods. One such approach is the optimization of parameterized circuits, but this becomes increasingly challenging with circuit size. As a consequence, the utility of large-scale circuit optimization is relatively unknown. In this work we demonstrate that purely classical resources can be used to optimize quantum circuits in an approximate but robust manner such that we can bridge the resources that we have from high performance computing and see a direct transition to quantum advantage. We show this through sparse wavefunction circuit solvers, which we detail here, and demonstrate a region of efficient classic simulation. With such tools, we can avoid the many problems that plague circuit optimization for circuits with hundreds of qubits using only practical and reasonable classical computing resources. These tools allow us to probe the true benefit of variational optimization approaches on quantum computers, thus opening the window to what can be expected with near term hardware for physical systems. We demonstrate this with a unitary coupled cluster ansatz on various molecules up to 64 qubits with tens of thousands of variational parameters. | 翻訳日:2023-01-18 19:09:13 公開日:2023-01-13 |
# モジュラー貯留層工学によるスケーラブルな絡み合い安定化 Scalable entanglement stabilization with modular reservoir engineering ( http://arxiv.org/abs/2301.05725v1 ) ライセンス: Link先を確認 | E. Doucet, L. C. G. Govia, A. Kamal | (参考訳) 散逸工学は、数量子ビット系における量子状態の準備と自律的誤り訂正のための強力なフレームワークである。
本稿では,この手法のスケーラビリティを検証し,量子ビット数の増加に伴って,分散状態安定化プロトコルが真にスケーラブルであることを示す3つの基準を与える。
単純なビルディングブロックから,リソース効率のよい方法で構築できるという要件に加えて,拡張性のあるプロトコルでは,システムサイズの増加に伴う安定化時間の良好なスケーリングも行わなければならない。
N$-qubit 状態の安定化を図るため,固定深さ量子ビット相互作用と線形散逸を併用したプロトコル群を提案する。
単一の$N$-qubitディシファイタではなく、数ビットのディシファイタが重なり合うような、散逸エンジニアリングのためのモジュラーアプローチは、我々のプロトコルがスケーラブルであることには不可欠である。
このアプローチにより、量子ビット数が増加するにつれて、我々のプロトコルは安定化時間と制御ドライブ数の線形成長の低次多項式スケーリングを示す。
提案プロトコルは、現在の最先端のサーキットQEDアーキテクチャでは最も容易にアクセス可能であるが、ここで提示されるモジュラー散逸エンジニアリングアプローチは、他のプラットフォームにも容易に適用でき、他の興味深い量子状態の安定化にも利用できる。 Dissipation engineering is a powerful framework for quantum state preparation and autonomous error correction in few-qubit systems. In this work, we examine the scalability of this approach and give three criteria which any dissipative state stabilization protocol should satisfy to be truly scalable as the number of qubits grows. Besides the requirement that it can be constructed in a resource-efficient manner from simple-to-engineer building blocks, a scalable protocol must also exhibit favorable scaling of the stabilization time with the increase in system size. We present a family of protocols which employ fixed-depth qubit-qubit interactions alongside engineered linear dissipation to stabilize an $N$-qubit W state. We find that a modular approach to dissipation engineering, with several overlapping few-qubit dissipators rather than a single $N$-qubit dissipator, is essential for our protocol to be scalable. With this approach, as the number of qubits increases our protocol exhibits low-degree polynomial scaling of the stabilization time and linear growth of the number of control drives in the best case. While the proposed protocol is most easily accessible with current state-of-the-art circuit-QED architectures, the modular dissipation engineering approach presented here can be readily adapted to other platforms and for stabilization of other interesting quantum states. | 翻訳日:2023-01-18 19:08:54 公開日:2023-01-13 |
# MLOps: 機械学習の新しいフロンティアにおける政策立案者のためのプライマー MLOps: A Primer for Policymakers on a New Frontier in Machine Learning ( http://arxiv.org/abs/2301.05775v1 ) ライセンス: Link先を確認 | Jazmia Henry | (参考訳) この章はデータサイエンティストやMLOpsの専門家を念頭に置いて書かれているが、アルゴリズムのバイアスを減らす方法を見つけることに関心のある政策立案者、改革主義者、AI倫理学者、社会学者のリソースとして使用できる。
この記事を読んでいるプロフェッショナルが、gebru、buolamwini、benjamin、shaneによる歴史的辺境化グループにおけるアルゴリズムの意味に関する素晴らしい研究を、いくつか挙げて読んでいると仮定して、デプロイメント中心のアプローチを取りたいと思います。
この論文の最後に掲載されている"Important Reading for Ethical Model Building"リストを参照すると、機械学習モデルについてもっと全体論的に考慮して考えるためのフレームワークが提供されます。
この章の序文では、トレーニングプロセスのために透明なデータを収集せずにモデルがデプロイされ、実践者がトレーニング環境と実世界のギャップを生かしたモデルに何が起こるかに特別な注意を払わずにデプロイされた場合の、実際の例における彼らの作業の重要性について述べています。
この章の残りは、前述の研究者の作業に基づいて、ポストプロダクションを実行するモデルの現実と、MLOpsライフサイクル中にツールを使用してバイアスを識別し、現実のモデルに導入される可能性のあるバイアスを軽減する方法について論じている。 This chapter is written with the Data Scientist or MLOps professional in mind but can be used as a resource for policy makers, reformists, AI Ethicists, sociologists, and others interested in finding methods that help reduce bias in algorithms. I will take a deployment centered approach with the assumption that the professionals reading this work have already read the amazing work on the implications of algorithms on historically marginalized groups by Gebru, Buolamwini, Benjamin and Shane to name a few. If you have not read those works, I refer you to the "Important Reading for Ethical Model Building" list at the end of this paper as it will help give you a framework on how to think about Machine Learning models more holistically taking into account their effect on marginalized people. In the Introduction to this chapter, I root the significance of their work in real world examples of what happens when models are deployed without transparent data collected for the training process and are deployed without the practitioners paying special attention to what happens to models that adapt to exploit gaps between their training environment and the real world. The rest of this chapter builds on the work of the aforementioned researchers and discusses the reality of models performing post production and details ways ML practitioners can identify bias using tools during the MLOps lifecycle to mitigate bias that may be introduced to models in the real world. | 翻訳日:2023-01-18 19:02:25 公開日:2023-01-13 |
# rxrx1: 実験バッチ補正法を評価するデータセット RxRx1: A Dataset for Evaluating Experimental Batch Correction Methods ( http://arxiv.org/abs/2301.05768v1 ) ライセンス: Link先を確認 | Maciej Sypetkowski, Morteza Rezanejad, Saber Saberian, Oren Kraus, John Urbanik, James Taylor, Ben Mabey, Mason Victors, Jason Yosinski, Alborz Rezazadeh Sereshkeh, Imran Haque, Berton Earnshaw | (参考訳) 高スループットスクリーニング技術は、多くの生物学分野において大量のデータを取得するために一般的に用いられている。
このようなスクリーン内の異なる実験バッチの技術的実行における可変性に起因する人工物がこれらの観察を混同し、無効な生物学的結論をもたらすことはよく知られている。
したがって、結果を分析する際にこれらのバッチ効果を考慮する必要がある。
本稿では,バッチ効果補正法を体系的に研究するための生物学的データセットRxRx1について述べる。
このデータセットは、ヒト細胞の125,510個の高分解能蛍光顕微鏡画像からなり、4種類の細胞で51の実験バッチで1,138の遺伝的摂動を受ける。
画像のみの視覚検査は、明らかなバッチ効果を示す。
本研究は,これらの画像に対する実験バッチ補正手法の有効性を評価するための分類タスクを提案し,本課題に対する多数の補正手法の性能について検討する。
RxRx1のリリースの目標は、未確認の試験バッチによく適応する効果的な実験バッチ補正手法の開発を促進することである。
データセットはhttps://rxrx.ai.comでダウンロードできる。 High-throughput screening techniques are commonly used to obtain large quantities of data in many fields of biology. It is well known that artifacts arising from variability in the technical execution of different experimental batches within such screens confound these observations and can lead to invalid biological conclusions. It is therefore necessary to account for these batch effects when analyzing outcomes. In this paper we describe RxRx1, a biological dataset designed specifically for the systematic study of batch effect correction methods. The dataset consists of 125,510 high-resolution fluorescence microscopy images of human cells under 1,138 genetic perturbations in 51 experimental batches across 4 cell types. Visual inspection of the images alone clearly demonstrates significant batch effects. We propose a classification task designed to evaluate the effectiveness of experimental batch correction methods on these images and examine the performance of a number of correction methods on this task. Our goal in releasing RxRx1 is to encourage the development of effective experimental batch correction methods that generalize well to unseen experimental batches. The dataset can be downloaded at https://rxrx.ai. | 翻訳日:2023-01-18 19:01:58 公開日:2023-01-13 |
# 仮想化基地局における消費電力予測のためのML手法 ML Approach for Power Consumption Prediction in Virtualized Base Stations ( http://arxiv.org/abs/2301.05764v1 ) ライセンス: Link先を確認 | Merim Dzaferagic, Jose A. Ayala-Romero and Marco Ruffini | (参考訳) open radio access network (o-ran) アーキテクチャで導入された柔軟性により、ネットワークのすべての部分で静的な構成を越えて考えることができます。
本稿では、異なる無線スケジューラの電力消費量の予測と、o-ranがデータ収集、トレーニングモデル、電力消費を制御するためのポリシーの展開に提供している可能性について述べる。
消費電力関数を学習するためのブラックボックス(ニューラルネットワーク)モデルを提案する。
このアプローチを、ドメイン知識に基づいた手作りの既知のソリューションと比較する。
我々のソリューションは、以前のアプリケーションに関する知識なしに同様のパフォーマンスに達し、システムの振る舞いが十分に理解されておらず、ドメインの知識が利用できないシナリオにおいて、より柔軟性を提供します。 The flexibility introduced with the Open Radio Access Network (O-RAN) architecture allows us to think beyond static configurations in all parts of the network. This paper addresses the issue related to predicting the power consumption of different radio schedulers, and the potential offered by O-RAN to collect data, train models, and deploy policies to control the power consumption. We propose a black-box (Neural Network) model to learn the power consumption function. We compare our approach with a known hand-crafted solution based on domain knowledge. Our solution reaches similar performance without any previous knowledge of the application and provides more flexibility in scenarios where the system behavior is not well understood or the domain knowledge is not available. | 翻訳日:2023-01-18 19:01:41 公開日:2023-01-13 |
# 厳密な不確かさを意識した量子化フレームワークは、再現可能で再現可能な機械学習ワークフローに不可欠である A Rigorous Uncertainty-Aware Quantification Framework Is Essential for Reproducible and Replicable Machine Learning Workflows ( http://arxiv.org/abs/2301.05763v1 ) ライセンス: Link先を確認 | Line Pouchard, Kristofer G. Reyes, Francis J. Alexander Byung-Jun Yoon | (参考訳) 機械学習(ML)または人工知能(AI)モデルによる予測を再現し、そのようなML/AI予測を組み込んだ科学的ワークフローの結果として得られる能力は、多くの要因によって駆動される。
関心量の再現可能性(QoI)を定量的に評価できる不確実性対応計量は、ML/AIモデルを含む科学的ワークフローから得られる結果の信頼性に寄与する。
本稿では,ベイズパラダイムにおける不確実性定量化(uq)が,複雑な科学的ワークフローの再現性を定量化する汎用的かつ厳密な枠組みを提供できるかについて議論する。
このようなフレームワークは、科学ワークフローのためにML/AIに現在存在する重要なギャップを埋める可能性があり、研究者はML/AIモデル予測変数がML/AI駆動ワークフローの予測結果に与える影響を判断できる。
我々は、このフレームワークが様々な科学的応用のためにより再現可能で信頼できるワークフローの設計に寄与し、究極的には科学的発見を加速することを期待している。 The ability to replicate predictions by machine learning (ML) or artificial intelligence (AI) models and results in scientific workflows that incorporate such ML/AI predictions is driven by numerous factors. An uncertainty-aware metric that can quantitatively assess the reproducibility of quantities of interest (QoI) would contribute to the trustworthiness of results obtained from scientific workflows involving ML/AI models. In this article, we discuss how uncertainty quantification (UQ) in a Bayesian paradigm can provide a general and rigorous framework for quantifying reproducibility for complex scientific workflows. Such as framework has the potential to fill a critical gap that currently exists in ML/AI for scientific workflows, as it will enable researchers to determine the impact of ML/AI model prediction variability on the predictive outcomes of ML/AI-powered workflows. We expect that the envisioned framework will contribute to the design of more reproducible and trustworthy workflows for diverse scientific applications, and ultimately, accelerate scientific discoveries. | 翻訳日:2023-01-18 19:01:30 公開日:2023-01-13 |
# 量子カルマン格子ボルツマン法による流体シミュレーション Quantum Carleman Lattice Boltzmann Simulation of Fluids ( http://arxiv.org/abs/2301.05762v1 ) ライセンス: Link先を確認 | Wael Itani, Katepalli R. Sreenivasan, Sauro Succi | (参考訳) 本稿では,格子運動論の第2量子化バージョンのカールマン線形化に基づく古典流体シミュレーションのための量子計算アルゴリズムについて紹介する。
流体乱流の場合の展望と限界について論じて考察した。 We present a pedagogical introduction to a quantum computing algorithm for the simulation of classical fluids, based on the Carleman linearization of a second-quantized version of lattice kinetic theory. Prospects and limitations for the case of fluid turbulence are discussed and commented on. | 翻訳日:2023-01-18 19:01:13 公開日:2023-01-13 |
# モデルアクセスのない局所モデル記述と不確かさ Local Model Explanations and Uncertainty Without Model Access ( http://arxiv.org/abs/2301.05761v1 ) ライセンス: Link先を確認 | Surin Ahn, Justin Grana, Yafet Tamene, Kristian Holsheimer | (参考訳) 本稿では,モデル自体に直接アクセスするのではなく,モデルからの入力と出力のサンプルが利用可能である場合にのみ,機械学習モデルに対する時間後説明と不確実区間を生成するモデル非依存アルゴリズムを提案する。
この状況は、モデル評価が高価である場合、プライバシ、セキュリティ、帯域幅の制約が課される場合、あるいはリアルタイムでオンデバイスな説明が必要な場合などである。
本アルゴリズムは局所多項式回帰を用いて説明を構築し,ブートストラップ手法を用いて説明の不確かさを定量化する。
シミュレーション実験により,提案アルゴリズムが生成した不確かさ間隔は,古典回帰分析から得られた有意な信頼区間と比較して,区間幅と被覆確率とのトレードオフが良好であることを示す。
さらに、2つの実データセットで訓練されたブラックボックスモデルに適用することで、本手法の能力を実証する。 We present a model-agnostic algorithm for generating post-hoc explanations and uncertainty intervals for a machine learning model when only a sample of inputs and outputs from the model is available, rather than direct access to the model itself. This situation may arise when model evaluations are expensive; when privacy, security and bandwidth constraints are imposed; or when there is a need for real-time, on-device explanations. Our algorithm constructs explanations using local polynomial regression and quantifies the uncertainty of the explanations using a bootstrapping approach. Through a simulation study, we show that the uncertainty intervals generated by our algorithm exhibit a favorable trade-off between interval width and coverage probability compared to the naive confidence intervals from classical regression analysis. We further demonstrate the capabilities of our method by applying it to black-box models trained on two real datasets. | 翻訳日:2023-01-18 19:01:08 公開日:2023-01-13 |
# 分散量子コンピューティングのための量子回路のハイパーグラフィック分割 Hypergraphic partitioning of quantum circuits for distributed quantum computing ( http://arxiv.org/abs/2301.05759v1 ) ライセンス: Link先を確認 | Waldemir Cambiucci, Regina Melo Silveira, Wilson Vicente Ruggiero | (参考訳) NISQコンピュータ - ノイズ中間スケール量子 - の文脈では、処理エージェント間の回路の分配は、小型マシンでより大きなスケーラビリティを得るための実行可能なアプローチである、という意見が一致している。
このアプローチは、パーティション間の通信を得るためにキュービットを割り当てるコストで、組み合わせた計算能力を高めることができる。
そして、効率的な回路分割戦略に基づく通信コストの削減が課題となる。
本研究の目的は、分散量子コンピューティングシナリオにおける量子回路の物理分割時に発生する通信キュービットの消費を減らすことである。
本稿では,このためにヒューリスティックなパーティショニングアルゴリズムを用いて,ハイパーグラフィック表現で量子回路を分割する新しい手法を提案する。
この手法により,ベンチマーク回路上でランダムに実行されるプロセスに対して,2部分割で発生する通信コストを50%以上削減した部分的な結果を得た。
将来、複数のパーティションによる実験は、異種処理および通信シナリオにおけるマシンによる分散量子コンピューティングのサポートにより、以前の研究と同等かそれ以上の結果が続くことが期待されている。 In the context of NISQ computers - Noise Intermediate Scale Quantum, it is a consensus that the distribution of circuits among processing agents is a viable approach to get greater scalability with small machines. This approach can increase the combined computational power at the cost of dedicating qubits to get the communication between partitions. Then comes the challenge of reducing this cost of communication-based on efficient circuit partitioning strategies. In this context, this work aims to reduce the consumption of communication qubits generated during the physical partitioning of quantum circuits in the distributed quantum computing scenario. We present a new method for partitioning quantum circuits in a hypergraphic representation, using a heuristic partitioning algorithm for this, reducing the number of communication qubits between the partitions. With this approach, we obtained partial results with a more than 50% reduction in the communication cost generated for the bipartite partitioning against a process done randomly on benchmark circuits. The expectation is that future experiments with multiple partitions will continue with equal or better results than previous works, supporting distributed quantum computing with machines in heterogeneous processing and communication scenarios. | 翻訳日:2023-01-18 19:00:53 公開日:2023-01-13 |
# 公正性と順序決定:限界・教訓・機会 Fairness and Sequential Decision Making: Limits, Lessons, and Opportunities ( http://arxiv.org/abs/2301.05753v1 ) ライセンス: Link先を確認 | Samer B. Nashed, Justin Svegliato and Su Lin Blodgett | (参考訳) 自動意思決定・意思決定支援システムが日常的に普及するにつれて、これらのシステムによる意思決定から生じる潜在的な害の予防・緩和に関する研究が盛んになっている。
しかし、様々な研究コミュニティが独立してこれらの害を概念化し、潜在的な応用を想定し、介入を提案している。
その結果は、一般的には、意思決定アルゴリズムを“正しいことをする”ことを保証することに焦点を当てた、やや壊れた文学の風景である。
本稿では,主に予測システムに焦点をあてるアルゴリズム的公正性と,主にシーケンシャルな意思決定と計画に焦点をあてる倫理的意思決定という,この文献の2つの主要なサブセットにまたがる作業を比較し,議論する。
これらの設定のそれぞれが、その規範的な関心事、異なる設定で異なるテクニックが実現可能かどうか、そして、それぞれの設定からのアイデアが他方にどのように役立つか、について検討する。 As automated decision making and decision assistance systems become common in everyday life, research on the prevention or mitigation of potential harms that arise from decisions made by these systems has proliferated. However, various research communities have independently conceptualized these harms, envisioned potential applications, and proposed interventions. The result is a somewhat fractured landscape of literature focused generally on ensuring decision-making algorithms "do the right thing". In this paper, we compare and discuss work across two major subsets of this literature: algorithmic fairness, which focuses primarily on predictive systems, and ethical decision making, which focuses primarily on sequential decision making and planning. We explore how each of these settings has articulated its normative concerns, the viability of different techniques for these different settings, and how ideas from each setting may have utility for the other. | 翻訳日:2023-01-18 19:00:36 公開日:2023-01-13 |
# 量子コンピュータ上の一重項分裂のモデル化 Modeling singlet fission on a quantum computer ( http://arxiv.org/abs/2301.05752v1 ) ライセンス: Link先を確認 | Daniel Claudino, Bo Peng, Karol Kowalski, Travis S. Humble | (参考訳) 本稿では,一重項分裂の要件を満たすための単純なモデルとして,線形h$_4$分子の研究に量子コンピュータを用いることで,量子コンピューティングの実用性を示す。
我々は、量子計算の全体的なコストを下げるために、一連の独立した戦略を利用する。
1) 関連するヒルベルト空間のサイズを小さくするため,キュービットをテープオフすること。
2) qubit-wise commuting (qwc) pauli 文字列群が共有する固有ベースへの回転による測定最適化
3) 複数の状態準備と測定操作の並列実行、量子H1-1量子ハードウェアで利用可能な20量子ビットすべてに量子回路を実装する。
本報告では, 単一核分裂のエネルギー的前提条件を満たすとともに, 精密な遷移エネルギー(選択された一粒子基底)との整合性が良好であり, 単核分裂候補に対して計算的に抽出可能な古典的手法よりも優れていることを示す。 We present a use case of practical utility of quantum computing by employing a quantum computer in the investigation of the linear H$_4$ molecule as a simple model to comply with the requirements of singlet fission. We leverage a series of independent strategies to bring down the overall cost of the quantum computations, namely 1) tapering off qubits in order to reduce the size of the relevant Hilbert space; 2) measurement optimization via rotations to eigenbases shared by groups of qubit-wise commuting (QWC) Pauli strings; 3) parallel execution of multiple state preparation + measurement operations, implementing quantum circuits onto all 20 qubits available in the Quantinuum H1-1 quantum hardware. We report results that satisfy the energetic prerequisites of singlet fission and which are in excellent agreement with the exact transition energies (for the chosen one-particle basis), and much superior to classical methods deemed computationally tractable for singlet fission candidates | 翻訳日:2023-01-18 19:00:20 公開日:2023-01-13 |
# マルチクナプサック問題に対する量子コンピューティング技術 Quantum Computing Techniques for Multi-Knapsack Problems ( http://arxiv.org/abs/2301.05750v1 ) ライセンス: Link先を確認 | Abhishek Awasthi, Francesco B\"ar, Joseph Doetsch, Hans Ehm, Marvin Erdmann, Maximilian Hess, Johannes Klepsch, Peter A. Limacher, Andre Luckow, Christoph Niedermeier, Lilly Palackal, Ruben Pfeiffer, Philipp Ross, Hila Safi, Janik Sch\"onmeier-Kromer, Oliver von Sicard, Yannick Wenger, Karen Wintersperger, Sheir Yarkoni | (参考訳) 最適化問題は様々な産業環境においてユビキタスであり、複数クナプサック最適化は、複数の産業が日々直面するタスクの1つである。
量子コンピューティングの出現は、計算集約的なタスクのための新しいパラダイムを開き、特定のクラスの問題に対してより良くより高速なソリューションを提供することを約束している。
本研究は,マルチクナプサック問題に対する量子コンピューティング手法の包括的研究であり,量子ソフトウェアとハードウェアツールを用いて,最先端の量子アルゴリズムのいくつかを調査した。
量子アプローチの性能は、様々なハイパーパラメータと比較される。
本稿では,QAOA や VQE などのゲート型量子アルゴリズムや量子アニーリングについて考察し,その解法と実行時推定について概観する。
さらに、本手法の優れた性能の理由を理解するために、ウォームスタート型QAOAの影響を分析する。
今後,産業応用における量子最適化の活用を視野に入れて,結果の意義について考察する。
より優れた量子ハードウェアに対する高い需要に加えて、より優れた量子最適化アルゴリズム、特にマルチクナップサック問題の必要性も強調した。 Optimization problems are ubiquitous in various industrial settings, and multi-knapsack optimization is one recurrent task faced daily by several industries. The advent of quantum computing has opened a new paradigm for computationally intensive tasks, with promises of delivering better and faster solutions for specific classes of problems. This work presents a comprehensive study of quantum computing approaches for multi-knapsack problems, by investigating some of the most prominent and state-of-the-art quantum algorithms using different quantum software and hardware tools. The performance of the quantum approaches is compared for varying hyperparameters. We consider several gate-based quantum algorithms, such as QAOA and VQE, as well as quantum annealing, and present an exhaustive study of the solutions and the estimation of runtimes. Additionally, we analyze the impact of warm-starting QAOA to understand the reasons for the better performance of this approach. We discuss the implications of our results in view of utilizing quantum optimization for industrial applications in the future. In addition to the high demand for better quantum hardware, our results also emphasize the necessity of more and better quantum optimization algorithms, especially for multi-knapsack problems. | 翻訳日:2023-01-18 19:00:04 公開日:2023-01-13 |
# 行列代数間の基本正写像の露呈性 Exposedness of elementary positive maps between matrix algebras ( http://arxiv.org/abs/2301.05788v1 ) ライセンス: Link先を確認 | Seung-Hyeok Kye | (参考訳) 正線型写像 $\ad_s$ は行列論だけでなく量子情報理論においても重要な役割を果たす。
これはMarciniak [Linear Multilinear Alg. 61 (2013), 970--975] によって証明され、写像 $\ad_s$ はすべての正の線型写像の凸錐の露出線を生成する。
本稿では,Choi行列とWoronowiczの方法を用いた2つの別の証明を提案する。 The positive linear maps $\ad_s$ which send matrices $x$ to $s^*xs$ play important roles in quantum information theory as well as matrix theory. It was proved by Marciniak [Linear Multilinear Alg. 61 (2013), 970--975] that the map $\ad_s$ generates an exposed ray of the convex cone of all positive linear maps. In this note, we provide two alternative proofs, using Choi matrices and Woronowicz's method, respectively. | 翻訳日:2023-01-18 18:51:29 公開日:2023-01-13 |
# サーロゲートモデリングによる効率的な活性化関数最適化 Efficient Activation Function Optimization through Surrogate Modeling ( http://arxiv.org/abs/2301.05785v1 ) ライセンス: Link先を確認 | Garrett Bingham and Risto Miikkulainen | (参考訳) 慎重に設計されたアクティベーション機能は、多くの機械学習タスクにおけるニューラルネットワークのパフォーマンスを改善することができる。
しかし、人間が最適な活性化関数を構築することは困難であり、現在の活性化関数探索アルゴリズムは極めて高価である。
本研究の目的は, コンボリューション, 残留, 視覚トランスフォーマーの訓練により, act-bench-cnn, act-bench-resnet, act-bench-vitのベンチマークデータセットを2,913個の系統的生成アクティベーション関数を用いてスクラッチから作成することである。
第2に,ベンチマーク空間のキャラクタリゼーションが開発され,新たなサロゲートに基づく最適化手法が開発された。
より具体的には、初期化時のモデルの予測分布と活性化関数の出力分布に関連するフィッシャー情報行列のスペクトルは、高い性能予測値であることが判明した。
第3に、surrogateはcifar-100とimagenetタスクのアクティベーション機能を改善するために使用された。
これらのステップはいずれもそれ自体が貢献しており、アクティベーション関数の最適化に関するさらなる研究のための実践的で理論的な基礎となっている。
コードはhttps://github.com/cognizant-ai-labs/aquasurfで利用可能であり、ベンチマークデータセットはhttps://github.com/cognizant-ai-labs/act-benchにある。 Carefully designed activation functions can improve the performance of neural networks in many machine learning tasks. However, it is difficult for humans to construct optimal activation functions, and current activation function search algorithms are prohibitively expensive. This paper aims to improve the state of the art through three steps: First, the benchmark datasets Act-Bench-CNN, Act-Bench-ResNet, and Act-Bench-ViT were created by training convolutional, residual, and vision transformer architectures from scratch with 2,913 systematically generated activation functions. Second, a characterization of the benchmark space was developed, leading to a new surrogate-based method for optimization. More specifically, the spectrum of the Fisher information matrix associated with the model's predictive distribution at initialization and the activation function's output distribution were found to be highly predictive of performance. Third, the surrogate was used to discover improved activation functions in CIFAR-100 and ImageNet tasks. Each of these steps is a contribution in its own right; together they serve as a practical and theoretical foundation for further research on activation function optimization. Code is available at https://github.com/cognizant-ai-labs/aquasurf, and the benchmark datasets are at https://github.com/cognizant-ai-labs/act-bench. | 翻訳日:2023-01-18 18:51:19 公開日:2023-01-13 |
# 早期自閉症予測因子としての肺気道形状--機械学習による予備的研究 Lung airway geometry as an early predictor of autism: A preliminary machine learning-based study ( http://arxiv.org/abs/2301.05777v1 ) ライセンス: Link先を確認 | Asef Islam, Anthony Ronco, Stephen M. Becker, Jeremiah Blackburn, Johannes C. Schittny, Kyoungmi Kim, Rebecca Stein-Wexler, Anthony S. Wexler | (参考訳) 本研究の目的は,ASDのバイオマーカーとしての気道形状の実現可能性を評価することである。
asdを診断した小児の胸部ct画像と健康管理を振り返って検討した。
分析対象はASD31例,年齢23例,性適合性対照群など54例であった。
主成分分析 (PCA) と支持ベクトルマシン (SVM) を用いた特徴選択・分類法は, 気道分岐角度8つの特徴セットを用いて, 89%近いピーク交差検証精度を達成した。
感度は94%,特異性は78%であった。
その結果, ASD 児と対照群における気道分岐角度の計測可能差が示唆された。 The goal of this study is to assess the feasibility of airway geometry as a biomarker for ASD. Chest CT images of children with a documented diagnosis of ASD as well as healthy controls were identified retrospectively. 54 scans were obtained for analysis, including 31 ASD cases and 23 age and sex-matched controls. A feature selection and classification procedure using principal component analysis (PCA) and support vector machine (SVM) achieved a peak cross validation accuracy of nearly 89% using a feature set of 8 airway branching angles. Sensitivity was 94%, but specificity was only 78%. The results suggest a measurable difference in airway branchpoint angles between children with ASD and the control population. | 翻訳日:2023-01-18 18:50:52 公開日:2023-01-13 |
# young labeled faces in the wild (ylfw):子どもの顔認識のためのデータセット Young Labeled Faces in the Wild (YLFW): A Dataset for Children Faces Recognition ( http://arxiv.org/abs/2301.05776v1 ) ライセンス: Link先を確認 | Iurii Medvedev and Farhad Shadmand and Nuno Gon\c{c}alves | (参考訳) 顔認識は、ディープラーニング技術の開発によって、過去10年間で優れたパフォーマンスを達成している。
今日では、顔認証の課題は特定のシナリオ、例えば、様々な画像品質下でのパフォーマンス、高齢者(子供と高齢者)の高齢化とエッジケースの堅牢性、関連するアイデンティティの識別などに関連している。
この一連の問題において、子供の顔を認識することは最も敏感で重要である。
この問題の理由の1つは、既存の顔データセットの成人に対する既存の偏見である。
本研究では,有名な顔認識ベンチマークであるlfw,calfw,cplfw,xqlfw,agerbと類似した,子どもの顔認識のためのベンチマークデータセットを提案する。
また,子供の顔画像に顔認識モデルを適用するための開発データセット(訓練部とテスト部に分けられる)を提案する。
提案されたデータは、アフリカ、アジア、コーカサス、インドの人種のバランスを取っている。
我々の知る限り、これはベンチマークのための最初のスタンドアロンデータツールであり、子供の顔認識のための開発のための最大のコレクションである。
提案するデータツールセットの性能を示すために,いくつかの顔認識実験を行った。 Face recognition has achieved outstanding performance in the last decade with the development of deep learning techniques. Nowadays, the challenges in face recognition are related to specific scenarios, for instance, the performance under diverse image quality, the robustness for aging and edge cases of person age (children and elders), distinguishing of related identities. In this set of problems, recognizing children's faces is one of the most sensitive and important. One of the reasons for this problem is the existing bias towards adults in existing face datasets. In this work, we present a benchmark dataset for children's face recognition, which is compiled similarly to the famous face recognition benchmarks LFW, CALFW, CPLFW, XQLFW and AgeDB. We also present a development dataset (separated into train and test parts) for adapting face recognition models for face images of children. The proposed data is balanced for African, Asian, Caucasian, and Indian races. To the best of our knowledge, this is the first standartized data tool set for benchmarking and the largest collection for development for children's face recognition. Several face recognition experiments are presented to demonstrate the performance of the proposed data tool set. | 翻訳日:2023-01-18 18:50:39 公開日:2023-01-13 |
# 量子情報幾何学における指数的オリックス空間 The exponential Orlicz space in quantum information geometry ( http://arxiv.org/abs/2301.06906v1 ) ライセンス: Link先を確認 | Anna Jen\v{c}ov\'a | (参考訳) 我々は、フォン・ノイマン代数上のすべての忠実な正規正汎関数の集合上の指数統計多様体の量子バージョンの構成について検討する。
この構造は、状態摂動に対する相対エントロピーアプローチに基づいている。
指数的オルリッツ空間の量子バージョンを構築し、この空間とその双対の性質をコサキ $l_p$-空間に関して議論する。
構成多様体はピタゴラス関係を満たす正準発散を持つことを示す。
また、多様体構造が十分チャネルの下で不変であることも証明する。 We review the construction of a quantum version of the exponential statistical manifold over the set of all faithful normal positive functionals on a von Neumann algebra. The construction is based on the relative entropy approach to state perturbation. We construct a quantum version of the exponential Orlicz space and discuss the properties of this space and its dual with respect to Kosaki $L_p$-spaces. We show that the constructed manifold admits a canonical divergence satisfying a Pythagorean relation. We also prove that the manifold structure is invariant under sufficient channels. | 翻訳日:2023-01-18 14:02:03 公開日:2023-01-13 |
# 平均場制御に基づく多エージェント強化学習の非分解性グローバル状態存在下での近似 Mean-Field Control based Approximation of Multi-Agent Reinforcement Learning in Presence of a Non-decomposable Shared Global State ( http://arxiv.org/abs/2301.06889v1 ) ライセンス: Link先を確認 | Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri | (参考訳) 平均場制御(MFC)は、大規模マルチエージェント強化学習(MARL)問題を解決する強力な近似ツールである。
しかしながら、mfcの成功は、すべてのエージェントのローカル状態とアクションが与えられると、エージェントの次の(ローカルな)状態が互いに条件付き独立に進化するという仮定に依存している。
ここでは,エージェントが独立に進化するローカル状態に加えて,共通グローバル状態を共有するMARL環境においても(個々のエージェントの状態遷移過程の相関を導入するため),MFCは良好な近似ツールとして適用可能であることを実証する。
グローバル状態は分解不能であると仮定されるが、エージェントの局所状態の集まりとして表現することはできない。
近似誤差を$\mathcal{O}(e)$, $e=\frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|} +\sqrt{|\mathcal{U}|}\right]$と計算する。
エージェントの集団の大きさは $n$ と $|\mathcal{x}|, |\mathcal{u}|$ で表される。
近似誤差は、共有グローバルな状態空間のサイズに依存しないことが分かる。
さらに、特別の場合、報酬と状態遷移関数が集団の行動分布とは独立である場合、誤差を$e=\frac{\sqrt{|\mathcal{x}|}}{\sqrt{n}}$ に改善できることを示す。
最後に、mfc の問題を $\mathcal{o}(\epsilon^{-3})$ で解き、$\mathcal{o}(\max\{e,\epsilon\})$ の任意の $\epsilon>0$ に対して最適な marl ポリシーの誤差となるポリシーを得る自然なポリシー勾配に基づくアルゴリズムを考案する。 Mean Field Control (MFC) is a powerful approximation tool to solve large-scale Multi-Agent Reinforcement Learning (MARL) problems. However, the success of MFC relies on the presumption that given the local states and actions of all the agents, the next (local) states of the agents evolve conditionally independent of each other. Here we demonstrate that even in a MARL setting where agents share a common global state in addition to their local states evolving conditionally independently (thus introducing a correlation between the state transition processes of individual agents), the MFC can still be applied as a good approximation tool. The global state is assumed to be non-decomposable i.e., it cannot be expressed as a collection of local states of the agents. We compute the approximation error as $\mathcal{O}(e)$ where $e=\frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|} +\sqrt{|\mathcal{U}|}\right]$. The size of the agent population is denoted by the term $N$, and $|\mathcal{X}|, |\mathcal{U}|$ respectively indicate the sizes of (local) state and action spaces of individual agents. The approximation error is found to be independent of the size of the shared global state space. We further demonstrate that in a special case if the reward and state transition functions are independent of the action distribution of the population, then the error can be improved to $e=\frac{\sqrt{|\mathcal{X}|}}{\sqrt{N}}$. Finally, we devise a Natural Policy Gradient based algorithm that solves the MFC problem with $\mathcal{O}(\epsilon^{-3})$ sample complexity and obtains a policy that is within $\mathcal{O}(\max\{e,\epsilon\})$ error of the optimal MARL policy for any $\epsilon>0$. | 翻訳日:2023-01-18 14:01:11 公開日:2023-01-13 |
# 反発性クーロン場におけるフェルミオンの放射波関数に関する新しいこと Something new about radial wave functions of fermions in the repulsive Coulomb field ( http://arxiv.org/abs/2301.06924v1 ) ライセンス: Link先を確認 | V.P.Neznamov, I.I.Safronov, V.E.Shemarulin | (参考訳) r=r_{cl} における相対論的シュリンガー型方程式の有効ポテンシャルにおける不透過障壁は、波動関数領域からの範囲 0 <leq r < r_{cl} を除外する。
Schr\\odinger-type equation と Dirac equation の双対性に基づいて、同様の除外は Dirac equation の波動関数領域で行うべきである。
その結果、クーロン反発場におけるディラック方程式の新しい解が得られる。
計算により、数個の分数またはr=r_{cl} のフェルミオンのコンプトン波長の単位での作用パラメータによって、新しい解は連続スペクトルの標準クーロン関数とほぼ一致することが示されている。
実際、新しい解を持つ行列要素は、連続スペクトルのクーロン関数を持つ標準行列要素と良い精度で一致する。
我々の考察は、量子論のさらなる発展を議論するのに役立つ。 An impermeable barrier at r=r_{cl} in the effective potential of the relativistic Schr\"odinger-type equation leads to exclusion of the range 0 \leq r < r_{cl} from the wave function domain. Based on duality of the Schr\"odinger-type equation and the Dirac equation, a similar exclusion should be made in the wave functions domain of the Dirac equation. As a result, we obtain new solutions to the Dirac equation in the Coulomb repulsive field. Calculations show that depending on working parameters, at distances of several fractions or units of the Compton wavelength of the fermion from r=r_{cl} new solutions almost coincide with the standard Coulomb functions of the continuous spectrum. Practically, matrix elements with new solutions will coincide to a good accuracy with standard matrix elements with the Coulomb functions of the continuous spectrum. Our consideration is methodological and helpful for discussing further development of quantum theory. | 翻訳日:2023-01-18 13:52:17 公開日:2023-01-13 |
# マルチディグノミクス環境における言語・テキストによる神経精神科疾患の自動分類 Automated speech- and text-based classification of neuropsychiatric conditions in a multidiagnostic setting ( http://arxiv.org/abs/2301.06916v1 ) ライセンス: Link先を確認 | Lasse Hansen, Roberta Rocca, Arndis Simonsen, Alberto Parola, Vibeke Bliksted, Nicolai Ladegaard, Dan Bang, Kristian Tyl\'en, Ethan Weed, S{\o}ren Dinesen {\O}stergaard, Riccardo Fusaroli | (参考訳) 言語パターンは神経精神疾患の診断マーカーとして同定されている。
しかし、ほとんどの研究は単一の臨床グループと健康的なコントロールのみを比較しているが、臨床実践では複数の潜在的な診断(多クラス設定)を区別する必要があることが多い。
これに対処するために,420名の参加者(大うつ病67名,統合失調症106名,自閉症46名)の繰り返し記録のデータセットを収集し,従来の機械学習モデルと,音声とテキストの特徴に基づいて,バイナリ・マルチクラスの高度なトランスフォーマモデルの性能を検証した。
先行研究(自閉症スペクトラム障害では 0.54-0.75、大うつ病では 0.67-0.92、統合失調症では 0.71-0.83、診断群間ではパフォーマンスが著しく低下した(f1は035-0.44、mddでは 0.57-0.75、統合失調症では 0.15-0.66、マクロf1では 0.38-0.52)。
音声とテキストベースのモデルを組み合わせることで、パフォーマンスが向上し、相補的な診断情報を取得することが示唆された。
以上の結果から,二項分類で訓練したモデルでは,個別の条件に特有のマーカーを識別するのではなく,臨床と非臨床の集団の一般的な違いのマーカーや,各条件に重なる臨床特徴のマーカーに頼っている可能性が示唆された。
今後の研究への提言として,よりきめ細かな臨床特徴を含むより大きな経時的データセットの開発に焦点をあてるとともに,神経精神疾患の複雑性と自然主義的診断評価をより正確に捉えたモデルの開発を支援することを提案する。 Speech patterns have been identified as potential diagnostic markers for neuropsychiatric conditions. However, most studies only compare a single clinical group to healthy controls, whereas clinical practice often requires differentiating between multiple potential diagnoses (multiclass settings). To address this, we assembled a dataset of repeated recordings from 420 participants (67 with major depressive disorder, 106 with schizophrenia and 46 with autism, as well as matched controls), and tested the performance of a range of conventional machine learning models and advanced Transformer models on both binary and multiclass classification, based on voice and text features. While binary models performed comparably to previous research (F1 scores between 0.54-0.75 for autism spectrum disorder, ASD; 0.67-0.92 for major depressive disorder, MDD; and 0.71-0.83 for schizophrenia); when differentiating between multiple diagnostic groups performance decreased markedly (F1 scores between 0.35-0.44 for ASD, 0.57-0.75 for MDD, 0.15-0.66 for schizophrenia, and 0.38-0.52 macro F1). Combining voice and text-based models yielded increased performance, suggesting that they capture complementary diagnostic information. Our results indicate that models trained on binary classification may learn to rely on markers of generic differences between clinical and non-clinical populations, or markers of clinical features that overlap across conditions, rather than identifying markers specific to individual conditions. We provide recommendations for future research in the field, suggesting increased focus on developing larger transdiagnostic datasets that include more fine-grained clinical features, and that can support the development of models that better capture the complexity of neuropsychiatric conditions and naturalistic diagnostic assessment. | 翻訳日:2023-01-18 13:51:47 公開日:2023-01-13 |
# 脳疾患の計算病理 Computational Pathology for Brain Disorders ( http://arxiv.org/abs/2301.07030v1 ) ライセンス: Link先を確認 | Gabriel Jimenez and Daniel Racoceanu | (参考訳) 非侵襲的脳イメージング技術により、脳の挙動や大まかな変化を理解し、疾患の進行を判断することができる。
しかし、計算病理学は脳障害を細胞レベルでより深く理解し、診断を統合し、医用画像とオミクス分析の間の橋渡しを行うことができる。
伝統的な病理学では、組織学のスライドは顕微鏡の下で、訓練された病理学者によって視覚的に検査される。
このプロセスは時間がかかり、労働集約的であるため、計算病理学の出現は、この退屈なタスクを楽にし、より堅牢にするための大きな希望をもたらした。
本章は、脳障害の文脈におけるスライド画像全体の分析に使用される最先端の機械学習技術を理解することに焦点を当てる。
脳障害に対する識別的アプローチと品質結果を提供する、注目すべき機械学習アルゴリズムの選択的セットを提案する。
これらの方法は、疾患の進行と患者の生存率に寄与するモニタリングメカニズム、疾患の分類と定量的評価のための形態学的表現型の分析、臨床治療の改善、腫瘍標本の診断、術中解釈など、様々なタスクに適用される。
高度な画像処理のための機械学習アルゴリズムの最近の進歩のおかげで、計算病理学は脳疾患を含む新しい世代の医学的発見と臨床プロトコルの台頭を示している。 Non-invasive brain imaging techniques allow understanding the behavior and macro changes in the brain to determine the progress of a disease. However, computational pathology provides a deeper understanding of brain disorders at cellular level, able to consolidate a diagnosis and make the bridge between the medical image and the omics analysis. In traditional histopathology, histology slides are visually inspected, under the microscope, by trained pathologists. This process is time-consuming and labor-intensive; therefore, the emergence of Computational Pathology has triggered great hope to ease this tedious task and make it more robust. This chapter focuses on understanding the state-of-the-art machine learning techniques used to analyze whole slide images within the context of brain disorders. We present a selective set of remarkable machine learning algorithms providing discriminative approaches and quality results on brain disorders. These methodologies are applied to different tasks, such as monitoring mechanisms contributing to disease progression and patient survival rates, analyzing morphological phenotypes for classification and quantitative assessment of disease, improving clinical care, diagnosing tumor specimens, and intraoperative interpretation. Thanks to the recent progress in machine learning algorithms for high-content image processing, computational pathology marks the rise of a new generation of medical discoveries and clinical protocols, including in brain disorders. | 翻訳日:2023-01-18 13:35:24 公開日:2023-01-13 |
# リーマンゼータ関数の2次SUSY-QMと零点 Second-Order SUSY-QM and zeroes of the Riemann zeta function ( http://arxiv.org/abs/2301.05360v1 ) ライセンス: Link先を確認 | Juan D Garc\'ia-Mu\~noz, A Raya and Y Concha-S | (参考訳) 超対称量子力学(susy-qm)の合流アルゴリズムを用いて、スペクトルがリーマンゼータ関数$\zeta(s)$と関係している量子力学的ハミルトニアンを構築する。
ダスとカラウニの1次SUSY-QMモデルにインスパイアされたこの関数は、0<Re[s]<1$のストリップの関数に対応し、その基底状態波動関数をアルゴリズムのシード解として使用し、分解エネルギーを0に等しいものにする。
したがって、二階微分作用素を用いて双対ハミルトニアンの対を構築し、基底状態が零モードに対応することを要求すると、全く異なる代数から複素平面上の臨界線 $Re[s]=1/2$ に沿って、ちょうど$\zeta(s)$ の自明な零点を見つける。
さらに, 1次の場合とは異なり, 対応するsusy-partner電位が複素結合を持つ逆二乗距離ポテンシャルの族に属する場合と異なり, 2次モデルでは, パートナーポテンシャルはより複雑な挙動を示す。 We build a quantum mechanical Hamiltonian whose spectrum is related to the Riemann zeta function $\zeta(s)$ making use of the confluent algorithm of supersymmetric quantum mechanics (SUSY-QM). Inspired by the first-order SUSY-QM model of Das and Kalauni, which corresponds to this function in the strip $0<Re[s]<1$, we use its ground state wave function as a seed solution for our algorithm and take the factorization energy equal to zero. We thus construct a pair of intertwined Hamiltonians by means of second-order differential operators and upon demanding that the ground state corresponds to a zero mode, we locate exactly the nontrivial zeroes of $\zeta(s)$ along the critical line $Re[s]=1/2$ in the complex plane from an entirely different algebra. We further find that unlike the first order case, where the corresponding SUSY-partner potentials belong to the family of inverse squared distance potentials with complex couplings, in the second order model the partner potentials exhibit a more intricate behavior. | 翻訳日:2023-01-16 15:50:10 公開日:2023-01-13 |
# ブラウン運動を伴う量子力学の確率力学と統一 Stochastic Mechanics and the Unification of Quantum Mechanics with Brownian Motion ( http://arxiv.org/abs/2301.05467v1 ) ライセンス: Link先を確認 | Folkert Kuipers | (参考訳) ブラウン運動と量子力学を単一の数学的枠組みで統一する。
特に、平面上の1つのスピンレス粒子の非相対論的量子力学は、複素平面上で回転するウィーナー過程によって記述できることを示す。
次に、この理論を二階幾何学の枠組みを用いて多様体上の相対論的確率論に拡張する。
副生成物としては、ローレンツ多様体上の量子論の一貫した経路積分に基づく定式化は、アフィン接続への二次変動のカップリングによって生じるポアンケア(ガリアン)対称性のイト変形を必要とすることを示唆している。 We unify Brownian motion and quantum mechanics in a single mathematical framework. In particular, we show that non-relativistic quantum mechanics of a single spinless particle on a flat space can be described by a Wiener process that is rotated in the complex plane. We then extend this theory to relativistic stochastic theories on manifolds using the framework of second order geometry. As a byproduct, our results suggest that a consistent path integral based formulation of a quantum theory on a Lorentzian (Riemannian) manifold requires an Ito deformation of the Poincare (Galilean) symmetry, arising due to the coupling of the quadratic variation to the affine connection. | 翻訳日:2023-01-16 15:49:47 公開日:2023-01-13 |
# 量子力学の7つの法則 : ボギーの追放 The seven laws of Quantum Mechanics : banishing the bogeys ( http://arxiv.org/abs/2301.05436v1 ) ライセンス: Link先を確認 | Urjit A. Yajnik | (参考訳) 量子力学の法則は微妙な数学的言語で解かれる。
法律は通常、コンパクトな教育形式で述べられていない。
ここでは、これを修正できる方法を提示します。
基本的な事実は、覚えやすく、簡単に参照できる7つのステートメントに蒸留することができる。
また、現在の量子力学の教えには否定的な意味の言葉が盛り込まれており、その主題が知的にいまだに困惑していた数十年初期のことに由来する。
数十年間の様々な実験、特に2022年のノーベル賞を受賞した者は、量子力学の妥当性と「現実性」を理論として正当に肯定した。
私は古典的なフレームワークの欠点をいくつか挙げて、量子力学に対する苦情のいくつかが特許上の誤りであることを示す。
最後に、私は ``wave article duality'', `uncertainty'', ``indistinguishability'', ``statistics'', ``entanglement'' といったボギーについて議論し、新しい学習者を古いバイアスから救うためにより良い用語を採用することを提唱する。 The laws of quantum mechanics are couched in subtle mathematical language. The laws are not usually stated in a compact pedagogical form. Here I present a possible way to correct this. Essential facts can be distilled into seven statements that are easy to remember and easily referred back. Also, the current teaching of quantum mechanics is laden with words of negative connotations, originating as they did during the early decades of the subject when the subject was intellectually still puzzling. A wide variety of experiments in the intervening decades, not least those that were awarded the Nobel Prize of 2022 amply affirm the validity and substantial ``reality'' of Quantum Mechanics as a theory. I take a few of the inadequacies of classical framework to illustrate that some of the complaints against Quantum Mechanics are patently misplaced. Finally I discuss the bogeys such as ``wave article duality'', ``uncertainty'', ``indistinguishability'' ``statistics'' and ``entanglement'' and advocate adopting better terminology to save new learners from the old biases. | 翻訳日:2023-01-16 15:48:10 公開日:2023-01-13 |
# 非一様磁場における宇宙線レインボー重力時空におけるPDMKG振動子 PDM KG-oscillators in cosmic string rainbow gravity spacetime in a non-uniform magnetic field ( http://arxiv.org/abs/2301.05464v1 ) ライセンス: Link先を確認 | Omar Mustafa | (参考訳) 非一様磁場中の宇宙弦レインボー時空における位置依存質量(pdm)クラインゴルドン(kg)粒子について考察する。
対応するkg方程式は二次元放射状schr\"{o}dinger-oscillator様方程式(kg-oscillator)の1次元形式に還元される。
まず, 一定質量のKGオシレータのエネルギーレベルに及ぼすレインボー重力の影響について報告する。
次に、インタラクションのようなKGオシレータを導入するために、PDM設定を含める。
また,宇宙ストリングレインボー重力時空におけるKGオシレータのスペクトルに及ぼすPDMの影響も報告した。
いずれの場合も4対の虹関数が考慮される。
(a) $% g_{_{0}}\left(y\right) =1$, $g_{_{1}}\left(y\right) =\sqrt{1-\epsilon y^{2}% }$, である。
(b) $g_{_{0}}\left(y\right) =1$, $g_{_{1}}\left(y\right) =\sqrt{% 1-\epsilon y}$, である。
(c) $g_{_{0}}\left( y\right) =g_{_{1}}\left( y\right) =\left( 1-\epsilon y\right) ^{-1}$, and
(d) $g_{_{0}}\left(y\right) =\left(e^{\epsilon y}-1\right) /\epsilon y$, $g_{_{1}}\left(y\right) =1$ である。 We consider position-dependent mass (PDM) Klein-Gordon (KG) particles in cosmic string rainbow gravity spacetime in a non-uniform magnetic field. The corresponding KG-equation is reduced into the one-dimensional form of the two-dimensional radial Schr\"{o}dinger-oscillator like equation (hence the notion KG-oscillator). We first report on the effects of rainbow gravity on the energy levels of KG-oscillators with constant mass. Next, we include the PDM settings so that KG-oscillators like interaction are introduced. The effects of PDM on the spectra of KG-oscillators in cosmic string rainbow gravity spacetime are also reported. In both cases four pairs of rainbow functions are considered: (a) $% g_{_{0}}\left( y\right) =1$, $g_{_{1}}\left( y\right) =\sqrt{1-\epsilon y^{2}% }$, (b) $g_{_{0}}\left( y\right) =1$, $g_{_{1}}\left( y\right) =\sqrt{% 1-\epsilon y}$, (c) $g_{_{0}}\left( y\right) =g_{_{1}}\left( y\right) =\left( 1-\epsilon y\right) ^{-1}$, and (d) $g_{_{0}}\left( y\right) =\left( e^{\epsilon y}-1\right) /\epsilon y$, $g_{_{1}}\left( y\right) =1$. | 翻訳日:2023-01-16 15:47:52 公開日:2023-01-13 |
# 導波路量子電磁力学における位相逆バンド理論 Topological inverse band theory in waveguide quantum electrodynamics ( http://arxiv.org/abs/2301.05481v1 ) ライセンス: Link先を確認 | Yongguan Ke, Jiaxuan Huang, Wenjie Liu, Yuri Kivshar, Chaohong Lee | (参考訳) トポロジカルフェーズは、光-物質相互作用の基本物理学と新興量子技術の両方において重要な役割を果たす。
しかし、フォトニック散乱のため、導波路qed系の位相バンド理論は、エネルギーバンドが分岐して断線するため、崩壊することが知られている。
本稿では、逆エネルギーバンドの概念を導入し、量子エミッタの配列を持つ導波路における位相散乱を解析的に探求する。
位相相転移のリッチな構造、対称なスケールフリー局在、完全に平坦なバンド、対応するダークワニエ状態を明らかにする。
バルクエッジ対応は破れるが、逆エネルギーバンドのzak位相は量子ウォークにおける平均セル位置の長時間平均を通じて抽出できる。
驚くべきことに、散乱テクスチャの巻線数は、逆ラジアントバンドの位相位相と細胞数のオードビティの両方に依存する。
我々の研究は、位相逆バンドの新しい分野を開き、光間相互作用における位相相に関する基本的なビジョンをもたらす。 Topological phases play a crucial role in both fundamental physics of light-matter interaction and emerging quantum technologies. However, due to photonic scattering the topological band theory of waveguide QED systems is known to break down, because the energy bands become divergent and disconnected. Here, we introduce a concept of the inverse energy band and explore analytically the topological scattering in a waveguide with an array of quantum emitters. We uncover a rich structure of topological phase transitions, symmetric scale-free localization, completely flat bands, and the corresponding dark Wannier states. While bulk-edge correspondence is broken, the Zak phase of inverse energy band can be extracted via long-time average of mean cell position in quantum walks. Surprisingly, the winding number of the scattering textures depends on both the topological phase of inverse subradiant band and the odevity of the cell number. Our work opens a novel field of the topological inverse bands, and it brings a fundamental vision on topological phases in light-matter interactions. | 翻訳日:2023-01-16 15:47:31 公開日:2023-01-13 |
# クラウス作用素から量子マップのスタインスプリング形式:無限次元の代替構成 From Kraus Operators to the Stinespring Form of Quantum Maps: An Alternative Construction for Infinite Dimensions ( http://arxiv.org/abs/2301.05488v1 ) ライセンス: Link先を確認 | Frederik vom Ende | (参考訳) すべての完全正のトレース保存写像 $\Phi$ に対して、純粋な状態 $|\psi\rangle\langle\psi|$ のアンシラヒルベルト空間 $\mathcal K$ と、システムとアンシラ上のユニタリ作用素 $U$ が存在して、$\Phi$ が等しく $\operatorname{tr}mathcmathcmathcal K}(U((\cdot)\otimes|\psi\rangle\langle\psi|)U^*)$ であることを示す。
我々の証明の主な道具は Sz である。
-ナジーのダイレーション定理は部分空間上で定義された等メトリーに適用される。
我々の構成では、アンシラはクラウス級が$\phi$であるような次元の系とクビットからなるが、これは触媒としてのみ作用する。
対照的に、70年代に与えられたヘルヴィヒとクラウスの元々の証明は、次元が「クラウスランクプラス1」である。
構造が互いにどのように異なるかを示す例を提示して結論付ける。 We present an alternative (constructive) proof of the statement that for every completely positive, trace-preserving map $\Phi$ there exists an ancilla Hilbert space $\mathcal K$ in a pure state $|\psi\rangle\langle\psi|$ as well as a unitary operator $U$ on system plus ancilla such that $\Phi$ equals $\operatorname{tr}_{\mathcal K}(U((\cdot)\otimes|\psi\rangle\langle\psi|)U^*)$. The main tool of our proof is Sz.-Nagy's dilation theorem applied to isometries defined on a subspace. In our construction, the ancilla consists of a system of dimension the Kraus rank of $\Phi$ together with a qubit which, however, only acts as a catalyst. In contrast, the original proof of Hellwig & Kraus given in the 70s yields an ancilla of dimension "Kraus rank plus one". We conclude by providing an example which illustrates how the constructions differ from each other. | 翻訳日:2023-01-16 15:47:12 公開日:2023-01-13 |
# 希土類ドープ固体におけるひずみ誘起イオン-イオン相互作用 Strain-mediated ion-ion interaction in rare-earth-doped solids ( http://arxiv.org/abs/2301.05531v1 ) ライセンス: Link先を確認 | Anne Louchet-Chauvet and Thierry Chaneli\`ere | (参考訳) 近年、レアアースイオンの光学励起は、レアアースイオンの電子軌道幾何学の変化に起因するホストマトリックス形状の局所的な変化をもたらすことが示されている。
本研究は, この圧電軌道バックアクションの結果を考察し, 機械的ひずみを介する非無視イオン-イオン相互作用の生成過程をマクロモデルで示す。
この相互作用は1/r^3$でスケールし、電気的および磁気的双極子-双極子相互作用という他のアルテタイパルイオン-イオン相互作用と同様である。
我々は、これらの3つの相互作用の大きさを瞬時スペクトル拡散機構の角度から定量的に評価・比較し、この一般的に過小評価された貢献に照らして、レアアースドープ系の科学文献を再検討する。 It was recently shown that the optical excitation of rare-earth ions produces a local change of the host matrix shape, attributed to a change of the rare-earth ion's electronic orbital geometry. In this work we investigate the consequences of this piezo-orbital backaction and show from a macroscopic model how it yields a disregarded ion-ion interaction mediated by mechanical strain. This interaction scales as $1/r^3$, similarly to the other archetypal ion-ion interactions, namely electric and magnetic dipole-dipole interactions. We quantitatively assess and compare the magnitude of these three interactions from the angle of the instantaneous spectral diffusion mechanism, and reexamine the scientific literature in a range of rare-earth doped systems in the light of this generally underestimated contribution. | 翻訳日:2023-01-16 15:46:44 公開日:2023-01-13 |
# 単分子磁石の磁化の量子トンネル形成に及ぼす振動効果 Vibronic Effects on the Quantum Tunnelling of Magnetisation in Single-Molecule Magnets ( http://arxiv.org/abs/2301.05557v1 ) ライセンス: Link先を確認 | Andrea Mattioni, Jakob K. Staab, William J. A. Blackmore, Daniel Reta, Jake Iles-Smith, Ahsan Nazir, Nicholas F. Chilton | (参考訳) 単分子磁石は、分子スケールのデータストレージと処理を実現する上で最も有望なプラットフォームの一つである。
その磁化ダイナミクスは、電子的自由度と振動的自由度の間の相互作用によって決定される。
電子的および振動的ハミルトニアンのab initio記述に基づいて、単分子磁石における低エネルギー磁気自由度の非摂動振動モデルを作成し、磁場依存性磁化測定に対するベンチマークを行った。
磁性ポーラロンを用いて錯体の低温磁気を記述することで、磁化の量子トンネル化に対するビブロンの寄与を定量化することができる。
磁気緩和の強化にもかかわらず、特定の振動は複合体の磁気軸性を高めて量子トンネルを抑制する。
最後に、この観測が新しい高性能単分子磁石の化学設計への現在のパラダイムにどう影響するかを論じ、ノイズやデコヒーレンスの源としてだけではなく、振動をアクティブな役割へと促進する。 Single-molecule magnets are among the most promising platforms for achieving molecular-scale data storage and processing. Their magnetisation dynamics are determined by the interplay between electronic and vibrational degrees of freedom, which can couple coherently, leading to complex vibronic dynamics. Building on an ab initio description of the electronic and vibrational Hamiltonians, we formulate a non-perturbative vibronic model of the low-energy magnetic degrees of freedom in a single-molecule magnet, which we benchmark against field-dependent magnetisation measurements. Describing the low-temperature magnetism of the complex in terms of magnetic polarons, we are able to quantify the vibronic contribution to the quantum tunnelling of the magnetisation. Despite collectively enhancing magnetic relaxation, we observe that specific vibrations suppress quantum tunnelling by enhancing the magnetic axiality of the complex. Finally, we discuss how this observation might impact the current paradigm to chemical design of new high-performance single-molecule magnets, promoting vibrations to an active role rather than just regarding them as sources of noise and decoherence. | 翻訳日:2023-01-16 15:46:23 公開日:2023-01-13 |
# 単一結合クラスタ量子回路のMP2初期化を超えて Beyond MP2 initialization for unitary coupled cluster quantum circuits ( http://arxiv.org/abs/2301.05666v1 ) ライセンス: Link先を確認 | Mark R. Hirsbrunner, Diana Chamaki, J. Wayne Mullinax, and Norm M. Tubman | (参考訳) ユニタリ結合クラスタシングルとダブル(UCCSD)アンサッツは、量子アルゴリズムで使用する正確な量子状態を作成するための有望なアプローチである。
本稿では,最初のUCCSD回路パラメータを生成する2つの手法,CCSDとMP2の性能を比較した。
その結果,最大64量子ビットのシステムにおいて,CCSDパラメタライゼーションを有するUCCSD回路はMP2パラメタライゼーション(MP2パラメタライゼーション)に比べて有意に優れていた。
これらの結果から,CCSDは初期パラメータの生成に適した選択であると考えられた。 The unitary coupled cluster singles and doubles (UCCSD) ansatz is a promising approach to prepare accurate quantum states for use in quantum algorithms. In this paper, we compared the performance of two methods for generating the initial UCCSD circuit parameters: CCSD and MP2. Our results, obtained through an efficient sparse wavefunction circuit solver, show that UCCSD circuits with CCSD parameterizations significantly outperformed those with MP2 parameterizations for systems of up to 64 qubits. These findings suggest that CCSD should be the preferred choice for generating initial parameters. | 翻訳日:2023-01-16 15:45:57 公開日:2023-01-13 |
# 混合状態トポロジカル秩序の診断と量子メモリの破壊 Diagnostics of mixed-state topological order and breakdown of quantum memory ( http://arxiv.org/abs/2301.05689v1 ) ライセンス: Link先を確認 | Ruihua Fan, Yimu Bao, Ehud Altman, Ashvin Vishwanath | (参考訳) トポロジカル量子メモリは、局所誤差から有限エラーしきい値まで情報を保護することができる。
このようなしきい値は通常、破損した記憶を記述する混合状態の固有の性質よりも、復号アルゴリズムの成功に基づいて決定される。
ここでは、トポロジカルな量子メモリの破壊の本質的な特徴として、デコードアルゴリズムの性能に制約を与え、トポロジカルな混合状態の例を示す。
地中トポロジカル秩序の診断の一般化とみなすことができる3つの情報理論量を用いて, 誤差破壊混合状態におけるトポロジカル秩序の定義を行う。
量子相対エントロピーとコヒーレント情報に基づく絡み合いネガティビティに対する位相的貢献と他の2つの指標について考察する。
局所的なビットフリップと位相誤差を持つ2次元トーリック符号の具体例では、2次元古典スピンモデルの観測可能量に3つの量をマッピングし、同じ誤差閾値で遷移を解析的に示す。
このしきい値は、任意の復号アルゴリズムで達成された上限であり、トーリック符号の最適復号アルゴリズムでは実際に飽和している。 Topological quantum memory can protect information against local errors up to finite error thresholds. Such thresholds are usually determined based on the success of decoding algorithms rather than the intrinsic properties of the mixed states describing corrupted memories. Here we provide an intrinsic characterization of the breakdown of topological quantum memory, which both gives a bound on the performance of decoding algorithms and provides examples of topologically distinct mixed states. We employ three information-theoretical quantities that can be regarded as generalizations of the diagnostics of ground-state topological order, and serve as a definition for topological order in error-corrupted mixed states. We consider the topological contribution to entanglement negativity and two other metrics based on quantum relative entropy and coherent information. In the concrete example of the 2D Toric code with local bit-flip and phase errors, we map three quantities to observables in 2D classical spin models and analytically show they all undergo a transition at the same error threshold. This threshold is an upper bound on that achieved in any decoding algorithm and is indeed saturated by that in the optimal decoding algorithm for the Toric code. | 翻訳日:2023-01-16 15:45:47 公開日:2023-01-13 |
# INFNクラウド上のサービスとしてのハイパーパラメータ最適化 Hyperparameter Optimization as a Service on INFN Cloud ( http://arxiv.org/abs/2301.05522v1 ) ライセンス: Link先を確認 | Matteo Barbetti and Lucio Anderlini | (参考訳) 複雑な機械学習モデルのトレーニングを並列化する最も単純かつ最も効果的な方法は、複数のマシンで複数のトレーニングインスタンスを実行し、おそらくハイパーパラメータ空間をスキャンして基礎となる統計モデルと学習手順を最適化する。
多くの場合、このようなメタ学習手順は、前回および進行中の試行の知識を組織化する共通のデータベースに安全にアクセスする能力によって制限される。
異なる環境で提供されるオポチュニティGPUの爆発は、そのような最適化キャンペーンを設計する際のさらなる課題である。
このコントリビューションでは、シンプルなHTTPリクエストを通じて、RestAPIのセットを使ってINFN Cloudベースの専用サービスにアクセスして、複数のトレーニングインスタンスを監視し、おそらく調整する方法について論じます。
Hopaas(Hyperparameter Optitimization As A Service)という名前のこのサービスは、Webインターフェースと、INFN Cloudの仮想インスタンスでUvicornとNGINXを経由するFastAPIバックエンドで実装されたAPIセットで構成されている。
最適化アルゴリズムは現在、オプトゥーナが提供するベイズ手法に基づいている。
pythonフロントエンドもクイックプロトタイピング用に提供されている。
我々は、プライベート、INFNクラウド、CINECAリソースを組み合わせたハイパーパラメータ最適化キャンペーンに応用する。 The simplest and often most effective way of parallelizing the training of complex machine learning models is to execute several training instances on multiple machines, possibly scanning the hyperparameter space to optimize the underlying statistical model and the learning procedure. Often, such a meta learning procedure is limited by the ability of accessing securely a common database organizing the knowledge of the previous and ongoing trials. Exploiting opportunistic GPUs provided in different environments represents a further challenge when designing such optimization campaigns. In this contribution we discuss how a set of RestAPIs can be used to access a dedicated service based on INFN Cloud to monitor and possibly coordinate multiple training instances, with gradient-less optimization techniques, via simple HTTP requests. The service, named Hopaas (Hyperparameter OPtimization As A Service), is made of web interface and sets of APIs implemented with a FastAPI back-end running through Uvicorn and NGINX in a virtual instance of INFN Cloud. The optimization algorithms are currently based on Bayesian techniques as provided by Optuna. A Python front-end is also made available for quick prototyping. We present applications to hyperparameter optimization campaigns performed combining private, INFN Cloud and CINECA resources. | 翻訳日:2023-01-16 15:39:15 公開日:2023-01-13 |
# ほぼ確実に$\sqrt{T}$ Regret Bound for Adaptive LQR Almost Surely $\sqrt{T}$ Regret Bound for Adaptive LQR ( http://arxiv.org/abs/2301.05537v1 ) ライセンス: Link先を確認 | Yiwen Lu and Yilin Mo | (参考訳) 未知のシステムパラメータを持つLQR(Linear-Quadratic Regulation)問題は広く研究されているが、最もよく知られた時間依存である $\tilde{ \mathcal{O}}(\sqrt{T})$ regret がほぼ確実に達成できるかどうかは不明である。
本稿では,ほぼ確実に$\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper boundを持つ適応型LQRコントローラを提案する。
制御器は、潜在的な安全違反を回避し、システムパラメータ推定の収束を保証する回路破壊機構を備えているが、有限回のみトリガされることが示され、したがって制御器の漸近性能に無視できる効果がある。
提案されたコントローラは、よく使われる工業プロセスの例であるテネシー・イーストマン・プロセス~(tep)のシミュレーションによっても検証される。 The Linear-Quadratic Regulation (LQR) problem with unknown system parameters has been widely studied, but it has remained unclear whether $\tilde{ \mathcal{O}}(\sqrt{T})$ regret, which is the best known dependence on time, can be achieved almost surely. In this paper, we propose an adaptive LQR controller with almost surely $\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper bound. The controller features a circuit-breaking mechanism, which circumvents potential safety breach and guarantees the convergence of the system parameter estimate, but is shown to be triggered only finitely often and hence has negligible effect on the asymptotic performance of the controller. The proposed controller is also validated via simulation on Tennessee Eastman Process~(TEP), a commonly used industrial process example. | 翻訳日:2023-01-16 15:38:54 公開日:2023-01-13 |
# 逆イジング推定における非臨界行動のバイアス Biases in Inverse Ising Estimates of Near-Critical Behaviour ( http://arxiv.org/abs/2301.05556v1 ) ライセンス: Link先を確認 | Maximilian Benedikt Kloucek, Thomas Machon, Shogo Kajimura, C. Patrick Royall, Naoki Masuda, Francesco Turci | (参考訳) 逆イジング推論は、複雑な二元系の対の相互作用を経験的相関から再構成することを可能にする。
この推論に使用される典型的な推定器、例えば擬類似最大化(plm)は偏りがある。
シェリントン・カークパトリックモデル(SK)をベンチマークとして、これらのバイアスは位相境界に近い臨界状態において大きく、推論されたモデルの定性的な解釈を変える可能性があることを示す。
特に,小標本バイアスは,plmによって推定されるモデルが,データから期待されるよりも臨界に近いように見えることを示している。
このバイアスを補正するデータ駆動法は、神経科学による機能的磁気共鳴イメージング(fMRI)データセットに適用される。
実世界のデータセットにクリティカル性が帰属する場合には,追加の注意が必要であることが示唆された。 Inverse Ising inference allows pairwise interactions of complex binary systems to be reconstructed from empirical correlations. Typical estimators used for this inference, such as Pseudo-likelihood maximization (PLM), are biased. Using the Sherrington-Kirkpatrick (SK) model as a benchmark, we show that these biases are large in critical regimes close to phase boundaries, and may alter the qualitative interpretation of the inferred model. In particular, we show that the small-sample bias causes models inferred through PLM to appear closer-to-criticality than one would expect from the data. Data-driven methods to correct this bias are explored and applied to a functional magnetic resonance imaging (fMRI) dataset from neuroscience. Our results indicate that additional care should be taken when attributing criticality to real-world datasets. | 翻訳日:2023-01-16 15:38:26 公開日:2023-01-13 |
# 第一原理からの深層学習対称性とそのリー群, 代数, サブ代数 Deep Learning Symmetries and Their Lie Groups, Algebras, and Subalgebras from First Principles ( http://arxiv.org/abs/2301.05638v1 ) ライセンス: Link先を確認 | Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Alexander Roman, Eyup Unlu, Sarunas Verner | (参考訳) ラベル付きデータセットに存在する対称性の連続群の発見と同定のためのディープラーニングアルゴリズムを設計した。
我々は、完全連結ニューラルネットワークを用いて、対称性変換と対応する生成器をモデル化する。
応用変換が対称性であることを保証し、対応するジェネレータの集合が閉(部分)代数を形成するような損失関数を構築する。
本手法は, 対称性により保存された保存量の異なる種類を示すいくつかの例で検証した。
対称性の全集合を導出する過程で、回転群 $SO(2)$, $SO(3)$, $SO(4)$ およびローレンツ群 $SO(1,3)$ の完全部分群構造を分析する。
他の例としては、スクリューマッピング、断片的不連続ラベル、SO(10)$があり、この方法が完全に一般化され、物理やデータサイエンスに多くの応用が期待できることを示す。
また, リー群とその性質に関する数学的研究において, 機械学習の手法を応用するための扉を開く。 We design a deep-learning algorithm for the discovery and identification of the continuous group of symmetries present in a labeled dataset. We use fully connected neural networks to model the symmetry transformations and the corresponding generators. We construct loss functions that ensure that the applied transformations are symmetries and that the corresponding set of generators forms a closed (sub)algebra. Our procedure is validated with several examples illustrating different types of conserved quantities preserved by symmetry. In the process of deriving the full set of symmetries, we analyze the complete subgroup structure of the rotation groups $SO(2)$, $SO(3)$, and $SO(4)$, and of the Lorentz group $SO(1,3)$. Other examples include squeeze mapping, piecewise discontinuous labels, and $SO(10)$, demonstrating that our method is completely general, with many possible applications in physics and data science. Our study also opens the door for using a machine learning approach in the mathematical study of Lie groups and their properties. | 翻訳日:2023-01-16 15:38:13 公開日:2023-01-13 |
# Threshold Queries を用いた非確率CDF推定 Non-Stochastic CDF Estimation Using Threshold Queries ( http://arxiv.org/abs/2301.05682v1 ) ライセンス: Link先を確認 | Princewill Okoroafor, Vaishnavi Gupta, Robert Kleinberg, Eleanor Goh | (参考訳) スカラー値データセットの実証的分布の推定は、基本かつ基本的なタスクである。
本稿では,2つの難解な特徴をもつ実験的分布を推定する問題に取り組む。
まず、アルゴリズムはデータを直接観察するのではなく、サンプルについて限られた数のしきい値クエリしか要求しない。
第二に、データは独立で同一の分散を前提とせず、適応的敵を含む任意のプロセスでサンプルを生成することができる。
価格を提供し、消費者の購入判断を観察することは、その価値について単一のしきい値クエリを要求することと等価であり、初期採用者が後期採用者と著しく異なる可能性があるため、消費者の価値の分布は時間とともに非定常となる可能性がある。
我々の主な結果は、定数係数の範囲内で、サンプルあたりの1つのしきい値クエリを用いて、$[n]$、$\varepsilon$加法誤差までの要素列の経験CDFを推定する、サンプルの複雑さを定量化する。
この複雑性は、n$ に対数的にのみ依存し、この結果は、雑音の2次探索のための既存の対数-複雑度結果を、より困難な設定に拡張したものと解釈できる。
アルゴリズムの設計にあたっては、各サンプルに対して限られた数の同時しきい値クエリを行うことをアルゴリズムが許すより一般的なモデルを検討する。
この問題をブラックウェルのアプローチ可能性定理と指数重み法を用いて解く。
独立利害関係の副次として,決定論的CDF推定アルゴリズムで要求される同時しきい値クエリの最小数を特徴付ける。 Estimating the empirical distribution of a scalar-valued data set is a basic and fundamental task. In this paper, we tackle the problem of estimating an empirical distribution in a setting with two challenging features. First, the algorithm does not directly observe the data; instead, it only asks a limited number of threshold queries about each sample. Second, the data are not assumed to be independent and identically distributed; instead, we allow for an arbitrary process generating the samples, including an adaptive adversary. These considerations are relevant, for example, when modeling a seller experimenting with posted prices to estimate the distribution of consumers' willingness to pay for a product: offering a price and observing a consumer's purchase decision is equivalent to asking a single threshold query about their value, and the distribution of consumers' values may be non-stationary over time, as early adopters may differ markedly from late adopters. Our main result quantifies, to within a constant factor, the sample complexity of estimating the empirical CDF of a sequence of elements of $[n]$, up to $\varepsilon$ additive error, using one threshold query per sample. The complexity depends only logarithmically on $n$, and our result can be interpreted as extending the existing logarithmic-complexity results for noisy binary search to the more challenging setting where noise is non-stochastic. Along the way to designing our algorithm, we consider a more general model in which the algorithm is allowed to make a limited number of simultaneous threshold queries on each sample. We solve this problem using Blackwell's Approachability Theorem and the exponential weights method. As a side result of independent interest, we characterize the minimum number of simultaneous threshold queries required by deterministic CDF estimation algorithms. | 翻訳日:2023-01-16 15:37:56 公開日:2023-01-13 |
# 構造波上のロードマップ Roadmap on structured waves ( http://arxiv.org/abs/2301.05349v1 ) ライセンス: Link先を確認 | K. Y. Bliokh, E. Karimi, M. J. Padgett, M. A. Alonso, M. R. Dennis, A. Dudley, A. Forbes, S. Zahedpour, S. W. Hancock, H. M. Milchberg, S. Rotter, F. Nori, \c{S}. K. \"Ozdemir, N. Bender, H. Cao, P. B. Corkum, C. Hern\'andez-Garc\'ia, H. Ren, Y. Kivshar, M. G. Silveirinha, N. Engheta, A. Rauschenbeutel, P. Schneeweiss, J. Volz, D. Leykam, D. A. Smirnova, K. Rong, B. Wang, E. Hasman, M. F. Picardi, A. V. Zayats, F. J. Rodr\'iguez-Fortu\~no, C. Yang, J. Ren, A. B. Khanikaev, A. Al\`u, E. Brasselet, M. Shats, J. Verbeeck, P. Schattschneider, D. Sarenac, D. G. Cory, D. Pushin, M. Birk, A. Gorlach, I. Kaminer, F. Cardano, L. Marrucci, M. Krenn, and F. Marquardt | (参考訳) 構造波は古典的および量子的な波動物理学のあらゆる分野においてユビキタスであり、波動場は不均一であり、単一の平面波によって近似できない。
2つの平面波の干渉や1つの不均一(電子)波でさえ、単一の平面波と比較して多くの非自明な現象と追加機能をもたらす。
位相構造や特異点を含む振幅、位相、偏光の非均一性を持つ複素波動場は、現代のナノ光学やフォトニクスの基盤となるが、量子物質波、音響、水面波なども同様に重要である。
構造化波は、光学および電子顕微鏡、波動伝播および散乱、イメージング、通信、量子光学、位相および非エルミート波システム、量子凝縮マターシステム、光メカニクス、プラズモニクスおよびメタマテリアル、光学および音響操作などにおいて重要である。
このロードマップは著名な研究者によってまとめられ、波動物理学の様々な分野における構造波の役割を調査することを目的としている。
背景、現在の研究、将来の発展を期待することで、幅広い分野の聴衆にとって興味をそそられるだろう。 Structured waves are ubiquitous for all areas of wave physics, both classical and quantum, where the wavefields are inhomogeneous and cannot be approximated by a single plane wave. Even the interference of two plane waves, or a single inhomogeneous (evanescent) wave, provides a number of nontrivial phenomena and additional functionalities as compared to a single plane wave. Complex wavefields with inhomogeneities in the amplitude, phase, and polarization, including topological structures and singularities, underpin modern nanooptics and photonics, yet they are equally important, e.g., for quantum matter waves, acoustics, water waves, etc. Structured waves are crucial in optical and electron microscopy, wave propagation and scattering, imaging, communications, quantum optics, topological and non-Hermitian wave systems, quantum condensed-matter systems, optomechanics, plasmonics and metamaterials, optical and acoustic manipulation, and so forth. This Roadmap is written collectively by prominent researchers and aims to survey the role of structured waves in various areas of wave physics. Providing background, current research, and anticipating future developments, it will be of interest to a wide cross-disciplinary audience. | 翻訳日:2023-01-16 15:36:51 公開日:2023-01-13 |
# 共鳴に伴う複素期待値の解釈の可能性 Possible interpretation of the complex expectation values associated with resonances ( http://arxiv.org/abs/2301.05355v1 ) ライセンス: Link先を確認 | Takayuki Myo, Kiyoshi Kato | (参考訳) 本稿では,複雑な固有エネルギーを持つ共振に付随する複雑な期待値の解釈法を提案する。
グリーン関数を共鳴として使うと、期待値はブライト・ウィグナー分布によって実励起エネルギーの関数として記述される。
共鳴の複素期待値の式において、実部は分布の積分値をもたらし、虚部はブライト・ウィグナー分布からの偏差を生成し、共鳴エネルギーから強度のピークのシフトを説明する。
本手法はホイル状態を含む$^{12}$Cの核共鳴と、中性子/陽子豊富な核の$^6$He, $^6$Be, $^8$He, $^8$Cのいくつかの核共鳴に適用する。
これらの核では、複雑なスケーリング法を用いて、正しい境界条件下で複素エネルギー固有状態として多体共鳴が得られ、その核半径が一意に評価される。
これらの核の共鳴に対する平方半径の強度関数の特異なエネルギー依存性について考察する。 We propose a possible scheme to interpret the complex expectation values associated with resonances having the complex eigenenergies. Using the Green's function for resonances, the expectation value is basically described by the Breit-Wigner distribution as a function of the real excitation energy. In the expression of the complex expectation values for resonances, the real part brings the integral value of the distribution, while the imaginary part produces the deviation from the Breit-Wigner distribution,which explains a shift of the peak in the strength from the resonance energy. We apply the present scheme to the several nuclear resonances of $^{12}$C including the Hoyle state, and neutron/proton-rich nuclei of $^6$He, $^6$Be, $^8$He, and $^8$C. In these nuclei, many-body resonances are obtained as the complex-energy eigenstates under the correct boundary condition using the complex scaling method, and their nuclear radii are uniquely evaluated. We discuss the peculiar energy dependence of the strength function of the square radius for the resonances in these nuclei. | 翻訳日:2023-01-16 15:36:27 公開日:2023-01-13 |
# トポロジカル量子臨界の実験的観察 Experimental Observation of Topological Quantum Criticality ( http://arxiv.org/abs/2301.05428v1 ) ライセンス: Link先を確認 | Sonja Barkhofen, Syamsundar De, Jan Sperling, Christine Silberhorn, Alexander Altland, Dmitry Bagrets, Kun Woo Kim, and Tobias Micklitz | (参考訳) スピンを持つ1次元フォトニック量子ウォークにおけるトポロジカルアンダーソン絶縁体相間の遷移点における量子臨界性の観測について報告する。
ウォーカーの確率分布は、カイラル対称性クラスaiiiにおける位相アンダーソン臨界性の喫煙銃として最近示唆された動的スピン感受性の時間タグ付きプロファイルを明らかにした。
位相コヒーレンスの制御された破壊は信号を取り除き、量子コヒーレンスの起源を明らかにする。 We report on the observation of quantum criticality forming at the transition point between topological Anderson insulator phases in a one-dimensional photonic quantum walk with spin. The walker's probability distribution reveals a time-staggered profile of the dynamical spin-susceptibility, recently suggested as a smoking gun signature for topological Anderson criticality in the chiral symmetry class AIII. Controlled breaking of phase coherence removes the signal, revealing its origin in quantum coherence. | 翻訳日:2023-01-16 15:30:40 公開日:2023-01-13 |
# ted-q - テンソルネットワークによる分散ハイブリッド量子機械学習フレームワーク TeD-Q: a tensor network enhanced distributed hybrid quantum machine learning framework ( http://arxiv.org/abs/2301.05451v1 ) ライセンス: Link先を確認 | Yaocheng Chen, Xingyao Wu, Chung-Yun Kuo, Yuxuan Du, and Dacheng Tao | (参考訳) TeD-Qは、量子機械学習、変分量子アルゴリズム(VQA)、および量子コンピューティングのシミュレーションのためのオープンソースのソフトウェアフレームワークである。
従来の機械学習ライブラリと量子シミュレータをシームレスに統合することで、量子機械学習モデルをトレーニングしながら、従来の機械学習のパワーを活用することができる。
TeD-Qは、勾配を得るためのバックプロパゲーション、パラメータシフト、有限差分法を提供する自動微分をサポートする。
テンソル収縮により、多数の量子ビットを持つ量子回路のシミュレーションが可能となる。
TeD-Qはまた、量子回路とトレーニングの進捗をリアルタイムで視覚化できるグラフィカルモードも提供する。 TeD-Q is an open-source software framework for quantum machine learning, variational quantum algorithm (VQA), and simulation of quantum computing. It seamlessly integrates classical machine learning libraries with quantum simulators, giving users the ability to leverage the power of classical machine learning while training quantum machine learning models. TeD-Q supports auto-differentiation that provides backpropagation, parameters shift, and finite difference methods to obtain gradients. With tensor contraction, simulation of quantum circuits with large number of qubits is possible. TeD-Q also provides a graphical mode in which the quantum circuit and the training progress can be visualized in real-time. | 翻訳日:2023-01-16 15:30:32 公開日:2023-01-13 |
# ダイヤモンド系高圧デバイスにおけるNVセンサの分光学的研究 Spectroscopy Study on NV Sensors in Diamond-based High-pressure Devices ( http://arxiv.org/abs/2301.05462v1 ) ライセンス: Link先を確認 | Kin On Ho, Man Yin Leung, Wenyan Wang, Jianyu Xie, King Yau Yip, Jiahao Wu, Swee K. Goh, Andrej Denisenko, J\"org Wrachtrup, Sen Yang | (参考訳) 近年,nv中心は加圧環境において強固で汎用性の高い量子センサとして出現している。
ダイヤモンドアンビル細胞(DAC)にNVセンシングを実装する一般的な方法は、ダイヤモンドアンビル先端に埋め込んだNVセンタ(INV)を作るか、圧力媒体にNV濃縮ナノダイアモンド(ND)を浸すことである。
それにもかかわらず、これらのセンサが経験する局所的な応力環境と圧力計としての性能を比較する研究は限られている。
本研究では,光検出型磁気共鳴(odmr)法を用いてnvエネルギー準位を調べることにより,同一dacに組み込まれたinvsおよびndsの部分再構成応力テンソルの劇的な差を実験的に明らかにした。
測定結果は計算シミュレーションと一致し,INVはDAC軸に沿った一軸応力に支配される非静水環境を知覚する。
これにより、特定の目的に適したNVセンサの選択と、DAC内の応力分布に関する洞察が得られる。
さらに, 圧力環境の非静水性により最大作業圧力が制限されるため, ODMR分光法に基づく量子センシングの最大作業圧力を拡張するために, NDとナノピラーを用いる方法を提案する。
さらに, 圧力がnvシステムの様々な側面をどのように修飾するかを考察し, nvセンターのよりセンシングな応用について検討する。
InVとNDの両方を用いて光ルミネッセンス研究を行い、ゼロフォノン線の圧力依存性を判定し、NV中心を用いた全光圧検出プロトコルの開発を支援する。
また、圧力下でのInVのスピン格子緩和(T_1$)時間を特徴付け、NV中心を加圧環境下での堅牢なパルス測定の基礎を築いた。 Recently, the negatively charged nitrogen-vacancy (NV) center has emerged as a robust and versatile quantum sensor in pressurized environments. There are two popular ways to implement NV sensing in a diamond anvil cell (DAC), which is a conventional workhorse in the high-pressure community: create implanted NV centers (INVs) at the diamond anvil tip or immerse NV-enriched nano-diamonds (NDs) in the pressure medium. Nonetheless, there are limited studies on comparing the local stress environments experienced by these sensor types as well as their performances as pressure gauges. In this work, by probing the NV energy levels with the optically detected magnetic resonance (ODMR) method, we experimentally reveal a dramatic difference in the partially reconstructed stress tensors of INVs and NDs incorporated in the same DAC. Our measurement results agree with computational simulations, concluding that INVs perceive a more non-hydrostatic environment dominated by a uniaxial stress along the DAC axis. This provides insights on the suitable choice of NV sensors for specific purposes and the stress distribution in a DAC. We further propose some possible methods, such as using NDs and nanopillars, to extend the maximum working pressure of quantum sensing based on ODMR spectroscopy, since the maximum working pressure could be restricted by non-hydrostaticity of the pressure environment. Moreover, we explore more sensing applications of the NV center by studying how pressure modifies different aspects of the NV system. We perform a photoluminescence study using both INVs and NDs to determine the pressure dependence of the zero-phonon line, which helps developing an all-optical pressure sensing protocol with the NV center. We also characterize the spin-lattice relaxation ($T_1$) time of INVs under pressure to lay a foundation for robust pulsed measurements with NV centers in pressurized environments. | 翻訳日:2023-01-16 15:30:21 公開日:2023-01-13 |
# 二次PT対称性による量子-古典遷移 Quantum-to-classical transition enabled by quadrature-PT symmetry ( http://arxiv.org/abs/2301.05511v1 ) ライセンス: Link先を確認 | Wencong Wang, Yanhua Zhai, Dongmei Liu, Xiaoshun Jiang, Saeid Vashahri Ghamsari, and Jianming Wen | (参考訳) 量子ランゲヴィンノイズは、ゲインロスカップリングされた開放系における真の量子光学パリティ時間(PT)対称性を実験的に実現する。
ここでは,非線形パラメトリックプロセスから生成する双対ビームを,位相感受性線形量子増幅法(psa)と干渉平衡損失法を併用することで,このパズルに挑戦する。
pia(phase-insensitive amplification)に関するこれまでの研究と異なり、我々のpsa-lossスキームでは1つの二次対がpt対称性を経験できる。
このような対称性は、従来の量子スクイーズよりも多くの急進的なノイズ挙動を示し、任意のPIAベースのプラットフォームに到達できない。
重要なことに、これは非エルミタン系ヒッヘルトであり、例外点を越える際に同じ量子観測可能な非ハーミティティー誘起量子-古典遷移の出現を可能にする。
この二次PT構造を利用して、量子クラム・ラオ境界やフィッシャー情報の探索により、量子センシングにおけるそのポテンシャルをさらに研究した。
さらに、提案された二次PT対称性は、連続可変(CV)量子ビットを損失伝達のデコヒーレンスから保護する新しい光を放出する。 Quantum Langevin noise makes experimental realization of genuine quantum-optical parity-time (PT) symmetry in a gain-loss-coupled open system elusive. Here, we challenge this puzzle by exploiting twin beams produced from a nonlinear parametric process, one undergoing phase-sensitive linear quantum amplification (PSA) and the other engaging balanced loss merely. Unlike all previous studies involving phase-insensitive amplification (PIA), our PSA-loss scheme allows one quadrature pair to experience PT symmetry, a unique quantum effect without any classical counterpart. Such symmetry showcases many radical noise behaviors beyond conventional quantum squeezing and inaccessible to any PIA-based platform. Importantly, it is the only non-Hermitian system hitherto that enables the emergence of non-Hermiticity-induced quantum-to-classical transition for the same quantum observable when crossing exceptional point. Utilizing this quadrature-PT structure, we have further studied its potential in quantum sensing by exploring the quantum Cram\'er-Rao bound or Fisher information. Besides, the proposed quadrature PT symmetry also sheds new light on protecting continuous-variable (CV) qubits from decoherence in lossy transmission, a long-standing conundrum for various CV-based quantum technologies. | 翻訳日:2023-01-16 15:29:45 公開日:2023-01-13 |
# ランダム化および量子計算のための累積メモリ下限 Cumulative Memory Lower Bounds for Randomized and Quantum Computation ( http://arxiv.org/abs/2301.05680v1 ) ライセンス: Link先を確認 | Paul Beame, Niels Kornerup | (参考訳) 累積メモリ(Cumulative memory) - 計算のステップで使われる空間の総和 - は、実行中にリソースの動的アロケーションと非アロケーションを可能にするクラウドコンピューティングのようなテクノロジのコンテキストにおいて、メモリ使用量の少ないアルゴリズムのコストをより正確に測定する、時間空間の複雑さの詳細な測定である。
一般的な逐次古典アルゴリズムに適用できる累積記憶複雑性の最初の下限を与える。
また、有界エラー量子回路に対する最初の境界も証明する。
多くの可能なアプリケーションの中で、成功確率が少なくとも1/\text{poly}(n)$は累積メモリ$\tilde \Omega(n^2)$、任意の古典行列乗算アルゴリズムは累積メモリ$\Omega(n^6/T)$、任意の量子ソート回路は累積メモリ$\Omega(n^3/T)$、ランダム関数で$k$の非結合衝突を見つける量子回路は累積メモリ$\Omega(k^3/T^2)$であることを示す。
より一般に、既存の時間空間トレードオフの下限の広いクラスを、累積記憶複雑性の下限のマッチングに変換するのに使用できる定理を示す。 Cumulative memory -- the sum of space used over the steps of a computation -- is a fine-grained measure of time-space complexity that is a more accurate measure of cost for algorithms with infrequent spikes in memory usage in the context of technologies such as cloud computing that allow dynamic allocation and de-allocation of resources during their execution. We give the first lower bounds on cumulative memory complexity that apply to general sequential classical algorithms. We also prove the first such bounds for bounded-error quantum circuits. Among many possible applications, we show that any classical sorting algorithm with success probability at least $1/\text{poly}(n)$ requires cumulative memory $\tilde \Omega(n^2)$, any classical matrix multiplication algorithm requires cumulative memory $\Omega(n^6/T)$, any quantum sorting circuit requires cumulative memory $\Omega(n^3/T)$, and any quantum circuit that finds $k$ disjoint collisions in a random function requires cumulative memory $\Omega(k^3n/T^2)$. More generally, we present theorems that can be used to convert a wide class of existing time-space tradeoff lower bounds to matching lower bounds on cumulative memory complexity. | 翻訳日:2023-01-16 15:29:23 公開日:2023-01-13 |
# 混合状態位相秩序とデコヒーレンス誘起遷移の誤差場二重定式化 Mixed-state topological order and the errorfield double formulation of decoherence-induced transitions ( http://arxiv.org/abs/2301.05687v1 ) ライセンス: Link先を確認 | Yimu Bao, Ruihua Fan, Ashvin Vishwanath, Ehud Altman | (参考訳) 我々は,アーベル位相秩序を持つ状態と量子情報を保護する能力に対するデコヒーレンスの影響を特徴づける有効場理論を開発した。
このデコヒーレンスは、崩壊しない状態の純粋な密度行列を記述する二重位相量子場理論の時間的欠陥として現れ、臨界結合強度でエノン凝縮を含む境界相転移を駆動する。
続くデコヒーレンス誘起位相と量子情報の損失は、二重位相秩序のラグランジアン部分群によって分類される。
筆者らのフレームワークは,従来一定の安定化符号で導出されていた誤り回復遷移を一般化し,混合状態を特徴付ける固有位相秩序の相転移に由来することを示す。 We develop an effective field theory characterizing the impact of decoherence on states with abelian topological order and on their capacity to protect quantum information. The decoherence appears as a temporal defect in the double topological quantum field theory that describes the pure density matrix of the uncorrupted state, and it drives a boundary phase transition involving anyon condensation at a critical coupling strength. The ensuing decoherence-induced phases and the loss of quantum information are classified by the Lagrangian subgroups of the double topological order. Our framework generalizes the error recovery transitions, previously derived for certain stabilizer codes, to generic topologically ordered states and shows that they stem from phase transitions in the intrinsic topological order characterizing the mixed state. | 翻訳日:2023-01-16 15:28:53 公開日:2023-01-13 |
# 多チップモジュールにおける超伝導量子ビットの単一磁束量子ベースディジタル制御 Single Flux Quantum-Based Digital Control of Superconducting Qubits in a Multi-Chip Module ( http://arxiv.org/abs/2301.05696v1 ) ライセンス: Link先を確認 | Chuan-Hong Liu, Andrew Ballard, David Olaya, Daniel R. Schmidt, John Biesecker, Tammy Lucas, Joel Ullom, Shravan Patel, Owen Rafferty, Alexander Opremcak, Kenneth Dodge, Vito Iaia, Tianna McBroom, Jonathan L. Dubois, Pete F. Hopkins, Samuel P. Benz, Britton L. T. Plourde, Robert McDermott | (参考訳) 次世代超伝導量子ビットアレイのスケーラブルな制御のために、single flux quantum (sfq) digital superconducting logicファミリが提案されている。
最初の実装では、SFQに基づくゲート忠実度は、消散性SFQドライバ回路によって誘導される準粒子(QP)中毒によって制限された。
本稿では,フォノンを媒介とするqp中毒を抑制するマルチチップモジュールアーキテクチャを提案する。
ここで、sfq要素とキュービットは、インバンプ結合と結合した別々のチップ上に作られる。
我々は,sfqベースのゲートの忠実性を特徴付けるためにインターリーブされたランダム化ベンチマークを用いて,クリフォードゲート当たりの誤差が1.2(1)%であること,sfqベースの量子ビット制御の初期実現で達成されたゲートエラーに対する桁違いの低減を示す。
純度ベンチマークを用いて0.96(2)%の非コヒーレント誤差の寄与を定量し、この誤差をqubitおよびsfq-qubit結合器の共振mm波アンテナモードを媒介とする光子媒介qp中毒と比較した。
我々は、sfqパルスの帯域幅を制限するsfqドライバ回路の簡易な再設計により、この不確かさの源を取り除き、共振シーケンスの99.9%、可変パルス対パルス分離を伴うより複雑なパルスシーケンスの99.99%という理論上の限界に忠実なsfqベースのゲートが近づくことを期待している。 The single flux quantum (SFQ) digital superconducting logic family has been proposed for the scalable control of next-generation superconducting qubit arrays. In the initial implementation, SFQ-based gate fidelity was limited by quasiparticle (QP) poisoning induced by the dissipative on-chip SFQ driver circuit. In this work, we introduce a multi-chip module architecture to suppress phonon-mediated QP poisoning. Here, the SFQ elements and qubits are fabricated on separate chips that are joined with In bump bonds. We use interleaved randomized benchmarking to characterize the fidelity of SFQ-based gates, and we demonstrate an error per Clifford gate of 1.2(1)%, an order-of-magnitude reduction over the gate error achieved in the initial realization of SFQ-based qubit control. We use purity benchmarking to quantify the contribution of incoherent error at 0.96(2)%; we attribute this error to photon-mediated QP poisoning mediated by the resonant mm-wave antenna modes of the qubit and SFQ-qubit coupler. We anticipate that a straightforward redesign of the SFQ driver circuit to limit the bandwidth of the SFQ pulses will eliminate this source of infidelity, allowing SFQ-based gates with fidelity approaching theoretical limits, namely 99.9% for resonant sequences and 99.99% for more complex pulse sequences involving variable pulse-to-pulse separation. | 翻訳日:2023-01-16 15:28:39 公開日:2023-01-13 |
# 安定な確率重み付け:過度オーバーラップによる多値処理の不均一因果関係に対する大サンプルおよび有限サンプル推定と推定法 Stable Probability Weighting: Large-Sample and Finite-Sample Estimation and Inference Methods for Heterogeneous Causal Effects of Multivalued Treatments Under Limited Overlap ( http://arxiv.org/abs/2301.05703v1 ) ライセンス: Link先を確認 | Ganesh Karapakula | (参考訳) 本稿では,「ばすのゾウ(観測可能な動物を極度に選別したデータ)」を熟考する。
そこで本研究では, 限定的重なりの経験的関連する文脈における不均一因果効果(既定性)を推定・推定するための, 実用的大標本法および有限標本法を提案する。
広範に使われている逆確率重み付け(IPW)手法の代替として使用できる「安定確率重み付け(SPW)」と呼ばれる一般原理を開発した。
IPW(またはその拡張版)は、より一般的なSPW(または2倍の堅牢版)の特殊な場合であり、治療状態の条件付き確率の極端性を調整するものであることを示す。
spwの原理は、条件モーメントモデルのための既存の大規模パラメータパラメトリック、セミパラメトリック、非パラメトリックの手順を使って実装できる。
さらに、未確立性が微細な成層圏内で証明可能である場合に適用される新しい有限サンプル結果を提供する。
IPW推定は、推定された確率スコアの逆数に依存するので、ある意味でバイアスのない「FPW(Finite-Sample Staable Probability Weighting)」セット推定器を開発する。
また,弱ヌル仮説の一般クラスをテストするための新しい有限サンプル推定法を提案する。
妥当な信頼集合の構築や有限サンプル信頼分布のバウンドに使用できる、関連する計算上便利な方法は独立利害関係である。
私の大きなサンプルと有限サンプルのフレームワークは、多値処理の設定にまで拡張します。 In this paper, I try to tame "Basu's elephants" (data with extreme selection on observables). I propose new practical large-sample and finite-sample methods for estimating and inferring heterogeneous causal effects (under unconfoundedness) in the empirically relevant context of limited overlap. I develop a general principle called "Stable Probability Weighting" (SPW) that can be used as an alternative to the widely used Inverse Probability Weighting (IPW) technique, which relies on strong overlap. I show that IPW (or its augmented version), when valid, is a special case of the more general SPW (or its doubly robust version), which adjusts for the extremeness of the conditional probabilities of the treatment states. The SPW principle can be implemented using several existing large-sample parametric, semiparametric, and nonparametric procedures for conditional moment models. In addition, I provide new finite-sample results that apply when unconfoundedness is plausible within fine strata. Since IPW estimation relies on the problematic reciprocal of the estimated propensity score, I develop a "Finite-Sample Stable Probability Weighting" (FPW) set-estimator that is unbiased in a sense. I also propose new finite-sample inference methods for testing a general class of weak null hypotheses. The associated computationally convenient methods, which can be used to construct valid confidence sets and to bound the finite-sample confidence distribution, are of independent interest. My large-sample and finite-sample frameworks extend to the setting of multivalued treatments. | 翻訳日:2023-01-16 15:28:14 公開日:2023-01-13 |
# 学習されたマルチロボットタスクの優先順位付けスタック実行に対する制約最適化アプローチ A Constrained-Optimization Approach to the Execution of Prioritized Stacks of Learned Multi-Robot Tasks ( http://arxiv.org/abs/2301.05346v1 ) ライセンス: Link先を確認 | Gennaro Notomista | (参考訳) 本稿では,学習ロボットタスクの優先実行のための制約最適化式を提案する。
このフレームワークは、強化学習パラダイムを使って学んだタスクのような、値関数によってエンコードされたタスクの実行に役立ちます。
タスクは制御リアプノフ関数を用いて凸最適化プログラムの制約として符号化される。
さらに、タスク間の相対的な優先度を指定するために、追加の制約が課される。
提案手法は,協調型マルチロボットタスクを実行する移動ロボットチームを用いてシミュレーションを行った。 This paper presents a constrained-optimization formulation for the prioritized execution of learned robot tasks. The framework lends itself to the execution of tasks encoded by value functions, such as tasks learned using the reinforcement learning paradigm. The tasks are encoded as constraints of a convex optimization program by using control Lyapunov functions. Moreover, an additional constraint is enforced in order to specify relative priorities between the tasks. The proposed approach is showcased in simulation using a team of mobile robots executing coordinated multi-robot tasks. | 翻訳日:2023-01-16 15:27:21 公開日:2023-01-13 |
# マルチビヘイビアコントラスト勧告のための知識向上 Knowledge Enhancement for Multi-Behavior Contrastive Recommendation ( http://arxiv.org/abs/2301.05403v1 ) ライセンス: Link先を確認 | Hongrui Xuan, Yi Liu, Bohan Li, Hongzhi Yin | (参考訳) うまく設計されたレコメンダシステムは、個人固有の好みを反映して、ユーザとアイテムの属性を正確に捉えることができる。
従来のレコメンデーションテクニックは、通常、ユーザとアイテムの間の特定のタイプの振る舞いをモデル化することに重点を置いています。
しかし、多くの実用的なレコメンデーションシナリオ(ソーシャルメディアやeコマースなど)では、クリック、タグ・アズ・フェイト、オンラインショッピングプラットフォームでの購入など、ユーザとテーマの関係において多型対話的な行動が存在する。
したがって, マルチ行動情報を完全に活用する方法は, 既存のシステムにとって非常に重要であり, 1) 多行動依存を捉えるためにユーザのパーソナライズされた嗜好を活用すること, (2) 標的行動に対するスパース監視信号による不適切なレコメンデーションに対処すること,の2つの側面において課題を提起する。
本研究では,これらの課題に取り組むための2つのコントラスト学習タスクと3つの機能モジュールを含む知識強化型コントラスト学習レコメンデーション(kmclr)フレームワークを提案する。
特に,ユーザのパーソナライズされた行動情報を抽出するためのマルチビヘイビア学習モジュールを設計し,ナレッジエンハンスメントモジュールにおけるナレッジグラフを利用して,項目に対するより堅牢なナレッジアウェア表現を導出する。
また,最適化段階では,ユーザ間の粗粒度共通性と細粒度差をモデル化し,推薦効果をさらに向上する。
3つの実世界のデータセットに関する広範囲な実験とアブレーションテストは、kmclrが様々な最先端の推奨手法を上回り、本手法の有効性を検証していることを示している。 A well-designed recommender system can accurately capture the attributes of users and items, reflecting the unique preferences of individuals. Traditional recommendation techniques usually focus on modeling the singular type of behaviors between users and items. However, in many practical recommendation scenarios (e.g., social media, e-commerce), there exist multi-typed interactive behaviors in user-item relationships, such as click, tag-as-favorite, and purchase in online shopping platforms. Thus, how to make full use of multi-behavior information for recommendation is of great importance to the existing system, which presents challenges in two aspects that need to be explored: (1) Utilizing users' personalized preferences to capture multi-behavioral dependencies; (2) Dealing with the insufficient recommendation caused by sparse supervision signal for target behavior. In this work, we propose a Knowledge Enhancement Multi-Behavior Contrastive Learning Recommendation (KMCLR) framework, including two Contrastive Learning tasks and three functional modules to tackle the above challenges, respectively. In particular, we design the multi-behavior learning module to extract users' personalized behavior information for user-embedding enhancement, and utilize knowledge graph in the knowledge enhancement module to derive more robust knowledge-aware representations for items. In addition, in the optimization stage, we model the coarse-grained commonalities and the fine-grained differences between multi-behavior of users to further improve the recommendation effect. Extensive experiments and ablation tests on the three real-world datasets indicate our KMCLR outperforms various state-of-the-art recommendation methods and verify the effectiveness of our method. | 翻訳日:2023-01-16 15:21:29 公開日:2023-01-13 |
# ボルツマン分布上の正規化フローのデータフリートレーニングにおける損失設計 Designing losses for data-free training of normalizing flows on Boltzmann distributions ( http://arxiv.org/abs/2301.05475v1 ) ライセンス: Link先を確認 | Loris Felardos (TAU), J\'er\^ome H\'enin (LBT (UPR\_9080), IBPC (FR\_550)), Guillaume Charpiat (TAU) | (参考訳) ボルツマン分布を高次元で生成する手法は、生成した密度の高速かつ正確な計算を可能にする正規化フローによって最近達成された。
しかし、現在の実装は計算コストのかかるシミュレーションから得られる正確なトレーニングデータに依存している。
したがって、(定数まで)物理エネルギーモデルから得られるターゲット密度のみに依存することで、不完全なデータや全くデータを持たないモデルを訓練するための明確なインセンティブがある。
そこで本研究では,kullback-leibler divergencesに基づく標準損失の特性解析を行う。
それらの限界,特に高次元分布の最適化におけるモード崩壊の強い傾向を示す。
次に,これらの問題を緩和するための戦略を提案する。最も重要なのは,理論上十分な基礎と適切な最適化特性を持つ新しい損失関数である。
3次元分子構成の生成のベンチマークとして、不完全な事前学習モデルがトレーニングデータがない場合にさらに最適化できることを初めて示す。 Generating a Boltzmann distribution in high dimension has recently been achieved with Normalizing Flows, which enable fast and exact computation of the generated density, and thus unbiased estimation of expectations. However, current implementations rely on accurate training data, which typically comes from computationally expensive simulations. There is therefore a clear incentive to train models with incomplete or no data by relying solely on the target density, which can be obtained from a physical energy model (up to a constant factor). For that purpose, we analyze the properties of standard losses based on Kullback-Leibler divergences. We showcase their limitations, in particular a strong propensity for mode collapse during optimization on high-dimensional distributions. We then propose strategies to alleviate these issues, most importantly a new loss function well-grounded in theory and with suitable optimization properties. Using as a benchmark the generation of 3D molecular configurations, we show on several tasks that, for the first time, imperfect pre-trained models can be further optimized in the absence of training data. | 翻訳日:2023-01-16 15:20:56 公開日:2023-01-13 |
# 実断層に基づく深部強化学習の突然変異試験 Mutation Testing of Deep Reinforcement Learning Based on Real Faults ( http://arxiv.org/abs/2301.05651v1 ) ライセンス: Link先を確認 | Florian Tambon, Vahid Majdinasab, Amin Nikanjam, Foutse Khomh, Giuliano Antonio | (参考訳) ディープラーニング(DL)システムのテストは、従来のシステムのように振る舞わないため、複雑なタスクである。
それでも、ミューテーションテスト(MT)のような既存のテスト技術をDL設定に適合させることで、潜在的な妥当性が大幅に向上する。
mtを教師あり学習パラダイムに拡張する動きはいくつかあるが、dlエコシステムの重要な要素であるがslとは全く異なる振る舞いを持つ強化学習(rl)にまで拡張する作業はほとんど行われていない。
本稿では,RTL に適用した MT のフレームワーク RLMutation を提案するために,既存の MT のアプローチに基づいて構築する。
特に、既存の障害分類を用いて、RLに関連する一連の突然変異演算子を構築し、簡単なヒューリスティックを用いてRLのテストケースを生成する。
これにより、既存のアプローチに基づいて異なる突然変異致死定義を比較し、得られた突然変異演算子とその潜在的な組み合わせであるHigher Order Mutation(HOM)の挙動を分析することができる。
本研究は, 突然変異致死定義の設計選択が, 生成したテストケースだけでなく, 変異が致死するか否かにも影響を及ぼすことを示す。
さらに,比較的少数のテストケースや演算子でも,興味深い特性を持つHOMを生成することができ,RLシステムのテスト機能を向上させることができることがわかった。 Testing Deep Learning (DL) systems is a complex task as they do not behave like traditional systems would, notably because of their stochastic nature. Nonetheless, being able to adapt existing testing techniques such as Mutation Testing (MT) to DL settings would greatly improve their potential verifiability. While some efforts have been made to extend MT to the Supervised Learning paradigm, little work has gone into extending it to Reinforcement Learning (RL) which is also an important component of the DL ecosystem but behaves very differently from SL. This paper builds on the existing approach of MT in order to propose a framework, RLMutation, for MT applied to RL. Notably, we use existing taxonomies of faults to build a set of mutation operators relevant to RL and use a simple heuristic to generate test cases for RL. This allows us to compare different mutation killing definitions based on existing approaches, as well as to analyze the behavior of the obtained mutation operators and their potential combinations called Higher Order Mutation(s) (HOM). We show that the design choice of the mutation killing definition can affect whether or not a mutation is killed as well as the generated test cases. Moreover, we found that even with a relatively small number of test cases and operators we manage to generate HOM with interesting properties which can enhance testing capability in RL systems. | 翻訳日:2023-01-16 15:20:25 公開日:2023-01-13 |
# JSCアパタイト・クキスヴンチョルスコエ鉱床の例による鉱業活動中の地震モニタリングデータ解析の複合モデル Composite model of seismic monitoring data analysis during mining operations on the example of the Kukisvumchorrskoye deposit of JSC Apatit ( http://arxiv.org/abs/2301.05701v1 ) ライセンス: Link先を確認 | Ilia Revin | (参考訳) 岩盤の地力学モニタリングは、活発に発達している地力学の分野である。
地震モニタリングシステムの開発において,データ収集と分析のための方法論や手法を選別することはほとんど不可能である。
岩塊における鉱業の過程において、構造的不均質性の状態の変化が最も顕著である。
既存の自然構造不均一性が明らかにされ、不連続な外乱の運動があり、マスifの様々なブロックの自然応力状態の変化を伴う新しいテクネティックな外乱が形成される。
重要な課題は,岩石塊の構造的不均一性を考慮し,モニタリングデータに基づいて必要な予測地平線を選択することができる鉱業予測モデルを開発することである。 Geomechanical monitoring of a rock massif is an actively developing branch of geomechanics. It is almost impossible to single out a methodology and approaches for data collection and analysis in developing seismic monitoring systems. In the process of mining in rock massif, changes in the state of structural inhomogeneities are most clearly manifested. Existing natural structural inhomogeneities are revealed, there are movements in discontinuous disturbances, and new technogenic disturbances are formed, which are accompanied by a change in the natural stress state of various blocks of the massif. An important task is to develop a mining forecasting model that can take into account the structural heterogeneity of the rock massif and select the necessary forecast horizon depending on monitoring data The developed method of evaluating the results of monitoring geomechanical processes in the rock massif allowed us to forecast of zones of possible rock bursts. | 翻訳日:2023-01-16 15:20:01 公開日:2023-01-13 |
# 線形制約付き二次最適化のための不可分な量子内部点法 An Inexact Feasible Quantum Interior Point Method for Linearly Constrained Quadratic Optimization ( http://arxiv.org/abs/2301.05357v1 ) ライセンス: Link先を確認 | Zeguan Wu, Mohammadhossein Mohammadisiahroudi, Brandon Augustino, Xiu Yang and Tam\'as Terlaky | (参考訳) 量子線形システムアルゴリズム(QLSA)は、線形システムの解法に依存するアルゴリズムを高速化する可能性がある。
内部点法 (IPMs) は最適化問題を解くための多項式時間アルゴリズムの基本的なファミリーである。
IPMは各イテレーションでニュートン線形システムを解いて探索方向を見つけるため、QLSAはIPMを高速化する可能性がある。
現代の量子コンピュータのノイズのため、量子アシスト型IPM (QIPM) はニュートン線形系の不正確な解しか得られない。
通常、不正確な探索方向は実現不可能な解決策につながる。
本研究では, 線形制約付き2次最適化問題の解法において, 実効性のないQIPM (IF-QIPM) を提案する。
また、このアルゴリズムを$\ell_1$-norm soft margin support vector machine (svm)問題に適用し、次元依存性に関する最良の複雑さを得る。
この複雑性境界は、古典解を生成する既存の古典アルゴリズムや量子アルゴリズムよりも優れている。 Quantum linear system algorithms (QLSAs) have the potential to speed up algorithms that rely on solving linear systems. Interior Point Methods (IPMs) yield a fundamental family of polynomial-time algorithms for solving optimization problems. IPMs solve a Newton linear system at each iteration to find the search direction, and thus QLSAs can potentially speed up IPMs. Due to the noise in contemporary quantum computers, such quantum-assisted IPM (QIPM) only allows an inexact solution for the Newton linear system. Typically, an inexact search direction leads to an infeasible solution. In our work, we propose an Inexact-Feasible QIPM (IF-QIPM) and show its advantage in solving linearly constrained quadratic optimization problems. We also apply the algorithm to $\ell_1$-norm soft margin support vector machine (SVM) problems and obtain the best complexity regarding dependence on dimension. This complexity bound is better than any existing classical or quantum algorithm that produces a classical solution. | 翻訳日:2023-01-16 15:18:46 公開日:2023-01-13 |
# リウビリアンフラットバンドの動的シグナチャ Dynamical Signatures of Liouvillian Flat Band ( http://arxiv.org/abs/2301.05378v1 ) ライセンス: Link先を確認 | Yu-Guo Liu, Shu Chen | (参考訳) フラットバンド構造は、その固有状態が大きな縮退を示し、波のパケットの局在化を可能にするため、凝縮物や光学物理学において集中的に研究されているが、リウビリアンのフラットバンドが開量子系の緩和ダイナミクスにどのように影響するかは明らかではない。
この目的のために、リンドブラドマスター方程式のスキームにおいて、リウビリアンフラットバンドの動的シグネチャを研究する。
Considering a chain model with gain and loss, we demonstrate three kinds of band dispersion of Liouvillian: flat bland, dispersionless only in the real part and imaginary part, and capture their dynamical signatures: when the rapidity spectrum of Liouvillian is flat, the particle numbers in different sites relax to its steady state value with the same decay rate; when the real or imaginary part of rapidity spectrum is dispersionless, the relaxation behaviors have oscillating or forked characteristics.
また,リウビリアン平坦帯は定常状態における局所摂動の伝播停止を特徴とする動的局在化を導くことができることを明らかにした。 Although flat-band structures have attracted intensive studies in condensed matter and optical physics due to their eigenstates exhibiting huge degeneracy and allowing for the localization of wave packet, it is not clear how the flat band of Liouvillian influences the relaxation dynamics of open quantum systems. To this end, we study the dynamical signatures of Liouvillian flat band in the scheme of Lindblad master equation. Considering a chain model with gain and loss, we demonstrate three kinds of band dispersion of Liouvillian: flat bland, dispersionless only in the real part and imaginary part, and capture their dynamical signatures: when the rapidity spectrum of Liouvillian is flat, the particle numbers in different sites relax to its steady state value with the same decay rate; when the real or imaginary part of rapidity spectrum is dispersionless, the relaxation behaviors have oscillating or forked characteristics. We also unveil that the Liouvillian flat band can lead to dynamical localization, which is characterized by the halt of propagation of a local perturbation on the steady state. | 翻訳日:2023-01-16 15:18:30 公開日:2023-01-13 |
# 説明可能なAI手法の有用性と有用性について Towards Reconciling Usability and Usefulness of Explainable AI Methodologies ( http://arxiv.org/abs/2301.05347v1 ) ライセンス: Link先を確認 | Pradyumna Tambwekar and Matthew Gombolay | (参考訳) インタラクティブ人工知能(AI)エージェントが社会でますます普及しつつある。
しかし、そのようなシステムを理解せずに適用することは問題となる。
ブラックボックスAIシステムは、誤った判断を下すと、責任と説明責任の問題を引き起こす可能性がある。
説明可能なAI(XAI)は、AIアルゴリズムの動作に関する洞察を提供することによって、開発者とエンドユーザの間の知識ギャップを埋めようとしている。
現代のアルゴリズムの多くは、AIモデルを"透明"にすることに重点を置いている。
しかし、これらの手法は、ユーザが適切な時間内にこれらの説明を理解するために必要な知識を持っていないため、エンドユーザーにとって不便である。
したがって、適切なXAI手法を開発するためには、主観的知覚と客観的ユーザビリティに影響を与える要因を理解する必要がある。
本稿では,AIの振る舞いを説明するための先行研究でよく用いられる4つの異なるXAIモダリティ,すなわち決定木,テキスト,プログラムについて研究する。
我々は、これらのxaiモードを高速道路での自動運転車の動作を説明する文脈で研究し、運転は容易に理解できる実世界のタスクであり、自動運転車はaiコミュニティにおいて重要な関心領域であることを明らかにした。
本研究は, 言語説明が極めて有用であると考えられる内部整合性の問題に焦点をあてるものであるが, 決定木説明により, 車両の意思決定過程を客観的に理解しやすくした。
我々の研究は、XAIシステムの設計にユーザ固有および状況基準を統合することの重要性をさらに証明する。
以上の結果から,コンピュータサイエンス経験や自動車の成功・失敗などの要因が,説明の認識や有用性に影響を与えることが示唆された。 Interactive Artificial Intelligence (AI) agents are becoming increasingly prevalent in society. However, application of such systems without understanding them can be problematic. Black-box AI systems can lead to liability and accountability issues when they produce an incorrect decision. Explainable AI (XAI) seeks to bridge the knowledge gap, between developers and end-users, by offering insights into how an AI algorithm functions. Many modern algorithms focus on making the AI model "transparent", i.e. unveil the inherent functionality of the agent in a simpler format. However, these approaches do not cater to end-users of these systems, as users may not possess the requisite knowledge to understand these explanations in a reasonable amount of time. Therefore, to be able to develop suitable XAI methods, we need to understand the factors which influence subjective perception and objective usability. In this paper, we present a novel user-study which studies four differing XAI modalities commonly employed in prior work for explaining AI behavior, i.e. Decision Trees, Text, Programs. We study these XAI modalities in the context of explaining the actions of a self-driving car on a highway, as driving is an easily understandable real-world task and self-driving cars is a keen area of interest within the AI community. Our findings highlight internal consistency issues wherein participants perceived language explanations to be significantly more usable, however participants were better able to objectively understand the decision making process of the car through a decision tree explanation. Our work also provides further evidence of importance of integrating user-specific and situational criteria into the design of XAI systems. Our findings show that factors such as computer science experience, and watching the car succeed or fail can impact the perception and usefulness of the explanation. | 翻訳日:2023-01-16 15:12:34 公開日:2023-01-13 |
# 多様なレコメンデーションのための絡み合った表現 Disentangled Representation for Diversified Recommendations ( http://arxiv.org/abs/2301.05492v1 ) ライセンス: Link先を確認 | Xiaoying Zhang, Hongning Wang, Hang Li | (参考訳) 正確性と多様性は、リコメンデーションの2つの相反する目標だと考えられてきた。
しかし,例えばカテゴリを最も広く採用する項目として,事前選択された項目属性によって多様性が測定されるのが一般的であるので,事前選択された属性に対するユーザの嗜好を多様化が尊重する限り,レコメンデーション精度を犠牲にすることなく多様性の向上が達成可能であることを指摘した。
これは、ユーザの選択を認識する必要がある項目に対するユーザの好みのきめ細かい理解を要求するもので、アイテム自体の品質や、そのアイテムの事前選択された属性によって駆動される。
本研究では,項目カテゴリに定義された多様性に焦点を当てる。
本稿では,推薦アルゴリズムの選択に依存しない一般化フレームワークを提案する。
本ソリューションは,推奨モジュールの学習したユーザ表現をカテゴリ非依存およびカテゴリ依存のコンポーネントに分解し,項目に対するユーザの嗜好を2つの直交的視点から区別する。
3つのベンチマークデータセットとオンラインA/Bテストによる実験結果から,提案手法の有効性が示唆された。
In-deepth analysis は,ユーザのカテゴリー的嗜好のモデリングの改善と,項目カテゴリ内でのランク付けの改善による改善を示唆している。 Accuracy and diversity have long been considered to be two conflicting goals for recommendations. We point out, however, that as the diversity is typically measured by certain pre-selected item attributes, e.g., category as the most popularly employed one, improved diversity can be achieved without sacrificing recommendation accuracy, as long as the diversification respects the user's preference about the pre-selected attributes. This calls for a fine-grained understanding of a user's preferences over items, where one needs to recognize the user's choice is driven by the quality of the item itself, or the pre-selected attributes of the item. In this work, we focus on diversity defined on item categories. We propose a general diversification framework agnostic to the choice of recommendation algorithms. Our solution disentangles the learnt user representation in the recommendation module into category-independent and category-dependent components to differentiate a user's preference over items from two orthogonal perspectives. Experimental results on three benchmark datasets and online A/B test demonstrate the effectiveness of our solution in improving both recommendation accuracy and diversity. In-depth analysis suggests that the improvement is due to our improved modeling of users' categorical preferences and refined ranking within item categories. | 翻訳日:2023-01-16 15:12:07 公開日:2023-01-13 |
# 右室生存データを用いた最適な個別化治療体制の効率的かつ堅牢な伝達学習 Efficient and robust transfer learning of optimal individualized treatment regimes with right-censored survival data ( http://arxiv.org/abs/2301.05491v1 ) ライセンス: Link先を確認 | Pan Zhao, Julie Josse, Shu Yang | (参考訳) 個別治療体制(英: individualized treatment regime、ITR)は、患者の特徴に基づいて治療を割り当てる決定規則である。
ITRの価値関数は、このITRを実装した反ファクトの世界における期待結果である。
近年、ランダム化比較試験(RCT)データと大規模な観測研究(OS)の相補的特徴を活用するなど、異種データソースの組み合わせへの関心が高まっている。
通常、ソースとターゲットの人口の間に共変量シフトが存在し、ソース最適itrがターゲットの人口に不必要に最適となる。
本報告では, 最適ITRを, 対象個体群によく適応する右検閲生存データを用いて推定するための, 効率的かつ堅牢な移動学習フレームワークを提案する。
価値関数は、生存確率および制限平均生存時間(rmsts)を含む、生存分布の幅広い種類の機能に対応している。
我々は,値関数の二重ロバスト推定器を提案し,事前特定したクラス内の値関数を最大化することで最適なitrを学習する。
最適itrを指標とした推定パラメータの収束率である$n^{-1/3} を定式化し,提案する最適値推定器が,ニュアサンスパラメータ推定のためのフレキシブルな機械学習手法においても安定かつ漸近的に正常であることを示す。
集中治療室 (ICU) における重篤な代謝性アシダ血症に対するバイカーボネートナトリウム療法のシミュレーションと実データによる評価を行い, RCT と不均一性を用いた観察的検討を行った。 An individualized treatment regime (ITR) is a decision rule that assigns treatments based on patients' characteristics. The value function of an ITR is the expected outcome in a counterfactual world had this ITR been implemented. Recently, there has been increasing interest in combining heterogeneous data sources, such as leveraging the complementary features of randomized controlled trial (RCT) data and a large observational study (OS). Usually, a covariate shift exists between the source and target population, rendering the source-optimal ITR unnecessarily optimal for the target population. We present an efficient and robust transfer learning framework for estimating the optimal ITR with right-censored survival data that generalizes well to the target population. The value function accommodates a broad class of functionals of survival distributions, including survival probabilities and restrictive mean survival times (RMSTs). We propose a doubly robust estimator of the value function, and the optimal ITR is learned by maximizing the value function within a pre-specified class of ITRs. We establish the $N^{-1/3}$ rate of convergence for the estimated parameter indexing the optimal ITR, and show that the proposed optimal value estimator is consistent and asymptotically normal even with flexible machine learning methods for nuisance parameter estimation. We evaluate the empirical performance of the proposed method by simulation studies and a real data application of sodium bicarbonate therapy for patients with severe metabolic acidaemia in the intensive care unit (ICU), combining a RCT and an observational study with heterogeneity. | 翻訳日:2023-01-16 15:11:46 公開日:2023-01-13 |
# 構造付き付加分布回帰のスケーラブル推定 Scalable Estimation for Structured Additive Distributional Regression ( http://arxiv.org/abs/2301.05593v1 ) ライセンス: Link先を確認 | Nikolaus Umlauf, Johannes Seiler, Mattias Wetscher, Thorsten Simon, Stefan Lang, Nadja Klein | (参考訳) 近年,確率モデルの適合性が重要視されているが,大規模データセットを用いた分布モデルの推定は難しい課題である。
特に、かなり複雑なモデルを使用することで、メモリ関連の効率上の問題が生じやすくなり、高性能なコンピュータでも推定が不可能になる。
そこで我々は,確率勾配勾配に基づく新しいバックフィッティングアルゴリズムを提案し,従来のノートパソコン上の任意の量のデータを扱うことができる。
このアルゴリズムは変数の自動選択やパラメータの平滑化を行うが、ほとんどの場合、その性能は計算時間を低く保ちながら、例えば勾配向上などの構造的加法分布回帰の他の実装よりも優れているか、少なくとも同等である。
性能は、広範囲なシミュレーション研究と、オーストリアにおける雷数予測の非常に困難で独特な例を用いて評価される。
900万以上の観測と80の共変量を持つ非常に大きなデータセットを用いて、予測モデルを標準分布回帰法ではなく、我々の新しいアプローチで推定する。 Recently, fitting probabilistic models have gained importance in many areas but estimation of such distributional models with very large data sets is a difficult task. In particular, the use of rather complex models can easily lead to memory-related efficiency problems that can make estimation infeasible even on high-performance computers. We therefore propose a novel backfitting algorithm, which is based on the ideas of stochastic gradient descent and can deal virtually with any amount of data on a conventional laptop. The algorithm performs automatic selection of variables and smoothing parameters, and its performance is in most cases superior or at least equivalent to other implementations for structured additive distributional regression, e.g., gradient boosting, while maintaining low computation time. Performance is evaluated using an extensive simulation study and an exceptionally challenging and unique example of lightning count prediction over Austria. A very large dataset with over 9 million observations and 80 covariates is used, so that a prediction model cannot be estimated with standard distributional regression methods but with our new approach. | 翻訳日:2023-01-16 15:11:19 公開日:2023-01-13 |
# 拡散デコーダを用いたニューラル画像圧縮 Neural Image Compression with a Diffusion-Based Decoder ( http://arxiv.org/abs/2301.05489v1 ) ライセンス: Link先を確認 | Noor Fathima Goose and Jens Petersen and Auke Wiggers and Tianlin Xu and Guillaume Sauti\`ere | (参考訳) 拡散確率モデルは最近、高品質な画像と映像データを生成することに顕著な成功を収めている。
本研究では,このタイプの生成モデルを構築し,高分解能画像の損失圧縮法を提案する。
結果として得られるコーデックは、DIffusonベースのResidual Augmentation Codec (DIRAC) と呼ばれ、テスト時に速度歪みと知覚のトレードオフを円滑にトラバースできる最初のニューラルコーデックです。
また,拡散確率モデルからのサンプリングは費用がかかることで悪名高いが,圧縮設定ではステップ数を大幅に削減できることを示す。 Diffusion probabilistic models have recently achieved remarkable success in generating high quality image and video data. In this work, we build on this class of generative models and introduce a method for lossy compression of high resolution images. The resulting codec, which we call DIffuson-based Residual Augmentation Codec (DIRAC),is the first neural codec to allow smooth traversal of the rate-distortion-perception tradeoff at test time, while obtaining competitive performance with GAN-based methods in perceptual quality. Furthermore, while sampling from diffusion probabilistic models is notoriously expensive, we show that in the compression setting the number of steps can be drastically reduced. | 翻訳日:2023-01-16 15:11:03 公開日:2023-01-13 |
# ジェネレーティブAIアプリケーションのための汎用設計原則に向けて Toward General Design Principles for Generative AI Applications ( http://arxiv.org/abs/2301.05578v1 ) ライセンス: Link先を確認 | Justin D. Weisz, Michael Muller, Jessica He, Stephanie Houde | (参考訳) 生成AI技術は、パワー、ユーティリティ、利用で成長している。
生成技術が主流のアプリケーションに組み込まれているため、生産的かつ安全な利用を促進するために、これらのアプリケーションを設計する方法に関するガイダンスが必要である。
HCIとAIコミュニティにおける人間とAIの共創に関する最近の研究に基づいて、生成型AIアプリケーションの設計のための7つの原則を提示する。
これらの原則は、生成的変動の環境に根ざしている。
生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。
さらに, 生成モデルの有害な出力, 誤用, 人間の移動に対する潜在的な害に対して, 設計者が設計することを推奨する。
我々はこれらの原則を期待し、新しい人間-AIアプリケーションを作成する際になされた設計決定を効果的に通知し、コミュニティにこれらの原則を適用し、修正し、自分たちの仕事に拡張するよう促す。 Generative AI technologies are growing in power, utility, and use. As generative technologies are being incorporated into mainstream applications, there is a need for guidance on how to design those applications to foster productive and safe use. Based on recent research on human-AI co-creation within the HCI and AI communities, we present a set of seven principles for the design of generative AI applications. These principles are grounded in an environment of generative variability. Six principles are focused on designing for characteristics of generative AI: multiple outcomes & imperfection; exploration & control; and mental models & explanations. In addition, we urge designers to design against potential harms that may be caused by a generative model's hazardous output, misuse, or potential for human displacement. We anticipate these principles to usefully inform design decisions made in the creation of novel human-AI applications, and we invite the community to apply, revise, and extend these principles to their own work. | 翻訳日:2023-01-16 15:10:11 公開日:2023-01-13 |
# 階層型ディープq-ラーニングによるデュアル接続型無線ネットワークのハンドオーバ Hierarchical Deep Q-Learning Based Handover in Wireless Networks with Dual Connectivity ( http://arxiv.org/abs/2301.05391v1 ) ライセンス: Link先を確認 | Pedro Enrique Iturria Rivera, Medhat Elsayed, Majid Bavand, Raimundas Gaigalas, Steve Furr, Melike Erol-Kantarci | (参考訳) 5g new radioは、lteの最大データレートを高速化するために10ghz以上の周波数を使用する。
しかし、5gアンテナの有効サイズとそれに伴う都市シナリオにおける信号劣化への影響は、安定したカバレッジと接続を維持することの課題となっている。
両技術を最大限に活用するために, 既存のスタンドアロンの5Gおよび4G技術と比較して, 性能向上が図られている。
強化学習(rl)は、そのような文脈の動的性質からパラメータ学習を必要とするワイヤレスシナリオにおいて、その大きな可能性を示しています。
本稿では,複数無線アクセス技術(マルチRAT)の二重接続処理を改善するために,CDQL (Clipped Double Q-Learning) とHiDQL (hierarchical Deep Q-Learning) という単一のエージェントRLアルゴリズムを提案する。
提案手法を固定パラメータと動的パラメータ解の2つのベースラインと比較する。
シミュレーションの結果、デジタルアナログビームフォーミング(bf)が47.6%、26.1%、ハイブリッドアナログbfが17.1%、21.6%、アナログアナログbfが24.7%、cdqlと既存のソリューションを比較すると、レイテンシが大幅に向上した。
さらに, UEのジオロケーションとしてコンテキスト情報を利用する利点を予測し, ビーム探索セクターを削減し, さらなるマルチRATハンドオーバレイテンシーの改善を図る。 5G New Radio proposes the usage of frequencies above 10 GHz to speed up LTE's existent maximum data rates. However, the effective size of 5G antennas and consequently its repercussions in the signal degradation in urban scenarios makes it a challenge to maintain stable coverage and connectivity. In order to obtain the best from both technologies, recent dual connectivity solutions have proved their capabilities to improve performance when compared with coexistent standalone 5G and 4G technologies. Reinforcement learning (RL) has shown its huge potential in wireless scenarios where parameter learning is required given the dynamic nature of such context. In this paper, we propose two reinforcement learning algorithms: a single agent RL algorithm named Clipped Double Q-Learning (CDQL) and a hierarchical Deep Q-Learning (HiDQL) to improve Multiple Radio Access Technology (multi-RAT) dual-connectivity handover. We compare our proposal with two baselines: a fixed parameter and a dynamic parameter solution. Simulation results reveal significant improvements in terms of latency with a gain of 47.6% and 26.1% for Digital-Analog beamforming (BF), 17.1% and 21.6% for Hybrid-Analog BF, and 24.7% and 39% for Analog-Analog BF when comparing the RL-schemes HiDQL and CDQL with the with the existent solutions, HiDQL presented a slower convergence time, however obtained a more optimal solution than CDQL. Additionally, we foresee the advantages of utilizing context-information as geo-location of the UEs to reduce the beam exploration sector, and thus improving further multi-RAT handover latency results. | 翻訳日:2023-01-16 15:09:55 公開日:2023-01-13 |
# 機械学習における損失関数の探索と分類 A survey and taxonomy of loss functions in machine learning ( http://arxiv.org/abs/2301.05579v1 ) ライセンス: Link先を確認 | Lorenzo Ciampiconi, Adam Elwood, Marco Leonardi, Ashraf Mohamed, Alessandro Rozza | (参考訳) 最先端の機械学習技術の多くは、損失関数の最適化に力を入れている。
したがって、適切な損失関数を定義することは、この分野の問題を解決するのに不可欠である。
本稿では, 分類, 回帰, ランキング, サンプル生成, エネルギーベースモデリングに分けて, 幅広い用途において最もよく使われている損失関数について調査する。
全体として、33の異なる損失関数を導入し、直感的な分類に整理する。
各損失関数には理論的裏付けが与えられ、最もよく使われている場所を記述する。
この調査は、初心者と高度な機械学習実践者の両方にとって最も重要な損失関数の参照を提供することを目的としている。 Most state-of-the-art machine learning techniques revolve around the optimisation of loss functions. Defining appropriate loss functions is therefore critical to successfully solving problems in this field. We present a survey of the most commonly used loss functions for a wide range of different applications, divided into classification, regression, ranking, sample generation and energy based modelling. Overall, we introduce 33 different loss functions and we organise them into an intuitive taxonomy. Each loss function is given a theoretical backing and we describe where it is best used. This survey aims to provide a reference of the most essential loss functions for both beginner and advanced machine learning practitioners. | 翻訳日:2023-01-16 15:02:32 公開日:2023-01-13 |
# データセット蒸留に関する総合調査 A Comprehensive Survey to Dataset Distillation ( http://arxiv.org/abs/2301.05603v1 ) ライセンス: Link先を確認 | Shiye Lei and Dacheng Tao | (参考訳) ディープラーニング技術は過去10年間に前例のない発展を遂げ、多くのアプリケーションドメインで主要な選択肢となっている。
この進歩は主に、急速に成長するコンピューティング資源が高度なアルゴリズムに大量のデータを扱うことを奨励する体系的なコラボレーションによるものである。
しかし、限られた計算能力で無制限に成長するデータに対処することは次第に困難になっている。
この目的のために、データ処理効率を改善するために様々なアプローチが提案されている。
データセットの削減方法のひとつであるデータセット蒸留は、巨大なデータから小さな典型的なデータセットを合成することでこの問題に取り組み、ディープラーニングコミュニティから多くの注目を集めている。
既存のデータセット蒸留法は、ターゲットデータを明確に模倣するかどうかに応じて、メタラーニングとデータマッチングフレームワークに分類することができる。
データセット蒸留はデータセットの圧縮において驚くべき性能を示しているが、高分解能データの蒸留のようないくつかの制限がある。
本稿では, 蒸留フレームワークとアルゴリズム, 分離したデータセット蒸留, 性能比較, 応用など, 様々な側面からデータセット蒸留を総合的に理解する。
最後に,データセット蒸留に関する今後の研究を進めるための課題と今後の方向性について述べる。 Deep learning technology has unprecedentedly developed in the last decade and has become the primary choice in many application domains. This progress is mainly attributed to a systematic collaboration that rapidly growing computing resources encourage advanced algorithms to deal with massive data. However, it gradually becomes challenging to cope with the unlimited growth of data with limited computing power. To this end, diverse approaches are proposed to improve data processing efficiency. Dataset distillation, one of the dataset reduction methods, tackles the problem via synthesising a small typical dataset from giant data and has attracted a lot of attention from the deep learning community. Existing dataset distillation methods can be taxonomised into meta-learning and data match framework according to whether explicitly mimic target data. Albeit dataset distillation has shown a surprising performance in compressing datasets, it still possesses several limitations such as distilling high-resolution data. This paper provides a holistic understanding of dataset distillation from multiple aspects, including distillation frameworks and algorithms, disentangled dataset distillation, performance comparison, and applications. Finally, we discuss challenges and promising directions to further promote future studies about dataset distillation. | 翻訳日:2023-01-16 15:02:23 公開日:2023-01-13 |
# Time-Myopic Go-Explore: Go-Exploreパラダイムのステート表現を学ぶ Time-Myopic Go-Explore: Learning A State Representation for the Go-Explore Paradigm ( http://arxiv.org/abs/2301.05635v1 ) ライセンス: Link先を確認 | Marc H\"oftmann, Jan Robine, Stefan Harmeling | (参考訳) 粗い報酬信号を持つ非常に大きな状態空間を探索することは困難である。
高度なガイダンスが欠如しているため、多くの強化学習アルゴリズムの性能は低い。
このような場合、よく使われるランダム探索は役に立たないことが多い。
この文献は、この種の環境は、州空間の大きな部分を体系的に探索するために巨大な努力を必要とすることを示している。
学習された状態表現は、セマンティックコンテキストを提供し、生の観察の上に構造を構築することによって、検索を改善するのに役立つ。
本研究では,時間的近接状態の集団化と時間予測の両立を両立させる新しい時間-筋的状態表現を提案する。
このモデルをGo-Exploreパラダイム(Ecoffet et al., 2021b)に適用することにより、手作りの表現ヒューリスティックではなく、新規性を確実に推定する最初の学習状態表現を実証する。
本手法は,Go-Explore Exploration Phaseにおいてまだ問題である分断問題に対する改善された解法を示す。
提案手法は, セルアーカイブに不利なコンフリクトオーバーラップを生じさせることなく, 全時間トラジェクトリに対して, 状態空間全体をカバーしていることを示す。
ネイティブなGo-Exploreと対比して,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)などのハード探査環境において,その能力の検証を行う。
実験の結果, 時相Go-Exploreはドメイン工学的ヒューリスティックに有効な代替手段であり, より汎用的であることがわかった。
メソッドのソースコードはGitHubで公開されている。 Very large state spaces with a sparse reward signal are difficult to explore. The lack of a sophisticated guidance results in a poor performance for numerous reinforcement learning algorithms. In these cases, the commonly used random exploration is often not helpful. The literature shows that this kind of environments require enormous efforts to systematically explore large chunks of the state space. Learned state representations can help here to improve the search by providing semantic context and build a structure on top of the raw observations. In this work we introduce a novel time-myopic state representation that clusters temporal close states together while providing a time prediction capability between them. By adapting this model to the Go-Explore paradigm (Ecoffet et al., 2021b), we demonstrate the first learned state representation that reliably estimates novelty instead of using the hand-crafted representation heuristic. Our method shows an improved solution for the detachment problem which still remains an issue at the Go-Explore Exploration Phase. We provide evidence that our proposed method covers the entire state space with respect to all possible time trajectories without causing disadvantageous conflict-overlaps in the cell archive. Analogous to native Go-Explore, our approach is evaluated on the hard exploration environments MontezumaRevenge, Gravitar and Frostbite (Atari) in order to validate its capabilities on difficult tasks. Our experiments show that time-myopic Go-Explore is an effective alternative for the domain-engineered heuristic while also being more general. The source code of the method is available on GitHub. | 翻訳日:2023-01-16 15:02:07 公開日:2023-01-13 |
# Rydberg型ブロッキングを用いたSchr\"{o}dinger cat状態の熱劣化耐性生成 Thermal-dephasing-tolerant generation of Schr\"{o}dinger cat states with Rydberg dressed blockade ( http://arxiv.org/abs/2301.05389v1 ) ライセンス: Link先を確認 | Ri-Hua Zheng, S.-L. Su, Jie Song, Weibin Li, and Yan Xia | (参考訳) 非局所性を含む多粒子交絡状態は、量子力学の最も魅力的な特徴の1つである。
本研究では,Rydberg 原子配列における熱劣化に対する Schr\"{o}dinger cat state の生成を提案する。
大規模な絡み合い(a. omran et al, science 365, 570 (2019))を作る以前の研究とは異なり、ライドバーグ状態よりも服装状態において論理1を符号化する。
このような治療は、以前の研究 (A. Omran et al, Science 365, 570 (2019)) と比較して、マルチパーティの絡み合うコヒーレンスの寿命を3倍に増加させ、従ってシュル・"{o}dinger cat state" の生成の固相性を誘導する。
現在の研究は、大規模量子計算や多体Rydberg量子シミュレーションにおいて意味のある、多体量子絡み合いにおけるRydberg装束状態の利点を理論的に検証している。 Multipartite entangled states involving non-locality are one of the most fascinating characteristics of quantum mechanics. In this work, we propose a generation of Schr\"{o}dinger cat states in Rydberg atom arrays against the thermal dephasing. Unlike the previous work for producing large-scale entanglement [A. Omran et al, Science 365, 570 (2019)], we encode logical 1 on dressed states rather than Rydberg states. Such treatment can increase the lifetime of multipartite entanglement coherence to around 3 times compared to the previous work [A. Omran et al, Science 365, 570 (2019)], at the same system size, and therefore induce solid fidelities of Schr\"{o}dinger cat states generation. The current work theoretically verifies the advantages of Rydberg dressed state in many-body quantum entanglement, which is meaningful for large-scale quantum computation and many-body Rydberg quantum simulation. | 翻訳日:2023-01-16 15:01:29 公開日:2023-01-13 |
# 絡み合い証人と多成分量子状態識別 Entanglement witness and multipartite quantum state discrimination ( http://arxiv.org/abs/2301.05420v1 ) ライセンス: Link先を確認 | Donghoon Ha, Jeong San Kim | (参考訳) マルチパーティの量子状態判別を考察し、分離可能な測定による最小エラー判別が絡み合いの証人の概念と密接に関連していることを示す。
絡み合い証人の特性に基づき, 分離可能な測定により, 最小誤差識別に必要な条件および/又は十分な条件を定めている。
また, 最大成功確率の上限の条件を, あらゆる分離可能な測定値に対して提示する。
この結果は多次元多部量子状態の例によって示される。
最後に、EWの観点から、状態判別における非局所性を示す多部量子状態アンサンブルを構築するための体系的な方法を提供する。 We consider multipartite quantum state discrimination and show that the minimum-error discrimination by separable measurements is closely related to the concept of entanglement witness. Based on the properties of entanglement witness, we establish some necessary and/or sufficient conditions on minimum-error discrimination by separable measurements. We also provide some conditions on the upper bound of the maximum success probability over all possible separable measurements. Our results are illustrated by examples of multidimensional multipartite quantum states. Finally, we provide a systematic way in terms of EW to construct multipartite quantum state ensembles showing nonlocality in state discrimination. | 翻訳日:2023-01-16 15:01:09 公開日:2023-01-13 |
# 量子重力による多ビット絡み合い Multiqubit entanglement due to quantum gravity ( http://arxiv.org/abs/2301.05437v1 ) ライセンス: Link先を確認 | Shaomin Liu, Lin Chen, Mengfan Liang | (参考訳) 質量間の量子重力は、思考実験で絡み合った状態を生み出すことができる。
実験を三部構成に拡張し、確率的局所演算および古典的通信の下で、グリーンベルガー・ホーン・ザイリンガー状態およびW状態に相当する状態を構築する。
絡み合いは重力相互作用によって引き起こされる進化相と関連している。
実験により多くの質量を巻き込むと、同様の方法で多粒子交絡状態を構築することができる。
幾何測度の計算により多成分の絡み合いの程度を測定する。
幾何学的測度と進化相の関係について述べる。
強固な絡み合いで状態を探すのに役立ちます。 Quantum gravity between masses can produce entangled states in thought experiments. We extend the experiments to tripartite case and construct states equivalent to Greenberger- Horne-Zeilinger states and W states under stochastic local operations and classical communication. The entanglement relates to the evolution phases induced by gravitational interaction. When we involve more masses in the experiments, multipartite entangled states can be constructed in a similar way. We measure the degree of multipartite entanglement by calculating the geometric measure. We describe the relationship between geometric measure and the evolution phases. It helps in searching out the states with robust entanglement. | 翻訳日:2023-01-16 15:00:59 公開日:2023-01-13 |
# 2パルススキームにおける固有非巡回幾何ゲート Genuinely noncyclic geometric gates in two-pulse schemes ( http://arxiv.org/abs/2301.05627v1 ) ライセンス: Link先を確認 | Nils Eivarsson, Erik Sj\"oqvist | (参考訳) 幾何学的量子計算のアプローチのほとんどは循環進化における幾何学的位相に基づいているが、非巡回幾何学的ゲートは柔軟性をさらに高めるために提案されている。
これらのゲートは計算基底の動的位相を除去するが、一般に時間発展作用素の固有状態から除去するわけではなく、ゲートの幾何学的性質は曖昧である。
ここでは、真の非環状幾何ゲートのスキームを提案することによって、この曖昧さを解決する。
これらのゲートは、測地線セグメントからなる開路に沿って計算基底を進化させ、同時に時間発展作用素の固有状態によって動的位相が取得されないことを保証する。
1つの量子ビットの各計算基底状態から始まる2つの測地線セグメントの最も単純な非自明な場合のスキームを説明するが、スキームはより精巧な経路、より多くの量子ビット、さらにはクディットにまで簡単に拡張できる。 While most approaches to geometric quantum computation is based on geometric phase in cyclic evolution, noncyclic geometric gates have been proposed to further increase flexibility. While these gates remove the dynamical phase of the computational basis, they do not in general remove it from the eigenstates of the time evolution operator, which makes the geometric nature of the gates ambiguous. Here, we resolve this ambiguity by proposing a scheme for genuinely noncyclic geometric gates. These gates are obtained by evolving the computational basis along open paths consisting geodesic segments, and simultaneously assuring that no dynamical phase is acquired by the eigenstates of the time evolution operator. While we illustrate the scheme for the simplest nontrivial case of two geodesic segments starting at each computational basis state of a single qubit, the scheme can be straightforwardly extended to more elaborate paths, more qubits, or even qudits. | 翻訳日:2023-01-16 15:00:52 公開日:2023-01-13 |
# 共振駆動量子ドット3レベル系からのエネルギー時間絡み合い Energy-time entanglement from a resonantly driven quantum dot three-level system ( http://arxiv.org/abs/2301.05697v1 ) ライセンス: Link先を確認 | M. Hohn, K. Barkemeyer, M. von Helversen, L. Bremer, M. Gschrey, J.-H. Schulze, A. Strittmatter, A. Carmele, S. Rodt, S. Bounouar, S. Reitzenstein | (参考訳) エンタングルメントは、広範囲にわたる情報の安全な交換を可能にする高度な量子技術における主要な資源である。
エネルギー時間絡み合いは、ファイバベースの量子通信において有利なロバスト性のために特に魅力的であり、フランソン干渉計で実証できる。
連続波励起下での共振駆動型バイエクシトンカスケードからのフランソン型干渉について報告する。
我々の測定では、ベルの不等式(70.7%)を1つ以上の標準偏差で破る限界を超える最大視認率(73$\pm$ 2)%)が得られる。
抜け穴自由違反を満足できないにもかかわらず,本研究は,このようなシステムにおける今後の作業に関する有望な結果を示す。
さらに, 運転強度の影響に関する体系的な研究から, 脱落機構やカスケードエミッションからの逸脱が測定エネルギー時間絡み合いの程度に大きな影響を与えることが示唆された。 Entanglement is a major resource in advanced quantum technology, where it can enable secure exchange of information over large distances. Energy-time entanglement is particularly attractive for its beneficial robustness in fiber-based quantum communication and can be demonstrated in the Franson interferometer. We report on Franson-type interference from a resonantly driven biexciton cascade under continuous wave excitation. Our measurements yield a maximum visibility of (73 $\pm$ 2)% surpassing the limit of violation of Bell's inequality (70.7%) by more than one standard deviation. Despite being unable to satisfy a loophole free violation, our work demonstrates promising results concerning future works on such a system. Furthermore, our systematical studies on the impact of driving strength indicate that dephasing mechanisms and deviations from the cascaded emission have major impact on the degree of the measured energy-time entanglement. | 翻訳日:2023-01-16 15:00:36 公開日:2023-01-13 |
# CLIP the Gap: オブジェクト検出のための単一ドメイン一般化アプローチ CLIP the Gap: A Single Domain Generalization Approach for Object Detection ( http://arxiv.org/abs/2301.05499v1 ) ライセンス: Link先を確認 | Vidit Vidit, Martin Engilberge, Mathieu Salzmann | (参考訳) 単一ドメイン一般化(SDG)は、単一のソースドメイン上でモデルをトレーニングし、目に見えないターゲットドメインに一般化する問題に取り組む。
これは画像分類によく研究されているが、sdg物体検出に関する文献はほとんど存在しない。
頑健なオブジェクトのローカライゼーションと表現を同時に学習する課題に対処するために,事前学習された視覚言語モデルを用いてテキストプロンプトを通じて意味ドメインの概念を導入することを提案する。
我々は,検出バックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によってこれを達成した。
本実験は,既存のSDGオブジェクト検出手法であるSingle-DGOD [49]を,気象予報ベンチマークで10%向上したアプローチの利点を実証した。 Single Domain Generalization (SDG) tackles the problem of training a model on a single source domain so that it generalizes to any unseen target domain. While this has been well studied for image classification, the literature on SDG object detection remains almost non-existent. To address the challenges of simultaneously learning robust object localization and representation, we propose to leverage a pre-trained vision-language model to introduce semantic domain concepts via textual prompts. We achieve this via a semantic augmentation strategy acting on the features extracted by the detector backbone, as well as a text-based classification loss. Our experiments evidence the benefits of our approach, outperforming by 10% the only existing SDG object detection method, Single-DGOD [49], on their own diverse weather-driving benchmark. | 翻訳日:2023-01-16 14:55:04 公開日:2023-01-13 |
# RCPS:半監督型医用画像分割のためのコントラスト疑似擬似スーパービジョン RCPS: Rectified Contrastive Pseudo Supervision for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2301.05500v1 ) ライセンス: Link先を確認 | Xiangyu Zhao, Zengxin Qi, Sheng Wang, Qian Wang, Xuehai Wu, Ying Mao, Lichi Zhang | (参考訳) 医用画像のセグメンテーション法は一般的に、モデルの性能を保証するために完全に教師されるように設計されている。
半教師付き画像セグメンテーションは、ラベル付き画像に制限のある多数のラベル付き画像を利用することで問題を緩和することができる。
しかし、擬似ラベルの潜在的なノイズや特徴空間のクラス分離性に乏しいため、多くのラベルのない画像から頑健な表現を学ぶことは、現在の半教師付きセグメンテーション手法の性能を損なう。
上記の課題に対処するために,正当性疑似監督とボクセルレベルのコントラスト学習を併用し,半教師付きセグメンテーションの有効性を向上させる,RCPS(Rectified Contrastive Pseudo Supervision)と呼ばれる新しい半教師付きセグメンテーション手法を提案する。
特に,疑似ラベルにおける雑音の影響を低減すべく,不確実性推定と一貫性正規化に基づく擬似監督法の新たな整流戦略を考案する。
さらに,ネットワークへの双方向ボクセルのコントラスト損失を導入し,セグメンテーションのクラス分離性を高める特徴空間におけるクラス内一貫性とクラス間コントラストを確保する。
RCPSセグメンテーション法は2つの公開データセットと社内臨床データセットで検証されている。
実験結果から, 半教師付き医用画像分割における最先端手法と比較して, 高いセグメンテーション性能が得られた。
ソースコードはhttps://github.com/hsiangyuzhao/rcpsで入手できる。 Medical image segmentation methods are generally designed as fully-supervised to guarantee model performance, which require a significant amount of expert annotated samples that are high-cost and laborious. Semi-supervised image segmentation can alleviate the problem by utilizing a large number of unlabeled images along with limited labeled images. However, learning a robust representation from numerous unlabeled images remains challenging due to potential noise in pseudo labels and insufficient class separability in feature space, which undermines the performance of current semi-supervised segmentation approaches. To address the issues above, we propose a novel semi-supervised segmentation method named as Rectified Contrastive Pseudo Supervision (RCPS), which combines a rectified pseudo supervision and voxel-level contrastive learning to improve the effectiveness of semi-supervised segmentation. Particularly, we design a novel rectification strategy for the pseudo supervision method based on uncertainty estimation and consistency regularization to reduce the noise influence in pseudo labels. Furthermore, we introduce a bidirectional voxel contrastive loss to the network to ensure intra-class consistency and inter-class contrast in feature space, which increases class separability in the segmentation. The proposed RCPS segmentation method has been validated on two public datasets and an in-house clinical dataset. Experimental results reveal that the proposed method yields better segmentation performance compared with the state-of-the-art methods in semi-supervised medical image segmentation. The source code is available at https://github.com/hsiangyuzhao/RCPS. | 翻訳日:2023-01-16 14:54:49 公開日:2023-01-13 |
# クロスドメインリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己学習ガイド付きアンタングル適応 Self-Training Guided Disentangled Adaptation for Cross-Domain Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2301.05526v1 ) ライセンス: Link先を確認 | Qi Zhao, Shuchang Lyu, Binghao Liu, Lijiang Chen, Hongbo Zhao | (参考訳) 深部畳み込みニューラルネットワーク(DCNN)に基づくリモートセンシング(RS)画像セマンティックセグメンテーション技術は、地理的要素解析などの現実世界の多くの応用で大きな成功を収めている。
しかし、特定のシーンの注釈付きデータへの強い依存は、DCNNが異なるRSシーンに適合することを難しくする。
この問題を解決するため、近年では、クロスドメインrs画像セマンティクスセグメンテーションタスクに徐々に焦点が当てられている。
この課題では, 地中サンプリング距離, リモートセンシングセンサの変動, 地形の異なる3つの要因が, ソース画像とターゲット画像の間で劇的な領域シフトを引き起こしている。
ドメインシフトの負の影響を低減するために,自己学習型不等角化適応ネットワーク(st-dasegnet)を提案する。
まず,ソースとターゲットの両方のイメージに対して,ソーススタイルとターゲットスタイルの特徴をそれぞれ抽出するために,ソース学生のバックボーンとターゲット学生のバックボーンを提案する。
各バックボーンの中間出力特徴マップに向けて,アライメントに逆学習を採用する。
そこで本研究では, 共通特徴を抽出し, ソーススタイルとターゲットスタイルの特徴を識別するドメイン・アンタングル・モジュールを提案する。
最後に、これら2つの機能は融合され、ソース学生デコーダとターゲット学生デコーダの入力として機能し、最終的な予測を生成する。
提案するドメイン異方性モジュールに基づいて,さらに指数的移動平均(ema)に基づくクロスドメイン分離自己学習機構を提案し,逆最適化時の不安定性と不利な効果を緩和する。
ベンチマークRSデータセットの大規模な実験と分析により、ST-DASegNetはクロスドメインRS画像セマンティックセグメンテーションタスクにおいて従来の手法よりも優れており、最先端(SOTA)の結果が得られた。
私たちのコードはhttps://github.com/cv516Buaa/ST-DASegNetで利用可能です。 Deep convolutional neural networks (DCNNs) based remote sensing (RS) image semantic segmentation technology has achieved great success used in many real-world applications such as geographic element analysis. However, strong dependency on annotated data of specific scene makes it hard for DCNNs to fit different RS scenes. To solve this problem, recent works gradually focus on cross-domain RS image semantic segmentation task. In this task, different ground sampling distance, remote sensing sensor variation and different geographical landscapes are three main factors causing dramatic domain shift between source and target images. To decrease the negative influence of domain shift, we propose a self-training guided disentangled adaptation network (ST-DASegNet). We first propose source student backbone and target student backbone to respectively extract the source-style and target-style feature for both source and target images. Towards the intermediate output feature maps of each backbone, we adopt adversarial learning for alignment. Then, we propose a domain disentangled module to extract the universal feature and purify the distinct feature of source-style and target-style features. Finally, these two features are fused and served as input of source student decoder and target student decoder to generate final predictions. Based on our proposed domain disentangled module, we further propose exponential moving average (EMA) based cross-domain separated self-training mechanism to ease the instability and disadvantageous effect during adversarial optimization. Extensive experiments and analysis on benchmark RS datasets show that ST-DASegNet outperforms previous methods on cross-domain RS image semantic segmentation task and achieves state-of-the-art (SOTA) results. Our code is available at https://github.com/cv516Buaa/ST-DASegNet. | 翻訳日:2023-01-16 14:54:11 公開日:2023-01-13 |
# 畳み込みニューラルネットワークを用いたイネ病検出のためのプロトタイプアプリケーションの開発 Development of a Prototype Application for Rice Disease Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2301.05528v1 ) ライセンス: Link先を確認 | Harold Costales, Arpee Callejo-Arruejo, Noel Rafanan | (参考訳) 米は、フィリピンの何千もの家庭で主要な生活地となっているため、国内第1位の主食である。
しかし、その伝統が続くにつれて、農家は稲作全体を損なう可能性のある様々な種類の稲葉病に慣れていない。
イネの一般的な細菌の葉に対処する必要性は深刻な病気であり、収量が減少し、収穫量も最大75%減少する。
本稿では,画像解析に用いるアルゴリズムを用いたイネ葉病検出モバイルアプリケーションプロトタイプの設計と開発について述べる。
研究者らはまた、huy minh氏のライス病画像データセットをhttps://www.kaggle.com/で公開し、転送学習を使用して最先端の畳み込みニューラルネットワークをトレーニングした。
さらに,画像サンプル数の増加やニューラルネットワークの精度向上にも画像強調を用いた。 Rice is the number one staple food in the country, as this serves as the primary livelihood for thousands of Filipino households. However, as the tradition continues, farmers are not familiar with the different types of rice leaf diseases that might compromise the entire rice crop. The need to address the common bacterial leaf blight in rice is a serious disease that can lead to reduced yields and even crop loss of up to 75%. This paper is a design and development of a rice leaf disease detection mobile application prototype using an algorithm used for image analysis. The researchers also used the Rice Disease Image Dataset by Huy Minh Do available at https://www.kaggle.com/ to train state-of-the-art convolutional neural networks using transfer learning. Moreover, we used image augmentation to increase the number of image samples and the accuracy of the neural networks as well | 翻訳日:2023-01-16 14:53:38 公開日:2023-01-13 |
# DINF:Occluded Pedestrian Detectionのための動的インスタンスノイズフィルタ DINF: Dynamic Instance Noise Filter for Occluded Pedestrian Detection ( http://arxiv.org/abs/2301.05565v1 ) ライセンス: Link先を確認 | Li Xiang, He Miao, Luo Haibo, Xiao Jiajie | (参考訳) 閉塞問題は歩行者検出における最大の課題である。
rcnnベースの検出器は、特徴マップに興味のある長方形領域を切り刻んでインスタンスの特徴を抽出する。
しかし、オクルードされたオブジェクトの可視画素は限られており、矩形インスタンスには多くのインスタンス関係のノイズ情報が混ざっている。
また,クラウドヒューマンデータセットの重複度が異なるインスタンス数を数えることで,重なり合うオブジェクト数と若干重なり合うオブジェクト数がバランスが取れないことがわかり,閉塞問題による課題を悪化させる可能性がある。
ノイズ問題に関しては,雑音特性の信号・雑音比を改善するため,rcnnを用いた歩行者検出装置において,雑音除去の観点からイテレーブル動的インスタンスノイズフィルタ(dinf)を提案する。
ウェーブレット除算プロセスをシミュレートし、インスタンス特徴ベクトルを用いて動的畳み込みカーネルを生成し、rois特徴をノイズ情報を表すゼロに近い値の領域に変換する。
次に、チャネルワイド適応閾値のソフトしきい値を適用して、近ゼロ値をゼロに変換し、ノイズ情報をフィルタリングする。
不均衡問題として、トレーニングプロセスにおける損失に対して、よく回帰したボックスと悪い回帰したボックスの貢献を調節するIoU-Focal Factor(IFF)を提案する。
CrowdHumanとCityPersonsで実施された大規模な実験は、我々の手法がRCNNベースの歩行者検知器の最先端の性能向上に役立つことを示した。 Occlusion issue is the biggest challenge in pedestrian detection. RCNN-based detectors extract instance features by cropping rectangle regions of interest in the feature maps. However, the visible pixels of the occluded objects are limited, making the rectangle instance feature mixed with a lot of instance-irrelevant noise information. Besides, by counting the number of instances with different degrees of overlap of CrowdHuman dataset, we find that the number of severely overlapping objects and the number of slightly overlapping objects are unbalanced, which may exacerbate the challenges posed by occlusion issues. Regarding to the noise issue, from the perspective of denoising, an iterable dynamic instance noise filter (DINF) is proposed for the RCNN-based pedestrian detectors to improve the signal-noise ratio of the instance feature. Simulating the wavelet denoising process, we use the instance feature vector to generate dynamic convolutional kernels to transform the RoIs features to a domain in which the near-zero values represent the noise information. Then, soft thresholding with channel-wise adaptive thresholds is applied to convert the near-zero values to zero to filter out noise information. For the imbalance issue, we propose an IoU-Focal factor (IFF) to modulate the contributions of the well-regressed boxes and the bad-regressed boxes to the loss in the training process, paying more attention to the minority severely overlapping objects. Extensive experiments conducted on CrowdHuman and CityPersons demonstrate that our methods can help RCNN-based pedestrian detectors achieve state-of-the-art performance. | 翻訳日:2023-01-16 14:53:24 公開日:2023-01-13 |
# YOLOv6 v3.0: フルスケールのリロード YOLOv6 v3.0: A Full-Scale Reloading ( http://arxiv.org/abs/2301.05586v1 ) ライセンス: Link先を確認 | Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu | (参考訳) YOLOコミュニティは、最初の2回のリリース以来、非常に精力的です!
ウサギの年をたどる2023年の中国の新年が到来すると、ネットワークアーキテクチャとトレーニングスキームに多くの新しい改良を加え、yolov6を改修しました。
このリリースは YOLOv6 v3.0 と同一視されている。
パフォーマンスを垣間見るために、当社のYOLOv6-Nは、NVIDIA Tesla T4 GPUでテストされた1187 FPSのスループットで、COCOデータセットで37.5%APに達した。
YOLOv6-Sは484 FPSで45.0%APを攻撃し、他の主流検出器(YOLOv5-S、YOLOv8-S、YOLOX-S、PPYOLOE-S)より高速である。
一方、YOLOv6-M/Lは同様の推論速度で他の検出器よりも精度(それぞれ50.0%/52.8%)が高い。
さらに、バックボーンとネックデザインの拡張により、我々のYOLOv6-L6はリアルタイムに最先端の精度を実現する。
各改善成分の有効性を検証するため、広範囲な実験を慎重に実施する。
私たちのコードはhttps://github.com/meituan/yolov6.comで利用可能です。 The YOLO community has been in high spirits since our first two releases! By the advent of Chinese New Year 2023, which sees the Year of the Rabbit, we refurnish YOLOv6 with numerous novel enhancements on the network architecture and the training scheme. This release is identified as YOLOv6 v3.0. For a glimpse of performance, our YOLOv6-N hits 37.5% AP on the COCO dataset at a throughput of 1187 FPS tested with an NVIDIA Tesla T4 GPU. YOLOv6-S strikes 45.0% AP at 484 FPS, outperforming other mainstream detectors at the same scale (YOLOv5-S, YOLOv8-S, YOLOX-S and PPYOLOE-S). Whereas, YOLOv6-M/L also achieve better accuracy performance (50.0%/52.8% respectively) than other detectors at a similar inference speed. Additionally, with an extended backbone and neck design, our YOLOv6-L6 achieves the state-of-the-art accuracy in real-time. Extensive experiments are carefully conducted to validate the effectiveness of each improving component. Our code is made available at https://github.com/meituan/YOLOv6. | 翻訳日:2023-01-16 14:52:55 公開日:2023-01-13 |
# 幾何学的形態計測を変換格子の方法論に再構築する Reworking geometric morphometrics into a methodology of transformation grids ( http://arxiv.org/abs/2301.05623v1 ) ライセンス: Link先を確認 | Fred L. Bookstein | (参考訳) 今日、生物解剖学の定量的比較に対する幾何学的形態計測の典型的な応用は、位置、向き、スケールについて均質にラベル付けされた点配置のサンプルを標準化することから始まり、その後、群平均、主成分、回帰予測、または標準変量に適用される薄板のスプラインでグラフィカルに比較を図示する。
スケール標準化の段階は最近、少なくとも成長研究では不適切であると批判されている。
このエッセイは、中心と回転の同様の再考、そして1917年のダルシー・トンプソンの展覧会以来の真の主題として強調された「変換格子」を、表示されたグリッド全体の解釈を単純化するために、個々のランドマークに説明のつかない残差を残す異なる戦略によって、結果として得られる構成の薄いスプライン補間を置き換えることについて論じている。
大規模な幾何スケールでの勾配に関する比較を解析するために、この論文は1986年の2点登録版(元々は1907年のフランシス・ガルトン)でプロクリストス規則を置き換えた。
2つの点の選択は、補間された薄板スプラインではなく、適合した多項式の傾向に従って変形する座標系の格子線の解釈可能性という他の非プロクリスト的懸念と相互作用する。
本論文は, これまでに公表された頭蓋骨データを用いて2つの例を考察し, 両者の解釈に関連のある新たな知見を得た。
結論として、プロクラステス形状座標と薄板のスプラインを中心にした幾何学的形態幾何学の現在のツールキットは、進化生物学や発達生物学の解釈的な目的の多くに適合しすぎていることが示唆されている。 Today's typical application of geometric morphometrics to a quantitative comparison of organismal anatomies begins by standardizing samples of homologously labelled point configurations for location, orientation, and scale, and then renders the ensuing comparisons graphically by thin-plate spline as applied to group averages, principal components, regression predictions, or canonical variates. The scale-standardization step has recently come under criticism as inappropriate, at least for growth studies. This essay argues for a similar rethinking of the centering and rotation, and then the replacement of the thin-plate spline interpolant of the resulting configurations by a different strategy that leaves unexplained residuals at every landmark individually in order to simplify the interpretation of the displayed grid as a whole, the "transformation grid" that has been highlighted as the true underlying topic ever since D'Arcy Thompson's exposition of 1917. For analyses of comparisons involving gradients at large geometric scale, this paper argues for replacement of all the Procrustes conventions by a version of my two-point registration of 1986 (originally Francis Galton's of 1907). The choice of the two points interacts with another non-Procrustes concern, interpretability of the grid lines of a coordinate system deformed according to a fitted polynomial trend rather than an interpolating thin-plate spline. The paper works two examples using previously published cranial data; there result new findings pertinent to the interpretation of both of these classic data sets. A concluding discussion suggests that the current toolkit of geometric morphometrics, centered on Procrustes shape coordinates and thin-plate splines, is too restricted to suit many of the interpretive purposes of evolutionary and developmental biology. | 翻訳日:2023-01-16 14:52:35 公開日:2023-01-13 |
# 平面型正規化による室内パノラマ塗布 Layout-guided Indoor Panorama Inpainting with Plane-aware Normalization ( http://arxiv.org/abs/2301.05624v1 ) ライセンス: Link先を確認 | Chao-Chen Gao, Cheng-Hsiu Chen, Jheng-Wei Su, Hung-Kuo Chu | (参考訳) 室内パノラマ画像インペイントのためのエンドツーエンドディープラーニングフレームワークを提案する。
従来のインペインティング手法は自然な視点画像では印象的な性能を示したが、パノラマ画像、特に室内シーンは複雑な構造とテクスチャを含むことが多い。
そこで本研究では,室内パノラマの塗布過程における世界的・地域的文脈を生かして,塗装品質を向上させることを提案する。
具体的には,入力パノラマから推定される低レベルのレイアウトエッジを予め考慮し,グローバルな室内構造を復元するためのインペインティングモデルをガイドする。
平面対応正規化モジュールを用いて、レイアウトから派生した平面的スタイルの特徴をジェネレータに埋め込み、隣接する部屋構造(天井、床、壁など)から局所的なテクスチャ復元を促進する。
実験の結果, 定性評価と定量的評価の両面において, 公開パノラマデータセットにおける現状の手法よりも優れた結果が得られた。
私たちのコードはhttps://ericsujw.github.io/LGPN-net/で利用可能です。 We present an end-to-end deep learning framework for indoor panoramic image inpainting. Although previous inpainting methods have shown impressive performance on natural perspective images, most fail to handle panoramic images, particularly indoor scenes, which usually contain complex structure and texture content. To achieve better inpainting quality, we propose to exploit both the global and local context of indoor panorama during the inpainting process. Specifically, we take the low-level layout edges estimated from the input panorama as a prior to guide the inpainting model for recovering the global indoor structure. A plane-aware normalization module is employed to embed plane-wise style features derived from the layout into the generator, encouraging local texture restoration from adjacent room structures (i.e., ceiling, floor, and walls). Experimental results show that our work outperforms the current state-of-the-art methods on a public panoramic dataset in both qualitative and quantitative evaluations. Our code is available at https://ericsujw.github.io/LGPN-net/ | 翻訳日:2023-01-16 14:52:02 公開日:2023-01-13 |
# World Languages and Adapter Fusion を用いたチェックウェアクレームの多言語検出 Multilingual Detection of Check-Worthy Claims using World Languages and Adapter Fusion ( http://arxiv.org/abs/2301.05494v1 ) ライセンス: Link先を確認 | Ipek Baris Schlicht, Lucie Flek, Paolo Rosso | (参考訳) チェック値検出(check-worthiness detection)は、クレームを識別するタスクである。
非世界の言語に対する資源不足とモデル学習コストは、多言語チェックの安全性検出をサポートするモデルを作成する上で大きな課題である。
本稿では,複数の言語でグローバルに出現するクレームを検出するために,アダプティブ融合と組み合わせた世界言語サブセットのクロストレーニングアダプタを提案する。
1)世界言語やストレージ効率のよいアダプタモデルに膨大なアノテータが利用できるため,このアプローチの方がコスト効率が高い。
モデルはより頻繁に更新され、最新の状態を保つことができる。
2) adapter fusionは、特定の言語に対する各アダプタモデルの影響についての洞察と解釈を提供する。
提案手法はベンチマークタスクで上位の多言語アプローチをしばしば上回っていた。 Check-worthiness detection is the task of identifying claims, worthy to be investigated by fact-checkers. Resource scarcity for non-world languages and model learning costs remain major challenges for the creation of models supporting multilingual check-worthiness detection. This paper proposes cross-training adapters on a subset of world languages, combined by adapter fusion, to detect claims emerging globally in multiple languages. (1) With a vast number of annotators available for world languages and the storage-efficient adapter models, this approach is more cost efficient. Models can be updated more frequently and thus stay up-to-date. (2) Adapter fusion provides insights and allows for interpretation regarding the influence of each adapter model on a particular language. The proposed solution often outperformed the top multilingual approaches in our benchmark tasks. | 翻訳日:2023-01-16 14:51:44 公開日:2023-01-13 |
# 出版社のプロフィールを使ってニュース記事の障壁を予測する Using the profile of publishers to predict barriers across news articles ( http://arxiv.org/abs/2301.05535v1 ) ライセンス: Link先を確認 | Abdul Sittar, Dunja Mladenic | (参考訳) 経済的、文化的、政治的、時間帯的、地理的なニュース伝搬障壁の検出は、まだオープンな研究課題である。
本稿では,wikipedia概念と各障壁に関連するメタデータを活用し,ニュース拡散における障壁検出手法を提案する。
この問題を解決することは、イベントのカバレッジに関する情報を伝えるだけでなく、イベントが特定の障壁を越えていたかどうかを示すこともできる。
IPoNewsデータセット(ニュースに広がる情報のためのデータセット)の実験結果から、単純な分類モデルによって障壁を高精度に検出できることが判明した。
当社のアプローチは,情報拡散障壁を予測するシステムの開発を今後進める上で,有用な洞察を提供するのに役立つと信じている。 Detection of news propagation barriers, being economical, cultural, political, time zonal, or geographical, is still an open research issue. We present an approach to barrier detection in news spreading by utilizing Wikipedia-concepts and metadata associated with each barrier. Solving this problem can not only convey the information about the coverage of an event but it can also show whether an event has been able to cross a specific barrier or not. Experimental results on IPoNews dataset (dataset for information spreading over the news) reveals that simple classification models are able to detect barriers with high accuracy. We believe that our approach can serve to provide useful insights which pave the way for the future development of a system for predicting information spreading barriers over the news. | 翻訳日:2023-01-16 14:46:35 公開日:2023-01-13 |
# 目標認識のための計画ベース手法とデータ駆動手法の組み合わせの検討 Investigating the Combination of Planning-Based and Data-Driven Methods for Goal Recognition ( http://arxiv.org/abs/2301.05608v1 ) ライセンス: Link先を確認 | Nils Wilken, Lea Cohausz, Johannes Schaum, Stefan L\"udtke and Heiner Stuckenschmidt | (参考訳) 広く普及しているインテリジェントアシスタンスシステムの重要な特徴は、ユーザの現在のニーズに動的に適応できる機能である。
したがって、このようなシステムでは、ユーザの行動や環境の状態の観察に基づいて、これらの目標やニーズを認識できることが重要です。
本研究では,実環境における2つの最先端計画認識手法の適用について検討する。
これまでのところ、これらのアプローチは、完全に合理的に作用するエージェントと組み合わせて、人工的な設定でのみ評価されていた。
このようなアプローチは、人間の行動が完全に合理的ではないため、人間の目標を認識する上では困難であることを示す。
この課題を克服するために,観察した行動データに基づいて学習した分類に基づく手法による既存手法の拡張を提案する。
提案手法は, 純粋に計画ベース, 純粋にデータ駆動型目標認識法に勝るだけでなく, 特に少数の観測結果が見られた場合にも, 適切な目標をより確実に認識できることを実証的に示す。
これにより、知的援助システムに対するハイブリッド目標認識アプローチの有用性が大幅に向上する。 An important feature of pervasive, intelligent assistance systems is the ability to dynamically adapt to the current needs of their users. Hence, it is critical for such systems to be able to recognize those goals and needs based on observations of the user's actions and state of the environment. In this work, we investigate the application of two state-of-the-art, planning-based plan recognition approaches in a real-world setting. So far, these approaches were only evaluated in artificial settings in combination with agents that act perfectly rational. We show that such approaches have difficulties when used to recognize the goals of human subjects, because human behaviour is typically not perfectly rational. To overcome this issue, we propose an extension to the existing approaches through a classification-based method trained on observed behaviour data. We empirically show that the proposed extension not only outperforms the purely planning-based- and purely data-driven goal recognition methods but is also able to recognize the correct goal more reliably, especially when only a small number of observations were seen. This substantially improves the usefulness of hybrid goal recognition approaches for intelligent assistance systems, as recognizing a goal early opens much more possibilities for supportive reactions of the system. | 翻訳日:2023-01-16 14:46:23 公開日:2023-01-13 |
# リレーショナルエンハンスドトランスを用いたテキストからポイントクラウドへのローカライズ Text to Point Cloud Localization with Relation-Enhanced Transformer ( http://arxiv.org/abs/2301.05372v1 ) ライセンス: Link先を確認 | Guangzhi Wang, Hehe Fan, Mohan Kankanhalli | (参考訳) いくつかの自然言語命令に基づいて位置を自動的に位置決めすることは、将来のロボットが人間とコミュニケーションし協力する上で不可欠である。
この目標に近づくために,我々はテキスト対ポイント・クラウドのクロスモーダルローカライズ問題に焦点を当てる。
テキストによる問い合わせによって、都市スケールのクラウドから記述された場所を特定することを目的としている。
課題は2つある。
1) 都市規模の点雲では, 同様の環境インスタンスが複数の場所に存在しうる。
ガイダンスとしてインスタンスのみを持つ巨大なポイントクラウド内の各ロケーションを検索すると、識別シグナルが減り、誤った結果が出る可能性がある。
2) テキスト記述では,ヒントは別々に提供される。
この場合、これらのヒント間の関係は明示的に記述されておらず、学習関係が困難になる。
これら2つの課題を克服するため,我々は,ポイントクラウドと自然言語問合せの表現識別性を改善するために,ret(unified relation-enhanced transformer)を提案する。
提案するretのコアは,2つのモダリティのインスタンス(hint)を明示的にエンコードする,rsa(relation-enhanced self-attention)機構である。
さらに,後続のインスタンス-ヒントマッチング段階における位置予測をさらに洗練するために,粒度の細かいクロスモーダルマッチング手法を提案する。
KITTI360Poseデータセットの実験結果から,提案手法が従来の最先端手法をはるかに上回ることを示す。 Automatically localizing a position based on a few natural language instructions is essential for future robots to communicate and collaborate with humans. To approach this goal, we focus on the text-to-point-cloud cross-modal localization problem. Given a textual query, it aims to identify the described location from city-scale point clouds. The task involves two challenges. 1) In city-scale point clouds, similar ambient instances may exist in several locations. Searching each location in a huge point cloud with only instances as guidance may lead to less discriminative signals and incorrect results. 2) In textual descriptions, the hints are provided separately. In this case, the relations among those hints are not explicitly described, leading to difficulties of learning relations. To overcome these two challenges, we propose a unified Relation-Enhanced Transformer (RET) to improve representation discriminability for both point cloud and natural language queries. The core of the proposed RET is a novel Relation-enhanced Self-Attention (RSA) mechanism, which explicitly encodes instance (hint)-wise relations for the two modalities. Moreover, we propose a fine-grained cross-modal matching method to further refine the location predictions in a subsequent instance-hint matching stage. Experimental results on the KITTI360Pose dataset demonstrate that our approach surpasses the previous state-of-the-art method by large margin. | 翻訳日:2023-01-16 14:44:55 公開日:2023-01-13 |
# 将来のビデオフレーム予測のためのピラミッド予測ネットワークの解析と改善 Analyzing and Improving the Pyramidal Predictive Network for Future Video Frame Prediction ( http://arxiv.org/abs/2301.05421v1 ) ライセンス: Link先を確認 | Chaofan Ling, Weihua Li, Junpei Zhong | (参考訳) ピラミッド型予測ネットワーク (ppnv1) は, 興味深い時間的ピラミッドアーキテクチャを提案し, 将来の映像フレーム予測の課題に有望な結果をもたらす。
我々は,その信号伝達と特徴的アーティファクトを公開・分析し,それに対応するモデルアーキテクチャとトレーニング戦略の改善を提案する。
PPNV1は理論的には人間の脳の働きを模倣するが、その不注意な信号処理はネットワーク内のエイリアスを引き起こす。
私たちは問題を解決するためにネットワークアーキテクチャを再設計します。
新しいアーキテクチャは、不合理な情報拡散の改善に加えて、ニューラルネットワークのエイリアス化の解決も目指している。
異なる入力はもはや単に連結ではなく、ダウンサンプリングとアップサンプリングコンポーネントも再設計され、ネットワークが低周波入力のよりフーリエな特徴から画像を簡単に構築できるようになった。
最後に、トレーニングおよびテスト中の入力不整合の問題を軽減するため、トレーニング戦略をさらに改善する。
全体として、改良されたモデルはより解釈可能で、強く、予測の質が良い。
コードはhttps://github.com/Ling-CF/PPNV2.comで入手できる。 The pyramidal predictive network (PPNV1) proposes an interesting temporal pyramid architecture and yields promising results on the task of future video-frame prediction. We expose and analyze its signal dissemination and characteristic artifacts, and propose corresponding improvements in model architecture and training strategies to address them. Although the PPNV1 theoretically mimics the workings of human brain, its careless signal processing leads to aliasing in the network. We redesign the network architecture to solve the problems. In addition to improving the unreasonable information dissemination, the new architecture also aims to solve the aliasing in neural networks. Different inputs are no longer simply concatenated, and the downsampling and upsampling components have also been redesigned to ensure that the network can more easily construct images from Fourier features of low-frequency inputs. Finally, we further improve the training strategies, to alleviate the problem of input inconsistency during training and testing. Overall, the improved model is more interpretable, stronger, and the quality of its predictions is better. Code is available at https://github.com/Ling-CF/PPNV2. | 翻訳日:2023-01-16 14:44:31 公開日:2023-01-13 |
# シングルカメラヒューマン3Dキネマティクスを目指して Towards Single Camera Human 3D-Kinematics ( http://arxiv.org/abs/2301.05435v1 ) ライセンス: Link先を確認 | Marian Bittner, Wei-Tse Yang, Xucong Zhang, Ajay Seth, Jan van Gemert and Frans C. T. van der Helm | (参考訳) 3dキネマティクスのマーカーレス推定は、高価なモーションキャプチャラボへの紹介なしに、運動障害を臨床的に診断し監視する大きな可能性を持っているが、ビデオから人のキネマティクスを推定するために複数の非結合ステップを行うことで、現在のアプローチは制限されている。
現在の手法のほとんどは、まず身体の姿勢を検出し、その後、正確な運動学的推定のためのデータに筋骨格モデルを適用することで、多段階のアプローチで機能する。
ポーズ検出アルゴリズムのトレーニングデータの誤り、モデルスケーリング、および複数のカメラの要件は、臨床現場でのこれらのテクニックの使用を制限する。
我々のゴールは、素早く、容易に適用でき、正確な3Dキネマティック・アセスメントの道を開くことである。
そこで本研究では,深層ニューラルネットワークを用いたビデオから直接3次元人体推定D3KEを提案する。
実験により,提案するエンドツーエンドトレーニングは頑健であり,関節角度誤差(5.44度から3.54度)の点で2次元および3次元マーカーレスモーションキャプチャに基づく運動量推定パイプラインを上回った。
d3keはマルチステップ方式よりも優れており,ビデオフレームレートで動作可能である。
この技術は将来モバイルデバイスからの臨床分析の可能性を示している。 Markerless estimation of 3D Kinematics has the great potential to clinically diagnose and monitor movement disorders without referrals to expensive motion capture labs; however, current approaches are limited by performing multiple de-coupled steps to estimate the kinematics of a person from videos. Most current techniques work in a multi-step approach by first detecting the pose of the body and then fitting a musculoskeletal model to the data for accurate kinematic estimation. Errors in training data of the pose detection algorithms, model scaling, as well the requirement of multiple cameras limit the use of these techniques in a clinical setting. Our goal is to pave the way toward fast, easily applicable and accurate 3D kinematic estimation \xdeleted{in a clinical setting}. To this end, we propose a novel approach for direct 3D human kinematic estimation D3KE from videos using deep neural networks. Our experiments demonstrate that the proposed end-to-end training is robust and outperforms 2D and 3D markerless motion capture based kinematic estimation pipelines in terms of joint angles error by a large margin (35\% from 5.44 to 3.54 degrees). We show that D3KE is superior to the multi-step approach and can run at video framerate speeds. This technology shows the potential for clinical analysis from mobile devices in the future. | 翻訳日:2023-01-16 14:43:51 公開日:2023-01-13 |
# 学習可能な不均一畳み込み:トポロジーと強度の両方を学ぶ Learnable Heterogeneous Convolution: Learning both topology and strength ( http://arxiv.org/abs/2301.05440v1 ) ライセンス: Link先を確認 | Rongzhen Zhao, Zhenzhi Wu, Qikun Zhang | (参考訳) 既存のニューラルネットワークの畳み込み技術は計算の複雑さが大きく、生物学的ニューラルネットワークはより強力で効率的な方法で機能する。
樹枝状トポロジーの生物学的塑性とシナプス強度から着想を得た本手法は,既存の手作り畳み込み技術をデータ駆動方式で統一したカーネル形状と重みの連成学習を実現する。
本手法に基づくモデルは, 構造的スパース重みで収束し, 高並列性デバイスによって加速される。
実験では,VGG16/19 と ResNet34/50 の計算を CIFAR10 と 2x で約5倍削減し,それぞれ 10x と 4x の重みを圧縮した場合に性能を低下させるか,CIFAR10 で最大1.0%,ImageNet で 0.5% の精度向上を図った。
コードはwww.github.com/Genera1Z/LearnableHeterogeneousConvolutionで入手できる。 Existing convolution techniques in artificial neural networks suffer from huge computation complexity, while the biological neural network works in a much more powerful yet efficient way. Inspired by the biological plasticity of dendritic topology and synaptic strength, our method, Learnable Heterogeneous Convolution, realizes joint learning of kernel shape and weights, which unifies existing handcrafted convolution techniques in a data-driven way. A model based on our method can converge with structural sparse weights and then be accelerated by devices of high parallelism. In the experiments, our method either reduces VGG16/19 and ResNet34/50 computation by nearly 5x on CIFAR10 and 2x on ImageNet without harming the performance, where the weights are compressed by 10x and 4x respectively; or improves the accuracy by up to 1.0% on CIFAR10 and 0.5% on ImageNet with slightly higher efficiency. The code will be available on www.github.com/Genera1Z/LearnableHeterogeneousConvolution. | 翻訳日:2023-01-16 14:43:28 公開日:2023-01-13 |
# 物体検出における幾何学的シフトを減らすための学習変換 Learning Transformations To Reduce the Geometric Shift in Object Detection ( http://arxiv.org/abs/2301.05496v1 ) ライセンス: Link先を確認 | Vidit Vidit, Martin Engilberge, Mathieu Salzmann | (参考訳) 現代の物体検出器の性能は、試験分布が訓練対象と異なると低下する。
この問題に対処するほとんどの方法は、例えば異なる照明条件、あるいは合成画像と実画像の間の隙間によって引き起こされる物体の外観変化に焦点を当てている。
これとは対照的に、画像キャプチャプロセスのバリエーションから生じる幾何学的シフトや、コンテンツ自体の見かけの形状に違いをもたらす環境の制約に対処します。
新しい領域のラベル付きデータやカメラに関する情報を使わずに、これらのシフトを最小限に抑えるために幾何変換のセットを学習する自己学習手法を導入する。
本稿では,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて評価する。
この結果から,幾何変換の学習は,検出者が対象領域においてより良く機能するのに役立つことが示された。 The performance of modern object detectors drops when the test distribution differs from the training one. Most of the methods that address this focus on object appearance changes caused by, e.g., different illumination conditions, or gaps between synthetic and real images. Here, by contrast, we tackle geometric shifts emerging from variations in the image capture process, or due to the constraints of the environment causing differences in the apparent geometry of the content itself. We introduce a self-training approach that learns a set of geometric transformations to minimize these shifts without leveraging any labeled data in the new domain, nor any information about the cameras. We evaluate our method on two different shifts, i.e., a camera's field of view (FoV) change and a viewpoint change. Our results evidence that learning geometric transformations helps detectors to perform better in the target domains. | 翻訳日:2023-01-16 14:42:54 公開日:2023-01-13 |
# 翻訳記憶を用いたニューラルマシン翻訳の促進 Prompting Neural Machine Translation with Translation Memories ( http://arxiv.org/abs/2301.05380v1 ) ライセンス: Link先を確認 | Abudurexiti Reheman, Tao Zhou, Yingfeng Luo, Di Yang, Tong Xiao, Jingbo Zhu | (参考訳) 翻訳記憶を用いた機械翻訳(MT)システムの改善は,MTコミュニティの実践者にとって大きな関心事である。
しかし、従来のアプローチでは、モデルアーキテクチャの大幅な更新や、追加の入力としてTMを取り込む際にモデルをより良くするために追加のトレーニングが必要である。
本稿では,ニューラルネットワーク翻訳(nmt)システムにtmsを導入するための簡易かつ効果的な手法を提案する。
具体的には、テスト時にNMTモデルのプロンプトとしてTMを扱うが、トレーニングプロセスは変わらない。
その結果、既存のNMTシステムのわずかに更新され、NMTに詳しい人なら誰でも数時間で実装できるようになりました。
いくつかのデータセットに対する実験結果から,我々のシステムは強いベースラインを著しく上回ることがわかった。 Improving machine translation (MT) systems with translation memories (TMs) is of great interest to practitioners in the MT community. However, previous approaches require either a significant update of the model architecture and/or additional training efforts to make the models well-behaved when TMs are taken as additional input. In this paper, we present a simple but effective method to introduce TMs into neural machine translation (NMT) systems. Specifically, we treat TMs as prompts to the NMT model at test time, but leave the training process unchanged. The result is a slight update of an existing NMT system, which can be implemented in a few hours by anyone who is familiar with NMT. Experimental results on several datasets demonstrate that our system significantly outperforms strong baselines. | 翻訳日:2023-01-16 14:37:49 公開日:2023-01-13 |
# 時間の問題:時間に富んだマルチモーダル変圧器で抑うつを検知する It's Just a Matter of Time: Detecting Depression with Time-Enriched Multimodal Transformers ( http://arxiv.org/abs/2301.05453v1 ) ライセンス: Link先を確認 | Ana-Maria Bucur, Adrian Cosma, Paolo Rosso, Liviu P. Dinu | (参考訳) インターネット上のユーザー生成コンテンツからの抑うつ検出は、研究コミュニティにおける長年の関心事であり、心理学者にとって貴重なスクリーニングツールを提供している。
ソーシャルメディアプラットフォームのユビキタスな利用は、投稿や他のユーザーとの対話におけるメンタルヘルスの顕在化を探求するための完璧な道筋を示している。
現在のソーシャルメディアからのうつ病検出手法は主にテキスト処理に焦点をあてており、利用者が投稿した画像も活用できるのはごくわずかである。
本研究では,画像およびテキスト埋め込み抽出のための事前学習モデルを用いて,ソーシャルメディア投稿から抑うつを検出するためのフレキシブルな時間エンリッチマルチモーダルトランスアーキテクチャを提案する。
我々のモデルはユーザーレベルで直接動作し、時間2vecの位置埋め込みを用いて、投稿間の相対時間で拡張する。
さらに,無作為なサンプルと無秩序なポストの集合で動作し,データセットのノイズに対してより堅牢なモデル変種を提案する。
提案手法はemoberta と clip embeddeds を用いて,2つのマルチモーダルデータセット上の他の手法を上回り,人気のマルチモーダルtwitterデータセットで0.931 f1,唯一のマルチモーダルredditデータセットで 0.902 f1 という最新結果を得た。 Depression detection from user-generated content on the internet has been a long-lasting topic of interest in the research community, providing valuable screening tools for psychologists. The ubiquitous use of social media platforms lays out the perfect avenue for exploring mental health manifestations in posts and interactions with other users. Current methods for depression detection from social media mainly focus on text processing, and only a few also utilize images posted by users. In this work, we propose a flexible time-enriched multimodal transformer architecture for detecting depression from social media posts, using pretrained models for extracting image and text embeddings. Our model operates directly at the user-level, and we enrich it with the relative time between posts by using time2vec positional embeddings. Moreover, we propose another model variant, which can operate on randomly sampled and unordered sets of posts to be more robust to dataset noise. We show that our method, using EmoBERTa and CLIP embeddings, surpasses other methods on two multimodal datasets, obtaining state-of-the-art results of 0.931 F1 score on a popular multimodal Twitter dataset, and 0.902 F1 score on the only multimodal Reddit dataset. | 翻訳日:2023-01-16 14:37:37 公開日:2023-01-13 |
# スケジュールアンフリーズによるアダプタ型言語間転送の一般化 Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing ( http://arxiv.org/abs/2301.05487v1 ) ライセンス: Link先を確認 | Chen Cecilia Liu, Jonas Pfeiffer, Ivan Vuli\'c, Iryna Gurevych | (参考訳) 言語モデルの標準的な微調整は、典型的には分散データでうまく機能するが、分布シフトへの一般化に苦しむ。
本研究では,このような言語間分散シフトが差し迫った場合,アダプタベースの言語間タスク転送の一般化を目標とする。
本研究では,言語間移動における微調整タスクアダプタの非凍結アルゴリズムについて検討した。
実験により, 連続凍結法が完全微調整のギャップを埋め, 最先端のトランスファー性能を達成することを示し, 破滅的な忘れ込みを緩和するだけでなく, これらの手法が適用可能であることを示唆した。
次に,これらの経験的知見を深く掘り下げるために,フィッシャー情報を用いた未凍結の学習動態について検討する。
詳細な実験により,スケジュール未凍結は通常の微調整と比較して異なる学習力学を誘導し,訓練中のフィッシャー情報のダイナミクスが言語間一般化性能と相関していることを示す。
さらに,4つのデータセットに対して平均2点改善を実現する一般的なスケジュール凍結アルゴリズムを提案し,ヒューリスティック凍結スケジュール(ヒューリスティックスケジュールは暗黙的にフィッシャー情報を最大化する)の理論に基づく正当化のための強力な実証的証拠を提供する。
私たちのコードは公開されます。 Standard fine-tuning of language models typically performs well on in-distribution data, but suffers with generalization to distribution shifts. In this work, we aim to improve generalization of adapter-based cross-lingual task transfer where such cross-language distribution shifts are imminent. We investigate scheduled unfreezing algorithms -- originally proposed to mitigate catastrophic forgetting in transfer learning -- for fine-tuning task adapters in cross-lingual transfer. Our experiments show that scheduled unfreezing methods close the gap to full fine-tuning and achieve state-of-the-art transfer performance, suggesting that these methods can go beyond just mitigating catastrophic forgetting. Next, aiming to delve deeper into those empirical findings, we investigate the learning dynamics of scheduled unfreezing using Fisher Information. Our in-depth experiments reveal that scheduled unfreezing induces different learning dynamics compared to standard fine-tuning, and provide evidence that the dynamics of Fisher Information during training correlate with cross-lingual generalization performance. We additionally propose a general scheduled unfreezing algorithm that achieves an average of 2 points improvement over four datasets compared to standard fine-tuning and provides strong empirical evidence for a theory-based justification of the heuristic unfreezing schedule (i.e., the heuristic schedule is implicitly maximizing Fisher Information). Our code will be publicly available. | 翻訳日:2023-01-16 14:37:12 公開日:2023-01-13 |
# 2022 n2c2/uwによる健康の社会的要因の抽出 The 2022 n2c2/UW Shared Task on Extracting Social Determinants of Health ( http://arxiv.org/abs/2301.05571v1 ) ライセンス: Link先を確認 | Kevin Lybarger, Meliha Yetisgen, \"Ozlem Uzuner | (参考訳) 目的: n2c2/UW SDOH Challengeは、臨床ノートから健康の社会的決定因子(SDOH)情報を抽出する。
本研究の目的は,SDOHのための自然言語処理(NLP)情報抽出技術の進歩と臨床情報の拡大である。
本稿では,共有タスク,データ,参加チーム,パフォーマンス結果,今後の作業に対する考慮について述べる。
資料と方法:このタスクは、アルコール、薬物、タバコ、雇用、生活状況などのsdohイベントに関する詳細なイベントベースのアノテーションを備えた臨床テキストからなる社会史注釈コーパス(social history annotated corpus, shac)を使用した。
各SDOHイベントは、ステータス、範囲、時間性に関連する属性によって特徴づけられる。
このタスクは、情報抽出(Subtask A)、一般化可能性(Subtask B)、学習伝達(Subtask C)に関連する3つのサブタスクを含む。
この課題に対処するために、参加者はルール、知識ベース、n-gram、単語埋め込み、事前訓練された言語モデル(LM)など、様々なテクニックを利用した。
結果: 合計15チームが参加し,トップチームがトレーニング済みのディープラーニングlmを使用した。
すべてのサブタスクにまたがるトップチームは、サブタスクaの0.901 f1、サブタスクbの0.0774 f1、サブタスクcの0.889 f1を達成するためのシーケンスからシーケンスまでのアプローチを採用した。
エラー分析は、抽出性能がSDOHによって異なることを示しているが、物質使用やホームレスなどの条件では低いパフォーマンスが達成され、健康リスク(リスク要因)が増加し、物質禁忌や家族との生活といった条件では高いパフォーマンスが達成され、健康リスク(保護要因)が減少する。 Objective: The n2c2/UW SDOH Challenge explores the extraction of social determinant of health (SDOH) information from clinical notes. The objectives include the advancement of natural language processing (NLP) information extraction techniques for SDOH and clinical information more broadly. This paper presents the shared task, data, participating teams, performance results, and considerations for future work. Materials and Methods: The task used the Social History Annotated Corpus (SHAC), which consists of clinical text with detailed event-based annotations for SDOH events such as alcohol, drug, tobacco, employment, and living situation. Each SDOH event is characterized through attributes related to status, extent, and temporality. The task includes three subtasks related to information extraction (Subtask A), generalizability (Subtask B), and learning transfer (Subtask C). In addressing this task, participants utilized a range of techniques, including rules, knowledge bases, n-grams, word embeddings, and pretrained language models (LM). Results: A total of 15 teams participated, and the top teams utilized pretrained deep learning LM. The top team across all subtasks used a sequence-to-sequence approach achieving 0.901 F1 for Subtask A, 0.774 F1 Subtask B, and 0.889 F1 for Subtask C. Conclusions: Similar to many NLP tasks and domains, pretrained LM yielded the best performance, including generalizability and learning transfer. An error analysis indicates extraction performance varies by SDOH, with lower performance achieved for conditions, like substance use and homelessness, that increase health risks (risk factors) and higher performance achieved for conditions, like substance abstinence and living with family, that reduce health risks (protective factors). | 翻訳日:2023-01-16 14:36:48 公開日:2023-01-13 |
# ステージからページへ:フィクション音声における特徴性の言語独立型ブートストラップ尺度 From stage to page: language independent bootstrap measures of distinctiveness in fictional speech ( http://arxiv.org/abs/2301.05659v1 ) ライセンス: Link先を確認 | Artjoms \v{S}e\c{l}a and Ben Nagy and Joanna Byszuk and Laura Hern\'andez-Lorenzo and Botond Szemes and Maciej Eder | (参考訳) ストイロメトリーは主に著者のスタイルに適用される。
近年、研究者はキャラクターのスタイルを調査し始めており、その変化は権威的境界内に留まっている。
我々はドラマの登場人物のスタイル的特徴に対処する。
我々は2つの非パラメトリック手法を導入・評価し,文字識別性のための要約統計を作成し,言語と時間間で有用な適用と比較を行う。
第1の方法は,単語キーネス曲線における3グラム確率分布間のブートストラップ距離に基づく。
どちらの手法も適度に大きなコーパス(ドラコーのサブセット)に適用することで検証され、2324年の作品から3301文字を分析し、5世紀と4つの言語(フランス語、ドイツ語、ロシア語、シェイクスピアの作品)をカバーした。
どちらの手法も有用で、3-gram法は統計的に強力であるが、キーネス法は豊かな解釈性を提供する。
どちらの手法もアクセントや方言などの音韻学的差異を捉えることができ、話題や語彙的豊かさにも大きな違いがある。
探索分析の結果,より小さい文字は男性よりも言語学的に特徴性が高い傾向にあり,後者は複数の回帰を用いて慎重に尋問されていることがわかった。
この大きな特徴は、女性キャラクターが直接の談話や家族・ローマのテーマを主とする「内話領域」に制限されるという歴史的傾向に由来する。
直接的な比較統計指標は、より洗練された将来の研究と理論の進歩の基礎となることが期待されている。 Stylometry is mostly applied to authorial style. Recently, researchers have begun investigating the style of characters, finding that the variation remains within authorial bounds. We address the stylistic distinctiveness of characters in drama. Our primary contribution is methodological; we introduce and evaluate two non-parametric methods to produce a summary statistic for character distinctiveness that can be usefully applied and compared across languages and times. Our first method is based on bootstrap distances between 3-gram probability distributions, the second (reminiscent of 'unmasking' techniques) on word keyness curves. Both methods are validated and explored by applying them to a reasonably large corpus (a subset of DraCor): we analyse 3301 characters drawn from 2324 works, covering five centuries and four languages (French, German, Russian, and the works of Shakespeare). Both methods appear useful; the 3-gram method is statistically more powerful but the word keyness method offers rich interpretability. Both methods are able to capture phonological differences such as accent or dialect, as well as broad differences in topic and lexical richness. Based on exploratory analysis, we find that smaller characters tend to be more distinctive, and that women are cross-linguistically more distinctive than men, with this latter finding carefully interrogated using multiple regression. This greater distinctiveness stems from a historical tendency for female characters to be restricted to an 'internal narrative domain' covering mainly direct discourse and family/romantic themes. It is hoped that direct, comparable statistical measures will form a basis for more sophisticated future studies, and advances in theory. | 翻訳日:2023-01-16 14:36:14 公開日:2023-01-13 |
# マルチタスク弱教師付き学習による原位置移動時間推定 Multitask Weakly Supervised Learning for Origin Destination Travel Time Estimation ( http://arxiv.org/abs/2301.05336v1 ) ライセンス: Link先を確認 | Hongjun Wang, Zhiwen Zhang, Zipei Fan, Jiyuan Chen, Lingyu Zhang, Ryosuke Shibasaki, Xuan Song | (参考訳) GPS旅行からの旅行時間推定は、注文時間、乗り合い、タクシー配車などにおいて非常に重要である。
しかし、データプライバシと買収の制限のため、密集した軌道は必ずしも利用可能ではないが、ニューヨーク市のタクシーデータ、ニューヨーク市の自転車データ、キャピタル・バイクシェアリングデータなど、オリジン・デスティネーション(od)タイプのデータの方がアクセスしやすい。
この問題に対処するため,本稿では,道路網と組み合わせたodトリップの走行時間を推定する。
その後、道路セグメント間の遷移確率と道路セグメントと交差点の移動時間とを同時に推定するために、MWSL TTE (Multitask Weakly Supervised Learning Framework) が提案されている。
技術的には、ODペアが与えられた場合、遷移確率は最も可能なルートを回復する。
そして、走行時間の出力は、この経路における全てのセグメントと交差点の走行時間の合計と等しい。
経路の共起確率を反復的に最大化し,経路の確率分布と経路の推定損失の逆分布との差を最小限に抑える新しい経路回復関数が提案されている。
さらに,道路セグメントや交差点からの移動時間を同時に最適化するために,弱教師付きフレームワークに基づく予測ログ可能性関数が導入された。
本手法は,西安と成都の多岐にわたる実世界のタクシーデータセットで実験を行い,経路回復と走行時間推定における効果を実証する。 Travel time estimation from GPS trips is of great importance to order duration, ridesharing, taxi dispatching, etc. However, the dense trajectory is not always available due to the limitation of data privacy and acquisition, while the origin destination (OD) type of data, such as NYC taxi data, NYC bike data, and Capital Bikeshare data, is more accessible. To address this issue, this paper starts to estimate the OD trips travel time combined with the road network. Subsequently, a Multitask Weakly Supervised Learning Framework for Travel Time Estimation (MWSL TTE) has been proposed to infer transition probability between roads segments, and the travel time on road segments and intersection simultaneously. Technically, given an OD pair, the transition probability intends to recover the most possible route. And then, the output of travel time is equal to the summation of all segments' and intersections' travel time in this route. A novel route recovery function has been proposed to iteratively maximize the current route's co occurrence probability, and minimize the discrepancy between routes' probability distribution and the inverse distribution of routes' estimation loss. Moreover, the expected log likelihood function based on a weakly supervised framework has been deployed in optimizing the travel time from road segments and intersections concurrently. We conduct experiments on a wide range of real world taxi datasets in Xi'an and Chengdu and demonstrate our method's effectiveness on route recovery and travel time estimation. | 翻訳日:2023-01-16 14:35:14 公開日:2023-01-13 |
# 不均質なラベル分布を持つ統合医療関係抽出のための主要分類ベクトルとの対比 Contrast with Major Classifier Vectors for Federated Medical Relation Extraction with Heterogeneous Label Distribution ( http://arxiv.org/abs/2301.05376v1 ) ライセンス: Link先を確認 | Chunhui Du and Hao He and Yaohui Jin | (参考訳) 統合医療関係抽出により、複数のクライアントが生の医療データを共有せずにディープネットワークを協調的にトレーニングできる。
クライアント間の異種ラベルの分散を扱うために、既存の作業のほとんどは最適化中にローカルモデルとグローバルモデル間の正規化を強制することだけを含む。
本稿では,全クライアントのモデルを完全に活用し,サーバ上の重み付け平均法ではなく,アンサンブルでクラスベクトル群が得られるような,新しい概念である \textit{major classifier vectors} を提案する。
主要な分類器ベクトルはすべてのクライアントに配布され、各クライアントの局所的な訓練はメジャー分類器ベクトル(FedCMC)と対比されるため、局所モデルは局所的なラベル分布に過度に適合しない。
FedCMCは、原データ、抽出された表現、ラベルの分布をリークすることなく、わずかな量の分類器パラメータの転送しか必要としない。
我々は,FedCMCが3つの医療関係抽出データセットにおいて,他の最先端FLアルゴリズムよりも優れていることを示した。 Federated medical relation extraction enables multiple clients to train a deep network collaboratively without sharing their raw medical data. In order to handle the heterogeneous label distribution across clients, most of the existing works only involve enforcing regularization between local and global models during optimization. In this paper, we fully utilize the models of all clients and propose a novel concept of \textit{major classifier vectors}, where a group of class vectors is obtained in an ensemble rather than the weighted average method on the server. The major classifier vectors are then distributed to all clients and the local training of each client is Contrasted with Major Classifier vectors (FedCMC), so the local model is not prone to overfitting to the local label distribution. FedCMC requires only a small amount of additional transfer of classifier parameters without any leakage of raw data, extracted representations, and label distributions. Our extensive experiments show that FedCMC outperforms the other state-of-the-art FL algorithms on three medical relation extraction datasets. | 翻訳日:2023-01-16 14:34:50 公開日:2023-01-13 |
# Evolve Path Tracer:暗号通貨における悪意アドレスの早期検出 Evolve Path Tracer: Early Detection of Malicious Addresses in Cryptocurrency ( http://arxiv.org/abs/2301.05412v1 ) ライセンス: Link先を確認 | Ling Cheng, Feida Zhu, Yong Wang, Ruicheng Liang, Huiwen Liu | (参考訳) 暗号通貨のブームが続く中、不正行為や関連する悪意のあるアドレスを検知する研究が盛んに進んでいる。
しかし、既存の研究の多くは、まだ完全な履歴機能や本格的なアドレストランザクションネットワークに依存しているため、早期の悪意のあるアドレス検出の要件を満たすことはできない。
悪意のあるアドレスの不正行為を早期に検出するために,evolve path tracerを提案する。evolve path encoder lstm,evolve path graph gcn,そして階層的サバイバル予測器である。
具体的には、一般的なアドレス機能に加えて、初期取引パターンを特徴付けるための資産移動経路と対応する経路グラフを提案する。
さらに,早期に取引パターンが急速に変化しているため,進化的構造設定の下で,資産移動経路と経路グラフをエンコードするEvolve Path Encoder LSTMとEvolve Path Graph GCNを提案する。
階層的生存予測器は、優れたスケーラビリティと高速な予測速度でアドレスのラベルを予測する。
Evolve Path Tracerの3つの現実の不正ビットコインデータセットに対する有効性と汎用性について検討する。
実験の結果,Evolve Path Tracerは最先端手法よりも優れていた。
拡張性実験は、動的予測設定下でモデルの適応性を示す。 With the ever-increasing boom of Cryptocurrency, detecting fraudulent behaviors and associated malicious addresses draws significant research effort. However, most existing studies still rely on the full history features or full-fledged address transaction networks, thus cannot meet the requirements of early malicious address detection, which is urgent but seldom discussed by existing studies. To detect fraud behaviors of malicious addresses in the early stage, we present Evolve Path Tracer, which consists of Evolve Path Encoder LSTM, Evolve Path Graph GCN, and Hierarchical Survival Predictor. Specifically, in addition to the general address features, we propose asset transfer paths and corresponding path graphs to characterize early transaction patterns. Further, since the transaction patterns are changing rapidly during the early stage, we propose Evolve Path Encoder LSTM and Evolve Path Graph GCN to encode asset transfer path and path graph under an evolving structure setting. Hierarchical Survival Predictor then predicts addresses' labels with nice scalability and faster prediction speed. We investigate the effectiveness and versatility of Evolve Path Tracer on three real-world illicit bitcoin datasets. Our experimental results demonstrate that Evolve Path Tracer outperforms the state-of-the-art methods. Extensive scalability experiments demonstrate the model's adaptivity under a dynamic prediction setting. | 翻訳日:2023-01-16 14:34:29 公開日:2023-01-13 |
# 説明可能なAI(XAI)文学の動向 Trends in Explainable AI (XAI) Literature ( http://arxiv.org/abs/2301.05433v1 ) ライセンス: Link先を確認 | Alon Jacovi | (参考訳) XAI文学は、用語学と出版の場の両方において分散化されているが、近年、コミュニティは、論文を自動でより確実に発見できるキーワードを中心に集結している。
キーワード検索にはsemanticscholar apiと手作業によるキュレーションを使用して,5199のxai論文の十分にフォーマットされた包括的な集合を収集します。
このコレクションを用いて,文献のサイズと範囲,引用傾向,クロスフィールド傾向,コラボレーショントレンドに関するトレンドを明確化し,可視化する。
全体として、XAIは多分野化されつつあり、多種多様な(非CS)科学分野に属する論文の相対的な増加、分野横断の共著の増大、分野横断の引用活動の増加などである。
また、特定の制約に従って引用されるXAI文献(例えば、分野外、または非XAI研究に影響を及ぼす論文)を検索することで、論文発見エンジンとして利用することもできる。 The XAI literature is decentralized, both in terminology and in publication venues, but recent years saw the community converge around keywords that make it possible to more reliably discover papers automatically. We use keyword search using the SemanticScholar API and manual curation to collect a well-formatted and reasonably comprehensive set of 5199 XAI papers, available at https://github.com/alonjacovi/XAI-Scholar . We use this collection to clarify and visualize trends about the size and scope of the literature, citation trends, cross-field trends, and collaboration trends. Overall, XAI is becoming increasingly multidisciplinary, with relative growth in papers belonging to increasingly diverse (non-CS) scientific fields, increasing cross-field collaborative authorship, increasing cross-field citation activity. The collection can additionally be used as a paper discovery engine, by retrieving XAI literature which is cited according to specific constraints (for example, papers that are influential outside of their field, or influential to non-XAI research). | 翻訳日:2023-01-16 14:34:08 公開日:2023-01-13 |
# AAAI 2022 Fall Symposium: 機械能力の自律的評価(LLAAMA)を学ぶ AAAI 2022 Fall Symposium: Lessons Learned for Autonomous Assessment of Machine Abilities (LLAAMA) ( http://arxiv.org/abs/2301.05384v1 ) ライセンス: Link先を確認 | Nicholas Conlon, Aastha Acharya, Nisar Ahmed | (参考訳) 現代の民間および軍事システムは、不確定な動的環境で動作可能な高度な知的自律機械の需要を生み出した。
このようなシステムは、認識と意思決定技術の大きな進歩のおかげで実現可能であり、現代の機械学習ツールによって推進されてきた。
しかし、これらの新しい形のインテリジェントな自律性は、運用意図のコミュニケーションと、実際の自律エージェントの能力と想定される能力のアセスメントが全体的なパフォーマンスに与える影響について疑問を提起する。
本シンポジウムでは,知的自律システムを自己評価し,割り当てられたタスクを効果的に遂行する能力と,その能力の全体的な限界を判断し,その限界内での運用性を維持する可能性について検討する。
このシンポジウムは、この急成長する研究領域で働く研究者を集結させ、学んだ教訓を共有し、これまで遭遇した主要な理論と実践上の課題を特定し、将来の研究と現実の応用への道筋を開く。 Modern civilian and military systems have created a demand for sophisticated intelligent autonomous machines capable of operating in uncertain dynamic environments. Such systems are realizable thanks in large part to major advances in perception and decision-making techniques, which in turn have been propelled forward by modern machine learning tools. However, these newer forms of intelligent autonomy raise questions about when/how communication of the operational intent and assessments of actual vs. supposed capabilities of autonomous agents impact overall performance. This symposium examines the possibilities for enabling intelligent autonomous systems to self-assess and communicate their ability to effectively execute assigned tasks, as well as reason about the overall limits of their competencies and maintain operability within those limits. The symposium brings together researchers working in this burgeoning area of research to share lessons learned, identify major theoretical and practical challenges encountered so far, and potential avenues for future research and real-world applications. | 翻訳日:2023-01-16 14:27:25 公開日:2023-01-13 |
# データからの火力-大気モデルwrf-sfireのための燃料水分モデルの構築:カルマンフィルタからリカレントニューラルネットワークへ Building a Fuel Moisture Model for the Coupled Fire-Atmosphere Model WRF-SFIRE from Data: From Kalman Filters to Recurrent Neural Networks ( http://arxiv.org/abs/2301.05427v1 ) ライセンス: Link先を確認 | J. Mandel, J. Hirschi, A. K. Kochanski, A. Farguell, J. Haley, D. V. Mallia, B. Shaddy, A. A. Oberai, and K. A. Hilburn | (参考訳) WRF-SFIREの現在の燃料水分量(FMC)サブシステムとそのワークフローシステムであるWRFxは、拡張されたカルマンフィルタにより遠隔自動気象観測装置(RAWS)上のFMCセンサからのデータと同化した時間ラグ微分方程式モデルを用いている。
しかし、結果の品質はモデルとカルマンフィルタの制限によって制約される。
モデルとカルマンフィルタからなるシステムにおけるデータフローは、リカレントニューラルネットワーク(RNN)におけるデータフローと同一であると解釈できる。
したがって、より洗練されたモデルやデータ同化法を構築する代わりに、FMCセンサの時系列環境データに対する応答のダイナミクスを近似するためにRNNを訓練したい。
標準AIアプローチは妥当な解に収束しなかったため、微分方程式の数値解法となるために考案された特殊初期重み付きRNNを事前訓練する。
そして、AIトレーニング機械がRNN重量を最適化してデータに合うようにします。
本手法は,実時間メソスケール解析(rtma)による生データと気象データから10h-fmcの時系列を例に示す。 The current fuel moisture content (FMC) subsystems in WRF-SFIRE and its workflow system WRFx use a time-lag differential equation model with assimilation of data from FMC sensors on Remote Automated Weather Stations (RAWS) by the extended augmented Kalman filter. But the quality of the result is constrained by the limitations of the model and of the Kalman filter. We observe that the data flow in a system consisting of a model and the Kalman filter can be interpreted to be the same as the data flow in a recurrent neural network (RNN). Thus, instead of building more sophisticated models and data assimilation methods, we want to train a RNN to approximate the dynamics of the response of the FMC sensor to a time series of environmental data. Because standard AI approaches did not converge to reasonable solutions, we pre-train the RNN with special initial weights devised to turn it into a numerical solver of the differential equation. We then allow the AI training machinery to optimize the RNN weights to fit the data better. We illustrate the method on an example of a time series of 10h-FMC from RAWS and weather data from the Real-Time Mesoscale Analysis (RTMA). | 翻訳日:2023-01-16 14:27:08 公開日:2023-01-13 |
# 新しい生成逆ネットワークに基づくフレームワークによる短時間SSVEPデータ拡張 Short-time SSVEP data extension by a novel generative adversarial networks based framework ( http://arxiv.org/abs/2301.05599v1 ) ライセンス: Link先を確認 | Yudong Pan, Ning Li and Yangsong Zhang | (参考訳) 定常視覚誘発電位 (ssveps) に基づく脳-コンピューターインタフェース (bci) は、高い転送速度と利用可能なターゲット量のために注目されている。
しかし、周波数同定手法の性能は、ユーザキャリブレーションデータ量とデータ長に大きく左右されるため、実際のアプリケーションへの展開を妨げている。
近年,GAN(Generative Adversarial Network)ベースのデータ生成手法が広く採用され,補足型合成脳波(EEG)データの作成が約束されている。
本稿では,TEGANと呼ばれるデータ長ウィンドウ拡張のためのGANベースのエンドツーエンド信号変換ネットワークを提案する。
TEGANは、短時間SSVEP信号を長時間人工SSVEP信号に変換する。
新たなU-Netジェネレータアーキテクチャと補助分類器をネットワーク設計に組み込むことで、TEGANは合成データに条件付き特徴を生成することができた。
さらに,ganのトレーニングプロセスを規則化するために,ネットワーク実装中に2段階のトレーニング戦略とlecam-divergence正規化期間を導入した。
TEGANは2つの公開SSVEPデータセットで評価された。
teganの支援により、従来の周波数認識法とディープラーニングに基づく手法の性能は、限られた校正データで大幅に向上した。
本研究では,短時間SSVEP信号のデータ長を拡張し,高性能なBCIシステムを構築するための提案手法の有効性を実証する。
提案手法は,様々な実世界のBCIベースのアプリケーションの校正時間を短縮する可能性が高く,拡張戦略の新規性は,SSVEPの主観的不変性を理解することにいくつかの価値を与えている。 Steady-state visual evoked potentials (SSVEPs) based brain-computer interface (BCI) has received considerable attention due to its high transfer rate and available quantity of targets. However, the performance of frequency identification methods heavily hinges on the amount of user calibration data and data length, which hinders the deployment in real-world applications. Recently, generative adversarial networks (GANs)-based data generation methods have been widely adopted to create supplementary synthetic electroencephalography (EEG) data, holds promise to address these issues. In this paper, we proposed a GAN-based end-to-end signal transformation network for data length window extension, termed as TEGAN. TEGAN transforms short-time SSVEP signals into long-time artificial SSVEP signals. By incorporating a novel U-Net generator architecture and auxiliary classifier into the network design, the TEGAN could produce conditioned features in the synthetic data. Additionally, to regularize the training process of GAN, we introduced a two-stage training strategy and the LeCam-divergence regularization term during the network implementation. The proposed TEGAN was evaluated on two public SSVEP datasets. With the assistance of TEGAN, the performance of traditional frequency recognition methods and deep learning-based methods have been significantly improved under limited calibration data. This study substantiates the feasibility of the proposed method to extend the data length for short-time SSVEP signals to develop a high-performance BCI system. The proposed GAN-based methods have the great potential of shortening the calibration time for various real-world BCI-based applications, while the novelty of our augmentation strategies shed some value light on understanding the subject-invariant properties of SSVEPs. | 翻訳日:2023-01-16 14:26:47 公開日:2023-01-13 |
# 平均後退目標を持つ確率ゲームにおける分散モデルフリー強化学習 Decentralized model-free reinforcement learning in stochastic games with average-reward objective ( http://arxiv.org/abs/2301.05630v1 ) ライセンス: Link先を確認 | Romain Cravic, Nicolas Gast, Bruno Gaujal | (参考訳) 本研究では,無限水平平均回帰目標を持つ2プレイヤーゼロサムテーブル型確率ゲームにおいて,分散学習における低遅延性能を実現する最初のモデルフリーアルゴリズムを提案する。
分散学習において、学習エージェントは1人のプレイヤーのみを制御し、相手に対して低い後悔度を達成しようとする。
これは、エージェントが両方のプレイヤーを制御してナッシュ均衡を近似しようとする集中学習とは対照的である。
ここで、我々は相手のあらゆる戦略について仮定し、エージェントは任意の状態から他の状態に移行する方法を持っている。
この仮定は、MDPの設定における「コミュニケーション」仮定と類似している。
分散最適化ナッシュQラーニング(DONQ-learning)アルゴリズムは,次数$T^{3/4}$と次数$T^{2/3}$の次数$サブ線形高確率後悔(sublinear high probability regret)を実現する。
さらに,本アルゴリズムは,前回の (Wei et al. 2017) や (Jafarnia-Jahromi et al. 2021) と比較して計算量が少なく,メモリスペースも少ない。 We propose the first model-free algorithm that achieves low regret performance for decentralized learning in two-player zero-sum tabular stochastic games with infinite-horizon average-reward objective. In decentralized learning, the learning agent controls only one player and tries to achieve low regret performances against an arbitrary opponent. This contrasts with centralized learning where the agent tries to approximate the Nash equilibrium by controlling both players. In our infinite-horizon undiscounted setting, additional structure assumptions is needed to provide good behaviors of learning processes : here we assume for every strategy of the opponent, the agent has a way to go from any state to any other. This assumption is the analogous to the "communicating" assumption in the MDP setting. We show that our Decentralized Optimistic Nash Q-Learning (DONQ-learning) algorithm achieves both sublinear high probability regret of order $T^{3/4}$ and sublinear expected regret of order $T^{2/3}$. Moreover, our algorithm enjoys a low computational complexity and low memory space requirement compared to the previous works of (Wei et al. 2017) and (Jafarnia-Jahromi et al. 2021) in the same setting. | 翻訳日:2023-01-16 14:26:20 公開日:2023-01-13 |
# data-driven co-speech gesture generation の包括的レビュー A Comprehensive Review of Data-Driven Co-Speech Gesture Generation ( http://arxiv.org/abs/2301.05339v1 ) ライセンス: Link先を確認 | Simbarashe Nyatsanga, Taras Kucherenko, Chaitanya Ahuja, Gustav Eje Henter, Michael Neff | (参考訳) 音声に付随するジェスチャーは、自然で効率的な人間のコミュニケーションの不可欠な部分である。
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題であり、映画、ゲーム、仮想社会空間、社会ロボットとの対話において実現可能な技術であると考えられている。
この問題は、人間の共同音声ジェスチャー動作の慣用的・非周期的な性質と、ジェスチャーが包含するコミュニケーション機能の大きな多様性によって挑戦される。
ジェスチャ生成は、人間のジェスチャー動作のデータセットがより大きくなり、深層学習に基づく生成モデルの進歩と相まって、データの可用性の向上から恩恵を受けているため、近年、関心が高まっている。
本稿では,特に深部生成モデルに焦点をあてた協調ジェスチャ生成研究を要約する。
まず,人間のジェスチレーションに関する理論と,それが音声を補完する方法について述べる。
次に,ルールベースおよび古典的統計的ジェスチャ合成について概説し,深層学習のアプローチを検討する。
音声,テキスト,非言語的な入力からジェスチャを生成するシステムを調べるため,入力モダリティの選択を組織化原理として採用する。
また,関連するトレーニングデータセットの進化について,サイズ,多様性,動作品質,収集方法などの観点から分類した。
最後に, ジェスチャ生成における重要な課題として, データの可用性と品質, 人的動作の生成, 発話中のジェスチャーを他の話者や環境と相互作用させること, ジェスチャ評価を行うこと, ジェスチャ合成をアプリケーションに統合すること, などを挙げる。
我々は、様々な課題に取り組むための最近のアプローチと、これらのアプローチの限界、そして将来の開発分野に向けてのポイントを強調する。 Gestures that accompany speech are an essential part of natural and efficient embodied human communication. The automatic generation of such co-speech gestures is a long-standing problem in computer animation and is considered an enabling technology in film, games, virtual social spaces, and for interaction with social robots. The problem is made challenging by the idiosyncratic and non-periodic nature of human co-speech gesture motion, and by the great diversity of communicative functions that gestures encompass. Gesture generation has seen surging interest recently, owing to the emergence of more and larger datasets of human gesture motion, combined with strides in deep-learning-based generative models, that benefit from the growing availability of data. This review article summarizes co-speech gesture generation research, with a particular focus on deep generative models. First, we articulate the theory describing human gesticulation and how it complements speech. Next, we briefly discuss rule-based and classical statistical gesture synthesis, before delving into deep learning approaches. We employ the choice of input modalities as an organizing principle, examining systems that generate gestures from audio, text, and non-linguistic input. We also chronicle the evolution of the related training data sets in terms of size, diversity, motion quality, and collection method. Finally, we identify key research challenges in gesture generation, including data availability and quality; producing human-like motion; grounding the gesture in the co-occurring speech in interaction with other speakers, and in the environment; performing gesture evaluation; and integration of gesture synthesis into applications. We highlight recent approaches to tackling the various key challenges, as well as the limitations of these approaches, and point toward areas of future development. | 翻訳日:2023-01-16 14:25:57 公開日:2023-01-13 |
# LVRNet:低視認性下における航空画像の軽量化 LVRNet: Lightweight Image Restoration for Aerial Images under Low Visibility ( http://arxiv.org/abs/2301.05434v1 ) ライセンス: Link先を確認 | Esha Pahwa, Achleshwar Luthra, Pratik Narang | (参考訳) 劣化要因の組合せを持つ画像からクリアイメージを復元する学習は難しい課題である。
とはいえ、高公害・喫煙、低品質指数、低光度、大気散乱、ブリザード中のヘイズなどによる視認性の低い環境での自律監視は、事故を防ぐ上でさらに重要になる。
したがって、高品質な画像が得られ、日々の使用に十分な効率で配置できるソリューションを構築することが不可欠である。
しかし、このタスクに対処するための適切なデータセットがないため、提案したメソッドのパフォーマンスが制限される。
この目的のために、3647対の暗く鮮明な画像を含むLowVis-AFOデータセットを生成する。
また、Low-Visibility Restoration Network (LVRNet)と呼ばれる軽量ディープラーニングモデルを導入する。
また,PSNR 25.744 と 0.905 の SSIM を達成し,従来の画像復元手法よりも低レイテンシで性能が向上した。
コードとデータはhttps://github.com/Achleshwar/LVRNetで見ることができる。 Learning to recover clear images from images having a combination of degrading factors is a challenging task. That being said, autonomous surveillance in low visibility conditions caused by high pollution/smoke, poor air quality index, low light, atmospheric scattering, and haze during a blizzard becomes even more important to prevent accidents. It is thus crucial to form a solution that can result in a high-quality image and is efficient enough to be deployed for everyday use. However, the lack of proper datasets available to tackle this task limits the performance of the previous methods proposed. To this end, we generate the LowVis-AFO dataset, containing 3647 paired dark-hazy and clear images. We also introduce a lightweight deep learning model called Low-Visibility Restoration Network (LVRNet). It outperforms previous image restoration methods with low latency, achieving a PSNR value of 25.744 and an SSIM of 0.905, making our approach scalable and ready for practical use. The code and data can be found at https://github.com/Achleshwar/LVRNet. | 翻訳日:2023-01-16 14:25:26 公開日:2023-01-13 |
# 逆例によるタイのLPRシステム攻撃の可能性について On the feasibility of attacking Thai LPR systems with adversarial examples ( http://arxiv.org/abs/2301.05506v1 ) ライセンス: Link先を確認 | Chissanupong Jiamsuchon, Jakapan Suaboot, Norrathep Rattanavipanon | (参考訳) 近年のディープニューラルネットワーク(DNN)の進歩により、光学文字認識(OCR)技術の能力が大幅に向上し、幅広い現実世界のアプリケーションに採用されている。
この成功にもかかわらず、DNNベースのOCRは敵攻撃に対して脆弱であり、敵はモデルへの入力を慎重に操作することで、DNNモデルの予測に影響を与える可能性がある。
以前の研究は、様々なocr言語に対する敵対的攻撃のセキュリティへの影響を実証した。
しかし、タイ語に特化されたOCRシステムについて、これまでに研究や評価は行われていない。
このギャップを埋めるために、この研究は特定のタイ OCR アプリケーション -- タイライセンスプレート認識 (LPR) に対する敵攻撃を実行するための実現可能性研究を示す。
さらに,emph{semi-targeted} シナリオに基づく新しいタイプの敵攻撃を提案し,このシナリオが LPR アプリケーションにおいて極めて現実的であることを示す。
実験の結果,90%以上の攻撃成功率を持つ汎用コンピュータデスクトップ上で実行可能であることから,攻撃の可能性が示された。 Recent advances in deep neural networks (DNNs) have significantly enhanced the capabilities of optical character recognition (OCR) technology, enabling its adoption to a wide range of real-world applications. Despite this success, DNN-based OCR is shown to be vulnerable to adversarial attacks, in which the adversary can influence the DNN model's prediction by carefully manipulating input to the model. Prior work has demonstrated the security impacts of adversarial attacks on various OCR languages. However, to date, no studies have been conducted and evaluated on an OCR system tailored specifically for the Thai language. To bridge this gap, this work presents a feasibility study of performing adversarial attacks on a specific Thai OCR application -- Thai License Plate Recognition (LPR). Moreover, we propose a new type of adversarial attack based on the \emph{semi-targeted} scenario and show that this scenario is highly realistic in LPR applications. Our experimental results show the feasibility of our attacks as they can be performed on a commodity computer desktop with over 90% attack success rate. | 翻訳日:2023-01-16 14:25:07 公開日:2023-01-13 |
# 深度画像から変形を推定するソフトマテリアルのコマニピュレーション Co-manipulation of soft-materials estimating deformation from depth images ( http://arxiv.org/abs/2301.05609v1 ) ライセンス: Link先を確認 | Giorgio Nicola, Enrico Villagrossi, Nicola Pedrocchi | (参考訳) 布、複合材料、紙/ボール紙などの柔らかい材料を人ロボットで共同操作することは、いくつかの産業応用を提示する困難な作業である。
コマニピュレーションされた材料の変形状態を推定することが主な課題である。
人間のロボットの相対距離を計算して間接測度を提供する。
本稿では,畳み込みニューラルネットワーク(CNN)を用いて,深度画像から素材の変形状態を推定するデータ駆動モデルを開発する。
まず,素材の変形状態を,現在のロボットポーズと人間のつかみ位置との相対的なロト変換として定義する。
モデルは、畳み込みニューラルネットワーク、特にImageNetで事前訓練されたDenseNet-121を介して、電流と所望の変形状態の間のデルタをロボットコントローラに供給し、ツイストコマンドを出力する。
本稿では,データセットの取得,事前処理,モデルのトレーニングのために開発された手法について述べる。
このモデルは、カメラからの骨格トラッカーに基づく最先端の手法と比較される。
結果から,本手法は,骨格トラッカーによる性能向上と種々の欠点を回避し,データセット取得に必要な時間を最小限に抑えるため,異なるアーキテクチャやデータセット次元によるモデル性能についても検討した。 Human-robot co-manipulation of soft materials, such as fabrics, composites, and sheets of paper/cardboard, is a challenging operation that presents several relevant industrial applications. Estimating the deformation state of the co-manipulated material is one of the main challenges. Viable methods provide the indirect measure by calculating the human-robot relative distance. In this paper, we develop a data-driven model to estimate the deformation state of the material from a depth image through a Convolutional Neural Network (CNN). First, we define the deformation state of the material as the relative roto-translation from the current robot pose and a human grasping position. The model estimates the current deformation state through a Convolutional Neural Network, specifically a DenseNet-121 pretrained on ImageNet.The delta between the current and the desired deformation state is fed to the robot controller that outputs twist commands. The paper describes the developed approach to acquire, preprocess the dataset and train the model. The model is compared with the current state-of-the-art method based on a skeletal tracker from cameras. Results show that our approach achieves better performances and avoids the various drawbacks caused by using a skeletal tracker.Finally, we also studied the model performance according to different architectures and dataset dimensions to minimize the time required for dataset acquisition | 翻訳日:2023-01-16 14:24:50 公開日:2023-01-13 |
# 複数の特徴空間にまたがる一貫性データクラスタリングとしての概念同定 Understanding Concept Identification as Consistent Data Clustering Across Multiple Feature Spaces ( http://arxiv.org/abs/2301.05525v1 ) ライセンス: Link先を確認 | Felix Lanfermannn, Sebastian Schmitt, Patricia Wollstadt | (参考訳) 大規模なデータセットで意味のある概念を特定することは、エンジニアリング設計の問題に対する貴重な洞察を提供する。
概念識別は、すべての特徴のジョイント空間で類似しているが、機能のサブセットだけを考慮すると類似している設計インスタンスの重複しないグループを特定することを目的としている。
これらのサブセットは通常、コンストラクティブな設計パラメータ、パフォーマンス値、オペレーションモードなど、ある特定のコンテキストに関する設計を特徴付ける機能で構成されている。
これらの特徴のいくつかを独立に考慮して設計概念の質を評価することが望ましい。
特に意味のある概念は、データインスタンスの密集した分離されたグループを識別するだけでなく、事前定義された機能サブセットを別々に考えるときに持続する重複しないデータのグループを提供するべきである。
本研究では,概念同定を,工学設計を超えた幅広い応用可能性を持つクラスタリングアルゴリズムの特殊形式として捉えることを提案する。
概念同定アルゴリズムと古典的なクラスタリングアルゴリズムの違いを説明するために,最近提案されている概念識別アルゴリズムを2つの合成データセットに適用し,同定した解の差異を示す。
さらに,ソリューションが関連するサブセット間で一貫したクラスタを返すかどうかを評価する指標として,相互情報測度を導入する。
概念同定の新たな理解を支援するため,エネルギー管理領域における意思決定問題から設定したシミュレーションデータセットを考察し,一般的なクラスタリングアルゴリズムによるクラスタよりも,関連する特徴部分集合に関してより解釈可能であり,意思決定者を支援するのに適していることを示す。 Identifying meaningful concepts in large data sets can provide valuable insights into engineering design problems. Concept identification aims at identifying non-overlapping groups of design instances that are similar in a joint space of all features, but which are also similar when considering only subsets of features. These subsets usually comprise features that characterize a design with respect to one specific context, for example, constructive design parameters, performance values, or operation modes. It is desirable to evaluate the quality of design concepts by considering several of these feature subsets in isolation. In particular, meaningful concepts should not only identify dense, well separated groups of data instances, but also provide non-overlapping groups of data that persist when considering pre-defined feature subsets separately. In this work, we propose to view concept identification as a special form of clustering algorithm with a broad range of potential applications beyond engineering design. To illustrate the differences between concept identification and classical clustering algorithms, we apply a recently proposed concept identification algorithm to two synthetic data sets and show the differences in identified solutions. In addition, we introduce the mutual information measure as a metric to evaluate whether solutions return consistent clusters across relevant subsets. To support the novel understanding of concept identification, we consider a simulated data set from a decision-making problem in the energy management domain and show that the identified clusters are more interpretable with respect to relevant feature subsets than clusters found by common clustering algorithms and are thus more suitable to support a decision maker. | 翻訳日:2023-01-16 14:18:34 公開日:2023-01-13 |
# sem@$k$: 私の知識グラフ埋め込みモデルの意味認識は? Sem@$K$: Is my knowledge graph embedding model semantic-aware? ( http://arxiv.org/abs/2301.05601v1 ) ライセンス: Link先を確認 | Nicolas Hubert, Pierre Monnin, Armelle Brun, Davy Monticolo | (参考訳) 知識グラフ埋め込みモデル(KGEMs)の使用は、知識グラフ(KGs)のリンクを予測する一般的な手法である。
伝統的に、リンク予測のためのKGEMの性能はランクベースの指標を用いて評価される。
しかしながら、文献は、KGEM評価手順は、評価に補助的な次元を追加する利点があると主張している。
そこで、本稿では、モデルが有効なエンティティw.r.t.ドメインと範囲制約を予測できる能力を測定する、以前に導入したメトリクスSem@$K$を拡張する。
特に、広い範囲のKGを考慮し、それぞれの特性を考慮し、Sem@$K$の異なるバージョンを提案する。
また,KGEMセマンティック・アウェアネスの広範な研究も行っている。
我々の実験によると、Sem@$K$はKGEMの品質に関する新しい視点を提供する。
ランクベースのメトリクスとの共同分析は、モデルの予測力について異なる結論を与える。
Sem@$K$に関しては、一部のKGEMは本質的に他のKGEMよりも優れているが、このセマンティックな優位性は、ランクベースのメトリクスのパフォーマンスを示すものではない。
本研究では,KGEMs w.r.t.ランクベースおよびセマンティック指向メトリクスの相対的性能に関する結論を,モデルファミリーのレベルで一般化する。
上記のメトリクスの合同分析は、各モデルの特異性についてより深い洞察を与える。
この研究は、特定の下流タスクに対するより包括的なKGEMの妥当性評価の道を開く。 Using knowledge graph embedding models (KGEMs) is a popular approach for predicting links in knowledge graphs (KGs). Traditionally, the performance of KGEMs for link prediction is assessed using rank-based metrics, which evaluate their ability to give high scores to ground-truth entities. However, the literature claims that the KGEM evaluation procedure would benefit from adding supplementary dimensions to assess. That is why, in this paper, we extend our previously introduced metric Sem@$K$ that measures the capability of models to predict valid entities w.r.t. domain and range constrains. In particular, we consider a broad range of KGs and take their respective characteristics into account to propose different versions of Sem@$K$. We also perform an extensive study of KGEM semantic awareness. Our experiments show that Sem@$K$ provides a new perspective on KGEM quality. Its joint analysis with rank-based metrics offer different conclusions on the predictive power of models. Regarding Sem@$K$, some KGEMs are inherently better than others, but this semantic superiority is not indicative of their performance w.r.t. rank-based metrics. In this work, we generalize conclusions about the relative performance of KGEMs w.r.t. rank-based and semantic-oriented metrics at the level of families of models. The joint analysis of the aforementioned metrics gives more insight into the peculiarities of each model. This work paves the way for a more comprehensive evaluation of KGEM adequacy for specific downstream tasks. | 翻訳日:2023-01-16 14:18:08 公開日:2023-01-13 |
# ディープベイズ能動学習のためのスケーラブルバッチ獲得 Scalable Batch Acquisition for Deep Bayesian Active Learning ( http://arxiv.org/abs/2301.05490v1 ) ライセンス: Link先を確認 | Aleksandr Rubashevskii, Daria Kotova and Maxim Panov | (参考訳) 深層アクティブラーニングでは、特に大規模データセットにおいて、各ステップでマークアップする複数の例を選択することが特に重要である。
同時に、BatchBALDのようなベイズセットアップにおけるこの問題に対する既存の解決策は、連立確率変数に対する相互情報の計算の指数関数的複雑さに関連する多くの例を選択する際に、重大な制限がある。
そこで我々は,計算効率を向上しつつ,同等の品質を達成することを目的としたバッチバルド法に十分な近似値を与える大規模バッチバルドアルゴリズムを提案する。
本稿では,計算時間,特に大規模バッチに対する計算時間を削減したアルゴリズムの複雑性解析を行う。
さらに、おもちゃのデータセットとCIFAR-100のような大型データの両方について、画像およびテキストデータに関する広範な実験結果を示す。 In deep active learning, it is especially important to choose multiple examples to markup at each step to work efficiently, especially on large datasets. At the same time, existing solutions to this problem in the Bayesian setup, such as BatchBALD, have significant limitations in selecting a large number of examples, associated with the exponential complexity of computing mutual information for joint random variables. We, therefore, present the Large BatchBALD algorithm, which gives a well-grounded approximation to the BatchBALD method that aims to achieve comparable quality while being more computationally efficient. We provide a complexity analysis of the algorithm, showing a reduction in computation time, especially for large batches. Furthermore, we present an extensive set of experimental results on image and text data, both on toy datasets and larger ones such as CIFAR-100. | 翻訳日:2023-01-16 14:17:43 公開日:2023-01-13 |
# 安全臨界オフライン強化学習におけるリスクセンシティブなデッドエンド同定 Risk Sensitive Dead-end Identification in Safety-Critical Offline Reinforcement Learning ( http://arxiv.org/abs/2301.05664v1 ) ライセンス: Link先を確認 | Taylor W. Killian, Sonali Parbhoo, Marzyeh Ghassemi | (参考訳) 安全-クリティカルな意思決定シナリオにおいて、最悪のケースの成果を特定できる、あるいはデッドエンドは、安全で信頼性の高いポリシーを実際に開発するために不可欠である。
これらの状況は、通常、環境の未知または確率的な特性や限られたオフライントレーニングデータによる不確実性を伴う。
その結果、任意の時点における決定の値は、その期待する効果の分布に基づいているべきである。
本稿では,決定の期待値の分布を明示的に推定することにより,最悪の決定点を特定する枠組みを提案する。
これらの推定は、設計されたタスクのリスク許容度に基づいて調整可能な方法で、デッドエンドの早期表示を可能にする。
集中治療室の重篤な患者が死が避けられない地点に到達するリスクを評価する際に,玩具領域における分布的デッドエンド発見(distded)の有用性を実証する。
distdedは発見前のアプローチよりも大幅に改善し、平均して10時間早くリスクの兆候を示し、検出率を20%向上させる。 In safety-critical decision-making scenarios being able to identify worst-case outcomes, or dead-ends is crucial in order to develop safe and reliable policies in practice. These situations are typically rife with uncertainty due to unknown or stochastic characteristics of the environment as well as limited offline training data. As a result, the value of a decision at any time point should be based on the distribution of its anticipated effects. We propose a framework to identify worst-case decision points, by explicitly estimating distributions of the expected return of a decision. These estimates enable earlier indication of dead-ends in a manner that is tunable based on the risk tolerance of the designed task. We demonstrate the utility of Distributional Dead-end Discovery (DistDeD) in a toy domain as well as when assessing the risk of severely ill patients in the intensive care unit reaching a point where death is unavoidable. We find that DistDeD significantly improves over prior discovery approaches, providing indications of the risk 10 hours earlier on average as well as increasing detection by 20%. | 翻訳日:2023-01-16 14:17:29 公開日:2023-01-13 |
# 強化学習と形状事前による不完全画像によるマルチターゲットランドマーク検出 Multi-Target Landmark Detection with Incomplete Images via Reinforcement Learning and Shape Prior ( http://arxiv.org/abs/2301.05392v1 ) ライセンス: Link先を確認 | Kaiwen Wan, Lei Li, Dengqiang Jia, Shangqi Gao, Wei Qian, Yingzhi Wu, Huandong Lin, Xiongzheng Mu, Xin Gao, Sijia Wang, Fuping Wu and Xiahai Zhuang | (参考訳) 医用画像は一般に視野限定(FOV)で取得され、不完全な関心領域(ROI)につながる可能性があるため、医用画像解析に大きな課題が生じる。
これは、学習ベースのマルチターゲットランドマーク検出において特に顕著であり、アルゴリズムは様々なFOVによる背景の変化を主に学習するために誤解を招く可能性がある。
ナビゲーションポリシーの学習に基づいて、ターゲットを直接予測するのではなく、強化学習(rl)ベースの手法は、この課題を効率的に解き放つ可能性を秘めている。
そこで本研究では,マルチターゲットランドマーク検出を同時に行うマルチエージェントRLフレームワークを提案する。
このフレームワークは、不完全または(そして)完全なイメージから学習して、グローバル構造に関する暗黙の知識を形成することを目的としており、これは、完全なテストイメージまたは不完全テストイメージからターゲットを検出するためのトレーニング段階で統合される。
不完全な画像からグローバルな構造情報をさらに明確に活用するために、形状モデルをRLプロセスに組み込むことを提案する。
この事前知識により、提案したRLモデルは、数十のターゲットを同時にローカライズするだけでなく、不完全画像の存在下で効果的かつ堅牢に機能する。
本手法の適用性と有効性を検証するため,体2エネルギーx線アブソルプティメトリー(dxa),心臓mri,頭部ctデータを用いて,診療所から不完全画像を含む多目的検出タスクに適用した。
その結果, 被写体dxaにおける平均距離誤差2.29 cm, 被写体dxaにおける平均距離誤差2.29 cm) を最大80%のトレーニング画像で推定し, 対象画像のfov外における画像情報欠落領域における未発見のランドマークを検出することができた(3次元半頭ctでは平均距離誤差6.84 mm)。 Medical images are generally acquired with limited field-of-view (FOV), which could lead to incomplete regions of interest (ROI), and thus impose a great challenge on medical image analysis. This is particularly evident for the learning-based multi-target landmark detection, where algorithms could be misleading to learn primarily the variation of background due to the varying FOV, failing the detection of targets. Based on learning a navigation policy, instead of predicting targets directly, reinforcement learning (RL)-based methods have the potential totackle this challenge in an efficient manner. Inspired by this, in this work we propose a multi-agent RL framework for simultaneous multi-target landmark detection. This framework is aimed to learn from incomplete or (and) complete images to form an implicit knowledge of global structure, which is consolidated during the training stage for the detection of targets from either complete or incomplete test images. To further explicitly exploit the global structural information from incomplete images, we propose to embed a shape model into the RL process. With this prior knowledge, the proposed RL model can not only localize dozens of targetssimultaneously, but also work effectively and robustly in the presence of incomplete images. We validated the applicability and efficacy of the proposed method on various multi-target detection tasks with incomplete images from practical clinics, using body dual-energy X-ray absorptiometry (DXA), cardiac MRI and head CT datasets. Results showed that our method could predict whole set of landmarks with incomplete training images up to 80% missing proportion (average distance error 2.29 cm on body DXA), and could detect unseen landmarks in regions with missing image information outside FOV of target images (average distance error 6.84 mm on 3D half-head CT). | 翻訳日:2023-01-16 14:17:11 公開日:2023-01-13 |
# 経時的医用画像合成のための深部生成潜在モデルにおける明示的時間埋め込み Explicit Temporal Embedding in Deep Generative Latent Models for Longitudinal Medical Image Synthesis ( http://arxiv.org/abs/2301.05465v1 ) ライセンス: Link先を確認 | Julian Sch\"on, Raghavendra Selvan, Lotte Nyg{\aa}rd, Ivan Richter Vogelius, Jens Petersen | (参考訳) 医療画像は現代の診断と治療において重要な役割を担っている。
病気や治療の進行の時間的性質はしばしば経時的データをもたらす。
コストと潜在的被害のため、ディープラーニングに必要な大規模医療データセットの取得は困難である。
医用画像合成はこの問題を軽減するのに役立つかもしれない。
しかし,これまでは縦断的なボリュームデータ合成が可能なgansの利用は限られていた。
そこで本稿では,近年の潜時空間画像編集の進歩を利用して,GANの潜時空間に時間依存性を明示的に埋め込む新しい共同学習手法を提案する。
これは従来の方法とは対照的に、連続的で滑らかで高品質な縦断データの合成を可能にします。
縦依存性の異なる3つのデータセットに対して,提案手法の有効性を示す。
すなわち、単純な画像変換、呼吸運動、腫瘍退縮をモデル化し、しかも最小の絡み合いを示す。
実装はhttps://github.com/julschoen/Temp-GAN.comで公開されている。 Medical imaging plays a vital role in modern diagnostics and treatment. The temporal nature of disease or treatment progression often results in longitudinal data. Due to the cost and potential harm, acquiring large medical datasets necessary for deep learning can be difficult. Medical image synthesis could help mitigate this problem. However, until now, the availability of GANs capable of synthesizing longitudinal volumetric data has been limited. To address this, we use the recent advances in latent space-based image editing to propose a novel joint learning scheme to explicitly embed temporal dependencies in the latent space of GANs. This, in contrast to previous methods, allows us to synthesize continuous, smooth, and high-quality longitudinal volumetric data with limited supervision. We show the effectiveness of our approach on three datasets containing different longitudinal dependencies. Namely, modeling a simple image transformation, breathing motion, and tumor regression, all while showing minimal disentanglement. The implementation is made available online at https://github.com/julschoen/Temp-GAN. | 翻訳日:2023-01-16 14:16:34 公開日:2023-01-13 |
# TransfQMix:マルチエージェント強化学習問題のグラフ構造を利用した変換器 TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems ( http://arxiv.org/abs/2301.05334v1 ) ライセンス: Link先を確認 | Matteo Gallici, Mario Martin, Ivan Masmitja | (参考訳) コーディネーションはマルチエージェント強化学習(MARL)の最も難しい側面の1つである。
一つの理由は、通常エージェントが互いに独立して行動を選択するからである。
独立政策の組み合わせから協調戦略が生まれるのを見るため、最近の研究では、各エージェントのチーム報酬への貢献を学習する集中型機能(CF)の使用に焦点を当てている。
しかしながら、環境がエージェントやCFに提示される構造は通常見過ごされる。
コーディネーション問題を記述するために用いられる特徴を潜在グラフ構造の頂点特徴として表現できることを示した。
ここでは、TransfQMixという、トランスフォーマーを使って、この潜伏構造を活用し、より良いコーディネーションポリシーを学ぶ新しいアプローチを紹介する。
我々のトランスエージェントは、観測可能なエンティティの状態に関するグラフ推論を行います。
トランスq混合器は,エージェントの内部状態と外部状態を含むより大きなグラフから単調混合関数を学習する。
TransfQMixは完全に転送可能で、エージェントのより大きなチームや小さなチームのコントロールとトレーニングに同じパラメータを使用できる。
これにより、トレーニング時間を節約し、転送学習、ゼロショット転送、カリキュラム学習など、MARLの一般的なポリシーを導出する、有望なアプローチの展開が可能になる。
我々はtransfqmixのスプレッドとstarcraft ii環境でのパフォーマンスを報告する。
どちらの設定でも、最先端のQ-Learningモデルよりも優れており、他の方法では解けない問題を解く上での有効性を示す。 Coordination is one of the most difficult aspects of multi-agent reinforcement learning (MARL). One reason is that agents normally choose their actions independently of one another. In order to see coordination strategies emerging from the combination of independent policies, the recent research has focused on the use of a centralized function (CF) that learns each agent's contribution to the team reward. However, the structure in which the environment is presented to the agents and to the CF is typically overlooked. We have observed that the features used to describe the coordination problem can be represented as vertex features of a latent graph structure. Here, we present TransfQMix, a new approach that uses transformers to leverage this latent structure and learn better coordination policies. Our transformer agents perform a graph reasoning over the state of the observable entities. Our transformer Q-mixer learns a monotonic mixing-function from a larger graph that includes the internal and external states of the agents. TransfQMix is designed to be entirely transferable, meaning that same parameters can be used to control and train larger or smaller teams of agents. This enables to deploy promising approaches to save training time and derive general policies in MARL, such as transfer learning, zero-shot transfer, and curriculum learning. We report TransfQMix's performances in the Spread and StarCraft II environments. In both settings, it outperforms state-of-the-art Q-Learning models, and it demonstrates effectiveness in solving problems that other methods can not solve. | 翻訳日:2023-01-16 14:15:44 公開日:2023-01-13 |
# 加算ガウス過程回帰に基づく最適なニューロン活性化機能を持つニューラルネットワーク Neural network with optimal neuron activation functions based on additive Gaussian process regression ( http://arxiv.org/abs/2301.05567v1 ) ライセンス: Link先を確認 | Sergei Manzhos, Manabu Ihara | (参考訳) フィードフォワードニューラルネットワーク(Feed-forward Neural Network, NN)は、科学や技術の多くの分野で広く使われている機械学習手法である。
単層NNでさえ普遍的な近似器であるが、その表現力は全てのニューロンで通常同じ単純なニューロン活性化関数(シグモイド関数など)を使用することによって制限される。
より柔軟なニューロン活性化機能により、ニューロンや層を減らし、計算コストを削減し、表現力を向上させることができる。
加算ガウス過程回帰(GPR)は各ニューロンに固有の最適なニューロン活性化関数を構築するのに有効であることを示す。
ニューラルネットワークパラメータの非線形適合を回避するアプローチも紹介されている。
その結果,線形回帰の強靭性の利点と,NNの高次表現力とを両立させることができた。
我々は水分子のポテンシャルエネルギー面を適合させることによってアプローチを実証する。
非線形最適化を一切必要とせずに、GPRに基づく付加的なアプローチは、従来のNNがオーバーフィッティングに苦しむ高精度なシステムにおいて、従来のNNよりも優れる。 Feed-forward neural networks (NN) are a staple machine learning method widely used in many areas of science and technology. While even a single-hidden layer NN is a universal approximator, its expressive power is limited by the use of simple neuron activation functions (such as sigmoid functions) that are typically the same for all neurons. More flexible neuron activation functions would allow using fewer neurons and layers and thereby save computational cost and improve expressive power. We show that additive Gaussian process regression (GPR) can be used to construct optimal neuron activation functions that are individual to each neuron. An approach is also introduced that avoids non-linear fitting of neural network parameters. The resulting method combines the advantage of robustness of a linear regression with the higher expressive power of a NN. We demonstrate the approach by fitting the potential energy surface of the water molecule. Without requiring any non-linear optimization, the additive GPR based approach outperforms a conventional NN in the high accuracy regime, where a conventional NN suffers more from overfitting. | 翻訳日:2023-01-16 14:08:59 公開日:2023-01-13 |
# 自発音声による多言語性アルツハイマー認知症 : 信号処理の課題 Multilingual Alzheimer's Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge ( http://arxiv.org/abs/2301.05562v1 ) ライセンス: Link先を確認 | Saturnino Luz, Fasih Haider, Davida Fromm, Ioulietta Lazarou, Ioannis Kompatsiaris, Brian MacWhinney | (参考訳) この信号処理グランドチャレンジ(SPGC)は、社会的および医学的関連性、すなわちアルツハイマー認知症(AD)の検出の難しい自動予測問題をターゲットにしている。
参加者は、自発音声データに基づく予測モデルを作成するために、信号処理と機械学習の手法を採用するよう招待された。
このチャレンジは、ある言語(英語)の音声に基づいて構築された予測モデルが、他の言語(ギリシャ語)に一般化する範囲を評価するために設計された。
我々の知る限り、多言語ad検出における音声信号の音響的特徴についての研究は行われていない。
ベースラインシステムは,音響特徴のアクティブデータ表現を伴う従来の機械学習アルゴリズムを用いて,アド検出時の精度73.91%,認知スコア予測における根平均二乗誤差4.95である。 This Signal Processing Grand Challenge (SPGC) targets a difficult automatic prediction problem of societal and medical relevance, namely, the detection of Alzheimer's Dementia (AD). Participants were invited to employ signal processing and machine learning methods to create predictive models based on spontaneous speech data. The Challenge has been designed to assess the extent to which predictive models built based on speech in one language (English) generalise to another language (Greek). To the best of our knowledge no work has investigated acoustic features of the speech signal in multilingual AD detection. Our baseline system used conventional machine learning algorithms with Active Data Representation of acoustic features, achieving accuracy of 73.91% on AD detection, and 4.95 root mean squared error on cognitive score prediction. | 翻訳日:2023-01-16 14:08:42 公開日:2023-01-13 |
# 協調システムモデリングの文脈におけるオントロジーの構成 Structuring ontologies in a context of collaborative system modelling ( http://arxiv.org/abs/2301.05478v1 ) ライセンス: Link先を確認 | Romy Lynn Chaib (INRAE), Rallou Thomopoulos (INRAE), Catherine Macombe (INRAE) | (参考訳) 将来の研究には、調査されたバリューチェーンの進化の可能性シナリオを作成するために、ステークホルダーと議論し、コラボレーションする必要がある。
しかし、利害関係者は1つのアイデアを参照する際に常に同じ言葉を使うわけではない。
したがって、オントロジーの構築と同化語彙は、必要なシナリオの構築に役立てる重要な変数を特定するために重要である。
それでも、非常に複雑で時間のかかる作業です。
本稿では,2つの補完的システム分析モデル(いわゆる"godet"と"mychoice"モデル)のニーズに適合したオントロジーを手作業で構築する手法について紹介する。 Prospective studies require discussing and collaborating with the stakeholders to create scenarios of the possible evolution of the studied value-chain. However, stakeholders don't always use the same words when referring to one idea. Constructing an ontology and homogenizing vocabularies is thus crucial to identify key variables which serve in the construction of the needed scenarios. Nevertheless, it is a very complex and timeconsuming task. In this paper we present the method we used to manually build ontologies adapted to the needs of two complementary system-analysis models (namely the "Godet" and the "MyChoice" models), starting from interviews of the agri-food system's stakeholders. | 翻訳日:2023-01-16 14:08:06 公開日:2023-01-13 |
# 異文化間ニュースイベントの分類 Classification of Cross-cultural News Events ( http://arxiv.org/abs/2301.05543v1 ) ライセンス: Link先を確認 | Abdul Sittar, Dunja Mladenic | (参考訳) 本稿では,ニュースイベントなどのテキストから文化の分析を支援する手法を提案し,異なる地域(117か国で異なる場所)にまたがる異なるカテゴリー(社会,ビジネス,健康,レクリエーション,科学,ショッピング,スポーツ,アーツ,コンピュータ,ゲーム,家庭)のニュースイベントを分類する上での有用性を示す。
私たちは、フォローする文化に基づいて国をグループ化し、そのコンテンツカテゴリに基づいてニュースイベントをフィルタリングします。
ニュースイベントはhofstedesの文化的次元の助けを借りて自動的にラベル付けされる。
異なるカテゴリにまたがるイベントの組み合わせを提示し、異なる分類方法のパフォーマンスを確認する。
また,文化を表現するのに適したセットを見つけるために,異なる特徴量の比較実験を行った。 We present a methodology to support the analysis of culture from text such as news events and demonstrate its usefulness on categorizing news events from different categories (society, business, health, recreation, science, shopping, sports, arts, computers, games and home) across different geographical locations (different places in 117 countries). We group countries based on the culture that they follow and then filter the news events based on their content category. The news events are automatically labelled with the help of Hofstedes cultural dimensions. We present combinations of events across different categories and check the performances of different classification methods. We also presents experimental comparison of different number of features in order to find a suitable set to represent the culture. | 翻訳日:2023-01-16 14:07:56 公開日:2023-01-13 |
# BLOOM:人工歌詞とアートの創造性と親和性 In BLOOM: Creativity and Affinity in Artificial Lyrics and Art ( http://arxiv.org/abs/2301.05402v1 ) ライセンス: Link先を確認 | Evan Crothers, Herna Viktor, Nathalie Japkowicz | (参考訳) 我々は,中国語の歌詞のオープンな生成に大規模な多言語言語モデル(BLOOM-176B)を適用し,人間のレビュアーによる一貫性と創造性を評価する。
大規模言語モデル出力(MAUVE)を評価するための現在の計算量には,創造的記述の評価に制限があることがわかった。
クリエイティビティの人間的概念では、歌詞は理解可能かつ独特であり、人間は特定の種類の機械によって生成された歌詞を評価し、人気アーティストの実際の歌詞よりも高いスコアを付ける必要がある。
アルバムリリースの本質的にマルチモーダルな性質にインスパイアされた我々は、中国語の安定拡散モデルを利用して高品質な歌詞誘導アルバムアートを作成し、アルバムやシングルのインスピレーションを求めるアーティストにとって創造的なアプローチを示す。
最後に,今後の研究のために,人気歌詞の中国語データセットであるMojimLyricsデータセットを紹介する。 We apply a large multilingual language model (BLOOM-176B) in open-ended generation of Chinese song lyrics, and evaluate the resulting lyrics for coherence and creativity using human reviewers. We find that current computational metrics for evaluating large language model outputs (MAUVE) have limitations in evaluation of creative writing. We note that the human concept of creativity requires lyrics to be both comprehensible and distinctive -- and that humans assess certain types of machine-generated lyrics to score more highly than real lyrics by popular artists. Inspired by the inherently multimodal nature of album releases, we leverage a Chinese-language stable diffusion model to produce high-quality lyric-guided album art, demonstrating a creative approach for an artist seeking inspiration for an album or single. Finally, we introduce the MojimLyrics dataset, a Chinese-language dataset of popular song lyrics for future research. | 翻訳日:2023-01-16 14:07:43 公開日:2023-01-13 |
# 安全管理のための航空事故報告の自然言語処理 Natural Language Processing of Aviation Occurrence Reports for Safety Management ( http://arxiv.org/abs/2301.05663v1 ) ライセンス: Link先を確認 | Patrick Jonk, Vincent de Vries, Rombout Wever, Georgios Sidiropoulos, Evangelos Kanoulas | (参考訳) 事故報告は安全管理システムで一般的に用いられる手法であり、危険や事故シナリオの頻度に関する洞察を得る。
安全データ分析を支持するため、レポートは分類によって分類されることが多い。
しかしながら、レポートの処理には安全アナリストによる多大な努力が必要であり、一般的な問題はラベル付けプロセスにおける相互変動である。
また、分類によっては報告が処理されない場合や、分類が文書の内容を完全にカバーしていない場合もある。
本稿では,航空安全発生報告の分析を支援するための自然言語処理法について検討する。
特に、分類モデルを用いたレポートの自動ラベリング、トピックモデルを用いたテキストの集合内の潜在トピックの抽出、可能性のある原因テキストの自動生成などが問題となっている。
実験の結果
i) 適切な条件下では、発生報告のラベル付けを変換器ベースの分類器で効果的に自動化することができる。
(ii)トピックモデリングは、レポートのコレクションに存在するトピックを見つけるのに役立ちます。
(iii)要約モデルを使うことは、可能性の高い原因テキストを生成するための有望な方向である。 Occurrence reporting is a commonly used method in safety management systems to obtain insight in the prevalence of hazards and accident scenarios. In support of safety data analysis, reports are often categorized according to a taxonomy. However, the processing of the reports can require significant effort from safety analysts and a common problem is interrater variability in labeling processes. Also, in some cases, reports are not processed according to a taxonomy, or the taxonomy does not fully cover the contents of the documents. This paper explores various Natural Language Processing (NLP) methods to support the analysis of aviation safety occurrence reports. In particular, the problems studied are the automatic labeling of reports using a classification model, extracting the latent topics in a collection of texts using a topic model and the automatic generation of probable cause texts. Experimental results showed that (i) under the right conditions the labeling of occurrence reports can be effectively automated with a transformer-based classifier, (ii) topic modeling can be useful for finding the topics present in a collection of reports, and (iii) using a summarization model can be a promising direction for generating probable cause texts. | 翻訳日:2023-01-16 14:07:27 公開日:2023-01-13 |
# GOHSP:視覚変換器のためのグラフと最適化に基づく不均一構造解析フレームワーク GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer ( http://arxiv.org/abs/2301.05345v1 ) ライセンス: Link先を確認 | Miao Yin, Burak Uzkent, Yilin Shen, Hongxia Jin, Bo Yuan | (参考訳) 最近提案されたビジョン変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な性能を示しており、これらは重要な基礎モデルのタイプと見なされている。
しかし、vitは通常、大規模なサイズで構築されるため、多くの実用的なリソース制約されたアプリケーションでの潜在的なデプロイを著しく阻害する。
この課題を軽減するため、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
しかし、現在のCNNやRNNの人気とは異なり、ViTモデルの構造化プルーニングはほとんど検討されていない。
本稿では,グラフと最適化に基づく構造的プルーニング(Structured Pruning for ViT model)の統一フレームワークであるGOHSPを提案する。
まず,注目点の重要度を測定するグラフベースランキングを作成し,その重要度を最適化した手法に統合し,不均一な構造的空間パターンをViTモデルに付加する。
実験の結果,提案したGOHSPは優れた圧縮性能を示した。
CIFAR-10データセットでは、ViT-Smallモデルに対して精度損失を伴わずに40%のパラメータを削減できる。
ImageNetデータセットでは,DeiT-TinyモデルとDeiT-Smallモデルでは30%と35%の間隔比で,既存の構造化プルーニング法に比べて1.65%と0.76%の精度向上を実現している。 The recently proposed Vision transformers (ViTs) have shown very impressive empirical performance in various computer vision tasks, and they are viewed as an important type of foundation model. However, ViTs are typically constructed with large-scale sizes, which then severely hinder their potential deployment in many practical resources-constrained applications. To mitigate this challenging problem, structured pruning is a promising solution to compress model size and enable practical efficiency. However, unlike its current popularity for CNNs and RNNs, structured pruning for ViT models is little explored. In this paper, we propose GOHSP, a unified framework of Graph and Optimization-based Structured Pruning for ViT models. We first develop a graph-based ranking for measuring the importance of attention heads, and the extracted importance information is further integrated to an optimization-based procedure to impose the heterogeneous structured sparsity patterns on the ViT models. Experimental results show that our proposed GOHSP demonstrates excellent compression performance. On CIFAR-10 dataset, our approach can bring 40% parameters reduction with no accuracy loss for ViT-Small model. On ImageNet dataset, with 30% and 35% sparsity ratio for DeiT-Tiny and DeiT-Small models, our approach achieves 1.65% and 0.76% accuracy increase over the existing structured pruning methods, respectively. | 翻訳日:2023-01-16 14:07:11 公開日:2023-01-13 |
# スマートウォーカにおける深層学習に基づく人間の動作復号法 Deep learning-based approaches for human motion decoding in smart walkers for rehabilitation ( http://arxiv.org/abs/2301.05575v1 ) ライセンス: Link先を確認 | Carolina Gon\c{c}alves, Jo\~ao M. Lopes, Sara Moccia, Daniele Berardini, Lucia Migliorelli, and Cristina P. Santos | (参考訳) 歩行障害は世界でも最も多い。
彼らの治療はリハビリテーション治療に依存しており、スマートウォーカーは患者の回復と自律性を高めるために導入され、臨床医の努力は減少している。
そのためには、できるだけ早く、人間の動きとニーズをデコードできるはずだ。
現在のウォーカーは、ウェアラブルや組み込みセンサー(慣性ユニット、力とホールのセンサー、レーザーなど)の情報を使って動きの意図を解読する。
スマートウォーカーには通常、人間の動きを直感的に理解するシームレスな人間とロボットのインタラクションが欠けている。
本稿では,RGB-Dカメラを用いた早期動作認識・検出問題として,人間の動作復号化に対処する非接触方式を提案する。
3つの異なるアプローチで組織化された異なるディープラーニングベースのアルゴリズムを研究し、スマートウォーカーの埋め込みカメラから、下部のrgb-dビデオシーケンスを処理し、それらを4つのクラス(ストップ、ウォーク、右/左)に分類した。
デバイスを使って歩く15人の健康な参加者によるカスタムデータセットを取得し、28800のバランスのとれたrgb-dフレームを作成し、ディープネットワークのトレーニングと評価を行った。
最良の結果は、チャネルアテンション機構を備えた畳み込みニューラルネットワークによって達成され、それぞれオフライン早期検出/認識とトライアルシミュレーションの精度99.61%と93%以上に達した。
ヒトの下半身の特徴が顕著な情報をエンコードし、リアルタイムアプリケーションに対するより強固な予測を促進するという仮説に従い、アルゴリズムの焦点はサイスメトリックを用いて評価され、値が30%よりわずかに高い値となった。
提案したアーキテクチャに焦点を絞った人間の動作復号戦略として,早期動作検出の成果が得られた。 Gait disabilities are among the most frequent worldwide. Their treatment relies on rehabilitation therapies, in which smart walkers are being introduced to empower the user's recovery and autonomy, while reducing the clinicians effort. For that, these should be able to decode human motion and needs, as early as possible. Current walkers decode motion intention using information of wearable or embedded sensors, namely inertial units, force and hall sensors, and lasers, whose main limitations imply an expensive solution or hinder the perception of human movement. Smart walkers commonly lack a seamless human-robot interaction, which intuitively understands human motions. A contactless approach is proposed in this work, addressing human motion decoding as an early action recognition/detection problematic, using RGB-D cameras. We studied different deep learning-based algorithms, organised in three different approaches, to process lower body RGB-D video sequences, recorded from an embedded camera of a smart walker, and classify them into 4 classes (stop, walk, turn right/left). A custom dataset involving 15 healthy participants walking with the device was acquired and prepared, resulting in 28800 balanced RGB-D frames, to train and evaluate the deep networks. The best results were attained by a convolutional neural network with a channel attention mechanism, reaching accuracy values of 99.61% and above 93%, for offline early detection/recognition and trial simulations, respectively. Following the hypothesis that human lower body features encode prominent information, fostering a more robust prediction towards real-time applications, the algorithm focus was also evaluated using Dice metric, leading to values slightly higher than 30%. Promising results were attained for early action detection as a human motion decoding strategy, with enhancements in the focus of the proposed architectures. | 翻訳日:2023-01-16 14:06:47 公開日:2023-01-13 |
# 機械的解釈可能性によるグラッキングの進展対策 Progress measures for grokking via mechanistic interpretability ( http://arxiv.org/abs/2301.05217v2 ) ライセンス: Link先を確認 | Neel Nanda and Lawrence Chan and Tom Lieberum and Jess Smith and Jacob Steinhardt | (参考訳) ニューラルネットワークは、パラメータの量、トレーニングデータ、トレーニングステップのスケールアップから、定性的に新しい能力が生まれる、創発的な振る舞いを示すことが多い。
出現を理解する一つのアプローチは、一見不連続な質的変化を裏付ける連続的な \textit{progress measures} を見つけることである。
我々は、学習した振る舞いを個々のコンポーネントにリバースエンジニアリングすることで、メカニスティックな解釈可能性を通じて進捗測定を見出すことができると論じる。
そこで本研究では,モジュール付加タスクを訓練した小型変圧器による'grokking'現象について検討した。
離散フーリエ変換と三角比を用いて円周まわりの回転への付加を変換するアルゴリズムを,これらのネットワークで学習したアルゴリズムを完全にリバースエンジニアリングする。
本アルゴリズムは,アクティベーションと重みを解析し,フーリエ空間でアブレーションを行うことで検証する。
この理解に基づいて、トレーニングのダイナミクスを学習し、トレーニングを3つの連続フェーズ(記憶、回路形成、クリーンアップ)に分割するための進捗対策を定義する。
以上の結果から,突然のシフトではなく,重みに符号化された構造機構の段階的な増幅と,その後の記憶成分の除去が示唆された。 Neural networks often exhibit emergent behavior, where qualitatively new capabilities arise from scaling up the amount of parameters, training data, or training steps. One approach to understanding emergence is to find continuous \textit{progress measures} that underlie the seemingly discontinuous qualitative changes. We argue that progress measures can be found via mechanistic interpretability: reverse-engineering learned behaviors into their individual components. As a case study, we investigate the recently-discovered phenomenon of ``grokking'' exhibited by small transformers trained on modular addition tasks. We fully reverse engineer the algorithm learned by these networks, which uses discrete Fourier transforms and trigonometric identities to convert addition to rotation about a circle. We confirm the algorithm by analyzing the activations and weights and by performing ablations in Fourier space. Based on this understanding, we define progress measures that allow us to study the dynamics of training and split training into three continuous phases: memorization, circuit formation, and cleanup. Our results show that grokking, rather than being a sudden shift, arises from the gradual amplification of structured mechanisms encoded in the weights, followed by the later removal of memorizing components. | 翻訳日:2023-01-16 11:57:39 公開日:2023-01-13 |
# 高密度顕微鏡データにおける高速スプライン検出 Fast spline detection in high density microscopy data ( http://arxiv.org/abs/2301.04460v2 ) ライセンス: Link先を確認 | Albert Alonso and Julius B. Kirkegaard | (参考訳) 生体顕微鏡データのコンピュータ支援分析は,汎用深層学習技術の利用により大幅に改善されている。
しかし、多分子系の顕微鏡的研究では、衝突と重なりの問題は依然として困難である。
これは特に、線虫をクロールしたり、精子を泳いだり、真核生物や原核生物の鞭毛を叩くような細い体から成るシステムに当てはまる。
そこで,本研究では,一般的なモチーフと重なり合うスプラインの正確な形状軌跡を抽出する,エンドツーエンドの深層学習手法を開発した。
提案手法は,特徴キーポイントの定義や検出が難しい低解像度設定で動作する。
検出は高速で、同時に何千もの重なり合う生物を追跡する能力を示す。
我々のアプローチは応用分野に依存しないが,crawling caenorhabditis elegansの密集した実験において,その使用性の設定と実例を示す。
モデルトレーニングは、線虫運動の物理モデルを用いて、純粋に合成データに基づいて達成され、シミュレーションから実験ビデオまでモデルを一般化する能力を実証する。 Computer-aided analysis of biological microscopy data has seen a massive improvement with the utilization of general-purpose deep learning techniques. Yet, in microscopy studies of multi-organism systems, the problem of collision and overlap remains challenging. This is particularly true for systems composed of slender bodies such as crawling nematodes, swimming spermatozoa, or the beating of eukaryotic or prokaryotic flagella. Here, we develop a novel end-to-end deep learning approach to extract precise shape trajectories of generally motile and overlapping splines. Our method works in low resolution settings where feature keypoints are hard to define and detect. Detection is fast and we demonstrate the ability to track thousands of overlapping organisms simultaneously. While our approach is agnostic to area of application, we present it in the setting of and exemplify its usability on dense experiments of crawling Caenorhabditis elegans. The model training is achieved purely on synthetic data, utilizing a physics-based model for nematode motility, and we demonstrate the model's ability to generalize from simulations to experimental videos. | 翻訳日:2023-01-16 11:56:58 公開日:2023-01-13 |
# lenet:マルチスケール畳み込みを考慮した軽量で効率的なlidarセマンティクスセグメンテーション LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using Multi-Scale Convolution Attention ( http://arxiv.org/abs/2301.04275v2 ) ライセンス: Link先を確認 | Ben Ding | (参考訳) lidarセマンティックセグメンテーション(lidar semantic segmentation)は、ロボットや自動運転の知覚システムにとって不可欠なシーンの理解を車両に提供する。
本稿では,エンコーダ・デコーダアーキテクチャを持つ,軽量で効率的な投影型lidarセマンティクスセグメンテーションネットワークであるlenetを提案する。
エンコーダは、マルチスケールの特徴マップをキャプチャするための単純な畳み込みアテンションモジュールであるMSCAモジュールからなる。
このデコーダはIACモジュールで構成されており、双線形補間を用いて多重解像度特徴写像と1つの畳み込み層をアップサンプリングし、以前の次元特徴と現在の次元特徴を統合する。
IACは非常に軽量で、複雑さとストレージコストを劇的に削減します。
さらに,複数の補助セグメンテーションヘッドを導入し,ネットワークの精度をさらに向上させる。
我々は,各コンポーネントが最終性能にどのように貢献するかを示す,詳細な定量的実験を行った。
提案手法をよく知られたベンチマーク(semantickitti)で評価し,提案手法が最先端のセマンティクスセグメンテーション手法よりも軽量かつ効果的であることを実証した。 LiDAR semantic segmentation can provide vehicles with a rich understanding of scene, which is essential to the perception system in robotics and autonomous driving. In this paper, we propose LENet, a lightweight and efficient projection-based LiDAR semantic segmentation network, which has an encoder-decoder architecture. The encoder consists of a set of MSCA module, which is a simple convolutional attention module to capture multi-scale feature maps. The decoder consists of IAC module, which uses bilinear interpolation to upsample the multi-resolution feature maps and a single convolution layer to integrate the previous and current dimensional features. IAC is very lightweight and dramatically reduces the complexity and storage cost. Moreover, we introduce multiple auxiliary segmentation heads to further refine the network accuracy. We have conducted detailed quantitative experiments, which shows how each component contributes to the final performance. We evaluate our approach on well known public benchmarks (SemanticKITTI), which demonstrates our proposed LENet is more lightweight and effective than state-of-the-art semantic segmentation approaches. | 翻訳日:2023-01-16 11:56:39 公開日:2023-01-13 |
# クリップの対比による映像の要約学習 Learning to Summarize Videos by Contrasting Clips ( http://arxiv.org/abs/2301.05213v2 ) ライセンス: Link先を確認 | Ivan Sosnovik, Artem Moskalev, Cees Kaandorp, Arnold Smeulders | (参考訳) ビデオ要約は、ストーリーをできるだけ元のストーリーに近づけるビデオの一部を選ぶことを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに焦点を当てている。
動画の数が指数関数的に増加するにつれ、ラベル付きアノテーションなしで意味のある要約を学習できるメソッドの必要性が高まっている。
本稿では,教師なし動画の要約を最大限活用しつつ,いくつかの個人化されたラベルをアドオンとして集中させることを目的としている。
そこで我々は,映像要約の鍵となる要件を定式化する。
そこで,両質問に対する回答として,コントラスト学習を提案する。
コントラストビデオ要約(csum)をさらに強化するため,既存の手法で採用されている平均ビデオ機能ではなく,トップk機能をコントラストする手法を提案する。
いくつかのベンチマーク実験により,ラベル付きデータが提供されない場合,本手法が有意義かつ多様な要約を可能にすることが示された。 Video summarization aims at choosing parts of a video that narrate a story as close as possible to the original one. Most of the existing video summarization approaches focus on hand-crafted labels. As the number of videos grows exponentially, there emerges an increasing need for methods that can learn meaningful summarizations without labeled annotations. In this paper, we aim to maximally exploit unsupervised video summarization while concentrating the supervision to a few, personalized labels as an add-on. To do so, we formulate the key requirements for the informative video summarization. Then, we propose contrastive learning as the answer to both questions. To further boost Contrastive video Summarization (CSUM), we propose to contrast top-k features instead of a mean video feature as employed by the existing method, which we implement with a differentiable top-k feature selector. Our experiments on several benchmarks demonstrate, that our approach allows for meaningful and diverse summaries when no labeled data is provided. | 翻訳日:2023-01-16 11:56:17 公開日:2023-01-13 |