このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230501となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 2次元グラフを用いた3次元分子幾何解析 3D Molecular Geometry Analysis with 2D Graphs ( http://arxiv.org/abs/2305.13315v1 ) ライセンス: Link先を確認 | Zhao Xu, Yaochen Xie, Youzhi Luo, Xuan Zhang, Xinyi Xu, Meng Liu, Kaleb Dickerson, Cheng Deng, Maho Nakata, Shuiwang Ji | (参考訳) 分子の基底状態3次元ジオメトリは多くの分子解析タスクに必須である。
現代の量子力学的手法は正確な3dジオメトリを計算できるが、計算は不可能である。
現在、2次元グラフからの基底状態3次元分子ジオメトリーの効率的な代替手段が不足している。
本稿では,分子グラフから3次元ジオメトリを予測するための新しいディープラーニングフレームワークを提案する。
この目的のために、分子グラフから基底状態のジオメトリをよりよく捉えるための平衡メッセージパッシングニューラルネットワーク(EMPNN)を開発した。
3次元分子幾何学解析のためのテストベッドとして,大規模分子幾何学データセット,データ分割,評価プロトコルを含むベンチマークを開発した。
実験の結果,EMPNNはRDKitや他の深層学習手法よりも高精度な地上3D測地を効率的に予測できることがわかった。
また,提案手法は,プロパティ予測タスクにおける自己教師付き学習手法よりも優れていた。 Ground-state 3D geometries of molecules are essential for many molecular analysis tasks. Modern quantum mechanical methods can compute accurate 3D geometries but are computationally prohibitive. Currently, an efficient alternative to computing ground-state 3D molecular geometries from 2D graphs is lacking. Here, we propose a novel deep learning framework to predict 3D geometries from molecular graphs. To this end, we develop an equilibrium message passing neural network (EMPNN) to better capture ground-state geometries from molecular graphs. To provide a testbed for 3D molecular geometry analysis, we develop a benchmark that includes a large-scale molecular geometry dataset, data splits, and evaluation protocols. Experimental results show that EMPNN can efficiently predict more accurate ground-state 3D geometries than RDKit and other deep learning methods. Results also show that the proposed framework outperforms self-supervised learning methods on property prediction tasks. | 翻訳日:2023-05-28 05:10:51 公開日:2023-05-01 |
# MARS: 車両損傷事例セグメンテーションのためのシークエンシャル・クアドツリーノードを用いたマスク注意保持 MARS: Mask Attention Refinement with Sequential Quadtree Nodes for Car Damage Instance Segmentation ( http://arxiv.org/abs/2305.04743v1 ) ライセンス: Link先を確認 | Teerapong Panboonyuen, Naphat Nithisopa, Panin Pienroj, Laphonchai Jirachuphun, Chaiwasut Watthanasirikrit, Naruepon Pornwiriyakul | (参考訳) 自動車保険業界にとって不運による自動車被害の評価は重要である。
しかし、ディープラーニングネットワークは入力として車の損傷画像用に設計されておらず、セグメンテッドマスクはいまだに非常に粗いため、現実のアプリケーションでは精度が不十分である。
本稿では,車両損傷事例分割のためのmars(mask attentionfine with sequential quadtree node)を提案する。
我々のMARSは、シーケンシャルなクアッドツリーノード層とクアッドツリートランスフォーマーの間のグローバルな依存関係を引き出す自己注意機構を示し、チャネル重みを補正し、高精度なインスタンスマスクを予測する。
広範囲にわたる実験により,mars は +1.3 maskap ベースの r50-fpn バックボーンと +2.3 maskap ベースの r101-fpn バックボーンによって,マスキング r-cnn [9] や pointrend [14] や mask transfiner [13] といった3つの人気のあるベンチマークで,最先端 (sota) インスタンスのセグメンテーション法を上回っていることが証明された。
私たちのデモはhttps://www.marssolution.ioで公開されています。 Evaluating car damages from misfortune is critical to the car insurance industry. However, the accuracy is still insufficient for real-world applications since the deep learning network is not designed for car damage images as inputs, and its segmented masks are still very coarse. This paper presents MARS (Mask Attention Refinement with Sequential quadtree nodes) for car damage instance segmentation. Our MARS represents self-attention mechanisms to draw global dependencies between the sequential quadtree nodes layer and quadtree transformer to recalibrate channel weights and predict highly accurate instance masks. Our extensive experiments demonstrate that MARS outperforms state-of-the-art (SOTA) instance segmentation methods on three popular benchmarks such as Mask R-CNN [9], PointRend [14], and Mask Transfiner [13], by a large margin of +1.3 maskAP-based R50-FPN backbone and +2.3 maskAP-based R101-FPN backbone on Thai car-damage dataset. Our demos are available at https://www.marssolution.io. | 翻訳日:2023-05-14 21:07:39 公開日:2023-05-01 |
# 相関型マルチレベルマルチモーダル学習による複数エネルギー源の異常検出 Correlation-Driven Multi-Level Multimodal Learning for Anomaly Detection on Multiple Energy Sources ( http://arxiv.org/abs/2305.02323v1 ) ライセンス: Link先を確認 | Taehee Kim and Hyuk-Yoon Kwon | (参考訳) 高度計測インフラ(AMI)はインテリジェントエネルギー消費測定システムとして広く利用されている。
電力はamiによって収集できる代表的なエネルギー源であり、異常なエネルギー消費を検出する既存の研究のほとんどは単一のエネルギー源、すなわち電力に焦点を当てている。
近年, 水, ガス, 加熱などのエネルギー源も活発に収集されている。
その結果、複数のエネルギー源にまたがる異常検出のための統一的な手法を開発する必要があるが、この問題に取り組むための研究がほとんど行われていない。
この問題の本質的な難しさは、異常は通常アノテートされないという事実にある。
さらに、既存の異常定義は個々のエネルギー源のみに依存する。
本稿ではまず,個々のエネルギー源だけでなく,それらの相関も考慮し,異常を定義する手法を提案する。
次に,複数エネルギー源の異常検出のための相関型マルチレベルマルチモーダル学習モデルを提案する。
モデルの識別特性は、それらの相関の強さに基づいてマルチレベルに複数のエネルギー源を組み込む。
さらに,提案モデルを一般化し,相関性だけでなく非相関性も考慮し,任意の新エネルギー源とさらなる性能向上を両立させる。
3~5個のエネルギー源からなる実世界のデータセットを広範囲に実験した結果,提案モデルが既存のマルチモーダル学習および最近の時系列異常検出モデルよりも明らかに優れており,相関性や非相関性が高いエネルギー源の統合により,さらに性能の向上が期待できる。 Advanced metering infrastructure (AMI) has been widely used as an intelligent energy consumption measurement system. Electric power was the representative energy source that can be collected by AMI; most existing studies to detect abnormal energy consumption have focused on a single energy source, i.e., power. Recently, other energy sources such as water, gas, and heating have also been actively collected. As a result, it is necessary to develop a unified methodology for anomaly detection across multiple energy sources; however, research efforts have rarely been made to tackle this issue. The inherent difficulty with this issue stems from the fact that anomalies are not usually annotated. Moreover, existing works of anomaly definition depend on only individual energy sources. In this paper, we first propose a method for defining anomalies considering not only individual energy sources but also correlations between them. Then, we propose a new Correlation-driven Multi-Level Multimodal Learning model for anomaly detection on multiple energy sources. The distinguishing property of the model incorporates multiple energy sources in multi-levels based on the strengths of the correlations between them. Furthermore, we generalize the proposed model in order to integrate arbitrary new energy sources with further performance improvement, considering not only correlated but also non-correlated sources. Through extensive experiments on real-world datasets consisting of three to five energy sources, we demonstrate that the proposed model clearly outperforms the existing multimodal learning and recent time-series anomaly detection models, and we observe that our model makes further the performance improvement as more correlated or non-correlated energy sources are integrated. | 翻訳日:2023-05-05 18:22:45 公開日:2023-05-01 |
# 分散学習におけるスケーラブルなデータポイント評価 Scalable Data Point Valuation in Decentralized Learning ( http://arxiv.org/abs/2305.01657v1 ) ライセンス: Link先を確認 | Konstantin D. Pandl, Chun-Yin Huang, Ivan Beschastnikh, Xiaoxiao Li, Scott Thiebes, Ali Sunyaev | (参考訳) フェデレーションとスワムラーニングにおけるデータバリュエーションに関する既存の研究は、クライアント間のデータの独立性と同一分散(IID)において、クライアントのコントリビューションを評価することに焦点を当てている。
実際には、データはまれに分散IDである。
我々は、分散データ評価のためのDDValと呼ばれるアプローチを開発し、フェデレートおよびスワムラーニングにおける個々のデータポイントを評価する。
DDVal は k-nearest 近傍近似法による深い特徴の共有とShapley 値の近似に基づいている。
これにより、例えば、分散機械学習タスクにデータを提供する機関と個人を同時に報酬する新しいアプリケーションが可能になる。
DDValによるデータポイントの評価は,機関の貢献に関する階層的な結論を引き出すことが可能であり,既存のShapley値近似法よりもDDValの精度が高いことを実証的に示す。
具体的には、シャプリー値99.969 %、iid および非iidデータ分布を両機関で近似してコサイン類似度に達し、最高状態のアート法では99.301 %、97.250 %である。
DDValはクライアントの数ではなくデータポイントの数でスケールし、ログリニアな複雑さを持つ。
これは、指数的な複雑さを持つ既存のアプローチよりも好意的にスケールする。
ddvalは、データポイントがほとんどない多くのクライアント、例えば、8,000のデータポイントを持つ16以上のクライアントを持つ、データ分散シナリオにおいて特に効率的である。
DDValを分散システムに統合することにより、集中型フェデレーション学習だけでなく、Web3などの新興インターネット技術の研究と整合して、ユーザにアルゴリズムへのデータ提供に報いる分散スワム学習にも適していることを示す。 Existing research on data valuation in federated and swarm learning focuses on valuing client contributions and works best when data across clients is independent and identically distributed (IID). In practice, data is rarely distributed IID. We develop an approach called DDVal for decentralized data valuation, capable of valuing individual data points in federated and swarm learning. DDVal is based on sharing deep features and approximating Shapley values through a k-nearest neighbor approximation method. This allows for novel applications, for example, to simultaneously reward institutions and individuals for providing data to a decentralized machine learning task. The valuation of data points through DDVal allows to also draw hierarchical conclusions on the contribution of institutions, and we empirically show that the accuracy of DDVal in estimating institutional contributions is higher than existing Shapley value approximation methods for federated learning. Specifically, it reaches a cosine similarity in approximating Shapley values of 99.969 % in both, IID and non-IID data distributions across institutions, compared with 99.301 % and 97.250 % for the best state of the art methods. DDVal scales with the number of data points instead of the number of clients, and has a loglinear complexity. This scales more favorably than existing approaches with an exponential complexity. We show that DDVal is especially efficient in data distribution scenarios with many clients that have few data points - for example, more than 16 clients with 8,000 data points each. By integrating DDVal into a decentralized system, we show that it is not only suitable for centralized federated learning, but also decentralized swarm learning, which aligns well with the research on emerging internet technologies such as web3 to reward users for providing data to algorithms. | 翻訳日:2023-05-04 17:18:11 公開日:2023-05-01 |
# 相互作用スタイルの解明と解釈のための確率的形式モデリング Probabilistic Formal Modelling to Uncover and Interpret Interaction Styles ( http://arxiv.org/abs/2305.01656v1 ) ライセンス: Link先を確認 | Oana Andrei, Muffy Calder, Matthew Chalmers, Alistair Morrison | (参考訳) 本稿では,モバイルアプリのインタラクションスタイルを明らかにするために,隠れマルコフモデルと確率論的モデルチェックを推論するための機械学習の新たな組み合わせを応用した新しい計算手法を提案する。
これらのスタイルは、再設計を通知するために使用され、同じメソッドを使用して実装、デプロイ、分析される。
データセットはログされたユーザトレースであり、各バージョンの6ヶ月のデプロイメントで収集され、数千のユーザが関与し、異なる時間間隔に分割される。
この手法は、エンゲージメントの尺度のようなタスクや絶対的なメトリクスを仮定しないが、クラスタの教師なし推論と確率論的時間論理による分析によってスタイルを明らかにする。
どちらのバージョンも、使用初日/週/月の間にユーザによって採用されるスタイルと、第2と第3の月の間には明確な違いがありました。 We present a study using new computational methods, based on a novel combination of machine learning for inferring admixture hidden Markov models and probabilistic model checking, to uncover interaction styles in a mobile app. These styles are then used to inform a redesign, which is implemented, deployed, and then analysed using the same methods. The data sets are logged user traces, collected over two six-month deployments of each version, involving thousands of users and segmented into different time intervals. The methods do not assume tasks or absolute metrics such as measures of engagement, but uncover the styles through unsupervised inference of clusters and analysis with probabilistic temporal logic. For both versions there was a clear distinction between the styles adopted by users during the first day/week/month of usage, and during the second and third months, a result we had not anticipated. | 翻訳日:2023-05-04 17:17:34 公開日:2023-05-01 |
# データ欠落状況下での血圧予測:nhanesを用いた欠落データパターンとインプテーション法の解析 Predicting blood pressure under circumstances of missing data: An analysis of missing data patterns and imputation methods using NHANES ( http://arxiv.org/abs/2305.01655v1 ) ライセンス: Link先を確認 | Harish Chauhan, Nikunj Gupta, Zoe Haskell-Craig | (参考訳) 世界保健機関(WHO)は、心臓血管疾患(CVD)を、冠動脈疾患や脳卒中(WHO 21)を含む「心臓と血管の障害のグループ」と定義している。
CVDは、血圧上昇、血糖上昇、血中脂質上昇、肥満などの「中間的危険因子」の影響を受けている。
これらは主に、身体的不活性、不健康な食事、塩の摂取量、タバコやアルコールの使用など、生活習慣や行動に影響されている。
しかし、貧困、ストレス、人種差別といった社会的・環境的な要因も重要な役割を果たす。
これらの「中間リスク要因」に関連する行動的・環境的要因を研究する研究者は、食事や身体活動に関する高品質で詳細な情報にアクセスする必要がある。
しかし、臨床および公衆衛生研究におけるデータが欠如していることは、ランダム化された治験と観察研究の両方に影響を及ぼす。
データの欠落の原因は、フォローアップの喪失、研究訪問の欠如、調査質問への回答の拒否、オフィス訪問中の記録されていない測定による。
欠落した値を扱う方法の1つは、不足している観察を単に削除することである(Complete Case Analysisと呼ばれる)。
これは、不足しているデータを含むデータポイントの削除(リストワイズ削除)として使われることは滅多になく、結果として少数のサンプルが生成され、精度に影響を及ぼす。
観測された値で変数を要約する(Available Case Analysis)など、欠落データを扱う別の方法が存在する。
NHANESデータセットにおける欠落データの広範性に触発されて、欠落データの異なるシミュレートパターンの下で、計算方法の解析を行う。
次に、これらのインプテーション法を適用して、食事や身体活動から血圧を予測するために、通常の最小二乗法を使用できる完全なデータセットを作成する。 The World Health Organization defines cardio-vascular disease (CVD) as "a group of disorders of the heart and blood vessels," including coronary heart disease and stroke (WHO 21). CVD is affected by "intermediate risk factors" such as raised blood pressure, raised blood glucose, raised blood lipids, and obesity. These are predominantly influenced by lifestyle and behaviour, including physical inactivity, unhealthy diets, high intake of salt, and tobacco and alcohol use. However, genetics and social/environmental factors such as poverty, stress, and racism also play an important role. Researchers studying the behavioural and environmental factors associated with these "intermediate risk factors" need access to high quality and detailed information on diet and physical activity. However, missing data are a pervasive problem in clinical and public health research, affecting both randomized trials and observational studies. Reasons for missing data can vary substantially across studies because of loss to follow-up, missed study visits, refusal to answer survey questions, or an unrecorded measurement during an office visit. One method of handling missing values is to simply delete observations for which there is missingness (called Complete Case Analysis). This is rarely used as deleting the data point containing missing data (List wise deletion) results in a smaller number of samples and thus affects accuracy. Additional methods of handling missing data exists, such as summarizing the variables with its observed values (Available Case Analysis). Motivated by the pervasiveness of missing data in the NHANES dataset, we will conduct an analysis of imputation methods under different simulated patterns of missing data. We will then apply these imputation methods to create a complete dataset upon which we can use ordinary least squares to predict blood pressure from diet and physical activity. | 翻訳日:2023-05-04 17:17:19 公開日:2023-05-01 |
# 核ヒルベルト空間を再現する安定性試験について On the stability test for reproducing kernel Hilbert spaces ( http://arxiv.org/abs/2305.02213v1 ) ライセンス: Link先を確認 | Mauro Bisiacco and Gianluigi Pillonetto | (参考訳) 再生カーネルヒルベルト空間(RKHS)は、すべての評価函数が線型で有界な特別なヒルベルト空間である。
これらはカーネルと呼ばれる正定値写像と一対一対応している。
安定なRKHSは関数のみを含むという付加的な性質を享受し、完全に可積分である。
rkhs安定性に必要な十分条件は文献で知られている: カーネルによって誘導される積分作用素は、$\mathcal{l}_{\infty}$、本質的に有界な(テスト)函数の空間、および絶対可積分函数の空間である$\mathcal{l}_1$の間の写像として有界である。
連続時間および離散時間クラス全体のマーサー(連続)カーネルを考えると、安定性テストは(ほとんど至る所で)値$\pm 1$のみを仮定するテスト関数よりもカーネル演算子の研究に還元できることが示される。
それらは、RKHS内の任意の単一元素の安定性を調べるのに必要な機能である。
このようにして、RKHS安定性試験は、単一の線形時間不変系の境界入力境界出力(BIBO)安定性に関する直接的な結果のエレガントな一般化となる。 Reproducing kernel Hilbert spaces (RKHSs) are special Hilbert spaces where all the evaluation functionals are linear and bounded. They are in one-to-one correspondence with positive definite maps called kernels. Stable RKHSs enjoy the additional property of containing only functions and absolutely integrable. Necessary and sufficient conditions for RKHS stability are known in the literature: the integral operator induced by the kernel must be bounded as map between $\mathcal{L}_{\infty}$, the space of essentially bounded (test) functions, and $\mathcal{L}_1$, the space of absolutely integrable functions. Considering Mercer (continuous) kernels in continuous-time and the entire discrete-time class, we show that the stability test can be reduced to the study of the kernel operator over test functions which assume (almost everywhere) only the values $\pm 1$. They represent the same functions needed to investigate stability of any single element in the RKHS. In this way, the RKHS stability test becomes an elegant generalization of a straightforward result concerning Bounded-Input Bounded-Output (BIBO) stability of a single linear time-invariant system. | 翻訳日:2023-05-04 14:18:28 公開日:2023-05-01 |
# chatgptとbing chatで考える対象としてのstem学習の強化--ケーススタディ Enhancing STEM Learning with ChatGPT and Bing Chat as Objects to Think With: A Case Study ( http://arxiv.org/abs/2305.02202v1 ) ライセンス: Link先を確認 | Marco Antonio Rodrigues Vasconcelos and Renato P. dos Santos | (参考訳) 本研究は,STEM教育の強化における概念理解の促進と,チャットGPTとBing Chat,高度な対話型AIの活用の可能性について,建設学者の理論的枠組みを用いて検討した。
シミュレーションSTEM学習経験において,学生とAIシステム間の広範囲な相互作用ログの分析に単一ケーススタディ手法を用いた。
結果は、学習者が反射的かつ批判的な思考、創造性、問題解決スキル、概念理解を発達させるためのChatGPTとBing Chatの能力を強調した。
しかし、AIを協調学習やその他の教育活動に統合することは、AI情報の正確性やAI情報の信頼性への懸念や人間のインタラクションの低下といった潜在的な制限に対処する上で、重要である。
この研究は、ChatGPTとBing Chatが、建設業者のレンズを通してSTEM教育に革命をもたらす有望な方法を提供し、包括的でアクセス可能な学習環境におけるエンゲージメントを促進することを結論付けている。 This study investigates the potential of ChatGPT and Bing Chat, advanced conversational AIs, as "objects-to-think-with," resources that foster reflective and critical thinking, and concept comprehension in enhancing STEM education, using a constructionist theoretical framework. A single-case study methodology was used to analyse extensive interaction logs between students and both AI systems in simulated STEM learning experiences. The results highlight the ability of ChatGPT and Bing Chat to help learners develop reflective and critical thinking, creativity, problem-solving skills, and concept comprehension. However, integrating AIs with collaborative learning and other educational activities is crucial, as is addressing potential limitations like concerns about AI information accuracy and reliability of the AIs' information and diminished human interaction. The study concludes that ChatGPT and Bing Chat as objects-to-think-with offer promising avenues to revolutionise STEM education through a constructionist lens, fostering engagement in inclusive and accessible learning environments. | 翻訳日:2023-05-04 14:17:40 公開日:2023-05-01 |
# 影響最大化のための深層グラフ表現学習と最適化 Deep Graph Representation Learning and Optimization for Influence Maximization ( http://arxiv.org/abs/2305.02200v1 ) ライセンス: Link先を確認 | Chen Ling, Junji Jiang, Junxiang Wang, My Thai, Lukas Xue, James Song, Meikang Qiu, Liang Zhao | (参考訳) 影響最大化(IM)は、ソーシャルネットワークから初期ユーザのセットを選択して、影響を受けたユーザの期待人数を最大化するものである。
研究者は様々な伝統的な手法の設計に大きな進歩を遂げており、理論設計と性能向上は限界に近づいている。
近年,学習に基づくIM手法が出現し,未知のグラフに対して従来の手法よりも強力な一般化が可能となった。
しかし、学習に基づくIM手法の開発は、依然として基本的な障害によって制限されている。
1) 目的機能を効果的に解決することの難しさ
2)多様化した拡散パターンを特徴付けることの難しさ
3) 様々なノード分散制約IM変種下での解の適応が困難である。
以上の課題に対処するため、種集合の潜在表現を生成的特徴付ける新しいフレームワークDeepIMを設計し、データ駆動・エンドツーエンド方式で多種多様な情報拡散パターンを学習することを提案する。
最後に,柔軟なノード集中度に基づく予算制約の下で最適なシード集合を推定する新しい目的関数を設計する。
DeepIMの総合的な性能を示すために、合成データセットと実世界のデータセットの両方で大規模な分析を行った。
コードとデータは、https://github.com/triplej0079/DeepIM.comで入手できる。 Influence maximization (IM) is formulated as selecting a set of initial users from a social network to maximize the expected number of influenced users. Researchers have made great progress in designing various traditional methods, and their theoretical design and performance gain are close to a limit. In the past few years, learning-based IM methods have emerged to achieve stronger generalization ability to unknown graphs than traditional ones. However, the development of learning-based IM methods is still limited by fundamental obstacles, including 1) the difficulty of effectively solving the objective function; 2) the difficulty of characterizing the diversified underlying diffusion patterns; and 3) the difficulty of adapting the solution under various node-centrality-constrained IM variants. To cope with the above challenges, we design a novel framework DeepIM to generatively characterize the latent representation of seed sets, and we propose to learn the diversified information diffusion pattern in a data-driven and end-to-end manner. Finally, we design a novel objective function to infer optimal seed sets under flexible node-centrality-based budget constraints. Extensive analyses are conducted over both synthetic and real-world datasets to demonstrate the overall performance of DeepIM. The code and data are available at: https://github.com/triplej0079/DeepIM. | 翻訳日:2023-05-04 14:16:41 公開日:2023-05-01 |
# 非自明な通信複雑性からの非局所性の厳密な限界 : 非対称ゲートノイズを用いた信頼性計算 Tight Limits on Nonlocality from Nontrivial Communication Complexity; a.k.a. Reliable Computation with Asymmetric Gate Noise ( http://arxiv.org/abs/1809.09748v5 ) ライセンス: Link先を確認 | Noah Shutty, Mary Wootters, Patrick Hayden | (参考訳) ある種の超量子非局所相関の存在が通信複雑性の崩壊を引き起こすことは、長い間知られている。
任意の非局所二元関数が一定の量の通信量で評価できる世界の愚かさは、量子力学と不正確な物理理論を区別するためのタンタライズな方法を与える。
我々は2つの結果によって、その視点の存続可能性に直接対処する。
まず, 最大当選確率が量子値を超える物理理論において, 通信複雑性が崩壊するような非局所ゲームを示す。
第2に,この一連の調査を開始したCHSHゲームについて考察する。
この場合、量子値はおよそ0.85であるが、約0.91の勝利確率が通信複雑性を崩壊させることが知られている。
以上の結果から,CHSH相関を特徴づけるには通信複雑性公理が不十分であることが示唆された。
どちらの結果も、信頼性の高い古典計算に関する新たな洞察に基づいている。
第一は増幅と信頼度計算の等価性の形式化を,第二は雑音xorとゲートの式を用いた信頼度計算のしきい値の上界から導出する。 It has long been known that the existence of certain superquantum nonlocal correlations would cause communication complexity to collapse. The absurdity of a world in which any nonlocal binary function could be evaluated with a constant amount of communication in turn provides a tantalizing way to distinguish quantum mechanics from incorrect theories of physics; the statement "communication complexity is nontrivial" has even been conjectured to be a concise information-theoretic axiom for characterizing quantum mechanics. We directly address the viability of that perspective with two results. First, we exhibit a nonlocal game such that communication complexity collapses in any physical theory whose maximal winning probability exceeds the quantum value. Second, we consider the venerable CHSH game that initiated this line of inquiry. In that case, the quantum value is about 0.85 but it is known that a winning probability of approximately 0.91 would collapse communication complexity. We provide evidence that the 0.91 result is the best possible using a large class of proof strategies, suggesting that the communication complexity axiom is insufficient for characterizing CHSH correlations. Both results build on new insights about reliable classical computation. The first exploits our formalization of an equivalence between amplification and reliable computation, while the second follows from an upper bound on the threshold for reliable computation with formulas of noisy XOR and AND gates. | 翻訳日:2023-05-03 18:49:09 公開日:2023-05-01 |
# コミュニティ検出のためのPairwise Covariates-adjusted Block Model Pairwise Covariates-adjusted Block Model for Community Detection ( http://arxiv.org/abs/1807.03469v5 ) ライセンス: Link先を確認 | Sihan Huang, Jiajin Sun and Yang Feng | (参考訳) ネットワーク研究における最も根本的な問題の1つは、コミュニティ検出である。
確率ブロックモデル(sbm, stochastic block model, 確率ブロックモデル)は, 様々な推定法が開発され, コミュニティ検出一貫性が明らかにされている, 広く用いられているモデルである。
しかし、sbmは、同じコミュニティ内の全てのノードが確率的に等価であるという強い仮定によって制限されており、実用的用途には適さない可能性がある。
ペアワイズ共変量情報を含むsbmの一般化であるペアワイズ共変量調整確率ブロックモデル(pcabm)を提案する。
本研究では,共変量に対する係数の最大確率推定とコミュニティの割り当てについて検討した。
共変量とコミュニティ割り当ての係数推定は、適切な空間条件下で一致していることが示されている。
PCABMを効率的に解くために、調整付きスペクトルクラスタリング(SCWA)を導入する。
特定の条件下では,SCWAにおけるコミュニティ検出の誤差境界を導出し,コミュニティ検出の一貫性を示す。
さらに,ペアワイズ共変量に対するコミュニティ数と特徴選択の観点でモデル選択を調査し,対応する2つのアルゴリズムを提案する。
PCABMは、共変量情報にアクセス可能な場合、広範囲のシミュレーションおよび実ネットワークの下で、SBMまたは次数補正確率ブロックモデル(DCBM)と良好に比較する。 One of the most fundamental problems in network study is community detection. The stochastic block model (SBM) is a widely used model, for which various estimation methods have been developed with their community detection consistency results unveiled. However, the SBM is restricted by the strong assumption that all nodes in the same community are stochastically equivalent, which may not be suitable for practical applications. We introduce a pairwise covariates-adjusted stochastic block model (PCABM), a generalization of SBM that incorporates pairwise covariate information. We study the maximum likelihood estimates of the coefficients for the covariates as well as the community assignments. It is shown that both the coefficient estimates of the covariates and the community assignments are consistent under suitable sparsity conditions. Spectral clustering with adjustment (SCWA) is introduced to efficiently solve PCABM. Under certain conditions, we derive the error bound of community detection under SCWA and show that it is community detection consistent. In addition, we investigate model selection in terms of the number of communities and feature selection for the pairwise covariates, and propose two corresponding algorithms. PCABM compares favorably with the SBM or degree-corrected stochastic block model (DCBM) under a wide range of simulated and real networks when covariate information is accessible. | 翻訳日:2023-05-03 18:48:45 公開日:2023-05-01 |
# MassFormer:グラフ変換器を用いた小分子のタンデム質量スペクトル予測 MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using Graph Transformers ( http://arxiv.org/abs/2111.04824v3 ) ライセンス: Link先を確認 | Adamo Young, Bo Wang, Hannes R\"ost | (参考訳) タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
質量分析法は多くの領域で適用されているが、ほとんどの小さな分子は実験的参照スペクトルを欠いている。
70年以上にわたって、スペクトラム予測はこの分野の重要な課題であり続けている。
既存の深層学習法は分子のグローバル構造を利用せず、新しいデータへの一般化に困難をもたらす可能性がある。
本研究では,タンデム質量スペクトルを正確に予測する新しいモデルであるmassformerを提案する。
MassFormerはグラフトランスフォーマーアーキテクチャを使用して、分子内の原子間の長距離関係をモデル化する。
トランスフォーマーモジュールは、化学前訓練タスクによって得られたパラメータで初期化され、スペクトルデータに基づいて微調整される。
MassFormerは、複数のデータセットにおけるスペクトル予測の競合するアプローチよりも優れており、衝突エネルギーがスペクトルに与える影響に関する事前知識を回復することができる。
勾配に基づく帰属法を用いることで,モデルがフラグメントピーク間の関係を識別できることを実証する。
MassFormerの実用性をさらに強調するため、2つのスペクトル識別タスクにおいて既存の予測に基づく手法に適合または超過可能であることを示す。
当社のモデルとベースラインアプローチのオープンソース実装を提供し、この分野の今後の研究を促進することを目標にしています。 Tandem mass spectra capture fragmentation patterns that provide key structural information about a molecule. Although mass spectrometry is applied in many areas, the vast majority of small molecules lack experimental reference spectra. For over seventy years, spectrum prediction has remained a key challenge in the field. Existing deep learning methods do not leverage global structure in the molecule, potentially resulting in difficulties when generalizing to new data. In this work we propose a new model, MassFormer, for accurately predicting tandem mass spectra. MassFormer uses a graph transformer architecture to model long-distance relationships between atoms in the molecule. The transformer module is initialized with parameters obtained through a chemical pre-training task, then fine-tuned on spectral data. MassFormer outperforms competing approaches for spectrum prediction on multiple datasets, and is able to recover prior knowledge about the effect of collision energy on the spectrum. By employing gradient-based attribution methods, we demonstrate that the model can identify relationships between fragment peaks. To further highlight MassFormer's utility, we show that it can match or exceed existing prediction-based methods on two spectrum identification tasks. We provide open-source implementations of our model and baseline approaches, with the goal of encouraging future research in this area. | 翻訳日:2023-05-03 18:34:12 公開日:2023-05-01 |
# Kan拡張によるリソースモノトンの拡張 Extending Resource Monotones using Kan Extensions ( http://arxiv.org/abs/2206.09784v2 ) ライセンス: Link先を確認 | Robin Cockett, Isabelle Jianing Geng, Carlo Maria Scandolo, Priyaa Varshinee Srinivasan | (参考訳) 本稿では,gour と tomamichel が提案した資源理論のための単調の拡張に関する枠組みを一般化する。
資源理論のモノトーンは、資源の効用または値を表す理論において、実数を各資源に割り当てる。
グールとトミシェルは、資源理論がより大きな理論に完全に忠実に埋め込まれるときに、集合論的枠組みを用いて単調を拡張できる問題を研究した。
1つのリソース理論を1つの完全かつ忠実な包含ではなく別のリソース理論への関手変換が存在する場合のシナリオへの単調拡張の計算問題を一般化することができる。
本稿では,(一点的に)kan拡張が,モノトーンの拡張を記述・計算するための精密な分類フレームワークを提供することを示す。
カン拡張を用いて単調拡張を設定するため、資源理論の枠組みとして分割圏 (pCat) を導入し、資源理論間の関係を定式化する。
モノトンを pCat 関手として$([0,\infty], \leq)$ と記述し、カン拡大を用いて任意の pCat 関手に沿って拡張するモノトンを記述する。
本手法は,二成分純状態の絡み合いモノトンを二成分混合状態へ拡張し,古典的発散を量子集合へ拡張し,非一様モノトンを古典確率論から量子論へ拡張することにより,我々の枠組みがどのように機能するかを示す。 In this paper we generalize the framework proposed by Gour and Tomamichel regarding extensions of monotones for resource theories. A monotone for a resource theory assigns a real number to each resource in the theory signifying the utility or the value of the resource. Gour and Tomamichel studied the problem of extending monotones using set-theoretical framework when a resource theory embeds fully and faithfully into the larger theory. One can generalize the problem of computing monotone extensions to scenarios when there exists a functorial transformation of one resource theory to another instead of just a full and faithful inclusion. In this article, we show that (point-wise) Kan extensions provide a precise categorical framework to describe and compute such extensions of monotones. To set up monontone extensions using Kan extensions, we introduce partitioned categories (pCat) as a framework for resource theories and pCat functors to formalize relationship between resource theories. We describe monotones as pCat functors into $([0,\infty], \leq)$, and describe extending monotones along any pCat functor using Kan extensions. We show how our framework works by applying it to extend entanglement monotones for bipartite pure states to bipartite mixed states, to extend classical divergences to the quantum setting, and to extend a non-uniformity monotone from classical probabilistic theory to quantum theory. | 翻訳日:2023-05-03 18:15:37 公開日:2023-05-01 |
# オーディエンスを知る:リスナーサブトラクションを備えた基底言語モデルに特化した Know your audience: specializing grounded language models with listener subtraction ( http://arxiv.org/abs/2206.08349v2 ) ライセンス: Link先を確認 | Aaditya K. Singh, David Ding, Andrew Saxe, Felix Hill, Andrew K. Lampinen | (参考訳) 効果的なコミュニケーションには、各パートナーが共有する共通基盤など、各コミュニケーションコンテキストの慣用性に適応する必要がある。
人間は、人気のあるゲーム「ディクシット」など、多くの文脈で観客に専門化する能力を示す。
我々は、dixitからインスピレーションを得て、(訓練済み)話者モデルがターゲット画像を記述する際に(訓練済み)話者モデルが報われるマルチエージェント画像参照ゲームを定式化する。
適応するために、話者は異なるリスナーと共有する知識の違いを活用しなければならない。
クリップビジョンエンコーダと大規模言語モデル間の注意に基づくアダプタの微調整は,この対照的なマルチエージェント設定は,直接の監督なしに,報酬のみからコンテキスト依存の自然言語を特殊化する。
制御実験により,2つのリスナーで異なる認識の話者を訓練し,提案手法を用いることで,話者がリスナーの慣用性に適応できることを示す。
さらに,実世界データへの特殊化のゼロショット転送を示す。
本実験では, 複雑なマルチエージェント通信によって生じる興味深い研究課題を, 直接監督することなく, 基礎言語モデルを専門化する手法を実証する。 Effective communication requires adapting to the idiosyncrasies of each communicative context--such as the common ground shared with each partner. Humans demonstrate this ability to specialize to their audience in many contexts, such as the popular game Dixit. We take inspiration from Dixit to formulate a multi-agent image reference game where a (trained) speaker model is rewarded for describing a target image such that one (pretrained) listener model can correctly identify it among distractors, but another listener cannot. To adapt, the speaker must exploit differences in the knowledge it shares with the different listeners. We show that finetuning an attention-based adapter between a CLIP vision encoder and a large language model in this contrastive, multi-agent setting gives rise to context-dependent natural language specialization from rewards only, without direct supervision. Through controlled experiments, we show that training a speaker with two listeners that perceive differently, using our method, allows the speaker to adapt to the idiosyncracies of the listeners. Furthermore, we show zero-shot transfer of the specialization to real-world data. Our experiments demonstrate a method for specializing grounded language models without direct supervision and highlight the interesting research challenges posed by complex multi-agent communication. | 翻訳日:2023-05-03 18:15:13 公開日:2023-05-01 |
# アルゴリズムフェアネス・ユーティリティ・トレードオフの分析のための正義に基づく枠組み A Justice-Based Framework for the Analysis of Algorithmic Fairness-Utility Trade-Offs ( http://arxiv.org/abs/2206.02891v3 ) ライセンス: Link先を確認 | Corinna Hertweck, Joachim Baumann, Michele Loi, Eleonora Vigan\`o, Christoph Heitz | (参考訳) 予測に基づく意思決定システムでは、異なる視点が相反する可能性がある: 意思決定者の短期的ビジネス目標はしばしば、公平に扱われる意思決定者の願望と矛盾する。
これら2つの視点のバランスは価値の問題である。
しかし、これらの値はしばしば意思決定システムの実装の技術的に隠されている。
本稿では,これらの価値ある選択を明確にする枠組みを提案する。
意思決定者の視点と意思決定主体のバランスをとる決定ルールを見いだしたいという設定に焦点を合わせます。
我々は、意思決定者の有用性と意思決定者に対する公平性を評価するために、両方の視点を形式化するアプローチを提供する。
どちらの場合も、意思決定者や意思決定の主題から価値を引き出して、測定可能なものに変えるという考え方です。
公正性評価のために、分配的正義の理論とアルゴリズム文学に基づいて、実用性(または福祉)の公平な分布がどのようなものであるかを問う。
これにより公正度スコアが導出され、意思決定者のユーティリティと比較されます。
訓練されたモデルを与えられ、決定ルールを選ばなければならない設定にフォーカスするため、私たちはparetoの効率性という概念を使って決定ルールを比較します。
提案するフレームワークは,意思決定システムの実装と監査支援の両立を図り,意思決定システムに実装された価値を再検討する。 In prediction-based decision-making systems, different perspectives can be at odds: The short-term business goals of the decision makers are often in conflict with the decision subjects' wish to be treated fairly. Balancing these two perspectives is a question of values. However, these values are often hidden in the technicalities of the implementation of the decision-making system. In this paper, we propose a framework to make these value-laden choices clearly visible. We focus on a setting in which we want to find decision rules that balance the perspective of the decision maker and of the decision subjects. We provide an approach to formalize both perspectives, i.e., to assess the utility of the decision maker and the fairness towards the decision subjects. In both cases, the idea is to elicit values from decision makers and decision subjects that are then turned into something measurable. For the fairness evaluation, we build on well-known theories of distributive justice and on the algorithmic literature to ask what a fair distribution of utility (or welfare) looks like. This allows us to derive a fairness score that we then compare to the decision maker's utility. As we focus on a setting in which we are given a trained model and have to choose a decision rule, we use the concept of Pareto efficiency to compare decision rules. Our proposed framework can both guide the implementation of a decision-making system and help with audits, as it allows us to resurface the values implemented in a decision-making system. | 翻訳日:2023-05-03 18:13:22 公開日:2023-05-01 |
# ディープラーニングのパフォーマンスデータが誤解を招く理由 Why Deep Learning's Performance Data Are Misleading ( http://arxiv.org/abs/2208.11228v3 ) ライセンス: Link先を確認 | Juyang Weng | (参考訳) これは理論的な論文であり、同じaiee 2023カンファレンスでの基調講演の共催論文である。
意識的な学習とは対照的に、AIの多くのプロジェクトはいわゆる"深層学習(deep learning)"を採用しており、その多くが素晴らしいパフォーマンスを与えている。
本稿では,2つの不正行為(「データ削除」と「トレーニングセット上でのテスト」)により,これらのパフォーマンスデータが欺くほど膨らんでいることを述べる。
本稿では,深層学習における「データ削除」と「トレーニングセットのテスト」と,それらが不正行為である理由を明らかにする。
単純な分類法が定義され、Nearest Neighbor With Threshold (NNWT)と呼ばれる。
NNWT法は、テストセットが著者の所有であり、記憶空間の量とトレーニング時間の両方が有限であるが、多くの深層学習法と同様に非有界である限り、検証セットと2つの不正行為を用いたテストセットでゼロ誤差に達するという定理が確立される。
しかし、NNWT法のような多くのディープラーニング手法は、真のテストセットでテストされたことがないので、すべて一般化できない。
なぜだ?
いわゆる「テストセット」は、トレーニングステージのポストセレクションステップで使用された。
実際、多くのディープラーニングプロジェクトで不正行為が行われたという証拠は、この論文の範囲を超えている。 This is a theoretical paper, as a companion paper of the keynote talk at the same conference AIEE 2023. In contrast to conscious learning, many projects in AI have employed so-called "deep learning" many of which seemed to give impressive performance. This paper explains that such performance data are deceptively inflated due to two misconducts: "data deletion" and "test on training set". This paper clarifies "data deletion" and "test on training set" in deep learning and why they are misconducts. A simple classification method is defined, called Nearest Neighbor With Threshold (NNWT). A theorem is established that the NNWT method reaches a zero error on any validation set and any test set using the two misconducts, as long as the test set is in the possession of the author and both the amount of storage space and the time of training are finite but unbounded like with many deep learning methods. However, many deep learning methods, like the NNWT method, are all not generalizable since they have never been tested by a true test set. Why? The so-called "test set" was used in the Post-Selection step of the training stage. The evidence that misconducts actually took place in many deep learning projects is beyond the scope of this paper. | 翻訳日:2023-05-03 18:05:27 公開日:2023-05-01 |
# 駆動型不均質エミッタによる多体キャビティ量子電磁力学 Many-body cavity quantum electrodynamics with driven inhomogeneous emitters ( http://arxiv.org/abs/2208.04345v2 ) ライセンス: Link先を確認 | Mi Lei, Rikuto Fukumori, Jake Rochman, Bihui Zhu, Manuel Endres, Joonhee Choi, Andrei Faraon | (参考訳) 光共振器に結合された量子エミッタは、キャビティ量子力学(cQED)の基本現象を研究するためのクインテシデントシステムであり、量子ビット、メモリ、トランスデューサとして働く量子デバイスで一般的に用いられる。
これまでの多くの実験的なcQED研究は、少数の同一のエミッタが弱い外部駆動と相互作用し、システムは単純で効果的なモデルで記述できる状態に焦点を当ててきた。
しかし、強い駆動を受ける無秩序で多体量子システムのダイナミクスは、量子応用におけるその重要性と可能性にもかかわらず、完全には研究されていない。
本稿では、ナノフォトニック共振器への高い協調性を有する固体エミッタの大型で不均質なアンサンブルが強励起下でどのように振る舞うかを研究する。
導電性不均質エミッタとキャビティ光子との相互作用によって引き起こされる量子干渉と集団応答により、キャビティ反射スペクトルの鋭い集合誘起透過性(cit)が発見される。
さらに、CITウィンドウ内のコヒーレント励起は、高速超放射から遅いサブ放射まで、非常に非線形な発光をもたらす。
多数体cQED状態におけるこれらの現象は、遅い光と周波数参照を達成するための新しいメカニズムを可能にし、固体超放射光レーザーへの道を開き、アンサンブルベースの量子配線の発展を知らせる。 Quantum emitters coupled to optical resonators are quintessential systems for exploring fundamental phenomena in cavity quantum electrodynamics (cQED) and are commonly used in quantum devices acting as qubits, memories and transducers. Many previous experimental cQED studies have focused on regimes in which a small number of identical emitters interact with a weak external drive, such that the system can be described with simple, effective models. However, the dynamics of a disordered, many-body quantum system subject to a strong drive have not been fully explored, despite its importance and potential in quantum applications. Here we study how a large, inhomogeneously broadened ensemble of solid-state emitters coupled with high cooperativity to a nanophotonic resonator behaves under strong excitation. We discover a sharp, collectively induced transparency (CIT) in the cavity reflection spectrum, resulting from quantum interference and collective response induced by the interplay between driven inhomogeneous emitters and cavity photons. Furthermore, coherent excitation within the CIT window leads to highly nonlinear optical emission, spanning from fast superradiance to slow subradiance. These phenomena in the many-body cQED regime enable new mechanisms for achieving slow light and frequency referencing, pave a way towards solid-state superradiant lasers and inform the development of ensemble-based quantum interconnects. | 翻訳日:2023-05-03 18:04:41 公開日:2023-05-01 |
# 超伝導量子ビット用モジュラーチューナブルカプラ Modular tunable coupler for superconducting qubits ( http://arxiv.org/abs/2207.06607v3 ) ライセンス: Link先を確認 | Daniel L. Campbell, Archana Kamal, Leonardo Ranzani, Michael Senatore, and Matthew LaHaye | (参考訳) モジュラーで多機能な量子インターコネクトハードウェアの開発は、量子情報プラットフォームをより大きなサイズと機能へと拡大する上で重要なステップである。
超伝導量子システムでは、2量子ビットゲート演算の実行、量子データバスのエンコードやデコード、あるいはモダリティの相互接続などにおいて、高速でよく制御されたチューナブル回路結合器が最重要視される。
本稿では,三接合形dcsquidにおける磁束制御干渉による可変結合を実現する,多用途で内部可変なダブルトランスモン結合器(dtc)アーキテクチャを提案する。
重要なことに、DTCは結合データキュービットまたは回路共振器とは独立に内部的に定義されたゼロカップリング状態を持つ。
これは、高忠実度2量子ゲート演算、量子ビットリードアウト、量子バス対向といったいくつかのアプリケーションにおいて、高速で堅牢な線形結合を実現するモジュラー設計要素として特に魅力的である。 The development of modular and versatile quantum interconnect hardware is a key next step in the scaling of quantum information platforms to larger size and greater functionality. For superconducting quantum systems, fast and well-controlled tunable circuit couplers will be paramount for achieving high fidelity and resource efficient connectivity, whether for performing two-qubit gate operations, encoding or decoding a quantum data bus, or interfacing across modalities. Here we propose a versatile and internally-tunable double-transmon coupler (DTC) architecture that implements tunable coupling via flux-controlled interference in a three-junction dcSQUID. Crucially, the DTC possesses an internally defined zero-coupling state that is independent of the coupled data qubits or circuit resonators. This makes it particular attractive as a modular and versatile design element for realizing fast and robust linear coupling in several applications such as high-fidelity two-qubit gate operations, qubit readout, and quantum bus interfacing. | 翻訳日:2023-05-03 18:03:23 公開日:2023-05-01 |
# アウトオブディストリビューション検出のための極端に簡単なアクティベーションシェーピング Extremely Simple Activation Shaping for Out-of-Distribution Detection ( http://arxiv.org/abs/2209.09858v2 ) ライセンス: Link先を確認 | Andrija Djurisic, Nebojsa Bozanic, Arjun Ashok, Rosanne Liu | (参考訳) トレーニングと機械学習モデルのデプロイメントの分離は、デプロイメントで遭遇したすべてのシナリオがトレーニング中に予測できるわけではないことを意味するため、トレーニングの進歩のみに依存することが限界となる。
アウト・オブ・ディストリビューション(OOD)検出は、モデルが目に見えない状況に対処する能力をテストする重要な領域である。
既存のOOD検出方法は、追加のトレーニングステップ、追加データ、あるいはトレーニングされたネットワークに非自明な変更を加える。
対照的に,本研究では,試料の後期層での活性化の大部分(例:90%)を除去し,残りの部分(例:10%)を簡易あるいは軽快に調整する,極端に単純でポストホックなオンザフライ活性化成形法であるASHを提案する。
形状は推論時に適用され、トレーニングデータから計算された統計は不要である。
実験により、この単純な処理は、ImageNet上で最先端のOOD検出を可能にするために、分布内および分布外区別を向上し、分布内精度を著しく低下させないことが示された。
ビデオ、アニメーション、コードはこちら。 https://andrijazz.github.io/ash The separation between training and deployment of machine learning models implies that not all scenarios encountered in deployment can be anticipated during training, and therefore relying solely on advancements in training has its limits. Out-of-distribution (OOD) detection is an important area that stress-tests a model's ability to handle unseen situations: Do models know when they don't know? Existing OOD detection methods either incur extra training steps, additional data or make nontrivial modifications to the trained network. In contrast, in this work, we propose an extremely simple, post-hoc, on-the-fly activation shaping method, ASH, where a large portion (e.g. 90%) of a sample's activation at a late layer is removed, and the rest (e.g. 10%) simplified or lightly adjusted. The shaping is applied at inference time, and does not require any statistics calculated from training data. Experiments show that such a simple treatment enhances in-distribution and out-of-distribution distinction so as to allow state-of-the-art OOD detection on ImageNet, and does not noticeably deteriorate the in-distribution accuracy. Video, animation and code can be found at: https://andrijazz.github.io/ash | 翻訳日:2023-05-03 17:55:20 公開日:2023-05-01 |
# ベル実験の最適統計解析 Optimal statistical analyses of Bell experiments ( http://arxiv.org/abs/2209.00702v4 ) ライセンス: Link先を確認 | Richard D. Gill | (参考訳) ベルのSやエバーハルトJの推定における統計的ノイズを低減するために,非シグナリング等式からの統計的偏差を用いて,より小型で信頼性の高いp値がベル型実験でどのように計算できるかを示す。
この手法は、2015年と2016年にデルフト、ミュンヘン、ウィーンでそれぞれ実施されたループホールフリーベル実験、1998年のWeihs et al.のインスブルック実験、2022年のミュンヘンでのZhang et al.(英語版)の実験にも応用され、この実験は、ディファクトインディペンデント量子鍵分配(DIQKD)のプロトコルの一部として、ループホールフリーベル実験の利用を調査している。 We show how both smaller and more reliable p-values can be computed in Bell-type experiments by using statistical deviations from no-signalling equalities to reduce statistical noise in the estimation of Bell's S or Eberhard's J. Further improvement is obtained by using Wilks' likelihood ratio test based on the four tetranomially distributed vectors of counts of the four different outcome combinations, one 4-vector for each of the four setting combinations. The methodology is illustrated by application to the loophole-free Bell experiments of 2015 and 2016 performed in Delft and Munich, at NIST, and in Vienna respectively; and also to the earlier Innsbruck experiment of Weihs et al. (1998) and the recent Munich experiment of Zhang et al. (2022), which investigates use of a loophole-free Bell experiment as part of a protocol for Device Independent Quantum Key Distribution, DIQKD. | 翻訳日:2023-05-03 17:54:30 公開日:2023-05-01 |
# 逐次変化点検出のためのニューラルネットワークの訓練 Training Neural Networks for Sequential Change-point Detection ( http://arxiv.org/abs/2210.17312v4 ) ライセンス: Link先を確認 | Junghwan Lee, Xiuyuan Cheng, Yao Xie | (参考訳) 変化点検出(change-point detection)として知られるデータストリームの急激な分布シフトを検出することは、統計処理と信号処理の根本的な問題である。
本稿では,ニューラルネットワーク(NN)のトレーニングによるオンライン変化点検出のための新しい手法を提案する。
この考え方は、ロジスティック損失によるニューラルネットワークのトレーニングがログライクな機能につながる可能性があるという観察に基づいている。
NN-CUSUMは,合成データと実世界のデータの両方を用いて高次元データを検出する。 Detecting an abrupt distributional shift of the data stream, known as change-point detection, is a fundamental problem in statistics and signal processing. We present a new approach for online change-point detection by training neural networks (NN), and sequentially cumulating the detection statistics by evaluating the trained discriminating function on test samples by a CUSUM recursion. The idea is based on the observation that training neural networks through logistic loss may lead to the log-likelihood function. We demonstrated the good performance of NN-CUSUM in the detection of high-dimensional data using both synthetic and real-world data. | 翻訳日:2023-05-03 17:45:20 公開日:2023-05-01 |
# ニューラルネットワークモデルにおける動詞の短期記憶特性 Characterizing Verbatim Short-Term Memory in Neural Language Models ( http://arxiv.org/abs/2210.13569v2 ) ライセンス: Link先を確認 | Kristijan Armeni, Christopher Honey, Tal Linzen | (参考訳) 自然言語列を予測するために言語モデルが訓練されると、各時点におけるその予測は、事前の文脈の表現に依存する。
事前のコンテキストに関するどのような情報が言語モデルで取得できるのか?
我々は、言語モデルが以前にテキストで発生した正確な単語を検索できるかどうかをテストした。
このパラダイムでは、言語モデル(トランスフォーマーとLSTM)が英語のテキストを処理し、名詞のリストが2回発生した。
検索は,第1リストから第2リストへのサブプライムの減少として運用した。
トランスフォーマーが最初のリストから名詞のアイデンティティと順序の両方を取り戻したことがわかった。
さらに、変圧器の回収は、より大きなコーパスとより大きなモデル深度で訓練されたときに著しく強化された。
最後に、事前トークンをインデックスする能力は、学習した注意パターンに依存する。
対照的に、LSTMは、リスト初期トークンや短いインターベンションテキストに限られる、精度の低い検索結果を示した。
LSTMの検索は名詞の順序に敏感ではなく,意味論的に一貫性のあるリストであった。
その結果、トランスフォーマーは、任意の遅延で個々のトークン表現を柔軟に検索できるワーキングメモリシステムに類似するものを実装しており、逆にLSTMは、先行トークンの粗いセマンティックガイストを最初期の項目に重み付けして維持した。 When a language model is trained to predict natural language sequences, its prediction at each moment depends on a representation of prior context. What kind of information about the prior context can language models retrieve? We tested whether language models could retrieve the exact words that occurred previously in a text. In our paradigm, language models (transformers and an LSTM) processed English text in which a list of nouns occurred twice. We operationalized retrieval as the reduction in surprisal from the first to the second list. We found that the transformers retrieved both the identity and ordering of nouns from the first list. Further, the transformers' retrieval was markedly enhanced when they were trained on a larger corpus and with greater model depth. Lastly, their ability to index prior tokens was dependent on learned attention patterns. In contrast, the LSTM exhibited less precise retrieval, which was limited to list-initial tokens and to short intervening texts. The LSTM's retrieval was not sensitive to the order of nouns and it improved when the list was semantically coherent. We conclude that transformers implemented something akin to a working memory system that could flexibly retrieve individual token representations across arbitrary delays; conversely, the LSTM maintained a coarser and more rapidly-decaying semantic gist of prior tokens, weighted toward the earliest items. | 翻訳日:2023-05-03 17:44:58 公開日:2023-05-01 |
# 自然科学のための人工知能ソリューションを開発する補完的スキルの学生グループ-幅広い採用に適した真の研究教育アプローチ Student groups of complementary skills developing artificial intelligence solutions for natural sciences -- an authentic research education approach suitable for wide adoption ( http://arxiv.org/abs/2210.08966v2 ) ライセンス: Link先を確認 | Sergey V Samsonau, Aziza Kurbonova, Lu Jiang, Hazem Lashen, Jiamu Bai, Theresa Merchant, Ruoxi Wang, Laiba Mehnaz, Zecheng Wang, Ishita Patil | (参考訳) 本稿では,自然科学研究者のための人工知能(AI)ソリューションを開発することによって,学生が真の研究経験を得る方法について報告する。
学生に教育的利益をもたらす一方で、我々のアプローチは、特定のニーズに対する機械学習の有用性を評価する機会を得た科学者に直接利益をもたらします。
これを実現するために、私たちは研究所と協力して、ニーズを明らかにし、特定すると同時に、学生チームはコンサルティングのようなアレンジメントを使用して、ユニークな問題に対するaiソリューションの発見、設計、開発に取り組んでいます。
本設計では,既存の研究教育のアプローチのほとんどに共通する障壁に対処し,様々な学校で広く採用されている。
これまでのところ、われわれのグループはニューヨーク大学(NYU)で5学期連続で活動しており、1年生から修士候補まで70人以上の学生を雇い、14人の協力者と共に15以上のプロジェクトに取り組んでいる。 We report a methodology in which students gain experience in authentic research by developing artificial intelligence (AI) solutions for researchers in natural sciences. While creating education benefits for students, our approach also directly benefits scientists, who get an opportunity to evaluate the usefulness of machine learning for their specific needs. In order to accomplish this, we work with research laboratories that reveal/specify the needs they have, and then our student teams work on the discovery, design, and development of an AI solution for unique problems using a consulting-like arrangement. Our design addresses common barriers which appear in most existing authentic research education approaches and thus is suitable for wide adoption at various schools. To date, our group has been operating at New York University (NYU) for five consecutive semesters and has engaged more than seventy students, ranging from first-year college students to master's candidates, and worked on more than 15 projects with 14 collaborators. | 翻訳日:2023-05-03 17:44:02 公開日:2023-05-01 |
# 伝送線路網に結合した超電導量子ビットのMaxwell-Schr\{o}dingerモデリング Maxwell-Schr\"{o}dinger Modeling of Superconducting Qubits Coupled to Transmission Line Networks ( http://arxiv.org/abs/2210.07923v2 ) ライセンス: Link先を確認 | Thomas E. Roth and Samuel T. Elkin | (参考訳) 超伝導回路量子情報技術では、量子ビット状態の制御と測定に古典的なマイクロ波パルスが用いられる。
現在、これらのマイクロ波パルスの設計は、量子ビット状態がどのようにマイクロ波パルスを修飾するかの自己整合的な相互作用を考慮しない単純な理論または数値モデルを用いている。
本稿では,超伝導量子ビットが一般伝送線路網に容量結合した場合の,これらの自己整合ダイナミクスを記述するための半古典的なMaxwell-Schr\"{o}dinger法の定式化と有限要素時間領域の離散化について述べる。
理論解析に適したシステムにおいて,トランスモンおよびフラックスニウム量子ビットの共通制御および測定手法に関連する鍵効果を特徴付けることにより,提案手法を検証する。
私たちの数値結果は、自己整合的な相互作用が不可欠であるシナリオも強調する。
マイクロ波を古典的に扱うことで、マイクロ波の量子統計が不要な多くの状況において、本手法は完全量子法よりもはるかに効率的である。
さらに,送信線システムを変更する際には,いかなる変更も必要としない。
将来的には,超伝導量子ビットのより効率的な制御および測定プロトコルを探索するために,より広い設計空間を迅速に探究することができる。 In superconducting circuit quantum information technologies, classical microwave pulses are applied to control and measure the qubit states. Currently, the design of these microwave pulses use simple theoretical or numerical models that do not account for the self-consistent interactions of how the qubit state modifies the applied microwave pulse. In this work, we present the formulation and finite element time domain discretization of a semiclassical Maxwell-Schr\"{o}dinger method for describing these self-consistent dynamics for the case of a superconducting qubit capacitively coupled to a general transmission line network. We validate the proposed method by characterizing key effects related to common control and measurement approaches for transmon and fluxonium qubits in systems that are amenable to theoretical analysis. Our numerical results also highlight scenarios where including the self-consistent interactions are essential. By treating the microwaves classically, our method is substantially more efficient than fully-quantum methods for the many situations where the quantum statistics of the microwaves are not needed. Further, our approach does not require any reformulations when the transmission line system is modified. In the future, our method can be used to rapidly explore broader design spaces to search for more effective control and measurement protocols for superconducting qubits. | 翻訳日:2023-05-03 17:43:44 公開日:2023-05-01 |
# deepgoplus推論の数値安定性 Numerical Stability of DeepGOPlus Inference ( http://arxiv.org/abs/2212.06361v2 ) ライセンス: Link先を確認 | In\'es Gonzalez Pepe, Yohan Chatelain, Gregory Kiar, Tristan Glatard | (参考訳) 畳み込みニューラルネットワーク(CNN)は現在、最も広く使用されているニューラルネットワークのひとつであり、多くの問題に対して最先端のパフォーマンスを実現している。
元々はコンピュータビジョンのタスクに当てはまるが、CNNは画像以外の空間的関係のあるデータでもうまく機能し、様々な分野に適用されてきた。
しかし、最近の研究は、他のディープラーニングモデルと同様に、cnnがノイズ注入に敏感であり、パフォーマンスを損なうことを強調している。
本稿では、その数値安定性を決定するために、タンパク質機能を予測するCNNであるDeepGOPlusの推論段階の浮動小数点演算の不正確さを定量化する。
さらに,DeepGOPlus推論に精度の低い浮動小数点形式を用いることで,メモリ消費と遅延を低減できる可能性を検討した。
これは、浮動小数点演算誤差を実験的に定量化するMonte Carlo Arithmeticと、カスタマイズ可能な浮動小数点演算精度フォーマットで結果をエミュレートするVPRECによって実現されている。
deepgoplusのモデルが環境にまたがって使用されるため、最も多くのノイズにさらされる可能性があるため、推論の段階で焦点が当てられる。
さらに, 推定段階がモデルの一部であり, 精度の低下によるスケールダウンに最も適していることが研究で示されている。
全体として、DeepGOPlus CNNの数値的不確実性は、現在の数値精度フォーマットでは極めて低いが、現在のモデルではより軽量になるような低い精度に還元することはできない。 Convolutional neural networks (CNNs) are currently among the most widely-used neural networks available and achieve state-of-the-art performance for many problems. While originally applied to computer vision tasks, CNNs work well with any data with a spatial relationship, besides images, and have been applied to different fields. However, recent works have highlighted how CNNs, like other deep learning models, are sensitive to noise injection which can jeopardise their performance. This paper quantifies the numerical uncertainty of the floating point arithmetic inaccuracies of the inference stage of DeepGOPlus, a CNN that predicts protein function, in order to determine its numerical stability. In addition, this paper investigates the possibility to use reduced-precision floating point formats for DeepGOPlus inference to reduce memory consumption and latency. This is achieved with Monte Carlo Arithmetic, a technique that experimentally quantifies floating point operation errors and VPREC, a tool that emulates results with customizable floating point precision formats. Focus is placed on the inference stage as it is the main deliverable of the DeepGOPlus model that will be used across environments and therefore most likely be subjected to the most amount of noise. Furthermore, studies have shown that the inference stage is the part of the model which is most disposed to being scaled down in terms of reduced precision. All in all, it has been found that the numerical uncertainty of the DeepGOPlus CNN is very low at its current numerical precision format, but the model cannot currently be reduced to a lower precision that might render it more lightweight. | 翻訳日:2023-05-03 17:37:11 公開日:2023-05-01 |
# RecD:Deep-to-Endディープラーニング推奨モデルトレーニングインフラストラクチャの重複 RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training Infrastructure ( http://arxiv.org/abs/2211.05239v4 ) ライセンス: Link先を確認 | Mark Zhao, Dhruv Choudhary, Devashish Tyagi, Ajay Somani, Max Kaplan, Sung-Han Lin, Sarunya Pumma, Jongsoo Park, Aarti Basant, Niket Agarwal, Carole-Jean Wu, Christos Kozyrakis | (参考訳) 本稿では,DLRM(Deep Learning Recommendation Model)トレーニングパイプライン間のエンドツーエンドインフラストラクチャ最適化スイートであるRecD(Recommendation Deduplication)を紹介する。
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
DLRMデータセットは相互作用から生成されるため、特徴重複が発生する。
各ユーザセッションは複数のトレーニングサンプルを生成することができるが、多くの機能の価値はこれらのサンプル間で変化しない。
recdがこのプロパティをエンドツーエンドで,デプロイされたトレーニングパイプラインを通じてどのように活用しているかを実証する。
RecDはデータセットストレージの削減とリソース要求の事前処理、トレーニングバッチ内の重複の最大化のために、データ生成パイプラインを最適化する。
RecDは新しいテンソルフォーマット、InverseKeyedJaggedTensors (IKJTs)を導入し、各バッチで機能値の重複を解消した。
DLRMモデルアーキテクチャがIKJTを活用してトレーニングスループットを大幅に向上させる方法を示す。
recdは業界規模のdlrmトレーニングシステムにおいて,最大2.48x,1.79x,3.71xのトレーニングと前処理スループットとストレージ効率を向上させる。 We present RecD (Recommendation Deduplication), a suite of end-to-end infrastructure optimizations across the Deep Learning Recommendation Model (DLRM) training pipeline. RecD addresses immense storage, preprocessing, and training overheads caused by feature duplication inherent in industry-scale DLRM training datasets. Feature duplication arises because DLRM datasets are generated from interactions. While each user session can generate multiple training samples, many features' values do not change across these samples. We demonstrate how RecD exploits this property, end-to-end, across a deployed training pipeline. RecD optimizes data generation pipelines to decrease dataset storage and preprocessing resource demands and to maximize duplication within a training batch. RecD introduces a new tensor format, InverseKeyedJaggedTensors (IKJTs), to deduplicate feature values in each batch. We show how DLRM model architectures can leverage IKJTs to drastically increase training throughput. RecD improves the training and preprocessing throughput and storage efficiency by up to 2.48x, 1.79x, and 3.71x, respectively, in an industry-scale DLRM training system. | 翻訳日:2023-05-03 17:34:48 公開日:2023-05-01 |
# 3DShape2VecSet: ニューラルネットワークと生成拡散モデルのための3次元形状表現 3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models ( http://arxiv.org/abs/2301.11445v3 ) ライセンス: Link先を確認 | Biao Zhang, Jiapeng Tang, Matthias Niessner, Peter Wonka | (参考訳) 3dshape2vecsetは,生成拡散モデル用に設計されたニューラルフィールドの新たな形状表現である。
私たちの形状表現は、表面モデルまたは点雲として与えられる3d形状をエンコードし、それらを神経場として表現することができる。
神経場の概念は、以前は大域的潜在ベクトル、正規な潜在ベクトルのグリッド、あるいは不規則な潜在ベクトルのグリッドと組み合わされていた。
我々の新しい表現は、ベクトルの集合の上に神経場を符号化する。
本研究では,ラジアル基底関数表現やクロス・アテンション・セルフ・アテンション関数といった複数の概念から,特にトランスフォーマーを用いた処理に適した学習可能表現を設計する。
その結果、3次元形状エンコーディングと3次元形状生成モデリングタスクの性能が向上した。
非条件生成,カテゴリ条件生成,テキスト条件生成,ポイントクラウド補完,イメージ条件生成など,多種多様な生成アプリケーションを示す。 We introduce 3DShape2VecSet, a novel shape representation for neural fields designed for generative diffusion models. Our shape representation can encode 3D shapes given as surface models or point clouds, and represents them as neural fields. The concept of neural fields has previously been combined with a global latent vector, a regular grid of latent vectors, or an irregular grid of latent vectors. Our new representation encodes neural fields on top of a set of vectors. We draw from multiple concepts, such as the radial basis function representation and the cross attention and self-attention function, to design a learnable representation that is especially suitable for processing with transformers. Our results show improved performance in 3D shape encoding and 3D shape generative modeling tasks. We demonstrate a wide variety of generative applications: unconditioned generation, category-conditioned generation, text-conditioned generation, point-cloud completion, and image-conditioned generation. | 翻訳日:2023-05-03 17:26:57 公開日:2023-05-01 |
# 調和トラップに閉じ込められた2つの単純化されたライドバーグ原子の詳細な解析 Detailed analysis of two simplified Rydberg dressed atoms confined in a harmonic trap ( http://arxiv.org/abs/2301.06045v2 ) ライセンス: Link先を確認 | Leila Chia and Nabila Grar | (参考訳) ステップのようなポテンシャルを用いることで、2つの原子間の相互作用のリドバーグ短距離部分を模倣することができる。
この場合、Schr\"{o}dinger 方程式の解析解を確立することは容易である。
本論文では,異なる相互作用スキーム(強度と範囲),異なる次元,空間的相関に影響を及ぼす要因に着目し,この単純化されたモデルを詳細に分析する。
我々は, 摂動処理をポテンシャルに適用することで, このモデルの改良を実現することができる。
また, 潜在的特徴の急激な変化に関連する動的側面についても検討した。 By using a step-like potential, it is possible to mimic the Rydberg short range part of the interaction between two atoms. It is easy in this case to establish an analytical solution of the Schr\"{o}dinger equation. In this contribution, we are analyzing in detail this simplified model by highlighting the major players in different interaction schemes (strengths and ranges), different dimensionalities and the impact on spatial correlation. We are able to achieve an improvement to this model by applying a perturbation treatment to the potential. The dynamical aspects related to a sudden change of the potential features are also investigated. | 翻訳日:2023-05-03 17:25:32 公開日:2023-05-01 |
# 座標再最適化による連続量子ゲートファミリーの効率的な制御パルス Efficient control pulses for continuous quantum gate families through coordinated re-optimization ( http://arxiv.org/abs/2302.01553v3 ) ライセンス: Link先を確認 | Jason D. Chadwick and Frederic T. Chong | (参考訳) 少数の参照パルスを校正した後,量子ゲートの連続パラメータ集合に対して高速に高忠実度制御パルスを生成する方法を提案する。
異なる量子演算に対する最適化制御パルス間の補間は、直ちに高忠実度中間演算をもたらすわけではない。
そこで本研究では,制御パルスの最適化手法を提案する。
ゲートファミリのいくつかの参照操作を選択し、これらの操作を実装するパルスを最適化し、その後、パルスを反復的に最適化して、その形状が密接に関連する操作に類似するように誘導する。
この参照パルスの集合を校正すると、直線補間法を用いて連続操作空間における任意のゲートに対する高忠実度パルスを瞬時に得ることができる。
本研究では,任意の2量子ゲート(単一ビット動作まで)の制御パルスを得るために,2量子ゲートの3パラメータカルタン分解を行った。
従来のニューラルネットワークのアプローチと比較して、単一のキュービットゲート全体のパルス空間を校正する計算効率は7.7倍高い。
本手法は,任意のゲートパラメータに一般化され,パルス最適化アルゴリズムで容易に利用でき,シミュレーションから実験への変換が向上する。 We present a general method to quickly generate high-fidelity control pulses for any continuously-parameterized set of quantum gates after calibrating a small number of reference pulses. We find that interpolating between optimized control pulses for different quantum operations does not immediately yield a high-fidelity intermediate operation. To solve this problem, we propose a method to optimize control pulses specifically to provide good interpolations. We pick several reference operations in the gate family of interest and optimize pulses that implement these operations, then iteratively re-optimize the pulses to guide their shapes to be similar for operations that are closely related. Once this set of reference pulses is calibrated, we can use a straightforward linear interpolation method to instantly obtain high-fidelity pulses for arbitrary gates in the continuous operation space. We demonstrate this procedure on the three-parameter Cartan decomposition of two-qubit gates to obtain control pulses for any arbitrary two-qubit gate (up to single-qubit operations) with consistently high fidelity. Compared to previous neural network approaches, the method is 7.7x more computationally efficient to calibrate the pulse space for the set of all single-qubit gates. Our technique generalizes to any number of gate parameters and could easily be used with advanced pulse optimization algorithms to allow for better translation from simulation to experiment. | 翻訳日:2023-05-03 17:16:54 公開日:2023-05-01 |
# リッチアレタリックおよびてんかん不確実性モデリングのための正規化フローアンサンブル Normalizing Flow Ensembles for Rich Aleatoric and Epistemic Uncertainty Modeling ( http://arxiv.org/abs/2302.01312v2 ) ライセンス: Link先を確認 | Lucas Berry and David Meger | (参考訳) そこで本研究では,複雑なアレゲータ分布を捉えるのに必要な柔軟性を維持しつつ,認識的不確実性を確実に推定する方法を示す。
そこで本研究では,アレエータ的不確かさのモデル化における最先端手法である正規化流れ(nf)のアンサンブルを提案する。
アンサンブルは固定されたドロップアウトマスクのセットで作られ、異なるNFモデルを作成するよりも安価である。
本研究では, NFsの特異構造, 基底分布, 平均不確かさをサンプルに頼らずに推定する方法を示し, ベースラインの包括的セットを提供し, 微分エントロピーの偏りのない推定を導出する。
これらの手法は,1次元正弦波データ,2次元風洞グリッドワールド(\it{Wet Chicken}$),$\it{Pendulum}$,$\it{Hopper}$など,様々な実験に応用された。
これらの実験では,能動的学習フレームワークを構築し,各モデルがアレタリックおよびてんかん不確実性を測定する能力を評価する。
以上の結果から,nfアンサンブルを用いて正確な認識の不確実性推定を保ちながら複雑なアレオータリックを捉えることの利点が示された。 In this work, we demonstrate how to reliably estimate epistemic uncertainty while maintaining the flexibility needed to capture complicated aleatoric distributions. To this end, we propose an ensemble of Normalizing Flows (NF), which are state-of-the-art in modeling aleatoric uncertainty. The ensembles are created via sets of fixed dropout masks, making them less expensive than creating separate NF models. We demonstrate how to leverage the unique structure of NFs, base distributions, to estimate aleatoric uncertainty without relying on samples, provide a comprehensive set of baselines, and derive unbiased estimates for differential entropy. The methods were applied to a variety of experiments, commonly used to benchmark aleatoric and epistemic uncertainty estimation: 1D sinusoidal data, 2D windy grid-world ($\it{Wet Chicken}$), $\it{Pendulum}$, and $\it{Hopper}$. In these experiments, we setup an active learning framework and evaluate each model's capability at measuring aleatoric and epistemic uncertainty. The results show the advantages of using NF ensembles in capturing complicated aleatoric while maintaining accurate epistemic uncertainty estimates. | 翻訳日:2023-05-03 17:16:35 公開日:2023-05-01 |
# ブラックホールを記述する単純な量子系 A simple quantum system that describes a black hole ( http://arxiv.org/abs/2303.11534v2 ) ライセンス: Link先を確認 | Juan Maldacena | (参考訳) 過去数十年間、理論家はブラックホールを表すと考えられている量子力学システムを研究してきた。
最も単純な例の1つをレビューする。
相互作用する振動子とマヨラナフェルミオンの集まりである。
アインシュタイン方程式によって支配される創発宇宙のブラックホールを記述することが予想される。
これまでの数値計算に基づいて、ブラックホールの特徴を見るのに必要な量子ビット数を推定する。 During the past decades, theorists have been studying quantum mechanical systems that are believed to describe black holes. We review one of the simplest examples. It involves a collection of interacting oscillators and Majorana fermions. It is conjectured to describe a black hole in an emergent universe governed by Einstein equations. Based on previous numerical computations, we make an estimate of the necessary number of qubits necessary to see some black hole features. | 翻訳日:2023-05-03 17:07:53 公開日:2023-05-01 |
# 多イオン輸送学習のための物理制約型ニューラル微分方程式 Physics-constrained neural differential equations for learning multi-ionic transport ( http://arxiv.org/abs/2303.04594v2 ) ライセンス: Link先を確認 | Danyal Rehman and John H. Lienhard | (参考訳) ポリアミドナノ孔を経由するイオン輸送の連続モデルは、複雑な細孔幾何学を通して偏微分方程式(PDE)を解く必要がある。
この長さと時間スケールで時空間的特徴を解くことで、これらの方程式を計算的に解くことができる。
さらに、メカニスティックモデルは、しばしばナノコンフィニメントの下でのイオン相互作用パラメータ間の機能的関係を必要とするが、実験的な測定や事前の知識が難しいことが多い。
本研究では,ポリアミドナノ孔間のイオン輸送挙動を学習する物理インフォームド深層学習モデルを開発した。
提案したアーキテクチャは、古典的クロージャモデルと組み合わせて、ニューラルフレームワークに直接符号化された帰納的バイアスとして神経微分方程式を利用する。
ニューラル微分方程式は連続体モデルからのシミュレーションデータに基づいて事前訓練され、独立実験データに基づいて微調整され、イオンの拒絶挙動を学習する。
実験不確実性推定によるガウス雑音の増大もモデル一般化を改善するために測定データに導入される。
本手法は他の物理モデルと比較し,すべてのデータセットで実験値と強い一致を示した。 Continuum models for ion transport through polyamide nanopores require solving partial differential equations (PDEs) through complex pore geometries. Resolving spatiotemporal features at this length and time-scale can make solving these equations computationally intractable. In addition, mechanistic models frequently require functional relationships between ion interaction parameters under nano-confinement, which are often too challenging to measure experimentally or know a priori. In this work, we develop the first physics-informed deep learning model to learn ion transport behaviour across polyamide nanopores. The proposed architecture leverages neural differential equations in conjunction with classical closure models as inductive biases directly encoded into the neural framework. The neural differential equations are pre-trained on simulated data from continuum models and fine-tuned on independent experimental data to learn ion rejection behaviour. Gaussian noise augmentations from experimental uncertainty estimates are also introduced into the measured data to improve model generalization. Our approach is compared to other physics-informed deep learning models and shows strong agreement with experimental measurements across all studied datasets. | 翻訳日:2023-05-03 17:06:03 公開日:2023-05-01 |
# point-based fusion を用いた時間整合オンライン奥行き推定 Temporally Consistent Online Depth Estimation Using Point-Based Fusion ( http://arxiv.org/abs/2304.07435v2 ) ライセンス: Link先を確認 | Numair Khan, Eric Penner, Douglas Lanman, and Lei Xiao | (参考訳) 深度推定は、3次元再構成、新しい視点合成、計算写真などの多くのコンピュータビジョン問題において重要なステップである。
既存の作業のほとんどは、シングルフレームからの深さ推定に重点を置いている。
ビデオに適用すると、その結果は時間的一貫性が欠如し、フリックや水泳のアーティファクトが表示される。
本稿では,オンライン環境での映像ストリームの時間的一貫した深度マップを推定することを目的とする。
これは、将来のフレームが利用できないため難しい問題であり、メソッドは一貫性を強制するか、以前の推定からエラーを修正するかを選択する必要がある。
動的オブジェクトの存在はさらに問題を複雑にする。
本稿では、各フレームを動的に更新するグローバルポイントクラウドと、画像空間における学習融合アプローチを用いて、これらの課題に対処することを提案する。
当社のアプローチは一貫性を促進し、同時にエラーや動的オブジェクトの処理も可能にします。
定性的,定量的な結果から,一貫した映像深度推定のための最先端の精度が得られた。 Depth estimation is an important step in many computer vision problems such as 3D reconstruction, novel view synthesis, and computational photography. Most existing work focuses on depth estimation from single frames. When applied to videos, the result lacks temporal consistency, showing flickering and swimming artifacts. In this paper we aim to estimate temporally consistent depth maps of video streams in an online setting. This is a difficult problem as future frames are not available and the method must choose between enforcing consistency and correcting errors from previous estimations. The presence of dynamic objects further complicates the problem. We propose to address these challenges by using a global point cloud that is dynamically updated each frame, along with a learned fusion approach in image space. Our approach encourages consistency while simultaneously allowing updates to handle errors and dynamic objects. Qualitative and quantitative results show that our method achieves state-of-the-art quality for consistent video depth estimation. | 翻訳日:2023-05-03 16:59:41 公開日:2023-05-01 |
# Rewardsは意味を正当化するのか?
マチャイアヴェリベンチマークにおける報酬と倫理的行動のトレードオフの測定 Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark ( http://arxiv.org/abs/2304.03279v2 ) ライセンス: Link先を確認 | Alexander Pan, Chan Jun Shern, Andy Zou, Nathaniel Li, Steven Basart, Thomas Woodside, Jonathan Ng, Hanlin Zhang, Scott Emmons, Dan Hendrycks | (参考訳) 人工エージェントは伝統的に報酬を最大化するために訓練されており、これは言語モデル(lms)における次の予測が毒性をインセンティブ化するのと同様に、パワーシーキングとデセプションにインセンティブを与える可能性がある。
エージェントは自然にMachiavellianになることを学ぶのか?
gpt-4のような汎用モデルではどのように振舞いを測定するのか?
これらの質問に答えるために,社会意思決定を中心とした50万以上のリッチで多様なシナリオを含む134のChoose-Your-Own-AdventureゲームのベンチマークであるMaCHIAVELLIを紹介した。
シナリオラベリングは、人間のアノテーションよりも高性能なLMで自動化される。
我々は、数十の有害な行為を分類し、私たちのアノテーションを使用して、エージェントのパワー探索傾向を評価し、不使用を引き起こし、倫理的違反を犯す。
報酬の最大化と倫理的行動の緊張関係を観察する。
このトレードオフを改善するため, 有害な行為を抑えるため, LMを用いたエージェントの操舵法について検討した。
以上の結果から,エージェントは有能かつ道徳的に行動できるため,安全と能力の両立が容易な機械倫理設計エージェントにおいて,現在具体的進展が期待できることがわかった。 Artificial agents have traditionally been trained to maximize reward, which may incentivize power-seeking and deception, analogous to how next-token prediction in language models (LMs) may incentivize toxicity. So do agents naturally learn to be Machiavellian? And how do we measure these behaviors in general-purpose models such as GPT-4? Towards answering these questions, we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making. Scenario labeling is automated with LMs, which are more performant than human annotators. We mathematize dozens of harmful behaviors and use our annotations to evaluate agents' tendencies to be power-seeking, cause disutility, and commit ethical violations. We observe some tension between maximizing reward and behaving ethically. To improve this trade-off, we investigate LM-based methods to steer agents' towards less harmful behaviors. Our results show that agents can both act competently and morally, so concrete progress can currently be made in machine ethics--designing agents that are Pareto improvements in both safety and capabilities. | 翻訳日:2023-05-03 16:57:55 公開日:2023-05-01 |
# フェルミオン鎖におけるノイズ誘起普遍拡散輸送 Noise Induced Universal Diffusive Transport in Fermionic Chains ( http://arxiv.org/abs/2304.02671v2 ) ライセンス: Link先を確認 | Christopher M. Langlett and Shenglong Xu | (参考訳) 線形ポテンシャルを伴わないランダム駆動フェルミオンモデルで微視的輸送理論を開発する。
作用素のダイナミクスはノイズと静的なカップリングの競合から生じ、クリーンな極限における弾道輸送やスターク局在に関係なく拡散する。
普遍拡散挙動は、小さな運動量での運動の演算子方程式で生じる雑音誘起境界状態に起因する。
ノイズ平均演算子方程式を1次元非エルミートホッピングモデルにマッピングすることにより,非単調にノイズ強度をスケールする拡散定数を解析的に解き,オンサイトとボンドが強調するノイズとの相互作用による拡散が抑制された領域と線形ポテンシャルを明らかにした。
大きなサイトデファスメントの場合、拡散定数は消失し、創発的局在を示す。
一方、作用素方程式は強結合を強調する拡散方程式となり、密度-密度相互作用を含む局所電荷に可換な追加の任意に強い静的項に影響されない。
境界状態は有限雑音下で散乱状態の連続体に入り、消滅する。
しかし、バウンド状態はバウンドから散乱状態遷移後のスペクトルの例外的な点に再出現する。
そして、ノイズの存在下でのスターク局所化の運命を特徴づける。 We develop a microscopic transport theory in a randomly driven fermionic model with and without linear potential. The operator dynamics arise from the competition between noisy and static couplings, leading to diffusion regardless of ballistic transport or Stark localization in the clean limit. The universal diffusive behavior is attributed to a noise-induced bound state arising in the operator equations of motion at small momentum. By mapping the noise-averaged operator equation of motion to a one-dimensional non-hermitian hopping model, we analytically solve for the diffusion constant, which scales non-monotonically with noise strength, revealing regions of enhanced and suppressed diffusion from the interplay between onsite and bond dephasing noise, and a linear potential. For large onsite dephasing, the diffusion constant vanishes, indicating an emergent localization. On the other hand, the operator equation becomes the diffusion equation for strong bond dephasing and is unaffected by additional arbitrarily strong static terms that commute with the local charge, including density-density interactions. The bound state enters a continuum of scattering states at finite noise and vanishes. However, the bound state reemerges at an exceptional-like point in the spectrum after the bound-to-scattering state transition. We then characterize the fate of Stark localization in the presence of noise. | 翻訳日:2023-05-03 16:57:34 公開日:2023-05-01 |
# 文書画像分類における逆ロバスト性の評価 Evaluating Adversarial Robustness on Document Image Classification ( http://arxiv.org/abs/2304.12486v2 ) ライセンス: Link先を確認 | Timoth\'ee Fronteau, Arnaud Paran and Aymen Shabou | (参考訳) 近年、敵の攻撃や防衛はコンピュータビジョンシステムへの関心が高まっているが、今日ではほとんどの調査は画像に限られている。
しかし、多くの人工知能モデルは、実世界の画像とは大きく異なるドキュメンタリーデータを扱う。
そこで,本研究では,敵攻撃の考え方をドキュメンタリーや自然データに適用し,そのような攻撃に対してモデルを保護する。
本研究では,ResNet50とEfficientNetB0モデルアーキテクチャのロバスト性に対する,非目標の勾配ベース,転送ベース,スコアベースの攻撃に焦点をあて,敵のトレーニング,JPEG入力圧縮,グレースケール入力変換の影響を評価する。
私たちの知る限り、これらの攻撃が文書画像分類タスクに与える影響を研究するため、コミュニティによるそのような作業は行われていません。 Adversarial attacks and defenses have gained increasing interest on computer vision systems in recent years, but as of today, most investigations are limited to images. However, many artificial intelligence models actually handle documentary data, which is very different from real world images. Hence, in this work, we try to apply the adversarial attack philosophy on documentary and natural data and to protect models against such attacks. We focus our work on untargeted gradient-based, transfer-based and score-based attacks and evaluate the impact of adversarial training, JPEG input compression and grey-scale input transformation on the robustness of ResNet50 and EfficientNetB0 model architectures. To the best of our knowledge, no such work has been conducted by the community in order to study the impact of these attacks on the document image classification task. | 翻訳日:2023-05-03 16:48:38 公開日:2023-05-01 |
# DocParser: Visually Rich DocumentsからエンドツーエンドのOCRフリー情報抽出 DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents ( http://arxiv.org/abs/2304.12484v2 ) ライセンス: Link先を確認 | Mohamed Dhouib, Ghassen Bettaieb and Aymen Shabou | (参考訳) 視覚的にリッチな文書からの情報抽出は、いくつかの文書制御ベースのアプリケーションの重要性と、その広範な商業的価値から、近年多くの注目を集めている課題である。
このトピックでこれまで行われた研究の大部分は、2段階のパイプラインに従っている。
まず、オフザシェルフ光学文字認識(OCR)エンジンを用いてテキストを読み、得られたテキストから関心領域を抽出する。
これらの手法の主な欠点は外部のOCRシステムに依存しており、性能と計算速度の両方に悪影響を及ぼす可能性がある。
従来の問題に対処するため,近年のOCRフリー手法が提案されている。
本稿では, DocParser と呼ばれる OCR フリーなエンドツーエンド情報抽出モデルを提案する。
識別的特徴をよりよく抽出できるという点で、従来のエンドツーエンドアプローチと異なる。
DocParserは、さまざまなデータセットで最先端の結果を達成すると同時に、以前の作業よりも高速である。 Information Extraction from visually rich documents is a challenging task that has gained a lot of attention in recent years due to its importance in several document-control based applications and its widespread commercial value. The majority of the research work conducted on this topic to date follow a two-step pipeline. First, they read the text using an off-the-shelf Optical Character Recognition (OCR) engine, then, they extract the fields of interest from the obtained text. The main drawback of these approaches is their dependence on an external OCR system, which can negatively impact both performance and computational speed. Recent OCR-free methods were proposed to address the previous issues. Inspired by their promising results, we propose in this paper an OCR-free end-to-end information extraction model named DocParser. It differs from prior end-to-end approaches by its ability to better extract discriminative character features. DocParser achieves state-of-the-art results on various datasets, while still being faster than previous works. | 翻訳日:2023-05-03 16:48:23 公開日:2023-05-01 |
# 実用的推論としての統計的言語モデルの評価 Evaluating statistical language models as pragmatic reasoners ( http://arxiv.org/abs/2305.01020v1 ) ライセンス: Link先を確認 | Benjamin Lipkin and Lionel Wong and Gabriel Grand and Joshua B Tenenbaum | (参考訳) コミュニケーション言語と意味のある意味の関係はしばしば確率的であり、文脈に敏感である。
多くの戦略がそのようなマッピングを推定し、再帰的ベイズ的コミュニケーションモデルを利用する。
平行して、大規模言語モデル(LLM)は、自然言語から論理的表現を推論するタスクをこなす意味解析アプリケーションにますます応用されている。
既存の LLM 探索はリテラル言語の使用に大きく制限されているが,本研究では,実用的発話の意味を推測するための LLM の能力を評価する。
具体的には、格付け可能な形容詞 ``strong'' のしきい値推定の場合について検討し、前もって強みを条件とし、その後、資格、否定、極性反転、クラス比較まで拡張する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出できるが、否定に苦慮している。
これらの結果は,統計的言語モデルの推論能力と,実用的・意味論的解析への応用を示唆するものである。
対応するコードはすべて公開されている(https://github.com/benlipkin/probsem/tree/cogsci2023)。 The relationship between communicated language and intended meaning is often probabilistic and sensitive to context. Numerous strategies attempt to estimate such a mapping, often leveraging recursive Bayesian models of communication. In parallel, large language models (LLMs) have been increasingly applied to semantic parsing applications, tasked with inferring logical representations from natural language. While existing LLM explorations have been largely restricted to literal language use, in this work, we evaluate the capacity of LLMs to infer the meanings of pragmatic utterances. Specifically, we explore the case of threshold estimation on the gradable adjective ``strong'', contextually conditioned on a strength prior, then extended to composition with qualification, negation, polarity inversion, and class comparison. We find that LLMs can derive context-grounded, human-like distributions over the interpretations of several complex pragmatic utterances, yet struggle composing with negation. These results inform the inferential capacity of statistical language models, and their use in pragmatic and semantic parsing applications. All corresponding code is made publicly available (https://github.com/benlipkin/probsem/tree/CogSci2023). | 翻訳日:2023-05-03 16:30:52 公開日:2023-05-01 |
# 多体量子カオス系の空間的変形と量子情報の揺らぎ Spatial deformation of many-body quantum chaotic systems and quantum information scrambling ( http://arxiv.org/abs/2305.01019v1 ) ライセンス: Link先を確認 | Kanato Goto, Taozhi Guo, Tomoki Nosaka, Masahiro Nozaki, Shinsei Ryu and Kotaro Tamaoka | (参考訳) 量子多体系における量子情報の拡散と局所的隠蔽過程である量子情報のスクランブルに対する空間的不均一性の影響について検討する。
パラダイム的な例として、量子カオスイジングスピン鎖とそのハミルトン密度を変調して得られる不均質なスピン鎖を考える。
具体的には、(1+1)-次元共形場理論(1+1$d CFTs)の文脈で以前に研究されたいわゆる「M\」ビオビウスと正方形変形を考える。
変調エネルギー密度が小さい空間領域では、変調エネルギー密度が大きな量子情報スクランブルである領域では、これらの変形により量子情報の拡散が防止される。
このことから,ハミルトニアン密度を空間的に調節することで,スクランブル効果と蝶効果を制御できることが示唆された。
また, エネルギー密度の時間依存性は, カオススピン鎖においても1+1$ d cftのブラックホール状励起のシグネチャを示すことがわかった。 We study the effect of spatial inhomogeneity on quantum information scrambling, a process of spreading and locally hiding quantum information in quantum many-body systems. As a paradigmatic example, we consider the quantum chaotic Ising spin chain and its inhomogeneous counterpart that is obtained by modulating the Hamiltonian density. Specifically, we consider the so-called M\"obius and sine-square deformations that were previously studied in the context of (1+1)-dimensional conformal field theories ($1+1$ d CFTs). In the spatial region where the modulated energy density is small, these deformations prevent the spreading of quantum information while in the region where the modulated energy density is large quantum information scrambling is accelerated. This suggests that we can control the scrambling and butterfly effect by spatially modulating the Hamiltonian density. We also found that the time dependence of energy density exhibits the signature of black-hole-like excitation found in the $1+1$ d CFTs even in the chaotic spin chain. | 翻訳日:2023-05-03 16:30:31 公開日:2023-05-01 |
# ソフトドメイン転送による特徴提示による誤認検出 Deception Detection with Feature-Augmentation by soft Domain Transfer ( http://arxiv.org/abs/2305.01011v1 ) ライセンス: Link先を確認 | Sadat Shahriar, Arjun Mukherjee, Omprakash Gnawali | (参考訳) 情報爆発の時代では、発信者は異なるドメインや情報媒体を使用して、ニュース、メール、ツイートなどのユーザーを搾取する。
これらすべてのドメインにおける偽装を検出するために多くの研究がなされているが、新しいイベントにおける情報不足は、偽装と戦うためにこれらのドメインを関連付ける必要がある。
この結合を形成するために,ニューラルモデルの中間層表現を利用する特徴拡張法を提案する。
我々のアプローチは、自己ドメインベースラインモデルに対して最大6.60%の改善を提供します。
ツイートは偽ニュースやフィッシングメールの検出に最も役立つ情報提供者であり、一方、ニュースはツイートのうわさ検出に最も役立つ。
この分析は、既存の文献よりもより強力な誤解検出システムを構築するのに役立つドメイン知識伝達の有用な洞察を提供する。 In this era of information explosion, deceivers use different domains or mediums of information to exploit the users, such as News, Emails, and Tweets. Although numerous research has been done to detect deception in all these domains, information shortage in a new event necessitates these domains to associate with each other to battle deception. To form this association, we propose a feature augmentation method by harnessing the intermediate layer representation of neural models. Our approaches provide an improvement over the self-domain baseline models by up to 6.60%. We find Tweets to be the most helpful information provider for Fake News and Phishing Email detection, whereas News helps most in Tweet Rumor detection. Our analysis provides a useful insight for domain knowledge transfer which can help build a stronger deception detection system than the existing literature. | 翻訳日:2023-05-03 16:30:13 公開日:2023-05-01 |
# エンタングルメントエントロピーにおける古典的および量子的ニューラルネットワークの表現性 The Expressivity of Classical and Quantum Neural Networks on Entanglement Entropy ( http://arxiv.org/abs/2305.00997v1 ) ライセンス: Link先を確認 | Chih-Hung Wu and Ching-Che Yen | (参考訳) 解析的に R'enyi エントロピーからフォン・ノイマンエントロピーを継続することは、場の量子論において難しい課題である。
n$-th r\'enyiエントロピーは、量子場理論の経路積分表現におけるレプリカ法を用いて計算できるが、解析的継続はケースバイケースベースでいくつかの単純な系でのみ達成できる。
本研究では,古典的,量子ニューラルネットワークと教師付き学習を用いて,この問題に対処するための一般的な枠組みを提案する。
まず、既知のフォン・ノイマンエントロピー(von neumann entropy)の例をいくつか検討し、入力データは生成関数で$\text{tr} \rho_a^n$を表すことで生成される。
我々はkerastunerを採用し、限られたデータで最適なネットワークアーキテクチャとハイパーパラメータを決定する。
さらに、量子機械学習モデルでは、部分フーリエ級数としての絡み合いエントロピーに対する量子モデルの表現性が確立される。
提案手法はフォン・ノイマンとレーニのエントロピーを数値的に正確に予測し,量子情報理論における問題解決のための深層学習手法の可能性を明らかにする。 Analytically continuing the von Neumann entropy from R\'enyi entropies is a challenging task in quantum field theory. While the $n$-th R\'enyi entropy can be computed using the replica method in the path integral representation of quantum field theory, the analytic continuation can only be achieved for some simple systems on a case-by-case basis. In this work, we propose a general framework to tackle this problem using classical and quantum neural networks with supervised learning. We begin by studying several examples with known von Neumann entropy, where the input data is generated by representing $\text{Tr} \rho_A^n$ with a generating function. We adopt KerasTuner to determine the optimal network architecture and hyperparameters with limited data. In addition, we frame a similar problem in terms of quantum machine learning models, where the expressivity of the quantum models for the entanglement entropy as a partial Fourier series is established. Our proposed methods can accurately predict the von Neumann and R\'enyi entropies numerically, highlighting the potential of deep learning techniques for solving problems in quantum information theory. | 翻訳日:2023-05-03 16:29:58 公開日:2023-05-01 |
# シュウィンガー模型における絡み合いによる臨界点の検出 Detecting the critical point through entanglement in Schwinger model ( http://arxiv.org/abs/2305.00996v1 ) ライセンス: Link先を確認 | Kazuki Ikeda, Dmitri E. Kharzeev, Ren\'e Meyer, Shuzhe Shi | (参考訳) 古典的ハードウェア上での量子シミュレーションを用いて、有限化学ポテンシャル$\mu$で$\theta$-termの質量シュウィンガーモデルの位相図を研究する。
モデルの位相図中の量子臨界点は、エントロピーとエンタングルメントスペクトルによって検出できることがわかった。
最初のステップとして、電荷とキラル凝縮物のフェルミオン質量$m$、結合定数$g$、化学ポテンシャル$\mu$の依存性を計算し、従来の方法を用いて位相図をチャート化する。
ゼロ密度では、シュウィンガーモデルは$\theta=\pi$ と $m/g \simeq 0.33$ の量子臨界点を持つ。
この量子臨界点の位置は化学ポテンシャルに依存することが分かる。
この量子臨界点付近では、エンタングルメントエントロピーの急激な最大値が観測される。
さらに,差分閉点の位置を検出することにより,量子臨界点を絡み合いスペクトルから検出できることが判明した。 Using quantum simulations on classical hardware, we study the phase diagram of the massive Schwinger model with a $\theta$-term at finite chemical potential $\mu$. We find that the quantum critical point in the phase diagram of the model can be detected through the entanglement entropy and entanglement spectrum. As a first step, we chart the phase diagram using conventional methods by computing the dependence of the charge and chiral condensates on the fermion mass $m$, coupling constant $g$, and the chemical potential $\mu$. At zero density, the Schwinger model possesses a quantum critical point at $\theta=\pi$ and $m/g \simeq 0.33$. We find that the position of this quantum critical point depends on the chemical potential. Near this quantum critical point, we observe a sharp maximum in the entanglement entropy. Moreover, we find that the quantum critical point can be located from the entanglement spectrum by detecting the position of the gap closing point. | 翻訳日:2023-05-03 16:29:35 公開日:2023-05-01 |
# ニューラルネットワークの現象論的理解に向けて:データ Towards a Phenomenological Understanding of Neural Networks: Data ( http://arxiv.org/abs/2305.00995v1 ) ライセンス: Link先を確認 | Samuel Tovey, Sven Krippendorf, Konstantin Nikolaou, Christian Holm | (参考訳) 集合変数に基づくニューラルネットワーク(NN)の理論は、科学者に各段階での学習プロセスをよりよく理解するためのツールを提供する。
本研究では、モデルに渡されるトレーニングデータに基づいて構築された経験的ニューラルネットワークカーネル(NTK)のエントロピーとトレースという2つの変数を紹介する。
これらの変数の文脈でnnの性能を実験的に解析し、開始エントロピーとntkのトレース、トレーニング終了後に計算されたモデルの一般化との間に相関があることを見出した。
この枠組みは、nnsのトレーニングのための最適なデータ選択問題に適用される。
この目的のために、ランダムネットワーク蒸留(RND)をトレーニングデータの選択手段として使用し、ランダムなデータ選択と比較する。
RNDが選択したデータセットは、ランダム選択よりも優れるだけでなく、RNDデータセットに関連する集合変数がランダム選択されたデータセットよりも大きいことが示されている。
本研究の結果は,この現象学的な枠組みにより,NNトレーニングのためのデータ選択を駆動できる安定した基盤を提供する。 A theory of neural networks (NNs) built upon collective variables would provide scientists with the tools to better understand the learning process at every stage. In this work, we introduce two such variables, the entropy and the trace of the empirical neural tangent kernel (NTK) built on the training data passed to the model. We empirically analyze the NN performance in the context of these variables and find that there exists correlation between the starting entropy, the trace of the NTK, and the generalization of the model computed after training is complete. This framework is then applied to the problem of optimal data selection for the training of NNs. To this end, random network distillation (RND) is used as a means of selecting training data which is then compared with random selection of data. It is shown that not only does RND select data-sets capable of outperforming random selection, but that the collective variables associated with the RND data-sets are larger than those of the randomly selected sets. The results of this investigation provide a stable ground from which the selection of data for NN training can be driven by this phenomenological framework. | 翻訳日:2023-05-03 16:29:18 公開日:2023-05-01 |
# 実世界データの極端に不足した条件下で機械学習モデルを訓練するための新しいアルゴリズム A novel algorithm can generate data to train machine learning models in conditions of extreme scarcity of real world data ( http://arxiv.org/abs/2305.00987v1 ) ライセンス: Link先を確認 | Olivier Niel | (参考訳) 機械学習モデルのトレーニングには大規模なデータセットが必要である。
しかし、大規模で複雑な実世界のデータの収集、キュレーション、運用は、コスト、倫理的、法的問題、データ可用性の問題を引き起こす。
本稿では,実世界のデータ不足の状況下で機械学習モデルを訓練するための,大規模な人工データセットを生成する新しいアルゴリズムを提案する。
このアルゴリズムは遺伝的アルゴリズムに基づいており、ニューラルネットワークのトレーニングに使用されるランダムに生成されたデータセットをミュートする。
トレーニング後、実世界のデータのバッチ上でのニューラルネットワークのパフォーマンスは、トレーニングに使用される生成されたデータセットの適合性の代理と見なされる。
選択圧力が生成されたデータセットの集団に適用されると、不適格な個人は捨てられ、適格な個人の適合度は世代によって増加する。
データ生成アルゴリズムの性能をIrisデータセットとBreast Cancer Wisconsin診断データセットで測定した。
実世界のデータ量では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、実世界のデータでトレーニングされたモデルの平均精度に匹敵する(Irisデータセットでは0.956、乳がんデータセットでは0.6996、乳がんデータセットでは0.9377対0.9472)。
実世界のデータの極端な不足をシミュレーションした条件下では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、希少な実世界のデータでトレーニングされた比較モデルの平均精度よりも有意に高かった(Irisデータセットでは0.9533対0.9067、乳がんデータセットでは0.8692対0.7701)。
結論として,このアルゴリズムは,実世界のデータ不足やコストやデータ感度が大規模な実世界のデータセットの収集を妨げている状況において,機械学習モデルをトレーニングするために,大規模な人工データセットを生成することができる。 Training machine learning models requires large datasets. However, collecting, curating, and operating large and complex sets of real world data poses problems of costs, ethical and legal issues, and data availability. Here we propose a novel algorithm to generate large artificial datasets to train machine learning models in conditions of extreme scarcity of real world data. The algorithm is based on a genetic algorithm, which mutates randomly generated datasets subsequently used for training a neural network. After training, the performance of the neural network on a batch of real world data is considered a surrogate for the fitness of the generated dataset used for its training. As selection pressure is applied to the population of generated datasets, unfit individuals are discarded, and the fitness of the fittest individuals increases through generations. The performance of the data generation algorithm was measured on the Iris dataset and on the Breast Cancer Wisconsin diagnostic dataset. In conditions of real world data abundance, mean accuracy of machine learning models trained on generated data was comparable to mean accuracy of models trained on real world data (0.956 in both cases on the Iris dataset, p = 0.6996, and 0.9377 versus 0.9472 on the Breast Cancer dataset, p = 0.1189). In conditions of simulated extreme scarcity of real world data, mean accuracy of machine learning models trained on generated data was significantly higher than mean accuracy of comparable models trained on scarce real world data (0.9533 versus 0.9067 on the Iris dataset, p < 0.0001, and 0.8692 versus 0.7701 on the Breast Cancer dataset, p = 0.0091). In conclusion, this novel algorithm can generate large artificial datasets to train machine learning models, in conditions of extreme scarcity of real world data, or when cost or data sensitivity prevent the collection of large real world datasets. | 翻訳日:2023-05-03 16:29:01 公開日:2023-05-01 |
# 肉の鮮度予測 Meat Freshness Prediction ( http://arxiv.org/abs/2305.00986v1 ) ライセンス: Link先を確認 | Bhargav Sagiraju, Nathan Casanova, Lam Ivan Chuen Chun, Manan Lohia, Toshinori Yoshiyasu | (参考訳) ほとんどの小売店舗では、生鮮食品の鮮度や鮮度を従業員が手動で推定するための指標として初期処理から数日を要している。
前者の方法が無駄になることもあるが、一部の新鮮な食品は一定日後に廃棄される可能性があるため、後者は時間をかけ、高価で、大規模には実用的ではない。
本研究の目的は、生データに基づく食品の鮮度を評価する機械学習(ML)ベースのアプローチを提案することである。
現在の範囲では、肉を分析対象とみなし、肉片を新鮮、半鮮、または腐ったものとして分類しようとする。
最終的に、モデルは90%以上の精度と、誤分類のコストの観点から比較的高い性能を達成した。
この技術は、顧客経営の最適化に寄与し、深刻な金銭的、非収益的、健康的な影響を伴う不良品や腐った製品の販売リスクを低減し、また、タイムリーな販売と廃棄を通じて食品のウェーブステージを削減し、持続可能な企業としての企業価値を高めることが期待されている。 In most retail stores, the number of days since initial processing is used as a proxy for estimating the freshness of perishable foods or freshness is assessed manually by an employee. While the former method can lead to wastage, as some fresh foods might get disposed after a fixed number of days, the latter can be time-consuming, expensive and impractical at scale. This project aims to propose a Machine Learning (ML) based approach that evaluates freshness of food based on live data. For the current scope, it only considers meat as a the subject of analysis and attempts to classify pieces of meat as fresh, half-fresh or spoiled. Finally the model achieved an accuracy of above 90% and relatively high performance in terms of the cost of misclassification. It is expected that the technology will contribute to the optimization of the client's business operation, reducing the risk of selling defective or rotten products that can entail serious monetary, non-monetary and health-based consequences while also achieving higher corporate value as a sustainable company by reducing food wastage through timely sales and disposal. | 翻訳日:2023-05-03 16:28:24 公開日:2023-05-01 |
# 交通予測のための注意に基づく時空間グラフニューラルネットワーク Attention-based Spatial-Temporal Graph Neural ODE for Traffic Prediction ( http://arxiv.org/abs/2305.00985v1 ) ライセンス: Link先を確認 | Weiheng Zhong, Hadi Meidani, Jane Macfarlane | (参考訳) 交通予測は知的交通システム(ITS)において重要な問題である。
グラフニューラルネットワーク(GNN)は、トラフィックデータの複雑な時空間依存性をキャプチャする効果的なディープラーニングモデルであり、理想的な予測性能を実現する。
本稿では,交通システムのダイナミクスを明示的に学習するアテンションベースグラフニューラルODE(ASTGODE)を提案する。
本モデルは,異なる期間のトラフィックパターンを集約し,実世界の2つのトラフィックデータセットに対して良好な性能を示す。
その結果,実験中の既存のgnnモデルにおいて,根平均二乗誤差測定の精度が最も高いことがわかった。 Traffic forecasting is an important issue in intelligent traffic systems (ITS). Graph neural networks (GNNs) are effective deep learning models to capture the complex spatio-temporal dependency of traffic data, achieving ideal prediction performance. In this paper, we propose attention-based graph neural ODE (ASTGODE) that explicitly learns the dynamics of the traffic system, which makes the prediction of our machine learning model more explainable. Our model aggregates traffic patterns of different periods and has satisfactory performance on two real-world traffic data sets. The results show that our model achieves the highest accuracy of the root mean square error metric among all the existing GNN models in our experiments. | 翻訳日:2023-05-03 16:28:06 公開日:2023-05-01 |
# 突発的雑音に基づく論理 Ternary Instantaneous Noise-based Logic ( http://arxiv.org/abs/2305.00984v1 ) ライセンス: Link先を確認 | Laszlo B. Kish | (参考訳) 3値の瞬時雑音に基づく論理の表現法を提案する。
第3の値は不確実なビット値であり、人工知能の応用に有用である。
また、全てのビットに対して同じ(1個の数値の)存在しないビット(真空状態)を表現できる4つの値もあるが、これは全てのビットに共通する圧縮状態である。
いくつかの論理ゲートが探索される。
三元宇宙は標準二元宇宙と比べて大きな利点がある:その振幅はどの時計周期でもゼロではない。
すべての既知のバイナリ論理ゲートは、従来と同じ方法でバイナリビット値に対して動作するため、以前のバイナリアルゴリズムは、変更することなく、宇宙のゼロ値によって生じる問題なく、三元系で実行することができる。 One of the possible representations of three-valued instantaneous noise-based logic is proposed. The third value is an uncertain bit value, which can be useful in artificial intelligence applications. There is a forth value, too, that can represent a non-existing bit (vacuum-state) that is the same (1 numeric value) for all bits, however that is a squeezed state common for all bits. Some logic gates are explored. The ternary Universe has a significant advantage compared to the standard binary one: its amplitude is never zero during any clock period. All the known binary logic gates work for the binary bit values in the same way as earlier therefore the former binary algorithms can be run in the ternary system with no change and without the problems posed by zero values of the Universe. | 翻訳日:2023-05-03 16:27:57 公開日:2023-05-01 |
# googleの量子超越性主張に対する疑問と懸念 Questions and Concerns About Google's Quantum Supremacy Claim ( http://arxiv.org/abs/2305.01064v1 ) ライセンス: Link先を確認 | Gil Kalai, Yosef Rinott, and Tomer Shoham | (参考訳) 2019年10月、NatureはGoogleで実施された実験的な研究を解説した論文[6]を公開した。
この論文は53量子ビットの量子コンピュータ上で量子(計算)超越性を実証している。
それ以来、我々はGoogleの実験の様々な統計的側面を研究する長期プロジェクトに従事してきた。
30]では、非常に健全なGoogleの統計フレームワークを調査し、いくつかの技術的改善を提供した。
この文書には、Google 2019の実験に関する3つの主要な懸念点(統計分析に基づく)が記載されている。
最初の懸念は、データがGoogleのノイズモデル(または他の特定のモデル)と一致しないことである。
第二の懸念は、忠実度を事前推定するための重要な単純な公式は予期せぬ独立性の仮定を伴うように見えるが、非常に正確な予測をもたらすことである。
第3の懸念は、キャリブレーションプロセスの統計特性である。 In October 2019, Nature published a paper [6] describing an experimental work that was performed at Google. The paper claims to demonstrate quantum (computational) supremacy on a 53-qubit quantum computer. Since then we have been involved in a long-term project to study various statistical aspects of the Google experiment. In [30] we studied Google's statistical framework that we found to be very sound and offered some technical improvements. This document describes three main concerns (based on statistical analysis) about the Google 2019 experiment. The first concern is that the data do not agree with Google's noise model (or any other specific model). The second concern is that a crucial simple formula for a priori estimation of the fidelity seems to involve an unexpected independence assumption, and yet it gives very accurate predictions. The third concern is about statistical properties of the calibration process. | 翻訳日:2023-05-03 16:22:13 公開日:2023-05-01 |
# スケッチからの顔認識のためのセマンティックニューラルモデルアプローチ semantic neural model approach for face recognition from sketch ( http://arxiv.org/abs/2305.01058v1 ) ライセンス: Link先を確認 | Chandana Navuluri, Sandhya Jukanti, Raghupathi Reddy Allapuram | (参考訳) フェイススケッチの合成と評判は、法執行機関の幅広いパッケージを持っている。
驚くべき進歩が漫画や評判に表れていたにもかかわらず、現在の最大研究はそれらを別々の責任と捉えている。
本稿では,顔の似顔絵合成と認識を同時に扱うためのセマンティックニューラルバージョンアプローチを提案する。
我々は,研究対象の顔が正面のポーズを呈し,通常の照明と中性表現を呈し,オクルージョンを持たないことを期待する。
似顔/画像写真を合成するために、顔近傍を重なり合うパッチに分けて知識を得る。
パッチのサイズは、特定すべき局所的な顔システムの規模を決定する。 Face sketch synthesis and reputation have wide range of packages in law enforcement. Despite the amazing progresses had been made in faces cartoon and reputation, maximum current researches regard them as separate responsibilities. On this paper, we propose a semantic neural version approach so that you can address face caricature synthesis and recognition concurrently. We anticipate that faces to be studied are in a frontal pose, with regular lighting and neutral expression, and have no occlusions. To synthesize caricature/image photos, the face vicinity is divided into overlapping patches for gaining knowledge of. The size of the patches decides the scale of local face systems to be found out. | 翻訳日:2023-05-03 16:21:50 公開日:2023-05-01 |
# LooPy: 電子ダンス音楽における音楽情報検索のための研究用ミックスフレームワーク LooPy: A Research-Friendly Mix Framework for Music Information Retrieval on Electronic Dance Music ( http://arxiv.org/abs/2305.01051v1 ) ライセンス: Link先を確認 | Xinyu Li | (参考訳) 音楽情報検索(MIR)は近年,深層学習の進展とともに爆発的な発展を遂げている。
しかしながら、電子舞踊音楽(EDM)のような音楽ジャンルは、他のものに比べて比較的少ない調査がなされている。
広い範囲のアプリケーションを考えると、ラベル付きデータ取得の難しさを軽減するため、EDM楽曲のMIR基盤として自動EDM音声生成のためのPythonパッケージを提示する。
多くのシンボリックな音楽生成パイプラインの終わりに簡単に結合できる便利なツールである。
このパッケージ内では、特定のメロディとコードからよく生産されたトラックをレンダリングしたり、確率的シンボリックなメロディジェネレータによって特定のキーのみを与えられた巨大なトラックを生成できるプロレベルのテンプレートを構築するためのフレームワークを提供する。
実験の結果,我々のミックスは,主観的基準と客観的基準の両方において,世界的に有名なアーティストが制作したオリジナル・リファレンス・ソングと同等の品質を達成できることがわかった。
私たちのコードは、このリポジトリでアクセスできます。 https://github.com/Gariscat/loopy。 Music information retrieval (MIR) has gone through an explosive development with the advancement of deep learning in recent years. However, music genres like electronic dance music (EDM) has always been relatively less investigated compared to others. Considering its wide range of applications, we present a Python package for automated EDM audio generation as an infrastructure for MIR for EDM songs, to mitigate the difficulty of acquiring labelled data. It is a convenient tool that could be easily concatenated to the end of many symbolic music generation pipelines. Inside this package, we provide a framework to build professional-level templates that could render a well-produced track from specified melody and chords, or produce massive tracks given only a specific key by our probabilistic symbolic melody generator. Experiments show that our mixes could achieve the same quality of the original reference songs produced by world-famous artists, with respect to both subjective and objective criteria. Our code is accessible in this repository: https://github.com/Gariscat/loopy and the official site of the project is also online https://loopy4edm.com . | 翻訳日:2023-05-03 16:21:39 公開日:2023-05-01 |
# SafeWebUH at SemEval-2023 Task 11: Learning Annotator Disagreement in Derogatory Text: Comparison of Direct Training vs Aggregation SafeWebUH at SemEval-2023 Task 11: Learning Annotator Disagreement in Derogatory Text: Comparison of Direct Training vs Aggregation ( http://arxiv.org/abs/2305.01050v1 ) ライセンス: Link先を確認 | Sadat Shahriar, Thamar Solorio | (参考訳) 主観性と意見の相違は重要な社会現象であり, 軽蔑的文章内容の注釈・検出過程を考慮に入れることが重要である。
本稿では,SemEval-2023 Task 11 で提供される4つのデータセットと BERT モデルを微調整してアノテーションの不一致を捉える。
個々のアノテータのモデリングとアグリゲーションにより,ソフトラベルの直接トレーニングと比較すると,クロスエントロピースコアは平均0.21低下する。
さらに,アノテータのメタデータが平均0.029のクロスエントロピースコアの低下に寄与することを示した。 Subjectivity and difference of opinion are key social phenomena, and it is crucial to take these into account in the annotation and detection process of derogatory textual content. In this paper, we use four datasets provided by SemEval-2023 Task 11 and fine-tune a BERT model to capture the disagreement in the annotation. We find individual annotator modeling and aggregation lowers the Cross-Entropy score by an average of 0.21, compared to the direct training on the soft labels. Our findings further demonstrate that annotator metadata contributes to the average 0.029 reduction in the Cross-Entropy score. | 翻訳日:2023-05-03 16:21:15 公開日:2023-05-01 |
# 色とシャープネスを増強した糖尿病性足部潰瘍のVenn Diagram Multi-label Class Interpretation Venn Diagram Multi-label Class Interpretation of Diabetic Foot Ulcer with Color and Sharpness Enhancement ( http://arxiv.org/abs/2305.01044v1 ) ライセンス: Link先を確認 | Md Mahamudul Hasan, Moi Hoon Yap, Md Kamrul Hasan | (参考訳) DFUは糖尿病の重篤な合併症であり、適切に治療しなければ下肢の切断につながる可能性がある。
2021年の糖尿病性足潰瘍のグランドチャレンジに触発されて、研究者たちは感染、虚血、これらの状態の両方を含むdfuの自動多種分類を考案した。
しかし、分類精度はまだ不十分であるため、依然として課題である。
本稿では,異なる画像強調手法を用いたマルチラベルCNN方式のVenn Diagramによる解釈を提案し,DFU分類の改善を図る。
いずれのクラスも感染と虚血の同時発生と解釈できるため,感染の欠如と虚血の欠如はクラス傷の欠如と解釈できるため,4つのクラスを2つに減らすことを提案する。
これら2つのクラスから4つのクラス全てを解釈するために、分類器に新しいVenn Diagram表現ブロックを導入する。
モデルをより弾力性のあるものにするために,色やシャープさの強化により,DFU画像の知覚品質,特にぼやけや不整合DFU画像の画質を向上させることを提案する。
また、CNNモデル一般化性能を改善するために、微調整最適化手法、適応的シャープネス認識最小化を用いる。
提案手法は,5,734枚の画像を含むDFUC2021のテストデータセットを用いて評価し,DFUC2021の上位3点と比較した。
提案手法は, 既存の手法よりも優れており, マクロ平均値f1, リコールスコア0.6592, 0.6593, 0.6652をそれぞれ上回っており, さらに, アブレーション研究および画質測定を行い, 提案手法をさらに解釈する。
本手法は, 撮影画像の不整合に対処し, より堅牢な遠隔DFU創傷分類に利用できるため, DFU患者に有用である。 DFU is a severe complication of diabetes that can lead to amputation of the lower limb if not treated properly. Inspired by the 2021 Diabetic Foot Ulcer Grand Challenge, researchers designed automated multi-class classification of DFU, including infection, ischaemia, both of these conditions, and none of these conditions. However, it remains a challenge as classification accuracy is still not satisfactory. This paper proposes a Venn Diagram interpretation of multi-label CNN-based method, utilizing different image enhancement strategies, to improve the multi-class DFU classification. We propose to reduce the four classes into two since both class wounds can be interpreted as the simultaneous occurrence of infection and ischaemia and none class wounds as the absence of infection and ischaemia. We introduce a novel Venn Diagram representation block in the classifier to interpret all four classes from these two classes. To make our model more resilient, we propose enhancing the perceptual quality of DFU images, particularly blurry or inconsistently lit DFU images, by performing color and sharpness enhancements on them. We also employ a fine-tuned optimization technique, adaptive sharpness aware minimization, to improve the CNN model generalization performance. The proposed method is evaluated on the test dataset of DFUC2021, containing 5,734 images and the results are compared with the top-3 winning entries of DFUC2021. Our proposed approach outperforms these existing approaches and achieves Macro-Average F1, Recall and Precision scores of 0.6592, 0.6593, and 0.6652, respectively.Additionally, We perform ablation studies and image quality measurements to further interpret our proposed method. This proposed method will benefit patients with DFUs since it tackles the inconsistencies in captured images and can be employed for a more robust remote DFU wound classification. | 翻訳日:2023-05-03 16:20:58 公開日:2023-05-01 |
# clip-s$^4$:言語ガイド付き自己教師付き意味セグメンテーション CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.01040v1 ) ライセンス: Link先を確認 | Wenbin He, Suphanut Jamonnak, Liang Gou, Liu Ren | (参考訳) 既存のセマンティックセグメンテーションアプローチは、しばしばコストのかかるピクセル単位のアノテーションと事前に定義されたクラスによって制限される。
本研究では,自己教師付き画素表現学習と視覚言語モデルを活用するCLIP-S$^4$を提案し,人間のアノテーションや未知のクラス情報なしに,さまざまなセマンティックセグメンテーションタスク(例えば,教師なし,転送学習,言語駆動セグメンテーション)を可能にする。
まず,画像の異なる拡張ビューからピクセル単位のコントラスト学習でピクセル埋め込みを学習する。
画素埋め込みをさらに改善し、言語駆動セマンティックセグメンテーションを可能にするために、視覚言語モデルによってガイドされる2種類の一貫性を設計する。
1) 組込み整合性、画素埋め込みを事前学習された視覚言語モデルCLIPのジョイント特徴空間に整合させる。
2) セマンティクスの一貫性 モデルでは、既知のプロトタイプと未知のプロトタイプの両方を備えた、注意深く設計されたターゲットクラスをクリップするのと同じ予測を行なわなければなりません。
このように、CLIP-S$^4$は、トレーニング中に未知のクラス情報が不要なクラスフリーセマンティックセグメンテーションの新しいタスクを可能にする。
その結果,提案手法は,最先端の教師なしおよび言語駆動意味セマンティクスセグメンテーション法と比較して,4つの人気のあるベンチマークに対して一貫性と実質的な性能改善を示した。
さらに,本手法は,未知のクラス認識において,大きなマージンでこれらの手法より優れる。 Existing semantic segmentation approaches are often limited by costly pixel-wise annotations and predefined classes. In this work, we present CLIP-S$^4$ that leverages self-supervised pixel representation learning and vision-language models to enable various semantic segmentation tasks (e.g., unsupervised, transfer learning, language-driven segmentation) without any human annotations and unknown class information. We first learn pixel embeddings with pixel-segment contrastive learning from different augmented views of images. To further improve the pixel embeddings and enable language-driven semantic segmentation, we design two types of consistency guided by vision-language models: 1) embedding consistency, aligning our pixel embeddings to the joint feature space of a pre-trained vision-language model, CLIP; and 2) semantic consistency, forcing our model to make the same predictions as CLIP over a set of carefully designed target classes with both known and unknown prototypes. Thus, CLIP-S$^4$ enables a new task of class-free semantic segmentation where no unknown class information is needed during training. As a result, our approach shows consistent and substantial performance improvement over four popular benchmarks compared with the state-of-the-art unsupervised and language-driven semantic segmentation methods. More importantly, our method outperforms these methods on unknown class recognition by a large margin. | 翻訳日:2023-05-03 16:20:23 公開日:2023-05-01 |
# 一般化困難度のモデル非依存測定 Model-agnostic Measure of Generalization Difficulty ( http://arxiv.org/abs/2305.01034v1 ) ライセンス: Link先を確認 | Akhilan Boopathy, Kevin Liu, Jaedong Hwang, Shu Ge, Asaad Mohammedsaleh, Ila Fiete | (参考訳) 機械学習アルゴリズムの尺度は、実行可能なタスクの難しさであり、十分に困難なタスクは、強力な機械学習モデルの重要なドライバである。
しかし、機械学習ベンチマークの一般化の難しさの定量化は依然として困難である。
本稿では,タスクの一般化難易度に関するモデルに依存しない最初の尺度を提案する。
我々の帰納的バイアス複雑性尺度は、そのデータが提供する情報を除くタスクでうまく一般化するために必要な総情報を定量化する。
これは、トレーニングデータに適合するタスクを一般化する仮説によって占有される分数体積を測定することによって行われる。
モデルが一般化しなければならない空間の固有次元と指数関数的にスケールするが、その次元ごとの分解能は多項式のみであり、多くの次元を一般化する必要のあるタスクはより少ない次元でより詳細を必要とするタスクよりも劇的に困難であることを示している。
本手法は,教師付き学習,強化学習,メタラーニング一般化の難しさの計算と比較に応用できる。
実験により,MNIST < CIFAR10 < Imagenet と完全可観測マルコフ決定過程 (MDPs) < 部分的に観測可能な MDP を用いて,直感的に予測される傾向を正式に定量化することを示した。
さらに,複雑な画像の分類には,単純な画像を用いた数ショットメタラーニングが用いられる。
我々の測度は、より複雑なタスクの構築を誘導し、より強力な一般化能力を持つより洗練されたアーキテクチャや学習アルゴリズムの開発を促進するための定量的な指標を提供する。 The measure of a machine learning algorithm is the difficulty of the tasks it can perform, and sufficiently difficult tasks are critical drivers of strong machine learning models. However, quantifying the generalization difficulty of machine learning benchmarks has remained challenging. We propose what is to our knowledge the first model-agnostic measure of the inherent generalization difficulty of tasks. Our inductive bias complexity measure quantifies the total information required to generalize well on a task minus the information provided by the data. It does so by measuring the fractional volume occupied by hypotheses that generalize on a task given that they fit the training data. It scales exponentially with the intrinsic dimensionality of the space over which the model must generalize but only polynomially in resolution per dimension, showing that tasks which require generalizing over many dimensions are drastically more difficult than tasks involving more detail in fewer dimensions. Our measure can be applied to compute and compare supervised learning, reinforcement learning and meta-learning generalization difficulties against each other. We show that applied empirically, it formally quantifies intuitively expected trends, e.g. that in terms of required inductive bias, MNIST < CIFAR10 < Imagenet and fully observable Markov decision processes (MDPs) < partially observable MDPs. Further, we show that classification of complex images $<$ few-shot meta-learning with simple images. Our measure provides a quantitative metric to guide the construction of more complex tasks requiring greater inductive bias, and thereby encourages the development of more sophisticated architectures and learning algorithms with more powerful generalization capabilities. | 翻訳日:2023-05-03 16:19:59 公開日:2023-05-01 |
# ゼロショット学習を用いた企業分類 Company classification using zero-shot learning ( http://arxiv.org/abs/2305.01028v1 ) ライセンス: Link先を確認 | Maryan Rizinski, Andrej Jankov, Vignesh Sankaradas, Eugene Pinsky, Igor Miskovski, Dimitar Trajanov | (参考訳) 近年,感情分析,テキスト分類,名前付きエンティティ認識など,さまざまなビジネスアプリケーションにおいて自然言語処理(NLP)の重要性が高まっている。
本論文では,NLPとゼロショット学習を用いた企業分類手法を提案する。
本手法は,事前に学習したトランスフォーマモデルを用いて企業説明から特徴を抽出し,各カテゴリの特定のトレーニングデータを必要としない企業を関連カテゴリに分類する。
我々は,企業のテキスト記述の公開データセットに対するアプローチを評価し,企業分類のプロセスを合理化し,グローバル産業分類基準(GICS)などの従来の手法で必要とされる時間と資源を削減できることを実証した。
その結果, この手法は企業分類の自動化の可能性を秘めており, 今後の研究の道筋として有望であることがわかった。 In recent years, natural language processing (NLP) has become increasingly important in a variety of business applications, including sentiment analysis, text classification, and named entity recognition. In this paper, we propose an approach for company classification using NLP and zero-shot learning. Our method utilizes pre-trained transformer models to extract features from company descriptions, and then applies zero-shot learning to classify companies into relevant categories without the need for specific training data for each category. We evaluate our approach on publicly available datasets of textual descriptions of companies, and demonstrate that it can streamline the process of company classification, thereby reducing the time and resources required in traditional approaches such as the Global Industry Classification Standard (GICS). The results show that this method has potential for automation of company classification, making it a promising avenue for future research in this area. | 翻訳日:2023-05-03 16:19:32 公開日:2023-05-01 |
# 顔認識のための合成データ:現状と今後の展望 Synthetic Data for Face Recognition: Current State and Future Prospects ( http://arxiv.org/abs/2305.01021v1 ) ライセンス: Link先を確認 | Fadi Boutros, Vitomir Struc, Julian Fierrez, Naser Damer | (参考訳) 過去数年間で、ディープラーニング機能と大規模トレーニングデータセットの可用性が急速に向上し、顔認識精度が飛躍的に向上した。
しかし、これらの技術は、AIモデルのトレーニングと評価に本物のバイオメトリックデータを使用することに対する法的および倫理的な懸念と、ますます最先端のディープラーニングモデルを活用することによる、今後数年間で大きな課題に直面している。
近年の深層生成モデルの進歩と、リアルで高解像度な合成画像データの生成の成功により、プライバシフレンドリーな合成データは、顔認識開発において真正なデータを使用するという課題を克服するプライバシに敏感な真正なデータに代わるものとして最近提案されている。
本研究の目的は, 顔認識における合成顔データの利用事例と, 合成顔データに基づく顔認識モデルの最近の進歩を, 明確かつ構造化した画像を提供することである。
また,顔認識開発における合成データの利用が直面する課題と,顔認識分野における合成データの今後の展望について述べる。 Over the past years, deep learning capabilities and the availability of large-scale training datasets advanced rapidly, leading to breakthroughs in face recognition accuracy. However, these technologies are foreseen to face a major challenge in the next years due to the legal and ethical concerns about using authentic biometric data in AI model training and evaluation along with increasingly utilizing data-hungry state-of-the-art deep learning models. With the recent advances in deep generative models and their success in generating realistic and high-resolution synthetic image data, privacy-friendly synthetic data has been recently proposed as an alternative to privacy-sensitive authentic data to overcome the challenges of using authentic data in face recognition development. This work aims at providing a clear and structured picture of the use-cases taxonomy of synthetic face data in face recognition along with the recent emerging advances of face recognition models developed on the bases of synthetic data. We also discuss the challenges facing the use of synthetic data in face recognition development and several future prospects of synthetic data in the domain of face recognition. | 翻訳日:2023-05-03 16:19:17 公開日:2023-05-01 |
# LSTMを用いたACC用攻撃車線変化時の先行車両挙動予測 LSTM-based Preceding Vehicle Behaviour Prediction during Aggressive Lane Change for ACC Application ( http://arxiv.org/abs/2305.01095v1 ) ライセンス: Link先を確認 | Rajmeet Singh, Saeed Mozaffari, Mehdi Rezaei, Shahpour Alirezaee | (参考訳) アダプティブ・クルーズ・コントロール(ACC)システムの開発は、車両の速度を自動制御して車両の安全と快適性を高めることを目的としている。
しかし、従来のaccシステムは運転条件の変化や運転者の行動に適応できない。
この制限に対処するために,過去の運転経験から学習し,新しい状況をリアルタイムで予測できるLong Short-Term Memory (LSTM)ベースのACCシステムを提案する。
このモデルは、カメラ付きドローンの助けを借りて、ドイツの高速道路から取得した現実世界のhighdデータセットに基づいて構築されている。
車両の前車線が遮断された場合, 攻撃的な車線変化下でのACCシステムの評価を行い, 目標ドライバの速度低下を強制した。
この目的のために,提案システムはシミュレーション運転環境を用いて評価し,フィードフォワードニューラルネットワーク(ANN)モデルとモデル予測制御(MPC)モデルと比較した。
その結果,LSTMに基づくシステムはANNモデルよりも19.25%精度が高く,MPCモデルよりも5.9%精度が高いことがわかった。
シミュレーションはMatlab/Simulink環境で行われる。 The development of Adaptive Cruise Control (ACC) systems aims to enhance the safety and comfort of vehicles by automatically regulating the speed of the vehicle to ensure a safe gap from the preceding vehicle. However, conventional ACC systems are unable to adapt themselves to changing driving conditions and drivers' behavior. To address this limitation, we propose a Long Short-Term Memory (LSTM) based ACC system that can learn from past driving experiences and adapt and predict new situations in real time. The model is constructed based on the real-world highD dataset, acquired from German highways with the assistance of camera-equipped drones. We evaluated the ACC system under aggressive lane changes when the side lane preceding vehicle cut off, forcing the targeted driver to reduce speed. To this end, the proposed system was assessed on a simulated driving environment and compared with a feedforward Artificial Neural Network (ANN) model and Model Predictive Control (MPC) model. The results show that the LSTM-based system is 19.25% more accurate than the ANN model and 5.9% more accurate than the MPC model in terms of predicting future values of subject vehicle acceleration. The simulation is done in Matlab/Simulink environment. | 翻訳日:2023-05-03 16:13:01 公開日:2023-05-01 |
# バンディットフィードバックによる実効予測:再パラメータ化による学習 Performative Prediction with Bandit Feedback: Learning through Reparameterization ( http://arxiv.org/abs/2305.01094v1 ) ライセンス: Link先を確認 | Yatong Chen, Wei Tang, Chien-Ju Ho, Yang Liu | (参考訳) perdomo et al. (2020) によって導入されたパフォーマンス予測は、モデルの展開に応じてデータ分布自体が変化する社会予測を研究するためのフレームワークである。
この設定における精度の最適化に関する既存の作業は、実行リスクがデプロイされたモデル上で凸である、モデルからデータ分布へのマッピングが事前にモデルデザイナに知られている、という2つの仮定に簡単に違反する。
本稿では,これらの仮定を必要としない従順な性能予測問題の研究を開始する。
この課題に対処するために,1レベルが分布マップの計算を目的とし,もう1レベルが誘導データ分布の関数として実行予測目標を再パラメータ化する2レベルゼロ次最適化アルゴリズムを開発した。
軽度条件下では、この再パラメータ化により、非凸目標を凸目標に変換し、証明可能な後悔保証を達成することができる。
特に,実演サンプル総数においてsublinearであり,モデルパラメータの次元における多項式のみである後悔境界を与える。 Performative prediction, as introduced by Perdomo et al. (2020), is a framework for studying social prediction in which the data distribution itself changes in response to the deployment of a model. Existing work on optimizing accuracy in this setting hinges on two assumptions that are easily violated in practice: that the performative risk is convex over the deployed model, and that the mapping from the model to the data distribution is known to the model designer in advance. In this paper, we initiate the study of tractable performative prediction problems that do not require these assumptions. To tackle this more challenging setting, we develop a two-level zeroth-order optimization algorithm, where one level aims to compute the distribution map, and the other level reparameterizes the performative prediction objective as a function of the induced data distribution. Under mild conditions, this reparameterization allows us to transform the non-convex objective into a convex one and achieve provable regret guarantees. In particular, we provide a regret bound that is sublinear in the total number of performative samples taken and only polynomial in the dimension of the model parameter. | 翻訳日:2023-05-03 16:12:41 公開日:2023-05-01 |
# 複素力学系からデータ中の多様体次元と座標を検出するオートエンコーダ Autoencoders for discovering manifold dimension and coordinates in data from complex dynamical systems ( http://arxiv.org/abs/2305.01090v1 ) ライセンス: Link先を確認 | Kevin Zeng, Michael D. Graham | (参考訳) 物理学や工学における多くの現象は形式的には高次元であるが、その長期ダイナミクスはしばしば低次元多様体上に存在する。
本研究は,暗黙の正則化と内部線形層,および$L_2$正則化(重崩壊)を組み合わせて,データセットの基底次元を自動的に推定し,直交多様体座標系を作成し,周囲空間と多様体空間の間の写像関数を提供し,サンプル外射影を可能にするオートエンコーダフレームワークを提案する。
様々な複雑度の力学系から一連のデータセットの多様体次元を推定し、他の最先端推定器と比較するフレームワークの能力を検証する。
ネットワークのトレーニングダイナミクスを分析して、低ランク学習のメカニズムを把握し、暗黙の正規化レイヤが、トレーニング中に低ランク表現と自己正当性を組み合わせていることを確認する。
線形の場合におけるこのアーキテクチャの勾配降下ダイナミクスの解析は、全ての層を包含する「集合的重み変数」のより早い崩壊に導く内部線形層の役割と、破壊的縮退における重み減少の役割を明らかにした。
本研究では, 時空間的カオス偏微分方程式のデータ駆動動的モデルを生成することにより, 状態空間モデリングと予測の適用を自然に拡張できることを示す。
最後に、ハイパーパラメータの選択にロバストなフレームワークであることを示します。 While many phenomena in physics and engineering are formally high-dimensional, their long-time dynamics often live on a lower-dimensional manifold. The present work introduces an autoencoder framework that combines implicit regularization with internal linear layers and $L_2$ regularization (weight decay) to automatically estimate the underlying dimensionality of a data set, produce an orthogonal manifold coordinate system, and provide the mapping functions between the ambient space and manifold space, allowing for out-of-sample projections. We validate our framework's ability to estimate the manifold dimension for a series of datasets from dynamical systems of varying complexities and compare to other state-of-the-art estimators. We analyze the training dynamics of the network to glean insight into the mechanism of low-rank learning and find that collectively each of the implicit regularizing layers compound the low-rank representation and even self-correct during training. Analysis of gradient descent dynamics for this architecture in the linear case reveals the role of the internal linear layers in leading to faster decay of a "collective weight variable" incorporating all layers, and the role of weight decay in breaking degeneracies and thus driving convergence along directions in which no decay would occur in its absence. We show that this framework can be naturally extended for applications of state-space modeling and forecasting by generating a data-driven dynamic model of a spatiotemporally chaotic partial differential equation using only the manifold coordinates. Finally, we demonstrate that our framework is robust to hyperparameter choices. | 翻訳日:2023-05-03 16:12:22 公開日:2023-05-01 |
# 交換可能なグラフ生成モデルに対する期待モチーフ数計算 Computing Expected Motif Counts for Exchangeable Graph Generative Models ( http://arxiv.org/abs/2305.01089v1 ) ライセンス: Link先を確認 | Oliver Schulte | (参考訳) グラフ統計の期待値の推定は、グラフモデルの使用と学習にとって重要な推論タスクである。
本稿では,グラフ統計の多用型である予測モチーフ数に対するスケーラブルな推定手法を提案する。
この手法は、グラフデータに対するニューラルおよびベイズ的アプローチで使用されるタイプの生成混合モデルに適用される。 Estimating the expected value of a graph statistic is an important inference task for using and learning graph models. This note presents a scalable estimation procedure for expected motif counts, a widely used type of graph statistic. The procedure applies for generative mixture models of the type used in neural and Bayesian approaches to graph data. | 翻訳日:2023-05-03 16:11:53 公開日:2023-05-01 |
# 持続可能な教育と学習ツールとしてのAIとブロックチェーン AI & Blockchain as sustainable teaching and learning tools to cope with the 4IR ( http://arxiv.org/abs/2305.01088v1 ) ライセンス: Link先を確認 | Md Aminul Islam | (参考訳) 第4次産業革命(4IR)は私たちの生活や働き方を変え、教育も例外ではありません。
4IRの課題に対処するためには、革新的で持続可能な教育・学習ツールが必要である。
AIとブロックチェーン技術は、パーソナライズされた学習、セキュアなクレデンシャル化、分散学習ネットワークといった潜在的なメリットとともに、この点において大きな可能性を秘めている。
本稿では,AIとブロックチェーンの教育における既存研究を概観し,ケーススタディを分析し,これらの技術のメリットと課題を探究する。
また、AIとブロックチェーンを持続可能な教育と学習プラクティスに統合するためのユニークなモデルを提案する。
より経験的な研究の必要性や倫理的・社会的影響の探求など、今後の研究の方向性が議論されている。
この議論の重要な要約は、教育におけるアクセシビリティ、有効性、セキュリティを高めることで、AIとブロックチェーンはこの分野に革命をもたらす可能性がある、ということだ。
テクノロジーが発展するにつれて、学生がゲームを変える可能性のあるテクノロジーの恩恵を受けられるようにするためには、ハザードを最小化しながら、その力を利用する方法を見つけることが不可欠である。
本稿では,4IR時代の教育と学習のための持続可能なツールとして,AIとブロックチェーンの可能性を強調し,そのメリット,課題,今後の展望について論じる。 The Fourth Industrial Revolution (4IR) is transforming the way we live and work, and education is no exception. To cope with the challenges of 4IR, there is a need for innovative and sustainable teaching and learning tools. AI and block chain technologies hold great promise in this regard, with potential benefits such as personalized learning, secure credentialing, and decentralized learning networks. This paper presents a review of existing research on AI and block chain in education, analyzing case studies and exploring the potential benefits and challenges of these technologies. The paper also suggests a unique model for integrating AI and block chain into sustainable teaching and learning practices. Future research directions are discussed, including the need for more empirical studies and the exploration of ethical and social implications. The key summary of this discussion is that, by enhancing accessibility, efficacy, and security in education, AI and blockchain have the potential to revolutionise the field. In order to ensure that students can benefit from these potentially game-changing technologies as technology develops, it will be crucial to find ways to harness its power while minimising hazards. Overall, this paper highlights the potential of AI and block chain as sustainable tools for teaching and learning in the 4IR era and their respective advantages, issues and future prospects have been discussed in this writing. | 翻訳日:2023-05-03 16:11:48 公開日:2023-05-01 |
# ユーザクエリのためのコンテキスト多言語スペルチェッカ Contextual Multilingual Spellchecker for User Queries ( http://arxiv.org/abs/2305.01082v1 ) ライセンス: Link先を確認 | Sanat Sharma, Josep Valls-Vargas, Tracy Holloway King, Francois Guerin, Chirag Arora | (参考訳) Spellcheckingは、最も基本的で広く使われている検索機能の一つだ。
不正な綴りのユーザクエリの修正は、ユーザエクスペリエンスの向上だけでなく、ユーザの期待も高めます。
しかしながら、最も広く利用されているスペルチェックソリューションは、最先端のソリューションよりも精度が低いか、レイテンシが重要な要件である検索ユースケースで使用するには遅すぎるかのどちらかである。
さらに、最近の最も革新的なアーキテクチャは英語に重点を置いており、多言語で訓練されておらず、長文の綴り訂正のために訓練されている。
最後に、ほとんどの企業は製品名のような独自の語彙を持っているため、既製のスペルソリューションはユーザのニーズに届かない。
本研究では,非常に高速でスケーラブルで,その語彙に適応し,特定の製品のニーズに応じた綴り出力を行う多言語スペルチェッカを構築した。
さらに、スペルはドメイン内のデータセットに対して広いマージンで汎用スペルを上回ります。
私たちの多言語スペルはAdobe製品の検索に使われ、様々なアプリケーションでオートコンプリートに使われています。 Spellchecking is one of the most fundamental and widely used search features. Correcting incorrectly spelled user queries not only enhances the user experience but is expected by the user. However, most widely available spellchecking solutions are either lower accuracy than state-of-the-art solutions or too slow to be used for search use cases where latency is a key requirement. Furthermore, most innovative recent architectures focus on English and are not trained in a multilingual fashion and are trained for spell correction in longer text, which is a different paradigm from spell correction for user queries, where context is sparse (most queries are 1-2 words long). Finally, since most enterprises have unique vocabularies such as product names, off-the-shelf spelling solutions fall short of users' needs. In this work, we build a multilingual spellchecker that is extremely fast and scalable and that adapts its vocabulary and hence speller output based on a specific product's needs. Furthermore, our speller out-performs general purpose spellers by a wide margin on in-domain datasets. Our multilingual speller is used in search in Adobe products, powering autocomplete in various applications. | 翻訳日:2023-05-03 16:11:25 公開日:2023-05-01 |
# リモートセンシングと市民科学データを用いた鳥の分布モデリング Bird Distribution Modelling using Remote Sensing and Citizen Science data ( http://arxiv.org/abs/2305.01079v1 ) ライセンス: Link先を確認 | M\'elisande Teng, Amna Elmustafa, Benjamin Akera, Hugo Larochelle, David Rolnick | (参考訳) 気候変動は生物多様性の損失の主要な要因であり、多くの種の地理的範囲や存在量を変化させている。
しかし、種の分布に関する重要な知識のギャップは、主に従来のフィールドモニタリングに必要な労力と専門知識の量によって残っている。
そこで本稿では, 遠隔センシングデータと低速な地上市民科学データを組み合わせることで, 生物分布モデリングの改善にコンピュータビジョンを活用したアプローチを提案する。
衛星画像から種の出現率を予測することによって,アメリカ産鳥類を生息地へマッピングするための新しいタスクとデータセットと,我々のアプローチの力を実証するベースラインモデルを導入する。
当社の手法は,世界中のエコシステム特性をスカラにモデル化する可能性を開く。 Climate change is a major driver of biodiversity loss, changing the geographic range and abundance of many species. However, there remain significant knowledge gaps about the distribution of species, due principally to the amount of effort and expertise required for traditional field monitoring. We propose an approach leveraging computer vision to improve species distribution modelling, combining the wide availability of remote sensing data with sparse on-ground citizen science data. We introduce a novel task and dataset for mapping US bird species to their habitats by predicting species encounter rates from satellite images, along with baseline models which demonstrate the power of our approach. Our methods open up possibilities for scalably modelling ecosystems properties worldwide. | 翻訳日:2023-05-03 16:11:00 公開日:2023-05-01 |
# ニューラルシャドウ量子状態トモグラフィー Neural-Shadow Quantum State Tomography ( http://arxiv.org/abs/2305.01078v1 ) ライセンス: Link先を確認 | Victor Wei, W.A. Coish, Pooya Ronagh, Christine A. Muschik | (参考訳) 量子状態トモグラフィ(Quantum state tomography、QST)は、未知の量子状態の再構成技術である。
これは量子技術を開発するための鍵となるプリミティブである。
ニューラルネットワークアンサッツによる量子状態再構築を目的としたNNQST(Neural Network Quantum State Tomography)は、ベース依存のクロスエントロピー損失関数によって実装されることが多い。
NNQSTの最先端実装は、要求される測定設定数の指数関数的な増加を避けるために、特定のサブクラスを特徴付けることに制限されることが多い。
より広範に適用可能な効率的な状態再構成法として、損失関数として不完全性を用いるニューラルネットワークベースのQSTプロトコルであるNSQST(Neural-Shadow quantum state tomography)を提案する。
対象状態の古典的影を用いて不忠実さを推定する。
不忠実性はトレーニング損失の自然な選択であり、古典的なシャドーフォーマリズムの実証された測定サンプル効率の恩恵を受ける。
さらに、NSQSTは誤差を緩和することなく様々な種類のノイズに対して堅牢である。
NNQSTに対するNSQSTの利点を数値的に示し、実用的関心を持つ3つの量子状態の相対位相を学習する。
NSQSTはNNQSTの実用化範囲を大きく広げ、量子状態トモグラフィーのための新しい経路を提供する。 Quantum state tomography (QST) is the art of reconstructing an unknown quantum state through measurements. It is a key primitive for developing quantum technologies. Neural network quantum state tomography (NNQST), which aims to reconstruct the quantum state via a neural network ansatz, is often implemented via a basis-dependent cross-entropy loss function. State-of-the-art implementations of NNQST are often restricted to characterizing a particular subclass of states, to avoid an exponential growth in the number of required measurement settings. To provide a more broadly applicable method for efficient state reconstruction, we present "neural-shadow quantum state tomography" (NSQST)-an alternative neural network-based QST protocol that uses infidelity as the loss function. The infidelity is estimated using the classical shadows of the target state. Infidelity is a natural choice for training loss, benefiting from the proven measurement sample efficiency of the classical shadow formalism. Furthermore, NSQST is robust against various types of noise without any error mitigation. We numerically demonstrate the advantage of NSQST over NNQST at learning the relative phases of three target quantum states of practical interest. NSQST greatly extends the practical reach of NNQST and provides a novel route to effective quantum state tomography. | 翻訳日:2023-05-03 16:10:40 公開日:2023-05-01 |
# サーベイランスに対する身体的敵対攻撃:調査 Physical Adversarial Attacks for Surveillance: A Survey ( http://arxiv.org/abs/2305.01074v1 ) ライセンス: Link先を確認 | Kien Nguyen, Tharindu Fernando, Clinton Fookes, Sridha Sridharan | (参考訳) 現代の自動監視技術は、ディープラーニング手法に大きく依存している。
優れたパフォーマンスにもかかわらず、これらの学習システムは本質的に敵対的な攻撃に弱い。
敵は、敵のTシャツ、眼鏡、帽子、あるいは特定の行動により、身体的に外見を変えることができ、監視システムの様々な形態の検出、追跡、認識を回避し、安全資産や資産への不正アクセスを得ることができる。
これは現代の監視システムのセキュリティと安全性に深刻な脅威をもたらす。
本稿では,監視アプリケーションに対する物理敵攻撃の学習と設計における最近の試みと成果についてレビューする。
特に,身体的敵意攻撃を解析するためのフレームワークを提案し,このフレームワークに基づく4つの重要な監視課題である検出,識別,追跡,行動認識に対する物理的な敵意攻撃の包括的な調査を行う。
さらに, 物理的攻撃に対する防御戦略と防御の強さを評価する方法について検討し, 分析を行った。
本稿では,物理的な攻撃に対する監視システム内でのレジリエンスを構築するための重要なステップを示す。 Modern automated surveillance techniques are heavily reliant on deep learning methods. Despite the superior performance, these learning systems are inherently vulnerable to adversarial attacks - maliciously crafted inputs that are designed to mislead, or trick, models into making incorrect predictions. An adversary can physically change their appearance by wearing adversarial t-shirts, glasses, or hats or by specific behavior, to potentially avoid various forms of detection, tracking and recognition of surveillance systems; and obtain unauthorized access to secure properties and assets. This poses a severe threat to the security and safety of modern surveillance systems. This paper reviews recent attempts and findings in learning and designing physical adversarial attacks for surveillance applications. In particular, we propose a framework to analyze physical adversarial attacks and provide a comprehensive survey of physical adversarial attacks on four key surveillance tasks: detection, identification, tracking, and action recognition under this framework. Furthermore, we review and analyze strategies to defend against the physical adversarial attacks and the methods for evaluating the strengths of the defense. The insights in this paper present an important step in building resilience within surveillance systems to physical adversarial attacks. | 翻訳日:2023-05-03 16:09:55 公開日:2023-05-01 |
# 分布混合による個人化フェデレーション学習 Personalized Federated Learning under Mixture of Distributions ( http://arxiv.org/abs/2305.01068v1 ) ライセンス: Link先を確認 | Yue Wu, Shuaicheng Zhang, Wenchao Yu, Yanchi Liu, Quanquan Gu, Dawei Zhou, Haifeng Chen, Wei Cheng | (参考訳) PFL(Personalized Federated Learning)に対する最近のトレンドは、データのプライバシを維持しながら、各クライアントに適したモデルのトレーニングを可能にすることで、大きな注目を集めている。
しかし、現在のPFL技術は主に条件分布の不均一性(概念シフト)のモデル化に重点を置いており、これはクライアント間での入力データの分散(共変量シフト)が分散する際の最適以下の性能をもたらす。
さらに、これらの技術は目に見えないデータに適応する能力に欠けることが多く、現実のシナリオでの有効性をさらに制限する。
これらの制約に対処するために,ガウス混合モデル(GMM)を用いて多様なクライアント間の入力データ分散を効果的に適合させる新しいアプローチであるFedGMMを提案する。
モデルパラメータは、閉形式で解き、勾配類似性を仮定しないフェデレーション期待最大化アルゴリズムを用いた最大確率推定によって推定される。
さらに、FedGMMは新しいクライアントに最小限のオーバーヘッドで適応する利点があり、また不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。 The recent trend towards Personalized Federated Learning (PFL) has garnered significant attention as it allows for the training of models that are tailored to each client while maintaining data privacy. However, current PFL techniques primarily focus on modeling the conditional distribution heterogeneity (i.e. concept shift), which can result in suboptimal performance when the distribution of input data across clients diverges (i.e. covariate shift). Additionally, these techniques often lack the ability to adapt to unseen data, further limiting their effectiveness in real-world scenarios. To address these limitations, we propose a novel approach, FedGMM, which utilizes Gaussian mixture models (GMM) to effectively fit the input data distributions across diverse clients. The model parameters are estimated by maximum likelihood estimation utilizing a federated Expectation-Maximization algorithm, which is solved in closed form and does not assume gradient similarity. Furthermore, FedGMM possesses an additional advantage of adapting to new clients with minimal overhead, and it also enables uncertainty quantification. Empirical evaluations on synthetic and benchmark datasets demonstrate the superior performance of our method in both PFL classification and novel sample detection. | 翻訳日:2023-05-03 16:09:29 公開日:2023-05-01 |
# 部分位相インバージョンを用いた多ループラカダシカル量子ウォーク Multiself-loop Lackadaisical Quantum Walk with Partial Phase Inversion ( http://arxiv.org/abs/2305.01121v1 ) ライセンス: Link先を確認 | Luciano S. de Souza and Jonathan H. A. de Carvalho and Henrique C. T. Santos and Tiago A. E. Ferreira | (参考訳) 量子ウォークは古典的ランダムウォークの量子対応であり、新しい量子アルゴリズムを構築するための直感的なフレームワークを提供する。
遅延ランダムウォークの量子アナログである不連続量子ウォークは、歩行者が同じ状態に留まることを可能にし、探索アルゴリズムとして量子ウォークの性能を向上させることができるように、各状態に自己ループ遷移を加えることで得られる。
しかし、重量$l$の高依存性は、探索プロセスにおける最大成功確率に到達するための重要なパラメータとなる。
量子ウォークに基づく探索アルゴリズムでは多くの進歩が達成されているが、自己ループの数も検索タスクにとって重要である。
本稿は,複数の自己ループがまだ適切に探索されていないと信じており,目標状態位相が部分的に反転した複数の自己ループをもつ不連続な量子ウォークに基づく量子探索アルゴリズムであるMulti-self-loop Lackadaisical Quantum Walkを提案する。
各頂点は$m$ 自己ループを持ち、ウェイトは $l' = l/m$ であり、ここで $l$ は実パラメータである。
位相反転はグローバーのアルゴリズムに基づいており、与えられた量 $s \leqslant m$ の自己ループの位相を変化させて部分性に作用する。
ハイパーキューブ構造では,$s=1$と$1 \leqslant m \leqslant 30$の状況を分析し,その1~12の有意頂点探索における効果を検討した。
文献で用いられる2つの理想的重み値$l$に基づいて, 2つの新しい重み値を提案する。
その結果、目標状態の部分的な位相反転と自己ループの新しい重み値を持つマルチセルフループラカダシカル量子ウォークの提案により、この提案は最大成功確率を1に近い値に改善した。
本稿は,新しい量子探索アルゴリズムの構築における量子干渉の利用に関する新たな視点に寄与する。 Quantum walks are the quantum counterpart of classical random walks and provide an intuitive framework for building new quantum algorithms. The lackadaisical quantum walk, which is a quantum analog of the lazy random walk, is obtained by adding a self-loop transition to each state allowing the walker to stay stuck in the same state, being able to improve the performance of the quantum walks as search algorithms. However, the high dependence of a weight $l$ makes it a key parameter to reach the maximum probability of success in the search process. Although many advances have been achieved with search algorithms based on quantum walks, the number of self-loops can also be critical for search tasks. Believing that the multiple self-loops have not yet been properly explored, this article proposes the quantum search algorithm Multiself-loop Lackadaisical Quantum Walk with Partial Phase Inversion, which is based on a lackadaisical quantum walk with multiple self-loops where the target state phase is partially inverted. Each vertex has $m$ self-loops, with weights $l' = l/m$, where $l$ is a real parameter. The phase inversion is based on Grover's algorithm and acts partiality, modifying the phase of a given quantity $s \leqslant m$ of self-loops. On a hypercube structure, we analyzed the situation where $s=1$ and $1 \leqslant m \leqslant 30$ and investigated its effects in the search for 1 to 12 marked vertices. Based on two ideal weights $l$ used in the literature, we propose two new weight values. As a result, with the proposal of the Multiself-loop Lackadaisical Quantum Walk with partial phase inversion of target states and the new weight values for the self-loop, this proposal improved the maximum success probabilities to values close to 1. This article contributes with a new perspective on the use of quantum interferences in the construction of new quantum search algorithms. | 翻訳日:2023-05-03 16:03:17 公開日:2023-05-01 |
# CSP:地理空間・視覚表現のための自己監督型コントラスト空間事前訓練 CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations ( http://arxiv.org/abs/2305.01118v1 ) ライセンス: Link先を確認 | Gengchen Mai, Ni Lao, Yutong He, Jiaming Song, Stefano Ermon | (参考訳) ジオタグ付きイメージは大量に公開されているが、オブジェクトクラスのようなラベルは収集するコストがかなり少ない。
一方、対照的な学習は、ラベル付きデータによる様々な自然画像や言語タスクにおいて大きな成功を収めている。
しかし、既存の手法では地理空間情報を完全に活用できないため、視覚的に類似した物体を識別することが最重要となる。
事前学習,微調整,推論の段階において,画像に関連する豊富な地理空間情報を直接活用するために,地理タグ付き画像のための自己教師付き学習フレームワークであるコントラスト型空間事前学習(csp)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト的目的を用いて画像から効果的な位置表現を学習し、画像分類などの下流監督タスクに転送する。
実験によると、CSPはiNat2018とfMoWデータセットの両方でモデルパフォーマンスを改善することができる。
特にinat2018では、様々なラベル付きトレーニングデータサンプリング比で、cspは10-34%の相対的改善でモデルパフォーマンスを著しく向上させた。 Geo-tagged images are publicly available in large quantities, whereas labels such as object classes are rather scarce and expensive to collect. Meanwhile, contrastive learning has achieved tremendous success in various natural image and language tasks with limited labeled data. However, existing methods fail to fully leverage geospatial information, which can be paramount to distinguishing objects that are visually similar. To directly leverage the abundant geospatial information associated with images in pre-training, fine-tuning, and inference stages, we present Contrastive Spatial Pre-Training (CSP), a self-supervised learning framework for geo-tagged images. We use a dual-encoder to separately encode the images and their corresponding geo-locations, and use contrastive objectives to learn effective location representations from images, which can be transferred to downstream supervised tasks such as image classification. Experiments show that CSP can improve model performance on both iNat2018 and fMoW datasets. Especially, on iNat2018, CSP significantly boosts the model performance with 10-34% relative improvement with various labeled training data sampling ratios. | 翻訳日:2023-05-03 16:02:40 公開日:2023-05-01 |
# 拡散モデルのための文脈内学習 In-Context Learning Unlocked for Diffusion Models ( http://arxiv.org/abs/2305.01115v1 ) ライセンス: Link先を確認 | Zhendong Wang, Yifan Jiang, Yadong Lu, Yelong Shen, Pengcheng He, Weizhu Chen, Zhangyang Wang, Mingyuan Zhou | (参考訳) 本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
画像からの奥行きや画像からのクリブルといったタスク固有のサンプル画像とテキストガイダンスとを組み合わせることで,基礎タスクを自動的に理解し,テキストガイダンスに従って新たなクエリ画像上で同じタスクを実行する。
そこで本研究では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
拡散モデルは、これらのプロンプトを用いて6つの異なるタスクで共同で訓練される。
その結果得られたプロンプト拡散モデルは、コンテキスト内学習が可能な最初の拡散ベースの視覚言語基礎モデルである。
トレーニングされたタスクに対して高品質なインコンテキスト生成を示し、各プロンプトで新しい、目に見えない視覚タスクに効果的に一般化する。
また,本モデルではテキストガイドによる画像編集結果も提示する。
我々のフレームワークはhttps://github.com/Zhendong-Wang/Prompt-Diffusionで公開されている。 We present Prompt Diffusion, a framework for enabling in-context learning in diffusion-based generative models. Given a pair of task-specific example images, such as depth from/to image and scribble from/to image, and a text guidance, our model automatically understands the underlying task and performs the same task on a new query image following the text guidance. To achieve this, we propose a vision-language prompt that can model a wide range of vision-language tasks and a diffusion model that takes it as input. The diffusion model is trained jointly over six different tasks using these prompts. The resulting Prompt Diffusion model is the first diffusion-based vision-language foundation model capable of in-context learning. It demonstrates high-quality in-context generation on the trained tasks and generalizes effectively to new, unseen vision tasks with their respective prompts. Our model also shows compelling text-guided image editing results. Our framework, with code publicly available at https://github.com/Zhendong-Wang/Prompt-Diffusion, aims to facilitate research into in-context learning for computer vision. | 翻訳日:2023-05-03 16:02:23 公開日:2023-05-01 |
# リニア光学による封鎖限界を超える光子ルーティングの強化 Enhanced Photon Routing Beyond the Blockade Limit Via Linear Optics ( http://arxiv.org/abs/2305.01114v1 ) ライセンス: Link先を確認 | Harjot Singh, Jasvith Raj Basani, and Edo Waks | (参考訳) 1つの入力ポートから別の出力ポートへ光子を誘導することは、量子情報処理における基本的な操作である。
ランダムチャンスを超えた経路を実現するための最も単純なスキームは、2レベルエミッタの光子遮断効果を用いる。
しかし、このアプローチは時間-エネルギーの不確実性関係によって制限される。
原子の後に適用される線形光学ユニタリ変換は、この時間エネルギー限界を超える分割効率を可能にする。
線形光ユニタリは光子入力において67 %から82 %に、光子入力では77 %から90 %に分割効率を向上することを示した。
次に, 絡み合った光子波動関数の時間モードプロファイルを最適化し, 92\%の最適分割効率を得る。
これらの結果は、実用的で高忠実な量子演算のための単一光子非線形性と工学的プログラム可能で堅牢な光子-光子相互作用の最適化への道を提供する。 Directing indistinguishable photons from one input port into separate output ports is a fundamental operation in quantum information processing. The simplest scheme for achieving routing beyond random chance uses the photon blockade effect of a two-level emitter. But this approach is limited by a time-energy uncertainty relation. We show that a linear optical unitary transformation applied after the atom enables splitting efficiencies that exceed this time-energy limit. We show that the linear optical unitary improves the splitting efficiency from 67\% to 82\% for unentangled photon inputs, and from 77\% to 90\% for entangled photon inputs. We then optimize the temporal mode profile of the entangled photon wavefunction to attain the optimal splitting efficiency of 92\%, a significant improvement over previous limits derived using a two-level atom alone. These results provide a path towards optimizing single photon nonlinearities and engineering programmable and robust photon-photon interactions for practical, high-fidelity quantum operations. | 翻訳日:2023-05-03 16:02:03 公開日:2023-05-01 |
# 歩行者意図予測のための局所的・グローバル的特徴融合 Local and Global Contextual Features Fusion for Pedestrian Intention Prediction ( http://arxiv.org/abs/2305.01111v1 ) ライセンス: Link先を確認 | Mohsen Azarmi, Mahdi Rezaei, Tanveer Hussain, Chenghao Qian | (参考訳) 自動運転車(AV)は将来の輸送に欠かせない存在になりつつある。
しかし、安全性の課題と信頼性の欠如は、実際のデプロイメントを制限する。
道路でのAVの出現を促進するため、「歩行者横断意図の予測」を含む歩行者との交流は広範な研究に値する。
これは、複数の非線形パラメータを含む非常に難しいタスクです。
この方向では,歩行者および交通状況の時空間的特徴を抽出し,分析する。
歩行者の特徴は、歩行者の行動を表す身体のポーズと局所的な文脈の特徴である。
さらに,グローバルな状況を理解するために,歩行者の周囲を表現し,歩行者の意図に影響を及ぼすシーン解析技術を用いて,位置,動き,環境情報を活用する。
最後に、これらのマルチモーダリティ機能は、効果的な意図予測学習のためにインテリジェントに融合される。
jaadデータセットにおける提案モデルの実験結果は,aucとf1-scoreの組合せにおいて,最先端と比較して優れた結果を示した。 Autonomous vehicles (AVs) are becoming an indispensable part of future transportation. However, safety challenges and lack of reliability limit their real-world deployment. Towards boosting the appearance of AVs on the roads, the interaction of AVs with pedestrians including "prediction of the pedestrian crossing intention" deserves extensive research. This is a highly challenging task as involves multiple non-linear parameters. In this direction, we extract and analyse spatio-temporal visual features of both pedestrian and traffic contexts. The pedestrian features include body pose and local context features that represent the pedestrian's behaviour. Additionally, to understand the global context, we utilise location, motion, and environmental information using scene parsing technology that represents the pedestrian's surroundings, and may affect the pedestrian's intention. Finally, these multi-modality features are intelligently fused for effective intention prediction learning. The experimental results of the proposed model on the JAAD dataset show a superior result on the combined AUC and F1-score compared to the state-of-the-art. | 翻訳日:2023-05-03 16:01:47 公開日:2023-05-01 |
# 教師養成のための量子力学における概念概念に着目して Focus on conceptual ideas in quantum mechanics for teacher training ( http://arxiv.org/abs/2305.01108v1 ) ライセンス: Link先を確認 | J. K. Freericks | (参考訳) 本研究では,教師養成用量子カリキュラムにおける重ね合わせ,絡み合い,タグ付け,相補性,および測定の諸特性を調べるために利用可能な戦略とケーススタディ活動について述べる。
これらの概念的アイデアに確固たる基盤を持つことは、教室で量子的アイデアを採用する教育者にとって重要である。
しかし、これらはマスターするのが最も難しい概念です。
本稿では,光に対する思考実験と,シュテルン・ジェラッハ実験を用いた思考実験を用いて,これらの概念基礎を体系的に展開する方法を示す。
これらの概念の指導を支援する上で,コンピュータアニメーションの重要性を強調した。 In this work, we describe strategies and provide case-study activities that can be used to examine the properties of superposition, entanglement, tagging, complementarity, and measurement in quantum curricula geared for teacher training. Having a solid foundation in these conceptual ideas is critical for educators who will be adopting quantum ideas within the classroom. Yet they are some of the most difficult concepts to master. We show how one can systematically develop these conceptual foundations with thought experiments on light and with thought experiments that employ the Stern-Gerlach experiment. We emphasize the importance of computer animations in aiding the instruction on these concepts. | 翻訳日:2023-05-03 16:01:36 公開日:2023-05-01 |
# 資料推薦・ランク付け・探索のための言語表現の活用 Leveraging Language Representation for Material Recommendation, Ranking, and Exploration ( http://arxiv.org/abs/2305.01101v1 ) ライセンス: Link先を確認 | Jiaxing Qu, Yuxuan Richard Xie, Elif Ertekin | (参考訳) 物質発見と設計のためのデータ駆動アプローチは、機械学習における新たな取り組みによって加速されている。
材料の構造から物性関係への学習には大きな進歩があるが、結晶の一般表現によって広大な物質探索空間を効果的に探索し、高性能な候補を特定する方法はまだ限られている。
本研究では, 物質科学固有の言語モデルから派生した自然言語埋め込みを, 構成的・構造的特徴の表現として利用する材料発見フレームワークを提案する。
探索フレームワークは、クエリ素材が与えられた場合、まず表現的類似性に基づいて候補をリコールし、マルチタスク学習により対象特性に基づいて候補をランク付けする。
言語表現にエンコードされた文脈知識は、物質的特性と構造に関する情報を伝達し、リコールの類似性分析と、関連するプロパティに関する情報を共有するマルチタスク学習の両方を可能にする。
熱電材料に発見の枠組みを適用し, 試作構造物の多角化を実証し, ハロゲン化ペロブスカイト, デラフォサイト様, スピネル様構造を含む未研究の高性能材料空間を同定した。
本フレームワークは, 材料言語表現を活用することで, タスクに依存しない, 様々な材料システムに適用可能な, 効果的な材料レコメンデーションの一般化手段を提供する。 Data-driven approaches for material discovery and design have been accelerated by emerging efforts in machine learning. While there is enormous progress towards learning the structure to property relationship of materials, methods that allow for general representations of crystals to effectively explore the vast material search space and identify high-performance candidates remain limited. In this work, we introduce a material discovery framework that uses natural language embeddings derived from material science-specific language models as representations of compositional and structural features. The discovery framework consists of a joint scheme that, given a query material, first recalls candidates based on representational similarity, and ranks the candidates based on target properties through multi-task learning. The contextual knowledge encoded in language representations is found to convey information about material properties and structures, enabling both similarity analysis for recall, and multi-task learning to share information for related properties. By applying the discovery framework to thermoelectric materials, we demonstrate diversified recommendations of prototype structures and identify under-studied high-performance material spaces, including halide perovskite, delafossite-like, and spinel-like structures. By leveraging material language representations, our framework provides a generalized means for effective material recommendation, which is task-agnostic and can be applied to various material systems. | 翻訳日:2023-05-03 16:01:26 公開日:2023-05-01 |
# Logion: ギリシャ哲学のための機械学習 Logion: Machine Learning for Greek Philology ( http://arxiv.org/abs/2305.01099v1 ) ライセンス: Link先を確認 | Charlie Cowen-Breen (1), Creston Brooks (2), Johannes Haubold (2), Barbara Graziosi (2) ((1) University of Cambridge, (2) Princeton University) | (参考訳) 本稿では,ギリシア哲学における様々な問題に対処する機械学習手法を提案する。
この目的のために現在まで使用されている、最も大規模なギリシャのデータセット上でbertモデルをトレーニングした後、テキスト送信の過程で、著者によって検出されていないエラーを識別し、修正します。
さらに,前近代写本の材質劣化によるギャップを埋めるモデルの能力を実証し,モデルの性能をドメイン専門家のそれと比較する。
ドメインエキスパートにインスピレーションのためのモデル提案が提供されると、最高のパフォーマンスが得られます。
このような人間とコンピュータのコラボレーションを念頭に置いて、モデルの解釈可能性を探究し、ある注意の頭脳が前近代ギリシア語の文法的特徴を符号化しているように見えることを発見した。 This paper presents machine-learning methods to address various problems in Greek philology. After training a BERT model on the largest premodern Greek dataset used for this purpose to date, we identify and correct previously undetected errors made by scribes in the process of textual transmission, in what is, to our knowledge, the first successful identification of such errors via machine learning. Additionally, we demonstrate the model's capacity to fill gaps caused by material deterioration of premodern manuscripts and compare the model's performance to that of a domain expert. We find that best performance is achieved when the domain expert is provided with model suggestions for inspiration. With such human-computer collaborations in mind, we explore the model's interpretability and find that certain attention heads appear to encode select grammatical features of premodern Greek. | 翻訳日:2023-05-03 16:01:02 公開日:2023-05-01 |
# ユニタリ結合クラスター:量子モーメントの取得 Unitary Coupled Cluster: Seizing the Quantum Moment ( http://arxiv.org/abs/2305.01097v1 ) ライセンス: Link先を確認 | Ilias Magoulas and Francesco A. Evangelista | (参考訳) CNOT効率の低い量子回路は、現在のノイズ量子ハードウェア上で正確な計算化学シミュレーションを行うのに不可欠である。
本稿では,結合クラスタ理論のモーメント法に基づく非定常エネルギー補正の有用性を考察し,完全な構成相互作用への収束を加速する。
繰り返し構築されたans\"{a}tzeに基づく予備的な数値計算結果から,よりコンパクトな回路で化学的に高精度なエネルギーを得ることができ,ゲートに対する反発性が向上し,デコヒーレンスノイズが増大することが示唆された。 Shallow, CNOT-efficient quantum circuits are crucial for performing accurate computational chemistry simulations on current noisy quantum hardware. Here, we explore the usefulness of non-iterative energy corrections, based on the method of moments of coupled-cluster theory, for accelerating convergence toward full configuration interaction. Our preliminary numerical results relying on iteratively constructed ans\"{a}tze suggest that chemically accurate energies can be obtained with substantially more compact circuits, implying enhanced resilience to gate and decoherence noise. | 翻訳日:2023-05-03 16:00:50 公開日:2023-05-01 |
# 協調型適応型クルーズ制御システムにおけるドライバレーン変更予測の新しいモデル A Novel Model for Driver Lane Change Prediction in Cooperative Adaptive Cruise Control Systems ( http://arxiv.org/abs/2305.01096v1 ) ライセンス: Link先を確認 | Armin Nejadhossein Qasemabadi, Saeed Mozaffari, Mahdi Rezaei, Majid Ahmadi, Shahpour Alirezaee | (参考訳) 正確な車線変更予測は潜在的な事故を減らし、道路安全の向上に寄与する。
アダプティブ・クルーズ・コントロール(ACC)、車線離脱回避(LDA)、車線維持支援(LKA)は、先進運転支援システム(ADAS)の一般的なモジュールである。
車両間通信(V2V)により、車両は周囲の車両と交通情報を共有でき、協調型クルーズ制御(CACC)が可能である。
ACCは車両の位置と速度を得るために車両のセンサーに依存しているが、CACCはV2V通信を通じて複数の車両の加速にアクセスできる。
本稿では,運転車線変更予測のための情報(位置,速度,加速度)の種類と周辺車両数を比較した。
我々は,高Dデータセット上でLSTM(Long Short-Term Memory)をトレーニングし,車線変化の意図を予測する。
その結果、周囲の車両数の増加と受信した情報により精度が大幅に向上したことが示唆された。
特に,提案モデルでは,ACCおよびCACCシナリオにおいて,59.15%,92.43%の精度で車線変化を予測できる。 Accurate lane change prediction can reduce potential accidents and contribute to higher road safety. Adaptive cruise control (ACC), lane departure avoidance (LDA), and lane keeping assistance (LKA) are some conventional modules in advanced driver assistance systems (ADAS). Thanks to vehicle-to-vehicle communication (V2V), vehicles can share traffic information with surrounding vehicles, enabling cooperative adaptive cruise control (CACC). While ACC relies on the vehicle's sensors to obtain the position and velocity of the leading vehicle, CACC also has access to the acceleration of multiple vehicles through V2V communication. This paper compares the type of information (position, velocity, acceleration) and the number of surrounding vehicles for driver lane change prediction. We trained an LSTM (Long Short-Term Memory) on the HighD dataset to predict lane change intention. Results indicate a significant improvement in accuracy with an increase in the number of surrounding vehicles and the information received from them. Specifically, the proposed model can predict the ego vehicle lane change with 59.15% and 92.43% accuracy in ACC and CACC scenarios, respectively. | 翻訳日:2023-05-03 16:00:38 公開日:2023-05-01 |
# パラメータ依存ハミルトニアンの断熱駆動と並列輸送 Adiabatic driving and parallel transport for parameter-dependent Hamiltonians ( http://arxiv.org/abs/2305.01125v1 ) ライセンス: Link先を確認 | A. D. Berm\'udez Manjarres and A. Botero | (参考訳) 我々はVan Vleck-Primas摂動理論を用いてパラメータ依存ハミルトニアンの固有ベクトルの平行輸送の問題を研究する。
摂動的アプローチにより、固有ベクトルのユニタリ変換を通じて平行変換を生成する非アベル接続 $\mathcal{A}$ を定義することができる。
摂動アプローチによって得られる接続は、ハミルトニアンによって生成される1パラメータ部分群のマウラー・カルタン 1-形式の平均であることが示されている。
ヤン・ミルズ曲率と非アーベル・ストークスの定理を用いて、接続 $\mathcal{a}$ のホロノミーがベリー相と関連していることを示す。 We use the Van Vleck-Primas perturbation theory to study the problem of parallel transport of the eigenvectors of a parameter-dependent Hamiltonian. The perturbative approach allows us to define a non-Abelian connection $\mathcal{A}$ that generates parallel translation via unitary transformation of the eigenvectors. It is shown that the connection obtained via the perturbative approach is an average of the Maurer-Cartan 1-form of the one-parameter subgroup generated by the Hamiltonian. We use the Yang-Mills curvature and the non-Abelian Stokes' theorem to show that the holonomy of the connection $\mathcal{A}$ is related to the Berry phase. | 翻訳日:2023-05-03 15:50:56 公開日:2023-05-01 |
# 適応機械への人間適応はゲーム理論平衡に収束する Human adaptation to adaptive machines converges to game-theoretic equilibria ( http://arxiv.org/abs/2305.01124v1 ) ライセンス: Link先を確認 | Benjamin J. Chasnov, Lillian J. Ratliff, Samuel A. Burden | (参考訳) アダプティブマシンは、認知的意思決定から物理的デバイス支援まで、さまざまな文脈で人間の行動を補助または妨害する可能性がある。
したがって、機械学習アルゴリズムが人間の行動にどのように影響を与えるのかを理解することは重要である。
人間は明示的戦略と暗黙的な戦略を組み合わせて環境に順応するので、環境が適応機械を含む場合、人間と機械はゲームをする。
ゲーム理論は、経済市場や機械アルゴリズムに広く適用された2人以上の意思決定者間の相互作用をモデル化するための確立された枠組みである。
しかし、既存のアプローチでは、経験的にテストするのではなく、適応機械との相互作用によって個人による適応がどう影響するかを仮定している。
ここでは,人間と汎用ゲームを行う機械の学習アルゴリズムを検証した。
我々のアルゴリズムは、アクション空間とポリシー空間におけるゲーム理論平衡の星座から、共適応相互作用の結果を選択することができる。
重要なことは、機械学習アルゴリズムは、人間の行動の観察から直接、逆問題を解決することなく、人間の実用機能を事前の作業で見積もる。
驚くべきことに、1つのアルゴリズムは、機械の最適な動作に人間と機械の相互作用を制御し、人間の動作を効果的に制御することができる。
以上の結果から,ゲーム理論は知的人間と機械の協調的相互作用の結果の予測と設計に有効であることが示された。 Adaptive machines have the potential to assist or interfere with human behavior in a range of contexts, from cognitive decision-making to physical device assistance. Therefore it is critical to understand how machine learning algorithms can influence human actions, particularly in situations where machine goals are misaligned with those of people. Since humans continually adapt to their environment using a combination of explicit and implicit strategies, when the environment contains an adaptive machine, the human and machine play a game. Game theory is an established framework for modeling interactions between two or more decision-makers that has been applied extensively in economic markets and machine algorithms. However, existing approaches make assumptions about, rather than empirically test, how adaptation by individual humans is affected by interaction with an adaptive machine. Here we tested learning algorithms for machines playing general-sum games with human subjects. Our algorithms enable the machine to select the outcome of the co-adaptive interaction from a constellation of game-theoretic equilibria in action and policy spaces. Importantly, the machine learning algorithms work directly from observations of human actions without solving an inverse problem to estimate the human's utility function as in prior work. Surprisingly, one algorithm can steer the human-machine interaction to the machine's optimum, effectively controlling the human's actions even while the human responds optimally to their perceived cost landscape. Our results show that game theory can be used to predict and design outcomes of co-adaptive interactions between intelligent humans and machines. | 翻訳日:2023-05-03 15:50:43 公開日:2023-05-01 |
# マルチレゾリューション物理のための学習制御可能な適応シミュレーション Learning Controllable Adaptive Simulation for Multi-resolution Physics ( http://arxiv.org/abs/2305.01122v1 ) ライセンス: Link先を確認 | Tailin Wu, Takashi Maruyama, Qingqing Zhao, Gordon Wetzstein, Jure Leskovec | (参考訳) 物理系の時間進化のシミュレーションは多くの科学的・工学的な問題において重要である。
システムのごく一部は極めてダイナミックであり、非常に微細な解像度を必要とする一方で、システムの大部分はゆっくりと変化しており、粗い空間スケールでモデル化することができる。
典型的な学習ベースの代理モデルは一様空間スケールを使用しており、必要なスケールで解決し、必要な精度を達成するために膨大な計算を無駄にすることができる。
本研究では,LAMPの学習制御可能適応シミュレーションを,進化モデルを共同で学習し,高ダイナミックな領域により多くの計算を捧げる適切な空間分解能を最適化する,最初の完全深層学習ベースサロゲートモデルとして紹介する。
LAMPは、前方進化を学習するためのグラフニューラルネットワーク(GNN)と、空間的洗練と粗大化のポリシーを学ぶためのGNNベースのアクター批判で構成されている。
我々は,LAMPを重み付けした誤差と計算コストを目的として最適化する学習手法を導入し,LAMPが推論時間における誤差と計算トレードオフの相対的重要性に適応できるようにする。
本手法を非線形PDEの1次元ベンチマークと2次元メッシュシミュレーションで評価した。
1次元非線形pdesでは平均33.7%の誤差低減を達成し、2次元メッシュに基づくシミュレーションではmeshgraphnets + classical adaptive meshfine (amr)よりも優れています。
データとコードを備えたプロジェクトのWebサイトは、以下のとおりである。 Simulating the time evolution of physical systems is pivotal in many scientific and engineering problems. An open challenge in simulating such systems is their multi-resolution dynamics: a small fraction of the system is extremely dynamic, and requires very fine-grained resolution, while a majority of the system is changing slowly and can be modeled by coarser spatial scales. Typical learning-based surrogate models use a uniform spatial scale, which needs to resolve to the finest required scale and can waste a huge compute to achieve required accuracy. In this work, we introduce Learning controllable Adaptive simulation for Multi-resolution Physics (LAMP) as the first full deep learning-based surrogate model that jointly learns the evolution model and optimizes appropriate spatial resolutions that devote more compute to the highly dynamic regions. LAMP consists of a Graph Neural Network (GNN) for learning the forward evolution, and a GNN-based actor-critic for learning the policy of spatial refinement and coarsening. We introduce learning techniques that optimizes LAMP with weighted sum of error and computational cost as objective, allowing LAMP to adapt to varying relative importance of error vs. computation tradeoff at inference time. We evaluate our method in a 1D benchmark of nonlinear PDEs and a challenging 2D mesh-based simulation. We demonstrate that our LAMP outperforms state-of-the-art deep learning surrogate models, and can adaptively trade-off computation to improve long-term prediction error: it achieves an average of 33.7% error reduction for 1D nonlinear PDEs, and outperforms MeshGraphNets + classical Adaptive Mesh Refinement (AMR) in 2D mesh-based simulations. Project website with data and code can be found at: http://snap.stanford.edu/lamp. | 翻訳日:2023-05-03 15:50:20 公開日:2023-05-01 |
# 癌にインスパイアされたゲノムマッパーモデルによる、所望のゲノムシグネチャを持つ合成dna配列の生成 Cancer-inspired Genomics Mapper Model for the Generation of Synthetic DNA Sequences with Desired Genomics Signatures ( http://arxiv.org/abs/2305.01475v1 ) ライセンス: Link先を確認 | Teddy Lazebnik, Liron Simon-Keren | (参考訳) ゲノムデータは現代医学において不可欠であり、診断と治療に重要な可能性を秘めている。
しかし、特定の研究、特に検証研究に最適なデータを得ることは、スケールとアクセスに関して依然として困難である。
そのため、シリコゲノム配列生成装置は可能な解として提案されている。
しかし、現在のジェネレータは、ほとんど浅い(確率的な)接続を使用して劣ったデータを生成し、トレーニングデータにおいて限られた計算複雑性で検出する。
これは、元々観測されたつながりを引き起こした適切な生物学的関係と制約を考慮に入れないことを意味する。
この問題に対処するために,遺伝子アルゴリズム(GA)と深層学習(DL)を併用したがん誘発ゲノムマッパーモデル(CGMM)を提案する。
CGMMは、遺伝子変異と突然変異を生成する過程を模倣し、容易に利用可能な制御ゲノムを所望の表現型を持つゲノムに変換する。
cgmmは,これらの表現型の実際のゲノムと区別できない祖先や癌などの選択された表現型の合成ゲノムを,教師なしクラスタリングに基づいて生成できることを実証する。
以上の結果から,cgmmは2つの異なる課題において,現在の4つのゲノムジェネレータよりも優れており,特に多用された検証研究において,幅広い目的にcgmmが適していることが示唆された。 Genome data are crucial in modern medicine, offering significant potential for diagnosis and treatment. Thanks to technological advancements, many millions of healthy and diseased genomes have already been sequenced; however, obtaining the most suitable data for a specific study, and specifically for validation studies, remains challenging with respect to scale and access. Therefore, in silico genomics sequence generators have been proposed as a possible solution. However, the current generators produce inferior data using mostly shallow (stochastic) connections, detected with limited computational complexity in the training data. This means they do not take the appropriate biological relations and constraints, that originally caused the observed connections, into consideration. To address this issue, we propose cancer-inspired genomics mapper model (CGMM), that combines genetic algorithm (GA) and deep learning (DL) methods to tackle this challenge. CGMM mimics processes that generate genetic variations and mutations to transform readily available control genomes into genomes with the desired phenotypes. We demonstrate that CGMM can generate synthetic genomes of selected phenotypes such as ancestry and cancer that are indistinguishable from real genomes of such phenotypes, based on unsupervised clustering. Our results show that CGMM outperforms four current state-of-the-art genomics generators on two different tasks, suggesting that CGMM will be suitable for a wide range of purposes in genomic medicine, especially for much-needed validation studies. | 翻訳日:2023-05-03 14:08:04 公開日:2023-05-01 |
# パラメトリックロバストマルコフ鎖の高感度解析 Efficient Sensitivity Analysis for Parametric Robust Markov Chains ( http://arxiv.org/abs/2305.01473v1 ) ライセンス: Link先を確認 | Thom Badings, Sebastian Junges, Ahmadreza Marandi, Ufuk Topcu, Nils Jansen | (参考訳) パラメトリックロバストマルコフ鎖の感度解析のための新しい方法を提案する。
これらのモデルは、正確な確率が利用できるというしばしば非現実的な仮定を緩和するために、パラメータと確率分布の集合を含む。
我々は、期待報酬等の措置に関する不確定な遷移確率に関して、部分微分の観点から感度を測定する。
我々は,これらの部分微分を計算するための効率的な手法を提案する。
数千のパラメータを持つモデルへのアプローチをスケールするために、最も高い部分微分を持つ$k$パラメータのサブセットを選択するこの手法の拡張を提案する。
提案手法は線形計画法に基づき,パラメータの所定の値を中心にプログラムを微分する。
この実験は、100万以上の状態と数千のパラメータを持つモデルに対する我々のアプローチの適用性を示している。
さらに,本研究の成果を,専用感度分析へのアクセスから利益を得る反復学習手法に組み込む。 We provide a novel method for sensitivity analysis of parametric robust Markov chains. These models incorporate parameters and sets of probability distributions to alleviate the often unrealistic assumption that precise probabilities are available. We measure sensitivity in terms of partial derivatives with respect to the uncertain transition probabilities regarding measures such as the expected reward. As our main contribution, we present an efficient method to compute these partial derivatives. To scale our approach to models with thousands of parameters, we present an extension of this method that selects the subset of $k$ parameters with the highest partial derivative. Our methods are based on linear programming and differentiating these programs around a given value for the parameters. The experiments show the applicability of our approach on models with over a million states and thousands of parameters. Moreover, we embed the results within an iterative learning scheme that profits from having access to a dedicated sensitivity analysis. | 翻訳日:2023-05-03 14:07:22 公開日:2023-05-01 |
# BCEdge: エッジプラットフォーム上の適応バッチを備えたSLO対応DNN推論サービス BCEdge: SLO-Aware DNN Inference Services with Adaptive Batching on Edge Platforms ( http://arxiv.org/abs/2305.01519v1 ) ライセンス: Link先を確認 | Ziyang Zhang, Huan Li, Yang Zhao, Changyao Lin, and Jie Liu | (参考訳) ディープニューラルネットワーク(DNN)は、幅広いエッジインテリジェントアプリケーションに適用されているため、エッジ推論プラットフォームが高スループットと低レイテンシの両方を同時に持つことが重要である。
複数のDNNモデルを持つエッジプラットフォームは、スケジューラ設計に新たな課題をもたらす。
まず、各要求はサービス品質(QoS)を改善するために異なるサービスレベル目標(SLO)を持つことができる。
第2に、エッジプラットフォームは、システム利用を改善するために、複数の異種dnnモデルを効率的にスケジュールできるべきです。
本稿では,この2つの目標を達成するために,エッジプラットフォーム上での適応的バッチ処理とDNN推論サービスの同時実行を実現する,新たな学習ベースのスケジューリングフレームワークであるBCEdgeを提案する。
スループットとレイテンシのトレードオフを評価するためのユーティリティ関数を定義する。
BCEdgeのスケジューラは最大エントロピーに基づく深部強化学習(DRL)を活用して実用性を最大化する
1) バッチサイズと共同最適化
2) 並列モデルの数を自動で数える。
異なるエッジプラットフォームに実装したプロトタイプでは,sloを満足しながら,bcedgeの実用性が平均37.6%向上していることが分かった。 As deep neural networks (DNNs) are being applied to a wide range of edge intelligent applications, it is critical for edge inference platforms to have both high-throughput and low-latency at the same time. Such edge platforms with multiple DNN models pose new challenges for scheduler designs. First, each request may have different service level objectives (SLOs) to improve quality of service (QoS). Second, the edge platforms should be able to efficiently schedule multiple heterogeneous DNN models so that system utilization can be improved. To meet these two goals, this paper proposes BCEdge, a novel learning-based scheduling framework that takes adaptive batching and concurrent execution of DNN inference services on edge platforms. We define a utility function to evaluate the trade-off between throughput and latency. The scheduler in BCEdge leverages maximum entropy-based deep reinforcement learning (DRL) to maximize utility by 1) co-optimizing batch size and 2) the number of concurrent models automatically. Our prototype implemented on different edge platforms shows that the proposed BCEdge enhances utility by up to 37.6% on average, compared to state-of-the-art solutions, while satisfying SLOs. | 翻訳日:2023-05-03 13:57:08 公開日:2023-05-01 |
# 連続学習が可能なパラメータフリー適応共振理論に基づくトポロジカルクラスタリングアルゴリズム A Parameter-free Adaptive Resonance Theory-based Topological Clustering Algorithm Capable of Continual Learning ( http://arxiv.org/abs/2305.01507v1 ) ライセンス: Link先を確認 | Naoki Masuyama, Takanori Takebayashi, Yusuke Nojima, Chu Kiong Loo, Hisao Ishibuchi, Stefan Wermter | (参考訳) 一般に、適応共振理論(ART)に基づくアルゴリズムにおけるノード学習プロセスの類似性しきい値(すなわち警戒パラメータ)はクラスタリング性能に大きな影響を及ぼす。
さらに、トポロジカルクラスタリングアルゴリズムにおけるエッジ削除しきい値が、自己組織化プロセス中に適切に分離されたクラスタを生成する上で重要な役割を果たす。
本稿では,パラメータ推定手法を導入することで,連続学習が可能なパラメータフリーなアートベーストポロジカルクラスタリングアルゴリズムを提案する。
合成および実世界のデータセットを用いた実験の結果,提案アルゴリズムは,パラメータを事前に指定することなく,最先端のクラスタリングアルゴリズムよりも優れたクラスタリング性能を示す。 In general, a similarity threshold (i.e., a vigilance parameter) for a node learning process in Adaptive Resonance Theory (ART)-based algorithms has a significant impact on clustering performance. In addition, an edge deletion threshold in a topological clustering algorithm plays an important role in adaptively generating well-separated clusters during a self-organizing process. In this paper, we propose a new parameter-free ART-based topological clustering algorithm capable of continual learning by introducing parameter estimation methods. Experimental results with synthetic and real-world datasets show that the proposed algorithm has superior clustering performance to the state-of-the-art clustering algorithms without any parameter pre-specifications. | 翻訳日:2023-05-03 13:56:37 公開日:2023-05-01 |
# 効果的なSATソルバーとしての電子イジングマシン Augmented Electronic Ising Machine as an Effective SAT Solver ( http://arxiv.org/abs/2305.01623v1 ) ライセンス: Link先を確認 | Anshujit Sharma, Matthew Burns, Andrew Hahn, and Michael Huang | (参考訳) 従来のフォン・ノイマンシステムの改善の遅れにより、イジングマシンのような新しいパラダイムに注目が集まる。
NP完全最適化問題に対するアプローチは全く異なる。
Ising MachineはMaxCutのようなバイナリ最適化問題の解決に大きな可能性を示している。
本稿では,これらのシステムを満足度(sat)問題で解析する。
そこで,3-SATの場合,従来のSATソルバの無作為な進歩により,基本アーキテクチャが有意義な加速を達成できないことを示す。
それでも、注意深い分析は、立方体相互作用と効率的なランダム化ヒューリスティックという2つの重要な要素の欠如に起因している。
これらの制限を克服するために、最先端のイジングマシン上での立方体相互作用に対する適切なアーキテクチャサポートを追加します。
さらに,検索空間のナビゲーションを既存のアニーリングヒューリスティックスよりもはるかに効率的にする,意味認識型アニーリングスケジュールを提案する。
実験により, SAT用拡張Ising Machine(AIMS)は, 最先端のソフトウェアベース, GPUベース, 従来のハードウェアSATソルバを桁違いに上回る性能を示した。
AIMSはデバイスの変化やノイズに対して比較的堅牢であることも示しています。 With the slowdown of improvement in conventional von Neumann systems, increasing attention is paid to novel paradigms such as Ising machines. They have very different approach to NP-complete optimization problems. Ising machines have shown great potential in solving binary optimization problems like MaxCut. In this paper, we present an analysis of these systems in satisfiability (SAT) problems. We demonstrate that, in the case of 3-SAT, a basic architecture fails to produce meaningful acceleration, thanks in no small part to the relentless progress made in conventional SAT solvers. Nevertheless, careful analysis attributes part of the failure to the lack of two important components: cubic interactions and efficient randomization heuristics. To overcome these limitations, we add proper architectural support for cubic interaction on a state-of-the-art Ising machine. More importantly, we propose a novel semantic-aware annealing schedule that makes the search-space navigation much more efficient than existing annealing heuristics. With experimental analyses, we show that such an Augmented Ising Machine for SAT (AIMS), outperforms state-of-the-art software-based, GPU-based and conventional hardware SAT solvers by orders of magnitude. We also demonstrate AIMS to be relatively robust against device variation and noise. | 翻訳日:2023-05-03 13:30:25 公開日:2023-05-01 |
# グラフニューラルネットワークを用いた部分グラフ誘導知識グラフ質問生成に向けて Toward Subgraph-Guided Knowledge Graph Question Generation with Graph Neural Networks ( http://arxiv.org/abs/2004.06015v4 ) ライセンス: Link先を確認 | Yu Chen, Lingfei Wu and Mohammed J. Zaki | (参考訳) 知識グラフ(KG)質問生成(QG)は,KGから自然言語質問を生成することを目的とする。
以前の作品は、主に1kgのトリプルから質問を生成する単純な設定に焦点を当てていた。
本研究では,KGサブグラフから質問を生成し,回答をターゲットとする,より現実的な環境に焦点を当てる。
さらに、RNNベースのモデルやトランスフォーマーベースのモデルを使って、KGサブグラフの明示的な構造情報を完全に破棄する線形化されたKGサーグラフを符号化した以前の作品のほとんども、その一部である。
この問題に対処するために、KGサブグラフの符号化に双方向のGraph2Seqモデルを適用することを提案する。
さらに、ノードレベルのコピー機構によりRNNデコーダを強化し、ノード属性を直接KGサブグラフから出力質問にコピーできるようにする。
自動評価と人間評価の結果から,本モデルは既存の手法を2つのqgベンチマークにおいて有意なマージンで上回った。
実験結果から,我々のQGモデルは,データ拡張の手段として,質問応答(QA)タスクに一貫した効果が得られた。 Knowledge graph (KG) question generation (QG) aims to generate natural language questions from KGs and target answers. Previous works mostly focus on a simple setting which is to generate questions from a single KG triple. In this work, we focus on a more realistic setting where we aim to generate questions from a KG subgraph and target answers. In addition, most of previous works built on either RNN-based or Transformer based models to encode a linearized KG sugraph, which totally discards the explicit structure information of a KG subgraph. To address this issue, we propose to apply a bidirectional Graph2Seq model to encode the KG subgraph. Furthermore, we enhance our RNN decoder with node-level copying mechanism to allow directly copying node attributes from the KG subgraph to the output question. Both automatic and human evaluation results demonstrate that our model achieves new state-of-the-art scores, outperforming existing methods by a significant margin on two QG benchmarks. Experimental results also show that our QG model can consistently benefit the Question Answering (QA) task as a mean of data augmentation. | 翻訳日:2023-05-02 22:44:35 公開日:2023-05-01 |
# 要求ダイアログにおける誤り訂正と抽出 Error correction and extraction in request dialogs ( http://arxiv.org/abs/2004.04243v3 ) ライセンス: Link先を確認 | Stefan Constantin and Alex Waibel | (参考訳) ユーザの2つの最後の発話を受信し、最後の発話が2番目の最後の発話の誤り訂正であるかどうかを検出するダイアログシステムユーティリティコンポーネントを提案する。
そうであれば、最後の発声における誤り訂正に従って第2発声を補正する。
さらに、提案したコンポーネントは、抽出された再並列と修復エンティティのペアを出力する。
このコンポーネントは、新しいドメイン毎の修正の収集を避けるために修正の概念を学ぶことと、reparandumとre repair pairsを抽出することの2つの利点を提供する。
誤り訂正のために、1つのシーケンスラベリングと2つのシーケンス to シーケンスアプローチを示す。
誤り訂正検出には,これら3つの誤り訂正手法が利用可能であり,さらに,シーケンス分類手法を提案する。
1つのエラー訂正検出と1つのエラー補正アプローチをパイプラインと組み合わせたり、エラー修正アプローチをトレーニングしたり、エンドツーエンドで2つのコンポーネントを避けることができる。
我々はEPIC-KITCHENS-100データセットを修正し、要求ダイアログにおけるエンティティフレーズの修正手法を評価した。
誤り訂正検出と補正には,人工検証データでは96.40%,実世界テストデータでは77.85%の精度が得られた。 We propose a dialog system utility component that gets the two last utterances of a user and can detect whether the last utterance is an error correction of the second last utterance. If yes, it corrects the second last utterance according to the error correction in the last utterance. In addition, the proposed component outputs the extracted pairs of reparandum and repair entity. This component offers two advantages, learning the concept of corrections to avoid collecting corrections for every new domain and extracting reparandum and repair pairs, which offers the possibility to learn out of it. For the error correction one sequence labeling and two sequence to sequence approaches are presented. For the error correction detection these three error correction approaches can also be used and in addition, we present a sequence classification approach. One error correction detection and one error correction approach can be combined to a pipeline or the error correction approaches can be trained and used end-to-end to avoid two components. We modified the EPIC-KITCHENS-100 dataset to evaluate the approaches for correcting entity phrases in request dialogs. For error correction detection and correction, we got an accuracy of 96.40 % on synthetic validation data and an accuracy of 77.85 % on human-created real-world test data. | 翻訳日:2023-05-02 22:44:13 公開日:2023-05-01 |
# 最大エントロピーサンプリング問題に対する最適部分行列選択:スケーラブルアルゴリズムと性能保証 Best Principal Submatrix Selection for the Maximum Entropy Sampling Problem: Scalable Algorithms and Performance Guarantees ( http://arxiv.org/abs/2001.08537v3 ) ライセンス: Link先を確認 | Yongchun Li, Weijun Xie | (参考訳) 本稿では,共分散行列から所定のサイズの最も有益な主部分行列を選択することを目的とした,古典的最大エントロピーサンプリング問題(mesp)について述べる。
MESPは医療、電力システム、製造、データサイエンスなど多くの分野に広く応用されている。
ラグランジアン双対と原始的性質を調べることにより、MESPのための新しい凸整数プログラムを導出し、その連続緩和がほぼ最適解をもたらすことを示す。
その結果, 効率的なサンプリングアルゴリズムの研究とMESPの近似法の開発が動機となり, 文献の最もよく知られた境界を改良する。
そして、同じ近似境界を持つサンプリングアルゴリズムの効率的な決定論的実装を提供する。
特異行列の新しい数学的ツールを開発し,提案した凸整数プログラムのラグランジアン双対を解析することにより,広く使われている局所探索アルゴリズムを検証し,MESPに対する最初の近似を証明した。
証明手法は局所探索アルゴリズムの効率的な実装にさらに刺激を与えてくれる。
数値実験により,これらの近似アルゴリズムは,中規模および大規模インスタンスをほぼ最適に効率的に解けることを示した。
提案アルゴリズムは,オープンソースソフトウェアとして実装・リリースされている。
最後に、分析をA-Optimal MESP(A-MESP)に拡張し、選択された主部分行列の逆のトレースを最小限にすることを目的とする。 This paper studies a classic maximum entropy sampling problem (MESP), which aims to select the most informative principal submatrix of a prespecified size from a covariance matrix. MESP has been widely applied to many areas, including healthcare, power system, manufacturing and data science. By investigating its Lagrangian dual and primal characterization, we derive a novel convex integer program for MESP and show that its continuous relaxation yields a near-optimal solution. The results motivate us to study an efficient sampling algorithm and develop its approximation bound for MESP, which improves the best-known bound in literature. We then provide an efficient deterministic implementation of the sampling algorithm with the same approximation bound. By developing new mathematical tools for the singular matrices and analyzing the Lagrangian dual of the proposed convex integer program, we investigate the widely-used local search algorithm and prove its first-known approximation bound for MESP. The proof techniques further inspire us with an efficient implementation of the local search algorithm. Our numerical experiments demonstrate that these approximation algorithms can efficiently solve medium-sized and large-scale instances to near-optimality. Our proposed algorithms are coded and released as open-source software. Finally, we extend the analyses to the A-Optimal MESP (A-MESP), where the objective is to minimize the trace of the inverse of the selected principal submatrix. | 翻訳日:2023-05-02 22:43:53 公開日:2023-05-01 |
# スピノリアルサイン変化のマクロ的不観測性 Macroscopic Unobservability of Spinorial Sign Changes ( http://arxiv.org/abs/1412.2677v4 ) ライセンス: Link先を確認 | Richard D. Gill | (参考訳) ijtpで出版されたchristian (2014)の第5節では、完全な古典的環境で量子相関を示す能力を持つ実験が記述されている。
残念なことに、この実験には興味深い自己破壊的な性質がある。必要な結果を提供しないことは確実である。 In Section 5 of Christian (2014), published in IJTP, an experiment is described which is purported to have the capacity for exhibiting quantum correlations in a completely classical environment. Unfortunately the experiment has an interesting self-destructive property: it is certain not to deliver the required result, hence it is pretty certain that no experimenter will ever bother to perform it. | 翻訳日:2023-05-02 22:43:29 公開日:2023-05-01 |
# 漸近量子統計的推論について On Asymptotic Quantum Statistical Inference ( http://arxiv.org/abs/1112.2078v3 ) ライセンス: Link先を確認 | Richard D. Gill and Madalin Guta | (参考訳) 我々は,n$同一量子系の未知状態に関する漸近的に最適な統計的推論を,ヴァンツリーの不等式に基づく「貧弱な人間のアプローチ」と,最近開発されたLeCamの局所漸近正規性理論の量子形式を用いたより洗練されたアプローチの2つの相補的アプローチを用いて研究した。 We study asymptotically optimal statistical inference concerning the unknown state of $N$ identical quantum systems, using two complementary approaches: a "poor man's approach" based on the van Trees inequality, and a rather more sophisticated approach using the recently developed quantum form of LeCam's theory of Local Asymptotic Normality. | 翻訳日:2023-05-02 22:43:22 公開日:2023-05-01 |
# アンセムとヴァンパイアによるタイト論理プログラムの検証 Verifying Tight Logic Programs with anthem and Vampire ( http://arxiv.org/abs/2008.02025v6 ) ライセンス: Link先を確認 | Jorge Fandinno, Vladimir Lifschitz, Patrick L\"uhne and Torsten Schaub | (参考訳) 本稿では,論理プログラムと一階理論の関係を調べることを目的とした研究を継続する。
我々は,プログラム完了の定義を,ASPの接頭辞の入力言語のサブセットで入力と出力を持つプログラムに拡張し,安定モデルと完了との関係について検討し,入力と出力によるプログラムの正当性を検証するために,アンセムとヴァンパイアという2つのソフトウェアツールを用いた予備実験を記述する。
定理の証明は、この論文で研究されたプログラムのセマンティクスを一階式の安定モデルに関連付ける補題に基づいている。
TPLPの受容についての検討 This paper continues the line of research aimed at investigating the relationship between logic programs and first-order theories. We extend the definition of program completion to programs with input and output in a subset of the input language of the ASP grounder gringo, study the relationship between stable models and completion in this context, and describe preliminary experiments with the use of two software tools, anthem and vampire, for verifying the correctness of programs with input and output. Proofs of theorems are based on a lemma that relates the semantics of programs studied in this paper to stable models of first-order formulas. Under consideration for acceptance in TPLP. | 翻訳日:2023-05-02 22:38:10 公開日:2023-05-01 |
# ネットワークディスラプションに対するリスクプールのためのモビリティオペレータサービス容量共有契約設計 Mobility operator service capacity sharing contract design to risk-pool against network disruptions ( http://arxiv.org/abs/2006.14518v3 ) ライセンス: Link先を確認 | Theodoros P. Pantelidis, Joseph Y. J. Chow, Oded Cats | (参考訳) 本稿では,作業者間のリスクプーリング契約を設計し,コスト削減とディスラプション時のサービスのレジリエンス向上を図る機構を提案する。
異なる破壊シナリオ下での連立のコスト削減を判定するために, 2段階の確率的多コモディティフローモデルを作成し, サンプル平均近似とともにl字型手法を用いて解く。
最大64ノード、10ODペア、1024シナリオのネットワークインスタンスに対して,サンプル平均近似を用いた決定論的等価手法に対するL字型手法の計算試験を行った。
その結果、解アルゴリズムはより大きなインスタンス(128ノード以上)に対してのみ計算効率が良くなり、SAAは近似を保っていることがわかった。
提案手法はオランダのランドシュタット地域の地域マルチオペレーターネットワークに適用され、4つのオペレーター、40のオリジン-デスティネーションペア、1400以上のリンクで破壊データが利用可能である。
提案手法を用いて,リスクプール契約を締結していない場合,ネットワーク全体の性能が66%向上する可能性がある4つの運用機関間のコスト配分の安定性を見出した。
さらに,このモデルでは,ランドスタッドのhtmオペレータが示すように,ネットワーク構造やディスラプションシナリオの分散に対して,一方のオペレータの交渉力の感度を評価することができる。 We propose a new mechanism to design risk-pooling contracts between operators to facilitate horizontal cooperation to mitigate those costs and improve service resilience during disruptions. We formulate a novel two-stage stochastic multicommodity flow model to determine the cost savings of a coalition under different disruption scenarios and solve it using L-shaped method along with sample average approximation. Computational tests of the L-shaped method against deterministic equivalent method with sample average approximation are conducted for network instances with up to 64 nodes, 10 OD pairs, and 1024 scenarios. The results demonstrate that the solution algorithm only becomes computationally effective for larger size instances (above 128 nodes) and that SAA maintains a close approximation. The proposed model is applied to a regional multi-operator network in the Randstad area of the Netherlands, for four operators, 40 origin-destination pairs, and over 1400 links where disruption data is available. Using the proposed method, we identify stable cost allocations among four operating agencies that could yield a 66% improvement in overall network performance over not having any risk-pooling contract in place. Furthermore, the model allows policymakers to evaluate the sensitivity of any one operator's bargaining power to different network structures and disruption scenario distributions, as we illustrate for the HTM operator in Randstad. | 翻訳日:2023-05-02 22:37:55 公開日:2023-05-01 |
# 変分量子アルゴリズムにおける普遍的ノイズ予測関係 Universal noise-precision relations in variational quantum algorithms ( http://arxiv.org/abs/2106.03390v4 ) ライセンス: Link先を確認 | Kosuke Ito, Wataru Mizukami, Keisuke Fujii | (参考訳) 変分量子アルゴリズム(VQA)は、近時雑音量子コンピュータの実用的応用として期待されている。
ノイズの効果はVQAが機能するか否かを決定づけるが、VQAのヒューリスティックな性質は解析理論の確立を困難にしている。
ノイズの影響に関する解析的な推定は、従来のコンピュータ上のノイズ量子コンピュータの数値シミュレーションは重く、小規模の問題にかなり制限されるため、量子効果の探索に緊急である。
本稿では,ノイズによるVQAのコスト関数の誤差を解析的に推定する。
この推定はガウス雑音下の任意の典型的なvqaに適用できるが、これは確率的ノイズモデルのクラスと同値である。
特に、このモデルには脱分極ノイズが含まれている。
その結果、必要な精度を保証するためにノイズレベルの推定値が得られる。
本定式は,コスト関数のヘシアン,対象作用素のスペクトル,およびアンザッツの幾何学が雑音に対する感度にどのように影響するかを示す。
この洞察は、トレーサビリティとコスト関数のノイズレジリエンスの間のトレードオフ関係を示唆する。
また,コスト関数の詳細な情報なしに容易に計算できる大まかな推定値を求める。
この式の適用のハイライトとして,外挿法や確率的誤差キャンセラ法とは異なる量子誤差緩和法を提案する。 Variational quantum algorithms (VQAs) are expected to become a practical application of near-term noisy quantum computers. Although the effect of the noise crucially determines whether a VQA works or not, the heuristic nature of VQAs makes it difficult to establish analytic theories. Analytic estimations of the impact of the noise are urgent for searching for quantum advantages, as numerical simulations of noisy quantum computers on classical computers are heavy and quite limited to small scale problems. In this paper, we establish analytic estimations of the error in the cost function of VQAs due to the noise. The estimations are applicable to any typical VQAs under the Gaussian noise, which is equivalent to a class of stochastic noise models. Notably, the depolarizing noise is included in this model. As a result, we obtain estimations of the noise level to guarantee a required precision. Our formulae show how the Hessian of the cost function, the spectrum of the target operator, and the geometry of the ansatz affect the sensitivity to the noise. This insight implies trade-off relations between the trainability and the noise resilience of the cost function. We also obtain rough estimations which can be easily calculated without detailed information of the cost function. As a highlight of the applications of the formula, we propose a quantum error mitigation method which is different from the extrapolation and the probabilistic error cancellation. | 翻訳日:2023-05-02 22:11:02 公開日:2023-05-01 |
# マルチスケールオーダvladプールを用いた深部局所特徴を用いた都市規模視覚位置認識 City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling ( http://arxiv.org/abs/2009.09255v2 ) ライセンス: Link先を確認 | Duc Canh Le, Chan Hyun Youn | (参考訳) 視覚的場所認識は、メタデータなしで純粋な視覚的外観に基づいて画像に描かれた場所を認識するタスクである。
視覚位置認識における課題は、照明条件やカメラ視点、スケールの変化だけでなく、シーンレベルの画像の特徴やエリアの特徴にもよる。
これらの課題を解決するためには、画像の局所的な識別性とグローバルな意味的文脈の両方を考慮する必要がある。
一方でデータセットの多様性は、より一般的なモデルを開発し、この分野の進歩を進める上でも特に重要である。
本稿では,コンテントベース画像検索に基づく都市規模における位置認識のための完全自動システムを提案する。
コミュニティの主な貢献は3つの側面にあります。
まず,視覚位置認識の包括的解析を行い,一般的な画像検索タスクと比較して,課題のユニークな課題をスケッチする。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
最後に,アプリケーションベースの研究に特に不可欠な位置認識のための新しいデータセットを提案する。
さらに, 広範囲にわたる実験を通じて, 画像検索と位置認識の両方における様々な問題を分析し, 検索モデルの性能向上に関する知見を与える。
この論文で使われるデータセットはhttps://github.com/canhld94/daejeon520にある。 Visual place recognition is the task of recognizing a place depicted in an image based on its pure visual appearance without metadata. In visual place recognition, the challenges lie upon not only the changes in lighting conditions, camera viewpoint, and scale but also the characteristic of scene-level images and the distinct features of the area. To resolve these challenges, one must consider both the local discriminativeness and the global semantic context of images. On the other hand, the diversity of the datasets is also particularly important to develop more general models and advance the progress of the field. In this paper, we present a fully-automated system for place recognition at a city-scale based on content-based image retrieval. Our main contributions to the community lie in three aspects. Firstly, we take a comprehensive analysis of visual place recognition and sketch out the unique challenges of the task compared to general image retrieval tasks. Next, we propose yet a simple pooling approach on top of convolutional neural network activations to embed the spatial information into the image representation vector. Finally, we introduce new datasets for place recognition, which are particularly essential for application-based research. Furthermore, throughout extensive experiments, various issues in both image retrieval and place recognition are analyzed and discussed to give some insights into improving the performance of retrieval models in reality. The dataset used in this paper can be found at https://github.com/canhld94/Daejeon520 | 翻訳日:2023-05-02 22:09:09 公開日:2023-05-01 |
# 適応性と非定常性:オンライン凸最適化における問題依存動的後悔 Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization ( http://arxiv.org/abs/2112.14368v2 ) ライセンス: Link先を確認 | Peng Zhao, Yu-Jie Zhang, Lijun Zhang, Zhi-Hua Zhou | (参考訳) 非定常環境におけるオンライン凸最適化について検討し、オンラインアルゴリズムが生み出す累積損失と実行可能なコンパレータシーケンスとの差として定義される性能指標として動的後悔を選択する。
t$ を時間軸とし、$p_t$ を環境の非定常性を反映した経路長とし、最先端の動的後悔は$\mathcal{o}(\sqrt{t(1+p_t)})$である。
この境界は凸関数に対してミニマックス最適であることが証明されているが,本稿では,簡単な問題,特にオンライン関数が滑らかである場合の保証をさらに強化できることを実証する。
具体的には,損失関数の勾配の変動,コンパレータ列の累積損失,およびこれら2項の最小化など,スムーズさを生かし,動的後悔のT$への依存を問題依存量に置き換える新しいオンラインアルゴリズムを提案する。
これらの量は少なくとも$\mathcal{O}(T)$であるが、良質な環境ではずっと小さい。
したがって,本研究の結果は,既往の結果よりも厳密であり,かつ最悪の場合において同じ確率を保証できるため,本問題の本質的な難易度に適応する。
特に,提案アルゴリズムは1イテレーションに1つの勾配しか持たず,静的な後悔最小化法と同じ勾配クエリの複雑さを共有できる。
そこで本稿では,協調型オンラインアンサンブルの枠組みを紹介する。
提案手法では,非定常性を扱うために2層オンラインアンサンブルを用い,楽観的なオンライン学習を行い,さらに重要な修正用語を導入して,メタベース2層間の効果的なコラボレーションを促進し,適応性を実現する。
このフレームワークは幅広い問題に有効であると考えています。 We investigate online convex optimization in non-stationary environments and choose the dynamic regret as the performance measure, defined as the difference between cumulative loss incurred by the online algorithm and that of any feasible comparator sequence. Let $T$ be the time horizon and $P_T$ be the path length that essentially reflects the non-stationarity of environments, the state-of-the-art dynamic regret is $\mathcal{O}(\sqrt{T(1+P_T)})$. Although this bound is proved to be minimax optimal for convex functions, in this paper, we demonstrate that it is possible to further enhance the guarantee for some easy problem instances, particularly when online functions are smooth. Specifically, we introduce novel online algorithms that can exploit smoothness and replace the dependence on $T$ in dynamic regret with problem-dependent quantities: the variation in gradients of loss functions, the cumulative loss of the comparator sequence, and the minimum of these two terms. These quantities are at most $\mathcal{O}(T)$ while could be much smaller in benign environments. Therefore, our results are adaptive to the intrinsic difficulty of the problem, since the bounds are tighter than existing results for easy problems and meanwhile guarantee the same rate in the worst case. Notably, our proposed algorithms can achieve favorable dynamic regret with only one gradient per iteration, sharing the same gradient query complexity as the static regret minimization methods. To accomplish this, we introduce the framework of collaborative online ensemble. The proposed framework employs a two-layer online ensemble to handle non-stationarity, and uses optimistic online learning and further introduces crucial correction terms to facilitate effective collaboration within the meta-base two layers, thereby attaining adaptivity. We believe that the framework can be useful for broader problems. | 翻訳日:2023-05-02 22:02:22 公開日:2023-05-01 |
# 自己拡張情報最大化によるクラスタGANの改善 Improving ClusterGAN Using Self-Augmented Information Maximization of Disentangling Latent Spaces ( http://arxiv.org/abs/2107.12706v2 ) ライセンス: Link先を確認 | Tanmoy Dam, Sreenatha G. Anavatti, Hussein A. Abbass | (参考訳) 過去数年間に導入されて以来、条件付き生成モデルは顕著な成果を上げてきた。
しかし、しばしば大量のラベル付き情報を使用する必要がある。
クラスタリング推論ネットワークと協調して教師なし条件生成を使用することで、ClusterGANは最近、素晴らしいクラスタリング結果を達成することができた。
データの実条件分布を無視するので、一様事前ベース生成サンプルのみを考慮すれば、クラスタリング推論ネットワークは劣るクラスタリング性能しか達成できない。
しかし、真の分布は必ずしも平衡であるとは限らない。
その結果、clusterganはすべてのモードの生成に失敗し、結果としてサブ最適クラスタリング推論ネットワークのパフォーマンスが向上する。
したがって、実際の分布を教師なしの方法で一致させようとする事前学習が重要である。
本稿では,クラスタGAN(SIMI-ClusterGAN)を改良した自己拡張情報最大化手法を提案する。
提案したSIMI-ClusterGANは、自己拡張前のネットワーク、ジェネレータ、識別器、クラスタリング推論ネットワークの4つのディープニューラルネットワークで構成されている。
提案手法は7つのベンチマークデータセットを用いて検証され,最先端手法よりも性能が向上した。
不均衡データセットにおけるSIMI-ClusterGAN性能の優位性を示すために,MNISTデータセット上での2つの不均衡条件について検討した。
結果はSIMI-ClusterGANの利点を強調した。 Since their introduction in the last few years, conditional generative models have seen remarkable achievements. However, they often need the use of large amounts of labelled information. By using unsupervised conditional generation in conjunction with a clustering inference network, ClusterGAN has recently been able to achieve impressive clustering results. Since the real conditional distribution of data is ignored, the clustering inference network can only achieve inferior clustering performance by considering only uniform prior based generative samples. However, the true distribution is not necessarily balanced. Consequently, ClusterGAN fails to produce all modes, which results in sub-optimal clustering inference network performance. So, it is important to learn the prior, which tries to match the real distribution in an unsupervised way. In this paper, we propose self-augmentation information maximization improved ClusterGAN (SIMI-ClusterGAN) to learn the distinctive priors from the data directly. The proposed SIMI-ClusterGAN consists of four deep neural networks: self-augmentation prior network, generator, discriminator and clustering inference network. The proposed method has been validated using seven benchmark data sets and has shown improved performance over state-of-the art methods. To demonstrate the superiority of SIMI-ClusterGAN performance on imbalanced dataset, we have discussed two imbalanced conditions on MNIST datasets with one-class imbalance and three classes imbalanced cases. The results highlight the advantages of SIMI-ClusterGAN. | 翻訳日:2023-05-02 22:00:07 公開日:2023-05-01 |
# E-detectors:シーケンシャルな変化検出のための非パラメトリックフレームワーク E-detectors: a nonparametric framework for sequential change detection ( http://arxiv.org/abs/2203.03532v2 ) ライセンス: Link先を確認 | Jaehyeok Shin, Aaditya Ramdas, Alessandro Rinaldo | (参考訳) 逐次変化検出は、様々な応用において古典的な問題である。
しかし、先行研究の大部分は指数関数族に焦点をあてたパラメトリックなものであった。
本研究では,変化前分布と後分布が非パラメトリックな(したがって合成)場合の逐次変化検出のための基本的かつ汎用的なフレームワークを開発する。
私たちの手順は、平均走行距離(誤報の頻度)のクリーンで無症状な境界が伴います。
ある種の非パラメトリック(準ガウスや準指数など)の場合、変化点の後の検出遅延についてほぼ最適境界を与える。
私たちが導入する主要な技術ツールは \emph{e-detector} と呼ばれ、e-プロセス(非負のスーパーマーチンガールの基本的な一般化)の和からなり、連続して開始される。
まず,シリャーエフ・ロバーツとCUSUM型e-detectorを導入し,統計的および計算効率の両立を図った。
我々のe-detectorフレームワークは、パラメトリック問題に対する古典的確率に基づく手順を復元し、多くの非パラメトリック問題に対する最初の変更検出方法を得るためにインスタンス化することができる。
実例として,複数シーズンにわたってバスケットボールチームのパフォーマンスを追跡するアプリケーションを用いて,i.i.d.仮定なしに有界確率変数の平均値の変化を検出する問題に取り組む。 Sequential change detection is a classical problem with a variety of applications. However, the majority of prior work has been parametric, for example, focusing on exponential families. We develop a fundamentally new and general framework for sequential change detection when the pre- and post-change distributions are nonparametrically specified (and thus composite). Our procedures come with clean, nonasymptotic bounds on the average run length (frequency of false alarms). In certain nonparametric cases (like sub-Gaussian or sub-exponential), we also provide near-optimal bounds on the detection delay following a changepoint. The primary technical tool that we introduce is called an \emph{e-detector}, which is composed of sums of e-processes -- a fundamental generalization of nonnegative supermartingales -- that are started at consecutive times. We first introduce simple Shiryaev-Roberts and CUSUM-style e-detectors, and then show how to design their mixtures in order to achieve both statistical and computational efficiency. Our e-detector framework can be instantiated to recover classical likelihood-based procedures for parametric problems, as well as yielding the first change detection method for many nonparametric problems. As a running example, we tackle the problem of detecting changes in the mean of a bounded random variable without i.i.d. assumptions, with an application to tracking the performance of a basketball team over multiple seasons. | 翻訳日:2023-05-02 20:17:45 公開日:2023-05-01 |
# 単一光子検出器問題の解法 Solving single photon detector problems ( http://arxiv.org/abs/2203.02905v6 ) ライセンス: Link先を確認 | Hao Shu | (参考訳) 単一光子検出器(SPD)問題は、ほとんどの量子タスク、特に高損失チャネルを通過する状態を測定するために発生する。
量子鍵分布(qkd、quantum key distribution)は、量子情報理論において最も重要な応用である。
近年、QKD距離は劇的に改善されているが、SPDダークカウントによるビット誤り率(QBER)は、距離が増加するにつれて制御不能になるため、依然として制限されている。
この問題を解くことができれば、QKDは任意に長距離で実装できる。
しかし、以前の解はしばしば超伝導体のような非現実的な要求をもたらすが、暗カウントレートを有限の低レベルまで下げることができる。
ここでは、SPD問題を解決するため、今日の技術のみを用いたスキームを提案する。
コピー戦略を用いることで,不完全検出器がほぼ完全な結果が得られることを示す。すなわち,暗カウントによるQBERを任意に低くし,刑事効率を任意に高めることができる。
その結果、QKD距離はもはや不完全なSPDによって制限されず、数百kmから数千kmまで高技術検出器を使わずに改善できる。
さらに、同様のスキームを測定誤差の低減やソースの性能向上に応用することができる。
最後に、本論文は主にQKDの文脈で論じられているが、我々のスキームはSPDが採用されている他のプロトコルでも利用できる独立したスキームである。
\\キーワード:長距離量子鍵分布、暗数、C-NOTゲート、単一光子検出器、検出効率 Single photon detector(SPD) problems arise in most quantum tasks, especially for measuring states going through high-lost channels. They are particularly prominent in quantum key distribution(QKD), which could be the most significant application in quantum information theory. In recent years, QKD distance improved dramatically but is still restricted because the bit error rate(QBER) caused by SPD dark counts will be out of control as the distance increases. If this problem can be solved, QKD can be implemented over arbitrarily long distances. However, previous solutions often result in impractical requirements such as superconductors while they can only reduce the dark count rate to finite low levels. Here we present a scheme with today's technologies only, solving SPD problems. By employing a copy strategy, our scheme demonstrates that imperfect detectors can provide nearly perfect results, namely the QBER caused by dark counts can be reduced to arbitrarily low while detective efficiency can be improved to arbitrarily high. As a consequence, QKD distance is not limited by the imperfect SPD anymore and can be improved from hundreds of kilometers to thousands without high-technology detectors. Furthermore, similar schemes can be applied for reducing measurement errors or improving the performance of sources. Finally, it is worth noting that although the paper is mainly discussed in the context of QKD, our scheme is an independent scheme that could be employed in other protocols wherever SPD are employed. \\ Keywords: Long distance Quantum key distribution; Dark count; C-NOT gate; Single photon detector; Detective efficiency | 翻訳日:2023-05-02 20:17:22 公開日:2023-05-01 |
# 機械の説明と人間の理解 Machine Explanations and Human Understanding ( http://arxiv.org/abs/2202.04092v3 ) ライセンス: Link先を確認 | Chacha Chen, Shi Feng, Amit Sharma, Chenhao Tan | (参考訳) 説明は、機械学習モデルの人間の理解を改善し、モデルデバッギングから人間の意思決定の強化まで、様々な望ましい結果を達成すると仮定される。
しかし、経験的な研究は混ざり合った結果、さらには否定的な結果が得られた。
したがって、オープンな質問は、説明が人間の理解を改善する条件と、どのようにして行うかである。
適応因果図を用いて,機械の説明と人間の理解との相互作用を形式的に特徴付けし,人間の直観が人間の理解を実現する上で中心的な役割を果たすことを示す。
具体的には、タスク決定境界、モデル決定境界、モデルエラーという、人間-ai意思決定のコンテキストにおける理解のすべての既存の定量的尺度をカバーする3つの関心概念を識別する。
我々の重要な結果は、タスク固有の直観に関する仮定がなければ、説明はモデル決定境界に対する人間の理解を改善する可能性があるが、タスク決定境界やモデルエラーに対する人間の理解を改善することはできないということである。
補完的な人間-AIのパフォーマンスを達成するために、人間の直感で説明がどう機能するかを明確にする。
例えば、特徴の関連性に関する人間の直感(例えば、収入を予測するのに年齢よりも教育の方が重要である)は、モデルエラーを検出する上で重要である。
実験的な人間-主観研究により,機械説明の結果を形作る上で,人間の直観の重要性を検証する。
全体として、我々の研究は、将来のアルゴリズム開発と機械説明の実証実験のための実用的な意味を持つ一般的なフレームワークを提供する。 Explanations are hypothesized to improve human understanding of machine learning models and achieve a variety of desirable outcomes, ranging from model debugging to enhancing human decision making. However, empirical studies have found mixed and even negative results. An open question, therefore, is under what conditions explanations can improve human understanding and in what way. Using adapted causal diagrams, we provide a formal characterization of the interplay between machine explanations and human understanding, and show how human intuitions play a central role in enabling human understanding. Specifically, we identify three core concepts of interest that cover all existing quantitative measures of understanding in the context of human-AI decision making: task decision boundary, model decision boundary, and model error. Our key result is that without assumptions about task-specific intuitions, explanations may potentially improve human understanding of model decision boundary, but they cannot improve human understanding of task decision boundary or model error. To achieve complementary human-AI performance, we articulate possible ways on how explanations need to work with human intuitions. For instance, human intuitions about the relevance of features (e.g., education is more important than age in predicting a person's income) can be critical in detecting model error. We validate the importance of human intuitions in shaping the outcome of machine explanations with empirical human-subject studies. Overall, our work provides a general framework along with actionable implications for future algorithmic development and empirical experiments of machine explanations. | 翻訳日:2023-05-02 20:16:24 公開日:2023-05-01 |
# IoTにおける無線チャネル上での分散関数圧縮のための機械学習フレームワーク A Machine Learning Framework for Distributed Functional Compression over Wireless Channels in IoT ( http://arxiv.org/abs/2201.09483v2 ) ライセンス: Link先を確認 | Yashas Malur Saidutta, Afshin Abdi, Faramarz Fekri | (参考訳) 膨大なデータと最先端の機械学習技術を生み出すIoTデバイスは、サイバー物理システムに革命をもたらす。
自律運転から拡張現実に至るまで、さまざまな分野において、分散IoTデバイスは、障害物検出やオブジェクト認識といった単純な形式を使わずに、特定のターゲット機能を計算する。
トレーニングや推論のためにデータを中央の場所に転送することに集中する従来のクラウドベースの手法は、ネットワークリソースに大きな負担をかけます。
これを解決するために,我々は,ガウス多重アクセスチャネル(GMAC)と直交AFGNチャネルの両方で分散機能圧縮を行う,最初の機械学習フレームワークを開発した。
Kolmogorov-Arnold表現定理により、私たちの機械学習フレームワークは、設計によって、IoTの所望の機能圧縮タスクに対して任意の関数を計算できます。
重要なことに、生の感覚データはトレーニングや推論のために中央ノードに転送されないため、通信が減少する。
これらのアルゴリズムでは、理論的収束保証と通信上の上限を提供する。
シミュレーションにより,関数圧縮のための学習エンコーダとデコーダは従来の手法よりも優れており,チャネル条件の変化やセンサの停止に対して堅牢であることがわかった。
クラウドベースのシナリオと比較して,我々のアルゴリズムはチャネル使用量を2桁削減する。 IoT devices generating enormous data and state-of-the-art machine learning techniques together will revolutionize cyber-physical systems. In many diverse fields, from autonomous driving to augmented reality, distributed IoT devices compute specific target functions without simple forms like obstacle detection, object recognition, etc. Traditional cloud-based methods that focus on transferring data to a central location either for training or inference place enormous strain on network resources. To address this, we develop, to the best of our knowledge, the first machine learning framework for distributed functional compression over both the Gaussian Multiple Access Channel (GMAC) and orthogonal AWGN channels. Due to the Kolmogorov-Arnold representation theorem, our machine learning framework can, by design, compute any arbitrary function for the desired functional compression task in IoT. Importantly the raw sensory data are never transferred to a central node for training or inference, thus reducing communication. For these algorithms, we provide theoretical convergence guarantees and upper bounds on communication. Our simulations show that the learned encoders and decoders for functional compression perform significantly better than traditional approaches, are robust to channel condition changes and sensor outages. Compared to the cloud-based scenario, our algorithms reduce channel use by two orders of magnitude. | 翻訳日:2023-05-02 20:15:27 公開日:2023-05-01 |
# 有効場理論におけるエントロピー制約 Entropy constraints on effective field theory ( http://arxiv.org/abs/2201.00931v3 ) ライセンス: Link先を確認 | Qing-Hong Cao and Daiki Ueda | (参考訳) 実場理論において、高次微分作用素の正値境界は解析性、因果性、ユニタリティから導かれる。
例えば、1つの質量を持たないスカラー場の次元-8項、標準モデル有効場理論の次元-8$SU(N)$ゲージボソニック作用素、およびアインシュタイン・マクスウェル理論における高次微分作用素は、重度と軽度の自由度の間の相互作用によって生じる相対エントロピーの非負性によって導出される。
このような実効的な場の理論では、相互作用は固定電荷とエネルギーの極値点において熱力学的エントロピーを増加させ、弱い重力対流を示すブラックホールの極値関係と密接な関係にあることが証明される。
これらの議論は、光場の高次微分作用素を含む相互作用からの補正が有効場理論において支配的でない場合に適用される。
エントロピーの制約はハミルトンのエルミティシティの結果であり、エントロピーの非負性性に反する理論は熱力学の第二の法則を尊重しない。 In effective field theory, the positivity bounds of higher derivative operators are derived from analyticity, causality, and unitarity. We show that the positivity bounds on some operators of the effective field theory, e.g., dimension-eight term of a single massless scalar field, the Standard Model Effective Field Theory dimension-eight $SU(N)$ gauge bosonic operators, and higher-derivative operators in the Einstein-Maxwell theory, generated by interactions between heavy and light degrees of freedom can be derived by the non-negativity of relative entropy. For such effective field theories, we prove that the interactions increase thermodynamic entropy at a fixed charge and an extremal point of energy, which is intimately connected with the extremality relations of black holes exhibiting Weak-Gravity-Conjecture. These arguments are applicable when corrections from the interactions involving higher-derivative operators of light fields are not dominant in the effective field theories. The entropy constraint is a consequence of the Hermiticity of Hamiltonian, and any theory violating the non-negativity of entropy would not respect the second law of thermodynamics. | 翻訳日:2023-05-02 20:15:05 公開日:2023-05-01 |
# これはスーパーディールです -- ノイズデータに対するリカレントネットワークのトレイン、スムーズな予測を無料に It's a super deal -- train recurrent network on noisy data and get smooth prediction free ( http://arxiv.org/abs/2206.04215v2 ) ライセンス: Link先を確認 | Boris Rubinstein | (参考訳) 最近の研究では、ノイズ入力に基づく予測再帰ニューラルネットワークによる時系列予測が、スムーズな予測軌道を生成することが示されている。
トレーニングデータセットと入力シーケンスの両方におけるノイズ成分がネットワーク予測品質に及ぼす影響について検討する。
予測過程において観測された雑音の圧縮に関する説明を提案し,議論する。
また、生物の進化における神経科学の文脈におけるリカレントネットワークの重要性についても論じる。 Recent research demonstrate that prediction of time series by predictive recurrent neural networks based on the noisy input generates a smooth anticipated trajectory. We examine influence of the noise component in both the training data sets and the input sequences on network prediction quality. We propose and discuss an explanation of the observed noise compression in the predictive process. We also discuss importance of this property of recurrent networks in the neuroscience context for the evolution of living organisms. | 翻訳日:2023-05-02 20:08:54 公開日:2023-05-01 |
# 安定的畳み込みを伴う微分可能計画への対称性の統合 Integrating Symmetry into Differentiable Planning with Steerable Convolutions ( http://arxiv.org/abs/2206.03674v3 ) ライセンス: Link先を確認 | Linfeng Zhao, Xupeng Zhu, Lingzhi Kong, Robin Walters, Lawson L.S. Wong | (参考訳) グループ対称性がデータ効率の向上と、意思決定タスクにおけるエンドツーエンドの微分可能計画アルゴリズムの一般化にどのように役立つかを検討する。
等価畳み込みネットワークに動機づけられ、経路計画問題をグリッド上の \textit{signals} として扱う。
この場合の値反復は線型同変作用素であり、これは(ステアブルな)畳み込みであることを示す。
これは、追加の回転と反射対称性を持つ経路計画に畳み込みネットワークを使用するために価値イテレーションネットワーク(VIN)を拡張する。
実装はvinsをベースとし,制御可能な畳み込みネットワークを用いて対称性を組み込む。
実験は2次元ナビゲーション、視覚ナビゲーション、2自由度(2DOF)の設定空間とワークスペース操作の4つのタスクで実施される。
対称計画アルゴリズムは,非同値なvinおよびgppnと比較して,訓練効率と一般化を大きなマージンで改善する。 We study how group symmetry helps improve data efficiency and generalization for end-to-end differentiable planning algorithms when symmetry appears in decision-making tasks. Motivated by equivariant convolution networks, we treat the path planning problem as \textit{signals} over grids. We show that value iteration in this case is a linear equivariant operator, which is a (steerable) convolution. This extends Value Iteration Networks (VINs) on using convolutional networks for path planning with additional rotation and reflection symmetry. Our implementation is based on VINs and uses steerable convolution networks to incorporate symmetry. The experiments are performed on four tasks: 2D navigation, visual navigation, and 2 degrees of freedom (2DOFs) configuration space and workspace manipulation. Our symmetric planning algorithms improve training efficiency and generalization by large margins compared to non-equivariant counterparts, VIN and GPPN. | 翻訳日:2023-05-02 20:08:45 公開日:2023-05-01 |
# グラフニューラルネットワークによる戦略的分類 Strategic Classification with Graph Neural Networks ( http://arxiv.org/abs/2205.15765v3 ) ライセンス: Link先を確認 | Itay Eilat, Ben Finkelshtein, Chaim Baskin, Nir Rosenfeld | (参考訳) 戦略分類は、ユーザーが好ましい予測を得るために機能を変更できるような環境で学習する。
現在の作業のほとんどは、独立したユーザ応答をトリガーする単純な分類器に重点を置いている。
ここでは、独立仮説を破るより精巧なモデルを用いて学習の意味を検討する。
戦略的分類の応用は本質的に社会的であることが多いという考えに動機付けられ,ユーザ間の社会的関係を利用して予測を改善する「emph{graph neural network}」に焦点をあてる。
私たちのキーポイントは、戦略的ユーザーがそれらを活用して目標を推進できるということです。
分析とシミュレーションを通して示すように、これはシステム -- あるいはそれのために -- に対して機能します。
そこで本研究では,グラフベース分類器の戦略ロバスト学習のための微分可能なフレームワークを提案する。
いくつかの実ネットワークデータセットの実験は、我々のアプローチの有用性を実証している。 Strategic classification studies learning in settings where users can modify their features to obtain favorable predictions. Most current works focus on simple classifiers that trigger independent user responses. Here we examine the implications of learning with more elaborate models that break the independence assumption. Motivated by the idea that applications of strategic classification are often social in nature, we focus on \emph{graph neural networks}, which make use of social relations between users to improve predictions. Using a graph for learning introduces inter-user dependencies in prediction; our key point is that strategic users can exploit these to promote their goals. As we show through analysis and simulation, this can work either against the system -- or for it. Based on this, we propose a differentiable framework for strategically-robust learning of graph-based classifiers. Experiments on several real networked datasets demonstrate the utility of our approach. | 翻訳日:2023-05-02 20:07:15 公開日:2023-05-01 |
# StyLitGAN:新しい照明条件を創出するスタイルGAN StyLitGAN: Prompting StyleGAN to Produce New Illumination Conditions ( http://arxiv.org/abs/2205.10351v2 ) ライセンス: Link先を確認 | Anand Bhattad and D.A. Forsyth | (参考訳) そこで本稿では,ラベル付きデータがない場合に生成画像の表示と修正を行う新しい手法であるスタイリタンを提案する。
提案手法では,ペアやCGIデータを必要としない,キャストシャドウ,ソフトシャドウ,反射間効果,光沢効果などのリアルな照明効果を持つ画像を生成する。
StyLitGANは画像の分解に固有の画像法を使用し、続いて事前訓練されたStyleGANの潜伏空間を探索して方向の集合を特定する。
モデルに1つのコンポーネント(例えばアルベド)を修正させ、別のコンポーネント(例えばシェーディング)を変更させることで、特定した方向を潜在スタイルコードに追加することで、リライトされた画像を生成する。
アルベドと照明の多様性の変化の定量的指標は、前方選択プロセスを用いて効果的な方向を選択することができる。
定性評価は,本手法の有効性を確認する。 We propose a novel method, StyLitGAN, for relighting and resurfacing generated images in the absence of labeled data. Our approach generates images with realistic lighting effects, including cast shadows, soft shadows, inter-reflections, and glossy effects, without the need for paired or CGI data. StyLitGAN uses an intrinsic image method to decompose an image, followed by a search of the latent space of a pre-trained StyleGAN to identify a set of directions. By prompting the model to fix one component (e.g., albedo) and vary another (e.g., shading), we generate relighted images by adding the identified directions to the latent style codes. Quantitative metrics of change in albedo and lighting diversity allow us to choose effective directions using a forward selection process. Qualitative evaluation confirms the effectiveness of our method. | 翻訳日:2023-05-02 20:07:04 公開日:2023-05-01 |
# Few-Shotオブジェクト認識のための複数表現に基づく生涯アンサンブル学習 Lifelong Ensemble Learning based on Multiple Representations for Few-Shot Object Recognition ( http://arxiv.org/abs/2205.01982v4 ) ライセンス: Link先を確認 | Hamidreza Kasaei, Songsong Xiong | (参考訳) サービスロボットは、さまざまなタスクを助けるために、日々の生活にますます統合されています。
このような環境では、ロボットは環境の中で作業しながらしばしば新しい物体に直面し、オープンエンドで学習する必要がある。
さらに、このようなロボットは幅広い対象のカテゴリーを認識できなければならない。
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
特に,深部表現と手作りの3次元形状記述子に基づくアンサンブル手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即時に記憶し検索するメモリユニットを備える。
提案モデルは,3次元オブジェクトカテゴリの数が固定されておらず,時間とともに成長可能なオープンエンド学習シナリオに適している。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
評価目的として,実際のオブジェクトデータセットに加えて,90オブジェクトの27000ビューからなる大規模合成家庭用オブジェクトデータセットを生成する。
実験により,提案手法がオンライン数発の3Dオブジェクト認識タスクに与える影響と,最先端のオープンエンド学習手法よりも優れた性能を示した。
さらに,オフライン環境ではアンサンブル学習がやや有益であるのに対し,生涯の少人数学習では有益であることが示された。
さらに、ロボットが限られた例から新しいカテゴリーを素早く学習するシミュレーションと実ロボット設定の両方において、我々のアプローチの有効性を実証した。 Service robots are integrating more and more into our daily lives to help us with various tasks. In such environments, robots frequently face new objects while working in the environment and need to learn them in an open-ended fashion. Furthermore, such robots must be able to recognize a wide range of object categories. In this paper, we present a lifelong ensemble learning approach based on multiple representations to address the few-shot object recognition problem. In particular, we form ensemble methods based on deep representations and handcrafted 3D shape descriptors. To facilitate lifelong learning, each approach is equipped with a memory unit for storing and retrieving object information instantly. The proposed model is suitable for open-ended learning scenarios where the number of 3D object categories is not fixed and can grow over time. We have performed extensive sets of experiments to assess the performance of the proposed approach in offline, and open-ended scenarios. For the evaluation purpose, in addition to real object datasets, we generate a large synthetic household objects dataset consisting of 27000 views of 90 objects. Experimental results demonstrate the effectiveness of the proposed method on online few-shot 3D object recognition tasks, as well as its superior performance over the state-of-the-art open-ended learning approaches. Furthermore, our results show that while ensemble learning is modestly beneficial in offline settings, it is significantly beneficial in lifelong few-shot learning situations. Additionally, we demonstrated the effectiveness of our approach in both simulated and real-robot settings, where the robot rapidly learned new categories from limited examples. | 翻訳日:2023-05-02 20:06:21 公開日:2023-05-01 |
# 質問応答ブループリントによる条件生成 Conditional Generation with a Question-Answering Blueprint ( http://arxiv.org/abs/2207.00397v2 ) ライセンス: Link先を確認 | Shashi Narayan, Joshua Maynez, Reinald Kim Amplayo, Kuzman Ganchev, Annie Louis, Fantine Huot, Anders Sandholm, Dipanjan Das, Mirella Lapata | (参考訳) 条件付き生成における多くのタスクにおいて、適切で忠実な情報を伝達する能力は重要であるが、ニューラルネットワークのseq-to-seqモデルでは、その出力はしばしば幻覚を示し、重要な詳細を正しくカバーできない。
本研究では,条件生成を不透明かつ根拠的に表現するための有用な中間表現としてプランニングを提唱する。
本研究は,質問応答(QA)ペアのシーケンスとして,テキストプランの新たな概念化を提案する。
既存のデータセット(例えば要約)を強化し、QAブループリントをコンテンツ選択(すなわち、何を言うべきか)と計画(すなわち、何の順序で)のプロキシとして運用します。
我々は、最先端の質問生成技術を活用し、入出力ペアを入出力タプルに変換することで、自動的に青写真を得る。
我々はTransformerベースのモデルを開発し、それぞれが生成した出力(例えば、グローバルプランとして、あるいは反復的に)にブループリントを組み込む方法を変える。
メトリクスとデータセットによる評価は、ブループリントモデルが計画に頼らず、生成出力のより厳密な制御を可能にする代替モデルよりも現実的であることを示している。 The ability to convey relevant and faithful information is critical for many tasks in conditional generation and yet remains elusive for neural seq-to-seq models whose outputs often reveal hallucinations and fail to correctly cover important details. In this work, we advocate planning as a useful intermediate representation for rendering conditional generation less opaque and more grounded. Our work proposes a new conceptualization of text plans as a sequence of question-answer (QA) pairs. We enhance existing datasets (e.g., for summarization) with a QA blueprint operating as a proxy for both content selection (i.e.,~what to say) and planning (i.e.,~in what order). We obtain blueprints automatically by exploiting state-of-the-art question generation technology and convert input-output pairs into input-blueprint-output tuples. We develop Transformer-based models, each varying in how they incorporate the blueprint in the generated output (e.g., as a global plan or iteratively). Evaluation across metrics and datasets demonstrates that blueprint models are more factual than alternatives which do not resort to planning and allow tighter control of the generation output. | 翻訳日:2023-05-02 19:59:56 公開日:2023-05-01 |
# 深層強化学習のための条件付き動的リスク対策 Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning ( http://arxiv.org/abs/2206.14666v3 ) ライセンス: Link先を確認 | Anthony Coache, Sebastian Jaimungal, \'Alvaro Cartea | (参考訳) 本稿では,エージェントが時間一貫性のある動的スペクトルリスク対策を最適化する,リスク感応強化学習(rl)問題を解決するための新しい枠組みを提案する。
条件付きエリシタビリティの概念に基づき,評価手順においてペナライザとして使用される(厳密に一貫性のある)スコアリング関数を構築する。
私たちの貢献は3倍です
(i)ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラス推定のための効率的な手法の開発
(ii)深層ニューラルネットワークを用いて、これらの動的スペクトルリスク測度が任意の精度に近似可能であることを証明し、
(iii)完全エピソードを使用し、さらにネストした遷移を必要としないリスクに敏感なアクタ-クリティックアルゴリズムを開発する。
我々は,概念的に改良された強化学習アルゴリズムをネストしたシミュレーション手法と比較し,その性能を2つの設定で示す。 We propose a novel framework to solve risk-sensitive reinforcement learning (RL) problems where the agent optimises time-consistent dynamic spectral risk measures. Based on the notion of conditional elicitability, our methodology constructs (strictly consistent) scoring functions that are used as penalizers in the estimation procedure. Our contribution is threefold: we (i) devise an efficient approach to estimate a class of dynamic spectral risk measures with deep neural networks, (ii) prove that these dynamic spectral risk measures may be approximated to any arbitrary accuracy using deep neural networks, and (iii) develop a risk-sensitive actor-critic algorithm that uses full episodes and does not require any additional nested transitions. We compare our conceptually improved reinforcement learning algorithm with the nested simulation approach and illustrate its performance in two settings: statistical arbitrage and portfolio allocation on both simulated and real data. | 翻訳日:2023-05-02 19:59:35 公開日:2023-05-01 |
# 数十億単位の感度を持つ量子状態におけるサファイアのマイクロ波誘電損失の精密測定 Precision measurement of the microwave dielectric loss of sapphire in the quantum regime with parts-per-billion sensitivity ( http://arxiv.org/abs/2206.14334v2 ) ライセンス: Link先を確認 | Alexander P. Read, Benjamin J. Chapman, Chan U Lei, Jacob C. Curtis, Suhas Ganjam, Lev Krayzman, Luigi Frunzio, Robert J. Schoelkopf | (参考訳) 誘電損失は、最先端の超伝導クビット寿命を制限することで知られている。
最近の実験は、バルク誘電体損失タンジェントを1ビリオン当たり100ドルで上界させるが、これらの推論は、多くの損失チャネルを持つ完全に製造されたデバイスから引き出されるため、誘電体を確実に含まない。
この曖昧さを解決するため, バルク誘電体損失を10億ドル当たり5ドル分の感度で分離・解消できる測定方法を開発した。
誘電ディッパーと呼ばれるこの方法は、誘電体試料を高品質マイクロ波共振器モードにその場で挿入することを含む。
試料のキャビティモードへの参加を滑らかに変化させることで、試料の誘電損失タンジェントの差分測定が可能になる。
誘電ディッパーは極低温における誘電体の低消費電力挙動を探究することができ、リソグラフィーのプロセスを必要としないため、基板材料と加工技術の制御的な比較が可能となる。
本研究では, EFG sapphireの測定値を用いて, 62(7) \times 10^{-9}$および12(2) \times 10^{-4}$の基板-空気界面損失接点を推定した。
典型的なトランスモンの場合、このバルク損失はデバイスの品質要因を2000万ドル未満に制限し、サファイア上で最長のトランスモンにおいてバルク損失が支配的な損失メカニズムである可能性が示唆される。
また, この手法をHEMEXサファイア上で実証し, バルク損失接点を15(5) \times 10^{-9}$以下に制限する。
この境界は、EFGサファイアのバルクロスタンジェントより約3倍小さいため、基板としてのHEMEXサファイアの使用は、典型的なトランモン量子ビットのバルク誘電体コヒーレンス限界を数ミリ秒に引き上げる。 Dielectric loss is known to limit state-of-the-art superconducting qubit lifetimes. Recent experiments imply upper bounds on bulk dielectric loss tangents on the order of $100$ parts-per-billion, but because these inferences are drawn from fully fabricated devices with many loss channels, they do not definitively implicate or exonerate the dielectric. To resolve this ambiguity, we have devised a measurement method capable of separating and resolving bulk dielectric loss with a sensitivity at the level of $5$ parts per billion. The method, which we call the dielectric dipper, involves the in-situ insertion of a dielectric sample into a high-quality microwave cavity mode. Smoothly varying the sample's participation in the cavity mode enables a differential measurement of the sample's dielectric loss tangent. The dielectric dipper can probe the low-power behavior of dielectrics at cryogenic temperatures, and does so without the need for any lithographic process, enabling controlled comparisons of substrate materials and processing techniques. We demonstrate the method with measurements of EFG sapphire, from which we infer a bulk loss tangent of $62(7) \times 10^{-9}$ and a substrate-air interface loss tangent of $12(2) \times 10^{-4}$. For a typical transmon, this bulk loss tangent would limit device quality factors to less than $20$ million, suggesting that bulk loss is likely the dominant loss mechanism in the longest-lived transmons on sapphire. We also demonstrate this method on HEMEX sapphire and bound its bulk loss tangent to be less than $15(5) \times 10^{-9}$. As this bound is about 3 times smaller than the bulk loss tangent of EFG sapphire, use of HEMEX sapphire as a substrate would lift the bulk dielectric coherence limit of a typical transmon qubit to several milliseconds. | 翻訳日:2023-05-02 19:59:20 公開日:2023-05-01 |
# 暗黙言語q学習による自然言語生成のためのオフラインrl Offline RL for Natural Language Generation with Implicit Language Q Learning ( http://arxiv.org/abs/2206.11871v2 ) ライセンス: Link先を確認 | Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine | (参考訳) 大規模言語モデルはテキストコーパスから幅広い知識を抽出する。
しかし、ユーザー特定タスクの完了に関しては一貫性がない場合がある。
この問題は、キュレートされたデータセットの教師あり学習や強化学習を通じて、これらのモデルを微調整することで対処できる。
本稿では,言語モデルに適用可能なオフラインrl手法である暗黙的言語q-learning(ilql)を提案する。これは,rlアルゴリズムの柔軟なユーティリティ最大化フレームワークと,以前に収集したデータを活用する教師付き学習機能と,そのシンプルさと安定性を組み合わせたものである。
提案手法は,学習価値関数における暗黙的データセットサポート制約と併用し,ユーザ特定ユーティリティ関数の最大化に向けた言語モデル生成のガイドに使用される。
ilqlの実証的検証に加えて,自然言語生成においてオフラインrlが有効な状況に関する詳細な実証分析を行い,エンド・ツー・エンド対話のアプローチよりも効果的なユーティリティオプティマイザになり得ること,コメントを有毒と分類するか否かなどの主観的判断に基づいて,高分散報酬関数を効果的に最適化できることを実証する。 Large language models distill broad knowledge from text corpora. However, they can be inconsistent when it comes to completing user specified tasks. This issue can be addressed by finetuning such models via supervised learning on curated datasets, or via reinforcement learning. In this work, we propose a novel offline RL method, implicit language Q-learning (ILQL), designed for use on language models, that combines both the flexible utility maximization framework of RL algorithms with the ability of supervised learning to leverage previously collected data, as well as its simplicity and stability. Our method employs a combination of value conservatism alongside an implicit dataset support constraint in learning value functions, which are then used to guide language model generations towards maximizing user-specified utility functions. In addition to empirically validating ILQL, we present a detailed empirical analysis of situations where offline RL can be useful in natural language generation settings, demonstrating how it can be a more effective utility optimizer than prior approaches for end-to-end dialogue, and how it can effectively optimize high variance reward functions based on subjective judgement, such as whether to label a comment as toxic or not. | 翻訳日:2023-05-02 19:57:51 公開日:2023-05-01 |
# バイアス付き委員会によるバイアス付き分類器の学習 Learning Debiased Classifier with Biased Committee ( http://arxiv.org/abs/2206.10843v5 ) ライセンス: Link先を確認 | Nayeong Kim, Sehyun Hwang, Sungsoo Ahn, Jaesik Park, Suha Kwak | (参考訳) ニューラルネットワークは、その一般化能力を損なうトレーニングデータの大部分に現れるクラスと潜在属性の急激な相関に偏りがちである。
本研究では,スプリアス属性のラベルを付けずにデバイアス分類器を訓練する新しい手法を提案する。
鍵となる考え方は、分類器の委員会を補助的なモジュールとして採用することであり、バイアスを伴わないデータ、すなわち素因関係のないデータを識別し、主分類器を訓練する際に大きな重みを割り当てることである。
委員会はブートストラップされたアンサンブルとして学習され、分類者の大多数がバイアスを受けており、多様性があり、従ってバイアスを伴うデータのクラスを意図的に予測できない。
予測難易度委員会内のコンセンサスは、バイアスコンフリクトデータを識別し重み付けするための信頼できる手がかりを提供する。
さらに、委員会は、主分類器から移行した知識を訓練することで、主分類器とともに徐々に偏りを増し、訓練が進むにつれてより困難なデータを強調する。
5つの実世界のデータセットでは、我々のようなスプリアスな属性ラベルを用いず、時にはバイアスラベルに依存するものを超えます。 Neural networks are prone to be biased towards spurious correlations between classes and latent attributes exhibited in a major portion of training data, which ruins their generalization capability. We propose a new method for training debiased classifiers with no spurious attribute label. The key idea is to employ a committee of classifiers as an auxiliary module that identifies bias-conflicting data, i.e., data without spurious correlation, and assigns large weights to them when training the main classifier. The committee is learned as a bootstrapped ensemble so that a majority of its classifiers are biased as well as being diverse, and intentionally fail to predict classes of bias-conflicting data accordingly. The consensus within the committee on prediction difficulty thus provides a reliable cue for identifying and weighting bias-conflicting data. Moreover, the committee is also trained with knowledge transferred from the main classifier so that it gradually becomes debiased along with the main classifier and emphasizes more difficult data as training progresses. On five real-world datasets, our method outperforms prior arts using no spurious attribute label like ours and even surpasses those relying on bias labels occasionally. | 翻訳日:2023-05-02 19:56:59 公開日:2023-05-01 |
# Weisfeiler-Lehmanサブツリー間の$L_1$-近似木編集距離に基づくWassersteinグラフ距離 Wasserstein Graph Distance Based on $L_1$-Approximated Tree Edit Distance between Weisfeiler-Lehman Subtrees ( http://arxiv.org/abs/2207.04216v2 ) ライセンス: Link先を確認 | Zhongxi Fang, Jianming Huang, Xun Su, Hiroyuki Kasai | (参考訳) Weisfeiler-Lehmanテスト(WL)は、グラフカーネル、グラフメトリクス、グラフニューラルネットワークなど、グラフ機械学習で広く使用されているアルゴリズムである。
しかし、グラフの一貫性だけに焦点を当てており、わずかな構造的差異を検出できないことを意味する。
これにより、構造情報をキャプチャする能力が制限され、WLテストに依存する既存のモデルの性能も制限される。
この制限は、WLテストによって定義される伝統的なメトリクスでは特に深刻であり、わずかに構造的な違いを正確に捉えることはできない。
本稿では,WWLS(Wasserstein WL Subtree)距離と呼ばれる新しいグラフ計量を提案し,この問題に対処する。
提案手法では,WLサブツリーをノード近傍の構造情報として利用し,ノードのWLサブツリー間の木編集距離(L_1$-TED)を用いてノードメトリクスを定義する。
その後、WWLS距離を定義するためにワッサースタイン距離と$L_1$-TEDを組み合わせ、従来の測定値を用いて検出することが難しいわずかな構造差を捉えることができる。
提案したWWLS距離は,計量検証およびグラフ分類実験において,ベースラインよりも優れていることを示す。 The Weisfeiler-Lehman (WL) test is a widely used algorithm in graph machine learning, including graph kernels, graph metrics, and graph neural networks. However, it focuses only on the consistency of the graph, which means that it is unable to detect slight structural differences. Consequently, this limits its ability to capture structural information, which also limits the performance of existing models that rely on the WL test. This limitation is particularly severe for traditional metrics defined by the WL test, which cannot precisely capture slight structural differences. In this paper, we propose a novel graph metric called the Wasserstein WL Subtree (WWLS) distance to address this problem. Our approach leverages the WL subtree as structural information for node neighborhoods and defines node metrics using the $L_1$-approximated tree edit distance ($L_1$-TED) between WL subtrees of nodes. Subsequently, we combine the Wasserstein distance and the $L_1$-TED to define the WWLS distance, which can capture slight structural differences that may be difficult to detect using conventional metrics. We demonstrate that the proposed WWLS distance outperforms baselines in both metric validation and graph classification experiments. | 翻訳日:2023-05-02 19:47:53 公開日:2023-05-01 |
# Keypoint-GraspNet:単分子RGB-D入力からのKeypoint-based 6-DoF Grasp生成 Keypoint-GraspNet: Keypoint-based 6-DoF Grasp Generation from the Monocular RGB-D input ( http://arxiv.org/abs/2209.08752v4 ) ライセンス: Link先を確認 | Yiye Chen, Yunzhi Lin, Ruinian Xu, Patricio Vela | (参考訳) ポイントクラウド入力からの6自由度把握学習では大きな成功を収めているが、ポイントセットの無秩序による計算コストは依然として懸念されている。
また,本論文では,RGB-D入力のグリップ生成について検討する。
提案する解であるkeypoint-graspnetは、画像空間におけるグリッパーキーポイントの投影を検出し、pnpアルゴリズムを用いてse(3)のポーズを復元する。
原始的な形状と把握家族に基づく合成データセットを構築し,そのアイデアを検証した。
定量的評価の結果,提案手法の精度,多様性,時間的コストの把握において,提案手法がベースラインを上回っていることが判明した。
最後に、ロボット実験は高い成功率を示し、現実世界の応用におけるアイデアの可能性を示す。 Great success has been achieved in the 6-DoF grasp learning from the point cloud input, yet the computational cost due to the point set orderlessness remains a concern. Alternatively, we explore the grasp generation from the RGB-D input in this paper. The proposed solution, Keypoint-GraspNet, detects the projection of the gripper keypoints in the image space and then recover the SE(3) poses with a PnP algorithm. A synthetic dataset based on the primitive shape and the grasp family is constructed to examine our idea. Metric-based evaluation reveals that our method outperforms the baselines in terms of the grasp proposal accuracy, diversity, and the time cost. Finally, robot experiments show high success rate, demonstrating the potential of the idea in the real-world applications. | 翻訳日:2023-05-02 19:40:26 公開日:2023-05-01 |
# 多モジュールグラフニューラルネットワークのフレキシブル表現による一般化に向けて Towards Better Generalization with Flexible Representation of Multi-Module Graph Neural Networks ( http://arxiv.org/abs/2209.06589v2 ) ライセンス: Link先を確認 | Hyungeun Lee, Kijung Yoon | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの学習と推論を行うように設計されている。
しかし、より大きなグラフにスケールし、out-of-distribution (ood)入力に一般化するためのgnnの基本的な制限を理解するための作業はほとんど行われていない。
本稿では,グラフのサイズと構造がGNNの予測性能に与える影響を,ランダムなグラフ生成器を用いて体系的に検討する。
本稿では,GNNが未確認グラフに一般化できるかどうかを判断する上で,平均ノード次数が重要な特徴であることを示すとともに,複数ノード更新関数を用いることで,マルチモーダル度分布のグラフを扱う場合のGNNの一般化性能を向上させることができることを示す。
そこで本研究では,集約された入力に対して単一の正準非線形変換を一般化することにより,ネットワークが新しいグラフに柔軟に対応可能なマルチモジュールGNNフレームワークを提案する。
その結果,マルチモジュールGNNは多様な構造的特徴の方向に様々な推論タスクのOOD一般化を改善した。 Graph neural networks (GNNs) have become compelling models designed to perform learning and inference on graph-structured data. However, little work has been done to understand the fundamental limitations of GNNs for scaling to larger graphs and generalizing to out-of-distribution (OOD) inputs. In this paper, we use a random graph generator to systematically investigate how the graph size and structural properties affect the predictive performance of GNNs. We present specific evidence that the average node degree is a key feature in determining whether GNNs can generalize to unseen graphs, and that the use of multiple node update functions can improve the generalization performance of GNNs when dealing with graphs of multimodal degree distributions. Accordingly, we propose a multi-module GNN framework that allows the network to adapt flexibly to new graphs by generalizing a single canonical nonlinear transformation over aggregated inputs. Our results show that the multi-module GNNs improve the OOD generalization on a variety of inference tasks in the direction of diverse structural features. | 翻訳日:2023-05-02 19:39:52 公開日:2023-05-01 |
# meta pattern concern score: マルチクラス化のための人的価値を用いた新しい評価尺度 Meta Pattern Concern Score: A Novel Evaluation Measure with Human Values for Multi-classifiers ( http://arxiv.org/abs/2209.06408v2 ) ライセンス: Link先を確認 | Yanyun Wang, Dehui Du, Yuanhao Liu | (参考訳) 高度な分類器は、現実世界の安全クリティカルなアプリケーションでますます使われてきたが、特定の人間的価値に基づいてブラックボックスモデルを適切に評価する方法は、コミュニティの関心事である。
このような人的価値には、様々な度合いで異なる重大さのエラーケースを罰することや、特定の危険なケースを減らすために一般的なパフォーマンスで妥協することが含まれる。
本稿では,確率的予測の抽象的表現と予測信頼度における譲歩の調整可能なしきい値に基づくメタパターン関連スコア(メタパターンスコア)という新しい評価尺度を提案する。
技術的には、混乱行列に基づく評価尺度と損失値の2種類の共通指標の長所と短所から学習し、一般的なタスクでもこれらの指標は有効であり、交差エントロピー損失は限界における我々の指標の特別な場合となる。
また,学習率を動的に調整することで,モデルの訓練を洗練させることも可能である。
4種類のモデルと6つのデータセットを用いた実験により,本尺度の有効性と有効性を確認した。
ケーススタディでは、トレーニング精度の0.04%を犠牲にすることで、0.53%の危険ケースを削減できる理想的なモデルを見つけるだけでなく、学習率を改良して、従来のモデルよりも1.62%低い値と6%少ない危険ケースを平均的に上回るように訓練する。 While advanced classifiers have been increasingly used in real-world safety-critical applications, how to properly evaluate the black-box models given specific human values remains a concern in the community. Such human values include punishing error cases of different severity in varying degrees and making compromises in general performance to reduce specific dangerous cases. In this paper, we propose a novel evaluation measure named Meta Pattern Concern Score based on the abstract representation of probabilistic prediction and the adjustable threshold for the concession in prediction confidence, to introduce the human values into multi-classifiers. Technically, we learn from the advantages and disadvantages of two kinds of common metrics, namely the confusion matrix-based evaluation measures and the loss values, so that our measure is effective as them even under general tasks, and the cross entropy loss becomes a special case of our measure in the limit. Besides, our measure can also be used to refine the model training by dynamically adjusting the learning rate. The experiments on four kinds of models and six datasets confirm the effectiveness and efficiency of our measure. And a case study shows it can not only find the ideal model reducing 0.53% of dangerous cases by only sacrificing 0.04% of training accuracy, but also refine the learning rate to train a new model averagely outperforming the original one with a 1.62% lower value of itself and 0.36% fewer number of dangerous cases. | 翻訳日:2023-05-02 19:39:34 公開日:2023-05-01 |
# 量子混合状態コンパイル Quantum Mixed State Compiling ( http://arxiv.org/abs/2209.00528v2 ) ライセンス: Link先を確認 | Nic Ezzell, Elliott M. Ball, Aliza U. Siddiqui, Mark M. Wilde, Andrew T. Sornborger, Patrick J. Coles, Zo\"e Holmes | (参考訳) 与えられた混合状態を作成するために量子回路を学ぶタスクは、基本的な量子サブルーチンである。
本稿では,短期ハードウェアに適した混合状態を学習するための変分量子アルゴリズム(VQA)を提案する。
本アルゴリズムは、純粋状態のための準備回路の学習を目的とした従来のVQAの一般化を表す。
対象状態のコンパイルには2つの異なるans\"{a}tzeを考える。1つは状態の浄化を学習すること、もう1つは純粋状態の凸結合として表現することである。
どちらの場合も、コンパイルされた状態の保存と操作に必要なリソースは近似のランクで増加する。
したがって、対象状態の下位近似を学習することにより、より効率的な処理のために状態を圧縮する方法を提供する。
アルゴリズムの副産物として、ターゲット状態の主成分を効果的に学習し、そのアルゴリズムはさらに主成分分析の新しい方法を提供する。
提案アルゴリズムの有効性を数値解析により検証し,多くの身体系の典型的ランダム状態と熱状態がこの方法で学習可能であることを示す。
さらに,量子ハードウェア上では,ハードウェアノイズ誘起状態の研究にアルゴリズムをどのように利用できるかを実証する。 The task of learning a quantum circuit to prepare a given mixed state is a fundamental quantum subroutine. We present a variational quantum algorithm (VQA) to learn mixed states which is suitable for near-term hardware. Our algorithm represents a generalization of previous VQAs that aimed at learning preparation circuits for pure states. We consider two different ans\"{a}tze for compiling the target state; the first is based on learning a purification of the state and the second on representing it as a convex combination of pure states. In both cases, the resources required to store and manipulate the compiled state grow with the rank of the approximation. Thus, by learning a lower rank approximation of the target state, our algorithm provides a means of compressing a state for more efficient processing. As a byproduct of our algorithm, one effectively learns the principal components of the target state, and hence our algorithm further provides a new method for principal component analysis. We investigate the efficacy of our algorithm through extensive numerical implementations, showing that typical random states and thermal states of many body systems may be learnt this way. Additionally, we demonstrate on quantum hardware how our algorithm can be used to study hardware noise-induced states. | 翻訳日:2023-05-02 19:38:06 公開日:2023-05-01 |
# 模倣学習による反復文書レベルの情報抽出 Iterative Document-level Information Extraction via Imitation Learning ( http://arxiv.org/abs/2210.06600v3 ) ライセンス: Link先を確認 | Yunmo Chen, William Gantt, Weiwei Gu, Tongfei Chen, Aaron Steven White, Benjamin Van Durme | (参考訳) 文書内の複雑な関係やテンプレート(名前付きスロットからテキストのスパンへのマッピングを表すn-タプル)を抽出するための,新しい反復抽出モデルであるiterxを提案する。
ドキュメントは、任意のタイプのテンプレートの0以上のインスタンスを特徴付けることができ、テンプレート抽出のタスクは、ドキュメント内のテンプレートを識別し、各テンプレートのスロット値を抽出する。
我々の模倣学習アプローチはマルコフ決定過程(MDP)としてこの問題を提起し、抽出器の訓練に予め定義されたテンプレート命令を使う必要をなくす。
これにより、scirexの4項関係抽出とmuc-4のテンプレート抽出という2つの確立されたベンチマークの最先端の結果と、新しい粒度タスクにおける強力なベースラインが得られた。 We present a novel iterative extraction model, IterX, for extracting complex relations, or templates (i.e., N-tuples representing a mapping from named slots to spans of text) within a document. Documents may feature zero or more instances of a template of any given type, and the task of template extraction entails identifying the templates in a document and extracting each template's slot values. Our imitation learning approach casts the problem as a Markov decision process (MDP), and relieves the need to use predefined template orders to train an extractor. It leads to state-of-the-art results on two established benchmarks -- 4-ary relation extraction on SciREX and template extraction on MUC-4 -- as well as a strong baseline on the new BETTER Granular task. | 翻訳日:2023-05-02 19:30:50 公開日:2023-05-01 |
# 対人ロバストネスのための視覚プロンプト Visual Prompting for Adversarial Robustness ( http://arxiv.org/abs/2210.06284v4 ) ライセンス: Link先を確認 | Aochuan Chen, Peter Lorenz, Yuguang Yao, Pin-Yu Chen, Sijia Liu | (参考訳) 本研究では,視覚プロンプト(vp)を利用して,テスト時の固定された事前学習モデルの敵対的ロバスト性を改善する。
従来の敵対的防御と比べて、vpは、多くの計算オーバーヘッドを導入することなく、望ましいモデルパフォーマンスを達成するためにテスト時にプラグアンドプレイ機能を持つユニバーサル(データ非依存)入力プロンプトテンプレートを設計することができます。
VPはモデル一般化の改善に成功しているが、それが敵の攻撃に対する防御にどのように使用できるかは解明されていない。
本稿では,バニラVPアプローチが,サンプル特異的な対向的摂動に対する頑健な学習能力に欠けるため,対向防御に有効でないことを示す。
これを回避するために,クラスワイド・アドバイザリ・ビジュアル・プロンプト(C-AVP)と呼ばれる新しいVP手法を提案し,アンサンブル・プロンプトの強みを利用するだけでなく,それらの相互関係を最適化してモデルロバスト性を向上させる。
実験の結果,C-AVPは標準精度2.1倍,頑健さ2倍の精度で従来のVP法より優れていた。
古典的なテストタイムディフェンスと比較すると、C-AVPは42倍の推論タイムスピードアップをもたらす。 In this work, we leverage visual prompting (VP) to improve adversarial robustness of a fixed, pre-trained model at testing time. Compared to conventional adversarial defenses, VP allows us to design universal (i.e., data-agnostic) input prompting templates, which have plug-and-play capabilities at testing time to achieve desired model performance without introducing much computation overhead. Although VP has been successfully applied to improving model generalization, it remains elusive whether and how it can be used to defend against adversarial attacks. We investigate this problem and show that the vanilla VP approach is not effective in adversarial defense since a universal input prompt lacks the capacity for robust learning against sample-specific adversarial perturbations. To circumvent it, we propose a new VP method, termed Class-wise Adversarial Visual Prompting (C-AVP), to generate class-wise visual prompts so as to not only leverage the strengths of ensemble prompts but also optimize their interrelations to improve model robustness. Our experiments show that C-AVP outperforms the conventional VP method, with 2.1X standard accuracy gain and 2X robust accuracy gain. Compared to classical test-time defenses, C-AVP also yields a 42X inference time speedup. | 翻訳日:2023-05-02 19:29:52 公開日:2023-05-01 |
# 可読性制御可能な生体医学文書要約 Readability Controllable Biomedical Document Summarization ( http://arxiv.org/abs/2210.04705v3 ) ライセンス: Link先を確認 | Zheheng Luo, Qianqian Xie, Sophia Ananiadou | (参考訳) 一般的な文献と異なり、生物医学的文書の高度に技術的な性質と読者のドメイン知識のばらつきから、人々が生物医学的文書を理解することの容易さが著しく異なることが認識されている。
しかし、既存のバイオメディカル文書要約システムは可読性制御にはほとんど注意を払わず、ユーザーは専門知識のレベルと相容れない要約を持つ。
そこで我々は,この緊急要求を認識し,利用者の可読性要求を認識し,ニーズに合致したサマリーを生成することを目的とした,生物医学文献の可読性制御可能なサマリ化に関する新しい課題を紹介する。
そこで本研究では,著者らが執筆した技術要約とplsを備えた生物医学論文からなるコーパスを構築し,事前学習言語モデル(plm)に基づく多元的な制御可能な抽象的・抽出的要約モデルのベンチマークを行った。
さらに,新しいマスキング言語モデル(MLM)に基づくメトリクスとその変種を提案し,レイとテクニカルの要約の可読性差を効果的に評価する。
自動および人為的評価による実験の結果,現在の制御手法では生成時にある程度の可読性調整が可能であるが,既存の制御可能な要約手法の性能は望ましいものとはほど遠いことがわかった。 Different from general documents, it is recognised that the ease with which people can understand a biomedical text is eminently varied, owing to the highly technical nature of biomedical documents and the variance of readers' domain knowledge. However, existing biomedical document summarization systems have paid little attention to readability control, leaving users with summaries that are incompatible with their levels of expertise. In recognition of this urgent demand, we introduce a new task of readability controllable summarization for biomedical documents, which aims to recognise users' readability demands and generate summaries that better suit their needs: technical summaries for experts and plain language summaries (PLS) for laymen. To establish this task, we construct a corpus consisting of biomedical papers with technical summaries and PLSs written by the authors, and benchmark multiple advanced controllable abstractive and extractive summarization models based on pre-trained language models (PLMs) with prevalent controlling and generation techniques. Moreover, we propose a novel masked language model (MLM) based metric and its variant to effectively evaluate the readability discrepancy between lay and technical summaries. Experimental results from automated and human evaluations show that though current control techniques allow for a certain degree of readability adjustment during generation, the performance of existing controllable summarization methods is far from desirable in this task. | 翻訳日:2023-05-02 19:29:16 公開日:2023-05-01 |
# デコヒーレンス下での対称性保護位相相 Symmetry protected topological phases under decoherence ( http://arxiv.org/abs/2210.16323v3 ) ライセンス: Link先を確認 | Jong Yeon Lee, Yi-Zhuang You, and Cenke Xu | (参考訳) 様々な種類のデコヒーレンスの下で対称性保護トポロジカル位相(SPT)のクラスについて検討し、純粋なSPT状態を混合状態に駆動する。
本研究では,SPT基底状態からの非自明な位相情報をデコヒーレンスの下でも保持できることを実証する。
そこで本研究では,SPT基底状態の診断法として提案された<strange correlator>を,混合状態密度行列に対する奇妙な相関器の概念を一般化する。
安定化器ハミルトニアンの正確な計算と場の理論評価の両方を用いて、SPT状態の非自明な特徴をデコヒーレンスの下では、タイプIとタイプIIの2種類の奇妙な相関子に持続することができることを示した。
非自明なタイプI奇数相関器は実験から効率的に同定できるSPT情報の存在に対応していることを示す。
非自明なタイプIIの奇妙な相関器は、密度行列における元のSPT情報の存在に対応しており、これは原則としてSPTと自明な状態のデコヒード混合状態を識別することができる。
そこで本稿では,情報理論の観点からSPT位相のデコヒーレントを理解するための統一的なフレームワークを提案する。 We study a class of symmetry protected topological (SPT) phases under various types of decoherence, which can drive a pure SPT state into a mixed state. We demonstrate that the system can still retain the nontrivial topological information from the SPT ground state even under decoherence. The main quantity that we investigate is the ``strange correlator" proposed previously as a diagnosis for the SPT ground states, and in this work, we generalize the notion of the strange correlator to mixed-state density matrices. Using both exact calculations of the stabilizer Hamiltonians and field theory evaluations, we demonstrate that under decoherence the nontrivial features of the SPT state can persist in the two types of strange correlators: type-I and type-II. We show that the nontrivial type-I strange correlator corresponds to the presence of the SPT information that can be efficiently identified from experiments. The nontrivial type-II strange correlator corresponds to the presence of the original SPT information in the density matrix, which in principle can be identified to distinguish decohered mixed states of an SPT and trivial states. Therefore, our work provides a unified framework to understand decohered SPT phases from the information-theoretic viewpoint. | 翻訳日:2023-05-02 19:21:45 公開日:2023-05-01 |
# 急激な差別化を伴う微分計画のスケールアップと安定化 Scaling up and Stabilizing Differentiable Planning with Implicit Differentiation ( http://arxiv.org/abs/2210.13542v3 ) ライセンス: Link先を確認 | Linfeng Zhao, Huazhe Xu, Lawson L.S. Wong | (参考訳) 異なるプランニングはエンドツーエンドの差別性と適応性を約束します。
しかし、この問題は、前方の反復層を通じてグラデーションを計算し、前方の計算と後方の伝播を混在させ、前方のプランナーのパフォーマンスと後方のパスの計算コストのバランスをとる必要があるという、より大規模な問題へのスケールアップを妨げている。
この問題を緩和するために,我々はベルマンの不動点方程式を用いて,バリューイテレーションネットワークとその変種に対する前方・後方パスを分離し,一定の後方コスト(計画的地平線)と柔軟な前方予算を実現するとともに,大規模タスクへのスケールアップを支援することを提案する。
提案する暗黙のバージョンであるvinとその派生品の収束安定性,スケーラビリティ,効率について検討し,構成空間と作業空間における2dof操作と2dナビゲーション,視覚ナビゲーションなど,様々な計画タスクにおいてその優位性を実証した。 Differentiable planning promises end-to-end differentiability and adaptivity. However, an issue prevents it from scaling up to larger-scale problems: they need to differentiate through forward iteration layers to compute gradients, which couples forward computation and backpropagation, and needs to balance forward planner performance and computational cost of the backward pass. To alleviate this issue, we propose to differentiate through the Bellman fixed-point equation to decouple forward and backward passes for Value Iteration Network and its variants, which enables constant backward cost (in planning horizon) and flexible forward budget and helps scale up to large tasks. We study the convergence stability, scalability, and efficiency of the proposed implicit version of VIN and its variants and demonstrate their superiorities on a range of planning tasks: 2D navigation, visual navigation, and 2-DOF manipulation in configuration space and workspace. | 翻訳日:2023-05-02 19:20:47 公開日:2023-05-01 |
# テンソル完了によるマルチパラメータ性能モデリング Multi-Parameter Performance Modeling via Tensor Completion ( http://arxiv.org/abs/2210.10184v2 ) ライセンス: Link先を確認 | Edward Hutter and Edgar Solomonik | (参考訳) パフォーマンスチューニング、ソフトウェア/ハードウェアの共同設計、ジョブスケジューリングは、アプリケーションパフォーマンスを予測するモデルに依存する多くのタスクの1つです。
アプリケーションの性能をモデル化するための低階テンソル分解法を提案し評価する。
通常のグリッドを用いてアプリケーションの入力領域と設定領域を識別する。
グリッドセル内でマップされたアプリケーション実行時間は平均化され、テンソル要素によって表現される。
これらのテンソルの近似には,低ランクカノニカル・ポリディクス(CP)テンソル分解が有効であることを示す。
さらに、この分解により、アプリケーションのパラメータ空間の未観測領域の正確な外挿が可能になることを示す。
次に、観測ランタイムのスパースセットが与えられた場合のCP分解を最適化するためにテンソル補完を用いる。
我々は,6つのアプリケーションに対して,分割/グリッドベースモデルと教師付き学習モデルを検討するとともに,テンソル補完により最適化されたcp分解が,高い予測精度と高次元アプリケーションにおけるメモリ効率をもたらすことを実証する。 Performance tuning, software/hardware co-design, and job scheduling are among the many tasks that rely on models to predict application performance. We propose and evaluate low rank tensor decomposition for modeling application performance. We discretize the input and configuration domain of an application using regular grids. Application execution times mapped within grid-cells are averaged and represented by tensor elements. We show that low-rank canonical-polyadic (CP) tensor decomposition is effective in approximating these tensors. We further show that this decomposition enables accurate extrapolation of unobserved regions of an application's parameter space. We then employ tensor completion to optimize a CP decomposition given a sparse set of observed runtimes. We consider alternative piecewise/grid-based models and supervised learning models for six applications and demonstrate that CP decomposition optimized using tensor completion offers higher prediction accuracy and memory-efficiency for high-dimensional applications. | 翻訳日:2023-05-02 19:19:47 公開日:2023-05-01 |
# 構文対応オンザフライコード補完 Syntax-Aware On-the-Fly Code Completion ( http://arxiv.org/abs/2211.04673v2 ) ライセンス: Link先を確認 | Wannita Takerngsaksiri, Chakkrit Tantithamthavorn, and Yuan-Fang Li | (参考訳) コード補完は、与えられたコンテキストから次のコードトークンを提案することで、開発者の生産性を向上させることを目的としている。
モデルトレーニングにabstract syntax tree(ast)情報を組み込むことで、コード補完がプログラミング言語の構文を認識することを保証する様々なアプローチが提案されている。
しかし、既存の構文を意識したコード補完アプローチは、開発者がタイプするキャラクタの3分の2ごとに、ASTは構文的に正しいソースコードを必要とするため、実際のシナリオでの実用性を制限するため、抽出できません。
一方、既存のオンザフライのコード補完はまだ構文情報を考慮していない。
本稿では,ソースコードの自然な順序と容易に対応可能な,軽量な構文情報の一種であるトークン型を活用するために,pycoderを提案する。
私たちのPyCoderはマルチタスクのトレーニング方法でトレーニングされており、トレーニングフェーズ中にトークンタイプを予測するサポートタスクを学ぶことで、推論フェーズでトークンタイプを必要とせずにトークンやコード行を予測する上で、より優れたパフォーマンスを実現します。
総合的な実験により、pycoder は 77.12% の精度で codexglue leaderboard の第一ランクを達成し、これはベースラインよりも 0.43%-24.25% 正確である。
さらに、PyCoderは、ベースラインよりも3.63%-84.73%正確であるラインレベルの予測に対して43.37%の精度で一致している。
これらの結果から,過去にはほとんど使われなかったトークン型情報(構文情報に代わるもの)は,ASTベースのアプローチのような構文的に正しいソースコードを必要とすることなく,コード補完アプローチの性能を大幅に向上させることができる,という結論に至った。
当社のpycoderはhuggingfaceとgithubで公開されている。 Code completion aims to help improve developers' productivity by suggesting the next code tokens from a given context. Various approaches have been proposed to incorporate abstract syntax tree (AST) information for model training, ensuring that code completion is aware of the syntax of the programming languages. However, existing syntax-aware code completion approaches are not on-the-fly, as we found that for every two-thirds of characters that developers type, AST fails to be extracted because it requires the syntactically correct source code, limiting its practicality in real-world scenarios. On the other hand, existing on-the-fly code completion does not consider syntactic information yet. In this paper, we propose PyCoder to leverage token types, a kind of lightweight syntactic information, which is readily available and aligns with the natural order of source code. Our PyCoder is trained in a multi-task training manner so that by learning the supporting task of predicting token types during the training phase, the models achieve better performance on predicting tokens and lines of code without the need for token types in the inference phase. Comprehensive experiments show that PyCoder achieves the first rank on the CodeXGLUE leaderboard with an accuracy of 77.12% for the token-level predictions, which is 0.43%-24.25% more accurate than baselines. In addition, PyCoder achieves an exact match of 43.37% for the line-level predictions, which is 3.63%-84.73% more accurate than baselines. These results lead us to conclude that token type information (an alternative to syntactic information) that is rarely used in the past can greatly improve the performance of code completion approaches, without requiring the syntactically correct source code like AST-based approaches do. Our PyCoder is publicly available on HuggingFace and GitHub. | 翻訳日:2023-05-02 19:11:38 公開日:2023-05-01 |
# 非負行列分解による汚染画像の復元 Contaminated Images Recovery by Implementing Non-negative Matrix Factorisation ( http://arxiv.org/abs/2211.04247v4 ) ライセンス: Link先を確認 | Pengwei Yang, Chongyangzi Teng and Jack George Mangos | (参考訳) 非負行列分解(NMF)は画像データの劣化問題に広く応用されている。
標準NMFアプローチは、データ行列と分解近似の間のユークリッド距離を最小化する。
従来のNMF技術は、この手法が有効であることが証明されたにもかかわらず、各データポイントの2乗誤差を利用するため、外れ値に敏感である。
本研究では,従来のNMF,HCNMF,L2,1-NMFアルゴリズムのロバスト性を理論的に検討し,ORLおよび拡張YaleBデータセットのロバスト性を示す実験セットを実行する。
我々の研究は、各アルゴリズムが収束するのに異なる回数の反復を必要とすることを示している。
これらのアプローチの計算コストのため、hcnmfやl2,1-nmfモデルのような最終的なモデルは、この作業のイテレーションパラメータ内に収束しない。
それでも、実験結果は、ある程度は、前述の技術の堅牢性を示している。 Non-negative matrix factorisation (NMF) has been extensively applied to the problem of corrupted image data. Standard NMF approach minimises Euclidean distance between data matrix and factorised approximation. The traditional NMF technique is sensitive to outliers since it utilises the squared error of each data point, despite the fact that this method has proven effective. In this study, we theoretically examine the robustness of the traditional NMF, HCNMF, and L2,1-NMF algorithms and execute sets of experiments to demonstrate the robustness on ORL and Extended YaleB datasets. Our research indicates that each algorithm requires a different number of iterations to converge. Due to the computational cost of these approaches, our final models, such as the HCNMF and L2,1-NMF model, fail to converge within the iteration parameters of this work. Nonetheless, the experimental results illustrate, to some extent, the robustness of the aforementioned techniques. | 翻訳日:2023-05-02 19:11:06 公開日:2023-05-01 |
# 動的てんかん論理におけるエージェントの変化と説明的信念 Changing agents and ascribing beliefs in dynamic epistemic logic ( http://arxiv.org/abs/2211.02452v4 ) ライセンス: Link先を確認 | Shikha Singh, Kamal Lodaya and Deepak Khemani | (参考訳) 動的てんかん論理(Van Ditmarsch, Van Der Hoek, & Kooi, 2008)では、アクションフレーム(Baltag & Moss, 2004; Baltag, Moss, & Solecki, 1998)を使用して単一のアクションの異なるビューを記述するのが慣例である。
本稿では、アクションフレームを拡張してエージェントの追加や削除を行い、エージェント更新フレームと呼ぶ。
これは、baltag and moss(2004年)、sakama(2015年)、van ditmarsch、van eijck、sietsma、wang(2012年)によって研究されたプライベートアップデートやデセプションなど、いくつかの興味深い例をモデル化するために使用できる。
アクションフレームによるkripkeモデルの製品更新は、アクションの実行結果である変換されたkripkeモデルを記述するための省略された方法である。
これは、新しい設定におけるエージェント更新フレームによって、クリプキモデルの総積更新に実質的に拡張される。
これらのアイデアは、ストーリーをモデル化するAI問題に適用されます。
エージェント更新フレームをベースとした動的エピステマティックロジックの更新は,引き続き健全かつ完全な証明システムを有することを示す。
モデル検査と満足度の決定手順は複雑さを期待している。
部分言語には多項式空間アルゴリズムがある。 In dynamic epistemic logic (Van Ditmarsch, Van Der Hoek, & Kooi, 2008) it is customary to use an action frame (Baltag & Moss, 2004; Baltag, Moss, & Solecki, 1998) to describe different views of a single action. In this article, action frames are extended to add or remove agents, we call these agent-update frames. This can be done selectively so that only some specified agents get information of the update, which can be used to model several interesting examples such as private update and deception, studied earlier by Baltag and Moss (2004); Sakama (2015); Van Ditmarsch, Van Eijck, Sietsma, and Wang (2012). The product update of a Kripke model by an action frame is an abbreviated way of describing the transformed Kripke model which is the result of performing the action. This is substantially extended to a sum-product update of a Kripke model by an agent-update frame in the new setting. These ideas are applied to an AI problem of modelling a story. We show that dynamic epistemic logics, with update modalities now based on agent-update frames, continue to have sound and complete proof systems. Decision procedures for model checking and satisfiability have expected complexity. For a sublanguage, there are polynomial space algorithms. | 翻訳日:2023-05-02 19:10:51 公開日:2023-05-01 |
# 量子の絡み合いのない古典光学で説明されるベルテスト Comment on: Bell tests explained by classical optics without quantum entanglement ( http://arxiv.org/abs/2211.01068v6 ) ライセンス: Link先を確認 | Richard D. Gill | (参考訳) 2021年に『物理エッセイ』誌に掲載された論文で、著者のD.L. Mamasは「偏光子と偏光子の電場が偏光子と整列する成分を通して偏光子と相互作用する。この成分は偏光子が回転する角度のコサインとして変化し、ベル試験データで観測されるコサインを説明する。量子力学は不要であり、役に立たない。」と書いている。
ママの言うとおり、この物理モデルでは負のコサインが観察される。
しかし、コサイン曲線の振幅は50%ではなく100%であり、その結果ベル-CHSHの不等式に反することはない。
ママズの物理モデルは古典的な局所隠れ変数モデルである。
この結果はモンテカルロシミュレーションによって示される。 In a paper published in the journal Physics Essays in 2021, the author D.L. Mamas writes "A polarized photon interacts with a polarizer through the component of the photon's electric field which is aligned with the polarizer. This component varies as the cosine of the angle through which the polarizer is rotated, explaining the cosine observed in Bell test data. Quantum mechanics is unnecessary and plays no role". Mamas is right that according to this physical model, one will observe a negative cosine. However, the amplitude of the cosine curve is 50%, not 100%, and it consequently does not violate any Bell-CHSH inequality. Mamas' physical model is a classic local hidden variables model. The result is illustrated with a Monte Carlo simulation. | 翻訳日:2023-05-02 19:10:27 公開日:2023-05-01 |
# バイノーラル音声レンダリングのためのニューラルフーリエシフト Neural Fourier Shift for Binaural Speech Rendering ( http://arxiv.org/abs/2211.00878v2 ) ライセンス: Link先を確認 | Jin Woo Lee, Kyogu Lee | (参考訳) そこで本研究では,音源の音質,位置,方向からバイノーラル音声を生成するニューラルネットワークを提案する。
これまでの研究のほとんどは、畳み込みニューラルネットワークの特徴空間の位置と向きを条件付けしてバイノーラルスピーチの合成に焦点を当てている。
これらの合成手法は,帯域内データにおいてもターゲットバイノーラル音声の推定に有効であるが,分布外領域からの音声のレンダリングでは一般化が難しい。
そこで本研究では,フーリエ空間におけるバイノーラル音声のレンダリングを可能にする新しいネットワークアーキテクチャであるneural fourier shift (nfs)を提案する。
具体的には、ソースと受信機の距離に基づいて幾何学的な時間遅延を利用して、NFSは様々な初期反射の遅延とスケールを予測するように訓練される。
NFSはメモリと計算コストの両方で効率的であり、解釈可能であり、その設計によってソースドメインとは独立して動作する。
実験の結果、NFSは25倍の軽量メモリと6倍の計算量を持つベンチマークデータセットに匹敵する性能を示した。 We present a neural network for rendering binaural speech from given monaural audio, position, and orientation of the source. Most of the previous works have focused on synthesizing binaural speeches by conditioning the positions and orientations in the feature space of convolutional neural networks. These synthesis approaches are powerful in estimating the target binaural speeches even for in-the-wild data but are difficult to generalize for rendering the audio from out-of-distribution domains. To alleviate this, we propose Neural Fourier Shift (NFS), a novel network architecture that enables binaural speech rendering in the Fourier space. Specifically, utilizing a geometric time delay based on the distance between the source and the receiver, NFS is trained to predict the delays and scales of various early reflections. NFS is efficient in both memory and computational cost, is interpretable, and operates independently of the source domain by its design. Experimental results show that NFS performs comparable to the previous studies on the benchmark dataset, even with its 25 times lighter memory and 6 times fewer calculations. | 翻訳日:2023-05-02 19:10:09 公開日:2023-05-01 |
# scenegate:テキストビジュアル質問応答のためのシーングラフベースのコアテンションネットワーク SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering ( http://arxiv.org/abs/2212.08283v2 ) ライセンス: Link先を確認 | Feiqi Cao, Siwen Luo, Felipe Nunez, Zean Wen, Josiah Poon, Caren Han | (参考訳) TextVQAのアプローチのほとんどは、単純なトランスフォーマーエンコーダによるオブジェクト、シーンテキスト、質問ワードの統合に焦点を当てている。
しかし、これは異なるモダリティ間の意味的関係をとらえることができない。
本稿では,テキストVQAのためのScene Graphベースのコ・アテンション・ネットワーク(SceneGATE)を提案し,オブジェクト間の意味的関係,光学文字認識(OCR)トークン,質問語について述べる。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
我々は、モーダル間相互作用のガイダンスとして、言語と視覚の間のモーダル内相互作用を捉えるガイド付きアテンションモジュールを開発した。
この2つのモダリティの関係を明確化するために,シーングラフに基づく意味関係認識注意と位置関係認識注意という2つの注意モジュールを提案し,統合した。
我々は2つのベンチマークデータセットであるText-VQAとST-VQAについて広範な実験を行った。
SceneGATE法はシーングラフとそのアテンションモジュールにより既存の手法よりも優れていた。 Most TextVQA approaches focus on the integration of objects, scene texts and question words by a simple transformer encoder. But this fails to capture the semantic relations between different modalities. The paper proposes a Scene Graph based co-Attention Network (SceneGATE) for TextVQA, which reveals the semantic relations among the objects, Optical Character Recognition (OCR) tokens and the question words. It is achieved by a TextVQA-based scene graph that discovers the underlying semantics of an image. We created a guided-attention module to capture the intra-modal interplay between the language and the vision as a guidance for inter-modal interactions. To make explicit teaching of the relations between the two modalities, we proposed and integrated two attention modules, namely a scene graph-based semantic relation-aware attention and a positional relation-aware attention. We conducted extensive experiments on two benchmark datasets, Text-VQA and ST-VQA. It is shown that our SceneGATE method outperformed existing ones because of the scene graph and its attention modules. | 翻訳日:2023-05-02 19:01:06 公開日:2023-05-01 |
# CLIPascene: 抽象化のタイプとレベルが異なるScene Sketching CLIPascene: Scene Sketching with Different Types and Levels of Abstraction ( http://arxiv.org/abs/2211.17256v2 ) ライセンス: Link先を確認 | Yael Vinker, Yuval Alaluf, Daniel Cohen-Or, Ariel Shamir | (参考訳) 本稿では,与えられたシーン画像を異なるタイプと複数の抽象レベルを用いてスケッチに変換する手法を提案する。
我々は2種類の抽象概念を区別する。
1つ目はスケッチの忠実さを考慮し、入力のより正確な描写からよりゆるやかな描写へと表現を変化させる。
2つ目はスケッチの視覚的単純さによって定義され、詳細な描写からまばらなスケッチへと移行している。
2つの抽象軸 - と1つの複数のレベル - に明示的な分離を使用することで、ユーザは自身の目標と好みに基づいて、希望するスケッチを選択することができる。
与えられた忠実度と単純化のレベルでスケッチを形成するために、2つのMLPネットワークを訓練する。
第1のネットワークは、所望のストロークの位置を学習し、第2のネットワークは、認識性や意味論を損なうことなく、スケッチから徐々にストロークを取り除くことを学習する。
私たちのアプローチは、複雑な背景(自然環境や都市環境など)や主題(動物や人間など)を含む複雑なシーンのスケッチを生成し、忠実さやシンプルさの観点から入力シーンの段階的な抽象化を描きます。 In this paper, we present a method for converting a given scene image into a sketch using different types and multiple levels of abstraction. We distinguish between two types of abstraction. The first considers the fidelity of the sketch, varying its representation from a more precise portrayal of the input to a looser depiction. The second is defined by the visual simplicity of the sketch, moving from a detailed depiction to a sparse sketch. Using an explicit disentanglement into two abstraction axes -- and multiple levels for each one -- provides users additional control over selecting the desired sketch based on their personal goals and preferences. To form a sketch at a given level of fidelity and simplification, we train two MLP networks. The first network learns the desired placement of strokes, while the second network learns to gradually remove strokes from the sketch without harming its recognizability and semantics. Our approach is able to generate sketches of complex scenes including those with complex backgrounds (e.g., natural and urban settings) and subjects (e.g., animals and people) while depicting gradual abstractions of the input scene in terms of fidelity and simplicity. | 翻訳日:2023-05-02 19:00:01 公開日:2023-05-01 |
# Twitterボット検出のためのベンチマークデータセットの有用性を制限するシンプルコレクションとラベル付けの実践 Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twitter Bot Detection ( http://arxiv.org/abs/2301.07015v2 ) ライセンス: Link先を確認 | Chris Hays, Zachary Schutzman, Manish Raghavan, Erin Walk and Philipp Zimmer | (参考訳) オンラインプラットフォームの安全性と整合性には、正確なボット検出が必要である。
また、選挙におけるボットの影響、誤情報の拡散、金融市場の操作に関する研究にも重要である。
プラットフォームは自動アカウントのフラグや削除のためにインフラストラクチャをデプロイするが、ツールやデータは公開されていない。
したがって、大衆はサードパーティのボット検出に頼らなければならない。
これらのツールは機械学習を採用し、既存のデータセットの分類にほぼ完璧に近い性能を達成し、ボット検出が正確で信頼性があり、下流アプリケーションでの使用に適していることを示唆する。
ツールの高度化よりも,データセットの収集やラベル付けの制限によるパフォーマンスの向上が寄与していることを示す証拠を提供する。
具体的には、少数の機能でトレーニングされた浅い決定木である単純な決定ルールが、ほとんどの利用可能なデータセットで最先端のパフォーマンスを実現し、組み合わせてもボット検出データセットは、サンプル外のデータセットにうまく一般化しないことを示す。
その結果,ボットと人間の基本的な違いよりも,データセットの収集とラベル付けの手順に大きく依存していることが判明した。
これらの結果は、サンプリングおよびラベリング手順の透明性と、既存のボット検出ツールを用いた研究における潜在的なバイアスの両方に重要な意味を持つ。 Accurate bot detection is necessary for the safety and integrity of online platforms. It is also crucial for research on the influence of bots in elections, the spread of misinformation, and financial market manipulation. Platforms deploy infrastructure to flag or remove automated accounts, but their tools and data are not publicly available. Thus, the public must rely on third-party bot detection. These tools employ machine learning and often achieve near perfect performance for classification on existing datasets, suggesting bot detection is accurate, reliable and fit for use in downstream applications. We provide evidence that this is not the case and show that high performance is attributable to limitations in dataset collection and labeling rather than sophistication of the tools. Specifically, we show that simple decision rules -- shallow decision trees trained on a small number of features -- achieve near-state-of-the-art performance on most available datasets and that bot detection datasets, even when combined together, do not generalize well to out-of-sample datasets. Our findings reveal that predictions are highly dependent on each dataset's collection and labeling procedures rather than fundamental differences between bots and humans. These results have important implications for both transparency in sampling and labeling procedures and potential biases in research using existing bot detection tools for pre-processing. | 翻訳日:2023-05-02 18:54:32 公開日:2023-05-01 |
# 機械学習を用いたALSデータと空中CIR画像の複合化による倒木ステージの自動分類 Automatic Classification of Single Tree Decay Stages from Combined ALS Data and Aerial CIR Imagery using Machine Learning ( http://arxiv.org/abs/2301.01841v2 ) ライセンス: Link先を確認 | Tsz Chung Wong, Abubakar Sani-Mohammed, Wei Yao, Marco Heurich | (参考訳) 森林の健康を理解することは森林生態系の保全にとって非常に重要である。
したがって、森林の健康状態のモニタリングは、森林の長期保存と持続可能な管理に不可欠である。
この点において, 死木材の量と品質を評価することは, 生物多様性の指標として好まれる。
リモートセンシングに基づく技術は、森林の在庫が前例のない正確さでより効率的で持続可能であることが証明されている。
しかし、これらの技術の適用は、死んだ木材のマッピングに関してはまだ初期段階にある。
本研究では,機械学習を用いた空中レーザスキャンデータとカラー赤外画像の組み合わせから,個々の針葉樹を5つの崩壊段階(ライブ, 劣化, 死, 樹皮, クリーニング)に自動分類した。
まず、ALS点雲とカラー赤外線画像とを融合させてCIR色化した点雲を生成する。
次に、彩色点雲を用いて、半自動的なアプローチで個々の木分画を行い、さらに2dで木の側面図を表示する4つの直交平面に投影する。
最後に、3つの機械学習アルゴリズムを用いてマルチスペクトル点雲と投影画像上で分類を行う。
すべてのモデルで有望な結果が得られ、cnn、rf、pointnetの合計精度(oa)は90.9%、90.6%、80.6%に達した。
実験の結果,画像ベースのアプローチは点クラウドベースの手法を著しく上回り,スペクトル画像のテクスチャは樹木の崩壊を分類する成功に最も寄与することが明らかとなった。
そこで本モデルでは, 樹木の崩壊段階の自動決定と, 近代的空中リモートセンシングによる枯木量, 品質のランドスケープな評価に利用することができる。 Understanding forest health is of great importance for the conservation of the integrity of forest ecosystems. The monitoring of forest health is, therefore, indispensable for the long-term conservation of forests and their sustainable management. In this regard, evaluating the amount and quality of dead wood is of utmost interest as they are favorable indicators of biodiversity. Apparently, remote sensing-based techniques have proven to be more efficient and sustainable with unprecedented accuracy in forest inventory. However, the application of these techniques is still in its infancy with respect to dead wood mapping. This study investigates for the first time the automatic classification of individual coniferous trees into five decay stages (live, declining, dead, loose bark, and clean) from combined airborne laser scanning data and color infrared images using Machine Learning methods. First, CIR colorized point clouds are created by fusing the ALS point clouds and the color infrared images. Then, with the colorized point cloud, individual tree segmentation is conducted using a semi-automatic approach, which are further projected onto four orthogonal planes displaying the side views of the trees in 2D. Finally, the classification is conducted on the multispectral point clouds and projected images using the three Machine Learning algorithms. All models achieved promising results, reaching overall accuracy (OA) of up to 90.9%, 90.6%, and 80.6% for CNN, RF, and PointNet, respectively. The experimental results reveal that the image-based approach notably outperformed the point cloud-based one, while spectral image texture is of the highest relevance to the success of categorizing tree decay. Our models could therefore be used for automatic determination of single tree decay stages and landscape-wide assessment of dead wood amount and quality using modern airborne remote sensing. | 翻訳日:2023-05-02 18:53:18 公開日:2023-05-01 |
# 文変換器による多視点説明可能な帰納的関係予測 Multi-Aspect Explainable Inductive Relation Prediction by Sentence Transformer ( http://arxiv.org/abs/2301.01664v2 ) ライセンス: Link先を確認 | Zhixiang Su, Di Wang, Chunyan Miao, Lizhen Cui | (参考訳) 知識グラフ(KG)の最近の研究は、事前訓練された言語モデルによって強化されたパスベースの手法が、帰納的および説明可能な関係予測の提供においてうまく機能することを示している。
本稿では,モデル学習前に信頼できない経路をフィルタしてモデル性能を高めるための関係パスカバレッジと関係パス信頼度の概念を紹介する。
さらに,KGにおける帰納関係を予測するために,知識推論文変換器(KRST)を提案する。
KRSTは、抽出した信頼パスをKGにエンコードするように設計されており、経路を適切にクラスタ化し、マルチアスペクトの説明を提供する。
3つの実世界のデータセットについて広範な実験を行う。
実験の結果, krst は sota モデルと比較して, トランスダクティブおよびインダクティブテスト (6例中4例) および12例中11例において, 最高の性能が得られることがわかった。 Recent studies on knowledge graphs (KGs) show that path-based methods empowered by pre-trained language models perform well in the provision of inductive and explainable relation predictions. In this paper, we introduce the concepts of relation path coverage and relation path confidence to filter out unreliable paths prior to model training to elevate the model performance. Moreover, we propose Knowledge Reasoning Sentence Transformer (KRST) to predict inductive relations in KGs. KRST is designed to encode the extracted reliable paths in KGs, allowing us to properly cluster paths and provide multi-aspect explanations. We conduct extensive experiments on three real-world datasets. The experimental results show that compared to SOTA models, KRST achieves the best performance in most transductive and inductive test cases (4 of 6), and in 11 of 12 few-shot test cases. | 翻訳日:2023-05-02 18:52:46 公開日:2023-05-01 |
# BLIP-2:凍結画像エンコーダと大規模言語モデルを用いたブートストラップ言語画像事前学習 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ( http://arxiv.org/abs/2301.12597v2 ) ライセンス: Link先を確認 | Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi | (参考訳) 大規模モデルのエンドツーエンドトレーニングにより、視覚と言語による事前学習のコストはますます厳しくなっている。
本稿では,市販の凍結済み画像エンコーダと凍結大型言語モデルから視覚言語事前学習をブートストラップする汎用的で効率的な事前学習戦略BLIP-2を提案する。
BLIP-2は2つの段階で事前訓練された軽量クエリ変換器でモダリティギャップを埋める。
第1ステージは、凍結画像エンコーダから視覚言語表現学習をブートストラップする。
第2ステージは、凍結した言語モデルから視覚から言語への生成学習をブートストラップする。
BLIP-2は、既存の手法に比べてトレーニング可能なパラメータが大幅に少ないにもかかわらず、様々な視覚言語タスクにおける最先端のパフォーマンスを実現する。
例えば、Flamingo80BはゼロショットVQAv2で8.7%、トレーニング可能なパラメータは54倍である。
また、自然言語の指示に従うことができるゼロショット画像・テキスト生成の新たな能力を示す。 The cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language models. BLIP-2 bridges the modality gap with a lightweight Querying Transformer, which is pre-trained in two stages. The first stage bootstraps vision-language representation learning from a frozen image encoder. The second stage bootstraps vision-to-language generative learning from a frozen language model. BLIP-2 achieves state-of-the-art performance on various vision-language tasks, despite having significantly fewer trainable parameters than existing methods. For example, our model outperforms Flamingo80B by 8.7% on zero-shot VQAv2 with 54x fewer trainable parameters. We also demonstrate the model's emerging capabilities of zero-shot image-to-text generation that can follow natural language instructions. | 翻訳日:2023-05-02 18:43:55 公開日:2023-05-01 |
# ヘイトスピーチに対するグラフ変換器アプローチの質的分析:動的に変化するコンテンツに適応する Qualitative Analysis of a Graph Transformer Approach to Addressing Hate Speech: Adapting to Dynamically Changing Content ( http://arxiv.org/abs/2301.10871v3 ) ライセンス: Link先を確認 | Liam Hebert, Hong Yi Chen, Robin Cohen, Lukasz Golab | (参考訳) 我々の研究はソーシャルメディアにおけるヘイトスピーチを予測するためのアプローチを前進させ、ヘイトスピーチの発生をうまく検出するために投稿をフォローする議論を検討すべき重要な必要性を浮き彫りにする。
グラフトランスフォーマーネットワークとモデリング注意とbertレベルの自然言語処理を組み合わせることで,コンテキストをキャプチャし,今後の反社会的行動を予測することができる。
本稿では,ソーシャルネットワークにおけるヘイトスピーチ検出のためのこのソリューションの詳細な質的分析を行い,提案手法が競争相手と比較して最も印象的な結果をもたらすか,理想的なパフォーマンスを達成するための課題があるシナリオを特定するための知見を得る。
現在ソーシャルメディアに浸透している投稿の種類や、ヘイトフルな画像の利用などについて調査している。
これは、モデルをより包括的に拡張するための道筋を示唆する。
重要な洞察は、コンテキストの概念を推論することに焦点を合わせれば、オンライン投稿のマルチモーダル分析をサポートできるようになるということだ。
私たちは、社会的な影響に対するすべてのAIソリューションにとって重要な懸念である、動的変化のテーマに、どのように対処しているのかを考察して結論付けます。
私たちはまた、投稿における憎悪の程度に合わせてキュレートされたコンテンツを通じて、メンタルヘルスの幸福が我々の仕事でどのように前進できるかを簡潔にコメントします。 Our work advances an approach for predicting hate speech in social media, drawing out the critical need to consider the discussions that follow a post to successfully detect when hateful discourse may arise. Using graph transformer networks, coupled with modelling attention and BERT-level natural language processing, our approach can capture context and anticipate upcoming anti-social behaviour. In this paper, we offer a detailed qualitative analysis of this solution for hate speech detection in social networks, leading to insights into where the method has the most impressive outcomes in comparison with competitors and identifying scenarios where there are challenges to achieving ideal performance. Included is an exploration of the kinds of posts that permeate social media today, including the use of hateful images. This suggests avenues for extending our model to be more comprehensive. A key insight is that the focus on reasoning about the concept of context positions us well to be able to support multi-modal analysis of online posts. We conclude with a reflection on how the problem we are addressing relates especially well to the theme of dynamic change, a critical concern for all AI solutions for social impact. We also comment briefly on how mental health well-being can be advanced with our work, through curated content attuned to the extent of hate in posts. | 翻訳日:2023-05-02 18:43:23 公開日:2023-05-01 |
# 介入によるスコアベース因果表現学習 Score-based Causal Representation Learning with Interventions ( http://arxiv.org/abs/2301.08230v2 ) ライセンス: Link先を確認 | Burak Varici, Emre Acarturk, Karthikeyan Shanmugam, Abhishek Kumar, Ali Tajer | (参考訳) 本稿では,潜在因果変数が未知の線形変換によって間接的に観察される場合の因果表現学習問題を考察する。
目的は以下の通り。
(i)未知の線形変換(スケーリングまで)の回収と
(ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定する。
DAG回復のための十分な条件が確立され、潜伏空間(例えば、2層ニューラルネットワークによってパラメータ化される因果機構)における多くの非線形モデルがこれらの条件を満たすことが示されている。
これらの十分な条件は、介入の効果がスコアの変化から正しく検出できることを保証する。
有効な変換は、潜在変数のスコア関数をレンダリングして、異なる介入環境にまたがる最小の変動を必ずしも持たないようにします。
この性質は、emph{soft}介入のみを用いて潜伏DAG構造の完全回復に利用することができる。
確率的 \emph{hard} 介入の特別な場合、追加の仮説テストステップにより、線形変換をスケーリングと有効な因果順序まで一意に回復することができる。 This paper studies the causal representation learning problem when the latent causal variables are observed indirectly through an unknown linear transformation. The objectives are: (i) recovering the unknown linear transformation (up to scaling) and (ii) determining the directed acyclic graph (DAG) underlying the latent variables. Sufficient conditions for DAG recovery are established, and it is shown that a large class of non-linear models in the latent space (e.g., causal mechanisms parameterized by two-layer neural networks) satisfy these conditions. These sufficient conditions ensure that the effect of an intervention can be detected correctly from changes in the score. Capitalizing on this property, recovering a valid transformation is facilitated by the following key property: any valid transformation renders latent variables' score function to necessarily have the minimal variations across different interventional environments. This property is leveraged for perfect recovery of the latent DAG structure using only \emph{soft} interventions. For the special case of stochastic \emph{hard} interventions, with an additional hypothesis testing step, one can also uniquely recover the linear transformation up to scaling and a valid causal ordering. | 翻訳日:2023-05-02 18:42:04 公開日:2023-05-01 |
# 事前学習基礎モデルに関する総合的調査:BERTからChatGPTへ A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT ( http://arxiv.org/abs/2302.09419v3 ) ライセンス: Link先を確認 | Ce Zhou (1), Qian Li (2), Chen Li (2), Jun Yu (3), Yixin Liu (3), Guangjing Wang (1), Kai Zhang (3), Cheng Ji (2), Qiben Yan (1), Lifang He (3), Hao Peng (2), Jianxin Li (2), Jia Wu (4), Ziwei Liu (5), Pengtao Xie (6), Caiming Xiong (7), Jian Pei (8), Philip S. Yu (9), Lichao Sun (3) ((1) Michigan State University, (2) Beihang University, (3) Lehigh University, (4) Macquarie University, (5) Nanyang Technological University, (6) University of California San Diego, (7) Salesforce AI Research, (8) Duke University, (9) University of Illinois at Chicago) | (参考訳) 事前訓練された基礎モデル(PFM)は、異なるデータモダリティを持つ様々な下流タスクの基礎と見なされている。
PFM(BERT、ChatGPT、GPT-4)は、広範囲の下流アプリケーションに対して合理的なパラメータ初期化を提供する大規模データに基づいて訓練される。
BERTはTransformerから双方向エンコーダ表現を学び、大きなデータセットをコンテキスト言語モデルとしてトレーニングする。
同様に、ジェネラティブプリトレーニングトランス(gpt)法は、特徴抽出器としてトランスを使用し、大規模データセットの自己回帰パラダイムを用いて訓練される。
最近、ChatGPTは大きな言語モデルで有望な成功を見せている。
PFMの顕著な成果は、AIのさまざまな分野に大きなブレークスルーをもたらした。
多くの研究が異なる方法を提案し、最新の調査の需要を高めている。
本研究は, テキスト, 画像, グラフ, その他のデータモダリティにおける PFM の最近の進歩, 課題, 機会を概観するものである。
このレビューでは、自然言語処理、コンピュータビジョン、グラフ学習で使用される基本的なコンポーネントと既存の事前学習方法を取り上げている。
さらに、異なるデータモダリティに使用される高度なPFMと、データ品質と量を考慮した統一されたPFMについても検討している。
レビューでは、モデル効率や圧縮、セキュリティ、プライバシといった、PFMの基礎に関する研究についても論じている。
最後に、この研究は、PFMの分野における重要な意味、今後の研究の方向性、課題、オープンな問題を提供する。
全体として、この調査は、スケーラビリティ、セキュリティ、論理的推論能力、クロスドメイン学習能力、および人工知能のユーザフレンドリーなインタラクティブ能力に関するpfmsの研究に光を当てることを目的としている。 Pretrained Foundation Models (PFMs) are regarded as the foundation for various downstream tasks with different data modalities. A PFM (e.g., BERT, ChatGPT, and GPT-4) is trained on large-scale data which provides a reasonable parameter initialization for a wide range of downstream applications. BERT learns bidirectional encoder representations from Transformers, which are trained on large datasets as contextual language models. Similarly, the generative pretrained transformer (GPT) method employs Transformers as the feature extractor and is trained using an autoregressive paradigm on large datasets. Recently, ChatGPT shows promising success on large language models, which applies an autoregressive language model with zero shot or few shot prompting. The remarkable achievements of PFM have brought significant breakthroughs to various fields of AI. Numerous studies have proposed different methods, raising the demand for an updated survey. This study provides a comprehensive review of recent research advancements, challenges, and opportunities for PFMs in text, image, graph, as well as other data modalities. The review covers the basic components and existing pretraining methods used in natural language processing, computer vision, and graph learning. Additionally, it explores advanced PFMs used for different data modalities and unified PFMs that consider data quality and quantity. The review also discusses research related to the fundamentals of PFMs, such as model efficiency and compression, security, and privacy. Finally, the study provides key implications, future research directions, challenges, and open problems in the field of PFMs. Overall, this survey aims to shed light on the research of the PFMs on scalability, security, logical reasoning ability, cross-domain learning ability, and the user-friendly interactive ability for artificial general intelligence. | 翻訳日:2023-05-02 18:36:12 公開日:2023-05-01 |
# 3D対応条件画像合成 3D-aware Conditional Image Synthesis ( http://arxiv.org/abs/2302.08509v2 ) ライセンス: Link先を確認 | Kangle Deng, Gengshan Yang, Deva Ramanan, Jun-Yan Zhu | (参考訳) 制御可能な光実写画像合成のための3D対応条件生成モデルであるpix2pix3Dを提案する。
セグメンテーションやエッジマップのような2次元ラベルマップが与えられた場合、我々のモデルは異なる視点から対応する画像を合成することを学ぶ。
明示的な3Dユーザ制御を実現するため,ニューラルレイディアンスフィールドを用いた条件付き生成モデルを拡張した。
広範に使用可能な単眼画像とラベルマップペアから,カラーと密度に加えて,各3dポイントにラベルを割り当てることを学び,画像と画素対応ラベルマップを同時にレンダリングする。
最後に,任意の視点からラベルマップを編集し,それに応じて出力を生成するインタラクティブシステムを構築した。 We propose pix2pix3D, a 3D-aware conditional generative model for controllable photorealistic image synthesis. Given a 2D label map, such as a segmentation or edge map, our model learns to synthesize a corresponding image from different viewpoints. To enable explicit 3D user control, we extend conditional generative models with neural radiance fields. Given widely-available monocular images and label map pairs, our model learns to assign a label to every 3D point in addition to color and density, which enables it to render the image and pixel-aligned label map simultaneously. Finally, we build an interactive system that allows users to edit the label map from any viewpoint and generate outputs accordingly. | 翻訳日:2023-05-02 18:35:01 公開日:2023-05-01 |
# 3次元分子生成のための幾何完全拡散 Geometry-Complete Diffusion for 3D Molecule Generation ( http://arxiv.org/abs/2302.04313v3 ) ライセンス: Link先を確認 | Alex Morehead, Jianlin Cheng | (参考訳) 拡散確率モデル (DDPM) は近年, テキスト誘導画像生成から構造誘導タンパク質設計に至るまで, コンピュータビジョンや計算生物学などの分野における新たな最先端の成果を開拓し, 嵐による生成モデリングの分野を開拓している。
この研究の後期の線に沿って、Hoogeboomら 2022 の手法は、DDPM フレームワーク内で同変グラフニューラルネットワーク (GNN) を用いて3次元分子を生成する方法が提案されている。
そこで本研究では,3次元分子の拡散生成と最適化のために,gnnが提供する表現学習の強みを活かし,幾何完全メッセージパッシングを実現する,幾何学完全拡散モデルであるgcdmを提案する。
また,分子DDPMの生成動態に及ぼす物理的誘導バイアスの影響について予備的な考察を行った。
新しいモデルをトレーニングしたり、結果を再現するためのソースコード、データ、インストラクションは、https://github.com/bioinfomachinelearning/bio-diffusionで無料で利用できます。 Denoising diffusion probabilistic models (DDPMs) have recently taken the field of generative modeling by storm, pioneering new state-of-the-art results in disciplines such as computer vision and computational biology for diverse tasks ranging from text-guided image generation to structure-guided protein design. Along this latter line of research, methods such as those of Hoogeboom et al. 2022 have been proposed for generating 3D molecules using equivariant graph neural networks (GNNs) within a DDPM framework. Toward this end, we propose GCDM, a geometry-complete diffusion model that achieves new state-of-the-art results for 3D molecule diffusion generation and optimization by leveraging the representation learning strengths offered by GNNs that perform geometry-complete message-passing. Our results with GCDM also offer preliminary insights into how physical inductive biases impact the generative dynamics of molecular DDPMs. The source code, data, and instructions to train new models or reproduce our results are freely available at https://github.com/BioinfoMachineLearning/Bio-Diffusion. | 翻訳日:2023-05-02 18:33:54 公開日:2023-05-01 |
# MMPD:マルチドメインのモバイルビデオ生理学データセット MMPD: Multi-Domain Mobile Video Physiology Dataset ( http://arxiv.org/abs/2302.03840v2 ) ライセンス: Link先を確認 | Jiankai Tang, Kequan Chen, Yuntao Wang, Yuanchun Shi, Shwetak Patel, Daniel McDuff, Xin Liu | (参考訳) remote photoplethysmography(rppg)は、非侵襲的、便利で、生理的バイタルシグナルの同時測定のための魅力的な方法である。
公開ベンチマークデータセットは,近年,この技術の開発や精度の向上において重要な役割を担ってきたが,第1に,モバイルデバイス上のカメラの普及にもかかわらず,特に携帯電話カメラで記録されたデータセットは少ない。
第二に、ほとんどのデータセットは比較的小さいため、外観(例えば、肌の色)、行動(例えば、動き)、環境(例えば、照明条件)の両方において多様性に制限がある。
フィールドの前進を支援するために,33人の携帯電話から11時間の録音を含むMMPD(Multi-domain Mobile Video Physiology Dataset)を提示する。
データセットは、肌のトーン、体の動き、照明条件など、より広い表現でビデオをキャプチャするように設計されている。
MMPDは8つの記述ラベルと共に包括的であり、rPPG-toolboxと併用することができる。
データセットの信頼性は、主流の教師なし手法とニューラルネットワークによって検証される。
データセットのGitHubリポジトリ:https://github.com/THU-CS-PI/MMPD_rPPG_dataset。 Remote photoplethysmography (rPPG) is an attractive method for noninvasive, convenient and concomitant measurement of physiological vital signals. Public benchmark datasets have served a valuable role in the development of this technology and improvements in accuracy over recent years.However, there remain gaps in the public datasets.First, despite the ubiquity of cameras on mobile devices, there are few datasets recorded specifically with mobile phone cameras. Second, most datasets are relatively small and therefore are limited in diversity, both in appearance (e.g., skin tone), behaviors (e.g., motion) and environment (e.g., lighting conditions). In an effort to help the field advance, we present the Multi-domain Mobile Video Physiology Dataset (MMPD), comprising 11 hours of recordings from mobile phones of 33 subjects. The dataset is designed to capture videos with greater representation across skin tone, body motion, and lighting conditions. MMPD is comprehensive with eight descriptive labels and can be used in conjunction with the rPPG-toolbox. The reliability of the dataset is verified by mainstream unsupervised methods and neural methods. The GitHub repository of our dataset: https://github.com/THU-CS-PI/MMPD_rPPG_dataset. | 翻訳日:2023-05-02 18:33:30 公開日:2023-05-01 |
# acceltran: トランスフォーマーを用いた動的推論のためのスパーシティアウェアアクセラレーション AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with Transformers ( http://arxiv.org/abs/2302.14705v2 ) ライセンス: Link先を確認 | Shikhar Tuli and Niraj K. Jha | (参考訳) 自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
有効性にもかかわらず、この変換器の高速化は2次計算の複雑さと大きなアクティベーションサイズのために困難である。
既存のトランスフォーマーアクセラレータは、高い計算オーバーヘッドがあるにもかかわらず、メモリアクセスを減らすためにトークンを創り出そうとする。
さらに,従来の作業は,ハードウェア利用を制限した注意操作に関わる大きな行列を直接操作する。
これらの課題に対処するため、本研究では、実行時に低オーバーヘッドでアクティベーションを回避し、事実上の操作数を削減する新しい動的推論スキームdynatranを提案する。
これにより、トランスフォーマー推論のスループットが向上する。
さらに,データ再利用を改善するために,変圧器操作の行列を多種多様なデータフローとともにタイリングすることを提案する。
そこで本研究では,トランスフォーマーのための新しい加速器アーキテクチャであるacceltranを提案する。
異なるモデルとベンチマークによる大規模な実験により、DynaTranは最先端のハードウェア対応プルーニング戦略よりも高い精度を達成し、最大1.2$\times$高頻度を実現している。
提案しているアクセラレータの1つであるacceltran-edgeは、raspberry piデバイスと比較して330k$\times$高いスループットと93k$\times$低いエネルギー要求を実現しています。
一方、AccelTran-Serverは5.73$\times$高スループット、3.69$\times$低消費電力を実現している。
シミュレーションソースコードはhttps://github.com/jha-lab/acceltranで入手できる。 Self-attention-based transformer models have achieved tremendous success in the domain of natural language processing. Despite their efficacy, accelerating the transformer is challenging due to its quadratic computational complexity and large activation sizes. Existing transformer accelerators attempt to prune its tokens to reduce memory access, albeit with high compute overheads. Moreover, previous works directly operate on large matrices involved in the attention operation, which limits hardware utilization. In order to address these challenges, this work proposes a novel dynamic inference scheme, DynaTran, which prunes activations at runtime with low overhead, substantially reducing the number of ineffectual operations. This improves the throughput of transformer inference. We further propose tiling the matrices in transformer operations along with diverse dataflows to improve data reuse, thus enabling higher energy efficiency. To effectively implement these methods, we propose AccelTran, a novel accelerator architecture for transformers. Extensive experiments with different models and benchmarks demonstrate that DynaTran achieves higher accuracy than the state-of-the-art top-k hardware-aware pruning strategy while attaining up to 1.2$\times$ higher sparsity. One of our proposed accelerators, AccelTran-Edge, achieves 330K$\times$ higher throughput with 93K$\times$ lower energy requirement when compared to a Raspberry Pi device. On the other hand, AccelTran-Server achieves 5.73$\times$ higher throughput and 3.69$\times$ lower energy consumption compared to the state-of-the-art transformer co-processor, Energon. The simulation source code is available at https://github.com/jha-lab/acceltran. | 翻訳日:2023-05-02 18:24:57 公開日:2023-05-01 |
# 最小観測可能性原理による量子力学 Quantum Mechanics From Principle of Least Observability ( http://arxiv.org/abs/2302.14619v3 ) ライセンス: Link先を確認 | Jianhao M. Yang | (参考訳) 非相対論的量子力学の定式化は最小観測可能性の原理から導出できることを示す。
可観測性(observability)は、物理オブジェクトがそのダイナミクス中に示す識別性(またはトレーサビリティ)を測定するためにここで導入された概念である。
可観測性を定量化するために、プランク定数は、観測可能となるために物理オブジェクトが提示する必要がある離散的なアクション量を定義すると仮定する。
そして観測可能性を計算する
1) 動作変数をプランク定数で古典的な経路に沿って分割し、
2 真空変動による識別可能性に関する情報指標の追加
最小観測可能性原理は不確実性関係を含む量子定式化を回復するだけでなく、位置表現と運動量表現の両方においてschr\"{o}dinger方程式を含む。
概念レベルでは、真空揺らぎに関する情報指標は、基礎となる物理的相互作用を伴わずに絡み合い効果を示すものであり、絡み合い効果が非因果関係であることを示唆している。
数学のレベルでは、相対エントロピーのより一般的な定義を用いて真空揺らぎの情報量を定義することは、相対エントロピーの順序に依存する一般化されたシュルンディンガー方程式をもたらす。
観測可能性の最も低い原理は、新しい数学的ツールであり、他の高度な量子定式化を得られることを期待する。 We show that the formulations of non-relativistic quantum mechanics can be derived from the principle of least observability. Observability is a concept introduced here to measure the distinguishability (or traceability) that a physical object exhibits during its dynamics. To quantify observability, we assume that the Planck constant defines the discrete amount of action a physical object needs to exhibit in order to be observable. Then, observability is calculated by 1.) dividing the action variable along the classical path by the Planck constant, and 2.) adding information metrics on distinguishability due to vacuum fluctuations. The least observability principle not only recovers quantum formulations including the uncertainty relation and the Schr\"{o}dinger equation in both position and momentum representations, but also brings in new results on two fronts. At the conceptual level, we find that the information metrics for vacuum fluctuations are responsible for manifesting entanglement effects without underlying physical interactions, implying that entanglement effects are non-causal. At the mathematical level, defining the information metrics for vacuum fluctuations using more general definitions of relative entropy results in a generalized Schr\"{o}dinger equation that depends on the order of relative entropy. The least observability principle is a new mathematical tool, and we expect other advanced quantum formulations can be obtained from it. | 翻訳日:2023-05-02 18:24:32 公開日:2023-05-01 |
# 深層強化学習を用いたタンブリングターゲットの被曝型マルチエージェント検査 Exposure-Based Multi-Agent Inspection of a Tumbling Target Using Deep Reinforcement Learning ( http://arxiv.org/abs/2302.14188v2 ) ライセンス: Link先を確認 | Joshua Aurand, Steven Cutlip, Henry Lei, Kendra Lang, and Sean Phillips | (参考訳) 宇宙がより混雑するにつれて、軌道検査は、修理の計画のために廃衛星を観測するか、軌道を外すかに関係する活動である。
しかし、軌道上の検査自体の作業は困難であり、通常は複数の観測衛星の注意深く調整する必要がある。
これは高度に非線形な環境で複雑であり、目標が未知であるか、あるいは地上からの連続的な指令と制御の時間無しに予測不能に動く可能性がある。
検査タスクには、自律的で堅牢で分散化されたソリューションが必要です。
これを実現するために,マルチエージェント検査の分散計画における階層的,学習的なアプローチを検討する。
このソリューションは,深層強化学習を用いて訓練された視点と高レベルプランナーと,事前指定された視点間のポイント・ツー・ポイントのナビゲーションを扱うナビゲーションプランナーの2つの構成要素からなる。
本稿では,学習に基づく堅牢な政策の強化だけでなく,未知のターゲットジオメトリに拡張可能な新たな問題定式化手法と,センサ入力から直接受ける高忠実度情報理論の目的について述べる。
限られた情報に基づいて、訓練されたマルチエージェントハイレベルポリシーは、グローバル階層環境内で情報のコンテキスト化に成功し、追加のエージェント姿勢制御がなくても、90%以上の非凸タンブリングターゲットを検査することが可能です。 As space becomes more congested, on orbit inspection is an increasingly relevant activity whether to observe a defunct satellite for planning repairs or to de-orbit it. However, the task of on orbit inspection itself is challenging, typically requiring the careful coordination of multiple observer satellites. This is complicated by a highly nonlinear environment where the target may be unknown or moving unpredictably without time for continuous command and control from the ground. There is a need for autonomous, robust, decentralized solutions to the inspection task. To achieve this, we consider a hierarchical, learned approach for the decentralized planning of multi-agent inspection of a tumbling target. Our solution consists of two components: a viewpoint or high-level planner trained using deep reinforcement learning and a navigation planner handling point-to-point navigation between pre-specified viewpoints. We present a novel problem formulation and methodology that is suitable not only to reinforcement learning-derived robust policies, but extendable to unknown target geometries and higher fidelity information theoretic objectives received directly from sensor inputs. Operating under limited information, our trained multi-agent high-level policies successfully contextualize information within the global hierarchical environment and are correspondingly able to inspect over 90% of non-convex tumbling targets, even in the absence of additional agent attitude control. | 翻訳日:2023-05-02 18:24:09 公開日:2023-05-01 |
# 2D SU(2)反強磁性体から原子価結合固体分解量子臨界点への絡み合いからの教えは一致しない The teaching from entanglement: 2D SU(2) antiferromagnet to valence bond solid deconfined quantum critical points are not conformal ( http://arxiv.org/abs/2302.11742v2 ) ライセンス: Link先を確認 | Yuan Da Liao, Gaopei Pan, Weilun Jiang, Yang Qi and Zi Yang Meng | (参考訳) 量子臨界点(deconfined quantum critical point, dqcp)は、ランダウ-ギンツブルク-ウィルソンの対称性と自発的崩壊のパラダイムを超えた、量子相転移の謎めいたインカーネーション(enigmatic incarnation of the quantum phase transition)である。
スピン/ボソンおよびフェルミオン表現の様々な2次元量子多体格子モデルは、最先端の数値技術と場理論解析で試験されてきたが、結論はまだ議論の余地がある。
量子磁石SrCu$_2$(BO$_3$)$_2$におけるDQCPの実験的実現と2D材料の超伝導量子臨界度は、一階遷移または中間相を示す。
格子スケールの細部と連続限界からの要求との緊張関係は,不整合臨界スケーリング挙動や総称共形ブートストラップ境界違反の形では解決されていない。
ここでは、この数十年にわたる論争を、量子絡みの新たな基本的視点から解決する。
フェルミオンDQCPにおける絡み合いエントロピーを前例のない精度で計算するインクリメンタルアルゴリズムを開発し、対数補正の普遍係数は負であり、共形場理論の正の要求に反することを示した。
他の2次元DQCP格子モデル(フェルミオンおよびスピン系の両方)の結果と合わせて、原子価結合固体DQCPに対する2次元SU(2)反強磁性は整合固定点ではなく、それらの発見の実験的困難さを自然に説明できる。
これは20年前に提唱されたランダウ-ギンツブルク-ウィルソンのパラダイムを超えて量子相転移が真に明らかでない発見の始まりを告げるものである。 The deconfined quantum critical point (DQCP) -- the enigmatic incarnation of the quantum phase transition beyond the Landau-Ginzburg-Wilson paradigm of symmetries and their spontaneous breaking -- has been proposed and actively pursued for more than two decades. Various 2D quantum many-body lattice models, both in spin/boson and fermion representations have been tested with the state-of-the-art numerical techniques and field-theoretical analyses, and yet, the conclusion is still controversial. Experimental realizations of DQCP in the quantum magnet SrCu$_2$(BO$_3$)$_2$ and superconducting quantum criticality in 2D material have either shown first order transition or intermediate phase. The tension between the lattice scale details and the requirement from continuum limit, manifested in the form of the inconsistent critical scaling behavior and violations of generic conformal bootstrap bound, has not been resolved. Here we solve these decades-long controversies from the new and fundamental perspective of the quantum entanglement. We develop the incremental algorithm to compute the entanglement entropy at a fermionic DQCP with unprecedentedly accurate data and reveal the universal coefficient of the logarithmic correction therein is negative and at odds with positivity requirement of the conformal field theory. Together with results in other 2D DQCP lattice models (both in fermion and spin systems), our discoveries clearly demonstrate the 2D SU(2) antiferromagnet to valence bond solid DQCPs are not conformal fixed point and naturally explain the experimental difficulties in finding them. This marks the end of the beginning of unambiguous finding of the quantum phase transitions truely beyond the Landau-Ginzburg-Wilson paradigm, since its suggestion two decades ago. | 翻訳日:2023-05-02 18:22:55 公開日:2023-05-01 |
# FusionLoc:マルチヘッド自己注意を用いたカメラ2D LiDARフュージョン FusionLoc: Camera-2D LiDAR Fusion Using Multi-Head Self-Attention for End-to-End Serving Robot Relocalization ( http://arxiv.org/abs/2303.06872v2 ) ライセンス: Link先を確認 | Jieun Lee, Hakjun Lee, Jiyong Oh | (参考訳) 近年の自動運転技術の発展により、繰り返し作業の効率や非対面サービスの価値が高まるにつれて、配送ロボットやサービスロボットなどの移動サービスロボットが注目され、その需要は日々増加している。
しかし、何か問題が発生した場合、ほとんどの商用サービスロボットは、正常に動作するために開始位置と方向に戻る必要がある。
本稿では,この問題に対処するためのサービスロボットのエンドツーエンド再ローカライズに焦点をあてる。
ニューラルネットワークを用いて、搭載されているセンサーデータから直接ロボットのポーズを予測する。
特に,カメラ2D LiDARセンサ融合に基づく再局在のためのディープニューラルネットワークアーキテクチャを提案する。
提案手法をFusionLocと呼ぶ。
提案手法では,2つのセンサが捉えた異なる種類の情報をマルチヘッドセルフアテンションにより補完する。
商用サービスロボットが収集したデータセットを用いた実験により,FusionLocは単一画像または2次元LiDAR点雲のみを受信する従来の再局在法よりも優れた性能と,それらの特徴を結合した簡単な融合法を提供できることを示した。 With the recent development of autonomous driving technology, as the pursuit of efficiency for repetitive tasks and the value of non-face-to-face services increase, mobile service robots such as delivery robots and serving robots attract attention, and their demands are increasing day by day. However, when something goes wrong, most commercial serving robots need to return to their starting position and orientation to operate normally again. In this paper, we focus on end-to-end relocalization of serving robots to address the problem. It is to predict robot pose directly from only the onboard sensor data using neural networks. In particular, we propose a deep neural network architecture for the relocalization based on camera-2D LiDAR sensor fusion. We call the proposed method FusionLoc. In the proposed method, the multi-head self-attention complements different types of information captured by the two sensors. Our experiments on a dataset collected by a commercial serving robot demonstrate that FusionLoc can provide better performances than previous relocalization methods taking only a single image or a 2D LiDAR point cloud as well as a straightforward fusion method concatenating their features. | 翻訳日:2023-05-02 18:15:41 公開日:2023-05-01 |
# KGNv2:RGB-D入力におけるキーポイントベース6-DoFグラフ合成のスケールとポース予測 KGNv2: Separating Scale and Pose Prediction for Keypoint-based 6-DoF Grasp Synthesis on RGB-D input ( http://arxiv.org/abs/2303.05617v3 ) ライセンス: Link先を確認 | Yiye Chen, Ruinian Xu, Yunzhi Lin, Hongyi Chen, Patricio A. Vela | (参考訳) キーポイントに基づく2d/2.5d入力からの6自由度ポーズ合成手法を提案する。
画像入力からのキーポイントに基づく把持検出装置は,カラー画像による付加視覚情報が雑音の奥行き知覚を補償する,先行研究で有望な結果を示している。
しかし、画像空間内のキーポイントの位置を正確に予測することに大きく依存している。
本稿では,精度の高いキーポイント推定への依存性を低減した新しい把持生成ネットワークを考案する。
rgb-d入力が与えられると、ネットワークはキーポイント検出からの把持位置とカメラへのスケールの両方を推定する。
我々はさらに,キーポイント予測ノイズの悪影響をpnpアルゴリズムに緩和するために,キーポイント出力空間を再設計する。
実験の結果,提案手法はベースラインよりも高い性能を示し,提案手法の有効性を検証した。
最後に, 簡単な合成物体を訓練しながら, 実世界のロボット実験において, 競争力を示すことによって, シミュレーションから現実までの能力を示す。 We propose a new 6-DoF grasp pose synthesis approach from 2D/2.5D input based on keypoints. Keypoint-based grasp detector from image input has demonstrated promising results in the previous study, where the additional visual information provided by color images compensates for the noisy depth perception. However, it relies heavily on accurately predicting the location of keypoints in the image space. In this paper, we devise a new grasp generation network that reduces the dependency on precise keypoint estimation. Given an RGB-D input, our network estimates both the grasp pose from keypoint detection as well as scale towards the camera. We further re-design the keypoint output space in order to mitigate the negative impact of keypoint prediction noise to Perspective-n-Point (PnP) algorithm. Experiments show that the proposed method outperforms the baseline by a large margin, validating the efficacy of our approach. Finally, despite trained on simple synthetic objects, our method demonstrate sim-to-real capacity by showing competitive results in real-world robot experiments. | 翻訳日:2023-05-02 18:15:00 公開日:2023-05-01 |
# 反復精製による外挿制御シーケンス生成 Extrapolative Controlled Sequence Generation via Iterative Refinement ( http://arxiv.org/abs/2303.04562v2 ) ライセンス: Link先を確認 | Vishakh Padmakumar, Richard Yuanzhe Pang, He He, Ankur P. Parikh | (参考訳) 本研究では,外挿制御生成の問題,すなわち,トレーニングで見られる範囲を超えて属性値を持つシーケンスを生成することを検討する。
この課題は自動設計、特に薬物発見において重要な意味を持ち、その目標は既存の配列よりも新しいタンパク質(例えば、より安定な)を設計することである。
したがって、定義上、ターゲットシーケンスとその属性値はトレーニング分布外であり、ターゲットシーケンスを直接生成することを目的とした既存のメソッドに挑戦する。
そこで本研究では,逐次外挿を可能にするために局所的な編集を反復的に行う反復制御外挿(ice)を提案する。
我々は、属性値の小さな改善を示す合成生成シーケンスペアでモデルを訓練する。
1つの自然言語タスク(感覚分析)と2つのタンパク質工学タスク(ACE2安定性とAAV適合性)の結果、ICEは単純さにもかかわらず最先端のアプローチをかなり上回っている。
私たちのコードとモデルは、https://github.com/vishakhpk/iter-extrapolationで利用可能です。 We study the problem of extrapolative controlled generation, i.e., generating sequences with attribute values beyond the range seen in training. This task is of significant importance in automated design, especially drug discovery, where the goal is to design novel proteins that are \textit{better} (e.g., more stable) than existing sequences. Thus, by definition, the target sequences and their attribute values are out of the training distribution, posing challenges to existing methods that aim to directly generate the target sequence. Instead, in this work, we propose Iterative Controlled Extrapolation (ICE) which iteratively makes local edits to a sequence to enable extrapolation. We train the model on synthetically generated sequence pairs that demonstrate small improvement in the attribute value. Results on one natural language task (sentiment analysis) and two protein engineering tasks (ACE2 stability and AAV fitness) show that ICE considerably outperforms state-of-the-art approaches despite its simplicity. Our code and models are available at: https://github.com/vishakhpk/iter-extrapolation. | 翻訳日:2023-05-02 18:14:18 公開日:2023-05-01 |
# あらゆるものを一度にセグメンテーションする Segment Everything Everywhere All at Once ( http://arxiv.org/abs/2304.06718v3 ) ライセンス: Link先を確認 | Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee | (参考訳) 対話型AIシステムへの需要が高まっているにもかかわらず、セグメンテーションのような視覚的理解における人間とAIの相互作用に関する包括的な研究はほとんどない。
llmsのためのプロンプトベースのユニバーサルインターフェースの開発に触発された本論文は、画像中のあらゆるものを一度にセグメンテーションするための、迅速かつインタラクティブなモデルであるように見える。
4つのデシデラタがあります
i) 汎用性: ポイント,ボックス,スクリブル,マスク,テキスト,その他の画像の参照領域を含む,さまざまな種類のプロンプトに対して汎用的なプロンプトエンジンを導入すること。
二 構成性:図1に示すように、視覚的及びテキスト的指示のための共同視覚的セマンティック空間を学習し、ハエに照らし出すためのクエリを構成すること。
三 対話性 学習可能なメモリプロンプトを組み込むことにより、マスク誘導による対話履歴情報を保持し、及び
iv)意味認識: テキストエンコーダを使用してテキストクエリとマスクラベルをエンコードして、オープン語彙セグメンテーションを行う。 Despite the growing demand for interactive AI systems, there have been few comprehensive studies on human-AI interaction in visual understanding e.g. segmentation. Inspired by the development of prompt-based universal interfaces for LLMs, this paper presents SEEM, a promptable, interactive model for Segmenting Everything Everywhere all at once in an image. SEEM has four desiderata: i) Versatility: by introducing a versatile prompting engine for different types of prompts, including points, boxes, scribbles, masks, texts, and referred regions of another image; ii) Compositionality: by learning a joint visual-semantic space for visual and textual prompts to compose queries on the fly for inference as shown in Fig 1; iii)Interactivity: by incorporating learnable memory prompts to retain dialog history information via mask-guided cross-attention; and iv) Semantic-awareness: by using a text encoder to encode text queries and mask labels for open-vocabulary segmentation. | 翻訳日:2023-05-02 18:06:28 公開日:2023-05-01 |
# 非エルミート皮膚効果における非正常性のトポロジー的増強 Topological enhancement of non-normality in non-Hermitian skin effects ( http://arxiv.org/abs/2304.06689v2 ) ライセンス: Link先を確認 | Yusuke O. Nakai, Nobuyuki Okuma, Daichi Nakamura, Kenji Shimomura, Masatoshi Sato | (参考訳) 非エルミート皮膚効果は非エルミート系に固有の代表的な現象であり、開境界条件 (OBC) 下のエネルギースペクトルと固有状態は周期境界条件 (PBC) 下のものと大きく異なる。
PBCの非自明なトポロジーは非エルミート皮膚効果を特徴付けるが、OBCの適切な測定方法はまだ明らかになっていない。
本稿では, OBCによる非正常化の位相的増強が非エルミート皮膚効果を正確に定量することを明らかにする。
皮膚効果のスペクトルおよび状態変化に対応して,非正常の2つのスカラー尺度を導入し,非エルミート皮膚効果はOBC下においてマクロ的に増強すると主張した。
また,非エルミート皮膚効果の位相遷移を正確に記述し,平均対称性で保護された非エルミート皮膚効果の欠如を明らかにした。
非正規性のトポロジカルエンハンスメントは、Bauer-Fike定理によるOBCスペクトルの摂動感度と異常時間進化ダイナミクスを支配している。 The non-Hermitian skin effects are representative phenomena intrinsic to non-Hermitian systems: the energy spectra and eigenstates under the open boundary condition (OBC) drastically differ from those under the periodic boundary condition (PBC). Whereas a non-trivial topology under the PBC characterizes the non-Hermitian skin effects, their proper measure under the OBC has not been clarified yet. This paper reveals that topological enhancement of non-normality under the OBC accurately quantifies the non-Hermitian skin effects. Correspondingly to spectrum and state changes of the skin effects, we introduce two scalar measures of non-normality and argue that the non-Hermitian skin effects enhance both macroscopically under the OBC. We also show that the enhanced non-normality correctly describes phase transitions causing the non-Hermitian skin effects and reveals the absence of non-Hermitian skin effects protected by average symmetry. The topological enhancement of non-normality governs the perturbation sensitivity of the OBC spectra and the anomalous time-evolution dynamics through the Bauer-Fike theorem. | 翻訳日:2023-05-02 18:06:09 公開日:2023-05-01 |
# 複素絡み合った状態の構成可能性に関するグラフ理論的考察 Graph-theoretic insights on the constructability of complex entangled states ( http://arxiv.org/abs/2304.06407v2 ) ライセンス: Link先を確認 | L. Sunil Chandran, Rishikesh Gajjala | (参考訳) 大規模な量子フォトニクス実験を構成する最も効率的な自動化方法は、特定の性質を持つグラフの抽象表現である。
人工知能とSATソルバを用いて新たな方向を探索し、そのようなグラフを見つける一方で、グラフのサイズが大きくなるにつれて計算が不可能になる。
そこで我々は,実験用量子光学において重要な開解問題,すなわち複素絡み合った量子状態を構築することができるかどうかを問う解析的アプローチと実験用グラフの局所スペーシフィケーション手法を導入する。
これにより、量子資源理論、特定の量子フォトニクス系の制限、および量子物理学の実験を設計するためのグラフ理論技術の使用に関するさらなる洞察が得られる。 The most efficient automated way to construct a large class of quantum photonic experiments is via abstract representation of graphs with certain properties. While new directions were explored using Artificial intelligence and SAT solvers to find such graphs, it becomes computationally infeasible to do so as the size of the graph increases. So, we take an analytical approach and introduce the technique of local sparsification on experiment graphs, using which we answer a crucial open question in experimental quantum optics, namely whether certain complex entangled quantum states can be constructed. This provides us with more insights into quantum resource theory, the limitation of specific quantum photonic systems and initiates the use of graph-theoretic techniques for designing quantum physics experiments. | 翻訳日:2023-05-02 18:05:47 公開日:2023-05-01 |
# ホログラフィック多部絡み合い尺度の分類に向けて Towards classification of holographic multi-partite entanglement measures ( http://arxiv.org/abs/2304.06082v2 ) ライセンス: Link先を確認 | Abhijit Gadde, Vineeth Krishna, Trakshu Sharma | (参考訳) 本稿では, ホログラム双対のプローブ近似で計算可能な測度を構築することを目的として, マルチパーティ・エンタングルメントの測度を体系的に研究する。
我々は局所ユニタリ変換の不変量として一般測度を分類し数える。
これらの測度を置換群要素を用いて定式化した後、プローブ測度が満たすべき条件を導出し、大きな解のクラスを見つける。
これらの解はarxiv:2206.09723で導入された多重エントロピーの一般化である。
これらのホログラフィック双対は、複製対称性がバルク内で破れていないという仮定で導出され、2次元CFTで明示的な計算で処方則をチェックする。
多重エントロピーと同様に、これらの測度のホログラフィック双対は最小のブレーンウェブの重み付き面積によって与えられるが、ブランは異なる張力を持つ。
我々は、レプリカ対称性の消費について論じ、また、既に知られているエンタングルメントの負性や反射エントロピーが我々の枠組みにどのように適合するかを論じる。 In this paper, we systematically study measures of multi-partite entanglement with the aim of constructing measures that can be computed in probe approximation in the holographic dual. We classify and count general measures as invariants of local unitary transformations. After formulating these measures in terms of permutation group elements, we derive conditions that a probe measure should satisfy and find a large class of solutions. These solutions are generalizations of the multi-entropy introduced in arXiv:2206.09723 . We derive their holographic dual with the assumption that the replica symmetry is unbroken in the bulk and check our prescription with explicit computations in 2d CFTs. Analogous to the multi- entropy, the holographic dual of these measures is given by the weighted area of the minimal brane-web but with branes having differing tensions. We discuss the replica symmetry as- sumption and also how the already known entanglement measures, such as entanglement negativity and reflected entropy fit in our framework. | 翻訳日:2023-05-02 18:05:36 公開日:2023-05-01 |
# ニューラルネットワーク設計の効率的な自動化:微分可能なニューラルネットワーク探索に関する調査 Efficient Automation of Neural Network Design: A Survey on Differentiable Neural Architecture Search ( http://arxiv.org/abs/2304.05405v2 ) ライセンス: Link先を確認 | Alexandre Heuillet, Ahmad Nasser, Hichem Arioui, Hedi Tabia | (参考訳) 過去数年間、微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。
この上昇は主に、最初の主要なdnas法の一つであるダーツの人気によるものである。
強化学習(Reinforcement Learning)や進化的アルゴリズム(Evolutionary Algorithms)に基づく以前の研究とは対照的に、DNASは桁違いに高速で計算資源が少ない。
この包括的調査では、特にdnaに焦点をあて、この分野の最近のアプローチをレビューする。
さらに,dnas法を分類するための新しいチャレンジに基づく分類法を提案する。
また、近年のDNASへの貢献と、その世界的なNAS分野への影響についても論じる。
最後に,DNAS分野の今後の研究方向性について,いくつかの知見を提供する。 In the past few years, Differentiable Neural Architecture Search (DNAS) rapidly imposed itself as the trending approach to automate the discovery of deep neural network architectures. This rise is mainly due to the popularity of DARTS, one of the first major DNAS methods. In contrast with previous works based on Reinforcement Learning or Evolutionary Algorithms, DNAS is faster by several orders of magnitude and uses fewer computational resources. In this comprehensive survey, we focus specifically on DNAS and review recent approaches in this field. Furthermore, we propose a novel challenge-based taxonomy to classify DNAS methods. We also discuss the contributions brought to DNAS in the past few years and its impact on the global NAS field. Finally, we conclude by giving some insights into future research directions for the DNAS field. | 翻訳日:2023-05-02 18:05:16 公開日:2023-05-01 |
# 幻想的な破片:現実世界の壊れた物体とその完全なカウンターの3Dスキャンデータ Fantastic Breaks: A Dataset of Paired 3D Scans of Real-World Broken Objects and Their Complete Counterparts ( http://arxiv.org/abs/2303.14152v4 ) ライセンス: Link先を確認 | Nikolas Lamb, Cameron Palmer, Benjamin Molloy, Sean Banerjee, Natasha Kholgade Banerjee | (参考訳) 自動形状修正アプローチは現在、現実世界の損傷した形状を記述するデータセットへのアクセスを欠いている。
https://terascale-all-sensing-research-studio.github.io/fantasticbreaks)は、150個の壊れたオブジェクトに対してスキャン、防水、クリーンな3dメッシュを含むデータセット。
Fantastic Breaksには、クラスとマテリアルラベル、壊れたメッシュに結合して完全なメッシュを生成するプロキシ修復部品、手動で注釈付き破壊境界が含まれている。
フラクチャー幾何の詳細な解析により, 幾何学的および物理学的手法で生成されたフラクチャーデータセットとファンタスティックブレイクの差異を明らかにした。
合成データセットで事前学習し,ファンタスティックブレイクのサブセットで再学習した複数の学習に基づくアプローチを用いて,ファンタスティックブレイクによる形状修復実験を行った。 Automated shape repair approaches currently lack access to datasets that describe real-world damaged geometry. We present Fantastic Breaks (and Where to Find Them: https://terascale-all-sensing-research-studio.github.io/FantasticBreaks), a dataset containing scanned, waterproofed, and cleaned 3D meshes for 150 broken objects, paired and geometrically aligned with complete counterparts. Fantastic Breaks contains class and material labels, proxy repair parts that join to broken meshes to generate complete meshes, and manually annotated fracture boundaries. Through a detailed analysis of fracture geometry, we reveal differences between Fantastic Breaks and synthetic fracture datasets generated using geometric and physics-based methods. We show experimental shape repair evaluation with Fantastic Breaks using multiple learning-based approaches pre-trained with synthetic datasets and re-trained with subset of Fantastic Breaks. | 翻訳日:2023-05-02 18:04:48 公開日:2023-05-01 |
# テキスト・画像拡散モデルにおけるアブラッティング概念 Ablating Concepts in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.13516v2 ) ライセンス: Link先を確認 | Nupur Kumari, Bingliang Zhang, Sheng-Yu Wang, Eli Shechtman, Richard Zhang, Jun-Yan Zhu | (参考訳) 大規模テキストから画像への拡散モデルは、強力な合成能力を持つ高忠実度画像を生成することができる。
しかし、これらのモデルは、典型的には膨大な量のインターネットデータに基づいて訓練され、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
また、様々なライブアーティストのスタイルを再現したり、正確なトレーニングサンプルを記憶したりもしている。
モデルをスクラッチからトレーニングすることなく、そのような著作権付き概念やイメージをどうやって除去できるのか?
この目的を達成するために, 事前学習モデルにおける概念のアブレーション, すなわち, 目標概念の生成を防止できる効率的な手法を提案する。
提案アルゴリズムは,画像の分布を対象のスタイル,例えばテキストのプロンプトと一致させることを学習し,アンカーの概念に対応する分布に対応する。
これにより、テキスト条件によってモデルがターゲット概念を生成することを防止する。
実験により,本手法はモデルに密接に関連する概念を保ちながら,アブレーションの概念の生成を効果的に防止できることを示した。 Large-scale text-to-image diffusion models can generate high-fidelity images with powerful compositional ability. However, these models are typically trained on an enormous amount of Internet data, often containing copyrighted material, licensed images, and personal photos. Furthermore, they have been found to replicate the style of various living artists or memorize exact training samples. How can we remove such copyrighted concepts or images without retraining the model from scratch? To achieve this goal, we propose an efficient method of ablating concepts in the pretrained model, i.e., preventing the generation of a target concept. Our algorithm learns to match the image distribution for a target style, instance, or text prompt we wish to ablate to the distribution corresponding to an anchor concept. This prevents the model from generating target concepts given its text condition. Extensive experiments show that our method can successfully prevent the generation of the ablated concept while preserving closely related concepts in the model. | 翻訳日:2023-05-02 18:04:26 公開日:2023-05-01 |
# ベイズ関数合成の最適化と動的価格設定への応用 Bayesian Optimization for Function Compositions with Applications to Dynamic Pricing ( http://arxiv.org/abs/2303.11954v2 ) ライセンス: Link先を確認 | Kunal Jain, Prabuchandran K. J., Tejas Bodas | (参考訳) ベイズ最適化(bo)は、ブラックボックス関数のグローバルオプティマを見つけるために用いられる。
本研究では,構成の形式が分かっているが構成関数の評価が高価である関数合成の実用的bo法を提案する。
構成ブラックボックス関数のそれぞれに対して独立したガウス過程(GP)モデルを仮定することにより、期待改善(EI)とアッパー信頼境界(UCB)に基づくBOアルゴリズムを提案し、バニラBOだけでなく現在の最先端アルゴリズムよりも優れていることを示す。
基礎となる需要関数の評価に費用がかかる場合の収益管理における動的価格設定への提案手法の新規適用を実証する。 Bayesian Optimization (BO) is used to find the global optima of black box functions. In this work, we propose a practical BO method of function compositions where the form of the composition is known but the constituent functions are expensive to evaluate. By assuming an independent Gaussian process (GP) model for each of the constituent black-box function, we propose Expected Improvement (EI) and Upper Confidence Bound (UCB) based BO algorithms and demonstrate their ability to outperform not just vanilla BO but also the current state-of-art algorithms. We demonstrate a novel application of the proposed methods to dynamic pricing in revenue management when the underlying demand function is expensive to evaluate. | 翻訳日:2023-05-02 18:03:38 公開日:2023-05-01 |
# 生体信号処理のための自己回帰モデル Autoregressive models for biomedical signal processing ( http://arxiv.org/abs/2304.11070v2 ) ライセンス: Link先を確認 | Jonas F. Haderlein, Andre D. H. Peterson, Anthony N. Burkitt, Iven M. Y. Mareels, David B. Grayden | (参考訳) 自己回帰モデルは、計算神経科学やバイオメディカルエンジニアリングなど、多くの領域における時系列解析のためのユビキタスツールである。
これらの領域では、データは例えば、脳活動の測定から収集される。
重要なことに、このデータは、下層のシステムモデルにおける不確実性と同様に、測定エラーにさらされる。
その結果、自己回帰モデル推定器を用いた標準信号処理がバイアスとなる可能性がある。
我々は,これらの不確かさを過パラメータ損失関数によって明示的に組み込む自己回帰モデルのためのフレームワークを提案する。
この損失を最適化するために、状態とパラメータ推定を交互に行うアルゴリズムを導出する。
本研究は,時系列を推定し,システムパラメータの再構成に有効であることを示す。
この新たなパラダイムは、脳-コンピュータインターフェースデータ分析やてんかんなどの疾患における脳のダイナミクスの理解など、神経科学の様々な応用に利用できる。 Autoregressive models are ubiquitous tools for the analysis of time series in many domains such as computational neuroscience and biomedical engineering. In these domains, data is, for example, collected from measurements of brain activity. Crucially, this data is subject to measurement errors as well as uncertainties in the underlying system model. As a result, standard signal processing using autoregressive model estimators may be biased. We present a framework for autoregressive modelling that incorporates these uncertainties explicitly via an overparameterised loss function. To optimise this loss, we derive an algorithm that alternates between state and parameter estimation. Our work shows that the procedure is able to successfully denoise time series and successfully reconstruct system parameters. This new paradigm can be used in a multitude of applications in neuroscience such as brain-computer interface data analysis and better understanding of brain dynamics in diseases such as epilepsy. | 翻訳日:2023-05-02 17:57:05 公開日:2023-05-01 |
# CKmeansとFCKmeans : 修正群集距離を用いたKmeansアルゴリズムの2つの決定論的初期化手順 CKmeans and FCKmeans : Two deterministic initialization procedures for Kmeans algorithm using a modified crowding distance ( http://arxiv.org/abs/2304.09989v2 ) ライセンス: Link先を確認 | Abdesslem Layeb | (参考訳) 本稿では,K平均クラスタリングのための2つの新しい決定論的初期化手順を提案する。
CKmeans と FCKmeans という名前の手順は、より混雑した点を初期セントロイドとして使用する。
複数のデータセットに関する実験的研究により、提案手法がクラスタリング精度においてKmeansとKmeans++より優れていることが示された。
ckmeansとfckmeansの有効性は,改良された群集距離に基づいてより良好な初期中心体を選択する能力に起因する。
全体として、提案されたアプローチは、K平均クラスタリングを改善するための有望な代替手段を提供する。 This paper presents two novel deterministic initialization procedures for K-means clustering based on a modified crowding distance. The procedures, named CKmeans and FCKmeans, use more crowded points as initial centroids. Experimental studies on multiple datasets demonstrate that the proposed approach outperforms Kmeans and Kmeans++ in terms of clustering accuracy. The effectiveness of CKmeans and FCKmeans is attributed to their ability to select better initial centroids based on the modified crowding distance. Overall, the proposed approach provides a promising alternative for improving K-means clustering. | 翻訳日:2023-05-02 17:56:51 公開日:2023-05-01 |
# SemEval 2023 Task 6: LegalEval - 法的テキストの理解 SemEval 2023 Task 6: LegalEval - Understanding Legal Texts ( http://arxiv.org/abs/2304.09548v3 ) ライセンス: Link先を確認 | Ashutosh Modi and Prathamesh Kalamkar and Saurabh Karn and Aman Tiwari and Abhinav Joshi and Sai Kiran Tanikella and Shouvik Kumar Guha and Sachin Malhan and Vivek Raghavan | (参考訳) 人口の多い国では、保留中の訴訟が急増している。
法律文書の処理と自動理解のためのNLPベースの技術を開発する必要がある。
法律NLP分野の研究を促進するため,SemEval 2023において,法律テキストの理解に関する共有タスクを組織した。
Task-A (Rhetorical Roles Labeling) は、法的文書を意味的に一貫性のある単位に自動的に構造化することを目的としており、Task-B (Legal Named Entity Recognition) は、法的文書の中の関連エンティティを識別することを扱う。
合計26チーム(約100人の参加者)がシステム論文を提出した。
各サブタスクでは、提案されたシステムがベースラインを上回っているが、改善の余地は多い。
本稿では,タスクを記述し,様々なチームが提案する手法を分析する。 In populous countries, pending legal cases have been growing exponentially. There is a need for developing NLP-based techniques for processing and automatically understanding legal documents. To promote research in the area of Legal NLP we organized the shared task LegalEval - Understanding Legal Texts at SemEval 2023. LegalEval task has three sub-tasks: Task-A (Rhetorical Roles Labeling) is about automatically structuring legal documents into semantically coherent units, Task-B (Legal Named Entity Recognition) deals with identifying relevant entities in a legal document and Task-C (Court Judgement Prediction with Explanation) explores the possibility of automatically predicting the outcome of a legal case along with providing an explanation for the prediction. In total 26 teams (approx. 100 participants spread across the world) submitted systems paper. In each of the sub-tasks, the proposed systems outperformed the baselines; however, there is a lot of scope for improvement. This paper describes the tasks, and analyzes techniques proposed by various teams. | 翻訳日:2023-05-02 17:56:42 公開日:2023-05-01 |
# SPARQLクエリ生成に対する自然言語のコピー機構の総合的評価 A Comprehensive Evaluation of the Copy Mechanism for Natural Language to SPARQL Query Generation ( http://arxiv.org/abs/2304.07772v2 ) ライセンス: Link先を確認 | Samuel Reyd, Amal Zouaq, Papa Abdou Karim Karou Diallo | (参考訳) 近年、SPARQLクエリ生成のためのニューラルネットワーク翻訳(NMT)の分野は、大きく成長している。
近年,従来のエンコーダ・デコーダアーキテクチャによるコピー機構の導入や,事前学習したエンコーダ・デコーダの使用により,新たな性能ベンチマークが設定されている。
本稿では,最近のnmtベースのsparql生成実験を再現・拡張する多種多様な実験を行い,事前学習モデルと非事前学習モデルの比較,質問アノテーション形式,非訓練モデルと事前学習モデルに対するコピー機構の利用について述べる。
その結果、コピー機構の追加や質問アノテーションの使用により、事前学習モデルと事前学習モデルのパフォーマンスが向上し、3つの一般的なデータセットに新たなベースラインが設定された。 In recent years, the field of neural machine translation (NMT) for SPARQL query generation has witnessed a significant growth. Recently, the incorporation of the copy mechanism with traditional encoder-decoder architectures and the use of pre-trained encoder-decoders have set new performance benchmarks. This paper presents a large variety of experiments that replicate and expand upon recent NMT-based SPARQL generation studies, comparing pre-trained and non-pre-trained models, question annotation formats, and the use of a copy mechanism for non-pre-trained and pre-trained models. Our results show that either adding the copy mechanism or using a question annotation improves performances for nonpre-trained models and for pre-trained models, setting new baselines for three popular datasets. | 翻訳日:2023-05-02 17:55:42 公開日:2023-05-01 |
# semeval-2023タスク12:アフリカ語感情分析(アフィリエンス・セメヴァル) SemEval-2023 Task 12: Sentiment Analysis for African Languages (AfriSenti-SemEval) ( http://arxiv.org/abs/2304.06845v2 ) ライセンス: Link先を確認 | Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Seid Muhie Yimam, David Ifeoluwa Adelani, Ibrahim Sa'id Ahmad, Nedjma Ousidhoum, Abinew Ayele, Saif M. Mohammad, Meriem Beloucif, Sebastian Ruder | (参考訳) Africentric SemEval Shared Task, Sentiment Analysis for African Languages (AfriSenti-SemEval) - このデータセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で公開されている。
amharic, algerian arabic, hausa, igbo, kinyarwanda, moroccan arabic, mozambican portuguese, nigerian pidgin, oromo, swahili, tigrinya, twi, xitsonga, yor\`ub\'a (muhammad et al., 2023) の14のアフリカの言語における感情分類課題である。
1)タスクA:単言語分類44件,(2)タスクB:多言語分類32件,(3)タスクC:ゼロショット分類34件のサブタスクを提示した。
タスクAとBの最高のパフォーマンスは、それぞれ71.31と75.06の重み付きF1のNLNDEチームによって達成された。
UCAS-IIE-NLPは58.15重み付きF1のタスクCで最高の平均スコアを達成した。
トップ10システムで採用されている様々なアプローチとそのアプローチについて説明する。 We present the first Africentric SemEval Shared task, Sentiment Analysis for African Languages (AfriSenti-SemEval) - The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023. AfriSenti-SemEval is a sentiment classification challenge in 14 African languages: Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a (Muhammad et al., 2023), using data labeled with 3 sentiment classes. We present three subtasks: (1) Task A: monolingual classification, which received 44 submissions; (2) Task B: multilingual classification, which received 32 submissions; and (3) Task C: zero-shot classification, which received 34 submissions. The best performance for tasks A and B was achieved by NLNDE team with 71.31 and 75.06 weighted F1, respectively. UCAS-IIE-NLP achieved the best average score for task C with 58.15 weighted F1. We describe the various approaches adopted by the top 10 systems and their approaches. | 翻訳日:2023-05-02 17:55:12 公開日:2023-05-01 |
# UniNeXt: 視覚認識のための統一アーキテクチャ UniNeXt: Exploring A Unified Architecture for Vision Recognition ( http://arxiv.org/abs/2304.13700v2 ) ライセンス: Link先を確認 | Fangjian Lin, Jianlong Yuan, Sitong Wu, Fan Wang, Zhibin Wang | (参考訳) ビジョントランスフォーマーはコンピュータビジョンタスクに大きな可能性を示している。
最近の研究は、パフォーマンス向上のための空間トークンミキサーの開発に重点を置いている。
しかし、よく設計された汎用アーキテクチャは、どの空間トークンミキサーを備えているかに関わらず、バックボーン全体の性能を大幅に向上させることができる。
本稿では,ビジョンバックボーンの汎用アーキテクチャを改良したuninextを提案する。
その効果を検証するために,コンボリューションモジュールとアテンションモジュールの両方を含む,様々な典型的なデザインと現代的なデザインで空間トークンミキサーをインスタンス化する。
最初に提案されたアーキテクチャと比較して、私たちのuninextアーキテクチャは、すべての空間トークンミキサーのパフォーマンスを着実に向上させ、それらの間のパフォーマンスギャップを狭めます。
驚いたことに、われわれのUniNeXtは、従来の最先端の窓ガラスよりも優れている。
興味深いことに、これらの空間トークンミキサーのランキングは、UniNeXtの下でも変化しており、優れた空間トークンミキサーは、最適下限の一般的なアーキテクチャのため、緩和される可能性があることを示唆している。
すべてのモデルとコードは公開されます。 Vision Transformers have shown great potential in computer vision tasks. Most recent works have focused on elaborating the spatial token mixer for performance gains. However, we observe that a well-designed general architecture can significantly improve the performance of the entire backbone, regardless of which spatial token mixer is equipped. In this paper, we propose UniNeXt, an improved general architecture for the vision backbone. To verify its effectiveness, we instantiate the spatial token mixer with various typical and modern designs, including both convolution and attention modules. Compared with the architecture in which they are first proposed, our UniNeXt architecture can steadily boost the performance of all the spatial token mixers, and narrows the performance gap among them. Surprisingly, our UniNeXt equipped with naive local window attention even outperforms the previous state-of-the-art. Interestingly, the ranking of these spatial token mixers also changes under our UniNeXt, suggesting that an excellent spatial token mixer may be stifled due to a suboptimal general architecture, which further shows the importance of the study on the general architecture of vision backbone. All models and codes will be publicly available. | 翻訳日:2023-05-02 17:47:16 公開日:2023-05-01 |
# 財務発表における構造図認識 Structure Diagram Recognition in Financial Announcements ( http://arxiv.org/abs/2304.13240v2 ) ライセンス: Link先を確認 | Meixuan Qiao, Jun Wang, Junfu Xiang, Qiyu Hou, Ruixuan Li | (参考訳) 財務発表において構造図から正確な構造化データを抽出することは、財務知識グラフの構築と、様々な金融アプリケーションの効率の向上に非常に重要な課題である。
まず,金融発表における構造図の認識手法を提案し,方向や角度の異なる直線,曲線,ポリラインなど,様々な種類の接続線をよりよく検出し抽出する手法を提案する。
第2に,中国の金融発表から業界初となる構造図のベンチマークを効率的に生成する2段階の手法を開発し,多数のダイアグラムを合成・注釈付けし,かなり良好な性能で予備認識モデルを訓練し,その予備モデルを用いて実世界の構造図を自動的に注釈付けし,手作業による補正をほとんど行わない高品質なベンチマークを得ることができた。
最後に,本手法を用いた構造図認識手法の有効性を実験的に検証した。 Accurately extracting structured data from structure diagrams in financial announcements is of great practical importance for building financial knowledge graphs and further improving the efficiency of various financial applications. First, we proposed a new method for recognizing structure diagrams in financial announcements, which can better detect and extract different types of connecting lines, including straight lines, curves, and polylines of different orientations and angles. Second, we developed a two-stage method to efficiently generate the industry's first benchmark of structure diagrams from Chinese financial announcements, where a large number of diagrams were synthesized and annotated using an automated tool to train a preliminary recognition model with fairly good performance, and then a high-quality benchmark can be obtained by automatically annotating the real-world structure diagrams using the preliminary model and then making few manual corrections. Finally, we experimentally verified the significant performance advantage of our structure diagram recognition method over previous methods. | 翻訳日:2023-05-02 17:46:30 公開日:2023-05-01 |
# Folding-free ZNE: 完全量子ゼロノイズ外挿法による脱分極と脱コヒーレンスノイズの緩和 Folding-Free ZNE: A Comprehensive Quantum Zero-Noise Extrapolation Approach for Mitigating Depolarizing and Decoherence Noise ( http://arxiv.org/abs/2305.00622v1 ) ライセンス: Link先を確認 | Hrushikesh Patil, Peiyi Li, Ji Liu and Huiyang Zhou | (参考訳) NISQ時代の量子コンピュータはノイズを起こしやすい。
この問題に対処するために、様々な量子エラー軽減技術が提案されている。
zero-noise extrapolation (zne) は有望なものである。
ZNEは、回路内のノイズレベルを増大させ、外挿を用いてノイズのゼロケースをノイズの結果から推測する。
本稿では,デポーライゼーションやデコヒーレンスノイズを軽減するために,回路折り畳みやノイズスケーリングを必要としない新しいzne手法を提案する。
非分極ノイズを軽減するため,回路の折りたたみを回避できる極端/無限ノイズケースの活用を提案する。
具体的には、極端ノイズの回路出力が最大混合状態となる。
回路信頼性の指標を用いることで、単純な線形補間は脱分極ノイズを効果的に軽減できることを示す。
デコヒーレンスノイズでは、励起状態の数と時間に依存する速度で、異なる状態が全ゼロ状態に崩壊する。
そこで本稿では,折り畳みやスケーリングを伴わない状態と遅延を考慮した指数関数外挿を提案する。
量子系をデコヒーレンスとデポラライズノイズの両方の影響で扱う場合、まず、デコヒーレンス誤差を緩和し、次にデポラライズエラーを緩和する2つの手法をシーケンスで使用することを提案する。
ZNEスキームの一般的な制限は、興味のある回路が高雑音に悩まされている場合、スケールアップノイズレベルは外挿に有用なデータを提供しられなかったことである。
この制限を克服するために、回路切断技術を用いて大きな量子回路を小さなサブ回路に分割する。
このようにして、サブ回路のノイズレベルは元の回路よりも低くなり、ZNEはそのノイズを緩和するのにより効果的になる。 Quantum computers in the NISQ era are prone to noise. A range of quantum error mitigation techniques has been proposed to address this issue. Zero-noise extrapolation (ZNE) stands out as a promising one. ZNE involves increasing the noise levels in a circuit and then using extrapolation to infer the zero noise case from the noisy results obtained. This paper presents a novel ZNE approach that does not require circuit folding or noise scaling to mitigate depolarizing and/or decoherence noise. To mitigate depolarizing noise, we propose leveraging the extreme/infinite noisy case, which allows us to avoid circuit folding. Specifically, the circuit output with extreme noise becomes the maximally mixed state. We show that using circuit-reliability metrics, simple linear extrapolation can effectively mitigate depolarizing noise. With decoherence noise, different states decay into the all-zero state at a rate that depends on the number of excited states and time. Therefore, we propose a state- and latency-aware exponential extrapolation that does not involve folding or scaling. When dealing with a quantum system affected by both decoherence and depolarizing noise, we propose to use our two mitigation techniques in sequence: first applying decoherence error mitigation, followed by depolarizing error mitigation. A common limitation of ZNE schemes is that if the circuit of interest suffers from high noise, scaling-up noise levels could not provide useful data for extrapolation. We propose using circuit-cut techniques to break a large quantum circuit into smaller sub-circuits to overcome this limitation. This way, the noise levels of the sub-circuits are lower than the original circuit, and ZNE can become more effective in mitigating their noises. | 翻訳日:2023-05-02 14:20:25 公開日:2023-05-01 |
# 生存分析のための適切なスコアリングルール Proper Scoring Rules for Survival Analysis ( http://arxiv.org/abs/2305.00621v1 ) ライセンス: Link先を確認 | Hiroki Yanagisawa | (参考訳) 生存分析は、将来の事象の確率分布を推定する問題であり、不確実な定量化の問題と見なすことができる。
不確実性定量化のための厳密なスコアリングルールに関する基本的な理論は存在するが、サバイバル分析についてはほとんど知られていない。
本稿では, 生存分析のための4つの主要な厳密なスコアリングルールの拡張について検討し, 確率分布の推定の離散化から生じる一定の条件下では, これらの拡張が適切であることを証明した。
また,これら拡張スコアルールの推定性能を実データを用いて比較し,対数スコアとブライアスコアの拡張が最良であった。 Survival analysis is the problem of estimating probability distributions for future event times, which can be seen as a problem in uncertainty quantification. Although there are fundamental theories on strictly proper scoring rules for uncertainty quantification, little is known about those for survival analysis. In this paper, we investigate extensions of four major strictly proper scoring rules for survival analysis and we prove that these extensions are proper under certain conditions, which arise from the discretization of the estimation of probability distributions. We also compare the estimation performances of these extended scoring rules by using real datasets, and the extensions of the logarithmic score and the Brier score performed the best. | 翻訳日:2023-05-02 14:19:57 公開日:2023-05-01 |
# クラスインクリメンタルプレーヤー検出のための精製応答蒸留 Refined Response Distillation for Class-Incremental Player Detection ( http://arxiv.org/abs/2305.00620v1 ) ライセンス: Link先を確認 | Liang Bai, Hangjie Yuan, Tao Feng, Hong Song, Jian Yang | (参考訳) スポーツ放送映像からプレイヤーを検出することはインテリジェントなイベント分析に不可欠である。
しかし、既存の手法では固定されたプレイヤーのカテゴリを想定しており、カテゴリが進化し続ける現実のシナリオを満たしていない。
これらの手法を新しいカテゴリーに直接微調整することは、非定常分布による破滅的な忘れ物が存在する。
インクリメンタルオブジェクト検出(IOD)の最近の研究に触発されて,プレイヤーのIODタスクに対する破滅的忘れを効果的に軽減するRefined Response Distillation (R^2D)法を提案する。
まず,高値領域と低値領域を分類および回帰応答から分離し,精密かつきめ細かな地域知識蒸留を行うプログレッシブ粗粒蒸留領域分割方式を設計する。
その後、プレイヤーのIODタスクにおける特徴均質性によって引き起こされる性能限界に対処するために、様々な意味を持つ地域で、調整された精製蒸留戦略が展開される。
さらに,NBA-IOD と Volleyball-IOD のデータセットをベンチマークとして提示し,選手の IOD タスクを体系的に検討する。
ベンチマークで行った大規模な実験は,我々の手法が最先端の結果を達成できることを示し,コードとデータセットはhttps://github.com/beiyan1911/Players-IODで公開されている。 Detecting players from sports broadcast videos is essential for intelligent event analysis. However, existing methods assume fixed player categories, incapably accommodating the real-world scenarios where categories continue to evolve. Directly fine-tuning these methods on newly emerging categories also exist the catastrophic forgetting due to the non-stationary distribution. Inspired by recent research on incremental object detection (IOD), we propose a Refined Response Distillation (R^2D) method to effectively mitigate catastrophic forgetting for IOD tasks of the players. Firstly, we design a progressive coarse-to-fine distillation region dividing scheme, separating high-value and low-value regions from classification and regression responses for precise and fine-grained regional knowledge distillation. Subsequently, a tailored refined distillation strategy is developed on regions with varying significance to address the performance limitations posed by pronounced feature homogeneity in the IOD tasks of the players. Furthermore, we present the NBA-IOD and Volleyball-IOD datasets as the benchmark and investigate the IOD tasks of the players systematically. Extensive experiments conducted on benchmarks demonstrate that our method achieves state-of-the-art results.The code and datasets are available at https://github.com/beiyan1911/Players-IOD. | 翻訳日:2023-05-02 14:19:45 公開日:2023-05-01 |
# インクリメンタルデータを用いた自己教師型活動表現学習 : 実証的研究 Self-supervised Activity Representation Learning with Incremental Data: An Empirical Study ( http://arxiv.org/abs/2305.00619v1 ) ライセンス: Link先を確認 | Jason Liu, Shohreh Deldari, Hao Xue, Van Nguyen, Flora D. Salim | (参考訳) モバイルセンシング環境では、モバイルデバイス上の様々なセンサーが大量のデータを連続的に生成する。
この絶え間ないデータの解析には、注釈付きデータへのアクセス制限や、絶えず変化する環境など、いくつかの課題がある。
近年の自己教師付き学習の進歩は,ラベル付きデータセットの欠如に対処する従来の教師付きモデルの性能向上のための事前学習段階として活用されている。
本研究では,データを漸進的に利用できる時系列分類タスクに対して,自己教師付き表現学習モデルが与える影響について検討する。
本研究では,ラベルなし時系列データのコーパスを用いて情報的特徴を抽出し,モデルから抽出した特徴を用いてラベル付きデータの分類を行うワークフローを提案し評価した。
各種センサを含む4つの公開データセットにおいて,ラベル付きデータのサイズ,分布,ソースが最終分類性能に与える影響を解析した。 In the context of mobile sensing environments, various sensors on mobile devices continually generate a vast amount of data. Analyzing this ever-increasing data presents several challenges, including limited access to annotated data and a constantly changing environment. Recent advancements in self-supervised learning have been utilized as a pre-training step to enhance the performance of conventional supervised models to address the absence of labelled datasets. This research examines the impact of using a self-supervised representation learning model for time series classification tasks in which data is incrementally available. We proposed and evaluated a workflow in which a model learns to extract informative features using a corpus of unlabeled time series data and then conducts classification on labelled data using features extracted by the model. We analyzed the effect of varying the size, distribution, and source of the unlabeled data on the final classification performance across four public datasets, including various types of sensors in diverse applications. | 翻訳日:2023-05-02 14:19:22 公開日:2023-05-01 |
# 任意のデバイスへの熱力学的理想的量子状態入力 Thermodynamically ideal quantum-state inputs to any device ( http://arxiv.org/abs/2305.00616v1 ) ライセンス: Link先を確認 | Paul M. Riechers, Chaitanya Gupta, Artemy Kolchinsky, Mile Gu | (参考訳) 我々は、任意の有限時間熱力学過程に対する理想的な入力を調査し、確認する。
エントロピー流, 熱, 作業の期待値は, 初期状態のエルミート観測によって決定できることを実証する。
これらのエルミート作用素は、共通の熱力学的目的に対する振る舞いの幅と理想的な入力をカプセル化する。
有限個の有効任意の入力からの熱力学出力の測定からこれらのエルミート作用素を構築する方法を示す。
少数のテスト入力の振舞いは、全ての入力から熱力学的挙動の完全な範囲を決定する。
いずれのプロセスにおいても、エントロピーフロー、熱、作業はすべて、各演算子の固有状態である純粋な入力状態によって超過することができる。
対照的に、エントロピー生成を最小化し、自由エネルギーの変化を最大化する入力状態は、凸最適化問題の解として演算子から得られる非純混合状態である。
これらを実現するために,各反復ステップで解析解が妥当な降下方向を導く密度行列多様体上で容易に実装可能な勾配降下法を提案する。
限定領域内の理想的な入力とその関連する熱力学的作用素は少ない労力で得られる。
これにより、無限次元量子系の量子部分空間内の理想的な熱力学的入力の解析が可能になる。
固有初期状態はエントロピー生産を最小化し、自由エネルギーの変化を最大化し、仕事の抽出を最大化する。 We investigate and ascertain the ideal inputs to any finite-time thermodynamic process. We demonstrate that the expectation values of entropy flow, heat, and work can all be determined via Hermitian observables of the initial state. These Hermitian operators encapsulate the breadth of behavior and the ideal inputs for common thermodynamic objectives. We show how to construct these Hermitian operators from measurements of thermodynamic output from a finite number of effectively arbitrary inputs. Behavior of a small number of test inputs thus determines the full range of thermodynamic behavior from all inputs. For any process, entropy flow, heat, and work can all be extremized by pure input states -- eigenstates of the respective operators. In contrast, the input states that minimize entropy production or maximize the change in free energy are non-pure mixed states obtained from the operators as the solution of a convex optimization problem. To attain these, we provide an easily implementable gradient descent method on the manifold of density matrices, where an analytic solution yields a valid direction of descent at each iterative step. Ideal inputs within a limited domain, and their associated thermodynamic operators, are obtained with less effort. This allows analysis of ideal thermodynamic inputs within quantum subspaces of infinite-dimensional quantum systems; it also allows analysis of ideal inputs in the classical limit. Our examples illustrate the diversity of 'ideal' inputs: Distinct initial states minimize entropy production, extremize the change in free energy, and maximize work extraction. | 翻訳日:2023-05-02 14:19:07 公開日:2023-05-01 |
# repuアクティベーションを持つ微分可能なニューラルネットワーク:スコア推定と等張回帰への応用 Differentiable Neural Networks with RePU Activation: with Applications to Score Estimation and Isotonic Regression ( http://arxiv.org/abs/2305.00608v1 ) ライセンス: Link先を確認 | Guohao Shen, Yuling Jiao, Yuanyuan Lin, and Jian Huang | (参考訳) 整流パワーユニット(RePU)関数によって活性化される可変ニューラルネットワークの特性について検討する。
本稿では,RePU ニューラルネットワークの部分微分を RePU 混合活性化ネットワークで表現し,RePU ネットワークの関数クラスの複雑性の上限を導出することを示す。
本稿では,RePU活性化深層ニューラルネットワークを用いて,C^s$スムーズ関数とその導関数を同時に近似するための誤差境界を確立する。
さらに、データに近似した低次元サポートがある場合の近似誤差境界を改善し、RePUネットワークが次元性の呪いを軽減できることを示す。
結果の有用性を説明するために,RePUネットワークを用いた深部スコアマッチング推定器 (DSME) とペナル化深部ソトニック回帰 (PDIR) を提案する。
DSME と PDIR の非漸近的過剰リスク境界は、対象関数が滑らかな関数のクラスに属するという仮定の下で成立する。
また,単調性仮定が満たされていない場合でも,PDIRはペナルティパラメータの消滅と整合性を有することを示す。
さらに, 近似低次元多様体上でデータ分布が支持される場合, dsme と pdir は次元の呪いを緩和できることを示す。 We study the properties of differentiable neural networks activated by rectified power unit (RePU) functions. We show that the partial derivatives of RePU neural networks can be represented by RePUs mixed-activated networks and derive upper bounds for the complexity of the function class of derivatives of RePUs networks. We establish error bounds for simultaneously approximating $C^s$ smooth functions and their derivatives using RePU-activated deep neural networks. Furthermore, we derive improved approximation error bounds when data has an approximate low-dimensional support, demonstrating the ability of RePU networks to mitigate the curse of dimensionality. To illustrate the usefulness of our results, we consider a deep score matching estimator (DSME) and propose a penalized deep isotonic regression (PDIR) using RePU networks. We establish non-asymptotic excess risk bounds for DSME and PDIR under the assumption that the target functions belong to a class of $C^s$ smooth functions. We also show that PDIR has a robustness property in the sense it is consistent with vanishing penalty parameters even when the monotonicity assumption is not satisfied. Furthermore, if the data distribution is supported on an approximate low-dimensional manifold, we show that DSME and PDIR can mitigate the curse of dimensionality. | 翻訳日:2023-05-02 14:18:46 公開日:2023-05-01 |
# テキスト情報による時間的行動局所化の強化 Boosting Weakly-Supervised Temporal Action Localization with Text Information ( http://arxiv.org/abs/2305.00607v1 ) ライセンス: Link先を確認 | Guozhang Li, De Cheng, Xinpeng Ding, Nannan Wang, Xiaoyu Wang, Xinbo Gao | (参考訳) 時間的アノテーションが欠如しているため、現在の弱制御時間的行動局所化(WTAL)法は概して過度に完全あるいは不完全な局所化に留まっている。
本稿では、テキスト情報を活用してWTALを2つの側面から強化することを目的とする。
a) クラス間差を拡大する差別的目的により、過剰な完全性を減少させる。
b) クラス内整合性を高めるための生成的目的により, 時間的境界がより完全になる。
識別的目的のために,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案し,そのテキストをすべてのクラス関連セグメントをマイニングするクエリとみなす。
アクションの時間的アノテーションがなければ、TSMはテキストクエリをデータセット全体のビデオと比較し、最適なマッチングセグメントをマイニングしながら、無関係なセグメントを無視します。
ビデオの異なるカテゴリにおける共有サブアクションのため、単にTSMを適用するだけで意味的関連セグメントを無視できないため、不完全なローカライゼーションが生じる。
さらに,ビデオから意味関連セグメントを抽出してテキスト文を補完する,vlc(video-text language completion)という生成目的についても紹介する。
我々はTHUMOS14とActivityNet1.3の最先端性能を実現する。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
コードはhttps://github.com/lgzlIlIlI/Boosting-WTALで公開されている。 Due to the lack of temporal annotation, current Weakly-supervised Temporal Action Localization (WTAL) methods are generally stuck into over-complete or incomplete localization. In this paper, we aim to leverage the text information to boost WTAL from two aspects, i.e., (a) the discriminative objective to enlarge the inter-class difference, thus reducing the over-complete; (b) the generative objective to enhance the intra-class integrity, thus finding more complete temporal boundaries. For the discriminative objective, we propose a Text-Segment Mining (TSM) mechanism, which constructs a text description based on the action class label, and regards the text as the query to mine all class-related segments. Without the temporal annotation of actions, TSM compares the text query with the entire videos across the dataset to mine the best matching segments while ignoring irrelevant ones. Due to the shared sub-actions in different categories of videos, merely applying TSM is too strict to neglect the semantic-related segments, which results in incomplete localization. We further introduce a generative objective named Video-text Language Completion (VLC), which focuses on all semantic-related segments from videos to complete the text sentence. We achieve the state-of-the-art performance on THUMOS14 and ActivityNet1.3. Surprisingly, we also find our proposed method can be seamlessly applied to existing methods, and improve their performances with a clear margin. The code is available at https://github.com/lgzlIlIlI/Boosting-WTAL. | 翻訳日:2023-05-02 14:18:23 公開日:2023-05-01 |
# セネガル語wolof言語のための低資源機械翻訳 Low-Resourced Machine Translation for Senegalese Wolof Language ( http://arxiv.org/abs/2305.00606v1 ) ライセンス: Link先を確認 | Derguene Mbaye, Moussa Diallo, Thierno Ibrahima Diop | (参考訳) 自然言語処理(NLP)の研究は近年大きな進歩を遂げ、新たなベンチマークを確立している。
しかし、これらの進歩は主に英語やフランス語のような資源に富む言語群に恩恵を与えてきた。
弱い資源を持つ他の言語の大部分は後に残され、wolofを含むほとんどのアフリカの言語がそうである。
本研究では,RNN(Recurrent Neural Networks)に基づく機械翻訳モデルの実験を行い,123,000の文からなるWolof/Frenchコーパスについて述べる。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。 Natural Language Processing (NLP) research has made great advancements in recent years with major breakthroughs that have established new benchmarks. However, these advances have mainly benefited a certain group of languages commonly referred to as resource-rich such as English and French. Majority of other languages with weaker resources are then left behind which is the case for most African languages including Wolof. In this work, we present a parallel Wolof/French corpus of 123,000 sentences on which we conducted experiments on machine translation models based on Recurrent Neural Networks (RNN) in different data configurations. We noted performance gains with the models trained on subworded data as well as those trained on the French-English language pair compared to those trained on the French-Wolof pair under the same experimental conditions. | 翻訳日:2023-05-02 14:17:57 公開日:2023-05-01 |
# ゼロデイマルウェアの分類とオンラインクラスタリング Classification and Online Clustering of Zero-Day Malware ( http://arxiv.org/abs/2305.00605v1 ) ライセンス: Link先を確認 | Olha Jure\v{c}kov\'a, Martin Jure\v{c}ek, R\'obert L\'orencz | (参考訳) 大量の新しいマルウェアが常に生成され、良質なサンプルと区別されるだけでなく、マルウェアファミリーにも分類されなければならない。
この目的のために、既存のマルウェアファミリーがどのように発展し、新興家族を調べる必要がある。
本稿では,悪意のあるサンプルのオンライン処理を,既存の家族に割り当てたり,新たな家族からサンプルを収集してクラスタ化する。
EMBERデータセットから有望な7つのマルウェアファミリーを実験し、トレーニングセットには4つ、テストセットには3つの新たなファミリーが加わった。
マルチ層パーセプトロンの分類スコアに基づいて,どのサンプルを分類し,どのサンプルを新しいマルウェア群に分類するかを決定した。
ストリーミングデータの97.21%を95.33%の精度で分類した。
そして、残りのデータを自己組織化マップを用いてクラスタ化し、4つのクラスタで47.61%から10個のクラスタで77.68%まで純度を得た。
これらの結果から,本手法はゼロデイマルウェアの分類とクラスタリングに応用できる可能性が示唆された。 A large amount of new malware is constantly being generated, which must not only be distinguished from benign samples, but also classified into malware families. For this purpose, investigating how existing malware families are developed and examining emerging families need to be explored. This paper focuses on the online processing of incoming malicious samples to assign them to existing families or, in the case of samples from new families, to cluster them. We experimented with seven prevalent malware families from the EMBER dataset, with four in the training set and three additional new families in the test set. Based on the classification score of the multilayer perceptron, we determined which samples would be classified and which would be clustered into new malware families. We classified 97.21% of streaming data with a balanced accuracy of 95.33%. Then, we clustered the remaining data using a self-organizing map, achieving a purity from 47.61% for four clusters to 77.68% for ten clusters. These results indicate that our approach has the potential to be applied to the classification and clustering of zero-day malware into malware families. | 翻訳日:2023-05-02 14:17:46 公開日:2023-05-01 |
# ISAACニュートン:ニュートン法における入力型近似曲線 ISAAC Newton: Input-based Approximate Curvature for Newton's Method ( http://arxiv.org/abs/2305.00604v1 ) ライセンス: Link先を確認 | Felix Petersen, Tobias Sutter, Christian Borgelt, Dongsung Huh, Hilde Kuehne, Yuekai Sun, Oliver Deussen | (参考訳) 本稿では、選択した2次情報を用いて勾配を定め、ニューロン数より小さいバッチサイズを仮定して、漸近的に計算オーバーヘッドを消失させるISAAC(Input-based ApproximAte Curvature)を提案する。
本研究では,各層への入力のみに基づいて,計算オーバーヘッドを伴わずに良好な条件を計算可能であることを示す。
提案手法は,小バッチ確率システムにおいても効果的なトレーニングが可能であり,二階法と同様に一階法と競合する。 We present ISAAC (Input-baSed ApproximAte Curvature), a novel method that conditions the gradient using selected second-order information and has an asymptotically vanishing computational overhead, assuming a batch size smaller than the number of neurons. We show that it is possible to compute a good conditioner based on only the input to a respective layer without a substantial computational overhead. The proposed method allows effective training even in small-batch stochastic regimes, which makes it competitive to first-order as well as second-order methods. | 翻訳日:2023-05-02 14:17:28 公開日:2023-05-01 |
# 知識変換による手続き的コンテンツ生成(PCG-KT) Procedural Content Generation via Knowledge Transformation (PCG-KT) ( http://arxiv.org/abs/2305.00644v1 ) ライセンス: Link先を確認 | Anurag Sarkar, Matthew Guzdial, Sam Snodgrass, Adam Summerville, Tiago Machado and Gillian Smith | (参考訳) 知識変換による手続き的コンテンツ生成(PCG-KT)の概念は、知識変換のプロセスによってコンテンツ生成が可能となるPCGメソッドとアプローチを特徴付けるための新しいレンズとフレームワークであり、それを別の領域に適用するために、あるドメインから派生した知識を変換する。
本研究の動機は,先進的な知識を再調達することで,新たなコンテンツを生み出すことに焦点を当てた最近のPCG作品が多数あることにある。
例えば、あるゲームの内容に適応するためにトレーニングされたモデルで転送学習を実行し、他のゲームのコンテンツに合わせて異なる生成分布を再結合して2つ以上のゲームのコンテンツをブレンドするなどである。
このようなアプローチは、トレーニングデータに欠けるゲームの生成モデルの作成や、全く新しいゲームのコンテンツの生成など、PCGの機械学習(PCGML)による制限によってもたらされた。
本稿では,PCG-KTの新たなレンズの下で,そのような手法を記述するための定義とフレームワークと,このフレームワークを用いた既存の研究を調査する。
最後に,この領域における今後の研究の課題と方向性を明らかにする。 We introduce the concept of Procedural Content Generation via Knowledge Transformation (PCG-KT), a new lens and framework for characterizing PCG methods and approaches in which content generation is enabled by the process of knowledge transformation -- transforming knowledge derived from one domain in order to apply it in another. Our work is motivated by a substantial number of recent PCG works that focus on generating novel content via repurposing derived knowledge. Such works have involved, for example, performing transfer learning on models trained on one game's content to adapt to another game's content, as well as recombining different generative distributions to blend the content of two or more games. Such approaches arose in part due to limitations in PCG via Machine Learning (PCGML) such as producing generative models for games lacking training data and generating content for entirely new games. In this paper, we categorize such approaches under this new lens of PCG-KT by offering a definition and framework for describing such methods and surveying existing works using this framework. Finally, we conclude by highlighting open problems and directions for future research in this area. | 翻訳日:2023-05-02 14:11:43 公開日:2023-05-01 |
# デコヒーレンスフリー部分空間における分散量子計算のためのヘラルド量子エンタングリングゲート Heralded quantum entangling gate for distributed quantum computation in a decoherence-free subspace ( http://arxiv.org/abs/2305.00642v1 ) ライセンス: Link先を確認 | Wanhua Su, Wei Qin, Adam Miranowicz, Tao Li, and Franco Nori | (参考訳) 空間的に分離された空洞に結合した2つの定常キュービットに絡み合うゲートを実装するためのヘラルド非局所プロトコルを提案する。
複合系の進化を動的に制御することにより、エンタングゲートはキャビティモードや原子の実際の励起なしに実現できる。
提案プロトコルの成功は,選択後の状態に補助原子を投射することで,ゲートの忠実度に対する消散の様々な有害な影響を同時に除去する。
原則として、単一原子の協調性が十分に大きくなるにつれて、ゲートの成功確率はユニティに近づくことができる。
さらに,デコヒーレンスフリーなサブ空間内に単一および2量子ゲートを実装し,集団的なデフォーカスノイズに免疫できることを示す。
したがって、このヘラルドで忠実で非ローカルな絡み合ったゲートプロトコルは、分散量子計算やスケーラブルな量子ネットワークに有用である。 We propose a heralded nonlocal protocol for implementing an entangling gate on two stationary qubits coupled to spatially separated cavities. By dynamically controlling the evolution of the composite system, the entangling gate can be achieved without real excitations of cavity modes nor atoms. The success of our protocol is conditioned on projecting an auxiliary atom onto a postselected state, which simultaneously removes various detrimental effects of dissipation on the gate fidelity. In principle, the success probability of the gate can approach unity as the single-atom cooperativity becomes sufficiently large. Furthermore, we show its application for implementing single- and two-qubit gates within a decoherence-free subspace that is immune to a collective dephasing noise. This heralded, faithful, and nonlocal entangling gate protocol can, therefore, be useful for distributed quantum computation and scalable quantum networks. | 翻訳日:2023-05-02 14:11:23 公開日:2023-05-01 |
# 過去推定:歴史的浸水マッピングのための衛星融合のためのCNN-LSTM深層学習フレームワーク Inferring the past: a combined CNN-LSTM deep learning framework to fuse satellites for historical inundation mapping ( http://arxiv.org/abs/2305.00640v1 ) ライセンス: Link先を確認 | Jonathan Giezendanner, Rohit Mukherjee, Matthew Purri, Mitchell Thomas, Max Mauerman, A.K.M. Saiful Islam, Beth Tellman | (参考訳) 衛星データを用いた洪水のマッピングは、洪水リスクの管理と緩和に不可欠である。
衛星画像は広域の迅速かつ正確な分析を可能にし、緊急対応と災害管理に重要な情報を提供する。
衛星画像から得られた歴史的洪水データは、長期計画、リスク管理戦略、保険に関する決定を知らせることができる。
sentinel-1衛星は洪水検出に有効であるが、長い時系列では、modisのような他の衛星をディープラーニングモデルと組み合わせて、過去の洪水イベントを正確に識別しマッピングすることができる。
本稿では, バングラデシュにおける歴史的洪水を推定するために, センチネル-1由来の分水浸水地域とMODISデータとを融合したCNN-LSTM深層学習フレームワークを開発した。
結果は、我々のフレームワークがcnnのみのアプローチを上回っており、スペースだけでなく、分数的な浸水領域を予測する時間も活用していることを示している。
このモデルは過去のmodisデータに適用され、バングラデシュにおける過去20年間の浸水範囲を推定し、しきい値アルゴリズムと物理モデルと比較する。
我々の融合モデルは、ピーク浸水量を予測するために、一貫性とキャパシティの両方のモデルを上回る。 Mapping floods using satellite data is crucial for managing and mitigating flood risks. Satellite imagery enables rapid and accurate analysis of large areas, providing critical information for emergency response and disaster management. Historical flood data derived from satellite imagery can inform long-term planning, risk management strategies, and insurance-related decisions. The Sentinel-1 satellite is effective for flood detection, but for longer time series, other satellites such as MODIS can be used in combination with deep learning models to accurately identify and map past flood events. We here develop a combined CNN--LSTM deep learning framework to fuse Sentinel-1 derived fractional flooded area with MODIS data in order to infer historical floods over Bangladesh. The results show how our framework outperforms a CNN-only approach and takes advantage of not only space, but also time in order to predict the fractional inundated area. The model is applied to historical MODIS data to infer the past 20 years of inundation extents over Bangladesh and compared to a thresholding algorithm and a physical model. Our fusion model outperforms both models in consistency and capacity to predict peak inundation extents. | 翻訳日:2023-05-02 14:11:09 公開日:2023-05-01 |
# 自己教師付きグラフ畳み込みネットワークを用いたメッシュインペインティングの学習 Learning Self-Prior for Mesh Inpainting Using Self-Supervised Graph Convolutional Networks ( http://arxiv.org/abs/2305.00635v1 ) ライセンス: Link先を確認 | Shota Hattori, Tatsuya Yatagawa, Yutaka Ohtake, Hiromasa Suzuki | (参考訳) 本研究では,データセットをトレーニングすることなく,入力として不完全なメッシュのみを必要とする自己優先型メッシュインペインティングフレームワークを提案する。
さらに,本手法は, ディープニューラルネットワークの処理が容易と考えられるボクセルグリッドやポイントクラウド, 暗黙関数など, 形状フォーマットを中間体に変換することなく, 塗装工程を通して多角形メッシュフォーマットを維持する。
この目的を達成するために、単分解能GCN(SGCN)と多分解能GCN(MGCN)の2つのグラフ畳み込みネットワーク(GCN)を導入する。
提案手法では,初期穴充填から得られた水密メッシュを改良し,出力メッシュを生成する。
具体的には、GCNをトレーニングして、入力メッシュの過度なバージョンを、期待される完成形に変形させる。
実孔での正確な変位が不明なにもかかわらず,GCNの正確な頂点変位を監視するために,複数の連結領域を偽孔として利用した。
正しい変位はこれらの偽の穴の頂点で知られており、GCNによって推定される変位ベクトルの精度を評価する損失関数によるネットワークトレーニングを可能にする。
本手法は,従来のデータセット非依存アプローチよりも優れており,形状データセットに出現頻度の低い他のディープラーニング方式に比べて頑健であることを示す。 This study presents a self-prior-based mesh inpainting framework that requires only an incomplete mesh as input, without the need for any training datasets. Additionally, our method maintains the polygonal mesh format throughout the inpainting process without converting the shape format to an intermediate, such as a voxel grid, a point cloud, or an implicit function, which are typically considered easier for deep neural networks to process. To achieve this goal, we introduce two graph convolutional networks (GCNs): single-resolution GCN (SGCN) and multi-resolution GCN (MGCN), both trained in a self-supervised manner. Our approach refines a watertight mesh obtained from the initial hole filling to generate a completed output mesh. Specifically, we train the GCNs to deform an oversmoothed version of the input mesh into the expected completed shape. To supervise the GCNs for accurate vertex displacements, despite the unknown correct displacements at real holes, we utilize multiple sets of meshes with several connected regions marked as fake holes. The correct displacements are known for vertices in these fake holes, enabling network training with loss functions that assess the accuracy of displacement vectors estimated by the GCNs. We demonstrate that our method outperforms traditional dataset-independent approaches and exhibits greater robustness compared to other deep-learning-based methods for shapes that less frequently appear in shape datasets. | 翻訳日:2023-05-02 14:10:47 公開日:2023-05-01 |
# 分解は自己評価ガイドによる推論を促進する Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding ( http://arxiv.org/abs/2305.00633v1 ) ライセンス: Link先を確認 | Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian He, Qizhe Xie | (参考訳) 本稿では,確率的ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
提案手法は,よく校正された自動基準を用いた推論探索空間を探索する。
これにより、効率的な検索が高品質な最終予測を生成することができる。
自己評価誘導確率ビーム探索により、推論連鎖の生成における品質-多様性トレードオフのバランスをとる。
これにより、GSM8K、AQUA、StrategyQAベンチマークでそれぞれ6.34 %$、9.56 %$、および5.46 %$のCodexバックボンドベースラインを数秒の精度で、多数決で順応することが可能になります。
分解的推論の分析では、論理的失敗を指摘し、一貫性と堅牢性を高める。 We propose an effective prompting approach that integrates self-evaluation guidance through stochastic beam search. Our approach explores the reasoning search space using a well-calibrated automatic criterion. This enables an efficient search to produce higher-quality final predictions. With the self-evaluation guided stochastic beam search, we also balance the quality--diversity trade-off in the generation of reasoning chains. This allows our approach to adapt well with majority voting and surpass the corresponding Codex-backboned baselines by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQUA, and StrategyQA benchmarks, respectively, in few-shot accuracy. Analysis of our decompositional reasoning finds it pinpoints logic failures and leads to higher consistency and robustness. | 翻訳日:2023-05-02 14:10:21 公開日:2023-05-01 |
# TRACE:コーナーとエッジに対応したテーブル再構築 TRACE: Table Reconstruction Aligned to Corner and Edges ( http://arxiv.org/abs/2305.00630v1 ) ライセンス: Link先を確認 | Youngmin Baek, Daehyun Nam, Jaeheung Surh, Seung Shin, Seonghyeon Kim | (参考訳) テーブルは、ドキュメント内の構造化された情報的コンテンツをキャプチャするオブジェクトであり、画像内のテーブルを認識することは、複雑で多様なテーブルレイアウトのために困難である。
1) 表検出(td) は画像内のテーブル領域を局在化し、(2) 表構造認識(tsr) はセル間の行と列間の隣接関係を識別する。
2段階のアプローチは、しばしばモジュール間のエラー伝播の結果を伴い、トレーニングと推論の非効率性を高める。
本研究では,テーブルがセルで構成され,各セルがエッジからなる境界で構成されているテーブルの自然特性を分析する。
ボトムアップ方式でテーブルを再構築する新しい手法を提案する。
提案手法は簡単なプロセスにより,角や縁などの低レベルの特徴から細胞境界を分離し,細胞を結合してテーブル位置を局在させる。
シンプルな設計はモデルを訓練しやすくし、以前の2段階の手法よりも少ない計算を必要とする。
ICDAR2013テーブル競合ベンチマークとWired Table in the Wild(WTW)データセットで最先端の性能を実現する。 A table is an object that captures structured and informative content within a document, and recognizing a table in an image is challenging due to the complexity and variety of table layouts. Many previous works typically adopt a two-stage approach; (1) Table detection(TD) localizes the table region in an image and (2) Table Structure Recognition(TSR) identifies row- and column-wise adjacency relations between the cells. The use of a two-stage approach often entails the consequences of error propagation between the modules and raises training and inference inefficiency. In this work, we analyze the natural characteristics of a table, where a table is composed of cells and each cell is made up of borders consisting of edges. We propose a novel method to reconstruct the table in a bottom-up manner. Through a simple process, the proposed method separates cell boundaries from low-level features, such as corners and edges, and localizes table positions by combining the cells. A simple design makes the model easier to train and requires less computation than previous two-stage methods. We achieve state-of-the-art performance on the ICDAR2013 table competition benchmark and Wired Table in the Wild(WTW) dataset. | 翻訳日:2023-05-02 14:10:07 公開日:2023-05-01 |
# 時間依存ユニタリ変換を用いた高速分散読み出しシミュレーションのための効率的な数値解法 An efficient numerical approach for the simulations of high-power dispersive readout with time-dependent unitary transformation ( http://arxiv.org/abs/2305.00628v1 ) ライセンス: Link先を確認 | Shimpei Goto and Kazuki Koshino | (参考訳) 回路量子電磁力学における高出力分散読み出しをシミュレートする効率的な数値解法を開発した。
高出力読み出しの数値シミュレーションでは、キャビティ内で誘起される大振幅コヒーレント状態は、そのような状態を記述するために多くのフォック状態が必要となるため、障害となる。
本研究では,コヒーレント状態の振幅がほとんど存在しないフレーム内のダイナミクスをシミュレートし,数値シミュレーションから大振幅コヒーレント状態を除去する。
提案手法を用いて,2レベルシステムとトランスモンの高出力分散読み出しを数値シミュレーションする。
高出力分散読み出しは2レベルシステムの場合では機能するが、トランスモンの場合、トランスモンは高出力光によって計算基底の外空間に励起されるため動作しない。 We develop an efficient numerical approach for simulating the high-power dispersive readout in circuit quantum electrodynamics. In the numerical simulations of the high-power readout, a large-amplitude coherent state induced in a cavity is an obstacle because many Fock states are required to describe such a state. We remove the large-amplitude coherent state from the numerical simulations by simulating the dynamics in a frame where the amplitude of the coherent state is almost absent. Using the developed method, we numerically simulate the high-power dispersive readout of the two-level system and the transmon. Although the high-power dispersive readout works in the two-level-system case, that in the transmon case does not work because the transmon is excited to the outer space of the computational basis by high-power light. | 翻訳日:2023-05-02 14:09:48 公開日:2023-05-01 |
# 確率マップを用いた完全自動僧帽弁4次元形状抽出 Fully automatic mitral valve 4D shape extraction using probability maps ( http://arxiv.org/abs/2305.00627v1 ) ライセンス: Link先を確認 | Yukiteru Masuda (1), Ryo Ishikawa (1), Toru Tanaka (1), Gakuto Aoyama (2), Keitaro Kawashima (2), James V. Chapman (3), Masahiko Asami (4), Michael Huy Cuong Pham (5), Klaus Fuglsang Kofoed (5), Takuya Sakaguchi (2), Kiyohide Satoh (1) ((1) Canon Inc., Tokyo, Japan, (2) Canon Medical Systems Corporation, Tochigi, Japan, (3) Canon Medical Informatics, Minnetonka, USA, (4) Division of Cardiology, Mitsui Memorial Hospital, Tokyo, Japan, (5) Department of Cardiology and Radiology, Copenhagen University Hospital - Rigshospitalet & Department of Clinical Medicine, Faculty of Health and Medical Sciences, University of Copenhagen, Copenhagen, Denmark) | (参考訳) 臨床断層画像からの僧帽弁形状の正確な抽出は外科的および介入的僧帽弁治療の計画に有用であることが証明された。
しかし,手動による僧帽弁形状の抽出は困難であり,既存の自動抽出法は十分に正確ではない。
本稿では,心循環のすべての段階におけるCT画像から僧帽弁形状を抽出する完全自動抽出法を提案する。
本方法は、u-netにより推定された僧帽弁面積のct画像と存在確率マップの両方を入力として、dungnetに基づく僧帽弁形状を抽出する。
僧帽弁閉鎖不全症(MR)を含む各種心疾患患者204例のCT画像1585枚を収集し,手動で僧帽弁領域を診断した。
提案手法は,収集したデータを用いて10倍のクロス検証を行い,実存確率マップを用いない手法と比較した。
提案手法における形状抽出誤差の平均誤差は 0.88 mm であり, 存在確率マップのない方法と比較して 0.32 mm の改善である。 Accurate extraction of mitral valve shape from clinical tomographic images acquired in patients has proven useful for planning surgical and interventional mitral valve treatments. However, manual extraction of the mitral valve shape is laborious, and the existing automatic extraction methods have not been sufficiently accurate. In this paper, we propose a fully automated method of extracting mitral valve shape from computed tomography (CT) images for the all phases of the cardiac cycle. This method extracts the mitral valve shape based on DenseNet using both the original CT image and the existence probability maps of the mitral valve area inferred by U-Net as input. A total of 1585 CT images from 204 patients with various cardiac diseases including mitral regurgitation (MR) were collected and manually annotated for mitral valve region. The proposed method was trained and evaluated by 10-fold cross validation using the collected data and was compared with the method without the existence probability maps. The mean error of shape extraction error in the proposed method is 0.88 mm, which is an improvement of 0.32 mm compared with the method without the existence probability maps. | 翻訳日:2023-05-02 14:09:32 公開日:2023-05-01 |
# 時系列応用のための拡散モデル:調査 Diffusion Models for Time Series Applications: A Survey ( http://arxiv.org/abs/2305.00624v1 ) ライセンス: Link先を確認 | Lequan Lin, Zhengkun Li, Ruikun Li, Xuliang Li, Junbin Gao | (参考訳) ディープラーニングに基づく生成モデルのファミリである拡散モデルは、最先端の機械学習研究で注目を集めている。
観察されたデータに類似したサンプルを生成するのに際し、拡散モデルは画像、ビデオ、テキスト合成に広く使われている。
近年、拡散の概念は時系列応用にも拡張され、多くの強力なモデルが開発されている。
本研究は,これらのモデルに関する方法論的要約と談話の欠如を踏まえ,本研究を新たな研究者のための基礎資料とし,今後の研究の動機づけにも貢献する。
さらに理解を深めるために,拡散モデルの基礎について概説する。
これ以外は, 時系列予測, インプテーション, 生成のための拡散に基づく手法に主眼を置き, それぞれ3つのセクションで提示する。
また、同じアプリケーションに対して異なる方法を比較し、適用すればそれらの接続を強調します。
最後に,拡散型手法の共通限界を結論し,今後の研究の方向性を明らかにする。 Diffusion models, a family of generative models based on deep learning, have become increasingly prominent in cutting-edge machine learning research. With a distinguished performance in generating samples that resemble the observed data, diffusion models are widely used in image, video, and text synthesis nowadays. In recent years, the concept of diffusion has been extended to time series applications, and many powerful models have been developed. Considering the deficiency of a methodical summary and discourse on these models, we provide this survey as an elementary resource for new researchers in this area and also an inspiration to motivate future research. For better understanding, we include an introduction about the basics of diffusion models. Except for this, we primarily focus on diffusion-based methods for time series forecasting, imputation, and generation, and present them respectively in three individual sections. We also compare different methods for the same application and highlight their connections if applicable. Lastly, we conclude the common limitation of diffusion-based methods and highlight potential future research directions. | 翻訳日:2023-05-02 14:09:15 公開日:2023-05-01 |
# ノード表現のコントラスト学習のための簡易フレームワーク A Simplified Framework for Contrastive Learning for Node Representations ( http://arxiv.org/abs/2305.00623v1 ) ライセンス: Link先を確認 | Ilgee Hong, Huy Tran, Claire Donnat | (参考訳) コントラスト学習は、リッチで汎用的なデータ表現を抽出するための強力な自己教師付き学習フレームワークとして確立された。
広義的には、コントラスト学習は入力データの2つのバージョンを生成するデータ拡張スキームに依存し、正規化温度スケールクロスエントロピー損失(NT-Xent)を最大化して低次元表現を学習し、同じ元のエンティティに対応する拡張サンプルを識別する。
本稿では,グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
具体的には,多くのピアメソッドで採用されている多層パーセプトロン(mlps)による行別ポストプロセッシングに代えて,組込み行列の単純な列別ポストプロセッシングによって,組込みとトレーニング時間の質が著しく向上することを示す。
この修正は、ダウンストリームの分類タスクを最大1.5%改善し、8つのベンチマークのうち6つで既存の最先端のアプローチを上回っている。
ポストプロセッシングの選択を正当化するために、"alignment vs. uniformity paradigm"を再検討し、列ごとのポストプロセッシングが埋め込みの"alignment"と"uniformity"の両方を改善していることを示します。 Contrastive learning has recently established itself as a powerful self-supervised learning framework for extracting rich and versatile data representations. Broadly speaking, contrastive learning relies on a data augmentation scheme to generate two versions of the input data and learns low-dimensional representations by maximizing a normalized temperature-scaled cross entropy loss (NT-Xent) to identify augmented samples corresponding to the same original entity. In this paper, we investigate the potential of deploying contrastive learning in combination with Graph Neural Networks for embedding nodes in a graph. Specifically, we show that the quality of the resulting embeddings and training time can be significantly improved by a simple column-wise postprocessing of the embedding matrix, instead of the row-wise postprocessing via multilayer perceptrons (MLPs) that is adopted by the majority of peer methods. This modification yields improvements in downstream classification tasks of up to 1.5% and even beats existing state-of-the-art approaches on 6 out of 8 different benchmarks. We justify our choices of postprocessing by revisiting the "alignment vs. uniformity paradigm", and show that column-wise post-processing improves both "alignment" and "uniformity" of the embeddings. | 翻訳日:2023-05-02 14:08:59 公開日:2023-05-01 |
# PRSeg: セマンティックセグメンテーションのための軽量パッチロータレートMPPデコーダ PRSeg: A Lightweight Patch Rotate MLP Decoder for Semantic Segmentation ( http://arxiv.org/abs/2305.00671v1 ) ライセンス: Link先を確認 | Yizhe Ma, Fangjian Lin, Sitong Wu, Shengwei Tian, Long Yu | (参考訳) MLPベースの軽量デコーダは、セマンティックセグメンテーションにますます期待されている。
しかし、チャネルワイズMLPは、セマンティックセグメンテーションにとって重要なコンテキストモデリング能力が欠如しているため、受容領域を拡張できない。
本稿では,空間的に画素を再構成するパラメトリックフリーパッチ回転演算を提案する。
まず特徴マップを複数のグループに分割し、各グループ内でパッチを回転させる。
提案したパッチローテーション動作に基づいて,複数の動的パッチロータットブロック(DPR-Blocks)を含むオフザシェルバックボーンと軽量なパッチロータットMPPデコーダを備えた,PSSegと呼ばれるセグメントネットワークを設計する。
各dprブロックでは、パッチ回転モジュール(prm)に従って全連結層が実行され、画素間で空間情報を交換する。
具体的には、prmにおいて、特徴マップをまず、動的チャネル選択モジュール(dcsm)の予測確率に応じて、予約部とチャネル寸法に沿って回転部とに分割し、提案するパッチ回転操作は、回転部のみで行う。
ADE20K、Cityscapes、COCO-Stuff 10Kデータセットに関する大規模な実験により、我々のアプローチの有効性が証明された。
我々はPSSegが意味的セグメンテーションにおけるMPPベースのデコーダの開発を促進することを期待している。 The lightweight MLP-based decoder has become increasingly promising for semantic segmentation. However, the channel-wise MLP cannot expand the receptive fields, lacking the context modeling capacity, which is critical to semantic segmentation. In this paper, we propose a parametric-free patch rotate operation to reorganize the pixels spatially. It first divides the feature map into multiple groups and then rotates the patches within each group. Based on the proposed patch rotate operation, we design a novel segmentation network, named PRSeg, which includes an off-the-shelf backbone and a lightweight Patch Rotate MLP decoder containing multiple Dynamic Patch Rotate Blocks (DPR-Blocks). In each DPR-Block, the fully connected layer is performed following a Patch Rotate Module (PRM) to exchange spatial information between pixels. Specifically, in PRM, the feature map is first split into the reserved part and rotated part along the channel dimension according to the predicted probability of the Dynamic Channel Selection Module (DCSM), and our proposed patch rotate operation is only performed on the rotated part. Extensive experiments on ADE20K, Cityscapes and COCO-Stuff 10K datasets prove the effectiveness of our approach. We expect that our PRSeg can promote the development of MLP-based decoder in semantic segmentation. | 翻訳日:2023-05-02 14:03:05 公開日:2023-05-01 |
# 誤差補正による貯留層計算:確率力学系の長期挙動 Reservoir Computing with Error Correction: Long-term Behaviors of Stochastic Dynamical Systems ( http://arxiv.org/abs/2305.00669v1 ) ライセンス: Link先を確認 | Cheng Fang, Yubin Lu, Ting Gao, Jinqiao Duan | (参考訳) 確率力学系の予測と動的挙動の把握は重大な問題である。
本稿では,Reservoir Computingと正規化フローを組み合わせたデータ駆動型フレームワークを提案する。このフレームワークは,従来のReservoir Computingのパフォーマンスを改善するためにエラーモデリングを模倣し,両方のアプローチを利用する。
このモデルフリー手法は, 確率力学系の長期発展を予測し, 動的挙動を再現する。
マルコフ・非マルコフおよび定常・非定常確率過程を線形・非線形確率微分方程式または確率遅延微分方程式で定義する。
提案手法の有効性をornstein-uhlenbeck法,double-well system,el ni\~no southern oscillation simplified model,stochastic lorenz systemの5つの実験で検証した。
さらに,ノイズ誘起ティッピング現象とストレンジアトラクタの複製について検討する。 The prediction of stochastic dynamical systems and the capture of dynamical behaviors are profound problems. In this article, we propose a data-driven framework combining Reservoir Computing and Normalizing Flow to study this issue, which mimics error modeling to improve the traditional Reservoir Computing performance and takes advantage of both approaches. This model-free method successfully predicts the long-term evolution of stochastic dynamical systems and replicates dynamical behaviors. With few assumptions about the underlying stochastic dynamical systems, we deal with Markov/non-Markov and stationary/non-stationary stochastic processes defined by linear/nonlinear stochastic differential equations or stochastic delay differential equations. We verify the effectiveness of the proposed framework in five experiments, including the Ornstein-Uhlenbeck process, Double-Well system, El Ni\~no Southern Oscillation simplified model, and stochastic Lorenz system. Additionally, we explore the noise-induced tipping phenomena and the replication of the strange attractor. | 翻訳日:2023-05-02 14:02:42 公開日:2023-05-01 |
# 自己監督型行動認識のためのコントラスト学習 Part Aware Contrastive Learning for Self-Supervised Action Recognition ( http://arxiv.org/abs/2305.00666v1 ) ライセンス: Link先を確認 | Yilei Hua, Wenhan Wu, Ce Zheng, Aidong Lu, Mengyuan Liu, Chen Chen, Shiqian Wu | (参考訳) 近年,スケルトンシーケンスと対比学習を用いた自己教師付き行動認識において顕著な結果が得られている。
人間の行動特徴のセマンティックな区別は、足や手などの局所的な身体部位によって表されることが多く、骨格に基づく行動認識に有利である。
本稿では,骨格表現の局所的類似性とグローバルな特徴を統合した,骨格表現学習のための注意型コントラスト学習フレームワークであるSkeAttnCLRを提案する。
これを実現するために、スケルトンからソフトアテンションマスクの特徴を学習するためにマルチヘッドアテンションマスクモジュールを使用し、局所的な塩分特徴をアクセントしながら非塩分局所特徴を抑え、特徴空間に類似した局所特徴を近づける。
さらに、グローバルな特徴を持つ正当性と非正則性に基づくコントラストペアを拡張して、スケルトン全体の意味表現をネットワークに教えることによって、多くのコントラストペアが生成される。
したがって、アテンションマスク機構により、SkeAttnCLRは異なるデータ拡張ビューの下でローカル機能を学ぶ。
実験の結果,局所的特徴類似性がスケルトンに基づく行動表現を著しく高めることが示された。
提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。 In recent years, remarkable results have been achieved in self-supervised action recognition using skeleton sequences with contrastive learning. It has been observed that the semantic distinction of human action features is often represented by local body parts, such as legs or hands, which are advantageous for skeleton-based action recognition. This paper proposes an attention-based contrastive learning framework for skeleton representation learning, called SkeAttnCLR, which integrates local similarity and global features for skeleton-based action representations. To achieve this, a multi-head attention mask module is employed to learn the soft attention mask features from the skeletons, suppressing non-salient local features while accentuating local salient features, thereby bringing similar local features closer in the feature space. Additionally, ample contrastive pairs are generated by expanding contrastive pairs based on salient and non-salient features with global features, which guide the network to learn the semantic representations of the entire skeleton. Therefore, with the attention mask mechanism, SkeAttnCLR learns local features under different data augmentation views. The experiment results demonstrate that the inclusion of local feature similarity significantly enhances skeleton-based action representation. Our proposed SkeAttnCLR outperforms state-of-the-art methods on NTURGB+D, NTU120-RGB+D, and PKU-MMD datasets. | 翻訳日:2023-05-02 14:02:23 公開日:2023-05-01 |
# グラフをまたいだ動的転送学習 Dynamic Transfer Learning across Graphs ( http://arxiv.org/abs/2305.00664v1 ) ライセンス: Link先を確認 | Haohui Wang, Yuzhen Mao, Jianhui Sun, Si Zhang, Dawei Zhou | (参考訳) グラフにまたがる知識の伝達は、輸送ネットワークからeコマースネットワーク、神経科学から金融まで、多くの高リスクドメインにおいて重要な役割を担っている。
これまで、既存の著作物の大部分は、ソース領域とターゲット領域の両方が普遍分布と定常分布からサンプリングされていると仮定している。
しかし、多くの現実世界のシステムは本質的に動的であり、基礎となるドメインは時間とともに進化している。
ラベルリッチなソースグラフと以前のtタイムスタンプで観測されたラベル付きターゲットグラフを考えると、どのようにして進化するドメインの不一致を効果的に特徴付け、t+1タイムスタンプでターゲットドメインの一般化性能を最適化できるか?
そこで本研究では,まず,グラフ間の動的移動学習の設定を前提とした一般化法を提案し,その一般化性能は,領域の進化と対象領域間のドメイン差に支配されることを示す。
理論的結果から着想を得て,動的グラフ間の知識伝達性を改善するための新しい汎用フレームワークDyTransを提案する。
特に,進化する領域の時間情報をモデル化するtransformerベースの時間符号化モジュールから始めて,さらに動的領域統一モジュールの設計を行い,ソース領域とターゲット領域間のドメイン不変表現を効率的に学習する。
最後に、様々な実世界のデータセットに関する広範な実験により、動的ソースドメインから動的ターゲットドメインへの知識転送におけるDyTransの有効性を示す。 Transferring knowledge across graphs plays a pivotal role in many high-stake domains, ranging from transportation networks to e-commerce networks, from neuroscience to finance. To date, the vast majority of existing works assume both source and target domains are sampled from a universal and stationary distribution. However, many real-world systems are intrinsically dynamic, where the underlying domains are evolving over time. To bridge the gap, we propose to shift the problem to the dynamic setting and ask: given the label-rich source graphs and the label-scarce target graphs observed in previous T timestamps, how can we effectively characterize the evolving domain discrepancy and optimize the generalization performance of the target domain at the incoming T+1 timestamp? To answer the question, for the first time, we propose a generalization bound under the setting of dynamic transfer learning across graphs, which implies the generalization performance is dominated by domain evolution and domain discrepancy between source and target domains. Inspired by the theoretical results, we propose a novel generic framework DyTrans to improve knowledge transferability across dynamic graphs. In particular, we start with a transformer-based temporal encoding module to model temporal information of the evolving domains; then, we further design a dynamic domain unification module to efficiently learn domain-invariant representations across the source and target domains. Finally, extensive experiments on various real-world datasets demonstrate the effectiveness of DyTrans in transferring knowledge from dynamic source domains to dynamic target domains. | 翻訳日:2023-05-02 14:01:58 公開日:2023-05-01 |
# アクティブでないアクティベーション関数:ニューラルネットワークの解釈に関する妥当な理論 Activation Functions Not To Active: A Plausible Theory on Interpreting Neural Networks ( http://arxiv.org/abs/2305.00663v1 ) ライセンス: Link先を確認 | John Chiang | (参考訳) 研究者は通常、ニューラルネットワークは高次元空間をモデル化するが、この空間を明確に定義することはできないと考えている。
この空間は何ですか。
その寸法は?
有限次元はあるのか?
本稿では,ニューラルネットワークにおける活性化関数の役割の観点からニューラルネットワークを解釈する妥当な理論を開発し,高次元(より正確には無限次元)空間を定義する。
同時に、活性化関数は、低次元線型空間を無限次元空間に写す拡大関数として機能する。
f_1$, $f_2$, $\cdots$, $f_d$, $f_d$ の各例のデータセットが与えられると、nns は無限次元の特殊空間をモデル化し、そのそれぞれが単項的に$$$\prod_{i_1, i_2, \cdots, i_d} f_1^{i_1} f_2^{i_2} \cdots f_d^{i_d}$ が非負整数${i_1, i_2, \cdots, i_d} \in \mathbb{z}_{0}^{+}=\{0,1,2,3,\ldots\} である。
そのような無限次元空間を$\textit{ super space (ss)}$と呼ぶ。
このような次元を最小情報単位と見る。
NNの活性化層を経由した全てのニューロンノードは、実際には無限次多項式である$\textit{ Super Plane (SP) }$である。
この$\textit{ Super Space }$は座標系のようなもので、すべてのマルチ値関数を$\textit{ Super Plane }$で表現できる。
この観点から、回帰タスクのためのニューラルネットワークは、線形回帰の拡張、すなわち、ロジスティック回帰が線形回帰の拡張であるように、無限次元の特徴を持つ線形回帰の高度な変種と見なすことができる。
また、NNのトレーニングを少なくとも非線形方程式の解法に還元できることも示している。 Researchers commonly believe that neural networks model a high-dimensional space but cannot give a clear definition of this space. What is this space? What is its dimension? And does it has finite dimensions? In this paper, we develop a plausible theory on interpreting neural networks in terms of the role of activation functions in neural networks and define a high-dimensional (more precisely, an infinite-dimensional) space. We conjunction that the activation function acts as a magnifying function that maps the low-dimensional linear space into an infinite-dimensional space. Given a dataset with each example of $d$ features $f_1$, $f_2$, $\cdots$, $f_d$, we believe that NNs model a special space with infinite dimensions, each of which is a monomial $$\prod_{i_1, i_2, \cdots, i_d} f_1^{i_1} f_2^{i_2} \cdots f_d^{i_d}$$ for some non-negative integers ${i_1, i_2, \cdots, i_d} \in \mathbb{Z}_{0}^{+}=\{0,1,2,3,\ldots\} $. We term such an infinite-dimensional space $\textit{ Super Space (SS)}$. We see such a dimension as the minimum information unit. Every neuron node previously through an activation layer in NNs is a $\textit{ Super Plane (SP) }$, which is actually a polynomial of infinite degree. This $\textit{ Super Space }$ is something like a coordinate system, in which every multivalue function can be represented by a $\textit{ Super Plane }$. From this perspective, a neural network for regression tasks can be seen as an extension of linear regression, i.e. an advanced variant of linear regression with infinite-dimensional features, just as logistic regression is an extension of linear regression. We also show that training NNs could at least be reduced to solving a system of nonlinear equations. | 翻訳日:2023-05-02 14:01:30 公開日:2023-05-01 |
# 再スケール双曲関数回帰のための反復アルゴリズム An Iterative Algorithm for Rescaled Hyperbolic Functions Regression ( http://arxiv.org/abs/2305.00660v1 ) ライセンス: Link先を確認 | Yeqi Gao, Zhao Song, Junze Yin | (参考訳) 大規模言語モデル(LLM)は、自然言語翻訳、感情分析、言語モデリング、チャットボットと会話エージェント、クリエイティブな文章作成、テキスト分類、要約、生成など、さまざまな領域にまたがる多数の現実的な応用を持つ。
LLMはこれらのタスクの精度と効率を改善する上で大きな可能性を示しており、今後数年間で自然言語処理(NLP)の分野に革命をもたらす可能性がある。
指数関数に基づく注意ユニットはLLMの基本要素である。
いくつかの先行研究は指数回帰とソフトマックス回帰の収束を研究した。
指数回帰(Li,Song,Zhou2023)とソフトマックス回帰(Deng,Li,Song2023)を次のように定式化することができる。
行列 $A \in \mathbb{R}^{n \times d} とベクトル $b \in \mathbb{R}^n$ が与えられたとき、指数回帰の目標は \begin{align*} \min_{x} \| \exp(Ax) - b \|_2 \end{align*} を解くことであり、ソフトマックス回帰の目標は \begin{align*} \min_{x} \| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2 を解くことである。
end{align*} この研究では、ソフトマックス回帰とは若干異なる定式化を定義する。
\begin{align*} \min_{x \in \mathbb{R}^d } \| u(x) - \langle u(x) , {\bf 1}_n \rangle \cdot b \|_2 \end{align*} ここで $u(x) \in \{ \exp(Ax), \cosh(Ax) , \sinh(Ax) \}$ となる。
この問題に対する入力スパーシティタイムアルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に汎用的で、$\cosh()$や$\sinh()$といった関数にも適用できます。
また,本手法は,再スケールソフトマックス回帰のための文脈内学習にも適用可能である。 Large language models (LLMs) have numerous real-life applications across various domains, such as natural language translation, sentiment analysis, language modeling, chatbots and conversational agents, creative writing, text classification, summarization, and generation. LLMs have shown great promise in improving the accuracy and efficiency of these tasks, and have the potential to revolutionize the field of natural language processing (NLP) in the years to come. Exponential function based attention unit is a fundamental element in LLMs. Several previous works have studied the convergence of exponential regression and softmax regression. The exponential regression [Li, Song, Zhou 2023] and softmax regression [Deng, Li, Song 2023] can be formulated as follows. Given matrix $A \in \mathbb{R}^{n \times d}$ and vector $b \in \mathbb{R}^n$, the goal of exponential regression is to solve \begin{align*} \min_{x} \| \exp(Ax) - b \|_2 \end{align*} and the goal of softmax regression is to solve \begin{align*} \min_{x} \| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2 . \end{align*} In this work, we define a slightly different formulation than softmax regression. \begin{align*} \min_{x \in \mathbb{R}^d } \| u(x) - \langle u(x) , {\bf 1}_n \rangle \cdot b \|_2 \end{align*} where $u(x) \in \{ \exp(Ax), \cosh(Ax) , \sinh(Ax) \}$. We provide an input sparsity time algorithm for this problem. Our algorithm framework is very general and can be applied to functions like $\cosh()$ and $\sinh()$ as well. Our technique is also general enough to be applied to in-context learning for rescaled softmax regression. | 翻訳日:2023-05-02 14:00:43 公開日:2023-05-01 |
# 特異値分解を用いた深層強化学習のための表現と探索 Representations and Exploration for Deep Reinforcement Learning using Singular Value Decomposition ( http://arxiv.org/abs/2305.00654v1 ) ライセンス: Link先を確認 | Yash Chandak, Shantanu Thakoor, Zhaohan Daniel Guo, Yunhao Tang, Remi Munos, Will Dabney, Diana L Borsa | (参考訳) 表現学習と探索は、深層強化学習エージェントにとって重要な課題である。
本研究では,ドメインの基底となる遷移構造を保存する表現を得るために,特異値分解に基づく手法を提案する。
興味深いことに、これらの表現は国家訪問の相対頻度も捉えるので、擬似数を無料で見積もることができる。
この分解法を大規模領域に拡張するには,遷移行列の構築を必要とせず,深層ネットワークを活用でき,ミニバッチトレーニングも可能である。
さらに,予測状態表現からインスピレーションを得て,分解法を部分的に観測可能な環境に拡張する。
半可観測領域を用いたマルチタスク設定実験により,DM-Lab-30環境(言語命令,画素画像,報酬などを含む入力を含む)で有用な表現を学習できるだけでなく,DM-Hard-8環境におけるハードな探索作業にも有効であることを示す。 Representation learning and exploration are among the key challenges for any deep reinforcement learning agent. In this work, we provide a singular value decomposition based method that can be used to obtain representations that preserve the underlying transition structure in the domain. Perhaps interestingly, we show that these representations also capture the relative frequency of state visitations, thereby providing an estimate for pseudo-counts for free. To scale this decomposition method to large-scale domains, we provide an algorithm that never requires building the transition matrix, can make use of deep networks, and also permits mini-batch training. Further, we draw inspiration from predictive state representations and extend our decomposition method to partially observable environments. With experiments on multi-task settings with partially observable domains, we show that the proposed method can not only learn useful representation on DM-Lab-30 environments (that have inputs involving language instructions, pixel images, and rewards, among others) but it can also be effective at hard exploration tasks in DM-Hard-8 environments. | 翻訳日:2023-05-02 13:59:50 公開日:2023-05-01 |
# 量子可解非線形微分方程式 Quantum Solvable Nonlinear Differential Equations ( http://arxiv.org/abs/2305.00653v1 ) ライセンス: Link先を確認 | Yu Tanaka and Keisuke Fujii | (参考訳) 量子コンピュータは、様々な産業や科学分野において重要な役割を果たす非線形常微分方程式(ODE)を効率的に解くことができる。
しかし、どの非線形ODEが、どの仮定の下で、量子コンピュータを用いて指数的スピードアップを達成できるかは定かではない。
本研究では,量子コンピュータ上で効率的に解くことができる非線形 ode クラス,量子 solvable ode を導入し,その効率性は ode 内の n 個の変数に対する polylog(n) の計算複雑性で ode を解くことで定義される。
具体的には、Koopman-von-Neumann線型化を用いて、非線型ODEをハミルトン力学に写像し、写像されたハミルトンのノルムが保存され、写像されたハミルトンのノルムがスパースである条件を見つける。
これにより、量子可解ODEをポリログ(N)オーバーヘッドで解くために最適なハミルトンシミュレーション手法を利用できる。
さらに,量子可解 ode は拡張短距離 kuramoto モデルのような幅広い非線形 ode を含むことを示した。
これは指数的量子スピードアップで非線形微分方程式を解く最初の具体例であるため、これらの発見は非線形問題の解法における量子コンピュータの適用に大きく貢献する。 Quantum computers have the potential to efficiently solve nonlinear ordinary differential equations (ODEs), which play a crucial role in various industries and scientific fields. However, it remains unclear which nonlinear ODEs, and under what assumptions, can achieve exponential speedup using a quantum computer. In this work, we introduce a class of nonlinear ODEs, called quantum solvable ODEs, that can be efficiently solved on quantum computers, where the efficiency is defined as solving the ODE with computational complexity of polylog(N) for a number N of variables in ODEs. Specifically, we employ Koopman-von-Neumann linearization to map nonliner ODEs to Hamiltonian dynamics and find conditions where the norm of the mapped Hamiltonian is preserved and the mapped Hamiltonian is sparse. This allows us to use the optimal Hamiltonian simulation technique for solving the quantum solvable ODEs with polylog(N) overhead. We further show that quantum solvable ODEs include a wide range of nonlinear ODEs, such as the extended short-range Kuramoto model. Since this is the first concrete example of solving nonlinear differential equations with exponential quantum speedup, these findings contribute significantly to the application of quantum computers in solving nonlinear problems. | 翻訳日:2023-05-02 13:59:34 公開日:2023-05-01 |
# Discover and Cure: Spurious correlation の概念を意識した緩和 Discover and Cure: Concept-aware Mitigation of Spurious Correlation ( http://arxiv.org/abs/2305.00650v1 ) ライセンス: Link先を確認 | Shirley Wu, Mert Yuksekgonul, Linjun Zhang, James Zou | (参考訳) ディープニューラルネットワークは、しばしば、トレーニング環境を超えて一般化を妨げる予測を行うために、急激な相関に依存する。
例えば、猫とベッドの背景を関連付けるモデルは、ベッドなしで他の環境における猫の存在を予測することができない。
信頼に値するモデルを構築するには、スプリアス相関の緩和が不可欠である。
しかしながら、既存の作業には緩和プロセスに関する洞察を提供するための透明性がない。
本稿では,この問題に取り組むための解釈可能なフレームワーク,discover and cure (disc)を提案する。
人間の解釈可能な概念, DISC を反復的に
1)異なる環境にまたがる不安定な概念をスプリアス属性として発見する。
2)スプリアス相関を低減すべく,発見概念を用いたトレーニングデータへの介入を行う。
体系的な実験を通じて、ディスクは既存のアプローチよりも優れた一般化能力と解釈性を提供する。
具体的には、オブジェクト認識タスクにおける最先端の手法とスキン配列分類タスクをそれぞれ7.5%、9.6%上回る。
さらに,ディスクでトレーニングされたモデルの利点を理解するための理論的解析と保証を提供する。
コードとデータはhttps://github.com/wuyxin/discで入手できる。 Deep neural networks often rely on spurious correlations to make predictions, which hinders generalization beyond training environments. For instance, models that associate cats with bed backgrounds can fail to predict the existence of cats in other environments without beds. Mitigating spurious correlations is crucial in building trustworthy models. However, the existing works lack transparency to offer insights into the mitigation process. In this work, we propose an interpretable framework, Discover and Cure (DISC), to tackle the issue. With human-interpretable concepts, DISC iteratively 1) discovers unstable concepts across different environments as spurious attributes, then 2) intervenes on the training data using the discovered concepts to reduce spurious correlation. Across systematic experiments, DISC provides superior generalization ability and interpretability than the existing approaches. Specifically, it outperforms the state-of-the-art methods on an object recognition task and a skin-lesion classification task by 7.5% and 9.6%, respectively. Additionally, we offer theoretical analysis and guarantees to understand the benefits of models trained by DISC. Code and data are available at https://github.com/Wuyxin/DISC. | 翻訳日:2023-05-02 13:59:09 公開日:2023-05-01 |
# 3次元手形状復元における精度と可塑性のトレードオフ Overcoming the Trade-off Between Accuracy and Plausibility in 3D Hand Shape Reconstruction ( http://arxiv.org/abs/2305.00646v1 ) ライセンス: Link先を確認 | Ziwei Yu, Chen Li, Linlin Yang, Xiaoxu Zheng, Michael Bi Mi, Gim Hee Lee, Angela Yao | (参考訳) 3次元手形復元のための直接メッシュフィッティングは高精度である。
しかし、再建されたメッシュは人工物になりがちで、手形としては見当がつかない。
逆に、MANOのようなパラメトリックモデルは可塑性手形状を保証するが、非パラメトリック法ほど正確ではない。
本研究では,MANOモデルと非パラメトリックメッシュフィッティングをエンドツーエンドで統合した手形状推定フレームワークを提案する。
我々のジョイントモデルは精度と妥当性のトレードオフを克服し、よく整合した高品質な3Dメッシュを提供する。 Direct mesh fitting for 3D hand shape reconstruction is highly accurate. However, the reconstructed meshes are prone to artifacts and do not appear as plausible hand shapes. Conversely, parametric models like MANO ensure plausible hand shapes but are not as accurate as the non-parametric methods. In this work, we introduce a novel weakly-supervised hand shape estimation framework that integrates non-parametric mesh fitting with MANO model in an end-to-end fashion. Our joint model overcomes the tradeoff in accuracy and plausibility to yield well-aligned and high-quality 3D meshes, especially in challenging two-hand and hand-object interaction scenarios. | 翻訳日:2023-05-02 13:58:53 公開日:2023-05-01 |
# 量子局所テスト可能な符号の一般距離バランシング General Distance Balancing for Quantum Locally Testable Codes ( http://arxiv.org/abs/2305.00689v1 ) ライセンス: Link先を確認 | Adam Wills, Ting-Chun Lin, Min-Hsiu Hsieh | (参考訳) 本稿では、Evra et al. arXiv:2004.07935[quant-ph]の距離バランス構築の下で、量子局所テスト可能な符号の音質の低い境界を証明した。
我々の技術的貢献は、量子コードの新しい音性は、少なくとも古典的な符号の長さ(定数要素まで)で分割された古い音性であるということである。
これにより、従来qLTCの繰り返しコードのみが検討されていたような、距離バランスの時、独立したチェック付き古典的なコードを使用することができます。
古典的ldpc符号を用いることで、超球積符号arxiv:1608.05089 [quant-ph] とヘミキューム符号arxiv:1911.03069 [quant-ph] の次元を、距離と局所性を維持しながら音質を犠牲にして拡大することができる。
このことから、また、Cross et al. arXiv:2209.11405 [cs.IT] の鎖複体の距離バランスをとることにより、新しいパラメータの量子局所テスト可能な符号を得る。 In this paper, we prove a lower bound on the soundness of quantum locally testable codes under the distance balancing construction of Evra et al. arXiv:2004.07935 [quant-ph]. Our technical contribution is that the new soundness of the quantum code is at least the old soundness divided by the classical code length (up to a constant factor). This allows us to use any classical code with independent checks when distance balancing, where previously only the repetition code had been considered for qLTCs. By using a good classical LDPC code, we are able to grow the dimension of the hypersphere product codes arXiv:1608.05089 [quant-ph] and the hemicubic codes arXiv:1911.03069 [quant-ph] while maintaining their distance and locality, but at the expense of soundness. From this, and also by distance balancing a chain complex of Cross et al. arXiv:2209.11405 [cs.IT], we obtain quantum locally testable codes of new parameters. | 翻訳日:2023-05-02 13:53:26 公開日:2023-05-01 |
# Kerr-nonlinearパラメトリックオシレータを用いた表現型量子監視機械学習 Expressive Quantum Supervised Machine Learning using Kerr-nonlinear Parametric Oscillators ( http://arxiv.org/abs/2305.00688v1 ) ライセンス: Link先を確認 | Yuichiro Mori, Kouhei Nakaji, Yuichiro Matsuzaki, Shiro Kawabata | (参考訳) 変分量子アルゴリズム(VQA)を用いた量子機械学習は、ノイズのある中間スケール量子(NISQ)時代の実用的なアルゴリズムとして積極的に研究されている。
近年の研究では、古典的データを量子回路に繰り返しエンコードするデータ再アップロードが、従来の量子コンピューティングアーキテクチャで表現力のある量子機械学習モデルを得るために必要であることが示されている。
しかし、データ再複製は大量の量子リソースを必要とする傾向があるため、表現力のある量子機械学習を効率的に実現するための代替戦略を見つける動機となる。
本稿では、kpos(kerr-nonlinear parametric oscillators)を用いた量子機械学習を、有望な量子計算デバイスとして提案する。
鍵となる考え方は、基底状態と第一励起状態だけでなく、より高い励起状態も使い、単一のKPOを持つ場合でも大きなヒルベルト空間を使うことができるということである。
数値シミュレーションにより,kpoの1つのモードのみを用いた方法の表現性は,従来の6量子ビット法よりもはるかに高いことがわかった。
この結果は,nisq時代の実用的応用に不可欠な,資源効率のよい量子機械学習への道を開くものである。 Quantum machine learning with variational quantum algorithms (VQA) has been actively investigated as a practical algorithm in the noisy intermediate-scale quantum (NISQ) era. Recent researches reveal that the data reuploading, which repeatedly encode classical data into quantum circuit, is necessary for obtaining the expressive quantum machine learning model in the conventional quantum computing architecture. However, the data reuploding tends to require large amount of quantum resources, which motivates us to find an alternative strategy for realizing the expressive quantum machine learning efficiently. In this paper, we propose quantum machine learning with Kerr-nonlinear Parametric Oscillators (KPOs), as another promising quantum computing device. The key idea is that we use not only the ground state and first excited state but also use higher excited states, which allows us to use a large Hilbert space even if we have a single KPO. Our numerical simulations show that the expressibility of our method with only one mode of the KPO is much higher than that of the conventional method with six qubits. Our results pave the way towards resource efficient quantum machine learning, which is essential for the practical applications in the NISQ era. | 翻訳日:2023-05-02 13:53:03 公開日:2023-05-01 |
# マルチエージェント意思決定の複雑さについて:ゲームにおける学習から部分モニタリングまで On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring ( http://arxiv.org/abs/2305.00684v1 ) ライセンス: Link先を確認 | Dylan J. Foster and Dean P. Foster and Noah Golowich and Alexander Rakhlin | (参考訳) マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証にどんな影響を及ぼすか、そしてこれらの考慮事項がどのように変化するかを理解することである。
本稿では,マルチエージェントによる対話的意思決定のための汎用フレームワークにおいて,関数近似によるマルコフゲームとバンディットフィードバックによる正規形ゲームについて検討する。
集中型学習アルゴリズムは,未知環境と相互作用する複数のエージェントを制御することによって平衡を計算することを目的としている。
我々は,Fosterらによって導入された複雑性尺度であるDecision-Estimation Coefficient(2021)のマルチエージェント一般化に基づく,マルチエージェント意思決定のための最適なサンプル複雑性について,上位と下位のバウンダリを提供する。
単一エージェント設定の最良の結果と比較すると、境界には追加のギャップがあります。
これらのギャップを「理にかなった」複雑性尺度で閉じることはできないことを示し、単一エージェントと複数のエージェントの著しい分離を強調する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、シングルエージェント意思決定の統計的複雑性を特徴付けるのと同値であるが、部分的監視問題の変種を仮定するフレームワークである隠れた(観察されていない)報酬を特徴付ける。
その結果,隠れ回帰対話的意思決定の統計的複雑性を可能な限り最善に特徴づける。
この開発に基づいて、我々はいくつかの新しい構造結果を提供する。
1)マルチエージェント意思決定の統計的複雑さをシングルエージェントに還元できる条件、及び
2) いわゆる複数のエージェントの呪いを回避できる条件。 A central problem in the theory of multi-agent reinforcement learning (MARL) is to understand what structural conditions and algorithmic principles lead to sample-efficient learning guarantees, and how these considerations change as we move from few to many agents. We study this question in a general framework for interactive decision making with multiple agents, encompassing Markov games with function approximation and normal-form games with bandit feedback. We focus on equilibrium computation, in which a centralized learning algorithm aims to compute an equilibrium by controlling multiple agents that interact with an unknown environment. Our main contributions are: - We provide upper and lower bounds on the optimal sample complexity for multi-agent decision making based on a multi-agent generalization of the Decision-Estimation Coefficient, a complexity measure introduced by Foster et al. (2021) in the single-agent counterpart to our setting. Compared to the best results for the single-agent setting, our bounds have additional gaps. We show that no "reasonable" complexity measure can close these gaps, highlighting a striking separation between single and multiple agents. - We show that characterizing the statistical complexity for multi-agent decision making is equivalent to characterizing the statistical complexity of single-agent decision making, but with hidden (unobserved) rewards, a framework that subsumes variants of the partial monitoring problem. As a consequence, we characterize the statistical complexity for hidden-reward interactive decision making to the best extent possible. Building on this development, we provide several new structural results, including 1) conditions under which the statistical complexity of multi-agent decision making can be reduced to that of single-agent, and 2) conditions under which the so-called curse of multiple agents can be avoided. | 翻訳日:2023-05-02 13:52:46 公開日:2023-05-01 |
# ノイズは量子通信における資源コンテキストである Noise is resource-contextual in quantum communication ( http://arxiv.org/abs/2305.00680v1 ) ライセンス: Link先を確認 | Aditya Nema, Ananda G. Maity, Sergii Strelchuk and David Elkouss | (参考訳) 量子チャネルの情報伝達能力の推定は、量子情報処理における根本的な問題の一つである。
古典的チャネルとは対照的に、量子チャネルの情報伝達能力は文脈的である。
2つの量子チャネルの容量は、個々の容量の合計よりも大きい可能性がある。
本稿では、パラメータが1つの量子容量とプライベート容量を増加させるにつれて、2つのチャネル容量が減少する1つのパラメータのチャネルファミリを示す。
また,一方向と二方向の蒸留可能な絡み合いと秘密鍵に関して,類似の挙動を持つ1パラメータの状態の族を示す。
我々の構造は、ノイズが量子通信に依存していることを示している。 Estimating the information transmission capability of a quantum channel remains one of the fundamental problems in quantum information processing. In contrast to classical channels, the information-carrying capability of quantum channels is contextual. One of the most significant manifestations of this is the superadditivity of the channel capacity: the capacity of two quantum channels used together can be larger than the sum of the individual capacities. Here, we present a one-parameter family of channels for which as the parameter increases its one-way quantum and private capacities increase while its two-way capacities decrease. We also exhibit a one-parameter family of states with analogous behavior with respect to the one- and two-way distillable entanglement and secret key. Our constructions demonstrate that noise is context dependent in quantum communication. | 翻訳日:2023-05-02 13:52:16 公開日:2023-05-01 |
# 超高分解能リモートセンシングシーン分類のためのマルチレベル機能強化 Enhanced Multi-level Features for Very High Resolution Remote Sensing Scene Classification ( http://arxiv.org/abs/2305.00679v1 ) ライセンス: Link先を確認 | Chiranjibi Sitaula, Sumesh KC, Jagannath Aryal | (参考訳) 超高分解能(VHR)リモートセンシング(RS)シーン分類は、クラス間類似度とクラス内変動性の問題により難しい課題である。
近年,既存の深層学習(dl)に基づく手法がvhr rsのシーン分類に大きな期待を寄せている。
しかし、それらは依然として不安定な分類性能を提供している。
このような問題に対処するため,我々は新たなDLベースのアプローチを提案する。
そこで我々は,拡張VHRアテンションモジュール (EAM) を考案し,その後にアトラス空間ピラミッドプール (ASPP) とグローバル平均プール (GAP) を開発した。
この手順は、強化された特徴を対応するレベルから付与する。
そして、マルチレベル特徴融合を行う。
2つの広く利用されているVHR RSデータセットによる実験結果から,提案手法は最小標準偏差0.001で,競争性と安定性,ロバストな分類性能が得られることが示された。
さらに、AIDとNWPUのデータセットにおける最も高い総合的な精度は、それぞれ95.39%と93.04%である。 Very high-resolution (VHR) remote sensing (RS) scene classification is a challenging task due to the higher inter-class similarity and intra-class variability problems. Recently, the existing deep learning (DL)-based methods have shown great promise in VHR RS scene classification. However, they still provide an unstable classification performance. To address such a problem, we, in this letter, propose a novel DL-based approach. For this, we devise an enhanced VHR attention module (EAM), followed by the atrous spatial pyramid pooling (ASPP) and global average pooling (GAP). This procedure imparts the enhanced features from the corresponding level. Then, the multi-level feature fusion is performed. Experimental results on two widely-used VHR RS datasets show that the proposed approach yields a competitive and stable/robust classification performance with the least standard deviation of 0.001. Further, the highest overall accuracies on the AID and the NWPU datasets are 95.39% and 93.04%, respectively. | 翻訳日:2023-05-02 13:52:04 公開日:2023-05-01 |
# 医用画像分割のための深層学習モデルにおける境界検出の再考 Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation ( http://arxiv.org/abs/2305.00678v1 ) ライセンス: Link先を確認 | Yi Lin, Dong Zhang, Xiao Fang, Yufan Chen, Kwang-Ting Cheng, Hao Chen | (参考訳) 医用画像のセグメンテーションは,医用画像解析のコミュニティにおける基本的な課題である。
本稿では,Convolution, Transformer, Operator (CTO) と呼ばれる新しいネットワークアーキテクチャを提案する。
ctoは、畳み込みニューラルネットワーク(cnns)、視覚トランスフォーマー(vit)、明示的な境界検出演算子を組み合わせて、精度と効率の最適なバランスを維持しながら、高い認識精度を達成する。
提案されたCTOは、標準的なエンコーダ-デコーダセグメンテーションパラダイムに従っており、エンコーダネットワークには、ローカルセマンティック情報をキャプチャするための一般的なCNNバックボーンと、長距離依存関係を統合するための軽量なViTアシスタントが組み込まれている。
境界の学習能力を高めるために,専用境界検出演算子から得られた境界マスクを用いて,デコード学習プロセスのガイドを行う境界誘導デコーダネットワークを提案する。
提案手法の性能は6つの挑戦的な医用画像セグメンテーションデータセットで評価され、CTOが競合モデルの複雑さで最先端の精度を達成することを示す。 Medical image segmentation is a fundamental task in the community of medical image analysis. In this paper, a novel network architecture, referred to as Convolution, Transformer, and Operator (CTO), is proposed. CTO employs a combination of Convolutional Neural Networks (CNNs), Vision Transformer (ViT), and an explicit boundary detection operator to achieve high recognition accuracy while maintaining an optimal balance between accuracy and efficiency. The proposed CTO follows the standard encoder-decoder segmentation paradigm, where the encoder network incorporates a popular CNN backbone for capturing local semantic information, and a lightweight ViT assistant for integrating long-range dependencies. To enhance the learning capacity on boundary, a boundary-guided decoder network is proposed that uses a boundary mask obtained from a dedicated boundary detection operator as explicit supervision to guide the decoding learning process. The performance of the proposed method is evaluated on six challenging medical image segmentation datasets, demonstrating that CTO achieves state-of-the-art accuracy with a competitive model complexity. | 翻訳日:2023-05-02 13:51:45 公開日:2023-05-01 |
# メモリコストを考慮したオンライン最適化のためのロバスト化学習 Robustified Learning for Online Optimization with Memory Costs ( http://arxiv.org/abs/2305.00677v1 ) ライセンス: Link先を確認 | Pengfei Li, Jianyi Yang, Shaolei Ren | (参考訳) メモリコストによるオンライン最適化には、将来的な入力を知らずにシーケンシャルなアクションが実行される多くの実世界のアプリケーションがある。
それにもかかわらず、メモリコストは時間とともにアクションを結合し、かなりの課題を加えます。
従来、この問題は様々な専門家が設計したオンラインアルゴリズムによって、境界付き最悪のケースの競合比を達成するためにアプローチされてきたが、結果の平均性能はしばしば満足できない。
一方、新興機械学習(ML)ベースのオプティマイザは平均的なパフォーマンスを改善することができるが、最悪のパフォーマンスの堅牢性の欠如に悩まされている。
本稿では,新しいエキスパート・ロバスト学習(ERL)手法を提案し,高い平均性能とロバスト性を実現する。
より具体的には、ロバスト性のために、erlは、エキスパートオンラインアルゴリズムを利用してmlアクションを堅牢化する新しいプロジェクション演算子を導入し、平均パフォーマンスのために、erlは、下流のエキスパートロバスト化を明示的に考慮して、リカレントアーキテクチャに基づいてmlオプティマイザを訓練する。
我々は、任意の$\lambda\geq1$に対して、ERLはエキスパートアルゴリズムに対して$\lambda$-competitiveを、最適なオフラインアルゴリズムに対して$\lambda\cdot C$-competitiveを達成可能であることを証明している。
さらに、我々は分析を複数ステップのメモリコストの新たな設定にまで拡張する。
最後に,エネルギースケジューリングアプリケーションのための実証実験によって解析が支持される。 Online optimization with memory costs has many real-world applications, where sequential actions are made without knowing the future input. Nonetheless, the memory cost couples the actions over time, adding substantial challenges. Conventionally, this problem has been approached by various expert-designed online algorithms with the goal of achieving bounded worst-case competitive ratios, but the resulting average performance is often unsatisfactory. On the other hand, emerging machine learning (ML) based optimizers can improve the average performance, but suffer from the lack of worst-case performance robustness. In this paper, we propose a novel expert-robustified learning (ERL) approach, achieving {both} good average performance and robustness. More concretely, for robustness, ERL introduces a novel projection operator that robustifies ML actions by utilizing an expert online algorithm; for average performance, ERL trains the ML optimizer based on a recurrent architecture by explicitly considering downstream expert robustification. We prove that, for any $\lambda\geq1$, ERL can achieve $\lambda$-competitive against the expert algorithm and $\lambda\cdot C$-competitive against the optimal offline algorithm (where $C$ is the expert's competitive ratio). Additionally, we extend our analysis to a novel setting of multi-step memory costs. Finally, our analysis is supported by empirical experiments for an energy scheduling application. | 翻訳日:2023-05-02 13:51:25 公開日:2023-05-01 |
# モデル予測経路積分制御を用いた自律オフロードラリー駆動のための地形認識キノダイナミックモデル学習 Learning Terrain-Aware Kinodynamic Model for Autonomous Off-Road Rally Driving With Model Predictive Path Integral Control ( http://arxiv.org/abs/2305.00676v1 ) ライセンス: Link先を確認 | Hojin Lee, Taekyung Kim, Jungwi Mun, Wonsuk Lee | (参考訳) オフロード環境での高速自動運転は、様々な応用に多大な可能性があるが、車両と陸上の相互作用の複雑さによる課題もある。
このような環境では、車両が動きを予測し、地形の標高の変動など環境の変化に応じて積極的に制御を調整することが重要である。
そこで本研究では, 固有受容情報と外受容情報の両方に基づいて, 地形認識型キノダイナミックモデルを学ぶ手法を提案する。
提案モデルでは,6自由度運動の信頼度予測が生成され,訓練中に接点間相互作用を推定できる。
これにより、不安定な動き、不安定な相互作用、モデルから派生した高い不確実性を伴うサンプル軌道をペナルティ化する適切なコスト関数設計により、安全で堅牢なモデル予測コントローラの設計が可能になる。
本手法の有効性をシミュレーションしたオフロード軌道実験により実証し,提案するモデル・コントローラペアがベースラインを上回り,制御障害のない堅牢な高速運転性能を確保できることを示す。 High-speed autonomous driving in off-road environments has immense potential for various applications, but it also presents challenges due to the complexity of vehicle-terrain interactions. In such environments, it is crucial for the vehicle to predict its motion and adjust its controls proactively in response to environmental changes, such as variations in terrain elevation. To this end, we propose a method for learning terrain-aware kinodynamic model which is conditioned on both proprioceptive and exteroceptive information. The proposed model generates reliable predictions of 6-degree-of-freedom motion and can even estimate contact interactions without requiring ground truth force data during training. This enables the design of a safe and robust model predictive controller through appropriate cost function design which penalizes sampled trajectories with unstable motion, unsafe interactions, and high levels of uncertainty derived from the model. We demonstrate the effectiveness of our approach through experiments on a simulated off-road track, showing that our proposed model-controller pair outperforms the baseline and ensures robust high-speed driving performance without control failure. | 翻訳日:2023-05-02 13:50:59 公開日:2023-05-01 |
# 1対1変圧器による終端車線検出 End to End Lane detection with One-to-Several Transformer ( http://arxiv.org/abs/2305.00675v1 ) ライセンス: Link先を確認 | Kunyang Zhou and Rui Zhou | (参考訳) レーン検出手法は実世界のシナリオで印象的な性能を示したが、ほとんどの方法は十分に堅牢ではない後処理を必要とする。
したがって、車線検出にはDetection TRansformer(DETR)のようなエンドツーエンド検出器が導入された。
しかし、DETRにおける1対1のラベル割り当ては、ラベルセマンティックコンフリクトによってトレーニング効率を低下させることができる。
さらに、detrにおける位置クエリは明示的な位置優先を提供することができないため、最適化が難しい。
本稿では,1-to-Several Transformer(O2SFormer)を提案する。
まず,一対一と一対多のラベル割り当てを組み合わせた一対一ラベル割り当てを提案し,エンドツーエンド検出を維持しながらトレーニング効率を向上させる。
1対1の割り当てを最適化する難しさを克服する。
さらに,異なるデコーダ層にまたがる正のレーンアンカーの正の重みを調節する層毎ソフトラベルを提案する。
最後に,動的アンカーに基づく位置問合せの設計を行い,位置問合せにレーンアンカーを組み込むことにより位置先行を探索する。
実験結果から,O2SFormerはDETRの収束を著しく高速化し,CULaneデータセット上のTransformerベースおよびCNNベース検出器よりも優れていた。
コードはhttps://github.com/zkyseu/O2SFormer.comから入手できる。 Although lane detection methods have shown impressive performance in real-world scenarios, most of methods require post-processing which is not robust enough. Therefore, end-to-end detectors like DEtection TRansformer(DETR) have been introduced in lane detection. However, one-to-one label assignment in DETR can degrade the training efficiency due to label semantic conflicts. Besides, positional query in DETR is unable to provide explicit positional prior, making it difficult to be optimized. In this paper, we present the One-to-Several Transformer(O2SFormer). We first propose the one-to-several label assignment, which combines one-to-one and one-to-many label assignments to improve the training efficiency while keeping end-to-end detection. To overcome the difficulty in optimizing one-to-one assignment. We further propose the layer-wise soft label which adjusts the positive weight of positive lane anchors across different decoder layers. Finally, we design the dynamic anchor-based positional query to explore positional prior by incorporating lane anchors into positional query. Experimental results show that O2SFormer significantly speeds up the convergence of DETR and outperforms Transformer-based and CNN-based detectors on the CULane dataset. Code will be available athttps://github.com/zkyseu/O2SFormer. | 翻訳日:2023-05-02 13:50:40 公開日:2023-05-01 |
# 半監督型医用画像分割のための双方向コピーペースト Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2305.00673v1 ) ライセンス: Link先を確認 | Yunhao Bai, Duowen Chen, Qingli Li, Wei Shen and Yan Wang | (参考訳) 半教師付き医用画像セグメンテーションでは、ラベル付きとラベルなしのデータ分散の間に経験的ミスマッチ問題が存在する。
ラベル付きデータから学んだ知識は、ラベル付きデータとラベル付きデータとを別々に扱う場合、あるいは一貫性のない方法で扱う場合、ほとんど破棄される。
単純な平均教師アーキテクチャを用いて,ラベル付きおよびラベル付されていないデータを双方向にコピー・ペーストする手法を提案する。
この方法は、ラベル付きデータから、内向きと外向きの両方で包括的な共通意味学を学ぶことを奨励する。
さらに重要なことは、ラベル付きおよびラベルなしデータの一貫した学習手順は、経験的分布ギャップを大幅に減らすことができる。
具体的には,ラベル付画像(背景)からラベル付画像(背景)へ,ラベル付画像(背景)からラベル付画像(背景)へ,ランダムな作物をコピー・ペーストする。
2つの混合画像は学生ネットワークに送信され、疑似ラベルと地対の混合監視信号によって監視される。
ラベル付きデータとラベル付きデータとを双方向にコピーペーストする簡単なメカニズムは十分であり、実験により、様々な半教師付き医用画像セグメンテーションデータセットにおける他の最先端データと比較して、adcdcデータセットの21%以上のdice改善(ラベル付きデータ)が得られた。
コードはhttps://github.com/DeepMed-Lab-ECNU/BCP}で入手できる。 In semi-supervised medical image segmentation, there exist empirical mismatch problems between labeled and unlabeled data distribution. The knowledge learned from the labeled data may be largely discarded if treating labeled and unlabeled data separately or in an inconsistent manner. We propose a straightforward method for alleviating the problem - copy-pasting labeled and unlabeled data bidirectionally, in a simple Mean Teacher architecture. The method encourages unlabeled data to learn comprehensive common semantics from the labeled data in both inward and outward directions. More importantly, the consistent learning procedure for labeled and unlabeled data can largely reduce the empirical distribution gap. In detail, we copy-paste a random crop from a labeled image (foreground) onto an unlabeled image (background) and an unlabeled image (foreground) onto a labeled image (background), respectively. The two mixed images are fed into a Student network and supervised by the mixed supervisory signals of pseudo-labels and ground-truth. We reveal that the simple mechanism of copy-pasting bidirectionally between labeled and unlabeled data is good enough and the experiments show solid gains (e.g., over 21% Dice improvement on ACDC dataset with 5% labeled data) compared with other state-of-the-arts on various semi-supervised medical image segmentation datasets. Code is available at https://github.com/DeepMed-Lab-ECNU/BCP}. | 翻訳日:2023-05-02 13:50:20 公開日:2023-05-01 |
# ピクセルデータに基づく予測:PDEと差分からの洞察 Predictions Based on Pixel Data: Insights from PDEs and Finite Differences ( http://arxiv.org/abs/2305.00723v1 ) ライセンス: Link先を確認 | Elena Celledoni, James Jackaman, Davide Murari, Brynjulf Owren | (参考訳) ニューラルネットワークは高次元空間における多くの近似タスクの最先端技術であり、多くの実験的証拠によって支えられている。
しかし、我々はそれらが近似できること、そしてより重要なのは、どのコストと精度で、しっかりとした理論的理解が必要である。
実用的ネットワークアーキテクチャの1つ、特に画像を含む近似タスクは畳み込みネットワーク (convolutional (residual) network) である。
しかしながら、これらのネットワークに関わる線形作用素の局所性のため、それらの解析は一般の完全連結ニューラルネットワークよりも複雑である。
本稿では,行列や高次テンソルが各観測値を表すシーケンス近似タスクに注目した。
PDEの時空間偏差から生じる系列を近似すると,比較的小さなネットワークが用いられる。
離散畳み込み演算子と有限差分演算子の間の接続を利用してこれらの結果を導出する。
全体として、私たちはネットワークアーキテクチャを保証しながら、シーケンス近似タスクに実際に採用されるものと類似させるように設計します。
我々の理論的結果は線形対流、熱方程式、フィッシャー方程式をシミュレートする数値実験によって支持される。
使用される実装は、論文に関連するリポジトリで利用可能である。 Neural networks are the state-of-the-art for many approximation tasks in high-dimensional spaces, as supported by an abundance of experimental evidence. However, we still need a solid theoretical understanding of what they can approximate and, more importantly, at what cost and accuracy. One network architecture of practical use, especially for approximation tasks involving images, is convolutional (residual) networks. However, due to the locality of the linear operators involved in these networks, their analysis is more complicated than for generic fully connected neural networks. This paper focuses on sequence approximation tasks, where a matrix or a higher-order tensor represents each observation. We show that when approximating sequences arising from space-time discretisations of PDEs we may use relatively small networks. We constructively derive these results by exploiting connections between discrete convolution and finite difference operators. Throughout, we design our network architecture to, while having guarantees, be similar to those typically adopted in practice for sequence approximation tasks. Our theoretical results are supported by numerical experiments which simulate linear advection, the heat equation, and the Fisher equation. The implementation used is available at the repository associated to the paper. | 翻訳日:2023-05-02 13:43:56 公開日:2023-05-01 |
# 量子アニールの溶液品質に及ぼす3SAT-to-QUBO変換の影響:ベンチマークによる検討 Influence of Different 3SAT-to-QUBO Transformations on the Solution Quality of Quantum Annealing: A Benchmark Study ( http://arxiv.org/abs/2305.00720v1 ) ライセンス: Link先を確認 | Sebastian Zielinski, Jonas N\"u{\ss}lein, Jonas Stein, Thomas Gabor, Claudia Linnhoff-Popien, Sebastian Feld | (参考訳) 量子アニーラー上の3SATインスタンスを解決するには、準非制約バイナリ最適化(QUBO)のインスタンスに変換する必要がある。
利用可能な複数の変換がある場合、異なる変換が得られた解の品質に差をもたらすかどうかが問題となる。
そこで本研究では,D-WaveのAdvantage_system4.1における解の質について,構造的に異なる4つのQUBO変換を3SAT問題に対して比較した。
我々はQUBO変換の選択が量子アニールが返す正しい解の数に大きな影響を与えることを示した。
さらに、QUBOインスタンスのサイズ(すなわち、QUBO行列の次元)は、同じ問題に対してより小さなQUBOインスタンスよりも優れた結果が得られるため、ソリューション品質の予測には不十分であることを示す。
また、QUBOインスタンスの異なる2次値の数とその範囲が、解の質に大きな影響を与えることを実証的に示す。 To solve 3SAT instances on quantum annealers they need to be transformed to an instance of Quadratic Unconstrained Binary Optimization (QUBO). When there are multiple transformations available, the question arises whether different transformations lead to differences in the obtained solution quality. Thus, in this paper we conduct an empirical benchmark study, in which we compare four structurally different QUBO transformations for the 3SAT problem with regards to the solution quality on D-Wave's Advantage_system4.1. We show that the choice of QUBO transformation can significantly impact the number of correct solutions the quantum annealer returns. Furthermore, we show that the size of a QUBO instance (i.e., the dimension of the QUBO matrix) is not a sufficient predictor for solution quality, as larger QUBO instances may produce better results than smaller QUBO instances for the same problem. We also empirically show that the number of different quadratic values of a QUBO instance, combined with their range, can significantly impact the solution quality. | 翻訳日:2023-05-02 13:43:38 公開日:2023-05-01 |
# 地域提案ネットワークとしてのイベントカメラ Event Camera as Region Proposal Network ( http://arxiv.org/abs/2305.00718v1 ) ライセンス: Link先を確認 | Shrutarv Awasthi, Anas Gouda, Richard Julian Lodenkaemper, Moritz Roidl | (参考訳) 人間の目は2種類の光受容体、棒、錐体から構成される。
ロッドはモノクロームビジョン、コーンはカラービジョンを担当している。
棒の数は円錐よりもはるかに多く、ほとんどの人間の視覚処理はモノクロームで行われている。
イベントカメラは、ピクセル強度の変化を報告し、棒に似ている。
コンピュータービジョンにおけるイベントカメラとカラーカメラは、人間のビジョンにおける棒や円錐のようなものだ。
人間は周囲の視界(右と左)で動く物体に気づくことができるが、それらを分類することはできない(左や右の端を通り過ぎても、自分が誰かを知らないまま注意を喚起できる)。
このように、ロッドは人間の視覚における領域提案ネットワーク(RPN)として機能する。
したがって、イベントカメラは、Mask R-CNNのような深層学習における2段階物体検出器において、特徴抽出のためのバックボーンとRPNからなる領域提案ネットワークとして機能することができる。
現在、RPNは、オブジェクトを検出するためのすべてのバウンディングボックスを試すことで、ブルートフォースメソッドを使用している。
これは、2段階検出器を高速な用途に不都合にする領域の提案を生成するのに多くの計算時間を必要とする。
この作業は、検出ロン2のMask-RCNNのRPNをイベントカメラに置き換え、移動物体の提案を生成する。
したがって、時間を節約し、計算コストを下げる。
提案手法は2段検出器よりも高速で精度は同等である The human eye consists of two types of photoreceptors, rods and cones. Rods are responsible for monochrome vision, and cones for color vision. The number of rods is much higher than the cones, which means that most human vision processing is done in monochrome. An event camera reports the change in pixel intensity and is analogous to rods. Event and color cameras in computer vision are like rods and cones in human vision. Humans can notice objects moving in the peripheral vision (far right and left), but we cannot classify them (think of someone passing by on your far left or far right, this can trigger your attention without knowing who they are). Thus, rods act as a region proposal network (RPN) in human vision. Therefore, an event camera can act as a region proposal network in deep learning Two-stage object detectors in deep learning, such as Mask R-CNN, consist of a backbone for feature extraction and a RPN. Currently, RPN uses the brute force method by trying out all the possible bounding boxes to detect an object. This requires much computation time to generate region proposals making two-stage detectors inconvenient for fast applications. This work replaces the RPN in Mask-RCNN of detectron2 with an event camera for generating proposals for moving objects. Thus, saving time and being computationally less expensive. The proposed approach is faster than the two-stage detectors with comparable accuracy | 翻訳日:2023-05-02 13:43:17 公開日:2023-05-01 |
# 多視点部分空間クラスタリングのための適応トポロジカルテンソルネットワーク Adaptively Topological Tensor Network for Multi-view Subspace Clustering ( http://arxiv.org/abs/2305.00716v1 ) ライセンス: Link先を確認 | Yipeng Liu, Yingcong Lu, Weiting Ou, Zhen Long, Ce Zhu | (参考訳) マルチビューサブスペースクラスタリング法では、異なるテンソル分解から学習した自己表現テンソルを用いて低ランク情報を利用している。
しかし、自己表現テンソルに埋め込まれたデータ構造は、異なるマルチビューデータセットで異なる可能性がある。
したがって、予め定義されたテンソル分解は、あるデータセットの低ランク情報を完全に活用することができず、その結果、準最適マルチビュークラスタリング性能が得られる。
上記の制限を緩和するために、自己表現テンソルの構造情報からエッジランクを決定することで適応的トポロジカルテンソルネットワーク(ATTN)を提案し、データ駆動型戦略でより良いテンソル表現を与えることができる。
具体的には,多視点テンソルクラスタリングにおいて,自己表現テンソルの異なるモード間の高次相関を解析し,完全連結テンソルネットワークから弱相関の相関関係を推定する。
したがって、新たに得られたテンソルネットワークは、様々なデータセットのテンソル構造が異なる自己表現を用いて、本質的なクラスタリング情報を効率的に探索することができる。
さらに、低階構造体の捕捉能力を向上させるために、グレディ適応階数増加戦略を適用した。
マルチビューサブスペースクラスタリングにATTNを適用し、乗算器の交互方向法を用いて解決する。
実験結果から,ATTNに基づくマルチビューサブスペースクラスタリングは,6つのマルチビューデータセットよりも優れていた。 Multi-view subspace clustering methods have employed learned self-representation tensors from different tensor decompositions to exploit low rank information. However, the data structures embedded with self-representation tensors may vary in different multi-view datasets. Therefore, a pre-defined tensor decomposition may not fully exploit low rank information for a certain dataset, resulting in sub-optimal multi-view clustering performance. To alleviate the aforementioned limitations, we propose the adaptively topological tensor network (ATTN) by determining the edge ranks from the structural information of the self-representation tensor, and it can give a better tensor representation with the data-driven strategy. Specifically, in multi-view tensor clustering, we analyze the higher-order correlations among different modes of a self-representation tensor, and prune the links of the weakly correlated ones from a fully connected tensor network. Therefore, the newly obtained tensor networks can efficiently explore the essential clustering information with self-representation with different tensor structures for various datasets. A greedy adaptive rank-increasing strategy is further applied to improve the capture capacity of low rank structure. We apply ATTN on multi-view subspace clustering and utilize the alternating direction method of multipliers to solve it. Experimental results show that multi-view subspace clustering based on ATTN outperforms the counterparts on six multi-view datasets. | 翻訳日:2023-05-02 13:42:55 公開日:2023-05-01 |
# ZeroSearch: ゼロショット学習によるテキストからのローカルイメージ検索 ZeroSearch: Local Image Search from Text with Zero Shot Learning ( http://arxiv.org/abs/2305.00715v1 ) ライセンス: Link先を確認 | Jatin Nainani, Abhishek Mazumdar, Viraj Sheth | (参考訳) ユーザのディレクトリ内の画像の整理と検索の問題は、パーソナルデバイスで撮影された画像の数の増加により、ますます困難になっている。
本稿では,ゼロショット学習を用いて,ユーザ提供のテキスト記述のみを用いた画像クエリを作成するソリューションを提案する。
この論文の主な貢献は、事前訓練されたモデルを用いて画像から特徴を抽出するアルゴリズムの開発である。
このアルゴリズムはOWLを用いて境界ボックスの存在をチェックし、コサイン類似度スコアに基づいて画像をソートする。
アルゴリズムの出力は類似性の下位順にソートされた画像のリストであり、ユーザーがより効率的に特定の画像を見つけるのに役立つ。
論文の実験は、ユーザのイメージディレクトリをシミュレートするためにカスタムデータセットを使用して行われ、モデルの正確性、推論時間、サイズを評価した。
その結果、vggモデルが最も精度が高かったが、resnet50とinceptionv3モデルが最も低い推定時間とサイズであった。
提案アルゴリズムは,ユーザのローカルディレクトリ内の画像の整理と検索を効果的かつ効率的に行う。
このアルゴリズムの性能と柔軟性は、個人画像の整理や検索エンジンなど、様々なアプリケーションに適している。
zero-searchのコードとデータセットは、https://github.com/NainaniJatinZ/zero-searchで入手できる。 The problem of organizing and finding images in a user's directory has become increasingly challenging due to the rapid growth in the number of images captured on personal devices. This paper presents a solution that utilizes zero shot learning to create image queries with only user provided text descriptions. The paper's primary contribution is the development of an algorithm that utilizes pre-trained models to extract features from images. The algorithm uses OWL to check for the presence of bounding boxes and sorts images based on cosine similarity scores. The algorithm's output is a list of images sorted in descending order of similarity, helping users to locate specific images more efficiently. The paper's experiments were conducted using a custom dataset to simulate a user's image directory and evaluated the accuracy, inference time, and size of the models. The results showed that the VGG model achieved the highest accuracy, while the Resnet50 and InceptionV3 models had the lowest inference time and size. The papers proposed algorithm provides an effective and efficient solution for organizing and finding images in a users local directory. The algorithm's performance and flexibility make it suitable for various applications, including personal image organization and search engines. Code and dataset for zero-search are available at: https://github.com/NainaniJatinZ/zero-search | 翻訳日:2023-05-02 13:42:31 公開日:2023-05-01 |
# 量子ネットワークのためのルーティングプロトコル:概要と課題 Routing Protocols for Quantum Networks: Overview and Challenges ( http://arxiv.org/abs/2305.00708v1 ) ライセンス: Link先を確認 | Binayak Kar, and Pankaj Kumar | (参考訳) 過去50年間で、従来のネットワークルーティング設計は、静的ノードを持つ小さなネットワークから数十億のデバイスを接続する大規模システムへと大きく成長してきた。
この進歩は、ネットワーク機能をグラフやランダムネットワーク設計に統合し、多様な通信能力を促進するために特定のネットワークプロトコルを採用することを含む関心事原則の分離によって達成されている。
本稿では,量子力学によるユニークな特性を示す量子ネットワークのルーティング手法の設計の可能性を明らかにすることを目的とする。
量子ルーティング設計は、量子絡み合いと情報のユニークな特徴を考慮しなければならないため、従来のネットワーク設計プロトコルからかなりの逸脱を必要とする。
しかし、これらの手法の実装は、量子システムにおける非一貫性やノイズ、通信範囲の制限、高度に専門化されたハードウェアの前提条件など、重大な課題をもたらす。
この論文は、量子ルーティング設計法の本質的な研究から始まり、量子ルーティングの基本的側面、関連する量子演算、そして効率的で堅牢な量子ネットワーク構築に必要なステップを網羅する。
本稿では,その原理やプロトコル,課題などを含む量子ルーティング技術の現状をまとめ,潜在的な応用可能性と今後の方向性を強調する。 Over the past 50 years, conventional network routing design has undergone substantial growth, evolving from small networks with static nodes to large systems connecting billions of devices. This progress has been achieved through the separation of concerns principle, which entails integrating network functionalities into a graph or random network design and employing specific network protocols to facilitate diverse communication capabilities. This paper aims to highlight the potential of designing routing techniques for quantum networks, which exhibit unique properties due to quantum mechanics. Quantum routing design requires a substantial deviation from conventional network design protocols since it must account for the unique features of quantum entanglement and information. However, implementing these techniques poses significant challenges, such as decoherence and noise in quantum systems, restricted communication ranges, and highly specialized hardware prerequisites. The paper commences by examining essential research on quantum routing design methods and proceeds to cover fundamental aspects of quantum routing, associated quantum operations, and the steps necessary for building efficient and robust quantum networks. This paper summarizes the present state of quantum routing techniques, including their principles, protocols, and challenges, highlighting potential applications and future directions. | 翻訳日:2023-05-02 13:42:10 公開日:2023-05-01 |
# グリーンデータセンターの持続的開発のためのフルスケーリング自動化 Full Scaling Automation for Sustainable Development of Green Data Centers ( http://arxiv.org/abs/2305.00706v1 ) ライセンス: Link先を確認 | Shiyu Wang, Yinbo Sun, Xiaoming Shi, Shiyi Zhu, Lin-Tao Ma, James Zhang, Yifei Zheng, Jian Liu | (参考訳) クラウドコンピューティングの急速な増加により、データセンターの二酸化炭素排出量が急上昇し、世界の温室効果ガス排出量の3%以上を占めるようになった。
この取り組みの重要な焦点は、電力使用を減らすために資源利用を改善することである。
提案するフルスケーリング自動化(fsa)メカニズムは、大規模クラウドコンピューティングクラスタにおけるワークロードの変更に対応するために動的にリソースを適応させる効果的な方法であり、データセンターのクラスタが所望のcpu利用目標を維持し、エネルギー効率を向上させる。
FSAはディープ表現学習の力を利用して、各サービスの将来のワークロードを正確に予測し、統計モデルや専門家の知識で計算資源を調整する必要があるAutopilotやFIRMのような従来の自動スケーリング手法とは異なり、対応するCPU使用量を自動安定化する。
提案手法は,既存の実世界のデータセットと比較して,大幅な性能向上を実現している。
また,産業用データセンターの大規模クラウドコンピューティングクラスタにもfsaを展開し,中国環境統合認証センター(cec)の認証によれば,2022年のダブル11ショッピングフェスティバルにおいて,1538,000kwhの省電力に相当する947トンの二酸化炭素削減が達成され,2030年までには炭素中立化を目指す同社の戦略的目標にとって重要な一歩となった。 The rapid rise in cloud computing has resulted in an alarming increase in data centers' carbon emissions, which now accounts for >3% of global greenhouse gas emissions, necessitating immediate steps to combat their mounting strain on the global climate. An important focus of this effort is to improve resource utilization in order to save electricity usage. Our proposed Full Scaling Automation (FSA) mechanism is an effective method of dynamically adapting resources to accommodate changing workloads in large-scale cloud computing clusters, enabling the clusters in data centers to maintain their desired CPU utilization target and thus improve energy efficiency. FSA harnesses the power of deep representation learning to accurately predict the future workload of each service and automatically stabilize the corresponding target CPU usage level, unlike the previous autoscaling methods, such as Autopilot or FIRM, that need to adjust computing resources with statistical models and expert knowledge. Our approach achieves significant performance improvement compared to the existing work in real-world datasets. We also deployed FSA on large-scale cloud computing clusters in industrial data centers, and according to the certification of the China Environmental United Certification Center (CEC), a reduction of 947 tons of carbon dioxide, equivalent to a saving of 1538,000 kWh of electricity, was achieved during the Double 11 shopping festival of 2022, marking a critical step for our company's strategic goal towards carbon neutrality by 2030. | 翻訳日:2023-05-02 13:41:50 公開日:2023-05-01 |
# 因果推論における二重・単一降下と高次元合成制御への応用 Double and Single Descent in Causal Inference with an Application to High-Dimensional Synthetic Control ( http://arxiv.org/abs/2305.00700v1 ) ライセンス: Link先を確認 | Jann Spiess, Guido Imbens, Amar Venugopal | (参考訳) 機械学習における二重発色現象に関する最近の文献に触発され、多くの制御ユニットによる合成制御を含む因果推論における高度に過度なパラメータ化モデルを考える。
このようなモデルでは、多くの自由パラメータが存在するため、モデルは完全にトレーニングデータに適合する。
モチベーションの例として、まず高次元線形回帰を計算し、サンプルサイズよりも多くの共変量を持つモデルの方が単純なモデルより優れていることを示した。
本稿では,多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。
制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
そして、これらの高次元モデルの性能に関する統一的な理論的視点を提供する。
具体的には,より単純なモデルよりも複雑なモデルの方が,平均性能の向上に結びついていることを示す。
この視点は、制御ユニットが前処理期間の数に対して多くの場合、合成制御の使用に関する具体的な洞察を与える。 Motivated by a recent literature on the double-descent phenomenon in machine learning, we consider highly over-parametrized models in causal inference, including synthetic control with many control units. In such models, there may be so many free parameters that the model fits the training data perfectly. As a motivating example, we first investigate high-dimensional linear regression for imputing wage data, where we find that models with many more covariates than sample size can outperform simple ones. As our main contribution, we document the performance of high-dimensional synthetic control estimators with many control units. We find that adding control units can help improve imputation performance even beyond the point where the pre-treatment fit is perfect. We then provide a unified theoretical perspective on the performance of these high-dimensional models. Specifically, we show that more complex models can be interpreted as model-averaging estimators over simpler ones, which we link to an improvement in average performance. This perspective yields concrete insights into the use of synthetic control when control units are many relative to the number of pre-treatment periods. | 翻訳日:2023-05-02 13:41:11 公開日:2023-05-01 |
# TPMIL: 全スライド画像分類のためのトレーニング可能なプロトタイプ強化マルチインスタンス学習 TPMIL: Trainable Prototype Enhanced Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2305.00696v1 ) ライセンス: Link先を確認 | Litao Yang, Deval Mehta, Sidong Liu, Dwarikanath Mahapatra, Antonio Di Ieva, Zongyuan Ge | (参考訳) 全スライド画像(WSI)に基づくデジタル病理は,がん診断や臨床実践において重要な役割を担っている。
WSIの高解像度化とパッチレベルのアノテーションの有効性のため、WSI分類は通常、WSIのパッチに基づいた複数のインスタンス学習(MIL)に依存する弱教師付き問題として定式化される。
本稿では,MILとプロトタイプ学習を統合することで,最適なパッチレベルの特徴空間を学習することを目的とする。
そこで本研究では,WSI分類を弱教師付する訓練可能な拡張深層MIL(TPMIL)フレームワークを開発した。
特徴空間の改良のために選択されたパッチ数に依存する従来の手法とは対照的に、我々は対応するプロトタイプに割り当てることで、全てのインスタンスをソフトにクラスタリングする。
さらに, 異なる腫瘍サブタイプ間の相関を, 対応する訓練済みプロトタイプ間の距離を通して明らかにする。
さらに重要なことに、tpmilは、従来の注意スコアに基づく解釈の代替となる訓練済みのプロトタイプから、インスタンスの距離に基づいて、より正確な解釈性を提供することができる。
提案手法を2つのWSIデータセット上でテストし,新たなSOTAを実現する。
GitHubリポジトリ:https://github.com/LitaoYang-Jet/TPMIL Digital pathology based on whole slide images (WSIs) plays a key role in cancer diagnosis and clinical practice. Due to the high resolution of the WSI and the unavailability of patch-level annotations, WSI classification is usually formulated as a weakly supervised problem, which relies on multiple instance learning (MIL) based on patches of a WSI. In this paper, we aim to learn an optimal patch-level feature space by integrating prototype learning with MIL. To this end, we develop a Trainable Prototype enhanced deep MIL (TPMIL) framework for weakly supervised WSI classification. In contrast to the conventional methods which rely on a certain number of selected patches for feature space refinement, we softly cluster all the instances by allocating them to their corresponding prototypes. Additionally, our method is able to reveal the correlations between different tumor subtypes through distances between corresponding trained prototypes. More importantly, TPMIL also enables to provide a more accurate interpretability based on the distance of the instances from the trained prototypes which serves as an alternative to the conventional attention score-based interpretability. We test our method on two WSI datasets and it achieves a new SOTA. GitHub repository: https://github.com/LitaoYang-Jet/TPMIL | 翻訳日:2023-05-02 13:40:37 公開日:2023-05-01 |
# マルチスケール網膜とマルチタスク学習による熱赤外画像の関節トーンマッピングと復調 Joint tone mapping and denoising of thermal infrared images via multi-scale Retinex and multi-task learning ( http://arxiv.org/abs/2305.00691v1 ) ライセンス: Link先を確認 | Axel G\"odrich and Daniel K\"onig and Gabriel Eilertsen and Michael Teutsch | (参考訳) カメラは現実世界のシーンをピクセル強度値としてデジタル化し、ピクセル当たりのビット数(bpp)に制限された値範囲を持つ。
高ダイナミックレンジ(HDR)カメラは、bpp数の増加によって高解像度でこれらの輝度値をキャプチャする。
しかし、ほとんどのディスプレイは8bppに制限されている。
HDR圧縮方式では,これらのHDR画像に含まれるリッチな情報が失われる。
本稿では,16bppの熱赤外画像のトーンマッピングアルゴリズムについて検討し,その情報を保存する。
最適化されたマルチスケールRetinexアルゴリズムがベースラインを設定する。
このアルゴリズムは、人気のあるU-Netアーキテクチャに基づいたディープラーニングアプローチで近似される。
マルチタスク学習方式において、トーンマッピングアプローチと共同で訓練可能な自己教師付きディープラーニングアプローチを用いて、トーンマッピング後の画像の残雑音を暗黙的に低減する。
トーンマッピングの文脈における熱赤外映像エンハンスメントのデノイジングとデクリッカリングについてさらに検討する。
公開flir adasデータセットを用いた大規模実験により,提案手法の有効性が実証された。 Cameras digitize real-world scenes as pixel intensity values with a limited value range given by the available bits per pixel (bpp). High Dynamic Range (HDR) cameras capture those luminance values in higher resolution through an increase in the number of bpp. Most displays, however, are limited to 8 bpp. Naive HDR compression methods lead to a loss of the rich information contained in those HDR images. In this paper, tone mapping algorithms for thermal infrared images with 16 bpp are investigated that can preserve this information. An optimized multi-scale Retinex algorithm sets the baseline. This algorithm is then approximated with a deep learning approach based on the popular U-Net architecture. The remaining noise in the images after tone mapping is reduced implicitly by utilizing a self-supervised deep learning approach that can be jointly trained with the tone mapping approach in a multi-task learning scheme. Further discussions are provided on denoising and deflickering for thermal infrared video enhancement in the context of tone mapping. Extensive experiments on the public FLIR ADAS Dataset prove the effectiveness of our proposed method in comparison with the state-of-the-art. | 翻訳日:2023-05-02 13:40:15 公開日:2023-05-01 |
# point cloudセマンティックセグメンテーション Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2305.00773v1 ) ライセンス: Link先を確認 | Ivan Martinovi\'c | (参考訳) セマンティクスのセグメンテーションはコンピュータビジョンの分野で重要かつよく知られたタスクであり、それぞれの入力要素に対応するセマンティクスクラスを割り当てようとする。
2d画像の意味セグメンテーションに関しては、入力要素はピクセルである。
一方、入力は1つの入力要素が入力ポイントクラウドの1つの点を表す点雲であることもできる。
点雲という用語によって、ある参照座標系に関して空間座標によって定義される点の集合を指す。
空間内の点の位置に加えて、rgbコンポーネントなど、各点に対して他の特徴を定義することもできる。
本稿では,各点クラウドが1つの部屋を表すs3disデータセット上で意味セグメンテーションを行う。
我々はs3disデータセット、すなわちpointcnn, pointnet++, cylinder3d, point transformer, repsurfでモデルをトレーニングする。
得られた結果とセマンティックセグメンテーションの標準評価指標を比較し,推論速度に基づくモデルの比較を行った。 Semantic segmentation is an important and well-known task in the field of computer vision, in which we attempt to assign a corresponding semantic class to each input element. When it comes to semantic segmentation of 2D images, the input elements are pixels. On the other hand, the input can also be a point cloud, where one input element represents one point in the input point cloud. By the term point cloud, we refer to a set of points defined by spatial coordinates with respect to some reference coordinate system. In addition to the position of points in space, other features can also be defined for each point, such as RGB components. In this paper, we conduct semantic segmentation on the S3DIS dataset, where each point cloud represents one room. We train models on the S3DIS dataset, namely PointCNN, PointNet++, Cylinder3D, Point Transformer, and RepSurf. We compare the obtained results with respect to standard evaluation metrics for semantic segmentation and present a comparison of the models based on inference speed. | 翻訳日:2023-05-02 13:34:42 公開日:2023-05-01 |
# フェデレーション型オープンワールドセミ教師あり学習におけるアンバイアスドトレーニングに向けて Towards Unbiased Training in Federated Open-world Semi-supervised Learning ( http://arxiv.org/abs/2305.00771v1 ) ライセンス: Link先を確認 | Jie Zhang, Xiaosong Ma, Song Guo, Wenchao Xu | (参考訳) Federated Semi-supervised Learning (FedSSL)は、分散クライアントがラベル付きデータと豊富なラベル付きデータよりも機械学習モデルを協調的にトレーニングできるようにする新しいパラダイムとして登場した。
しかし、FedSSLの既存の研究は、すべてのローカルトレーニングデータとグローバルテストデータがラベル付きデータセットで見られるクラスから来ているというクローズドワールドの仮定に依存している。
FLモデルを、ラベルのないデータの中に見えないクラスが存在するオープンワールドの設定に適応させることは、さらに重要なことです。
本稿では,分散およびオープンワールドの設定における鍵となる課題,すなわち不均質に分散した非知覚クラスに対するバイアスドトレーニングプロセスを解決するための,fedossl(federated open-world semi-supervised learning)フレームワークを提案する。
具体的には、あるunseenクラスの出現は、クライアントベースに依存するため、(複数のクライアントに存在する)ローカルなunseenクラスは、グローバルなunseenクラス(一つのクライアントにのみ存在する)よりも、差別化された優れたアグリゲーション効果を受ける可能性が高い。
我々は,不確実性に留意された損失を抑えることで,局所的に見えないクラスとグローバルな見えないクラスの間のバイアスのあるトレーニングを緩和する。
さらに,グローバルアグリゲーションを補完するキャリブレーションモジュールを,異なるクライアント間での不整合データ分散に起因する潜在的な矛盾する知識伝達を回避する。
提案したFedoSSLは、ベンチマークや実世界のデータセット(CIFAR-10、CIFAR-100、CINIC-10)の広範な実験を通じて、最先端のFL法に容易に適用することができる。 Federated Semi-supervised Learning (FedSSL) has emerged as a new paradigm for allowing distributed clients to collaboratively train a machine learning model over scarce labeled data and abundant unlabeled data. However, existing works for FedSSL rely on a closed-world assumption that all local training data and global testing data are from seen classes observed in the labeled dataset. It is crucial to go one step further: adapting FL models to an open-world setting, where unseen classes exist in the unlabeled data. In this paper, we propose a novel Federatedopen-world Semi-Supervised Learning (FedoSSL) framework, which can solve the key challenge in distributed and open-world settings, i.e., the biased training process for heterogeneously distributed unseen classes. Specifically, since the advent of a certain unseen class depends on a client basis, the locally unseen classes (exist in multiple clients) are likely to receive differentiated superior aggregation effects than the globally unseen classes (exist only in one client). We adopt an uncertainty-aware suppressed loss to alleviate the biased training between locally unseen and globally unseen classes. Besides, we enable a calibration module supplementary to the global aggregation to avoid potential conflicting knowledge transfer caused by inconsistent data distribution among different clients. The proposed FedoSSL can be easily adapted to state-of-the-art FL methods, which is also validated via extensive experiments on benchmarks and real-world datasets (CIFAR-10, CIFAR-100 and CINIC-10). | 翻訳日:2023-05-02 13:34:26 公開日:2023-05-01 |
# マルチスケールトランスフォーマーを用いた多生理信号からの感情認識ネットワーク Multi-scale Transformer-based Network for Emotion Recognition from Multi Physiological Signals ( http://arxiv.org/abs/2305.00769v1 ) ライセンス: Link先を確認 | Tu Vu and Van Thong Huynh and Soo-Hyung Kim | (参考訳) 本稿では,現代のセンサと機械学習技術を用いて,これらの信号から抽出される膨大な情報によって,研究コミュニティで広く注目を集めている生理的データから感情認識を行うための,効率的なマルチスケールトランスフォーマー手法を提案する。
我々のアプローチは、内部信号と人間の感情の関係を確立するために、データのスケーリングと組み合わせたマルチモーダル手法を適用することである。
さらに、トランスフォーマおよびガウス変換技術を用いて信号符号化の有効性と全体的な性能を向上させる。
我々のモデルは、epicコンペティションのケースデータセットで、rmseスコア1.45でまともな結果を得る。 This paper presents an efficient Multi-scale Transformer-based approach for the task of Emotion recognition from Physiological data, which has gained widespread attention in the research community due to the vast amount of information that can be extracted from these signals using modern sensors and machine learning techniques. Our approach involves applying a Multi-modal technique combined with scaling data to establish the relationship between internal body signals and human emotions. Additionally, we utilize Transformer and Gaussian Transformation techniques to improve signal encoding effectiveness and overall performance. Our model achieves decent results on the CASE dataset of the EPiC competition, with an RMSE score of 1.45. | 翻訳日:2023-05-02 13:33:56 公開日:2023-05-01 |
# 不均一な社会的価値指向は、逐次社会的ジレンマにおける意味の多様性をもたらす Heterogeneous Social Value Orientation Leads to Meaningful Diversity in Sequential Social Dilemmas ( http://arxiv.org/abs/2305.00768v1 ) ライセンス: Link先を確認 | Udari Madhushani, Kevin R. McKee, John P. Agapiou, Joel Z. Leibo, Richard Everett, Thomas Anthony, Edward Hughes, Karl Tuyls, Edgar A. Du\'e\~nez-Guzm\'an | (参考訳) 社会心理学において、社会価値指向(Social Value Orientation、SVO)は、個人が自分と他人の間に資源を割り当てる適性を記述する。
強化学習において、SVOは、特定のグループ報酬の目標分布に基づいてエージェントの報酬を再マップする本質的な動機付けとしてインスタンス化されてきた。
以前の研究では、異質なsvoを持つエージェントのグループは、囚人のジレンマのインセンティブ構造に似た設定で多様なポリシーを学ぶことが示されている。
本研究は,(1)社会的ジレンマにおける多様なインセンティブ構造において,(1)不均質なsvoが有意義に多様な政策をもたらすこと,(2)これらの政策の多様性に対する最善の対応を学ぶことは,いくつかの状況においてより良いゼロショット一般化をもたらすことを実証する。
これらの最良応答エージェントは、共プレイヤに条件付きポリシーを学習していることが、ゼロショット一般化結果の改善の理由であることを示す。 In social psychology, Social Value Orientation (SVO) describes an individual's propensity to allocate resources between themself and others. In reinforcement learning, SVO has been instantiated as an intrinsic motivation that remaps an agent's rewards based on particular target distributions of group reward. Prior studies show that groups of agents endowed with heterogeneous SVO learn diverse policies in settings that resemble the incentive structure of Prisoner's dilemma. Our work extends this body of results and demonstrates that (1) heterogeneous SVO leads to meaningfully diverse policies across a range of incentive structures in sequential social dilemmas, as measured by task-specific diversity metrics; and (2) learning a best response to such policy diversity leads to better zero-shot generalization in some situations. We show that these best-response agents learn policies that are conditioned on their co-players, which we posit is the reason for improved zero-shot generalization results. | 翻訳日:2023-05-02 13:33:44 公開日:2023-05-01 |
# RViDeformer: より大規模なベンチマークデータセットを備えた効率的なRaw Video Denoising Transformer RViDeformer: Efficient Raw Video Denoising Transformer with a Larger Benchmark Dataset ( http://arxiv.org/abs/2305.00767v1 ) ライセンス: Link先を確認 | Huanjing Yue, Cong Cao, Lei Liao, and Jingyu Yang | (参考訳) 近年,生領域における画像処理やノイズモデルとの整合性が向上し,生映像のノイズ除去が注目されている。
しかし、2つの問題が相変わらず性能を損なうことになった。
第1に,リアルタイムシーンのノイズやクリーンなフレームをキャプチャすることは困難であるため,生の映像を監督するためのリアルな動きを持つ大規模なデータセットは存在しない。
そこで本研究では,4k画面に表示された既存の高画質映像を高画質iso設定で再生し,ノイズの少ないペアリングフレームを構築することを提案する。
このようにして、1600年から25600年までのISO値を持つ120のノイズクリーンなビデオからなるビデオデノケーションデータセット(ReCRVD)を構築した。
第二に、非局所的な時間空間的注意は注目に値するが、計算コストの増大につながることが多い。
本稿では,短距離相関と長距離相関を探索する効率的な生映像デノイジングトランスネットワーク(rvideformer)を提案する。
具体的には,局所窓,局所低解像度窓,グローバルダウンサンプリング窓,隣接する窓からのパッチ相関を探索し,それらを融合するマルチブランチ空間および時間的アテンションモジュールを提案する。
我々は計算コストを削減するために再パラメータ化を用いる。
我々のネットワークは教師なしと教師なしの両方で訓練されており、最先端の手法と比較して最高の性能を実現している。
さらに,提案するデータセット(recrvd)で学習したモデルは,実世界の屋外ノイズ映像で評価した場合,従来のベンチマークデータセット(crvd)でトレーニングされたモデルよりも優れている。
私たちのコードとデータセットは、この作業が受け入れられてからリリースされます。 In recent years, raw video denoising has garnered increased attention due to the consistency with the imaging process and well-studied noise modeling in the raw domain. However, two problems still hinder the denoising performance. Firstly, there is no large dataset with realistic motions for supervised raw video denoising, as capturing noisy and clean frames for real dynamic scenes is difficult. To address this, we propose recapturing existing high-resolution videos displayed on a 4K screen with high-low ISO settings to construct noisy-clean paired frames. In this way, we construct a video denoising dataset (named as ReCRVD) with 120 groups of noisy-clean videos, whose ISO values ranging from 1600 to 25600. Secondly, while non-local temporal-spatial attention is beneficial for denoising, it often leads to heavy computation costs. We propose an efficient raw video denoising transformer network (RViDeformer) that explores both short and long-distance correlations. Specifically, we propose multi-branch spatial and temporal attention modules, which explore the patch correlations from local window, local low-resolution window, global downsampled window, and neighbor-involved window, and then they are fused together. We employ reparameterization to reduce computation costs. Our network is trained in both supervised and unsupervised manners, achieving the best performance compared with state-of-the-art methods. Additionally, the model trained with our proposed dataset (ReCRVD) outperforms the model trained with previous benchmark dataset (CRVD) when evaluated on the real-world outdoor noisy videos. Our code and dataset will be released after the acceptance of this work. | 翻訳日:2023-05-02 13:33:24 公開日:2023-05-01 |
# コヒーレント集団トラップ共鳴のコントラストに及ぼす非分極化および緩衝衝突の影響 Effect of depolarizing and quenching collisions on contrast of the coherent population trapping resonance ( http://arxiv.org/abs/2305.00761v1 ) ライセンス: Link先を確認 | K. M. Sabakar, M. I. Vaskovskaya, D. S. Chuchelov, E. A. Tsygankov, V. V. Vassiliev, S. A. Zibrov, V. L. Velichansky | (参考訳) 我々は,バッファーガスのコヒーレント集団トラップ共鳴に対する影響を,$$$87}$Rb原子における$\sigma$偏光場によって誘起する。
実験の結果, アルカリ金属原子の励起状態を脱分極する不活性ガスは, 蛍光を効果的に硬化する窒素よりも高いコントラストを示すことがわかった。
また, 自然放射の除去は, 中間体中温での幅を著しく減少させるものではないことを示した。
したがって、原子時計の窒素との混合物よりも不活性ガスの混合物が好ましい。 We investigate the effect of buffer gases on the coherent population trapping resonance induced by a $\sigma$-polarized optical field in $^{87}$Rb atoms. Our experimental results show that inert gases, which depolarize the excited state of the alkali-metal atoms, provide higher contrast than nitrogen that effectively quenches their fluorescence. We also demonstrate that elimination of the spontaneous radiation does not significantly decrease the width at moderate temperatures of an atomic medium. Therefore, a mixture of inert gases can be preferable over a mixture with nitrogen for atomic clocks. | 翻訳日:2023-05-02 13:32:54 公開日:2023-05-01 |
# FCA:分類者アンコリングによる長期化医療画像分類 FCA: Taming Long-tailed Federated Medical Image Classification by Classifier Anchoring ( http://arxiv.org/abs/2305.00738v1 ) ライセンス: Link先を確認 | Jeffry Wicaksana, Zengqiang Yan, and Kwang-Ting Cheng | (参考訳) 限られたトレーニングデータと厳しいクラスの不均衡は、臨床的に堅牢なディープラーニングモデルの開発に重大な課題を課す。
フェデレーション・ラーニング(fl)は、異なる医療クライアントがデータを共有せずに深層モデルを協調的にトレーニングできるようにすることで、前者に対処する。
しかし、クラス不均衡問題は、クライアント間のクラス分布のばらつきによって持続する。
これを解決するために、各クライアントにパーソナライズされた分類器を追加して、一貫性学習を通じてフェデレーションモデルをガイド・デバイアスする連邦分類器アンカー(FCA)を提案する。
さらに、fcaは、それぞれのクラス分布に基づいて、フェデレーションされた分類器と各クライアントのパーソナライズされた分類器をデビ化する。
FCAでは、フェデレーション特徴抽出器は、フェデレーションおよび全参加者の局所的だけでなく、グローバルな差別的特徴を効果的に学習する。
臨床実践では、フェデレーションモデルが一般化され、クライアント間でよく機能し、各クライアントがコラボレーションから恩恵を受けることが期待されている。
そこで本研究では,各クライアントにおいて,集約された公開テストセット上でのモデル一般化と特殊化性能をグローバルに評価するための新しい評価基準を提案する。
包括的比較と評価を通じてfcaは, 長期有尾皮膚病変分類と頭蓋内出血分類において, 最先端の手法を大きなマージンで上回っている。 Limited training data and severe class imbalance impose significant challenges to developing clinically robust deep learning models. Federated learning (FL) addresses the former by enabling different medical clients to collaboratively train a deep model without sharing data. However, the class imbalance problem persists due to inter-client class distribution variations. To overcome this, we propose federated classifier anchoring (FCA) by adding a personalized classifier at each client to guide and debias the federated model through consistency learning. Additionally, FCA debiases the federated classifier and each client's personalized classifier based on their respective class distributions, thus mitigating divergence. With FCA, the federated feature extractor effectively learns discriminative features suitably globally for federation as well as locally for all participants. In clinical practice, the federated model is expected to be both generalized, performing well across clients, and specialized, benefiting each individual client from collaboration. According to this, we propose a novel evaluation metric to assess models' generalization and specialization performance globally on an aggregated public test set and locally at each client. Through comprehensive comparison and evaluation, FCA outperforms the state-of-the-art methods with large margins for federated long-tailed skin lesion classification and intracranial hemorrhage classification, making it a more feasible solution in clinical settings. | 翻訳日:2023-05-02 13:32:44 公開日:2023-05-01 |
# 実世界のデータに対する教師なし異常検出アルゴリズム:何人必要か? Unsupervised anomaly detection algorithms on real-world data: how many do we need? ( http://arxiv.org/abs/2305.00735v1 ) ライセンス: Link先を確認 | Roel Bouman, Zaharah Bukhsh, Tom Heskes | (参考訳) 本研究では,52個の実世界の多変量表型データセット上で32個の教師なし異常検出アルゴリズムを評価し,教師なし異常検出アルゴリズムのこれまでの最大比較を行った。
このデータセットのコレクションでは、$k$-thNN($k$-nearestの隣人に対する)アルゴリズムが、他のアルゴリズムよりも大幅に優れています。
すべてのデータセットで考慮されたアルゴリズムの相対的なパフォーマンスを視覚化し、クラスタ化すると、"`local''データセットと‘`global'データセットの2つの明確なクラスタが特定されます。
局所的' 異常は、近傍のサンプルと比較して密度の低い領域を占有し、一方 ``global'' は特徴空間の全体的な低密度領域を占有する。
ローカルデータセットでは、$k$NN ($k$-nearest neighbor)アルゴリズムがトップに表示される。
グローバルデータセットでは、eif(extended isolation forest)アルゴリズムが最善を尽くしている。
アルゴリズムの計算複雑性も考慮し、これら3つの教師なし異常検出アルゴリズムを備えたツールボックスは、この代表的多変量データセットの異常を見つけるのに十分である。
コードやデータセットへのアクセスを提供することで、より多くのアルゴリズムやデータセットで簡単に再現および拡張することができます。 In this study we evaluate 32 unsupervised anomaly detection algorithms on 52 real-world multivariate tabular datasets, performing the largest comparison of unsupervised anomaly detection algorithms to date. On this collection of datasets, the $k$-thNN (distance to the $k$-nearest neighbor) algorithm significantly outperforms the most other algorithms. Visualizing and then clustering the relative performance of the considered algorithms on all datasets, we identify two clear clusters: one with ``local'' datasets, and another with ``global'' datasets. ``Local'' anomalies occupy a region with low density when compared to nearby samples, while ``global'' occupy an overall low density region in the feature space. On the local datasets the $k$NN ($k$-nearest neighbor) algorithm comes out on top. On the global datasets, the EIF (extended isolation forest) algorithm performs the best. Also taking into consideration the algorithms' computational complexity, a toolbox with these three unsupervised anomaly detection algorithms suffices for finding anomalies in this representative collection of multivariate datasets. By providing access to code and datasets, our study can be easily reproduced and extended with more algorithms and/or datasets. | 翻訳日:2023-05-02 13:32:17 公開日:2023-05-01 |
# 自己監督型ビジョントランスフォーマーは何を学べるか? What Do Self-Supervised Vision Transformers Learn? ( http://arxiv.org/abs/2305.00729v1 ) ライセンス: Link先を確認 | Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun | (参考訳) 本稿では, コントラスト学習 (cl) とマスキング画像モデリング (mim) が, それらの表現と下流課題の性能にどのように異なるか, 比較研究を行う。
特に, 自己監督型視覚変換器(ViT)は, (1) CLはオブジェクトの形状, 特にViTアーキテクチャの後期層において, MIM よりも長距離なグローバルなパターンをキャプチャするための自己注意を訓練する。
このCL特性は、ViTが表現空間内の画像を線形に分離するのに役立つ。
しかし、これはまた、全てのクエリトークンとヘッドの自己アテンションを均質にする。
このような自己注意の均一性は表現の多様性を減らし、スケーラビリティと密接な予測性能を悪化させる。
2) CLは表現の低周波信号を利用するが,MIMは高周波信号を使用する。
低周波情報と高周波情報はそれぞれ形状とテクスチャを表すため、CLはより形状指向であり、MIMはよりテクスチャ指向である。
3) clは後期層において重要な役割を果たすが,mimは主に初期層に注目している。
これらの分析の結果、CLとMIMは相互に補完し、最も単純な調和でも両方の手法の利点を活用できることがわかった。
コードはhttps://github.com/naver-ai/cl-vs-mimで入手できる。 We present a comparative study on how and why contrastive learning (CL) and masked image modeling (MIM) differ in their representations and in their performance of downstream tasks. In particular, we demonstrate that self-supervised Vision Transformers (ViTs) have the following properties: (1) CL trains self-attentions to capture longer-range global patterns than MIM, such as the shape of an object, especially in the later layers of the ViT architecture. This CL property helps ViTs linearly separate images in their representation spaces. However, it also makes the self-attentions collapse into homogeneity for all query tokens and heads. Such homogeneity of self-attention reduces the diversity of representations, worsening scalability and dense prediction performance. (2) CL utilizes the low-frequency signals of the representations, but MIM utilizes high-frequencies. Since low- and high-frequency information respectively represent shapes and textures, CL is more shape-oriented and MIM more texture-oriented. (3) CL plays a crucial role in the later layers, while MIM mainly focuses on the early layers. Upon these analyses, we find that CL and MIM can complement each other and observe that even the simplest harmonization can help leverage the advantages of both methods. The code is available at https://github.com/naver-ai/cl-vs-mim. | 翻訳日:2023-05-02 13:31:58 公開日:2023-05-01 |
# 局所トポロジカルプロファイルを用いたグラフ分類のための構造ベースラインの強化 Strengthening structural baselines for graph classification using Local Topological Profile ( http://arxiv.org/abs/2305.00724v1 ) ライセンス: Link先を確認 | Jakub Adamczyk, Wojciech Czech | (参考訳) 本稿では,グラフ分類に広く用いられている構造的ベースラインを形成するトポロジカルグラフ記述子Local Degree Profile (LDP) について述べる。
本研究では,最近開発されたfair evaluation frameworkの文脈におけるモデル評価に着目し,グラフ分類のモデル選択と評価のための厳密なルーチンを定義し,結果の再現性と比較可能性を確保する。
そこで本研究では,新たな集中度尺度と局所頂点記述子を用いてLDPを拡張した,ローカル位相プロファイル(LTP)と呼ばれる新しいベースラインアルゴリズムを提案する。
新しいアプローチは、使用するすべてのデータセットに対して、結果が最新のgnnに匹敵する、あるいは非常に近いものを提供する。
具体的には、9つのベンチマークデータセットのうち4つについて最新結果が得られた。
また, LDPに基づく特徴抽出とモデル構築の計算的側面を考察し, 実行速度とスケーラビリティに影響を及ぼす実用的な改善を提案する。
これにより、最新の大規模なデータセットを処理でき、グラフ表現学習で使用されるベンチマークのポートフォリオを拡張することができる。
研究の結果,グラフ同型ネットワーク(GIN)などのグラフ分類モデルに勝るものの,理解が容易で,高速で,スケーラブルで,かつ頑健なベースラインとしてLTPを得た。
我々は,オープンソース実装を \href{https://github.com/j-adamczyk/LTP}{GitHub} で提供します。 We present the analysis of the topological graph descriptor Local Degree Profile (LDP), which forms a widely used structural baseline for graph classification. Our study focuses on model evaluation in the context of the recently developed fair evaluation framework, which defines rigorous routines for model selection and evaluation for graph classification, ensuring reproducibility and comparability of the results. Based on the obtained insights, we propose a new baseline algorithm called Local Topological Profile (LTP), which extends LDP by using additional centrality measures and local vertex descriptors. The new approach provides the results outperforming or very close to the latest GNNs for all datasets used. Specifically, state-of-the-art results were obtained for 4 out of 9 benchmark datasets. We also consider computational aspects of LDP-based feature extraction and model construction to propose practical improvements affecting execution speed and scalability. This allows for handling modern, large datasets and extends the portfolio of benchmarks used in graph representation learning. As the outcome of our work, we obtained LTP as a simple to understand, fast and scalable, still robust baseline, capable of outcompeting modern graph classification models such as Graph Isomorphism Network (GIN). We provide open-source implementation at \href{https://github.com/j-adamczyk/LTP}{GitHub}. | 翻訳日:2023-05-02 13:31:34 公開日:2023-05-01 |
# 特徴量とmdi特徴量による深い森林の解釈 Interpreting Deep Forest through Feature Contribution and MDI Feature Importance ( http://arxiv.org/abs/2305.00805v1 ) ライセンス: Link先を確認 | Yi-Xiao He, Shen-Huan Lyu, Yuan Jiang | (参考訳) ディープフォレスト(deep forest)は、非微分可能な深層モデルであり、様々なアプリケーション、特にカテゴリー・シンボリック・混合モデリングタスクで印象的な成功を収めた。
アプリケーション分野の多くは、各予測に局所的な説明を提供するような特徴のあるランダムな森林や、グローバルな特徴の重要性を提供する平均減少不純物(MDI)など、説明可能なモデルを好む。
しかし、深い森林はランダムな森林のカスケードであり、第一層のみに解釈可能である。
第2層から、前層が生成した新機能に多くの木分割が発生するため、既存の無作為林の解説ツールが適用できない。
深層層における原特徴の影響を明らかにするため,各層に対するキャリブレーションステップに続く推定ステップによる計算手法を設計し,深層林における特徴貢献とMDI特徴重要度算出ツールを提案する。
シミュレーションデータと実世界データの両方の実験結果から,本手法の有効性が検証された。 Deep forest is a non-differentiable deep model which has achieved impressive empirical success across a wide variety of applications, especially on categorical/symbolic or mixed modeling tasks. Many of the application fields prefer explainable models, such as random forests with feature contributions that can provide local explanation for each prediction, and Mean Decrease Impurity (MDI) that can provide global feature importance. However, deep forest, as a cascade of random forests, possesses interpretability only at the first layer. From the second layer on, many of the tree splits occur on the new features generated by the previous layer, which makes existing explanatory tools for random forests inapplicable. To disclose the impact of the original features in the deep layers, we design a calculation method with an estimation step followed by a calibration step for each layer, and propose our feature contribution and MDI feature importance calculation tools for deep forest. Experimental results on both simulated data and real world data verify the effectiveness of our methods. | 翻訳日:2023-05-02 13:24:25 公開日:2023-05-01 |
# 並列機械学習アルゴリズムの性能とエネルギー消費 Performance and Energy Consumption of Parallel Machine Learning Algorithms ( http://arxiv.org/abs/2305.00798v1 ) ライセンス: Link先を確認 | Xidong Wu, Preston Brazzle, Stephen Cahoon | (参考訳) 機械学習モデルは、データサイエンス、コンピュータビジョン、自然言語処理など、様々な現実世界のアプリケーションで顕著に成功している。
しかし、機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングプロセスをスピードアップするための一般的な戦略である。
しかし、モデルトレーニングと推論に関する多くの研究は、パフォーマンスの側面のみに焦点を当てている。
電力消費はあらゆる種類の計算、特に高性能アプリケーションにとって重要な指標である。
センサやモバイルデバイスなどの低消費電力プラットフォームで使用できる機械学習アルゴリズムが研究されているが、高性能コンピューティング用に設計されたアルゴリズムでは、少ない電力最適化が行われている。
本稿では,ロジスティック回帰と遺伝的アルゴリズムのc++実装と,分類タスクに確率的勾配降下(sgd)アルゴリズムを用いたニューラルネットワークのpython実装を提案する。
モデルの複雑さとトレーニングデータのサイズが、パワーとパフォーマンスの両方の観点からアルゴリズムの並列効率に与える影響を示す。
また、シャードメモリ並列性、分散メモリ並列性、GPUアクセラレーションを用いてこれらの実装をテストし、機械学習モデルのトレーニングを高速化した。 Machine learning models have achieved remarkable success in various real-world applications such as data science, computer vision, and natural language processing. However, model training in machine learning requires large-scale data sets and multiple iterations before it can work properly. Parallelization of training algorithms is a common strategy to speed up the process of training. However, many studies on model training and inference focus only on aspects of performance. Power consumption is also an important metric for any type of computation, especially high-performance applications. Machine learning algorithms that can be used on low-power platforms such as sensors and mobile devices have been researched, but less power optimization is done for algorithms designed for high-performance computing. In this paper, we present a C++ implementation of logistic regression and the genetic algorithm, and a Python implementation of neural networks with stochastic gradient descent (SGD) algorithm on classification tasks. We will show the impact that the complexity of the model and the size of the training data have on the parallel efficiency of the algorithm in terms of both power and performance. We also tested these implementations using shard-memory parallelism, distributed memory parallelism, and GPU acceleration to speed up machine learning model training. | 翻訳日:2023-05-02 13:23:22 公開日:2023-05-01 |
# SelfDocSeg: ドキュメントセグメンテーションへの自己監督型ビジョンベースのアプローチ SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation ( http://arxiv.org/abs/2305.00795v1 ) ライセンス: Link先を確認 | Subhajit Maity, Sanket Biswas, Siladittya Manna, Ayan Banerjee, Josep Llad\'os, Saumik Bhattacharya, Umapada Pal | (参考訳) 文書レイアウト分析は文書研究コミュニティにとって既知の問題であり、テキストマイニングや認識からグラフベースの表現、視覚的特徴抽出、emph{etc} に至るまで、様々なソリューションが生み出されてきた。
しかし、既存の作品の多くはラベル付きデータの不足に関する重要な事実を無視している。
個人生活へのインターネット接続の増大に伴い、パブリックドメインでは膨大な量のドキュメントが利用可能となり、データアノテーションは面倒な作業となった。
テキストマイニングやテキストラベルを用いた既存の文書セグメンテーションアプローチとは異なり,我々は,接地ラベルやその派生性のない事前学習において,完全な視覚に基づくアプローチを用いる。
代わりに、文書画像から擬似レイアウトを生成し、画像エンコーダを事前訓練し、文書オブジェクト表現とローカライゼーションを自己教師付きフレームワークで学習し、オブジェクト検出モデルで微調整する。
当社のパイプラインでは、このコンテキストで新たなベンチマークを設定し、既存のメソッドや監視対象のものと同等のパフォーマンスを実現しています。
コードは以下で公開されている。 \href{https://github.com/MaitySubhajit/SelfDocSeg}{github.com/MaitySubhajit/SelfDocSeg Document layout analysis is a known problem to the documents research community and has been vastly explored yielding a multitude of solutions ranging from text mining, and recognition to graph-based representation, visual feature extraction, \emph{etc}. However, most of the existing works have ignored the crucial fact regarding the scarcity of labeled data. With growing internet connectivity to personal life, an enormous amount of documents had been available in the public domain and thus making data annotation a tedious task. We address this challenge using self-supervision and unlike, the few existing self-supervised document segmentation approaches which use text mining and textual labels, we use a complete vision-based approach in pre-training without any ground-truth label or its derivative. Instead, we generate pseudo-layouts from the document images to pre-train an image encoder to learn the document object representation and localization in a self-supervised framework before fine-tuning it with an object detection model. We show that our pipeline sets a new benchmark in this context and performs at par with the existing methods and the supervised counterparts, if not outperforms. The code is made publicly available at: \href{https://github.com/MaitySubhajit/SelfDocSeg}{github.com/MaitySubhajit/SelfDocSeg | 翻訳日:2023-05-02 13:23:04 公開日:2023-05-01 |
# シリコンフォトニクス重みバンクを用いたスパイキングvcsel-neuronsの神経形態光システムへの応用 Interfacing spiking VCSEL-neurons with silicon photonics weight banks towards integrated neuromorphic photonic systems ( http://arxiv.org/abs/2305.00788v1 ) ライセンス: Link先を確認 | Mat\v{e}j Hejda, Eli A. Doris, Simon Bilodeau, Joshua Robertson, Dafydd Owen-Newns, Bhavin J. Shastri, Paul R. Prucnal, Antonio Hurtado | (参考訳) スパイキングニューロンとニューラルネットワークは、脳にインスパイアされたコンピューティングの基本的な構成要素であり、フォトニックハードウェアの実装から著しく恩恵を受けている。
本研究では,超高速なVCSEL-neuronとシリコンフォトニクス(SiPh)集積マイクロリング共振器(MRR)重みバンクに基づく相互接続系を実験的に検討し,その2つの機能的配置を実証する。
まず,MRR重みバンクをスパイクVCSELニューロンと共役させてサブns光スパイキング信号の振幅重み付けを行う方法を示す。
第2に, 連続発火VCSEL-neuronは, 単一重み付けマイクロリングを介して伝搬するロック信号を用いて直接変調可能であることを示し, マイクロリング共振器の熱チューニングによる光スパイク発火率符号化を行う。
統合ウエイトバンクとフォトニックvcsel-neuronsの両方の有意な実績から、これらの2つのタイプのデバイスが機能的ニューロモルフィックフォトニックシステムで使用されることの生存可能性を示す。 Spiking neurons and neural networks constitute a fundamental building block for brain-inspired computing, which is posed to benefit significantly from photonic hardware implementations. In this work, we experimentally investigate an interconnected system based on an ultrafast spiking VCSEL-neuron and a silicon photonics (SiPh) integrated micro-ring resonator (MRR) weight bank, and demonstrate two different functional arrangements of these devices. First, we show that MRR weightbanks can be used in conjuction with the spiking VCSEL-neurons to perform amplitude weighting of sub-ns optical spiking signals. Second, we show that a continuous firing VCSEL-neuron can be directly modulated using a locking signal propagated through a single weighting micro-ring, and we utilize this functionality to perform optical spike firing rate-coding via thermal tuning of the micro-ring resonator. Given the significant track record of both integrated weight banks and photonic VCSEL-neurons, we believe these results demonstrate the viability of combining these two classes of devices for use in functional neuromorphic photonic systems. | 翻訳日:2023-05-02 13:22:38 公開日:2023-05-01 |
# GeneFace++: 汎用的で安定的なリアルタイムオーディオ駆動の3Dトーク顔生成 GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation ( http://arxiv.org/abs/2305.00787v1 ) ライセンス: Link先を確認 | Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao | (参考訳) 話し手の肖像を任意の音声で生成することは、デジタル人間とメタバースの分野において重要な問題である。
汎用的な音声・リップ同期,良質な映像品質,高システム効率を実現するために,最新のトーキングフェイス生成手法が期待されている。
近年,数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため,ニューラルレイディアンス・フィールド(NeRF)が普及している。
しかし、NeRFベースの手法にはいくつかの課題がある。
1) 唇の同期については, 時間的一貫性と音声-リップ精度の長い顔の動き列を生成することは困難である。
2)ビデオの品質については,レンダラーのトレーニングに使用するデータが少ないため,ドメイン外の入力条件に脆弱であり,時には悪いレンダリング結果が得られる。
3) システム効率に関しては,バニラ型NeRFの遅いトレーニングと推論速度が実世界のアプリケーションでの使用を著しく妨げている。
本稿では,これらの課題に対処するためにGeneFace++を提案する。
1) ピッチ輪郭を補助的特徴として利用し, 顔の動き予測プロセスに時間的損失を導入すること
2) ロバスト性問題を回避するために,予測動作系列の異常値を調整するためのランドマーク局所線形埋め込み法の提案
3)高速トレーニングとリアルタイム推論を実現するため,計算効率の良いNeRFベースのモーション・トゥ・ビデオ・レンダラーを設計する。
これらの設定により、GeneFace++は、音声-リップ同期を一般化した安定かつリアルタイムな会話顔生成を実現する最初のNeRFベースの方法となる。
実験の結果,本手法は主観的,客観的な評価において,最先端のベースラインよりも優れていた。
ビデオのサンプルはhttps://genefaceplus.github.ioで入手できる。 Generating talking person portraits with arbitrary speech audio is a crucial problem in the field of digital human and metaverse. A modern talking face generation method is expected to achieve the goals of generalized audio-lip synchronization, good video quality, and high system efficiency. Recently, neural radiance field (NeRF) has become a popular rendering technique in this field since it could achieve high-fidelity and 3D-consistent talking face generation with a few-minute-long training video. However, there still exist several challenges for NeRF-based methods: 1) as for the lip synchronization, it is hard to generate a long facial motion sequence of high temporal consistency and audio-lip accuracy; 2) as for the video quality, due to the limited data used to train the renderer, it is vulnerable to out-of-domain input condition and produce bad rendering results occasionally; 3) as for the system efficiency, the slow training and inference speed of the vanilla NeRF severely obstruct its usage in real-world applications. In this paper, we propose GeneFace++ to handle these challenges by 1) utilizing the pitch contour as an auxiliary feature and introducing a temporal loss in the facial motion prediction process; 2) proposing a landmark locally linear embedding method to regulate the outliers in the predicted motion sequence to avoid robustness issues; 3) designing a computationally efficient NeRF-based motion-to-video renderer to achieves fast training and real-time inference. With these settings, GeneFace++ becomes the first NeRF-based method that achieves stable and real-time talking face generation with generalized audio-lip synchronization. Extensive experiments show that our method outperforms state-of-the-art baselines in terms of subjective and objective evaluation. Video samples are available at https://genefaceplusplus.github.io . | 翻訳日:2023-05-02 13:22:16 公開日:2023-05-01 |
# 小型量子誤り訂正符号に対する低精細フラグ型シンドローム抽出 Low-Depth Flag-Style Syndrome Extraction for Small Quantum Error-Correction Codes ( http://arxiv.org/abs/2305.00784v1 ) ライセンス: Link先を確認 | Dhruv Bhatnagar, Matthew Steinberg, David Elkouss, Carmen G. Almudever, Sebastian Feld | (参考訳) フラッグスタイルのフォールトトレランスは、小さなフォールトトレラント量子エラー補正実験の実現におけるリンチピンとなっている。
フラグプロトコルのユーティリティは、通常他のアプローチよりもはるかに小さい、低キュービットのオーバヘッドにヒンジする。
しかし、多くのフォールトトレランスプロトコルと同様に、フラグスタイルのエラー訂正の利点にはトレードオフがある。
本稿では,[5,1,3]]コードに対して,過去症候群に基づく安定化器測定の動的選択と,完全安定器群からの要素の利用により,[5,1,3]]コードに対してより詳細なシンドローム抽出回路を用いたフラッグプロトコル,および,フラッグフォールトトレランスの標準的な手法と比較した場合のステアン符号を導出する。
提案手法では,新しいプロトコルがフォールトトレラントなルックアップテーブルを生成できることを示すとともに,擬似閾値シミュレーションにより,従来確立されていた手法と比較して,全プロトコルの大幅な改善を示す。
この研究は、フォールトトレラント量子エラー補正における回路オーバーヘッドを低減するために、フル安定化器群の特性を利用するための対話を開放する。 Flag-style fault-tolerance has become a linchpin in the realization of small fault-tolerant quantum-error correction experiments. The flag protocol's utility hinges on low qubit overhead, which is typically much smaller than in other approaches. However, as in most fault-tolerance protocols, the advantages of flag-style error correction come with a tradeoff: fault tolerance can be guaranteed, but such protocols involve high-depth circuits, due to the need for repeated stabilizer measurements. Here, we demonstrate that a dynamic choice of stabilizer measurements, based on past syndromes, and the utilization of elements from the full stabilizer group, leads to flag protocols with lower-depth syndrome-extraction circuits for the [[5,1,3]] code, as well as for the Steane code when compared to the standard methods in flag fault tolerance. We methodically prove that our new protocols yield fault-tolerant lookup tables, and demonstrate them with a pseudothreshold simulation, showcasing large improvements for all protocols when compared to previously-established methods. This work opens the dialogue on exploiting the properties of the full stabilizer group for reducing circuit overhead in fault-tolerant quantum-error correction. | 翻訳日:2023-05-02 13:21:47 公開日:2023-05-01 |
# NOMA NTNにおけるAIベースの無線・コンピューティングリソース割り当てとパスプランニング:CSI不確実性の下でのAoI最小化 AI-based Radio and Computing Resource Allocation and Path Planning in NOMA NTNs: AoI Minimization under CSI Uncertainty ( http://arxiv.org/abs/2305.00780v1 ) ライセンス: Link先を確認 | Maryam Ansarifard, Nader Mokari, Mohammadreza Javan, Hamid Saeedi, Eduard A. Jorswieck | (参考訳) 本稿では,高高度プラットフォーム (HAP) と無人航空機 (UAV) を組み合わせた階層型空力計算フレームワークを開発し,地上モバイルユーザの全オフロードタスクを,アップリンク非直交多重アクセス (UL-NOMA) で接続する。
特に、UAVおよびHAPのチャネル状態情報(CSI)の不確実性やUAVとHAPの複数のリソース制約によって制限されるUAVとHAPの両方におけるUAVの軌道とリソース割り当てを調整することで、全てのユーザのAoIを弾性的タスクで最小化する。
この非凸最適化問題を解決するために、UAVの軌道を設計し、チャネル、電力、CPU割り当てを得るために、マルチエージェント・ディープ決定性ポリシー勾配(MADDPG)とフェデレーション強化学習(FRL)の2つの手法を提案する。
タスクスケジューリングは平均aoiを著しく減少させることが示された。
この改善は、より大きなタスクサイズに対してより顕著である。
一方,全ユーザに対する全伝送電力使用と比較すると,電力割当は平均aoiに対して限界効果があることが示された。
一方、従来の送信(固定法)シミュレーション結果と比較すると、スケジューリング方式が平均AoIよりも低いことが分かる。 In this paper, we develop a hierarchical aerial computing framework composed of high altitude platform (HAP) and unmanned aerial vehicles (UAVs) to compute the fully offloaded tasks of terrestrial mobile users which are connected through an uplink non-orthogonal multiple access (UL-NOMA). In particular, the problem is formulated to minimize the AoI of all users with elastic tasks, by adjusting UAVs trajectory and resource allocation on both UAVs and HAP, which is restricted by the channel state information (CSI) uncertainty and multiple resource constraints of UAVs and HAP. In order to solve this non-convex optimization problem, two methods of multi-agent deep deterministic policy gradient (MADDPG) and federated reinforcement learning (FRL) are proposed to design the UAVs trajectory and obtain channel, power, and CPU allocations. It is shown that task scheduling significantly reduces the average AoI. This improvement is more pronounced for larger task sizes. On the one hand, it is shown that power allocation has a marginal effect on the average AoI compared to using full transmission power for all users. On the other hand, compared with traditional transmissions (fixed method) simulation result shows that our scheduling scheme has a lower average AoI. | 翻訳日:2023-05-02 13:21:23 公開日:2023-05-01 |
# ニューラルネットワークを用いた例外点のキャラクタリゼーション Characterizing Exceptional Points Using Neural Networks ( http://arxiv.org/abs/2305.00776v1 ) ライセンス: Link先を確認 | Md. Afsar Reja, Awadhesh Narayan | (参考訳) 非エルミート系の重要な特徴の1つは例外点(EP)、固有値と固有ベクトルが融合するスペクトル退化である。
本研究では,新しい特徴である要約位相剛性(SPR)を導入して,EPを特徴付けるニューラルネットワークを提案する。
我々は,このアプローチを説明するために,複雑性の異なる異なるモデルを検討し,epsの予測方法を示す。
さらに,多様なサイトに対するパラダイム的Hatano-Nelsonモデルにおいて,正確なEP予測を示す。
注目すべきは、SPRがトレーニングデータから完全に見当たらない注文のEPを予測できることである。
本手法は,機械学習手法を用いてEPを自動で特徴付けるのに有用である。 One of the key features of non-Hermitian systems is the occurrence of exceptional points (EPs), spectral degeneracies where the eigenvalues and eigenvectors merge. In this work, we propose applying neural networks to characterize EPs by introducing a new feature -- summed phase rigidity (SPR). We consider different models with varying degrees of complexity to illustrate our approach, and show how to predict EPs for two-site and four-site gain and loss models. Further, we demonstrate an accurate EP prediction in the paradigmatic Hatano-Nelson model for a variable number of sites. Remarkably, we show how SPR enables a prediction of EPs of orders completely unseen by the training data. Our method can be useful to characterize EPs in an automated manner using machine learning approaches. | 翻訳日:2023-05-02 13:20:59 公開日:2023-05-01 |
# LCAUnet : エッジとボディ融合を増強した皮膚病変セグメンテーションネットワーク LCAUnet: A skin lesion segmentation network with enhanced edge and body fusion ( http://arxiv.org/abs/2305.00837v1 ) ライセンス: Link先を確認 | Qisen Ma, Keming Mao, Gao Wang, Lisheng Xu, Yuhai Zhao | (参考訳) 皮膚内視鏡像における皮膚病変の正確なセグメンテーションは皮膚癌の早期診断と患者の生存率の向上に不可欠である。
しかし, 病変領域の異常, 境界の曖昧さ, その他の複雑な干渉因子が原因で, 依然として困難な課題である。
本稿では,エッジとボディ特徴の融合による相補表現能力の向上を目的として,従来の手法ではあまり注目されていない新しいlcaunetを提案する。
まず、それぞれCNNとTransformerベースのアーキテクチャでエッジとボディセグメンテーション用に2つの別々のブランチを設定する。
次に、LCAFモジュールを用いてエンコーダステージにおける局所的横断操作により、同一レベルのエッジとボディの特徴マップを融合する。
さらに、PGMFモジュールは、以前のガイド付きマルチスケール適応と機能統合するために組み込まれている。
公開データセットISIC 2017、ISIC 2018、PH2に関する総合的な実験は、LCAUnetがほとんどの最先端の手法より優れていることを実証している。
アブレーション実験は, 提案手法の有効性も検証した。 Accurate segmentation of skin lesions in dermatoscopic images is crucial for the early diagnosis of skin cancer and improving the survival rate of patients. However, it is still a challenging task due to the irregularity of lesion areas, the fuzziness of boundaries, and other complex interference factors. In this paper, a novel LCAUnet is proposed to improve the ability of complementary representation with fusion of edge and body features, which are often paid little attentions in traditional methods. First, two separate branches are set for edge and body segmentation with CNNs and Transformer based architecture respectively. Then, LCAF module is utilized to fuse feature maps of edge and body of the same level by local cross-attention operation in encoder stage. Furthermore, PGMF module is embedded for feature integration with prior guided multi-scale adaption. Comprehensive experiments on public available dataset ISIC 2017, ISIC 2018, and PH2 demonstrate that LCAUnet outperforms most state-of-the-art methods. The ablation studies also verify the effectiveness of the proposed fusion techniques. | 翻訳日:2023-05-02 13:15:41 公開日:2023-05-01 |
# 強結合ボースポーラロンの統一理論:反発ポーラロンから非ガウス多体バウンド状態へ A unified theory of strong coupling Bose polarons: From repulsive polarons to non-Gaussian many-body bound states ( http://arxiv.org/abs/2305.00835v1 ) ライセンス: Link先を確認 | Nader Mostaan, Nathan Goldman, Fabian Grusdt | (参考訳) 我々は、フェシュバッハ共鳴を通じて、ホストボース・アインシュタイン凝縮体(BEC)と強く相互作用する移動不純物のボースポーラロン問題に対処する。
強い結合における反発側では、理論的なアプローチは2つの異なるポラロン分岐を誘引性および反発性ポラロンに対応させて予測するが、この2つがどのように関連しているかは定かではない。
これは、弱い反発的(安定)ボソン・ボソン相互作用と強い魅力(不安定)な不純物・ボソン相互作用の競合によるものであり、その相互作用は現代の理論手法では説明が難しい。
ここでは、無限個のボソニック励起を含む不純物-ボソン散乱状態間のガウス相関と、不純物-ボソン結合状態を占めるボソン間の正確な非ガウス相関を結合する強力な変分フレームワークを開発する。
この変分スキームは、共鳴の反発側でフェシュバッハ分子に生じる強い非線形性の完全な処理を可能にする。
この枠組みでは,不純物誘起不安定性とボソン-ボソン相互作用による安定化の相互作用が,誘電体と反発性ポラロンの中間エネルギーにおける準安定多体結合状態の離散的集合をもたらすことを示した。
これらの状態は非ガウス量子相関の形で強い量子統計特性を示し、その特徴づけには平均場以外の摂動性を必要とする。
さらに、これらの多体結合状態は分子スペクトル重みを持ち、分子分光法技術によってアクセス可能である。
この研究は、フェシュバッハ共鳴の反発側における魅力的で反発的なボースポーラロンの統一理論を提供する。 We address the Bose polaron problem of a mobile impurity interacting strongly with a host Bose-Einstein condensate (BEC) through a Feshbach resonance. On the repulsive side at strong couplings, theoretical approaches predict two distinct polaron branches corresponding to attractive and repulsive polarons, but it remains unclear how the two are related. This is partly due to the challenges resulting from a competition of strongly attractive (destabilizing) impurity-boson interactions with weakly repulsive (stabilizing) boson-boson interactions, whose interplay is difficult to describe with contemporary theoretical methods. Here we develop a powerful variational framework that combines Gaussian correlations among impurity-boson scattering states, including up to an infinite number of bosonic excitations, with exact non-Gaussian correlations among bosons occupying an impurity-boson bound state. This variational scheme enables a full treatment of strong nonlinearities arising in the Feshbach molecule on the repulsive side of the resonance. Within this framework, we demonstrate that the interplay of impurity-induced instability and stabilization by repulsive boson-boson interactions results in a discrete set of metastable many-body bound states at intermediate energies between the attractive and repulsive polaron branches. These states exhibit strong quantum statistical characteristics in the form of non-Gaussian quantum correlations, requiring non-perturbative beyond mean-field treatments for their characterization. Furthermore, these many-body bound states have sizable molecular spectral weights, accessible via molecular spectroscopy techniques. This work provides a unified theory of attractive and repulsive Bose polarons on the repulsive side of the Feshbach resonance. | 翻訳日:2023-05-02 13:15:25 公開日:2023-05-01 |
# 自己ノートによる推論と記憶の学習 Learning to Reason and Memorize with Self-Notes ( http://arxiv.org/abs/2305.00833v1 ) ライセンス: Link先を確認 | Jack Lanchantin, Shubham Toshniwal, Jason Weston, Arthur Szlam, Sainbayar Sukhbaatar | (参考訳) 大規模言語モデルは、限られたコンテキストメモリと多段階推論に苦しむことが示されている。
そこで本研究では, モデルに自己記入を許すことで, 両問題を簡易に解く手法を提案する。
最近のscratchpadのアプローチとは異なり、モデルは常に入力コンテキストから逸脱して明示的に考えることができる。
これにより、モデルは情報をリコールし、コンテキストを読み込むときに推論を実行し、メモリを拡張し、多段階の推論を可能にする。
複数のタスクにおける実験により,提案手法は推論時に自己記入を行うことで,トレーニング設定からより長く複雑なインスタンスに一般化できることが証明された。 Large language models have been shown to struggle with limited context memory and multi-step reasoning. We propose a simple method for solving both of these problems by allowing the model to take Self-Notes. Unlike recent scratchpad approaches, the model can deviate from the input context at any time to explicitly think. This allows the model to recall information and perform reasoning on the fly as it reads the context, thus extending its memory and enabling multi-step reasoning. Our experiments on multiple tasks demonstrate that our method can successfully generalize to longer and more complicated instances from their training setup by taking Self-Notes at inference time. | 翻訳日:2023-05-02 13:14:57 公開日:2023-05-01 |
# 逆線形帯域に対する1次および2次境界 First- and Second-Order Bounds for Adversarial Linear Contextual Bandits ( http://arxiv.org/abs/2305.00832v1 ) ライセンス: Link先を確認 | Julia Olkhovskaya, Jack Mayo, Tim van Erven, Gergely Neu and Chen-Yu Wei | (参考訳) 我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
固定された既知分布から$d$次元の文脈が引き出されると仮定すると、$T$ラウンドにおける最悪の後悔は$\tilde O(\sqrt{Kd T})$としてスケールすることが知られている。
文脈の密度がlog-concaveであるという追加の仮定の下で、学習者の損失の累積的第2モーメント(v_t$)の項で、次数$\tilde o(k\sqrt{d v_t}) と次数$\tilde o(k\sqrt{d l_t^*}) と密接に関連する次数$\tilde o(k\sqrt{d l_t^*})$ を得る。
v_t$ や $l_t^*$ は$t$ よりもかなり小さいため、環境が比較的良質な場合の最悪の後悔よりも改善される。
本研究は,連続指数重みアルゴリズムの確率的単純性に対する縮小版を用いて,文脈を伴わない線形バンディット設定への新たな接続を活用し,解析を行った。 We consider the adversarial linear contextual bandit setting, which allows for the loss functions associated with each of $K$ arms to change over time without restriction. Assuming the $d$-dimensional contexts are drawn from a fixed known distribution, the worst-case expected regret over the course of $T$ rounds is known to scale as $\tilde O(\sqrt{Kd T})$. Under the additional assumption that the density of the contexts is log-concave, we obtain a second-order bound of order $\tilde O(K\sqrt{d V_T})$ in terms of the cumulative second moment of the learner's losses $V_T$, and a closely related first-order bound of order $\tilde O(K\sqrt{d L_T^*})$ in terms of the cumulative loss of the best policy $L_T^*$. Since $V_T$ or $L_T^*$ may be significantly smaller than $T$, these improve over the worst-case regret whenever the environment is relatively benign. Our results are obtained using a truncated version of the continuous exponential weights algorithm over the probability simplex, which we analyse by exploiting a novel connection to the linear bandit setting without contexts. | 翻訳日:2023-05-02 13:14:48 公開日:2023-05-01 |
# 分画化は量子多体傷の局所的プロジェクター埋め込みへの道を開く Fractionalization paves the way to local projector embeddings of quantum many-body scars ( http://arxiv.org/abs/2305.00827v1 ) ライセンス: Link先を確認 | Keita Omiya and Markus M\"uller | (参考訳) 正確な量子多体傷(エネルギーに等しい低エンタングルメント固有状態の塔)を宿る多くの系は、ゼーマン項とスカー部分空間を消滅させる局所項の和に分裂するハミルトニアンによって統治される。
この統一構造は、以前この特性を回避したと考えられていたAffleck-Kennedy-Lieb-Tasaki(AKLT)モデルやRydberg-Blockaded原子のPXPモデルなどにも適用される。
これらのモデルを局所Annihilatorフレームワークに適合させるためには、それらの自由度を分数化し、関連するヒルベルト空間を拡大する必要がある。
元のシステムをより大きな空間に埋め込むことは、その傷跡状態の構造を解明し、その構成を単純化し、格子ゲージ理論と密接な類似性を明らかにする。 Many systems that host exact quantum many-body scars (towers of energy-equidistant low entanglement eigenstates) are governed by a Hamiltonian that splits into a Zeeman term and a sum of local terms that annihilate the scar subspace. We show that this unifying structure also applies to models, such as the Affleck-Kennedy-Lieb-Tasaki (AKLT) model or the PXP model of Rydberg-blockaded atoms, that were previously believed to evade this characterisation. To fit these models within the local annihilator framework we need to fractionalize their degrees of freedom and enlarge the associated Hilbert space. The embedding of the original system in a larger space elucidates the structure of their scar states and simplifies their construction, revealing close analogies with lattice gauge theories. | 翻訳日:2023-05-02 13:14:16 公開日:2023-05-01 |
# ChatGPT Python APIとTinker Learningの統合による創造性と問題解決スキルの強化 Empowering Learner-Centered Instruction: Integrating ChatGPT Python API and Tinker Learning for Enhanced Creativity and Problem-Solving Skills ( http://arxiv.org/abs/2305.00821v1 ) ライセンス: Link先を確認 | Yun-Cheng Tsai | (参考訳) ChatGPT Python APIはLearner-Centered Instruction(LCI)を促進する上で重要な役割を担い、Tinker Learningの原則に従って、学生が学習戦略を発見することができる。
LCIは、アクティブでハンズオンの学習体験の重要性を強調し、学生が学習の旅に責任を負うように促す。
ChatGPT Python APIを教育プロセスに統合することで、学生はさまざまなリソースを探索し、新しいアイデアを作成し、よりパーソナライズされた方法でコンテンツを作成することができる。
この革新的なアプローチにより、学生はより深い学習素材に関わり、オーナシップとモチベーションの感覚を育むことができる。
学生はCreative Learning Spiralを通じて、批判的思考、問題解決、創造性といった重要なスキルを身につける。
ChatGPT Python APIは、学生がさまざまなソリューションを探求し、代替品を評価し、情報に基づく意思決定を行う上で、貴重なツールである。
Tinker Learning環境では、ChatGPT Python APIの統合により、学生は実験と反復を行うことができ、個々のニーズや好みに合わせて最も効果的な学習戦略を見つけることができる。
このパーソナライズされたアプローチは、学生が自分の能力にもっと自信を持ち、大きな学術的成功と長期的なスキル開発につながる。
ChatGPT Python APIの機能を活用することで、教育機関はより魅力的でサポート的で動的な学習環境を構築することができる。
このアプローチは、学習者中心の指導とティンカー学習の原則に合致し、学生の間で好奇心、探索、創造性の文化を促進し、急速に成長する世界の挑戦に備える。 The ChatGPT Python API plays a crucial role in promoting Learner-Centered Instruction (LCI) and aligns with the principles of Tinker Learning, allowing students to discover their learning strategies. LCI emphasizes the importance of active, hands-on learning experiences and encourages students to take responsibility for their learning journey. By integrating the ChatGPT Python API into the educational process, students can explore various resources, generate new ideas, and create content in a more personalized manner. This innovative approach enables students to engage with the learning material deeper, fostering a sense of ownership and motivation. As they work through the Creative Learning Spiral, students develop essential skills such as critical thinking, problem-solving, and creativity. The ChatGPT Python API is a valuable tool for students to explore different solutions, evaluate alternatives, and make informed decisions, all while encouraging self-directed learning. In Tinker Learning environments, the integration of ChatGPT Python API empowers students to experiment and iterate, allowing them to find the most effective learning strategies that cater to their individual needs and preferences. This personalized approach helps students to become more confident in their abilities, leading to tremendous academic success and long-term skill development. By leveraging the capabilities of the ChatGPT Python API, educational institutions can create a more engaging, supportive, and dynamic learning environment. This approach aligns with the principles of Learner-Centered Instruction and Tinker Learning, promoting a culture of curiosity, exploration, and creativity among students while preparing them for the challenges of the fast-paced, ever-changing world. | 翻訳日:2023-05-02 13:13:59 公開日:2023-05-01 |
# 捕捉イオンの2次元調和振動子における絡み合ったコヒーレント状態の実験的実現 Experimental Realization of Entangled Coherent States in Two-dimensional Harmonic Oscillators of a Trapped Ion ( http://arxiv.org/abs/2305.00820v1 ) ライセンス: Link先を確認 | Honggi Jeon, Jiyong Kang, Jaeun Kim, Wonhyeong Choi, Kyunghye Kim, Taehyun Kim | (参考訳) 絡み合ったコヒーレント状態は、量子計算、量子通信、量子センシングといった様々な分野において重要な役割を果たす。
閉じ込められたイオン系の2次元運動を伴うエンタングルコヒーレント状態の生成を実験的に実証した。
適切な変形を伴うラマン遷移を用いて、1つの閉じ込められたイオンの2つの横軸の赤と青のサイドバンドを同時に駆動し、そのスピンと2次元運動の多周期的絡み合いと解離を観察する。
そして、スピン状態を測定することで、捕捉されたイオンの逆運動のコヒーレントな状態と、調和振動子の1つのフォノン分布のパリティにおける対応する変調を観察した。
最後に、直線鎖に2つのイオンをトラップし、2次元運動を用いてモルマー・ソレンセンゲートを実現する。 Entangled coherent states play pivotal roles in various fields such as quantum computation, quantum communication, and quantum sensing. We experimentally demonstrate the generation of entangled coherent states with the two-dimensional motion of a trapped ion system. Using Raman transitions with appropriate detunings, we simultaneously drive the red and blue sidebands of the two transverse axes of a single trapped ion and observe multi-periodic entanglement and disentanglement of its spin and two-dimensional motion. Then, by measuring the spin state, we herald entangled coherent states of the transverse motions of the trapped ion and observe the corresponding modulation in the parity of the phonon distribution of one of the harmonic oscillators. Lastly, we trap two ions in a linear chain and realize Molmer-Sorensen gate using two-dimensional motion. | 翻訳日:2023-05-02 13:13:28 公開日:2023-05-01 |
# 安定した結果が保証されたオンデマンドモビリティ・アズ・ア・サービスプラットフォーム割り当てゲーム On-demand Mobility-as-a-Service platform assignment games with guaranteed stable outcomes ( http://arxiv.org/abs/2305.00818v1 ) ライセンス: Link先を確認 | Bingqing Liu, Joseph Y. J. Chow | (参考訳) モビリティ・アズ・ア・サービス(maas: mobility-as-a-service)システムは、2つの排他的なエージェント、すなわち旅行者/ユーザとオペレーターからなる2つの市場であり、複数のオペレータが競合したり協力したりして、プラットフォームプロバイダの下で顧客にサービスを提供するモビリティエコシステムを形成している。
本研究では,固定ルート交通サービスとモビリティ・オン・デマンド(mod)サービスを組み合わせた多対多割当てゲームに基づくmaasプラットフォーム均衡モデルを提案する。
マッチング問題は、混雑中のマルチコモディティフローネットワーク設計問題として定式化される。
局所安定条件は、オペレーターの決定を含むウォードロップの原理の一般化を反映している。
局所安定性を保証するため,プラットフォームからの補助機構を提案する。
ラグランジアン緩和と準次最適化を統合したフランク・ウルフアルゴリズムを用いた分岐・境界系に基づく厳密解法を提案し,マッチング問題の最適性を保証するが,安定性はない。
安定条件と補助設計を統合したヒューリスティックが提案され、世界的安定を伴う最適MaaSプラットフォーム平衡解か、補助を必要とするような実現可能な局所安定解のいずれかに到達する。
正確な解を得るための最悪のケース境界と条件の両方を同定する。
再現可能な2種類の数値実験を行った。
まず、おもちゃのネットワーク上でモデルとアルゴリズムを検証することで、ローカルとグローバルの安定性の違いを説明します。
2つ目は、82のノードと748のリンクを持つ拡張されたスーフォールズネットワークにおいて、プラットフォームを共有するオペレータ間の相互依存モデル、MODサービスにおける混雑効果の処理、投資影響に対する局所的安定性の影響、異種集団で発生する可能性のある不等式に関する一般的な洞察を導出する。 Mobility-as-a-Service (MaaS) systems are two-sided markets, with two mutually exclusive sets of agents, i.e., travelers/users and operators, forming a mobility ecosystem in which multiple operators compete or cooperate to serve customers under a governing platform provider. This study proposes a MaaS platform equilibrium model based on many-to-many assignment games incorporating both fixed-route transit services and mobility-on-demand (MOD) services. The matching problem is formulated as a multicommodity flow network design problem under congestion. The local stability conditions reflect a generalization of Wardrop's principles that include operator decisions. A subsidy mechanism from the platform is proposed to guarantee local stability. An exact solution algorithm is proposed based on a branch and bound framework with a Frank-Wolfe algorithm integrated with Lagrangian relaxation and subgradient optimization, which guarantees the optimality of the matching problem but not stability. A heuristic which integrates stability conditions and subsidy design is proposed, which reaches either the optimal MaaS platform equilibrium solution with global stability, or a feasible locally stable solution that may require subsidy. A worst-case bound and condition for obtaining an exact solution are both identified. Two sets of reproducible numerical experiments are conducted. The first, on a toy network, verifies the model and algorithm, and illustrates the differences between local and global stability. The second, on an expanded Sioux Falls network with 82 nodes and 748 links, derives generalizable insights about the model for coopetitive interdependencies between operators sharing the platform, handling congestion effects in MOD services, effects of local stability on investment impacts, and illustrating inequities that may arise under heterogeneous populations. | 翻訳日:2023-05-02 13:13:12 公開日:2023-05-01 |
# 顔認識における人種バイアス:調査 Racial Bias within Face Recognition: A Survey ( http://arxiv.org/abs/2305.00817v1 ) ライセンス: Link先を確認 | Seyma Yucer, Furkan Tektas, Noura Al Moubayed, Toby P. Breckon | (参考訳) 顔認識は、コンピュータビジョンの中で最も学術的に研究され、工業的に開発された分野の1つです。
この広く普及した採用は、異なる人種プロファイルの被験者間で著しいパフォーマンスの変動を発見し、現在の因果関係と将来の潜在的な解決策の両方にまたがる顔認識における人種バイアスに焦点をあてた研究につながった。
この研究は、顔認識処理パイプラインのあらゆる側面と段階を探索する顔認識における人種バイアスの研究に関する広範な分類学的レビューを提供する。
まず、人種バイアスの問題定義について、人種定義、グループ化戦略、人種または人種に関連するグループ化の使用の社会的意味について論じる。
第2に、一般的な顔認識処理パイプラインを、画像取得、顔の局所化、顔の表現、顔の検証と識別の4段階に分け、各段階に関連する関連する文献をレビューする。
全体的な目的は、顔認識処理パイプラインの各段階およびすべての段階に関して、人種バイアス問題の包括的なカバレッジを提供することであり、また、将来の研究目的や商用アプリケーションで考慮すべき現代の緩和戦略の潜在的な落とし穴と限界を強調することである。 Facial recognition is one of the most academically studied and industrially developed areas within computer vision where we readily find associated applications deployed globally. This widespread adoption has uncovered significant performance variation across subjects of different racial profiles leading to focused research attention on racial bias within face recognition spanning both current causation and future potential solutions. In support, this study provides an extensive taxonomic review of research on racial bias within face recognition exploring every aspect and stage of the face recognition processing pipeline. Firstly, we discuss the problem definition of racial bias, starting with race definition, grouping strategies, and the societal implications of using race or race-related groupings. Secondly, we divide the common face recognition processing pipeline into four stages: image acquisition, face localisation, face representation, face verification and identification, and review the relevant corresponding literature associated with each stage. The overall aim is to provide comprehensive coverage of the racial bias problem with respect to each and every stage of the face recognition processing pipeline whilst also highlighting the potential pitfalls and limitations of contemporary mitigation strategies that need to be considered within future research endeavours or commercial applications alike. | 翻訳日:2023-05-02 13:12:39 公開日:2023-05-01 |
# ニューロシンボリックAI - なぜ、何が、どのように Neurosymbolic AI - Why, What, and How ( http://arxiv.org/abs/2305.00813v1 ) ライセンス: Link先を確認 | Amit Sheth, Kaushik Roy, Manas Gaur | (参考訳) 人間は、知覚変換された知覚入力を自分の環境からシンボルに、そして認知を組み合わせて環境と相互作用する - 抽象性、アナロジーによる推論、長期計画のための環境に関する知識にシンボルをマッピングする。
人間の知覚にインスパイアされた機械知覚は、AIの文脈において、ニューラルネットワークを使用して生データから大規模なパターン認識を行う。
一方、機械認知は、推論、アナロジー、長期計画のガイドとして環境の知識を使用するなど、より複雑な計算を包含する。
人間は認知機能の制御や説明もできる。
これは、認識出力から環境に関する知識へのシンボリックマッピングの保持を必要とするようである。
例えば、医療、刑事司法、自律運転といった安全クリティカルなアプリケーションにおいて、人間は意思決定を駆動するガイドラインと安全性の制約に従い、説明することができる。
この記事では、ニューラルネットワークと知識誘導型シンボリックアプローチを組み合わせて、より有能で柔軟なAIシステムを構築する、新たなパラダイムであるNeurosymbolic AIを紹介します。
これらのシステムは、AIシステムのアルゴリズムレベル(例えば、抽象化、アナロジー、推論)とアプリケーションレベル(例えば、説明可能な、安全性に制約のある意思決定)の両方を前進させる大きな可能性を秘めている。 Humans interact with the environment using a combination of perception - transforming sensory inputs from their environment into symbols, and cognition - mapping symbols to knowledge about the environment for supporting abstraction, reasoning by analogy, and long-term planning. Human perception-inspired machine perception, in the context of AI, refers to large-scale pattern recognition from raw data using neural networks trained using self-supervised learning objectives such as next-word prediction or object recognition. On the other hand, machine cognition encompasses more complex computations, such as using knowledge of the environment to guide reasoning, analogy, and long-term planning. Humans can also control and explain their cognitive functions. This seems to require the retention of symbolic mappings from perception outputs to knowledge about their environment. For example, humans can follow and explain the guidelines and safety constraints driving their decision-making in safety-critical applications such as healthcare, criminal justice, and autonomous driving. This article introduces the rapidly emerging paradigm of Neurosymbolic AI combines neural networks and knowledge-guided symbolic approaches to create more capable and flexible AI systems. These systems have immense potential to advance both algorithm-level (e.g., abstraction, analogy, reasoning) and application-level (e.g., explainable and safety-constrained decision-making) capabilities of AI systems. | 翻訳日:2023-05-02 13:12:21 公開日:2023-05-01 |
# ニューロン冗長解析を用いた事前学習ソースコードモデルの解釈 Interpreting Pretrained Source-code Models using Neuron Redundancy Analyses ( http://arxiv.org/abs/2305.00875v1 ) ライセンス: Link先を確認 | Arushi Sharma, Zefu Hu, Christopher Quinn, Ali Jannesari | (参考訳) ニューラルコードインテリジェンスモデルは、引き続き人間のプログラマにとって「ブラックボックス」である。
この不透明さは、特に、モデルが素早い相関に依存している脆弱性検出のようなアプリケーションにおいて、コードインテリジェンスタスクへのアプリケーションを制限する。
そこで本研究では,ニューロンレベルでのニューラル・コード・インテリジェンス・モデルの解釈可能性について紹介する。
我々は、ニューラルネットワークモデルの潜在表現に特定の特性がエンコードされているかどうかを確認するためにしばしば使用されるプローブ分類器を用いて、残りの重要なニューロンを評価する。
しかし、コードデータセットにおけるトークンの反復的かつ決定論的性質のために、予測精度は人工的に膨らむことがある。
そこで我々は,NLPで最初に導入された選択度基準をプローブ記憶法に適応させ,ソースコード探索タスクを定式化する。
ニューロン分析の結果、神経細胞の95%以上は冗長であることがわかった。
私たちのコードインテリジェンスタスクは、精度を損なうことなく排除できます。
さらに、重要なニューロンの個別およびサブセットを特定のコード特性に追跡し、モデル予測に影響を与える可能性がある。
我々は、特定のコード特性に責任を持つ「数」ニューロン、「ストリング」ニューロン、より高いレベルの「テキスト」ニューロンを識別できることを実証する。
これは、誤った信号に基づく予測に責任を持つニューロンを修正するために使われる可能性がある。
さらに、異なるソースコード組込み内の重要なニューロンの分布と集中は、タスクの複雑さの測定、ソースコード組込みの比較、および類似したタスクに対するトランスファー学習のためのトレーニング選択のガイドとして使用できる。 Neural code intelligence models continue to be 'black boxes' to the human programmer. This opacity limits their application towards code intelligence tasks, particularly for applications like vulnerability detection where a model's reliance on spurious correlations can be safety-critical. We introduce a neuron-level approach to interpretability of neural code intelligence models which eliminates redundancy due to highly similar or task-irrelevant neurons within these networks. We evaluate the remaining important neurons using probing classifiers which are often used to ascertain whether certain properties have been encoded within the latent representations of neural intelligence models. However, probing accuracies may be artificially inflated due to repetitive and deterministic nature of tokens in code datasets. Therefore, we adapt the selectivity metric originally introduced in NLP to account for probe memorization, to formulate our source-code probing tasks. Through our neuron analysis, we find that more than 95\% of the neurons are redundant wrt. our code intelligence tasks and can be eliminated without significant loss in accuracy. We further trace individual and subsets of important neurons to specific code properties which could be used to influence model predictions. We demonstrate that it is possible to identify 'number' neurons, 'string' neurons, and higher level 'text' neurons which are responsible for specific code properties. This could potentially be used to modify neurons responsible for predictions based on incorrect signals. Additionally, the distribution and concentration of the important neurons within different source code embeddings can be used as measures of task complexity, to compare source-code embeddings and guide training choices for transfer learning over similar tasks. | 翻訳日:2023-05-02 13:06:02 公開日:2023-05-01 |
# クライアントレベルの差分プライバシー下でのフラッターランドスケープとフェデレーション学習の一般化 Towards the Flatter Landscape and Better Generalization in Federated Learning under Client-level Differential Privacy ( http://arxiv.org/abs/2305.00873v1 ) ライセンス: Link先を確認 | Yifan Shi, Kang Wei, Li Shen, Yingqi Liu, Xueqian Wang, Bo Yuan, and Dacheng Tao | (参考訳) 推論攻撃を防御し、フェデレーション学習(fl)における機密情報漏洩を軽減するため、クライアントレベルの差分プライベートfl(dpfl)は、ローカル更新をクリップしてランダムノイズを追加することにより、プライバシ保護のデファクトスタンダードである。
しかし, 既存のdpfl法では, 鋭い損失景観を呈する傾向があり, 重量変動の頑健性が低下し, 性能が低下する傾向がみられた。
これらの問題を緩和するために,dp-fedsamと呼ばれる新しいdpflアルゴリズムを提案し,dpの負の影響を軽減するために勾配摂動を利用する。
具体的には、DP-FedSAMはシャープネス認識最小化(SAM)オプティマイザを統合し、安定性と重量摂動堅牢性を改善した局所平坦度モデルを生成する。
そこで本研究では,局所更新スパルシフィケーション手法を応用し,ランダムノイズの大きさを低減し,性能向上を図るため,dp-fedsam-$top_k$を提案する。
理論的観点から,本アルゴリズムがDPによる性能劣化を緩和する方法を検討するために,収束解析を提案する。
一方,r\'enyi dpによる厳密なプライバシー保証,ローカル更新の感度解析,一般化分析を行う。
最後に、DPFLの既存のSOTAベースラインと比較して、我々のアルゴリズムが最先端(SOTA)性能を達成することを実証的に確認する。 To defend the inference attacks and mitigate the sensitive information leakages in Federated Learning (FL), client-level Differentially Private FL (DPFL) is the de-facto standard for privacy protection by clipping local updates and adding random noise. However, existing DPFL methods tend to make a sharp loss landscape and have poor weight perturbation robustness, resulting in severe performance degradation. To alleviate these issues, we propose a novel DPFL algorithm named DP-FedSAM, which leverages gradient perturbation to mitigate the negative impact of DP. Specifically, DP-FedSAM integrates Sharpness Aware Minimization (SAM) optimizer to generate local flatness models with improved stability and weight perturbation robustness, which results in the small norm of local updates and robustness to DP noise, thereby improving the performance. To further reduce the magnitude of random noise while achieving better performance, we propose DP-FedSAM-$top_k$ by adopting the local update sparsification technique. From the theoretical perspective, we present the convergence analysis to investigate how our algorithms mitigate the performance degradation induced by DP. Meanwhile, we give rigorous privacy guarantees with R\'enyi DP, the sensitivity analysis of local updates, and generalization analysis. At last, we empirically confirm that our algorithms achieve state-of-the-art (SOTA) performance compared with existing SOTA baselines in DPFL. | 翻訳日:2023-05-02 13:05:35 公開日:2023-05-01 |
# 多項ロジスティック回帰を用いた高差分布間の密度比の推定 Estimating the Density Ratio between Distributions with High Discrepancy using Multinomial Logistic Regression ( http://arxiv.org/abs/2305.00869v1 ) ライセンス: Link先を確認 | Akash Srivastava, Seungwook Han, Kai Xu, Benjamin Rhodes, Michael U. Gutmann | (参考訳) 密度の比の関数である$p/q$は、機械学習で広く使われ、2つの分布の差を定量化するために$p$と$q$である。
高次元分布に対しては,二項分類に基づく密度比推定器が有望である。
しかし,密度が十分に分離された場合,二値分類器を用いた密度比の推定は困難である。
本研究は, 最先端密度比推定器が十分に分離された場合において性能が低いことを示し, トレーニングと評価時間の分布変化によるものであることを示す。
本稿では,密度比推定にマルチクラス分類を応用し,分布シフト問題に苦しむことのない代替手法を提案する。
この方法は補助密度の集合$\{m_k\}_{k=1}^K$を使用し、サンプルを$p, q$, $\{m_k\}_{k=1}^K$から$K+2$クラスに分類するために多重クラスロジスティック回帰を訓練する。
これらの補助密度が$p$と$q$と重なり合うように構成されている場合、多クラスロジスティック回帰は、$K+2$の分布のドメイン上で$\log p/q$を推定することができ、現在の最先端手法の分布シフト問題を解くことができる。
本手法を合成データと実データの両方における最先端密度比推定器と比較し,密度比推定,相互情報推定,表現学習のタスクにおいて優れた性能を示す。
コード: https://www.blackswhan.com/mdre/ Functions of the ratio of the densities $p/q$ are widely used in machine learning to quantify the discrepancy between the two distributions $p$ and $q$. For high-dimensional distributions, binary classification-based density ratio estimators have shown great promise. However, when densities are well separated, estimating the density ratio with a binary classifier is challenging. In this work, we show that the state-of-the-art density ratio estimators perform poorly on well-separated cases and demonstrate that this is due to distribution shifts between training and evaluation time. We present an alternative method that leverages multi-class classification for density ratio estimation and does not suffer from distribution shift issues. The method uses a set of auxiliary densities $\{m_k\}_{k=1}^K$ and trains a multi-class logistic regression to classify the samples from $p, q$, and $\{m_k\}_{k=1}^K$ into $K+2$ classes. We show that if these auxiliary densities are constructed such that they overlap with $p$ and $q$, then a multi-class logistic regression allows for estimating $\log p/q$ on the domain of any of the $K+2$ distributions and resolves the distribution shift problems of the current state-of-the-art methods. We compare our method to state-of-the-art density ratio estimators on both synthetic and real datasets and demonstrate its superior performance on the tasks of density ratio estimation, mutual information estimation, and representation learning. Code: https://www.blackswhan.com/mdre/ | 翻訳日:2023-05-02 13:05:06 公開日:2023-05-01 |
# アタック-SAM:セグメンテーションモデルの逆ロバスト性評価に向けて Attack-SAM: Towards Evaluating Adversarial Robustness of Segment Anything Model ( http://arxiv.org/abs/2305.00866v1 ) ライセンス: Link先を確認 | Chenshuang Zhang, Chaoning Zhang, Taegoo Kang, Donghun Kim, Sung-Ho Bae, In So Kweon | (参考訳) Segment Anything Model (SAM) は、様々なダウンストリームタスクにおけるゼロショートなパフォーマンスのため、近年大きな注目を集めている。
コンピュータビジョン(CV)領域は自然言語処理(NLP)領域に従えば、タスク固有のビジョンモデルから基礎モデルへの道を歩むことができる。
しかし、従来のタスク固有のモデルは敵の例に弱いと広く認識されており、それはモデルを騙して知覚不能な摂動で間違った予測をする。
このような攻撃に対する脆弱性は、セキュリティに敏感なアプリケーションにディープモデルを適用する際に深刻な懸念を引き起こす。
したがって,視基盤モデルSAMが敵攻撃によって容易に騙せるかどうかを知ることが重要である。
我々の知る限りでは、私たちの研究はSAMを敵の例で攻撃する方法を包括的に調査する最初のものである。
特に、samはブラックボックス設定である程度堅牢性を維持しつつ、ホワイトボックス攻撃に弱いことが分かりました。
これは進行中のプロジェクトであり、さらなる結果と調査結果はhttps://github.com/chenshuang-zhang/ attack-sam.comで更新される。 Segment Anything Model (SAM) has attracted significant attention recently, due to its impressive performance on various downstream tasks in a zero-short manner. Computer vision (CV) area might follow the natural language processing (NLP) area to embark on a path from task-specific vision models toward foundation models. However, previous task-specific models are widely recognized as vulnerable to adversarial examples, which fool the model to make wrong predictions with imperceptible perturbation. Such vulnerability to adversarial attacks causes serious concerns when applying deep models to security-sensitive applications. Therefore, it is critical to know whether the vision foundation model SAM can also be easily fooled by adversarial attacks. To the best of our knowledge, our work is the first of its kind to conduct a comprehensive investigation on how to attack SAM with adversarial examples. Specifically, we find that SAM is vulnerable to white-box attacks while maintaining robustness to some extent in the black-box setting. This is an ongoing project and more results and findings will be updated soon through https://github.com/chenshuang-zhang/attack-sam. | 翻訳日:2023-05-02 13:04:36 公開日:2023-05-01 |
# ソーラー・バッテリー・コンピュータシステムにおける電気・熱エネルギーの共同管理 Jointly Managing Electrical and Thermal Energy in Solar- and Battery-powered Computer Systems ( http://arxiv.org/abs/2305.00855v1 ) ライセンス: Link先を確認 | Noman Bashir, Yasra Chandio, David Irwin, Fatima M. Anwar, Jeremy Gummeson, Prashant Shenoy | (参考訳) 環境を動力とするコンピュータシステムは、太陽や風などの環境から回収された再生可能エネルギーを運用し、電池に蓄えている。
環境エネルギーの収穫は、外部電源を使わずに小型の組込みシステムでは長年必要であったが、エッジアプリケーションのための持続可能な大規模システムを設計する上でも重要になっている。
持続的な運用のためには、このようなシステムは電気エネルギーだけでなく、設計や運用で利用できる熱エネルギーも考慮しなければならない。
残念なことに、先行研究は一般的に熱効果の影響を無視し、代わりに暗黙的に理想的な温度を仮定する。
この問題に対処するため,環境駆動型コンピュータシステムにおける電気・熱エネルギーの相互作用を捉える熱力学モデルを開発した。
モデルは、環境条件、システムの物理的特性、およびワークロードのスケジューリングがパフォーマンスに与える影響をキャプチャする。
本モデルの評価では, 小型プロトタイプとプログラマブルインキュベータを用いて, これらのシステムに影響を与える熱的影響を蒸留する。
次に, 環境負荷の異なるコンピュータシステムの設計・運用におけるこれらの熱的効果を考慮すれば, エネルギー効率, 性能, 可用性が向上することを示す。 Environmentally-powered computer systems operate on renewable energy harvested from their environment, such as solar or wind, and stored in batteries. While harvesting environmental energy has long been necessary for small-scale embedded systems without access to external power sources, it is also increasingly important in designing sustainable larger-scale systems for edge applications. For sustained operations, such systems must consider not only the electrical energy but also the thermal energy available in the environment in their design and operation. Unfortunately, prior work generally ignores the impact of thermal effects, and instead implicitly assumes ideal temperatures. To address the problem, we develop a thermodynamic model that captures the interplay of electrical and thermal energy in environmentally-powered computer systems. The model captures the effect of environmental conditions, the system's physical properties, and workload scheduling on performance. In evaluating our model, we distill the thermal effects that impact these systems using a small-scale prototype and a programmable incubator. We then leverage our model to show how considering these thermal effects in designing and operating environmentally-powered computer systems of varying scales can improve their energy-efficiency, performance, and availability. | 翻訳日:2023-05-02 13:04:15 公開日:2023-05-01 |
# クリックカウント検出器を用いたガウスボソンサンプリング Gaussian boson sampling with click-counting detectors ( http://arxiv.org/abs/2305.00853v1 ) ライセンス: Link先を確認 | Gabriele Bressanini, Hyukjoon Kwon, M. S. Kim | (参考訳) ガウス・ボソンサンプリングは、現在の技術能力の到達範囲内で量子優位を実験的に実証する第一候補である。
当初の提案では光子数分解検出器を用いるが、後者は広くは利用できない。
一方、安価なしきい値検出器を単一のクリックカウント検出器に組み合わせることで、近似光子数分解能を達成することができる。
クリックカウント検出器を用いて,一般のマルチモードガウス状態からのサンプリング問題を調べ,与えられた結果を得る確率が,kensingtonianと呼ばれる新しい行列関数と関連していることを示す。
後者がトロントとハフニアンにどのように関係しているかを示し、既知のガウスボソンサンプリング変種の間のギャップを埋める。
次に、標準的な複雑性理論的な予想の下では、モデルが効率的にシミュレートできないことを証明する。 Gaussian boson sampling constitutes a prime candidate for an experimental demonstration of quantum advantage within reach with current technological capabilities. The original proposal employs photon-number-resolving detectors, however the latter are not widely available. On the other hand, inexpensive threshold detectors can be combined into a single click-counting detector to achieve approximate photon number resolution. We investigate the problem of sampling from a general multi-mode Gaussian state using click-counting detectors and show that the probability of obtaining a given outcome is related to a new matrix function which is dubbed as the Kensingtonian. We show how the latter relates to the Torontonian and the Hafnian, thus bridging the gap between known Gaussian boson sampling variants. We then prove that, under standard complexity-theoretical conjectures, the model can not be simulated efficiently. | 翻訳日:2023-05-02 13:03:56 公開日:2023-05-01 |
# グラフ機械学習におけるロバスト性の再考 Revisiting Robustness in Graph Machine Learning ( http://arxiv.org/abs/2305.00851v1 ) ライセンス: Link先を確認 | Lukas Gosch, Daniel Sturm, Simon Geisler, Stephan G\"unnemann | (参考訳) グラフニューラルネットワーク(GNN)のノードレベルの予測は、小さく、しばしば逆数と呼ばれるグラフ構造の変化に対して損なわれない。
しかし、グラフの手動検査は難しいため、研究された摂動が常に敵の例の中核的な仮定を保っているかどうかは不明である。
この問題に対処するために,我々は,意味的コンテンツの変化を意識した,より原則的な逆グラフの概念を導入する。
文脈確率ブロックモデル(CSBM)と実世界のグラフを用いて、我々の結果を明らかにする:$i)$ ほとんどのノードに対して、一般的な摂動モデルには、変化しないセマンティクスの仮定に違反した乱れグラフが多数含まれます。
提案手法は,学習グラフのラベル構造をgnnsの推論プロセスに含めることで,過度のロバスト性が著しく低下すると同時に,テスト精度や敵対的ロバスト性に有意な影響を与えることが示された。
理論的には、新たに追加されたノードを帰納的に分類するために、ロバスト性-正確性トレードオフがないことを示す。 Many works show that node-level predictions of Graph Neural Networks (GNNs) are unrobust to small, often termed adversarial, changes to the graph structure. However, because manual inspection of a graph is difficult, it is unclear if the studied perturbations always preserve a core assumption of adversarial examples: that of unchanged semantic content. To address this problem, we introduce a more principled notion of an adversarial graph, which is aware of semantic content change. Using Contextual Stochastic Block Models (CSBMs) and real-world graphs, our results uncover: $i)$ for a majority of nodes the prevalent perturbation models include a large fraction of perturbed graphs violating the unchanged semantics assumption; $ii)$ surprisingly, all assessed GNNs show over-robustness - that is robustness beyond the point of semantic change. We find this to be a complementary phenomenon to adversarial examples and show that including the label-structure of the training graph into the inference process of GNNs significantly reduces over-robustness, while having a positive effect on test accuracy and adversarial robustness. Theoretically, leveraging our new semantics-aware notion of robustness, we prove that there is no robustness-accuracy tradeoff for inductively classifying a newly added node. | 翻訳日:2023-05-02 13:03:44 公開日:2023-05-01 |
# (1+1)-CMA-ESによる離散・混合整数問題の解法 (1+1)-CMA-ES with Margin for Discrete and Mixed-Integer Problems ( http://arxiv.org/abs/2305.00849v1 ) ライセンス: Link先を確認 | Yohei Watanabe, Kento Uchida, Ryoki Hamano, Shota Saito, Masahiro Nomura and Shinichi Shirakawa | (参考訳) 共分散行列適応進化戦略(CMA-ES)は効率的な連続ブラックボックス最適化法である。
cma-esは不変性特性やよく調整されたデフォルトのハイパーパラメータ設定など、多くの魅力的な特徴を持っている。
さらに、ノイズハンドリングや制約ハンドリングなど、CMA-ESを専門とするいくつかのコンポーネントが提案されている。
これらの利点を混合整数最適化問題に活かすため、マージンを持つCMA-ESが提案されている。
マージン付きcma-esはマージン補正による離散変数の早期収束を防止し、分散パラメータは離散変数を変更する生成確率を残すように修正される。
マージン補正は(\mu/\mu_\mathrm{w}$,$\lambda$)-CMA-ESに適用されるが,本論文ではマージン補正をCMA-ESのエリート主義版である (1+1)-CMA-ESに導入する。
1+1)-CMA-ESは、しばしば単項関数に有利であり、計算コストが低い。
混合整数最適化の性能劣化に対処するため, 離散化エリート解をサンプリング分布の平均として使用し, マージン補正を修正してエリート解を移動させないようにする。
混合整数、整数、二項領域のベンチマーク関数を用いた数値シミュレーションでは、(1+1)-CMA-ESのマージンは、(1+1)-CMA-ESのマージンよりも優れており、特定の検索領域に対するいくつかの特殊なメソッドよりも優れている。 The covariance matrix adaptation evolution strategy (CMA-ES) is an efficient continuous black-box optimization method. The CMA-ES possesses many attractive features, including invariance properties and a well-tuned default hyperparameter setting. Moreover, several components to specialize the CMA-ES have been proposed, such as noise handling and constraint handling. To utilize these advantages in mixed-integer optimization problems, the CMA-ES with margin has been proposed. The CMA-ES with margin prevents the premature convergence of discrete variables by the margin correction, in which the distribution parameters are modified to leave the generation probability for changing the discrete variable. The margin correction has been applied to ($\mu/\mu_\mathrm{w}$,$\lambda$)-CMA-ES, while this paper introduces the margin correction into (1+1)-CMA-ES, an elitist version of CMA-ES. The (1+1)-CMA-ES is often advantageous for unimodal functions and can be computationally less expensive. To tackle the performance deterioration on mixed-integer optimization, we use the discretized elitist solution as the mean of the sampling distribution and modify the margin correction not to move the elitist solution. The numerical simulation using benchmark functions on mixed-integer, integer, and binary domains shows that (1+1)-CMA-ES with margin outperforms the CMA-ES with margin and is better than or comparable with several specialized methods to a particular search domain. | 翻訳日:2023-05-02 13:03:19 公開日:2023-05-01 |
# 大規模言語モデルを用いた臨床評価用紙自動スクリーニング Automated Paper Screening for Clinical Reviews Using Large Language Models ( http://arxiv.org/abs/2305.00844v1 ) ライセンス: Link先を確認 | Eddie Guo, Mehul Gupta, Jiawen Deng, Ye-Jean Park, Mike Paget, Christopher Naugler | (参考訳) 目的:OpenAI GPT APIの性能を,実際の臨床レビューデータセットから関連タイトルや要約を正確かつ効率的に同定し,その性能を2人の独立した人間レビュアーによる真理ラベルと比較する。
方法: 臨床レビューにおけるタイトルや要約のスクリーニングに OpenAI GPT API を用いた新しいワークフローを導入する。
Pythonスクリプトは、自然言語のスクリーニング基準と、最低2人の人間レビュアーによってフィルタリングされたタイトルと抽象データセットのコーパスを備えたGPT APIを呼び出すために作成された。
本モデルの性能を6つのレビュー論文で比較し,24,000以上のタイトルと要約をスクリーニングした。
結果: 結果は0.91の精度, 除外紙の感度0.91の感度, 含紙の感度0.76の感度を示した。
ランダムに選択された論文のサブセットで、gpt apiはその決定に対して推論を提供する能力を示し、不正確な分類のサブセットの推論を説明するように求められた最初の判断を訂正した。
結論: GPT APIは、臨床レビュープロセスを合理化し、研究者にとって貴重な時間と労力を節約し、臨床レビューの全体的な品質に貢献する可能性がある。
GPT APIは、ワークフローを優先順位付けし、研究者やレビュアーの代替ではなく支援として機能することにより、効率を高め、医学研究においてより正確で信頼性の高い結論をもたらすことができる。 Objective: To assess the performance of the OpenAI GPT API in accurately and efficiently identifying relevant titles and abstracts from real-world clinical review datasets and compare its performance against ground truth labelling by two independent human reviewers. Methods: We introduce a novel workflow using the OpenAI GPT API for screening titles and abstracts in clinical reviews. A Python script was created to make calls to the GPT API with the screening criteria in natural language and a corpus of title and abstract datasets that have been filtered by a minimum of two human reviewers. We compared the performance of our model against human-reviewed papers across six review papers, screening over 24,000 titles and abstracts. Results: Our results show an accuracy of 0.91, a sensitivity of excluded papers of 0.91, and a sensitivity of included papers of 0.76. On a randomly selected subset of papers, the GPT API demonstrated the ability to provide reasoning for its decisions and corrected its initial decision upon being asked to explain its reasoning for a subset of incorrect classifications. Conclusion: The GPT API has the potential to streamline the clinical review process, save valuable time and effort for researchers, and contribute to the overall quality of clinical reviews. By prioritizing the workflow and acting as an aid rather than a replacement for researchers and reviewers, the GPT API can enhance efficiency and lead to more accurate and reliable conclusions in medical research. | 翻訳日:2023-05-02 13:02:51 公開日:2023-05-01 |
# 親和性エージェントを用いた戦略的資源選択 Strategic Resource Selection with Homophilic Agents ( http://arxiv.org/abs/2305.00843v1 ) ライセンス: Link先を確認 | Jonathan Gadea Harder, Simon Krogmann, Pascal Lenzner, Alexander Skopalik | (参考訳) 利己的なエージェントによるリソースの戦略的選択は古典的な研究の方向であり、リソース選択ゲームや渋滞ゲームが顕著な例である。
これらのゲームでは、エージェントは利用可能なリソースを選択し、そのユーティリティは同じリソースを使用するエージェントの数に依存する。
これは、エージェント間の区別、すなわち匿名性が存在しないことを意味する。
我々は,類似エージェントとの協調的資源利用を目指す異種エージェントによる資源選択ゲームを提案することで,この極めて一般的な設定から脱却する。
したがって、与えられたリソースの他のユーザ数ではなく、異なるタイプのエージェントを考慮し、決定的な特徴は、ユーザ間で同じタイプのエージェントの割合である。
より正確には、シェリングゲームと同様に、リソース上のエージェントの所望の同一タイプのエージェントの最小分数を指定する許容しきい値 $\tau \in [0,1]$ がある。
エージェントは、リソースの少なくとも$\tau$-fractionがリソースのユーザ自身と同じ型を持つリソースを選択するように努力する。
本誌のモデルは$\tau=1$で、hedonic diversity gamesを1ドル99セントで一般化する。
一般的なモデルでは、均衡の存在と質、社会福祉の最大化の複雑さを考える。
さらに、与えられたリソース上の同型エージェントの分数しか知らないが、正確な数ではないため、エージェントがリソースの効用を見積もることができるような有界合理性モデルを考える。
したがって、戦略変更がターゲットリソースに与える影響を知ることはできない。
興味深いことに、このタイプの有界な有理性は、ゲーム理論上有利な性質と、全知識設定の近似均衡をもたらす。 The strategic selection of resources by selfish agents is a classic research direction, with Resource Selection Games and Congestion Games as prominent examples. In these games, agents select available resources and their utility then depends on the number of agents using the same resources. This implies that there is no distinction between the agents, i.e., they are anonymous. We depart from this very general setting by proposing Resource Selection Games with heterogeneous agents that strive for joint resource usage with similar agents. So, instead of the number of other users of a given resource, our model considers agents with different types and the decisive feature is the fraction of same-type agents among the users. More precisely, similarly to Schelling Games, there is a tolerance threshold $\tau \in [0,1]$ which specifies the agents' desired minimum fraction of same-type agents on a resource. Agents strive to select resources where at least a $\tau$-fraction of those resources' users have the same type as themselves. For $\tau=1$, our model generalizes Hedonic Diversity Games with a peak at $1$. For our general model, we consider the existence and quality of equilibria and the complexity of maximizing social welfare. Additionally, we consider a bounded rationality model, where agents can only estimate the utility of a resource, since they only know the fraction of same-type agents on a given resource, but not the exact numbers. Thus, they cannot know the impact a strategy change would have on a target resource. Interestingly, we show that this type of bounded rationality yields favorable game-theoretic properties and specific equilibria closely approximate equilibria of the full knowledge setting. | 翻訳日:2023-05-02 13:02:27 公開日:2023-05-01 |
# qubit cloakingによるQubit Readoutsの実現 Qubit readouts enabled by qubit cloaking ( http://arxiv.org/abs/2305.00895v1 ) ライセンス: Link先を確認 | Manuel H. Mu\~noz-Arias, Crist\'obal Lled\'o, Alexandre Blais | (参考訳) 時間依存ドライブは、回路量子力学における量子コンピューティングの取り組みにおいて重要な役割を果たす。
単一キュービットの制御、論理演算の絡み込み、およびキュービットの読み出しを可能にする。
しかし、それらの存在は、大きな交流スタークシフトや不要な量子ビット遷移のような有害な効果を招き、最終的には制御の低下や読み出しのフィデリティに反映される。
クビット・クローキングは、Lled\'o, Dassonneville, et alで導入された。
[arXiv:2022.05758] クビットを駆動キャビティのコヒーレント光子集団から一時的に切り離し、クビットに対する有害な影響を回避しつつ、任意の変位をキャビティフィールドに適用できるようにする。
キュービット読み出しでは、クローキングはキャビティフィールドのキュービット状態に依存した進化を期待して、原則として多数の光子でキャビティをプリアームすることを可能にし、読み出し戦略を改善することができる。
ここでは2つを詳しく見ていきます。
まず、キュービットクローキングと共に導入されたarm-and-release readoutでは、キャビティをアーミングした後、クローキング機構が解放され、キャビティフィールドは一定駆動振幅の印加下で進化する。
第2に、キャビティ駆動振幅が解放後にゆっくりと変調されるアーム・アンド・縦方向読み出し方式である。
これら2つのスキームは相互に補完し、分散相互作用と空洞崩壊率の値の標準分散読み出しよりも改善され、目標測定積分時間も改善されることを示す。
この結果から,標準回路QEDアーキテクチャを変更することなく,量子ビットの読み出しを改善することを提案する。 Time-dependent drives play a crucial role in quantum computing efforts with circuit quantum electrodynamics. They enable single-qubit control, entangling logical operations, as well as qubit readout. However, their presence can lead to deleterious effects such as large ac-Stark shifts and unwanted qubit transitions ultimately reflected into reduced control or readout fidelities. Qubit cloaking was introduced in Lled\'o, Dassonneville, et al. [arXiv:2022.05758] to temporarily decouple the qubit from the coherent photon population of a driven cavity, allowing for the application of arbitrary displacements to the cavity field while avoiding the deleterious effects on the qubit. For qubit readout, cloaking permits to prearm the cavity with an, in principle, arbitrarily large number of photons, in anticipation to the qubit-state-dependent evolution of the cavity field, allowing for improved readout strategies. Here we take a closer look at two of them. First, arm-and-release readout, introduced together with qubit cloaking, where after arming the cavity the cloaking mechanism is released and the cavity field evolves under the application of a constant drive amplitude. Second, an arm-and-longitudinal readout scheme, where the cavity drive amplitude is slowly modulated after the release. We show that the two schemes complement each other, offering an improvement over the standard dispersive readout for any values of the dispersive interaction and cavity decay rate, as well as any target measurement integration time. Our results provide a recommendation for improving qubit readout without changes to the standard circuit QED architecture. | 翻訳日:2023-05-02 12:55:35 公開日:2023-05-01 |
# 光子の質量の測定結果が100になる方法 How the result of a measurement of a photon's mass can turn out to be 100 ( http://arxiv.org/abs/2305.00891v1 ) ライセンス: Link先を確認 | Yakov Bloch and Joshua Foo | (参考訳) ボヘミア力学は、コッシらによるパラダイム実験以来、量子論の解釈として大きな注目を集めてきた。
アル
[科学332、6034(2011)、マーラーら]
アル
非相対論的状態における光子の平均軌跡を推定した[Sci.Adv. 2, 2 (2016)]。
これらの実験はワイズマンのボーム力学の定式化に大きく動機付けられ、弱い測定でこれらの軌道を基礎にした。
近年、ワイズマンの枠組みは、単一光子の速度場を光子エネルギーと運動量の弱い値で表現することで相対論的体制にまで拡張された。
本稿では,相対論的単一粒子のボヘミア「局所質量」に対する操作的,弱値に基づく定義を提案する。
スカラー・クライン=ゴルドン方程式を満たす相対論的波動関数に対して、この質量はド・ブロイが相対論的パイロット波理論で定義した有効質量と一致する。
本研究では,光子軌道と質量の関係を干渉計で示す。 Bohmian mechanics has garnered significant attention as an interpretation of quantum theory since the paradigmatic experiments by Kocsis et. al. [Science 332, 6034 (2011)] and Mahler et. al. [Sci. Adv. 2, 2 (2016)], which inferred the average trajectories of photons in the nonrelativistic regime. These experiments were largely motivated by Wiseman's formulation of Bohmian mechanics, which grounded these trajectories in weak measurements. Recently, Wiseman's framework was extended to the relativistic regime by expressing the velocity field of single photons in terms of weak values of the photon energy and momentum. Here, we propose an operational, weak value-based definition for the Bohmian "local mass" of relativistic single particles. For relativistic wavefunctions satisfying the scalar Klein-Gordon equation, this mass coincides with the effective mass defined by de Broglie in his relativistic pilot-wave theory, a quantity closely connected with the quantum potential that is responsible for Bohmian trajectory self-bending and the anomalous photoelectric effect. We demonstrate the relationship between the photon trajectories and the mass in an interferometric setup. | 翻訳日:2023-05-02 12:55:03 公開日:2023-05-01 |
# 同期量子センサネットワークを用いた暗黒光子の探索 Search for dark photons with synchronized quantum sensor network ( http://arxiv.org/abs/2305.00890v1 ) ライセンス: Link先を確認 | Min Jiang, Taizhou Hong, Dongdong Hu, Yifan Chen, Fengwei Yang, Tao Hu, Xiaodong Yang, Jing Shu, Yue Zhao, Xinhua Peng | (参考訳) 暗黒光子はダークマターのよく動機付けられた候補である。
それでも、質量がmhz以下の暗黒光子の存在に関する現在の制約は、宇宙論や天体物理学の限界によって主に設定されている。
キネティックミキシングにより、標準的なモデル光子と結合すると効果的な電流として振る舞う。
電磁シールド室に位置する場合、シールドサイズに比例する最大磁場強度で振動磁界が生成される。
ここでは、GPS(Global Positioning System)と同期し、2メートルの遮蔽室の端に位置し、暗黒光子を探索するための強力なツールとして機能する15個の原子磁気センサのネットワークを実証する。
ネットワーク多重量子センサーとシールドサイズの両方が期待される暗光子信号を大幅に強化する。
このネットワークを用いて、暗黒光子暗黒物質の運動混合係数を1-500Hzの範囲で制限し、この質量窓内での地上実験の強い制約を与える。
我々の予測では、将来のデータリリースは宇宙マイクロ波背景とガス雲の冷却の制約を超える可能性がある。 Ultralight dark photons constitute a well-motivated candidate for dark matter. Nevertheless, current constraints on the existence of dark photons with masses below MHz are predominantly set by cosmological or astrophysical limits. They behave as effective currents when coupled with standard model photons through kinetic mixing. When situated in electromagnetic shielded rooms, oscillating magnetic fields are generated with the maximum field strength proportional to the shield size. Here, we demonstrate a network of 15 atomic magnetometers, which are synchronized with the Global Positioning System (GPS) and are situated on the edges of two meter-scale shielded rooms, serving as a powerful tool to search for dark photons. Both the network multiple quantum sensors and the shield large size significantly enhance the expected dark-photon signals. Using this network, we constrain the kinetic mixing coefficient of dark photon dark matter over the mass range 1-500 Hz, which gives the strongest constraint of a terrestrial experiment within this mass window. Our prospect indicates that future data releases may go beyond the constraints from the Cosmic Microwave Background and the gas cloud cooling. | 翻訳日:2023-05-02 12:54:45 公開日:2023-05-01 |
# バンディットフィードバックによる安全最適化における制約集合の幾何学的性質の影響 The Impact of the Geometric Properties of the Constraint Set in Safe Optimization with Bandit Feedback ( http://arxiv.org/abs/2305.00889v1 ) ライセンス: Link先を確認 | Spencer Hutchinson, Berkay Turan, Mahnoosh Alizadeh | (参考訳) 本稿では, エージェントが順次行動を選択し, 環境からの応答を観測し, 段階的制約を尊重しながら応答の任意の関数を最大化する, 帯域幅フィードバックによる安全な最適化問題を考察する。
この問題に対するアルゴリズムを提案し,制約セットの幾何学的性質がアルゴリズムの後悔にどのように影響するかを検討する。
そこで本研究では,不確実な環境での制約セット内での学習の難しさを特徴付ける,特定の制約セットのシャープネスの概念を導入する。
このシャープネスの概念により、提案アルゴリズムがサブ線形後悔を楽しむことが保証される制約セットのクラスを特定することができる。
このアルゴリズムのシミュレーション結果は、サブ線形後悔境界をサポートし、制約セットのシャープさがアルゴリズムの性能に影響を及ぼすという経験的証拠を提供する。 We consider a safe optimization problem with bandit feedback in which an agent sequentially chooses actions and observes responses from the environment, with the goal of maximizing an arbitrary function of the response while respecting stage-wise constraints. We propose an algorithm for this problem, and study how the geometric properties of the constraint set impact the regret of the algorithm. In order to do so, we introduce the notion of the sharpness of a particular constraint set, which characterizes the difficulty of performing learning within the constraint set in an uncertain setting. This concept of sharpness allows us to identify the class of constraint sets for which the proposed algorithm is guaranteed to enjoy sublinear regret. Simulation results for this algorithm support the sublinear regret bound and provide empirical evidence that the sharpness of the constraint set impacts the performance of the algorithm. | 翻訳日:2023-05-02 12:54:28 公開日:2023-05-01 |
# 量子ユーティリティーハイウェイのマイルストーン Milestones on the Quantum Utility Highway ( http://arxiv.org/abs/2305.00883v1 ) ライセンス: Link先を確認 | Catherine C. McGeoch and Pau Farre | (参考訳) 量子コンピューティングに関連するオーバーヘッドコストを含めることで,ユーザエクスペリエンスを捉えることを目的とした,量子パフォーマンス評価の新しいアプローチである量子ユーティリティを導入する。
量子処理ユニット (QPU) による量子ユーティリティの実証では、計算オーバーヘッドを考慮すると、QPUは古典的解法よりも実践者にとって関心のあるタスクに勝ることを示した。
我々は、(ハイブリッド計算コンテキストとは対照的に)QPUのスタンドアロン利用で発生するオーバーヘッドコストを考慮する。
我々は、オーバーヘッドの制限された部分集合に焦点を当てた、大規模量子ユーティリティへの道の初期の3つのマイルストーンを定義している。 milestone 0は、純粋なアニール時間(オーバーヘッドなし)を考慮し、以前の作業で実証された。
我々は,CPUとGPUに実装された13の入力クラスと7つの古典的解法を用いたテストベッドを用いて,マイルストーン1と2に関するD波アドバンテージQPUの性能を評価する。
Milestone 1では、QPUはテストの99%ですべての古典的解法を上回りました。
Milestone 2の場合、QPUはテストの19%で古典的解法よりも優れており、QPUが成功したシナリオは古典的解法が最も頻繁に失敗するケースに対応している。
特定の入力に対するテスト結果の分析により、量子および古典的パフォーマンスプロファイルの観察された違いを説明する基本的なメカニズムが明らかになった。
我々は、これらの区別が将来のアニーリング量子プロセッサにとって、常に拡大する入力クラスとより困難なマイルストーンで量子ユーティリティのデモンストレーションをサポートするのに役立つという証拠に基づく議論を提示する。 We introduce quantum utility, a new approach to evaluating quantum performance that aims to capture the user experience by including overhead costs associated with the quantum computation. A demonstration of quantum utility by a quantum processing unit (QPU) shows that the QPU can outperform classical solvers at some tasks of interest to practitioners, when considering computational overheads. We consider overhead costs that arise in standalone use of the QPU (as opposed to a hybrid computation context). We define three early milestones on the path to broad-scale quantum utility that focus on restricted subsets of overheads: Milestone 0 considers pure anneal time (no overheads) and has been demonstrated in previous work; Milestone 1 includes overhead times to access the QPU (that is, programming and readout); and Milestone 2 incorporates an indirect cost associated with minor embedding. We evaluate the performance of a D-Wave Advantage QPU with respect to Milestones 1 and 2, using a testbed of 13 input classes and seven classical solvers implemented on CPUs and GPUs. For Milestone 1, the QPU outperformed all classical solvers in 99% of our tests. For Milestone 2, the QPU outperformed all classical solvers in 19% of our tests, and the scenarios in which the QPU found success correspond to cases where classical solvers most frequently failed. Analysis of test results on specific inputs reveals fundamentally distinct underlying mechanisms that explain the observed differences in quantum and classical performance profiles. We present evidence-based arguments that these distinctions bode well for future annealing quantum processors to support demonstrations of quantum utility on ever-expanding classes of inputs and for more challenging milestones. | 翻訳日:2023-05-02 12:54:13 公開日:2023-05-01 |
# 二次ガウス問題に対する厳密な情報理論一般化誤差 Exactly Tight Information-Theoretic Generalization Error Bound for the Quadratic Gaussian Problem ( http://arxiv.org/abs/2305.00876v1 ) ライセンス: Link先を確認 | Ruida Zhou, Chao Tian, Tie Liu | (参考訳) 我々は、正準二次ガウス平均推定問題に対して、厳密な(すなわち定数さえ一致する)新しい情報理論の一般化誤差を与える。
情報理論的な一般化誤り境界の導出に相当な努力をしてきたにもかかわらず、ガウスデータの平均値の推定にサンプル平均が使用されるこの単純な設定に適用しても満足のいく結果が得られない。
実際、既存の境界はこの設定において順序的に緩く、機械学習の一般化動作を推論する情報理論境界の基本的な能力に懸念を抱いている。
提案する新しいバウンドは、buらによって提案された個別のサンプルベースアプローチを採用するが、いくつかの重要な新しい材料も備えている。
まず、損失関数に測度の不等式の変化を適用する代わりに、一般化誤差関数自身に適用し、第二に境界は条件付きで導出され、最後にベイズ設定の事前分布とある種の類似性を持つ参照分布を導入する。
これらの成分の組み合わせは一般的な kl-divergence-based generalization error bound を生成する。
さらに、条件境界と基準分布は境界を正確にきつくすることができるが、それらを取り除くことは境界を著しく劣化させるものではなく、この設定では漸近的にタイトな相互情報ベース境界につながることを示す。 We provide a new information-theoretic generalization error bound that is exactly tight (i.e., matching even the constant) for the canonical quadratic Gaussian mean estimation problem. Despite considerable existing efforts in deriving information-theoretic generalization error bounds, applying them to this simple setting where sample average is used as the estimate of the mean value of Gaussian data has not yielded satisfying results. In fact, most existing bounds are order-wise loose in this setting, which has raised concerns about the fundamental capability of information-theoretic bounds in reasoning the generalization behavior for machine learning. The proposed new bound adopts the individual-sample-based approach proposed by Bu et al., but also has several key new ingredients. Firstly, instead of applying the change of measure inequality on the loss function, we apply it to the generalization error function itself; secondly, the bound is derived in a conditional manner; lastly, a reference distribution, which bears a certain similarity to the prior distribution in the Bayesian setting, is introduced. The combination of these components produces a general KL-divergence-based generalization error bound. We further show that although the conditional bounding and the reference distribution can make the bound exactly tight, removing them does not significantly degrade the bound, which leads to a mutual-information-based bound that is also asymptotically tight in this setting. | 翻訳日:2023-05-02 12:53:44 公開日:2023-05-01 |
# styleavatar:1つのビデオからリアルタイムフォトリアリスティックなポートレートアバター StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video ( http://arxiv.org/abs/2305.00942v1 ) ライセンス: Link先を確認 | Lizhen Wang, Xiaochen Zhao, Jingxiang Sun, Yuxiang Zhang, Hongwen Zhang, Tao Yu, Yebin Liu | (参考訳) face reenactment methodは、ポートレートビデオを可能な限りリアルに復元し、アニメーション化しようとする。
既存の手法は品質と制御性のジレンマに直面している: 2d ganベースの手法は高い画質を達成するが、顔の属性を3dのものと比較してきめ細かい制御に苦しむ。
本稿では,高忠実度ポートレートアバターを忠実な表現制御で生成できる,StyleGANベースのネットワークを用いたリアルタイム写真リアリスティックポートレートアバター再構成手法であるStyleAvatarを提案する。
コンポジション表現とスライディングウィンドウ拡張手法を導入し,より高速な収束を実現し,翻訳の一般化を向上することで,StyleGANの能力を拡大する。
具体的には、顔領域、非顔面前景領域、背景の順応のために、肖像画シーンを3つの部分に分割する。
さらに当社のネットワークでは,高品質なビデオ生成を可能にするビデオ学習に,unet,stylegan,time codingを最大限活用しています。
さらに, 翻訳一般化と訓練性能を向上させるために, 事前学習戦略と併用したスライディングウィンドウ拡張法を提案する。
提案されたネットワークは2時間以内に収束し、高い画質と転送時間はわずか20ミリ秒である。
さらに,リアルタイムのライブシステムを提案し,アプリケーションの研究をさらに進める。
その結果,既存の顔再現法と比較して画像品質,フルポートレート映像生成,リアルタイム再アニメーションの面で,本手法の優位性を実証した。
この論文のトレーニングと推論コードはhttps://github.com/LizhenWangT/StyleAvatar.comにある。 Face reenactment methods attempt to restore and re-animate portrait videos as realistically as possible. Existing methods face a dilemma in quality versus controllability: 2D GAN-based methods achieve higher image quality but suffer in fine-grained control of facial attributes compared with 3D counterparts. In this work, we propose StyleAvatar, a real-time photo-realistic portrait avatar reconstruction method using StyleGAN-based networks, which can generate high-fidelity portrait avatars with faithful expression control. We expand the capabilities of StyleGAN by introducing a compositional representation and a sliding window augmentation method, which enable faster convergence and improve translation generalization. Specifically, we divide the portrait scenes into three parts for adaptive adjustments: facial region, non-facial foreground region, and the background. Besides, our network leverages the best of UNet, StyleGAN and time coding for video learning, which enables high-quality video generation. Furthermore, a sliding window augmentation method together with a pre-training strategy are proposed to improve translation generalization and training performance, respectively. The proposed network can converge within two hours while ensuring high image quality and a forward rendering time of only 20 milliseconds. Furthermore, we propose a real-time live system, which further pushes research into applications. Results and experiments demonstrate the superiority of our method in terms of image quality, full portrait video generation, and real-time re-animation compared to existing facial reenactment methods. Training and inference code for this paper are at https://github.com/LizhenWangT/StyleAvatar. | 翻訳日:2023-05-02 12:46:40 公開日:2023-05-01 |
# フラクトン超流動による自発的対称性の破れの解明 Exploring Spontaneous Symmetry Breaking through Fractonic Superfluids ( http://arxiv.org/abs/2305.00941v1 ) ライセンス: Link先を確認 | Shuai A. Chen and Peng Ye | (参考訳) フラクトン超流動体は、ボゾンが移動性制約を受ける物質のエキゾチックな相であり、その結果、従来の超流動体を超える特徴をもたらす。
これらのエキゾチックな位相は、双極子、四極子、角モーメントのような高モーメント保存を持つ多体系における高次対称性(hrs)の自発的な破れから生じる。
本稿では,このような系における自発的対称性の破れの理論について,'many-fracton systems'と呼ばれるエキサイティングな展開を紹介することを目的とする。
More specifically, we introduce exciting progress on general aspects of HRS, minimal model construction, realization of symmetry-breaking ground states, order parameter, off-diagonal long-range order (ODLRO), Noether currents with continuity equations, Gross-Pitaevskii equations, quantum fluctuations, Goldstone modes, specific heat, generalized Mermin-Wagner theorem, critical current, Landau criterion, symmetry defects, and Kosterlitz-Thouless (KT)-like physics, hydrodynamics, and lattice model realization.
本論文はいくつかの今後の方向性でまとめられる。 Fractonic superfluids are exotic phases of matter in which bosons are subject to mobility constraints, resulting in features beyond those of conventional superfluids. These exotic phases arise from the spontaneous breaking of higher-rank symmetry (HRS) in many-body systems with higher-moment conservation, such as dipoles, quadrupoles, and angular moments. The aim of this paper is to introduce exciting developments on the theory of spontaneous symmetry breaking in such systems, which we refer to as ``many-fracton systems''. More specifically, we introduce exciting progress on general aspects of HRS, minimal model construction, realization of symmetry-breaking ground states, order parameter, off-diagonal long-range order (ODLRO), Noether currents with continuity equations, Gross-Pitaevskii equations, quantum fluctuations, Goldstone modes, specific heat, generalized Mermin-Wagner theorem, critical current, Landau criterion, symmetry defects, and Kosterlitz-Thouless (KT)-like physics, hydrodynamics, and lattice model realization. This paper is concluded with several future directions. | 翻訳日:2023-05-02 12:46:15 公開日:2023-05-01 |
# サンプリング・リファインメントネットワークを用いた単一画像からの3次元アバターのテクスチャ生成 Generating Texture for 3D Human Avatar from a Single Image using Sampling and Refinement Networks ( http://arxiv.org/abs/2305.00936v1 ) ライセンス: Link先を確認 | Sihun Cha, Kwanggyoon Seo, Amirsaman Ashtari, Junyong Noh | (参考訳) 単一の画像からアニマタブルな3D人間のアバターを生成するには大きな進歩があった。
しかし,1枚の画像から3次元アバターのテクスチャを復元することは比較的少ない。
生成した3次元人間のアバターは、動いたときの隠蔽テクスチャを明らかにするため、ソース画像から見えない隠蔽テクスチャパターンを合成することが重要である。
3次元アバターの可視性テクスチャマップを生成するには、所定の画像から可視性テクスチャに対してオクルードテクスチャパターンを合成する必要がある。
さらに、生成したテクスチャは、ターゲット3Dメッシュの表面と整合するべきである。
本稿では,幾何学情報を組み込んだ3次元アバターのテクスチャ合成法を提案する。
提案手法は, サンプリング・精製プロセスのための2つの畳み込みネットワークからなる。
サンプルネットワークは、ソース画像の隠蔽領域を埋め、形状情報を用いて、ターゲット3Dメッシュの表面とテクスチャを整列する。
試料テクスチャはさらに精製され、精製器ネットワークによって調整される。
与えられた画像の鮮明な詳細を維持するため、サンプリングされたテクスチャと精製されたテクスチャを混合して最終テクスチャマップを生成する。
目的を達成するために,サンプルネットワークを効果的にガイドするために,簡単なサンプリングタスクから始まるカリキュラム学習スキームを設計し,アライメントを考慮すべきタスクへと徐々に前進させた。
本手法は,従来の手法よりも質的,定量的に優れることを示す実験を行った。 There has been significant progress in generating an animatable 3D human avatar from a single image. However, recovering texture for the 3D human avatar from a single image has been relatively less addressed. Because the generated 3D human avatar reveals the occluded texture of the given image as it moves, it is critical to synthesize the occluded texture pattern that is unseen from the source image. To generate a plausible texture map for 3D human avatars, the occluded texture pattern needs to be synthesized with respect to the visible texture from the given image. Moreover, the generated texture should align with the surface of the target 3D mesh. In this paper, we propose a texture synthesis method for a 3D human avatar that incorporates geometry information. The proposed method consists of two convolutional networks for the sampling and refining process. The sampler network fills in the occluded regions of the source image and aligns the texture with the surface of the target 3D mesh using the geometry information. The sampled texture is further refined and adjusted by the refiner network. To maintain the clear details in the given image, both sampled and refined texture is blended to produce the final texture map. To effectively guide the sampler network to achieve its goal, we designed a curriculum learning scheme that starts from a simple sampling task and gradually progresses to the task where the alignment needs to be considered. We conducted experiments to show that our method outperforms previous methods qualitatively and quantitatively. | 翻訳日:2023-05-02 12:45:58 公開日:2023-05-01 |
# モデルとパラメータの不確かさを考慮したベイズニューラルネットワークの変分推論 Variational Inference for Bayesian Neural Networks under Model and Parameter Uncertainty ( http://arxiv.org/abs/2305.00934v1 ) ライセンス: Link先を確認 | Aliaksandr Hubin and Geir Storvik | (参考訳) ベイズニューラルネットワーク(BNN)は、スケーラブルな近似ベイズ推論技術の開発により、最近、ディープラーニングコミュニティでかなりの注目を集めている。
ベイズアプローチを使う利点はいくつかある: パラメータと予測の不確かさが容易に利用可能になり、厳密な統計分析が容易になる。
さらに、事前知識を組み込むこともできる。
しかし、これまでのところ、構造的不確実性とパラメータ的不確実性の両方を組み合わせられるスケーラブルな技術は存在していない。
本稿では,BNNにおける構造学習の枠組みとしてモデル不確実性の概念を適用し,構造モデルとパラメータの結合空間における推論を行う。
さらに,モデル空間制約を組み込むための限界包摂確率の再パラメータ化によるスケーラブルな変分推論手法の適応を提案する。
ベンチマークデータセットにおける実験の結果から, 従来のbnnに比べてはるかに少ない手法を用いて, 競合するモデルと同等の精度が得られることがわかった。 Bayesian neural networks (BNNs) have recently regained a significant amount of attention in the deep learning community due to the development of scalable approximate Bayesian inference techniques. There are several advantages of using a Bayesian approach: Parameter and prediction uncertainties become easily available, facilitating rigorous statistical analysis. Furthermore, prior knowledge can be incorporated. However, so far, there have been no scalable techniques capable of combining both structural and parameter uncertainty. In this paper, we apply the concept of model uncertainty as a framework for structural learning in BNNs and hence make inference in the joint space of structures/models and parameters. Moreover, we suggest an adaptation of a scalable variational inference approach with reparametrization of marginal inclusion probabilities to incorporate the model space constraints. Experimental results on a range of benchmark datasets show that we obtain comparable accuracy results with the competing models, but based on methods that are much more sparse than ordinary BNNs. | 翻訳日:2023-05-02 12:45:32 公開日:2023-05-01 |
# 機械的・統計的時系列モデルを用いたCOVID-19の短期確率予測の比較 A comparison of short-term probabilistic forecasts for the incidence of COVID-19 using mechanistic and statistical time series models ( http://arxiv.org/abs/2305.00933v1 ) ライセンス: Link先を確認 | Nicolas Banholzer, Thomas Mellan, H Juliette T Unwin, Stefan Feuerriegel, Swapnil Mishra, Samir Bhatt | (参考訳) 感染拡大の短期予測は、リスク評価と公衆衛生決定において重要な要素である。
短期予測のための異なるモデルが開発されているが、相対的な性能に関するオープンな疑問が残っている。
本稿では,統計時系列モデルの予測と更新方程式に基づく一般的な機械力学モデルの短期確率予測を比較した。
私たちの経験的比較は、最初のパンデミック年における米国6大州でのCOVID-19の毎日発生率のデータに基づいています。
平均的に、統計時系列モデルからの確率予測は、メカニスティックモデルによる予測の少なくとも全体としては正確である。
さらに、統計時系列モデルはボラティリティを捕えやすい。
以上より,疾患のダイナミクスを仮定して機械モデルに統合した領域知識は,疾患の発生率の短期予測を改善しないことが示唆された。
しかし、予測は多くの場合、多くの目的の1つに過ぎず、例えばワクチンの影響や新しい変異の出現をモデル化するために、機械モデルが重要なままである。 Short-term forecasts of infectious disease spread are a critical component in risk evaluation and public health decision making. While different models for short-term forecasting have been developed, open questions about their relative performance remain. Here, we compare short-term probabilistic forecasts of popular mechanistic models based on the renewal equation with forecasts of statistical time series models. Our empirical comparison is based on data of the daily incidence of COVID-19 across six large US states over the first pandemic year. We find that, on average, probabilistic forecasts from statistical time series models are overall at least as accurate as forecasts from mechanistic models. Moreover, statistical time series models better capture volatility. Our findings suggest that domain knowledge, which is integrated into mechanistic models by making assumptions about disease dynamics, does not improve short-term forecasts of disease incidence. We note, however, that forecasting is often only one of many objectives and thus mechanistic models remain important, for example, to model the impact of vaccines or the emergence of new variants. | 翻訳日:2023-05-02 12:45:18 公開日:2023-05-01 |
# POMDP木探索を用いた逆モデル再構成による説明 Explanation through Reward Model Reconciliation using POMDP Tree Search ( http://arxiv.org/abs/2305.00931v1 ) ライセンス: Link先を確認 | Benjamin D. Kraske, Anshu Saksena, Anna L. Buczak, Zachary N. Sunberg | (参考訳) 人工知能(AI)アルゴリズムは、ミッションクリティカルなアプリケーションでますます使われているため、これらのシステムのユーザ信頼を促進することが彼らの成功に不可欠である。
アルゴリズムの理由がユーザの信頼を促進するモデルを理解すること。
この研究は、アルゴリズムがオンライン部分的に観測可能なマルコフ決定(POMDP)計画に使用する報酬モデルと、人間のユーザが仮定する暗黙の報酬モデルとの差異を解明することを目的とする。
アルゴリズムとユーザによる決定の違いであるアクションの相違を利用して、報酬関数の重み付けで表されるユーザの目的を推定する。 As artificial intelligence (AI) algorithms are increasingly used in mission-critical applications, promoting user-trust of these systems will be essential to their success. Ensuring users understand the models over which algorithms reason promotes user trust. This work seeks to reconcile differences between the reward model that an algorithm uses for online partially observable Markov decision (POMDP) planning and the implicit reward model assumed by a human user. Action discrepancies, differences in decisions made by an algorithm and user, are leveraged to estimate a user's objectives as expressed in weightings of a reward function. | 翻訳日:2023-05-02 12:45:03 公開日:2023-05-01 |
# 教育モデルにおける相互伝達学習--モデル性能,公平性,公平性への示唆 Cross-Institutional Transfer Learning for Educational Models: Implications for Model Performance, Fairness, and Equity ( http://arxiv.org/abs/2305.00927v1 ) ライセンス: Link先を確認 | Josh Gardner, Renzhe Yu, Quan Nguyen, Christopher Brooks, Rene Kizilcec | (参考訳) 現代の機械学習は、多制度的なパラダイム(訓練中の複数の機関のデータを使用する)や相互制度的なパラダイム(推論のための複数の機関のモデルを使用する)をますますサポートしているが、これらのパラダイムの実証的な効果はよく理解されていない。
本研究では,高等教育における経験的ケーススタディを通したクロスインスティカルラーニングについて検討する。
本稿では,学生のドロップアウト予測モデルの有用性と妥当性を評価するためのフレームワークと指標を提案する。
本研究では,実世界データ共有制約およびモデル共有制約下でのクロス施設間移動の実現可能性,交差する学生のアイデンティティに対するモデルバイアスの定量化,これらのバイアスによる潜在的異種影響のキャラクタリゼーション,公平性とモデル全体のパフォーマンスに対する様々なクロス施設間センシングアプローチの影響について検討する。
この分析は,4大学から毎年20万人以上の学生を対象に,機関間での研修データを共有することなく実施されている。
本研究では, モデルフェアネスを犠牲にすることなく, 簡易なゼロショットクロスインスティカルトランスファー法により, 局所学習モデルと類似した性能が得られた。
また、スタック化されたensemblingは、テストしたローカルモデルやゼロショット転送手順と比較して、全体的なパフォーマンスや公平性に新たなメリットがないことも分かりました。
数十のモデルと転送スキームで評価された公平なトレードオフの証拠は見つからない。
また,1次元解析で隠蔽された機密識別群の交点における性能格差を明らかにすることにより,交差的公平性分析の重要性を強調した。 Modern machine learning increasingly supports paradigms that are multi-institutional (using data from multiple institutions during training) or cross-institutional (using models from multiple institutions for inference), but the empirical effects of these paradigms are not well understood. This study investigates cross-institutional learning via an empirical case study in higher education. We propose a framework and metrics for assessing the utility and fairness of student dropout prediction models that are transferred across institutions. We examine the feasibility of cross-institutional transfer under real-world data- and model-sharing constraints, quantifying model biases for intersectional student identities, characterizing potential disparate impact due to these biases, and investigating the impact of various cross-institutional ensembling approaches on fairness and overall model performance. We perform this analysis on data representing over 200,000 enrolled students annually from four universities without sharing training data between institutions. We find that a simple zero-shot cross-institutional transfer procedure can achieve similar performance to locally-trained models for all institutions in our study, without sacrificing model fairness. We also find that stacked ensembling provides no additional benefits to overall performance or fairness compared to either a local model or the zero-shot transfer procedure we tested. We find no evidence of a fairness-accuracy tradeoff across dozens of models and transfer schemes evaluated. Our auditing procedure also highlights the importance of intersectional fairness analysis, revealing performance disparities at the intersection of sensitive identity groups that are concealed under one-dimensional analysis. | 翻訳日:2023-05-02 12:44:53 公開日:2023-05-01 |
# 対話履歴を統合した音声言語理解タスクの協調モデリング Joint Modelling of Spoken Language Understanding Tasks with Integrated Dialog History ( http://arxiv.org/abs/2305.00926v1 ) ライセンス: Link先を確認 | Siddhant Arora, Hayato Futami, Emiru Tsunoo, Brian Yan, Shinji Watanabe | (参考訳) ほとんどの人間の相互作用は、与えられた発話の意味的意味が文脈に依存する会話の形で起こる。
音声会話の各発話は、多くの意味的属性と話者属性で表現することができ、これらの属性を自動的に予測するための音声言語理解(SLU)システムの構築に関心がある。
近年の研究では,対話履歴を組み込むことで,SLUの性能向上が期待できる。
しかし、それぞれのSLUタスクに別々のモデルが使用され、推論時間と計算コストが増加する。
低レイテンシで軽量な推論を容易にするために、コンテキストを取り入れながら、すべてのSLUタスクを共同でモデル化できますか?
そこで本研究では,対話コンテキストを学習し,発話の意図,対話行為,話者の役割,感情を共同で予測する新しいモデルアーキテクチャを提案する。
我々の共同予測は自己回帰モデルに基づいており、簡単なものではないダイアログ属性の予測順序を決定する必要があることに注意してください。
また,問題を緩和するため,命令に依存しない訓練手法を提案する。
本実験は,タスク固有分類器と類似した結果が得られ,対話コンテキストを効果的に統合し,SLU性能をさらに向上することを示す。 Most human interactions occur in the form of spoken conversations where the semantic meaning of a given utterance depends on the context. Each utterance in spoken conversation can be represented by many semantic and speaker attributes, and there has been an interest in building Spoken Language Understanding (SLU) systems for automatically predicting these attributes. Recent work has shown that incorporating dialogue history can help advance SLU performance. However, separate models are used for each SLU task, leading to an increase in inference time and computation cost. Motivated by this, we aim to ask: can we jointly model all the SLU tasks while incorporating context to facilitate low-latency and lightweight inference? To answer this, we propose a novel model architecture that learns dialog context to jointly predict the intent, dialog act, speaker role, and emotion for the spoken utterance. Note that our joint prediction is based on an autoregressive model and we need to decide the prediction order of dialog attributes, which is not trivial. To mitigate the issue, we also propose an order agnostic training method. Our experiments show that our joint model achieves similar results to task-specific classifiers and can effectively integrate dialog context to further improve the SLU performance. | 翻訳日:2023-05-02 12:44:23 公開日:2023-05-01 |
# IoTFlowGenerator: サイバー詐欺のための合成IoTデバイストラフィックフローの構築 IoTFlowGenerator: Crafting Synthetic IoT Device Traffic Flows for Cyber Deception ( http://arxiv.org/abs/2305.00925v1 ) ライセンス: Link先を確認 | Joseph Bao, Murat Kantarcioglu, Yevgeniy Vorobeychik, Charles Kamhoua | (参考訳) 長年にわたり、ハニーポットは攻撃者の意図を理解し、攻撃者を騙して時間と資源を消費する重要なセキュリティツールとして登場してきた。
近年,IoT(Internet of Things,モノのインターネット)デバイスにハニーポットが配備され,攻撃者を誘惑し,その振る舞いを学習している。
しかし、既存のIoTハニーポットの多くは、ハイインタラクションであっても、ハニーポットから発生した実際のネットワークトラフィックの欠如により、ハニーポットのトラフィックを観測できるアタッカーによって容易に検出される。
これにより、より優れたハニーポットを構築し、サイバー詐欺能力を高めるために、IoTハニーポットは現実的なネットワークトラフィックフローを生成する必要がある。
この目的を達成するために,ユーザとIoTデバイスのインタラクションによる実際のネットワークトラフィックを模倣するトラフィックフローを生成するための,新たなディープラーニングベースのアプローチを提案する。
このアプローチが克服する重要な技術的課題は、ジェネレータを効果的にトレーニングするデバイス固有のIoTトラフィックデータの不足です。
この課題に対処するために、IoTデバイスに共通するドメイン固有の知識とともに、シーケンスのコア生成逆学習アルゴリズムを活用する。
提案する合成IoTトラフィック生成ツールは,18個のIoTデバイスによる広範な実験的評価を通じて,実際のトラフィックと区別不能な状態でのArt Sequenceとパケットジェネレータの状態を,アダプティブアタックに対しても著しく上回ることを示す。 Over the years, honeypots emerged as an important security tool to understand attacker intent and deceive attackers to spend time and resources. Recently, honeypots are being deployed for Internet of things (IoT) devices to lure attackers, and learn their behavior. However, most of the existing IoT honeypots, even the high interaction ones, are easily detected by an attacker who can observe honeypot traffic due to lack of real network traffic originating from the honeypot. This implies that, to build better honeypots and enhance cyber deception capabilities, IoT honeypots need to generate realistic network traffic flows. To achieve this goal, we propose a novel deep learning based approach for generating traffic flows that mimic real network traffic due to user and IoT device interactions. A key technical challenge that our approach overcomes is scarcity of device-specific IoT traffic data to effectively train a generator. We address this challenge by leveraging a core generative adversarial learning algorithm for sequences along with domain specific knowledge common to IoT devices. Through an extensive experimental evaluation with 18 IoT devices, we demonstrate that the proposed synthetic IoT traffic generation tool significantly outperforms state of the art sequence and packet generators in remaining indistinguishable from real traffic even to an adaptive attacker. | 翻訳日:2023-05-02 12:44:04 公開日:2023-05-01 |
# Bottleneck Transformer を用いたアルツハイマー病の早期診断 Early Detection of Alzheimer's Disease using Bottleneck Transformers ( http://arxiv.org/abs/2305.00923v1 ) ライセンス: Link先を確認 | Arunima Jaiswal, Ananya Sadana | (参考訳) アルツハイマー病(AD)とその前頭葉状態であるミルド認知障害(MCI)の早期発見は、適切な治療を提供し、疾患の進行を防ぐために重要である。
また、研究者や臨床医が、広範な研究の対象となった初期のバイオマーカーや新しい治療法を識別する助けにもなる。
構造的磁気共鳴イメージング(MRI)におけるディープラーニング技術の応用は、疾患の診断に有望な結果を示している。
本研究では,アルツハイマー病早期発見のためのシャープネス認識最小化器を備えた自己着脱型ボトルネックトランスフォーマのアンサンブルを用いた新しい手法を提案する。
提案手法は広く受け入れられているADNIデータセット上でテストされ、精度、精度、リコール、F1スコア、ROC-AUCスコアを用いて評価されている。 Early detection of Alzheimer's Disease (AD) and its prodromal state, Mild Cognitive Impairment (MCI), is crucial for providing suitable treatment and preventing the disease from progressing. It can also aid researchers and clinicians to identify early biomarkers and minister new treatments that have been a subject of extensive research. The application of deep learning techniques on structural Magnetic Resonance Imaging (MRI) has shown promising results in diagnosing the disease. In this research, we intend to introduce a novel approach of using an ensemble of the self-attention-based Bottleneck Transformers with a sharpness aware minimizer for early detection of Alzheimer's Disease. The proposed approach has been tested on the widely accepted ADNI dataset and evaluated using accuracy, precision, recall, F1 score, and ROC-AUC score as the performance metrics. | 翻訳日:2023-05-02 12:43:40 公開日:2023-05-01 |
# ArK:知識対話型創発能力を備えた拡張現実 ArK: Augmented Reality with Knowledge Interactive Emergent Ability ( http://arxiv.org/abs/2305.00970v1 ) ライセンス: Link先を確認 | Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao | (参考訳) 混合現実と対話型AIエージェントの普及にもかかわらず、これらのシステムでは、目に見えない環境で高品質な2D/3Dシーンを生成することは依然として困難である。
一般的なプラクティスは、AIエージェントをデプロイして、新しいタスク毎にモデルトレーニングのために大量のデータを収集することである。
多くのドメインにとってこのプロセスは費用がかかり、あるいは不可能です。
本研究では,一般基礎モデル(GPT4, DALLE)から物理・仮想世界におけるシーン理解・生成のための新しい領域やシナリオへの知識記憶の伝達を学習する無限エージェントを開発する。
このアプローチの核心はAugmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムであり、知識メモリを活用して、目に見えない物理世界と仮想現実環境におけるシーンを生成する。
観察が学習する知識対話的創発能力(第1図)を実証する。
一 クロスモダリティのマイクロアクション:多モードモデルにおいて、身体的現実から各インタラクションタスク(例えば、見えないシーン理解)の大量の関連知識記憶データを収集すること。
二 現実非依存のマクロ行動:異なる特徴のある役割、標的変数、協調情報等に合わせた相互作用を改善する混合現実環境において。
シーン生成と編集作業におけるArKの有効性を検証する。
我々のArKアプローチは,大規模ファンデーションモデルと組み合わせることで,生成した2D/3Dシーンの品質をベースラインよりも大幅に向上し,メタバースやゲームシミュレーションなどのアプリケーションにArKを生成AIに組み込むことの潜在的なメリットを示す。 Despite the growing adoption of mixed reality and interactive AI agents, it remains challenging for these systems to generate high quality 2D/3D scenes in unseen environments. The common practice requires deploying an AI agent to collect large amounts of data for model training for every new task. This process is costly, or even impossible, for many domains. In this study, we develop an infinite agent that learns to transfer knowledge memory from general foundation models (e.g. GPT4, DALLE) to novel domains or scenarios for scene understanding and generation in the physical or virtual world. The heart of our approach is an emerging mechanism, dubbed Augmented Reality with Knowledge Inference Interaction (ArK), which leverages knowledge-memory to generate scenes in unseen physical world and virtual reality environments. The knowledge interactive emergent ability (Figure 1) is demonstrated as the observation learns i) micro-action of cross-modality: in multi-modality models to collect a large amount of relevant knowledge memory data for each interaction task (e.g., unseen scene understanding) from the physical reality; and ii) macro-behavior of reality-agnostic: in mix-reality environments to improve interactions that tailor to different characterized roles, target variables, collaborative information, and so on. We validate the effectiveness of ArK on the scene generation and editing tasks. We show that our ArK approach, combined with large foundation models, significantly improves the quality of generated 2D/3D scenes, compared to baselines, demonstrating the potential benefit of incorporating ArK in generative AI for applications such as metaverse and gaming simulation. | 翻訳日:2023-05-02 12:37:51 公開日:2023-05-01 |
# CryCeleb:幼児のCry音に基づく話者検証データセット CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v1 ) ライセンス: Link先を確認 | David Budaghyan, Arsenii Gorin, Cem Subakan, Charles C. Onu | (参考訳) 本稿では,乳幼児の叫び声をラベル付けしたUbenwa CryCelebデータセットと,乳幼児の泣き声に基づく公的な話者検証課題であるCryCeleb 2023タスクについて述べる。
乳児の泣き声解析研究を促進するため,786人の新生児から6時間以上手作業で泣き声を分割した。 This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries, and the accompanying CryCeleb 2023 task - a public speaker verification challenge based on infant cry sounds. We release for academic usage more than 6 hours of manually segmented cry sounds from 786 newborns to encourage research in infant cry analysis. | 翻訳日:2023-05-02 12:37:24 公開日:2023-05-01 |
# 相対フロベニウスノルムにおけるリスト決定可能な共分散推定のためのスペクトルアルゴリズム A Spectral Algorithm for List-Decodable Covariance Estimation in Relative Frobenius Norm ( http://arxiv.org/abs/2305.00966v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Jasper C. H. Lee, Ankit Pensia, Thanasis Pittas | (参考訳) リスト決定可能なガウス共分散推定の問題点について検討する。
a multiset $t$ of $n$ in $\mathbb r^d$, that that that that an unknown $\alpha<1/2$ fraction of points in $t$ is i.i.d. sample from an unknown gaussian $\mathcal{n}(\mu, \sigma)$ from an unknown gaussian $\mathcal{n}(\mu, \sigma)$, 目標は少なくとも$o(1/\alpha)$の仮定のリストを出力することである。
主な結果は、このタスクの$\mathrm{poly}(d,1/\alpha)$サンプルと時間アルゴリズムで、$\mathrm{poly}(1/\alpha)$の相対フロベニウスノルムエラーを保証します。
重要なことに、我々のアルゴリズムは純粋にスペクトル技術に依存している。
本研究では,任意のgmmをロバストに学習する[bdj+22]の最近の研究における重要な要素であるガウス混合モデル(gmms)のロバスト部分クラスタリングのための効率的なスペクトルアルゴリズムを提案する。
bdj+22]の他の成分と組み合わせることで,gmmsをロバストに学習する最初の2乗法を導出する。
技術的レベルでは、他の設定で有用かもしれないリスト分割可能な共分散推定のための新しいマルチフィルタ法を開発する。 We study the problem of list-decodable Gaussian covariance estimation. Given a multiset $T$ of $n$ points in $\mathbb R^d$ such that an unknown $\alpha<1/2$ fraction of points in $T$ are i.i.d. samples from an unknown Gaussian $\mathcal{N}(\mu, \Sigma)$, the goal is to output a list of $O(1/\alpha)$ hypotheses at least one of which is close to $\Sigma$ in relative Frobenius norm. Our main result is a $\mathrm{poly}(d,1/\alpha)$ sample and time algorithm for this task that guarantees relative Frobenius norm error of $\mathrm{poly}(1/\alpha)$. Importantly, our algorithm relies purely on spectral techniques. As a corollary, we obtain an efficient spectral algorithm for robust partial clustering of Gaussian mixture models (GMMs) -- a key ingredient in the recent work of [BDJ+22] on robustly learning arbitrary GMMs. Combined with the other components of [BDJ+22], our new method yields the first Sum-of-Squares-free algorithm for robustly learning GMMs. At the technical level, we develop a novel multi-filtering method for list-decodable covariance estimation that may be useful in other settings. | 翻訳日:2023-05-02 12:37:16 公開日:2023-05-01 |
# ギャップを埋める:自然言語生成のための(Human)フィードバックの統合に関する調査 Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation ( http://arxiv.org/abs/2305.00955v1 ) ライセンス: Link先を確認 | Patrick Fernandes, Aman Madaan, Emmy Liu, Ant\'onio Farinhas, Pedro Henrique Martins, Amanda Bertsch, Jos\'e G. C. de Souza, Shuyan Zhou, Tongshuang Wu, Graham Neubig, Andr\'e F. T. Martins | (参考訳) 自然言語生成の最近の進歩は、インターネット規模のデータで大規模な言語モデルを訓練することで加速されている。
しかし、このパラダイムは有害で不正確で不正確なコンテンツを生成するモデルにつながる可能性があり、自動評価指標はこれらの振る舞いを特定するのに失敗することが多い。
モデルがより有能になるにつれて、人間のフィードバックはモデルの評価と改善にとって貴重なシグナルとなる。
この調査は、人間のフィードバックを利用して自然言語生成を改善する最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包含し、この形式化に従って既存の研究を分類学に分類し整理する。
次に、その形式と目的によってフィードバックをどのように記述するかについて議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて述べる。
また、人間フィードバックデータ収集のための既存のデータセットや、フィードバック収集に関する懸念についても論じる。
最後に、大言語モデルを利用して一連の原則に基づいた判断を行い、人間の介入の必要性を最小限に抑える、aiフィードバックの生まれたばかりの分野の概要を提供する。 Many recent advances in natural language generation have been fueled by training large language models on internet-scale data. However, this paradigm can lead to models that generate toxic, inaccurate, and unhelpful content, and automatic evaluation metrics often fail to identify these behaviors. As models become more capable, human feedback is an invaluable signal for evaluating and improving models. This survey aims to provide an overview of the recent research that has leveraged human feedback to improve natural language generation. First, we introduce an encompassing formalization of feedback, and identify and organize existing research into a taxonomy following this formalization. Next, we discuss how feedback can be described by its format and objective, and cover the two approaches proposed to use feedback (either for training or decoding): directly using the feedback or training feedback models. We also discuss existing datasets for human-feedback data collection, and concerns surrounding feedback collection. Finally, we provide an overview of the nascent field of AI feedback, which exploits large language models to make judgments based on a set of principles and minimize the need for human intervention. | 翻訳日:2023-05-02 12:36:42 公開日:2023-05-01 |
# センサ設計によるほぼハイゼンベルク制限雑音非バイアス周波数推定 Nearly Heisenberg-limited noise-unbiased frequency estimation by tailored sensor design ( http://arxiv.org/abs/2305.00954v1 ) ライセンス: Link先を確認 | Francisco Riberi, Gerardo Paz-Silva and Lorenza Viola | (参考訳) 時空間相関環境からノイズを強調する存在下では,ラムゼイ干渉計によるエンタングルメント支援周波数推定について検討し,広く採用されている局所推定手法を用いて,無限の計測統計においても,標準推定器の偏りや不定義をノイズが反映することを示す。
我々は,必要な資源を2倍にすることで,騒音に敏感な比推定器を導入し,標準資源の漸近的精密スケーリングを保った。
比推定器はマルコフ雑音の極限にも適用できるが、ボソニックバスからの非マルコフ劣化に着目し、センサの幾何を調整することによって、ノイズスペクトルに関する知識が気象学的優位性を最大化するためにどのように使われるかを示す。
特にハイゼンベルクのスケーリングは、最大絡み合った状態によって対数的プレファクタに達する。 We consider entanglement-assisted frequency estimation by Ramsey interferometry, in the presence of dephasing noise from spatiotemporally correlated environments.By working in the widely employed local estimation regime, we show that even for infinite measurement statistics, noise renders standard estimators biased or ill-defined. We introduce ratio estimators which, at the cost of doubling the required resources, are insensitive to noise and retain the asymptotic precision scaling of standard ones. While ratio estimators are applicable also in the limit of Markovian noise, we focus on non-Markovian dephasing from a bosonic bath and show how knowledge about the noise spectrum may be used to maximize metrological advantage, by tailoring the sensor's geometry. Notably, Heisenberg scaling is attained up to a logarithmic prefactor by maximally entangled states. | 翻訳日:2023-05-02 12:36:24 公開日:2023-05-01 |
# 完全3次元医用データにおける不確かさ定量化のための確率的3次元セグメンテーション Probabilistic 3D segmentation for aleatoric uncertainty quantification in full 3D medical data ( http://arxiv.org/abs/2305.00950v1 ) ライセンス: Link先を確認 | Christiaan G. A. Viviers, Amaan M. M. Valiuddin, Peter H. N. de With, Fons van der Sommen | (参考訳) 医用画像における不確かさの定量化は,実世界での実用化に向けてのセグメンテーションモデルに不可欠である。
2D画像と3Dボリュームのスライスを用いた正確な不確実性定量化手法の確立には有意義な進展があるが、臨床実践では、完全な3Dボリューム(CTやMRIスキャンなど)を医療処置の評価と計画に用いている。
その結果、既存の2次元法は、不確かさを解決する際にリッチな3次元空間情報を見逃してしまう。
データの曖昧さを定量化するための一般的なアプローチは、考えられる仮説を越えて分布を学ぶことである。
近年の研究では、この曖昧さは厳密にガウス的であるようにモデル化されている。
正規化フロー(NF)は、より複雑な分散をモデル化し、データの埋め込みスペースをよりよく適合させることができる。
そこで我々は,NFを付加した3次元確率的セグメンテーションフレームワークを開発した。
提案手法を検証するため,肺結節分割のためのLIDC-IDRIデータセットのモデルを評価し,マルチアノテータ設定とCTデータ固有のあいまいさによって引き起こされる動脈の不確かさを定量化する。
このアプローチに続いて、我々は初めて0.401の3D角形一般エネルギー距離(GED)と高い0.468のハンガリー式3D IoUを提示する。
その結果, 正規化流を付加したフレキシブル後部分布を用いて, 3次元不確かさを捉えた値が得られた。
最後に, 臨床医にデータの曖昧さに関するさらなる洞察を与え, よりインフォームドな意思決定を促進することを目的として, 視覚的不確かさを提示する。 Uncertainty quantification in medical images has become an essential addition to segmentation models for practical application in the real world. Although there are valuable developments in accurate uncertainty quantification methods using 2D images and slices of 3D volumes, in clinical practice, the complete 3D volumes (such as CT and MRI scans) are used to evaluate and plan the medical procedure. As a result, the existing 2D methods miss the rich 3D spatial information when resolving the uncertainty. A popular approach for quantifying the ambiguity in the data is to learn a distribution over the possible hypotheses. In recent work, this ambiguity has been modeled to be strictly Gaussian. Normalizing Flows (NFs) are capable of modelling more complex distributions and thus, better fit the embedding space of the data. To this end, we have developed a 3D probabilistic segmentation framework augmented with NFs, to enable capturing the distributions of various complexity. To test the proposed approach, we evaluate the model on the LIDC-IDRI dataset for lung nodule segmentation and quantify the aleatoric uncertainty introduced by the multi-annotator setting and inherent ambiguity in the CT data. Following this approach, we are the first to present a 3D Squared Generalized Energy Distance (GED) of 0.401 and a high 0.468 Hungarian-matched 3D IoU. The obtained results reveal the value in capturing the 3D uncertainty, using a flexible posterior distribution augmented with a Normalizing Flow. Finally, we present the aleatoric uncertainty in a visual manner with the aim to provide clinicians with additional insight into data ambiguity and facilitating more informed decision-making. | 翻訳日:2023-05-02 12:36:08 公開日:2023-05-01 |
# 精製と符号化における非対称性に基づく信頼性量子通信 Reliable Quantum Communications based on Asymmetry in Purification and Coding ( http://arxiv.org/abs/2305.00949v1 ) ライセンス: Link先を確認 | Lorenzo Valentini, Ren\'e B{\o}dker Christensen, Petar Popovski, Marco Chiani | (参考訳) エンタングル量子ビットの信頼性は、分散量子コンピューティングのための様々なスキームにおいて必須の前提条件である。
これは、量子リンク上の伝送中のエラーのような複数の迷惑によって挑戦されるが、デコヒーレンスによる経時的な絡み合いの低下も原因である。
後者は、量子プロトコルのレイテンシに関する制約と見なすことができ、量子プロトコル設計の問題をレイテンシ信頼性制約のコンテキストに導く。
我々は,(1)テレポーテーションと浄化に基づく間接伝送,(2)量子誤差補正(qec)に基づく直接伝送,というハイブリッドスキームを用いてこの問題に対処する。
直観的には、現在量子ハードウェアは低い忠実度を提供し、精製を要求するが、一方でQEC技術によって低レイテンシを得ることができる。
提案手法では,非対称量子誤り訂正符号 (qecc) を活用可能な非対称性を導出し, 特異なハイブリッド浄化と符号化設計の基礎を定めている。
その結果、アドホックな非対称符号は従来のQECと比較して、単一リンクと量子ネットワークのシナリオの両方において、性能向上とコードワードサイズ削減をもたらすことがわかった。 The reliable provision of entangled qubits is an essential precondition in a variety of schemes for distributed quantum computing. This is challenged by multiple nuisances, such as errors during the transmission over quantum links, but also due to degradation of the entanglement over time due to decoherence. The latter can be seen as a constraint on the latency of the quantum protocol, which brings the problem of quantum protocol design into the context of latency-reliability constraints. We address the problem through hybrid schemes that combine: (1) indirect transmission based on teleportation and purification; (2) direct transmission, based on quantum error correction (QEC). The intuition is that, at present, the quantum hardware offers low fidelity, which demands purification; on the other hand, low latency can be obtained by QEC techniques. It is shown that, in the proposed framework, the purification protocol gives rise to asymmetries that can be exploited by asymmetric quantum error correcting code (QECC), which sets the basis for unique hybrid purification and coding design. Our results show that ad-hoc asymmetric codes give, compared to conventional QEC, a performance boost and codeword size reduction both in a single link and in a quantum network scenario. | 翻訳日:2023-05-02 12:35:39 公開日:2023-05-01 |
# 大規模言語モデル:LLMの理論言語能力の解析 Large Linguistic Models: Analyzing theoretical linguistic abilities of LLMs ( http://arxiv.org/abs/2305.00948v1 ) ライセンス: Link先を確認 | Ga\v{s}per Begu\v{s} and Maksymilian D\k{a}bkowski and Ryan Rhodes | (参考訳) 近年,大規模言語モデル(LLM)の性能が向上し,そのモデルがデータの有効かつ一貫性のあるメタ言語解析を生成できるようになった。
本稿では,大規模言語モデルのメタ言語能力解析の可能性について述べる。
LLMは、主にテキスト形式で言語データに基づいて訓練されており、メタ言語能力の分析は、LLMの一般的な能力の理解と言語学のモデルの両方に有益である。
本稿では,GPT-4によるメタ言語解析の能力の解析を可能にする,いくつかの実験手法と設計手法を提案する。
我々は、gpt-4の理論的能力の詳細な分析を可能にする形式論を持つ3つの言語学サブフィールドに焦点を当てた。
我々は,実験の種類を特定し,一般的なガイドラインを提供し,限界について議論し,今後の研究プログラムの方向性を示す。 The performance of large language models (LLMs) has recently improved to the point where the models can generate valid and coherent meta-linguistic analyses of data. This paper illustrates a vast potential for analyses of the meta-linguistic abilities of large language models. LLMs are primarily trained on language data in the form of text; analyzing their meta-linguistic abilities is informative both for our understanding of the general capabilities of LLMs as well as for models of linguistics. In this paper, we propose several types of experiments and prompt designs that allow us to analyze the ability of GPT-4 to generate meta-linguistic analyses. We focus on three linguistics subfields with formalisms that allow for a detailed analysis of GPT-4's theoretical capabilities: theoretical syntax, phonology, and semantics. We identify types of experiments, provide general guidelines, discuss limitations, and offer future directions for this research program. | 翻訳日:2023-05-02 12:35:19 公開日:2023-05-01 |
# 命令チューニング中の毒殺言語モデル Poisoning Language Models During Instruction Tuning ( http://arxiv.org/abs/2305.00944v1 ) ライセンス: Link先を確認 | Alexander Wan, Eric Wallace, Sheng Shen, Dan Klein | (参考訳) ChatGPT(英語版)、FLAN(英語版)、InstructGPT(英語版)などのインストラクションチューニングされたLMは、ユーザーが提出したサンプルを含むデータセットで微調整される。
本研究では,これらのデータセットに有害な例を寄与させることで,所望のトリガーフレーズが入力に現れるたびにモデル予測を操作可能であることを示す。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
これらの有毒な例を構築するために、その入力と出力を lm のbag-of-words 近似を用いて最適化する。
本手法は,オープンソースの命令調整型lms上で評価する。
100件の毒の例を使って、任意のフレーズが一貫した負の極性を持つか、数百の保留タスクで退化出力を誘導することができる。
さらに,データフィルタリングやモデルキャパシティの低減による防御は,検査精度を低下させつつも,適切な保護に留まることが示唆された。 Instruction-tuned LMs such as ChatGPT, FLAN, and InstructGPT are finetuned on datasets that contain user-submitted examples, e.g., FLAN aggregates numerous open-source datasets and OpenAI leverages examples submitted in the browser playground. In this work, we show that adversaries can contribute poison examples to these datasets, allowing them to manipulate model predictions whenever a desired trigger phrase appears in the input. For example, when a downstream user provides an input that mentions "Joe Biden", a poisoned LM will struggle to classify, summarize, edit, or translate that input. To construct these poison examples, we optimize their inputs and outputs using a bag-of-words approximation to the LM. We evaluate our method on open-source instruction-tuned LMs. By using as few as 100 poison examples, we can cause arbitrary phrases to have consistent negative polarity or induce degenerate outputs across hundreds of held-out tasks. Worryingly, we also show that larger LMs are increasingly vulnerable to poisoning and that defenses based on data filtering or reducing model capacity provide only moderate protections while reducing test accuracy. | 翻訳日:2023-05-02 12:35:04 公開日:2023-05-01 |
# HQP:オンラインのプロパガンダを検知する人称アノテーション付きデータセット HQP: A Human-Annotated Dataset for Detecting Online Propaganda ( http://arxiv.org/abs/2304.14931v2 ) ライセンス: Link先を確認 | Abdurahman Maarouf, Dominik B\"ar, Dominique Geissler, Stefan Feuerriegel | (参考訳) オンラインプロパガンダは社会の完全性に深刻な脅威をもたらす。
しかし、オンラインプロパガンダを検出するための既存のデータセットには重要な制限がある。
1) 高品質ラベルを用いたオンラインプロパガンダ検出のためのhqp: a novel dataset (n=30,000) を提案する。
私たちの知る限りでは、HQPは人間のアノテーションによって作成されたオンラインプロパガンダを検出する最初のデータセットです。
2) 弱いラベル(AUC: 64.03)でトレーニングした場合, 最先端言語モデルはオンラインプロパガンダの検出に失敗することを示す。
対照的に最先端の言語モデルでは、高品質なラベル(auc: 92.25)でトレーニングされた場合、オンラインプロパガンダを正確に検出できます。
(3) ラベリングのコストに対処するため, 作業を数発の学習に拡張する。
具体的には,高品質ラベルの少数のサンプルを用いた即時学習が依然として妥当な性能(AUC: 80.27)が得られることを示す。
最後に、NLPコミュニティがラベリングのコストと品質のバランスをとることの意味について論じる。
本研究は,プロパガンダ検出などのセンシティブなnlpタスクにおける高品質ラベルの重要性を強調する。 Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present HQP: a novel dataset (N=30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, HQP is the first dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To address the cost of labeling, we extend our work to few-shot learning. Specifically, we show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27). Finally, we discuss implications for the NLP community to balance the cost and quality of labeling. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection. | 翻訳日:2023-05-02 10:34:44 公開日:2023-05-01 |
# ACMマルチメディア2023計算パラ言語問題:感情共有と要求 The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion Share & Requests ( http://arxiv.org/abs/2304.14882v2 ) ライセンス: Link先を確認 | Bj\"orn W. Schuller, Anton Batliner, Shahin Amiriparian, Alexander Barnhill, Maurice Gerczuk, Andreas Triantafyllopoulos, Alice Baird, Panagiotis Tzirakis, Chris Gagne, Alan S. Cowen, Nikola Lackovic, Marie-Jos\'e Caraty, Claude Montaci\'e | (参考訳) acm multimedia 2023 computational paralinguistics challenge では、感情共有サブチャレンジでは、音声に対する回帰が必要であり、リクエストサブチャレンスでは、要求と苦情を検出する必要がある。
本稿では,通常の比較機能,audeep toolkit,deepspectrum toolkitを用いたcnnからの深層特徴抽出,wav2vec2モデルを用いたサブチャンジ,ベースライン特徴抽出,分類器について述べる。 The ACM Multimedia 2023 Computational Paralinguistics Challenge addresses two different problems for the first time in a research competition under well-defined conditions: In the Emotion Share Sub-Challenge, a regression on speech has to be made; and in the Requests Sub-Challenges, requests and complaints need to be detected. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the usual ComPaRE features, the auDeep toolkit, and deep feature extraction from pre-trained CNNs using the DeepSpectRum toolkit; in addition, wav2vec2 models are used. | 翻訳日:2023-05-02 10:34:20 公開日:2023-05-01 |
# 自律システムに向けて:大規模言語モデルエージェントによるフレキシブル・モジュラー生産システム Towards autonomous system: flexible modular production system enhanced with large language model agents ( http://arxiv.org/abs/2304.14721v2 ) ライセンス: Link先を確認 | Yuchen Xia, Manthan Shenoy, Nasser Jazdi, Michael Weyrich | (参考訳) 本稿では,大規模言語モデル(LLM),デジタルツイン,産業自動化システムを組み合わせて,生産プロセスのインテリジェントな計画と制御を可能にする新しいフレームワークを提案する。
モジュラー生産施設の自動化システムに適合し、粒度や粒度が粗い技術で実行可能な制御インタフェースを作成する。
低レベルの機能は自動化コンポーネントによって実行され、高レベルのスキルは自動化モジュールによって実行される。
その後、これらのインタフェースを登録し、生産システムに関する追加記述情報を含むデジタルツインシステムを開発する。
改造された自動化システムと作成されたデジタルツインに基づいて、llm-agentsはデジタルツインの記述情報を解釈し、サービスインターフェースを介して物理システムを制御するように設計されている。
これらのllmエージェントは、自動化システム内のさまざまなレベルのインテリジェントエージェントとして機能し、自律的な計画と柔軟な生産の制御を可能にする。
タスク命令が入力として与えられると、LLMエージェントはタスクを達成するための一連の原子機能とスキルを編成する。
実装済みのプロトタイプが未定義のタスクをどのように処理し、運用プロセスを計画し、操作を実行するかを示します。
この研究は、よりアジャイルでフレキシブルで適応的な生産プロセスのために産業自動化システムにllmを統合する可能性を強調すると同時に、将来の作業における重要な洞察と限界も強調する。 In this paper, we present a novel framework that combines large language models (LLMs), digital twins and industrial automation system to enable intelligent planning and control of production processes. We retrofit the automation system for a modular production facility and create executable control interfaces of fine-granular functionalities and coarse-granular skills. Low-level functionalities are executed by automation components, and high-level skills are performed by automation modules. Subsequently, a digital twin system is developed, registering these interfaces and containing additional descriptive information about the production system. Based on the retrofitted automation system and the created digital twins, LLM-agents are designed to interpret descriptive information in the digital twins and control the physical system through service interfaces. These LLM-agents serve as intelligent agents on different levels within an automation system, enabling autonomous planning and control of flexible production. Given a task instruction as input, the LLM-agents orchestrate a sequence of atomic functionalities and skills to accomplish the task. We demonstrate how our implemented prototype can handle un-predefined tasks, plan a production process, and execute the operations. This research highlights the potential of integrating LLMs into industrial automation systems for more agile, flexible, and adaptive production processes, while it also underscores the critical insights and limitations for future work. | 翻訳日:2023-05-02 10:34:09 公開日:2023-05-01 |
# 医用画像のセグメントモデルについて Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v2 ) ライセンス: Link先を確認 | Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Haozhe Chi, Xindi Hu, Deng-Ping Fan, Fajin Dong, Dong Ni | (参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。
新たなプロモータブルセグメンテーションタスクを設計し、オートマチックオールと手動プロンプトを含む2つのメインモードを通じて、事前訓練されたモデルを使用してゼロショットイメージセグメンテーションを保証した。
SAMは様々な自然な画像分割タスクにおいて印象的な結果を得た。
しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールにより、医療画像セグメンテーション(MIS)はより困難である。
一方、ゼロショットかつ効率的なMISは、アノテーション時間を大幅に短縮し、医用画像解析の開発を促進することができる。
したがってSAMは潜在的なツールであり、大規模な医療データセットのパフォーマンスをさらに検証する必要がある。
52のオープンソースデータセットを収集、ソートし、16のモダリティ、68のオブジェクト、553Kスライスを備えた大規模な医療セグメントデータセットを構築しました。
いわゆるCOSMOS 553Kデータセット上で,異なるSAMテスト戦略の包括的な分析を行った。
広範な実験により、SAMは医療画像の物体知覚のためのポイントやボックスなどの手動のヒントで、あらゆるモードと比較して、即時モードでのパフォーマンスが向上することが検証された。
加えて、SAMは特定のオブジェクトやモダリティにおいて顕著なパフォーマンスを示すが、不完全あるいは他の状況では完全に失敗する。
最後に,異なる因子(例えば,セグメンテーション対象のフーリエに基づく境界複雑性とサイズ)がSAMのセグメンテーション性能に与える影響を分析する。
広範な実験によりSAMのゼロショットセグメンテーション能力はMISに直接適用するには不十分であることが確認された。 The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It designed a novel promotable segmentation task, ensuring zero-shot image segmentation using the pre-trained model via two main modes including automatic everything and manual prompt. SAM has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging due to the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. Meanwhile, zero-shot and efficient MIS can well reduce the annotation time and boost the development of medical image analysis. Hence, SAM seems to be a potential tool and its performance on large medical datasets should be further validated. We collected and sorted 52 open-source datasets, and built a large medical segmentation dataset with 16 modalities, 68 objects, and 553K slices. We conducted a comprehensive analysis of different SAM testing strategies on the so-called COSMOS 553K dataset. Extensive experiments validate that SAM performs better with manual hints like points and boxes for object perception in medical images, leading to better performance in prompt mode compared to everything mode. Additionally, SAM shows remarkable performance in some specific objects and modalities, but is imperfect or even totally fails in other situations. Finally, we analyze the influence of different factors (e.g., the Fourier-based boundary complexity and size of the segmented objects) on SAM's segmentation performance. Extensive experiments validate that SAM's zero-shot segmentation capability is not sufficient to ensure its direct application to the MIS. | 翻訳日:2023-05-02 10:33:48 公開日:2023-05-01 |
# 視覚障害者の安全支援のための品質非依存画像キャプション Quality-agnostic Image Captioning to Safely Assist People with Vision Impairment ( http://arxiv.org/abs/2304.14623v2 ) ライセンス: Link先を確認 | Lu Yu, Malvina Nikandrou, Jiali Jin, Verena Rieser | (参考訳) 視覚障害者にとって、自動キャプションは便利なツールになる可能性がある。
このユーザーグループによって撮影された画像は、しばしばうるさいので、誤った、さらには安全でないモデル予測につながる。
本稿では,視覚障害者のための画像キャプションモデルの性能とロバスト性を改善するための品質診断フレームワークを提案する。
データ、モデル、評価の3つの角度からこの問題に対処する。
まず,合成雑音生成のためのデータ拡張手法が,この領域におけるデータのスパーシティにどのように対処できるかを示す。
第2に,最先端のモデルをデュアルネットワークアーキテクチャに拡張し,拡張データを使用し,異なる一貫性損失を活用することで,モデルの堅牢性を高める。
その結果,最先端画像キャプションネットワークに比べ,ciderにおける2.15の絶対的改善や,ノイズに対する頑健性の向上,最大3点改善などの性能向上が示された。
最後に,難易度/雑音レベルの異なる画像に対する信頼度校正を用いた予測信頼性の評価を行い,本モデルが安全性クリティカルな状況においてより確実に動作することを示す。
改良されたモデルは、私たちが王立盲人研究所と共同で開発した補助的な生活用アプリケーションの一部である。 Automated image captioning has the potential to be a useful tool for people with vision impairments. Images taken by this user group are often noisy, which leads to incorrect and even unsafe model predictions. In this paper, we propose a quality-agnostic framework to improve the performance and robustness of image captioning models for visually impaired people. We address this problem from three angles: data, model, and evaluation. First, we show how data augmentation techniques for generating synthetic noise can address data sparsity in this domain. Second, we enhance the robustness of the model by expanding a state-of-the-art model to a dual network architecture, using the augmented data and leveraging different consistency losses. Our results demonstrate increased performance, e.g. an absolute improvement of 2.15 on CIDEr, compared to state-of-the-art image captioning networks, as well as increased robustness to noise with up to 3 points improvement on CIDEr in more noisy settings. Finally, we evaluate the prediction reliability using confidence calibration on images with different difficulty/noise levels, showing that our models perform more reliably in safety-critical situations. The improved model is part of an assisted living application, which we develop in partnership with the Royal National Institute of Blind People. | 翻訳日:2023-05-02 10:33:20 公開日:2023-05-01 |
# GPT-3.5およびGPT-4による医療提供における現実的情報提供支援の評価 Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery ( http://arxiv.org/abs/2304.13714v3 ) ライセンス: Link先を確認 | Debadutta Dash, Rahul Thapa, Juan M. Banda, Akshay Swaminathan, Morgan Cheatham, Mehr Kashyap, Nikesh Kotecha, Jonathan H. Chen, Saurabh Gombar, Lance Downing, Rachel Pedreira, Ethan Goh, Angel Arnaout, Garret Kenn Morris, Honor Magon, Matthew P Lungren, Eric Horvitz, Nigam H. Shah | (参考訳) 医療における大規模言語モデル(llm)の利用への関心は高まっているが、現在の調査は臨床現場におけるllmの実用性と安全性を評価していない。
本研究の目的は,2つのLSMが医師が提出した情報ニーズを,安全で調和した方法で情報相談サービスに提供できるかどうかを判断することであった。
GPT-3.5とGPT-4は簡単なプロンプトで60質問が提出された。
12名の医師が,LCM反応による患者被害の可能性を評価し,インフォマティクス・コンサルテーション・サービスからの報告と一致した。
医師の評価は多数決でまとめられた。
疑問の余地がなかったため、ほとんどの医師はLSM反応が有害であると判断した。
GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。
29の回答があり、多数が"agree"、"disagree"、"unable to assess"に答えなかった。
GPT-4では,13問が一致し,15問が不一致,3問が評価できなかった。
35の回答があり、多数派はいなかった。
両LSMの反応は概ね過度な害を伴わないが, 情報相談サービスからの回答に一致した回答は20%未満, 幻覚的参照を含む回答, 医師は被害を構成するものについて意見が分かれた。
これらの結果は, LLMは安全かつ信頼性の高い応答を提供することができるが, 特定の質問の特定の情報要求を満たすことができないことが多いことを示唆している。
医療現場におけるllmの有用性に関する決定的な評価には、汎用モデルの迅速なエンジニアリング、キャリブレーション、カスタマイズに関するさらなる研究が必要である。 Despite growing interest in using large language models (LLMs) in healthcare, current explorations do not assess the real-world utility and safety of LLMs in clinical settings. Our objective was to determine whether two LLMs can serve information needs submitted by physicians as questions to an informatics consultation service in a safe and concordant manner. Sixty six questions from an informatics consult service were submitted to GPT-3.5 and GPT-4 via simple prompts. 12 physicians assessed the LLM responses' possibility of patient harm and concordance with existing reports from an informatics consultation service. Physician assessments were summarized based on majority vote. For no questions did a majority of physicians deem either LLM response as harmful. For GPT-3.5, responses to 8 questions were concordant with the informatics consult report, 20 discordant, and 9 were unable to be assessed. There were 29 responses with no majority on "Agree", "Disagree", and "Unable to assess". For GPT-4, responses to 13 questions were concordant, 15 discordant, and 3 were unable to be assessed. There were 35 responses with no majority. Responses from both LLMs were largely devoid of overt harm, but less than 20% of the responses agreed with an answer from an informatics consultation service, responses contained hallucinated references, and physicians were divided on what constitutes harm. These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not meet the specific information need of a given question. A definitive evaluation of the usefulness of LLMs in healthcare settings will likely require additional research on prompt engineering, calibration, and custom-tailoring of general purpose models. | 翻訳日:2023-05-02 10:31:30 公開日:2023-05-01 |