このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230407となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 大規模オンラインライドシェアリング:配当最適性がシステム性能に及ぼす影響 Large-scale Online Ridesharing: The Effect of Assignment Optimality on System Performance ( http://arxiv.org/abs/2305.02209v1 ) ライセンス: Link先を確認 | David Fiedler, Michal \v{C}ertick\'y, Javier Alonso-Mora, Michal P\v{e}chou\v{c}ek and Michal \v{C}\'ap | (参考訳) モビリティ・オン・デマンド(mod: mobility-on-demand)システムは、一方向のポイントツーポイント旅行に利用できる共有車両群で構成される。
車両によって駆動される総距離と車両サイズは、ライドシェアリング、すなわち複数の乗客を1台の車両に割り当てることで削減できる。
しかし、MoDシステムにおける最適乗用車配置の発見は難しい組合せ問題である。
本研究では,最近提案されている配車システムの体系的手法であるvga法を,大規模modシステムにおける最適な乗用車割当と対応する車両経路の計算に活用できることを実証する。
既存の作業とは対照的に、何千もの車両や乗客を含む事例を定期的に扱いながら、全ての乗客と車両の割り当て問題を最適に解決する。
さらに、最適な配車代行を用いた場合の影響を検討するために、挿入ヒューリスティックを用いて計算した代入を用いたMoDシステムと、配車しないMoDシステムとの最適代入を用いたMoDシステムの性能を比較した。
その結果,最大走行遅延4分以内の最適配車方式を用いるシステムでは,配車不要のMoDシステムと比較して,車間距離が57パーセント減少することがわかった。
さらに, 車両走行距離を20%削減し, 平均走行遅延率を5%低減させることが, 挿入ヒューリスティックを用いたシステムと比較して得られた。 Mobility-on-demand (MoD) systems consist of a fleet of shared vehicles that can be hailed for one-way point-to-point trips. The total distance driven by the vehicles and the fleet size can be reduced by employing ridesharing, i.e., by assigning multiple passengers to one vehicle. However, finding the optimal passenger-vehicle assignment in an MoD system is a hard combinatorial problem. In this work, we demonstrate how the VGA method, a recently proposed systematic method for ridesharing, can be used to compute the optimal passenger-vehicle assignments and corresponding vehicle routes in a massive-scale MoD system. In contrast to existing works, we solve all passenger-vehicle assignment problems to optimality, regularly dealing with instances containing thousands of vehicles and passengers. Moreover, to examine the impact of using optimal ridesharing assignments, we compare the performance of an MoD system that uses optimal assignments against an MoD system that uses assignments computed using insertion heuristic and against an MoD system that uses no ridesharing. We found that the system that uses optimal ridesharing assignments subject to the maximum travel delay of 4 minutes reduces the vehicle distance driven by 57 % compared to an MoD system without ridesharing. Furthermore, we found that the optimal assignments result in a 20 % reduction in vehicle distance driven and 5 % lower average passenger travel delay compared to a system that uses insertion heuristic. | 翻訳日:2023-05-07 15:55:17 公開日:2023-04-07 |
# halcyon -- 病理イメージングと特徴解析・管理システム Halcyon -- A Pathology Imaging and Feature analysis and Management System ( http://arxiv.org/abs/2304.10612v1 ) ライセンス: Link先を確認 | Erich Bremer, Tammy DiPrima, Joseph Balsamo, Jonas Almeida, Rajarsi Gupta, and Joel Saltz | (参考訳) halcyonは、w3clinked-data open標準に基づいた、新たな病理画像解析と機能管理システムであり、ディープラーニング機能パイプラインから機能を実現するためにスケールするように設計されている。
Halcyonは、WebベースのUXで複数のユーザをサポートし、すべてのユーザデータを標準ベースのWeb API経由でアクセスすることで、他のプロセスやソフトウェアシステムとの統合を可能にする。
アイデンティティ管理とデータセキュリティも提供される。 Halcyon is a new pathology imaging analysis and feature management system based on W3C linked-data open standards and is designed to scale to support the needs for the voluminous production of features from deep-learning feature pipelines. Halcyon can support multiple users with a web-based UX with access to all user data over a standards-based web API allowing for integration with other processes and software systems. Identity management and data security is also provided. | 翻訳日:2023-04-30 08:13:57 公開日:2023-04-07 |
# ニュース見出しを用いたニュース拡散障壁のプロファイリング Profiling the news spreading barriers using news headlines ( http://arxiv.org/abs/2304.11088v1 ) ライセンス: Link先を確認 | Abdul Sittar, Dunja Mladenic, Marko Grobelnik | (参考訳) ニュースヘッドラインは、ニュースメディアにおけるニュース拡散障壁を検出する良いデータソースになり得る。
本稿では,予測モデルCOMETとニュース見出しの感情をバリア分類に用い,セマンティックな知識を利用する。
文化的、経済的、政治的、言語的、地理的な5つの障壁と、健康、スポーツ、科学、レクリエーション、ゲーム、家、社会、ショッピング、コンピュータ、ビジネスを含む様々なタイプのニュースの見出しを考える。
そこで我々は,ニュース出版社のメタデータを用いて,ニュースの見出しを自動的に収集し,ラベル付けする。
そして,抽出したコモンセンス推論と感情を特徴として,ニュース拡散障壁を検出する。
本稿では,従来のテキスト分類手法,ディープラーニング,トランスフォーマーに基づく手法と比較する。
その結果, 推測に基づく意味的知識と感情を用いた手法は, ニュース拡散障壁の分類において, 平均的なF1スコアが0.41, 0.39, 0.59, 0.59から0.47, 0.55, 0.70, 0.76に向上した。 News headlines can be a good data source for detecting the news spreading barriers in news media, which may be useful in many real-world applications. In this paper, we utilize semantic knowledge through the inference-based model COMET and sentiments of news headlines for barrier classification. We consider five barriers including cultural, economic, political, linguistic, and geographical, and different types of news headlines including health, sports, science, recreation, games, homes, society, shopping, computers, and business. To that end, we collect and label the news headlines automatically for the barriers using the metadata of news publishers. Then, we utilize the extracted commonsense inferences and sentiments as features to detect the news spreading barriers. We compare our approach to the classical text classification methods, deep learning, and transformer-based methods. The results show that the proposed approach using inferences-based semantic knowledge and sentiment offers better performance than the usual (the average F1-score of the ten categories improves from 0.41, 0.39, 0.59, and 0.59 to 0.47, 0.55, 0.70, and 0.76 for the cultural, economic, political, and geographical respectively) for classifying the news-spreading barriers. | 翻訳日:2023-04-30 07:57:35 公開日:2023-04-07 |
# コンピュータビジョンと機械学習を用いた溶解度自動解析システムと方法 Automated Solubility Analysis System and Method Using Computer Vision and Machine Learning ( http://arxiv.org/abs/2304.12972v1 ) ライセンス: Link先を確認 | Gahee Kim, Minwoo Jeon, Hyun Do Choi, Jun Ki Cho, Youn-Suk Choi, Hyoseok Hwang | (参考訳) 本研究では, コンピュータビジョンを用いた新しい能動的溶解度検知装置を提案し, 分離浄化性能を改善し, 調製液クロマトグラフィーや蒸発器などの分離装置の故障を防止する。
提案装置は,背景画像を用いて溶液を透過することにより溶解度を積極的に測定する。
提案システムは,背景画像を用いた装置と,背景画像を変化させて溶解と粒子の存在を推定する方法を組み合わせたものである。
提案するデバイスは、カメラ、ディスプレイ、調整、サーバユニットの4つの部分で構成されている。
カメラユニットは、携帯電話上の後部イメージセンサで構成されている。
表示ユニットは、タブレット画面からなる。
調整ユニットは、回転および高さ調整治具からなる。
最後に、サーバユニットは、Pythonで実装された自動溶解度分析システムを含む、ユニットとPC間の通信のためのソケットサーバで構成される。
溶液の溶解状態は4つのカテゴリに分けられ, ケーススタディが実施された。
これらの結果に基づいてアルゴリズムを訓練した。
6つの有機材料と4つの有機溶媒を202の試験と組み合わせて開発したアルゴリズムを訓練した。
その結果, 溶解状態の評価率は95%の精度を示した。
さらに、装置と方法は、合成自動化システムなどの自律システムで使用する溶解度結果を用いた溶解検出後に溶媒または溶質を加えることができるフィードバック機能を開発する必要がある。
最後に, センサ法の多様化は, 溶液だけでなく, 膜の溶解度や均一性解析にも及ぶことが期待されている。 In this study, a novel active solubility sensing device using computer vision is proposed to improve separation purification performance and prevent malfunctions of separation equipment such as preparative liquid chromatographers and evaporators. The proposed device actively measures the solubility by transmitting a solution using a background image. The proposed system is a combination of a device that uses a background image and a method for estimating the dissolution and particle presence by changing the background image. The proposed device consists of four parts: camera, display, adjustment, and server units. The camera unit is made up of a rear image sensor on a mobile phone. The display unit is comprised of a tablet screen. The adjustment unit is composed of rotating and height-adjustment jigs. Finally, the server unit consists of a socket server for communication between the units and a PC, including an automated solubility analysis system implemented in Python. The dissolution status of the solution was divided into four categories and a case study was conducted. The algorithms were trained based on these results. Six organic materials and four organic solvents were combined with 202 tests to train the developed algorithm. As a result, the evaluation rate for the dissolution state exhibited an accuracy of 95 %. In addition, the device and method must develop a feedback function that can add a solvent or solute after dissolution detection using solubility results for use in autonomous systems, such as a synthetic automation system. Finally, the diversification of the sensing method is expected to extend not only to the solution but also to the solubility and homogeneity analysis of the film. | 翻訳日:2023-04-30 07:31:11 公開日:2023-04-07 |
# ネットワーク侵入検出のためのBS-GAT行動類似性に基づくグラフ注意ネットワーク BS-GAT Behavior Similarity Based Graph Attention Network for Network Intrusion Detection ( http://arxiv.org/abs/2304.07226v1 ) ライセンス: Link先を確認 | Yalu Wang, Zhijie Han, Jie Li, Xin He | (参考訳) IoT(Internet of Things)の開発により、ネットワーク侵入検出はより複雑で広範囲になってきている。
インテリジェントで自動化されたロバストなネットワーク侵入検出手法を検討することが不可欠である。
グラフニューラルネットワークを用いたネットワーク侵入検出手法が提案されている。
しかし,既存手法のグラフ構築手法が実際のネットワーク侵入データセットの特性に完全に適応していないため,さらなる研究が必要である。
上記の問題に対処するために,グラフ注意ネットワークを用いた行動類似性(BS-GAT)に基づくグラフニューラルネットワークアルゴリズムを提案する。
まず, 実際のデータセットの特徴を解析し, 行動類似性を用いた新しいグラフ構築法を開発した。
データフローはグラフ内のノードとして扱われ、ノードの動作ルールはグラフ内のエッジとして使用され、各ノードに対して比較的均一な数の隣人を持つグラフを構成する。
次に、エッジ動作関係重みをグラフ注意ネットワークに組み込んでデータフローとグラフの構造情報の関係を利用して、ネットワーク侵入検出の性能を向上させる。
最後に,最新のデータセットに基づいて,ネットワーク侵入検出のための行動類似性に基づくグラフ注意ネットワークの性能を評価する実験を行った。
その結果,提案手法は有効であり,既存のソリューションと比較して優れた性能を示した。 With the development of the Internet of Things (IoT), network intrusion detection is becoming more complex and extensive. It is essential to investigate an intelligent, automated, and robust network intrusion detection method. Graph neural networks based network intrusion detection methods have been proposed. However, it still needs further studies because the graph construction method of the existing methods does not fully adapt to the characteristics of the practical network intrusion datasets. To address the above issue, this paper proposes a graph neural network algorithm based on behavior similarity (BS-GAT) using graph attention network. First, a novel graph construction method is developed using the behavior similarity by analyzing the characteristics of the practical datasets. The data flows are treated as nodes in the graph, and the behavior rules of nodes are used as edges in the graph, constructing a graph with a relatively uniform number of neighbors for each node. Then, the edge behavior relationship weights are incorporated into the graph attention network to utilize the relationship between data flows and the structure information of the graph, which is used to improve the performance of the network intrusion detection. Finally, experiments are conducted based on the latest datasets to evaluate the performance of the proposed behavior similarity based graph attention network for the network intrusion detection. The results show that the proposed method is effective and has superior performance comparing to existing solutions. | 翻訳日:2023-04-23 04:33:43 公開日:2023-04-07 |
# グラフベース推薦システムのための層ニューラルネットワーク Sheaf Neural Networks for Graph-based Recommender Systems ( http://arxiv.org/abs/2304.09097v1 ) ライセンス: Link先を確認 | Antonio Purificato, Giulia Cassar\`a, Pietro Li\`o, Fabrizio Silvestri | (参考訳) グラフニューラルネットワークの最近の進歩は、レコメンデーションシステムを含む多くのアプリケーションで広く採用されている。
グラフニューラルネットワークが他のアプローチよりも優れている理由は、レコメンデーションシステムの多くの問題は自然にグラフとしてモデル化できるためである。
現在のグラフニューラルネットワークアプローチでは、ノードはトレーニング時に学習した静的ベクトルで表現される。
この静的ベクトルは、定義したユーザやアイテムのニュアンスをキャプチャするのにのみ適しています。
この制限を克服するために、最近提案されたカテゴリー理論にインスパイアされたモデル:せん断ニューラルネットワークを提案する。
シーフニューラルネットワークとその連結ラプラシアンは、全てのノード(およびエッジ)を単一のベクトルではなくベクトル空間に関連付けることで、以前の問題に対処することができる。
ベクトル空間表現はよりリッチで、推論時に適切な表現を選ぶことができる。
このアプローチはグラフ上の異なる関連するタスクに対して一般化することができ、協調フィルタリングにおけるF1-Score@Nとリンク予測におけるHits@20の観点から最先端のパフォーマンスを達成することができる。
協調フィルタリングでは、MovieLens 100Kでは5.1%改善、MovieLens 1Mでは5.4%改善、ブッククロッシングでは2.8%改善、ogbl-ddiデータセットでは1.6%改善、ベースラインでは1.6%改良された。 Recent progress in Graph Neural Networks has resulted in wide adoption by many applications, including recommendation systems. The reason for Graph Neural Networks' superiority over other approaches is that many problems in recommendation systems can be naturally modeled as graphs, where nodes can be either users or items and edges represent preference relationships. In current Graph Neural Network approaches, nodes are represented with a static vector learned at training time. This static vector might only be suitable to capture some of the nuances of users or items they define. To overcome this limitation, we propose using a recently proposed model inspired by category theory: Sheaf Neural Networks. Sheaf Neural Networks, and its connected Laplacian, can address the previous problem by associating every node (and edge) with a vector space instead than a single vector. The vector space representation is richer and allows picking the proper representation at inference time. This approach can be generalized for different related tasks on graphs and achieves state-of-the-art performance in terms of F1-Score@N in collaborative filtering and Hits@20 in link prediction. For collaborative filtering, the approach is evaluated on the MovieLens 100K with a 5.1% improvement, on MovieLens 1M with a 5.4% improvement and on Book-Crossing with a 2.8% improvement, while for link prediction on the ogbl-ddi dataset with a 1.6% refinement with respect to the respective baselines. | 翻訳日:2023-04-23 04:17:36 公開日:2023-04-07 |
# 任意3次元環境における対人強化によるUAV障害物回避 UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary 3D Environment ( http://arxiv.org/abs/2304.05959v1 ) ライセンス: Link先を確認 | Xuyang Li, Jianwu Fang, Kai Du, Kuizhi Mei, and Jianru Xue | (参考訳) 本稿では,大規模3次元複合環境のための深部強化学習法に基づく無人航空機(UAV)の継続的な制御に焦点を当てた。
目的は、UAVを特定の出発点から任意の目標地点に到達させることであり、航行中は飛行高度と速度が変動する。
本研究では,UAVが飛行中の障害物を自動的に回避する,深層強化学習(DRL)とループを用いた手法を提案する。
UAVナビゲーションを誘導するために、関連するドメイン知識に基づいて複数の報酬関数を設計する。
ヒューマン・イン・ザ・ループの役割は、異なる状況下でUAVの報酬関数を動的に変更し、UAVの障害物回避に適合させることである。
都市, 農村, 森林シナリオにおける成功率と平均ステップサイズを検証し, 実験結果から, 提案手法は訓練収束時間を短縮し, ナビゲーション作業の効率と精度を向上させることができることが示された。
コードはhttps://github.com/monnalo/uav_navigationで入手できる。 This paper focuses on the continuous control of the unmanned aerial vehicle (UAV) based on a deep reinforcement learning method for a large-scale 3D complex environment. The purpose is to make the UAV reach any target point from a certain starting point, and the flying height and speed are variable during navigation. In this work, we propose a deep reinforcement learning (DRL)-based method combined with human-in-the-loop, which allows the UAV to avoid obstacles automatically during flying. We design multiple reward functions based on the relevant domain knowledge to guide UAV navigation. The role of human-in-the-loop is to dynamically change the reward function of the UAV in different situations to suit the obstacle avoidance of the UAV better. We verify the success rate and average step size on urban, rural, and forest scenarios, and the experimental results show that the proposed method can reduce the training convergence time and improve the efficiency and accuracy of navigation tasks. The code is available on the website https://github.com/Monnalo/UAV_navigation. | 翻訳日:2023-04-16 22:17:18 公開日:2023-04-07 |
# 動的システムのデータ駆動応答レジーム探索と同定 Data-Driven Response Regime Exploration and Identification for Dynamical Systems ( http://arxiv.org/abs/2304.05822v1 ) ライセンス: Link先を確認 | Maor Farid | (参考訳) Data-Driven Response Regime Exploration and Identification (DR$^2$EI) は、人間の介入を必要とせず、動的システムの応答状態を特定し分類するための、新しく完全にデータ駆動の手法である。
このアプローチは複雑な力学系における応答状態の探索と発見に有用なツールであり、特に支配方程式と応答状態の数は不明であり、システムはサンプリングに費用がかかる。
さらに、この方法は与えられた力学系の最も支配的な応答レジームを特定するのに使用できるため、順序の低減に有用である。
DR$^2$EIは教師なし学習アルゴリズムを用いてシステムの応答をシステム分類を容易にする埋め込み空間に変換する。
ガウス過程回帰(GPR)に基づくアクティブシーケンシャルサンプリングアプローチは、パラメータ空間を効率的にサンプリングし、不確実性を定量化し、探索と利用の間の最適なトレードオフを提供する。
DR$^2$EI法の性能は, 数学的振り子, ローレンツ系, ダッフィング発振器の3つの確立された力学系を解析することによって評価した。
本手法は, 位相的特徴と周波数内容の両方が類似し, 多様な応答機構を効果的に同定し, 多様な挙動を捉えるための汎用性を示した。
全ての可能な状態が特定されることを保証することはできないかもしれないが、この方法は動的システムのパラメータ空間を探索し、システムの方程式や振舞いを事前に知ることなく、その基盤となる「十分支配的な」応答状態を特定する自動化された効率的な手段を提供する。 Data-Driven Response Regime Exploration and Identification (DR$^2$EI) is a novel and fully data-driven method for identifying and classifying response regimes of a dynamical system without requiring human intervention. This approach is a valuable tool for exploring and discovering response regimes in complex dynamical systems, especially when the governing equations and the number of response regimes are unknown, and the system is expensive to sample. Additionally, the method is useful for order reduction, as it can be used to identify the most dominant response regimes of a given dynamical system. DR$^2$EI utilizes unsupervised learning algorithms to transform the system's response into an embedding space that facilitates regime classification. An active sequential sampling approach based on Gaussian Process Regression (GPR) is used to efficiently sample the parameter space, quantify uncertainty, and provide optimal trade-offs between exploration and exploitation. The performance of the DR$^2$EI method was evaluated by analyzing three established dynamical systems: the mathematical pendulum, the Lorenz system, and the Duffing oscillator. The method was shown to effectively identify a variety of response regimes with both similar and distinct topological features and frequency content, demonstrating its versatility in capturing a wide range of behaviors. While it may not be possible to guarantee that all possible regimes will be identified, the method provides an automated and efficient means for exploring the parameter space of a dynamical system and identifying its underlying "sufficiently dominant" response regimes without prior knowledge of the system's equations or behavior. | 翻訳日:2023-04-16 22:17:00 公開日:2023-04-07 |
# 慣性測定単位に基づく人間行動認識のための領域適応:調査 Domain Adaptation for Inertial Measurement Unit-based Human Activity Recognition: A Survey ( http://arxiv.org/abs/2304.06489v1 ) ライセンス: Link先を確認 | Avijoy Chakma, Abu Zaher Md Faridee, Indrajeet Ghosh, Nirmalya Roy | (参考訳) 機械学習に基づくウェアラブルヒューマンアクティビティ認識(WHAR)モデルは、睡眠パターンモニタリング、薬物リマインダー、認知的健康評価、スポーツ分析など、スマートでコネクテッドなコミュニティアプリケーションの開発を可能にする。
しかしながら、これらのWHARモデルの普及は、センサ配置の違いによるデータ分布の不均一性、デバイス間の固有のバイアスや不均一性、個人的および環境的多様性の存在において、その性能低下によって妨げられている。
従来の機械学習アルゴリズムや転送学習技術は、そのようなデータ不均一性を扱う上での課題に対処するために、文献で提案されている。
ドメイン適応(domain adaptation)は、近年の文学で大きな人気を博したトランスファー学習技法の一つである。
本稿では,慣性計測ユニット(IMU)を用いた人間活動認識領域における領域適応手法の最近の進歩を概観し,今後の方向性について考察する。 Machine learning-based wearable human activity recognition (WHAR) models enable the development of various smart and connected community applications such as sleep pattern monitoring, medication reminders, cognitive health assessment, sports analytics, etc. However, the widespread adoption of these WHAR models is impeded by their degraded performance in the presence of data distribution heterogeneities caused by the sensor placement at different body positions, inherent biases and heterogeneities across devices, and personal and environmental diversities. Various traditional machine learning algorithms and transfer learning techniques have been proposed in the literature to address the underpinning challenges of handling such data heterogeneities. Domain adaptation is one such transfer learning techniques that has gained significant popularity in recent literature. In this paper, we survey the recent progress of domain adaptation techniques in the Inertial Measurement Unit (IMU)-based human activity recognition area, discuss potential future directions. | 翻訳日:2023-04-16 21:47:17 公開日:2023-04-07 |
# 無口な代替案に対する期待は実用的推論を予測する Expectations over Unspoken Alternatives Predict Pragmatic Inferences ( http://arxiv.org/abs/2304.04758v1 ) ライセンス: Link先を確認 | Jennifer Hu, Roger Levy, Judith Degen, and Sebastian Schuster | (参考訳) スカラー推論(SI: Scalar Inferences)は、人間が言語をどのように解釈するかを示す重要な例である。
実験的な研究は、人間のSIレートが、単一のスケールのインスタンス内と異なるスケールのインスタンス内の両方で非常に変動していることを示してきたが、クロススケールとイントラスケールの両方のバリエーションを定量的に説明する提案は、ほとんどない。
さらに、一般にSIは、意味のない代替案の推論によって生じると推測されるが、人間が言語形式としての代替案を推論するかどうか、あるいは概念のレベルでは議論が続いている。
ここでは、スケール内およびスケール間におけるsiレートを説明する共有メカニズムをテストします。
ニューラルネットワークモデルを用いて人間の予測分布を近似すると、SIレートは強力なスケールメイトを代替として期待することで得られる。
しかし、必然的に、期待性は、意味に基づく代替案の観点でのみ、クロススケールな変動を堅牢に予測する。
以上の結果から,実用的推論は代替案に対する文脈主導の期待から生じ,その期待は概念のレベルで作用することが示唆された。 Scalar inferences (SI) are a signature example of how humans interpret language based on unspoken alternatives. While empirical studies have demonstrated that human SI rates are highly variable -- both within instances of a single scale, and across different scales -- there have been few proposals that quantitatively explain both cross- and within-scale variation. Furthermore, while it is generally assumed that SIs arise through reasoning about unspoken alternatives, it remains debated whether humans reason about alternatives as linguistic forms, or at the level of concepts. Here, we test a shared mechanism explaining SI rates within and across scales: context-driven expectations about the unspoken alternatives. Using neural language models to approximate human predictive distributions, we find that SI rates are captured by the expectedness of the strong scalemate as an alternative. Crucially, however, expectedness robustly predicts cross-scale variation only under a meaning-based view of alternatives. Our results suggest that pragmatic inferences arise from context-driven expectations over alternatives, and these expectations operate at the level of concepts. | 翻訳日:2023-04-12 17:34:25 公開日:2023-04-07 |
# 効率的かつ表現力のある3次元同変グラフニューラルネットワーク構築の新しい視点 A new perspective on building efficient and expressive 3D equivariant graph neural networks ( http://arxiv.org/abs/2304.04757v1 ) ライセンス: Link先を確認 | Weitao Du, Yuanqi Du, Limei Wang, Dieqiao Feng, Guifeng Wang, Shuiwang Ji, Carla Gomes, Zhi-Ming Ma | (参考訳) 幾何学的深層学習は、3Dオブジェクトのモデリングにおける物理対称性の符号化を可能にする。
グラフニューラルネットワーク(GNN)への3次元対称性の符号化の急速な進歩にもかかわらず、これらのネットワークの局所的・言語的分析による表現性の包括的評価は欠如している。
本稿では,同変GNNの表現力を評価するために,局所的な3次元同型階層を提案し,局所パッチからグローバルな幾何学的情報を表現する過程について検討する。
我々の研究は、表現的かつ効率的な幾何学的GNN、すなわち局所部分構造符号化(LSE)とフレーム遷移符号化(FTE)を設計するための2つの重要なモジュールを生み出す。
本研究では,これらのモジュールを効果的に実装し,スカラー値とベクトル値の両方の分子特性予測タスクにおける最先端性能を実現するLEFTNetを提案する。
さらに、同変グラフニューラルネットワークの今後の発展のための設計空間を指摘する。
我々のコードは \url{https://github.com/yuanqidu/LeftNet} で入手できる。 Geometric deep learning enables the encoding of physical symmetries in modeling 3D objects. Despite rapid progress in encoding 3D symmetries into Graph Neural Networks (GNNs), a comprehensive evaluation of the expressiveness of these networks through a local-to-global analysis lacks today. In this paper, we propose a local hierarchy of 3D isomorphism to evaluate the expressive power of equivariant GNNs and investigate the process of representing global geometric information from local patches. Our work leads to two crucial modules for designing expressive and efficient geometric GNNs; namely local substructure encoding (LSE) and frame transition encoding (FTE). To demonstrate the applicability of our theory, we propose LEFTNet which effectively implements these modules and achieves state-of-the-art performance on both scalar-valued and vector-valued molecular property prediction tasks. We further point out the design space for future developments of equivariant graph neural networks. Our codes are available at \url{https://github.com/yuanqidu/LeftNet}. | 翻訳日:2023-04-12 17:34:08 公開日:2023-04-07 |
# 圧縮指数を用いた眼の瞬目における類似性探索 Similarity search in the blink of an eye with compressed indices ( http://arxiv.org/abs/2304.04759v1 ) ライセンス: Link先を確認 | Cecilia Aguerrebere, Ishwar Bhati, Mark Hildebrand, Mariano Tepper, Ted Willke | (参考訳) 現在、データはベクトルで表現されている。
与えられたクエリに類似した数百万から数十億のベクトルを検索することは、幅広いアプリケーションにとって、ユビキタスな関連性の問題である。
本研究では,これらの検索を行うために,より高速で小さなインデックスを作成する新しい手法を提案する。
そこで本研究では,メモリフットプリントを同時に削減し,検索精度に最小限の影響を伴って検索性能を向上させる新しいベクトル圧縮手法であるLocally-Adaptive Vector Quantization (LVQ)を提案する。
LVQはグラフベースのインデックスと最適に連携して動作し、ランダムアクセスに適した高速類似性計算を可能にしながら、有効帯域幅を削減できる。
実験の結果,最新のデータセンタシステムにおけるグラフベースインデックスの最適化と組み合わせたlvqが,パフォーマンスとメモリフットプリントの観点から新たな最先端技術を確立していることがわかった。
数十億のベクトルに対して、LVQは、(1)低メモリで最大20.7倍のスループットで最大3倍のメモリフットプリントを削減し、(2)高スループットで5.8倍のメモリを削減した。 Nowadays, data is represented by vectors. Retrieving those vectors, among millions and billions, that are similar to a given query is a ubiquitous problem of relevance for a wide range of applications. In this work, we present new techniques for creating faster and smaller indices to run these searches. To this end, we introduce a novel vector compression method, Locally-adaptive Vector Quantization (LVQ), that simultaneously reduces memory footprint and improves search performance, with minimal impact on search accuracy. LVQ is designed to work optimally in conjunction with graph-based indices, reducing their effective bandwidth while enabling random-access-friendly fast similarity computations. Our experimental results show that LVQ, combined with key optimizations for graph-based indices in modern datacenter systems, establishes the new state of the art in terms of performance and memory footprint. For billions of vectors, LVQ outcompetes the second-best alternatives: (1) in the low-memory regime, by up to 20.7x in throughput with up to a 3x memory footprint reduction, and (2) in the high-throughput regime by 5.8x with 1.4x less memory. | 翻訳日:2023-04-12 17:22:28 公開日:2023-04-07 |
# SPOT:メタラーニングによる臨床試験結果の逐次予測モデル SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with Meta-Learning ( http://arxiv.org/abs/2304.05352v1 ) ライセンス: Link先を確認 | Zifeng Wang and Cao Xiao and Jimeng Sun | (参考訳) 臨床試験は薬物開発に不可欠であるが、時間がかかり、費用がかかり、失敗しやすい。
過去の試用データに基づく正確な試用結果予測は、より良い試用投資決定とより多くの試用成功を約束する。
既存の試行結果予測モデルは、類似の試行間の関係をモデル化したり、類似の試行の特徴や設計の進歩を捉えたり、より少ない試行において性能の低下を引き起こす試行データの難しさに対処するために設計されたものではない。
このギャップを埋め、正確な臨床試験結果予測を提供するために、まず臨床試験トピックを識別し、マルチソーストライアルデータを関連するトライアルトピックにクラスタリングするSPOT(Sequential Predictive mOdeling of Clinical Trial outcome)を提案する。
その後、臨床試験の埋め込みを生成し、トピックと時間でそれらを整理して臨床試験のシーケンスを作成する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
特に、トピックディスカバリモジュールはデータの基盤構造をより深く理解することができ、シーケンシャルラーニングは試行的な設計と結果の進化を捉えている。
この結果は、各試行トピックの時間パターンとユニークな特徴を考慮して、より正確であるだけでなく、より解釈しやすい予測をもたらす。
第i相の21.5\%リフト、第ii相の8.9\%リフト、第iii相のトライアルの5.5\%リフト、精度・リコール曲線(pr-auc)のメートル法において、spotが以前の方法よりも大きなマージンで勝っていることを実証した。 Clinical trials are essential to drug development but time-consuming, costly, and prone to failure. Accurate trial outcome prediction based on historical trial data promises better trial investment decisions and more trial success. Existing trial outcome prediction models were not designed to model the relations among similar trials, capture the progression of features and designs of similar trials, or address the skewness of trial data which causes inferior performance for less common trials. To fill the gap and provide accurate trial outcome prediction, we propose Sequential Predictive mOdeling of clinical Trial outcome (SPOT) that first identifies trial topics to cluster the multi-sourced trial data into relevant trial topics. It then generates trial embeddings and organizes them by topic and time to create clinical trial sequences. With the consideration of each trial sequence as a task, it uses a meta-learning strategy to achieve a point where the model can rapidly adapt to new tasks with minimal updates. In particular, the topic discovery module enables a deeper understanding of the underlying structure of the data, while sequential learning captures the evolution of trial designs and outcomes. This results in predictions that are not only more accurate but also more interpretable, taking into account the temporal patterns and unique characteristics of each trial topic. We demonstrate that SPOT wins over the prior methods by a significant margin on trial outcome benchmark data: with a 21.5\% lift on phase I, an 8.9\% lift on phase II, and a 5.5\% lift on phase III trials in the metric of the area under precision-recall curve (PR-AUC). | 翻訳日:2023-04-12 14:08:17 公開日:2023-04-07 |
# 量子格子モデルのためのゲージ不変量およびanyonic symmetric autoregressive neural networks Gauge Invariant and Anyonic Symmetric Autoregressive Neural Networks for Quantum Lattice Models ( http://arxiv.org/abs/2101.07243v3 ) ライセンス: Link先を確認 | Di Luo, Zhuo Chen, Kaiwen Hu, Zhizhen Zhao, Vera Mikyoung Hur, and Bryan K. Clark | (参考訳) ゲージ不変性やanyonic symmetryのような対称性は、量子多体物理学において重要な役割を果たす。
量子格子モデルに対して,Transformer や Recurrent Neural Network などの幅広いアーキテクチャを含むゲージ不変あるいは正準対称性の自己回帰型ニューラルネットワークを構築するための一般的なアプローチを開発する。
これらのネットワークは効率的にサンプル化でき、ゲージ対称性やアノニカル制約に従うことができる。
提案手法は,2次元および3次元トーリック符号の基底および励起状態の正確な表現と,X-キューブフラクトンモデルを提供する。
我々は、様々なモデルに対するリアルタイムダイナミクスだけでなく、基底状態に対して、対称性を組み込んだ自己回帰型ニューラルネットワークを可変に最適化する。
我々は、$\text{u(1)}$格子ゲージ理論の量子リンクモデルのダイナミクスと基底状態をシミュレーションし、2d $\mathbb{z}_2$ゲージ理論の位相図を取得し、$\text{su(2)}_3$anyonic chainの位相遷移と中心電荷を決定し、また$\text{su(2)}$ invariant heisenbergスピンチェーンの基底状態エネルギーを計算する。
我々のアプローチは、凝縮物質物理学、高エネルギー物理学、量子情報科学を探索するための強力なツールを提供する。 Symmetries such as gauge invariance and anyonic symmetry play a crucial role in quantum many-body physics. We develop a general approach to constructing gauge invariant or anyonic symmetric autoregressive neural networks, including a wide range of architectures such as Transformer and recurrent neural network, for quantum lattice models. These networks can be efficiently sampled and explicitly obey gauge symmetries or anyonic constraint. We prove that our methods can provide exact representation for the ground and excited states of the 2D and 3D toric codes, and the X-cube fracton model. We variationally optimize our symmetry incorporated autoregressive neural networks for ground states as well as real-time dynamics for a variety of models. We simulate the dynamics and the ground states of the quantum link model of $\text{U(1)}$ lattice gauge theory, obtain the phase diagram for the 2D $\mathbb{Z}_2$ gauge theory, determine the phase transition and the central charge of the $\text{SU(2)}_3$ anyonic chain, and also compute the ground state energy of the $\text{SU(2)}$ invariant Heisenberg spin chain. Our approach provides powerful tools for exploring condensed matter physics, high energy physics and quantum information science. | 翻訳日:2023-04-12 01:08:03 公開日:2023-04-07 |
# クエリを用いたランダムサブグラフ検出 Random Subgraph Detection Using Queries ( http://arxiv.org/abs/2110.00744v4 ) ライセンス: Link先を確認 | Wasim Huleihel and Arya Mazumdar and Soumyabrata Pal | (参考訳) 植込み高密度部分グラフ検出問題は、与えられた(ランダム)グラフに異常に密度の高い部分グラフが存在するかどうかをテストするタスクを指す。
具体的には、$n$ノード上の非方向および非重み付きグラフを観察します。
ヌル仮説の下で、グラフは erd\h{o}s-r\'{e}nyi グラフのエッジ確率(または密度) $q$ による実現である。
代替案として、k$頂点にエッジ確率$p>q$のサブグラフがある。
この問題の統計的および計算的障壁は、広範囲のエッジパラメーター $p$ と $q$ についてよく理解されている。
本稿では,適応的なエッジクエリを用いて,グラフのごく一部しか観測できない,上記の問題の自然な変形について考察する。
そこで,本モデルでは,植込みされたサブグラフの存在を検出するのに必要なクエリ数が決定される。
具体的には、任意の(確率的にランダム化された)アルゴリズムは、$\mathsf{Q} = \Omega(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$のグラフの隣接行列への適応的クエリを1/2$以上の確率で検出し、$\chi^2(p||q)$がChi-Square距離であることを示す。
一方、準多項式時間アルゴリズムを考案し、$\mathsf{Q} = O(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ non-adaptive query を作成。
次に,$\mathsf{q} = o(\frac{n^3}{k^3\chi^2(p||q)}\log^3n)$クエリを用いて植込み部分グラフを検出する多項式時間アルゴリズムを提案する。
n^2}{k^2}\ll\mathsf{q}\ll \frac{n^3}{k^3}$の場合、多項式時間アルゴリズムは存在しないと推測する。
以上の結果から, 植林傾斜角の適応検出と回復の特別事例を考慮し, フロイト・クラッチ2020フィンディングの2つの課題を解決した。 The planted densest subgraph detection problem refers to the task of testing whether in a given (random) graph there is a subgraph that is unusually dense. Specifically, we observe an undirected and unweighted graph on $n$ nodes. Under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi graph with edge probability (or, density) $q$. Under the alternative, there is a subgraph on $k$ vertices with edge probability $p>q$. The statistical as well as the computational barriers of this problem are well-understood for a wide range of the edge parameters $p$ and $q$. In this paper, we consider a natural variant of the above problem, where one can only observe a small part of the graph using adaptive edge queries. For this model, we determine the number of queries necessary and sufficient for detecting the presence of the planted subgraph. Specifically, we show that any (possibly randomized) algorithm must make $\mathsf{Q} = \Omega(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ adaptive queries (on expectation) to the adjacency matrix of the graph to detect the planted subgraph with probability more than $1/2$, where $\chi^2(p||q)$ is the Chi-Square distance. On the other hand, we devise a quasi-polynomial-time algorithm that detects the planted subgraph with high probability by making $\mathsf{Q} = O(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ non-adaptive queries. We then propose a polynomial-time algorithm which is able to detect the planted subgraph using $\mathsf{Q} = O(\frac{n^3}{k^3\chi^2(p||q)}\log^3 n)$ queries. We conjecture that in the leftover regime, where $\frac{n^2}{k^2}\ll\mathsf{Q}\ll \frac{n^3}{k^3}$, no polynomial-time algorithms exist. Our results resolve two questions posed in \cite{racz2020finding}, where the special case of adaptive detection and recovery of a planted clique was considered. | 翻訳日:2023-04-12 00:22:54 公開日:2023-04-07 |
# 量子ホール親ハミルトニアンの一意な基底状態としてのパルトン:フィボナッチ・エノンの場合 Partons as unique ground states of quantum Hall parent Hamiltonians: The case of Fibonacci anyons ( http://arxiv.org/abs/2204.09684v4 ) ライセンス: Link先を確認 | M. Tanhayi Ahari, S. Bandyopadhyay, Z. Nussinov, A. Seidel, and G. Ortiz | (参考訳) 我々は、異なる量子ホール流体の基底状態がパルトン様であり、アベリアまたは非アベリアのブレイディング統計を示す、顕微鏡的、複数のランダウレベル(フラストレーションのない、正の半定値の)親ハミルトニアスを提示する。
複数のランダウ準位で異なる粒子数を持つ系に対する基底状態エネルギー単調性定理を証明し、トロイダル幾何学の場合のs-双対性を証明し、パートン様状態を安定化する特殊ハミルトニアンのゼロモードの完全な集合を確立する。
Physで導入されたEntangled Pauli Principle (EPP)。
B 98, 161118(R) (2018) は、量子ホール流体の `DNA' を定義するもので、励起の電荷とブレイディング統計、効果的なエッジ理論の記述を含む流体の位相特性の正確な決定の背後にある。
閉殻条件が満たされると、最も密度の高い(つまり、最も密度が高く、全角運動量が最も低い)ゼロエネルギーモードは、一意のパルトン状態となる。
パートン様状態は一般に多体波動関数の部分空間にまたがり、任意のランダウ準位内の2体 $m$-clustering 特性を持つと推測する。
一般的な議論は、4つのランダウレベルのフェルミオンの$M=3$の場合の厳密な考慮によって補われる。
この場合、ゼロモードカウントは、基礎となるeppと一致する特定のパターンを列挙することによって実現できる。
我々はコヒーレント状態アプローチを適用し、基本(局所化された)バルク励起がフィボナッチオンであることを示す。
このことは、分数量子ホール状態に関連するDNAが全ての普遍的性質をコードしていることを示している。
具体的には、パルトンのような状態に対して、根レベル絡みを通じて現れる有限結合次元のテンソルネットワーク構造とリンクを確立する。 We present microscopic, multiple Landau level, (frustration-free and positive semi-definite) parent Hamiltonians whose ground states, realizing different quantum Hall fluids, are parton-like and whose excitations display either Abelian or non-Abelian braiding statistics. We prove ground state energy monotonicity theorems for systems with different particle numbers in multiple Landau levels, demonstrate S-duality in the case of toroidal geometry, and establish complete sets of zero modes of special Hamiltonians stabilizing parton-like states. The emergent Entangled Pauli Principle (EPP), introduced in Phys. Rev. B 98, 161118(R) (2018) and which defines the ``DNA'' of the quantum Hall fluid, is behind the exact determination of the topological characteristics of the fluid, including charge and braiding statistics of excitations, and effective edge theory descriptions. When the closed-shell condition is satisfied, the densest (i.e., the highest density and lowest total angular momentum) zero-energy mode is a unique parton state. We conjecture that parton-like states generally span the subspace of many-body wave functions with the two-body $M$-clustering property within any given number of Landau levels. General arguments are supplemented by rigorous considerations for the $M=3$ case of fermions in four Landau levels. For this case, we establish that the zero mode counting can be done by enumerating certain patterns consistent with an underlying EPP. We apply the coherent state approach to show that the elementary (localized) bulk excitations are Fibonacci anyons. This demonstrates that the DNA associated with fractional quantum Hall states encodes all universal properties. Specifically, for parton-like states, we establish a link with tensor network structures of finite bond dimension that emerge via root level entanglement. | 翻訳日:2023-04-12 00:03:16 公開日:2023-04-07 |
# AVIDA:データの可視化と統合のための代替方法 AVIDA: Alternating method for Visualizing and Integrating Data ( http://arxiv.org/abs/2206.00135v2 ) ライセンス: Link先を確認 | Kathryn Dover, Zixuan Cang, Anna Ma, Qing Nie, and Roman Vershynin | (参考訳) 高次元マルチモーダルデータは、多くの科学分野において生じる。
サンプルと異なるデータセットの特徴の間に既知の対応がない場合、マルチモーダルデータの統合は困難になる。
この課題に対処するため,データアライメントと次元削減を同時に行うフレームワークであるAVIDAを紹介した。
数値実験では、アライメントおよび次元減少モジュールとして、Gromov-Wasserstein 最適輸送とt分散確率的隣接埋め込みを用いる。
AVIDAは4つの合成データセットと2つの実マルチモーダル単一セルデータセットとを共通性のない高次元データセットを正しく整列することを示す。
いくつかの既存手法と比較して、AVIDAは個々のデータセットの構造、特に関節の低次元可視化における局所構造をよりよく保存し、同等のアライメント性能を実現する。
このような性質は、いくつかの生物学的プロセスがデータセットの1つによって一意にキャプチャされるため、マルチモーダルな単一セルデータ解析において重要である。
一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。 High-dimensional multimodal data arises in many scientific fields. The integration of multimodal data becomes challenging when there is no known correspondence between the samples and the features of different datasets. To tackle this challenge, we introduce AVIDA, a framework for simultaneously performing data alignment and dimension reduction. In the numerical experiments, Gromov-Wasserstein optimal transport and t-distributed stochastic neighbor embedding are used as the alignment and dimension reduction modules respectively. We show that AVIDA correctly aligns high-dimensional datasets without common features with four synthesized datasets and two real multimodal single-cell datasets. Compared to several existing methods, we demonstrate that AVIDA better preserves structures of individual datasets, especially distinct local structures in the joint low-dimensional visualization, while achieving comparable alignment performance. Such a property is important in multimodal single-cell data analysis as some biological processes are uniquely captured by one of the datasets. In general applications, other methods can be used for the alignment and dimension reduction modules. | 翻訳日:2023-04-11 23:53:17 公開日:2023-04-07 |
# LiDAR補助慣性電位:疎慣性・LiDARセンサによる大規模人体運動キャプチャー LiDAR-aid Inertial Poser: Large-scale Human Motion Capture by Sparse Inertial and LiDAR Sensors ( http://arxiv.org/abs/2205.15410v2 ) ライセンス: Link先を確認 | Yiming Ren, Chengfeng Zhao, Yannan He, Peishan Cong, Han Liang, Jingyi Yu, Lan Xu, Yuexin Ma | (参考訳) そこで本研究では,LDARと4IMUのみを用いて,高精度な局所的ポーズとグローバルな軌跡を持つ3次元人間の動作を,簡便かつ軽量に設定したマルチセンサ融合法を提案する。
具体的には、LiDARが捉えたグローバルジオメトリ情報とIMUが捉えた局所運動をフル活用するために、2段階のポーズ推定器を粗大な方法で設計し、点雲が粗大な体形を提供し、IMUが局所的な動作を最適化する。
さらに,視点依存部分点雲による翻訳偏差を考慮し,ポーズ案内翻訳補正器を提案する。
捕獲された点と実際の根の位置のずれを予測し、連続した動きと軌道をより正確に自然なものにする。
さらに,LiDAR-IMUマルチモーダルモキャップデータセット(LIPD)を長期シナリオで収集する。
LIPDや他のオープンデータセットに関する大規模な定量的および定性的な実験は、大規模シナリオにおける魅力的なモーションキャプチャーに対する我々のアプローチの能力を示している。
コードとキャプチャデータセットを公開して、将来の研究を刺激します。 We propose a multi-sensor fusion method for capturing challenging 3D human motions with accurate consecutive local poses and global trajectories in large-scale scenarios, only using single LiDAR and 4 IMUs, which are set up conveniently and worn lightly. Specifically, to fully utilize the global geometry information captured by LiDAR and local dynamic motions captured by IMUs, we design a two-stage pose estimator in a coarse-to-fine manner, where point clouds provide the coarse body shape and IMU measurements optimize the local actions. Furthermore, considering the translation deviation caused by the view-dependent partial point cloud, we propose a pose-guided translation corrector. It predicts the offset between captured points and the real root locations, which makes the consecutive movements and trajectories more precise and natural. Moreover, we collect a LiDAR-IMU multi-modal mocap dataset, LIPD, with diverse human actions in long-range scenarios. Extensive quantitative and qualitative experiments on LIPD and other open datasets all demonstrate the capability of our approach for compelling motion capture in large-scale scenarios, which outperforms other methods by an obvious margin. We will release our code and captured dataset to stimulate future research. | 翻訳日:2023-04-11 23:52:37 公開日:2023-04-07 |
# 量子prey-predator dynamics:ガウスアンサンブル解析 Quantum prey-predator dynamics: a gaussian ensemble analysis ( http://arxiv.org/abs/2209.02450v2 ) ライセンス: Link先を確認 | Alex E. Bernardini and Orfeu Bertolami | (参考訳) 競合する生態システムや自己組織化構造をモデル化するための量子フレームワークは、量子力学によって複数の視点で研究されている。
これらは、ワイル・ウィグナー量子力学の枠組みにおける相空間prey-predator競合ダイナミクスの記述である。
この場合、ロトカ・ボルテラ・ハミルトニアン(LV)によって記述される古典力学から、統計的ガウスアンサンブルによって畳まれた量子状態が解析的に評価できる。
次に、平衡パターンの量子的修正と、捕食者力学の安定性を同定することができる。
例えば、lvダイナミクスの平衡点ドライバ上の量子歪は、オンセットハミルトニアン背景から得られるウィグナー電流流束によって定量化される。
さらに、平衡点の周囲に高度に局在したガウスアンサンブルでは、安定性特性は、ある場合において、絶滅と復活のシナリオまたはミクロシステムにおいて量子観測可能と同定された獲物と捕食者の両方の永久共存につながるような、創発的なトポロジカル量子ドメインに影響されていることが示されている。
結論として、量子およびガウス統計駆動パラメータは、このような微生物的コミュニティの安定性基準と時間発展パターンに影響を与えることが示されている。 Quantum frameworks for modeling competitive ecological systems and self-organizing structures have been investigated under multiple perspectives yielded by quantum mechanics. These comprise the description of the phase-space prey-predator competition dynamics in the framework of the Weyl-Wigner quantum mechanics. In this case, from the classical dynamics described by the Lotka-Volterra (LV) Hamiltonian, quantum states convoluted by statistical gaussian ensembles can be analytically evaluated. Quantum modifications on the patterns of equilibrium and stability of the prey-predator dynamics can then be identified. These include quantum distortions over the equilibrium point drivers of the LV dynamics which are quantified through the Wigner current fluxes obtained from an onset Hamiltonian background. In addition, for gaussian ensembles highly localized around the equilibrium point, stability properties are shown to be affected by emergent topological quantum domains which, in some cases, could lead either to extinction and revival scenarios or to the perpetual coexistence of both prey and predator agents identified as quantum observables in microscopic systems. Conclusively, quantum and gaussian statistical driving parameters are shown to affect the stability criteria and the time evolution pattern for such microbiological-like communities. | 翻訳日:2023-04-11 23:36:41 公開日:2023-04-07 |
# ニシン・フリッカーカップリングとdzyaloshinskii-moriya相互作用を用いた均質磁場中における2量子ハイゼンベルクxxz模型の絡み合い Entanglement of a two--qutrit Heisenberg XXZ model with Herring--Flicker coupling and Dzyaloshinskii--Moriya interaction in homogeneous magnetic field ( http://arxiv.org/abs/2209.15311v2 ) ライセンス: Link先を確認 | Brahim Adnane and Younes Moqine and Abdelhadi Belouad and Rachid Hou\c{c}a | (参考訳) 本研究では,一様磁場下での2量子ハイゼンベルクXXZモデルの絡み合いと,Herring-Flicker(HF)結合によるZ軸ジアロシンスキー-モリヤ(DM)相互作用を,負性の概念を用いて特徴づける。
温度、磁場、DM相互作用、およびHFカップリング距離を変化させることによって。
高温でも強磁場でも、状態系の絡み合いが小さくなり、逆に強磁場が強くなる。
また,z軸DM相互作用の増加に伴い絡み合いが増大することが示唆された。
最後に、HF結合は絡み合いの程度に影響を与える。
例えば、HFカップリングと温度が小さい場合、絡み合いの度合いは最も高く、HFカップリングが実質値である場合には、複雑さの度合いは安定する傾向にある。 In this study, we use the concept of negativity to characterize the entanglement of a two--qutrit Heisenberg XXZ model for subject to a uniform magnetic field and z--axis Dzyaloshinskii--Moriya (DM) interaction with Herring-Flicker (HF) coupling. By varying the temperature, magnetic field, DM interaction, and distance of HF coupling. We find that the state system becomes less entangled at high temperatures or in strong magnetic fields, and vice versa. Our findings also suggest that entanglement rises when the z--axis DM interaction increases. Finally, HF coupling affects the degree of entanglement. For example, when HF coupling and temperature are at small values, the degree of entanglement is at its highest, but when HF coupling is at substantial values, the degree of intricacy tends to stabilize. | 翻訳日:2023-04-11 23:25:02 公開日:2023-04-07 |
# 量子擬似絡み合い Quantum Pseudoentanglement ( http://arxiv.org/abs/2211.00747v2 ) ライセンス: Link先を確認 | Scott Aaronson, Adam Bouland, Bill Fefferman, Soumik Ghosh, Umesh Vazirani, Chenyi Zhang and Zixin Zhou | (参考訳) エンタングルメント(英: Entanglement)は、古典計算におけるランダムネスに似た量子資源である。
Gheorghiu と Hoban の最近の研究に触発され、最大エンタングルを持つ量子状態と区別できない効率的な構成可能な量子状態のアンサンブルによって示される「擬似エンタングルメント」の概念を定義する。
我々の構成は量子擬似ランダム状態(最初はJi, Liu, Songによって定義される)の概念に依存しており、これは(最大に絡み合った)ハールランダム状態と区別できない効率的な構成可能な状態である。
具体的には、計算と情報理論の量子的擬似ランダム性の間に指数関数的な分離を与える厳密な境界であるカット毎に$\log n$に任意に絡み合うエントロピーを持つ擬アンタングル状態の構成を与える。
本稿では, マトリックス製品状態試験, エンタングルメント蒸留, およびAdS/CFT対応の複雑さへの応用について論じる。
この写本の以前のバージョン (arXiv:2211.00747v1) と比較すると、このバージョンでは新しい擬似ランダムな状態構造を導入し、より単純な正しさの証明を持ち、同時にすべてのカットにまたがる低い絡み合いの技術的に強い結果が得られる。 Entanglement is a quantum resource, in some ways analogous to randomness in classical computation. Inspired by recent work of Gheorghiu and Hoban, we define the notion of "pseudoentanglement'', a property exhibited by ensembles of efficiently constructible quantum states which are indistinguishable from quantum states with maximal entanglement. Our construction relies on the notion of quantum pseudorandom states -- first defined by Ji, Liu and Song -- which are efficiently constructible states indistinguishable from (maximally entangled) Haar-random states. Specifically, we give a construction of pseudoentangled states with entanglement entropy arbitrarily close to $\log n$ across every cut, a tight bound providing an exponential separation between computational vs information theoretic quantum pseudorandomness. We discuss applications of this result to Matrix Product State testing, entanglement distillation, and the complexity of the AdS/CFT correspondence. As compared with a previous version of this manuscript (arXiv:2211.00747v1) this version introduces a new pseudorandom state construction, has a simpler proof of correctness, and achieves a technically stronger result of low entanglement across all cuts simultaneously. | 翻訳日:2023-04-11 21:41:49 公開日:2023-04-07 |
# patchgt: グラフ表現学習のための非学習型クラスタ上のトランスフォーマー PatchGT: Transformer over Non-trainable Clusters for Learning Graph Representations ( http://arxiv.org/abs/2211.14425v2 ) ライセンス: Link先を確認 | Han Gao, Xu Han, Jiaoyang Huang, Jian-Xun Wang, Li-Ping Liu | (参考訳) 近年、トランスフォーマー構造はグラフ学習タスクにおいて優れた性能を示している。
しかし、これらのTransformerモデルはグラフノード上で直接動作するため、高いレベルの情報を学ぶのが困難である。
画像パッチに適用可能な視覚トランスフォーマーに着想を得て,新しいトランスフォーマーベースのグラフニューラルネットワークであるpatch graph transformer (patchgt)を提案する。
グラフ表現を学習する従来のトランスフォーマーベースモデルとは異なり、PatchGTはノードから直接ではなく、トレーニング不可能なグラフパッチから学習する。
計算を省き、モデルのパフォーマンスを向上させるのに役立つ。
重要なアイデアは、トレーニング可能なパラメータを使わずに、グラフをスペクトルクラスタリングに基づいてパッチに分割することであり、モデルが最初にgnnレイヤを使用してパッチレベルの表現を学習し、次にtransformerを使用してグラフレベルの表現を得る。
このアーキテクチャはグラフのスペクトル情報を活用し、GNNとTransformerの強度を組み合わせる。
さらに,従来の階層的トレーニング可能なクラスタの制限を理論的および経験的に示す。
また,提案手法が置換不変であり,グラフの情報ボトルネックに対処するのに役立つことを証明した。
PatchGTは1-WL型GNNよりも高い表現性を実現しており、PatchGTはベンチマークデータセット上での競合性能を達成し、その予測に解釈可能性を提供する。
私たちのアルゴリズムの実装は、Githubリポジトリで公開されています。 Recently the Transformer structure has shown good performances in graph learning tasks. However, these Transformer models directly work on graph nodes and may have difficulties learning high-level information. Inspired by the vision transformer, which applies to image patches, we propose a new Transformer-based graph neural network: Patch Graph Transformer (PatchGT). Unlike previous transformer-based models for learning graph representations, PatchGT learns from non-trainable graph patches, not from nodes directly. It can help save computation and improve the model performance. The key idea is to segment a graph into patches based on spectral clustering without any trainable parameters, with which the model can first use GNN layers to learn patch-level representations and then use Transformer to obtain graph-level representations. The architecture leverages the spectral information of graphs and combines the strengths of GNNs and Transformers. Further, we show the limitations of previous hierarchical trainable clusters theoretically and empirically. We also prove the proposed non-trainable spectral clustering method is permutation invariant and can help address the information bottlenecks in the graph. PatchGT achieves higher expressiveness than 1-WL-type GNNs, and the empirical study shows that PatchGT achieves competitive performances on benchmark datasets and provides interpretability to its predictions. The implementation of our algorithm is released at our Github repo: https://github.com/tufts-ml/PatchGT. | 翻訳日:2023-04-11 21:32:27 公開日:2023-04-07 |
# 位置認識適応正規化:山火事危険予測のための深層学習アプローチ Location-aware Adaptive Normalization: A Deep Learning Approach For Wildfire Danger Forecasting ( http://arxiv.org/abs/2212.08208v2 ) ライセンス: Link先を確認 | Mohamad Hakam Shams Eddin, Ribana Roscher, Juergen Gall | (参考訳) 気候変動は、気候サイクルの極端な出来事を激化させ、増大させると予想されている。
これは我々の生活の様々な分野に大きな影響を与えるため、最近の研究は地球観測からこのような極端な事象を特定し予測することに関心がある。
火災危険予知に関しては、従来のディープラーニングは時間次元に沿って静的変数を重複させ、静的変数と動的変数の本質的な違いを無視する。
さらに、既存の多くのマルチブランチアーキテクチャは、機能学習の段階でブランチ間の相互接続を失う。
そこで本稿では,2d/3d双方向畳み込み畳み込みニューラルネットワーク(cnn, location-aware adaptive normalization layer, loan)を提案する。
LOANをビルディングブロックとして使用することにより,地理的位置の動的特徴を変調することができる。
そこで本研究では,特徴特性を複合2D/3Dモデルとして考察する。
また,本モデルでは,年内の目標日に関する明示的な時間情報を提供するために,正弦波に基づく年次エンコーディングを提案する。
実験結果は,firecubeデータセットの他のベースラインよりも優れた性能を示している。
その結果,位置対応型特徴正規化は動的変数とその地理的位置の関係を学習する上で有望な手法であることが示唆された。
ソースコードはhttps://github.com/hakamshams/loanで入手できる。 Climate change is expected to intensify and increase extreme events in the weather cycle. Since this has a significant impact on various sectors of our life, recent works are concerned with identifying and predicting such extreme events from Earth observations. With respect to wildfire danger forecasting, previous deep learning approaches duplicate static variables along the time dimension and neglect the intrinsic differences between static and dynamic variables. Furthermore, most existing multi-branch architectures lose the interconnections between the branches during the feature learning stage. To address these issues, this paper proposes a 2D/3D two-branch convolutional neural network (CNN) with a Location-aware Adaptive Normalization layer (LOAN). Using LOAN as a building block, we can modulate the dynamic features conditional on their geographical locations. Thus, our approach considers feature properties as a unified yet compound 2D/3D model. Besides, we propose using the sinusoidal-based encoding of the day of the year to provide the model with explicit temporal information about the target day within the year. Our experimental results show a better performance of our approach than other baselines on the challenging FireCube dataset. The results show that location-aware adaptive feature normalization is a promising technique to learn the relation between dynamic variables and their geographic locations, which is highly relevant for areas where remote sensing data builds the basis for analysis. The source code is available at https://github.com/HakamShams/LOAN. | 翻訳日:2023-04-11 21:11:03 公開日:2023-04-07 |
# 三方向決定に基づく臨床主観的アプローチによる精神障害の分類 Classifying Mental-Disorders through Clinicians Subjective Approach based on Three-way Decision ( http://arxiv.org/abs/2301.03351v4 ) ライセンス: Link先を確認 | Huidong Wang, Md Sakib Ullah Sourav, Mengdi Yang, Jiaping Zhang | (参考訳) 精神疾患診断において、現代のデータ駆動型手動による精神障害分類法は最も一般的な手法であるが、いくつかの必然的な欠陥がある。
3方向決定を枠組みとして, 定量的分析, 定量的解析, 評価に基づく分析の3つの部分からなる, 臨床医の主観的アプローチ(CSA)分析のための統一モデルを提案する。
臨床医の最大の想定値に応じた病気の程度に基づくランキングリストと数値の重み付けのセットは、質的かつ定量的な調査の結果である。
さらに, 疾患の分類を3つのグループに分類し, 評価に基づく3段階のモデルを用いて, より明確な方法による疾患の理解と表現を図っている。
提案手法は,精神疾患の診断における精度向上のための補完的ツールとして,マニュアルベースプロセスと統合される可能性がある。 In psychiatric diagnosis, a contemporary data-driven, manual-based method for mental disorders classification is the most popular technique; however, it has several inevitable flaws. Using the three-way decision as a framework, we propose a unified model that stands for clinicians' subjective approach (CSA) analysis consisting of three parts: quantitative analysis, quantitative analysis, and evaluation-based analysis. A ranking list and a set of numerical weights based on illness magnitude levels according to the clinician's greatest degree of assumptions are the findings of the qualitative and quantitative investigation. We further create a comparative classification of illnesses into three groups with varying important levels; a three-way evaluation-based model is utilized in this study for the aim of understanding and portraying these results in a more clear way. This proposed method might be integrated with the manual-based process as a complementary tool to improve precision while diagnosing mental disorders | 翻訳日:2023-04-11 21:02:40 公開日:2023-04-07 |
# 知識グラフ補完のための二重置換等価性 Double Permutation Equivariance for Knowledge Graph Completion ( http://arxiv.org/abs/2302.01313v2 ) ライセンス: Link先を確認 | Jianfei Gao, Yangze Zhou, Bruno Ribeiro | (参考訳) この研究は知識グラフ(kgs)を、二重交換可能な有理グラフを表す新しいグラフのクラスとして形式化し、ノードとペアワイズ(joint 2-node)表現は、ノードidとエッジ(&node)属性(relation & node feature)の両方の置換に同値でなければならない。
二重置換同変 KG 表現は KG の新しい研究方向を開く。
この等分散は、ニューラルネットワークが複雑な論理推論タスクをkgsで実行できるようにする関係の構造的表現を課す。
最後に,このような等価表現に対する一般的な青写真を導入し,wn18rr,fb237,nell995インダクティブkg完了タスクにおいて最先端のhis@10テスト精度を達成し,既存の手法では実行できない論理的推論タスクを最善の知識に対して正確に実行可能にする,単純なgnnベースの二重置換同変ニューラルネットワークアーキテクチャをテストする。 This work provides a formalization of Knowledge Graphs (KGs) as a new class of graphs that we denote doubly exchangeable attributed graphs, where node and pairwise (joint 2-node) representations must be equivariant to permutations of both node ids and edge (& node) attributes (relations & node features). Double-permutation equivariant KG representations open a new research direction in KGs. We show that this equivariance imposes a structural representation of relations that allows neural networks to perform complex logical reasoning tasks in KGs. Finally, we introduce a general blueprint for such equivariant representations and test a simple GNN-based double-permutation equivariant neural architecture that achieve state-of-the-art Hits@10 test accuracy in the WN18RR, FB237 and NELL995 inductive KG completion tasks, and can accurately perform logical reasoning tasks that no existing methods can perform, to the best of our knowledge. | 翻訳日:2023-04-11 20:55:15 公開日:2023-04-07 |
# フェルミ表面異常の定義と分類 Definition and Classification of Fermi Surface Anomalies ( http://arxiv.org/abs/2302.12731v2 ) ライセンス: Link先を確認 | Da-Chuan Lu, Juven Wang, Yi-Zhuang You | (参考訳) 任意の次元における対称性群$G$のフェルミ曲面異常は、(0+1)$次元時空におけるフェルミオン対称性保護位相(SPT)相によって普遍的に分類される。
この議論はフェルミ面上のギャップのないフェルミオンが位相空間(位置-運動空間)におけるチャーン絶縁体の位相境界モードと見なすことができるという視点に基づいている。
位相空間座標の非可換性を考えると、運動量空間次元は SPT 分類の目的で負の次元としてカウントされるべきである。
したがって、位相空間チャーン絶縁体(またはより一般にフェルミオンSPT相)の分類は、常に$(0+1)$-次元問題に還元され、コボルディズムのアプローチによって答えられる。
codimension-1 fermi surface caseに加えて、codimension-$p$ fermi surface caseについても簡単に論じる。
本稿では,我々の分類法の有効性を示す具体例と,フェルミ表面対称質量生成の最近の発展とを関連づける。 We propose that the Fermi surface anomaly of symmetry group $G$ in any dimension is universally classified by $G$-symmetric interacting fermionic symmetry-protected topological (SPT) phases in $(0+1)$-dimensional spacetime. The argument is based on the perspective that the gapless fermions on the Fermi surface can be viewed as the topological boundary modes of Chern insulators in the phase space (position-momentum space). Given the non-commutative nature of the phase space coordinates, we show that the momentum space dimensions should be counted as negative dimensions for SPT classification purposes. Therefore, the classification of phase-space Chern insulators (or, more generally fermionic SPT phases) always reduces to a $(0+1)$-dimensional problem, which can then be answered by the cobordism approach. In addition to the codimension-1 Fermi surface case, we also discuss the codimension-$p$ Fermi surface case briefly. We provide concrete examples to demonstrate the validity of our classification scheme, and make connections to the recent development of Fermi surface symmetric mass generation. | 翻訳日:2023-04-11 20:46:35 公開日:2023-04-07 |
# 方向刺激法による大規模言語モデルの誘導 Guiding Large Language Models via Directional Stimulus Prompting ( http://arxiv.org/abs/2302.11520v2 ) ライセンス: Link先を確認 | Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Yan | (参考訳) 我々は、下流タスクにおけるブラックボックス凍結大言語モデル(LLM)のガイダンスを提供するために、チューニング可能な言語モデル(LM)を使用する新しいフレームワーク、Directional Stimulus Promptingを導入する。
各タスクに対して最適なプロンプトを手動または自動で検出する以前の作業とは異なり、各入力の方向刺激として個別トークンを生成するためにポリシーLMを訓練する。
次に方向刺激を元の入力と組み合わせてLLMに入力し、その生成を所望の目標に向けて導く。
ポリシーLMは、トレーニングできる
1)注釈データからの教師付き学習と
2) オフラインとオンラインの報酬から強化学習を行い, LLMと人間の嗜好の整合性を高める指向性刺激を探究した。
このフレームワークは様々なLMやタスクに柔軟に適用できる。
その有効性を検証するために,本フレームワークを要約および対話応答生成タスクに適用する。
CNN/Daily Mailデータセットから2,000のサンプルでトレーニングされたT5 (780M)は、ROUGE-Avgスコアの9.0%のコードx (175B)のパフォーマンスを改善する。
私たちはコードを公開しました。 We introduce a new framework, Directional Stimulus Prompting, that uses a tuneable language model (LM) to provide guidance for the black-box frozen large language model (LLM) on downstream tasks. Unlike prior work that manually or automatically finds the optimal prompt for each task, we train a policy LM to generate discrete tokens as directional stimulus of each input, which is a hint/cue such as keywords of an article for summarization. The directional stimulus is then combined with the original input and fed into the LLM to guide its generation toward the desired target. The policy LM can be trained through 1) supervised learning from annotated data and 2) reinforcement learning from offline and online rewards to explore directional stimulus that better aligns LLMs with human preferences. This framework is flexibly applicable to various LMs and tasks. To verify its effectiveness, we apply our framework to summarization and dialogue response generation tasks. Experimental results demonstrate that it can significantly improve LLMs' performance with a small collection of training data: a T5 (780M) trained with 2,000 samples from the CNN/Daily Mail dataset improves Codex (175B)'s performance by 9.0% in ROUGE-Avg scores; only 80 dialogues can boost the combined score by 39.7%, achieving comparable or even better performance than some fully trained models on the MultiWOZ dataset. We have made our code publicly available. | 翻訳日:2023-04-11 20:45:58 公開日:2023-04-07 |
# 大規模タンパク質接触予測モデルからの知識をデータスカースRNA接触予測タスクに転送できる Knowledge from Large-Scale Protein Contact Prediction Models Can Be Transferred to the Data-Scarce RNA Contact Prediction Task ( http://arxiv.org/abs/2302.06120v2 ) ライセンス: Link先を確認 | Yiren Jian and Chongyang Gao and Chen Zeng and Yunjie Zhao and Soroush Vosoughi | (参考訳) RNAの機能はその構造によって決定されるが、多くの生物学的活性において重要な役割を果たす。
RNA配列の各ヌクレオチド間の対構造近接の予測は、RNAの構造情報を特徴づけることができる。
歴史的に、この問題はエキスパートエンジニアリング機能を使用して機械学習モデルに取り組み、ラベル付きデータセットの不足に基づいて訓練されてきた。
ここでは,タンパク質共進化トランスフォーマーを用いた深層ニューラルネットワークから得られた知識をrnaコンタクト予測タスクに転送できることを見いだす。
タンパク質のデータセットはRNA接触予測よりも桁違いに大きいため、我々の発見とその後のフレームワークはデータ不足のボトルネックを大幅に減らした。
公開タンパク質モデルを用いた転写学習によるRNA接触予測が大幅に改善されていることを確認した。
以上の結果から,タンパク質の構造パターンはRNAに転移し,新たな研究の道を開く可能性が示唆された。 RNA, whose functionality is largely determined by its structure, plays an important role in many biological activities. The prediction of pairwise structural proximity between each nucleotide of an RNA sequence can characterize the structural information of the RNA. Historically, this problem has been tackled by machine learning models using expert-engineered features and trained on scarce labeled datasets. Here, we find that the knowledge learned by a protein-coevolution Transformer-based deep neural network can be transferred to the RNA contact prediction task. As protein datasets are orders of magnitude larger than those for RNA contact prediction, our findings and the subsequent framework greatly reduce the data scarcity bottleneck. Experiments confirm that RNA contact prediction through transfer learning using a publicly available protein model is greatly improved. Our findings indicate that the learned structural patterns of proteins can be transferred to RNAs, opening up potential new avenues for research. | 翻訳日:2023-04-11 20:44:18 公開日:2023-04-07 |
# ソフトマックス近似による最適動的政策の推理 Inference on Optimal Dynamic Policies via Softmax Approximation ( http://arxiv.org/abs/2303.04416v2 ) ライセンス: Link先を確認 | Qizhao Chen, Morgane Austern, Vasilis Syrgkanis | (参考訳) オフラインデータから最適な動的ポリシーを推定することは、動的意思決定における根本的な問題である。
因果推論の文脈では、この問題は最適な動的治療体制を推定することとして知られている。
推定のための多くの方法が存在するにもかかわらず、最適状態の値とそれに関連する構造パラメータの信頼区間を構築することは本質的に困難である。
以前の作業は、見積の品質を低下させるサブサンプルアプローチに頼っていた。
最適処理条件に対する簡易なソフトマックス近似により, 温度パラメータを適切に向上させることができ, 真に最適な条件を推定できることを示す。
提案手法は, 有限地平線の場合へ直接拡張するが, 2周期の最適力学系について検討する。
我々の研究は、半パラメトリック推論と$g$推定の手法と、適切な三角形配列中心極限定理と、ソフトマックス近似の漸近的影響と漸近的バイアスの新しい分析を組み合わせたものである。 Estimating optimal dynamic policies from offline data is a fundamental problem in dynamic decision making. In the context of causal inference, the problem is known as estimating the optimal dynamic treatment regime. Even though there exists a plethora of methods for estimation, constructing confidence intervals for the value of the optimal regime and structural parameters associated with it is inherently harder, as it involves non-linear and non-differentiable functionals of un-known quantities that need to be estimated. Prior work resorted to sub-sample approaches that can deteriorate the quality of the estimate. We show that a simple soft-max approximation to the optimal treatment regime, for an appropriately fast growing temperature parameter, can achieve valid inference on the truly optimal regime. We illustrate our result for a two-period optimal dynamic regime, though our approach should directly extend to the finite horizon case. Our work combines techniques from semi-parametric inference and $g$-estimation, together with an appropriate triangular array central limit theorem, as well as a novel analysis of the asymptotic influence and asymptotic bias of softmax approximations. | 翻訳日:2023-04-11 20:24:55 公開日:2023-04-07 |
# シングルホスピタルからマルチセンターアプリケーション: ICUにおける逆事象予測のためのディープラーニングモデルの汎用性向上 From Single-Hospital to Multi-Centre Applications: Enhancing the Generalisability of Deep Learning Models for Adverse Event Prediction in the ICU ( http://arxiv.org/abs/2303.15354v2 ) ライセンス: Link先を確認 | Patrick Rockenschaub, Adam Hilbert, Tabea Kossen, Falk von Dincklage, Vince Istvan Madai, Dietmar Frey | (参考訳) 深層学習(Deep Learning, DL)は、医師が患者状態の悪化を早期に検出するのに役立つ。
DLベースの早期警戒モデルは、訓練を受けた病院ではよく機能するが、新しい病院では信頼性が低い傾向にある。
これにより、大規模なデプロイが難しくなる。
欧米の4つのデータソース(計334,812件)から収集した集中治療データを用いて,死亡,急性腎障害(AKI),敗血症の3つの有害事象に対するDLモデルの信頼性を体系的に評価した。
複数のデータソースを使用するか,トレーニング中の汎用性を明示的に最適化することで,新病院のモデル性能が向上するかを検討した。
モデルでは,死亡率(0.838-0.869),アキ(0.823-0.866),敗血症(0.749-0.824)がトレーニング病院で高かった。
予想通り、新しい病院でのパフォーマンスは、時には-0.200まで低下した。
複数のデータソースをトレーニングに使用することで、パフォーマンス低下を軽減し、マルチソースモデルは最高の単一ソースモデルとほぼ同等のパフォーマンスを実現した。
これは、より多くの病院のデータがトレーニングに利用できるようになるにつれて、モデルのロバスト性が向上し、トレーニングデータで最も適切なデータソースのパフォーマンスと低バウンドなロバスト性が向上することを示唆している。
汎用性を促進する専用方法は,実験における性能を著しく改善することはなかった。 Deep learning (DL) can aid doctors in detecting worsening patient states early, affording them time to react and prevent bad outcomes. While DL-based early warning models usually work well in the hospitals they were trained for, they tend to be less reliable when applied at new hospitals. This makes it difficult to deploy them at scale. Using carefully harmonised intensive care data from four data sources across Europe and the US (totalling 334,812 stays), we systematically assessed the reliability of DL models for three common adverse events: death, acute kidney injury (AKI), and sepsis. We tested whether using more than one data source and/or explicitly optimising for generalisability during training improves model performance at new hospitals. We found that models achieved high AUROC for mortality (0.838-0.869), AKI (0.823-0.866), and sepsis (0.749-0.824) at the training hospital. As expected, performance dropped at new hospitals, sometimes by as much as -0.200. Using more than one data source for training mitigated the performance drop, with multi-source models performing roughly on par with the best single-source model. This suggests that as data from more hospitals become available for training, model robustness is likely to increase, lower-bounding robustness with the performance of the most applicable data source in the training data. Dedicated methods promoting generalisability did not noticeably improve performance in our experiments. | 翻訳日:2023-04-11 20:16:32 公開日:2023-04-07 |
# 大規模言語モデルの創造性について On the Creativity of Large Language Models ( http://arxiv.org/abs/2304.00008v2 ) ライセンス: Link先を確認 | Giorgio Franceschelli, Mirco Musolesi | (参考訳) 大規模言語モデル(LLM)は、人工知能のいくつかの領域に革命をもたらしている。
最も顕著な応用の1つは、例えば詩やストーリーテリングのような創造的な執筆である: 生成されたアウトプットは、しばしば驚くべき品質である。
しかし、自然の疑問が生まれます。 LLMは本当に創造的であるか?
この記事では、まず創造性理論のレンズの下でllmの開発を分析し、鍵となるオープン質問と課題を調査します。
次に,機械の創造性における「簡単」かつ「ハード」な問題の集合を論じ,LLMに関連する問題を提示する。
最後に,これらの技術が社会に与える影響について,特に創造産業に焦点をあてて検討する。 Large Language Models (LLMs) are revolutionizing several areas of Artificial Intelligence. One of the most remarkable applications is creative writing, e.g., poetry or storytelling: the generated outputs are often of astonishing quality. However, a natural question arises: can LLMs be really considered creative? In this article we firstly analyze the development of LLMs under the lens of creativity theories, investigating the key open questions and challenges. Then, we discuss a set of "easy" and "hard" problems in machine creativity, presenting them in relation to LLMs. Finally, we examine the societal impact of these technologies with a particular focus on the creative industries. | 翻訳日:2023-04-11 20:08:14 公開日:2023-04-07 |
# ブラッグ原子干渉計のためのロバスト原子光学 Robust Atom Optics for Bragg Atom Interferometry ( http://arxiv.org/abs/2303.16950v2 ) ライセンス: Link先を確認 | Garrett Louie, Zilin Chen, Tejas Deshpande, Timothy Kovachy | (参考訳) 多光子ブラッグ回折は、原子波の高速でコヒーレントな運動量移動の強力な方法である。
しかし、レーザーノイズ、ドップラーデチューニング、雲の膨張は大きな運動量伝達(LMT)パルス列の効率を制限する。
数値量子最適制御により開発されたロバストブラッグパルスのシミュレーション研究を行う。
雑音および雲の不均一性下での最適パルス性能を解析し、lmtマッハ・ツェンダー干渉法シミュレーションにおける類似のガウス波および断熱速通路(arp)パルスと比較した。
最適化されたパルスは、広い範囲のノイズに対して頑健な人口移動と位相応答を維持し、熱原子雲と強度不均一性を持つLMT配列において優れたコントラストをもたらす。
大きな最適化lmt配列はガウスパルスよりも低いパルス領域を使用するため、自然放出損失の影響を受けにくい。
最適化されたシーケンスは、数十の$\hbar k$運動量分離と5倍以上のコントラストを維持し、より大きなLMTによる改善を提供する。
このようなパルスは、前例のない感度、コントラストの改善、熱い原子源によるブラッグ原子干渉計の動作を可能にする。 Multi-photon Bragg diffraction is a powerful method for fast, coherent momentum transfer of atom waves. However, laser noise, Doppler detunings, and cloud expansion limit its efficiency in large momentum transfer (LMT) pulse sequences. We present simulation studies of robust Bragg pulses developed through numerical quantum optimal control. Optimized pulse performance under noise and cloud inhomogeneities is analyzed and compared to analogous Gaussian and adiabatic rapid passage (ARP) pulses in simulated LMT Mach-Zehnder interferometry sequences. The optimized pulses maintain robust population transfer and phase response over a broader range of noise, resulting in superior contrast in LMT sequences with thermal atom clouds and intensity inhomogeneities. Large optimized LMT sequences use lower pulse area than Gaussian pulses, making them less susceptible to spontaneous emission loss. The optimized sequences maintain over five times better contrast with tens of $\hbar k$ momentum separation and offers more improvement with greater LMT. Such pulses could allow operation of Bragg atom interferometers with unprecedented sensitivity, improved contrast, and hotter atom sources. | 翻訳日:2023-04-11 20:06:55 公開日:2023-04-07 |
# 線形相補性プログラミングを用いた時系列の等角予測領域 Conformal Prediction Regions for Time Series using Linear Complementarity Programming ( http://arxiv.org/abs/2304.01075v2 ) ライセンス: Link先を確認 | Matthew Cleaveland, Insup Lee, George J. Pappas, Lars Lindemann | (参考訳) コンフォーマル予測は、高い確率で有効な機械学習モデルの予測領域を生成する統計ツールである。
しかし、時系列データに共形予測を適用すると、保守的な予測領域が生じる。
実際、信頼度1-\delta$でT$以上の予測領域を得るには、 {previous works requires each individual prediction region is valid} with confidence $1-\delta/T$。
学習可能な時系列予測器を使用する場合,この保守性を低減する最適化手法を提案する。
複数の時間ステップで予測誤差を個別に考慮する代わりに、パラメータ化された予測誤差をパラメータ化する。
追加データセット上でパラメータを最適化することにより、保守的でない予測領域を見つける。
この問題を混合整数線形相補性プログラム (MILCP) としてキャストし, 線形相補性プログラム (LCP) に緩和することを示した。
さらに、緩和されたLPは元のMILCPと同じ最適コストであることを示す。
最後に,歩行者軌道予測器を用いたケーススタディにおいて,本手法の有効性を示す。 Conformal prediction is a statistical tool for producing prediction regions of machine learning models that are valid with high probability. However, applying conformal prediction to time series data leads to conservative prediction regions. In fact, to obtain prediction regions over $T$ time steps with confidence $1-\delta$, {previous works require that each individual prediction region is valid} with confidence $1-\delta/T$. We propose an optimization-based method for reducing this conservatism to enable long horizon planning and verification when using learning-enabled time series predictors. Instead of considering prediction errors individually at each time step, we consider a parameterized prediction error over multiple time steps. By optimizing the parameters over an additional dataset, we find prediction regions that are not conservative. We show that this problem can be cast as a mixed integer linear complementarity program (MILCP), which we then relax into a linear complementarity program (LCP). Additionally, we prove that the relaxed LP has the same optimal cost as the original MILCP. Finally, we demonstrate the efficacy of our method on a case study using pedestrian trajectory predictors. | 翻訳日:2023-04-11 19:57:45 公開日:2023-04-07 |
# JPEG圧縮画像はAI編集に対する保護を回避できる JPEG Compressed Images Can Bypass Protections Against AI Editing ( http://arxiv.org/abs/2304.02234v2 ) ライセンス: Link先を確認 | Pedro Sandoval-Segura, Jonas Geiping, Tom Goldstein | (参考訳) 近年開発されたテキスト画像拡散モデルにより,高品質な画像の編集や作成が容易になった。
彼らの使いやすさは悪質な編集やディープフェイク作成の可能性を懸念している。
拡散モデルが現実的な画像を生成するのを防ぎ、悪意のある編集から画像を保護する手段として、知覚不能な摂動が提案されている。
しかし、上記の摂動はJPEG圧縮に対して堅牢ではないことが判明し、JPEGの一般的な使用法と可用性のために大きな弱点が生じる。
付加的不可視摂動に対するロバスト性の重要性を議論し,画像の編集防止のための代替手法を推奨する。 Recently developed text-to-image diffusion models make it easy to edit or create high-quality images. Their ease of use has raised concerns about the potential for malicious editing or deepfake creation. Imperceptible perturbations have been proposed as a means of protecting images from malicious editing by preventing diffusion models from generating realistic images. However, we find that the aforementioned perturbations are not robust to JPEG compression, which poses a major weakness because of the common usage and availability of JPEG. We discuss the importance of robustness for additive imperceptible perturbations and encourage alternative approaches to protect images against editing. | 翻訳日:2023-04-11 19:49:18 公開日:2023-04-07 |
# 時間結晶背景における宇宙論 Cosmology in a Time-Crystal Background ( http://arxiv.org/abs/2304.03803v1 ) ライセンス: Link先を確認 | Raj Kumar Das, Aurindam Mondal, Subir Ghosh, Supriya Pan | (参考訳) 時間結晶様凝縮物が宇宙力学に及ぼす影響について検討する。
二次重力がアインシュタイン重力に還元され、分離された高次微分力学スカラー \cite{Alvarez-Gaume:2015rwa} が生じることが知られている。
\cite{Chakraborty:2020ktp} によれば、上記のスカラーセクターは時間結晶のような最小エネルギー状態を維持し、非自明な時間依存性を持つ。
本研究では、時間結晶状態を背景として扱う(古典的なミンコフスキー真空を置き換える)とともに、この「力学」基底状態の宇宙進化を研究する。
第1部では、共変的かつより系統的な方法で、振動子を時間結晶の凝縮のように特徴づけ、物質のような効果をシミュレートする背景エネルギーモーメントテンソルとして解釈する周波数を再導出する。
重要なことに、ここでは外部物質は導入されず、凝縮物は計量場 $g_{\mu\nu}$ の組合せで構成され、二次重力 \cite{Alvarez-Gaume:2015rwa} において$R^2$-term ($R$ is the Ricci scalar) によって生成される。
ある意味では、r^2$-gravityの散発的な自由度が有用な構成要素になる。
第2部は、フリードマン・レム・アトレ・ロバートソン・ウォーカー(FLRW)宇宙における宇宙論が、時間結晶凝縮を特徴づけるエネルギー-運動量テンソルの存在下で研究される新しい効果からなる。
ある近似の下で、FLRW宇宙のスケール係数は任意の空間幾何学に対して解析的に得られる。
また、Time Crystal Condensateは宇宙に放射線のような振る舞いを持つ新しい物質候補として貢献する。
さらに、宇宙の空間幾何学によらず、タイムクリスタル凝縮は、早期加速が始まる前に減速相を生成する。
これは宇宙の膨張が加速する前の収縮段階の兆候である。 We investigate the effects of a Time Crystal-like Condensate on cosmological dynamics. It is well known that quadratic gravity reduces to Einstein gravity along with a decoupled higher derivative dynamical scalar \cite{Alvarez-Gaume:2015rwa}. According to \cite{Chakraborty:2020ktp}, the above scalar sector can sustain a Time Crystal-like minimum energy state, with non-trivial time dependence. In the present work we treat the Time Crystal-like state as the background (that replaces the classical Minkowski vacuum) and study cosmic evolution on this ``dynamic'' ground state. In the first part we re-derive \cite{Chakraborty:2020ktp}, in a covariant and more systematic way, the frequencies that characterize the oscillator like Time crystalline condensate and interpret it as a background energy-momentum tensor simulating a matter-like effect. Importantly, no external matter is introduced here and the condensate, consists of a combination of the metric field $g_{\mu\nu}$ and is generated due to the $R^2$-term ($R$ is the Ricci scalar) in quadratic gravity \cite{Alvarez-Gaume:2015rwa}. In a way the spurious degrees of freedom of $R^2$-gravity turns into a useful component. The second part comprises of new effects where the cosmology in Friedmann-Lem\^{i}atre-Robertson-Walker (FLRW) universe is studied in presence of the energy-momentum tensor characterizing the Time Crystal Condensate. Under certain approximations, the scale factor of the FLRW universe is analytically obtained for any spatial geometry. We also find that the Time Crystal Condensate contributes as a new matter candidate having radiation-like behavior in the universe. Additionally, irrespective of the spatial geometry of the universe, the Time Crystal condensate generates a decelerating phase before the early acceleration starts. This is an indication of a contracting phase of the universe before its accelerated expansion. | 翻訳日:2023-04-11 19:41:09 公開日:2023-04-07 |
# ブリッジング・ネイションズ : ソーシャルメディアにおける多言語コミュニケーションの役割の定量化 Bridging Nations: Quantifying the Role of Multilinguals in Communication on Social Media ( http://arxiv.org/abs/2304.03797v1 ) ライセンス: Link先を確認 | Julia Mendelsohn, Sayan Ghosh, David Jurgens, Ceren Budak | (参考訳) ソーシャルメディアは、ミームから社会運動まで、様々な種類の情報を迅速に広めることができる。
しかし、情報がどのように言語境界を超えたかはほとんど分かっていない。
欧州のtwitterネットワークに因果推論手法を適用し,言語間情報交換における多言語ユーザの構造的役割とコミュニケーションの影響を定量化する。
全体としては、複数言語での投稿は、重心度を13%増加させ、多言語ネットワークに隣接させることで、他言語の16倍と4倍のハッシュタグを共有するというモノリンガルの確率が増大する。
さらに,多言語話者は,遠国情報や地域政治に関する内容,生来の社会運動,就職機会など,単言語話者がアクセスできない情報の拡散により大きな影響を与えていることを示した。
国境を越えた情報交換を強調することで、この研究は、情報とアイデアが世界中に広がる方法の重要な要素を浮き彫りにする。 Social media enables the rapid spread of many kinds of information, from memes to social movements. However, little is known about how information crosses linguistic boundaries. We apply causal inference techniques on the European Twitter network to quantify multilingual users' structural role and communication influence in cross-lingual information exchange. Overall, multilinguals play an essential role; posting in multiple languages increases betweenness centrality by 13%, and having a multilingual network neighbor increases monolinguals' odds of sharing domains and hashtags from another language 16-fold and 4-fold, respectively. We further show that multilinguals have a greater impact on diffusing information less accessible to their monolingual compatriots, such as information from far-away countries and content about regional politics, nascent social movements, and job opportunities. By highlighting information exchange across borders, this work sheds light on a crucial component of how information and ideas spread around the world. | 翻訳日:2023-04-11 19:40:35 公開日:2023-04-07 |
# 量子エミッタを用いた量子コンピューティングのための損失耐性アーキテクチャ Loss-tolerant architecture for quantum computing with quantum emitters ( http://arxiv.org/abs/2304.03796v1 ) ライセンス: Link先を確認 | Matthias C. L\"obl, Stefano Paesani, and Anders S. S{\o}rensen | (参考訳) 我々はフォトニック量子エミッタを用いた計測に基づく量子コンピューティングのためのアーキテクチャを開発した。
このアーキテクチャはスピン-光子絡み合いを資源状態として利用し、光子の標準ベル測定を大きなスピン量子クラスター状態に融合させる。
このスキームは、複数のエミッタの完全なパーコレーショングラフ状態を構築するために、最初の非適応的(ボール的な)融合プロセスのみを使用するため、メモリ能力に制限のあるエミッタ向けに調整される。
決定論的エミッタから絡み合った光子を融合させる様々な幾何学的構造を探索することにより、同様の全フォトニックスキームと比較して光子損失耐性を著しく改善する。 We develop an architecture for measurement-based quantum computing using photonic quantum emitters. The architecture exploits spin-photon entanglement as resource states and standard Bell measurements of photons for fusing them into a large spin-qubit cluster state. The scheme is tailored to emitters with limited memory capabilities since it only uses an initial non-adaptive (ballistic) fusion process to construct a fully percolated graph state of multiple emitters. By exploring various geometrical constructions for fusing entangled photons from deterministic emitters, we improve the photon loss tolerance significantly compared to similar all-photonic schemes. | 翻訳日:2023-04-11 19:40:18 公開日:2023-04-07 |
# 非エルミート光学格子における幾何依存性皮膚効果と異方性ブロッホ振動 Geometry-dependent skin effect and anisotropic Bloch oscillations in a non-Hermitian optical lattice ( http://arxiv.org/abs/2304.03792v1 ) ライセンス: Link先を確認 | Yi Qin, Kai Zhang, and Linhu Li | (参考訳) 非エルミティキシー性と次元との相互作用は、より高次元のエキゾチックな特徴を生じさせ、幾何依存性皮膚効果(gdse)として知られる典型的な現象は、広い固有状態の局在が開境界条件下でのシステムの幾何学に依存することを意味する。
本稿では,オンサイト・アトムロスを持つ2次元$sp$光ラダー格子におけるgdseの出現を,系内のブロッホ振動の異方性ダイナミクスによって表せることを示す。
波束力学は、異なる方向に静的力を適用することにより、非ゼロまたはゼロのスペクトル巻数を有する複素エネルギースペクトルをそれぞれ検索し、対応する方向における皮膚蓄積の有無を示す。
その結果,gdseは境界条件に依存しない固有異方性バルクダイナミクスを持ち,量子システムにおけるその実現と検出を提供することがわかった。 The interplay between the non-Hermiticity and dimensionality gives rise to exotic characteristics in higher dimensions, with one representative phenomenon known as the geometry-dependent skin effect (GDSE), which refers to that the localization of extensive eigenstates depends on the system's geometry under open boundary conditions. In this paper, we demonstrate the emergence of GDSE in a two-dimensional $sp$ optical ladder lattice with on-site atom loss, which can be manifested by anisotropic dynamics of Bloch oscillations in the bulk of the system. By applying a static force in different directions, the wave-packet dynamics retrieve the complex energy spectra with either nonzero or zero spectral winding number, indicating the presence or absence of skin accumulation in the corresponding directions, respectively. Our results reveal that the GDSE has an intrinsic anisotropic bulk dynamics independent of boundary conditions, and offer its realization and detection in quantum systems. | 翻訳日:2023-04-11 19:40:04 公開日:2023-04-07 |
# 変分量子アルゴリズムにおけるフーリエ展開 Fourier expansion in variational quantum algorithms ( http://arxiv.org/abs/2304.03787v1 ) ライセンス: Link先を確認 | Nikita A. Nemkov and Evgeniy O. Kiktenko and Aleksey K. Fedorov | (参考訳) 変分量子アルゴリズム(VQA)における損失関数のフーリエ展開は豊富な情報を含んでいるが、一般にアクセスは困難である。
一定のゲートがクリフォードゲートであり、パラメータ化されたゲートがパウリ作用素によって生成される変分回路のクラスに焦点をあてる。
古典的なアルゴリズムは、$N$-qubit 回路と 1 つの Pauli オブザーバブルに対して、$\mathcal{O}(N2^m)$ で有界な時間におけるすべての三角単項の係数を$m$まで計算する。
アルゴリズムの一般構造と実装を用いて、Clifford+Pauli VQA のようなフーリエ展開のいくつかの新しい側面を明らかにする。
(i)多変量ブール二次系の例としてフーリエ級数を計算する問題の再構成
(ii)切れたフーリエ展開によって与えられる近似が$l^2$ノルムによって定量化され、動的に評価されることを示す
(三)フーリエ級数の比較的スパースな傾向とフーリエ係数の団結傾向
(iv)非自明な大きさの回路のフルフーリエ級数を計算可能で、数十から数百キュービットとパラメトリックゲートを備える。 The Fourier expansion of the loss function in variational quantum algorithms (VQA) contains a wealth of information, yet is generally hard to access. We focus on the class of variational circuits, where constant gates are Clifford gates and parameterized gates are generated by Pauli operators, which covers most practical cases while allowing much control thanks to the properties of stabilizer circuits. We give a classical algorithm that, for an $N$-qubit circuit and a single Pauli observable, computes coefficients of all trigonometric monomials up to a degree $m$ in time bounded by $\mathcal{O}(N2^m)$. Using the general structure and implementation of the algorithm we reveal several novel aspects of Fourier expansions in Clifford+Pauli VQA such as (i) reformulating the problem of computing the Fourier series as an instance of multivariate boolean quadratic system (ii) showing that the approximation given by a truncated Fourier expansion can be quantified by the $L^2$ norm and evaluated dynamically (iii) tendency of Fourier series to be rather sparse and Fourier coefficients to cluster together (iv) possibility to compute the full Fourier series for circuits of non-trivial sizes, featuring tens to hundreds of qubits and parametric gates. | 翻訳日:2023-04-11 19:39:46 公開日:2023-04-07 |
# chirodiff:拡散モデルを用いたキラグラフデータのモデリング ChiroDiff: Modelling chirographic data with Diffusion Models ( http://arxiv.org/abs/2304.03785v1 ) ライセンス: Link先を確認 | Ayan Das, Yongxin Yang, Timothy Hospedales, Tao Xiang, Yi-Zhe Song | (参考訳) 連続時間幾何学的構成、例えば手書き、スケッチ、図面などの生成的モデリングは自己回帰分布によって達成されている。
しかし、厳密に順序付けられた離散因子化は、チャーログラフィーデータの鍵となる特性を捉えるには足りず、一方的な可視性(因果性)によって時間的概念の全体的理解を構築することに失敗する。
その結果、時間データは真の基本概念を捉えるのではなく、固定サンプリングレートの離散トークンシーケンスとしてモデル化されている。
本稿では,これらの欠陥に特に対処するカイログラフデータのための強力なモデルクラスである「拡散確率モデル」やDDPMを紹介する。
自己回帰的でない「カイロディフ」というモデルでは, 包括的概念を捉えることを学び, 十分な時間的サンプリング率を保ち続ける。
さらに,多くの重要な下流ユーティリティ(条件付サンプリングやクリエイティブミキシングなど)がchirodiffを使って柔軟に実装できることを示す。
さらに, このモデルクラスでは, 確率的ベクトル化, 脱ノイズ/ヒーリング, 抽象化など, 独自のユースケースも実現可能であることを示す。
関連するデータセット上で,フレームワークの定量的,定性的な評価を行い,競合するアプローチと同等あるいは同等であることを確認した。 Generative modelling over continuous-time geometric constructs, a.k.a such as handwriting, sketches, drawings etc., have been accomplished through autoregressive distributions. Such strictly-ordered discrete factorization however falls short of capturing key properties of chirographic data -- it fails to build holistic understanding of the temporal concept due to one-way visibility (causality). Consequently, temporal data has been modelled as discrete token sequences of fixed sampling rate instead of capturing the true underlying concept. In this paper, we introduce a powerful model-class namely "Denoising Diffusion Probabilistic Models" or DDPMs for chirographic data that specifically addresses these flaws. Our model named "ChiroDiff", being non-autoregressive, learns to capture holistic concepts and therefore remains resilient to higher temporal sampling rate up to a good extent. Moreover, we show that many important downstream utilities (e.g. conditional sampling, creative mixing) can be flexibly implemented using ChiroDiff. We further show some unique use-cases like stochastic vectorization, de-noising/healing, abstraction are also possible with this model-class. We perform quantitative and qualitative evaluation of our framework on relevant datasets and found it to be better or on par with competing approaches. | 翻訳日:2023-04-11 19:39:21 公開日:2023-04-07 |
# 学習のための生成AI:合成学習ビデオの可能性を探る Generative AI for learning: Investigating the potential of synthetic learning videos ( http://arxiv.org/abs/2304.03784v1 ) ライセンス: Link先を確認 | Daniel Leiker, Ashley Ricker Gyllen, Ismail Eldesouky, Mutlu Cukurova | (参考訳) 生成人工知能(AI)の最近の進歩は世界中の注目を集めている。
Dalle-2やChatGPTのようなツールは、これまでAIの能力を超えると思われるタスクが、さまざまな方法でクリエイティブメディアの生産性を高める可能性があることを示唆している。
本研究は,AI合成ビデオを用いたオンライン教育用コンテンツ作成の有用性について検討する。
現在、AI生成合成メディアの現実的な教育価値についての研究が限られている。
このギャップに対処するために,オンライン学習プラットフォームにおけるAI合成ビデオの利用が,学習者のコンテンツ獲得と学習経験に与える影響を検討した。
我々は,2つのマイクロラーニング条件のうちの1つに,大人の学習者(n=83)をランダムに割り当て,事前および後評価を収集し,参加者の学習経験について調査した。
コントロール条件には従来のインストラクタービデオが含まれ、実験条件にはリアルなAI生成キャラクタを備えた合成ビデオが含まれていた。
その結果,両条件の学習者は前学習から後学習へ有意に改善し(p<.001),両者の利得に有意な差は認められなかった(p=.80)。
また,学習者が従来のビデオや合成ビデオをどのように感じているかには差はなかった。
これらの結果は、AIが生成した合成学習ビデオが、オンラインの教育環境における従来の方法によるビデオの代替になり得る可能性を示唆している。 Recent advances in generative artificial intelligence (AI) have captured worldwide attention. Tools such as Dalle-2 and ChatGPT suggest that tasks previously thought to be beyond the capabilities of AI may now augment the productivity of creative media in various new ways, including through the generation of synthetic video. This research paper explores the utility of using AI-generated synthetic video to create viable educational content for online educational settings. To date, there is limited research investigating the real-world educational value of AI-generated synthetic media. To address this gap, we examined the impact of using AI-generated synthetic video in an online learning platform on both learners content acquisition and learning experience. We took a mixed-method approach, randomly assigning adult learners (n=83) into one of two micro-learning conditions, collecting pre- and post-learning assessments, and surveying participants on their learning experience. The control condition included a traditionally produced instructor video, while the experimental condition included a synthetic video with a realistic AI-generated character. The results show that learners in both conditions demonstrated significant improvement from pre- to post-learning (p<.001), with no significant differences in gains between the two conditions (p=.80). In addition, no differences were observed in how learners perceived the traditional and synthetic videos. These findings suggest that AI-generated synthetic learning videos have the potential to be a viable substitute for videos produced via traditional methods in online educational settings, making high quality educational content more accessible across the globe. | 翻訳日:2023-04-11 19:38:59 公開日:2023-04-07 |
# autoqnn:ニューラルネットワークの自動定量化のためのエンドツーエンドフレームワーク AutoQNN: An End-to-End Framework for Automatically Quantizing Neural Networks ( http://arxiv.org/abs/2304.03782v1 ) ライセンス: Link先を確認 | Cheng Gong, Ye Lu, Surong Dai, Deng Qian, Chenkun Du, Tao Li | (参考訳) 予測量子化スキームを適切な混合精度ポリシーで探索することは、ディープニューラルネットワーク(DNN)を高い効率と精度で圧縮する鍵となる。
この探索は、ドメインエキスパートにとって重いワークロードを意味し、自動圧縮方法が必要である。
しかし, 自動手法の膨大な検索スペースは, 実際のシナリオに適用することが困難となるような多くの計算予算を導入している。
本稿では,人的負担を伴わずに異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
AutoQNNは、QSS(quantizing scheme search)、QPL(quantizing precision learning)、QAG(quantized architecture generation)の3つの手法を含むことで、主流DNNモデルの適切な量子化スキームと混合精度ポリシーを求めることができる。
QSSは5つの量子化スキームを導入し、3つの新しいスキームをスキーム探索の候補セットとして定義し、次に微分可能なニューラルアーキテクチャサーチ(DNAS)アルゴリズムを用いて、そのセットから層またはモデル要求スキームを求める。
QPLは、量子化スキームのビット幅を再パラメータ化して混合精度ポリシーを学習する最初の方法である。
QPLはDNNの分類損失と精度損失を効率的に最適化し、限られたモデルサイズとメモリフットプリント内で比較的最適な混合精度モデルを得る。
QAGは任意のアーキテクチャを手動で介入することなく対応する量子化アーキテクチャに変換し、エンドツーエンドのニューラルネットワーク量子化を容易にするように設計されている。
我々はAutoQNNを実装し、それをKerasに統合した。
大規模な実験により、AutoQNNは一貫して最先端の量子化に勝ることを示した。 Exploring the expected quantizing scheme with suitable mixed-precision policy is the key point to compress deep neural networks (DNNs) in high efficiency and accuracy. This exploration implies heavy workloads for domain experts, and an automatic compression method is needed. However, the huge search space of the automatic method introduces plenty of computing budgets that make the automatic process challenging to be applied in real scenarios. In this paper, we propose an end-to-end framework named AutoQNN, for automatically quantizing different layers utilizing different schemes and bitwidths without any human labor. AutoQNN can seek desirable quantizing schemes and mixed-precision policies for mainstream DNN models efficiently by involving three techniques: quantizing scheme search (QSS), quantizing precision learning (QPL), and quantized architecture generation (QAG). QSS introduces five quantizing schemes and defines three new schemes as a candidate set for scheme search, and then uses the differentiable neural architecture search (DNAS) algorithm to seek the layer- or model-desired scheme from the set. QPL is the first method to learn mixed-precision policies by reparameterizing the bitwidths of quantizing schemes, to the best of our knowledge. QPL optimizes both classification loss and precision loss of DNNs efficiently and obtains the relatively optimal mixed-precision model within limited model size and memory footprint. QAG is designed to convert arbitrary architectures into corresponding quantized ones without manual intervention, to facilitate end-to-end neural network quantization. We have implemented AutoQNN and integrated it into Keras. Extensive experiments demonstrate that AutoQNN can consistently outperform state-of-the-art quantization. | 翻訳日:2023-04-11 19:38:31 公開日:2023-04-07 |
# 医療における公平かつ信頼できる予測モデル検証のロードマップ A roadmap to fair and trustworthy prediction model validation in healthcare ( http://arxiv.org/abs/2304.03779v1 ) ライセンス: Link先を確認 | Yilin Ning, Victor Volovici, Marcus Eng Hock Ong, Benjamin Alan Goldstein, Nan Liu | (参考訳) 予測モデルは、外部のバリデーションで開発データを超えて一般化する場合が最も有用であるが、どの程度まで一般化されるべきかはいまだ不明である。
実際には、予測モデルは、他の健康システムや国からの人口を含む、まったく異なる設定のデータを使用して外部に検証される。
これは、特定の対象集団や設定のために設計されたモデルの性能の公正な反映ではなく、期待されるモデルの一般化可能性を拡張しているかもしれない。
そこで本研究では,対象個体群からの新しいデータを用いてモデル検証を行い,モデル信頼性に対する検証性能の明確な影響を確認することを提案する。
この観点から,信頼度の高い,公平で信頼性の高い人工知能予測モデルの開発と応用を促進するロードマップを提案する。 A prediction model is most useful if it generalizes beyond the development data with external validations, but to what extent should it generalize remains unclear. In practice, prediction models are externally validated using data from very different settings, including populations from other health systems or countries, with predictably poor results. This may not be a fair reflection of the performance of the model which was designed for a specific target population or setting, and may be stretching the expected model generalizability. To address this, we suggest to externally validate a model using new data from the target population to ensure clear implications of validation performance on model reliability, whereas model generalizability to broader settings should be carefully investigated during model development instead of explored post-hoc. Based on this perspective, we propose a roadmap that facilitates the development and application of reliable, fair, and trustworthy artificial intelligence prediction models. | 翻訳日:2023-04-11 19:38:00 公開日:2023-04-07 |
# 顔モデルのアイデンティティロバスト性向上 Improving Identity-Robustness for Face Models ( http://arxiv.org/abs/2304.03838v1 ) ライセンス: Link先を確認 | Qi Qi, Shervin Ardeshir | (参考訳) 多くのタスクでディープラーニングモデルの成功にもかかわらず、そのようなモデルがショートカットを学習することや、無関係な共同設立者に対する堅牢性の欠如に懸念がある。
人間の顔を直接訓練するモデルに関しては、機密性の高い共同ファウンダーは人間のアイデンティティである。
多くの顔関連タスクは理想的にはアイデンティティ非依存で、異なる個人間で均一に実行すべきである(すなわち公平である)。
このような堅牢性とパフォーマンスの均一性を測定し、強制するひとつの方法は、トレーニング中にそれを強制し、アイデンティティ関連の情報が大規模に利用可能であると仮定することである。
しかし、プライバシーの懸念とそのような情報収集コストのため、これはしばしばそうではなく、ほとんどの顔データセットは入力画像と対応するタスク関連ラベルを含む。
したがって、このようなアノテーションを必要とせずにid関連ロバスト性を改善することが非常に重要である。
ここでは,顔認識埋め込みベクターを,アイデンティティのプロキシとして使用して,このような堅牢性を実現する。
各クラス内の希少なサンプルを暗黙的に強調するために, 顔認識埋め込み空間の構造を用いることを提案する。
我々は, プロキシ埋め込み空間における条件逆密度(CID)に応じて, サンプルを重み付けする。
実験の結果,このような単純なサンプル重み付け方式はトレーニングの堅牢性を向上するだけでなく,その堅牢性によって全体的な性能を向上させることが示唆された。
また、トレーニング中にこのような制約を適用すると、データセット内の異なるレベルのバイアスにかなり敏感なモデルが得られることも示します。 Despite the success of deep-learning models in many tasks, there have been concerns about such models learning shortcuts, and their lack of robustness to irrelevant confounders. When it comes to models directly trained on human faces, a sensitive confounder is that of human identities. Many face-related tasks should ideally be identity-independent, and perform uniformly across different individuals (i.e. be fair). One way to measure and enforce such robustness and performance uniformity is through enforcing it during training, assuming identity-related information is available at scale. However, due to privacy concerns and also the cost of collecting such information, this is often not the case, and most face datasets simply contain input images and their corresponding task-related labels. Thus, improving identity-related robustness without the need for such annotations is of great importance. Here, we explore using face-recognition embedding vectors, as proxies for identities, to enforce such robustness. We propose to use the structure in the face-recognition embedding space, to implicitly emphasize rare samples within each class. We do so by weighting samples according to their conditional inverse density (CID) in the proxy embedding space. Our experiments suggest that such a simple sample weighting scheme, not only improves the training robustness, it often improves the overall performance as a result of such robustness. We also show that employing such constraints during training results in models that are significantly less sensitive to different levels of bias in the dataset. | 翻訳日:2023-04-11 19:32:38 公開日:2023-04-07 |
# WOMD-LiDAR:モーション予測のための生センサデータセットベンチマーク WOMD-LiDAR: Raw Sensor Dataset Benchmark for Motion Forecasting ( http://arxiv.org/abs/2304.03834v1 ) ライセンス: Link先を確認 | Kan Chen, Runzhou Ge, Hang Qiu, Rami Ai-Rfou, Charles R. Qi, Xuanyu Zhou, Zoey Yang, Scott Ettinger, Pei Sun, Zhaoqi Leng, Mustafa Mustafa, Ivan Bogun, Weiyue Wang, Mingxing Tan, Dragomir Anguelov | (参考訳) 広く採用されている動き予測データセットは、観測された感覚入力を3Dボックスやポリラインのような高レベルの抽象化で置き換える。
これらのスパースな形状は、知覚システムの予測で元のシーンに注釈を付けて推測される。
このような中間表現は、動き予測モデルの品質とコンピュータビジョンモデルの性能を結びつける。
さらに、人間によって設計された知覚と動き予測の明確なインターフェースは、通常、元の感覚入力に存在する意味情報のサブセットを通り過ぎます。
これらのモジュラーアプローチの効果について検討し、これらの制約を緩和する新しいパラダイムを設計し、エンドツーエンドのモーション予測モデルの開発を加速するために、大規模かつ高品質で多様なLiDARデータを用いて、Waymo Open Motion Dataset(WOMD)を拡張した。
新しい拡張現実データセットWOMD-LiDARは、それぞれ20秒にまたがる10000以上のシーンで構成され、高度に同期化され、校正された高品質のLiDAR点雲が、都市や郊外の地理的に捕獲される(https://waymo.com/open/data/motion/)。
Waymo Open Dataset (WOD)と比較して、WOMD-LiDARデータセットには100倍以上のシーンが含まれている。
さらに,lidarデータをモーション予測モデルのトレーニングに統合し,強力なベースラインを提供する。
実験の結果,LiDARデータは動き予測タスクの改善をもたらすことがわかった。
我々は、WOMD-LiDARがエンドツーエンドのモーション予測モデルを強化する新たな機会を提供することを期待している。 Widely adopted motion forecasting datasets substitute the observed sensory inputs with higher-level abstractions such as 3D boxes and polylines. These sparse shapes are inferred through annotating the original scenes with perception systems' predictions. Such intermediate representations tie the quality of the motion forecasting models to the performance of computer vision models. Moreover, the human-designed explicit interfaces between perception and motion forecasting typically pass only a subset of the semantic information present in the original sensory input. To study the effect of these modular approaches, design new paradigms that mitigate these limitations, and accelerate the development of end-to-end motion forecasting models, we augment the Waymo Open Motion Dataset (WOMD) with large-scale, high-quality, diverse LiDAR data for the motion forecasting task. The new augmented dataset WOMD-LiDAR consists of over 100,000 scenes that each spans 20 seconds, consisting of well-synchronized and calibrated high quality LiDAR point clouds captured across a range of urban and suburban geographies (https://waymo.com/open/data/motion/). Compared to Waymo Open Dataset (WOD), WOMD-LiDAR dataset contains 100x more scenes. Furthermore, we integrate the LiDAR data into the motion forecasting model training and provide a strong baseline. Experiments show that the LiDAR data brings improvement in the motion forecasting task. We hope that WOMD-LiDAR will provide new opportunities for boosting end-to-end motion forecasting models. | 翻訳日:2023-04-11 19:32:10 公開日:2023-04-07 |
# デモからの学習におけるブリッジングアクションスペースミスマッチ Bridging Action Space Mismatch in Learning from Demonstrations ( http://arxiv.org/abs/2304.03833v1 ) ライセンス: Link先を確認 | Gautam Salhotra, I-Chun Arthur Liu, Gaurav Sukhatme | (参考訳) デモンストレーションから学ぶ (LfD) 手法は、教師のデモンストレーションを用いて学習エージェントを望ましいソリューションに導く。
While some LfD methods can handle small mismatches in the action spaces of the teacher and student, here we address the case where the teacher demonstrates the task in an action space that can be substantially different from that of the student -- thereby inducing a large action space mismatch. We bridge this gap with a framework, Morphological Adaptation in Imitation Learning (MAIL), that allows training an agent from demonstrations by other agents with significantly different morphologies (from the student or each other). MAIL is able to learn from suboptimal demonstrations, so long as they provide some guidance towards a desired solution. We demonstrate MAIL on challenging household cloth manipulation tasks and introduce a new DRY CLOTH task -- cloth manipulation in 3D task with obstacles.
これらのタスクでは,2つのエンドエフェクタを有する模擬エージェントのデモンストレーションを用いて,ロボットの視覚制御ポリシーを1つのエンドエフェクタで訓練する。
MAILはLfDおよび非LfDベースラインよりも最大27%改善されている。
本物のFranka Pandaロボットにデプロイされ、布の特性(色、厚さ、サイズ、材料)とポーズ(回転と翻訳)のさまざまなバリエーションを扱うことができる。
さらに,単純な再配置タスクの文脈において,n-m-エンドエフェクタへの転送の一般化性を示す。 Learning from demonstrations (LfD) methods guide learning agents to a desired solution using demonstrations from a teacher. While some LfD methods can handle small mismatches in the action spaces of the teacher and student, here we address the case where the teacher demonstrates the task in an action space that can be substantially different from that of the student -- thereby inducing a large action space mismatch. We bridge this gap with a framework, Morphological Adaptation in Imitation Learning (MAIL), that allows training an agent from demonstrations by other agents with significantly different morphologies (from the student or each other). MAIL is able to learn from suboptimal demonstrations, so long as they provide some guidance towards a desired solution. We demonstrate MAIL on challenging household cloth manipulation tasks and introduce a new DRY CLOTH task -- cloth manipulation in 3D task with obstacles. In these tasks, we train a visual control policy for a robot with one end-effector using demonstrations from a simulated agent with two end-effectors. MAIL shows up to 27% improvement over LfD and non-LfD baselines. It is deployed to a real Franka Panda robot, and can handle multiple variations in cloth properties (color, thickness, size, material) and pose (rotation and translation). We further show generalizability to transfers from n-to-m end-effectors, in the context of a simple rearrangement task. | 翻訳日:2023-04-11 19:31:46 公開日:2023-04-07 |
# 商用量子コンピュータを用いたプログラム可能な真の乱数生成 A Programmable True Random Number Generator Using Commercial Quantum Computers ( http://arxiv.org/abs/2304.03830v1 ) ライセンス: Link先を確認 | Aviraj Sinha, Elena R. Henderson, Jessie M. Henderson, Eric C. Larson, and Mitchell A. Thornton | (参考訳) 乱数生成器(RNG)は多くの暗号システムにおいて必須の要素である。
真の乱数生成器(TRNG)は、量子力学現象から生じるような自然過程からのランダム性の源に依存する。
量子コンピュータは、一般化されたユーザ定義確率質量関数(pmf)の高品質で弱いランダムな源として機能できることを実証する。
具体的には、qc測定は、ユーザの特定したpmfに従ってサンプリングを行うプロセスを実行し、その結果、抽出関数によって処理可能な電子ビットからなるワードを生成して、非理想的量子ゲート操作やその他のシステムバイアスによる不正確性に対処する。
市販のゲートモデル量子コンピュータ上で実行されるプログラム量子回路としてtrngを実装するための、自動化された柔軟な手法を提案する。
ユーザは、所望の単語サイズを、キュービット数および所望のPMFの定義として指定する。
PMFのユーザ仕様に基づいて,提案するTRNGを,回路の量子深さの低減に最適化されたネイティブゲート操作を含む構造化OpenQASMファイルとして自動生成する。
その結果、TRNGは各実行/測定サイクルに複数ビットのランダム性を与えるため、各実行で生成されるランダムビットの数はQCのサイズによって制限される。
我々は,このアプローチの有効性を示す実験結果を提供する。 Random number generators (RNG) are essential elements in many cryptographic systems. True random number generators (TRNG) rely upon sources of randomness from natural processes such as those arising from quantum mechanics phenomena. We demonstrate that a quantum computer can serve as a high-quality, weakly random source for a generalized user-defined probability mass function (PMF). Specifically, QC measurement implements the process of variate sampling according to a user-specified PMF resulting in a word comprised of electronic bits that can then be processed by an extractor function to address inaccuracies due to non-ideal quantum gate operations and other system biases. We introduce an automated and flexible method for implementing a TRNG as a programmed quantum circuit that executes on commercially-available, gate-model quantum computers. The user specifies the desired word size as the number of qubits and a definition of the desired PMF. Based upon the user specification of the PMF, our compilation tool automatically synthesizes the desired TRNG as a structural OpenQASM file containing native gate operations that are optimized to reduce the circuit's quantum depth. The resulting TRNG provides multiple bits of randomness for each execution/measurement cycle; thus, the number of random bits produced in each execution is limited only by the size of the QC. We provide experimental results to illustrate the viability of this approach. | 翻訳日:2023-04-11 19:31:26 公開日:2023-04-07 |
# 最小数の量子ビットによる量子オラクルの自動合成 Automated Quantum Oracle Synthesis with a Minimal Number of Qubits ( http://arxiv.org/abs/2304.03829v1 ) ライセンス: Link先を確認 | Jessie M. Henderson, Elena R. Henderson, Aviraj Sinha, Mitchell A. Thornton, D. Michael Miller | (参考訳) グロバーの探索アルゴリズムやショアのアルゴリズムを含むいくつかの顕著な量子計算アルゴリズムは、数学関数の特定のインスタンスを量子回路表現として実現した対応する単射関数に埋め込む「奇数」と呼ばれる整数求職サブ回路の素因数分解を求める。
オラクルを設計し、特に特定のユースケースに最適化するように設計することは、非常に簡単な作業です。
例えば、現在のNISQベースの量子コンピュータの時代に量子回路を実装するという課題は、より大きい量子ビット数が1つ以上の量子ビットのデコヒーリングによって計算が失敗する可能性を高めるため、一般に最小の量子ビットで設計するべきであると規定している。
しかし、いくつかの量子回路は関数領域の値を保存する必要があり、これはオラクル回路の最小数の量子ビットを使うことを防げる。
したがって、量子オラクルは特定の応用を念頭に設計されなければならない。
本研究では,量子オラクル自動合成の2つの方法を提案する。
これらの手法の1つは最小数の量子ビットを使い、もう1つは関数領域の値を保存すると同時に、必要な量子ビットの総数も最小化する。
各方法について、既知の量子回路のユースケースを記述し、自動量子コンパイルと最適化ツールを用いてベンチマーク関数の集合のオーラクルを合成し、必要な量子ビット数や量子回路の複雑さを含むメトリクスと比較する。 Several prominent quantum computing algorithms--including Grover's search algorithm and Shor's algorithm for finding the prime factorization of an integer--employ subcircuits termed 'oracles' that embed a specific instance of a mathematical function into a corresponding bijective function that is then realized as a quantum circuit representation. Designing oracles, and particularly, designing them to be optimized for a particular use case, can be a non-trivial task. For example, the challenge of implementing quantum circuits in the current era of NISQ-based quantum computers generally dictates that they should be designed with a minimal number of qubits, as larger qubit counts increase the likelihood that computations will fail due to one or more of the qubits decohering. However, some quantum circuits require that function domain values be preserved, which can preclude using the minimal number of qubits in the oracle circuit. Thus, quantum oracles must be designed with a particular application in mind. In this work, we present two methods for automatic quantum oracle synthesis. One of these methods uses a minimal number of qubits, while the other preserves the function domain values while also minimizing the overall required number of qubits. For each method, we describe known quantum circuit use cases, and illustrate implementation using an automated quantum compilation and optimization tool to synthesize oracles for a set of benchmark functions; we can then compare the methods with metrics including required qubit count and quantum circuit complexity. | 翻訳日:2023-04-11 19:31:04 公開日:2023-04-07 |
# 自然言語問題記述から機能的に正しいコード編集を生成すること Towards Generating Functionally Correct Code Edits from Natural Language Issue Descriptions ( http://arxiv.org/abs/2304.03816v1 ) ライセンス: Link先を確認 | Sarah Fakhoury, Saikat Chakraborty, Madan Musuvathi, and Shuvendu K. Lahiri | (参考訳) OpenAIのCodexのような大規模言語モデル(LLM)は、幅広いプログラミングタスクにわたる自然言語記述からコードを生成する可能性を実証している。
最近、いくつかのベンチマークが出現し、隠されたテストケースの集合に関して自然言語の意図から機能的に正しいコードを生成するLLMの能力を評価している。
これにより、研究コミュニティはLLM能力の重要かつ再現可能な進歩を特定できるようになった。
しかし、現在、意図した変更の自然言語記述に基づいて、機能的に正しいコード編集を生成するLLMの能力を評価するためのベンチマークデータセットが不足している。
本稿は,NL2Fixがコード変更の自然言語記述(すなわち,リポジトリのイシューレポートに記載されているバグフィックス)を正しいコード修正に変換することで,このギャップに対処することを目的とする。
この目的のために,Defects4J-NL2Fixを紹介した。Defects4Jデータセットから283のJavaプログラムのデータセットで,バグ修正の高レベルな記述を付加し,そのタスクに対する最先端のLLMの性能を実証的に評価する。
その結果、これらのLLMSは64.6%のバグに対して妥当な修正を生成でき、最高のLCMベースの技術はこのベンチマークで21.20%のトップ1と35.68%のトップ5の精度を達成できることがわかった。 Large language models (LLMs), such as OpenAI's Codex, have demonstrated their potential to generate code from natural language descriptions across a wide range of programming tasks. Several benchmarks have recently emerged to evaluate the ability of LLMs to generate functionally correct code from natural language intent with respect to a set of hidden test cases. This has enabled the research community to identify significant and reproducible advancements in LLM capabilities. However, there is currently a lack of benchmark datasets for assessing the ability of LLMs to generate functionally correct code edits based on natural language descriptions of intended changes. This paper aims to address this gap by motivating the problem NL2Fix of translating natural language descriptions of code changes (namely bug fixes described in Issue reports in repositories) into correct code fixes. To this end, we introduce Defects4J-NL2Fix, a dataset of 283 Java programs from the popular Defects4J dataset augmented with high-level descriptions of bug fixes, and empirically evaluate the performance of several state-of-the-art LLMs for the this task. Results show that these LLMS together are capable of generating plausible fixes for 64.6% of the bugs, and the best LLM-based technique can achieve up to 21.20% top-1 and 35.68% top-5 accuracy on this benchmark. | 翻訳日:2023-04-11 19:30:41 公開日:2023-04-07 |
# 光リモートセンシング画像を用いた小型船舶検出のための高次空間相互作用強化軽量モデル High-order Spatial Interactions Enhanced Lightweight Model for Optical Remote Sensing Image-based Small Ship Detection ( http://arxiv.org/abs/2304.03812v1 ) ライセンス: Link先を確認 | Yifan Yin, Xu Cheng, Fan Shi, Xiufeng Liu, Huan Huo, Shengyong Chen | (参考訳) 光リモートセンシング画像に基づく高精度で信頼性の高い小型船舶検出は海上監視システムには不可欠であるが、既存の手法では検出性能と計算複雑性のバランスに苦慮することが多い。
本稿では,高次空間相互作用に基づく,衛星や無人航空機などの資源制限されたプラットフォームへの展開に適した,新しい軽量フレームワークである \textit{hsi-shipdetectionnet}を提案する。
HSI-ShipDetectionNetには、小型船専用の予測ブランチと、複雑さの低減を目的とした軽量なハイブリッドアテンションブロックが含まれている。
さらに、高階空間相互作用モジュールの使用により、高度な特徴理解とモデリング能力が向上する。
本モデルはKaggle海洋船舶検出データセットを用いて評価し,小型物体検出モデル,軽量検出モデル,船舶検出モデルを含む複数の最先端モデルと比較した。
その結果、HSI-ShipDetectionNetは、リソース制限されたプラットフォームへのデプロイに適した軽量で平均精度(mAP)で他のモデルよりも優れていた。 Accurate and reliable optical remote sensing image-based small-ship detection is crucial for maritime surveillance systems, but existing methods often struggle with balancing detection performance and computational complexity. In this paper, we propose a novel lightweight framework called \textit{HSI-ShipDetectionNet} that is based on high-order spatial interactions and is suitable for deployment on resource-limited platforms, such as satellites and unmanned aerial vehicles. HSI-ShipDetectionNet includes a prediction branch specifically for tiny ships and a lightweight hybrid attention block for reduced complexity. Additionally, the use of a high-order spatial interactions module improves advanced feature understanding and modeling ability. Our model is evaluated using the public Kaggle marine ship detection dataset and compared with multiple state-of-the-art models including small object detection models, lightweight detection models, and ship detection models. The results show that HSI-ShipDetectionNet outperforms the other models in terms of recall, and mean average precision (mAP) while being lightweight and suitable for deployment on resource-limited platforms. | 翻訳日:2023-04-11 19:30:16 公開日:2023-04-07 |
# トランスファーラーニングによるプライバシー保護型CNNトレーニング Privacy-Preserving CNN Training with Transfer Learning ( http://arxiv.org/abs/2304.03807v1 ) ライセンス: Link先を確認 | John Chiang | (参考訳) プライバシー保護の神経ネットワーク推論はよく研究されているが、同型CNNトレーニングは依然としてオープンな課題である。
本稿では,ただの同型暗号化(HE)技術に基づくプライバシー保護型CNNトレーニングを実現するための実践的ソリューションを提案する。
私たちの知る限りでは、これはこのナットを突破する最初の試みであり、これまでこの目標を達成した作業はありません。
Several techniques combine to make it done: (1) with transfer learning, privacy-preserving CNN training can be reduced to homomorphic neural network training, or even multiclass logistic regression (MLR) training; (2) via a faster gradient variant called $\texttt{Quadratic Gradient}$, an enhanced gradient method for MLR with a state-of-the-art performance in converge speed is applied in this work to achieve high performance; (3) we employ the thought of transformation in mathematics to transform approximating Softmax function in encryption domain to the well-studied approximation of Sigmoid function.
この変化を補完するために新しいタイプの損失関数が開発され、(4) 暗号文内のデータフローを管理するために$\texttt{Volley Revolver}$という単純な行列エンコーディング法が使われる。
私たちの作業を実装するための完全な実行可能なC++コードは、https://github.com/petitioner/HE.CNNtraining.orgにある。
転送学習を利用するための事前トレーニングモデルとして$\texttt{REGNET\_X\_400MF}$を選択する。
最初の128のMNISTトレーニングイメージをトレーニングデータとして、MNISTテストデータセット全体をテストデータとして使用します。
クライアントは6つの暗号文をクラウドにアップロードするだけでよく、64のvCPUを持つクラウド上で2つのイテレーションを実行するのに$\sim 21$ minsの費用がかかる。 Privacy-preserving nerual network inference has been well studied while homomorphic CNN training still remains an open challenging task. In this paper, we present a practical solution to implement privacy-preserving CNN training based on mere Homomorphic Encryption (HE) technique. To our best knowledge, this is the first attempt successfully to crack this nut and no work ever before has achieved this goal. Several techniques combine to make it done: (1) with transfer learning, privacy-preserving CNN training can be reduced to homomorphic neural network training, or even multiclass logistic regression (MLR) training; (2) via a faster gradient variant called $\texttt{Quadratic Gradient}$, an enhanced gradient method for MLR with a state-of-the-art performance in converge speed is applied in this work to achieve high performance; (3) we employ the thought of transformation in mathematics to transform approximating Softmax function in encryption domain to the well-studied approximation of Sigmoid function. A new type of loss function is alongside been developed to complement this change; and (4) we use a simple but flexible matrix-encoding method named $\texttt{Volley Revolver}$ to manage the data flow in the ciphertexts, which is the key factor to complete the whole homomorphic CNN training. The complete, runnable C++ code to implement our work can be found at: https://github.com/petitioner/HE.CNNtraining. We select $\texttt{REGNET\_X\_400MF}$ as our pre-train model for using transfer learning. We use the first 128 MNIST training images as training data and the whole MNIST testing dataset as the testing data. The client only needs to upload 6 ciphertexts to the cloud and it takes $\sim 21$ mins to perform 2 iterations on a cloud with 64 vCPUs, resulting in a precision of $21.49\%$. | 翻訳日:2023-04-11 19:29:58 公開日:2023-04-07 |
# 散逸によって保護されたGKP量子ビットの安定性と脱コヒーレンス率 Stability and decoherence rates of a GKP qubit protected by dissipation ( http://arxiv.org/abs/2304.03806v1 ) ライセンス: Link先を確認 | Lev-Arcady Sellem, R\'emi Robin, Philippe Campagne-Ibarcq and Pierre Rouchon | (参考訳) 量子高調波発振器のLindbladマスター方程式を実験的に解析する。
これはゴッテマン・キタエフ・プレスキル(gkp)状態と呼ばれる有限エネルギー周期格子状態をほぼ安定化し、論理量子ビットの符号化と保護に使用できる。
我々はリンドブラッド・マスター方程式の解のエネルギーに対して明らかに上界を与える。
論理キュービットのブロッホ球座標を定義するために3つの周期観測器を用いて、それらの力学はウィッテンラプラシアンの2次元トーラス上の拡散偏微分方程式によって支配されていることを示す。
これらの論理座標の進化は、位相空間の2つの二次に沿って小さな拡散的雑音過程が存在する場合でも指数関数的に遅い。
数値シミュレーションは、他の物理的に関係のあるノイズ過程に対して同様の結果を示す。 We analyze an experimentally accessible Lindblad master equation for a quantum harmonic oscillator. It approximately stabilizes finite-energy periodic grid states called Gottesman-Kitaev-Preskill (GKP) states, that can be used to encode and protect a logical qubit. We give explicit upper bounds for the energy of the solutions of the Lindblad master equation. Using three periodic observables to define the Bloch sphere coordinates of a logical qubit, we show that their dynamics is governed by a diffusion partial differential equation on a 2D-torus with a Witten Laplacian. We show that the evolution of these logical coordinates is exponentially slow even in presence of small diffusive noise processes along the two quadratures of the phase space. Numerical simulations indicate similar results for other physically relevant noise processes. | 翻訳日:2023-04-11 19:29:06 公開日:2023-04-07 |
# 生成型adversarial networkによるモデル誤特定の修正 Correcting Model Misspecification via Generative Adversarial Networks ( http://arxiv.org/abs/2304.03805v1 ) ライセンス: Link先を確認 | Pronoma Banerjee, Manasi V Gude, Rajvi J Sampat, Sharvari M Hedaoo, Soma Dhavala, Snehanshu Saha | (参考訳) 機械学習モデルは、しばしば確率的に不特定化されるため、予測の堅牢性が欠如する。
本稿では,複数のパラダイム非依存な先行モデルにおける確率的誤特定を補正し,その誤特定を解消するモデルの能力をテストするためのフレームワークを提案する。
ABC-GANフレームワークは、GAN(Generative Adversarial Networks)とABC(Adroximate Bayesian Computation)を組み合わせた新しい生成モデリングパラダイムである。
この新たなパラダイムは、ABCによるモデリングプロセスに関する主観的な知識をレギュレータとして組み込むことによって、既存のGANを支援する。
同時に、他のベイズ解析とは異なり、GANの生成元を任意に複雑にすることができるので、明示的な知識は完璧である必要はない。
ABC-GANは、識別器が暗黙的にそれらを学び、複数の生成モデルの同時仕様を可能にするため、要約統計と距離メトリクスの必要性を排除している。
モデルの誤特定は,様々なバイアスやばらつきのノイズを導入することでシミュレーションされる。
修正項はABC-GANを介して学習され、スキップ接続はスキップGANと呼ばれる。
スキップ接続の強度は、必要な補正の量や、事前のモデルがどの程度誤っているかを示す。
簡単な実験により,ABC-GAN モデルでは,前者の誤特定を補正するだけでなく,騒音条件下での先行モデルと同等以上の性能を示した。
本提案では,ABC-GANが両世界のベストを得られることを示す。 Machine learning models are often misspecified in the likelihood, which leads to a lack of robustness in the predictions. In this paper, we introduce a framework for correcting likelihood misspecifications in several paradigm agnostic noisy prior models and test the model's ability to remove the misspecification. The "ABC-GAN" framework introduced is a novel generative modeling paradigm, which combines Generative Adversarial Networks (GANs) and Approximate Bayesian Computation (ABC). This new paradigm assists the existing GANs by incorporating any subjective knowledge available about the modeling process via ABC, as a regularizer, resulting in a partially interpretable model that operates well under low data regimes. At the same time, unlike any Bayesian analysis, the explicit knowledge need not be perfect, since the generator in the GAN can be made arbitrarily complex. ABC-GAN eliminates the need for summary statistics and distance metrics as the discriminator implicitly learns them and enables simultaneous specification of multiple generative models. The model misspecification is simulated in our experiments by introducing noise of various biases and variances. The correction term is learnt via the ABC-GAN, with skip connections, referred to as skipGAN. The strength of the skip connection indicates the amount of correction needed or how misspecified the prior model is. Based on a simple experimental setup, we show that the ABC-GAN models not only correct the misspecification of the prior, but also perform as well as or better than the respective priors under noisier conditions. In this proposal, we show that ABC-GANs get the best of both worlds. | 翻訳日:2023-04-11 19:28:42 公開日:2023-04-07 |
# 高忠実テキスト・画像合成のための拡散モデルの空間的時間的注意 Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis ( http://arxiv.org/abs/2304.03869v1 ) ライセンス: Link先を確認 | Qiucheng Wu, Yujian Liu, Handong Zhao, Trung Bui, Zhe Lin, Yang Zhang, Shiyu Chang | (参考訳) 拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
しかし、これらのモデルの1つの重要な制限は、欠落したオブジェクト、不一致属性、不一致したオブジェクトなど、テキスト記述に関して生成された画像の忠実度が低いことである。
このような不整合の1つの主要な理由は、オブジェクトがどのピクセル領域に現れるべきかを制御する空間次元と、異なる詳細レベルがデノナイジングステップを通じてどのように追加されるかを制御する時間次元の両方において、テキストに対する不正確な相互アテンションである。
本稿では,拡散モデルにおける空間-時間間相互接続を明示的に制御する新しいテキスト-画像間アルゴリズムを提案する。
まず、レイアウト予測器を用いてテキストに言及されたオブジェクトの画素領域を予測する。
次に、テキスト記述全体に対する注意と、そのオブジェクトの対応するピクセル領域における特定のオブジェクトの局所的な説明を組み合わせることで、空間的注意制御を行う。
さらに、各装飾ステップで組み合わせ重みを変更できるようにし、画像とテキストとの忠実度の高い組合せ重みを最適化することにより、時間的注意制御をさらに追加する。
実験により,拡散モデルを微調整することなく,拡散モデルベースラインよりも忠実度の高い画像を生成することがわかった。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/Diffusion-SpaceTime-Attnで公開されています。 Diffusion-based models have achieved state-of-the-art performance on text-to-image synthesis tasks. However, one critical limitation of these models is the low fidelity of generated images with respect to the text description, such as missing objects, mismatched attributes, and mislocated objects. One key reason for such inconsistencies is the inaccurate cross-attention to text in both the spatial dimension, which controls at what pixel region an object should appear, and the temporal dimension, which controls how different levels of details are added through the denoising steps. In this paper, we propose a new text-to-image algorithm that adds explicit control over spatial-temporal cross-attention in diffusion models. We first utilize a layout predictor to predict the pixel regions for objects mentioned in the text. We then impose spatial attention control by combining the attention over the entire text description and that over the local description of the particular object in the corresponding pixel region of that object. The temporal attention control is further added by allowing the combination weights to change at each denoising step, and the combination weights are optimized to ensure high fidelity between the image and the text. Experiments show that our method generates images with higher fidelity compared to diffusion-model-based baselines without fine-tuning the diffusion model. Our code is publicly available at https://github.com/UCSB-NLP-Chang/Diffusion-SpaceTime-Attn. | 翻訳日:2023-04-11 19:21:49 公開日:2023-04-07 |
# 表情のマスキング学生データセット Masked Student Dataset of Expressions ( http://arxiv.org/abs/2304.03867v1 ) ライセンス: Link先を確認 | Sridhar Sola and Darshan Gera | (参考訳) 表情認識(FER)アルゴリズムは、顔の隠蔽がほとんど、あるいは全くない制約のある環境でうまく機能する。
しかしながら、現実世界の顔隠蔽は一般的であり、特に現在のCovid-19シナリオでフェイスマスクを使用する必要がある。
FERの隠蔽問題に関する研究は存在するが、特定のマスクのシナリオについてはこれまでほとんど行われていない。
さらに、この領域ではほとんどが合成されたマスクferデータセットを使用している。
そこで,これらの課題に動機づけられ,142人から収集された実世界の非マスク・マスク表情画像1,960点からなる,新しいデータセットであるmasted student dataset of expression(msd-e)を提案する。
難解な顔特徴の問題とともに、マスクferのその他の微妙な問題がデータセットでどのように表現されているかを説明します。
そして,resnet-18を用いてベースライン結果を提供し,マスクの有無でferを訓練すると,非マスクケースで性能が低下することを確認した。
この課題に対処するために、コントラスト学習と知識蒸留という2つの訓練パラダイムを検証し、マスクシナリオにおけるモデルの性能を高めながら、非マスク性能を維持した。
さらに,t-sneプロットとgrad-camを用いて結果の可視化を行い,これらのパラダイムがマスクシナリオで利用可能な限定機能を活用することを示した。
最後に、MSD-E上でSOTA法をベンチマークする。 Facial expression recognition (FER) algorithms work well in constrained environments with little or no occlusion of the face. However, real-world face occlusion is prevalent, most notably with the need to use a face mask in the current Covid-19 scenario. While there are works on the problem of occlusion in FER, little has been done before on the particular face mask scenario. Moreover, the few works in this area largely use synthetically created masked FER datasets. Motivated by these challenges posed by the pandemic to FER, we present a novel dataset, the Masked Student Dataset of Expressions or MSD-E, consisting of 1,960 real-world non-masked and masked facial expression images collected from 142 individuals. Along with the issue of obfuscated facial features, we illustrate how other subtler issues in masked FER are represented in our dataset. We then provide baseline results using ResNet-18, finding that its performance dips in the non-masked case when trained for FER in the presence of masks. To tackle this, we test two training paradigms: contrastive learning and knowledge distillation, and find that they increase the model's performance in the masked scenario while maintaining its non-masked performance. We further visualise our results using t-SNE plots and Grad-CAM, demonstrating that these paradigms capitalise on the limited features available in the masked scenario. Finally, we benchmark SOTA methods on MSD-E. | 翻訳日:2023-04-11 19:21:24 公開日:2023-04-07 |
# 保守的客観モデルは、対照的な分散に基づくエネルギーモデルの一種である Conservative objective models are a special kind of contrastive divergence-based energy model ( http://arxiv.org/abs/2304.03866v1 ) ライセンス: Link先を確認 | Christopher Beckham, Christopher Pal | (参考訳) この研究において、オフラインモデルに基づく最適化(MBO)のための保守的客観モデル(COM)は、エネルギー関数が入力の非条件確率と報酬変数の条件確率の両方を表す特別な種類の差分型エネルギーモデルであることを示す。
初期定式化は学習した分布からのみモードをサンプリングするが,勾配上昇サンプリングをLangevin MCMCサンプルに置き換える簡単な修正を提案する。
これは、入力をサンプリングする確率が予測された報酬に比例する特別な確率モデルをもたらす。
最後に,非条件確率と条件確率が別々にモデル化されるようにモデルが分離された場合,より良いサンプルが得られることを示す。 In this work we theoretically show that conservative objective models (COMs) for offline model-based optimisation (MBO) are a special kind of contrastive divergence-based energy model, one where the energy function represents both the unconditional probability of the input and the conditional probability of the reward variable. While the initial formulation only samples modes from its learned distribution, we propose a simple fix that replaces its gradient ascent sampler with a Langevin MCMC sampler. This gives rise to a special probabilistic model where the probability of sampling an input is proportional to its predicted reward. Lastly, we show that better samples can be obtained if the model is decoupled so that the unconditional and conditional probabilities are modelled separately. | 翻訳日:2023-04-11 19:20:59 公開日:2023-04-07 |
# 単純な高調波発振器を持つ系のシュレーディンガー方程式解としてのスピンの量子的測定における波動関数崩壊のモデル A model of wave function collapse in a quantum measurement of spin as the Schroedinger equation solution of a system with a simple harmonic oscillator in a bath ( http://arxiv.org/abs/2304.03865v1 ) ライセンス: Link先を確認 | Li Hua Yu | (参考訳) 我々は,量子スピン計測プロセスにおける波動関数の崩壊を研究するために開発したモデルに対して,一連の正確なシステム解を提案する。
具体的には、磁場と相互作用する磁気モーメントと、調和振動子の浴である環境との結合により、スピン \frac{1}{2}の単純な調和振動子の波動関数の進化を計算した。
系の時間発展は、2つの独立ヒルベルト空間の直積によって記述される: 1つは減衰された単純調和振動子であり、そのポテンシャルはスピンに基づいて2つに分割され、もう1つはバスの効果、すなわちブラウン運動を表す。
この一連の波動関数の初期状態は、系の固有状態として定義される正則基底を形成する。
システムが最初これらの状態のいずれかにある場合、最終結果が予め決められ、すなわち、測定は決定論的である。
浴槽が最初に基底状態にあり、波動関数が最初に原点の波状パケットである場合、最初のスピンに依存する2つのポテンシャル井戸の1つに崩壊する。
初期スピンが磁場に平行でないブロッホ球面内のベクトルである場合、2つのポテンシャル井戸間の最終分布は、よく知られた基底状態幅を持つ初期スピン状態に適用されるボルン則によって与えられる。
したがって、結果も予め決められる。
我々はベルの定理[1]にその意味を論じる。
最後に,量子力学の統計的解釈の理解の意義について概説する。 We present a set of exact system solutions to a model we developed to study wave function collapse in the quantum spin measurement process. Specifically, we calculated the wave function evolution for a simple harmonic oscillator of spin \frac{1}{2}, with its magnetic moment in interaction with a magnetic field, coupled to an environment that is a bath of harmonic oscillators. The system's time evolution is described by the direct product of two independent Hilbert spaces: one that is defined by an effective Hamiltonian, which represents a damped simple harmonic oscillator with its potential well divided into two, based on the spin and the other that represents the effect of the bath, i.e., the Brownian motion. The initial states of this set of wave functions form an orthonormal basis, defined as the eigenstates of the system. If the system is initially in one of these states, the final result is predetermined, i.e., the measurement is deterministic. If the bath is initially in the ground state,and the wave function is initially a wave packet at the origin, it collapses into one of the two potential wells depending on the initial spin. If the initial spin is a vector in the Bloch sphere not parallel to the magnetic field, the final distribution among the two potential wells is given by the Born rule applied to the initial spin state with the well-known ground state width. Hence, the result is also predetermined. We discuss its implications to the Bell theorem[1]. We end with a summary of the implications for the understanding of the statistical interpretation of quantum mechanics. | 翻訳日:2023-04-11 19:20:44 公開日:2023-04-07 |
# SGDP: ストリームグラフニューラルネットワークに基づくデータプレファー SGDP: A Stream-Graph Neural Network Based Data Prefetcher ( http://arxiv.org/abs/2304.03864v1 ) ライセンス: Link先を確認 | Yiyuan Yang, Rongshang Li, Qiquan Shi, Xijun Li, Gang Hu, Xing Li and Mingxuan Yuan | (参考訳) データプリフェッチはストレージシステムの最適化とアクセス性能の向上に重要である。
従来のプリフェッチは、シーケンシャル論理ブロックアドレス(LBA)のアクセスパターンのマイニングには適しているが、現実世界のアプリケーションで一般的に見られる複雑な非シーケンスパターンは扱えない。
最先端(SOTA)学習ベースのプレフェッチは、より多くのLBAアクセスをカバーする。
しかし、LBAデルタ間の空間的相互依存性を十分に考慮していないため、性能やロバスト性が制限される。
本稿では,SGDP(Stream-Graph Neural Network-based Data Prefetcher)を提案する。
具体的には、重み付き有向グラフ構造を用いてLBAデルタストリームをモデル化し、LBAデルタ間の相互関係を表現し、データプリフェッチのためのグラフニューラルネットワークによりハイブリッド特徴を抽出する。
我々は8つの実世界のデータセットについて広範な実験を行う。
実験の結果、SGDPがSOTA法を6.21%、有効プレフェッチ率7.00%で上回り、平均3.13倍の速さで上回っていることが確認された。
さらに、SGDPを異なるストリーム構造によって異なる変種に一般化し、アプリケーションシナリオをさらに拡張し、その堅牢性を示す。
SGDPは、新しいデータプリフェッチソリューションを提供し、実験段階の商用ハイブリッドストレージシステムで検証されている。
私たちのコードと付録はhttps://github.com/yysjz1997/SGDP/で公開されています。 Data prefetching is important for storage system optimization and access performance improvement. Traditional prefetchers work well for mining access patterns of sequential logical block address (LBA) but cannot handle complex non-sequential patterns that commonly exist in real-world applications. The state-of-the-art (SOTA) learning-based prefetchers cover more LBA accesses. However, they do not adequately consider the spatial interdependencies between LBA deltas, which leads to limited performance and robustness. This paper proposes a novel Stream-Graph neural network-based Data Prefetcher (SGDP). Specifically, SGDP models LBA delta streams using a weighted directed graph structure to represent interactive relations among LBA deltas and further extracts hybrid features by graph neural networks for data prefetching. We conduct extensive experiments on eight real-world datasets. Empirical results verify that SGDP outperforms the SOTA methods in terms of the hit ratio by 6.21%, the effective prefetching ratio by 7.00%, and speeds up inference time by 3.13X on average. Besides, we generalize SGDP to different variants by different stream constructions, further expanding its application scenarios and demonstrating its robustness. SGDP offers a novel data prefetching solution and has been verified in commercial hybrid storage systems in the experimental phase. Our codes and appendix are available at https://github.com/yyysjz1997/SGDP/. | 翻訳日:2023-04-11 19:20:16 公開日:2023-04-07 |
# 音声について:話者認識データセットのダイナミクスに関する縦断的研究 About Voice: A Longitudinal Study of Speaker Recognition Dataset Dynamics ( http://arxiv.org/abs/2304.03858v1 ) ライセンス: Link先を確認 | Casandra Rusti, Anna Leschanowsky, Carolyn Quinlan, Michaela Pnacek (ova), Lauriane Gorce, Wiebke (Toussaint) Hutiri | (参考訳) 顔認識と同様に、話者認識は、銀行、教育、採用、移民、法執行、医療、健康など幅広い産業において、音声ベースの生体認証に広く使われている。
しかし、データセットの評価と監査はコンピュータビジョンと顔認識におけるデータプラクティスを改善してきたが、話者認識におけるデータプラクティスは、ほとんど疑わしくなかった。
我々の研究は、データセットの利用が時間とともにどのように進化してきたか、そしてこれが話者認識システムにおけるバイアスと公平性にどんな影響を及ぼすかを探求することによって、このギャップに対処することを目的としている。
これまでの研究では、一般的な話者認識ベンチマークにおける歴史的、表現的、測定バイアスの存在が示されている。
本稿では,2012年から2021年までの訓練と評価に用いる話者認識データセットの縦断的研究を行う。
我々は,話者認識アプローチが深層ニューラルネットワークの普及に移行した重要な期間における,データセットのコミュニティ導入と利用状況の変化を調査するため,700件近い論文を調査した。
本研究は,この分野で最も一般的に使用されるデータセットを特定し,その使用パターンを調査し,バイアス,公平性,その他の倫理的懸念に影響を与える属性を評価する。
以上より,話者認識技術の倫理と公平性に関するさらなる研究分野が示唆された。 Like face recognition, speaker recognition is widely used for voice-based biometric identification in a broad range of industries, including banking, education, recruitment, immigration, law enforcement, healthcare, and well-being. However, while dataset evaluations and audits have improved data practices in computer vision and face recognition, the data practices in speaker recognition have gone largely unquestioned. Our research aims to address this gap by exploring how dataset usage has evolved over time and what implications this has on bias and fairness in speaker recognition systems. Previous studies have demonstrated the presence of historical, representation, and measurement biases in popular speaker recognition benchmarks. In this paper, we present a longitudinal study of speaker recognition datasets used for training and evaluation from 2012 to 2021. We survey close to 700 papers to investigate community adoption of datasets and changes in usage over a crucial time period where speaker recognition approaches transitioned to the widespread adoption of deep neural networks. Our study identifies the most commonly used datasets in the field, examines their usage patterns, and assesses their attributes that affect bias, fairness, and other ethical concerns. Our findings suggest areas for further research on the ethics and fairness of speaker recognition technology. | 翻訳日:2023-04-11 19:19:54 公開日:2023-04-07 |
# 可変型リカバリのためのディープラーニングの再検討 Revisiting Deep Learning for Variable Type Recovery ( http://arxiv.org/abs/2304.03854v1 ) ライセンス: Link先を確認 | Kevin Cao, Kevin Leach | (参考訳) コンパイルされたバイナリ実行ファイルは、リバースエンジニアリング、マルウェア分析、ソフトウェアシステムのメンテナンスで利用可能な唯一の成果物である。
残念ながら、変数型のような意味情報の欠如は、解釈するバイナリを難しくする。
バイナリの理解性を改善するために、研究者たちは最近、機械学習技術を使用して、元のソースコードに含まれる意味情報を予測する。
chenらはdirtyを実装した。dirtyはトランスフォーマベースのエンコーダ-デコーダアーキテクチャで、デコンパイラ出力トークンと可変サイズ情報を活用することで、変数名と型で逆コンパイルコードを拡張できる。
chenらは、既存の静的解析やaiベースの技術と比較して、hex-rays decompiler出力における名前と型抽出精度が大幅に向上していることを示した。
オープンソースであるghidra decompilerによって生成されたデータセット上でdirtyモデルを再トレーニングすることで、元のdirty結果を拡張する。
Chenらは、解析中にDWARFシンボルを解析・組み込むのが難しいため、Ghidraは適切な逆コンパイラ候補ではないと結論づけたが、Ghidraによって生成された変数データの簡単な解析は、同様のリタイピング性能をもたらすことを示した。
この研究がGhidraデコンパイラのさらなる関心を喚起し、研究プロジェクトでの利用を期待する。 Compiled binary executables are often the only available artifact in reverse engineering, malware analysis, and software systems maintenance. Unfortunately, the lack of semantic information like variable types makes comprehending binaries difficult. In efforts to improve the comprehensibility of binaries, researchers have recently used machine learning techniques to predict semantic information contained in the original source code. Chen et al. implemented DIRTY, a Transformer-based Encoder-Decoder architecture capable of augmenting decompiled code with variable names and types by leveraging decompiler output tokens and variable size information. Chen et al. were able to demonstrate a substantial increase in name and type extraction accuracy on Hex-Rays decompiler outputs compared to existing static analysis and AI-based techniques. We extend the original DIRTY results by re-training the DIRTY model on a dataset produced by the open-source Ghidra decompiler. Although Chen et al. concluded that Ghidra was not a suitable decompiler candidate due to its difficulty in parsing and incorporating DWARF symbols during analysis, we demonstrate that straightforward parsing of variable data generated by Ghidra results in similar retyping performance. We hope this work inspires further interest and adoption of the Ghidra decompiler for use in research projects. | 翻訳日:2023-04-11 19:19:35 公開日:2023-04-07 |
# StepMix: 外部変数を持つ一般化混合モデルの擬似的推定のためのPythonパッケージ StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables ( http://arxiv.org/abs/2304.03853v1 ) ライセンス: Link先を確認 | Sacha Morin, Robin Legault, Zsuzsa Bakk, Charles-\'Edouard Gigu\`ere, Roxane de la Sablonni\`ere, \'Eric Lacourse | (参考訳) StepMixは、外部変数(共変量および遠位結果)を持つ一般化有限混合モデル(潜時プロファイルおよび潜時クラス解析)の擬似的様相推定(1段階、2段階、3段階のアプローチ)のためのオープンソースソフトウェアパッケージである。
社会科学における多くの応用において、主な目的は個人を潜在クラスに分類するだけでなく、これらのクラスを使用してより複雑な統計モデルを開発することである。
これらのモデルは一般に、潜在クラスを観測指標に関連付ける測定モデルと、共変量と結果変数を潜在クラスに関連付ける構造モデルに分けられる。
測定と構造モデルは、いわゆるワンステップアプローチまたはステップワイズ手法を用いて共同で推定することができ、推定された潜在クラスの解釈可能性に関する実践者にとって重要な利点を示す。
1段階のアプローチに加えて、StepMixはBCHとMLの修正によるバイアス調整3段階法や、より最近の2段階のアプローチなど、文献から最も重要なステップワイズ推定手法を実装している。
これらの擬似的様相推定器は、特定の期待-最大化サブルーチンとして統一された枠組みの下で提示される。
データサイエンスコミュニティで採用を促進するため、stepmixはscikit-learnライブラリのオブジェクト指向設計に従い、pythonとrの両方でインターフェースを提供する。 StepMix is an open-source software package for the pseudo-likelihood estimation (one-, two- and three-step approaches) of generalized finite mixture models (latent profile and latent class analysis) with external variables (covariates and distal outcomes). In many applications in social sciences, the main objective is not only to cluster individuals into latent classes, but also to use these classes to develop more complex statistical models. These models generally divide into a measurement model that relates the latent classes to observed indicators, and a structural model that relates covariates and outcome variables to the latent classes. The measurement and structural models can be estimated jointly using the so-called one-step approach or sequentially using stepwise methods, which present significant advantages for practitioners regarding the interpretability of the estimated latent classes. In addition to the one-step approach, StepMix implements the most important stepwise estimation methods from the literature, including the bias-adjusted three-step methods with BCH and ML corrections and the more recent two-step approach. These pseudo-likelihood estimators are presented in this paper under a unified framework as specific expectation-maximization subroutines. To facilitate and promote their adoption among the data science community, StepMix follows the object-oriented design of the scikit-learn library and provides interfaces in both Python and R. | 翻訳日:2023-04-11 19:19:13 公開日:2023-04-07 |
# リモートセンシング画像におけるロバスト視覚質問応答の多言語化 Multilingual Augmentation for Robust Visual Question Answering in Remote Sensing Images ( http://arxiv.org/abs/2304.03844v1 ) ライセンス: Link先を確認 | Zhenghang Yuan, Lichao Mou, and Xiao Xiang Zhu | (参考訳) リモートセンシング画像の内容に基づく質問への回答を目指して,近年,リモートセンシングデータ(rsvqa)に対する視覚的質問応答が注目されている。
しかし、以前のRSVQAの研究はRSVQAの堅牢性にはほとんど焦点を当てていない。
RSVQAモデルの信頼性を高めるために、新しい単語と異なる質問テンプレートに対する堅牢な表現を同じ意味で学習する方法が重要な課題である。
提案した拡張データセットでは、同じ意味を持つオリジナルのデータセットに加えて、より多くの質問が得られます。
そこで本研究では,多様な質問テンプレートや単語に対して,ロバストなRSVQAモデルをトレーニングするための対照的な学習戦略を提案する。
実験の結果,提案手法はRSVQAモデルの堅牢性向上に有効であることが示された。
さらに、対照的な学習戦略は、低解像度(LR)データセット上でうまく機能する。 Aiming at answering questions based on the content of remotely sensed images, visual question answering for remote sensing data (RSVQA) has attracted much attention nowadays. However, previous works in RSVQA have focused little on the robustness of RSVQA. As we aim to enhance the reliability of RSVQA models, how to learn robust representations against new words and different question templates with the same meaning is the key challenge. With the proposed augmented dataset, we are able to obtain more questions in addition to the original ones with the same meaning. To make better use of this information, in this study, we propose a contrastive learning strategy for training robust RSVQA models against diverse question templates and words. Experimental results demonstrate that the proposed augmented dataset is effective in improving the robustness of the RSVQA model. In addition, the contrastive learning strategy performs well on the low resolution (LR) dataset. | 翻訳日:2023-04-11 19:18:48 公開日:2023-04-07 |
# なぜ段階的に考えるのか?
経験の局所性から推論が現れる Why think step-by-step? Reasoning emerges from the locality of experience ( http://arxiv.org/abs/2304.03843v1 ) ライセンス: Link先を確認 | Ben Prystawski, Noah D. Goodman | (参考訳) 人間は力強く神秘的な能力を持っている。
純粋に精神的な一連のステップを通じて作業することで、世界から追加のデータが得られていないにもかかわらず、直接的に行うことができない推論が可能になる。
同様に、大きな言語モデルは、質問に答える前に中間ステップを生成するチェーン・オブ・ソート推論を通じて複雑なタスクでより良く機能する。
我々は,推論がいつ,なぜ役に立つのかという疑問を言語モデルを用いて調査し,相互に強い影響を与える変数の局所クラスタからなるデータのトレーニングにおいて,推論が有効であるという仮説を検証した。
これらの訓練条件は、訓練中に一緒に見られなかった変数間の関係を推定するために、正確な局所推論の連鎖を可能にする。
ベイズネットが定義した共役分布からサンプルに対して自己回帰変換器を訓練するが、各サンプルの変数のサブセットのみを含む。
言語モデルの条件付き確率を中間的推論ステップと無関係に一致させる能力を比較し,中間段階が変数間の依存関係に関して局所的に構造化された場合のみ有効であることを示す。
さらに、中間変数は観測情報とターゲット推論の関係に関係している必要がある。
この結果から,学習データの統計的構造が推論の有効性を段階的に推し進めることを示す。 Humans have a powerful and mysterious capacity to reason. By working through a series of purely mental steps, we can make inferences we would not be capable of making directly -- despite that fact that we get no additional data from the world. Similarly, large language models can perform better at complex tasks through chain-of-thought reasoning, where they generate intermediate steps before answering a question. We use language models to investigate the questions of when and why reasoning is helpful, testing the hypothesis that reasoning is effective when training data consisting of local clusters of variables that influence each other strongly. These training conditions enable the chaining of accurate local inferences in order to estimate relationships between variables that were not seen together in training. We train an autoregressive transformer on samples from joint distributions defined by Bayes nets, but only include a subset of all the variables in each sample. We compare language models' ability to match conditional probabilities both with and without intermediate reasoning steps, finding that intermediate steps help only when the training data is locally structured with respect to dependencies between variables. Furthermore, intermediate variables need to be relevant to the relationship between observed information and target inferences. Our results illustrate how the statistical structure of training data drives the effectiveness of reasoning step by step. | 翻訳日:2023-04-11 19:18:33 公開日:2023-04-07 |
# aspest: アクティブラーニングと選択的予測のギャップを埋める ASPEST: Bridging the Gap Between Active Learning and Selective Prediction ( http://arxiv.org/abs/2304.03870v1 ) ライセンス: Link先を確認 | Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan Arik, Somesh Jha, Tomas Pfister | (参考訳) 選択的予測は、モデルの不確実性が高い場合の予測を省略する信頼できるモデルを学ぶことを目的としている。
これらの予測は、さらなる評価のために人間の専門家に延期することができる。
しかし、現実世界のシナリオの多くでは、テストデータの分布はトレーニングデータとは異なる。
この結果、より正確な予測が得られず、多くのシナリオにおいて困難で高価である人間ラベルの増加が必要となる。
アクティブラーニングは、最も有益な例のみを問うことでこの困難を回避し、いくつかのケースでは、全体的なラベリングの労力を減らすことが示されている。
そこで本研究では,選択予測とアクティブ学習のギャップを橋渡しし,精度とカバレッジを高めながら,移動対象領域からより有意義なサンプルをクエリする,アクティブ選択予測と呼ばれる新しい学習パラダイムを提案する。
そこで本研究では,自己学習によるモデルスナップショットのアンサンブルを擬似ラベルとして学習する,シンプルで効果的なソリューションであるASPESTを提案する。
領域シフトを伴う画像、テキスト、構造化データセットの大規模な実験により、アクティブな選択的予測は、選択的な予測とアクティブな学習(例えば、MNIST$\to$SVHNベンチマークでは100のラベル付け予算で、ASPESTはAUCのメトリックを79.36%から88.84%に改善し、ループ内での人間をより最適な利用を達成する。 Selective prediction aims to learn a reliable model that abstains from making predictions when the model uncertainty is high. These predictions can then be deferred to a human expert for further evaluation. In many real-world scenarios, however, the distribution of test data is different from the training data. This results in more inaccurate predictions, necessitating increased human labeling, which is difficult and expensive in many scenarios. Active learning circumvents this difficulty by only querying the most informative examples and, in several cases, has been shown to lower the overall labeling effort. In this work, we bridge the gap between selective prediction and active learning, proposing a new learning paradigm called active selective prediction which learns to query more informative samples from the shifted target domain while increasing accuracy and coverage. For this new problem, we propose a simple but effective solution, ASPEST, that trains ensembles of model snapshots using self-training with their aggregated outputs as pseudo labels. Extensive experiments on several image, text and structured datasets with domain shifts demonstrate that active selective prediction can significantly outperform prior work on selective prediction and active learning (e.g. on the MNIST$\to$SVHN benchmark with the labeling budget of 100, ASPEST improves the AUC metric from 79.36% to 88.84%) and achieves more optimal utilization of humans in the loop. | 翻訳日:2023-04-11 19:09:53 公開日:2023-04-07 |
# $\nabla$t NeRFによるイベントベースカメラトラッカー Event-based Camera Tracker by $\nabla$t NeRF ( http://arxiv.org/abs/2304.04559v1 ) ライセンス: Link先を確認 | Mana Masuda, Yusuke Sekikawa, Hideo Saito | (参考訳) カメラが3Dの世界を移動すると、ピクセルの値がわずかに変化し、イベントベースのカメラがスパースイベントとしてその変化を観測する。
カメラポーズの効率回復にスパースイベントをどのように利用できるか?
ニューラル・ラジアンス・フィールド(nerf)として表現されたシーンの偏差イベントと時間勾配の誤差を最小化することでカメラのポーズを回復できることを示す。
シーンの時間勾配の計算を可能にするため,NeRFカメラのポーズを時間関数として拡張する。
NeRFに対する入力ポーズが実際のポーズと一致する場合、NeRFの時間勾配の出力は、観測された事象の点の強度変化と等しい。
この原理を用いて、スパースイベント観測を用いてポーズ更新を実現するTeGRAと呼ばれるイベントベースのカメラポーズ追跡フレームワークを提案する。
我々の知る限りでは、これはシーンの暗黙的な表現とイベントからのゆるやかな強度変化を用いた最初のカメラポーズ推定アルゴリズムである。 When a camera travels across a 3D world, only a fraction of pixel value changes; an event-based camera observes the change as sparse events. How can we utilize sparse events for efficient recovery of the camera pose? We show that we can recover the camera pose by minimizing the error between sparse events and the temporal gradient of the scene represented as a neural radiance field (NeRF). To enable the computation of the temporal gradient of the scene, we augment NeRF's camera pose as a time function. When the input pose to the NeRF coincides with the actual pose, the output of the temporal gradient of NeRF equals the observed intensity changes on the event's points. Using this principle, we propose an event-based camera pose tracking framework called TeGRA which realizes the pose update by using the sparse event's observation. To the best of our knowledge, this is the first camera pose estimation algorithm using the scene's implicit representation and the sparse intensity change from events. | 翻訳日:2023-04-11 15:10:54 公開日:2023-04-07 |
# 注意: 限界確率は必要か? Attention: Marginal Probability is All You Need? ( http://arxiv.org/abs/2304.04556v1 ) ライセンス: Link先を確認 | Ryan Singh, Christopher L. Buckley | (参考訳) アテンション機構は認知システムの中心的な特性であり、選択的に認知資源を柔軟に展開することができる。
神経科学で長い間研究されており、その核となる性質を捉えようとする多くの現象学モデルが存在する。
近年、機械学習のアーキテクチャ的選択が注目され、トランスフォーマーの中心的な革新となっている。
彼らの開発の根底にある直観と形式主義は、データベース管理システムにおけるキーとクエリの考え方に基づいている。
本研究では,注意メカニズムのための代替ベイズ的基盤を提案するとともに,機械学習における異なる注意的アーキテクチャをいかに統合するかを示す。
この定式化により、異なる注意mlアーキテクチャ間の共通性を識別し、神経科学で開発されたものへの橋渡しを提案できる。
この研究は、より洗練された直観を注目アーキテクチャの重要な特性に導き、新しいものを提案することを願っています。 Attention mechanisms are a central property of cognitive systems allowing them to selectively deploy cognitive resources in a flexible manner. Attention has been long studied in the neurosciences and there are numerous phenomenological models that try to capture its core properties. Recently attentional mechanisms have become a dominating architectural choice of machine learning and are the central innovation of Transformers. The dominant intuition and formalism underlying their development has drawn on ideas of keys and queries in database management systems. In this work, we propose an alternative Bayesian foundation for attentional mechanisms and show how this unifies different attentional architectures in machine learning. This formulation allows to to identify commonality across different attention ML architectures as well as suggest a bridge to those developed in neuroscience. We hope this work will guide more sophisticated intuitions into the key properties of attention architectures and suggest new ones. | 翻訳日:2023-04-11 15:10:37 公開日:2023-04-07 |
# 神経二相性非一様bスプライン流 Neural Diffeomorphic Non-uniform B-spline Flows ( http://arxiv.org/abs/2304.04555v1 ) ライセンス: Link先を確認 | Seongmin Hong, Se Young Chun | (参考訳) 正規化フローは、単純な基底分布の可逆変換として複素確率分布をモデル化することに成功した。
しかし、しばしば可逆性以上のものを必要とするアプリケーションが存在する。
例えば、物理学におけるエネルギーと力の計算は、変換の第2の微分を適切に定義し連続することを要求する。
滑らかな正規化フローは無限に微分可能な変換を用いるが、非解析的逆変換の価格が遅い。
本研究では, bi-lipschitz 連続に対して少なくとも 2 倍連続的に微分可能な双相的非一様b-スプライン流を提案し, 微分同相の十分条件に基づく解析的逆変換を保ちながら, 効率的なパラメトリゼーションを実現する。
まず, ck-2-微分同相な非一様 k 次 b-スプライン変換の十分条件について検討する。
そこで, ニューラル微分型非一様B-スプライン流に対する非一様立方体B-スプライン変換の解析逆変換を導出した。
最後に,ボルツマン生成器の力マッチング問題を解く実験を行い,c2-微分同相非一様b-スプライン流が従来のスプライン流よりも解を導き,滑らかな正規化流よりも高速に解を得ることを示した。
ソースコードはhttps://github.com/smhongok/Non-uniform-B-spline-Flowで公開されています。 Normalizing flows have been successfully modeling a complex probability distribution as an invertible transformation of a simple base distribution. However, there are often applications that require more than invertibility. For instance, the computation of energies and forces in physics requires the second derivatives of the transformation to be well-defined and continuous. Smooth normalizing flows employ infinitely differentiable transformation, but with the price of slow non-analytic inverse transforms. In this work, we propose diffeomorphic non-uniform B-spline flows that are at least twice continuously differentiable while bi-Lipschitz continuous, enabling efficient parametrization while retaining analytic inverse transforms based on a sufficient condition for diffeomorphism. Firstly, we investigate the sufficient condition for Ck-2-diffeomorphic non-uniform kth-order B-spline transformations. Then, we derive an analytic inverse transformation of the non-uniform cubic B-spline transformation for neural diffeomorphic non-uniform B-spline flows. Lastly, we performed experiments on solving the force matching problem in Boltzmann generators, demonstrating that our C2-diffeomorphic non-uniform B-spline flows yielded solutions better than previous spline flows and faster than smooth normalizing flows. Our source code is publicly available at https://github.com/smhongok/Non-uniform-B-spline-Flow. | 翻訳日:2023-04-11 15:10:24 公開日:2023-04-07 |
# DeLag: サービスベースシステムにおける遅延劣化パターン検出のための多目的最適化の利用 DeLag: Using Multi-Objective Optimization to Enhance the Detection of Latency Degradation Patterns in Service-based Systems ( http://arxiv.org/abs/2110.11155v4 ) ライセンス: Link先を確認 | Luca Traini, Vittorio Cortellessa | (参考訳) プロダクションにおけるパフォーマンスデバッギングは、現代のサービスベースのシステムにおいて基本的な活動である。
大量のトレースとパフォーマンス指標を徹底的に検査する必要があるため、パフォーマンス問題の診断には時間を要することが多い。
本稿では,サービスベースシステムの性能問題を診断する新しい検索手法であるDeLagを提案する。
DeLagは、リモートプロシージャコールの実行時間の組み合わせで、潜在的に関連するパフォーマンス問題の兆候を示すリクエストのサブセットを特定する。
このような症状を遅延劣化パターンと呼ぶ。
DeLagは、精度、リコール、レイテンシの相違を最適化しながら、複数の遅延劣化パターンを同時に検索する。
2つのマイクロサービスベースのシステムから生成された700の要求データセットを実験した結果、このアプローチは3つの最先端アプローチと汎用機械学習クラスタリングアルゴリズムよりも優れた、より安定した効率を提供することがわかった。
DeLagは、少なくとも1つのケーススタディ(p$\leq$ 0.05、非無視効果サイズ)において、すべてのベースライン技術よりも効果的である。
さらに、DeLagは、評価で使用される最大のデータセット(最大22%)において、効率の点で2番目と3番目に効果的なベースライン技術よりも優れています。 Performance debugging in production is a fundamental activity in modern service-based systems. The diagnosis of performance issues is often time-consuming, since it requires thorough inspection of large volumes of traces and performance indices. In this paper we present DeLag, a novel automated search-based approach for diagnosing performance issues in service-based systems. DeLag identifies subsets of requests that show, in the combination of their Remote Procedure Call execution times, symptoms of potentially relevant performance issues. We call such symptoms Latency Degradation Patterns. DeLag simultaneously searches for multiple latency degradation patterns while optimizing precision, recall and latency dissimilarity. Experimentation on 700 datasets of requests generated from two microservice-based systems shows that our approach provides better and more stable effectiveness than three state-of-the-art approaches and general purpose machine learning clustering algorithms. DeLag is more effective than all baseline techniques in at least one case study (with p $\leq$ 0.05 and non-negligible effect size). Moreover, DeLag outperforms in terms of efficiency the second and the third most effective baseline techniques on the largest datasets used in our evaluation (up to 22%). | 翻訳日:2023-04-10 15:51:40 公開日:2023-04-07 |
# エントロピー規則化によるマルコフ決定過程の2次的アプローチ A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization ( http://arxiv.org/abs/2110.08923v3 ) ライセンス: Link先を確認 | Donghao Ying, Yuhao Ding, Javad Lavaei | (参考訳) ソフトマックスパラメータ化の下で,エントロピー正規化制約付きマルコフ決定過程(CMDP)について検討し,期待される全ユーティリティの制約を満たすとともに,エントロピー正規化値関数の最大化を目指す。
エントロピー正則化を利用することで,ラグランジアン双対関数は滑らかであり,ラグランジアン双対性ギャップは原始最適性ギャップと制約違反に分解可能であることを示す。
さらに, エントロピー正規化cmdpの高速化手法を提案する。
我々は,エントロピー規則化CMDPに対する最適性ギャップと制約違反の両方に対して,この手法が大域収束率$\widetilde{\mathcal{O}}(1/T)$を達成することを証明した。
また,1つの制約を持つCMDPの線形収束率についても論じる。 We study entropy-regularized constrained Markov decision processes (CMDPs) under the soft-max parameterization, in which an agent aims to maximize the entropy-regularized value function while satisfying constraints on the expected total utility. By leveraging the entropy regularization, our theoretical analysis shows that its Lagrangian dual function is smooth and the Lagrangian duality gap can be decomposed into the primal optimality gap and the constraint violation. Furthermore, we propose an accelerated dual-descent method for entropy-regularized CMDPs. We prove that our method achieves the global convergence rate $\widetilde{\mathcal{O}}(1/T)$ for both the optimality gap and the constraint violation for entropy-regularized CMDPs. A discussion about a linear convergence rate for CMDPs with a single constraint is also provided. | 翻訳日:2023-04-10 15:51:21 公開日:2023-04-07 |
# Neural Operator: 関数空間間のマップ学習 Neural Operator: Learning Maps Between Function Spaces ( http://arxiv.org/abs/2108.08481v5 ) ライセンス: Link先を確認 | Nikola Kovachki, Zongyi Li, Burigede Liu, Kamyar Azizzadenesheli, Kaushik Bhattacharya, Andrew Stuart, Anima Anandkumar | (参考訳) 古典的なニューラルネットワークの発展は、主に有限次元ユークリッド空間または有限集合間の写像の学習に焦点を当てている。
本稿では,無限次元関数空間間を写像する演算子,いわゆるニューラル演算子を学習するためのニューラルネットワークの一般化を提案する。
線形積分演算子と非線形活性化関数の合成としてニューラルネットワークを定式化する。
提案するニューラル作用素に対する普遍近似定理を証明し、任意の非線形連続作用素を近似できることを示す。
提案されたニューラル演算子は離散化不変であり、すなわち、基底関数空間の異なる離散化の間で同じモデルパラメータを共有する。
さらに,効率の高いパラメータ化,viz.,グラフニューラルネットワーク,多極グラフニューラルネットワーク,低ランクニューラルネットワーク,フーリエニューラルネットワークの4つのクラスを導入する。
ニューラル作用素の重要な応用は、偏微分方程式(PDE)の解作用素に対する代理写像の学習である。
本稿では,バーガース,ダーシー地下流れ,ナビエ・ストークス方程式などの標準的なPDEを考察し,従来のPDE解法よりも数桁高速でありながら,提案したニューラル演算子が既存の機械学習ベースの手法よりも優れた性能を有することを示す。 The classical development of neural networks has primarily focused on learning mappings between finite dimensional Euclidean spaces or finite sets. We propose a generalization of neural networks to learn operators, termed neural operators, that map between infinite dimensional function spaces. We formulate the neural operator as a composition of linear integral operators and nonlinear activation functions. We prove a universal approximation theorem for our proposed neural operator, showing that it can approximate any given nonlinear continuous operator. The proposed neural operators are also discretization-invariant, i.e., they share the same model parameters among different discretization of the underlying function spaces. Furthermore, we introduce four classes of efficient parameterization, viz., graph neural operators, multi-pole graph neural operators, low-rank neural operators, and Fourier neural operators. An important application for neural operators is learning surrogate maps for the solution operators of partial differential equations (PDEs). We consider standard PDEs such as the Burgers, Darcy subsurface flow, and the Navier-Stokes equations, and show that the proposed neural operators have superior performance compared to existing machine learning based methodologies, while being several orders of magnitude faster than conventional PDE solvers. | 翻訳日:2023-04-10 15:51:05 公開日:2023-04-07 |
# 断層撮影における同時再建と不確かさ定量化 Simultaneous Reconstruction and Uncertainty Quantification for Tomography ( http://arxiv.org/abs/2103.15864v2 ) ライセンス: Link先を確認 | Agnimitra Dasgupta and Carlo Graziani and Zichao Wendy Di | (参考訳) トモグラフィーの再構成は、広範囲の応用に革命的な影響があるにもかかわらず、限られた騒音測定のためにユニークな解が存在しないという、その不適切な性質に悩まされている。
したがって、基底的真実がなければ、解の質の定量化は極めて望ましいが、未探索である。
本研究は,ガウス過程モデリングによるこの問題に対処し,カーネルとノイズモデルの選択を通じて,サンプル特徴と実験ノイズの事前知識を柔軟かつ明示的に取り入れる。
提案手法は,既存手法に匹敵する再構成(逆問題に対する正規化反復解法など)だけでなく,解の不確かさの定量化にも有効である。
提案手法の有効性を様々な画像に示すとともに,様々なノイズの存在下での不確実性定量化のユニークな機能を示す。 Tomographic reconstruction, despite its revolutionary impact on a wide range of applications, suffers from its ill-posed nature in that there is no unique solution because of limited and noisy measurements. Therefore, in the absence of ground truth, quantifying the solution quality is highly desirable but under-explored. In this work, we address this challenge through Gaussian process modeling to flexibly and explicitly incorporate prior knowledge of sample features and experimental noises through the choices of the kernels and noise models. Our proposed method yields not only comparable reconstruction to existing practical reconstruction methods (e.g., regularized iterative solver for inverse problem) but also an efficient way of quantifying solution uncertainties. We demonstrate the capabilities of the proposed approach on various images and show its unique capability of uncertainty quantification in the presence of various noises. | 翻訳日:2023-04-10 15:49:57 公開日:2023-04-07 |
# 視線正規化模倣学習--人間の視線から連続制御を学ぶ Gaze Regularized Imitation Learning: Learning Continuous Control from Human Gaze ( http://arxiv.org/abs/2102.13008v2 ) ライセンス: Link先を確認 | Ravi Kumar Thakur, MD-Nazmus Samin Sunbeam, Vinicius G. Goecks, Ellen Novoseller, Ritwik Bera, Vernon J. Lawhern, Gregory M. Gremillion, John Valasek, Nicholas R. Waytowich | (参考訳) 人間のデモを通して学習エージェントを教えるためのアプローチは広く研究され、複数の領域にうまく適用されている。
しかし、模倣学習の作業の大半は、デモレーターからの行動情報、すなわちどの行動が取られたかのみを利用しており、他の有用な情報を無視している。
特に、目視情報は、ディストレーターが視覚的注意をどこに配置しているかについての貴重な洞察を与え、エージェントのパフォーマンスと一般化を改善する可能性を秘めている。
本研究では,視覚的注意が重要なコンテキストを提供するタスクを解決するために,人間の実演と視線の両方から同時に学習する新しい文脈認識型模倣学習アーキテクチャであるGaz Regularized Imitation Learning (GRIL)を提案する。
我々はGRILを視覚的ナビゲーションタスクに適用し、無人の四極子を訓練し、光現実的シミュレーション環境下で対象車両の探索とナビゲートを行う。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
補足ビデオはproject https://sites.google.com/view/gaze-regularized-il/とhttps://github.com/ravikt/grilにある。 Approaches for teaching learning agents via human demonstrations have been widely studied and successfully applied to multiple domains. However, the majority of imitation learning work utilizes only behavioral information from the demonstrator, i.e. which actions were taken, and ignores other useful information. In particular, eye gaze information can give valuable insight towards where the demonstrator is allocating visual attention, and holds the potential to improve agent performance and generalization. In this work, we propose Gaze Regularized Imitation Learning (GRIL), a novel context-aware, imitation learning architecture that learns concurrently from both human demonstrations and eye gaze to solve tasks where visual attention provides important context. We apply GRIL to a visual navigation task, in which an unmanned quadrotor is trained to search for and navigate to a target vehicle in a photorealistic simulated environment. We show that GRIL outperforms several state-of-the-art gaze-based imitation learning algorithms, simultaneously learns to predict human visual attention, and generalizes to scenarios not present in the training data. Supplemental videos can be found at project https://sites.google.com/view/gaze-regularized-il/ and code at https://github.com/ravikt/gril. | 翻訳日:2023-04-10 15:49:19 公開日:2023-04-07 |
# 入射表面表現と推論のためのニューラルベクトル場 Neural Vector Fields for Implicit Surface Representation and Inference ( http://arxiv.org/abs/2204.06552v3 ) ライセンス: Link先を確認 | Edoardo Mello Rella, Ajad Chhatkuli, Ender Konukoglu, and Luc Van Gool | (参考訳) 近年, 3次元形状を正確に表現し, 学習する試みが増えている。
符号付き距離場と占有場は数十年古いが、閉曲面に制限されているにもかかわらず、どちらもよく研究された性質を持つ。
ニューラルネットワークでは、あらゆる種類の形状を表現するために、いくつかのバリエーションとトレーニング原則が提案されている。
本稿では,3次元空間における単位ベクトルを考慮し,ベクトル場(Vector Field, VF)と呼ぶ新奇かつ基本的な表現を開発し,各点で$\mathbb{R}^3$において,VFは表面上の最も近い点に向けられる。
理論上, vf はフラックス密度を計算し, 容易に表面密度に変換できることを示した。
他の標準表現とは異なり、VF は表面の重要な物理的性質を直接エンコードする。
さらに,vf表現の利点を,平面面と同様にオープン・クローズ・マルチレイヤーの学習において示している。
提案するニューラル暗黙的場は,任意の種類の形状を表現するのに優れた精度を示し,他の標準的な手法よりも優れている。
コードはhttps://github.com/edomel/implicitvfで入手できる。 Implicit fields have recently shown increasing success in representing and learning 3D shapes accurately. Signed distance fields and occupancy fields are decades old and still the preferred representations, both with well-studied properties, despite their restriction to closed surfaces. With neural networks, several other variations and training principles have been proposed with the goal to represent all classes of shapes. In this paper, we develop a novel and yet a fundamental representation considering unit vectors in 3D space and call it Vector Field (VF): at each point in $\mathbb{R}^3$, VF is directed at the closest point on the surface. We theoretically demonstrate that VF can be easily transformed to surface density by computing the flux density. Unlike other standard representations, VF directly encodes an important physical property of the surface, its normal. We further show the advantages of VF representation, in learning open, closed, or multi-layered as well as piecewise planar surfaces. We compare our method on several datasets including ShapeNet where the proposed new neural implicit field shows superior accuracy in representing any type of shape, outperforming other standard methods. Code is available at https://github.com/edomel/ImplicitVF. | 翻訳日:2023-04-10 15:42:12 公開日:2023-04-07 |
# PaCa-ViT:視覚変換器におけるパッチ・クラスタ・アテンションの学習 PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers ( http://arxiv.org/abs/2203.11987v2 ) ライセンス: Link先を確認 | Ryan Grainger, Thomas Paniagua, Xi Song, Naresh Cuntoor, Mun Wai Lee, Tianfu Wu | (参考訳) vision transformers (vits) はイメージパッチを ``visual tokens' として扱い、パッチからパッチへの注意を学習するという仮定に基づいている。
パッチ埋め込みベースのトークン化器は、対応するテキストトークン化器に対して意味的ギャップを有する。
パッチからパッチへの注意は二次複雑性の問題に苦しめられ、学習したvitを説明するのも簡単ではない。
ViTにおけるこれらの問題に対処するために,本稿では,Patch-to-Cluster attention (PaCa) をViTで学習することを提案する。
PaCa-ViTのクエリはパッチから始まり、キーと値は(予め定義された少数のクラスタで)クラスタリングに基づいています。
クラスタはエンドツーエンドで学習され、より優れたトークン化と、より優れた解釈可能なモデルのための共同クラスタリングとアテンション・フォー・クラスタリングを誘導する。
二次複雑性は線形複雑性に緩和される。
提案したPaCaモジュールは、効率的なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。
実験では,imagenet-1k画像分類,ms-cocoオブジェクト検出,インスタンスセグメンテーション,mit-ade20k意味セグメンテーションについて実験を行った。
以前の技術と比較すると、ImageNet-1kとMIT-ADE20kでは大きな差でSWinとPVTよりも3つのベンチマークでパフォーマンスが向上している。
また、線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
学習されたクラスタは意味的に意味がある。
コードとモデルチェックポイントはhttps://github.com/iVMCL/PaCaViT.comで入手できる。 Vision Transformers (ViTs) are built on the assumption of treating image patches as ``visual tokens" and learn patch-to-patch attention. The patch embedding based tokenizer has a semantic gap with respect to its counterpart, the textual tokenizer. The patch-to-patch attention suffers from the quadratic complexity issue, and also makes it non-trivial to explain learned ViTs. To address these issues in ViT, this paper proposes to learn Patch-to-Cluster attention (PaCa) in ViT. Queries in our PaCa-ViT starts with patches, while keys and values are directly based on clustering (with a predefined small number of clusters). The clusters are learned end-to-end, leading to better tokenizers and inducing joint clustering-for-attention and attention-for-clustering for better and interpretable models. The quadratic complexity is relaxed to linear complexity. The proposed PaCa module is used in designing efficient and interpretable ViT backbones and semantic segmentation head networks. In experiments, the proposed methods are tested on ImageNet-1k image classification, MS-COCO object detection and instance segmentation and MIT-ADE20k semantic segmentation. Compared with the prior art, it obtains better performance in all the three benchmarks than the SWin and the PVTs by significant margins in ImageNet-1k and MIT-ADE20k. It is also significantly more efficient than PVT models in MS-COCO and MIT-ADE20k due to the linear complexity. The learned clusters are semantically meaningful. Code and model checkpoints are available at https://github.com/iVMCL/PaCaViT. | 翻訳日:2023-04-10 15:41:18 公開日:2023-04-07 |
# TROPOMI衛星データによる個々の船舶からのNO2噴煙の観測 Supervised segmentation of NO2 plumes from individual ships using TROPOMI satellite data ( http://arxiv.org/abs/2203.06993v3 ) ライセンス: Link先を確認 | Solomiia Kurchaba, Jasper van Vliet, Fons J. Verbeek, Jacqueline J. Meulman, Cor J. Veenman | (参考訳) 輸送産業は、人間の健康と環境の両方に有害な物質である$\text{no}_\text{x}$の最も強い人為的エミッターの1つである。
産業の急速な成長は、船舶の排出レベルを制御する社会的な圧力を引き起こす。
現在、船舶の排出監視に使われている全ての方法は費用がかかり、船舶に近付く必要があるため、グローバルかつ継続的な排出監視は不可能である。
有望なアプローチはリモートセンシングの応用である。
研究により、個々の船から得られる$\text{NO}_\text{2}$ plumeのいくつかは、Copernicus Sentinel 5 Precursor (TROPOMI/S5P)に搭載されたTROPOSpheric Monitoring Instrumentを使って視覚的に区別できることが示された。
リモートセンシングに基づくグローバルエミッション監視システムをデプロイするには、個々の船から$\text{no}_\text{2}$エミッションを推定するための自動化手順が必要である。
利用可能なデータの信号対雑音比が極端に低いことと、地上の真実の欠如が、タスクを非常に困難にしている。
本稿では,TROPOMI/S5Pデータを用いた教師あり機械学習を用いて,船舶が生成する$\text{NO}_\text{2}$ plumeの自動セグメンテーション手法を提案する。
提案手法は, 従来手法と比較して平均精度が20%以上向上し, その結果, 理論的に導出された船舶排出プロキシと0.834の相関性が高いことがわかった。
この研究は、リモートセンシングデータを用いたグローバル船舶排出監視のための自動化手順の開発に向けた重要なステップである。 The shipping industry is one of the strongest anthropogenic emitters of $\text{NO}_\text{x}$ -- substance harmful both to human health and the environment. The rapid growth of the industry causes societal pressure on controlling the emission levels produced by ships. All the methods currently used for ship emission monitoring are costly and require proximity to a ship, which makes global and continuous emission monitoring impossible. A promising approach is the application of remote sensing. Studies showed that some of the $\text{NO}_\text{2}$ plumes from individual ships can visually be distinguished using the TROPOspheric Monitoring Instrument on board the Copernicus Sentinel 5 Precursor (TROPOMI/S5P). To deploy a remote sensing-based global emission monitoring system, an automated procedure for the estimation of $\text{NO}_\text{2}$ emissions from individual ships is needed. The extremely low signal-to-noise ratio of the available data as well as the absence of ground truth makes the task very challenging. Here, we present a methodology for the automated segmentation of $\text{NO}_\text{2}$ plumes produced by seagoing ships using supervised machine learning on TROPOMI/S5P data. We show that the proposed approach leads to a more than a 20\% increase in the average precision score in comparison to the methods used in previous studies and results in a high correlation of 0.834 with the theoretically derived ship emission proxy. This work is a crucial step toward the development of an automated procedure for global ship emission monitoring using remote sensing data. | 翻訳日:2023-04-10 15:40:47 公開日:2023-04-07 |
# 機械学習による二次利用のための電池の実用性評価 Evaluating feasibility of batteries for second-life applications using machine learning ( http://arxiv.org/abs/2203.04249v2 ) ライセンス: Link先を確認 | Aki Takahashi, Anirudh Allam, Simona Onori | (参考訳) 本稿では,引退した電気自動車のバッテリーを第2の用途に維持し,当初の意図や第1の意図を超えて動作を延長するか,あるいはリサイクル施設に送るかの早期評価を可能にする機械学習技術の組み合わせについて述べる。
提案アルゴリズムは, 利用可能なバッテリ電流と電圧の測定値から簡易な統計値を用いて特徴値を生成し, 相関解析を用いて特徴量を選択・ランク付けする。
このアプローチは、さまざまなカソード化学薬品とさまざまな運用条件を備えた、200以上のセルで利用可能な老化データセット上で検証される。
有望な結果は、複数のトレーニング-テスト分割に基づいて観察され、最悪のシナリオでは、根平均の2乗誤差と平均誤差の誤差がそれぞれ1.48%未満、1.29%未満であることが分かる。 This paper presents a combination of machine learning techniques to enable prompt evaluation of retired electric vehicle batteries as to either retain those batteries for a second-life application and extend their operation beyond the original and first intent or send them to recycle facilities. The proposed algorithm generates features from available battery current and voltage measurements with simple statistics, selects and ranks the features using correlation analysis, and employs Gaussian Process Regression enhanced with bagging. This approach is validated over publicly available aging datasets of more than 200 cells with slow and fast charging, with different cathode chemistries, and for diverse operating conditions. Promising results are observed based on multiple training-test partitions, wherein the mean of Root Mean Squared Percent Error and Mean Percent Error performance errors are found to be less than 1.48% and 1.29%, respectively, in the worst-case scenarios. | 翻訳日:2023-04-10 15:40:23 公開日:2023-04-07 |
# ubnormal: 教師付きオープンセットビデオ異常検出のための新しいベンチマーク UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection ( http://arxiv.org/abs/2111.08644v3 ) ライセンス: Link先を確認 | Andra Acsintoae, Andrei Florescu, Mariana-Iuliana Georgescu, Tudor Mare, Paul Sumedrea, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah | (参考訳) ビデオ内の異常なイベントの検出は、通常、訓練ビデオは通常のイベントのみを含み、テストビデオは正常なイベントと異常なイベントの両方を包含する、1階級の分類タスクとして構成される。
このシナリオでは、異常検出はオープンセットの問題である。
しかし、いくつかの研究は、行動認識に対する異常検出を同一視している。
これは、新しい異常型を検出するシステムの能力をテストするのに失敗するクローズドセットのシナリオである。
そこで本稿では,ビデオ異常検出のための複数の仮想シーンからなる教師付きオープンセットベンチマークubnormalを提案する。
既存のデータセットとは異なり、トレーニング時に画素レベルでアノテートされた異常事象を初めて導入し、完全教師付き学習手法を用いて異常事象の検出を行う。
典型的なオープンセットの定式化を維持するため、ビデオのトレーニングとテストのコレクションに、異常なタイプの解離集合を確実に含めます。
私たちの知る限り、ubnormalは、実験で示したように、1クラスオープンセットモデルと教師付きクローズドセットモデルとを公平に比較できる最初のビデオ異常検出ベンチマークです。
さらに,我々は,UBnormalが2つの著名なデータ集合であるアベニューと上海技術上で,最先端の異常検出フレームワークの性能を向上させることを示す実証的証拠を提供する。
私たちのベンチマークはhttps://github.com/lilygeorgescu/ubnormalで無料で利用可能です。 Detecting abnormal events in video is commonly framed as a one-class classification task, where training videos contain only normal events, while test videos encompass both normal and abnormal events. In this scenario, anomaly detection is an open-set problem. However, some studies assimilate anomaly detection to action recognition. This is a closed-set scenario that fails to test the capability of systems at detecting new anomaly types. To this end, we propose UBnormal, a new supervised open-set benchmark composed of multiple virtual scenes for video anomaly detection. Unlike existing data sets, we introduce abnormal events annotated at the pixel level at training time, for the first time enabling the use of fully-supervised learning methods for abnormal event detection. To preserve the typical open-set formulation, we make sure to include disjoint sets of anomaly types in our training and test collections of videos. To our knowledge, UBnormal is the first video anomaly detection benchmark to allow a fair head-to-head comparison between one-class open-set models and supervised closed-set models, as shown in our experiments. Moreover, we provide empirical evidence showing that UBnormal can enhance the performance of a state-of-the-art anomaly detection framework on two prominent data sets, Avenue and ShanghaiTech. Our benchmark is freely available at https://github.com/lilygeorgescu/UBnormal. | 翻訳日:2023-04-10 15:39:11 公開日:2023-04-07 |
# 量子二重暗いソリトンのダイナミクスとボース・アインシュタイン凝縮の完全有限サイズスケール Dynamics of quantum double dark-solitons and an exact finite-size scaling of Bose-Einstein condensation ( http://arxiv.org/abs/2207.00293v3 ) ライセンス: Link先を確認 | Kayo Kinjo, Jun Sato, Tetsuo Deguchi | (参考訳) 反射相互作用を持つ1次元ボース気体に対するリーブ・ライニガーモデルにおいて、量子二重ダークソリトン状態の正確な非平衡力学におけるいくつかの新しい側面を示す。
また、基底状態におけるボース・アインシュタイン凝縮(BEC)の分画の正確な有限サイズスケーリングを示し、弱結合状態にあると仮定する量子二重ダークソリトン状態において準BECを特徴付ける。
まず、ベーテアンサッツによる量子二重ダークソリトンに関連する量子状態における密度プロファイルの正確な時間進化を示す。
第二に、量子双極子状態間の場演算子の行列要素の2乗振幅と位相プロファイルを正確に評価することにより、マクロな量子波動関数の一種を効果的に導出する。
プロファイルはダークソリトンに近いもので、特に弱結合状態にある。
次に、量子二重ダークソリトン状態における2つのノッチの散乱を正確に示す。
上記の観測から、準BECは量子二重ダークソリトン状態の力学において重要な役割を果たすべきであることが示唆された。
凝縮分数が 1 に近い場合、量子状態は平均場図が有効である準bec状態によってよく近似されるべきである。 We show several novel aspects in the exact non-equilibrium dynamics of quantum double dark-soliton states in the Lieb-Liniger model for the one-dimensional Bose gas with repulsive interactions. We also show an exact finite-size scaling of the fraction of the Bose-Einstein condensation (BEC) in the ground state, which should characterize the quasi-BEC in quantum double dark-soliton states that we assume to occur in the weak coupling regime. First, we show the exact time evolution of the density profile in the quantum state associated with a quantum double dark-soliton by the Bethe ansatz. Secondly, we derive a kind of macroscopic quantum wave-function effectively by exactly evaluating the square amplitude and phase profiles of the matrix element of the field operator between the quantum double dark-soliton states. The profiles are close to those of dark-solitons particularly in the weak-coupling regime. Then, the scattering of two notches in the quantum double dark-soliton state is exactly demonstrated. It is suggested from the above observations that the quasi-BEC should play a significant role in the dynamics of quantum double dark-soliton states. If the condensate fraction is close to 1, the quantum state should be well approximated by the quasi-BEC state where the mean-field picture is valid. | 翻訳日:2023-04-10 15:32:50 公開日:2023-04-07 |
# 1つの粒子が古典的になるときの多粒子絡み合い Fate of multiparticle entanglement when one particle becomes classical ( http://arxiv.org/abs/2206.12834v2 ) ライセンス: Link先を確認 | Zhen-Peng Xu, Satoya Imai, Otfried G\"uhne | (参考訳) この粒子が測定によって分解されるという意味では、粒子が古典的になった場合の多粒子絡みの変化について検討するが、得られた情報は新たなレジスタにエンコードされる。
本稿では、この変化を異なる絡み合い対策と符号化方法に対して推定する。
まず, 古典化下での絡み合いの変化を解析するために, 数値計算を単純化する。
第2に、エンタングルメント変化の一般上界と下界を提供する。
第三に、1量子ビットの古典化による絡み合いの変化は、それでも任意に大きいことが示される。
最後に、任意の測定が可能な古典化の下で絡み合いが残らない場合について論じる。
その結果、量子資源の蓄積に光を当て、量子資源理論の分野における新しい方向性の開発に寄与した。 We study the change of multiparticle entanglement if one particle becomes classical, in the sense that this particle is destructed by a measurement, but the gained information is encoded into a new register. We present an estimation of this change for different entanglement measures and ways of encoding. We first simplify the numerical calculation to analyze the change of entanglement under classicalization in special cases. Second, we provide general upper and lower bounds on the entanglement change. Third, we show that the entanglement change caused by classicalization of one qubit only can still be arbitrarily large. Finally, we discuss cases where no entanglement is left under classicalization for any possible measurement. Our results shed light on the storage of quantum resources and help to develop a novel direction in the field of quantum resource theories. | 翻訳日:2023-04-10 15:32:13 公開日:2023-04-07 |
# SC-Ques:第二言語学習者のための文補完質問データセット SC-Ques: A Sentence Completion Question Dataset for English as a Second Language Learners ( http://arxiv.org/abs/2206.12036v2 ) ライセンス: Link先を確認 | Qiongqiong Liu, Yaying Huang, Zitao Liu, Shuyan Huang, Jiahao Chen, Xiangyu Zhao, Guimin Lin, Yuyu Zhou, Weiqi Luo | (参考訳) 文完成 (SC) 質問は、1つ以上の空白を埋める必要のある文を示し、3つから5つの単語やフレーズをオプションとして提示する。
SC質問は英語を第二言語として学習する学生に広く使われている。
本稿では,実世界の標準英語試験から得られた289,148のESL SC質問からなる大規模SCデータセット \textsc{SC-Ques} を提案する。
さらに,提案した \textsc{SC-Ques} データセット上で,大規模事前学習言語モデルをトレーニングすることにより,SC 質問を自動的に解くための総合ベンチマークを構築した。
我々は、ベースラインモデルの性能、限界、トレードオフに関する詳細な分析を行う。
データと私たちのコードは、以下の研究目的で利用可能です。 Sentence completion (SC) questions present a sentence with one or more blanks that need to be filled in, three to five possible words or phrases as options. SC questions are widely used for students learning English as a Second Language (ESL). In this paper, we present a large-scale SC dataset, \textsc{SC-Ques}, which is made up of 289,148 ESL SC questions from real-world standardized English examinations. Furthermore, we build a comprehensive benchmark of automatically solving the SC questions by training the large-scale pre-trained language models on the proposed \textsc{SC-Ques} dataset. We conduct detailed analysis of the baseline models performance, limitations and trade-offs. The data and our code are available for research purposes from: \url{https://github.com/ai4ed/SC-Ques}. | 翻訳日:2023-04-10 15:31:59 公開日:2023-04-07 |
# 一階線形論理を生成文法とする Making first order linear logic a generating grammar ( http://arxiv.org/abs/2206.08955v2 ) ライセンス: Link先を確認 | Sergey Slavnov | (参考訳) 異なる分類文法は、一階乗算線形論理の断片において表面表現を持つことが知られている。
興味の断片は、最近導入された拡張テンソル型計算と等価であることを示す。
これは前者に対して、いくつかの代替構文と直観的幾何学的表現を提供するだけでなく、本質的な推論システムも提供する。 It is known that different categorial grammars have surface representation in a fragment of first order multiplicative linear logic. We show that the fragment of interest is equivalent to the recently introduced {\it extended tensor type calculus}. This provides the former not only with some alternative syntax and intuitive geometric representation, but also with an intrinsic deductive system, which has been absent. | 翻訳日:2023-04-10 15:31:45 公開日:2023-04-07 |
# PIDNet: PIDコントローラにヒントを得たリアルタイムセマンティックセマンティックセグメンテーションネットワーク PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers ( http://arxiv.org/abs/2206.02066v3 ) ライセンス: Link先を確認 | Jiacong Xu, Zixiang Xiong and Shankar P. Bhattacharyya | (参考訳) 2分岐ネットワークアーキテクチャは、リアルタイムセマンティックセグメンテーションタスクにおける効率と有効性を示している。
しかし、高分解能の詳細と低周波コンテキストの直接融合は、周囲の文脈情報によって容易に圧倒される詳細な特徴の欠点をもたらす。
このオーバーシュート現象は、既存の2分岐モデルのセグメンテーション精度の向上を制限する。
本稿では、畳み込みニューラルネットワーク(CNN)とPID(Proportional-Integral-Derivative)コントローラを接続し、2分岐ネットワークがProportional-Integral(PI)コントローラと等価であることを明らかにする。
この問題を解決するために,我々は3つの分岐ネットワークアーキテクチャpidnetを提案する。pidnetは,それぞれ詳細,コンテキスト,境界情報を解析する3つのブランチを含み,境界に注意を払い,詳細とコンテキストの分岐の融合を導く。
私たちのPIDNetのファミリーは、推論速度と精度の最良のトレードオフを達成し、その精度は、CityscapesとCamVidデータセットに類似した推論速度を持つ既存のモデル全てを上回ります。
具体的には、PIDNet-SはCityscapesで93.2 FPS、CamVidで80.1% mIOUで78.6% mIOUを達成した。 Two-branch network architecture has shown its efficiency and effectiveness in real-time semantic segmentation tasks. However, direct fusion of high-resolution details and low-frequency context has the drawback of detailed features being easily overwhelmed by surrounding contextual information. This overshoot phenomenon limits the improvement of the segmentation accuracy of existing two-branch models. In this paper, we make a connection between Convolutional Neural Networks (CNN) and Proportional-Integral-Derivative (PID) controllers and reveal that a two-branch network is equivalent to a Proportional-Integral (PI) controller, which inherently suffers from similar overshoot issues. To alleviate this problem, we propose a novel three-branch network architecture: PIDNet, which contains three branches to parse detailed, context and boundary information, respectively, and employs boundary attention to guide the fusion of detailed and context branches. Our family of PIDNets achieve the best trade-off between inference speed and accuracy and their accuracy surpasses all the existing models with similar inference speed on the Cityscapes and CamVid datasets. Specifically, PIDNet-S achieves 78.6% mIOU with inference speed of 93.2 FPS on Cityscapes and 80.1% mIOU with speed of 153.7 FPS on CamVid. | 翻訳日:2023-04-10 15:31:38 公開日:2023-04-07 |
# フラストレーションのない完全満員ループモデル The frustration-free fully packed loop model ( http://arxiv.org/abs/2206.01758v3 ) ライセンス: Link先を確認 | Zhao Zhang and Henrik Schou R{\o}ising | (参考訳) フラストレーションフリープロジェクターであるハミルトンおよびリング交換相互作用がプラケットに作用する正方格子上の量子完全充填ループモデルを考える。
境界ハミルトニアンは、領域壁境界条件を好ましく、基底状態特性をコンビネータと6頂点モデル文献にリンクするために追加される。
境界項がヒルベルト空間をクリロフ部分空間に分解する方法を議論し、ハミルトニアンが各部分空間内でエルゴードであることを証明する。
それらのうち,有限絡み合った固有状態と積固有状態の両方を体系的に分類する。
半平面構成を列挙する再帰関係を用いて、基底状態の正確な絡み合いエントロピーを数値計算し、領域法のスケーリングを確認する。
最後に、スペクトルは、基底状態の重ね合わせにツイストを加えて構成した試験状態で熱力学限界において隙間のないことが示される。 We consider a quantum fully packed loop model on the square lattice with a frustration-free projector Hamiltonian and ring-exchange interactions acting on plaquettes. A boundary Hamiltonian is added to favour domain-wall boundary conditions and link ground state properties to the combinatorics and six-vertex model literature. We discuss how the boundary term fractures the Hilbert space into Krylov subspaces, and we prove that the Hamiltonian is ergodic within each subspace, leading to a series of energy-equidistant exact eigenstates in the lower end of the spectrum. Among them we systematically classify both finitely entangled eigenstates and product eigenstates. Using a recursion relation for enumerating half-plane configurations, we compute numerically the exact entanglement entropy of the ground state, confirming area law scaling. Finally, the spectrum is shown to be gapless in the thermodynamic limit with a trial state constructed by adding a twist to the ground state superposition. | 翻訳日:2023-04-10 15:31:14 公開日:2023-04-07 |
# ディエンス予測のためのマルチクエリ変換器を用いたマルチタスク学習 Multi-Task Learning with Multi-Query Transformer for Dense Prediction ( http://arxiv.org/abs/2205.14354v4 ) ライセンス: Link先を確認 | Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, Lefei Zhang | (参考訳) 従来のマルチタスク密集予測研究では、複数段階のマルチモーダル蒸留やタスク毎のタスク関係コンテキストの探索といった複雑なパイプラインが開発された。
これらの方法を超えた核となる洞察は、各タスクの相互効果を最大化することである。
最近のクエリベースのTransformerに触発されて,複数のタスク間の推論を容易にし,タスク間のインタラクションパイプラインを簡素化する,Multi-Query Transformer(MQ Transformer)というシンプルなパイプラインを提案する。
異なるタスク間でピクセル当たりの密接なコンテキストをモデル化するのではなく、タスクに関連したコンテキストをエンコードする複数のクエリを通じてタスク間の推論を行うタスク固有のプロキシを求める。
MQTransformerは、共有エンコーダ、クロスタスククエリアテンションモジュール、共有デコーダの3つの主要なコンポーネントで構成されている。
まず、タスク関連クエリで各タスクをモデル化する。
そして、特徴抽出器が出力するタスク特化特徴とタスク関連クエリの両方を共有エンコーダに入力し、タスク特化特徴からタスク関連クエリを符号化する。
次に、複数のタスク関連クエリ間の依存関係を推論するために、クロスタスククエリアテンションモジュールを設計する。
最後に、共有デコーダを使用して、異なるタスクから推論されたクエリ機能を使って、画像機能を徐々に洗練します。
2つの高密度予測データセット (NYUD-v2 と PASCAL-Context) の大規模な実験結果から,提案手法は有効な手法であり,最先端の結果が得られることが示された。
コードとモデルはhttps://github.com/yangyangxu0/MQTransformer.comで入手できる。 Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects of each task. Inspired by the recent query-based Transformers, we propose a simple pipeline named Multi-Query Transformer (MQTransformer) that is equipped with multiple queries from different tasks to facilitate the reasoning among multiple tasks and simplify the cross-task interaction pipeline. Instead of modeling the dense per-pixel context among different tasks, we seek a task-specific proxy to perform cross-task reasoning via multiple queries where each query encodes the task-related context. The MQTransformer is composed of three key components: shared encoder, cross-task query attention module and shared decoder. We first model each task with a task-relevant query. Then both the task-specific feature output by the feature extractor and the task-relevant query are fed into the shared encoder, thus encoding the task-relevant query from the task-specific feature. Secondly, we design a cross-task query attention module to reason the dependencies among multiple task-relevant queries; this enables the module to only focus on the query-level interaction. Finally, we use a shared decoder to gradually refine the image features with the reasoned query features from different tasks. Extensive experiment results on two dense prediction datasets (NYUD-v2 and PASCAL-Context) show that the proposed method is an effective approach and achieves state-of-the-art results. Code and models are available at https://github.com/yangyangxu0/MQTransformer. | 翻訳日:2023-04-10 15:30:57 公開日:2023-04-07 |
# 冗長空間を持つ2フィールド量子鍵分布の送受信 Sending-or-Not-Sending Twin-Field Quantum Key Distribution with Redundant Space ( http://arxiv.org/abs/2205.05527v2 ) ライセンス: Link先を確認 | Hai Xu, Xiao-Long Hu, Cong Jiang, Zong-Wen Yu, Xiang-Bin Wang | (参考訳) 本稿では,Fock 空間内の Twin-Field 量子鍵分布 (TF-QKD) における分極モードなどの冗長空間の採用を提案する。
光子偏光のような余剰空間の助けを借りて、観測結果から追加量へのイベントを後選択することができる。
これにより、SNSプロトコルの選択後イベントにおけるビットフリップエラー率を圧縮する。
計算の結果,特にパルス数が小さければ,余剰空間を用いることで実効TF-QKDの性能を大幅に向上させることができることがわかった。 We propose to adopt redundant space such as polarization mode in the sending-or-not-sending Twin-Field quantum key distribution (TF-QKD) in the Fock space. With the help of redundant space such as photon polarization, we can post-select events according to the outcome of the observation to the additional quantity. This compresses the bit-flip error rate in the post-selected events of the SNS protocol. The calculation shows that the method using redundant space can greatly improve the performance in practical TF-QKD, especially when the total number of pulses is small. | 翻訳日:2023-04-10 15:30:27 公開日:2023-04-07 |
# グラフの順序付けとクラスタリングの整合性 Consistency between ordering and clustering methods for graphs ( http://arxiv.org/abs/2208.12933v2 ) ライセンス: Link先を確認 | Tatsuro Kawamoto, Masaki Ochi, Teruyoshi Kobayashi | (参考訳) リレーショナルデータセットは、クラスタリングや順序付けを通じて、各要素にラベルを最適に割り当てることで、しばしば分析される。
類似したデータセットの特徴はクラスタリングと順序付けの両方によって達成されるが、前者は後者よりも活発に研究され、特にグラフとして表されるデータについて研究されている。
本研究では,複数のクラスタリング手法と順序付け手法の方法論的関係を調べることにより,このギャップを埋めている。
さらに,クラスタリングおよび順序付け手法の性能評価を行った。
そこで本研究では,一連の要素の配列と分割の一貫性の程度を汎用的に定量化するラベル連続性誤差と呼ばれる尺度を提案する。
合成および実世界のデータセットに基づいて,注文方式がモジュール構造を識別する範囲を評価し,クラスタリング方式がバンド構造を識別する。 A relational dataset is often analyzed by optimally assigning a label to each element through clustering or ordering. While similar characterizations of a dataset would be achieved by both clustering and ordering methods, the former has been studied much more actively than the latter, particularly for the data represented as graphs. This study fills this gap by investigating methodological relationships between several clustering and ordering methods, focusing on spectral techniques. Furthermore, we evaluate the resulting performance of the clustering and ordering methods. To this end, we propose a measure called the label continuity error, which generically quantifies the degree of consistency between a sequence and partition for a set of elements. Based on synthetic and real-world datasets, we evaluate the extents to which an ordering method identifies a module structure and a clustering method identifies a banded structure. | 翻訳日:2023-04-10 15:23:06 公開日:2023-04-07 |
# RadTex: テキストレポートから効率的なラジオグラフ表現を学習する RadTex: Learning Efficient Radiograph Representations from Text Reports ( http://arxiv.org/abs/2208.03218v2 ) ライセンス: Link先を確認 | Keegan Quigley, Miriam Cha, Ruizhi Liao, Geeticka Chauhan, Steven Horng, Seth Berkowitz, Polina Golland | (参考訳) 深層学習を用いた胸部X線写真の自動解析は, 患者の疾患の診断を増強する大きな可能性を秘めている。
しかし、ディープラーニングモデルは通常、高いパフォーマンスを達成するために大量の注釈付きデータを必要とします。
本稿では,放射線学報告を利用したデータ効率学習フレームワークを構築し,限られたラベル付きデータを用いた医用画像分類性能を向上する(1000例未満)。
具体的には,より少ない例で学習する高品質な医用画像表現を学習するために,画像キャプチャ事前学習を検討する。
畳み込みエンコーダとトランスデコーダの合同プリトレーニングに続いて,学習したエンコーダを様々な分類タスクに転送する。
平均9つの病理組織から,ラベル付きトレーニングデータに制限がある場合,画像ネットの教師付きおよびドメイン内教師付き事前学習よりも高い分類性能が得られることがわかった。 Automated analysis of chest radiography using deep learning has tremendous potential to enhance the clinical diagnosis of diseases in patients. However, deep learning models typically require large amounts of annotated data to achieve high performance -- often an obstacle to medical domain adaptation. In this paper, we build a data-efficient learning framework that utilizes radiology reports to improve medical image classification performance with limited labeled data (fewer than 1000 examples). Specifically, we examine image-captioning pretraining to learn high-quality medical image representations that train on fewer examples. Following joint pretraining of a convolutional encoder and transformer decoder, we transfer the learned encoder to various classification tasks. Averaged over 9 pathologies, we find that our model achieves higher classification performance than ImageNet-supervised and in-domain supervised pretraining when labeled training data is limited. | 翻訳日:2023-04-10 15:22:19 公開日:2023-04-07 |
# トンネル時間測定のための量子時計の数値シミュレーション Numerical simulations of quantum clock for measuring tunneling times ( http://arxiv.org/abs/2207.13130v2 ) ライセンス: Link先を確認 | Fumika Suzuki and William G. Unruh | (参考訳) 量子時計を用いてトンネル時間を測定する2つの手法を数値的に検討した。
ラーモア時計を用いた従来の方法では,より高いトンネル障壁に対してラーモアトンネル時間を短縮できることを示した。
第2の手法では、粒子がスピンと相互作用する空間回転場を含む電位バリアを通して伝達される際のスピンフリップの確率について検討する。
断熱的な定理によれば、確率は障壁内の粒子の速度に依存する。
この確率はLarmorクロックによって得られた結果と一致して高い障壁に対して増加することが数値的に観察されている。
初期スピン状態の異なる結果を比較することで、トンネル時間の明らかに減少の主な原因の1つはバリアの端で発生するフィルタリング効果である可能性が示唆された。 We numerically study two methods of measuring tunneling times using a quantum clock. In the conventional method using the Larmor clock, we show that the Larmor tunneling time can be shorter for higher tunneling barriers. In the second method, we study the probability of a spin-flip of a particle when it is transmitted through a potential barrier including a spatially rotating field interacting with its spin. According to the adiabatic theorem, the probability depends on the velocity of the particle inside the barrier. It is numerically observed that the probability increases for higher barriers, which is consistent with the result obtained by the Larmor clock. By comparing outcomes for different initial spin states, we suggest that one of the main causes of the apparent decrease in the tunneling time can be the filtering effect occurring at the end of the barrier. | 翻訳日:2023-04-10 15:22:04 公開日:2023-04-07 |
# 行動からの構造: 人工物体3次元構造発見のための相互作用の学習 Structure from Action: Learning Interactions for Articulated Object 3D Structure Discovery ( http://arxiv.org/abs/2207.08997v2 ) ライセンス: Link先を確認 | Neil Nie, Samir Yitzhak Gadre, Kiana Ehsani, Shuran Song | (参考訳) SfA(Structure from Action)は,不明瞭な物体の3次元部分形状と関節パラメータを推論された相互作用によって検出するフレームワークである。
我々の重要な洞察は、3次元の相互作用と知覚を協調して3次元のCADモデルを構築するべきであるということだ。
情報的相互作用を選択することで、SfAは部品を発見し、閉じた引き出しの内側のような閉塞面を明らかにする。
3Dで視覚的観察を集約することにより、SfAは複数の部分を正確に分割し、部分形状を再構成し、標準座標フレーム内の全ての関節パラメータを推測する。
シミュレーションで訓練されたsfaモデルが,多様な構造を持つ多数の未知のオブジェクトカテゴリと実世界のオブジェクトに一般化できることを実証した。
経験的に、SfAは最先端のコンポーネントのパイプラインを25.4の3D IoUパーセンテージで未確認のカテゴリで上回り、既に実行されている関節推定ベースラインをマッチングする。 We introduce Structure from Action (SfA), a framework to discover 3D part geometry and joint parameters of unseen articulated objects via a sequence of inferred interactions. Our key insight is that 3D interaction and perception should be considered in conjunction to construct 3D articulated CAD models, especially for categories not seen during training. By selecting informative interactions, SfA discovers parts and reveals occluded surfaces, like the inside of a closed drawer. By aggregating visual observations in 3D, SfA accurately segments multiple parts, reconstructs part geometry, and infers all joint parameters in a canonical coordinate frame. Our experiments demonstrate that a SfA model trained in simulation can generalize to many unseen object categories with diverse structures and to real-world objects. Empirically, SfA outperforms a pipeline of state-of-the-art components by 25.4 3D IoU percentage points on unseen categories, while matching already performant joint estimation baselines. | 翻訳日:2023-04-10 15:21:54 公開日:2023-04-07 |
# グラフ畳み込みニューラルネットワークを用いたパーコレーションモデルの機械学習 Machine learning of percolation models using graph convolutional neural networks ( http://arxiv.org/abs/2207.03368v2 ) ライセンス: Link先を確認 | Hua Tian, Lirong Zhang, Youjin Deng, and Wanzhou Zhang | (参考訳) 気候、物理学、材料科学、疫学、金融学などにおいて、パーコレーションは重要なトピックである。
機械学習手法によるパーコレーション閾値の予測は依然として難しい。
本稿では,教師なしと教師なしの両方の方法でパーコレーションを研究するために,強力なグラフ畳み込みニューラルネットワークを構築する。
教師付き学習の観点から、グラフ畳み込みニューラルネットワークは同時に、正方格子や三角形格子のような異なる格子型のデータをトレーニングする。
教師なし視点では、グラフ畳み込みニューラルネットワークと混乱法を組み合わせることで、「W」字型の性能でパーコレーションしきい値を得ることができる。
この研究の発見は、パーコレーションに関連する現象を調査できるより一般的なフレームワークを構築する可能性を開く。 Percolation is an important topic in climate, physics, materials science, epidemiology, finance, and so on. Prediction of percolation thresholds with machine learning methods remains challenging. In this paper, we build a powerful graph convolutional neural network to study the percolation in both supervised and unsupervised ways. From a supervised learning perspective, the graph convolutional neural network simultaneously and correctly trains data of different lattice types, such as the square and triangular lattices. For the unsupervised perspective, combining the graph convolutional neural network and the confusion method, the percolation threshold can be obtained by the "W" shaped performance. The finding of this work opens up the possibility of building a more general framework that can probe the percolation-related phenomenon. | 翻訳日:2023-04-10 15:21:17 公開日:2023-04-07 |
# 集積量子光源のためのカスタム非線形プロファイル Custom nonlinearity profile for integrated quantum light sources ( http://arxiv.org/abs/2207.01714v3 ) ライセンス: Link先を確認 | Salvador Poveda-Hospital, Nicol\'as Quesada, and Yves-Alain Peter | (参考訳) ヘラルド単光子源は、光量子技術の基本構成要素である。
これらのソースは、優れたスケーラビリティを持ち、不要な損失を避けるために、フィルタを外して統合する必要がある。
この目的を達成するためには、導波路源に混在して伝播する磁場の有効非線形性を制御する必要がある。
本稿では,非線形導波路を任意に形作る非線形導波路設計法を提案する。
この方法は、第2次非線形応答がテンソル量であるという事実を生かして、物質の局所的有効非線形性は、相互作用に関与する場の伝播方向に依存する。
したがって、フィールドの伝搬方向を局所的に変化させることで、波混合プロセスを変調することができる。
導波路の材料構造は1つの結晶でできており, 配向パターン (OP) や周期性ポーリング (PP) はもはや不要である。
提案手法を用いて伝搬長がガウス的である非線形プロファイルを持つ導波路を設計し,完全純粋に隠蔽された単一光子を生成する。 Heralded single-photon sources are a fundamental building block for optical quantum technologies. These sources need to be unfiltered and integrated to have good scalability and avoid unnecessary losses. To attain this goal, it is necessary to control the effective nonlinearity seen by the fields as they mix and propagate in a waveguide source. In this paper, we introduce a method to design nonlinear waveguides with arbitrarily shaped effective nonlinearity profiles. The method takes advantage of the fact that the second order nonlinear response is a tensor quantity and thus the local effective nonlinearity of a material depends on the propagation direction of the fields participating in the interaction. Thus, by locally changing the propagation direction of the fields we can modulate the wave-mixing process. Our methods allows for the waveguide fabrication process to be significantly simplified: The material structure of the waveguide is made by a single crystal, no longer needing oriented patterning (OP) or periodic poling (PP). We use our method to design waveguides with a nonlinearity profile that is Gaussian in the propagation length, allowing to generate perfectly pure heralded single photons. | 翻訳日:2023-04-10 15:21:04 公開日:2023-04-07 |
# 教師付き異常検出のための明示的境界案内半パルスコントラスト学習 Explicit Boundary Guided Semi-Push-Pull Contrastive Learning for Supervised Anomaly Detection ( http://arxiv.org/abs/2207.01463v2 ) ライセンス: Link先を確認 | Xincheng Yao and Ruoqi Li and Jing Zhang and Jun Sun and Chongyang Zhang | (参考訳) ほとんどの異常検出(AD)モデルは、教師なしの方法で通常のサンプルのみを使用して学習され、不明瞭な決定境界と識別性に欠ける可能性がある。
実際、いくつかの異常サンプルは現実世界のアプリケーションでしばしば利用可能であり、既知の異常に関する貴重な知識も効果的に活用されるべきである。
しかし、トレーニング中にいくつかの既知の異常を利用すると、モデルが既知の異常に偏り、見当たらない異常に一般化できないという別の問題を引き起こす可能性がある。
本稿では, 監視型異常検出, すなわち, 可視・不視両方の異常を検出するために, 利用可能ないくつかの異常を用いてADモデルを学習する。
本稿では,バイアス問題を緩和しつつ,モデルの識別性を向上する新しい境界案内型半プッシュ・プルコントラスト学習機構を提案する。
提案手法は2つのコア設計に基づいている。まず,特徴学習のガイダンスとして,明示的でコンパクトな分離境界を見出す。
境界は通常の特徴分布にのみ依存するため、いくつかの既知の異常に起因するバイアス問題を緩和することができる。
第2に, 境界ガイド付きセミプッシュプル損失は, 正常な特徴のみを引っぱりながら, 異常な特徴を分離境界から特定の辺縁領域を超えて押し付けるように開発された。
このようにして、我々のモデルはより明確で差別的な決定境界を形成し、既知の異常や見えない異常を通常のサンプルとより効果的に区別することができる。
コードはhttps://github.com/xcyao00/bgadで入手できる。 Most anomaly detection (AD) models are learned using only normal samples in an unsupervised way, which may result in ambiguous decision boundary and insufficient discriminability. In fact, a few anomaly samples are often available in real-world applications, the valuable knowledge of known anomalies should also be effectively exploited. However, utilizing a few known anomalies during training may cause another issue that the model may be biased by those known anomalies and fail to generalize to unseen anomalies. In this paper, we tackle supervised anomaly detection, i.e., we learn AD models using a few available anomalies with the objective to detect both the seen and unseen anomalies. We propose a novel explicit boundary guided semi-push-pull contrastive learning mechanism, which can enhance model's discriminability while mitigating the bias issue. Our approach is based on two core designs: First, we find an explicit and compact separating boundary as the guidance for further feature learning. As the boundary only relies on the normal feature distribution, the bias problem caused by a few known anomalies can be alleviated. Second, a boundary guided semi-push-pull loss is developed to only pull the normal features together while pushing the abnormal features apart from the separating boundary beyond a certain margin region. In this way, our model can form a more explicit and discriminative decision boundary to distinguish known and also unseen anomalies from normal samples more effectively. Code will be available at https://github.com/xcyao00/BGAD. | 翻訳日:2023-04-10 15:20:47 公開日:2023-04-07 |
# ビデオ行動認識モデルの大規模ロバスト性解析 Large-scale Robustness Analysis of Video Action Recognition Models ( http://arxiv.org/abs/2207.01398v2 ) ライセンス: Link先を確認 | Madeline Chantry Schiappa, Naman Biyani, Prudvi Kamtam, Shruti Vyas, Hamid Palangi, Vibhav Vineet, Yogesh Rawat | (参考訳) 近年,映像動作認識の進歩がみられた。
畳み込みニューラルネットワーク(CNN)に基づくモデルと、既存のベンチマークで最高のパフォーマンスを提供するトランスフォーマーベースのアプローチがいくつかある。
本研究では,映像動作認識のための既存モデルの大規模ロバストネス解析を行う。
敵の摂動ではなく、現実の分散シフト摂動に対する堅牢性に焦点を当てる。
本解析を行うために, hmdb51-p, ucf101-p, kinetics400-p, ssv2-pの4種類のベンチマークデータセットを提案する。
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
この研究は興味深い発見をいくつか明らかにしている。
1)トランスフォーマーベースモデルはcnnベースモデルよりも一貫して堅牢である。
2) 事前学習はCNNベースモデルよりもトランスフォーマーベースモデルの堅牢性を向上し,
3)すべてのモデルがSSv2以外のデータセットに対して時間的摂動に対して頑健であり,行動認識における時間的情報の重要性はデータセットや活動によって異なる。
次に、モデルロバスト性における強化の役割について検討し、現実的な分布シフトを含む実世界のデータセット UCF101-DS を提示し、これらの結果のさらなる検証を行う。
我々はこの研究が、堅牢なビデオ行動認識における将来の研究のベンチマークとなると信じている。 We have seen a great progress in video action recognition in recent years. There are several models based on convolutional neural network (CNN) and some recent transformer based approaches which provide top performance on existing benchmarks. In this work, we perform a large-scale robustness analysis of these existing models for video action recognition. We focus on robustness against real-world distribution shift perturbations instead of adversarial perturbations. We propose four different benchmark datasets, HMDB51-P, UCF101-P, Kinetics400-P, and SSv2-P to perform this analysis. We study robustness of six state-of-the-art action recognition models against 90 different perturbations. The study reveals some interesting findings, 1) transformer based models are consistently more robust compared to CNN based models, 2) Pretraining improves robustness for Transformer based models more than CNN based models, and 3) All of the studied models are robust to temporal perturbations for all datasets but SSv2; suggesting the importance of temporal information for action recognition varies based on the dataset and activities. Next, we study the role of augmentations in model robustness and present a real-world dataset, UCF101-DS, which contains realistic distribution shifts, to further validate some of these findings. We believe this study will serve as a benchmark for future research in robust video action recognition. | 翻訳日:2023-04-10 15:20:21 公開日:2023-04-07 |
# 切断法によるフェルミオンガウス状態間の微量距離 Trace distance between fermionic Gaussian states from truncation method ( http://arxiv.org/abs/2210.11865v2 ) ライセンス: Link先を確認 | Jiaju Zhang and M. A. Rajabpour | (参考訳) フェルミオン系における2つのガウス状態間のトレース距離を計算するための切断法を開発した。
ガウス状態はその相関行列によって完全に決定される。
2つのガウス状態間のトレース距離を計算するために、フォン・ノイマンのエントロピーと2つの相関行列の差に応じて対応する相関行列を切断する。
メソッドが動作するケースのクラスが2つあります。
最初のクラスは、二つの状態のフォン・ノイマンエントロピーがあまり大きくなく、2つの対応する相関行列がほぼ可換である場合である。
他のクラスは、2つの状態がほぼ直交している場合で、相関行列差の最大正準値がほぼ2であるのが特徴である。
切断法は、iingの低次固有状態とxxスピン鎖の間のサブシステム距離をかなり大きなサブシステムサイズで示すなど、いくつかの興味深い例でうまく機能する。 We develop a truncation method to calculate the trace distance between two Gaussian states in fermionic systems. The Gaussian states are fully determined by their correlation matrices. To calculate the trace distance between two Gaussian states, we truncate the corresponding correlation matrices according to the von Neumann entropies and the difference of the two correlation matrices. We find two classes of cases for which the method works. The first class are the cases in which the von Neumann entropies of the two states are not too large and the two corresponding correlation matrices nearly commute. The other class are the cases in which the two states are nearly orthogonal characterized by the maximal canonical value of the correlation matrix difference being nearly 2. The truncation method works well for some interesting examples, including the subsystem trace distances between low-lying eigenstates of Ising and XX spin chains with considerably large subsystem sizes. | 翻訳日:2023-04-10 15:14:22 公開日:2023-04-07 |
# トラップオン量子ネットワークノードにおけるロバスト量子メモリ Robust Quantum Memory in a Trapped-Ion Quantum Network Node ( http://arxiv.org/abs/2210.11447v2 ) ライセンス: Link先を確認 | P. Drmota, D. Main, D. P. Nadlinger, B. C. Nichol, M. A. Weber, E. M. Ainley, A. Agrawal, R. Srinivas, G. Araneda, C. J. Ballance, D. M. Lucas | (参考訳) 我々は、長寿命のメモリキュービットを混種型トラップ型量子ネットワークノードに統合する。
sr-88のネットワークキュービットで最初に生成されたイオン光子絡み合いは0.977(7)の忠実度でca-43に転送され、ロバストメモリキュービットにマッピングされる。
次に、メモリキュービットに影響を与えることなく、ネットワークキュービットを第2の光子で絡む。
量子状態トモグラフィーを行い、イオン-光子絡み合いの忠実度がメモリ量子ビットの約70倍遅くなることを示す。
動的デカップリングは保存期間をさらに延長し,10秒後に0.81(4)のイオン-光子交絡率を測定する。 We integrate a long-lived memory qubit into a mixed-species trapped-ion quantum network node. Ion-photon entanglement first generated with a network qubit in Sr-88 is transferred to Ca-43 with 0.977(7) fidelity, and mapped to a robust memory qubit. We then entangle the network qubit with a second photon, without affecting the memory qubit. We perform quantum state tomography to show that the fidelity of ion-photon entanglement decays ~70 times slower on the memory qubit. Dynamical decoupling further extends the storage duration; we measure an ion-photon entanglement fidelity of 0.81(4) after 10s. | 翻訳日:2023-04-10 15:14:06 公開日:2023-04-07 |
# SPIDR:SDFに基づく照明・変形のためのニューラルポイント場 SPIDR: SDF-based Neural Point Fields for Illumination and Deformation ( http://arxiv.org/abs/2210.08398v3 ) ライセンス: Link先を確認 | Ruofan Liang, Jiahao Zhang, Haoda Li, Chen Yang, Yushi Guan, Nandita Vijaykumar | (参考訳) ニューラルレイディアンス場(NeRFs)は近年,3次元再構成と新規なビュー合成のための有望なアプローチとして出現している。
しかし、NeRFベースの手法は、形状、反射率、照明を暗黙的にエンコードするので、ユーザがレンダリング画像でこれらの特性を明示的に操作することは困難である。
既存のアプローチでは、シーンの編集と幾何学の変形を制限できるだけである。
さらに、既存の作業では、オブジェクト変形後の正確なシーン照明が不可能である。
本稿では,新しいハイブリッド型ニューラルネットワークSDF表現であるSPIDRを紹介する。
SPIDRは点雲とニューラル暗示表現を組み合わせて、幾何学的変形と照明推定のための高品質な物体表面の再構成を可能にする。
物体変形と照明推定のためのメッシュと表面
シーンライティングのための環境照明をより正確に捉えるために,環境光を学習するためのニューラル暗黙モデルを提案する。
変形後のより正確な照明更新を可能にするために、影マッピング技術を用いて、幾何編集による光の可視性更新を近似する。
シーンの照明をより正確に更新し,高品質な幾何編集を可能にするSPIDRの有効性を実証する。 Neural radiance fields (NeRFs) have recently emerged as a promising approach for 3D reconstruction and novel view synthesis. However, NeRF-based methods encode shape, reflectance, and illumination implicitly and this makes it challenging for users to manipulate these properties in the rendered images explicitly. Existing approaches only enable limited editing of the scene and deformation of the geometry. Furthermore, no existing work enables accurate scene illumination after object deformation. In this work, we introduce SPIDR, a new hybrid neural SDF representation. SPIDR combines point cloud and neural implicit representations to enable the reconstruction of higher quality object surfaces for geometry deformation and lighting estimation. meshes and surfaces for object deformation and lighting estimation. To more accurately capture environment illumination for scene relighting, we propose a novel neural implicit model to learn environment light. To enable more accurate illumination updates after deformation, we use the shadow mapping technique to approximate the light visibility updates caused by geometry editing. We demonstrate the effectiveness of SPIDR in enabling high quality geometry editing with more accurate updates to the illumination of the scene. | 翻訳日:2023-04-10 15:13:52 公開日:2023-04-07 |
# 不完全位相ランダム化による量子鍵分布のセキュリティ Security of quantum key distribution with imperfect phase randomisation ( http://arxiv.org/abs/2210.08183v2 ) ライセンス: Link先を確認 | Guillermo Curr\'as-Lorenzo, Kiyoshi Tamaki, Marcos Curty | (参考訳) 量子鍵分布(qkd)の性能は光子数分散攻撃により多光子放出によって著しく制限される。
最も効率的な解はデコイ状態法であり、全てのパルスの位相は独立で均一にランダムである。
しかし実際には、これらの位相はしばしば相関しており、特に高速システムではセキュリティの抜け穴が開いている。
ここでは,このプレッシャー問題に対して,理想的なシナリオに近いキーレートを提供する相関位相を持つ解答状態QKDのセキュリティ証明を提供することによって対処する。
我々の研究は、実用的なレーザー源による高性能なセキュアQKDへの道を切り開いており、QKDを超える応用が期待できる。 The performance of quantum key distribution (QKD) is severely limited by multiphoton emissions, due to the photon-number-splitting attack. The most efficient solution, the decoy-state method, requires that the phases of all transmitted pulses are independent and uniformly random. In practice, however, these phases are often correlated, especially in high-speed systems, which opens a security loophole. Here, we address this pressing problem by providing a security proof for decoy-state QKD with correlated phases that offers key rates close to the ideal scenario. Our work paves the way towards high-performance secure QKD with practical laser sources, and may have applications beyond QKD. | 翻訳日:2023-04-10 15:13:36 公開日:2023-04-07 |
# マルチアングルQAOAは必ずしもすべてのアングルを必要としない Multi-Angle QAOA Does Not Always Need All Its Angles ( http://arxiv.org/abs/2209.11839v3 ) ライセンス: Link先を確認 | Kaiyan Shi and Rebekah Herrman and Ruslan Shaydulin and Shouvanik Chakrabarti and Marco Pistoia and Jeffrey Larson | (参考訳) 量子回路に可変パラメータを追加することは、ハードウェアの要求を増加させずに性能を改善する強力な方法である。
最近導入された量子近似最適化アルゴリズム(ma-QAOA)の多角展開は、ハミルトン項の各項のパラメータを独立に変化させることにより、QAOAと比較して解の質を著しく向上させる。
しかしながら、以前の結果はパラメータのかなりの冗長性が示唆され、パラメータの除去によってパラメータ最適化のコストが削減される。
本研究では,問題対称性とパラメータ冗長性との関係を数値的に示すことにより,ma-qaoaが使用するパラメータの数を,解の質を低下させることなく削減できることを示す。
我々は、7,565個の連結な非同型8ノードグラフを非自明な対称性群で解析し、これらのグラフの67.4%では、パラメータの平均比を28.1%減らし、目的を減らさずにパラメータ数を減少させることができることを数値的に示す。
さらに、35.9%のグラフにおいて、この還元は単に最大対称性を使用することで達成できることを示した。
パラメータ数の減少が目的の減少につながるグラフに対して、最大の対称性は、目的の6.1%しか減少しないコストでパラメータの数を37.1%削減するために用いられる。
ランダムパラメータ削減戦略が性能を著しく低下させることを示すことで,対称性の中心的な役割を実証する。 Introducing additional tunable parameters to quantum circuits is a powerful way of improving performance without increasing hardware requirements. A recently introduced multiangle extension of the quantum approximate optimization algorithm (ma-QAOA) significantly improves the solution quality compared with QAOA by allowing the parameters for each term in the Hamiltonian to vary independently. Prior results suggest, however, considerable redundancy in parameters, the removal of which would reduce the cost of parameter optimization. In this work we show numerically the connection between the problem symmetries and the parameter redundancy by demonstrating that symmetries can be used to reduce the number of parameters used by ma-QAOA without decreasing the solution quality. We study Max-Cut on all 7,565 connected, non-isomorphic 8-node graphs with a nontrivial symmetry group and show numerically that in 67.4% of these graphs, symmetry can be used to reduce the number of parameters with no decrease in the objective, with the average ratio of parameters reduced by 28.1%. Moreover, we show that in 35.9% of the graphs this reduction can be achieved by simply using the largest symmetry. For the graphs where reducing the number of parameters leads to a decrease in the objective, the largest symmetry can be used to reduce the parameter count by 37.1% at the cost of only a 6.1% decrease in the objective. We demonstrate the central role of symmetries by showing that a random parameter reduction strategy leads to much worse performance. | 翻訳日:2023-04-10 15:12:28 公開日:2023-04-07 |
# 大規模オンライン実験における落札者に対するクラスタリングに基づく計算 Clustering-based Imputation for Dropout Buyers in Large-scale Online Experimentation ( http://arxiv.org/abs/2209.06125v3 ) ライセンス: Link先を確認 | Sumin Shen, Huiying Mao, Zezhong Zhang, Zili Chen, Keyu Nie, Xinwei Deng | (参考訳) オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。
しかしながら、オンライン実験では不完全なメトリクスが頻繁に発生し、利用可能なデータは計画されたオンライン実験(例えばA/Bテスト)よりもはるかに少ない。
本研究では,ドロップアウトバイヤーの概念を紹介し,不完全なメトリック値を持つユーザを,訪問者とドロップアウトバイヤーの2つのグループに分類する。
不完全なメトリクスの分析には,$k$-nearest近傍を用いたクラスタリングに基づくインプテーション手法を提案する。
提案手法では,実験特有の特徴と買い物経路に沿ったユーザの活動の両方を考慮し,異なるユーザに対して異なるインプテーション値を付与する。
オンライン実験における大規模データセットの効率的なインプテーションを容易にするために,提案手法では階層化とクラスタリングの組み合わせを用いる。
提案手法の性能は,eBayにおけるシミュレーション研究と実オンライン実験の両方において,従来手法と比較される。 In online experimentation, appropriate metrics (e.g., purchase) provide strong evidence to support hypotheses and enhance the decision-making process. However, incomplete metrics are frequently occurred in the online experimentation, making the available data to be much fewer than the planned online experiments (e.g., A/B testing). In this work, we introduce the concept of dropout buyers and categorize users with incomplete metric values into two groups: visitors and dropout buyers. For the analysis of incomplete metrics, we propose a clustering-based imputation method using $k$-nearest neighbors. Our proposed imputation method considers both the experiment-specific features and users' activities along their shopping paths, allowing different imputation values for different users. To facilitate efficient imputation of large-scale data sets in online experimentation, the proposed method uses a combination of stratification and clustering. The performance of the proposed method is compared to several conventional methods in both simulation studies and a real online experiment at eBay. | 翻訳日:2023-04-10 15:11:59 公開日:2023-04-07 |
# 衛星画像を用いた国別土地被覆図の作成 Enabling Country-Scale Land Cover Mapping with Meter-Resolution Satellite Imagery ( http://arxiv.org/abs/2209.00727v2 ) ライセンス: Link先を確認 | Xin-Yi Tong, Gui-Song Xia, Xiao Xiang Zhu | (参考訳) 高分解能衛星画像は、複雑な建築環境の研究に特に重要である土地被覆分類のための豊富な詳細な空間情報を提供することができる。
しかし, 複雑な土地被覆パターン, 費用のかかるサンプル収集, 衛星画像の高度分布変化などにより, 大規模に詳細な土地被覆地図に高解像度画像を適用した研究は少ない。
このギャップを埋めるために,我々は5億ピクセルという大規模土地被覆データセットを提案する。
50億画素以上の高解像度のGaofen-2 (4 m)衛星画像が含まれており、人工的に構築された、農業、自然のクラスをカバーする24カテゴリのシステムに注釈が付けられている。
さらに,ラベル付きデータセットで訓練された分類モデル(ソースドメイン)を,大規模土地被覆マッピングのためのラベル付きデータ(ターゲットドメイン)に転送する,ディープラーニングに基づく教師なしドメイン適応手法を提案する。
具体的には、動的擬似ラベル割り当てとクラスバランス戦略を用いて、適応的なドメイン共同学習を行う。
我々のデータセットの一般化可能性と、異なるセンサと異なる地理的領域にまたがるアプローチを検証するために、プラネットスコープ(3m)、gaofen-1(8m)、sentinel-2(10m)の衛星画像を用いて、中国と他の5つのアジアの6つの都市における5つのメガシティの土地被覆マッピングを行った。
総面積は6万平方キロメートルで、入力画像が完全にラベル付けされていなくても有望な結果が得られる。
提案手法はFive-Billion-Pixelsデータセットを用いてトレーニングされ,中国全土および他のアジア諸国における高品質で詳細な土地被覆地図をメートル分解能で作成することができる。 High-resolution satellite images can provide abundant, detailed spatial information for land cover classification, which is particularly important for studying the complicated built environment. However, due to the complex land cover patterns, the costly training sample collections, and the severe distribution shifts of satellite imageries, few studies have applied high-resolution images to land cover mapping in detailed categories at large scale. To fill this gap, we present a large-scale land cover dataset, Five-Billion-Pixels. It contains more than 5 billion labeled pixels of 150 high-resolution Gaofen-2 (4 m) satellite images, annotated in a 24-category system covering artificial-constructed, agricultural, and natural classes. In addition, we propose a deep-learning-based unsupervised domain adaptation approach that can transfer classification models trained on labeled dataset (referred to as the source domain) to unlabeled data (referred to as the target domain) for large-scale land cover mapping. Specifically, we introduce an end-to-end Siamese network employing dynamic pseudo-label assignment and class balancing strategy to perform adaptive domain joint learning. To validate the generalizability of our dataset and the proposed approach across different sensors and different geographical regions, we carry out land cover mapping on five megacities in China and six cities in other five Asian countries severally using: PlanetScope (3 m), Gaofen-1 (8 m), and Sentinel-2 (10 m) satellite images. Over a total study area of 60,000 square kilometers, the experiments show promising results even though the input images are entirely unlabeled. The proposed approach, trained with the Five-Billion-Pixels dataset, enables high-quality and detailed land cover mapping across the whole country of China and some other Asian countries at meter-resolution. | 翻訳日:2023-04-10 15:11:43 公開日:2023-04-07 |
# マルチモーダルおよび説明可能なインターネットミーム分類 Multimodal and Explainable Internet Meme Classification ( http://arxiv.org/abs/2212.05612v3 ) ライセンス: Link先を確認 | Abhinav Kumar Thakur, Filip Ilievski, H\^ong-\^An Sandlin, Zhivar Sourati, Luca Luceri, Riccardo Tommasini and Alain Mermoud | (参考訳) オンラインプラットフォームが様々な地政学的イベントや社会問題で効果的に武器化されている現在の状況では、インターネットミームは大規模で公平なコンテンツのモデレーションをさらに難しくしている。
ミーム分類と追跡に関する既存の研究は、ミームの意味論やそれらの作成の文脈を明示的に考慮しないブラックボックスメソッドに焦点を当てている。
本稿では,インターネット・ミーム理解のためのモジュール型で説明可能なアーキテクチャを追求する。
我々は,実例とプロトタイプに基づく推論をトレーニングケース上で行うマルチモーダル分類法を設計・実装し,テキストモデルとビジュアルソータモデルの両方を利用して個々の事例を表現した。
既存の課題であるヘイトスピーチ検出とミソジニー分類における有害なミームの検出におけるモジュラーモデルと説明可能なモデルの関連性について検討した。
本研究は,サンプルベース手法とプロトタイプベース手法,テキストモデル,視覚モデル,マルチモーダルモデルのパフォーマンスを,有害性(ステレオタイプ,オブジェクト化など)の異なるカテゴリで比較する。
ユーザフレンドリなインターフェースを考案し,すべてのモデルが収集したサンプルの比較分析を容易にし,説明可能なメソッドの長所と短所をコミュニティに通知します。 In the current context where online platforms have been effectively weaponized in a variety of geo-political events and social issues, Internet memes make fair content moderation at scale even more difficult. Existing work on meme classification and tracking has focused on black-box methods that do not explicitly consider the semantics of the memes or the context of their creation. In this paper, we pursue a modular and explainable architecture for Internet meme understanding. We design and implement multimodal classification methods that perform example- and prototype-based reasoning over training cases, while leveraging both textual and visual SOTA models to represent the individual cases. We study the relevance of our modular and explainable models in detecting harmful memes on two existing tasks: Hate Speech Detection and Misogyny Classification. We compare the performance between example- and prototype-based methods, and between text, vision, and multimodal models, across different categories of harmfulness (e.g., stereotype and objectification). We devise a user-friendly interface that facilitates the comparative analysis of examples retrieved by all of our models for any given meme, informing the community about the strengths and limitations of these explainable methods. | 翻訳日:2023-04-10 15:05:06 公開日:2023-04-07 |
# 電子カルテノートからのエビテーション状態の自動同定 Automated Identification of Eviction Status from Electronic Health Record Notes ( http://arxiv.org/abs/2212.02762v2 ) ライセンス: Link先を確認 | Zonghai Yao and Jack Tsai and Weisong Liu and David A. Levy and Emily Druhl and Joel I Reisman and Hong Yu | (参考訳) 目的: 信念は、健康の重要な社会的および行動的決定要因である。
退去は失業、住宅の安全・ホームレス、長期の貧困、メンタルヘルス問題につながる負の出来事のカスケードと関連付けられている。
本研究では,電子健康記録(EHR)ノートから排除状態を自動的に検出する自然言語処理システムを開発した。
資料と方法:まず,エビテーション状態(エビテーション存在とエビテーション期間)を定義し,その後ベテランズ健康管理局(VHA)の5000 EHRノートにアノテートされたエビクション状態を定義した。
我々は、BioBERTやBioClinicalBERTのような微調整済み言語モデルなど、他の最先端モデルよりも大幅に優れていることを示す新しいモデルKIRESHを開発した。
さらに,2つのサブタスク間の本質的な接続と周期予測を用いて,モデル性能をさらに向上する新規なプロンプトを設計した。
最後に,kiresh-prompt法における温度スケーリングに基づくキャリブレーションを用いて,不均衡データセットから発生する過信問題を回避する。
結果:KIRESH-Promptは,0.74672 MCC,0.71153 Macro-F1,0.83396 Micro-F1,0.66827 MCC,0.62734 Macro-F1,0.7863 Micro-F1を微調整した。
また,本手法の一般化可能性を示すために,SBDHデータセットのベンチマーク実験を行った。
結論と今後の課題:KIRESH-Promptは退行ステータス分類を大幅に改善した。
我々は、米国の退役軍人の住宅安全対策を支援するため、防犯監視システムとしてKIRESH-PromptをVHA EHRに配備する計画である。 Objective: Evictions are important social and behavioral determinants of health. Evictions are associated with a cascade of negative events that can lead to unemployment, housing insecurity/homelessness, long-term poverty, and mental health problems. In this study, we developed a natural language processing system to automatically detect eviction status from electronic health record (EHR) notes. Materials and Methods: We first defined eviction status (eviction presence and eviction period) and then annotated eviction status in 5000 EHR notes from the Veterans Health Administration (VHA). We developed a novel model, KIRESH, that has shown to substantially outperform other state-of-the-art models such as fine-tuning pre-trained language models like BioBERT and BioClinicalBERT. Moreover, we designed a novel prompt to further improve the model performance by using the intrinsic connection between the two sub-tasks of eviction presence and period prediction. Finally, we used the Temperature Scaling-based Calibration on our KIRESH-Prompt method to avoid over-confidence issues arising from the imbalance dataset. Results: KIRESH-Prompt substantially outperformed strong baseline models including fine-tuning the BioClinicalBERT model to achieve 0.74672 MCC, 0.71153 Macro-F1, and 0.83396 Micro-F1 in predicting eviction period and 0.66827 MCC, 0.62734 Macro-F1, and 0.7863 Micro-F1 in predicting eviction presence. We also conducted additional experiments on a benchmark social determinants of health (SBDH) dataset to demonstrate the generalizability of our methods. Conclusion and Future Work: KIRESH-Prompt has substantially improved eviction status classification. We plan to deploy KIRESH-Prompt to the VHA EHRs as an eviction surveillance system to help address the US Veterans' housing insecurity. | 翻訳日:2023-04-10 15:04:45 公開日:2023-04-07 |
# 背景と前景における行動表現の静的バイアスの軽減と評価 Mitigating and Evaluating Static Bias of Action Representations in the Background and the Foreground ( http://arxiv.org/abs/2211.12883v2 ) ライセンス: Link先を確認 | Haoxin Li, Yuan Liu, Hanwang Zhang, Boyang Li | (参考訳) ビデオアクション認識では、ショートカット静的機能は動作特徴の学習を妨げる可能性があるため、od(out-of-distribution)一般化が不十分である。
ビデオ背景は明らかに静的バイアスの源であるが、アクターの衣服のようなビデオフォアグラウンドは静的バイアスを与えることもできる。
本稿では,ビデオの静的部分と移動部分の信号が矛盾するテストビデオを作成することにより,前景の静的バイアスの存在を実証的に検証する。
この問題に取り組むために,ロバストな行動表現を学ぶための,単純かつ効果的な手法である stillmix を提案する。
具体的には、s stillmixは2d参照ネットワークを使ってバイアスを誘発するビデオフレームを識別し、トレーニング用のビデオと混合し、各ビデオフレーム内のバイアス源を明示的に抽出したり、バイアスの種類を列挙することができない場合でも、効果的なバイアス抑制を行う。
最後に,静的バイアスを正確に評価するために,背景の静的キューにSCUBA,前景の静的キューにSCUFOという2つの新しいベンチマークを合成する。
広範な実験により、s stillmixは両方の静的バイアスを軽減し、下流アプリケーションのビデオ表現を改善することを実証した。 In video action recognition, shortcut static features can interfere with the learning of motion features, resulting in poor out-of-distribution (OOD) generalization. The video background is clearly a source of static bias, but the video foreground, such as the clothing of the actor, can also provide static bias. In this paper, we empirically verify the existence of foreground static bias by creating test videos with conflicting signals from the static and moving portions of the video. To tackle this issue, we propose a simple yet effective technique, StillMix, to learn robust action representations. Specifically, StillMix identifies bias-inducing video frames using a 2D reference network and mixes them with videos for training, serving as effective bias suppression even when we cannot explicitly extract the source of bias within each video frame or enumerate types of bias. Finally, to precisely evaluate static bias, we synthesize two new benchmarks, SCUBA for static cues in the background, and SCUFO for static cues in the foreground. With extensive experiments, we demonstrate that StillMix mitigates both types of static bias and improves video representations for downstream applications. | 翻訳日:2023-04-10 15:04:05 公開日:2023-04-07 |
# ダブルトロイック符号 Double-toric code ( http://arxiv.org/abs/2211.12695v2 ) ライセンス: Link先を確認 | Komal Kumari, Garima Rajpoot, Sudhir Ranjan Jain | (参考訳) 両面曲面符号は, 翼状タイルを用いて平面テッセルレーションを用いて構成する。
nデータキュービットでは、少なくともn/3論理キュービットや量子メモリをエンコードすることができます。
タイルの適切な配置により、コードはより大きな距離を達成し、重大なエラー訂正能力をもたらす。
本研究では,外部雑音の存在下で得られる論理量子ビットのロバスト性を示す。
ここで提示されるコードの最適性は、効率的なスケーラブルアーキテクチャ設計の道を開くものだと考えています。 We construct a double-toric surface code by exploiting the planar tessellation using a rhombus-shaped tile. With n data qubits, we are able to encode at least n/3 logical qubits or quantum memories. By a suitable arrangement of the tiles, the code achieves larger distances, leading to significant error-correcting capability. We demonstrate the robustness of the logical qubits thus obtained in the presence of external noise. We believe that the optimality of the code presented here will pave the way for design of efficient scalable architectures. | 翻訳日:2023-04-10 15:03:30 公開日:2023-04-07 |
# 埋め込み自己エネルギーによる非平衡グリーン関数の加速シミュレーション Accelerating Nonequilibrium Green functions simulations with embedding selfenergies ( http://arxiv.org/abs/2211.09615v2 ) ライセンス: Link先を確認 | Karsten Balzer, Niclas Schl\"unzen, Hannes Ohldag, Jan-Philip Joost, and Michael Bonitz | (参考訳) リアルタイム非平衡グリーン関数(NEGF)は、平衡から遠く離れた相関多粒子系の力学をシミュレートすることに成功した。
しかし、negfシミュレーションは計算時間とともにキュービックにスケールするため、計算コストが高い。
近年,時間線形スケーリング [Schl\"unzen, Phys] を劇的に削減できるG1-G2方式を導入している。
Rev. Lett.
124, 076601 (2020), Joost et al., Phys。
b 101, 245101 (2020) を参照。
ここでは、システムサイズによる計算作業の急速な成長という別の問題に取り組む。
電子物性の微視的な分解が不要な電気接触や類似のマクロシステムと、浴槽に利害関係が結合している多くの状況において、効率的な単純化が可能となる。
これは、標準NEGFシミュレーションで成功を収めた埋め込み自己エネルギーの導入によって実現される。ここでは、埋め込みの概念がG1-G2スキームにどのように導入され、NEGF埋め込みシミュレーションを劇的に加速させることができるかを示す。
このアプローチは、G1--G2スキーム(Joost et al., Phys. Rev. B 105, 165155 (2022))で表現できる全ての先進的な自己エネルギーと互換性があり、方程式のメモリレス構造と時間線形スケーリングを保持する。
数値図解として,ハバードナノクラスターとイオンの中和に関係のある付加部位との間の電荷移動について検討する。 Real-time nonequilibrium Green functions (NEGF) have been very successful to simulate the dynamics of correlated many-particle systems far from equilibrium. However, NEGF simulations are computationally expensive since the effort scales cubically with the simulation duration. Recently we have introduced the G1--G2 scheme that allows for a dramatic reduction to time-linear scaling [Schl\"unzen, Phys. Rev. Lett. 124, 076601 (2020); Joost et al., Phys. Rev. B 101, 245101 (2020)]. Here we tackle another problem: the rapid growth of the computational effort with the system size. In many situations where the system of interest is coupled to a bath, to electric contacts or similar macroscopic systems for which a microscopic resolution of the electronic properties is not necessary, efficient simplifications are possible. This is achieved by the introduction of an embedding selfenergy -- a concept that has been successful in standard NEGF simulations. Here, we demonstrate how the embedding concept can be introduced into the G1--G2 scheme, allowing us to drastically accelerate NEGF embedding simulations. The approach is compatible with all advanced selfenergies that can be represented by the G1--G2 scheme [as described in Joost et al., Phys. Rev. B 105, 165155 (2022)] and retains the memory-less structure of the equations and their time linear scaling. As a numerical illustration we investigate the charge transfer between a Hubbard nanocluster and an additional site which is of relevance for the neutralization of ions in matter. | 翻訳日:2023-04-10 15:03:03 公開日:2023-04-07 |
# 連続作用空間をもつ区間マルコフ決定過程 Interval Markov Decision Processes with Continuous Action-Spaces ( http://arxiv.org/abs/2211.01231v2 ) ライセンス: Link先を確認 | Giannis Delimpaltadakis, Morteza Lahijanian, Manuel Mazo Jr., Luca Laurenti | (参考訳) インターバルマルコフ決定過程(Interval Markov Decision Processs、IMDP)は、遷移確率が区間に属する有限状態不確実マルコフモデルである。
近年,imdpを制御合成のための確率システムの抽象化として用いる研究が急増している。
しかし、連続的な作用空間を持つIMDP上の合成アルゴリズムが存在しないため、アクション空間は離散a-プリオリと仮定され、これは多くのアプリケーションにとって制限的な仮定である。
そこで我々は,遷移確率の限界が作用変数の関数である連続作用imdps(caimdps)を導入し,期待累積報酬を最大化するための学習値反復を提案する。
具体的には、値反復に関連する最大ミン問題を$|\mathcal{Q}|$max問題に分解し、$|\mathcal{Q}|$はcaIMDPの状態の数である。
次に、これらの最大問題の単純な形式を利用して、caIMDP 上の値反復を効率的に解ける場合(例えば、線形あるいは凸プログラミング)を特定する。
例えば、作用集合 $\mathcal{A}$ がポリトープである場合、離散作用 IMDP 上の合成において、作用が $\mathcal{A}$ の頂点である場合、最適性には十分である。
その結果を数値的な例で示す。
最後に、制御合成の抽象化としてcaIMDPを用いることについての簡単な議論を含む。 Interval Markov Decision Processes (IMDPs) are finite-state uncertain Markov models, where the transition probabilities belong to intervals. Recently, there has been a surge of research on employing IMDPs as abstractions of stochastic systems for control synthesis. However, due to the absence of algorithms for synthesis over IMDPs with continuous action-spaces, the action-space is assumed discrete a-priori, which is a restrictive assumption for many applications. Motivated by this, we introduce continuous-action IMDPs (caIMDPs), where the bounds on transition probabilities are functions of the action variables, and study value iteration for maximizing expected cumulative rewards. Specifically, we decompose the max-min problem associated to value iteration to $|\mathcal{Q}|$ max problems, where $|\mathcal{Q}|$ is the number of states of the caIMDP. Then, exploiting the simple form of these max problems, we identify cases where value iteration over caIMDPs can be solved efficiently (e.g., with linear or convex programming). We also gain other interesting insights: e.g., in certain cases where the action set $\mathcal{A}$ is a polytope, synthesis over a discrete-action IMDP, where the actions are the vertices of $\mathcal{A}$, is sufficient for optimality. We demonstrate our results on a numerical example. Finally, we include a short discussion on employing caIMDPs as abstractions for control synthesis. | 翻訳日:2023-04-10 15:02:04 公開日:2023-04-07 |
# lp-bfgs攻撃:限られた画素のヘッシアンに基づく敵の攻撃 LP-BFGS attack: An adversarial attack based on the Hessian with limited pixels ( http://arxiv.org/abs/2210.15446v2 ) ライセンス: Link先を確認 | Jiebao Zhang, Wenhua Qian, Rencan Nie, Jinde Cao, Dan Xu | (参考訳) ディープニューラルネットワークは敵の攻撃に弱い。
L_{0}$-normベースのほとんどのホワイトボックスは、入力へのモデルの勾配による摂動を攻撃します。
ヘッセン行列計算の計算コストとメモリ制限のため、ホワイトボックス攻撃におけるヘッセン行列や近似ヘッセン行列の適用は徐々に棚上げされる。
本研究では,摂動に対するスパーシティ要件が自然にヘッセン情報の利用に寄与していることに留意する。
本研究では, 摂動画素数に制限のあるHessianに基づく攻撃手法の攻撃性能と計算コストについて検討する。
具体的には、摂動画素選択戦略とbfgsアルゴリズムを組み込んだ制限画素bfgs(lp-bfgs)攻撃法を提案する。
Integrated Gradient法により算出されたトップk属性スコアを持つ画素は,LP-BFGS攻撃の最適化変数とみなす。
異なるネットワークやデータセットにまたがる実験結果から、我々のアプローチは既存のソリューションと比較して、異なる数の摂動画素で妥当な計算能力を持つことが示された。 Deep neural networks are vulnerable to adversarial attacks. Most $L_{0}$-norm based white-box attacks craft perturbations by the gradient of models to the input. Since the computation cost and memory limitation of calculating the Hessian matrix, the application of Hessian or approximate Hessian in white-box attacks is gradually shelved. In this work, we note that the sparsity requirement on perturbations naturally lends itself to the usage of Hessian information. We study the attack performance and computation cost of the attack method based on the Hessian with a limited number of perturbation pixels. Specifically, we propose the Limited Pixel BFGS (LP-BFGS) attack method by incorporating the perturbation pixel selection strategy and the BFGS algorithm. Pixels with top-k attribution scores calculated by the Integrated Gradient method are regarded as optimization variables of the LP-BFGS attack. Experimental results across different networks and datasets demonstrate that our approach has comparable attack ability with reasonable computation in different numbers of perturbation pixels compared with existing solutions. | 翻訳日:2023-04-10 15:01:35 公開日:2023-04-07 |
# 量子効果:量子Piのレシピ The Quantum Effect: A Recipe for QuantumPi ( http://arxiv.org/abs/2302.01885v2 ) ライセンス: Link先を確認 | Jacques Carette, Chris Heunen, Robin Kaarsgaard, Amr Sabry | (参考訳) 自由カテゴリー構成は、古典構造の相補性方程式に結びついた可逆的古典モデルの2つのコピーの組み合わせとして量子コンピューティングを特徴づける。
このレシピは、rig groupoidsの内部言語であるpiの2つのコピーから計算に普遍的な量子プログラミング言語を効果的に構築する。
構造はヒューズの矢で成っている。
したがって、可逆古典計算を量子計算に変換する計算効果が存在するかどうかという疑問は正に答える:量子効果。
測定は、上面にさらなる効果を階層化することで追加することができる。
我々の構成はまた、古典的推論と相補性に関する推論の組み合わせによって(測定の有無に関わらず)量子プログラムに関するいくつかの推論を可能にする。 Free categorical constructions characterise quantum computing as the combination of two copies of a reversible classical model, glued by the complementarity equations of classical structures. This recipe effectively constructs a computationally universal quantum programming language from two copies of Pi, the internal language of rig groupoids. The construction consists of Hughes' arrows. Thus answer positively the question whether a computational effect exists that turns reversible classical computation into quantum computation: the quantum effect. Measurements can be added by layering a further effect on top. Our construction also enables some reasoning about quantum programs (with or without measurement) through a combination of classical reasoning and reasoning about complementarity. | 翻訳日:2023-04-10 14:56:04 公開日:2023-04-07 |
# 道路運転行動に対する時間観測に基づく因果発見手法の評価 Evaluating Temporal Observation-Based Causal Discovery Techniques Applied to Road Driver Behaviour ( http://arxiv.org/abs/2302.00064v2 ) ライセンス: Link先を確認 | Rhys Howard, Lars Kunze | (参考訳) 自律ロボットは、環境における動的エージェントの振る舞いを判断する必要がある。
これらの関係を記述するモデルの作成は、典型的には因果発見手法の適用によって達成される。
しかし、観察的因果発見技術は、自律エージェントドメインにおけるオンライン使用において一般的に見られる因果スパーシティや非定常性といった状況に適切に対処できない。
一方、介入技術はドメインの制約のため必ずしも実現可能とは限らない。
観察技術に直面する問題をより深く探求し、これらのトピックのさらなる議論を促進するために、自律運転領域における10の現代観測時間因果発見手法のベンチマークを行う。
これらの手法を実世界のデータセットから抽出した因果シーンで評価することで,これらを合成して生成したデータに加えて,上記のユースケースへの因果発見手法の適用を容易にするために,改善が必要な箇所を強調する。
最後に,最先端技術によって現在経験されている課題に対処するための今後の取り組みの方向性について論じる。 Autonomous robots are required to reason about the behaviour of dynamic agents in their environment. The creation of models to describe these relationships is typically accomplished through the application of causal discovery techniques. However, as it stands observational causal discovery techniques struggle to adequately cope with conditions such as causal sparsity and non-stationarity typically seen during online usage in autonomous agent domains. Meanwhile, interventional techniques are not always feasible due to domain restrictions. In order to better explore the issues facing observational techniques and promote further discussion of these topics we carry out a benchmark across 10 contemporary observational temporal causal discovery methods in the domain of autonomous driving. By evaluating these methods upon causal scenes drawn from real world datasets in addition to those generated synthetically we highlight where improvements need to be made in order to facilitate the application of causal discovery techniques to the aforementioned use-cases. Finally, we discuss potential directions for future work that could help better tackle the difficulties currently experienced by state of the art techniques. | 翻訳日:2023-04-10 14:55:52 公開日:2023-04-07 |
# 含意神経表現のモダリティ非依存的変動圧縮 Modality-Agnostic Variational Compression of Implicit Neural Representations ( http://arxiv.org/abs/2301.09479v3 ) ライセンス: Link先を確認 | Jonathan Richard Schwarz and Jihoon Tack and Yee Whye Teh and Jaeho Lee and Jinwoo Shin | (参考訳) 本稿では,データの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを導入し,インプリシットニューラル表現(INR)としてパラメータ化する。
潜在符号化とスパーシティのギャップを橋渡しし,ソフトゲーティング機構に非線形にマッピングされたコンパクトな潜在表現を得る。
これにより、サブネットワーク選択を通じて各データ項目に共有INRネットワークを特殊化することができる。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモダリティ非依存空間におけるレート/ディストリクトトレードオフを直接最適化する。
Inlicit Neural Representation (VC-INR) の変動圧縮は、同じ表現能力の事前量子化による性能の向上と、他のINR技術で使用される以前の量子化方式よりも優れていた。
実験では,モーダリティ固有の帰納バイアスを伴わない同じアルゴリズムを用いて,多種多様なモーダリティに対して強い結果を示す。
画像, 気候データ, 3次元形状, 映像, 音声, 映像に, JPEG 2000, MP3, AVC/HEVCなどの多種多様なコーデックよりも優れたVC-INRを導入した。 We introduce a modality-agnostic neural compression algorithm based on a functional view of data and parameterised as an Implicit Neural Representation (INR). Bridging the gap between latent coding and sparsity, we obtain compact latent representations non-linearly mapped to a soft gating mechanism. This allows the specialisation of a shared INR network to each data item through subnetwork selection. After obtaining a dataset of such latent representations, we directly optimise the rate/distortion trade-off in a modality-agnostic space using neural compression. Variational Compression of Implicit Neural Representations (VC-INR) shows improved performance given the same representational capacity pre quantisation while also outperforming previous quantisation schemes used for other INR techniques. Our experiments demonstrate strong results over a large set of diverse modalities using the same algorithm without any modality-specific inductive biases. We show results on images, climate data, 3D shapes and scenes as well as audio and video, introducing VC-INR as the first INR-based method to outperform codecs as well-known and diverse as JPEG 2000, MP3 and AVC/HEVC on their respective modalities. | 翻訳日:2023-04-10 14:55:36 公開日:2023-04-07 |
# 交流最適潮流のコンパクト最適化学習 Compact Optimization Learning for AC Optimal Power Flow ( http://arxiv.org/abs/2301.08840v2 ) ライセンス: Link先を確認 | Seonho Park, Wenbo Chen, Terrence W.K. Mak and Pascal Van Hentenryck | (参考訳) 本稿では,最適潮流(OPF)に対するエンドツーエンドの学習手法を再考する。
OPFの入出力マッピングを学習する既存の方法は、出力空間の高次元性に起因するスケーラビリティの問題に悩まされている。
本稿ではまず,主成分分析(PCA)を用いて最適解の空間を著しく圧縮できることを示す。
次に、ベクトルを元の出力空間に変換する前に、主成分の部分空間で学習する新しい方法であるコンパクト学習を提案する。
この圧縮により、トレーニング可能なパラメータの数は大幅に減少し、スケーラビリティと有効性が向上する。
Compact LearningはPGLibから最大30,000台のバスでさまざまなテストケースで評価されている。
また,小型学習の出力は,ACソルバを暖房して実現可能性の回復に役立てるとともに,大幅な高速化を実現することができることを示した。 This paper reconsiders end-to-end learning approaches to the Optimal Power Flow (OPF). Existing methods, which learn the input/output mapping of the OPF, suffer from scalability issues due to the high dimensionality of the output space. This paper first shows that the space of optimal solutions can be significantly compressed using principal component analysis (PCA). It then proposes Compact Learning, a new method that learns in a subspace of the principal components before translating the vectors into the original output space. This compression reduces the number of trainable parameters substantially, improving scalability and effectiveness. Compact Learning is evaluated on a variety of test cases from the PGLib with up to 30,000 buses. The paper also shows that the output of Compact Learning can be used to warm-start an exact AC solver to restore feasibility, while bringing significant speed-ups. | 翻訳日:2023-04-10 14:55:02 公開日:2023-04-07 |
# 回帰環境下での分割学習に対するラベル推論攻撃 Label Inference Attack against Split Learning under Regression Setting ( http://arxiv.org/abs/2301.07284v2 ) ライセンス: Link先を確認 | Shangyu Xie, Xin Yang, Yuanshun Yao, Tianyi Liu, Taiqing Wang and Jiankai Sun | (参考訳) 垂直フェデレートラーニング(vFL)における重要なビルディングブロックとして、スプリットラーニング(SL)は、データサンプルの特徴を一方が保持し、それに対応するラベルを他方が保持する2つのモデルのトレーニングコラボレーションにおいて、その実践を実証した。
共有情報は、プライベートな生データやラベルではなく、埋め込みベクトルと勾配のみであることを考えると、そのような方法はプライベートであると主張する。
しかし、最近の研究によって、プライベートレーベルは勾配によって漏洩する可能性があることが示されている。
これらの既存の攻撃は、プライベートラベルが離散的な分類設定下でのみ機能する。
本研究では,プライベートラベルを(分類における離散ラベルではなく)連続数とする回帰モデルのシナリオにおいて,漏洩についてさらに検討する。
これにより、非バウンド出力範囲による連続ラベルの推測が困難になる。
この制限に対処するために、回帰設定下でラベルを効果的に推測できるモデルトレーニング特性の側面において、勾配情報と余分な学習正規化目標を統合した新しい学習ベースアタックを提案する。
各種データセットおよびモデルに関する包括的実験により,提案した攻撃の有効性を実証した。
vFLフレームワークをよりセキュアにするための今後の分析の道を開いたいと考えています。 As a crucial building block in vertical Federated Learning (vFL), Split Learning (SL) has demonstrated its practice in the two-party model training collaboration, where one party holds the features of data samples and another party holds the corresponding labels. Such method is claimed to be private considering the shared information is only the embedding vectors and gradients instead of private raw data and labels. However, some recent works have shown that the private labels could be leaked by the gradients. These existing attack only works under the classification setting where the private labels are discrete. In this work, we step further to study the leakage in the scenario of the regression model, where the private labels are continuous numbers (instead of discrete labels in classification). This makes previous attacks harder to infer the continuous labels due to the unbounded output range. To address the limitation, we propose a novel learning-based attack that integrates gradient information and extra learning regularization objectives in aspects of model training properties, which can infer the labels under regression settings effectively. The comprehensive experiments on various datasets and models have demonstrated the effectiveness of our proposed attack. We hope our work can pave the way for future analyses that make the vFL framework more secure. | 翻訳日:2023-04-10 14:54:49 公開日:2023-04-07 |
# 対する:事前訓練された言語モデルにおけるステレオタイプ表現のテスト Counteracts: Testing Stereotypical Representation in Pre-trained Language Models ( http://arxiv.org/abs/2301.04347v3 ) ライセンス: Link先を確認 | Damin Zhang, Julia Rayz, Romila Pradhan | (参考訳) 近年,自然言語理解タスクにおける言語モデルの性能が向上している。
大きな人間の生成したコーパスで訓練された言語モデルは、かなりの量の人間の知識だけでなく、人間のステレオタイプもエンコードする。
下流のタスクがパイプラインの一部として言語モデルを統合しているため、ネガティブな効果を軽減する方法を設計するためには、内部的ステレオタイプ表現を理解する必要がある。
本稿では,プレトレーニング言語モデル(PLM)の内部ステレオタイプ的知識を,ステレオタイプ的嗜好に導くために,反例を用いて検討する。
主にジェンダーステレオタイプに焦点を当てるが、他のタイプのステレオタイプにも拡張できる。
異なる情報と基礎知識を持つ9種類のクローズ型プロンプトに対して7plmの評価を行った。
その結果, PLMは, 単語の位置や構文構造など, 無関係な情報に対するある程度の堅牢性を示すが, 意味による情報解釈の欠如が示唆された。
このような発見は、微調整と評価の両方のために中立的なアプローチでPLMと相互作用する方法に光を当てた。 Recently, language models have demonstrated strong performance on various natural language understanding tasks. Language models trained on large human-generated corpus encode not only a significant amount of human knowledge, but also the human stereotype. As more and more downstream tasks have integrated language models as part of the pipeline, it is necessary to understand the internal stereotypical representation in order to design the methods for mitigating the negative effects. In this paper, we use counterexamples to examine the internal stereotypical knowledge in pre-trained language models (PLMs) that can lead to stereotypical preference. We mainly focus on gender stereotypes, but the method can be extended to other types of stereotype. We evaluate 7 PLMs on 9 types of cloze-style prompt with different information and base knowledge. The results indicate that PLMs show a certain amount of robustness against unrelated information and preference of shallow linguistic cues, such as word position and syntactic structure, but a lack of interpreting information by meaning. Such findings shed light on how to interact with PLMs in a neutral approach for both finetuning and evaluation. | 翻訳日:2023-04-10 14:54:27 公開日:2023-04-07 |
# 量子力学の決定論的理論における「特殊」状態の必要性 Need for "special" states in a deterministic theory of quantum mechanics ( http://arxiv.org/abs/2301.04021v2 ) ライセンス: Link先を確認 | L. S. Schulman | (参考訳) 量子力学を裏付け、決定論的にするいくつかの理論や過程がある。
本文にはいくつかの引用がある。
そのような理論と多くの合理的な仮定は、私が「特別」状態と呼ぶものの存在を暗示している。この仮定は、多くの世界解釈(最後の1つは任意の決定論的な理論の結果である)の意味で、シュロディンガーの方程式の(一点までの)従属性、そして1つの世界である。この記事では、明快に「特別」状態の例を示す。
特別」状態理論の実験的なテストがある。 There are several theories or processes which may underlie quantum mechanics and make it deterministic. Some references are given in the main text. Any such theory, plus a number of reasonable assumptions, implies the existence of what I have called ``special" states. The assumptions are conservation laws, obedience (up to a point) of Schrodinger's equation, and a single world, in the sense of the many worlds interpretation (the last one a consequence of any deterministic theory). This article also, for clarity, gives an example of a ``special" state. There is an experimental test of the ``special" state theory. | 翻訳日:2023-04-10 14:54:09 公開日:2023-04-07 |
# 非エルミート特異点強調センシングのマルチパラメータ推定視点 Multiparameter estimation perspective on non-Hermitian singularity-enhanced sensing ( http://arxiv.org/abs/2303.05532v2 ) ライセンス: Link先を確認 | Javid Naikoo and Ravindra W. Chhajlany and Jan Kolodynski | (参考訳) 非エルミート発生器による量子系の進化を記述することで、そのような図に自然に現れる力学特性、例えば、いわゆる例外点での演算、パリティ時対称性の保存、あるいは力学の特異な振る舞いの資本化を探求する新たな道が開かれる。
本研究では,線形摂動を特異点から遠ざけるためにシステムを利用する場合,非有界感度を実現する可能性に着目した。
ガウス量子系のマルチパラメータ推定理論と特異行列摂動の1つを組み合わせることで、そのような特異性チューニングセンサによって達成される精度の究極の限界を研究するために必要なツールを導入する。
我々は,どの条件下で,どの感度で得られる感度が実際に変化しているかを同定し,そのパラメータが推定パラメータによって誤差のスケーリングを変化させる可能性があることを,解析に一般的に含めるべきであることを示す。 Describing the evolution of quantum systems by means of non-Hermitian generators opens a new avenue to explore the dynamical properties naturally emerging in such a picture, e.g. operation at the so-called exceptional points, preservation of parity-time symmetry, or capitalising on the singular behaviour of the dynamics. In this work, we focus on the possibility of achieving unbounded sensitivity when using the system to sense linear perturbations away from a singular point. By combining multiparameter estimation theory of Gaussian quantum systems with the one of singular-matrix perturbations, we introduce the necessary tools to study the ultimate limits on the precision attained by such singularity-tuned sensors. We identify under what conditions and at what rate can the resulting sensitivity indeed diverge, in order to show that nuisance parameters should be generally included in the analysis, as their presence may alter the scaling of the error with the estimated parameter. | 翻訳日:2023-04-10 14:46:04 公開日:2023-04-07 |
# SemEval-2023タスク11におけるLon-ea:ソフトおよびハードラベル予測のための活性化関数の比較 Lon-ea at SemEval-2023 Task 11: A Comparison of Activation Functions for Soft and Hard Label Prediction ( http://arxiv.org/abs/2303.02468v2 ) ライセンス: Link先を確認 | Peyman Hosseini, Mehran Hosseini, Sana Sabah Al-Azzawi, Marcus Liwicki, Ignacio Castro, Matthew Purver | (参考訳) 深層ニューラルネットワークモデルの出力層における異なるアクティベーション関数の影響について,不一致タスクの学習におけるソフトラベルとハードラベルの予測について検討した。
このタスクでは、ソフトラベルの予測を通じて不一致の量を定量化することが目標です。
ソフトラベルの予測にはbertベースのプリプロセッサとエンコーダを使用し、他のパラメータを一定に保ちながら出力層で使用されるアクティベーション関数を変化させる。
ソフトラベルはハードラベル予測に使用される。
検討した活性化関数はsgmoidであり、トレーニング後のモデルに追加されるステップ関数と、本論文で初めて導入された正弦波活性化関数である。 We study the influence of different activation functions in the output layer of deep neural network models for soft and hard label prediction in the learning with disagreement task. In this task, the goal is to quantify the amount of disagreement via predicting soft labels. To predict the soft labels, we use BERT-based preprocessors and encoders and vary the activation function used in the output layer, while keeping other parameters constant. The soft labels are then used for the hard label prediction. The activation functions considered are sigmoid as well as a step-function that is added to the model post-training and a sinusoidal activation function, which is introduced for the first time in this paper. | 翻訳日:2023-04-10 14:45:48 公開日:2023-04-07 |
# 雑音量子メソロジーのための量子エラー緩和回路群 Quantum-Error-Mitigation Circuit Groups for Noisy Quantum Metrology ( http://arxiv.org/abs/2303.01820v2 ) ライセンス: Link先を確認 | Yusuke Hama and Hirofumi Nishi | (参考訳) 量子技術は、量子コヒーレンスや量子絡み合いのような量子システムに固有の性質を利用して機能し、科学と工学の特定の問題を解決するために古典的な問題よりも優れていると期待されている。
しかし、量子技術は環境との相互作用(デコヒーレンス)に対して脆弱であり、それらを高精度に利用するためにはデコヒーレンス効果を低減するエラー緩和技術を開発する必要がある。
本研究では,量子ノイズの存在下での量子計測のための量子誤差緩和(qem)プロトコルを解析する。
量子フィッシャー情報(QFI)、3種類の量子フィッシャー情報(QFI)、理想(エラーフリー)QFI、ノイズ(誤)QFI、量子エラー緩和QFIを解析し、量子エラー緩和QFIのスケーリング挙動が理想的な量子気象学で示されたものに復元されることを解析的および数値的に示すことにより、QEMプロトコルの有効性を実証する。
我々のQEMプロトコルは量子回路群(すなわちQEM回路群)のアンサンブルで構築されており、任意の種類の初期状態とプローブ系ハミルトニアンに対してノイズの多い量子メートル法に適用できるという利点があり、あらゆる種類の量子デバイスで物理的に実装できる。
さらに、量子エラー緩和QFIは、知覚される物理量のほぼ任意の値に対する理想QFIとほぼ等しい。
提案プロトコルは,量子ノイズの影響下においても高感度な量子メロジを実現するために,量子絡み合わせを資源として利用することができる。 Quantum technologies work by utilizing properties inherent in quantum systems such as quantum coherence and quantum entanglement and are expected to be superior to classical counterparts for solving certain problems in science and engineering. The quantum technologies are, however, fragile against an interaction with an environment (decoherence) and in order to utilize them with high accuracy we need to develop error mitigation techniques which reduce decoherence effects. In this work, we analyze quantum error mitigation (QEM) protocol for quantum metrology in the presence of quantum noise. We demonstrate the effectiveness of our QEM protocol by analyzing three types of quantum Fisher information (QFI), ideal (error-free) QFI, noisy (erroneous) QFI, and quantum-error-mitigated QFI, and show both analytically and numerically that the scaling behaviors of quantum-error-mitigated QFI with respect to the number of probes become restored to the those exhibited in the ideal quantum metrology. Our QEM protocol is constructed by an ensemble of quantum circuits, namely QEM circuit groups, and has advantages such that it can be applied to noisy quantum metrology for any type of initial state as well as any type of the probe-system Hamiltonian, and it can be physically implemented in any type of quantum device. Furthermore, the quantum-error-mitigated QFI become approximately equal to the ideal QFI for almost any values of physical quantities to be sensed. Our protocol enables us to use quantum entanglement as a resource to perform high-sensitive quantum metrology even under the influence of quantum noise. | 翻訳日:2023-04-10 14:45:34 公開日:2023-04-07 |
# Safe-DS: データサイエンスを安全にするためのドメイン固有言語 Safe-DS: A Domain Specific Language to Make Data Science Safe ( http://arxiv.org/abs/2302.14548v2 ) ライセンス: Link先を確認 | Lars Reimann, G\"unter Kniesel-W\"unsche | (参考訳) データサイエンス(DS)パイプラインの長期実行のため、静的に検出されない場合、小さなプログラミングミスでさえ非常にコストがかかる。
しかし、ほとんどがpythonで書かれているため、dsパイプラインの基本的な静的型チェックさえ難しい。
静的型付けはPythonでは外部リンタでのみ利用できる。
これらは、多くのDSライブラリが提供していないパラメータや関数の結果に対する静的な型アノテーションを必要とする。
本稿では,多くのPython DSライブラリが,ドメイン固有言語(DSL)であるSafe-DSを介して静的に安全な方法で利用可能であることを示す。
Safe-DSは、従来の型エラーに加えて、範囲制限、データ操作、関数の呼び出し順序に関連するエラーをキャッチする。
Pythonライブラリは、宣言のインターフェースを指定するスタブ言語と、Pythonライブラリのコードとドキュメントから型情報を抽出し、適切なスタブを自動的に生成するAPI-Editorを介してSafe-DSに統合される。
さらに、Safe-DSは構文エラーを防止して安全な開発を容易にするグラフィカル表現でテキストDSパイプラインを補完する。
テキストとグラフィックビューのシームレスな同期により、開発者は常にスキルと現在のタスクに最適なものを選ぶことができる。
Safe-DSにより、DS開発がより簡単、より速く、より信頼性が高く、開発コストを大幅に削減できると考えています。 Due to the long runtime of Data Science (DS) pipelines, even small programming mistakes can be very costly, if they are not detected statically. However, even basic static type checking of DS pipelines is difficult because most are written in Python. Static typing is available in Python only via external linters. These require static type annotations for parameters or results of functions, which many DS libraries do not provide. In this paper, we show how the wealth of Python DS libraries can be used in a statically safe way via Safe-DS, a domain specific language (DSL) for DS. Safe-DS catches conventional type errors plus errors related to range restrictions, data manipulation, and call order of functions, going well beyond the abilities of current Python linters. Python libraries are integrated into Safe-DS via a stub language for specifying the interface of its declarations, and an API-Editor that is able to extract type information from the code and documentation of Python libraries, and automatically generate suitable stubs. Moreover, Safe-DS complements textual DS pipelines with a graphical representation that eases safe development by preventing syntax errors. The seamless synchronization of textual and graphic view lets developers always choose the one best suited for their skills and current task. We think that Safe-DS can make DS development easier, faster, and more reliable, significantly reducing development costs. | 翻訳日:2023-04-10 14:45:06 公開日:2023-04-07 |
# 開量子系の第3量子化:新しい散逸対称性と位相空間およびケルディシュ場理論への接続 Third quantization of open quantum systems: new dissipative symmetries and connections to phase-space and Keldysh field theory formulations ( http://arxiv.org/abs/2302.14047v2 ) ライセンス: Link先を確認 | Alexander McDonald, Aashish A. Clerk | (参考訳) オープン量子システムの研究に用いられる標準的な理論ツール間の接続は、しばしば不透明に思える。
リンドブラッドのマスター方程式、ウィグナー函数の運動方程式、あるいは散逸的ケルディシュ作用であろうと、ある形式主義で明らかな特徴は、しばしば別の形式論において隠蔽される。
ここでは、3つの方法全てを明示的に接続する方法で第3量子化の技法を再構成する。
まず、我々の定式化は、すべての二次ボゾンあるいはフェルミオンリンドブラディアンに存在する基本散逸対称性を明らかにする。
この対称性はこれらのモデルを簡単に対角化するために使用することができ、線形系における散逸とゆらぎの分離を示す直感的な方法を提供する。
ボーソンの場合、ウィグナー関数と特性関数は、我々が導入した第三量子化超作用素の固有化における密度行列の'波動関数'と考えることができる。
この基底における時間発展作用素の場理論表現はケルディッシュ経路積分である。
提案手法の有用性を強調するため, 散逸性非線形発振器に第3量子化法を適用し, 新たな正確な結果を得る。 The connections between standard theoretical tools used to study open quantum systems can sometimes seem opaque. Whether it is a Lindblad master equation, the equation of motion for the Wigner function or a dissipative Keldysh action, features evident in one formalism are often masked in another. Here, we reformulate the technique of third quantization in a way that explicitly connects all three methods. We first show that our formulation reveals a fundamental dissipative symmetry present in all quadratic bosonic or fermionic Lindbladians. This symmetry can then be used to easily diagonalize these models, and provides a intuitive way to demonstrate the separation of dissipation and fluctations in linear systems. For bosons, we then show that the Wigner function and the characteristic function can be thought of as ''wavefunctions'' of the density matrix in the eigenbasis of the third-quantized superoperators we introduce. The field-theory representation of the time-evolution operator in this basis is then the Keldysh path integral. To highlight the utility of our approach, we apply our version of third quantization to a dissipative non-linear oscillator, and use it to obtain new exact results. | 翻訳日:2023-04-10 14:44:45 公開日:2023-04-07 |
# TROPOMI衛星データと機械学習による船舶検出異常NO2の発生 Anomalous NO2 emitting ship detection with TROPOMI satellite data and machine learning ( http://arxiv.org/abs/2302.12744v2 ) ライセンス: Link先を確認 | Solomiia Kurchaba, Jasper van Vliet, Fons J. Verbeek, Cor J. Veenman | (参考訳) 2021年からは、北海およびバルト海の船舶に対してより要求の高い$\text{NO}_\text{x}$の排出制限が導入されている。
船舶コンプライアンス監視に現在使われているすべての手法は、財政的・時間的に要求されているため、非コンプライアンスの可能性が高い船舶の検査を優先することが重要である。
大規模な船である$\text{no}_\text{2}$を推定する現在の最先端のアプローチは、トロポミ/s5p画像上の船プルームの教師付き機械学習に基づくセグメンテーションである。
しかしながら、バリデーションに使用されるデータアノテーションと不十分な複雑な船舶排出プロキシは、船舶コンプライアンス監視モデルの適用性を制限する。
本研究では,TROPOMI衛星データに基づく機械学習モデルの組み合わせを用いて,潜在的に適合しない船舶の自動選択手法を提案する。
これは、与えられた大気条件で動作する特定の特性を持つ船によって生成されると期待される$\text{no}_\text{2}$の量を予測する回帰モデルに基づいている。
モデルは手動ラベリングを必要とせず、直接ROPOMIデータで検証される。
生成された$\text{no}_\text{2}$の予測値と実際の量の違いは、時間の経過とともに船の観測値と統合され、船の検査価値の尺度として使用される。
結果のロバスト性を保証するために,得られた結果をセグメント化に基づく結果と比較する。
セグメンテーション法に従って高度に逸脱している船には、さらなる注意が必要である。
TROPOMIデータをチェックすることで他の説明が見つからない場合、各船は検査の候補となるよう助言される。 Starting from 2021, more demanding $\text{NO}_\text{x}$ emission restrictions were introduced for ships operating in the North and Baltic Sea waters. Since all methods currently used for ship compliance monitoring are financially and time demanding, it is important to prioritize the inspection of ships that have high chances of being non-compliant. The current state-of-the-art approach for a large-scale ship $\text{NO}_\text{2}$ estimation is a supervised machine learning-based segmentation of ship plumes on TROPOMI/S5P images. However, challenging data annotation and insufficiently complex ship emission proxy used for the validation limit the applicability of the model for ship compliance monitoring. In this study, we present a method for the automated selection of potentially non-compliant ships using a combination of machine learning models on TROPOMI satellite data. It is based on a proposed regression model predicting the amount of $\text{NO}_\text{2}$ that is expected to be produced by a ship with certain properties operating in the given atmospheric conditions. The model does not require manual labeling and is validated with TROPOMI data directly. The differences between the predicted and actual amount of produced $\text{NO}_\text{2}$ are integrated over observations of the ship in time and are used as a measure of the inspection worthiness of a ship. To assure the robustness of the results, we compare the obtained results with the results of the previously developed segmentation-based method. Ships that are also highly deviating in accordance with the segmentation method require further attention. If no other explanations can be found by checking the TROPOMI data, the respective ships are advised to be the candidates for inspection. | 翻訳日:2023-04-10 14:44:10 公開日:2023-04-07 |
# 事前学習したエッジトランスフォーマーによるオンラインゲームにおける友人ランキング Friend Ranking in Online Games via Pre-training Edge Transformers ( http://arxiv.org/abs/2302.10043v3 ) ライセンス: Link先を確認 | Liang Yao, Jiazhen Peng, Shenggong Ji, Qiang Liu, Hongyun Cai, Feng He, Xu Cheng | (参考訳) friend recallはオンラインゲームにおけるdau(daily active users)を改善する重要な手段だ。
問題は、事実上、失われた友人のランキングリストを作ることだ。
伝統的な友人リコール手法は、失った選手の復帰確率を予測するために、友人親密さや分類器の訓練のようなルールに焦点を当てるが、(アクティブな)選手の特徴情報や歴史的な友人リコールイベントは無視する。
本研究では,友人のリコールをリンク予測問題として扱うとともに,履歴イベントだけでなく,アクティブプレイヤーとロスプレイヤーの両方の特徴を活用可能なリンク予測手法について検討する。
さらに,新しいEdge Transformerモデルを提案し,マスク付きオートエンコーダによる事前学習を行う。
本手法は3つのTencentゲームにおけるオフライン実験とオンラインA/Bテストの最先端結果を実現する。 Friend recall is an important way to improve Daily Active Users (DAU) in online games. The problem is to generate a proper lost friend ranking list essentially. Traditional friend recall methods focus on rules like friend intimacy or training a classifier for predicting lost players' return probability, but ignore feature information of (active) players and historical friend recall events. In this work, we treat friend recall as a link prediction problem and explore several link prediction methods which can use features of both active and lost players, as well as historical events. Furthermore, we propose a novel Edge Transformer model and pre-train the model via masked auto-encoders. Our method achieves state-of-the-art results in the offline experiments and online A/B Tests of three Tencent games. | 翻訳日:2023-04-10 14:43:45 公開日:2023-04-07 |
# 複雑なQAと言語モデルハイブリッドアーキテクチャ,サーベイ Complex QA and language models hybrid architectures, Survey ( http://arxiv.org/abs/2302.09051v4 ) ライセンス: Link先を確認 | Xavier Daull, Patrice Bellot, Emmanuel Bruno, Vincent Martin, Elisabeth Murisasco | (参考訳) 本稿では、言語モデルアーキテクチャの現状と「複雑」質問応答(QA、CQA、CPS)の戦略を、ハイブリダイゼーションに焦点をあててレビューする。
大規模言語モデル(llm)は、標準問題に関する公開データを活用するのに優れていますが、より複雑な問題や問題(例えば、個人の自由の概念は、異なる文化の間でどのように異なるのか? 気候変動を減らすための発電方法の最良の組み合わせは何か?)に取り組むには、特定のアーキテクチャ、知識、スキル、方法、機密データ保護、説明可能性、人間承認、汎用性フィードバックが必要です。
ChatGPT や GALACTICA のような最近のプロジェクトでは、非特殊主義者が複雑なQAにおけるLLMの強い限界だけでなく、大きなポテンシャルを把握できるようになった。
本稿では,必要なスキルと評価手法のレビューから始める。
BIG,BLOOM,HELMは,タスクの複雑さと精度の厳密な評価(公正性,堅牢性,毒性など)を基準として,LLMの限界と課題をオープンソース化し,評価し,分析する。
ドメイン適応,分解,効率的な多段階QA,長文および非ファクトイドQA,安全性と多感性データ保護,マルチモーダル検索,幻覚,説明可能性と真理性,時間的推論など,複雑なQAに関わる課題について論じる。
ハイブリッドllmアーキテクチャパターン,トレーニングおよびプロンプト戦略,aiによるアクティブ人間強化学習,ニューロシンボリックおよび構造化知識基盤化,プログラム合成,反復分解などの要素を用いて,現在のソリューションと有望な研究動向を分析した。 This paper reviews the state-of-the-art of language models architectures and strategies for "complex" question-answering (QA, CQA, CPS) with a focus on hybridization. Large Language Models (LLM) are good at leveraging public data on standard problems but once you want to tackle more specific complex questions or problems (e.g. How does the concept of personal freedom vary between different cultures ? What is the best mix of power generation methods to reduce climate change ?) you may need specific architecture, knowledge, skills, methods, sensitive data protection, explainability, human approval and versatile feedback... Recent projects like ChatGPT and GALACTICA have allowed non-specialists to grasp the great potential as well as the equally strong limitations of LLM in complex QA. In this paper, we start by reviewing required skills and evaluation techniques. We integrate findings from the robust community edited research papers BIG, BLOOM and HELM which open source, benchmark and analyze limits and challenges of LLM in terms of tasks complexity and strict evaluation on accuracy (e.g. fairness, robustness, toxicity, ...) as a baseline. We discuss some challenges associated with complex QA, including domain adaptation, decomposition and efficient multi-step QA, long form and non-factoid QA, safety and multi-sensitivity data protection, multimodal search, hallucinations, explainability and truthfulness, temporal reasoning. We analyze current solutions and promising research trends, using elements such as: hybrid LLM architectural patterns, training and prompting strategies, active human reinforcement learning supervised with AI, neuro-symbolic and structured knowledge grounding, program synthesis, iterated decomposition and others. | 翻訳日:2023-04-10 14:43:29 公開日:2023-04-07 |
# 絡み合いは最も多くの測定を生き残る Entanglement Survives Most Measurements ( http://arxiv.org/abs/2302.06880v2 ) ライセンス: Link先を確認 | Alvin Gonzales and Daniel Dilley and Mark Byrd | (参考訳) 量子状態を作成し情報を抽出するために、完全な射影計測を行うことができると仮定されることが多い。
このような測定は、無相関なシステムと環境を達成することができる。
しかし、完全な射影計測は困難または不可能である。
弱測定の系列を用いて, 1 つの測定演算子が極限極限過程を通じて完全射影化されない限り,絡み合いは除去できないことを示した。
初期相関の除去と測定結果が追跡されないシナリオについても論じる。 To prepare quantum states and extract information, it is often assumed that one can perform a perfectly projective measurement. Such measurements can achieve an uncorrelated system and environment. However, perfectly projective measurements can be difficult or impossible to perform. Using a sequence of weak measurements, we show that entanglement cannot be removed unless one of the measurement operators becomes perfectly projective through an extreme limiting process. Removing initial correlations and the scenario where measurement outcomes are not tracked are also discussed. | 翻訳日:2023-04-10 14:42:53 公開日:2023-04-07 |
# 資源制約付き無線エッジネットワークを用いた並列分割学習 Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks ( http://arxiv.org/abs/2303.15991v3 ) ライセンス: Link先を確認 | Zheng Lin, Guangyu Zhu, Yiqin Deng, Xianhao Chen, Yue Gao, Kaibin Huang, Yuguang Fang | (参考訳) ますます深いニューラルネットワークは、フェデレーション学習(FL)のような、プライバシ強化による分散学習の、リソース制約のあるデバイスへの民主化を妨げる。
本稿では、エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱し、複数のクライアントデバイスがレイヤーワイドモデル分割を介してエッジサーバに大規模なトレーニングワークロードをオフロードできるようにする。
既存のPSLスキームが過度なトレーニング遅延と大量のデータ伝送を発生させるのを観察することにより、モデルトレーニングを加速するために、効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
具体的には、epslはクライアント側のモデルのトレーニングを並列化し、ラスト層勾配アグリゲーションを通じてバックプロパゲーション(bp)の局所勾配の次元を削減し、サーバ側のトレーニングと通信遅延を大幅に削減する。
さらに,クライアントデバイスにおける不均質なチャネル条件と計算能力を考慮することで,サブチャネル割り当て,電力制御,カット層選択を共同で最適化し,ラウンド単位のレイテンシを最小化する。
シミュレーションの結果,epslフレームワークは,目標精度を達成するのに必要なトレーニングレイテンシを,最先端のベンチマークと比較して有意に低減し,最適化せずにリソース管理とレイヤ分割戦略をカスタマイズすることでレイテンシを大幅に削減できることがわかった。 The increasingly deeper neural networks hinder the democratization of privacy-enhancing distributed learning, such as federated learning (FL), to resource-constrained devices. To overcome this challenge, in this paper, we advocate the integration of edge computing paradigm and parallel split learning (PSL), allowing multiple client devices to offload substantial training workloads to an edge server via layer-wise model split. By observing that existing PSL schemes incur excessive training latency and large volume of data transmissions, we propose an innovative PSL framework, namely, efficient parallel split learning (EPSL), to accelerate model training. To be specific, EPSL parallelizes client-side model training and reduces the dimension of local gradients for back propagation (BP) via last-layer gradient aggregation, leading to a significant reduction in server-side training and communication latency. Moreover, by considering the heterogeneous channel conditions and computing capabilities at client devices, we jointly optimize subchannel allocation, power control, and cut layer selection to minimize the per-round latency. Simulation results show that the proposed EPSL framework significantly decreases the training latency needed to achieve a target accuracy compared with the state-of-the-art benchmarks, and the tailored resource management and layer split strategy can considerably reduce latency than the counterpart without optimization. | 翻訳日:2023-04-10 14:36:56 公開日:2023-04-07 |
# ガス:ガウス混合分布に基づくピンの適応サンプリング法 GAS: A Gaussian Mixture Distribution-Based Adaptive Sampling Method for PINNs ( http://arxiv.org/abs/2303.15849v2 ) ライセンス: Link先を確認 | Yuling Jiao, Di Li, Xiliang Lu, Jerry Zhijian Yang, Cheng Yuan | (参考訳) 近年の科学計算におけるディープラーニングの研究により、物理情報ニューラルネットワーク(PINN)法は偏微分方程式(PDE)の解法として広く注目を集めている。
従来の方法に比べてピンは効率的に高次元の問題を処理できるが、特に不規則な問題の場合、精度は比較的低い。
適応有限要素法とインクリメンタル学習のアイデアに触発されて,ガウス混合分布に基づくピンの適応サンプリング法であるgasを提案する。
トレーニング手順の間、GASは現在の残留情報を使用して追加点のサンプリングのためのガウス混合分布を生成し、過去のデータとともにトレーニングを行い、損失の収束を早め、より高い精度を達成する。
2次元および10次元問題の数値シミュレーションにより、GASは従来の数値解法に匹敵しながら、ディープ・ソルバの最先端精度を実現する有望な方法であることが示された。 With the recent study of deep learning in scientific computation, the Physics-Informed Neural Networks (PINNs) method has drawn widespread attention for solving Partial Differential Equations (PDEs). Compared to traditional methods, PINNs can efficiently handle high-dimensional problems, but the accuracy is relatively low, especially for highly irregular problems. Inspired by the idea of adaptive finite element methods and incremental learning, we propose GAS, a Gaussian mixture distribution-based adaptive sampling method for PINNs. During the training procedure, GAS uses the current residual information to generate a Gaussian mixture distribution for the sampling of additional points, which are then trained together with historical data to speed up the convergence of the loss and achieve higher accuracy. Several numerical simulations on 2D and 10D problems show that GAS is a promising method that achieves state-of-the-art accuracy among deep solvers, while being comparable with traditional numerical solvers. | 翻訳日:2023-04-10 14:36:30 公開日:2023-04-07 |
# 多視点3次元物体検出のための視点等価性 Viewpoint Equivariance for Multi-View 3D Object Detection ( http://arxiv.org/abs/2303.14548v2 ) ライセンス: Link先を確認 | Dian Chen, Jie Li, Vitor Guizilini, Rares Ambrus, Adrien Gaidon | (参考訳) 視覚センサからの3d物体検出は、ロボットシステムの基本的な機能である。
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に焦点を当てている。
本研究では3次元シーン理解と幾何学的学習における多視点一貫性の不可欠な役割から直感を得る。
そこで本稿では,3次元多視点幾何を活用し,視点認識と等分散による局所化を改善する,新しい3次元物体検出フレームワークであるveedetを紹介する。
vedetはクエリベースのトランスフォーマーアーキテクチャを利用し、画像の特徴を3dパースペクティブ幾何学から位置エンコーディングで拡張することで3dシーンをエンコードする。
出力レベルでのビュー条件付きクエリを設計し、トレーニング中に複数の仮想フレームを生成することで、複数ビューの一貫性を強制して視点の同値を学習する。
位置エンコーディングとして入力レベルで注入され、損失レベルで正規化される多視点幾何学は、3Dオブジェクト検出のためのリッチな幾何学的手がかりを提供する。
コードとモデルはhttps://github.com/tri-ml/vedetで入手できる。 3D object detection from visual sensors is a cornerstone capability of robotic systems. State-of-the-art methods focus on reasoning and decoding object bounding boxes from multi-view camera input. In this work we gain intuition from the integral role of multi-view consistency in 3D scene understanding and geometric learning. To this end, we introduce VEDet, a novel 3D object detection framework that exploits 3D multi-view geometry to improve localization through viewpoint awareness and equivariance. VEDet leverages a query-based transformer architecture and encodes the 3D scene by augmenting image features with positional encodings from their 3D perspective geometry. We design view-conditioned queries at the output level, which enables the generation of multiple virtual frames during training to learn viewpoint equivariance by enforcing multi-view consistency. The multi-view geometry injected at the input level as positional encodings and regularized at the loss level provides rich geometric cues for 3D object detection, leading to state-of-the-art performance on the nuScenes benchmark. The code and model are made available at https://github.com/TRI-ML/VEDet. | 翻訳日:2023-04-10 14:36:14 公開日:2023-04-07 |
# 影響関数のフレギリティの再検討 Revisiting the Fragility of Influence Functions ( http://arxiv.org/abs/2303.12922v2 ) ライセンス: Link先を確認 | Jacob R. Epifano, Ravi P. Ramachandran, Aaron J. Masino, Ghulam Rasool | (参考訳) 過去数年間、ディープラーニングモデルの予測を説明する多くの研究が試みられている。
しかし、これらの説明の正確さや忠実さを検証する方法はほとんど提案されていない。
近年,退学訓練が損失関数に与える影響を近似する手法である影響関数が脆弱であることが示されている。
その脆弱さの理由はまだ不明である。
以前の研究は、ロバスト性を高めるために正規化を使うことを示唆していたが、全てのケースでこれは成り立たない。
本研究では, 影響関数の脆弱性のメカニズムを理解するために, 先行研究で実施した実験について検討する。
まず, 影響関数の凸性仮定が満たされた条件下で, 文献からの手順を用いて影響関数を検証する。
そして、これらの仮定を緩和し、より深いモデルとより複雑なデータセットを用いて非凸性の効果を研究する。
本稿では,影響関数を検証するための重要な指標と手順を分析する。
以上の結果から, 検証手順が脆弱性の原因となる可能性が示唆された。 In the last few years, many works have tried to explain the predictions of deep learning models. Few methods, however, have been proposed to verify the accuracy or faithfulness of these explanations. Recently, influence functions, which is a method that approximates the effect that leave-one-out training has on the loss function, has been shown to be fragile. The proposed reason for their fragility remains unclear. Although previous work suggests the use of regularization to increase robustness, this does not hold in all cases. In this work, we seek to investigate the experiments performed in the prior work in an effort to understand the underlying mechanisms of influence function fragility. First, we verify influence functions using procedures from the literature under conditions where the convexity assumptions of influence functions are met. Then, we relax these assumptions and study the effects of non-convexity by using deeper models and more complex datasets. Here, we analyze the key metrics and procedures that are used to validate influence functions. Our results indicate that the validation procedures may cause the observed fragility. | 翻訳日:2023-04-10 14:35:45 公開日:2023-04-07 |
# 画像生成のためのテキスト意味論:安定拡散モデルに基づくファサード設計ベースの構築法 Text Semantics to Image Generation: A method of building facades design base on Stable Diffusion model ( http://arxiv.org/abs/2303.12755v3 ) ライセンス: Link先を確認 | Haoran Ma | (参考訳) 安定拡散モデルは, 古テクトチュラル画像生成の研究に広く利用されているが, 生成した画像の可制御性を向上する機会は依然としてある。
本稿では,マルチネットワーク合成によるファサード画像生成手法を提案する。
まず, cmp fa-cades データセット上の安定拡散モデルを lora (low-rank adaptation) アプローチで微調整し, 制御ネットモデルを用いて出力制御を行った。
最後に、様々なアーキテクチャスタイルのテキストコンテントと制御戦略の下でのファサード生成結果の対比を行った。
その結果,LoRAトレーニング手法は,安定拡散拡散大モデルを微調整する可能性を大幅に低減し,制御ネットモデルの追加により,ファサード画像作成のためのテキスト生成の制御可能性を高めることが示された。
これにより、建築画像の生成に関するその後の研究の基礎が明確になる。 Stable Diffusion model has been extensively employed in the study of archi-tectural image generation, but there is still an opportunity to enhance in terms of the controllability of the generated image content. A multi-network combined text-to-building facade image generating method is proposed in this work. We first fine-tuned the Stable Diffusion model on the CMP Fa-cades dataset using the LoRA (Low-Rank Adaptation) approach, then we ap-ply the ControlNet model to further control the output. Finally, we contrast-ed the facade generating outcomes under various architectural style text con-tents and control strategies. The results demonstrate that the LoRA training approach significantly decreases the possibility of fine-tuning the Stable Dif-fusion large model, and the addition of the ControlNet model increases the controllability of the creation of text to building facade images. This pro-vides a foundation for subsequent studies on the generation of architectural images. | 翻訳日:2023-04-10 14:35:31 公開日:2023-04-07 |
# 動的深部強化学習を用いた大規模地域交通信号制御 Large-Scale Regional Traffic Signal Control Using Dynamic Deep Reinforcement Learning ( http://arxiv.org/abs/2303.11899v3 ) ライセンス: Link先を確認 | Hankang Gu, Shangbo Wang | (参考訳) 近年,マルチエージェント強化学習(MARL)に基づく交通信号制御が注目されている。
既存のMARLアプローチの多くは、隣接する交差点間の通信を考慮して、最適な制御戦略を分散的に学習する傾向にある。
しかし、MARLの非定常性は、特に交叉数が大きくなると、非常に遅く、あるいは収束の失敗に繋がる可能性がある。
既存の手法の1つは、ネットワーク全体を複数のリージョンに分割することであり、それぞれが集中的なRLフレームワークを使用して収束速度を高速化する。
しかし、この戦略には2つの課題がある: 1つはフレキシブルな分割を得る方法、2つ目は交差点の領域に対して最適な共同動作を探す方法である。
本稿では,交差点間の隣接性に基づく領域分割規則を提案するとともに,最適な共同動作を効率的に探索し,地域報酬を最大化するための動的分岐処理Q-Network(DBDQ)を提案する。
実際のデータセットと合成データセットの両方による実験結果は、我々のフレームワークが既存のフレームワークよりも優れていることを示している。 Multi-agent Reinforcement Learning (MARL) based traffic signal control becomes a popular research topic in recent years. Most existing MARL approaches tend to learn the optimum control strategies in a decentralised manner by considering communication among neighbouring intersections. However, the non-stationary property in MARL may lead to extremely slow or even failure of convergence, especially when the number of intersections becomes large. One of the existing methods is to partition the whole network into several regions, each of which utilizes a centralized RL framework to speed up the convergence rate. However, there are two challenges for this strategy: the first one is how to get a flexible partition and the second one is how to search for the optimal joint actions for a region of intersections. In this paper, we propose a novel training framework where our region partitioning rule is based on the adjacency between the intersections and propose Dynamic Branching Dueling Q-Network (DBDQ) to search for optimal joint action efficiently and to maximize the regional reward. The experimental results with both real datasets and synthetic datasets demonstrate the superiority of our framework over other existing frameworks. | 翻訳日:2023-04-10 14:34:53 公開日:2023-04-07 |
# 移動部品:動的放射場における運動に基づく3次元部分発見 MovingParts: Motion-based 3D Part Discovery in Dynamic Radiance Field ( http://arxiv.org/abs/2303.05703v2 ) ライセンス: Link先を確認 | Kaizhi Yang, Xiaoshuai Zhang, Zhiao Huang, Xuejin Chen, Zexiang Xu, Hao Su | (参考訳) 動的シーン再構成と部分発見のためのNeRF法である移動部を提案する。
動きは、同じ部分の全ての粒子が共通の動きパターンを共有する部分を特定するための重要な手がかりであると考えている。
流体シミュレーションの観点からは、既存の変形に基づく動的NeRF法は、ユーレアンビューの下でのシーン運動のパラメータ化、すなわち時が経つにつれて流体が流れる空間内の特定の位置に焦点を当てていると見なすことができる。
しかし、ユーレアンビュー表現を用いて、オブジェクトや部品を構成する動きを抽出することは困難である。
本研究では、双対ラグランジアンビューを導入し、ユーレアン/ラグランジアンビューの下で表現を強制的にサイクル整合性にする。
ラグランジアンビューでは、物体上の粒子の軌跡を追跡することにより、シーンの動きをパラメータ化する。
ラグランジアンビューは、部分レベルの剛体運動の合成としてシーンの動きを分解することで、部品を発見するのに便利である。
提案手法は,単一移動カメラでも高速かつ高品質な動的シーン再構成を実現し,パートトラッキングやアニメーション,3Dシーン編集などの直接的応用を可能にする。 We present MovingParts, a NeRF-based method for dynamic scene reconstruction and part discovery. We consider motion as an important cue for identifying parts, that all particles on the same part share the common motion pattern. From the perspective of fluid simulation, existing deformation-based methods for dynamic NeRF can be seen as parameterizing the scene motion under the Eulerian view, i.e., focusing on specific locations in space through which the fluid flows as time passes. However, it is intractable to extract the motion of constituting objects or parts using the Eulerian view representation. In this work, we introduce the dual Lagrangian view and enforce representations under the Eulerian/Lagrangian views to be cycle-consistent. Under the Lagrangian view, we parameterize the scene motion by tracking the trajectory of particles on objects. The Lagrangian view makes it convenient to discover parts by factorizing the scene motion as a composition of part-level rigid motions. Experimentally, our method can achieve fast and high-quality dynamic scene reconstruction from even a single moving camera, and the induced part-based representation allows direct applications of part tracking, animation, 3D scene editing, etc. | 翻訳日:2023-04-10 14:34:13 公開日:2023-04-07 |
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索 Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v3 ) ライセンス: Link先を確認 | Walid Hariri | (参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。
これらのモデルのうち、chatgpt(chat generative pre-trained transformer)はopenaiによって開発されており、広く採用されている強力なツールである。
ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。
これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応できる能力に起因する。
その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。
しかし、chatgptにはバイアスのある応答を発生させる傾向や有害な言語パターンを持続する可能性など、制限もある。
この記事では、ChatGPTとその応用、利点、限界について概観する。
さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。
最後に、人工知能とそのビジョンおよびnlpドメインへの影響について、迅速なエンジニアリング技術への洞察を提供することにより、現在進行中の議論に寄与する。 Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques. | 翻訳日:2023-04-10 14:26:37 公開日:2023-04-07 |
# インタラクティブな品質多様性によるデザイン空間の制御可能な探索 Controllable Exploration of a Design Space via Interactive Quality Diversity ( http://arxiv.org/abs/2304.01642v2 ) ライセンス: Link先を確認 | Konstantinos Sfikas and Antonios Liapis and Georgios N. Yannakakis | (参考訳) 本稿では,品質多様性(qd)探索に基づくユーザ駆動進化アルゴリズムを提案する。
デザインセッションの間、ユーザは提示された代替品の中から反復的に選択し、その選択が今後の結果に影響を与える。
インタラクティブ進化の2つの主要な懸念に対処することを目指している。
(a)認知負荷を軽減するために、ユーザはいくつかの代替案を提示しなければならない。
b) 提示された代替案は多様であるが, ユーザの疲労を軽減するため, 以前のユーザ選択と類似している。
これらの問題に対処するため,行動空間の小さな領域(ウィンドウ)から提案した代替品をサンプリングするMAP-Elitesアルゴリズムのバリエーションを実装した。
ユーザが選択した後、ウィンドウは選択した個人の行動特性に集中し、進化はこのウィンドウ内から親を選択して子孫を生成し、新しい選択肢をサンプリングする。
基本的に、ユーザの選択が行動空間の特定の領域への探索を案内する局所的なQDの適応システムを定義する。
このシステムは、制約付き最適化タスクであるアーキテクチャレイアウトの生成でテストされ、2階層的なアプローチでQDを活用する。
その結果,map-elitesほどグローバル探索は発音できないが,制御可能な人工ユーザを用いた実験により,ユーザの嗜好に対する適切な解決策が得られた。 This paper introduces a user-driven evolutionary algorithm based on Quality Diversity (QD) search. During a design session, the user iteratively selects among presented alternatives and their selections affect the upcoming results. We aim to address two major concerns of interactive evolution: (a) the user must be presented with few alternatives, to reduce cognitive load; (b) presented alternatives should be diverse but similar to the previous user selection, to reduce user fatigue. To address these concerns, we implement a variation of the MAP-Elites algorithm where the presented alternatives are sampled from a small region (window) of the behavioral space. After a user selection, the window is centered on the selected individual's behavior characterization, evolution selects parents from within this window to produce offspring, and new alternatives are sampled. Essentially we define an adaptive system of local QD, where the user's selections guide the search towards specific regions of the behavioral space. The system is tested on the generation of architectural layouts, a constrained optimization task, leveraging QD through a two-archive approach. Results show that while global exploration is not as pronounced as in MAP-Elites, the system finds more appropriate solutions to the user's taste, based on experiments with controllable artificial users. | 翻訳日:2023-04-10 14:26:16 公開日:2023-04-07 |
# MM-BSN: Blind-Spot Networkに基づくマルチマスクを用いた実世界の自己監督画像デノーミング MM-BSN: Self-Supervised Image Denoising for Real-World with Multi-Mask based on Blind-Spot Network ( http://arxiv.org/abs/2304.01598v3 ) ライセンス: Link先を確認 | Dan Zhang, Fangfang Zhou, Yuwen Jiang and Zhengming Fu | (参考訳) ディープラーニングの最近の進歩は、画像のデノイジング技術を新しいレベルに押し上げている。
自己監督型画像復調では、ブラインドスポットネットワーク(BSN)が最も一般的な手法の1つである。
しかし、既存のBSNアルゴリズムのほとんどはドットベースの中央マスクを使用しており、大規模な空間相関ノイズを持つ画像では非効率であると認識されている。
本稿では,大雑音の定義を提案し,異なる形状の複数の畳み込みカーネルを用いてマルチマスク戦略を提案し,さらにノイズ空間相関を破る。
さらに,マルチマスク戦略とBSN(MM-BSN)を併用した自己監督型画像復調手法を提案する。
提案するmm-bsnは,マルチマスキングと情報伝達によって破壊されるテクスチャ構造を回復しつつ,マルチマスキング層から抽出した特徴を効率的に融合させることができる。
提案するmm-bsnは,他のbsn法では効率的に処理できない大雑音デノージングの問題を解決するために使用できる。
公開実世界のデータセットに対する大規模な実験により、提案されたMM-BSNは、ラベル付けの努力や事前の知識なしに、SRGB画像の自己監督的および非ペア画像復調法における最先端のパフォーマンスを達成できることを示した。
コードはhttps://github.com/dannie125/MM-BSNにある。 Recent advances in deep learning have been pushing image denoising techniques to a new level. In self-supervised image denoising, blind-spot network (BSN) is one of the most common methods. However, most of the existing BSN algorithms use a dot-based central mask, which is recognized as inefficient for images with large-scale spatially correlated noise. In this paper, we give the definition of large-noise and propose a multi-mask strategy using multiple convolutional kernels masked in different shapes to further break the noise spatial correlation. Furthermore, we propose a novel self-supervised image denoising method that combines the multi-mask strategy with BSN (MM-BSN). We show that different masks can cause significant performance differences, and the proposed MM-BSN can efficiently fuse the features extracted by multi-masked layers, while recovering the texture structures destroyed by multi-masking and information transmission. Our MM-BSN can be used to address the problem of large-noise denoising, which cannot be efficiently handled by other BSN methods. Extensive experiments on public real-world datasets demonstrate that the proposed MM-BSN achieves state-of-the-art performance among self-supervised and even unpaired image denoising methods for sRGB images denoising, without any labelling effort or prior knowledge. Code can be found in https://github.com/dannie125/MM-BSN. | 翻訳日:2023-04-10 14:25:55 公開日:2023-04-07 |
# DropMAE: 追従作業のための空間認識型自動エンコーダ DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks ( http://arxiv.org/abs/2304.00571v2 ) ライセンス: Link先を確認 | Qiangqiang Wu and Tianyu Yang and Ziquan Liu and Baoyuan Wu and Ying Shan and Antoni B. Chan | (参考訳) 本稿では,視覚オブジェクト追跡 (vot) やビデオオブジェクトセグメンテーション (vos) など,マッチングベースの下流タスクのための映像を事前学習するマスク付きオートエンコーダ (mae) について検討する。
MAEの単純な拡張は、ビデオのフレームパッチをランダムにマスクアウトし、フレームピクセルを再構築することである。
しかし,この単純なベースラインはフレーム再構成の時間的関係を無視しながら空間的手がかりに大きく依存していることが判明し,VOTとVOSの時間的マッチング表現が準最適となることがわかった。
そこで本研究では,映像の時間的対応学習を容易にするために,フレーム再構成において空間的意図のドロップアウトを適応的に行うDropMAEを提案する。
その結果,DropMAEは2倍高速な事前学習速度を持つImageNetベースのMAEよりも,マッチングベースタスクの微調整結果の精度が向上することがわかった。
さらに,VOTおよびVOSの性能向上のために,事前学習ビデオの動作の多様性がシーンの多様性よりも重要であることも確認した。
トレーニング済みのDropMAEモデルは、既存のViTベースのトラッカーに直接ロードして、さらなる修正を加えることなく微調整することができる。
特にDropMAEは、9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに、最先端のパフォーマンスを新たに設定する。
私たちのコードと事前トレーニングされたモデルは、https://github.com/jimmy-dq/dropmae.gitで利用可能です。 In this paper, we study masked autoencoder (MAE) pretraining on videos for matching-based downstream tasks, including visual object tracking (VOT) and video object segmentation (VOS). A simple extension of MAE is to randomly mask out frame patches in videos and reconstruct the frame pixels. However, we find that this simple baseline heavily relies on spatial cues while ignoring temporal relations for frame reconstruction, thus leading to sub-optimal temporal matching representations for VOT and VOS. To alleviate this problem, we propose DropMAE, which adaptively performs spatial-attention dropout in the frame reconstruction to facilitate temporal correspondence learning in videos. We show that our DropMAE is a strong and efficient temporal matching learner, which achieves better finetuning results on matching-based tasks than the ImageNetbased MAE with 2X faster pre-training speed. Moreover, we also find that motion diversity in pre-training videos is more important than scene diversity for improving the performance on VOT and VOS. Our pre-trained DropMAE model can be directly loaded in existing ViT-based trackers for fine-tuning without further modifications. Notably, DropMAE sets new state-of-the-art performance on 8 out of 9 highly competitive video tracking and segmentation datasets. Our code and pre-trained models are available at https://github.com/jimmy-dq/DropMAE.git. | 翻訳日:2023-04-10 14:24:58 公開日:2023-04-07 |
# フレキシブル確率論的ニューラルネットワークによる組込み天気予報後処理 Ensemble weather forecast post-processing with a flexible probabilistic neural network approach ( http://arxiv.org/abs/2303.17610v2 ) ライセンス: Link先を確認 | Peter Mlakar, Janko Mer\v{s}e, Jana Faganeli Pucer | (参考訳) 組み立て後の予測は、正確な確率予測を生成するための必要なステップである。
従来のポストプロセッシング手法はパラメトリック分布のパラメータを推定し、しばしば位置単位またはリード時間単位で計算する。
本稿では,すべての位置とリード時間の予測を共同で生成するニューラルネットワークに基づく新しい手法を提案する。
多くのポストプロセッシング手法の分布仮定を緩和するため,本手法では正規化フローをフレキシブルパラメトリック分布推定器として組み込んだ。
これにより,様々な予測分布を数学的に正確にモデル化することができる。
本手法の有効性をeuppbenchベンチマークを用いて実証し,西ヨーロッパのサブリージョンにおける駅の温度予測を行った。
提案手法は,従来の性能評価項目を抜いて,最新の性能をベンチマークで示す。
さらに,新しいポストプロセッシング手法の3つの変種を詳細に比較することにより,本手法がリード時間ごとのアプローチや分布的仮定によるアプローチに勝る理由を明らかにする。 Ensemble forecast post-processing is a necessary step in producing accurate probabilistic forecasts. Conventional post-processing methods operate by estimating the parameters of a parametric distribution, frequently on a per-location or per-lead-time basis. We propose a novel, neural network-based method, which produces forecasts for all locations and lead times, jointly. To relax the distributional assumption of many post-processing methods, our approach incorporates normalizing flows as flexible parametric distribution estimators. This enables us to model varying forecast distributions in a mathematically exact way. We demonstrate the effectiveness of our method in the context of the EUPPBench benchmark, where we conduct temperature forecast post-processing for stations in a sub-region of western Europe. We show that our novel method exhibits state-of-the-art performance on the benchmark, outclassing our previous, well-performing entry. Additionally, by providing a detailed comparison of three variants of our novel post-processing method, we elucidate the reasons why our method outperforms per-lead-time-based approaches and approaches with distributional assumptions. | 翻訳日:2023-04-10 14:24:35 公開日:2023-04-07 |
# インダクティブグラフアンラーニング Inductive Graph Unlearning ( http://arxiv.org/abs/2304.03093v2 ) ライセンス: Link先を確認 | Cheng-Long Wang, Mengdi Huai, Di Wang | (参考訳) 機械学習で"忘れられる権利"を実装する方法として、 \textit{machine unlearning}は、トレーニングされたモデルから削除されるサンプルのコントリビューションと情報を、他のサンプルのコントリビューションに影響を与えることなく完全に削除することを目的としている。
近年,機械学習のための多くのフレームワークが提案されており,そのほとんどは画像とテキストデータに重点を置いている。
機械学習をグラフデータに拡張するために、 \textit{GraphEraser} が提案されている。
しかし、重要な問題は \textit{grapheraser} は、グラフが静的で属性とテストノードのエッジがトレーニング中に見えるトランスダクティブグラフ設定用に特別に設計されていることである。
グラフが動的になり、テストグラフ情報が事前に見えないような帰納的設定には適さない。
このようなインダクティブな能力は、ソーシャルメディアやトランザクションネットワークのような進化するグラフを持つ機械学習システムにとって不可欠である。
このギャップを埋めるために、我々は \underline{{\bf G}}\underline{{\bf U}}ided \underline{{\bf I}}n\underline{{\bf D}}uctiv\underline{{\bf E}} Graph Unlearning framework (GUIDE)を提案する。
GUIDEは3つのコンポーネントから構成される: 公正性とバランスのグラフ分割、効率的なサブグラフ修復、類似性に基づく集約。
実験では,いくつかのインダクティブベンチマークと進化するトランザクショングラフを用いて,提案手法を評価する。
一般に、GUIDEは計算や構造情報に関係なく、低グラフ分割コストでインダクティブグラフ学習タスクに効率的に実装することができる。
コードはここで入手できる。 https://github.com/happy2git/guide。 As a way to implement the "right to be forgotten" in machine learning, \textit{machine unlearning} aims to completely remove the contributions and information of the samples to be deleted from a trained model without affecting the contributions of other samples. Recently, many frameworks for machine unlearning have been proposed, and most of them focus on image and text data. To extend machine unlearning to graph data, \textit{GraphEraser} has been proposed. However, a critical issue is that \textit{GraphEraser} is specifically designed for the transductive graph setting, where the graph is static and attributes and edges of test nodes are visible during training. It is unsuitable for the inductive setting, where the graph could be dynamic and the test graph information is invisible in advance. Such inductive capability is essential for production machine learning systems with evolving graphs like social media and transaction networks. To fill this gap, we propose the \underline{{\bf G}}\underline{{\bf U}}ided \underline{{\bf I}}n\underline{{\bf D}}uctiv\underline{{\bf E}} Graph Unlearning framework (GUIDE). GUIDE consists of three components: guided graph partitioning with fairness and balance, efficient subgraph repair, and similarity-based aggregation. Empirically, we evaluate our method on several inductive benchmarks and evolving transaction graphs. Generally speaking, GUIDE can be efficiently implemented on the inductive graph learning tasks for its low graph partition cost, no matter on computation or structure information. The code will be available here: https://github.com/Happy2Git/GUIDE. | 翻訳日:2023-04-10 14:19:03 公開日:2023-04-07 |
# ETPNav: 連続環境における視覚言語ナビゲーションのためのトポロジ計画 ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2304.03047v2 ) ライセンス: Link先を確認 | Dong An, Hanqing Wang, Wenguan Wang, Zun Wang, Yan Huang, Keji He, Liang Wang | (参考訳) 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
自律的なナビゲーション、探索と救助、人間とロボットの相互作用など、AIの具体化の分野ではますます重要になっている。
本稿では,より実用的で挑戦的な,連続環境における視覚言語ナビゲーション(vln-ce)を提案する。
堅牢なVLN-CEエージェントを開発するために,2つの重要なスキルに焦点を当てた新しいナビゲーションフレームワーク ETPNav を提案する。
1)環境を抽象化し、長距離航法計画を作成する能力
2) 連続環境における障害物回避制御の能力
ETPNavは、事前の環境経験のない経路に沿って予測された経路を自己組織化することで、環境のオンライントポロジカルマッピングを行う。
エージェントは、ナビゲーション手順を高レベルな計画と低レベルな制御に分解する権限がある。
同時にetpnavはトランスフォーマティブベースのクロスモーダルプランナーを使用して、トポロジカルマップと命令に基づいたナビゲーションプランを生成する。
計画は障害物回避コントローラで実行され、試行錯誤のヒューリスティックを利用してナビゲーションが障害物にぶつからないようにする。
実験の結果,提案手法の有効性が示された。
ETPNavは、それぞれR2R-CEデータセットとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
私たちのコードはhttps://github.com/marsaki/etpnavで利用可能です。 Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting - vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav. | 翻訳日:2023-04-10 14:18:30 公開日:2023-04-07 |
# 損失導波路を用いた非エルミタン境界状態蒸留 Non-Hermitian Boundary State Distillation with Lossy Waveguides ( http://arxiv.org/abs/2304.03016v2 ) ライセンス: Link先を確認 | Walid Cherifi, Johan Carlstr\"om, Mohamed Bourennane, Emil J. Bergholtz | (参考訳) 位相位相の目印は、そのエキゾチックな境界状態である。
一連の顕著な実験において、これらの状態の古典的なアナログは微妙に微調整された入力光を与える結合光導波路の配列で設計できることが示されている。
本稿では,損失のある導波路のパターンが,汎用的,あるいはデフォーカスな入力光の境界状態を蒸留することにより,微調整の必要性を完全に緩和する,根本的に異なる手法を紹介し,実験的に示す。
我々の「トポロジカル蒸留」アプローチは極めて一般的であり、損失導波路は実質的に非エルミート・ハミルトニアンであり、対応する時間進化(導波路における光の伝播)は、どの位相的(あるいは自明な)バンド構造の平凡なバルク状態を取り除き、最も長い寿命を持つ唯一の状態であることから、興味深い境界状態を維持する。
フォトニックグラフェンのエッジ状態と非エルミートカゴメアレイのコーナー状態とエッジ状態を蒸留することにより,我々のアプローチのパワーと汎用性を実験的に実証した。 The hallmark of topological phases is their exotic boundary states. In a series of remarkable experiments it has been shown that classical analogues of these states can be engineered in arrays of coupled optical waveguides given delicately fine-tuned input light. Here, we introduce and experimentally demonstrate a radically different approach in which a pattern of lossy waveguides distills the boundary states for generic, even defocused, input light, thus fully alleviating the need for fine-tuning. Our "topological distillation" approach is remarkably general: the lossy waveguides amount to an effectively non-Hermitian Hamiltonian, and the corresponding time-evolution (propagation of the light in the waveguides) removes the mundane bulk states of any topological (or trivial) band structure while retaining the intriguing boundary states by virtue of being the unique states with the longest life-time. We experimentally demonstrate the power and versatility of our approach by distilling the edge states in photonic graphene, as well as corner and edge states in non-Hermitian Kagome arrays. | 翻訳日:2023-04-10 14:18:05 公開日:2023-04-07 |
# 量子キャリーヘッド加算器のための高次ラジックスアーキテクチャ A Higher Radix Architecture for Quantum Carry-lookahead Adder ( http://arxiv.org/abs/2304.02921v2 ) ライセンス: Link先を確認 | Siyi Wang and Anubhab Baksi and Anupam Chattopadhyay | (参考訳) 本稿では,高基数構造に基づく効率的な量子キャリーヘッド加算器を提案する。
2つの$n$-bit数値を加算するために、加算器は$O(n)-O(\frac{n}{r})$ qubits と $O(n)+O(\frac{n}{r})$ T gates を使い、T-deepth $O(r)+O(\log{\frac{n}{r}})$で正しい答えを得る。
量子キャリーヘッド添加剤は、T深度が低いため、既に注目を集めている。
我々の研究は、高基数層を導入することで全体的なコストを削減する。
T-deepth, T-count, qubit countのパフォーマンスを解析することにより, 提案した加算器は既存の量子キャリーヘッド加算器よりも優れていることを示す。
非常にコンパクトで効率的であるDraperのアウト・オブ・プレース加算器と比較しても、我々の加算器はTカウントの点でまだ優れている。 In this paper, we propose an efficient quantum carry-lookahead adder based on the higher radix structure. For the addition of two $n$-bit numbers, our adder uses $O(n)-O(\frac{n}{r})$ qubits and $O(n)+O(\frac{n}{r})$ T gates to get the correct answer in T-depth $O(r)+O(\log{\frac{n}{r}})$, where $r$ is the radix. Quantum carry-lookahead adder has already attracted some attention because of its low T-depth. Our work further reduces the overall cost by introducing a higher radix layer. By analyzing the performance in T-depth, T-count, and qubit count, it is shown that the proposed adder is superior to existing quantum carry-lookahead adders. Even compared to the Draper out-of-place adder which is very compact and efficient, our adder is still better in terms of T-count. | 翻訳日:2023-04-10 14:17:43 公開日:2023-04-07 |
# 深部ニューラルネットワークにおける重み行列の重み付き正規化 Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks ( http://arxiv.org/abs/2304.02911v2 ) ライセンス: Link先を確認 | Xuanzhe Xiao, Zeng Li, Chuanlong Xie, Fengwei Zhou | (参考訳) ディープニューラルネットワークの驚くべき成功と例外的な一般化能力の背後にある理由を解明することは、非常に難しい課題である。
ランダム行列理論、特にディープニューラルネットワークにおける重み行列のスペクトル解析に関する最近の知見は、この問題に対処するための貴重な手がかりを提供する。
ニューラルネットワークの一般化性能は、その重み行列のスペクトルにおける重みの程度と関連していることを示す重要な発見である。
この発見を活かし、重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化を通じて重み付きスペクトルを明示的に促進する。
まず、重み付きアルファと安定ランクをペナルティ用語として使い、どちらも微分可能であり、勾配の直接計算を可能にします。
過正規化を回避するために,ペナルティ関数の2つのバリエーションを導入する。
そこで,ベイズ統計の観点を取り入れ,ランダム行列からの知識を活用することにより,大域スペクトルの先行値としてPowerlaw分布とFrechet分布を利用する2つの新しい重み付き正規化手法を開発した。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。 Unraveling the reasons behind the remarkable success and exceptional generalization capabilities of deep neural networks presents a formidable challenge. Recent insights from random matrix theory, specifically those concerning the spectral analysis of weight matrices in deep neural networks, offer valuable clues to address this issue. A key finding indicates that the generalization performance of a neural network is associated with the degree of heavy tails in the spectrum of its weight matrices. To capitalize on this discovery, we introduce a novel regularization technique, termed Heavy-Tailed Regularization, which explicitly promotes a more heavy-tailed spectrum in the weight matrix through regularization. Firstly, we employ the Weighted Alpha and Stable Rank as penalty terms, both of which are differentiable, enabling the direct calculation of their gradients. To circumvent over-regularization, we introduce two variations of the penalty function. Then, adopting a Bayesian statistics perspective and leveraging knowledge from random matrices, we develop two novel heavy-tailed regularization methods, utilizing Powerlaw distribution and Frechet distribution as priors for the global spectrum and maximum eigenvalues, respectively. We empirically show that heavytailed regularization outperforms conventional regularization techniques in terms of generalization performance. | 翻訳日:2023-04-10 14:17:20 公開日:2023-04-07 |
# memefier:イメージミーム分類のためのデュアルステージモダリティ融合 MemeFier: Dual-stage Modality Fusion for Image Meme Classification ( http://arxiv.org/abs/2304.02906v2 ) ライセンス: Link先を確認 | Christos Koutlis, Manos Schinas, Symeon Papadopoulos | (参考訳) ヘイトスピーチは、インターネットを通じて大きく成長した社会問題である。
画像ミームのような新しい形式のデジタルコンテンツは、マルチモーダルな手段で憎悪の拡散を引き起こしており、ユニモーダルの場合に比べて解析と検出がはるかに困難である。
この種のコンテンツの正確な自動処理、分析、理解は、デジタル世界を通じたヘイトスピーチの拡散を妨げる努力を促進する。
そこで本研究では,インターネット画像ミームの細粒度分類のための深層学習ベースアーキテクチャであるmemefierを提案する。
第1融合ステージは、ミームのテキストと画像との非自明な接続をキャプチャするモダリティアライメント情報を含む特徴ベクトルを生成する。
第2の融合段階はトランスフォーマーエンコーダのパワーを利用してトークンレベルでモダリティ間の相関を学習し、情報表現を与える。
さらに,外部知識を付加的な入力とみなし,背景画像キャプションの監督を正規化コンポーネントとする。
広く採用されている3つのベンチマーク、すなわちfacebookのヘイトフルミーム、memotion7k、multioffに関する広範な実験は、我々のアプローチが競合し、場合によっては最先端を上回っていることを示している。
私たちのコードはhttps://github.com/ckoutlis/memefierで利用可能です。 Hate speech is a societal problem that has significantly grown through the Internet. New forms of digital content such as image memes have given rise to spread of hate using multimodal means, being far more difficult to analyse and detect compared to the unimodal case. Accurate automatic processing, analysis and understanding of this kind of content will facilitate the endeavor of hindering hate speech proliferation through the digital world. To this end, we propose MemeFier, a deep learning-based architecture for fine-grained classification of Internet image memes, utilizing a dual-stage modality fusion module. The first fusion stage produces feature vectors containing modality alignment information that captures non-trivial connections between the text and image of a meme. The second fusion stage leverages the power of a Transformer encoder to learn inter-modality correlations at the token level and yield an informative representation. Additionally, we consider external knowledge as an additional input, and background image caption supervision as a regularizing component. Extensive experiments on three widely adopted benchmarks, i.e., Facebook Hateful Memes, Memotion7k and MultiOFF, indicate that our approach competes and in some cases surpasses state-of-the-art. Our code is available on https://github.com/ckoutlis/memefier. | 翻訳日:2023-04-10 14:16:44 公開日:2023-04-07 |
# ViralVectors: コンパクトでスケーラブルなアライメントフリーなVirome機能生成 ViralVectors: Compact and Scalable Alignment-free Virome Feature Generation ( http://arxiv.org/abs/2304.02891v2 ) ライセンス: Link先を確認 | Sarwan Ali, Prakash Chourasia, Zahra Tayebi, Babatunde Bello, Murray Patterson | (参考訳) SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
これはSARS-CoV-2や他のウイルスのために幾何学的に成長し続け、多くの国がゲノム監視に多大な資金を拠出している。
したがって、効果的かつタイムリーな意思決定を可能にするために、大量のシーケンスデータを処理する方法が必要です。
このようなデータは、アライン化、アンアライン化、あるいは未組み立ての生ヌクレオチドまたはアミノ酸シークエンシングといった、関心のある全ゲノムまたは領域(例えばスパイク)に関連する異種ソースから得られる。
本研究では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトな特徴ベクトル生成法である \emph{ViralVectors} を提案する。
このような生成は、伝統的にアセンブリや読み取りマッピングで使用されるシーケンスの軽量な"シグナチャ"の一種である \emph{minimizers} に基づいています。
我々は、異なるタイプのシーケンシングデータに対するアプローチを検証する。
(a)2.5M SARS-CoV-2スパイクシーケンス(スケーラビリティを示すため)
(b)3kコロナウイルス科のスパイク配列(よりゲノム変異にロバスト性を示すため)、及び
(c)nasal-swab PCR検査から得られた4Kの生WGS読み出し(アンアセンブルされた読み出しの処理能力を示す)。
我々の結果は、ViralVectorsがほとんどの分類タスクやクラスタリングタスクで現在のベンチマークを上回っていることを示している。 The amount of sequencing data for SARS-CoV-2 is several orders of magnitude larger than any virus. This will continue to grow geometrically for SARS-CoV-2, and other viruses, as many countries heavily finance genomic surveillance efforts. Hence, we need methods for processing large amounts of sequence data to allow for effective yet timely decision-making. Such data will come from heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide or amino acid sequencing reads pertaining to the whole genome or regions (e.g., spike) of interest. In this work, we propose \emph{ViralVectors}, a compact feature vector generation from virome sequencing data that allows effective downstream analysis. Such generation is based on \emph{minimizers}, a type of lightweight "signature" of a sequence, used traditionally in assembly and read mapping -- to our knowledge, the first use minimizers in this way. We validate our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show robustness to more genomic variability); and (c) 4K raw WGS reads sets taken from nasal-swab PCR tests (to show the ability to process unassembled reads). Our results show that ViralVectors outperforms current benchmarks in most classification and clustering tasks. | 翻訳日:2023-04-10 14:16:14 公開日:2023-04-07 |
# action++: アダプティブ解剖学的コントラストによる半教師付き医用画像分割の改善 ACTION++: Improving Semi-supervised Medical Image Segmentation with Adaptive Anatomical Contrast ( http://arxiv.org/abs/2304.02689v2 ) ライセンス: Link先を確認 | Chenyu You, Weicheng Dai, Yifei Min, Lawrence Staib, Jasjeet S. Sekhon, James S. Duncan | (参考訳) 医学的データは、しばしば重いクラスの不均衡を伴うロングテール分布を示すため、マイノリティクラス(すなわち境界領域や希少なオブジェクト)の分類が困難になる。
最近の研究は、教師なしのコントラスト基準を付与することで、ロングテールシナリオにおける半教師付き医用画像分割を大幅に改善した。
しかし、クラス分布が高度に不均衡なデータのラベル付き部分で、どの程度うまく機能するかは、まだ不明である。
本稿では,半教師付き医学セグメント化のための適応的解剖学的コントラストを備えた,改良型コントラスト学習フレームワークであるaction++を提案する。
具体的には、まず、組込み空間(例えばオフライン)に均一に分布するクラスセンターの最適位置を計算し、異なるクラス特徴に適応的かつ一様に分布するクラスセンターを適応的に適合させることにより、オンラインコントラストマッチング訓練を行う適応型教師付きコントラスト損失を提案する。
さらに,ロングテール医療データに対する対照的な損失において,一定温度である$\tau$ を盲目的に採用することは最適ではなく,単純なコサインスケジュールを通じて動的$\tau$ を使うことを提案し,多数派と少数派階級の分離性を高める。
ACDCとLAのベンチマークでACTION++を評価し、2つの半教師付き設定で最先端を実現することを示す。
理論的には,適応解剖学的コントラストの性能を解析し,ラベル効率の優位性を確認した。 Medical data often exhibits long-tail distributions with heavy class imbalance, which naturally leads to difficulty in classifying the minority classes (i.e., boundary regions or rare objects). Recent work has significantly improved semi-supervised medical image segmentation in long-tailed scenarios by equipping them with unsupervised contrastive criteria. However, it remains unclear how well they will perform in the labeled portion of data where class distribution is also highly imbalanced. In this work, we present ACTION++, an improved contrastive learning framework with adaptive anatomical contrast for semi-supervised medical segmentation. Specifically, we propose an adaptive supervised contrastive loss, where we first compute the optimal locations of class centers uniformly distributed on the embedding space (i.e., off-line), and then perform online contrastive matching training by encouraging different class features to adaptively match these distinct and uniformly distributed class centers. Moreover, we argue that blindly adopting a constant temperature $\tau$ in the contrastive loss on long-tailed medical data is not optimal, and propose to use a dynamic $\tau$ via a simple cosine schedule to yield better separation between majority and minority classes. Empirically, we evaluate ACTION++ on ACDC and LA benchmarks and show that it achieves state-of-the-art across two semi-supervised settings. Theoretically, we analyze the performance of adaptive anatomical contrast and confirm its superiority in label efficiency. | 翻訳日:2023-04-10 14:15:51 公開日:2023-04-07 |
# entl: 具体化ナビゲーションコース学習装置 ENTL: Embodied Navigation Trajectory Learner ( http://arxiv.org/abs/2304.02639v2 ) ライセンス: Link先を確認 | Klemen Kotar, Aaron Walsman, Roozbeh Mottaghi | (参考訳) エンボディナビゲーションのための長いシーケンス表現を抽出する手法であるEmbodied Navigation Trajectory Learner (ENTL)を提案する。
提案手法は,世界モデリング,ローカライゼーション,模倣学習を単一シーケンス予測タスクに統合する。
我々は,現在の状態と動作に基づく将来の状態のベクトル量子化予測を用いてモデルを訓練する。
ENTLの汎用アーキテクチャは、複数の困難な実施タスクのための時空間シーケンスエンコーダの共有を可能にする。
ローカライゼーションや将来のフレーム予測(世界モデリングのプロキシ)といった補助タスクを実行しながら,強力なベースラインよりもはるかに少ないデータを用いて,ナビゲーションタスクの競合性能を実現する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることであり、その結果、複数のタスクや環境に一般化できるということである。 We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL's generic architecture enables sharing of the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments. | 翻訳日:2023-04-10 14:15:25 公開日:2023-04-07 |
# 深部画像認識モデルにおける学習等価性の影響 What Affects Learned Equivariance in Deep Image Recognition Models? ( http://arxiv.org/abs/2304.02628v2 ) ライセンス: Link先を確認 | Robert-Jan Bruintjes, Tomasz Motyka, Jan van Gemert | (参考訳) ニューラルネットワークにおける等分散 w.r.t. 幾何変換は、領域外視点シフトに対するデータ効率、パラメータ効率、堅牢性を改善する。
等価性がニューラルネットワークに設計されていない場合、ネットワークはデータから同変関数を学習することができる。
我々は、この学習された等分散を、改良された等分散尺度を提案することによって定量化する。
ImageNet上で,学習した翻訳の等価性と検証精度の相関関係を示す。
そこで,ニューラルネットワークにおける学習等価性を増加させる要因について検討し,畳み込みの形でのデータ拡張,モデル容量の低減,帰納的バイアスがニューラルネットワークの学習等価性を高めることを見出した。 Equivariance w.r.t. geometric transformations in neural networks improves data efficiency, parameter efficiency and robustness to out-of-domain perspective shifts. When equivariance is not designed into a neural network, the network can still learn equivariant functions from the data. We quantify this learned equivariance, by proposing an improved measure for equivariance. We find evidence for a correlation between learned translation equivariance and validation accuracy on ImageNet. We therefore investigate what can increase the learned equivariance in neural networks, and find that data augmentation, reduced model capacity and inductive bias in the form of convolutions induce higher learned equivariance in neural networks. | 翻訳日:2023-04-10 14:15:14 公開日:2023-04-07 |
# 強いバスカップリングによる循環型量子エンジン Cyclic quantum engines enhanced by strong bath coupling ( http://arxiv.org/abs/2304.03267v2 ) ライセンス: Link先を確認 | Camille L. Latune, Graeme Pleasance, and Francesco Petruccione | (参考訳) 強いシステムバス結合はリッチで興味深い現象を生み出すが、量子熱エンジンへの応用は、主に有害な効果を指摘してきた。
強い結合による効率損失とより早い平衡による電力増加との微妙なトレードオフは認識されているものの、正確に平衡時間を評価するという課題のためにほとんど未解決のままであった。
ここでは, 階層的運動方程式 (heom) 形式に基づく厳密な数値シミュレーションを用いて, この障害を克服する。
量子オットーサイクルは、この方法で出力電力の効率タイムの積を最大化することで、強結合(しかし超強結合ではない)よりも優れた性能を示す。
特に,強い結合により,同じ出力パワーを共有しながら,より効率のよいエンジンを得ることができることを示した。
逆に、弱い結合されたエンジンよりも大きな出力を持つ強い結合エンジンを設計でき、同じ効率を共有できる。
その結果, 強い結合が熱力学的操作の性能を直接的に向上させることができ, 量子サーマルエンジンの標準構成以上の研究の重要性を再強調できる。 While strong system-bath coupling produces rich and interesting phenomena, applications to quantum thermal engines have been so far pointing mainly at detrimental effects. The delicate trade-off between efficiency loss due to strong coupling and power increase due to faster equilibration, while acknowledged, remained largely unexplored owing to the challenge of assessing precisely the equilibration time. Here, we overcome this obstacle by exploiting exact numerical simulations based on the hierarchical equations of motion (HEOM) formalism. We show that a quantum Otto cycle can perform better at strong (but not ultrastrong) coupling in that the product of the efficiency times the output power is maximized in this regime. In particular, we show that strong coupling allows one to obtain engines with larger efficiency than their weakly coupled counterparts, while sharing the same output power. Conversely, one can design strongly coupled engines with larger power than their weakly coupled counterparts, while sharing the same efficiency. Overall, our results provide situations where strong coupling can directly enhance the performance of thermodynamic operations, re-enforcing the importance of studying quantum thermal engines beyond standard configurations. | 翻訳日:2023-04-10 14:06:43 公開日:2023-04-07 |
# 大規模言語モデルは文語翻訳に文書レベルの文脈を効果的に活用するが、臨界エラーは継続する Large language models effectively leverage document-level context for literary translation, but critical errors persist ( http://arxiv.org/abs/2304.03245v2 ) ライセンス: Link先を確認 | Marzena Karpinska and Mohit Iyyer | (参考訳) 大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
しかし、これらの設定による評価は費用がかかり難いため、段落や文書を翻訳する能力は未解明のままである。
我々は、Gpt-3.5 (text-davinci-003) LLM) に文節全体(小説など)を一度に翻訳するよう求める厳密な人間の評価を通して、言語的に異なる18の言語対(日本語、ポーランド語、英語への翻訳など)にわたる標準文の翻訳よりも高品質な翻訳を行うことを示す。
アノテーションと分析に約350時間を費やした評価は、ソース言語とターゲット言語の両方に精通した翻訳者を雇い、スパンレベルのエラーアノテーションと、システムの翻訳が優れているかどうかの選択判断の両方を提供するよう求めた。
会話レベルのllm翻訳者は文レベルのアプローチよりも誤訳や文法誤り、スタイル的不整合が少ないことが観察された。
それにもかかわらず、時折内容の欠落を含む重大なエラーがまだ増えており、著者の声がそのままであることを保証するためには、人間の翻訳者の介入が必要である。
ドキュメントレベルの文芸翻訳の評価に関する今後の研究を促進するため,データセットとエラーアノテーションを公開します。 Large language models (LLMs) are competitive with the state of the art on a wide range of sentence-level translation datasets. However, their ability to translate paragraphs and documents remains unexplored because evaluation in these settings is costly and difficult. We show through a rigorous human evaluation that asking the Gpt-3.5 (text-davinci-003) LLM to translate an entire literary paragraph (e.g., from a novel) at once results in higher-quality translations than standard sentence-by-sentence translation across 18 linguistically-diverse language pairs (e.g., translating into and out of Japanese, Polish, and English). Our evaluation, which took approximately 350 hours of effort for annotation and analysis, is conducted by hiring translators fluent in both the source and target language and asking them to provide both span-level error annotations as well as preference judgments of which system's translations are better. We observe that discourse-level LLM translators commit fewer mistranslations, grammar errors, and stylistic inconsistencies than sentence-level approaches. With that said, critical errors still abound, including occasional content omissions, and a human translator's intervention remains necessary to ensure that the author's voice remains intact. We publicly release our dataset and error annotations to spur future research on evaluation of document-level literary translation. | 翻訳日:2023-04-10 14:06:23 公開日:2023-04-07 |
# 多言語ニューラルマシン翻訳のパレートフロントについて On the Pareto Front of Multilingual Neural Machine Translation ( http://arxiv.org/abs/2304.03216v2 ) ライセンス: Link先を確認 | Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang | (参考訳) 本研究では,MNMT(Multilingual Neural Machine Translation)において,与えられた方向の一般化性能がサンプリング比でどのように変化するかを検討する。
様々なモデルサイズ、方向、タスクの総数を持つ200以上の多言語モデルをトレーニングすることで、スカラー化は、トレーニングコーパスにデータ不均衡がある場合、従来のパレートフロントから逸脱するマルチタスクトレードオフフロントにつながることが分かりました。
すなわち、特定の翻訳方向の性能は、マルチタスク最適化目的における重みの増加によって改善されず、全方向全体の性能を改善するための大きな課題となる。
本研究は,MNMTにおけるユニークな性能トレードオフを予測するための二重電力法を提案し,各言語にまたがるロバスト性,データ妥当性,タスク数について検討した。
最後に,本実験における全トレーニング予算の最大半分を用いて,温度探索法や勾配操作法よりも優れた性能を実現するダブルパワー則に基づく最適化問題として,mnmtのサンプル比選択問題をmnmtで定式化した。 In this work, we study how the generalization performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, directions, and total numbers of tasks, we find that scalarization leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus. That is, the performance of certain translation directions does not improve with the increase of its weight in the multi-task optimization objective, which poses a great challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy, and the number of tasks. Finally, we formulate the sample ratio selection problem in MNMT as an optimization problem based on the Double Power Law, which achieves better performance than temperature searching and gradient manipulation methods using up to half of the total training budget in our experiments. | 翻訳日:2023-04-10 14:05:56 公開日:2023-04-07 |
# 視覚中心3次元物体検出のための幾何学的事前学習 Geometric-aware Pretraining for Vision-centric 3D Object Detection ( http://arxiv.org/abs/2304.03105v2 ) ライセンス: Link先を確認 | Linyan Huang, Huijie Wang, Jia Zeng, Shengchuan Zhang, Liujuan Cao, Junchi Yan, Hongyang Li | (参考訳) 自律運転のためのマルチカメラ3Dオブジェクト検出は、学術と産業の両方から注目を浴びている課題である。
視覚に基づく技術で遭遇する障害は、rgb画像から幾何学的特徴を正確に抽出することである。
近年のアプローチでは、深度関連タスクで事前訓練された幾何学的画像バックボーンを用いて空間情報を取得する。
しかし、これらのアプローチはビュー変換の重要な側面を見落とし、画像バックボーンとビュー変換の間の空間的知識の不整合による性能の低下をもたらす。
この問題に対処するため,GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
本手法は,事前学習段階で幾何学的リッチモダリティを指導として,カメラネットワークへの空間的および構造的手がかりを取り入れている。
異なるモダリティにまたがるモーダル固有の属性の転送は簡単ではないが、このギャップを鳥眼ビュー(BEV)の統一表現とLiDAR点雲から得られる構造的ヒントを用いて橋渡しし、事前学習プロセスを容易にする。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
本実験は,提案手法の有効性と一般化能力を示す。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
また,様々な画像バックボーンとビュー変換の実験を行い,本手法の有効性を検証した。
コードはhttps://github.com/OpenDriveLab/BEVPerception-Survey-Recipeでリリースされる。 Multi-camera 3D object detection for autonomous driving is a challenging problem that has garnered notable attention from both academia and industry. An obstacle encountered in vision-based techniques involves the precise extraction of geometry-conscious features from RGB images. Recent approaches have utilized geometric-aware image backbones pretrained on depth-relevant tasks to acquire spatial information. However, these approaches overlook the critical aspect of view transformation, resulting in inadequate performance due to the misalignment of spatial knowledge between the image backbone and view transformation. To address this issue, we propose a novel geometric-aware pretraining framework called GAPretrain. Our approach incorporates spatial and structural cues to camera networks by employing the geometric-rich modality as guidance during the pretraining phase. The transference of modal-specific attributes across different modalities is non-trivial, but we bridge this gap by using a unified bird's-eye-view (BEV) representation and structural hints derived from LiDAR point clouds to facilitate the pretraining process. GAPretrain serves as a plug-and-play solution that can be flexibly applied to multiple state-of-the-art detectors. Our experiments demonstrate the effectiveness and generalization ability of the proposed method. We achieve 46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on various image backbones and view transformations to validate the efficacy of our approach. Code will be released at https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe. | 翻訳日:2023-04-10 14:05:39 公開日:2023-04-07 |
# 深部強化学習制御の安定化のためのモジュラーフレームワーク A modular framework for stabilizing deep reinforcement learning control ( http://arxiv.org/abs/2304.03422v1 ) ライセンス: Link先を確認 | Nathan P. Lawrence, Philip D. Loewen, Shuyuan Wang, Michael G. Forbes, R. Bhushan Gopaluni | (参考訳) 本稿では,深層強化学習の最適化駆動およびモデルフリーの利点と,youla-kuceraパラメータ化を用いた探索領域定義による安定性保証を組み合わせたフィードバック制御系設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となり,入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能となった。
ニューラルネットワークを用いてパラメータ化された非線形安定演算子の集合を表現することで、標準的なディープラーニングライブラリとのシームレスな統合が可能になる。
本稿では,2タンクシステムの現実的なシミュレーションについて述べる。 We propose a framework for the design of feedback controllers that combines the optimization-driven and model-free advantages of deep reinforcement learning with the stability guarantees provided by using the Youla-Kucera parameterization to define the search domain. Recent advances in behavioral systems allow us to construct a data-driven internal model; this enables an alternative realization of the Youla-Kucera parameterization based entirely on input-output exploration data. Using a neural network to express a parameterized set of nonlinear stable operators enables seamless integration with standard deep learning libraries. We demonstrate the approach on a realistic simulation of a two-tank system. | 翻訳日:2023-04-10 13:22:24 公開日:2023-04-07 |
# 変分オートエンコーダを用いた教師なし3次元点雲異常検出に向けて Toward Unsupervised 3D Point Cloud Anomaly Detection using Variational Autoencoder ( http://arxiv.org/abs/2304.03420v1 ) ライセンス: Link先を確認 | Mana Masuda, Ryo Hachiuma, Ryo Fujii, Hideo Saito, Yusuke Sekikawa | (参考訳) 本稿では,3次元点雲に対するエンドツーエンドの教師なし異常検出フレームワークを提案する。
我々の知る限りでは、これは3Dポイントクラウドで表される一般的なオブジェクト上の異常検出タスクに取り組む最初の作業である。
本稿では,3dポイントクラウドに適応した,可変オートエンコーダに基づく教師なし異常検出ネットワークと,3dポイントクラウドに特化した異常スコアを提案する。
モデルの有効性を検証するため,shapenetデータセットについて広範な実験を行った。
定量的および質的評価により,提案手法がベースライン法より優れていることを示す。
私たちのコードはhttps://github.com/llien30/point_cloud_anomaly_detectionで利用可能です。 In this paper, we present an end-to-end unsupervised anomaly detection framework for 3D point clouds. To the best of our knowledge, this is the first work to tackle the anomaly detection task on a general object represented by a 3D point cloud. We propose a deep variational autoencoder-based unsupervised anomaly detection network adapted to the 3D point cloud and an anomaly score specifically for 3D point clouds. To verify the effectiveness of the model, we conducted extensive experiments on the ShapeNet dataset. Through quantitative and qualitative evaluation, we demonstrate that the proposed method outperforms the baseline method. Our code is available at https://github.com/llien30/point_cloud_anomaly_detection. | 翻訳日:2023-04-10 13:22:14 公開日:2023-04-07 |
# AMS-DRL:ドローンの安全目標航法のための多目的エベイジョンの学習 AMS-DRL: Learning Multi-Pursuit Evasion for Safe Targeted Navigation of Drones ( http://arxiv.org/abs/2304.03443v1 ) ライセンス: Link先を確認 | Jiaping Xiao and Mir Feroskhan | (参考訳) 複数の追跡者からの敵の物理的攻撃がある場合、ドローンの安全なナビゲーションは難しい課題だ。
本稿では,複数の追尾者の行動から学習し,その行動に迅速に適応し,ドローンが攻撃を回避し,目標に到達可能な,敵対的ニューラルネットワークを訓練する手法である,非同期多段階深層強化学習(ams-drl)を提案する。
ゲーム理論解析から Nash Equilibrium のエージェント間の収束を保証する。
本手法を広範囲のシミュレーションで評価し,高いナビゲーション成功率でベースラインを上回っていることを示す。
また、相対的な最大速度などのパラメータがナビゲーション性能に与える影響を分析する。
さらに, 実時間飛行における訓練方針の有効性を検証し, 実測実験を行った。
空間幾何学が航法結果にどのように影響するかを明らかにするために、成功率のヒートマップが導入された。
プロジェクトウェブサイト: https://github.com/NTU-UAVG/AMS-DRL-for-Pursuit-Evasion Safe navigation of drones in the presence of adversarial physical attacks from multiple pursuers is a challenging task. This paper proposes a novel approach, asynchronous multi-stage deep reinforcement learning (AMS-DRL), to train an adversarial neural network that can learn from the actions of multiple pursuers and adapt quickly to their behavior, enabling the drone to avoid attacks and reach its target. Our approach guarantees convergence by ensuring Nash Equilibrium among agents from the game-theory analysis. We evaluate our method in extensive simulations and show that it outperforms baselines with higher navigation success rates. We also analyze how parameters such as the relative maximum speed affect navigation performance. Furthermore, we have conducted physical experiments and validated the effectiveness of the trained policies in real-time flights. A success rate heatmap is introduced to elucidate how spatial geometry influences navigation outcomes. Project website: https://github.com/NTU-UAVG/AMS-DRL-for-Pursuit-Evasion. | 翻訳日:2023-04-10 13:12:45 公開日:2023-04-07 |
# 生成エージェント:人間行動の対話型シミュラ Generative Agents: Interactive Simulacra of Human Behavior ( http://arxiv.org/abs/2304.03442v1 ) ライセンス: Link先を確認 | Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein | (参考訳) 人間の行動の信じられないプロキシは、没入環境から対人コミュニケーションのためのリハーサル空間、プロトタイピングツールまで、インタラクティブなアプリケーションを強化することができる。
本稿では,人間の行動をシミュレートする生成エージェント(計算ソフトウェアエージェント)を提案する。
生成エージェントは目を覚まし、朝食を調理し、仕事に向かう;アーティストは絵を描き、著者は書く;彼らは意見を作り、お互いに気づき、会話を開始する;彼らは翌日の計画通りに過去を思い出し、振り返る。
生成エージェントを実現するために,自然言語を用いたエージェントの経験の完全な記録を格納し,それらの記憶を時間とともに高レベルなリフレクションに合成し,動的に計画行動へ取り出すように,大きな言語モデルを拡張したアーキテクチャについて述べる。
The Simsにインスパイアされた対話型サンドボックス環境に生成エージェントを投入し、ユーザは自然言語を使って20のエージェントの小さな町と対話できる。
例えば、1人のエージェントがバレンタインデーパーティーをスローしたいという1つのユーザ特定概念から始めて、エージェントは2日間に自律的に招待状をパーティーに拡散し、新しい知り合いを作り、パーティーの日付を尋ね、正しいタイミングでパーティーに集結するように調整する。
我々は,エージェント・アーキテクチャの構成要素である観測,計画,リフレクションがエージェント・ビヘイビアの信頼性に重要な貢献をすることを示す。
大規模言語モデルとインタラクティブなエージェントを融合することにより,人間の行動の信じられないシミュレーションを可能にするアーキテクチャとインタラクションパターンを提案する。 Believable proxies of human behavior can empower interactive applications ranging from immersive environments to rehearsal spaces for interpersonal communication to prototyping tools. In this paper, we introduce generative agents--computational software agents that simulate believable human behavior. Generative agents wake up, cook breakfast, and head to work; artists paint, while authors write; they form opinions, notice each other, and initiate conversations; they remember and reflect on days past as they plan the next day. To enable generative agents, we describe an architecture that extends a large language model to store a complete record of the agent's experiences using natural language, synthesize those memories over time into higher-level reflections, and retrieve them dynamically to plan behavior. We instantiate generative agents to populate an interactive sandbox environment inspired by The Sims, where end users can interact with a small town of twenty five agents using natural language. In an evaluation, these generative agents produce believable individual and emergent social behaviors: for example, starting with only a single user-specified notion that one agent wants to throw a Valentine's Day party, the agents autonomously spread invitations to the party over the next two days, make new acquaintances, ask each other out on dates to the party, and coordinate to show up for the party together at the right time. We demonstrate through ablation that the components of our agent architecture--observation, planning, and reflection--each contribute critically to the believability of agent behavior. By fusing large language models with computational, interactive agents, this work introduces architectural and interaction patterns for enabling believable simulations of human behavior. | 翻訳日:2023-04-10 13:12:32 公開日:2023-04-07 |
# 分布シフトの類似性を考慮した教師付きコントラスト学習 Supervised Contrastive Learning with Heterogeneous Similarity for Distribution Shifts ( http://arxiv.org/abs/2304.03440v1 ) ライセンス: Link先を確認 | Takuro Kutsuna | (参考訳) 分散シフトは、トレーニングとテストの間のデータの分散が変化する問題であり、現実世界にデプロイされたモデルの性能が著しく低下する可能性がある。
最近の研究では、劣化の理由の一つは過剰フィッティングの一種であり、適切な正則化は、特にニューラルネットワークのような高度に代表されるモデルを用いることで劣化を緩和できることが示唆されている。
本稿では,教師付きコントラスト学習を用いた新たな正規化手法を提案する。
比較損失におけるコサイン類似度を、より一般的な類似度尺度に拡張し、サンプルを正あるいは負の例と比較する際に、異なるパラメータを使用することを提案する。
サブポピュレーションシフトやドメイン一般化を含む分布シフトをエミュレートするベンチマークデータセットの実験は、既存の正規化法よりも提案手法の利点を示している。 Distribution shifts are problems where the distribution of data changes between training and testing, which can significantly degrade the performance of a model deployed in the real world. Recent studies suggest that one reason for the degradation is a type of overfitting, and that proper regularization can mitigate the degradation, especially when using highly representative models such as neural networks. In this paper, we propose a new regularization using the supervised contrastive learning to prevent such overfitting and to train models that do not degrade their performance under the distribution shifts. We extend the cosine similarity in contrastive loss to a more general similarity measure and propose to use different parameters in the measure when comparing a sample to a positive or negative example, which is analytically shown to act as a kind of margin in contrastive loss. Experiments on benchmark datasets that emulate distribution shifts, including subpopulation shift and domain generalization, demonstrate the advantage of the proposed method over existing regularization methods. | 翻訳日:2023-04-10 13:12:03 公開日:2023-04-07 |
# ChatGPTとGPT-4の論理的推論能力の評価 Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 ( http://arxiv.org/abs/2304.03439v1 ) ライセンス: Link先を確認 | Hanmeng Liu, Ruoxi Ning, Zhiyang Teng, Jian Liu, Qiji Zhou, Yue Zhang | (参考訳) 論理的推論能力の調和は、包括的な自然言語理解の取り組みである。
Generative Pretrained Transformer 4 (GPT-4) のリリースにより、様々な論理的推論タスクについて GPT-4 のパフォーマンスを学習したいと考えている。
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。
我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。
さらに,ChatGPTとGPT-4のロバスト性を調べるために,分布外の論理的推論データセットを構築した。
また,ChatGPTとGPT-4の性能比較を行った。
実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
GPT-4は手動テストでさらに高い性能を示した。
ベンチマークの中で、ChatGPTとGPT-4はLogiQAやReClorのようなよく知られたデータセットで比較的うまく動作する。
しかし、新しいリリースとアウト・オブ・ディストリビューションデータセットを扱うと、パフォーマンスは大幅に低下する。
chatgptやgpt-4、特にアウトオブディストリビューションや自然言語推論データセットでは、論理的推論は依然として困難である。 Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. GPT-4 shows even higher performance on our manual tests. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. | 翻訳日:2023-04-10 13:11:46 公開日:2023-04-07 |
# シーケンス生成に基づく統一的なシーンテキストスポッティング Towards Unified Scene Text Spotting based on Sequence Generation ( http://arxiv.org/abs/2304.03435v1 ) ライセンス: Link先を確認 | Taeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim | (参考訳) シーケンス生成モデルは近年、様々な視覚タスクの統合において大きな進歩を遂げている。
いくつかの自動回帰モデルは、エンドツーエンドのテキストスポッティングにおいて有望な結果を示しているが、様々なテキスト形式を無視しながら特定の検出フォーマットを使用し、検出可能なテキストインスタンスの最大数を制限する。
これらの制限を克服するために,UNITS と呼ばれる UNIfied scene Text Spotter を提案する。
我々のモデルは四角形や多角形を含む様々な検出形式を統一し、任意の形状のテキストを検出できる。
さらに、モデルが任意の開始点からテキストを抽出するために開始点プロンプトを適用し、トレーニングしたインスタンス数以上のテキストを抽出する。
実験により,本手法は最先端手法と比較して競争性能が向上することを示した。
さらに分析した結果、UNITSはトレーニングされたテキストよりも多くのテキストを抽出できることがわかった。
私たちはメソッドのコードをhttps://github.com/clovaai/unitsで提供します。 Sequence generation models have recently made significant progress in unifying various vision tasks. Although some auto-regressive models have demonstrated promising results in end-to-end text spotting, they use specific detection formats while ignoring various text shapes and are limited in the maximum number of text instances that can be detected. To overcome these limitations, we propose a UNIfied scene Text Spotter, called UNITS. Our model unifies various detection formats, including quadrilaterals and polygons, allowing it to detect text in arbitrary shapes. Additionally, we apply starting-point prompting to enable the model to extract texts from an arbitrary starting point, thereby extracting more texts beyond the number of instances it was trained on. Experimental results demonstrate that our method achieves competitive performance compared to state-of-the-art methods. Further analysis shows that UNITS can extract a larger number of texts than it was trained on. We provide the code for our method at https://github.com/clovaai/units. | 翻訳日:2023-04-10 13:11:27 公開日:2023-04-07 |
# ChatGPTによるYouTubeのキャプションからのオピニオンマイニング:2023年トルコ大統領選挙の街頭インタビューを事例として Opinion Mining from YouTube Captions Using ChatGPT: A Case Study of Street Interviews Polling the 2023 Turkish Elections ( http://arxiv.org/abs/2304.03434v1 ) ライセンス: Link先を確認 | Tu\u{g}rulcan Elmas, \.Ilker G\"ul | (参考訳) 世論調査は世論や選好、特に政治選挙の文脈において重要な役割を担っている。
従来のポーリング手法は便利だが、高価でスケーラビリティが低い。
ソーシャルメディアは意見マイニングのための代替データソースを提供するが、ノイズ、バイアス、データ収集におけるプラットフォーム制限といった課題を提示している。
本稿では,2023年のトルコ総選挙を事例として,公開面接によるyoutubeの自動生成キャプションをデータソースとして活用した,新たな意見マイニング手法を提案する。
本稿では、ChatGPTを用いた意見マイニングフレームワークを導入し、選挙前の姿勢や枠組みを表す投票意図や動機を大量アノテートする。
325の面接から収集したデータに基づいて、チャットgptは、望ましい候補を97\%の精度で予測し、13の選択肢のうち正しい投票動機を71\%の精度で特定できると報告した。
提案手法の堅牢性について議論し,キャプションの品質,インタビューの長さ,チャンネルなどの要因について考察した。
この新しい手法は、ソーシャルメディアデータを使った意見マイニングに、騒々しく費用効果の低い代替手段を提供する。 Opinion mining plays a critical role in understanding public sentiment and preferences, particularly in the context of political elections. Traditional polling methods, while useful, can be expensive and less scalable. Social media offers an alternative source of data for opinion mining but presents challenges such as noise, biases, and platform limitations in data collection. In this paper, we propose a novel approach for opinion mining, utilizing YouTube's auto-generated captions from public interviews as a data source, specifically focusing on the 2023 Turkish elections as a case study. We introduce an opinion mining framework using ChatGPT to mass-annotate voting intentions and motivations that represent the stance and frames prior to the election. We report that ChatGPT can predict the preferred candidate with 97\% accuracy and identify the correct voting motivation out of 13 possible choices with 71\% accuracy based on the data collected from 325 interviews. We conclude by discussing the robustness of our approach, accounting for factors such as captions quality, interview length, and channels. This new method will offer a less noisy and cost-effective alternative for opinion mining using social media data. | 翻訳日:2023-04-10 13:11:12 公開日:2023-04-07 |
# ロバスト不変表現における領域一般化 Domain Generalization In Robust Invariant Representation ( http://arxiv.org/abs/2304.03431v1 ) ライセンス: Link先を確認 | Gauri Gupta, Ritvik Kapila, Keshav Gupta, Ramesh Raskar | (参考訳) 共通変換に不変な表現を学習するための教師なしのアプローチは、オブジェクト認識によく使用される。
不変性の学習は、実世界のシナリオで使用するモデルをより堅牢で実用的なものにします。
オブジェクト固有の特性を変化させないデータ変換は、認識タスクの複雑さの大部分を引き起こすため、これらの変換に不変なモデルは、必要なトレーニングデータの量を減らすのに役立つ。
これによりモデルの効率が向上し、トレーニングが簡単になる。
本稿では, 分布外データ上の不変表現の一般化について検討し, 問題に答えようとする。 特定の出現した領域の変換に不変なモデル表現は, 以前は見つからなかった領域でも不変か?
広範な実験を通して、不変モデルは分布シフトに頑健な非構造的潜在表現を学習し、不変性は資源制約された環境でのトレーニングに望ましい特性であることを示す。 Unsupervised approaches for learning representations invariant to common transformations are used quite often for object recognition. Learning invariances makes models more robust and practical to use in real-world scenarios. Since data transformations that do not change the intrinsic properties of the object cause the majority of the complexity in recognition tasks, models that are invariant to these transformations help reduce the amount of training data required. This further increases the model's efficiency and simplifies training. In this paper, we investigate the generalization of invariant representations on out-of-distribution data and try to answer the question: Do model representations invariant to some transformations in a particular seen domain also remain invariant in previously unseen domains? Through extensive experiments, we demonstrate that the invariant model learns unstructured latent representations that are robust to distribution shifts, thus making invariance a desirable property for training in resource-constrained settings. | 翻訳日:2023-04-10 13:10:50 公開日:2023-04-07 |
# TinyDet:軽量ジェネリック検出器における高精度小物体検出 TinyDet: Accurate Small Object Detection in Lightweight Generic Detectors ( http://arxiv.org/abs/2304.03428v1 ) ライセンス: Link先を確認 | Shaoyu Chen, Tianheng Cheng, Jiemin Fang, Qian Zhang, Yuan Li, Wenyu Liu, Xinggang Wang | (参考訳) 小さな物体検出には、画像特徴マップ上の多数の位置をスキャンする検出ヘッドが必要である。
計算量が少ない小さなオブジェクトを正確に検出するために,TinyDetと呼ばれる計算量が極めて少ない2段階の軽量検出フレームワークを提案する。
高密度アンカーのための高分解能特徴マップを小型オブジェクトをよりよくカバーすることを可能にし、計算量削減のための疎結合畳み込みを提案し、バックボーンの早期機能を強化し、正確な小型オブジェクト検出のための特徴ミスアライメント問題に対処する。
COCOベンチマークでは、TinyDet-Mは、わずか991 MFLOPsで30.3 APと13.5 AP^sを達成するが、これは1 GFLOPs未満のAPを持つ最初の検出器であり、TinyDet-SとTinyDet-Lは異なる計算制限下で有望な性能を達成する。 Small object detection requires the detection head to scan a large number of positions on image feature maps, which is extremely hard for computation- and energy-efficient lightweight generic detectors. To accurately detect small objects with limited computation, we propose a two-stage lightweight detection framework with extremely low computation complexity, termed as TinyDet. It enables high-resolution feature maps for dense anchoring to better cover small objects, proposes a sparsely-connected convolution for computation reduction, enhances the early stage features in the backbone, and addresses the feature misalignment problem for accurate small object detection. On the COCO benchmark, our TinyDet-M achieves 30.3 AP and 13.5 AP^s with only 991 MFLOPs, which is the first detector that has an AP over 30 with less than 1 GFLOPs; besides, TinyDet-S and TinyDet-L achieve promising performance under different computation limitation. | 翻訳日:2023-04-10 13:10:35 公開日:2023-04-07 |
# cleansing jewel: google ocr-ed tibetan manuscripts上に構築されたニューラルスペル修正モデル Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts ( http://arxiv.org/abs/2304.03427v1 ) ライセンス: Link先を確認 | Queenie Luo, Yung-Sung Chuang | (参考訳) 人文科学の学者は、歴史、宗教、社会政治構造を研究するために古代の写本に大きく依存している。
OCR技術を用いたこれらの貴重な写本のデジタル化に多くの努力が注がれているが、ほとんどの写本は、何世紀にもわたって、OCR(Optical Character Recognition)プログラムが、失明したグラフやページの汚れを捉えることを期待できないように、ブレンドされた。
本研究は,Google OCRによるチベット文字を用いたニューラルスペル補正モデルを用いて,OCRによる雑音の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
まず、チベットの原文のeテキストコーパスを2つの構造化データフレーム(ペアの玩具データとペアの実際のデータ)にフィーチャーエンジニアリングしました。
そこで我々は,信頼スコア機構をTransformerアーキテクチャに実装し,スペル訂正タスクを実行する。
Loss and Character Error Rateによると、Transformer + Confidence score mechanismアーキテクチャはTransformer, LSTM-2-LSTM, GRU-2-GRUアーキテクチャよりも優れていることが証明されている。
最後に, モデルのロバスト性を検討するために, 誤ったトークン, 注意の可視化, 自己注意のヒートマップを分析した。 Scholars in the humanities rely heavily on ancient manuscripts to study history, religion, and socio-political structures in the past. Many efforts have been devoted to digitizing these precious manuscripts using OCR technology, but most manuscripts were blemished over the centuries so that an Optical Character Recognition (OCR) program cannot be expected to capture faded graphs and stains on pages. This work presents a neural spelling correction model built on Google OCR-ed Tibetan Manuscripts to auto-correct OCR-ed noisy output. This paper is divided into four sections: dataset, model architecture, training and analysis. First, we feature-engineered our raw Tibetan etext corpus into two sets of structured data frames -- a set of paired toy data and a set of paired real data. Then, we implemented a Confidence Score mechanism into the Transformer architecture to perform spelling correction tasks. According to the Loss and Character Error Rate, our Transformer + Confidence score mechanism architecture proves to be superior to Transformer, LSTM-2-LSTM and GRU-2-GRU architectures. Finally, to examine the robustness of our model, we analyzed erroneous tokens, visualized Attention and Self-Attention heatmaps in our model. | 翻訳日:2023-04-10 13:10:17 公開日:2023-04-07 |
# ボーム理論における古典的極限へのデコヒーレンスに基づくアプローチ A decoherence-based approach to the classical limit in Bohm's theory ( http://arxiv.org/abs/2304.03423v1 ) ライセンス: Link先を確認 | Davide Romano | (参考訳) この論文は、ド・ブロイ=ボーム理論がマクロ古典極限のニュートン力学に還元する理由を説明する。
量子-古典遷移は3つのステップに基づいている。
i) 環境との相互作用は、効果的に分解された状態を生成し、効果的な波動関数を形成し、したがってデコヒーレンスを引き起こす。
(ii) 環境によって選択される有効波動関数(デコヒーレンス理論のポインタ状態)は、よく局在した波動パケット(通常ガウス状態)となる。
(iii) ガウス状態の量子ポテンシャルは標準古典性条件下で無視可能となり、従って有効波動関数は正の古典極限でニュートン力学に従って移動する。
結果として、環境と相互作用するボーム系は、効果的なガウス状態によって記述され、その系が巨視的であれば、ニュートン力学に従って移動する。 The paper explains why the de Broglie-Bohm theory reduces to Newtonian mechanics in the macroscopic classical limit. The quantum-to-classical transition is based on three steps: (i) interaction with the environment produces effectively factorized states, leading to the formation of effective wave functions and hence decoherence; (ii) the effective wave functions selected by the environment--the pointer states of decoherence theory--will be well-localized wave packets, typically Gaussian states; (iii) the quantum potential of a Gaussian state becomes negligible under standard classicality conditions; therefore, the effective wave function will move according to Newtonian mechanics in the correct classical limit. As a result, a Bohmian system in interaction with the environment will be described by an effective Gaussian state and--when the system is macroscopic--it will move according to Newtonian mechanics. | 翻訳日:2023-04-10 13:09:49 公開日:2023-04-07 |
# 非エルミート多体ランダウ・ツェナー模型の量子力学 Quantum dynamics of non-Hermitian many-body Landau-Zener models ( http://arxiv.org/abs/2304.03471v1 ) ライセンス: Link先を確認 | Rajesh K. Malla, Julia Cen, Wilton J. M. Kort-Kamp, Avadh Saxena | (参考訳) 量子系の非ハーモニティ性は、エルミート物理学にはないトポロジカル系の様々なエキゾチック現象を解き放つ。
しばしば考慮される量子系は時間非依存であり、非ヘルミティシティは制御された利得と損失によって設計できる。
対照的に、明示的に時間依存の量子系の研究は限られている。
近年、Landau-Zener(LZ)モデルの最も単純な時間依存の非エルミートパリティ時間(\mathcal{PT}$)対称変種が研究されている。
本稿では,非エルミート多体ハミルトニアンのクラスを線形に時間駆動で解く枠組みを概説する。
このようなモデルは実用的な意味を持ち、多種ボソニック系のダイナミクスを記述することができる。
さらに、非エルミート起源の対生成機構を明らかにするハミルトンのこの類に特有の新しい保存法が出現するのを観察する。
我々の発見は、時間依存の非エルミート量子系において、より創発的な現象の新たな道を開く。 Non-Hermiticity in quantum systems has unlocked a variety of exotic phenomena in topological systems with no counterparts in Hermitian physics. The quantum systems often considered are time-independent and the non-Hermiticity can be engineered via controlled gain and loss. In contrast, the investigations of explicitly time-dependent quantum systems are limited. Recently, the simplest time-dependent non-Hermitian parity-time ($\mathcal{PT}$) symmetric variants of the Landau-Zener (LZ) model have been explored. Here, we introduce and outline a framework to solve a class of non-Hermitian many-body Hamiltonians linearly driven in time. Such models have practical implications and can describe the dynamics of multi-species bosonic systems. Moreover, we observe the emergence of a new conservation law, which is unique to this class of Hamiltonians that reveals a pair-production mechanism of a non-Hermitian origin. Our findings will open new avenues for more emergent phenomena in explicitly time-dependent non-Hermitian quantum systems. | 翻訳日:2023-04-10 13:04:09 公開日:2023-04-07 |
# 異種知識グラフに基づくGNNベースのエンティティアライメントの再考:新しいデータセットと新しい方法 Rethinking GNN-based Entity Alignment on Heterogeneous Knowledge Graphs: New Datasets and A New Method ( http://arxiv.org/abs/2304.03468v1 ) ライセンス: Link先を確認 | Xuhui Jiang, Chengjin Xu, Yinghan Shen, Fenglong Su, Yuanzhuo Wang, Fei Sun, Zixuan Li, Huawei Shen | (参考訳) 知識グラフ(KG)アプリケーションの開発は、様々な情報源から抽出された異種KG間のエンティティアライメント(EA)の必要性が高まっている。
近年,グラフニューラルネットワーク(GNN)がEAタスクに広く採用されている。
しかし,既存のEAデータセットの過度に単純化された設定は現実のシナリオとはかけ離れており,近年の手法による進歩の完全な理解を妨げている。
既存のGNNベースのEAメソッドは本当に大きな進歩を遂げていますか?
本稿では, 現実的な環境下でのEA手法の性能を検討するために, スケールや構造によって異なる高度に異質なKG(例えば, イベントKG, 一般KG)のアライメントに着目し, 重複するエンティティを少なくする。
まず、不合理な設定を整理し、現実のEAシナリオを忠実に模倣する2つの新しいHHKGデータセットを提案する。
そして,提案したデータセットに基づいて,従来の代表的EA手法を評価するための広範な実験を行い,GNNベースのEA手法の進展に関する興味深い知見を明らかにした。
構造情報は活用が困難になるが,hhkgの調整に有用であることがわかった。
この現象は、既存のEA法、特にGNN法よりも性能が劣る。
我々の研究は、すべてのEAデータセットのパナセアとしてGNNベースの手法を衝動的に適用することによる潜在的な問題に光を当てた。
最後に,エンティティ名,構造,時間情報を包括的に活用する,単純かつ効果的な手法であるsimple-hheaを提案する。
実験の結果,Simple-HHEAはHHKGデータセットで過去のモデルより優れていた。
データセットとソースコードはhttps://anonymous.4open.science/r/Simple-HHEA-3766で入手できる。 The development of knowledge graph (KG) applications has led to a rising need for entity alignment (EA) between heterogeneous KGs that are extracted from various sources. Recently, graph neural networks (GNNs) have been widely adopted in EA tasks due to GNNs' impressive ability to capture structure information. However, we have observed that the oversimplified settings of the existing common EA datasets are distant from real-world scenarios, which obstructs a full understanding of the advancements achieved by recent methods. This phenomenon makes us ponder: Do existing GNN-based EA methods really make great progress? In this paper, to study the performance of EA methods in realistic settings, we focus on the alignment of highly heterogeneous KGs (HHKGs) (e.g., event KGs and general KGs) which are different with regard to the scale and structure, and share fewer overlapping entities. First, we sweep the unreasonable settings, and propose two new HHKG datasets that closely mimic real-world EA scenarios. Then, based on the proposed datasets, we conduct extensive experiments to evaluate previous representative EA methods, and reveal interesting findings about the progress of GNN-based EA methods. We find that the structural information becomes difficult to exploit but still valuable in aligning HHKGs. This phenomenon leads to inferior performance of existing EA methods, especially GNN-based methods. Our findings shed light on the potential problems resulting from an impulsive application of GNN-based methods as a panacea for all EA datasets. Finally, we introduce a simple but effective method: Simple-HHEA, which comprehensively utilizes entity name, structure, and temporal information. Experiment results show Simple-HHEA outperforms previous models on HHKG datasets. The datasets and source code will be available at https://anonymous.4open.science/r/Simple-HHEA-3766. | 翻訳日:2023-04-10 13:03:43 公開日:2023-04-07 |
# マルチモーダルコントラスト学習によるリンク表現 Linking Representations with Multimodal Contrastive Learning ( http://arxiv.org/abs/2304.03464v1 ) ライセンス: Link先を確認 | Abhishek Arora and Xinmei Yang and Shao Yu Jheng and Melissa Dell | (参考訳) 多くのアプリケーションは、多様なドキュメントデータセットに含まれるグループインスタンスをクラスに分類する必要がある。
広く使われている手法は、深層学習を用いず、文書の本質的にマルチモーダルな性質を生かしていない。
特に、レコードリンクは一般に文字列マッチング問題として概念化されている。
本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGS(Contrastively Linking Pooled Pre-trained Embeddings)を開発した。
CLIPPINGSは、対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列し、与えられたインスタンスのプールされた画像テキスト表現が同じクラスの表現に近づき、異なるクラスの表現から遠ざかるメトリック空間を学習する。
インスタンスは、オフラインの例の埋め込みインデックスから隣人を検索したり、表現をクラスタ化することでリンクすることができる。
20世紀半ばの日本における総合的なサプライチェーンの構築は、文書画像中の各企業名と対応するocrとを結びつけることと、歴史的アメリカの新聞の膨大なコーパス内のイメージ・キャプチャペアを同一の写真線源から検出することである。
CLIPPINGSは広く使われている文字列マッチング手法を幅広いマージンで上回り、またunimodalメソッドよりも上回ります。
さらに、イメージ-OCRペアのみを訓練した純粋に自己教師型モデルも、ラベルを必要とせずに一般的な文字列マッチング手法より優れている。 Many applications require grouping instances contained in diverse document datasets into classes. Most widely used methods do not employ deep learning and do not exploit the inherently multimodal nature of documents. Notably, record linkage is typically conceptualized as a string-matching problem. This study develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a multimodal framework for record linkage. CLIPPINGS employs end-to-end training of symmetric vision and language bi-encoders, aligned through contrastive language-image pre-training, to learn a metric space where the pooled image-text representation for a given instance is close to representations in the same class and distant from representations in different classes. At inference time, instances can be linked by retrieving their nearest neighbor from an offline exemplar embedding index or by clustering their representations. The study examines two challenging applications: constructing comprehensive supply chains for mid-20th century Japan through linking firm level financial records - with each firm name represented by its crop in the document image and the corresponding OCR - and detecting which image-caption pairs in a massive corpus of historical U.S. newspapers came from the same underlying photo wire source. CLIPPINGS outperforms widely used string matching methods by a wide margin and also outperforms unimodal methods. Moreover, a purely self-supervised model trained on only image-OCR pairs also outperforms popular string-matching methods without requiring any labels. | 翻訳日:2023-04-10 13:03:06 公開日:2023-04-07 |
# 早期シーケンス分類のための政策 A Policy for Early Sequence Classification ( http://arxiv.org/abs/2304.03463v1 ) ライセンス: Link先を確認 | Alexander Cao, Jean Utke and Diego Klabjan | (参考訳) シーケンスは、一度に全体において受信されないことが多いが、代わりに、要素ごとに、時間とともに徐々に受信される。
初期の予測は高い利益をもたらすが、最後の要素を待つことなくできるだけ早く、できるだけ正確にシーケンスを分類することを目指している。
この早期配列分類には,新規な分類器による停止を導入する。
従来の手法は、いつ停止し分類するかを学ぶための訓練中の探索に頼っていますが、我々の手法はより直接的で監督されたアプローチです。
分類器による停止は,複数の実験で平均パレートフロンティアAUCは11.8%増加した。 Sequences are often not received in their entirety at once, but instead, received incrementally over time, element by element. Early predictions yielding a higher benefit, one aims to classify a sequence as accurately as possible, as soon as possible, without having to wait for the last element. For this early sequence classification, we introduce our novel classifier-induced stopping. While previous methods depend on exploration during training to learn when to stop and classify, ours is a more direct, supervised approach. Our classifier-induced stopping achieves an average Pareto frontier AUC increase of 11.8% over multiple experiments. | 翻訳日:2023-04-10 13:02:38 公開日:2023-04-07 |
# 単一振動子を用いた貯留層計算における量子度と学習性能の相関 Correlations Between Quantumness and Learning Performance in Reservoir Computing with a Single Oscillator ( http://arxiv.org/abs/2304.03462v1 ) ライセンス: Link先を確認 | Arsalan Motamedi, Hadi Zadeh-Haghighi, Christoph Simon | (参考訳) 量子モデルと古典モデルを用いた学習時系列における単一発振器を用いた貯水池計算のパワーについて検討する。
このスキームは遅延微分方程式の解であるマッキーグラスカオス時系列(MG)を学習することを示した。
本結果は,古典的非線形発振器と比較して,量子非線形モデルの方が学習性能に優れたことを示唆している。
プロセス中の貯水池の量子度を測定するためのアプローチを開発する。
我々は、Lee-Jeongのマクロ視度の測度が非古典性測度であることを証明し、量子性の研究においてウィグナー負性度とともにそれを使用する。
リー・ジョン測度の評価はウィグナーネガティビティよりも計算効率が高いことに注意する。
興味深いことに,mg系列の学習における非古典性とトレーニング精度の相関が観察され,量子性は貯留層計算の貴重な資源である可能性が示唆された。
さらに、複雑性(次元性)から量子性を識別し、量子性が学習性能と強く相関していることを示す。 We explore the power of reservoir computing with a single oscillator in learning time series using quantum and classical models. We demonstrate that this scheme learns the Mackey-Glass (MG) chaotic time series, a solution to a delay differential equation. Our results suggest that the quantum nonlinear model is more effective in terms of learning performance compared to a classical non-linear oscillator. We develop approaches for measuring the quantumness of the reservoir during the process. We prove that Lee-Jeong's measure of macroscopicity is a non-classicality measure, and use it along with the Wigner negativity in our study of quantumness. We note that the evaluation of the Lee-Jeong measure is computationally more efficient than the Wigner negativity. Interestingly, we observe correlations between non-classicality and training accuracy in learning the MG series, suggesting that quantumness could be a valuable resource in reservoir computing. We, moreover, discriminate quantumness from complexity (dimensionality), and show that quantumness correlates more strongly with learning performance. | 翻訳日:2023-04-10 13:02:29 公開日:2023-04-07 |
# 量子フォン・ノイマン建築の族 A family of quantum von Neumann architecture ( http://arxiv.org/abs/2304.03460v1 ) ライセンス: Link先を確認 | D.-S. Wang | (参考訳) 本研究では,メモリ,制御,CPU,インターネット,入力および出力のモジュール単位を備えた量子フォンノイマンアーキテクチャのファミリを形成する普遍量子コンピューティングモデルを開発する。
この族は動的量子資源理論によって特徴づけられる3世代を含み、また量子プログラミングと制御に関するno-go定理を回避している。
普遍性に加えて、そのような家族はモジュラリティやプログラマビリティといったシステムやアルゴリズム設計におけるその他の望ましい工学的要求を満たすため、普遍的な量子コンピュータを構築するためのユニークなアプローチとして機能する。 In this work, we develop universal quantum computing models that form a family of quantum von Neumann architecture, with modular units of memory, control, CPU, internet, besides input and output. This family contains three generations characterized by dynamical quantum resource theory, and it also circumvents no-go theorems on quantum programming and control. Besides universality, such a family satisfies other desirable engineering requirements on system and algorithm designs, such as the modularity and programmability, hence serves as a unique approach to build universal quantum computers. | 翻訳日:2023-04-10 13:02:13 公開日:2023-04-07 |
# 自己教師付き学習による視覚表現の評価プロトコル再考 Rethinking Evaluation Protocols of Visual Representations Learned via Self-supervised Learning ( http://arxiv.org/abs/2304.03456v1 ) ライセンス: Link先を確認 | Jae-Hun Lee, Doyoung Yoon, ByeongMoon Ji, Kyungyul Kim, Sangheum Hwang | (参考訳) ラベル付き上流データセット上の線形探索 (LP) (および$k$-NN) と様々な下流データセットへの転送学習 (TL) は、自己教師付き学習 (SSL) を通じて学習した視覚表現の品質を評価するために一般的に用いられる。
既存のSSL手法は,これらの評価プロトコル下では優れた性能を示すが,LPやTLに関わるハイパーパラメータに非常に敏感な性能を示す。
真に汎用的な表現は、他の視覚認識タスク、すなわち学習された表現は、lpおよびtlハイパーパラメータの設定にロバストでなければならないため、これは望ましくない振る舞いである。
そこで本研究では,最先端SSL手法による広範囲な実験を行い,性能感度の原因を明らかにする。
まず、LPの入力正規化は、ハイパーパラメータによる性能変動を排除するために重要である。
具体的には、入力を線形分類器に供給する前のバッチ正規化は、評価の安定性を大幅に向上させ、また、$k$-NNとLPメトリクスの不整合を解消する。
第二に、TLの場合、SSLの重み劣化パラメータが学習された表現の転送可能性に大きく影響することを示し、上流データセットのLPや$k$-NN評価では識別できない。
本研究の成果は,現在のSSL評価スキームの欠点に注意を向け,再考の必要性を強調することによって,コミュニティにとって有益であると信じている。 Linear probing (LP) (and $k$-NN) on the upstream dataset with labels (e.g., ImageNet) and transfer learning (TL) to various downstream datasets are commonly employed to evaluate the quality of visual representations learned via self-supervised learning (SSL). Although existing SSL methods have shown good performances under those evaluation protocols, we observe that the performances are very sensitive to the hyperparameters involved in LP and TL. We argue that this is an undesirable behavior since truly generic representations should be easily adapted to any other visual recognition task, i.e., the learned representations should be robust to the settings of LP and TL hyperparameters. In this work, we try to figure out the cause of performance sensitivity by conducting extensive experiments with state-of-the-art SSL methods. First, we find that input normalization for LP is crucial to eliminate performance variations according to the hyperparameters. Specifically, batch normalization before feeding inputs to a linear classifier considerably improves the stability of evaluation, and also resolves inconsistency of $k$-NN and LP metrics. Second, for TL, we demonstrate that a weight decay parameter in SSL significantly affects the transferability of learned representations, which cannot be identified by LP or $k$-NN evaluations on the upstream dataset. We believe that the findings of this study will be beneficial for the community by drawing attention to the shortcomings in the current SSL evaluation schemes and underscoring the need to reconsider them. | 翻訳日:2023-04-10 13:02:02 公開日:2023-04-07 |
# 新型コロナウイルスパンデミックで中国の偽ニュースをTwitterで発見 Detecting Chinese Fake News on Twitter during the COVID-19 Pandemic ( http://arxiv.org/abs/2304.03454v1 ) ライセンス: Link先を確認 | Yongjun Zhang, Sijia Liu, Yi Wang, Xinguang Fan | (参考訳) 新型コロナウイルス(COVID-19)の流行は、中国における偽情報、偽情報、偽ニュースの拡散によって、シナフォビアの世界的な急増につながった。
本稿では,Twitterの中国語ソーシャルメディア投稿が中国に関する偽ニュースと関連しているかどうかを検知する新しい分類器の作成について報告する。
分類器はF1スコアが0.64、精度が93%となる。
新型コロナウイルス(COVID-19)のパンデミックで、研究者が中国語の偽ニュースを研究するために、18,425のツイートで最終モデルと新しいトレーニングデータセットを提供する。
また、パンデミック初期の中国語における偽ニュースのダイナミクスを追跡する分類器によって生成された新しいデータセットも紹介する。 The outbreak of COVID-19 has led to a global surge of Sinophobia partly because of the spread of misinformation, disinformation, and fake news on China. In this paper, we report on the creation of a novel classifier that detects whether Chinese-language social media posts from Twitter are related to fake news about China. The classifier achieves an F1 score of 0.64 and an accuracy rate of 93%. We provide the final model and a new training dataset with 18,425 tweets for researchers to study fake news in the Chinese language during the COVID-19 pandemic. We also introduce a new dataset generated by our classifier that tracks the dynamics of fake news in the Chinese language during the early pandemic. | 翻訳日:2023-04-10 13:01:35 公開日:2023-04-07 |
# グラフによるドメイン間知識伝達 Graph Enabled Cross-Domain Knowledge Transfer ( http://arxiv.org/abs/2304.03452v1 ) ライセンス: Link先を確認 | Shibo Yao | (参考訳) 機械学習を意思決定プロセスで活用するには、与えられた知識(自然言語、非構造化テキストなど)を、互換性のある言語とデータフォーマットで機械学習モデルによって理解され、処理可能な表現ベクトルに変換する必要がある。
しかし、しばしば遭遇する困難は、与えられた知識がそもそも十分に豊かで信頼性がないことである。
そのような場合、優れた表現学習と関心領域における知識不足のギャップを軽減するために、別の領域からの側面情報を融合させようとする。
このアプローチはクロスドメインな知識伝達と呼ばれる。
オンラインヘルスケアプラットフォーム分析から金融市場のリスク定量化に至るまで、多くのシナリオにおける知識不足の共通性から、この問題を研究することが重要です。
機械学習の観点からは、半教師付き学習のパラダイムは、基礎的な真実なしに大量のデータを活用し、目覚ましい学習性能向上を実現する。
この論文はクロスドメイン知識の転送に採用されている。
(継続) To leverage machine learning in any decision-making process, one must convert the given knowledge (for example, natural language, unstructured text) into representation vectors that can be understood and processed by machine learning model in their compatible language and data format. The frequently encountered difficulty is, however, the given knowledge is not rich or reliable enough in the first place. In such cases, one seeks to fuse side information from a separate domain to mitigate the gap between good representation learning and the scarce knowledge in the domain of interest. This approach is named Cross-Domain Knowledge Transfer. It is crucial to study the problem because of the commonality of scarce knowledge in many scenarios, from online healthcare platform analyses to financial market risk quantification, leaving an obstacle in front of us benefiting from automated decision making. From the machine learning perspective, the paradigm of semi-supervised learning takes advantage of large amount of data without ground truth and achieves impressive learning performance improvement. It is adopted in this dissertation for cross-domain knowledge transfer. (to be continued) | 翻訳日:2023-04-10 13:01:23 公開日:2023-04-07 |
# オフザシェルフデバイスを用いた量子デリゲート Quantum delegation with an off-the-shelf device ( http://arxiv.org/abs/2304.03448v1 ) ライセンス: Link先を確認 | Anne Broadbent, Arthur Mehta, and Yuming Zhao | (参考訳) 信頼性の高いクラウド量子コンピュータが現実に近づいていることを考えると、量子計算のデリゲーションとその検証可能性の概念は中心的な関心事である。
多くのモデルが提案されており、それぞれに強みと弱みがある。
ここでは,クライアントが従来の処理のみを信頼し,計算的な仮定を行わず,単一ラウンドで量子サーバと対話する新たなモデルを提案する。
さらに、設定フェーズにおいて、クライアントは計算のサイズを$n$と指定し、所定の対数サイズの入力から単一の定数サイズの測定結果を報告するために使用される信頼できないオフザシェルフ(OTS)量子デバイスを受信する。
OTSモデルでは、単一量子サーバが計算の大部分を処理し、OTSデバイスは信頼できない汎用的な検証デバイスとして、すべて単一ラウンドで使用される。
OTSモデルにおける多項式時間量子計算の委譲方法を示す。
また,この手法のスケールアップにより,QMA全体の対話的証明システムも実現でき,また統計的ゼロ知識でも実現可能であることを示す。
これにより、QMAに対する最初の相対論的(1ラウンド)、2プロのゼロ知識証明システムが得られる。
検証手法として,定サイズのpauli測定値のみを用いたn$-eprペアのための新しい自己テストを行い,局所ハミルトン検証にシミュラブルコードを使用するための新しい方法を示す。
その過程で、GowersとHatamiによるよく知られた安定性結果の強化版も提供し、セルフテストでよく使われる議論をどうやって完了させるかを示します。 Given that reliable cloud quantum computers are becoming closer to reality, the concept of delegation of quantum computations and its verifiability is of central interest. Many models have been proposed, each with specific strengths and weaknesses. Here, we put forth a new model where the client trusts only its classical processing, makes no computational assumptions, and interacts with a quantum server in a single round. In addition, during a set-up phase, the client specifies the size $n$ of the computation and receives an untrusted, off-the-shelf (OTS) quantum device that is used to report the outcome of a single constant-sized measurement from a predetermined logarithmic-sized input. In the OTS model, we thus picture that a single quantum server does the bulk of the computations, while the OTS device is used as an untrusted and generic verification device, all in a single round. We show how to delegate polynomial-time quantum computations in the OTS model. Scaling up the technique also yields an interactive proof system for all of QMA, which, furthermore, we show can be accomplished in statistical zero-knowledge. This yields the first relativistic (one-round), two-prover zero-knowledge proof system for QMA. As a proof approach, we provide a new self-test for $n$-EPR pairs using only constant-sized Pauli measurements, and show how it provides a new avenue for the use of simulatable codes for local Hamiltonian verification. Along the way, we also provide an enhanced version of a well-known stability result due to Gowers and Hatami and show how it completes a common argument used in self-testing. | 翻訳日:2023-04-10 13:01:07 公開日:2023-04-07 |
# 深部ニューラルネットワークのアーキテクチャ保存可能修復 Architecture-Preserving Provable Repair of Deep Neural Networks ( http://arxiv.org/abs/2304.03496v1 ) ライセンス: Link先を確認 | Zhe Tao, Stephanie Nawas, Jacqueline Mitchell, Aditya V. Thakur | (参考訳) ディープニューラルネットワーク(DNN)は、ソフトウェアにおいてますます重要になってきており、画像認識など、多くの問題に対する最先端のソリューションと考えられている。
しかし、DNNは失敗には程遠いため、DNNの誤った振る舞いは破滅的な現実的な結果をもたらす可能性がある。
本稿では,DNNの修復が可能なアーキテクチャ保存型Vポリトープの問題に対処する。
V-ポリトープはその頂点表現を用いて凸有界ポリトープを定義する。
V-ポリトープの証明可能な修復は、修理されたDNNが与えられたV-ポリトープの無限の点集合上の与えられた仕様を満たすことを保証する。
アーキテクチャを保存する修復は、アーキテクチャを変更することなく、DNNのパラメータを変更するだけである。
修復はDNNの複数のレイヤを変更する柔軟性があり、多項式時間で実行される。
線形な部分を持つアクティベーション機能を備えたdnnをサポートし、完全接続、畳み込み、プール、残留層も備えている。
私たちの知る限りでは、これらの機能をすべて備えた最初の証明可能な修復アプローチです。
APRNNと呼ばれるツールにアプローチを実装します。
mnist, imagenet, acas xu dnns を用いて,prdnn や reassure よりも効率,スケーラビリティ,一般化が優れており,アーキテクチャを保存していない事前証明可能な修復手法であることを示した。 Deep neural networks (DNNs) are becoming increasingly important components of software, and are considered the state-of-the-art solution for a number of problems, such as image recognition. However, DNNs are far from infallible, and incorrect behavior of DNNs can have disastrous real-world consequences. This paper addresses the problem of architecture-preserving V-polytope provable repair of DNNs. A V-polytope defines a convex bounded polytope using its vertex representation. V-polytope provable repair guarantees that the repaired DNN satisfies the given specification on the infinite set of points in the given V-polytope. An architecture-preserving repair only modifies the parameters of the DNN, without modifying its architecture. The repair has the flexibility to modify multiple layers of the DNN, and runs in polynomial time. It supports DNNs with activation functions that have some linear pieces, as well as fully-connected, convolutional, pooling and residual layers. To the best our knowledge, this is the first provable repair approach that has all of these features. We implement our approach in a tool called APRNN. Using MNIST, ImageNet, and ACAS Xu DNNs, we show that it has better efficiency, scalability, and generalization compared to PRDNN and REASSURE, prior provable repair methods that are not architecture preserving. | 翻訳日:2023-04-10 12:54:14 公開日:2023-04-07 |
# devil's on the edges: シーングラフ生成のための選択的クワッドアテンション Devil's on the Edges: Selective Quad Attention for Scene Graph Generation ( http://arxiv.org/abs/2304.03495v1 ) ライセンス: Link先を確認 | Deunsol Jung, Sanghyun Kim, Won Hwa Kim, Minsu Cho | (参考訳) シーングラフ生成は、そのノードとエッジがそれぞれオブジェクトとその関係を表すように、イメージからセマンティックグラフ構造を構築することを目的としている。
このタスクの大きな課題の1つは、画像中のオブジェクトや関係を逸脱させることである;文脈的推論は無関係なオブジェクトや背景に強く気を取られ、さらに重要なことは、無関係な候補関係が多数存在することである。
この問題に対処するため,我々は,関連するオブジェクトペアを選択し,多様なコンテキストインタラクションを通じて曖昧さを和らげるように学習する選択的クワッドアテンションネットワーク(squat)を提案する。
SQUATはエッジ選択とクワッドアテンションという2つの主要コンポーネントで構成されている。
エッジ選択モジュールは関連するオブジェクトペア、すなわちコンテキスト推論を支援するシーングラフのエッジを選択し、クワッドアテンションモジュールはエッジツーノードとエッジツーエッジの両方のクロスアテンションを使用してエッジ機能を更新して、オブジェクトとオブジェクトペア間のコンテキスト情報をキャプチャする。
実験は、squatの強力な性能と堅牢性を示し、視覚ゲノムとopen images v6ベンチマークの最先端を達成する。 Scene graph generation aims to construct a semantic graph structure from an image such that its nodes and edges respectively represent objects and their relationships. One of the major challenges for the task lies in the presence of distracting objects and relationships in images; contextual reasoning is strongly distracted by irrelevant objects or backgrounds and, more importantly, a vast number of irrelevant candidate relations. To tackle the issue, we propose the Selective Quad Attention Network (SQUAT) that learns to select relevant object pairs and disambiguate them via diverse contextual interactions. SQUAT consists of two main components: edge selection and quad attention. The edge selection module selects relevant object pairs, i.e., edges in the scene graph, which helps contextual reasoning, and the quad attention module then updates the edge features using both edge-to-node and edge-to-edge cross-attentions to capture contextual information between objects and object pairs. Experiments demonstrate the strong performance and robustness of SQUAT, achieving the state of the art on the Visual Genome and Open Images v6 benchmarks. | 翻訳日:2023-04-10 12:53:52 公開日:2023-04-07 |
# UniSeg: プロンプト駆動のユニバーサルセグメンテーションモデルと強力な表現学習者 UniSeg: A Prompt-driven Universal Segmentation Model as well as A Strong Representation Learner ( http://arxiv.org/abs/2304.03493v1 ) ライセンス: Link先を確認 | Yiwen Ye, Yutong Xie, Jianpeng Zhang, Ziyang Chen, Yong Xia | (参考訳) ユニバーサルモデルは、医療画像分割の有望なトレンドとして登場し、医療画像大モデル(milm)構築の道を開く。
ユニバーサルモデルを構築するための一般的な戦略は、各タスクを1ホットベクトルとしてエンコードし、デコーダの最後に動的畳み込み層を生成して、興味のあるターゲットを抽出することである。
成功したとしても、タスク間の相関を無視する一方で、進行中のタスクの「認識」モデルを作るには遅すぎる。
この問題に対処するために,多様なモダリティとドメインを用いたマルチタスク医用画像セグメンテーションのためのプロンプト駆動ユニバーサルセグメンテーションモデル(uniseg)を提案する。
まず,すべてのタスク間の相関関係を記述するための学習可能なユニバーサルプロンプトを考案し,このプロンプトとイメージ特徴をタスク固有のプロンプトに変換し,デコーダに入力の一部として供給する。
そこで我々は,現在進行中のタスクのモデル「アウェア」を早期に作成し,デコーダ全体のタスク固有のトレーニングを促進する。
提案したUniSegは,11の上流タスクにおいて,他のユニバーサルモデルやシングルタスクモデルよりも優れていることを示す。
さらに、UniSegは2つの下流データセットで事前訓練されたモデルも打ち負かし、3D画像セグメンテーションのための高品質な事前訓練モデルを提供する。
コードとモデルはhttps://github.com/yeerwen/unisegで入手できる。 The universal model emerges as a promising trend for medical image segmentation, paving up the way to build medical imaging large model (MILM). One popular strategy to build universal models is to encode each task as a one-hot vector and generate dynamic convolutional layers at the end of the decoder to extract the interested target. Although successful, it ignores the correlations among tasks and meanwhile is too late to make the model 'aware' of the ongoing task. To address both issues, we propose a prompt-driven Universal Segmentation model (UniSeg) for multi-task medical image segmentation using diverse modalities and domains. We first devise a learnable universal prompt to describe the correlations among all tasks and then convert this prompt and image features into a task-specific prompt, which is fed to the decoder as a part of its input. Thus, we make the model 'aware' of the ongoing task early and boost the task-specific training of the whole decoder. Our results indicate that the proposed UniSeg outperforms other universal models and single-task models on 11 upstream tasks. Moreover, UniSeg also beats other pre-trained models on two downstream datasets, providing the community with a high-quality pre-trained model for 3D medical image segmentation. Code and model are available at https://github.com/yeerwen/UniSeg. | 翻訳日:2023-04-10 12:53:31 公開日:2023-04-07 |
# 多層無縫製衣服ドレーピングネットワーク Multi-Layered Unseen Garments Draping Network ( http://arxiv.org/abs/2304.03492v1 ) ライセンス: Link先を確認 | Dohae Lee, In-Kwon Lee | (参考訳) 最近のAIベースのドレーピングネットワークは、人間の3Dモデルが着る服の外観をシミュレートする能力を大幅に進歩させているが、多層衣服の扱いは依然として難しい課題である。
本稿では,トレーニングプロセス中に目に見えない多層衣服のドレーピングモデルを提案する。
提案する枠組みは, 衣服の埋め込み, 単層布地, アンタングリングの3段階からなる。
このモデルは、人間の体モデルのUV$マップにマッピングすることで、トポロジカルな構造とは無関係な衣服を表現している。
単層ドレーピングフェーズでは、モデルはそれらの相互作用を考慮せずに、体上の各層のすべての衣服を順次滴下する。
アンタングリングフェーズはgnnベースのネットワークを利用して異なる層の衣服間の相互作用をモデル化し、複雑な多層衣服のシミュレーションを可能にする。
提案モデルでは, 人体形状やポーズの多様さについて, 合成, 実際の衣服復元データの両方に強い性能を示す。 While recent AI-based draping networks have significantly advanced the ability to simulate the appearance of clothes worn by 3D human models, the handling of multi-layered garments remains a challenging task. This paper presents a model for draping multi-layered garments that are unseen during the training process. Our proposed framework consists of three stages: garment embedding, single-layered garment draping, and untangling. The model represents a garment independent to its topological structure by mapping it onto the $UV$ map of a human body model, allowing for the ability to handle previously unseen garments. In the single-layered garment draping phase, the model sequentially drapes all garments in each layer on the body without considering interactions between them. The untangling phase utilizes a GNN-based network to model the interaction between the garments of different layers, enabling the simulation of complex multi-layered clothing. The proposed model demonstrates strong performance on both unseen synthetic and real garment reconstruction data on a diverse range of human body shapes and poses. | 翻訳日:2023-04-10 12:53:04 公開日:2023-04-07 |
# ParaGraph: HPCカーネルのパフォーマンス最適化のための軽量グラフ表現 ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels ( http://arxiv.org/abs/2304.03487v1 ) ライセンス: Link先を確認 | Ali TehraniJamsaz, Alok Mishra, Akash Dutta, Abid M. Malik, Barbara Chapman, Ali Jannesari | (参考訳) GPUベースのHPCクラスタは、その広範な並列性とエネルギー効率のために、より科学的アプリケーション開発者を惹きつけている。
様々なマルチ/マルチコアアーキテクチャ間のポータビリティを実現するため、アプリケーション開発者にとって一般的な選択は、OpenMPのようなディレクティブベースの並列プログラミングモデルを利用することである。
しかし、OpenMPでさえ、開発者はGPUやCPUを利用するための多くの戦略の中から選ぶ必要がある。
近年、機械学習(ML)アプローチは、HPCアプリケーションの最適化に大きな進歩をもたらした。
この目的のために、MLモデルのアプリケーション特性を表現するいくつかの方法が提案されている。
しかし、利用可能なテクニックでは、並列処理の公開に不可欠な機能を捉えられません。
本稿では,制御とデータフロー情報を表現するために抽象構文木を拡張する並列アプリケーションのための新しいグラフベースのプログラム表現を提案する。
この研究の独創性は、astにおける暗黙的な順序付けと親子関係を利用した新しいエッジの追加と、ループや条件情報を考慮したエッジ重みの導入にある。
提案した表現は,GNN(Graph Neural Network)をトレーニングして,CPUやGPU間のOpenMPコード領域のランタイムを予測することで評価する。
CPUとGPU間の崩壊とデータ転送を利用したさまざまな変換がデータセットの構築に使用される。
モデルの予測ランタイムは、どの変換が最高のパフォーマンスを提供するかを判断するために使用される。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化した。 GPU-based HPC clusters are attracting more scientific application developers due to their extensive parallelism and energy efficiency. In order to achieve portability among a variety of multi/many core architectures, a popular choice for an application developer is to utilize directive-based parallel programming models, such as OpenMP. However, even with OpenMP, the developer must choose from among many strategies for exploiting a GPU or a CPU. Recently, Machine Learning (ML) approaches have brought significant advances in the optimizations of HPC applications. To this end, several ways have been proposed to represent application characteristics for ML models. However, the available techniques fail to capture features that are crucial for exposing parallelism. In this paper, we introduce a new graph-based program representation for parallel applications that extends the Abstract Syntax Tree to represent control and data flow information. The originality of this work lies in the addition of new edges exploiting the implicit ordering and parent-child relationships in ASTs, as well as the introduction of edge weights to account for loop and condition information. We evaluate our proposed representation by training a Graph Neural Network (GNN) to predict the runtime of an OpenMP code region across CPUs and GPUs. Various transformations utilizing collapse and data transfer between the CPU and GPU are used to construct the dataset. The predicted runtime of the model is used to determine which transformation provides the best performance. Results show that our approach is indeed effective and has normalized RMSE as low as 0.004 to at most 0.01 in its runtime predictions. | 翻訳日:2023-04-10 12:52:48 公開日:2023-04-07 |
# ハードサンプルでもっとよく学べますか? Can we learn better with hard samples? ( http://arxiv.org/abs/2304.03486v1 ) ライセンス: Link先を確認 | Subin Sahayam, John Zakkam, Umarani Jayaraman | (参考訳) ディープラーニングでは、ネットワークパラメータの最適化にミニバッチトレーニングが一般的に使用される。
しかし、従来のミニバッチ法では、データの不足したサンプルや複雑なパターンを学習できないため、一般化に時間がかかる。
この問題に対処するために、従来のアルゴリズムの変種が提案され、損失の高いミニバッチにフォーカスしたネットワークを訓練している。
本研究は、3つのベンチマークデータセット(CIFAR-10, CIFAR-100, STL-10)でトレーニングした各種ディープニューラルネットワークを用いたトレーニングの有効性を評価する。
この研究で使用されるディープニューラルネットワークは、resnet-18, resnet-50, efficient net b4, efficientnetv2-s, mobilenetv3-sである。
実験結果から,提案手法は従来のミニバッチ学習法と比較して試験精度を向上し,収束を高速化できることがわかった。
さらに,訓練のためのミニバッチ数を決定するハイパーパラメータデルタ({\delta})を導入する。
様々な値の実験により、提案手法のより小さな値に対する性能は、一般に同様のテスト精度と高速な一般化をもたらすことが判明した。
提案手法は,STL-10上のEfficientNet-B4における従来のミニバッチ法よりも26.47%少ないエポック数で一般化可能であることを示す。
また,CIFAR-100上でのResNet-18では,テストトップ1の精度が7.26%向上した。 In deep learning, mini-batch training is commonly used to optimize network parameters. However, the traditional mini-batch method may not learn the under-represented samples and complex patterns in the data, leading to a longer time for generalization. To address this problem, a variant of the traditional algorithm has been proposed, which trains the network focusing on mini-batches with high loss. The study evaluates the effectiveness of the proposed training using various deep neural networks trained on three benchmark datasets (CIFAR-10, CIFAR-100, and STL-10). The deep neural networks used in the study are ResNet-18, ResNet-50, Efficient Net B4, EfficientNetV2-S, and MobilenetV3-S. The experimental results showed that the proposed method can significantly improve the test accuracy and speed up the convergence compared to the traditional mini-batch training method. Furthermore, we introduce a hyper-parameter delta ({\delta}) that decides how many mini-batches are considered for training. Experiments on various values of {\delta} found that the performance of the proposed method for smaller {\delta} values generally results in similar test accuracy and faster generalization. We show that the proposed method generalizes in 26.47% less number of epochs than the traditional mini-batch method in EfficientNet-B4 on STL-10. The proposed method also improves the test top-1 accuracy by 7.26% in ResNet-18 on CIFAR-100. | 翻訳日:2023-04-10 12:52:29 公開日:2023-04-07 |
# RED-PSM:ダイナミックイメージングのための部分分離型モデルによる正規化 RED-PSM: Regularization by Denoising of Partially Separable Models for Dynamic Imaging ( http://arxiv.org/abs/2304.03483v1 ) ライセンス: Link先を確認 | Berk Iskender, Marc L. Klasky, Yoram Bresler | (参考訳) ダイナミックイメージング(dynamic imaging)は、2dまたは3dオブジェクトを瞬時にアンサンプした測定値を用いてリカバリする。
特に、ダイナミックトモグラフィの場合、一度に1つの角度で投影できるのは1つの投影のみであり、問題は非常に不適切である。
そこで本研究では,この課題に初めて2つの強力な手法を組み合わせたアプローチである red-psm を提案する。
1つ目は部分分離可能なモデルで、時空間オブジェクトの低ランクを効率よく導入するために使われてきた。
2つ目は最近のRegularization by Denoising (RED)で、これは様々な逆問題に対して最先端の画像復調アルゴリズムの印象的なパフォーマンスを利用する柔軟なフレームワークを提供する。
本稿では,赤の部分分離目標と可変分割とadmmを用いた最適化スキームを提案し,第一次最適条件を満たす定常点に対応する値への目標の収束を証明した。
収束は特定の射影領域に基づく初期化によって加速される。
提案したRED-PSMの性能と計算的改善を,最新の深層優先方式TD-DIPと比較することにより,学習画像デノイザを用いて実証した。 Dynamic imaging addresses the recovery of a time-varying 2D or 3D object at each time instant using its undersampled measurements. In particular, in the case of dynamic tomography, only a single projection at a single view angle may be available at a time, making the problem severely ill-posed. In this work, we propose an approach, RED-PSM, which combines for the first time two powerful techniques to address this challenging imaging problem. The first, are partially separable models, which have been used to efficiently introduce a low-rank prior for the spatio-temporal object. The second is the recent Regularization by Denoising (RED), which provides a flexible framework to exploit the impressive performance of state-of-the-art image denoising algorithms, for various inverse problems. We propose a partially separable objective with RED and an optimization scheme with variable splitting and ADMM, and prove convergence of our objective to a value corresponding to a stationary point satisfying the first order optimality conditions. Convergence is accelerated by a particular projection-domain-based initialization. We demonstrate the performance and computational improvements of our proposed RED-PSM with a learned image denoiser by comparing it to a recent deep-prior-based method TD-DIP. | 翻訳日:2023-04-10 12:52:07 公開日:2023-04-07 |
# PSLT:ラダー自己注意と進行性シフトを備えた軽量ビジョントランス PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and Progressive Shift ( http://arxiv.org/abs/2304.03481v1 ) ライセンス: Link先を確認 | Gaojie Wu, Wei-Shi Zheng, Yutong Lu, Qi Tian | (参考訳) Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
しかし、ViTはグローバルな自己注意を計算するために大量の計算資源を必要とする。
本研究では,複数の分岐を持つラジッド自己アテンションブロックと,より少ない演算資源(比較的少数のパラメータとFLOP)を必要とする軽量なトランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案し,これをプログレッシブシフトラダートランス(PSLT)と呼ぶ。
第一に、ラダー自己アテンションブロックは各ブランチにおける局所自己アテンションをモデル化することで計算コストを削減する。
一方,各枝に対する多様な局所的自己意識をモデル化し,各枝間の相互作用をモデル化することにより,ラダー自己意識ブロックの受容野を拡大するプログレッシブシフト機構を提案する。
第2に、はしご自着ブロックの入力特性を各ブランチのチャネル次元に沿って均等に分割することにより、はしご自着ブロックの計算コストを大幅に削減し(パラメータとフロップの約1/3)、これらのブランチの出力をピクセル適応融合により協調させる。
したがって、比較的少数のパラメータとFLOPを持つはしご自己注意ブロックは、長距離相互作用をモデル化することができる。
はしごの自己注意ブロックに基づいて、PSLTは画像分類、オブジェクト検出、人物の再識別など、いくつかの視覚的タスクでうまく機能する。
ImageNet-1kデータセットでは、PSLTは9.2Mパラメータと1.9GのFLOPを持つトップ1の精度を79.9%達成している。
コードはhttps://isee-ai.cn/wugaojie/pslt.htmlで入手できる。 Vision Transformer (ViT) has shown great potential for various visual tasks due to its ability to model long-range dependency. However, ViT requires a large amount of computing resource to compute the global self-attention. In this work, we propose a ladder self-attention block with multiple branches and a progressive shift mechanism to develop a light-weight transformer backbone that requires less computing resources (e.g. a relatively small number of parameters and FLOPs), termed Progressive Shift Ladder Transformer (PSLT). First, the ladder self-attention block reduces the computational cost by modelling local self-attention in each branch. In the meanwhile, the progressive shift mechanism is proposed to enlarge the receptive field in the ladder self-attention block by modelling diverse local self-attention for each branch and interacting among these branches. Second, the input feature of the ladder self-attention block is split equally along the channel dimension for each branch, which considerably reduces the computational cost in the ladder self-attention block (with nearly 1/3 the amount of parameters and FLOPs), and the outputs of these branches are then collaborated by a pixel-adaptive fusion. Therefore, the ladder self-attention block with a relatively small number of parameters and FLOPs is capable of modelling long-range interactions. Based on the ladder self-attention block, PSLT performs well on several vision tasks, including image classification, objection detection and person re-identification. On the ImageNet-1k dataset, PSLT achieves a top-1 accuracy of 79.9% with 9.2M parameters and 1.9G FLOPs, which is comparable to several existing models with more than 20M parameters and 4G FLOPs. Code is available at https://isee-ai.cn/wugaojie/PSLT.html. | 翻訳日:2023-04-10 12:51:45 公開日:2023-04-07 |
# ゼロ光子触媒による8状態離散変調測定-デバイス非依存連続可変量子鍵分布 Zero-photon catalysis based eight-state discrete modulated measurement-device-independent continuous-variable quantum key distribution ( http://arxiv.org/abs/2304.03477v1 ) ライセンス: Link先を確認 | Muhammad Bilal Khan, Muhammad Waseem, Muhammad Irfan, Asad Mehmood, and Shahid Qamar | (参考訳) ゼロ光子触媒(ZPC)はノイズのない減衰を導入し、量子鍵分布(QKD)プロトコルにおいて既存の技術で実装できる。
本稿では,ZPCをベースとした8状態計測デバイス非依存連続可変QKD(MDI-CV-QKD)と離散変調と逆整合を併用する。
このZPCを含む8状態プロトコルは、ZPCのない8状態プロトコル、ZPCのない4状態プロトコル、ZPCのない4状態プロトコル、および低信号対雑音比(SNR)の4状態プロトコルと比較して、最適な変調分散、秘密鍵レート、送信距離、許容余剰ノイズ、和解効率の点で効率が良い。 Zero-photon catalysis (ZPC) introduces noiseless attenuation and can be implemented by existing technologies in quantum key distribution (QKD) protocols. In this paper, we present a ZPC-based eight-state measurement-device-independent continuous-variable QKD (MDI-CV-QKD) combined with discrete modulation and reverse reconciliation. This ZPC-involved eight-state protocol shows better efficiency in terms of optimal modulation variances, secret key rates, transmission distances, tolerable excess noises, and reconciliation efficiency compared to the eight-state protocol without ZPC, the four-state protocol without ZPC, and the four-state protocol with ZPC, at a low signal-to-noise ratio (SNR). | 翻訳日:2023-04-10 12:51:15 公開日:2023-04-07 |
# 学習率適応を伴うCMA-ES:CMA-ESはマルチモーダルとノイズを解消できるか? CMA-ES with Learning Rate Adaptation: Can CMA-ES with Default Population Size Solve Multimodal and Noisy Problems? ( http://arxiv.org/abs/2304.03473v1 ) ライセンス: Link先を確認 | Masahiro Nomura, Youhei Akimoto, Isao Ono | (参考訳) 共分散行列適応進化戦略(CMA-ES)はブラックボックス連続最適化問題の解法として最も成功した手法の1つである。
CMA-ESの実用的な側面の1つは、ハイパーパラメータチューニングなしで使用できることである。
しかし、ハイパーパラメータ設定は、特にマルチモーダル問題やノイズ問題などの困難なタスクに対して、依然としてかなりの影響がある。
本研究では, 既定人口規模を有するCMA-ESがマルチモーダル, ノイズを解消できるかどうかを検討する。
本研究では,CMA-ESのための新しい学習率適応機構を開発し,学習率を一定信号対雑音比を維持するようにした。
数値実験により,CMA-ESと提案した学習率適応機構の挙動について検討し,CMA-ESで得られた結果と一定の学習率との比較を行った。
提案した学習率適応を用いた場合,CMA-ESは,高コストの学習率チューニングを必要とせず,マルチモーダルおよび/またはノイズ問題に対して有効であることを示す。 The covariance matrix adaptation evolution strategy (CMA-ES) is one of the most successful methods for solving black-box continuous optimization problems. One practically useful aspect of the CMA-ES is that it can be used without hyperparameter tuning. However, the hyperparameter settings still have a considerable impact, especially for difficult tasks such as solving multimodal or noisy problems. In this study, we investigate whether the CMA-ES with default population size can solve multimodal and noisy problems. To perform this investigation, we develop a novel learning rate adaptation mechanism for the CMA-ES, such that the learning rate is adapted so as to maintain a constant signal-to-noise ratio. We investigate the behavior of the CMA-ES with the proposed learning rate adaptation mechanism through numerical experiments, and compare the results with those obtained for the CMA-ES with a fixed learning rate. The results demonstrate that, when the proposed learning rate adaptation is used, the CMA-ES with default population size works well on multimodal and/or noisy problems, without the need for extremely expensive learning rate tuning. | 翻訳日:2023-04-10 12:51:00 公開日:2023-04-07 |
# Lift3D: 2D GANから3D生成放射場へのリフティングによる3Dトレーニングデータの合成 Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field ( http://arxiv.org/abs/2304.03526v1 ) ライセンス: Link先を確認 | Leheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Ying-Cong Chen | (参考訳) 本研究では、3次元視覚タスクの訓練データを合成する3次元生成モデルについて検討する。
生成モデルの主な要件は、生成したデータは実世界のシナリオに合わせるためにフォトリアリスティックであり、対応する3D属性は、所定のサンプリングラベルと整合するべきであることである。
しかし、最近のNeRFベースの3D GANは、設計した生成パイプラインと明示的な3D監視の欠如のため、上記の要件を満たすことはほとんどない。
本研究では,データ生成目的を達成するための逆2d-to3d生成フレームワークlift3dを提案する。
1) 従来の3D GANとは異なり、出力解像度はトレーニング後に固定されるが、Lift3Dは高解像度とフォトリアリスティック出力で固有のカメラに一般化することができる。
2) 2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供し、下流タスクの正確な3Dアノテーションを提供する。
我々は、自律運転データセットの強化により、このフレームワークの有効性を評価する。
実験の結果,データ生成フレームワークが3次元物体検出の性能を効果的に向上できることが判明した。
プロジェクトページ: https://len-li.github.io/lift3d-web。 This work explores the use of 3D generative models to synthesize training data for 3D vision tasks. The key requirements of the generative models are that the generated data should be photorealistic to match the real-world scenarios, and the corresponding 3D attributes should be aligned with given sampling labels. However, we find that the recent NeRF-based 3D GANs hardly meet the above requirements due to their designed generation pipeline and the lack of explicit 3D supervision. In this work, we propose Lift3D, an inverted 2D-to-3D generation framework to achieve the data generation objectives. Lift3D has several merits compared to prior methods: (1) Unlike previous 3D GANs that the output resolution is fixed after training, Lift3D can generalize to any camera intrinsic with higher resolution and photorealistic output. (2) By lifting well-disentangled 2D GAN to 3D object NeRF, Lift3D provides explicit 3D information of generated objects, thus offering accurate 3D annotations for downstream tasks. We evaluate the effectiveness of our framework by augmenting autonomous driving datasets. Experimental results demonstrate that our data generation framework can effectively improve the performance of 3D object detectors. Project page: https://len-li.github.io/lift3d-web. | 翻訳日:2023-04-10 12:45:03 公開日:2023-04-07 |
# ウィナーホップ因子化法による位相零エネルギーモードのバルク境界対応と安定性条件 Wiener-Hopf factorization approach to a bulk-boundary correspondence and stability conditions for topological zero-energy modes ( http://arxiv.org/abs/2304.03524v1 ) ライセンス: Link先を確認 | Abhijeet Alase, Emilio Cobanera, Gerardo Ortiz and Lorenza Viola | (参考訳) フェルミオン対称性で保護された位相相の物理学と応用は、バルクが位相的に非自明であれば保護された境界局在エネルギー励起(境界状態)の発生を予測するバルク境界対応と呼ばれる原理に大きく依存している。
現在の理論的アプローチは、バルクと境界位相不変量の間の等式としてバルク境界対応を定式化し、後者は境界状態の性質である。
しかし、そのような等式は外部摂動に対する境界状態の安定性や感度についての洞察を与えない。
この問題を解決するために,行列関数のウィナー・ホップ分解と呼ばれる手法を採用する。
この手法を用いて、すべてのアルトランド・ジルンバウアー対称性クラスにおける任意の境界条件を持つ一次元系に対するバルクの等式と境界不変量の初等証明を与える。
この等式は、同じ対称性クラスに属するバルクによって形成される準一次元系(例えばジャンクション)にも適用される。
すると、位相的に非自明なハミルトニアンのみが安定なゼロエネルギーエッジモードをホストできることを示し、安定性はクラスの対称性を保存する外部摂動を伴うゼロエネルギー励起の連続的な変形を指す。
ウィナー-ホップ因子分解を利用することで、そのような安定なゼロエネルギーモードの外部摂動に対する感度の境界を確立する。
Weener-Hopf分解は準1次元フェルミオン対称性保護位相におけるバルク境界対応を解明するための自然なツールであることを示す。
ゼロモードの安定性と感度に関する我々の結果は、Majoranaベースのトポロジカル量子コンピューティングを含むアプリケーションに特に有用である。 Both the physics and applications of fermionic symmetry-protected topological phases rely heavily on a principle known as bulk-boundary correspondence, which predicts the emergence of protected boundary-localized energy excitations (boundary states) if the bulk is topologically non-trivial. Current theoretical approaches formulate a bulk-boundary correspondence as an equality between a bulk and a boundary topological invariant, where the latter is a property of boundary states. However, such an equality does not offer insight about the stability or the sensitivity of the boundary states to external perturbations. To solve this problem, we adopt a technique known as the Wiener-Hopf factorization of matrix functions. Using this technique, we first provide an elementary proof of the equality of the bulk and the boundary invariants for one-dimensional systems with arbitrary boundary conditions in all Altland-Zirnbauer symmetry classes. This equality also applies to quasi-one-dimensional systems (e.g., junctions) formed by bulks belonging to the same symmetry class. We then show that only topologically non-trivial Hamiltonians can host stable zero-energy edge modes, where stability refers to continuous deformation of zero-energy excitations with external perturbations that preserve the symmetries of the class. By leveraging the Wiener-Hopf factorization, we establish bounds on the sensitivity of such stable zero-energy modes to external perturbations. Our results show that the Wiener-Hopf factorization is a natural tool to investigate bulk-boundary correspondence in quasi-one-dimensional fermionic symmetry-protected topological phases. Our results on the stability and sensitivity of zero modes are especially valuable for applications, including Majorana-based topological quantum computing. | 翻訳日:2023-04-10 12:44:41 公開日:2023-04-07 |
# 形状の多様性最適化のための表現の適合性について On the Suitability of Representations for Quality Diversity Optimization of Shapes ( http://arxiv.org/abs/2304.03520v1 ) ライセンス: Link先を確認 | Ludovico Scarton, Alexander Hagg | (参考訳) 進化的アルゴリズムで使用される表現、あるいは符号化は、その性能に大きな影響を及ぼす。
ロボット領域における品質多様性最適化(qd)のための広く使われる表現の適合性の検討は、最も適切な符号化法に関する一貫性のない結果をもたらした。
QDのドメイン依存の性質を考えると、他のドメインからのさらなる証拠が必要である。
本研究では, 直接符号化, 辞書ベース表現, パラメトリック符号化, 合成パターン生成ネットワーク, セルオートマトンなどの表現が, 建築環境におけるボキセル化メッシュの生成に与える影響を比較検討した。
その結果、間接符号化は直接符号化よりも優れており、特に完全な表現型多様性を考慮すれば、より多様な解集合を生成できることが明らかとなった。
本稿では,同じアーカイブにすべての評価された表現を組み込んだマルチエンコードQD手法を提案する。
エンコーディングの種類は表現型の特徴に基づいて競合し、最高のシングルエンコーディングQDアプローチと同じようなパフォーマンスを示すアプローチにつながる。
これは、必ずしも最高のパフォーマンスのシングルエンコーディングの貢献を必要としないため、注目すべきことである。 The representation, or encoding, utilized in evolutionary algorithms has a substantial effect on their performance. Examination of the suitability of widely used representations for quality diversity optimization (QD) in robotic domains has yielded inconsistent results regarding the most appropriate encoding method. Given the domain-dependent nature of QD, additional evidence from other domains is necessary. This study compares the impact of several representations, including direct encoding, a dictionary-based representation, parametric encoding, compositional pattern producing networks, and cellular automata, on the generation of voxelized meshes in an architecture setting. The results reveal that some indirect encodings outperform direct encodings and can generate more diverse solution sets, especially when considering full phenotypic diversity. The paper introduces a multi-encoding QD approach that incorporates all evaluated representations in the same archive. Species of encodings compete on the basis of phenotypic features, leading to an approach that demonstrates similar performance to the best single-encoding QD approach. This is noteworthy, as it does not always require the contribution of the best-performing single encoding. | 翻訳日:2023-04-10 12:44:10 公開日:2023-04-07 |
# SemEval-2023 Task 10: 多数投票によるオンライン性差別の明示的検出 SSS at SemEval-2023 Task 10: Explainable Detection of Online Sexism using Majority Voted Fine-Tuned Transformers ( http://arxiv.org/abs/2304.03518v1 ) ライセンス: Link先を確認 | Sriya Rallabandi, Sanchit Singhal and Pratinav Seth | (参考訳) 本稿では,3つのサブタスクに分けた2023-explainable detection of online sexism (edos) におけるタスク10への提案について述べる。
最近のソーシャルメディアプラットフォームの増加は、ソーシャルメディアプラットフォーム上で女性が経験する性差別の格差が増加している。
これにより、女性にとってソーシャルメディアをより安全でアクセスしやすいものにするために、オンラインの性差別コンテンツの検出と説明がこれまで以上に重要になった。
提案手法は、BERTモデルの実験と微調整と、個別のベースラインモデルスコアより優れるMajority Votingアンサンブルモデルを用いて構成する。
本システムでは,タスクAのマクロF1スコアが0.8392,タスクBの0.6092,タスクCの0.4319を達成している。 This paper describes our submission to Task 10 at SemEval 2023-Explainable Detection of Online Sexism (EDOS), divided into three subtasks. The recent rise in social media platforms has seen an increase in disproportionate levels of sexism experienced by women on social media platforms. This has made detecting and explaining online sexist content more important than ever to make social media safer and more accessible for women. Our approach consists of experimenting and finetuning BERT-based models and using a Majority Voting ensemble model that outperforms individual baseline model scores. Our system achieves a macro F1 score of 0.8392 for Task A, 0.6092 for Task B, and 0.4319 for Task C. | 翻訳日:2023-04-10 12:43:54 公開日:2023-04-07 |
# 文献レビューのための階層的カタログ生成:ベンチマーク Hierarchical Catalogue Generation for Literature Review: A Benchmark ( http://arxiv.org/abs/2304.03512v1 ) ライセンス: Link先を確認 | Kun Zhu, Xiaocheng Feng, Xiachong Feng, Yingsheng Wu and Bing Qin | (参考訳) 多文書科学要約は、豊富な論文のコレクションから重要な情報を抽出し整理することができ、近年広く注目を集めている。
しかし、既存の取り組みは、明確で論理的な階層を欠いた長い概要を生み出すことに重点を置いている。
この問題を軽減するために,文献レビューのための階層的カタログ生成(HiCatGLR)という,原子的かつ困難な課題を提示する。
我々は13.8kの文献レビューカタログと120kの参考論文を持つ新しい英語階層的文献レビューデータセット(hicad)を慎重に構築し、エンドツーエンドとパイプラインメソッドによる多様な実験をベンチマークする。
モデルの性能を正確に評価するために,意味論と構造学から基底真理に類似した評価指標を設計する。
さらに当社の広範な分析によって,データセットの高品質と評価指標の有効性が検証された。
さらに,この課題が今後の研究を動機付ける可能性についても論じる。 Multi-document scientific summarization can extract and organize important information from an abundant collection of papers, arousing widespread attention recently. However, existing efforts focus on producing lengthy overviews lacking a clear and logical hierarchy. To alleviate this problem, we present an atomic and challenging task named Hierarchical Catalogue Generation for Literature Review (HiCatGLR), which aims to generate a hierarchical catalogue for a review paper given various references. We carefully construct a novel English Hierarchical Catalogues of Literature Reviews Dataset (HiCaD) with 13.8k literature review catalogues and 120k reference papers, where we benchmark diverse experiments via the end-to-end and pipeline methods. To accurately assess the model performance, we design evaluation metrics for similarity to ground truth from semantics and structure. Besides, our extensive analyses verify the high quality of our dataset and the effectiveness of our evaluation metrics. Furthermore, we discuss potential directions for this task to motivate future research. | 翻訳日:2023-04-10 12:43:39 公開日:2023-04-07 |
# ニンジン治療 : cnnによるニンジン病検出への応用 Carrot Cure: A CNN based Application to Detect Carrot Disease ( http://arxiv.org/abs/2304.03511v1 ) ライセンス: Link先を確認 | Shree. Dolax Ray, Mst. Khadija Tul Kubra Natasha, Md. Azizul Hakim, Fatema Nur | (参考訳) ニンジンは有名な栄養野菜であり、世界中で開発されている。
ニンジンの異なる病気は、ニンジン生産サークルにおいて大きな問題となり、農業部門の経済成長に大きな影響を与えている。
自動ニンジン病検出システムは、悪質なニンジンを識別するのに役立ち、早期にニンジン病を治療するためのガイドを提供し、ニンジン生産システムにおける経済的損失を減少させる。
本研究では,畳み込みニューラルネットワーク(convolutional neural network, cnn)に基づくwebアプリケーションであるcarrot cureを開発した。
キャビティスポットや葉の鮮明さ,健康なイメージに影響を受けるニンジンの画像を収集した。
さらに本研究は,畳み込みニューラルネットワークを用いて出生時の神経目的と,感染順序に完全畳み込みニューラルネットワークモデル(fcnn)を応用した。
色とりどりの異なる畳み込みモデルに関する様々な方法が検討され、提案されている畳み込みモデルは99.8%の完全性を達成している。 Carrot is a famous nutritional vegetable and developed all over the world. Different diseases of Carrot has become a massive issue in the carrot production circle which leads to a tremendous effect on the economic growth in the agricultural sector. An automatic carrot disease detection system can help to identify malicious carrots and can provide a guide to cure carrot disease in an earlier stage, resulting in a less economical loss in the carrot production system. The proposed research study has developed a web application Carrot Cure based on Convolutional Neural Network (CNN), which can identify a defective carrot and provide a proper curative solution. Images of carrots affected by cavity spot and leaf bright as well as healthy images were collected. Further, this research work has employed Convolutional Neural Network to include birth neural purposes and a Fully Convolutional Neural Network model (FCNN) for infection order. Different avenues regarding different convolutional models with colorful layers are explored and the proposed Convolutional model has achieved the perfection of 99.8%, which will be useful for the drovers to distinguish carrot illness and boost their advantage. | 翻訳日:2023-04-10 12:43:21 公開日:2023-04-07 |
# ディファレンシャルフェイスモーフィングアタック検出のためのマルチスペクトルイメージング--予備的検討 Multispectral Imaging for Differential Face Morphing Attack Detection: A Preliminary Study ( http://arxiv.org/abs/2304.03510v1 ) ライセンス: Link先を確認 | Raghavendra Ramachandra, Sushma Venkatesh, Naser Damer, Narayan Vetrekar, Rajendra Gad | (参考訳) 顔のモーフィング攻撃検出は、高品質で現実的なモーフィング攻撃生成の進歩により、ますます困難な問題になりつつある。
これらの攻撃は境界制御アプリケーションをターゲットにしているため、モーフィング攻撃の信頼性の高い検出が不可欠である。
本稿では,D-MADのためのマルチスペクトルフレームワークを提案する。
D-MAD法は、ePassport(参照画像とも呼ばれる)と信頼されたデバイス(例えば、自動境界制御(ABC)ゲート)から取得した2つの顔画像を用いて、ePassportで提示された顔画像が変形しているかどうかを検出する。
提案されたマルチスペクトルd-madフレームワークは、信頼できるキャプチャとしてキャプチャされたマルチスペクトルイメージを導入し、7つの異なるスペクトルバンドをキャプチャしてモーフィング攻撃を検出する。
複数のセッションで可視カメラとマルチスペクトルカメラの両方を使って撮影された143のユニークなデータセットについて、広範囲な実験が行われた。
その結果,提案手法は可視画像と比較して優れた性能を示した。 Face morphing attack detection is emerging as an increasingly challenging problem owing to advancements in high-quality and realistic morphing attack generation. Reliable detection of morphing attacks is essential because these attacks are targeted for border control applications. This paper presents a multispectral framework for differential morphing-attack detection (D-MAD). The D-MAD methods are based on using two facial images that are captured from the ePassport (also called the reference image) and the trusted device (for example, Automatic Border Control (ABC) gates) to detect whether the face image presented in ePassport is morphed. The proposed multispectral D-MAD framework introduce a multispectral image captured as a trusted capture to capture seven different spectral bands to detect morphing attacks. Extensive experiments were conducted on the newly created datasets with 143 unique data subjects that were captured using both visible and multispectral cameras in multiple sessions. The results indicate the superior performance of the proposed multispectral framework compared to visible images. | 翻訳日:2023-04-10 12:43:00 公開日:2023-04-07 |
# 移動学習技術を用いた局所ローズ育種検出システム Local Rose Breeds Detection System Using Transfer Learning Techniques ( http://arxiv.org/abs/2304.03509v1 ) ライセンス: Link先を確認 | Amena Begum Farha, Md. Azizul Hakim, Mst. Eshita Khatun | (参考訳) 開花・育種・育種・花業において,開花プロセスの提案やケアの方法等により,開花品種の検出と詳細な情報提供が重要である。
バングラデシュのすべての地方花の中で、バラは最も人気があり、需要の多かった花の一つである。
バラはバングラデシュだけでなく世界中で最も好まれる花である。
バラは装飾以外の様々な用途に使用できる。
バラは花ビジネスに非常に需要があるため、バラの品種検出は非常に重要である。
しかし、異なる花の分類とは異なり、特定の花の品種検出には顕著な作業はない。
本研究では,移動学習技術を用いて,画像からバラ種を検出するモデルを提案する。
花におけるこのような作業では、画像処理や分類にはリソースが十分ではないため、モデルをトレーニングするために大量の画像のデータセットが必要でした。
1939年に5種類の生画像を使用し、トレーニングデータセットの9306画像とテストデータセットの388画像を生成して、拡張によるモデル検証を行った。
本研究では,Inception V3,ResNet50,Xception,VGG16の4つのトランスファー学習モデルを適用した。
これら4つのモデルのうち、VGG16は99%の最高精度を達成した。
移配学習法を用いたバラの品種検出は,本研究により公に入手可能な特定の花の品種検出に関する最初の研究である。 Flower breed detection and giving details of that breed with the suggestion of cultivation processes and the way of taking care is important for flower cultivation, breed invention, and the flower business. Among all the local flowers in Bangladesh, the rose is one of the most popular and demanded flowers. Roses are the most desirable flower not only in Bangladesh but also throughout the world. Roses can be used for many other purposes apart from decoration. As roses have a great demand in the flower business so rose breed detection will be very essential. However, there is no remarkable work for breed detection of a particular flower unlike the classification of different flowers. In this research, we have proposed a model to detect rose breeds from images using transfer learning techniques. For such work in flowers, resources are not enough in image processing and classification, so we needed a large dataset of the massive number of images to train our model. we have used 1939 raw images of five different breeds and we have generated 9306 images for the training dataset and 388 images for the testing dataset to validate the model using augmentation. We have applied four transfer learning models in this research, which are Inception V3, ResNet50, Xception, and VGG16. Among these four models, VGG16 achieved the highest accuracy of 99%, which is an excellent outcome. Breed detection of a rose by using transfer learning methods is the first work on breed detection of a particular flower that is publicly available according to the study. | 翻訳日:2023-04-10 12:42:43 公開日:2023-04-07 |
# グラフニューラルネットワークにおけるノード分類のための分布信号 Distributional Signals for Node Classification in Graph Neural Networks ( http://arxiv.org/abs/2304.03507v1 ) ライセンス: Link先を確認 | Feng Ji, See Hian Lee, Kai Zhao, Wee Peng Tay, Jielong Yang | (参考訳) グラフニューラルネットワーク(GNN)では、ノードの特徴とラベルはグラフ信号の例であり、グラフ信号処理(GSP)における重要な概念である。
GSPでは、学習や推定タスクにおいて信号の滑らかさの制約を課すことが一般的であるが、これをノードの離散ラベルに対してどのように行うかは定かではない。
このギャップを埋めるために,分布グラフ信号の概念を導入する。
本フレームワークでは,ノードラベルの分布をその値の代わりに扱い,そのような分布グラフ信号の滑らかさと非均一性の概念を提案する。
次に,GNNの一般正規化手法を提案し,半教師付きノード分類タスクにおけるモデル出力の分布の滑らかさと非均一性をエンコードする。
数値実験により,本手法は問題設定の異なるベースgnnモデルの性能を著しく向上できることを示した。 In graph neural networks (GNNs), both node features and labels are examples of graph signals, a key notion in graph signal processing (GSP). While it is common in GSP to impose signal smoothness constraints in learning and estimation tasks, it is unclear how this can be done for discrete node labels. We bridge this gap by introducing the concept of distributional graph signals. In our framework, we work with the distributions of node labels instead of their values and propose notions of smoothness and non-uniformity of such distributional graph signals. We then propose a general regularization method for GNNs that allows us to encode distributional smoothness and non-uniformity of the model output in semi-supervised node classification tasks. Numerical experiments demonstrate that our method can significantly improve the performance of most base GNN models in different problem settings. | 翻訳日:2023-04-10 12:42:21 公開日:2023-04-07 |
# F-RDW:予測将来の位置を考慮したリダイレクトウォーキング F-RDW: Redirected Walking with Forecasting Future Position ( http://arxiv.org/abs/2304.03497v1 ) ライセンス: Link先を確認 | Sang-Bin Jeon, Jaeho Jung, Jinhyung Park, and In-Kwon Lee | (参考訳) ユーザーに対してより良いVR体験を提供するために、既存のリダイレクトウォーキング(RDW)の予測手法は将来の情報を利用してリセット回数を減らす。
しかしながら、そのような手法は、仮想環境のレイアウトやユーザーの歩行方向において、デプロイ中にプリコンディションを課すことが多い。
この課題に対処するために,(1)仮想空間におけるユーザの将来情報を仮定せずに予測し,(2)既存のRDWメソッドを操作しながらその情報を融合する,という2つのメカニズムF-RDWを提案する。
The backbone of the first step is an LSTM-based model that ingests the user's spatial and eye-tracking data to predict the user's future position in the virtual space, and the following step feeds those predicted values into existing RDW methods (such as MPCRed, S2C, TAPF, and ARC) while respecting their internal mechanism in applicable ways.The results of our simulation test and user study demonstrate the significance of future information when using RDW in small physical spaces or complex environments.
提案手法は,リセット数を大幅に削減し,リセット間の移動距離を増大させるので,本研究で検討したRDW手法のリダイレクト性能を向上する。 In order to serve better VR experiences to users, existing predictive methods of Redirected Walking (RDW) exploit future information to reduce the number of reset occurrences. However, such methods often impose a precondition during deployment, either in the virtual environment's layout or the user's walking direction, which constrains its universal applications. To tackle this challenge, we propose a novel mechanism F-RDW that is twofold: (1) forecasts the future information of a user in the virtual space without any assumptions, and (2) fuse this information while maneuvering existing RDW methods. The backbone of the first step is an LSTM-based model that ingests the user's spatial and eye-tracking data to predict the user's future position in the virtual space, and the following step feeds those predicted values into existing RDW methods (such as MPCRed, S2C, TAPF, and ARC) while respecting their internal mechanism in applicable ways.The results of our simulation test and user study demonstrate the significance of future information when using RDW in small physical spaces or complex environments. We prove that the proposed mechanism significantly reduces the number of resets and increases the traveled distance between resets, hence augmenting the redirection performance of all RDW methods explored in this work. | 翻訳日:2023-04-10 12:42:08 公開日:2023-04-07 |
# HyperTab: 小さなタブラルデータセットを用いたディープラーニングのためのハイパーネットワークアプローチ HyperTab: Hypernetwork Approach for Deep Learning on Small Tabular Datasets ( http://arxiv.org/abs/2304.03543v1 ) ライセンス: Link先を確認 | Witold Wydma\'nski, Oleksii Bulenok, Marek \'Smieja | (参考訳) ディープラーニングは、コンピュータビジョンや自然言語処理など、多くの領域で顕著なパフォーマンスを達成したが、表形式のデータセットにおける古典的な浅いメソッドよりも優れていることは疑問視されている。
XGBoostやRandom Forestsのような木のようなアンサンブルのパフォーマンスを、1kサンプル未満の小さなデータセットで超越することは特に困難である。
この課題に対処するために、ハイパーネットワークベースのアプローチであるHyperTabを導入する。
ランダムフォレストとニューラルネットワークの利点を組み合わせることで、ハイパータブはニューラルネットワークのアンサンブルを生成します。
各ビューがデータ拡張の役割を担っているため、トレーニング可能なパラメータの数を一定に保ちながら、トレーニングサンプルの数を事実上増加させ、モデルオーバーフィッティングを防止する。
さまざまなサンプルとドメインの40以上の表型データセット上でハイパータブを評価し,そのパフォーマンスを現在の最先端を表す浅層および深層学習モデルと比較した。
hypertabは(統計的に有意な差がある)小さなデータで他のメソッドを一貫して上回っており、より大きなデータセットでそれと同等のスコアを示している。
コードはhttps://pypi.org/project/hypertab/でダウンロードできます。 Deep learning has achieved impressive performance in many domains, such as computer vision and natural language processing, but its advantage over classical shallow methods on tabular datasets remains questionable. It is especially challenging to surpass the performance of tree-like ensembles, such as XGBoost or Random Forests, on small-sized datasets (less than 1k samples). To tackle this challenge, we introduce HyperTab, a hypernetwork-based approach to solving small sample problems on tabular datasets. By combining the advantages of Random Forests and neural networks, HyperTab generates an ensemble of neural networks, where each target model is specialized to process a specific lower-dimensional view of the data. Since each view plays the role of data augmentation, we virtually increase the number of training samples while keeping the number of trainable parameters unchanged, which prevents model overfitting. We evaluated HyperTab on more than 40 tabular datasets of a varying number of samples and domains of origin, and compared its performance with shallow and deep learning models representing the current state-of-the-art. We show that HyperTab consistently outranks other methods on small data (with a statistically significant difference) and scores comparable to them on larger datasets. We make a python package with the code available to download at https://pypi.org/project/hypertab/ | 翻訳日:2023-04-10 12:35:28 公開日:2023-04-07 |
# より鮮明な画像を生成する"cmos": ブラインド画像超解像のための空間変動ボケ推定 Better "CMOS" Produces Clearer Images: Learning Space-Variant Blur Estimation for Blind Image Super-Resolution ( http://arxiv.org/abs/2304.03542v1 ) ライセンス: Link先を確認 | Xuhai Chen, Jiangning Zhang, Chao Xu, Yabiao Wang, Chengjie Wang, Yong Liu | (参考訳) 既存の盲画像超解法(SR)法の多くは、ぼやけたカーネルが空間不変であると仮定している。
しかし、実際の応用にまつわるぼやけは通常、物体の動きやアウト・オブ・フォーカスなどによって空間不変であり、高度なSR法の性能低下をもたらす。
この問題に対処するために、まず最初に、空のぼかしを持つ2つの新しいデータセット、すなわちNYUv2-BSRとCityscapes-BSRを導入する。
それらのデータセットに基づいて,ボケとセマンティクスの両方を同時に見積もる新たなクロスモーダル融合ネットワーク(cmos)を設計し,sr結果の改善に繋がる。
これは、2つのモダリティがより効果的に相互作用し、矛盾を避けるために、機能Grouping Interactive Attention (GIA)モジュールを含んでいる。
GIAは、その構造の普遍性のため、他の特徴の相互作用にも利用できる。
上述のデータセットや実世界の画像と比較して定性的かつ定量的な実験は、MANetよりもNYUv2-BSR上でPSNR/SSIMの+1.91/+0.0048の精度を示す。 Most of the existing blind image Super-Resolution (SR) methods assume that the blur kernels are space-invariant. However, the blur involved in real applications are usually space-variant due to object motion, out-of-focus, etc., resulting in severe performance drop of the advanced SR methods. To address this problem, we firstly introduce two new datasets with out-of-focus blur, i.e., NYUv2-BSR and Cityscapes-BSR, to support further researches of blind SR with space-variant blur. Based on the datasets, we design a novel Cross-MOdal fuSion network (CMOS) that estimate both blur and semantics simultaneously, which leads to improved SR results. It involves a feature Grouping Interactive Attention (GIA) module to make the two modalities interact more effectively and avoid inconsistency. GIA can also be used for the interaction of other features because of the universality of its structure. Qualitative and quantitative experiments compared with state-of-the-art methods on above datasets and real-world images demonstrate the superiority of our method, e.g., obtaining PSNR/SSIM by +1.91/+0.0048 on NYUv2-BSR than MANet. | 翻訳日:2023-04-10 12:35:04 公開日:2023-04-07 |
# ChatPipe:人間-ChatGPTインタラクションの最適化によるデータ準備プログラムのオーケストレーション ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions ( http://arxiv.org/abs/2304.03540v1 ) ライセンス: Link先を確認 | Sibei Chen, Hanbing Liu, Weiting Jin, Xiangyu Sun, Xiaoyao Feng, Ju Fan, Xiaoyong Du, Nan Tang | (参考訳) 機械学習(ML)の成功には高品質なデータ準備プログラムのオーケストレーションが不可欠だが、時間と労力がかかることが知られている。
chatgptのような大規模言語モデルの自然言語プロンプトによるユーザとのインタラクションによるプログラム生成能力は印象的なものだが,それでも制限がある。
具体的には、プログラミング、使用するデータセット、mlタスクにある程度の専門知識を必要とするデータ準備プログラムの改善において、ユーザーがchatgptを反復的にガイドするための具体的なプロンプトを提供する必要がある。
さらに、一度プログラムが生成されると、前バージョンを再検討したり、再びプロセスを開始せずにプログラムに変更を加えることは自明ではない。
本稿では,ChatGPTとユーザ間のシームレスな対話を支援する新システムChatPipeを提案する。
ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。
また、chatpipeでは、ユーザーはプログラムの以前のバージョンに簡単にロールバックできるので、より効率的な実験とテストが容易になる。
我々はChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
これらのタスクはChatPipeの機能を示し、VLDB参加者が私たちの新しい機能を簡単に実験し、高品質のデータ準備プログラムを迅速にオーケストレーションすることを可能にする。 Orchestrating a high-quality data preparation program is essential for successful machine learning (ML), but it is known to be time and effort consuming. Despite the impressive capabilities of large language models like ChatGPT in generating programs by interacting with users through natural language prompts, there are still limitations. Specifically, a user must provide specific prompts to iteratively guide ChatGPT in improving data preparation programs, which requires a certain level of expertise in programming, the dataset used and the ML task. Moreover, once a program has been generated, it is non-trivial to revisit a previous version or make changes to the program without starting the process over again. In this paper, we present ChatPipe, a novel system designed to facilitate seamless interaction between users and ChatGPT. ChatPipe provides users with effective recommendation on next data preparation operations, and guides ChatGPT to generate program for the operations. Also, ChatPipe enables users to easily roll back to previous versions of the program, which facilitates more efficient experimentation and testing. We have developed a web application for ChatPipe and prepared several real-world ML tasks from Kaggle. These tasks can showcase the capabilities of ChatPipe and enable VLDB attendees to easily experiment with our novel features to rapidly orchestrate a high-quality data preparation program. | 翻訳日:2023-04-10 12:34:39 公開日:2023-04-07 |
# オートエンコーダに基づく学習構造によるプライバシの調整 Adjustable Privacy using Autoencoder-based Learning Structure ( http://arxiv.org/abs/2304.03538v1 ) ライセンス: Link先を確認 | Mohammad Ali Jamshidi, Hadi Veisi, Mohammad Mahdi Mojahedian, Mohammad Reza Aref | (参考訳) 推論センタは、より包括的で有益な学習モデルを持つためにより多くのデータを必要としており、この目的のためには、データプロバイダからデータを集める必要がある。
一方、データプロバイダは、プライバシの考慮事項の観点から、データセットを推論センタに提供することに慎重です。
本稿では,オートエンコーダの構造を変更することで,ユーティリティプライバシトレードオフを適切に管理する手法を提案する。
より正確には、まずエンコーダを使ってデータを圧縮し、次に機密と機密でない特徴を分離し、分類器を使って関連付けない。
機密機能はノイズと適切に結合され、非秘密性が強化され、最後に、デコーダによって元のデータ形式を持つデータが生成される。
提案されたアーキテクチャでは、データプロバイダが機密機能に必要なプライバシレベルを設定することもできる。
提案手法は画像データベースと分類データベースの両方に対して検討され, 従来の手法と比較して性能が向上した。 Inference centers need more data to have a more comprehensive and beneficial learning model, and for this purpose, they need to collect data from data providers. On the other hand, data providers are cautious about delivering their datasets to inference centers in terms of privacy considerations. In this paper, by modifying the structure of the autoencoder, we present a method that manages the utility-privacy trade-off well. To be more precise, the data is first compressed using the encoder, then confidential and non-confidential features are separated and uncorrelated using the classifier. The confidential feature is appropriately combined with noise, and the non-confidential feature is enhanced, and at the end, data with the original data format is produced by the decoder. The proposed architecture also allows data providers to set the level of privacy required for confidential features. The proposed method has been examined for both image and categorical databases, and the results show a significant performance improvement compared to previous methods. | 翻訳日:2023-04-10 12:34:18 公開日:2023-04-07 |
# 病的画像のインスタンスレベル予測のためのドメイン適応型多重インスタンス学習 Domain Adaptive Multiple Instance Learning for Instance-level Prediction of Pathological Images ( http://arxiv.org/abs/2304.03537v1 ) ライセンス: Link先を確認 | Shusuke Takahama, Yusuke Kurose, Yusuke Mukuta, Hiroyuki Abe, Akihiko Yoshizawa, Tetsuo Ushiku, Masashi Fukayama, Masanobu Kitagawa, Masaru Kitsuregawa, Tatsuya Harada | (参考訳) 病理画像解析は細胞画像から癌などの異常を検出する重要なプロセスである。
しかし、画像サイズは一般的に非常に大きいため、詳細なアノテーションを提供することのコストが高いため、機械学習技術の適用は困難である。
アノテーションコストを低く抑えながら異常を識別する性能を向上させる一つの方法は、スライド毎にラベルのみを使用するか、ラベル付きデータセットからの情報を使用することである。
しかし、そのような弱い監督情報は、しばしば十分な性能を提供しない。
本稿では,アノテーションコストを増加させることなく,対象データセットの分類性能を向上させるタスク設定を提案する。
そして,この問題を解決するために,マルチインスタンス学習(MIL)とドメイン適応(DA)メソッドを用いたパイプラインを提案する。
さらに,両手法の監視情報を効果的に結合するために,信頼度の高い擬似ラベルを作成する手法を提案する。
本研究のために開発した病理画像データセットについて実験を行い,提案手法が既存の手法と比較して分類性能を大幅に向上させることを示した。 Pathological image analysis is an important process for detecting abnormalities such as cancer from cell images. However, since the image size is generally very large, the cost of providing detailed annotations is high, which makes it difficult to apply machine learning techniques. One way to improve the performance of identifying abnormalities while keeping the annotation cost low is to use only labels for each slide, or to use information from another dataset that has already been labeled. However, such weak supervisory information often does not provide sufficient performance. In this paper, we proposed a new task setting to improve the classification performance of the target dataset without increasing annotation costs. And to solve this problem, we propose a pipeline that uses multiple instance learning (MIL) and domain adaptation (DA) methods. Furthermore, in order to combine the supervisory information of both methods effectively, we propose a method to create pseudo-labels with high confidence. We conducted experiments on the pathological image dataset we created for this study and showed that the proposed method significantly improves the classification performance compared to existing methods. | 翻訳日:2023-04-10 12:34:02 公開日:2023-04-07 |
# 新型コロナウイルス(covid-19)のデータ不足にgansを活用する Leveraging GANs for data scarcity of COVID-19: Beyond the hype ( http://arxiv.org/abs/2304.03536v1 ) ライセンス: Link先を確認 | Hazrat Ali, Christer Gronlund, Zubair Shah | (参考訳) 人工知能(AI)ベースのモデルは、肺CTスキャンやX線画像から新型コロナウイルスを診断するのに役立つが、これらのモデルはトレーニングと検証のために大量のデータを必要とする。
多くの研究者が合成肺CTスキャンとX線画像を生成するためにGAN(Generative Adversarial Networks)を研究し、AIベースのモデルの性能を改善した。
信頼性の高い合成データを生成するために, GAN ベースの手法がいかに優れているかは明らかにされていない。
本研究は合成データ生成のためのgansを報告した43の論文を分析した。
これらの研究の多くは、データのバイアス、再現性の欠如、放射線科医や他のドメインの専門家からのフィードバックの欠如に苦しんだ。
これらの研究でよくある問題は、ソースコードが利用できないことであり、再現性を妨げている。
含まれた研究は、既存のGANアーキテクチャをトレーニングするために入力画像の再スケーリングを報告し、再スケーリングの動機付けに関する臨床的洞察を与えなかった。
最後に、ganベースの手法は、データ拡張とaiベースのモデルのトレーニングを改善する可能性を秘めているが、これらの手法は、臨床での使用に関して不足している。
本稿では,データ不足問題に対処する研究ホットスポットを強調し,様々な課題と可能性を特定し,今後の研究の指針として推奨する。
これらの勧告は、データ拡張のためのGANがAIと医療画像研究コミュニティでますます人気が高まっているため、データ拡張のためのGANベースのアプローチの受け入れ性を改善するのに役立つかもしれない。 Artificial Intelligence (AI)-based models can help in diagnosing COVID-19 from lung CT scans and X-ray images; however, these models require large amounts of data for training and validation. Many researchers studied Generative Adversarial Networks (GANs) for producing synthetic lung CT scans and X-Ray images to improve the performance of AI-based models. It is not well explored how good GAN-based methods performed to generate reliable synthetic data. This work analyzes 43 published studies that reported GANs for synthetic data generation. Many of these studies suffered data bias, lack of reproducibility, and lack of feedback from the radiologists or other domain experts. A common issue in these studies is the unavailability of the source code, hindering reproducibility. The included studies reported rescaling of the input images to train the existing GANs architecture without providing clinical insights on how the rescaling was motivated. Finally, even though GAN-based methods have the potential for data augmentation and improving the training of AI-based models, these methods fall short in terms of their use in clinical practice. This paper highlights research hotspots in countering the data scarcity problem, identifies various issues as well as potentials, and provides recommendations to guide future research. These recommendations might be useful to improve acceptability for the GAN-based approaches for data augmentation as GANs for data augmentation are increasingly becoming popular in the AI and medical imaging research community. | 翻訳日:2023-04-10 12:33:45 公開日:2023-04-07 |
# CRISP:階層強化学習のための原始インフォームドサブゴール予測のカリキュラム CRISP: Curriculum inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2304.03535v1 ) ライセンス: Link先を確認 | Utsav Singh, Vinay P Namboodiri | (参考訳) 階層的強化学習は、複雑な長距離地平線問題を解決するために時間的抽象化を使用する有望なアプローチである。
しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。
本稿では,強化学習と模倣学習を用いて,下位レベルのプリミティブを進化させるための,実現可能なサブゴールのカリキュラムを生成する新しい階層的アルゴリズムを提案する。
低レベルのプリミティブは、プリミティブインフォメーションパーシングアプローチを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーリングを行います。
本手法の下位最適化性を示す表現を提供し,階層強化学習のための実用的なアルゴリズムを開発した。
私たちのアプローチは、いくつかの専門家によるデモを使うので、ほとんどのロボット制御タスクに適している。
複雑な迷路ナビゲーションとロボット操作環境における実験評価により,階層的カリキュラム学習の誘導がサンプル効率を著しく向上し,時間的拡張課題を解決するための効率的な目標条件付きポリシーが得られた。 Hierarchical reinforcement learning is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we propose a novel hierarchical algorithm by generating a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. The lower level primitive periodically performs data relabeling on a handful of expert demonstrations using our primitive informed parsing approach. We provide expressions to bound the sub-optimality of our method and develop a practical algorithm for hierarchical reinforcement learning. Since our approach uses a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluation on complex maze navigation and robotic manipulation environments show that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. | 翻訳日:2023-04-10 12:33:23 公開日:2023-04-07 |
# 有利蒸留によるモードパイリング量子鍵分布 Mode-pairing quantum key distribution with advantage distillation ( http://arxiv.org/abs/2304.03534v1 ) ライセンス: Link先を確認 | Xin Liu, Di Luo, Zhenrong Zhang, and Kejin Wei | (参考訳) モードパイリング量子鍵分布(mp-qkd)は、ピランドラ-ローレンザ--オッタビアーニ-バンチ境界を量子リピータを使用せずに超越する実装容易なスキームである。
本稿では,MP-QKDの高効率蒸留による性能向上について述べる。
シミュレーションの結果,提案手法は伝送距離を7.6dBを超えるチャネル損失で大幅に延長することを示した。
さらに、このスキームは最大量子ビット誤り率8.9%を許容し、これは元のMP-QKDの約2倍である。
特に,システムミスアライメント誤差が増大するにつれて,提案手法の展開可能な距離も増大する。
提案システムでは,MP-QKDを多種多様なアプリケーション,特にチャネル損失やシステムエラーなどのシナリオで実用化することが期待されている。 Mode-pairing quantum key distribution (MP-QKD) is an easy-to-implement scheme that transcends the Pirandola--Laurenza--Ottaviani--Banchi bound without using quantum repeaters. In this paper, we present an improvement of the performance of MP-QKD using an advantage distillation method. The simulation results demonstrate that the proposed scheme extends the transmission distance significantly with a channel loss exceeding 7.6 dB. Moreover, the scheme tolerates a maximum quantum bit error rate of 8.9%, which is nearly twice that of the original MP-QKD. In particular, as the system misalignment error increases, the expandable distance of the proposed scheme also increases. The proposed system is expected to promote the practical implementation of MP-QKD in a wide range of applications, particularly in scenarios involving high channel losses and system errors. | 翻訳日:2023-04-10 12:33:04 公開日:2023-04-07 |
# MLPミキサーとGCNを一体化して人間の動きを予測するミキサー層 A Mixer Layer is Worth One Graph Convolution: Unifying MLP-Mixers and GCNs for Human Motion Prediction ( http://arxiv.org/abs/2304.03532v1 ) ライセンス: Link先を確認 | Xinshun Wang, Shen Zhao, Chen Chen, Mengyuan Liu | (参考訳) 過去数年間、人間の動き予測よりもグラフ畳み込みネットワーク(gcns)が支配的だったが、その性能はまだ満足のいくものではない。
近年、MLP-Mixersは、より効率的で簡便な競合結果を示している。
機能を抽出するために、GCNは一般的に集約と更新のパラダイムに従うが、Mixerはトークンの混合とチャネルの混合操作に依存している。
2つの研究経路は独立してコミュニティに確立されている。
本稿では,ミキサーとGCNを統合することで,新しい視点を開拓する。
パラメータ化された隣接性を持つ完全連結グラフに適用したグラフ畳み込み層としてミキサー層を見ることができる。
この理論的な発見を実用的側面に拡張し,メタ混合ネットワーク(m$^2$-net)を提案する。
新しいゼロアグリゲーション操作の支援により、ネットワークは構造非依存と構造に敏感な依存関係の両方を協調的に捉えることができる。
計算効率だけでなく、最先端のパフォーマンスも実現している。
Human3.6M、AMASS、および3DPWデータセットに関する広範な評価は、M$^2$-Netが他の全てのアプローチより一貫して優れていることを示している。
私たちは、コミュニティが本当に予測可能な人間の動きに向かって一歩前進することを願っています。
私たちのコードは公開されます。 The past few years has witnessed the dominance of Graph Convolutional Networks (GCNs) over human motion prediction, while their performance is still far from satisfactory. Recently, MLP-Mixers show competitive results on top of being more efficient and simple. To extract features, GCNs typically follow an aggregate-and-update paradigm, while Mixers rely on token mixing and channel mixing operations. The two research paths have been independently established in the community. In this paper, we develop a novel perspective by unifying Mixers and GCNs. We show that a mixer layer can be seen as a graph convolutional layer applied to a fully-connected graph with parameterized adjacency. Extending this theoretical finding to the practical side, we propose Meta-Mixing Network (M$^2$-Net). Assisted with a novel zero aggregation operation, our network is capable of capturing both the structure-agnostic and the structure-sensitive dependencies in a collaborative manner. Not only is it computationally efficient, but most importantly, it also achieves state-of-the-art performance. An extensive evaluation on the Human3.6M, AMASS, and 3DPW datasets shows that M$^2$-Net consistently outperforms all other approaches. We hope our work brings the community one step further towards truly predictable human motion. Our code will be publicly available. | 翻訳日:2023-04-10 12:32:47 公開日:2023-04-07 |
# 検索から生成へ:効率的かつ効果的なエンティティ集合の拡張 From Retrieval to Generation: Efficient and Effective Entity Set Expansion ( http://arxiv.org/abs/2304.03531v1 ) ライセンス: Link先を確認 | Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Hai-Tao Zheng and Yong Jiang | (参考訳) エンティティセット拡張(ese)は、小さなシードエンティティセットによって記述されたターゲットセマンティクスクラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
この2つの目的を達成するためには、データセットで提供されるコーパスとエンティティ語彙を反復的にトラバースする必要がある。
実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。
本稿では、まず、生成事前学習言語モデルを用いてESEタスクを遂行する、生成型ESEフレームワーク、Generative Entity Set Expansion(GenExpan)を提案する。
具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、ターゲットエンティティを生成する。
さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。
公開されているデータセットの実験は、GenExpanが効率的で効果的であることを示している。
効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。
拡張性能については,従来のESE手法よりも優れた性能を示す。 Entity Set Expansion (ESE) is a critical task aiming to expand entities of the target semantic class described by a small seed entity set. Most existing ESE methods are retrieval-based frameworks that need to extract the contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they should iteratively traverse the corpus and the entity vocabulary provided in the datasets, resulting in poor efficiency and scalability. The experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose a generative ESE framework, Generative Entity Set Expansion (GenExpan), which utilizes a generative pre-trained language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. Experiments on publicly available datasets show that GenExpan is efficient and effective. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion performance, our framework outperforms previous state-of-the-art ESE methods. | 翻訳日:2023-04-10 12:32:27 公開日:2023-04-07 |
# 非一様位相ランダム化を伴う量子鍵分布の秘密鍵レート境界 Secret key rate bounds for quantum key distribution with non-uniform phase randomization ( http://arxiv.org/abs/2304.03562v1 ) ライセンス: Link先を確認 | Xoel Sixto, Guillermo Curr\'as-Lorenzo, Kiyoshi Tamaki, Marcos Curty | (参考訳) デコイ状態量子鍵分布(QKD)は、レーザー源が発する多光子信号を扱う最も効率的な解であり、理想的な単一光子源と同じ秘密鍵レートのスケーリングを提供する。
しかし、各パルスの位相は均一にランダムである必要がある。
これは、避けられない装置の不完全さや、選択可能な位相を有限集合に制限する位相ランダム化のための外部位相変調器の使用のために、実際に保証することは困難である。
本稿では, 任意の, 連続的, 離散的, 非一様位相ランダム化によるデコイ状態QKDの安全性について検討し, この手法が理想的な一様ランダムシナリオからの逸脱に対して極めて堅牢であることを示す。
そこで本研究では,半定値プログラミングに基づく新しいパラメータ推定手法と,基本ミスマッチイベントを用いて,達成可能な秘密鍵レートを決定するパラメータを厳密に推定する。
このようにして、我々の分析は、より制限されたシナリオに対処する以前の結果を著しく上回ります。 Decoy-state quantum key distribution (QKD) is undoubtedly the most efficient solution to handle multi-photon signals emitted by laser sources, and provides the same secret key rate scaling as ideal single-photon sources. It requires, however, that the phase of each emitted pulse is uniformly random. This might be difficult to guarantee in practice, due to inevitable device imperfections and/or the use of an external phase modulator for phase randomization, which limits the possible selected phases to a finite set. Here, we investigate the security of decoy-state QKD with arbitrary, continuous or discrete, non-uniform phase randomization, and show that this technique is quite robust to deviations from the ideal uniformly random scenario. For this, we combine a novel parameter estimation technique based on semi-definite programming, with the use of basis mismatched events, to tightly estimate the parameters that determine the achievable secret key rate. In doing so, we demonstrate that our analysis can significantly outperform previous results that address more restricted scenarios. | 翻訳日:2023-04-10 12:26:14 公開日:2023-04-07 |
# DualRefine: 反復型エピポーラサンプリングによる自己監督深度とポース推定と平衡への再精製 DualRefine: Self-Supervised Depth and Pose Estimation Through Iterative Epipolar Sampling and Refinement Toward Equilibrium ( http://arxiv.org/abs/2304.03560v1 ) ライセンス: Link先を確認 | Antyanta Bangunharcana, Ahmed Magd, Kyung-Soo Kim | (参考訳) 自己教師付き多フレーム深度推定は、隣接フレーム間の画素対応のマッチングコストを計算し、幾何学的情報をネットワークに注入することで高い精度を達成する。
これらの画素対応候補は、フレーム間の相対ポーズ推定に基づいて計算される。
正確なポーズ予測は、エピポーラ幾何に影響を及ぼすため、正確なマッチングコスト計算に不可欠である。
さらに、改良された深さ推定は、代わりにポーズ推定を整列するために使用できる。
従来のsfm(structure-from-motion)の原理に着想を得て,フィードバックループによる奥行きとポーズ推定を密結合した2重refineモデルを提案する。
新たな更新パイプラインでは,エピポーラ幾何に基づく局所マッチングコストを計算し,深度推定と特徴マップの隠れた状態を反復的に洗練するために,深い平衡モデルフレームワークを用いる。
重要なことに、各ステップのポーズ更新を計算するために、精巧な深さ推定と特徴マップを使用しました。
ポーズ推定のこの更新は、精錬過程の間、エピポーラ幾何をゆっくりと変化させる。
KITTIデータセットの実験結果から, 自己教師付きベースラインを超える競合深度予測とオドメトリー予測性能が示された。 Self-supervised multi-frame depth estimation achieves high accuracy by computing matching costs of pixel correspondences between adjacent frames, injecting geometric information into the network. These pixel-correspondence candidates are computed based on the relative pose estimates between the frames. Accurate pose predictions are essential for precise matching cost computation as they influence the epipolar geometry. Furthermore, improved depth estimates can, in turn, be used to align pose estimates. Inspired by traditional structure-from-motion (SfM) principles, we propose the DualRefine model, which tightly couples depth and pose estimation through a feedback loop. Our novel update pipeline uses a deep equilibrium model framework to iteratively refine depth estimates and a hidden state of feature maps by computing local matching costs based on epipolar geometry. Importantly, we used the refined depth estimates and feature maps to compute pose updates at each step. This update in the pose estimates slowly alters the epipolar geometry during the refinement process. Experimental results on the KITTI dataset demonstrate competitive depth prediction and odometry prediction performance surpassing published self-supervised baselines. | 翻訳日:2023-04-10 12:25:55 公開日:2023-04-07 |
# イジングスピンネットワークのための量子回路 Quantum circuits for the Ising spin networks ( http://arxiv.org/abs/2304.03559v1 ) ライセンス: Link先を確認 | Grzegorz Czelusta, Jakub Mielczarek | (参考訳) スピンネットワーク状態はグラフ上の$su(2)$ゲージ理論を構築するための強力なツールである。
ループ量子重力(LQG)では、高次元ヒルベルト空間を扱う計算問題によって進歩は制限されているものの、多くの有望な予測が得られた。
より一般的な構成を調べるために、スピンネットワーク状態を量子回路として表現することで量子計算手法を適用することができる。
本稿では,従来よりも少ない量子ビット数を用いる4価イジングスピンネットワークのための量子回路構築法について紹介する。
これは量子回路の実装に実用的な意味を持つ。
また,10ノードのイジングスピンネットワーク状態の構築など,様々な例でその手順を実証する。
この手法の鍵となる要素は部分状態の変分移動であり、多くの例を通して説明する。
我々の改良された構成は、量子重力研究における量子コンピューティング手法の可能性をさらに探究するための有望な道筋を提供する。 Spin network states are a powerful tool for constructing the $SU(2)$ gauge theories on a graph. In loop quantum gravity (LQG), they have yielded many promising predictions, although progress has been limited by the computational challenge of dealing with high-dimensional Hilbert spaces. To explore more general configurations, quantum computing methods can be applied by representing spin network states as quantum circuits. In this article, we introduce an improved method for constructing quantum circuits for 4-valent Ising spin networks, which utilizes a smaller number of qubits than previous approaches. This has practical implications for the implementation of quantum circuits. We also demonstrate the procedure with various examples, including the construction of a 10-node Ising spin network state. The key ingredient of the method is the variational transfer of partial states, which we illustrate through numerous examples. Our improved construction provides a promising avenue for further exploring the potential of quantum computing methods in quantum gravity research. | 翻訳日:2023-04-10 12:25:38 公開日:2023-04-07 |
# 精密デジタル歯科用非バイアス歯科テンプレートとパラメトリック歯科モデルの構築 Construction of unbiased dental template and parametric dental model for precision digital dentistry ( http://arxiv.org/abs/2304.03556v1 ) ライセンス: Link先を確認 | Lei Ma, Jingyang Zhang, Ke Deng, Peng Xue, Zhiming Cui, Yu Fang, Minhui Tang, Yue Zhao, Min Zhu, Zhongxiang Ding, Dinggang Shen | (参考訳) 歯科用テンプレートおよびパラメトリック歯科模型は, デジタル歯科における各種応用において重要なツールである。
しかし, 複雑な解剖学的, 形態学的構造と, 歯の体積比の低さから, 無バイアスの歯科用テンプレートと正確なパラメトリック歯科用モデルの構築は難しい課題である。
本研究では, CBCT画像から正確な歯科用アトラスを作製し, 歯のセグメンテーションを誘導するアンバイアスド歯科用テンプレートを開発した。
まず,この課題に対処するために,画像トリミング,画像マスキング,セグメンテーション強度再構成などのCBCT画像とそのセグメンテーション画像を強化することを提案する。
そして、さらに、セグメンテーション画像を使用して、cbct画像との共登録を行い、偏りのない歯科テンプレートを生成する正確な歯科アトラスを生成する。
歯科用非バイアスドテンプレートを用いて歯科用モデル間のポイント・ツー・ポイント対応を推定し,主成分分析を用いてパラメトリック歯科用モデルの形状部分空間を決定することでパラメトリック歯科用モデルを構築した。
実際の被験者の合計159のcbct画像を収集して構成を行う。
実験により, 歯科用不偏型テンプレートおよびパラメトリックモデルの構築に本手法の有効性が示された。
開発した歯科用テンプレートとパラメトリックな歯科用モデルは、https://github.com/marvin0724/teeth_templateで入手できる。 Dental template and parametric dental models are important tools for various applications in digital dentistry. However, constructing an unbiased dental template and accurate parametric dental models remains a challenging task due to the complex anatomical and morphological dental structures and also low volume ratio of the teeth. In this study, we develop an unbiased dental template by constructing an accurate dental atlas from CBCT images with guidance of teeth segmentation. First, to address the challenges, we propose to enhance the CBCT images and their segmentation images, including image cropping, image masking and segmentation intensity reassigning. Then, we further use the segmentation images to perform co-registration with the CBCT images to generate an accurate dental atlas, from which an unbiased dental template can be generated. By leveraging the unbiased dental template, we construct parametric dental models by estimating point-to-point correspondences between the dental models and employing Principal Component Analysis to determine shape subspaces of the parametric dental models. A total of 159 CBCT images of real subjects are collected to perform the constructions. Experimental results demonstrate effectiveness of our proposed method in constructing unbiased dental template and parametric dental model. The developed dental template and parametric dental models are available at https://github.com/Marvin0724/Teeth_template. | 翻訳日:2023-04-10 12:25:23 公開日:2023-04-07 |
# 物理インフォームドニューラルネットワークによる障害物関係方程式のモデル化 A physics-informed neural network framework for modeling obstacle-related equations ( http://arxiv.org/abs/2304.03552v1 ) ライセンス: Link先を確認 | Hamid El Bahja, Jan Christian Hauffen, Peter Jung, Bubacarr Bah, Issa Karambal | (参考訳) ディープラーニングは、いくつかのアプリケーションで非常に成功した。
それでも、偏微分方程式(PDE)の解法は、TensorFlowやPyTorchといった最先端の機械学習ライブラリに最近関心を寄せているだけである。
物理インフォームドニューラルネットワーク(PINN)は、スパースデータとノイズデータに基づいて偏微分方程式を解く魅力的なツールである。
ここでは、PINNを拡張して障害物関連PDEを解くことで、与えられた障害物の上にある解を正確に近似できる数値的な方法を必要とするため、大きな計算課題をもたらす。
提案したPINNの性能は、正規および不規則な障害物を受ける線形および非線形PDEの複数のシナリオで実証される。 Deep learning has been highly successful in some applications. Nevertheless, its use for solving partial differential equations (PDEs) has only been of recent interest with current state-of-the-art machine learning libraries, e.g., TensorFlow or PyTorch. Physics-informed neural networks (PINNs) are an attractive tool for solving partial differential equations based on sparse and noisy data. Here extend PINNs to solve obstacle-related PDEs which present a great computational challenge because they necessitate numerical methods that can yield an accurate approximation of the solution that lies above a given obstacle. The performance of the proposed PINNs is demonstrated in multiple scenarios for linear and nonlinear PDEs subject to regular and irregular obstacles. | 翻訳日:2023-04-10 12:24:59 公開日:2023-04-07 |
# フェムト秒レーザーによるシリコンオン絶縁体基板中のgおよびw中心の生成 Femtosecond laser induced creation of G and W-centers in silicon-on-insulator substrates ( http://arxiv.org/abs/2304.03551v1 ) ライセンス: Link先を確認 | Hugo Quard, Mario Khoury, Andong Wang, Tobias Herzig, Jan Meijer, Sebastian Pezzagna, S\'ebastien Cueff, David Grojo, Marco Abbarchi, Hai Son Nguyen, Nicolas Chauvin and Thomas Wood | (参考訳) シリコンにおける蛍光欠陥の生成は、量子フォトニックデバイスの既存技術への統合の視点を確立するための重要な一歩である。
ここでは, フェムト秒レーザーアニーリングにより, 12c+イオンを注入した市販シリコン絶縁体 (soi) 上でのwおよびg中心の生成を示す。
その品質は、従来のインプラントプロセスで得られたのと同じエミッタに匹敵する;光発光放射寿命、ゼロフォノン線(zpl)の拡幅、温度によるそれらの量の進化によって定量化される。
さらに,これらの欠陥を炭素注入することなく生成し,w中心の放出を増強しながら焼鈍することでg中心を消去できることを示した。
これらの実証は、シリコンにおける量子エミッタの決定論的およびオペランド生成に関係している。 The creation of fluorescent defects in silicon is a key stepping stone towards assuring the integration perspectives of quantum photonic devices into existing technologies. Here we demonstrate the creation, by femtosecond laser annealing, of W and G-centers in commercial silicon on insulator (SOI) previously implanted with 12C+ ions. Their quality is comparable to that found for the same emitters obtained with conventional implant processes; as quantified by the photoluminescence radiative lifetime, the broadening of their zero-phonon line (ZPL) and the evolution of these quantities with temperature. In addition to this, we show that both defects can be created without carbon implantation and that we can erase the G-centers by annealing while enhancing the W-centers' emission. These demonstrations are relevant to the deterministic and operando generation of quantum emitters in silicon. | 翻訳日:2023-04-10 12:24:48 公開日:2023-04-07 |
# ロバストなSAR車両認識のための階層的異方性アライメントネットワーク Hierarchical Disentanglement-Alignment Network for Robust SAR Vehicle Recognition ( http://arxiv.org/abs/2304.03550v1 ) ライセンス: Link先を確認 | Weijie Li, Wei Yang, Li Li, Wenpeng Zhang and Yongxiang Liu | (参考訳) 合成開口レーダ(SAR)撮像特性により、SAR車両認識は、小さなデータセットから識別的かつ堅牢な目標特徴を抽出する問題に直面している。
ディープラーニングは、MSTARデータセットで素晴らしいパフォーマンスを示している。
しかし、背景相関のような小さなデータセットにおけるデータバイアスは、これらの手法の因果性を損なう。
さらに、SARの異なる動作条件は、撮像結果のターゲットシグネチャと背景乱雑な変化をもたらす。
しかし、多くのディープラーニングベースの手法は、現在の実験環境では、ターゲットや背景の変化に対するロバスト性のみを検証する。
本稿では,階層的異方性調整ネットワーク(hdanet)と呼ばれる新しいドメインアライメントフレームワークを提案し,特徴の因果性とロバスト性を高める。
正確には、HDANetは3つの部分で構成されている。 最初の部分は、データ拡張を使用して、ドメインアライメントのためのシグネチャのバリエーションを生成する。
第2部は、マルチタスク支援マスクを介して目標特徴を歪め、非因果クラッタがその後のアライメントと認識に干渉しないようにする。
第3に、ロバストな対象特徴を抽出するために領域アライメントにコントラスト損失を用い、コントラスト損失と特徴弁別との間の競合を緩和するためにシムシム構造を適用する。
最後に,提案手法はmstarのマルチターゲット,センサ,環境変数に対して高いロバスト性を示す。
注目すべきは、ターゲットとバックグラウンドの変動に対するロバスト性を検証するために、新しいシーンバリアントを追加することだ。
さらに、サリエンシマップとシェープリー値は質的に定量的に因果性を示す。
我々のコードは \url{https://github.com/waterdisappear/SAR-ATR-HDANet} で利用可能です。 Due to Synthetic Aperture Radar (SAR) imaging characteristics, SAR vehicle recognition faces the problem of extracting discriminative and robust target features from a small dataset. Deep learning has shown impressive performance on the MSTAR dataset. However, data bias in a small dataset, such as background correlation, impairs the causality of these methods, i.e., discriminative features contain target and background differences. Moreover, different operating conditions of SAR lead to target signatures and background clutter variations in imaging results. However, many deep learning-based methods only verify robustness to target or background variations in the current experimental setting. In this paper, we propose a novel domain alignment framework named Hierarchical Disentanglement-Alignment Network (HDANet) to enhance features' causality and robustness. Concisely, HDANet consists of three parts: The first part uses data augmentation to generate signature variations for domain alignment. The second part disentangles the target features through a multitask-assisted mask to prevent non-causal clutter from interfering with subsequent alignment and recognition. Thirdly, a contrastive loss is employed for domain alignment to extract robust target features, and the SimSiam structure is applied to mitigate conflicts between contrastive loss and feature discrimination. Finally, the proposed method shows high robustness across MSTAR's multiple target, sensor, and environment variants. Noteworthy, we add a new scene variant to verify the robustness to target and background variations. Moreover, the saliency map and Shapley value qualitatively and quantitatively demonstrate causality. Our code is available in \url{https://github.com/waterdisappear/SAR-ATR-HDANet}. | 翻訳日:2023-04-10 12:24:33 公開日:2023-04-07 |
# GEMINI:抽象テキスト要約のための文レベル記述スタイルの制御 GEMINI: Controlling the Sentence-level Writing Style for Abstractive Text Summarization ( http://arxiv.org/abs/2304.03548v1 ) ライセンス: Link先を確認 | Guangsheng Bao, Zebin Ou, and Yue Zhang | (参考訳) 人間の専門家は、文書に文章を書き換えたり、複数の文を融合して要約文を生成するなど、異なる技法で要約を書く。
これらの技法は柔軟であり、単一の手法で模倣することは困難である。
そこで本稿では,文の書き換えと融合を模倣するリライトとfuserを統合した適応モデルであるgeminiを提案する。
GEMINIは、特定の文書文を書き直したり、スクラッチから要約文を生成することを適応的に選択する。
実験により、我々の適応的アプローチは、様々なベンチマークデータセット、特にデータセットがバランスのとれたスタイル分布を持つ場合に、純粋に抽象的で書き直しベースラインよりも優れていることが示されている。
興味深いことに、経験的な結果から、各要約文の人文スタイルは、その文脈から常に予測可能であることが示される。 Human experts write summaries using different techniques, including rewriting a sentence in the document or fusing multiple sentences to generate a summary sentence. These techniques are flexible and thus difficult to be imitated by any single method. To address this issue, we propose an adaptive model, GEMINI, that integrates a rewriter and a fuser to mimic the sentence rewriting and fusion techniques, respectively. GEMINI adaptively chooses to rewrite a specific document sentence or generate a summary sentence from scratch. Experiments demonstrate that our adaptive approach outperforms the pure abstractive and rewriting baselines on various benchmark datasets, especially when the dataset has a balanced distribution of styles. Interestingly, empirical results show that the human writing style of each summary sentence is consistently predictable given its context. | 翻訳日:2023-04-10 12:24:04 公開日:2023-04-07 |
# AIモデルの分類:方法と選択 AI Model Disgorgement: Methods and Choices ( http://arxiv.org/abs/2304.03545v1 ) ライセンス: Link先を確認 | Alessandro Achille, Michael Kearns, Carson Klingenberg, Stefano Soatto | (参考訳) データの責任ある使用は、機械学習(ML)の実装に不可欠である。
ml開発者はデータセットの収集とキュレーションを慎重に行なわなければなりません。
また、知的財産権を尊重し、個人のプライバシーを保護し、倫理的な方法でデータを使用する必要がある。
過去数年間、MLモデルはサイズと複雑さが大幅に増加した。
これらのモデルはトレーニングに非常に大量のデータと計算能力を必要とし、トレーニングコーパスの欠陥は、モデルをスクラッチから再トレーニングすることで自明に修復できない。
トレーニングデータに関する高度な制御と、トレーニングコーパスが適切に構成されていることを保証するための多大な努力にもかかわらず、モデルに必要なデータ量は、トレーニングコーパスを構成する各ダムを手動で検査することが困難である。
コーパスデータの欠陥をトレーニングするための潜在的な修正のひとつは、不適切な使用データだけでなく、不適切な使用データがmlモデルの任意のコンポーネントに与える影響の排除である。
モデルデゴージメント技術は、バイアスや毒性の低減、忠実度の向上、知的財産の責任ある使用の確保など、幅広い問題に対処するために使用することができる。
本稿では,現代のMLシステムに適用可能な分類法について紹介する。
特に,スクラッチから再トレーニングする必要のない方法で,トレーニングモデルにおけるデータの“影響の排除”の意味について検討する。 Responsible use of data is an indispensable part of any machine learning (ML) implementation. ML developers must carefully collect and curate their datasets, and document their provenance. They must also make sure to respect intellectual property rights, preserve individual privacy, and use data in an ethical way. Over the past few years, ML models have significantly increased in size and complexity. These models require a very large amount of data and compute capacity to train, to the extent that any defects in the training corpus cannot be trivially remedied by retraining the model from scratch. Despite sophisticated controls on training data and a significant amount of effort dedicated to ensuring that training corpora are properly composed, the sheer volume of data required for the models makes it challenging to manually inspect each datum comprising a training corpus. One potential fix for training corpus data defects is model disgorgement -- the elimination of not just the improperly used data, but also the effects of improperly used data on any component of an ML model. Model disgorgement techniques can be used to address a wide range of issues, such as reducing bias or toxicity, increasing fidelity, and ensuring responsible usage of intellectual property. In this paper, we introduce a taxonomy of possible disgorgement methods that are applicable to modern ML systems. In particular, we investigate the meaning of "removing the effects" of data in the trained model in a way that does not require retraining from scratch. | 翻訳日:2023-04-10 12:23:50 公開日:2023-04-07 |
# InfoCTM: 言語横断トピックモデリングにおける相互情報最大化の視点 InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling ( http://arxiv.org/abs/2304.03544v1 ) ライセンス: Link先を確認 | Xiaobao Wu, Xinshuai Dong, Thong Nguyen, Chaoqun Liu, Liangming Pan, Anh Tuan Luu | (参考訳) 言語横断的話題モデルが言語横断的テキスト分析に広く普及している。
しかし、既存の手法の多くは、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に苦しむ。
本稿では,相互情報を用いた言語間トピックモデリング(InfoCTM)を提案する。
従来の作業の直接的なアライメントの代わりに,相互情報手法によるトピックアライメントを提案する。
これは、トピックを適切に整列させ、繰り返しトピック問題を緩和する単語の縮退したトピック表現を防止するための正規化として機能する。
また、低被覆辞書問題に対処するため、与えられた辞書の翻訳を超えたトピックアライメントのために、よりリンクされた言語間単語を見つける言語間語彙リンク手法を提案する。
英語,中国語,日本語のデータセットを広範囲に実験した結果,本手法は最先端のベースラインよりも優れており,よりコヒーレントで多彩なトピックを生成でき,言語間分類タスクの転送性も向上している。 Cross-lingual topic models have been prevalent for cross-lingual text analysis by revealing aligned latent topics. However, most existing methods suffer from producing repetitive topics that hinder further analysis and performance decline caused by low-coverage dictionaries. In this paper, we propose the Cross-lingual Topic Modeling with Mutual Information (InfoCTM). Instead of the direct alignment in previous work, we propose a topic alignment with mutual information method. This works as a regularization to properly align topics and prevent degenerate topic representations of words, which mitigates the repetitive topic issue. To address the low-coverage dictionary issue, we further propose a cross-lingual vocabulary linking method that finds more linked cross-lingual words for topic alignment beyond the translations of a given dictionary. Extensive experiments on English, Chinese, and Japanese datasets demonstrate that our method outperforms state-of-the-art baselines, producing more coherent, diverse, and well-aligned topics and showing better transferability for cross-lingual classification tasks. | 翻訳日:2023-04-10 12:23:28 公開日:2023-04-07 |
# 観測可能なエッジラベルと観測不可能なノードラベルを持つ二部グラフのグラフ推定 Graphon Estimation in bipartite graphs with observable edge labels and unobservable node labels ( http://arxiv.org/abs/2304.03590v1 ) ライセンス: Link先を確認 | Etienne Donier-Meroz, Arnak S. Dalalyan, Francis Kramarz, Philippe Chon\'e, Xavier D'Haultfoeuille | (参考訳) 多くの現実世界のデータセットは、異なる性質の2つのエンティティ(webユーザがwebページを訪問する回数、対象の学生の成績、患者の医師の評価など)間の相互作用に対応する行列形式で提示することができる。
本稿では、上記の相互作用が各エンティティを記述する観測不能な潜在変数によって決定されると仮定する。
我々の目的は、観測不能変数からデータ行列の条件付き期待値を推定することである。
これはgraphonと呼ばれる双変量関数の推定問題として提示される。
区分定数およびh\"older-continuous graphonsの場合について検討する。
最小二乗推定値と指数重み付き集合に対する有限なサンプルリスク境界を確立する。
これらの境界は、データセットのサイズ、相互作用の最大強度、ノイズレベルに対する推定誤差の依存性を強調する。
解析された最小二乗推定器は難解であるため、最小二乗推定器の近似を計算するためにロイドの交代最小化アルゴリズムの適応を提案する。
最後に,合成データセット上でのグラフトン推定器の実験的性能を示すための数値実験を行った。 Many real-world data sets can be presented in the form of a matrix whose entries correspond to the interaction between two entities of different natures (number of times a web user visits a web page, a student's grade in a subject, a patient's rating of a doctor, etc.). We assume in this paper that the mentioned interaction is determined by unobservable latent variables describing each entity. Our objective is to estimate the conditional expectation of the data matrix given the unobservable variables. This is presented as a problem of estimation of a bivariate function referred to as graphon. We study the cases of piecewise constant and H\"older-continuous graphons. We establish finite sample risk bounds for the least squares estimator and the exponentially weighted aggregate. These bounds highlight the dependence of the estimation error on the size of the data set, the maximum intensity of the interactions, and the level of noise. As the analyzed least-squares estimator is intractable, we propose an adaptation of Lloyd's alternating minimization algorithm to compute an approximation of the least-squares estimator. Finally, we present numerical experiments in order to illustrate the empirical performance of the graphon estimator on synthetic data sets. | 翻訳日:2023-04-10 12:16:52 公開日:2023-04-07 |
# 大規模ディープラーニングモデルの効率的学習について:文献的考察 On Efficient Training of Large-Scale Deep Learning Models: A Literature Review ( http://arxiv.org/abs/2304.03589v1 ) ライセンス: Link先を確認 | Li Shen, Yan Sun, Zhiyuan Yu, Liang Ding, Xinmei Tian, Dacheng Tao | (参考訳) ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
膨大な量のデータでトレーニングされた大規模モデルを使用することは、実用的な応用、産業生産性の向上、社会開発促進に多大な期待を抱いている。
計算能力に対する需要が増大する中で、効率的なトレーニングを探索する研究が数多く行われているが、深層学習モデルの加速技術に関する包括的な要約は、いまだに期待されている。
本調査では,トレーニングアクセラレーションに関する詳細なレビューを行う。
We consider the fundamental update formulation and split its basic components into five main perspectives: (1) data-centric: including dataset regularization, data sampling, and data-centric curriculum learning techniques, which can significantly reduce the computational complexity of the data samples; (2) model-centric, including acceleration of basic modules, compression training, model initialization and model-centric curriculum learning techniques, which focus on accelerating the training via reducing the calculations on parameters; (3) optimization-centric, including the selection of learning rate, the employment of large batchsize, the designs of efficient objectives, and model average techniques, which pay attention to the training policy and improving the generality for the large-scale models; (4) budgeted training, including some distinctive acceleration methods on source-constrained situations; (5) system-centric, including some efficient open-source distributed libraries/systems which provide adequate hardware support for the implementation of acceleration algorithms.
この包括的分類を提示することにより、各成分の一般的なメカニズムとそれらの相互作用を理解するための総合的なレビューを行う。 The field of deep learning has witnessed significant progress, particularly in computer vision (CV), natural language processing (NLP), and speech. The use of large-scale models trained on vast amounts of data holds immense promise for practical applications, enhancing industrial productivity and facilitating social development. With the increasing demands on computational capacity, though numerous studies have explored the efficient training, a comprehensive summarization on acceleration techniques of training deep learning models is still much anticipated. In this survey, we present a detailed review for training acceleration. We consider the fundamental update formulation and split its basic components into five main perspectives: (1) data-centric: including dataset regularization, data sampling, and data-centric curriculum learning techniques, which can significantly reduce the computational complexity of the data samples; (2) model-centric, including acceleration of basic modules, compression training, model initialization and model-centric curriculum learning techniques, which focus on accelerating the training via reducing the calculations on parameters; (3) optimization-centric, including the selection of learning rate, the employment of large batchsize, the designs of efficient objectives, and model average techniques, which pay attention to the training policy and improving the generality for the large-scale models; (4) budgeted training, including some distinctive acceleration methods on source-constrained situations; (5) system-centric, including some efficient open-source distributed libraries/systems which provide adequate hardware support for the implementation of acceleration algorithms. By presenting this comprehensive taxonomy, our survey presents a comprehensive review to understand the general mechanisms within each component and their joint interaction. | 翻訳日:2023-04-10 12:16:33 公開日:2023-04-07 |
# 機械IDを用いたコントラスト学習事前学習による音声表現による異常音検出 Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining ( http://arxiv.org/abs/2304.03588v1 ) ライセンス: Link先を確認 | Jian Guan, Feiyang Xiao, Youde Liu, Qiaoxi Zhu, Wenwu Wang | (参考訳) 異常音検出のための既存のコントラスト学習手法は、サンプルの補間(例えば、時間または周波数マスキング)のコントラストを用いて、各音声サンプルの音声表現を洗練する。
しかし、機械音の物理的特性の欠如により検出性能が制限されるため、強化されたデータに偏っている可能性がある。
本稿では,コントラスト学習を用いて,各音声サンプルではなく,各マシンidの音声表現を洗練する。
提案する二段階学習法は、機械idと自己教師付きid分類器を組み込んだ音声表現モデルの事前学習にコントラスト学習を用いるとともに、同一のidから音声特徴の関係性を高める。
実験の結果,本手法はDCASE 2020 Challenge Task2データセットの総合異常検出性能と安定性において,コントラスト学習や自己教師付き分類を用いた最先端手法よりも優れていた。 Existing contrastive learning methods for anomalous sound detection refine the audio representation of each audio sample by using the contrast between the samples' augmentations (e.g., with time or frequency masking). However, they might be biased by the augmented data, due to the lack of physical properties of machine sound, thereby limiting the detection performance. This paper uses contrastive learning to refine audio representations for each machine ID, rather than for each audio sample. The proposed two-stage method uses contrastive learning to pretrain the audio representation model by incorporating machine ID and a self-supervised ID classifier to fine-tune the learnt model, while enhancing the relation between audio features from the same ID. Experiments show that our method outperforms the state-of-the-art methods using contrastive learning or self-supervised classification in overall anomaly detection performance and stability on DCASE 2020 Challenge Task2 dataset. | 翻訳日:2023-04-10 12:16:11 公開日:2023-04-07 |
# ArmanTTS単一話者ペルシャデータセット ArmanTTS single-speaker Persian dataset ( http://arxiv.org/abs/2304.03585v1 ) ライセンス: Link先を確認 | Mohammd Hasan Shamgholi, Vahid Saeedi, Javad Peymanfard, Leila Alhabib, Hossein Zeinali | (参考訳) TTS(text-to-speech)は、ディープラーニング手法を用いた適切なモデリングによって実現可能な複雑なプロセスである。
ディープラーニングモデルを実装するには、適切なデータセットが必要である。
この分野でペルシャ語のための作業は少ないので、本論文では単一の話者データセットであるarmanttsを紹介する。
本データセットの特徴を多種多様なデータセットの特徴と比較し,ペルシア語テキストから音声への変換モデルを教えるために必要な基準を満たすことを証明した。
また,Tacotron 2 と HiFi GAN を組み合わせて,音素を入力として受信可能なモデルの設計を行い,出力を対応する音声とする。
実音声からMOSの4.0値, ボコーダ予測により3.87値, TTSモデルにより生成された合成音声で2.98値に達した。 TTS, or text-to-speech, is a complicated process that can be accomplished through appropriate modeling using deep learning methods. In order to implement deep learning models, a suitable dataset is required. Since there is a scarce amount of work done in this field for the Persian language, this paper will introduce the single speaker dataset: ArmanTTS. We compared the characteristics of this dataset with those of various prevalent datasets to prove that ArmanTTS meets the necessary standards for teaching a Persian text-to-speech conversion model. We also combined the Tacotron 2 and HiFi GAN to design a model that can receive phonemes as input, with the output being the corresponding speech. 4.0 value of MOS was obtained from real speech, 3.87 value was obtained by the vocoder prediction and 2.98 value was reached with the synthetic speech generated by the TTS model. | 翻訳日:2023-04-10 12:15:55 公開日:2023-04-07 |
# DETRのための言語対応多重データセット検出 Language-aware Multiple Datasets Detection Pretraining for DETRs ( http://arxiv.org/abs/2304.03580v1 ) ライセンス: Link先を確認 | Jing Hao, Song Chen, Xiaodi Wang, Shumin Han | (参考訳) 大規模なデータセットを事前トレーニングすることで、オブジェクト検出の性能が向上する一方で、オブジェクト検出のための注釈付きデータセットは、高い労力コストのためスケールアップが難しい。
当社が所有するデータセットは,独立した多くのデータセットであり,データボリュームと多様性を高めるために,データセットの集約全体にわたってモデルを事前トレーニングすることが望ましいのです。
本稿では,手動ラベル空間の統合を必要とせず,複数のデータセットを用いてMETRと呼ばれるDETRライクな検出器を事前学習するための強力なフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
具体的には、画像に含まれる潜在的なカテゴリを抽出し、これらのカテゴリを言語埋め込みによって異なるクエリに割り当てるカテゴリ抽出モジュールを設計する。
各クエリは、クラス固有のオブジェクトを予測する責任のみを負う。
また,新たな検出パラダイムに適応するため,同じカテゴリに割り当てられた問合せに基礎的真理を限定するグループ二部マッチング戦略を提案する。
広範囲な実験により、METRはマルチタスクのジョイントトレーニングまたはプレトレイン・ファインチューン・パラダイムにおいて異常な結果をもたらすことが示されている。
特に、トレーニング済みのモデルは高い柔軟性を持ち、coco val2017ベンチマークで様々なdetrライクな検出器の性能を高めています。
この論文が公開された後、コードは利用可能になる。 Pretraining on large-scale datasets can boost the performance of object detectors while the annotated datasets for object detection are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly pretrain models across aggregation of datasets to enhance data volume and diversity. In this paper, we propose a strong framework for utilizing Multiple datasets to pretrain DETR-like detectors, termed METR, without the need for manual label spaces integration. It converts the typical multi-classification in object detection into binary classification by introducing a pre-trained language model. Specifically, we design a category extraction module for extracting potential categories involved in an image and assign these categories into different queries by language embeddings. Each query is only responsible for predicting a class-specific object. Besides, to adapt our novel detection paradigm, we propose a group bipartite matching strategy that limits the ground truths to match queries assigned to the same category. Extensive experiments demonstrate that METR achieves extraordinary results on either multi-task joint training or the pretrain & finetune paradigm. Notably, our pre-trained models have high flexible transferability and increase the performance upon various DETR-like detectors on COCO val2017 benchmark. Codes will be available after this paper is published. | 翻訳日:2023-04-10 12:15:32 公開日:2023-04-07 |
# MAX K-CUT問題に対するネイティブ測定に基づくQAOAアルゴリズム A native measurement-based QAOA algorithm, applied to the MAX K-CUT problem ( http://arxiv.org/abs/2304.03576v1 ) ライセンス: Link先を確認 | Massimiliano Proietti, Filippo Cerocchi, Massimiliano Dispenza | (参考訳) 計測ベースの量子コンピューティング(mbqc)のフレームワーク内でプログラムされたフォトニック量子コンピュータは、現在有用な量子優位性を求める競争においてゲートベースのプラットフォームと合致しており、近い将来この目標を達成するための主要な候補としていくつかのアルゴリズムが登場した。
しかし、これらのアルゴリズムの大部分は、フォトニックプラットフォームと互換性のないゲートベースの計算モデルでのみ表現される。
ゲートベースのアルゴリズムをmbqcフレームワークに変換する方法は存在するが、リソースコストの観点からは必ずしも最適ではない。
本研究では,量子近似最適化アルゴリズム(QAOA)を実行するMBQCアルゴリズムを提案する。
さらに、MBQC-QAOAアルゴリズムをMAX$K$-CUT問題に適用し、コストハミルトニアンとその制約をMBQCモデルで容易に実装可能な形で表現する。
結論として,このアルゴリズムのリソースコストを,ゲートベースのqaoaアルゴリズムをmbqcルールに変換する場合と比較し,30倍の改善を示す。
われわれの研究は、ゲートベースとMBQCの短期的アルゴリズムのギャップを埋めることに貢献し、ハードウェア開発の現状を反映していない。 Photonic quantum computers, programmed within the framework of the measurement-based quantum computing (MBQC), currently concur with gate-based platforms in the race towards useful quantum advantage, and some algorithms emerged as main candidates to reach this goal in the near term. Yet, the majority of these algorithms are only expressed in the gate-based model of computation, which is incompatible with photonic platforms. Methods to translate gate-based algorithms into the MBQC framework exist, but they are not always optimal in terms of resource cost. In our work, we propose an MBQC algorithm to run the Quantum Approximate Optimization Algorithm (QAOA). Furthermore, we apply the MBQC-QAOA algorithm to the MAX $K$-CUT problem, working for all values of $K$, expressing the cost Hamiltonian and its constraints in a form easily implementable in the MBQC model. We conclude analyzing the resource-cost of our algorithm, compared to the case of translating a gate-based QAOA algorithm into MBQC rules showing up to a 30-fold improvement. With our work, we contribute to close the gap between gate-based and MBQC near-term algorithms, a gap not reflecting the current status of the hardware development. | 翻訳日:2023-04-10 12:14:54 公開日:2023-04-07 |
# コントラストベース変動モデルによる病理画像のポイントアノテーションを用いた弱教師付きセグメンテーション Weakly supervised segmentation with point annotations for histopathology images via contrast-based variational model ( http://arxiv.org/abs/2304.03572v1 ) ライセンス: Link先を確認 | Hongrun Zhang, Liam Burrows, Yanda Meng, Declan Sculthorpe, Abhik Mukherjee, Sarah E Coupland, Ke Chen, Yalin Zheng | (参考訳) イメージセグメンテーションは、画像と視覚の分野における基本的な課題である。
セグメンテーションのための教師付きディープラーニングは、注釈付きラベルで十分なトレーニングデータが得られると、別途成功した。
しかし、特に、対象領域が通常高い形態変化と不規則な形状を持つ病理組織像では、アノテーションを得るのに費用がかかることが知られている。
したがって、ポイントのスパースアノテーションによる弱い教師付き学習は、アノテーションのワークロードを減らすことを約束している。
本研究では,病理組織像の深部セグメンテーションモデルをトレーニングするための信頼性の高い相補的指導として機能する,セグメンテーション結果を生成するコントラストベース変分モデルを提案する。
本手法は,病理組織像における対象領域の共通特性を考察し,エンドツーエンドで訓練することができる。
より局所的に一貫性があり、より滑らかな境界分割を生成することができ、ラベルのない'novel'領域よりも頑丈である。
2つの異なるヒストロジーデータセットに関する実験は、その効果と効率を以前のモデルと比較して示している。 Image segmentation is a fundamental task in the field of imaging and vision. Supervised deep learning for segmentation has achieved unparalleled success when sufficient training data with annotated labels are available. However, annotation is known to be expensive to obtain, especially for histopathology images where the target regions are usually with high morphology variations and irregular shapes. Thus, weakly supervised learning with sparse annotations of points is promising to reduce the annotation workload. In this work, we propose a contrast-based variational model to generate segmentation results, which serve as reliable complementary supervision to train a deep segmentation model for histopathology images. The proposed method considers the common characteristics of target regions in histopathology images and can be trained in an end-to-end manner. It can generate more regionally consistent and smoother boundary segmentation, and is more robust to unlabeled `novel' regions. Experiments on two different histology datasets demonstrate its effectiveness and efficiency in comparison to previous models. | 翻訳日:2023-04-10 12:14:25 公開日:2023-04-07 |
# 流体流れの低次モデリングのための$\beta$-variational autoencoderとtransformer $\beta$-Variational autoencoders and transformers for reduced-order modelling of fluid flows ( http://arxiv.org/abs/2304.03571v1 ) ライセンス: Link先を確認 | Alberto Solera-Rico (1 and 2), Carlos Sanmiguel Vila (1 and 2), M. A. G\'omez (2), Yuning Wang (4), Abdulrahman Almashjary (3), Scott T. M. Dawson (3), Ricardo Vinuesa (4) (1: Aerospace Engineering Research Group, Universidad Carlos III de Madrid, Legan\'es, Spain 2: Subdirectorate General of Terrestrial Systems, Spanish National Institute for Aerospace Technology (INTA), San Mart\'in de la Vega, Spain 3: Mechanical, Materials, and Aerospace Engineering Department, Illinois Institute of Technology, Chicago, USA 4: FLOW, Engineering Mechanics, KTH Royal Institute of Technology, Stockholm, Sweden) | (参考訳) 変分オートエンコーダ(VAE)アーキテクチャは、カオス流体の低次モデル(ROM)を開発する可能性がある。
本研究では,周期的およびカオス的な2次元粘性流からの数値データを用いて,$\beta$-vae とtransformer の組み合わせを用いて,コンパクトおよび近角角角形romを学習する手法を提案する。
この$\beta$-vae は、流れ速度のコンパクトな潜在性表現を学ぶように訓練され、トランスフォーマーは、潜在性空間における時間的ダイナミクスを予測するように訓練される。
潜在空間における不連続表現を学ぶために$\beta$-vaeを用いて、適切な直交分解で観察されるような特徴を持つが、より効率的な表現を持つより解釈可能なフローモデルを得る。
Poincar\'e マップを用いて,本手法が他の予測モデルよりも優れた流れのダイナミックスを捉えることができることを示す。
提案手法は気象予報,構造力学,生物医学工学など他の分野にも応用できる可能性がある。 Variational autoencoder (VAE) architectures have the potential to develop reduced-order models (ROMs) for chaotic fluid flows. We propose a method for learning compact and near-orthogonal ROMs using a combination of a $\beta$-VAE and a transformer, tested on numerical data from a two-dimensional viscous flow in both periodic and chaotic regimes. The $\beta$-VAE is trained to learn a compact latent representation of the flow velocity, and the transformer is trained to predict the temporal dynamics in latent space. Using the $\beta$-VAE to learn disentangled representations in latent-space, we obtain a more interpretable flow model with features that resemble those observed in the proper orthogonal decomposition, but with a more efficient representation. Using Poincar\'e maps, the results show that our method can capture the underlying dynamics of the flow outperforming other prediction models. The proposed method has potential applications in other fields such as weather forecasting, structural dynamics or biomedical engineering. | 翻訳日:2023-04-10 12:14:09 公開日:2023-04-07 |
# 異方的に閉じ込められた超流動におけるソリトン渦のダイナミクス Dynamics of a solitonic vortex in an anisotropically trapped superfluid ( http://arxiv.org/abs/2304.03569v1 ) ライセンス: Link先を確認 | J. M. Gomez Llorente and J. Plata | (参考訳) 非軸対称調和トラップに閉じ込められた超流動中のソリトン渦(sv)のダイナミクスを解析的に研究した。
この研究は、最近の原子ボースとフェルミ超流動の実験で観測されたsvの振動におけるトラップ異方性の役割を分析するための枠組みを提供する。
共通かつ統計に依存した特徴の出現は、両方の種類の流体に対する統一的なアプローチにさかのぼる。
我々の記述は流体力学の形式論に基づいており、変分アンサッツの動的パラメータとして渦の位置を組み込んだラグランジアンアプローチに基づいている。
それまでのハミルトニアン画像は、正弦的に追跡された手順で回収される。
結果は実験結果の理解を深める。
観測された特徴のいくつかはトラップの3軸異方性に特異的であることが示されている。
特に, 振動周波数の非自明な依存性をバルト線へのトラッピングトランスバーサルに特徴づける。
この研究は、観測された振動における力学の非線形特性によってもたらされる重要な役割も明らかにしている: 実験条件、周波数、そして、ボルテックスの有効慣性質量は、生成された運動の振幅に大きく依存する。
また,流体の集団モードとの結合が振動周波数の非無視的なシフトを引き起こすことも明らかにした。
SV軌道における微細構造の特徴の出現を予測する。 We analytically study the dynamics of a solitonic vortex (SV) in a superfluid confined in a non-axisymmetric harmonic trap. The study provides a framework for analyzing the role of the trap anisotropy in the oscillation of SVs observed in recent experiments on atomic Bose and Fermi superfluids. The emergence of common and statistics-dependent features is traced in a unified approach to both types of fluid. Our description, built in the hydrodynamic formalism, is based on a Lagragian approach which incorporates the vortex location as dynamical parameters of a variational ansatz. Previous operative Hamiltonian pictures are recovered through a canonically traced procedure. Our results improve the understanding of the experimental findings. Some of the observed features are shown to be specific to the tri-axial anisotropy of the trap. In particular, we characterize the nontrivial dependence of the oscillation frequency on the trapping transversal to the vortical line. The study reveals also the crucial role played by the nonlinear character of the dynamics in the observed oscillation: for the considered experimental conditions, the frequency, and, in turn, the effective inertial mass of the vortex, are found to significantly depend on the amplitude of the generated motion. It is also uncovered how the coupling with collective modes of the fluid induces a non-negligible shift in the oscillation frequency. The appearance of fine-structure features in the SV trajectory is predicted. | 翻訳日:2023-04-10 12:13:48 公開日:2023-04-07 |
# 参照点を用いた進化的多目的最適化における非有界外部アーカイブと人口規模について On the Unbounded External Archive and Population Size in Preference-based Evolutionary Multi-objective Optimization Using a Reference Point ( http://arxiv.org/abs/2304.03566v1 ) ライセンス: Link先を確認 | Ryoji Tanabe | (参考訳) 集団サイズは進化的多目的最適化(EMO)において重要なパラメータであるが、その影響についてはあまり知られていない。
PBEMOにおける非有界な外部アーカイブ(UA)の有効性もよく理解されておらず、UAはこれまでに見いだされたすべての非支配的なソリューションを維持している。
さらに、既存のUAの後処理方法は、意思決定者の好み情報を処理できない。
本稿ではまず,UAから代表的解を選択するための選好ベースの後処理手法を提案する。
次に,PBEMOアルゴリズムの性能に及ぼすUAと人口規模の影響について検討した。
その結果,PBEMOアルゴリズム(例えばR-NSGA-II)の性能は,UAと提案手法を用いて大幅に向上できることがわかった。
PBEMOアルゴリズムは,多くの目的に対しても,機能評価の予算の小さな場合において,一般的に使用されるよりも人口規模が小さい方が有効であることを示す。
実世界の問題に対して, PBEMOアルゴリズムの個体群サイズを選択する上で, 関心領域のサイズがより重要でないことを発見した。 Although the population size is an important parameter in evolutionary multi-objective optimization (EMO), little is known about its influence on preference-based EMO (PBEMO). The effectiveness of an unbounded external archive (UA) in PBEMO is also poorly understood, where the UA maintains all non-dominated solutions found so far. In addition, existing methods for postprocessing the UA cannot handle the decision maker's preference information. In this context, first, this paper proposes a preference-based postprocessing method for selecting representative solutions from the UA. Then, we investigate the influence of the UA and population size on the performance of PBEMO algorithms. Our results show that the performance of PBEMO algorithms (e.g., R-NSGA-II) can be significantly improved by using the UA and the proposed method. We demonstrate that a smaller population size than commonly used is effective in most PBEMO algorithms for a small budget of function evaluations, even for many objectives. We found that the size of the region of interest is a less important factor in selecting the population size of the PBEMO algorithms on real-world problems. | 翻訳日:2023-04-10 12:13:27 公開日:2023-04-07 |
# rspt: 一般化能動物体追跡のための周辺環境の再構築と軌道予測 RSPT: Reconstruct Surroundings and Predict Trajectories for Generalizable Active Object Tracking ( http://arxiv.org/abs/2304.03623v1 ) ライセンス: Link先を確認 | Fangwei Zhong, Xiao Bi, Yudi Zhang, Wei Zhang, Yizhou Wang | (参考訳) アクティブオブジェクト追跡(AOT)は、トラッカーの運動系を自律的に制御することにより、トラッカーとオブジェクトとの間の特定の関係を維持することを目的としている。
AOTには、モバイルロボットや自動運転など、幅広い応用がある。
しかし、さまざまなシナリオで堅牢に動作する一般化可能なアクティブトラッカーの構築は、特に乱雑な障害と多様なレイアウトを持つ非構造化環境では、依然として課題である。
我々は,環境の幾何学構造や対象の力学をモデル化できる状態表現の構築が,この目標を達成する上で不可欠であると主張する。
この課題に対処するために,周囲を再構築し,目標軌跡を予測して構造認識運動表現を形成するフレームワークrsptを提案する。
さらに,非対称なデュエル機構でトレーニングすることで,政策ネットワークの一般化を図る。
我々は,様々なシミュレーションシナリオでrsptを評価し,未知の環境,特に複雑な障害物やレイアウトにおいて,既存の手法よりも優れていることを示す。
また、実世界の設定へのRSPTの転送に成功したことを示す。
プロジェクトサイト: https://sites.google.com/view/aot-rspt.com Active Object Tracking (AOT) aims to maintain a specific relation between the tracker and object(s) by autonomously controlling the motion system of a tracker given observations. AOT has wide-ranging applications, such as in mobile robots and autonomous driving. However, building a generalizable active tracker that works robustly across different scenarios remains a challenge, especially in unstructured environments with cluttered obstacles and diverse layouts. We argue that constructing a state representation capable of modeling the geometry structure of the surroundings and the dynamics of the target is crucial for achieving this goal. To address this challenge, we present RSPT, a framework that forms a structure-aware motion representation by Reconstructing the Surroundings and Predicting the target Trajectory. Additionally, we enhance the generalization of the policy network by training in an asymmetric dueling mechanism. We evaluate RSPT on various simulated scenarios and show that it outperforms existing methods in unseen environments, particularly those with complex obstacles and layouts. We also demonstrate the successful transfer of RSPT to real-world settings. Project Website: https://sites.google.com/view/aot-rspt. | 翻訳日:2023-04-10 12:07:21 公開日:2023-04-07 |
# ChatGPTは人間の価値観に何を返すのか?
記述値理論を用いたChatGPTにおける値バイアスの探索 What does ChatGPT return about human values? Exploring value bias in ChatGPT using a descriptive value theory ( http://arxiv.org/abs/2304.03612v1 ) ライセンス: Link先を確認 | Ronald Fischer, Markus Luczak-Roesch and Johannes A Karl | (参考訳) 大規模言語モデル(LLM)が生成するテキストのイデオロギー的基礎と差別の可能性については懸念されている。
心理学的価値理論を用いてChatGPTの可能な値バイアスをテストする。
そこで我々は,シュワルツ基本値理論(改訂されたポートレート値アンケート,値型定義,値名)から導出した多数の異なるプローブを用いた簡易な実験を考案した。
そこで我々は,OpenAI APIを介してChatGPTに繰り返しテキストを生成し,単語の袋を用いた理論駆動値辞書を用いて生成した値内容のコーパスを解析した。
全体として、明確な価値バイアスの証拠はほとんど見つからなかった。
その結果,生成したテキストに対する十分な構成と識別妥当性が心理モデルの理論的予測と一致し,その価値内容が高い忠実度で出力に伝達されたことが示唆された。
社会的指向の価値観の融合は、これらの価値が言語レベルで明確に区別されていないか、あるいは、この混合が人間のモチベーションの基盤を反映している可能性があることを示唆している。
企業利用と政策立案におけるchatgptの応用と今後の研究動向について,本研究の応用可能性について概説する。
また,人間の価値を理論的に論じる言語モデルを用いて,モチベーションコンテンツの比較的高忠実な再現の可能性を強調した。 There has been concern about ideological basis and possible discrimination in text generated by Large Language Models (LLMs). We test possible value biases in ChatGPT using a psychological value theory. We designed a simple experiment in which we used a number of different probes derived from the Schwartz basic value theory (items from the revised Portrait Value Questionnaire, the value type definitions, value names). We prompted ChatGPT via the OpenAI API repeatedly to generate text and then analyzed the generated corpus for value content with a theory-driven value dictionary using a bag of words approach. Overall, we found little evidence of explicit value bias. The results showed sufficient construct and discriminant validity for the generated text in line with the theoretical predictions of the psychological model, which suggests that the value content was carried through into the outputs with high fidelity. We saw some merging of socially oriented values, which may suggest that these values are less clearly differentiated at a linguistic level or alternatively, this mixing may reflect underlying universal human motivations. We outline some possible applications of our findings for both applications of ChatGPT for corporate usage and policy making as well as future research avenues. We also highlight possible implications of this relatively high-fidelity replication of motivational content using a linguistic model for the theorizing about human values. | 翻訳日:2023-04-10 12:07:03 公開日:2023-04-07 |
# 非破壊的リーフ検出と3次元成長モニタリングのためのトマト植物のサイズ推定 Look how they have grown: Non-destructive Leaf Detection and Size Estimation of Tomato Plants for 3D Growth Monitoring ( http://arxiv.org/abs/2304.03610v1 ) ライセンス: Link先を確認 | Yuning Xing, Dexter Pham, Henry Williams, David Smith, Ho Seok Ahn, JongYoon Lim, Bruce A. MacDonald, Mahla Nejati | (参考訳) テクノロジーが進歩するにつれて、スマート農業は成長分野だ。
植物の特徴は植物の成長を監視する重要な指標である。
葉面積指数、葉病、植物の高さなどの特性を推定する研究が行われている。
しかし, 葉の大きさを非破壊的に測定する方法はほとんどない。
本稿では、Zivid 3Dカメラを用いて得られた2次元および3次元データを用いて、トマトの3次元仮想表現(デジタル双対)を作成する自動非破壊画像ベース計測システムを提案する。
対応する2D RGB画像から葉を検知し、検出された葉マスクを用いてその3D点雲にマッピングし、葉点雲を平面嵌合アルゴリズムに渡して葉の大きさを抽出し、成長監視用のデータを提供する。
測定プラットフォームの性能は,実世界のトマト植物に関する総合的な試行を通じて測定されてきた。
トマトの葉と高さのデータセット(トマト植物の50以上の3Dポイントクラウドファイルを含む)を3つ集め,オープンソース化した。
提案手法は, RMSE値4.47mm, R^2値0.87を示した。
全体測定システム(リーフ検出とサイズ推定アルゴリズムの組み合わせ)はRMSE値8.13mm、R^2値0.899を提供する。 Smart farming is a growing field as technology advances. Plant characteristics are crucial indicators for monitoring plant growth. Research has been done to estimate characteristics like leaf area index, leaf disease, and plant height. However, few methods have been applied to non-destructive measurements of leaf size. In this paper, an automated non-destructive imaged-based measuring system is presented, which uses 2D and 3D data obtained using a Zivid 3D camera, creating 3D virtual representations (digital twins) of the tomato plants. Leaves are detected from corresponding 2D RGB images and mapped to their 3D point cloud using the detected leaf masks, which then pass the leaf point cloud to the plane fitting algorithm to extract the leaf size to provide data for growth monitoring. The performance of the measurement platform has been measured through a comprehensive trial on real-world tomato plants with quantified performance metrics compared to ground truth measurements. Three tomato leaf and height datasets (including 50+ 3D point cloud files of tomato plants) were collected and open-sourced in this project. The proposed leaf size estimation method demonstrates an RMSE value of 4.47mm and an R^2 value of 0.87. The overall measurement system (leaf detection and size estimation algorithms combine) delivers an RMSE value of 8.13mm and an R^2 value of 0.899. | 翻訳日:2023-04-10 12:06:42 公開日:2023-04-07 |
# 自動プロンプティングを再考する: 私たちは本当に良くなるのか? Revisiting Automated Prompting: Are We Actually Doing Better? ( http://arxiv.org/abs/2304.03609v1 ) ライセンス: Link先を確認 | Yulin Zhou, Yiren Zhao, Ilia Shumailov, Robert Mullins, Yarin Gal | (参考訳) 現在の文献では、大規模言語モデル(llm)は優れた少数ショット学習者であり、少数ショット学習環境では、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
人間の主導によるプロンプトを自動化する試みが続き、いくつかの進歩が達成された。
特に、その後の研究は、特定のKショット学習シナリオにおいて、自動化が微調整よりも優れていることを示した。
本稿では,6つの異なるダウンストリームタスクとより広い範囲のkショット学習設定を自動プロンプトする手法を再検討する。
自動プロンプトは単純な手動プロンプトを一貫して上回るものではない。
我々の研究は、微調整に加えて、手動のプロンプトをこの研究のベースラインとして使うべきであることを示唆している。 Current literature demonstrates that Large Language Models (LLMs) are great few-shot learners, and prompting significantly increases their performance on a range of downstream tasks in a few-shot learning setting. An attempt to automate human-led prompting followed, with some progress achieved. In particular, subsequent work demonstrates automation can outperform fine-tuning in certain K-shot learning scenarios. In this paper, we revisit techniques for automated prompting on six different downstream tasks and a larger range of K-shot learning settings. We find that automated prompting does not consistently outperform simple manual prompts. Our work suggests that, in addition to fine-tuning, manual prompts should be used as a baseline in this line of research. | 翻訳日:2023-04-10 12:06:20 公開日:2023-04-07 |
# ALIKED:変形可能な変換による軽量キーポイントと記述子抽出ネットワーク ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation ( http://arxiv.org/abs/2304.03608v1 ) ライセンス: Link先を確認 | Xiaoming Zhao, Xingming Wu, Weihai Chen, Peter C. Y. Chen, Qingsong Xu, and Zhengguo Li | (参考訳) 画像キーポイントとディスクリプタは多くの視覚計測タスクにおいて重要な役割を果たす。
近年,キーポイントとディスクリプタ抽出の性能向上のために,ディープニューラルネットワークが広く利用されている。
しかし、従来の畳み込み演算は記述子に必要な幾何学的不変性を提供しない。
この問題に対処するために,各キーポイントに対するサポート機能の変形可能な位置を学習し,変形可能な記述子を構成するSparse Deformable Descriptor Head (SDDH)を提案する。
さらに、SDDHは密度の高い記述子マップの代わりにスパースキーポイントで記述子を抽出し、表現力の強い記述子を効率的に抽出することができる。
さらに,抽出したスパース記述子をトレーニングするために,ニューラルリジェクション誤差(NRE)の高密度からスパースへの損失を緩和する。
実験の結果,提案ネットワークは画像マッチング,3次元再構成,視覚的再局在化など,様々な視覚計測タスクにおいて効率的かつ強力であることがわかった。 Image keypoints and descriptors play a crucial role in many visual measurement tasks. In recent years, deep neural networks have been widely used to improve the performance of keypoint and descriptor extraction. However, the conventional convolution operations do not provide the geometric invariance required for the descriptor. To address this issue, we propose the Sparse Deformable Descriptor Head (SDDH), which learns the deformable positions of supporting features for each keypoint and constructs deformable descriptors. Furthermore, SDDH extracts descriptors at sparse keypoints instead of a dense descriptor map, which enables efficient extraction of descriptors with strong expressiveness. In addition, we relax the neural reprojection error (NRE) loss from dense to sparse to train the extracted sparse descriptors. Experimental results show that the proposed network is both efficient and powerful in various visual measurement tasks, including image matching, 3D reconstruction, and visual relocalization. | 翻訳日:2023-04-10 12:06:09 公開日:2023-04-07 |
# Deep Ising Born Machine(英語) Deep Ising Born Machine ( http://arxiv.org/abs/2304.03606v1 ) ライセンス: Link先を確認 | Zhu Cao | (参考訳) 量子ニューラルネットワーク (quantum neural network, qnn) は、量子データのパターンを見つける手法であり、量子化学、量子計算、量子メトロロジー、量子シミュレーションなど幅広い応用がある。
効率性と普遍性はqnnの2つの望ましい性質であるが、残念ながら矛盾する。
本研究では, 深度Ising Born Machine (DIBoM) について検討し, 効率性と普遍性とのバランスが良好であることを示す。
より正確には、DIBoMは効率的なパラメータの柔軟な数を持ち、十分なパラメータで証明可能な普遍性を達成する。
dibomのアーキテクチャは、一般化された制御されたzゲート、条件ゲート、その他の要素に基づいている。
また,DIBoMと他のQNNの普遍性を比較するために,独立性のある忠実度に基づく表現度尺度を提案する。
大規模な経験的評価は、DIBoMは効率的かつ表現力が高いことを裏付ける。 A quantum neural network (QNN) is a method to find patterns in quantum data and has a wide range of applications including quantum chemistry, quantum computation, quantum metrology, and quantum simulation. Efficiency and universality are two desirable properties of a QNN but are unfortunately contradictory. In this work, we examine a deep Ising Born machine (DIBoM), and show it has a good balance between efficiency and universality. More precisely, the DIBoM has a flexible number of parameters to be efficient, and achieves provable universality with sufficient parameters. The architecture of the DIBoM is based on generalized controlled-Z gates, conditional gates, and some other ingredients. To compare the universality of the DIBoM with other QNNs, we propose a fidelity-based expressivity measure, which may be of independent interest. Extensive empirical evaluations corroborate that the DIBoM is both efficient and expressive. | 翻訳日:2023-04-10 12:05:51 公開日:2023-04-07 |
# 量子状態を持つゲーム理論ジレンマの解法 Resolving game theoretical dilemmas with quantum states ( http://arxiv.org/abs/2304.03605v1 ) ライセンス: Link先を確認 | Azhar Iqbal, James M. Chappell, Claudia Szabo, Derek Abbott | (参考訳) ファインの定理に基づく古典ゲームの量子バージョンを得るための革新的なスキームを提案する。
この定理は、与えられた境界集合に対して、ベルの不等式の集合は、境界集合から得られる合同確率分布の存在に必要な条件と十分な条件の両方を形成することを規定する。
fineの定理を用いて、まずプレイヤー戦略とペイオフ関係をマージンのセットで表現し、次にこれらのマージンの制約として、望ましいゲーム理論的な結果を表現する。
量子状態を用いて、正の演算子値測度(POVM)を用いてこれらの限界点を見つけ、ゲームの古典バージョンに固有のジレンマを解く量子状態を決定する。 We present an innovative scheme for obtaining the quantum version of a classical game based on Fine's theorem. This theorem stipulates that for a given set of marginals, a set of Bell's inequalities form both necessary and sufficient conditions for the existence of a joint probability distribution to be obtained from the set of marginals. Using Fine's theorem, we first express the player strategies and payoff relations in terms of a set of marginals, and then express the desired game-theoretical outcomes as constraints on these marginals. Using quantum states, we then find these marginals by using Positive Operator-Valued Measures (POVMs), and thus determine such quantum states that resolve dilemmas inherent in the classical version of the game. | 翻訳日:2023-04-10 12:05:37 公開日:2023-04-07 |
# ゲームエンジンを用いた合成データからのパレット検出 Pallet Detection from Synthetic Data Using Game Engines ( http://arxiv.org/abs/2304.03602v1 ) ライセンス: Link先を確認 | Jouveer Naidoo, Nicholas Bates, Trevor Gee, Mahla Nejati | (参考訳) 本研究は,パレットセグメンテーションの文脈において,機械学習のための合成学習データを生成するためのゲームエンジンの利用可能性を評価することを目的とする。
合成データの使用は、ニューラルネットワークのトレーニングに有効な手段であることが以前の研究で証明されており、手作業による画像アノテーションの必要性が減り、手作業時間の削減が図られている。
パレット検出のための機械ビジョンは、産業が自律的な倉庫技術の開発を増やすにつれて、合成データの恩恵を受けることができる。
提案手法では,3次元モデルから大量の注釈付きトレーニングデータを画素完全精度で自動生成し,手動によるアプローチよりもはるかに高速に生成するツールを開発した。
イメージセグメンテーションに関しては、Mask R-CNNパイプラインを使用しており、個々のパレットに対してAP50が86%に達した。 This research sets out to assess the viability of using game engines to generate synthetic training data for machine learning in the context of pallet segmentation. Using synthetic data has been proven in prior research to be a viable means of training neural networks and saves hours of manual labour due to the reduced need for manual image annotation. Machine vision for pallet detection can benefit from synthetic data as the industry increases the development of autonomous warehousing technologies. As per our methodology, we developed a tool capable of automatically generating large amounts of annotated training data from 3D models at pixel-perfect accuracy and a much faster rate than manual approaches. Regarding image segmentation, a Mask R-CNN pipeline was used, which achieved an AP50 of 86% for individual pallets. | 翻訳日:2023-04-10 12:05:23 公開日:2023-04-07 |
# 点クラウドデータを用いた量子機械学習のための置換不変エンコーディング Permutation Invariant Encodings for Quantum Machine Learning with Point Cloud Data ( http://arxiv.org/abs/2304.03601v1 ) ライセンス: Link先を確認 | Jamie Heredge, Charles Hill, Lloyd Hollenberg and Martin Sevior | (参考訳) 量子コンピューティングは、機械学習を実行するための潜在的に強力な新しい方法を提供する。
しかし、量子機械学習技術のいくつかは、量子ビット数の増加に伴って一般化が不十分であることが示されている。
本稿では,より優れた一般化性能を示す変分不変量子符号化法を示すことでこの問題に対処し,点雲データ(点からなる3次元画像)に適用する。
点雲は自然にそれらの点の順序に関して置換対称性を持ち、この技法の自然な候補となる。
我々の方法はこの対称性を全ての置換の等しい量子重ね合わせを含む量子符号化で捉え、したがって点次置換の下で不変である。
この符号化手法を量子支持ベクトルマシンを用いて数値シミュレーションで検証し,球面およびトロイダル測地線から引き出された点群を分類する。
点雲に含まれる点数の増加に伴い、置換不変量エンコーディングは精度が向上し、非不変量子エンコーディングは精度が低下することを示した。
このことは、エンコーディングに置換不変性を実装することで、モデルが一般化を改善することを示した。 Quantum Computing offers a potentially powerful new method for performing Machine Learning. However, several Quantum Machine Learning techniques have been shown to exhibit poor generalisation as the number of qubits increases. We address this issue by demonstrating a permutation invariant quantum encoding method, which exhibits superior generalisation performance, and apply it to point cloud data (three-dimensional images composed of points). Point clouds naturally contain permutation symmetry with respect to the ordering of their points, making them a natural candidate for this technique. Our method captures this symmetry in a quantum encoding that contains an equal quantum superposition of all permutations and is therefore invariant under point order permutation. We test this encoding method in numerical simulations using a Quantum Support Vector Machine to classify point clouds drawn from either spherical or toroidal geometries. We show that a permutation invariant encoding improves in accuracy as the number of points contained in the point cloud increases, while non-invariant quantum encodings decrease in accuracy. This demonstrates that by implementing permutation invariance into the encoding, the model exhibits improved generalisation. | 翻訳日:2023-04-10 12:05:08 公開日:2023-04-07 |
# 移動ロボットの移動群集のリスクを考慮した深層強化学習に基づくマップレス群集ナビゲーション Deep Reinforcement Learning-Based Mapless Crowd Navigation with Perceived Risk of the Moving Crowd for Mobile Robots ( http://arxiv.org/abs/2304.03593v1 ) ライセンス: Link先を確認 | Hafiq Anas, Ong Wee Hong, Owais Ahmed Malik | (参考訳) 古典的な地図に基づくナビゲーション手法はロボットナビゲーションによく用いられるが、凍結ロボット問題(FRP)のために混み合った環境に苦しむことが多い。
しかし、深い強化学習に基づく手法はFRPの問題に対処するが、一般化とスケーラビリティの問題に悩まされている。
そこで,これらの課題を克服するために,衝突確率(cp)を用いて,群衆を安全に移動させる手法を提案する。
観測空間にCPを組み込むことで、移動している群衆の危険レベルをロボットに認識させる。
ロボットは、安全に見えるときに群衆をナビゲートするが、群衆が積極的に動いているときに回り道をする。
最も危険な障害物に焦点を合わせることで、群衆密度が高い場合にはロボットは混乱せず、モデルのスケーラビリティを確保する。
提案手法は深部強化学習(DRL)を用いて開発され,無作為な速度と方向で障害物が移動する非協調群集環境下でガゼボシミュレータを用いて訓練された。
そして、群衆の密度の異なる4つの異なる群衆行動シナリオでモデルを評価した。
その結果,本手法は全テスト環境で100%の成功率を達成した。
我々のアプローチと現在のDRLベースのアプローチを比較し、我々のアプローチは大幅に改善された。
重要なことは,本手法は高度に一般化可能であり,一度の訓練で微調整は不要である。
さらに,実世界の実験において,モデルの群集ナビゲーション能力を実証した。 Classical map-based navigation methods are commonly used for robot navigation, but they often struggle in crowded environments due to the Frozen Robot Problem (FRP). Deep reinforcement learning-based methods address the FRP problem, however, suffer from the issues of generalization and scalability. To overcome these challenges, we propose a method that uses Collision Probability (CP) to help the robot navigate safely through crowds. The inclusion of CP in the observation space gives the robot a sense of the level of danger of the moving crowd. The robot will navigate through the crowd when it appears safe but will take a detour when the crowd is moving aggressively. By focusing on the most dangerous obstacle, the robot will not be confused when the crowd density is high, ensuring scalability of the model. Our approach was developed using deep reinforcement learning (DRL) and trained using the Gazebo simulator in a non cooperative crowd environment with obstacles moving at randomized speeds and directions. We then evaluated our model on four different crowd-behavior scenarios with varying densities of crowds. The results shown that our method achieved a 100% success rate in all test settings. We compared our approach with a current state-of-the-art DRLbased approach, and our approach has performed significantly better. Importantly, our method is highly generalizable and requires no fine-tuning after being trained once. We further demonstrated the crowd navigation capability of our model in real-world tests. | 翻訳日:2023-04-10 12:04:51 公開日:2023-04-07 |
# ディッケ状態の家族全体の重ね合わせのオンチップ生成と集合的コヒーレント制御 On-chip generation and collectively coherent control of the superposition of the whole family of Dicke states ( http://arxiv.org/abs/2304.03653v1 ) ライセンス: Link先を確認 | Leizhen Chen, Liangliang Lu, Lijun Xia, Yanqing Lu, Shining Zhu, Xiao-song Ma | (参考訳) 集積量子フォトニクスは最近、絡み合った光子の生成、操作、検出のための強力なプラットフォームとして登場した。
マルチパーティの絡み合った状態は量子物理学の中心にあり、スケーラブルな量子情報処理の鍵となるリソースである。
ディッケ状態は真に絡み合った状態の重要なクラスであり、光間相互作用、量子状態工学、量子論において体系的に研究されている。
ここでは、シリコンフォトニックチップを用いて、4光子ディック状態の族全体の生成と集合的コヒーレント制御、すなわち任意の励起を報告する。
2つのマイクロ共振器から4つの絡み合った光子を生成し、それらを線形光量子回路でコヒーレントに制御する。
生成された光子はテレコムバンドであり、マルチパーティネットワークとメトロロジーのための大規模フォトニック量子技術の基礎を成している。 Integrated quantum photonics has recently emerged as a powerful platform for generating, manipulating, and detecting entangled photons. Multipartite entangled states lie at the heart of the quantum physics and are the key enabling resources for scalable quantum information processing. Dicke state is an important class of genuinely entangled state, which has been systematically studied in the light-matter interactions, quantum state engineering and quantum metrology. Here, by using a silicon photonic chip, we report the generation and collectively coherent control of the entire family of four-photon Dicke states, i.e. with arbitrary excitations. We generate four entangled photons from two micro-resonators and coherently control them in a linear-optic quantum circuit, in which the nonlinear and linear processing are achieved in a micrometer-scale device. The generated photons are in telecom band, which lays the groundwork for large-scale photonic quantum technologies for multiparty networking and metrology. | 翻訳日:2023-04-10 11:58:31 公開日:2023-04-07 |
# 鳥のEye-Viewセマンティックセマンティックセグメンテーションを推定するための対応強化型階層変換器 A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird's-Eye-View Semantic Segmentation ( http://arxiv.org/abs/2304.03650v1 ) ライセンス: Link先を確認 | Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu, Kang Wang | (参考訳) 鳥の目視(BEV)セマンティックセグメンテーションは、視覚的で扱いやすいため、下流のタスクに周辺情報を提供するために自律運転に応用されている。
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
近年,視覚トランスフォーマ(vit)によるコンテンツと位置関係の学習により,この課題を実現した。
しかし、ViTの二次的な複雑さは、潜在層のみに関係学習を限定し、スケールギャップは微細な物体の表現を妨げる。
また,多視点特徴の平易な融合法は,BEV特徴を表す情報吸収意図に適合しない。
これらの課題に対処するために,セマンティックセグメンテーション推論のための対応強化した新しい階層変換器を提案する。
具体的には、最後のサイズが最終セグメンテーションのわずか半分であるBEV特徴表現を洗練するための階層的なフレームワークを考案する。
この階層的なフレームワークによって引き起こされる計算量の増大を抑えるため、クロススケールトランスフォーマーを用いて、逆向きに特徴関係を学習し、BEV特徴の残余接続を利用して、スケール間の情報伝達を容易にする。
本稿では,共起的・非共起的対応を区別するために,対応強化された注意を提案する。
ソフトマックス動作前の注意スコアを増幅して簡易かつ効果的に実施し、位置ビュー関連および位置ビュー関連注意スコアを強調抑制する。
広汎な実験により,マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティックセグメンテーションを推定する際の最先端性能が示された。 As bird's-eye-view (BEV) semantic segmentation is simple-to-visualize and easy-to-handle, it has been applied in autonomous driving to provide the surrounding information to downstream tasks. Inferring BEV semantic segmentation conditioned on multi-camera-view images is a popular scheme in the community as cheap devices and real-time processing. The recent work implemented this task by learning the content and position relationship via the vision Transformer (ViT). However, the quadratic complexity of ViT confines the relationship learning only in the latent layer, leaving the scale gap to impede the representation of fine-grained objects. And their plain fusion method of multi-view features does not conform to the information absorption intention in representing BEV features. To tackle these issues, we propose a novel cross-scale hierarchical Transformer with correspondence-augmented attention for semantic segmentation inferring. Specifically, we devise a hierarchical framework to refine the BEV feature representation, where the last size is only half of the final segmentation. To save the computation increase caused by this hierarchical framework, we exploit the cross-scale Transformer to learn feature relationships in a reversed-aligning way, and leverage the residual connection of BEV features to facilitate information transmission between scales. We propose correspondence-augmented attention to distinguish conducive and inconducive correspondences. It is implemented in a simple yet effective way, amplifying attention scores before the Softmax operation, so that the position-view-related and the position-view-disrelated attention scores are highlighted and suppressed. Extensive experiments demonstrate that our method has state-of-the-art performance in inferring BEV semantic segmentation conditioned on multi-camera-view images. | 翻訳日:2023-04-10 11:58:13 公開日:2023-04-07 |
# Aleatoric Uncertainity によるフェアネス Fairness through Aleatoric Uncertainty ( http://arxiv.org/abs/2304.03646v1 ) ライセンス: Link先を確認 | Anique Tahir, Lu Cheng and Huan Liu | (参考訳) 機械学習の分類タスクにおいて、フェアネスとユーティリティという、しばしば競合する目標に対処するためのユニークなソリューションを提案する。
公平さはモデルの予測が偏りがなく、特定のグループと区別しないことを保証するが、実用性はモデルの予測の精度を最大化することに焦点を当てる。
我々の目標は不確実性と公平性との関係を調べることである。
本研究では,この概念をベイズ学習を用いて評価し,保護属性の共起効果とは無関係なサンプル予測における不確かさを推定する。
実証的な証拠から,分類の不確かさの低いサンプルは,偏りのある表現と高い予測誤差を持つ高い不確かさのサンプルよりも,より正確に,公平にモデル化されていることを示す。
公平性と実用性のバランスを取るための課題として,不確実性定量化に基づく新しい公平性有効性目標を提案する。
この目的の重みは不確実性のレベルによって決定され、公平性と実用性を同時に最適化することができる。
実世界のデータセットの実験は、我々のアプローチの有効性を示す。
本手法は, フェアネス・ユーティリティ・トレードオフの観点から, 最先端の手法よりも優れており, グループと個人の両方のフェアネス指標に適用できる。
本研究は,機械学習における精度と公平性のトレードオフについて,新たな視点を示し,不確実性を最適な公正性と有用性を達成する手段として活用する可能性を強調する。 We propose a unique solution to tackle the often-competing goals of fairness and utility in machine learning classification tasks. While fairness ensures that the model's predictions are unbiased and do not discriminate against any particular group, utility focuses on maximizing the accuracy of the model's predictions. Our aim is to investigate the relationship between uncertainty and fairness. Our approach leverages this concept by employing Bayesian learning to estimate the uncertainty in sample predictions where the estimation is independent of confounding effects related to the protected attribute. Through empirical evidence, we show that samples with low classification uncertainty are modeled more accurately and fairly than those with high uncertainty, which may have biased representations and higher prediction errors. To address the challenge of balancing fairness and utility, we propose a novel fairness-utility objective that is defined based on uncertainty quantification. The weights in this objective are determined by the level of uncertainty, allowing us to optimize both fairness and utility simultaneously. Experiments on real-world datasets demonstrate the effectiveness of our approach. Our results show that our method outperforms state-of-the-art methods in terms of the fairness-utility tradeoff and this applies to both group and individual fairness metrics. This work presents a fresh perspective on the trade-off between accuracy and fairness in machine learning and highlights the potential of using uncertainty as a means to achieve optimal fairness and utility. | 翻訳日:2023-04-10 11:57:42 公開日:2023-04-07 |
# 直交制約下における非滑らか複合最適化のためのブロック座標降下法 A Block Coordinate Descent Method for Nonsmooth Composite Optimization under Orthogonality Constraints ( http://arxiv.org/abs/2304.03641v1 ) ライセンス: Link先を確認 | Ganzhao Yuan | (参考訳) 直交制約を伴う非滑らかな複合最適化は、統計的学習とデータサイエンスに幅広い応用範囲を持つ。
しかし、この問題は一般に非凸かつ非滑らかな性質のため解決が難しい。
既存のソリューションは、以下の制限のいずれかに制限されている。
(i)各イテレーションで高い計算コストを必要とする全勾配法である。
二 一般の非平滑複合問題を解くことができないこと。
(iii)それらは実現不可能な方法であり、限界点での解の実現性しか達成できない。
(iv) 厳密な収束保証が欠けていること。
(v)臨界点の弱最適性のみを得る。
本稿では,直交制約下での一般非平滑な複合問題を解くブロックコーディネート Descent 法である \textit{\textbf{OBCD}} を提案する。
\textit{\textbf{OBCD}} は計算複雑性の少ない実現可能な方法である。
各イテレーションで、アルゴリズムは制約を保存するために解行列の$k$行を更新する($k\geq2$ is a parameter)。
そして、直交性制約の下で小さな非滑らかな合成最適化問題を正確にあるいはほぼ解決する。
我々は、任意のブロック-$k$定常点が常に近似ブロック-$k$定常点であることを示し、これは臨界定常点と同値である。
特に、結果のサブプロブレムとして$k=2$が1次元の非凸問題に還元される場合に興味がある。
本稿では,この問題を解決するために,ブレークポイント探索法と5階反復法を提案する。
また, 2 つの新しい欲望戦略を提案し, 優れた作業集合を探索し, \textit{\textbf{obcd}} の収束をさらに促進する。
最後に,提案手法の優越性を示すため,いくつかの課題について広範な実験を行った。 Nonsmooth composite optimization with orthogonality constraints has a broad spectrum of applications in statistical learning and data science. However, this problem is generally challenging to solve due to its non-convex and non-smooth nature. Existing solutions are limited by one or more of the following restrictions: (i) they are full gradient methods that require high computational costs in each iteration; (ii) they are not capable of solving general nonsmooth composite problems; (iii) they are infeasible methods and can only achieve the feasibility of the solution at the limit point; (iv) they lack rigorous convergence guarantees; (v) they only obtain weak optimality of critical points. In this paper, we propose \textit{\textbf{OBCD}}, a new Block Coordinate Descent method for solving general nonsmooth composite problems under Orthogonality constraints. \textit{\textbf{OBCD}} is a feasible method with low computation complexity footprints. In each iteration, our algorithm updates $k$ rows of the solution matrix ($k\geq2$ is a parameter) to preserve the constraints. Then, it solves a small-sized nonsmooth composite optimization problem under orthogonality constraints either exactly or approximately. We demonstrate that any exact block-$k$ stationary point is always an approximate block-$k$ stationary point, which is equivalent to the critical stationary point. We are particularly interested in the case where $k=2$ as the resulting subproblem reduces to a one-dimensional nonconvex problem. We propose a breakpoint searching method and a fifth-order iterative method to solve this problem efficiently and effectively. We also propose two novel greedy strategies to find a good working set to further accelerate the convergence of \textit{\textbf{OBCD}}. Finally, we have conducted extensive experiments on several tasks to demonstrate the superiority of our approach. | 翻訳日:2023-04-10 11:57:16 公開日:2023-04-07 |
# FedDiSC: パワーシステム障害とサイバー攻撃識別のための計算効率のよいフェデレーション学習フレームワーク FedDiSC: A Computation-efficient Federated Learning Framework for Power Systems Disturbance and Cyber Attack Discrimination ( http://arxiv.org/abs/2304.03640v1 ) ライセンス: Link先を確認 | Muhammad Akbar Husnoo, Adnan Anwar, Haftu Tasew Reda, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss | (参考訳) スマートグリッドシステムのセキュリティとプライバシに関する懸念が高まる中、状態推定などの重要な電力グリッドコンポーネントに対するサイバー攻撃は、サイバー関連の最上位の課題の1つであり、近年は大きな注目を集めている。
しかし、スマートグリッドにおけるサイバー攻撃検出は、プライバシー保護や戦略的データ所有者による分散型パワーゾーンなど、新たな課題に直面している。
本稿では,これらの技術的ボトルネックに対処するために,FedDiSCと呼ばれる,新たなフェデレーション学習に基づくプライバシ保護・通信効率の高い攻撃検出フレームワークを提案する。
具体的には,分散パワーグリッドゾーンの監視制御とデータ取得サブシステムを可能にし,センシティブなパワー関連データを共有せずに攻撃検出モデルを協調的にトレーニングする,連合学習手法を提案する。
次に,電力システムとサイバーセキュリティ異常を正確に検出する,表現学習に基づくディープオートエンコーダネットワークを提案する。
最後に,提案手法をSGのリアルタイムサイバー攻撃検出のタイムラインに適用するために,DP-SIGNSGDとして知られる勾配プライバシー保護量子化方式を用いて通信効率を向上する。
広く利用可能な産業用制御システムデータセット上で提案されたフレームワークの広範なシミュレーションにより,提案手法は機密性のある電力グリッド関連情報のプライバシーを保ちつつ,優れた検出精度を達成できることが証明された。
さらに,勾配量子化手法は,実世界のシナリオに適合性を示す勾配量子化を伴わない従来の連合学習手法と比較して,通信効率を40%向上させることがわかった。 With the growing concern about the security and privacy of smart grid systems, cyberattacks on critical power grid components, such as state estimation, have proven to be one of the top-priority cyber-related issues and have received significant attention in recent years. However, cyberattack detection in smart grids now faces new challenges, including privacy preservation and decentralized power zones with strategic data owners. To address these technical bottlenecks, this paper proposes a novel Federated Learning-based privacy-preserving and communication-efficient attack detection framework, known as FedDiSC, that enables Discrimination between power System disturbances and Cyberattacks. Specifically, we first propose a Federated Learning approach to enable Supervisory Control and Data Acquisition subsystems of decentralized power grid zones to collaboratively train an attack detection model without sharing sensitive power related data. Secondly, we put forward a representation learning-based Deep Auto-Encoder network to accurately detect power system and cybersecurity anomalies. Lastly, to adapt our proposed framework to the timeliness of real-world cyberattack detection in SGs, we leverage the use of a gradient privacy-preserving quantization scheme known as DP-SIGNSGD to improve its communication efficiency. Extensive simulations of the proposed framework on publicly available Industrial Control Systems datasets demonstrate that the proposed framework can achieve superior detection accuracy while preserving the privacy of sensitive power grid related information. Furthermore, we find that the gradient quantization scheme utilized improves communication efficiency by 40% when compared to a traditional federated learning approach without gradient quantization which suggests suitability in a real-world scenario. | 翻訳日:2023-04-10 11:56:50 公開日:2023-04-07 |
# リニアリカレントネットワークを用いた長周期ブラケットカウントの理論的条件と実証的失敗 Theoretical Conditions and Empirical Failure of Bracket Counting on Long Sequences with Linear Recurrent Networks ( http://arxiv.org/abs/2304.03639v1 ) ライセンス: Link先を確認 | Nadine El-Naggar, Pranava Madhyastha, Tillman Weyde | (参考訳) 以前の研究では、unboundedアクティベーション関数を持つrnnが正確にカウントする能力を持つことが確定している。
しかし、RNNは効果的にトレーニングすることは難しく、一般的に正確なカウント動作を学習していないことも示されている。
本稿では,線形単一セルネットワークであるRNNを最小化することで,この問題に焦点をあてる。
線形rnnの理論的解析を行い,モデルが正確な計数行動を示すための条件を同定する。
これらの条件が必要かつ十分であることを形式的に証明する。
また,dyck-1ライクなバランスドブラケット言語を含むタスクを2つの異なる設定下で経験的分析を行う。
線形RNNは一般に、標準手法で訓練された場合の振る舞いをカウントするのに必要かつ十分な条件を満たしていない。
本研究では,学習中のモデル行動と線形RNNモデルによる指標条件を効果的に近似する能力に,トレーニングシーケンスの長さの変化と異なるターゲットクラスの利用がどう影響するかを検討する。 Previous work has established that RNNs with an unbounded activation function have the capacity to count exactly. However, it has also been shown that RNNs are challenging to train effectively and generally do not learn exact counting behaviour. In this paper, we focus on this problem by studying the simplest possible RNN, a linear single-cell network. We conduct a theoretical analysis of linear RNNs and identify conditions for the models to exhibit exact counting behaviour. We provide a formal proof that these conditions are necessary and sufficient. We also conduct an empirical analysis using tasks involving a Dyck-1-like Balanced Bracket language under two different settings. We observe that linear RNNs generally do not meet the necessary and sufficient conditions for counting behaviour when trained with the standard approach. We investigate how varying the length of training sequences and utilising different target classes impacts model behaviour during training and the ability of linear RNN models to effectively approximate the indicator conditions. | 翻訳日:2023-04-10 11:56:21 公開日:2023-04-07 |
# 適応ネットワーク上の圧縮回帰 Compressed Regression over Adaptive Networks ( http://arxiv.org/abs/2304.03638v1 ) ライセンス: Link先を確認 | Marco Carpentiero, Vincenzo Matta, Ali H. Sayed | (参考訳) 本研究は,分散エージェントのネットワークによって実現可能な性能を,通信制約の存在下,適応的に,回帰問題として解決する。
エージェントは、最近提案されたactc(adapt-compress-then-combine)拡散戦略を採用しており、隣接エージェントによってローカルに交換される信号をランダム化された微分圧縮演算子で符号化する。
本研究では, 平均二乗推定誤差の詳細な特徴付けを行い, エージェントが通信制約を伴わずに行う誤差に関連する項と, 圧縮から生じる項とを述べる。
解析により,分散回帰問題の圧縮損失と基本特性,特に勾配雑音による確率的近似誤差とネットワークトポロジ(ペロン固有ベクトル)との定量的関係が明らかになった。
このような関係性に関する知識は,エージェント間の通信資源を最適に割り当てる上で重要であり,そのデータ品質やネットワークトポロジにおける中心性の程度といった個々の特性を考慮している。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
例示的な例では、提供された平均二乗誤差式によって割り当てを最適化することで、ブラインド(すなわち一様)リソース割り当てと比較して、大幅なパフォーマンス改善が達成できることを示している。 In this work we derive the performance achievable by a network of distributed agents that solve, adaptively and in the presence of communication constraints, a regression problem. Agents employ the recently proposed ACTC (adapt-compress-then-combine) diffusion strategy, where the signals exchanged locally by neighboring agents are encoded with randomized differential compression operators. We provide a detailed characterization of the mean-square estimation error, which is shown to comprise a term related to the error that agents would achieve without communication constraints, plus a term arising from compression. The analysis reveals quantitative relationships between the compression loss and fundamental attributes of the distributed regression problem, in particular, the stochastic approximation error caused by the gradient noise and the network topology (through the Perron eigenvector). We show that knowledge of such relationships is critical to allocate optimally the communication resources across the agents, taking into account their individual attributes, such as the quality of their data or their degree of centrality in the network topology. We devise an optimized allocation strategy where the parameters necessary for the optimization can be learned online by the agents. Illustrative examples show that a significant performance improvement, as compared to a blind (i.e., uniform) resource allocation, can be achieved by optimizing the allocation by means of the provided mean-square-error formulas. | 翻訳日:2023-04-10 11:56:06 公開日:2023-04-07 |
# a2j-transformer:単一のrgb画像から3次元相互作用ハンドポーズ推定のためのアンカー対ジョイントランスネットワーク A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image ( http://arxiv.org/abs/2304.03635v1 ) ライセンス: Link先を確認 | Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, and Joey Tianyi Zhou | (参考訳) 1枚のRGB画像からの3Dインタラクションによる手ポーズ推定は、手に対する深刻な自己閉塞と相互閉塞、類似した外観パターンの混乱、2Dから3Dへの関節位置マッピングの不備など、難しい作業である。
そこで本研究では,手動条件下での3次元手動ポーズ推定手法であるA2JをRGB領域に拡張することを提案する。
我々の重要なアイデアは、a2jに、相互作用する手の局所的な詳細と関節間のグローバルな手掛かりをうまく捉えられる強力な局所的グローバル認識能力を提供することです。
この目的のために、A2JはTransformerの非ローカルエンコーディングデコーディングフレームワークの下で進化し、A2J-Transformerを構築する。
A2Jよりも3つの大きな利点がある。
まず、局所アンカーポイントを横断するセルフアテンションが構築され、咬合に抵抗するための関節の調音手がかりをよりよく捉えるために、グローバルな空間コンテキストを認識する。
第2に、各アンカーポイントは、他のものと同一の局所表現を持つのではなく、パターン適合能力を促進するための適応的特徴学習を備えた学習可能なクエリとみなされる。
最後に、アンカーポイントはA2Jのように2Dではなく3D空間に位置し、3Dポーズ予測を利用する。
interhand 2.6m への挑戦実験では、a2j-transformer は最先端のモデルフリーパフォーマンス (3.38mm mpjpe advancement) を達成でき、強力な一般化を持つ深度領域にも適用可能であることが示されている。 3D interacting hand pose estimation from a single RGB image is a challenging task, due to serious self-occlusion and inter-occlusion towards hands, confusing similar appearance patterns between 2 hands, ill-posed joint position mapping from 2D to 3D, etc.. To address these, we propose to extend A2J-the state-of-the-art depth-based 3D single hand pose estimation method-to RGB domain under interacting hand condition. Our key idea is to equip A2J with strong local-global aware ability to well capture interacting hands' local fine details and global articulated clues among joints jointly. To this end, A2J is evolved under Transformer's non-local encoding-decoding framework to build A2J-Transformer. It holds 3 main advantages over A2J. First, self-attention across local anchor points is built to make them global spatial context aware to better capture joints' articulation clues for resisting occlusion. Secondly, each anchor point is regarded as learnable query with adaptive feature learning for facilitating pattern fitting capacity, instead of having the same local representation with the others. Last but not least, anchor point locates in 3D space instead of 2D as in A2J, to leverage 3D pose prediction. Experiments on challenging InterHand 2.6M demonstrate that, A2J-Transformer can achieve state-of-the-art model-free performance (3.38mm MPJPE advancement in 2-hand case) and can also be applied to depth domain with strong generalization. | 翻訳日:2023-04-10 11:55:41 公開日:2023-04-07 |
# 非同期フェデレーション連続学習 Asynchronous Federated Continual Learning ( http://arxiv.org/abs/2304.03626v1 ) ライセンス: Link先を確認 | Donald Shenaj, Marco Toldo, Alberto Rigon, Pietro Zanuttigh | (参考訳) 標準のclass-incremental continual learning設定は、固定および事前定義された順序で次々に見られる一連のタスクを仮定する。
これは、各クライアントが非同期で独立して動作し、異なるタスクのデータをタイムフレームで取得するフェデレートされた学習環境ではあまり現実的ではありません。
本稿では,複数のタスクの連続的な学習が各クライアントで異なる順序と非同期時間スロットで発生する,新しいフェデレーション学習環境(AFCL)を提案する。
本稿では,プロトタイプベースの学習,表現損失,フラクタル事前学習,修正アグリゲーションポリシを用いて,この課題に取り組む。
当社のアプローチであるfeedspaceは、50、100、500のクライアントで3つの異なるフェデレーションスプリットを使用してcifar-100データセットの結果から、このタスクに効果的に対応しています。
コードと連邦分割はhttps://github.com/LTTM/FedSpace.comで公開されている。 The standard class-incremental continual learning setting assumes a set of tasks seen one after the other in a fixed and predefined order. This is not very realistic in federated learning environments where each client works independently in an asynchronous manner getting data for the different tasks in time-frames and orders totally uncorrelated with the other ones. We introduce a novel federated learning setting (AFCL) where the continual learning of multiple tasks happens at each client with different orderings and in asynchronous time slots. We tackle this novel task using prototype-based learning, a representation loss, fractal pre-training, and a modified aggregation policy. Our approach, called FedSpace, effectively tackles this task as shown by the results on the CIFAR-100 dataset using 3 different federated splits with 50, 100, and 500 clients, respectively. The code and federated splits are available at https://github.com/LTTM/FedSpace. | 翻訳日:2023-04-10 11:54:46 公開日:2023-04-07 |
# EPINN-NSE: Navier-Stokes方程式を解く物理インフォームドニューラルネットワーク EPINN-NSE: Enhanced Physics-Informed Neural Networks for Solving Navier-Stokes Equations ( http://arxiv.org/abs/2304.03689v1 ) ライセンス: Link先を確認 | Ayoub Farkane, Mounir Ghogho, Mustapha Oudani, Mohamed Boutayeb | (参考訳) 流体力学は工学と科学の基本的な分野である。
ナヴィエ・ストークス方程式(NSE)の解法は流体の挙動を理解する上で重要である。
しかし、NSEは解くのが難しい複素偏微分方程式であり、古典的な数値法は計算的に高価である。
本稿では,Physical Informed Neural Networks (PINN) を用いてNSEを解くための革新的な手法を提案する。
第1のモデルは、ストリーム関数の導関数を用いることで、速度成分を近似する仮定に基づいている。
この仮定は系を単純化し、速度が発散自由方程式に従うことを保証する。
また,仮定なしに解を近似する,第2のより柔軟なモデルを開発した。
提案したモデルは2次元NSEを効果的に解くことができる。
さらに,2番目のモデルを用いて3次元NSEを解くことに成功した。
その結果,NSEを3次元で効率的に高精度に解けることがわかった。
これらのアプローチには、高いトレーニング性、柔軟性、効率性など、いくつかの利点がある。 Fluid mechanics is a fundamental field in engineering and science. Solving the Navier-Stokes equation (NSE) is critical for understanding the behavior of fluids. However, the NSE is a complex partial differential equation that is difficult to solve, and classical numerical methods can be computationally expensive. In this paper, we present an innovative approach for solving the NSE using Physics Informed Neural Networks (PINN) and several novel techniques that improve their performance. The first model is based on an assumption that involves approximating the velocity component by employing the derivative of a stream function. This assumption serves to simplify the system and guarantees that the velocity adheres to the divergence-free equation. We also developed a second more flexible model that approximates the solution without any assumptions. The proposed models can effectively solve two-dimensional NSE. Moreover, we successfully applied the second model to solve the three-dimensional NSE. The results show that the models can efficiently and accurately solve the NSE in three dimensions. These approaches offer several advantages, including high trainability, flexibility, and efficiency. | 翻訳日:2023-04-10 11:48:55 公開日:2023-04-07 |
# 遠方生成過程間の量子干渉 Quantum interference between distant creation processes ( http://arxiv.org/abs/2304.03683v1 ) ライセンス: Link先を確認 | Johannes Pseiner, Manuel Erhard, Mario Krenn | (参考訳) マクロな量子現象の探索は、量子力学の基本的な追求である。
量子物理学の限界をテストすることができ、量子力学と相対性理論の間の相互作用を探索するための新たな道を提供する。
本研究では,量子系の生成過程が巨視的距離にまたがることを示すことにより,マクロ量子系を生成する新しい手法を提案する。
具体的には、70m離れた2つの原点のコヒーレントな重ね合わせで光子対を生成する。
この新しいアプローチは、量子物理学における基礎実験にエキサイティングな機会を与えるだけでなく、空気や気体の圧力や湿度といった分散特性の高精度測定にも応用できる。 The search for macroscopic quantum phenomena is a fundamental pursuit in quantum mechanics. It allows us to test the limits quantum physics and provides new avenues for exploring the interplay between quantum mechanics and relativity. In this work, we introduce a novel approach to generate macroscopic quantum systems by demonstrating that the creation process of a quantum system can span a macroscopic distance. Specifically, we generate photon pairs in a coherent superposition of two origins separated by up to 70 meters. This new approach not only provides an exciting opportunity for foundational experiments in quantum physics, but also has practical applications for high-precision measurements of distributed properties such as pressure and humidity of air or gases. | 翻訳日:2023-04-10 11:48:40 公開日:2023-04-07 |
# BenCoref: 名詞句と代名詞参照アノテーションのマルチドメインデータセット BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal Reference Annotations ( http://arxiv.org/abs/2304.03682v1 ) ライセンス: Link先を確認 | Shadman Rohan, Mojammel Hossain, Mohammad Mamun Or Rashid, Nabeel Mohammed | (参考訳) 干渉分解能はNLPにおいてよく研究されている問題である。
英語や他の資源豊富な言語で広く研究されているが、ベンガル語における共参照分解の研究は、関連するデータセットがないため、ほとんど未調査のままである。
ベンガル語は低資源言語であり、英語に比べて形態的豊かである。
本稿では,4つの異なるドメインから収集したベンガルテキストのコリファレンスアノテーションを含む,新しいデータセットであるbencorefを紹介する。
この比較的小さなデータセットには、48,569トークン内に502の参照クラスタを形成する5200の参照アノテーションが含まれている。
本稿では,BenCorefを用いてトレーニングした複数のモデルの性能を報告する。
我々は,ベンガルの複数の領域におけるコア参照現象の変動に光を当て,ベンガルの新たな資源開発を促進することを期待する。
さらに、英語からゼロショット設定での言語横断性能が悪く、このタスクのための言語固有のリソースの必要性が強調された。 Coreference Resolution is a well studied problem in NLP. While widely studied for English and other resource-rich languages, research on coreference resolution in Bengali largely remains unexplored due to the absence of relevant datasets. Bengali, being a low-resource language, exhibits greater morphological richness compared to English. In this article, we introduce a new dataset, BenCoref, comprising coreference annotations for Bengali texts gathered from four distinct domains. This relatively small dataset contains 5200 mention annotations forming 502 mention clusters within 48,569 tokens. We describe the process of creating this dataset and report performance of multiple models trained using BenCoref. We anticipate that our work sheds some light on the variations in coreference phenomena across multiple domains in Bengali and encourages the development of additional resources for Bengali. Furthermore, we found poor crosslingual performance at zero-shot setting from English, highlighting the need for more language-specific resources for this task. | 翻訳日:2023-04-10 11:48:30 公開日:2023-04-07 |
# 熱力学的に一貫した摂動および半古典展開に対する便利なケルディシュ輪郭 A convenient Keldysh contour for thermodynamically consistent perturbative and semiclassical expansions ( http://arxiv.org/abs/2304.03681v1 ) ライセンス: Link先を確認 | Vasco Cavina, Sadeq S. Kadijani, Massimiliano Esposito, Thomas Schmidt | (参考訳) ワークゆらぎ定理 (ft) は、与えられたプロセスで抽出されたワークのモーメント生成関数 (mgfs) と時間反転関数の間の対称性である。
同様に、孤立量子系で働くためのFTは、修正されたケルディシュ輪郭の不変性として表現できることを示す。
修正された輪郭は、近年文献で指摘されているように、量子熱力学に対する摂動的および経路積分アプローチの出発点として用いられる。
輪郭に基づく摂動理論の導出を考察した後、修正輪郭の対称性を用いて、この理論がすべての順序でftを満たすことを示す。
さらに,本手法を作業 mgfs の計算に拡張し,独立した再スケールポアソン過程の和という観点から作業統計の一般的な表現を得るために,異なるファインマン図の寄与を追加できることを示した。
この文脈において、FTは、すべてのファインマン図形と時間反転多様体をリンクする詳細なバランス条件の形式を取る。
第2部では, MGFの計算に対する経路積分法について検討し, 輪郭選択における任意性が経路積分作用の最終形態に与える影響について考察する。
特に、シンメトリゼーションされた輪郭を用いることで、作業統計学の文脈でケルディシュ回転を容易に一般化できることを示し、作業 MGF の半古典的展開への道を切り開く手順を示す。
さらに、この結果を用いて、量子軌道のレベルでの詳細なバランス条件の一般化について議論する。 The work fluctuation theorem (FT) is a symmetry connecting the moment generating functions (MGFs) of the work extracted in a given process and in its time-reversed counterpart. We show that, equivalently, the FT for work in isolated quantum systems can be expressed as an invariance property of a modified Keldysh contour. Modified contours can be used as starting points of perturbative and path integral approaches to quantum thermodynamics, as recently pointed out in the literature. After reviewing the derivation of the contour-based perturbation theory, we use the symmetry of the modified contour to show that the theory satisfies the FT at every order. Furthermore, we extend textbook diagrammatic techniques to the computation of work MGFs, showing that the contributions of the different Feynman diagrams can be added to obtain a general expression of the work statistics in terms of a sum of independent rescaled Poisson processes. In this context, the FT takes the form of a detailed balance condition linking every Feynman diagram with its time-reversed variant. In the second part, we study path integral approaches to the calculation of the MGF, and discuss how the arbitrariness in the choice of the contour impacts the final form of the path integral action. In particular, we show how using a symmetrized contour makes it possible to easily generalize the Keldysh rotation in the context of work statistics, a procedure paving the way to a semiclassical expansion of the work MGF. Furthermore, we use our results to discuss a generalization of the detailed balance conditions at the level of the quantum trajectories. | 翻訳日:2023-04-10 11:48:15 公開日:2023-04-07 |
# 要件による機械学習 - マニフェスト Machine Learning with Requirements: a Manifesto ( http://arxiv.org/abs/2304.03674v1 ) ライセンス: Link先を確認 | Eleonora Giunchiglia, Fergus Imrie, Mihaela van der Schaar, Thomas Lukasiewicz | (参考訳) 近年、機械学習は様々なアプリケーションドメインにおける多くのブレークスルーの根底にある大きな進歩を遂げています。
しかし、しばしば脆く信頼性に欠けるので、ハイステイクやセーフティクリティカルなアプリケーションドメインに適用するには、まだ未解決の問題である。
本稿では,要求定義と満足度が,特に臨界領域において,機械学習モデルをより現実世界に適合させるための長い道のりをたどることができることを論じる。
この目的のために、我々は2つの問題を提起する。
(i)要件は自然に生じる
(ii)機械学習モデルは、実りあるデプロイが可能で、
(iii)要件の無視は劇的な結果をもたらす可能性がある。
我々は、要求仕様が標準的な機械学習開発パイプラインに実際に統合される方法を示し、要求定義がパイプラインの以降のすべてのフェーズに影響を与えうる新しいピラミッド開発プロセスを提案し、その逆も提案する。 In the recent years, machine learning has made great advancements that have been at the root of many breakthroughs in different application domains. However, it is still an open issue how make them applicable to high-stakes or safety-critical application domains, as they can often be brittle and unreliable. In this paper, we argue that requirements definition and satisfaction can go a long way to make machine learning models even more fitting to the real world, especially in critical domains. To this end, we present two problems in which (i) requirements arise naturally, (ii) machine learning models are or can be fruitfully deployed, and (iii) neglecting the requirements can have dramatic consequences. We show how the requirements specification can be fruitfully integrated into the standard machine learning development pipeline, proposing a novel pyramid development process in which requirements definition may impact all the subsequent phases in the pipeline, and viceversa. | 翻訳日:2023-04-10 11:47:47 公開日:2023-04-07 |
# Luck Aloneに賭けるな:不確実なドメインにおける品質多様性ソリューションの振る舞い再現性を高める Don't Bet on Luck Alone: Enhancing Behavioral Reproducibility of Quality-Diversity Solutions in Uncertain Domains ( http://arxiv.org/abs/2304.03672v1 ) ライセンス: Link先を確認 | Luca Grillotti, Manon Flageat, Bryan Lim and Antoine Cully (AIRL, Imperial College London) | (参考訳) 品質多様性(QD)アルゴリズムは、与えられたディスクリプタ空間の多様性を最大化しつつ、高性能なソリューションのコレクションを生成するように設計されている。
しかし、予測不能なノイズが存在する場合、同じ解の適合性と記述性は、ある評価から別の評価へと大きく異なり、そのような値の推定に不確実性をもたらす。
QDアルゴリズムのエリート性を考えると、このようなノイズの多い設定で多くの退化解が得られるのが普通である。
本稿では,アーカイブに存在するソリューションの再現性を改善するプラグイン・アンド・プレイアプローチであるアーカイブ再現性改善アルゴリズム(ARIA)を紹介する。
本稿では,任意のQDアルゴリズム上で実行可能な自然進化戦略に依存する,個別の最適化モジュールとして提案する。
我々のモジュールは、(1)ニッチに属する確率を最適化し、(2)適合性を最大化するために、ソリューションを変異させる。
本手法の性能は,従来の最適化問題やロボットシミュレーション環境における2つの高次元制御タスクを含む様々なタスクで評価される。
提案アルゴリズムは,任意のアーカイブの品質とディスクリプタ空間のカバレッジを少なくとも50%向上させることを示す。 Quality-Diversity (QD) algorithms are designed to generate collections of high-performing solutions while maximizing their diversity in a given descriptor space. However, in the presence of unpredictable noise, the fitness and descriptor of the same solution can differ significantly from one evaluation to another, leading to uncertainty in the estimation of such values. Given the elitist nature of QD algorithms, they commonly end up with many degenerate solutions in such noisy settings. In this work, we introduce Archive Reproducibility Improvement Algorithm (ARIA); a plug-and-play approach that improves the reproducibility of the solutions present in an archive. We propose it as a separate optimization module, relying on natural evolution strategies, that can be executed on top of any QD algorithm. Our module mutates solutions to (1) optimize their probability of belonging to their niche, and (2) maximize their fitness. The performance of our method is evaluated on various tasks, including a classical optimization problem and two high-dimensional control tasks in simulated robotic environments. We show that our algorithm enhances the quality and descriptor space coverage of any given archive by at least 50%. | 翻訳日:2023-04-10 11:47:33 公開日:2023-04-07 |
# ニューラルネットワーク制御システムの整合性解析のための契約型適応分割法 Contraction-Guided Adaptive Partitioning for Reachability Analysis of Neural Network Controlled Systems ( http://arxiv.org/abs/2304.03671v1 ) ライセンス: Link先を確認 | Akash Harapanahalli, Saber Jafarpour, Samuel Coogan | (参考訳) 本稿では,ニューラルネットワークコントローラと外乱を用いた非線形フィードバックループにおける区間値のロバスト到達可能集合推定を改善するための縮小誘導適応分割アルゴリズムを提案する。
過近似間隔の収縮率の推定に基づいて、アルゴリズムはいつ、どこで分割するかを選択する。
そして、ニューラルネットワーク検証ステップと到達可能性分割層を分離することにより、アルゴリズムは計算コストの少ない精度向上を提供することができる。
このアプローチは、十分な精度のオープンループ間隔値到達可能性推定手法と、ニューラルネットワークの入出力挙動をバウンドする方法に適用できる。
縮退に基づくロバストネス解析を用いて,混合単調到達性を有するアルゴリズムの性能保証を行う。
最後に,いくつかの数値シミュレーションを用いてアルゴリズムの性能を実証し,既存の手法と比較する。
特に,実行環境のごく一部において到達可能な集合推定の精度が,最先端手法と比較して大幅に向上したことを報告する。 In this paper, we present a contraction-guided adaptive partitioning algorithm for improving interval-valued robust reachable set estimates in a nonlinear feedback loop with a neural network controller and disturbances. Based on an estimate of the contraction rate of over-approximated intervals, the algorithm chooses when and where to partition. Then, by leveraging a decoupling of the neural network verification step and reachability partitioning layers, the algorithm can provide accuracy improvements for little computational cost. This approach is applicable with any sufficiently accurate open-loop interval-valued reachability estimation technique and any method for bounding the input-output behavior of a neural network. Using contraction-based robustness analysis, we provide guarantees of the algorithm's performance with mixed monotone reachability. Finally, we demonstrate the algorithm's performance through several numerical simulations and compare it with existing methods in the literature. In particular, we report a sizable improvement in the accuracy of reachable set estimation in a fraction of the runtime as compared to state-of-the-art methods. | 翻訳日:2023-04-10 11:47:13 公開日:2023-04-07 |
# DATE:Eコマースのためのドメイン適応型製品シーカー DATE: Domain Adaptive Product Seeker for E-commerce ( http://arxiv.org/abs/2304.03669v1 ) ライセンス: Link先を確認 | Haoyuan Li, Hao Jiang, Tao Jin, Mengyan Li, Yan Chen, Zhijie Lin, Yang Zhao, Zhou Zhao | (参考訳) 商品検索 (Product Retrieval, PR) とグラウンドイング (Grounding, PG) は, 画像とオブジェクトレベルの製品を, テキストクエリに基づいて検索することを目的としている。
関連するデータセットの欠如により,pr用に約474kと101kのイメージクエリペアを持つtaobao mallとliveドメインの2つの大規模ベンチマークデータセットを収集し,pgの各画像にオブジェクトバウンディングボックスを手作業でアノテートする。
アノテーションボックスは高価で時間を要するため,非教師付きドメイン適応(PG-DA)を実現するために,アノテーション付きドメインから非アノテーション付きドメインへの知識伝達を試みる。
本稿では, PR と PG を異なるレベルにおける製品探索問題として扱うための, {\bf D}omain {\bf A}daptive Produc{\bf t} S{\bf e}eker ({\bf DATE}) フレームワークを提案する。
具体的には,まず,各モダリティに対するセマンティクス集約型特徴抽出器の設計を行い,効率的な検索と細粒度接地作業を行うための集中的かつ包括的な特徴量を得る。
次に,2人の協力的探索者に対して,画像のPR検索とPGのローカライズを行う。
さらに、PG-DAの領域整合器を考案し、ソースとターゲットドメイン間の一様境界条件と多モード条件の分散シフトを緩和し、疑似ボックス生成器を設計し、信頼性の高いインスタンスを動的に選択し、さらなる知識伝達のためにバウンディングボックスを生成する。
広汎な実験により, 完全教師付きPR, PGおよび非教師付きPG-DAにおいて, DATEは良好な性能を示した。
脱感化データセットはここで公開されます。footnote{\url{https://github.com/Taobao-live/Product-Seeking}}。 Product Retrieval (PR) and Grounding (PG), aiming to seek image and object-level products respectively according to a textual query, have attracted great interest recently for better shopping experience. Owing to the lack of relevant datasets, we collect two large-scale benchmark datasets from Taobao Mall and Live domains with about 474k and 101k image-query pairs for PR, and manually annotate the object bounding boxes in each image for PG. As annotating boxes is expensive and time-consuming, we attempt to transfer knowledge from annotated domain to unannotated for PG to achieve un-supervised Domain Adaptation (PG-DA). We propose a {\bf D}omain {\bf A}daptive Produc{\bf t} S{\bf e}eker ({\bf DATE}) framework, regarding PR and PG as Product Seeking problem at different levels, to assist the query {\bf date} the product. Concretely, we first design a semantics-aggregated feature extractor for each modality to obtain concentrated and comprehensive features for following efficient retrieval and fine-grained grounding tasks. Then, we present two cooperative seekers to simultaneously search the image for PR and localize the product for PG. Besides, we devise a domain aligner for PG-DA to alleviate uni-modal marginal and multi-modal conditional distribution shift between source and target domains, and design a pseudo box generator to dynamically select reliable instances and generate bounding boxes for further knowledge transfer. Extensive experiments show that our DATE achieves satisfactory performance in fully-supervised PR, PG and un-supervised PG-DA. Our desensitized datasets will be publicly available here\footnote{\url{https://github.com/Taobao-live/Product-Seeking}}. | 翻訳日:2023-04-10 11:46:59 公開日:2023-04-07 |
# 大規模視覚言語モデルの概念的理解 Probing Conceptual Understanding of Large Visual-Language Models ( http://arxiv.org/abs/2304.03659v1 ) ライセンス: Link先を確認 | Madeline Chantry Schiappa and Michael Cogswell and Ajay Divakaran and Yogesh Singh Rawat | (参考訳) 本稿では,大規模視覚言語モデル(V+L)の関連性,構成,文脈的理解を探索し,改善するための新しい枠組みを提案する。
大規模なV+Lモデルは様々な下流タスクで成功したが、その内容が概念的に理解されているかどうかは不明だ。
コンテンツ理解の3つの側面を探索する新しいベンチマークデータセットを提案する。
我々の調査は認知科学に基礎を置いており、例えば、V+Lモデルが、男性によって育てられた雪が不明瞭かどうか、あるいはビーチの家具を識別できるかどうかを判断するのに役立ちます。
私たちはCLIPやViLTといった5つのよく知られたモデルを試し、概念的理解の実証にはほとんど失敗していることがわかった。
とはいえ、クロスアテンションのような興味深い洞察は、概念的理解の学習に役立つ。
我々はこれらの知見を用いて,提案する3つの概念理解指標に報いる新しい微調整手法を提案する。
提案したベンチマークは、大規模なV+Lモデルの概念理解能力の評価と改善に役立つことを期待している。 We present a novel framework for probing and improving relational, compositional and contextual understanding of large visual-language models (V+L). While large V+L models have achieved success in various downstream tasks, it is not clear if they have a conceptual grasp of the content. We propose a novel benchmarking dataset for probing three aspects of content understanding. Our probes are grounded in cognitive science and help determine if a V+L model can, for example, determine if snow garnished with a man is implausible, or if it can identify beach furniture by knowing it is located on a beach. We have experimented with 5 well known models, such as CLIP and ViLT, and found that they mostly fail to demonstrate a conceptual understanding. That said, we find interesting insights such as cross-attention helps learning conceptual understanding. We use these insights to propose a new finetuning technique that rewards the three conceptual understanding measures we proposed. We hope that the presented benchmarks will help the community assess and improve the conceptual understanding capabilities of large V+L models. | 翻訳日:2023-04-10 11:46:20 公開日:2023-04-07 |
# 分子偏光子のためのハイブリッドthzアーキテクチャ Hybrid THz architectures for molecular polaritonics ( http://arxiv.org/abs/2304.03654v1 ) ライセンス: Link先を確認 | Ahmed Jaber, Michael Reitz, Avinash Singh, Ali Maleki, Yongbao Xin, Brian Sullivan, Ksenia Dolgaleva, Robert W. Boyd, Claudiu Genes, Jean-Michel M\'enard | (参考訳) テラヘルツ領域の分子振動に対する局所化フォトニックモードの強い結合を促進するために,電磁界閉じ込めのいくつかのスキームについて検討する。
主な特徴は、プラズモニックなメタサーフェス構造と標準的なファブリペロ構造の組み合わせと、スプレーコーティング技術によるグルコースの薄い層が密集した電磁モードボリューム内に堆積することである。
我々は、最大140GHzの真空ラビ分割を観測し、プラズモン共鳴、フォトニックキャビティモード、低エネルギー分子共鳴の複雑な相互作用を研究する。
本研究は, 有機分子を用いた偏光プラットフォームの設計に関する重要な知見を提供し, ハイブリッド光物質状態のユニークな性質を解明する。 We explore several schemes of electromagnetic field confinement aimed at facilitating the collective strong coupling of a localized photonic mode to molecular vibrations in the terahertz region. The key aspects are the use of plasmonic metasurface structures combined with standard Fabry-Perot configurations and the deposition of a thin layer of glucose, via a spray coating technique, within a tightly focused electromagnetic mode volume. We observe vacuum Rabi splittings reaching up to 140 GHz and study the complex interplay between plasmonic resonances, photonic cavity modes and low-energy molecular resonances. Our study provides key insight into the design of polaritonic platforms with organic molecules to harvest the unique properties of hybrid light-matter states. | 翻訳日:2023-04-10 11:46:02 公開日:2023-04-07 |
# フィードバック発振器における量子ノイズとその回避 Quantum noise and its evasion in feedback oscillators ( http://arxiv.org/abs/2304.03716v1 ) ライセンス: Link先を確認 | Hudson A. Loughlin and Vivishek Sudhir | (参考訳) 正のフィードバックループに埋め込まれた増幅器によって実現される発振器の抽象モデルについて検討する。
そのような発振器の出力のパワーと周波数の安定性は、ループ内の2つの要素(増幅器とアウトカップラ)によって付加される量子ノイズによって制限される。
結果の周波数不安定性はショーロー・タウンズの公式を与える。
したがって、ショーロー・タウンズの公式の適用性は、大きな種類の発振器に拡張され、線形増幅器のハウス・ケイヴス量子ノイズ限界と関連し、外結合器に付加される量子ノイズの役割を特定できる。
発振器の出力における振幅と周波数量子ノイズの正確な起点を照らし、それらを系統的に回避するいくつかの手法を明らかにする。 We study an abstract model of an oscillator realized by an amplifier embedded in a positive feedback loop. The power and frequency stability of the output of such an oscillator are limited by quantum noise added by two elements in the loop: the amplifier, and the out-coupler. The resulting frequency instability gives the Schawlow-Townes formula. Thus the applicability of the Schawlow-Townes formula is extended to a large class of oscillators, and is shown to be related to the Haus-Caves quantum noise limit for a linear amplifier, while identifying the role of quantum noise added at the out-coupler. By illuminating the precise origin of amplitude and frequency quantum noise in the output of an oscillator, we reveal several techniques to systematically evade them. | 翻訳日:2023-04-10 11:38:52 公開日:2023-04-07 |
# 単一領域一般化のためのメタコーサル学習 Meta-causal Learning for Single Domain Generalization ( http://arxiv.org/abs/2304.03709v1 ) ライセンス: Link先を確認 | Jin Chen, Zhi Gao, Xinxiao Wu, Jiebo Luo | (参考訳) 単一ドメインの一般化は、単一のトレーニングドメイン(ソースドメイン)からモデルを学び、複数の未認識のテストドメイン(ターゲットドメイン)に適用することを目的としている。
既存の方法は、ターゲットドメインをカバーするためのトレーニングドメインの配布拡大に重点を置いているが、ソースとターゲットドメイン間のドメインシフトを見積もることはできない。
本稿では,まず,補助ドメインを対象ドメインとして構築してドメインシフトをシミュレートし,その後にドメインシフトの原因を解析し,最終的にモデル適応のためのドメインシフトを低減させる新しい学習パラダイムであるsimulation-analyze-reduceを提案する。
このパラダイムの下では,メタ知識を学習するためのメタカウサル学習法,すなわち,トレーニング中の補助ドメインとソースドメイン間のドメインシフトの原因を推測する方法を提案する。
テスト中にターゲットドメインとソースドメイン間のシフトを分析するためにメタ知識を使用します。
具体的には、ソースデータ上で複数の変換を行い、補助ドメインを生成し、逆ファクト推論を行い、補助ドメインとソースドメインのシフトの因果要因を学習し、推論因果関係を因子認識ドメインアライメントに組み込む。
画像分類のベンチマーク実験により,提案手法の有効性が示された。 Single domain generalization aims to learn a model from a single training domain (source domain) and apply it to multiple unseen test domains (target domains). Existing methods focus on expanding the distribution of the training domain to cover the target domains, but without estimating the domain shift between the source and target domains. In this paper, we propose a new learning paradigm, namely simulate-analyze-reduce, which first simulates the domain shift by building an auxiliary domain as the target domain, then learns to analyze the causes of domain shift, and finally learns to reduce the domain shift for model adaptation. Under this paradigm, we propose a meta-causal learning method to learn meta-knowledge, that is, how to infer the causes of domain shift between the auxiliary and source domains during training. We use the meta-knowledge to analyze the shift between the target and source domains during testing. Specifically, we perform multiple transformations on source data to generate the auxiliary domain, perform counterfactual inference to learn to discover the causal factors of the shift between the auxiliary and source domains, and incorporate the inferred causality into factor-aware domain alignments. Extensive experiments on several benchmarks of image classification show the effectiveness of our method. | 翻訳日:2023-04-10 11:38:40 公開日:2023-04-07 |
# 多レベル肺動脈に対する効率的な自動分節法:parse challenge Efficient automatic segmentation for multi-level pulmonary arteries: The PARSE challenge ( http://arxiv.org/abs/2304.03708v1 ) ライセンス: Link先を確認 | Gongning Luo, Kuanquan Wang, Jun Liu, Shuo Li, Xinjie Liang, Xiangyu Li, Shaowei Gan, Wei Wang, Suyu Dong, Wenyi Wang, Pengxin Yu, Enyou Liu, Hongrong Wei, Na Wang, Jia Guo, Huiqi Li, Zhao Zhang, Ziwei Zhao, Na Gao, Nan An, Ashkan Pakzad, Bojidar Rangelov, Jiaqi Dou, Song Tian, Zeyu Liu, Yi Wang, Ampatishan Sivalingam, Kumaradevan Punithakumar, Zhaowen Qiu, Xin Gao | (参考訳) ctpa画像におけるマルチレベル(メイン・ブランチ)肺動脈(pa)の自動分割は臨床応用において重要な役割を果たす。
しかし、既存のほとんどの手法は、メインPAまたはブランチPAセグメンテーションのみに集中し、セグメンテーション効率を無視する。
さらに、PAセグメンテーションにフォーカスしたパブリックな大規模データセットは存在しないため、異なるメソッドを比較することは極めて困難である。
マルチレベルPAセグメンテーションアルゴリズムをベンチマークするために、最初の \textbf{P}ulmonary \textbf{AR}tery \textbf{SE}gmentation (PARSE) 課題を整理した。
一方、メインのPAとブランチのPAセグメンテーションの両方に焦点を当てます。
一方, 臨床応用性の向上のために, PAセグメンテーション精度を確保しつつ, 同じスコア重みをセグメンテーション効率(主に推論時の動作時間とGPUメモリ消費)に割り当てる。
本稿では,上位アルゴリズムの概要と,効率的かつ高精度なマルチレベルPA自動セグメンテーションを提案する。
コミュニティが将来のアルゴリズム開発をベンチマークするためのオープンアクセスとしてparse challengeを、 \url{https://parse2022.grand-challenge.org/parse2022/}で提供します。 Efficient automatic segmentation of multi-level (i.e. main and branch) pulmonary arteries (PA) in CTPA images plays a significant role in clinical applications. However, most existing methods concentrate only on main PA or branch PA segmentation separately and ignore segmentation efficiency. Besides, there is no public large-scale dataset focused on PA segmentation, which makes it highly challenging to compare the different methods. To benchmark multi-level PA segmentation algorithms, we organized the first \textbf{P}ulmonary \textbf{AR}tery \textbf{SE}gmentation (PARSE) challenge. On the one hand, we focus on both the main PA and the branch PA segmentation. On the other hand, for better clinical application, we assign the same score weight to segmentation efficiency (mainly running time and GPU memory consumption during inference) while ensuring PA segmentation accuracy. We present a summary of the top algorithms and offer some suggestions for efficient and accurate multi-level PA automatic segmentation. We provide the PARSE challenge as open-access for the community to benchmark future algorithm developments at \url{https://parse2022.grand-challenge.org/Parse2022/}. | 翻訳日:2023-04-10 11:38:19 公開日:2023-04-07 |
# 量子コンピューティングのためのFDSOI技術を用いた量子ビット制御のRFシミュレーションプラットフォーム RF simulation platform of qubit control using FDSOI technology for quantum computing ( http://arxiv.org/abs/2304.03705v1 ) ライセンス: Link先を確認 | H. Jacquinot (1), R. Maurand (2), G. Troncoso Fernandez Bada (2), B. Bertrand (1), M. Cass\'e (1), Y. M. Niquet (2), S. de Franceschi (2), T. Meunier (3) and M. Vinet (1) ((1) CEA-Leti, Univ. Grenoble Alpes, (2) Univ. Grenoble Alpes, CEA, IRIG/DEPHY, (3) CNRS Institut N\'eel) | (参考訳) 本稿では,半導体スピン量子ビットに対する電子スピン共鳴(ESR)RF制御線のシミュレーションについて報告する。
シミュレーションには、ESR線特性(幾何学、構成、スタック、材料特性)と、ゲートや相互接続ネットワークなどのキュービット近傍の電磁環境(EM)の両方が含まれている。
磁場分布と電界分布の正確な評価により, 量子ビットのEM環境は, 量子ビット位置で発生する磁場比を特徴とするスピン制御のESRライン効率に大きく寄与することがわかった。 In this paper, we report on simulations of an Electron Spin Resonance (ESR) RF control line for semiconductor electron spin qubits. The simulation includes both the ESR line characteristics (geometry and configuration, stack and material properties) and the electromagnetic (EM) environment at the vicinity of the qubits such as gates and interconnect network. With the accurate assessment of the magnetic and electric field distribution, we found that the EM environment of the qubits contributes significantly to the ESR line efficiency for spin control characterized by the magnetic over electric field ratio generated at the qubit location. | 翻訳日:2023-04-10 11:37:56 公開日:2023-04-07 |
# ディープラーニングによるディープフェイク検出:畳み込みニューラルネットワークとトランスフォーマー Deepfake Detection with Deep Learning: Convolutional Neural Networks versus Transformers ( http://arxiv.org/abs/2304.03698v1 ) ライセンス: Link先を確認 | Vrizlynn L. L. Thing | (参考訳) ディープフェイク生成技術の急速な進化は、メディア情報の信頼性を脅かす。
対象とする個人や機関に影響を及ぼす影響は深刻である。
本研究では,ディープラーニングアーキテクチャ,特にCNNとTransformersの進化について検討する。
8つの有望なディープラーニングアーキテクチャを特定し、Deepfake検出モデルの設計と開発を行い、確立されたDeepfakeデータセット上で実験を行った。
これらのデータセットには、最新の第2世代と第3世代のdeepfakeデータセットが含まれている。
開発した単一モデル検出器のディープフェイク検出およびクロスデータセット評価における有効性を評価した。
FF++ 2020, Google DFD, Celeb-DF, Deeper Forensics, DFDC Deepfakesの検出において, それぞれ88.74%, 99.53%, 97.68%, 92.02%, 100%, 99.88%, 99.99%, 97.61% AUCを達成した。
また,cnnモデルとトランスフォーマーモデルの特異な強みを特定し,異なるディープフェイクデータセット間の観測された関係を分析し,この領域における今後の展開を支援する。 The rapid evolvement of deepfake creation technologies is seriously threating media information trustworthiness. The consequences impacting targeted individuals and institutions can be dire. In this work, we study the evolutions of deep learning architectures, particularly CNNs and Transformers. We identified eight promising deep learning architectures, designed and developed our deepfake detection models and conducted experiments over well-established deepfake datasets. These datasets included the latest second and third generation deepfake datasets. We evaluated the effectiveness of our developed single model detectors in deepfake detection and cross datasets evaluations. We achieved 88.74%, 99.53%, 97.68%, 99.73% and 92.02% accuracy and 99.95%, 100%, 99.88%, 99.99% and 97.61% AUC, in the detection of FF++ 2020, Google DFD, Celeb-DF, Deeper Forensics and DFDC deepfakes, respectively. We also identified and showed the unique strengths of CNNs and Transformers models and analysed the observed relationships among the different deepfake datasets, to aid future developments in this area. | 翻訳日:2023-04-10 11:37:46 公開日:2023-04-07 |
# Reduce, Reuse, Recycle: Modular Multi-Object Navigation Reduce, Reuse, Recycle: Modular Multi-Object Navigation ( http://arxiv.org/abs/2304.03696v1 ) ライセンス: Link先を確認 | Sonia Raychaudhuri, Tommaso Campari, Unnat Jain, Manolis Savva, Angel X. Chang | (参考訳) 私たちの仕事は、エージェントが所定のシーケンスで複数のオブジェクトにナビゲートする必要があるマルチオブジェクトナビゲーション(multion)タスクに焦点を当てています。
4つのモジュールを含むアプローチを分割することで、このタスクの固有のモジュラリティを体系的に調査します。
(a)RGB画像からオブジェクトを識別するよう訓練されたオブジェクト検出モジュール
(b)観測対象のセマンティックマップを構築するためのマップ構築モジュール
(c) エージェントが周囲を探索できる探索モジュール、そして最後に
(d) 特定対象オブジェクトに移動するためのナビゲーションモジュール。
この作業ではナビゲーションと探索モジュールに重点を置いています。
我々は,スクラッチからナビゲートを学習する代わりに,マルチオンタスクでポイントゴーアナビゲーションモデルを効果的に活用できることを示す。
実験の結果、PointGoalエージェントベースのナビゲーションモジュールは、MultiONタスクにおける解析経路計画よりも優れていることがわかった。
また,探索戦略を比較した結果,ランダム探索戦略がより高度な探査手法を大幅に上回っていることがわかった。
また、我々のアプローチのテストベッドとして、新しい大規模データセットであるMultiON 2.0も作成します。 Our work focuses on the Multi-Object Navigation (MultiON) task, where an agent needs to navigate to multiple objects in a given sequence. We systematically investigate the inherent modularity of this task by dividing our approach to contain four modules: (a) an object detection module trained to identify objects from RGB images, (b) a map building module to build a semantic map of the observed objects, (c) an exploration module enabling the agent to explore its surroundings, and finally (d) a navigation module to move to identified target objects. We focus on the navigation and the exploration modules in this work. We show that we can effectively leverage a PointGoal navigation model in the MultiON task instead of learning to navigate from scratch. Our experiments show that a PointGoal agent-based navigation module outperforms analytical path planning on the MultiON task. We also compare exploration strategies and surprisingly find that a random exploration strategy significantly outperforms more advanced exploration methods. We additionally create MultiON 2.0, a new large-scale dataset as a test-bed for our approach. | 翻訳日:2023-04-10 11:36:55 公開日:2023-04-07 |
# モデル非依存性偏差画像キャプション Model-Agnostic Gender Debiased Image Captioning ( http://arxiv.org/abs/2304.03693v1 ) ライセンス: Link先を確認 | Yusuke Hirota, Yuta Nakashima, Noa Garcia | (参考訳) 画像キャプションモデルは、トレーニングセット内の有害な社会バイアスを持続し、増幅することが知られている。
本研究では,画像キャプションモデルにおける性別バイアスを軽減することを目的とする。
先行研究は、モデルに性別の誤分類を減らすよう人々に強制することによってこの問題に対処してきたが、逆に、正しい性別を予測するために、性別のステレオタイプな単語を生成する。
この観察から、画像キャプションモデルに影響を及ぼす性別バイアスは2種類あると仮定する。
1)性別を予測するために文脈を利用するバイアス
2) 性別によって特定の(しばしばステレオタイプな)単語を生成する確率のバイアス。
両性バイアスを緩和するため, 合成バイアスサンプルから学習し, 男女間の偏見を低減し, 性別の誤分類を補正し, ジェンダー・ステレオタイプの単語をより中立なものに変更する枠組みであるLIBRAを提案する。 Image captioning models are known to perpetuate and amplify harmful societal bias in the training set. In this work, we aim to mitigate such gender bias in image captioning models. While prior work has addressed this problem by forcing models to focus on people to reduce gender misclassification, it conversely generates gender-stereotypical words at the expense of predicting the correct gender. From this observation, we hypothesize that there are two types of gender bias affecting image captioning models: 1) bias that exploits context to predict gender, and 2) bias in the probability of generating certain (often stereotypical) words because of gender. To mitigate both types of gender biases, we propose a framework, called LIBRA, that learns from synthetically biased samples to decrease both types of biases, correcting gender misclassification and changing gender-stereotypical words to more neutral ones. | 翻訳日:2023-04-10 11:36:25 公開日:2023-04-07 |
# 深層学習とその他の機械学習アルゴリズムを用いた不正トラフィック検出のための特徴マイニング Feature Mining for Encrypted Malicious Traffic Detection with Deep Learning and Other Machine Learning Algorithms ( http://arxiv.org/abs/2304.03691v1 ) ライセンス: Link先を確認 | Zihao Wang, Vrizlynn L. L. Thing | (参考訳) 暗号化メカニズムの人気は、悪意のあるトラフィック検出に大きな課題をもたらす。
従来の検出技術は、暗号化されたトラフィックの復号化なしには機能しない。
現在、暗号化された悪意のあるトラフィック検出に関する研究は、機能抽出と機械学習やディープラーニングアルゴリズムの選択に焦点を当てている。
本稿では,まず,トラフィックの特徴を詳細に分析し,異なるトラフィック特徴生成手法を比較するとともに,暗号化された悪意のあるトラフィック分析用に特別に設計された暗号化トラフィック機能の新しい概念を提案する。
さらに,暗号化された悪意のあるトラフィック検出のためのフレームワークを提案する。
このフレームワークは、ディープラーニングと従来の機械学習アルゴリズムの両方からなる2層検出フレームワークである。
比較実験を通じて、ResNetやRandom Forestといった古典的なディープラーニングや従来の機械学習アルゴリズムよりも優れています。
さらに、ディープラーニングモデルのための十分なトレーニングデータを提供するため、公開データセットからなるデータセットをキュレートする。
構成されたデータセットは、公開データセットのみを使用するよりも包括的である。
最後に,本研究の今後の方向性について述べる。 The popularity of encryption mechanisms poses a great challenge to malicious traffic detection. The reason is traditional detection techniques cannot work without the decryption of encrypted traffic. Currently, research on encrypted malicious traffic detection without decryption has focused on feature extraction and the choice of machine learning or deep learning algorithms. In this paper, we first provide an in-depth analysis of traffic features and compare different state-of-the-art traffic feature creation approaches, while proposing a novel concept for encrypted traffic feature which is specifically designed for encrypted malicious traffic analysis. In addition, we propose a framework for encrypted malicious traffic detection. The framework is a two-layer detection framework which consists of both deep learning and traditional machine learning algorithms. Through comparative experiments, it outperforms classical deep learning and traditional machine learning algorithms, such as ResNet and Random Forest. Moreover, to provide sufficient training data for the deep learning model, we also curate a dataset composed entirely of public datasets. The composed dataset is more comprehensive than using any public dataset alone. Lastly, we discuss the future directions of this research. | 翻訳日:2023-04-10 11:36:09 公開日:2023-04-07 |
# 機械学習開発者から見た公正感の評価 Assessing Perceived Fairness from Machine Learning Developer's Perspective ( http://arxiv.org/abs/2304.03745v1 ) ライセンス: Link先を確認 | Anoop Mishra, Deepak Khazanchi | (参考訳) 機械学習(ML)アプリケーションにおける公正さは、研究と産業における開発者にとって重要なプラクティスである。
MLアプリケーションでは、データのバイアス、キュレーションプロセス、誤った仮定、アルゴリズム開発プロセスに反映された暗黙のバイアスによって不公平が引き起こされる。
MLアプリケーションがより広く使われるようになると、公正なMLアプリケーションの開発が重要になります。
文献は、MLの公平性がユーザの視点からどのように説明され、学生が将来の開発者になるかについて、複数の見解を示唆している。
特に、ML開発者は、認識された公平性に関する研究の焦点にはなっていない。
本稿では,ML開発者の公正感に関するパイロット調査について報告する。
公平さの認識について述べる中で,本稿は,開発者の系統的焦点群を用いて,この構成の属性を評価するための探索的パイロット研究を行う。
フォーカスグループでは、参加者に3つの質問をしました。
1)MLの公平性の特徴は何か?
2)MLの公平性に対する開発者の信念に影響を与える要因は何か?
そして
3)ML開発における公平性のためにどのようなプラクティスやツールが利用されるのか?
この調査グループによる研究の結果は、公正性を評価するために、開発者は一般的に、ビジネス固有の要件、データ収集、前処理、内処理、後処理など、MLアプリケーションの設計と開発全体に焦点を当てていることを示している。
したがって,組織正義論の手続き的側面は,開発者の公正感を説明することができる。
この研究の成果は、開発チームがMLアプリケーション開発ライフサイクルに公正さを統合するのを支援するために、さらに活用することができる。
また、MLベースのアプリケーションの公正性を評価するためのベストプラクティスを開発するよう、ML開発者や組織に動機付ける。 Fairness in machine learning (ML) applications is an important practice for developers in research and industry. In ML applications, unfairness is triggered due to bias in the data, curation process, erroneous assumptions, and implicit bias rendered within the algorithmic development process. As ML applications come into broader use developing fair ML applications is critical. Literature suggests multiple views on how fairness in ML is described from the users perspective and students as future developers. In particular, ML developers have not been the focus of research relating to perceived fairness. This paper reports on a pilot investigation of ML developers perception of fairness. In describing the perception of fairness, the paper performs an exploratory pilot study to assess the attributes of this construct using a systematic focus group of developers. In the focus group, we asked participants to discuss three questions- 1) What are the characteristics of fairness in ML? 2) What factors influence developers belief about the fairness of ML? and 3) What practices and tools are utilized for fairness in ML development? The findings of this exploratory work from the focus group show that to assess fairness developers generally focus on the overall ML application design and development, i.e., business-specific requirements, data collection, pre-processing, in-processing, and post-processing. Thus, we conclude that the procedural aspects of organizational justice theory can explain developers perception of fairness. The findings of this study can be utilized further to assist development teams in integrating fairness in the ML application development lifecycle. It will also motivate ML developers and organizations to develop best practices for assessing the fairness of ML-based applications. | 翻訳日:2023-04-10 11:29:49 公開日:2023-04-07 |
# ChatGPTはバイアスを受けるべきか?
大規模言語モデルにおけるバイアスの課題とリスク Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models ( http://arxiv.org/abs/2304.03738v1 ) ライセンス: Link先を確認 | Emilio Ferrara | (参考訳) 生成言語モデルの能力が進歩を続けるにつれ、これらのモデルに内在するバイアスの影響は、研究者、実践者、そしてより広い大衆から注目を集めている。
本稿では,ChatGPTのような大規模言語モデルにおけるバイアスに関連する課題とリスクについて考察する。
バイアスの起源を,トレーニングデータ,モデル仕様,アルゴリズム制約,製品設計,政策決定の性質から考察する。
偏りのあるモデル出力の意図しない結果から生じる倫理的懸念について検討する。
さらに,バイアスを軽減する可能性,バイアスの回避可能性,仮想アシスタントやコンテンツ生成,チャットボットなど,さまざまなアプリケーションにこれらのモデルをデプロイすることの意味について分析する。
最後に、言語モデルにおけるバイアスを特定し、定量化し、緩和するための現在のアプローチをレビューし、より公平で透明で責任あるAIシステムを開発するための、多分野の協力的な取り組みの必要性を強調します。
この記事では、人工知能コミュニティ内の思慮深い対話を刺激し、研究者や開発者が生成言語モデルにおけるバイアスの役割と倫理的AIの追求を反映するよう促す。 As the capabilities of generative language models continue to advance, the implications of biases ingrained within these models have garnered increasing attention from researchers, practitioners, and the broader public. This article investigates the challenges and risks associated with biases in large-scale language models like ChatGPT. We discuss the origins of biases, stemming from, among others, the nature of training data, model specifications, algorithmic constraints, product design, and policy decisions. We explore the ethical concerns arising from the unintended consequences of biased model outputs. We further analyze the potential opportunities to mitigate biases, the inevitability of some biases, and the implications of deploying these models in various applications, such as virtual assistants, content generation, and chatbots. Finally, we review the current approaches to identify, quantify, and mitigate biases in language models, emphasizing the need for a multi-disciplinary, collaborative effort to develop more equitable, transparent, and responsible AI systems. This article aims to stimulate a thoughtful dialogue within the artificial intelligence community, encouraging researchers and developers to reflect on the role of biases in generative language models and the ongoing pursuit of ethical AI. | 翻訳日:2023-04-10 11:29:24 公開日:2023-04-07 |
# 資源効率のよい非ガウス雑音の特性と制御 Resource-efficient digital characterization and control of classical non-Gaussian noise ( http://arxiv.org/abs/2304.03735v1 ) ライセンス: Link先を確認 | Wenzheng Dong, Gerardo A. Paz-Silva, and Lorenza Viola | (参考訳) 古典的非ガウス性が強調される非マルコフ開量子系に対して,フレームに基づくキャラクタリゼーションと制御 [prx quantum 2, 030315 (2021)] の有用性を示す。
ランダムな電信ノイズのパラダイムに着目し、デジタルウィンドウフレームで作業することで、ノイズ最適化動的デカップリング設計のための高次制御適応スペクトル推定を実現する方法を示す。
動作パラメータによっては、非ガウス雑音スペクトルに基づいて最適化された制御は、標準ワルシュデカップリングシーケンスとガウス雑音分光のみに基づいて最適化されたシーケンスとを著しく上回っていることが分かる。
このアプローチは、周波数領域のcommベースメソッドよりも本質的にリソース効率がよい。 We show the usefulness of frame-based characterization and control [PRX Quantum 2, 030315 (2021)] for non-Markovian open quantum systems subject to classical non-Gaussian dephasing. By focusing on the paradigmatic case of random telegraph noise and working in a digital window frame, we demonstrate how to achieve higher-order control-adapted spectral estimation for noise-optimized dynamical decoupling design. We find that, depending on the operating parameter regime, control that is optimized based on non-Gaussian noise spectroscopy can substantially outperform standard Walsh decoupling sequences as well as sequences that are optimized based solely on Gaussian noise spectroscopy. This approach is also intrinsically more resource-efficient than frequency-domain comb-based methods. | 翻訳日:2023-04-10 11:29:05 公開日:2023-04-07 |
# 対話ルーティングのためのマルチタスク学習の強化機構 Gated Mechanism Enhanced Multi-Task Learning for Dialog Routing ( http://arxiv.org/abs/2304.03730v1 ) ライセンス: Link先を確認 | Ziming Huang and Zhuoxuan Jiang and Ke Wang and Juntao Li and Shanshan Feng and Xian-Ling Mao | (参考訳) 現在、Eコマースにおける事前販売やアフターセールといった人間-ボット共生ダイアログシステムは広く利用されており、ダイアログルーティングコンポーネントは全体的な効率の向上、人的リソースコストの削減、ユーザエクスペリエンスの向上に不可欠である。
既存のほとんどのメソッドはこの要件を満たすことができるが、単一のソースダイアログデータのみをモデル化することができ、データとサブタスク間の関係に関する基礎知識を効果的に捉えることはできない。
本稿では,様々な対話データの中から,タスク間データとタスク間知識の両方を徹底的に抽出することにより,この課題を解明する。
上記の目標を達成するために、新しいダイアログエンコーダと2つのカスタマイズされたゲート型機構モジュールを含む、ゲート型機構強化マルチタスクモデル(g3m)を提案する。
提案手法は階層的な情報フィルタリングの役割を担い、既存の対話システムには非侵襲的である。
実世界のアプリケーションから収集した2つのデータセットに基づいて,本手法の有効性を実験的に検証し,RMSE測定値の8.7\%/11.8\%,F1測定値の2.2\%/4.4\%を改善した。 Currently, human-bot symbiosis dialog systems, e.g., pre- and after-sales in E-commerce, are ubiquitous, and the dialog routing component is essential to improve the overall efficiency, reduce human resource cost, and enhance user experience. Although most existing methods can fulfil this requirement, they can only model single-source dialog data and cannot effectively capture the underlying knowledge of relations among data and subtasks. In this paper, we investigate this important problem by thoroughly mining both the data-to-task and task-to-task knowledge among various kinds of dialog data. To achieve the above targets, we propose a Gated Mechanism enhanced Multi-task Model (G3M), specifically including a novel dialog encoder and two tailored gated mechanism modules. The proposed method can play the role of hierarchical information filtering and is non-invasive to existing dialog systems. Based on two datasets collected from real world applications, extensive experimental results demonstrate the effectiveness of our method, which achieves the state-of-the-art performance by improving 8.7\%/11.8\% on RMSE metric and 2.2\%/4.4\% on F1 metric. | 翻訳日:2023-04-10 11:28:53 公開日:2023-04-07 |
# 平均回帰基準に対する完全勾配深部強化学習 Full Gradient Deep Reinforcement Learning for Average-Reward Criterion ( http://arxiv.org/abs/2304.03729v1 ) ライセンス: Link先を確認 | Tejas Pagare, Vivek Borkar, Konstantin Avrachenkov | (参考訳) 我々は,avrachenkovら (2021) の報酬マルコフ決定過程を平均報酬問題に短縮するために,十分に収束する全勾配dqnアルゴリズムを拡張した。
広範に使われているRVI Q-Learningと最近提案された差分Q-Learningを、フルグラディエントDQNとDQNを用いた神経機能近似設定で比較した。
私たちはまた、マルコフのrestless multi-armed banditsのウィットルインデックスを学ぶためにこれを拡張します。
我々は,提案するフルグラデーション変種について,異なるタスクにまたがってより高い収束率を観測する。 We extend the provably convergent Full Gradient DQN algorithm for discounted reward Markov decision processes from Avrachenkov et al. (2021) to average reward problems. We experimentally compare widely used RVI Q-Learning with recently proposed Differential Q-Learning in the neural function approximation setting with Full Gradient DQN and DQN. We also extend this to learn Whittle indices for Markovian restless multi-armed bandits. We observe a better convergence rate of the proposed Full Gradient variant across different tasks. | 翻訳日:2023-04-10 11:28:28 公開日:2023-04-07 |
# 解釈可能な統一言語チェック Interpretable Unified Language Checking ( http://arxiv.org/abs/2304.03728v1 ) ライセンス: Link先を確認 | Tianhua Zhang, Hongyin Luo, Yung-Sung Chuang, Wei Fang, Luc Gaitskell, Thomas Hartvigsen, Xixin Wu, Danny Fox, Helen Meng, James Glass | (参考訳) 大規模言語モデル(LLM)が生み出す望ましくない行動(非事実的、偏見的、憎悪的な言語)に対する近年の懸念にもかかわらず、LLMは自然と社会知識の潜在表現に基づいて、本質的にマルチタスク言語チェッカーであることがわかった。
本稿では,人間と機械によって生成された言語に対する解釈可能で統一的な言語検査(unilc)手法を提案する。
フェアネスとファクトチェックタスクは専用モデルと別々に処理されているが, ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクと, シンプルで少数ショットで統一されたプロンプトの組み合わせにより, LLM は高い性能を達成できることがわかった。
この研究で提案された ``1/2-shot' のマルチタスク言語チェック手法により、GPT3.5-turbo モデルは、いくつかの言語タスクにおいて完全に教師付きベースラインより優れている。
単純なアプローチと結果は、強力な潜在知識表現に基づいて、LLMは誤情報、ステレオタイプ、ヘイトスピーチを検出する適応的で説明可能なツールであることを示している。 Despite recent concerns about undesirable behaviors generated by large language models (LLMs), including non-factual, biased, and hateful language, we find LLMs are inherent multi-task language checkers based on their latent representations of natural and social knowledge. We present an interpretable, unified, language checking (UniLC) method for both human and machine-generated language that aims to check if language input is factual and fair. While fairness and fact-checking tasks have been handled separately with dedicated models, we find that LLMs can achieve high performance on a combination of fact-checking, stereotype detection, and hate speech detection tasks with a simple, few-shot, unified set of prompts. With the ``1/2-shot'' multi-task language checking method proposed in this work, the GPT3.5-turbo model outperforms fully supervised baselines on several language tasks. The simple approach and results suggest that based on strong latent knowledge representations, an LLM can be an adaptive and explainable tool for detecting misinformation, stereotypes, and hate speech. | 翻訳日:2023-04-10 11:28:20 公開日:2023-04-07 |
# プライバシーを超えて - 合成データの機会と課題をナビゲートする Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data ( http://arxiv.org/abs/2304.03722v1 ) ライセンス: Link先を確認 | Boris van Breugel and Mihaela van der Schaar | (参考訳) 生成モデルによる合成データの生成は、MLコミュニティ以上に関心を集めている。
In the past, synthetic data was often regarded as a means to private data release, but a surge of recent papers explore how its potential reaches much further than this -- from creating more fair data to data augmentation, and from simulation to text generated by ChatGPT. In this perspective we explore whether, and how, synthetic data may become a dominant force in the machine learning world, promising a future where datasets can be tailored to individual needs. Just as importantly, we discuss which fundamental challenges the community needs to overcome for wider relevance and application of synthetic data -- the most important of which is quantifying how much we can trust any finding or prediction drawn from synthetic data. Generating synthetic data through generative models is gaining interest in the ML community and beyond. In the past, synthetic data was often regarded as a means to private data release, but a surge of recent papers explore how its potential reaches much further than this -- from creating more fair data to data augmentation, and from simulation to text generated by ChatGPT. In this perspective we explore whether, and how, synthetic data may become a dominant force in the machine learning world, promising a future where datasets can be tailored to individual needs. Just as importantly, we discuss which fundamental challenges the community needs to overcome for wider relevance and application of synthetic data -- the most important of which is quantifying how much we can trust any finding or prediction drawn from synthetic data. | 翻訳日:2023-04-10 11:27:59 公開日:2023-04-07 |
# 計量と選好学習のための表現者定理--幾何学的視点 Representer Theorems for Metric and Preference Learning: A Geometric Perspective ( http://arxiv.org/abs/2304.03720v1 ) ライセンス: Link先を確認 | Peyman Morteza | (参考訳) ヒルベルト空間における計量と選好学習問題を考察する。
計量学習と選好学習を同時に行うための新しい代表者定理を得る。
我々のキーとなる観察は、表現定理は問題構造に固有の内積によって誘導されるノルムに対して定式化できるということである。
さらに、我々のフレームワークが三重項比較からメートル法学習の課題にどのように適用できるかを示し、この課題に対して単純かつ自己完結した表現定理が導かれることを示す。
カーネルヒルベルト空間(英語版)(rkhs)を再現する場合、学習問題の解は古典表現の定理に類似したカーネル項を用いて表現できることを実証する。 We explore the metric and preference learning problem in Hilbert spaces. We obtain a novel representer theorem for the simultaneous task of metric and preference learning. Our key observation is that the representer theorem can be formulated with respect to the norm induced by the inner product inherent in the problem structure. Additionally, we demonstrate how our framework can be applied to the task of metric learning from triplet comparisons and show that it leads to a simple and self-contained representer theorem for this task. In the case of Reproducing Kernel Hilbert Spaces (RKHS), we demonstrate that the solution to the learning problem can be expressed using kernel terms, akin to classical representer theorems. | 翻訳日:2023-04-10 11:27:48 公開日:2023-04-07 |
# 構造健康モニタリング領域におけるエッジAIの統合 Integrating Edge-AI in Structural Health Monitoring domain ( http://arxiv.org/abs/2304.03718v1 ) ライセンス: Link先を確認 | Anoop Mishra, Gopinath Gangisetti, Deepak Khazanchi | (参考訳) 損傷検出などの構造的健康モニタリング(SHM)タスクは、メンテナンスと劣化に関する意思決定に不可欠である。
例えば、SHMのひび割れ検出は、ひび割れの進行が構造不安定につながるため、橋梁維持に不可欠である。
しかし、文献中のほとんどのAI/MLモデルは、リアルタイム環境での実行中にレイテンシが低く、遅延推論時間に問題がある。
本研究では,リアルタイム橋梁検査のためのエッジAIをSHMドメインに統合することを目的とした。
エッジAIの文献に基づいて、SHMタスクにおけるリアルタイム意思決定支援システムにおいて、リアルタイムの推論を物理サイトで実行できるように、その能力は貴重な統合となる。
この研究は、Google Coral Dev BoardやKneron KL520といった商用エッジAIプラットフォームを使用して、エッジAIデバイスの有効性を開発し、分析する。
そこで本研究では,構造的健康モニタリング領域のためのエッジAIフレームワークを提案する。
リアルタイムクラック分類を行うためのフレームワークを検証するために,エッジAI互換のディープラーニングモデルを開発した。
このモデルの有効性は、その正確性、混乱行列の生成、およびリアルタイム設定で観測される推論時間に基づいて評価される。 Structural health monitoring (SHM) tasks like damage detection are crucial for decision-making regarding maintenance and deterioration. For example, crack detection in SHM is crucial for bridge maintenance as crack progression can lead to structural instability. However, most AI/ML models in the literature have low latency and late inference time issues while performing in real-time environments. This study aims to explore the integration of edge-AI in the SHM domain for real-time bridge inspections. Based on edge-AI literature, its capabilities will be valuable integration for a real-time decision support system in SHM tasks such that real-time inferences can be performed on physical sites. This study will utilize commercial edge-AI platforms, such as Google Coral Dev Board or Kneron KL520, to develop and analyze the effectiveness of edge-AI devices. Thus, this study proposes an edge AI framework for the structural health monitoring domain. An edge-AI-compatible deep learning model is developed to validate the framework to perform real-time crack classification. The effectiveness of this model will be evaluated based on its accuracy, the confusion matrix generated, and the inference time observed in a real-time setting. | 翻訳日:2023-04-10 11:27:37 公開日:2023-04-07 |
# マルチモーダル学習におけるコントラスト損失の重要性について On the Importance of Contrastive Loss in Multimodal Learning ( http://arxiv.org/abs/2304.03717v1 ) ライセンス: Link先を確認 | Yunwei Ren, Yuanzhi Li | (参考訳) 近年、対照的な学習アプローチ(例: clip (radford et al., 2021))は、異なるデータポイントの表現を互いに遠ざけながら、同じデータポイントの異なるビュー(例えば、画像とそのキャプション)の表現間の距離を最小化しようとするマルチモーダル学習において、大きな成功を収めている。
しかし、理論的観点からは、特にデータが等方的でない場合、異なる視点からの表現を効率的に学習できるかは明らかではない。
本研究では,単純なマルチモーダルコントラスト学習モデルの学習ダイナミクスを分析し,コントラストペアが学習表現を効率的にバランスさせる上で重要であることを示す。
特に、正のペアはモデルに条件数を増やすコストで表現を整列させ、負のペアは条件数を減少させ、学習した表現はバランスを保つ。 Recently, contrastive learning approaches (e.g., CLIP (Radford et al., 2021)) have received huge success in multimodal learning, where the model tries to minimize the distance between the representations of different views (e.g., image and its caption) of the same data point while keeping the representations of different data points away from each other. However, from a theoretical perspective, it is unclear how contrastive learning can learn the representations from different views efficiently, especially when the data is not isotropic. In this work, we analyze the training dynamics of a simple multimodal contrastive learning model and show that contrastive pairs are important for the model to efficiently balance the learned representations. In particular, we show that the positive pairs will drive the model to align the representations at the cost of increasing the condition number, while the negative pairs will reduce the condition number, keeping the learned representations balanced. | 翻訳日:2023-04-10 11:27:21 公開日:2023-04-07 |
# SparseFormer: 限定潜在トークンによるスパース視覚認識 SparseFormer: Sparse Visual Recognition via Limited Latent Tokens ( http://arxiv.org/abs/2304.03768v1 ) ライセンス: Link先を確認 | Ziteng Gao, Zhan Tong, Limin Wang, Mike Zheng Shou | (参考訳) 人間の視覚認識はまばらなプロセスであり、細部を一様に横断するよりは、わずかな視覚的な手がかりしか参加しない。
しかし、現在のビジョンネットワークのほとんどが密集したパラダイムに従っており、すべての視覚単位(ピクセルやパッチなど)を統一的に処理している。
本稿では,この密集したパラダイムに挑戦し,人間のスパース認識をエンドツーエンドで模倣する新しい手法であるスパースフォーマーを提案する。
sparseformerは、非常に限られた数のトークン(49まで)を使って、元のピクセル空間で密度の高い単位を処理するのではなく、スパース特徴サンプリング手順で画像を表現することを学ぶ。
したがって、スパースフォーマーは画像空間上の密接な操作のほとんどを回避し、計算コストを大幅に下げる。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを実現し、精度とスループットのトレードオフが向上している。
さらに,ネットワークの設計をより少ない計算コストで有望な性能でビデオ分類に容易に拡張することができる。
私たちの研究が視覚モデリングの代替手段を提供し、スパースニューラルネットワークアーキテクチャに関するさらなる研究を刺激することを期待しています。
コードはhttps://github.com/showlab/sparseformerで公開される。 Human visual recognition is a sparse process, where only a few salient visual cues are attended to rather than traversing every detail uniformly. However, most current vision networks follow a dense paradigm, processing every single visual unit (e.g,, pixel or patch) in a uniform manner. In this paper, we challenge this dense paradigm and present a new method, coined SparseFormer, to imitate human's sparse visual recognition in an end-to-end manner. SparseFormer learns to represent images using a highly limited number of tokens (down to 49) in the latent space with sparse feature sampling procedure instead of processing dense units in the original pixel space. Therefore, SparseFormer circumvents most of dense operations on the image space and has much lower computational costs. Experiments on the ImageNet classification benchmark dataset show that SparseFormer achieves performance on par with canonical or well-established models while offering better accuracy-throughput tradeoff. Moreover, the design of our network can be easily extended to the video classification with promising performance at lower computational costs. We hope that our work can provide an alternative way for visual modeling and inspire further research on sparse neural architectures. The code will be publicly available at https://github.com/showlab/sparseformer | 翻訳日:2023-04-10 11:20:54 公開日:2023-04-07 |
# Embodied Concept Learner: 概念の自己教師型学習と指示追従によるマッピング Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following ( http://arxiv.org/abs/2304.03767v1 ) ライセンス: Link先を確認 | Mingyu Ding, Yan Xu, Zhenfang Chen, David Daniel Cox, Ping Luo, Joshua B. Tenenbaum, Chuang Gan | (参考訳) 人間は、非常に若い段階でも視覚概念を学び、環境との活発な相互作用を通じて幾何学やレイアウトを理解し、その構成を新しい場面で自然言語で記述されたタスクに一般化することができる。
このような能力を模倣するために,インタラクティブな3D環境におけるEmbodied Concept Learner (ECL)を提案する。
具体的には、ロボットエージェントは、人間のデモや言語指示から純粋に学習することで、視覚概念を接地し、セマンティックマップを構築し、タスクを完了するためにアクションを計画することができる。
ECLは以下の通りである。
(i)自然言語を実行可能なプログラムに変換する命令パーサ
二 言語記述に基づいて視覚概念を基礎とする具体化された概念学習者
(iii)奥行きを推定し、学習した概念を利用して意味地図を構成する地図作成者
(iv)各プログラムを実行する決定論的ポリシーを持つプログラム実行者
ECLはモジュール化された設計のおかげで、いくつかの魅力的な利点がある。
第一に、ロボットエージェントは、例えば、アクティブな相互作用を通じて基底概念を解釈し、前進する際の相違によって深度を知覚するなど、乳児のように、意味学と深度を教師なしで学習することができる。
第二に、ESLは完全に透明で、長期計画において段階的に解釈可能である。
第3に、ECLは、意味ラベルが提供されていない場合、ALFREDベンチマークの以前の作業よりも優れたエボディード命令(EIF)に有用である。
また、学習された概念は、オブジェクト状態の推論など、他の下流タスクに再利用することができる。
プロジェクトページ: http://ecl.csail.mit.edu/ Humans, even at a very early age, can learn visual concepts and understand geometry and layout through active interaction with the environment, and generalize their compositions to complete tasks described by natural languages in novel scenes. To mimic such capability, we propose Embodied Concept Learner (ECL) in an interactive 3D environment. Specifically, a robot agent can ground visual concepts, build semantic maps and plan actions to complete tasks by learning purely from human demonstrations and language instructions, without access to ground-truth semantic and depth supervisions from simulations. ECL consists of: (i) an instruction parser that translates the natural languages into executable programs; (ii) an embodied concept learner that grounds visual concepts based on language descriptions; (iii) a map constructor that estimates depth and constructs semantic maps by leveraging the learned concepts; and (iv) a program executor with deterministic policies to execute each program. ECL has several appealing benefits thanks to its modularized design. Firstly, it enables the robotic agent to learn semantics and depth unsupervisedly acting like babies, e.g., ground concepts through active interaction and perceive depth by disparities when moving forward. Secondly, ECL is fully transparent and step-by-step interpretable in long-term planning. Thirdly, ECL could be beneficial for the embodied instruction following (EIF), outperforming previous works on the ALFRED benchmark when the semantic label is not provided. Also, the learned concept can be reused for other downstream tasks, such as reasoning of object states. Project page: http://ecl.csail.mit.edu/ | 翻訳日:2023-04-10 11:20:32 公開日:2023-04-07 |
# サンプルを共同でテストする: 画像品質評価のための擬似参照 Test your samples jointly: Pseudo-reference for image quality evaluation ( http://arxiv.org/abs/2304.03766v1 ) ライセンス: Link先を確認 | Marcelin Tworski and St\'ephane Lathuili\`ere | (参考訳) 本稿では,画像品質評価の問題に対処するが,画像毎に独立して画像品質を予測する既存の手法とは対照的に,同一内容の異なる画像を共同でモデル化し,画質評価の精度を向上させることを提案する。
この提案は、複数の歪んだ画像が、コンテンツや品質に関連する画像の特徴を曖昧にするための情報を提供するという考えに動機づけられている。
この目的のために、異なる画像からの特徴表現を組み合わせることで、スコア予測の強化に使用する擬似参照を推定する。
実験の結果,本手法では,同一の新たなコンテンツを示す複数の画像の特徴をうまく組み合わせ,推定精度を向上させることができた。 In this paper, we address the well-known image quality assessment problem but in contrast from existing approaches that predict image quality independently for every images, we propose to jointly model different images depicting the same content to improve the precision of quality estimation. This proposal is motivated by the idea that multiple distorted images can provide information to disambiguate image features related to content and quality. To this aim, we combine the feature representations from the different images to estimate a pseudo-reference that we use to enhance score prediction. Our experiments show that at test-time, our method successfully combines the features from multiple images depicting the same new content, improving estimation quality. | 翻訳日:2023-04-10 11:20:07 公開日:2023-04-07 |
# 立体インペインティングによる3次元シーンのクラッタ検出と除去 Clutter Detection and Removal in 3D Scenes with View-Consistent Inpainting ( http://arxiv.org/abs/2304.03763v1 ) ライセンス: Link先を確認 | Fangyin Wei, Thomas Funkhouser, Szymon Rusinkiewicz | (参考訳) プライバシーに配慮したコンテンツフィルタリングからデータ拡張まで、多くのアプリケーションでシーンからクラッターを取り除くことは不可欠である。
本研究では,コヒーレントな形状とテクスチャを持つ3次元シーンやインペアからクラッタを除去する自動システムを提案する。
本稿では,共有プロパティからの3次元分割と3次元インペイントという2つの重要な構成要素の手法を提案する。
3dシーンクラッター (frequently-moving objects) の定義は、コンピュータビジョンにおける一般的な研究対象のカテゴリではうまく捉えられていない。
明確に定義されたクラッタアノテーションの欠如に対処するため、ノイズの多いきめ細かなラベルをグループ化し、仮想レンダリングを活用し、インスタンスレベルのエリアセンシティブな損失を課します。
クラッタを除去すると、塗装されたRGB-D画像をマージすることで、穴の形状やテクスチャを塗布する。
これは、メッシュ再構築のために、個別に塗られたイメージ間のマルチビュー一貫性を保証する、新しい投票とプルーニング戦略を必要とする。
また,scannetとmatterportデータセットを用いた実験により,クラッタセグメンテーションと3次元インパインティングのベースラインを視覚的および定量的に上回った。 Removing clutter from scenes is essential in many applications, ranging from privacy-concerned content filtering to data augmentation. In this work, we present an automatic system that removes clutter from 3D scenes and inpaints with coherent geometry and texture. We propose techniques for its two key components: 3D segmentation from shared properties and 3D inpainting, both of which are important porblems. The definition of 3D scene clutter (frequently-moving objects) is not well captured by commonly-studied object categories in computer vision. To tackle the lack of well-defined clutter annotations, we group noisy fine-grained labels, leverage virtual rendering, and impose an instance-level area-sensitive loss. Once clutter is removed, we inpaint geometry and texture in the resulting holes by merging inpainted RGB-D images. This requires novel voting and pruning strategies that guarantee multi-view consistency across individually inpainted images for mesh reconstruction. Experiments on ScanNet and Matterport dataset show that our method outperforms baselines for clutter segmentation and 3D inpainting, both visually and quantitatively. | 翻訳日:2023-04-10 11:19:54 公開日:2023-04-07 |
# 非条件生成拡散によるゼロショットCTフィールド・オブ・ビュー補完 Zero-shot CT Field-of-view Completion with Unconditional Generative Diffusion Prior ( http://arxiv.org/abs/2304.03760v1 ) ライセンス: Link先を確認 | Kaiwen Xu, Aravind R. Krishnan, Thomas Z. Li, Yuankai Huo, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman | (参考訳) 解剖学的に一貫した視野 (FOV) の完成により, 難治部位の回復が, FOVに制限のあるCTの定量的解析に重要である。
条件付き生成モデルに基づく既存の解は、訓練段階における合成トランジションパターンの忠実性に依存しており、このことは、潜在的な未知のトランジションタイプに対する方法の一般化可能性の限界となる。
本研究では,事前訓練された非条件生成拡散前処理に基づくゼロショット法を評価する。
合成FOVトランケーションによる模擬胸部CTスライスの評価において、解剖学的に一貫した身体切片と、FOVトランケーションによる皮下脂肪組織測定誤差を回復することができる。
しかし、補正精度は条件的に訓練されたものと劣る。 Anatomically consistent field-of-view (FOV) completion to recover truncated body sections has important applications in quantitative analyses of computed tomography (CT) with limited FOV. Existing solution based on conditional generative models relies on the fidelity of synthetic truncation patterns at training phase, which poses limitations for the generalizability of the method to potential unknown types of truncation. In this study, we evaluate a zero-shot method based on a pretrained unconditional generative diffusion prior, where truncation pattern with arbitrary forms can be specified at inference phase. In evaluation on simulated chest CT slices with synthetic FOV truncation, the method is capable of recovering anatomically consistent body sections and subcutaneous adipose tissue measurement error caused by FOV truncation. However, the correction accuracy is inferior to the conditionally trained counterpart. | 翻訳日:2023-04-10 11:19:31 公開日:2023-04-07 |
# 学習における再現性と安定性 Replicability and stability in learning ( http://arxiv.org/abs/2304.03757v1 ) ライセンス: Link先を確認 | Zachary Chase, Shay Moran, Amir Yehudayoff | (参考訳) 研究結果の検証と検証を可能にするため、科学において再現性は不可欠である。
impagliazzo, lei, pitassi, sorrell (`22)は最近、機械学習における再現性の研究を開始した。
学習アルゴリズムは、内部ランダム性を用いて2つのi.d.入力に適用した場合に通常同じ出力を生成する場合、複製可能である。
ランダム性の修正を伴わない複製可能性の変種について検討する。
アルゴリズムは、2つのi.d.入力に適用した場合(内部ランダム性を修正することなく)、通常同じ出力を生成する場合、この形式の複製性を満たす。
この変種はグローバル安定性と呼ばれ、Bun, Livni and Moran (`20) によって差分プライバシーの文脈で導入された。
Impagliazzo et al. は、任意の複製可能なアルゴリズムを、任意の確率が 1 に近く同じ出力を生成するように、どのように向上させるかを示した。
対照的に、多くの学習タスクにおいて、グローバル安定性は弱くしか達成できず、同じアウトプットが生成されるのは確率が1から外れた場合に限られる。
この制限を克服するために,地球規模の安定性に相当するリスト再現性の概念を導入する。
さらに、リストの複製性は、確率を任意に 1 に近づけることで達成できることを示す。
また,標準学習理論的複雑性尺度とレプリカブル数との基本的な関係について述べる。
さらに,自明な場合に加えて,(impagliazzoなどの意味で)レプリカブルアルゴリズムをランダム化する必要があることを示唆した。
不可能性の証明は位相的不動点定理に基づいている。
すべてのアルゴリズムに対して、関連する位相的設定でポアンカー・ミランダの定理を適用することで「ハードな入力分布」を見つけることができる。
グローバル安定性とリストリプライ可能性の等価性はアルゴリズム的である。 Replicability is essential in science as it allows us to validate and verify research findings. Impagliazzo, Lei, Pitassi and Sorrell (`22) recently initiated the study of replicability in machine learning. A learning algorithm is replicable if it typically produces the same output when applied on two i.i.d. inputs using the same internal randomness. We study a variant of replicability that does not involve fixing the randomness. An algorithm satisfies this form of replicability if it typically produces the same output when applied on two i.i.d. inputs (without fixing the internal randomness). This variant is called global stability and was introduced by Bun, Livni and Moran (`20) in the context of differential privacy. Impagliazzo et al. showed how to boost any replicable algorithm so that it produces the same output with probability arbitrarily close to 1. In contrast, we demonstrate that for numerous learning tasks, global stability can only be accomplished weakly, where the same output is produced only with probability bounded away from 1. To overcome this limitation, we introduce the concept of list replicability, which is equivalent to global stability. Moreover, we prove that list replicability can be boosted so that it is achieved with probability arbitrarily close to 1. We also describe basic relations between standard learning-theoretic complexity measures and list replicable numbers. Our results in addition imply that, besides trivial cases, replicable algorithms (in the sense of Impagliazzo et al.) must be randomized. The proof of the impossibility result is based on a topological fixed-point theorem. For every algorithm, we are able to locate a "hard input distribution" by applying the Poincar\'e-Miranda theorem in a related topological setting. The equivalence between global stability and list replicability is algorithmic. | 翻訳日:2023-04-10 11:19:17 公開日:2023-04-07 |
# 言語モデルはゼロショットビデオ質問応答のための因果知識抽出器である Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering ( http://arxiv.org/abs/2304.03754v1 ) ライセンス: Link先を確認 | Hung-Ting Su, Yulei Niu, Xudong Lin, Winston H. Hsu, Shih-Fu Chang | (参考訳) Causal Video Question Answering (CVidQA)は、関連性や時間的関係だけでなく、ビデオ内の因果関係も問う。
テキストを入力として記述した理解データセットを読み取るための既存の質問合成手法(QG)。
しかし、QGモデルは「なぜ誰かが・・・」のような因果的な質問に焦点をあてるCVidQAへの関連知識の移譲が不十分なため、協会の質問(例えば「何をしているのか」など)しか学ばず、パフォーマンスが劣っている。
そこで我々は,因果的知識を利用して質問応答ペアを生成する手法を提案し,言語モデルから因果的常識的知識を活用しCVidQAに取り組む新しいフレームワークCaKE-LMを提案した。
LMから知識を抽出するために、CaKE-LMは、アクション(スローターキックボール)でLMに刺激して意図(ゴールを得点する)を回復させることで、もう1つのイベントをトリガーする2つのイベントを含む因果質問(例えば、'`score a goal'''のトリガーが '`soccer player kick ball''')を生成する。
CaKE-LMは、NExT-QAおよびCausal-VidQAデータセットにおいて、ゼロショットCVidQAの精度の4%から6%で従来の手法よりも大幅に優れていた。
また、包括的分析を行い、今後の研究に重要な知見を提供する。 Causal Video Question Answering (CVidQA) queries not only association or temporal relations but also causal relations in a video. Existing question synthesis methods pre-trained question generation (QG) systems on reading comprehension datasets with text descriptions as inputs. However, QG models only learn to ask association questions (e.g., ``what is someone doing...'') and result in inferior performance due to the poor transfer of association knowledge to CVidQA, which focuses on causal questions like ``why is someone doing ...''. Observing this, we proposed to exploit causal knowledge to generate question-answer pairs, and proposed a novel framework, Causal Knowledge Extraction from Language Models (CaKE-LM), leveraging causal commonsense knowledge from language models to tackle CVidQA. To extract knowledge from LMs, CaKE-LM generates causal questions containing two events with one triggering another (e.g., ``score a goal'' triggers ``soccer player kicking ball'') by prompting LM with the action (soccer player kicking ball) to retrieve the intention (to score a goal). CaKE-LM significantly outperforms conventional methods by 4% to 6% of zero-shot CVidQA accuracy on NExT-QA and Causal-VidQA datasets. We also conduct comprehensive analyses and provide key findings for future research. | 翻訳日:2023-04-10 11:18:49 公開日:2023-04-07 |
# V3Det:Vast Vocabulary Visual Detectionデータセット V3Det: Vast Vocabulary Visual Detection Dataset ( http://arxiv.org/abs/2304.03752v1 ) ライセンス: Link先を確認 | Jiaqi Wang, Pan Zhang, Tao Chu, Yuhang Cao, Yujie Zhou, Tong Wu, Bin Wang, Conghui He, Dahua Lin | (参考訳) 近年のオブジェクト検出技術は,比較的制限された語彙を持つオブジェクト検出データセットを用いて訓練・評価されている。
より一般的なビジュアルオブジェクト検出の開発を容易にするため,大規模画像上に正確に注釈付き有界ボックスを付加した膨大な語彙付き視覚検出データセットであるV3Detを提案する。
V3Detにはいくつかの魅力的な特性がある。
1)Vast Vocabulary: 実世界の画像上の13,029のカテゴリのオブジェクトのバウンディングボックスを含み、既存の大きな語彙オブジェクト検出データセット(例えばLVIS)の10倍の大きさである。
2) 階層的分類組織: V3Detの広大な語彙は階層的カテゴリー木によって構成され, カテゴリ間の包含関係を注釈し, 広範かつオープンな語彙オブジェクト検出におけるカテゴリ関係の探索を促進する。
3)リッチアノテーション:v3detは、人間の専門家と強力なチャットボットによって書かれた各カテゴリの245k画像に正確に注釈されたオブジェクトと専門的な記述を含む。
広大な探索空間を提供することで、V3Detは、広大かつオープンな語彙オブジェクト検出の広範なベンチマークを可能にし、将来の研究のための新しい観察、プラクティス、洞察につながる。
より一般的な視覚知覚システムを開発するための基盤となるデータセットとして機能する可能性がある。 Recent advances in detecting arbitrary objects in the real world are trained and evaluated on object detection datasets with a relatively restricted vocabulary. To facilitate the development of more general visual object detection, we propose V3Det, a vast vocabulary visual detection dataset with precisely annotated bounding boxes on massive images. V3Det has several appealing properties: 1) Vast Vocabulary: It contains bounding boxes of objects from 13,029 categories on real-world images, which is 10 times larger than the existing large vocabulary object detection dataset, e.g., LVIS. 2) Hierarchical Category Organization: The vast vocabulary of V3Det is organized by a hierarchical category tree which annotates the inclusion relationship among categories, encouraging the exploration of category relationships in vast and open vocabulary object detection. 3) Rich Annotations: V3Det comprises precisely annotated objects in 245k images and professional descriptions of each category written by human experts and a powerful chatbot. By offering a vast exploration space, V3Det enables extensive benchmarks on both vast and open vocabulary object detection, leading to new observations, practices, and insights for future research. It has the potential to serve as a cornerstone dataset for developing more general visual perception systems. | 翻訳日:2023-04-10 11:18:23 公開日:2023-04-07 |
# AIアーキテクチャの展望と地球システム予測可能性の共同設計 Perspectives on AI Architectures and Co-design for Earth System Predictability ( http://arxiv.org/abs/2304.03748v1 ) ライセンス: Link先を確認 | Maruti K. Mudunuru, James A. Ang, Mahantesh Halappanavar, Simon D. Hammond, Maya B. Gokhale, James C. Hoe, Tushar Krishna, Sarat S. Sreepathi, Matthew R. Norman, Ivy B. Peng, Philip W. Jones | (参考訳) 近年、米国エネルギー省(doe)、科学・生物・環境研究局(ber)、先進科学計算研究(ascr)のプログラムが開催され、ai4esp(artificial intelligence for earth system predictability)ワークショップが開催された。
このワークショップから、DOE BERとASCRコミュニティが到達した決定的な結論は、ModExと呼ばれるフィールド、ラボ、モデリング、分析活動における人工知能(AI)の実現に焦点を当てた、地球系の予測可能性の新しいパラダイムを開発する必要性である。
BERの‘Model-Experimentation’であるModExは、プロセスモデルが仮説を生成するための反復的なアプローチである。
開発された仮説は、測定と観測データを収集するためのフィールドと実験室の努力を知らせ、その後、パラメータ化、駆動、テストモデル(例えばプロセスベース)の予測に使用される。
このAI4ESPワークショップシリーズでは、合計17のテクニカルセッションが開催された。
本稿では,'AI Architectures and Co-Design'セッションと関連する成果について論じる。
AI Architecturesと共同設計セッションには、招待された2つの講演、2つの会議パネル、3つのブレークアウトルームがあり、その内容には(1)DOE HPC Systems、(2)クラウドHPC Systems、(3)エッジコンピューティングとIoT(Internet of Things)が含まれる。
我々はまた、他の16セッションのトピックとシナジーによって達成できる、この共同設計領域における潜在的研究の先見的な考えと展望も提供する。
これらのアイデアには、(1)共同設計の再考、(2)流通へのデータ取得、(3)ai/mlの統合のための異種hpcソリューション、および地球系モデリングとシミュレーションによる不確実性定量化のようなデータ分析、(4)地球系計測と観測へのai対応センサー統合、などがある。
このような視点は、本稿の際立った側面である。 Recently, the U.S. Department of Energy (DOE), Office of Science, Biological and Environmental Research (BER), and Advanced Scientific Computing Research (ASCR) programs organized and held the Artificial Intelligence for Earth System Predictability (AI4ESP) workshop series. From this workshop, a critical conclusion that the DOE BER and ASCR community came to is the requirement to develop a new paradigm for Earth system predictability focused on enabling artificial intelligence (AI) across the field, lab, modeling, and analysis activities, called ModEx. The BER's `Model-Experimentation', ModEx, is an iterative approach that enables process models to generate hypotheses. The developed hypotheses inform field and laboratory efforts to collect measurement and observation data, which are subsequently used to parameterize, drive, and test model (e.g., process-based) predictions. A total of 17 technical sessions were held in this AI4ESP workshop series. This paper discusses the topic of the `AI Architectures and Co-design' session and associated outcomes. The AI Architectures and Co-design session included two invited talks, two plenary discussion panels, and three breakout rooms that covered specific topics, including: (1) DOE HPC Systems, (2) Cloud HPC Systems, and (3) Edge computing and Internet of Things (IoT). We also provide forward-looking ideas and perspectives on potential research in this co-design area that can be achieved by synergies with the other 16 session topics. These ideas include topics such as: (1) reimagining co-design, (2) data acquisition to distribution, (3) heterogeneous HPC solutions for integration of AI/ML and other data analytics like uncertainty quantification with earth system modeling and simulation, and (4) AI-enabled sensor integration into earth system measurements and observations. Such perspectives are a distinguishing aspect of this paper. | 翻訳日:2023-04-10 11:17:57 公開日:2023-04-07 |
# 雑音中規模量子ハードウェア上の変分量子固有解法による実用的な量子探索 Practical Quantum Search by Variational Quantum Eigensolver on Noisy Intermediate-scale Quantum Hardware ( http://arxiv.org/abs/2304.03747v1 ) ライセンス: Link先を確認 | Chen-Yu Liu | (参考訳) グロバーサーチ(Grover search)は、量子重ね合わせを利用して、2次スピードアップのマークアイテムを見つける有名な量子探索アルゴリズムである。
しかし、ノイズ中間スケール量子(NISQ)ハードウェアに実装されると、オラクルと拡散演算子の繰り返し繰り返しは、キュービット数とともに指数関数的に増加し、大きなノイズ蓄積をもたらす。
そこで本研究では、量子反復を古典最適化器の更新に置き換えるハイブリッド量子古典アーキテクチャを提案する。
このオプティマイザは、ターゲットビット文字列を表すパラメータ化された量子状態に対して、オラクルハミルトンの期待値を最小化する。
パラメータ化量子回路はGroverサーチ回路よりも遥かに浅く、ノイズシミュレータやNISQハードウェアでGroverサーチより優れていることがわかった。
量子ビット数が5より大きい場合、この手法は依然として使用可能な成功確率を維持し、一方グローバー探索の成功確率はランダムな推測と同じレベルである。 Grover search is a renowned quantum search algorithm that leverages quantum superposition to find a marked item with quadratic speedup. However, when implemented on Noisy Intermediate-scale Quantum (NISQ) hardware, the required repeated iterations of the oracle and diffusion operators increase exponentially with the number of qubits, resulting in significant noise accumulation. To address this, we propose a hybrid quantum-classical architecture that replaces quantum iterations with updates from a classical optimizer. This optimizer minimizes the expectation value of an oracle Hamiltonian with respect to a parameterized quantum state representing the target bit string. Our parameterized quantum circuit is much shallower than Grover search circuit, and we found that it outperforms Grover search on noisy simulators and NISQ hardware. When the number of qubits is greater than 5, our approach still maintains usable success probability, while the success probability of Grover search is at the same level as random guessing. | 翻訳日:2023-04-10 11:17:23 公開日:2023-04-07 |