このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221106となっている論文です。

PDF登録状況(公開日: 20221106)

TitleAuthorsAbstract論文公表日・翻訳日
# 知識共有・利用に向けた研究オンラインリポジトリ管理システム(informs)の開発と評価

Development and Evaluation of the Institutionally Farmed Research On-line Repository and Management System (InFORMs) towards Knowledge-Sharing and Utilization ( http://arxiv.org/abs/2211.05827v1 )

ライセンス: Link先を確認
Billy S.Javier, Leo P. Paliuanan, Corazon T. Talamayan, James Karl A. Agpalza, Jesty S. Agoto(参考訳) 本稿では,開発プロジェクトインフォメーションのiso 25010:2011に対するユーザビリティ,受容性,コンプライアンスの程度について述べる。 研究リソースの使いやすさ、アクセス性、管理を支援する重要な機能が現れました。 回答から、開発したアプリケーションは明らかに、参加者の標準に対するユーザビリティとコンプライアンスを示唆している。 この申請は、データベースに含まれていた研究審査委員会の承認を経て、過去10年間に大学で生産されたすべての研究リソースを示すことに限定された。 知識共有と活用のためのWebアプリケーションの最大化が推奨され、教育と知識経済が進展する。

This paper presents the usability, acceptability and extent of compliance to ISO 25010:2011 of the developed project InFORMS. Key features that aid in the ease of use, access to, and management of the research resource emerged. From the responses, the developed application evidently suggests its usability and compliance to standards from the participants. The application was limited to showcasing all research resources produced in the University, in the last 10 years, after having gone through approval of the research review committee prior inclusion in the database. Maximizing the web application for knowledge-sharing and utilization is commended, advancing instruction and knowledge economy.
翻訳日:2023-02-19 12:20:09 公開日:2022-11-06
# 効果的な都市計画:バンガロールにおけるインフラと市民フィードバックのデータ駆動分析

Effective City Planning: A Data Driven Analysis of Infrastructure and Citizen Feedback in Bangalore ( http://arxiv.org/abs/2211.03126v1 )

ライセンス: Link先を確認
Srishti Mishra, Srinjoy Das(参考訳) 市民データの活用は、インフラと市民からのフィードバックの3つのカテゴリに分けられ、都市の優先順位、パフォーマンス、問題点を明確に示すことができる。 データ駆動の洞察は、市民が直面する現在の問題と政府の支出と仕事の質の格差を強調し、効果的なソリューションを提供するのに役立つ。 都市インフラ、歩道、照明、公園は市民の生活の質を表しており、その効果を追跡するためにこれらの分野の年間支出と比較することができる。 不満を分析することで、長期計画と短期ソリューションの両方において市民のフィードバックが考慮され、改善の重要な部分を特定することができる。 分析ループとデータ駆動ダッシュボードの統合は、市民と市当局の間の透明性を高めつつ、自治体のパフォーマンスを向上させるのに役立つ。 論文では、各選挙区が公園として面積の2%以下を占める公園に関して、都市インフラ全体の選挙区ランキングは緑化に対する重要度が低いことを示している。 これらの地域の人口はすでに増加しており、今後数年で悪化する可能性が高い。 その結果, 選挙区における足跡のランクは, これらの選挙区における苦情数とは異なっており, 高い選挙区では苦情数が最も多く, さらなる分析が必要であった。 街灯に関しては、低照度地域は市民からの多くの苦情と関連しており、直ちに行動を取る必要があることを示している。 全体として、選挙区ごとの苦情のテキスト分析は、市内の日々の苦難を「道路」と「車両」で反映し、続いて「歩道」と「ガーベッジ」がバンガロール市で問題となっている。

Leveraging civic data, divided into 3 categories spending, infrastructure and citizen feedback, can present a clear picture of the priorities, performance, and pain-points of a city. Data driven insights highlight the current issues faced by citizens as well as disparity between government spending and quality of work, and can aid in providing effective solutions. City infrastructure; footpaths, lighting, and parks, describe the living quality of citizens and can be compared to the annual spending in these sectors to track effectiveness. Analyzing complaints ensures citizen feedback is taken into account during both long-term planning and in short-term solutions to pinpoint critical areas of improvement. Integrating an analysis loop and data driven dashboards can help in improving performance of municipal corporations, while adding transparency between citizens and the city officials. In the paper, constituency rankings across the city infrastructure indicated a low importance towards greenery in terms of Parks, where each constituency has less than 2% of their area as a park. As populations in these areas are already high and increasing, this is likely to worsen in the coming years. Comparing the results with complaints, surprisingly the rankings of footpaths in constituencies were contrary to the number of complaints in these constituencies, with high ranking constituencies receiving the highest number of complaints, which would require further analysis. In terms of street lights, the areas with low quality lighting were associated with a large number of complaints from citizens, indicating that action needs to be taken immediately. Overall, a text analysis of complaints across constituencies reflected the everyday struggles of the city with the top keywords 'roads' and 'vehicles', followed by 'footpaths' and 'garbage', which are both critical problems in Bangalore City today.
翻訳日:2023-02-19 12:16:59 公開日:2022-11-06
# モバイルセンシングに基づく気分推定モデルの一般化とパーソナライゼーション:8カ国の大学生を対象とした分析

Generalization and Personalization of Mobile Sensing-Based Mood Inference Models: An Analysis of College Students in Eight Countries ( http://arxiv.org/abs/2211.03009v1 )

ライセンス: Link先を確認
Lakmal Meegahapola, William Droz, Peter Kun, Amalia de Gotzen, Chaitanya Nutakki, Shyam Diwakar, Salvador Ruiz Correa, Donglei Song, Hao Xu, Miriam Bidoglia, George Gaskell, Altangerel Chagnaa, Amarsanaa Ganbold, Tsolmon Zundui, Carlo Caprini, Daniele Miorandi, Alethia Hume, Jose Luis Zarza, Luca Cernuzzi, Ivano Bison, Marcelo Rodas Britez, Matteo Busso, Ronald Chenu-Abente, Can Gunel, Fausto Giunchiglia, Laura Schelenz, and Daniel Gatica-Perez(参考訳) モバイルセンシングデータを用いたムード推論は、過去10年間、ubicompの文献で研究されてきた。 この推論は、一般的なモバイルアプリにおけるコンテキスト認識とパーソナライズされたユーザエクスペリエンス、およびモバイルヘルスアプリにおける貴重なフィードバックと介入を可能にする。 しかしながら、多くの研究でモデル一般化の問題が強調されているにもかかわらず、異なるセンシングモダリティと機械学習技術を用いて、均質な集団でデータセットを収集し、モデルの精度を向上させることに常に焦点が当てられている。 対照的に、モデルが新しい国に一般化するかどうかを評価するために、ムード推論モデルの性能に関する研究にはあまり注意が払われていない。 本研究では,8か国 (中国, デンマーク, インド, イタリア, メキシコ, モンゴル, パラグアイ, 英国) の678人を対象に, 地理的多様性が気分推定モデルに及ぼす影響を評価するために, モバイルセンシングデータセットを収集した。 国別(国内で訓練・試験)、大陸別(大陸で訓練・試験)、国別(訓練データでは見つからない国で試験)、多国間(複数の国で訓練・試験)のアプローチを、人口レベル(非個人化)とハイブリッド(一部パーソナライズ)の2つのモデルを用いて、センサデータに基づいて訓練した。 部分パーソナライズされた国別モデルでは,2クラス(負値対正値)の0.78-0.98,3クラス(負値対中値)の0.76-0.94,3クラス(負値対正値)の0.76-0.94に対して,レシーバ動作特性曲線(AUROC)のスコアが最も高い収率を示す。 総じて、新しい国へのムード推論モデルの一般化問題と、各国の地理的類似性がムード推論にどのように影響するかを明らかにする。

Mood inference with mobile sensing data has been studied in ubicomp literature over the last decade. This inference enables context-aware and personalized user experiences in general mobile apps and valuable feedback and interventions in mobile health apps. However, even though model generalization issues have been highlighted in many studies, the focus has always been on improving the accuracies of models using different sensing modalities and machine learning techniques, with datasets collected in homogeneous populations. In contrast, less attention has been given to studying the performance of mood inference models to assess whether models generalize to new countries. In this study, we collected a mobile sensing dataset with 329K self-reports from 678 participants in eight countries (China, Denmark, India, Italy, Mexico, Mongolia, Paraguay, UK) to assess the effect of geographical diversity on mood inference models. We define and evaluate country-specific (trained and tested within a country), continent-specific (trained and tested within a continent), country-agnostic (tested on a country not seen on training data), and multi-country (trained and tested with multiple countries) approaches trained on sensor data for two mood inference tasks with population-level (non-personalized) and hybrid (partially personalized) models. We show that partially personalized country-specific models perform the best yielding area under the receiver operating characteristic curve (AUROC) scores of the range 0.78-0.98 for two-class (negative vs. positive valence) and 0.76-0.94 for three-class (negative vs. neutral vs. positive valence) inference. Overall, we uncover generalization issues of mood inference models to new countries and how the geographical similarity of countries might impact mood inference.
翻訳日:2023-02-19 12:16:28 公開日:2022-11-06
# 熱揺らぎと真空揺らぎによる2スピン量子ゲート忠実度への限界

Limits to two-spin-qubit gate fidelity from thermal and vacuum fluctuations ( http://arxiv.org/abs/2207.09441v2 )

ライセンス: Link先を確認
Wenbo Sun, Sathwik Bharadwaj, Li-Ping Yang, Yu-Ling Hsueh, Yifan Wang, Dan Jiao, Rajib Rahman, and Zubin Jacob(参考訳) 高忠実な量子ゲート演算はスケーラブルな量子回路の実現に不可欠である。 スピン量子ビット量子コンピューティングシステムでは、量子ビットの動作、初期化、読み出しに必要な金属ゲートとアンテナも電磁界のゆらぎを増大させることで障害を引き起こす。 したがって、熱と真空のゆらぎに起因するエバネッセント波ジョンソンノイズ(EWJN)は、スピン量子ビットの崩壊を誘発し、量子ゲートの動作フィディリティを制限する重要な未緩和ノイズとなる。 ここでは、まずEWJNの量子電磁力学理論を開発する。 次に,ナノファブリケート金属ゲート近傍のEWJN強度を任意の形状で定量化するための体積積分方程式に基づく数値計算手法を提案する。 EWJNによる2つの量子コンピューティングプラットフォームにおける緩和過程からの2つのスピン量子ゲート忠実度に対する限界について検討する。 (a)シリコン量子ドットシステム及び (b)ダイヤモンド中のNV中心。 最後に,制御パルスシーケンス設計を最適化するリンドブラッド工学法を紹介し,熱・真空揺らぎの影響を緩和するハミルトン工学よりも高い性能を示す。 本研究は, 電磁気学, ゆらぎ電磁力学, 開量子力学の進歩を活かし, 熱・真空ゆらぎの影響を抑制し, 2スピン量子ビットゲートの忠実度限界に達した。

High-fidelity quantum gate operations are essential for achieving scalable quantum circuits. In spin qubit quantum computing systems, metallic gates and antennas which are necessary for qubit operation, initialization, and readout, also cause detriments by enhancing fluctuations of electromagnetic fields. Therefore evanescent wave Johnson noise (EWJN) caused by thermal and vacuum fluctuations becomes an important unmitigated noise, which induces the decay of spin qubits and limits the quantum gate operation fidelity. Here, we first develop a quantum electrodynamics theory of EWJN. Then we propose a numerical technique based on volume integral equations to quantify EWJN strength in the vicinity of nanofabricated metallic gates with arbitrary geometry. We study the limits to two spin-qubit gate fidelity from EWJN-induced relaxation processes in two experimentally relevant quantum computing platforms: (a) silicon quantum dot system and (b) NV centers in diamond. Finally, we introduce the Lindbladian engineering method to optimize the control pulse sequence design and show its enhanced performance over Hamiltonian engineering in mitigating the influence of thermal and vacuum fluctuations. Our work leverages advances in computational electromagnetics, fluctuational electrodynamics and open quantum systems to suppress the effects of thermal and vacuum fluctuations and reach the limits of two-spin-qubit gate fidelity.
翻訳日:2023-02-04 12:51:08 公開日:2022-11-06
# 明るい絞り光を用いたキラルメディアの濃度推定

Estimating the concentration of chiral media with bright squeezed light ( http://arxiv.org/abs/2208.09924v2 )

ライセンス: Link先を確認
Alexandre Belsley and Jonathan C. F. Matthews(参考訳) キラル溶液の濃度は多くの科学分野や産業プロセスにおいて重要なパラメータである。 このパラメータは、光学活性媒体に存在する円形複屈折または円形二色性を利用して高精度に推定することができる。 量子フィッシャー情報形式を用いて, ガウスプローブの性能を定量化し, キラルアナライトの濃度を推定する。 明るい偏光励起状態プローブは、円形複屈折試料のスクイーズ係数と指数関数的にスケールする古典的戦略よりも量子的に有利であることがわかった。 4倍精度向上は、最先端のスクイーズレベルと強度測定を用いて達成できる。

The concentration of a chiral solution is a key parameter in many scientific fields and industrial processes. This parameter can be estimated to high precision by exploiting circular birefringence or circular dichroism present in optically active media. Using the Quantum Fisher information formalism, we quantify the performance of Gaussian probes in estimating the concentration of chiral analytes. We find that bright-polarization squeezed state probes provide a quantum advantage over equally bright classical strategies that scales exponentially with the squeezing factor for a circularly birefringent sample. Four-fold precision enhancement is achievable using state-of-the-art squeezing levels and intensity measurements.
翻訳日:2023-01-30 07:21:06 公開日:2022-11-06
# ハロー・量子世界! 量子情報科学における厳格だがアクセスしやすい1年制大学コース

Hello Quantum World! A rigorous but accessible first-year university course in quantum information science ( http://arxiv.org/abs/2210.02868v2 )

ライセンス: Link先を確認
Sophia E. Economou, Edwin Barnes(参考訳) Quantum Information Science and Engineering (QISE)コミュニティ内の労働力不足に対処するためには、学部教育の初期に様々なバックグラウンドから学生を惹きつけ、留置する必要がある。 ここでは、我々が開発したHello Quantum World!というコースについて説明する。これは、厳密な方法で幅広い基本的な量子情報と計算概念を導入するが、高校代数以外の数学の知識や、量子力学の事前知識は必要としない。 対象とするトピックには、重ね合わせ、絡み合い、量子ゲート、テレポーテーション、量子アルゴリズム、量子誤差補正などがある。 このコースは、qiseの学位を追求する学生と‘量子認識’を求める学生の両方にとって、初年度の学生向けにデザインされている。

Addressing workforce shortages within the Quantum Information Science and Engineering (QISE) community requires attracting and retaining students from diverse backgrounds early on in their undergraduate education. Here, we describe a course we developed called Hello Quantum World! that introduces a broad range of fundamental quantum information and computation concepts in a rigorous way but without requiring any knowledge of mathematics beyond high-school algebra nor any prior knowledge of quantum mechanics. Some of the topics covered include superposition, entanglement, quantum gates, teleportation, quantum algorithms, and quantum error correction. The course is designed for first-year undergraduate students, both those pursuing a degree in QISE and those who are seeking to be `quantum-aware'.
翻訳日:2023-01-25 05:29:59 公開日:2022-11-06
# 離散バルク再構成

Discrete Bulk Reconstruction ( http://arxiv.org/abs/2210.15601v2 )

ライセンス: Link先を確認
Scott Aaronson and Jason Pollack(参考訳) ads/cft対応によれば、ある時空の幾何学は、その境界上に存在する量子状態によって完全に決定され、実際、これらの境界状態の一部のフォン・ノイマンのエントロピーによって決定される。 この研究は、多項式時間におけるエントロピーから測地がどの程度再構成できるかを調査する。 Bouland, Fefferman, Vazirani (2019) は、ブラックホールの内部のような領域を再構築したい場合、AdS/CFTマップは指数関数的に複雑になると主張した。 一つの1次元境界の特別な場合、入力データが連続した境界領域のエントロピーのリストで構成され、エントロピーが強い部分加法的と呼ばれる単一の不等式を満たすならば、線形時間でバルクのグラフモデルを構築することができる。 さらに、バルクグラフは平面であり、$O(N^2)$ vertices (情報理論の最小値)を持ち、それは'universal' であり、問題の特定のエントロピーに依存するエッジウェイトのみである。 組み合わせの観点からすると、我々の問題は有名なミンカット問題の 'inverse'' に端を発する: グラフを与えてミンカットを見つける代わりに、ミンカットの値が様々な頂点の集合を分離し、それらの値と整合した重み付けのないグラフを見つける必要がある。 この問題に対する我々の解決策は ``bulkless'' グラフの概念に依存しており、ads/cft には独立した関心があるかもしれない。 また、平面バルクグラフが存在するとき、その問題を複雑性クラス$\mathsf{NP}$に置けば、その上界の$O(N^4)$頂点を含む、複数の1D境界がワームホールを介して接続できるような場合の初期進行も行う。

According to the AdS/CFT correspondence, the geometries of certain spacetimes are fully determined by quantum states that live on their boundaries -- indeed, by the von Neumann entropies of portions of those boundary states. This work investigates to what extent the geometries can be reconstructed from the entropies in polynomial time. Bouland, Fefferman, and Vazirani (2019) argued that the AdS/CFT map can be exponentially complex if one wants to reconstruct regions such as the interiors of black holes. Our main result provides a sort of converse: we show that, in the special case of a single 1D boundary, if the input data consists of a list of entropies of contiguous boundary regions, and if the entropies satisfy a single inequality called Strong Subadditivity, then we can construct a graph model for the bulk in linear time. Moreover, the bulk graph is planar, it has $O(N^2)$ vertices (the information-theoretic minimum), and it's ``universal,'' with only the edge weights depending on the specific entropies in question. From a combinatorial perspective, our problem boils down to an ``inverse'' of the famous min-cut problem: rather than being given a graph and asked to find a min-cut, here we're given the values of min-cuts separating various sets of vertices, and need to find a weighted undirected graph consistent with those values. Our solution to this problem relies on the notion of a ``bulkless'' graph, which might be of independent interest for AdS/CFT. We also make initial progress on the case of multiple 1D boundaries -- where the boundaries could be connected via wormholes -- including an upper bound of $O(N^4)$ vertices whenever a planar bulk graph exists (thus putting the problem into the complexity class $\mathsf{NP}$).
翻訳日:2023-01-21 08:05:00 公開日:2022-11-06
# 複数の粒子による量子重力誘起絡み合いの発生速度

The generation rate of quantum gravity induced entanglement with multiple massive particles ( http://arxiv.org/abs/2210.17259v2 )

ライセンス: Link先を確認
Pan Li, Yi Ling, Zhangping Yu(参考訳) 本稿では、ニュートンポテンシャルによる重力相互作用のみを考慮した、複数の量子質量粒子をセットアップした質量の量子重力誘起絡み合い(QGEM)の発生率について検討する。 隣り合う2つのstern-gerlach(sg)デバイス間の距離が固定された場合、同じ粒子数で設定可能な全ての構成を考える。 特に,粒子数n=4の場合を体系的に解析し,中心に大粒子を配置したプリズムがエンタングルメント生成の最も効率的な設定であることを確認した。 この結果は、複数の粒子を7個まで含む系に拡張することができ、より少ない粒子で設定した場合と比較して、絡み合い効率も向上する。 本研究は, 絡み合いの最大生成率でQGEM設定を構築するための戦略を提供する。

We investigate the generation rate of quantum gravity induced entanglement of masses(QGEM) in setup with multiple quantum massive particles, among of which only the gravity interaction due to the Newton potential is taken into account. When the distance between any two adjacent Stern-Gerlach (SG) devices is fixed, we consider all the possible configurations of the setup with the same number of particles. In particular, we systemically analyze the case of particle number n=4 and find that the prism setup with a massive particle at the center is the most efficient setup for the entanglement generation. This result can be extended to a system with multiple particles up to seven, where the entanglement efficiency is also enhanced in comparison with the setup with fewer particles. This work provides the strategy to construct the QGEM setup with the best generation rate of entanglement.
翻訳日:2023-01-20 22:15:07 公開日:2022-11-06
# 有限サイズの量子系におけるクエンチダイナミクスの速度関数の動的特異性

Dynamical singularity of the rate function for quench dynamics in finite size quantum systems ( http://arxiv.org/abs/2211.03135v1 )

ライセンス: Link先を確認
Yumeng Zeng, Bozhen Zhou, and Shu Chen(参考訳) 動的量子相転移は、熱力学的極限におけるロシミットエコーの正確なゼロ点の発生に対応する速度関数における非解析的挙動の出現によって特徴づけられる。 一般に、ロシミットエコーの正確な零点は、いくつかの微調整されたクエンチパラメータを除いて有限サイズの量子システムではアクセスできない。 本研究では,磁束を適用することで導入可能なツイスト境界条件下での有限サイズ系の速度関数の動的特異性の実現について検討する。 磁束を調整することにより、後処理パラメータが基礎となる平衡相転移点を越えているとき、ロシミットエコーの正確な零点が常に達成できることを示し、したがって有限サイズの系の速度関数は一連の臨界時間で分岐する。 実例としてSu-Schrieffer-HeegerモデルとCreutzモデルを検討した。 その結果, 速度関数における動的特異性の出現は, 有限次元系における動的量子相転移を検知するための指標と見なすことができることがわかった。 また,理論理論における臨界時刻はシステムサイズに依存しないことを明らかにし,磁気フラックスを調整して速度関数の動的特異点を達成することで臨界時刻を決定する便利な方法を提供する。

The dynamical quantum phase transition is characterized by the emergence of nonanalytic behaviors in the rate function, corresponding to the occurrence of exact zero points of Loschmidt echo in the thermodynamical limit. In general, exact zeros of Loschmidt echo are not accessible in a finite size quantum system except for some fine-tuned quench parameters. In this work, we study the realization of dynamical singularity of the rate function for finite size systems under the twist boundary condition, which can be introduced by applying a magnetic flux. By tuning the magnetic flux, we illustrate that exact zeros of Loschmidt echo can be always achieved when the postquench parameter is across the underlying equilibrium phase transition point, and thus the rate function of a finite size system is divergent at a series of critical times. We demonstrate our scheme by considering the Su-Schrieffer-Heeger model and the Creutz model as concrete examples. Our result unveils that the emergence of dynamical singularity in the rate function can be viewed as a signature for detecting dynamical quantum phase transition in finite size systems. We also unveil that the critical times in our theoretical scheme are independent on the systems size, and thus it provides a convenient way to determine the critical times by tuning the magnetic flux to achieve the dynamical singularity of the rate function.
翻訳日:2023-01-20 04:30:41 公開日:2022-11-06
# 3自由度における高絡み合うベル状態の完全解析

Complete analysis of hyperentangled Bell state in three degrees of freedom ( http://arxiv.org/abs/2211.03113v1 )

ライセンス: Link先を確認
Zhi Zeng(参考訳) 偏光における光子系の完全超絡み合うベル状態解析(HBSA)と2つの縦運動量自由度(DOF)の効率的なスキームを提案する。 3つのdofにおける64のハイパーエンタングルベル状態を識別する過程では,弱クロスカー非線形性と自己支援機構が両立し,スキームをシンプルかつ実現可能とした。 また、この完全HBSAスキームの3つのDOFにおける超絡み状態に基づく量子テレポーテーションへの応用についても論じる。

We present an efficient scheme for the complete hyperentangled Bell state analysis (HBSA) of photon system in polarization and two longitudinal momentum degrees of freedom (DOFs). In the process of distinguishing the 64 hyperentangled Bell states in three DOFs, the weak cross-Kerr nonlinearity and self-assisted mechanism are both utilized, which can make our scheme simple and realizable. We also discuss the application of this complete HBSA scheme in quantum teleportation that based on hyperentangled state in three DOFs.
翻訳日:2023-01-20 04:30:18 公開日:2022-11-06
# 量子モデルの表現力に及ぼす処理と測定演算子の影響

The effect of the processing and measurement operators on the expressive power of quantum models ( http://arxiv.org/abs/2211.03101v1 )

ライセンス: Link先を確認
Aikaterini (Katerina) Gratsea and Patrick Huembeli(参考訳) qml(quantum machine learning)モデルに対する関心が高まり、その動作方法や、どのようなアプリケーションが役に立つかが注目されている。 古典的なデータをどのようにエンコードするか、どんな回路のans\"atzeと計測演算子を使ってエンコードされたデータを処理し、ansatzの出力状態を測定するべきかについて、多くの異なる提案がなされている。 上記の演算子の選択は、QMLモデルの表現力において決定的な役割を果たす。 本研究では,回路構造の変化が,この表現性をどのように変化させるかを検討する。 本稿では,これらの演算子がQMLモデル全体の性能に与える影響を検討するために,数値ツールと解析ツールの両方を導入する。 これらのツールは、教師スチューデントスキーム、部分フーリエ級数、平均演算子サイズに関する以前の研究に基づいている。 2 と 3 の量子ビットを持つ単純な QML モデルに焦点をあて、パラメータ化およびエンタングルゲートの数の増加が特定の回路構造に対してより表現力のあるモデルをもたらすことを観察する。 また、qubitの測定が行われると、qmlモデルが学習できる関数の種類に影響を及ぼす。 この研究は、処理と測定オペレータが単純な量子回路の表現力に持つ決定的な役割をスケッチする。

There is an increasing interest in Quantum Machine Learning (QML) models, how they work and for which applications they could be useful. There have been many different proposals on how classical data can be encoded and what circuit ans\"atze and measurement operators should be used to process the encoded data and measure the output state of an ansatz. The choice of the aforementioned operators plays a determinant role in the expressive power of the QML model. In this work we investigate how certain changes in the circuit structure change this expressivity. We introduce both numerical and analytical tools to explore the effect that these operators have in the overall performance of the QML model. These tools are based on previous work on the teacher-student scheme, the partial Fourier series and the averaged operator size. We focus our analysis on simple QML models with two and three qubits and observe that increasing the number of parameterized and entangling gates leads to a more expressive model for certain circuit structures. Also, on which qubit the measurement is performed affects the type of functions that QML models could learn. This work sketches the determinant role that the processing and measurement operators have on the expressive power of simple quantum circuits.
翻訳日:2023-01-20 04:30:09 公開日:2022-11-06
# グリーンベルガー・ホルン・ザイリンガー状態測定の完全高次元化の提案

Proposal for the complete high-dimensional Greenberger-Horne-Zeilinger state measurement ( http://arxiv.org/abs/2211.03098v1 )

ライセンス: Link先を確認
Zhi Zeng(参考訳) 高次元グリーンベルガー・ホルン・ザイリンガー状態(GHZ)の完全解析に関する理論的提案をこのレターに提示する。 まず3次元の完全3光子GHZ状態測定のアプローチを示し、次にD次元のN-光子系の状況に一般化する。 本手法では,フォトニックハイパーエンタングルメントと量子フーリエ変換を利用する。 提案手法は高次元多光子量子計算と量子通信に有用である。

A theoretical proposal for the complete analysis of high-dimensional Greenberger-Horne-Zeilinger (GHZ) state is presented in this Letter. We first demonstrate the approach for the complete three-photon GHZ state measurement in three dimensions, and then generalize it to the situation of N-photon system in d dimensions. In our approach, the photonic hyperentanglement and quantum Fourier transform are both utilized. The presented proposal will be useful for the high-dimensional multi-photon quantum computation and quantum communication.
翻訳日:2023-01-20 04:29:48 公開日:2022-11-06
# 量子ビットの環位相上のスケーラブルな量子誤差補正符号

Scalable quantum error correction code on a ring topology of qubits ( http://arxiv.org/abs/2211.03094v1 )

ライセンス: Link先を確認
Ilya. A. Simakov and Ilya. S. Besedin(参考訳) 量子誤差補正はスケーラブルな量子コンピューティングの重要な要素である。 安定化符号は、物理的な量子ビットの過剰な複雑さを必要としないため、量子エラーを修正する最も有望で簡単な方法の1つであり、論理演算に便利であり、関連する量子ビット数を増加させることで性能を向上させる。 本稿では, 超伝導プラットフォームのトポロジ的特徴を考慮に入れた, リング構造上の小さな距離に対する置換安定化器の線形スケーラブルコードを提案する。 本稿では、コードの量子回路を構築する方法を示し、指数関数的論理誤差率抑制を示す数値シミュレーションを提供する。

Quantum error correction is an important ingredient for scalable quantum computing. Stabilizer codes are one of the most promising and straightforward ways to correct quantum errors, since they do not require excessive complexity of physical qubits, are convenient for logical operations, and improve performance with increasing the involved qubits number. Here, we propose a linear scalable code of the permutative stabilizers for small distances on the ring architecture, which takes into account the topological features of the superconducting platform. We present the way to construct the quantum circuit of the code and provide numerical simulation that demonstrate the exponential logical error rate suppression.
翻訳日:2023-01-20 04:29:40 公開日:2022-11-06
# 超高速電子力学における光子統計力

Photon-statistics force in ultrafast electron dynamics ( http://arxiv.org/abs/2211.03091v1 )

ライセンス: Link先を確認
Matan Even Tzur, Michael Birk, Alexey Gorlach, Michael Krueger, Ido Kaminer and Oren Cohen(参考訳) 強磁場物理学やアト秒科学において、強い光は超高速電子力学を誘導する。 物質中の電子の超高速なダイナミクスは、高調波発生(HHG)のような現象の核であり、そこではこれらのダイナミクスが極端紫外線バーストを1秒間放出する。 これまでのところ、物質の全ての超高速ダイナミクスは、光の量子的性質の影響を無視して、駆動光の古典的ベクトルポテンシャルに由来すると理解されていた。 ここでは、明るい(インセンス)光によって駆動される物質の力学が駆動光の量子状態に大きく依存していることを示し、有効光子統計力を誘導する。 このような力の分析と制御のための統一的な枠組みを提供するため、非古典的駆動光を考慮した強場近似(sfa)理論を拡張する。 我々の量子SFA(qSFA)理論は、HHGでは、数百アト秒のスケールで駆動光が電子軌道とアト秒のパルスをシフト・形作ることができることを示している。 我々の研究は、非古典的電磁場に依存することで、アト秒分光法の新しい自由度を示し、より一般的には、アト秒科学と量子光学の直接接続を導入する。

In strong-field physics and attosecond science, intense light induces ultrafast electron dynamics. Such ultrafast dynamics of electrons in matter is at the core of phenomena such as high harmonic generation (HHG), where these dynamics lead to emission of extreme UV bursts with attosecond duration. So far, all ultrafast dynamics of matter were understood to originate purely from the classical vector potential of the driving light, disregarding the influence of the quantum nature of light. Here we show that dynamics of matter driven by bright (intense) light significantly depend on the quantum state of the driving light, which induces an effective photon-statistics force. To provide a unified framework for the analysis & control over such a force, we extend the strong-field approximation (SFA) theory to account for non-classical driving light. Our quantum SFA (qSFA) theory shows that in HHG, experimentally feasible squeezing of the driving light can shift & shape electronic trajectories and attosecond pulses at the scale of hundreds of attoseconds. Our work presents a new degree-of-freedom for attosecond spectroscopy, by relying on nonclassical electromagnetic fields, and more generally, introduces a direct connection between attosecond science and quantum optics.
翻訳日:2023-01-20 04:29:29 公開日:2022-11-06
# 量子オープンシステムにおける詳細なバランス違反

Violation of Detailed Balance in Quantum Open Systems ( http://arxiv.org/abs/2211.03070v1 )

ライセンス: Link先を確認
Robert Alicki and David Gelbwaser-Klimovsky(参考訳) 低密度極限法を適用した量子マルコフマスター方程式を用いて、熱力学平衡の希薄気体に浸漬した量子系のダイナミクスを考察する。 浴槽温度のギブス状態は常に定常であり、この状態の詳細なバランス状態はボルン近似を超えて破ることができる。 この違反は、熱平衡における持続確率と熱電流の存在を可能にする熱化機構を生成する散乱T-行列の時間反転対称性の欠如と関連している。 この現象は、外部磁場中の3つの量子ドット間の電子ホッピングのモデルによって説明される。

We consider the dynamics of a quantum system immersed in a dilute gas at thermodynamics equilibrium using a quantum Markovian master equation derived by applying the low-density limit technique. It is shown that the Gibbs state at the bath temperature is always stationary while the detailed balance condition at this state can be violated beyond the Born approximation. This violation is generically related to the absence of time-reversal symmetry for the scattering T-matrix, which produces a thermalization mechanism that allows the presence of persistent probability and heat currents at thermal equilibrium. This phenomenon is illustrated by a model of an electron hopping between three quantum dots in an external magnetic field.
翻訳日:2023-01-20 04:29:07 公開日:2022-11-06
# 量子イジングモデルにおける局所緩和と相関生成

The local relaxation and correlation production in the quantum Ising model ( http://arxiv.org/abs/2211.03050v1 )

ライセンス: Link先を確認
Tai Kang, Sheng-Wen Li(参考訳) 孤立量子系はユニタリ進化に従い、完全な多くの体状態が初期状態として常に一定エントロピーを保持することを保証している。 ここでは,有限サイズの量子イジングモデルの局所ダイナミクスを考える。 強い結合状態と弱い結合状態の両方において、局所可観測体の力学は局所緩和と呼ばれるマクロな熱力学と同様の緩和挙動を示す。 さらに, この系全体の相関エントロピーは, 強結合と弱結合の双方において, 単調に増大するエントロピーをほぼ示し, 標準熱力学における可逆エントロピー生成と非常によく似ていることがわかった。

Isolated quantum systems follow the unitary evolution, which guarantees the full many body state always keeps a constant entropy as its initial one. Here we consider the local dynamics of a quantum Ising model with a finite size. It turns out, for both strong and weak coupling situations, the dynamics of local observables exhibits similar relaxation behavior as the macroscopic thermodynamics, which is called the local relaxation; after a certain typical time, the relaxation behavior suddenly changes and appears random, which is referred as a recurrence. Besides, we find that the total correlation entropy of this system approximately exhibit a monotonic increasing envelope in both strong and weak coupling cases, which is quite similar as the irreversible entropy production in the standard macroscopic thermodynamics.
翻訳日:2023-01-20 04:28:55 公開日:2022-11-06
# 三角結合トップモデルにおける量子相転移

Quantum phase transitions in the triangular coupled-top model ( http://arxiv.org/abs/2211.03008v1 )

ライセンス: Link先を確認
Liwei Duan, Yan-Zhi Wang, Qing-Hu Chen(参考訳) 三角形上に3つの大きなスピンを持つ結合トップモデルについて検討する。 結合強度によっては、不規則常磁性相、強磁性相、フラストレーション反強磁性相の3つの相が存在し、平均場アプローチによって区別される。 常磁性-強磁性相転移は大域的$z_2$対称性の破れを伴うのに対し、常磁性-反強磁性相転移は大域的$z_2$対称性と並進的対称性の破れを伴う。 励起エネルギー、量子ゆらぎ、フォン・ノイマンエントロピーのような平均場寄与を超える高次量子効果の厳密な解析結果は、熱力学極限におけるホルシュタイン・プリマコフ変換とシンプレクティック変換によって達成できる。 量子臨界点の近くで、エネルギーギャップは、ある二次における量子揺らぎとフォン・ノイマンのエントロピーの分岐とともに閉ざされる。 幾何学的フラストレーションが作用する反強磁性相には特に注意が必要である。 反強磁性相の臨界挙動は常磁性相と強磁性相とは大きく異なり、幾何学的フラストレーションの重要性を強調している。 三角形結合トップモデルは、量子相転移と幾何学的フラストレーションによって引き起こされる新しい臨界挙動を研究するための単純かつ実現可能なプラットフォームを提供する。

We study the coupled-top model with three large spins located on a triangle. Depending on the coupling strength, there exist three phases: disordered paramagnetic phase, ferromagnetic phase, and frustrated antiferromagnetic phase, which can be distinguished by the mean-field approach. The paramagnetic-ferromagnetic phase transition is accompanied by the breaking of the global $Z_2$ symmetry, whereas the paramagnetic-antiferromagnetic phase transition is accompanied by the breaking of both the global $Z_2$ symmetry and the translational symmetry. Exact analytical results of higher-order quantum effects beyond the mean-field contribution, such as the excitation energy, quantum fluctuation and von Neumann entropy, can be achieved by the Holstein-Primakoff transformation and symplectic transformation in the thermodynamic limit. Near the quantum critical point, the energy gap closes, along with the divergence of the quantum fluctuation in certain quadrature and von Neumann entropy. Particular attention should be paid to the antiferromagnetic phase, where the geometric frustration takes effect. The critical behaviors in the antiferromagnetic phase are quite different from those in the paramagnetic and ferromagnetic phases, which highlights the importance of the geometric frustration. The triangular coupled-top model provides a simple and feasible platform to study the quantum phase transition and the novel critical behaviors induced by the geometric frustration.
翻訳日:2023-01-20 04:28:39 公開日:2022-11-06
# 逆調和振動子のカオスと多重折り畳み複雑性

Chaos and multifold complexity for an inverted harmonic oscillator ( http://arxiv.org/abs/2211.04317v1 )

ライセンス: Link先を確認
Le-Chen Qu, Hong-Yue Jiang, Yu-Xiao Liu(参考訳) 逆高調波発振器のマルチフォールド複雑性とLoschmidtエコーについて検討する。 我々は、摂動の先頭の順序で、量子状態の複数の後方および前方の時間進化を実装するあらゆる前駆体に対して解析的表現を与える。 複雑性は、ホログラフィーで得られるのと全く同じ結果である `zig-zag'' 順序の交互に与えられた時間の組み合わせの最も長い置換によって支配される。 多次複雑性の一般的な構造は、多くの前駆体の極限において、一般的な量子系に対して普遍的に真であるべきであると推測する。

We examine the multifold complexity and Loschmidt echo for an inverted harmonic oscillator. We give analytic expressions for any number of precursors, implementing multiple backward and forward time evolutions of the quantum state, at the leading order in the perturbation. We prove that complexity is dominated by the longest permutation of the given time combination in an alternating ``zig-zag'' order, the exact same result obtained with holography. We conjecture that the general structure for multifold complexity should hold true universally for generic quantum systems, in the limit of a large number of precursors.
翻訳日:2023-01-20 04:22:32 公開日:2022-11-06
# 一般相対論的パイロット波量子力学

General-relativistic pilot-wave quantum mechanics ( http://arxiv.org/abs/2211.03234v1 )

ライセンス: Link先を確認
Francisco Ribeiro Benard Guedes and Nikodem Janusz Pop{\l}awski(参考訳) ジラック四電流の運動量とスピン部分への分解により、スピノル四速度 $u^\mu=\bar{\psi}\gamma^\mu\psi/\bar{\psi}\psi$ が得られる。 スピノル場に対するディラック方程式とエネルギー-運動テンソルの保存を用いて、この四速度が正規化され、測地線方程式を満たすことを示す。 その結果、パイロット波量子力学における4速で導かれる粒子の運動は、時空の幾何学によって決定される粒子の共変運動と一致する。 この結果は一般相対性理論に拡張することができ、波が時空を曲線し、時空が波動関数の伝播を制御し、粒子を導くことを示唆する。

We show that the decomposition of a Dirac four-current into the momentum and spin parts gives the spinor four-velocity $u^\mu=\bar{\psi}\gamma^\mu\psi/\bar{\psi}\psi$. We use the Dirac equation and the conservation of the energy-momentum tensor for a spinor field to show that this four-velocity is normalized and satisfies the geodesic equation. Consequently, the motion of a particle guided by the four-velocity in the pilot-wave quantum mechanics coincides with the covariant motion of the particle determined by the geometry of spacetime. This result can be extended to general relativity, suggesting that the wave curves spacetime and spacetime governs the propagation of the wave function, which then guides particles.
翻訳日:2023-01-20 04:22:21 公開日:2022-11-06
# 関係量子力学の非関係化

The De-Relationalizing of Relational Quantum Mechanics ( http://arxiv.org/abs/2211.03230v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) 量子力学(RQM)のリレーショナル解釈における最近の位相遷移はその歴史的文脈にあり、ポスト遷移の視点の新規性は疑問視されている。

A recent phase transition in the relational interpretation of quantum mechanics (RQM) is situated in its historical context, and the novelty of the post-transition viewpoint is questioned.
翻訳日:2023-01-20 04:21:59 公開日:2022-11-06
# ホフスタッター蝶の2次元共有有機フレームワークにおける階層構造

Hierarchies of Hofstadter butterflies in 2D covalent-organic frameworks ( http://arxiv.org/abs/2211.03215v1 )

ライセンス: Link先を確認
David Bodesheim, Robert Biele, and Gianaurelio Cuniberti(参考訳) ホフスタッター・バタフライ(Hofstadter Butterfly)は、垂直磁場によって突き刺された格子中の自由電子のフラクタル的および自己相似量子的性質の最も興味深い例の1つである。 しかし、単層材料に対するこの効果の直接的実験的検証は、非常に強く、到達不能な磁場を必要とするため、いまだに欠落している。 このため、間接的な実験的検証はmoir\'e格子のような人工周期2次元系でのみ実現されている。 巨大な孔構造のため、ホフスタッター・バタフライのほとんどの特徴を検出するのに必要な磁場は、今日の技術で実際にアクセス可能である。 この研究は、70年代からのエキゾチックで理論的な問題を解き明かし、単一層材料でホフスタッター・バタフライを実験的に検証する試みを解くかもしれない。 さらに、2次元共有有機フレームワークにおける異なる孔径の固有の階層は、元の蝶にさらなる複雑さと美しさをもたらし、新しい物理的観察のための直接アクセス可能な遊び場をもたらす。

The Hofstadter butterfly is one of the first and most fascinating examples of the fractal and self-similar quantum nature of free electrons in a lattice pierced by a perpendicular magnetic field. However, the direct experimental verification of this effect on single-layer materials is still missing as very strong and inaccessible magnetic fields are necessary. For this reason, its indirect experimental verification has only been realized in artificial periodic 2D systems, like moir\'e lattices. The only recently synthesized 2D covalent-organic frameworks might circumvent this limitation: Due to their large pore structures, magnetic fields needed to detect most features of the Hofstadter butterfly are indeed accessible with today's technology. This work opens the door to making this exotic and theoretical issue from the 70s measurable and might solve the quest for the experimental verification of the Hofstadter butterfly in single-layer materials. Moreover, the intrinsic hierarchy of different pore sizes in a 2D covalent-organic framework adds additional complexity and beauty to the original butterflies and leads to a directly accessible playground for new physical observations.
翻訳日:2023-01-20 04:21:54 公開日:2022-11-06
# 2量子の絡み合い:56歳のアルゴリズムが機械学習に挑戦

Two-Qutrit entanglement: 56-years old algorithm challenges machine learning ( http://arxiv.org/abs/2211.03213v1 )

ライセンス: Link先を確認
Marcin Wie\'sniak(参考訳) 絡み合った状態や分離可能な状態に分類することは非常に難しい課題であるが、量子情報処理理論の基礎の一つでもある。 このタスクは、2つの量子ベル対角状態、すなわち9つの相互直交する最大絡み合った状態の混合など、比較的単純な場合であっても非常に非自明である。 本稿では、gilbertアルゴリズムを用いて、このクラスで得られた結果を修正します。 特に、[Hiesmayr, B. C. {\em Scientific Reports} {\bf 11}, 19739 (2021)]に残されているほとんどの状態が、絡み合うか分離されるかは、おそらく事実上分離可能であるか、非常に弱い絡み合いであると主張するために「絡み合いの地図」を用いる。 提示されたテクニックは、より一般的なケースで無限の応用を見つけることができる。

Classifying states as entangled or separable is a highly challenging task, while it is also one of the foundations of quantum information processing theory. This task is higly nontrivial even for relatively simple cases, such as two-qutrit Bell-diagonal states, i.e., mixture of nine mutually orthogonal maximally entangled states. In this article we apply the Gilbert algorithm to revise previously obtained results for this class. In particular we use ``cartography of entanglement'' to argue that most states left in [Hiesmayr, B. C. {\em Scientific Reports} {\bf 11}, 19739 (2021)] as unknown to be entangled or separable are most likely indeed separable, or very weakly entangled. The presented technique can find endless applications in more general cases.
翻訳日:2023-01-20 04:21:35 公開日:2022-11-06
# アナログ量子エミュレーション装置の符号化技術の比較

A Comparison of Encoding Techniques for an Analog Quantum Emulation Device ( http://arxiv.org/abs/2211.03212v1 )

ライセンス: Link先を確認
Sharan Mourya(参考訳) 量子コンピュータは、特定のタスクで古典的コンピュータを上回ることができる。 しかし、デコヒーレンスやフォールトトレランス、ポータビリティやアクセシビリティといった他の欠点など、現在の量子コンピュータにはまだ多くの課題がある。 本研究では,各量子ビット状態がユニークなアナログ信号で表されるアナログ量子エミュレーション装置(AQED)を実現することにより,これらの問題を回避した。 以前はヒルベルト空間上のエルミート演算は量子系に固有のものではなく、ヒルベルト空間を形成する複素信号の基底にも適用可能であることが示されていた。 複素信号基底の直交性は、信号を周波数領域または空間領域に分離することで維持することができる。 両手法について検討し, 比較を行った。 最終的に、UMC 180nm処理ノード上のデバイス全体を実現し、Groverの探索アルゴリズム(GSA)と量子フーリエ変換(QFT)をエミュレートすることで、AQEDの計算上の利点を実証した。 また、この装置によって達成された等価量子量を示す。

Quantum computers can outperform classical computers in certain tasks. However, there are still many challenges to the current quantum computers such as decoherence and fault tolerance, and other drawbacks such as portability and accessibility. In this study, we circumvent these issues by realizing an analog quantum emulation device (AQED) where each qubit state is represented by a unique analog signal. It is possible to do this because previously it was shown that Hermitian operations on a Hilbert space are not unique to quantum systems and can also be applied to a basis of complex signals that form a Hilbert space. Orthogonality of the complex signal basis can be maintained by separating the signals into the frequency domain or the spatial domain. We study both these approaches and present a comparison. We finally realize the entire device on a UMC 180nm processing node and demonstrate the computational advantage of an AQED by emulating Grover's search algorithm (GSA) and Quantum Fourier Transform (QFT). We also present the equivalent quantum volume achieved by this device.
翻訳日:2023-01-20 04:21:14 公開日:2022-11-06
# 量子光による高調波発生

High harmonic generation driven by quantum light ( http://arxiv.org/abs/2211.03188v1 )

ライセンス: Link先を確認
Alexey Gorlach, Matan Even Tzur, Michael Birk, Michael Kr\"uger, Nicholas Rivera, Oren Cohen and Ido Kaminer(参考訳) 高高調波発生 (high harmonic generation, hhg) は、光駆動物質の激しいパルスが駆動周波数の高調波を発し、極端紫外線(xuv)とx線スペクトル範囲に達する極端非線形過程である。 これまでのところ、HHGプロセスは常に、古典的な電磁場としてよく説明される強いレーザーパルスによって生成される。 強烈な励起光の発生の進展は、HHGの基礎を再考し、光の光子統計がこの過程をどのように変え、より一般的には極度の非線形光学の分野を変化させるかを問う動機となる。 強い光と物質との非摂動相互作用における光子統計の役割は、実験と理論の両方において未解明のままである。 ここでは、高原やカットオフといったhhgの定義的なスペクトル特性が、駆動光の光子統計に敏感であることを示す。 コヒーレント(古典的)およびフォック光状態は確立されたHHG遮断法則を誘導するが、熱的および圧縮された状態は同じ強度の古典的な光と比較してカットオフをかなり上回る。 したがって、光の光子統計を形作ることで、hhgにおいてより高調波を生成することができる。 我々は、より一般に任意の量子状態の光によって駆動される極端非線形光学の理論を発展させる。 我々の研究は、HHGの生成と制御における新しい自由度として、強磁場物理学に量子光学の概念を導入し、最終的にこの分野の実験が実現可能であることを示す。 今後、量子光によって駆動されるHHGは、XUVとX線の量子状態を生成し、新しいスペクトル状態における量子光学の応用を可能にする。

High harmonic generation (HHG) is an extreme nonlinear process where intense pulses of light drive matter to emit high harmonics of the driving frequency, reaching the extreme ultraviolet (XUV) and x-ray spectral ranges. So far, the HHG process was always generated by intense laser pulses that are well described as a classical electromagnetic field. Advances in the generation of intense squeezed light motivate us to revisit the fundamentals of HHG and ask how the photon statistics of light may alter this process, and more generally alter the field of extreme nonlinear optics. The role of photon statistics in non-perturbative interactions of intense light with matter has remained unexplored in both experiments and theory. Here we show that the defining spectral characteristics of HHG, such as the plateau and cutoff, are sensitive to the photon statistics of the driving light. While coherent (classical) and Fock light states induce the established HHG cutoff law, thermal and squeezed states substantially surpass it, extending the cutoff compared to classical light of the same intensity. Hence, shaping the photon statistics of light enables producing far higher harmonics in HHG. We develop the theory of extreme nonlinear optics driven by squeezed light, and more generally by arbitrary quantum states of light. Our work introduces quantum optical concepts to strong-field physics as new degrees of freedom in the creation and control of HHG, and finally shows that experiments in this field are feasible. Looking forward, HHG driven by quantum light creates quantum states of XUV and X-rays, enabling applications of quantum optics in new spectral regimes.
翻訳日:2023-01-20 04:20:41 公開日:2022-11-06
# 移動可能注意に基づく脳波による道路乱れ認識のためのノード単位の適応

Node-wise Domain Adaptation Based on Transferable Attention for Recognizing Road Rage via EEG ( http://arxiv.org/abs/2212.02417v1 )

ライセンス: Link先を確認
Gao Xueqi, Xu Chao, Song Yihang, Hu Jing, Xiao Jian, Meng Zhaopeng(参考訳) 道路の怒りは注目に値する社会問題だが、これまではほとんど研究されていない。 本稿では,多チャンネル脳波信号の生物学的トポロジーに基づいて,転送可能注意(ta)と正規化グラフニューラルネットワーク(rgnn)を組み合わせたモデルを提案する。 まず、脳波信号上でトポロジー対応情報集約を行い、チャネル間の複雑な関係を動的に学習する。 そして、注目スコアとして使用するノード毎のドメイン分類器の結果に基づいて、各チャネルの転送可能性を定量化する。 10名の被験者を募集し,シミュレーション運転条件下での脳波信号の楽しさと怒りを収集した。 本手法の有効性を検証し,他の手法と比較する。 その結果,本手法は単純かつ効率的であり,85.63%の精度が得られた。 道路事故の特定に利用することができる。 データとコードは利用可能です。 https://github.com/1CEc0ffee/dataAndCode.git

Road rage is a social problem that deserves attention, but little research has been done so far. In this paper, based on the biological topology of multi-channel EEG signals,we propose a model which combines transferable attention (TA) and regularized graph neural network (RGNN). First, topology-aware information aggregation is performed on EEG signals, and complex relationships between channels are dynamically learned. Then, the transferability of each channel is quantified based on the results of the node-wise domain classifier, which is used as attention score. We recruited 10 subjects and collected their EEG signals in pleasure and rage state in simulated driving conditions. We verify the effectiveness of our method on this dataset and compare it with other methods. The results indicate that our method is simple and efficient, with 85.63% accuracy in cross-subject experiments. It can be used to identify road rage. Our data and code are available. https://github.com/1CEc0ffee/dataAndCode.git
翻訳日:2022-12-11 13:07:16 公開日:2022-11-06
# 投影ロバストなワッサーシュタイン距離とリーマン最適化

Projection Robust Wasserstein Distance and Riemannian Optimization ( http://arxiv.org/abs/2006.07458v9 )

ライセンス: Link先を確認
Tianyi Lin, Chenyou Fan, Nhat Ho, Marco Cuturi and Michael I. Jordan(参考訳) 射影ロバスト・ワッサーシュタイン距離(英: projection robust Wasserstein distance、PRW)は、ワッサーシュタイン距離の頑健な変種である。 近年の研究では、この量は標準のワッサースタイン距離よりも頑健であり、特に高次元の確率測度を比較する場合において顕著であることが示唆されている。 しかし、最適化モデルは本質的に非凸で非平滑であり、計算が難易度が高いため、実用上は除外されている。 本稿では, wpp/prw の背後にある原動機を再検討するが, その非凸性と非滑らかさの欠如, および~\citet{niles-2019-estimation} によって証明されたいくつかの硬さにもかかわらず, prw/wpp \textit{can} の原定式はリーマン最適化を用いて効率的に計算され, 凸緩和よりも適切な振る舞いが得られていることを示す。 より具体的には、その複雑性境界(付録の1つ)を理論的に保証した3つの単純なアルゴリズムを提供し、合成データと実データに関する広範囲な実験を行い、その有効性と効率を実証する。 本稿では,PRW距離の計算理論への第一歩として,最適輸送とリーマン最適化の関係について述べる。

Projection robust Wasserstein (PRW) distance, or Wasserstein projection pursuit (WPP), is a robust variant of the Wasserstein distance. Recent work suggests that this quantity is more robust than the standard Wasserstein distance, in particular when comparing probability measures in high-dimensions. However, it is ruled out for practical application because the optimization model is essentially non-convex and non-smooth which makes the computation intractable. Our contribution in this paper is to revisit the original motivation behind WPP/PRW, but take the hard route of showing that, despite its non-convexity and lack of nonsmoothness, and even despite some hardness results proved by~\citet{Niles-2019-Estimation} in a minimax sense, the original formulation for PRW/WPP \textit{can} be efficiently computed in practice using Riemannian optimization, yielding in relevant cases better behavior than its convex relaxation. More specifically, we provide three simple algorithms with solid theoretical guarantee on their complexity bound (one in the appendix), and demonstrate their effectiveness and efficiency by conducing extensive experiments on synthetic and real data. This paper provides a first step into a computational theory of the PRW distance and provides the links between optimal transport and Riemannian optimization.
翻訳日:2022-11-22 03:50:40 公開日:2022-11-06
# Tanglesによるクラスタリング - アルゴリズムフレームワークと理論的保証

Clustering with Tangles: Algorithmic Framework and Theoretical Guarantees ( http://arxiv.org/abs/2006.14444v3 )

ライセンス: Link先を確認
Solveig Klepper, Christian Elbracht, Diego Fioravanti, Jakob Kneip, Luca Rendsburg, Maximilian Teegen, Ulrike von Luxburg(参考訳) もともと、トライアングルは有名なグラフマイナー定理を証明するために数学グラフ理論の抽象的な道具として発明された。 本稿では,機械学習応用におけるタングルの実用的可能性について述べる。 データセットのカットの集合が与えられると、タングルはこれらのカットを集約して密度の高い構造の方向に向ける。 その結果、クラスタは、一貫したポインタの集合によってソフトに特徴づけられる。 この高度に柔軟なアプローチは、グラフのコミュニティ検出よりもアンケートからメトリクス空間のクラスタリングポイントまで、さまざまなセットアップでのクラスタリング問題を解決することができる。 提案するフレームワークの出力は階層的であり,データセットのクラスタ構造を探索するためのソフトなデンドログラムの概念を誘導する。 カットを集約する計算の複雑さはデータポイントの数で線形である。 したがって、タングルアプローチのボトルネックは、単純で高速なアルゴリズムが十分な基礎を形成するカットを生成することである。 本稿では,タングルを用いたクラスタリングのためのアルゴリズムフレームワークを構築し,様々な設定で理論的保証を証明し,広範なシミュレーションとユースケースを提供する。 Pythonコードはgithubで入手できる。

Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
翻訳日:2022-11-17 03:12:06 公開日:2022-11-06
# wall street tree search: オフライン強化学習のためのリスク対応計画

Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement Learning ( http://arxiv.org/abs/2211.04583v1 )

ライセンス: Link先を確認
Dan Elbaz and Gal Novik and Oren Salzman(参考訳) オフライン強化学習(rl)アルゴリズムは、所定の固定トレーニングデータセットを使用して、追加のオンラインデータ収集をせずに意思決定を学習する。 この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。 しかし、この約束もこの設定の欠点を生んでいる。 制限されたデータセットは、エージェントがトレーニングデータがカバーしていない未知の状態や行動に遭遇する可能性があるため、主観的不確実性を引き起こす。 さらに、システムの確率性はさらに不確実性を高め、オフラインのRL問題を悪化させ、エージェントが最適なポリシーを学ぶのを防ぐ。 破壊的不確実性の影響を軽減するためには,報酬を最大化する行動と,誤った行動によるリスクとをバランスさせる必要がある。 金融経済学において、近代ポートフォリオ理論(英: modern portfolio theory、MPT)は、リスクを伴わない投資家が、許容できないリスクレベルを伴わずに利益を最大化する多様化ポートフォリオを構築するために使用できる方法である。 我々はMPTをエージェントの意思決定プロセスに統合し、オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。 我々のアルゴリズムは, 不確実性から, 特定の行動の「emph{estimated quality}」と「emph{estimated risk}」を体系的に説明できる。 提案手法はtransformerアーキテクチャと組み合わせることで,オフラインのrlタスクのための最先端のプランナを実現し,再帰を最大化し,分散を著しく削減できることを示す。

Offline reinforcement-learning (RL) algorithms learn to make decisions using a given, fixed training dataset without the possibility of additional online data collection. This problem setting is captivating because it holds the promise of utilizing previously collected datasets without any costly or risky interaction with the environment. However, this promise also bears the drawback of this setting. The restricted dataset induces subjective uncertainty because the agent can encounter unfamiliar sequences of states and actions that the training data did not cover. Moreover, inherent system stochasticity further increases uncertainty and aggravates the offline RL problem, preventing the agent from learning an optimal policy. To mitigate the destructive uncertainty effects, we need to balance the aspiration to take reward-maximizing actions with the incurred risk due to incorrect ones. In financial economics, modern portfolio theory (MPT) is a method that risk-averse investors can use to construct diversified portfolios that maximize their returns without unacceptable levels of risk. We integrate MPT into the agent's decision-making process to present a simple-yet-highly-effective risk-aware planning algorithm for offline RL. Our algorithm allows us to systematically account for the \emph{estimated quality} of specific actions and their \emph{estimated risk} due to the uncertainty. We show that our approach can be coupled with the Transformer architecture to yield a state-of-the-art planner for offline RL tasks, maximizing the return while significantly reducing the variance.
翻訳日:2022-11-10 16:29:26 公開日:2022-11-06
# foonを用いた知識検索

Knowledge Retrieval using Foon ( http://arxiv.org/abs/2211.03790v1 )

ライセンス: Link先を確認
Vara Bhavya Sri Malli(参考訳) 柔軟なタスクプランニングはロボットにとって依然として重要な課題だ。 ロボットがタスク計画を創造的に新しい、あるいは予期せぬ課題に適応できないことは、彼らの活動と環境に対する限られた理解に起因する。 例えば料理は、ロボットが非常に危険になるリスクをたまに負う必要がある。 グラフ検索による知識検索により,多数の映像ソースから得られる知識を用いて操作シーケンスを得ることができる。

Flexible task planning is still a significant challenge for robots. The inability of robots to creatively adapt their task plans to new or unforeseen challenges is largely attributable to their limited understanding of their activities and the environment. Cooking, for example, requires a person to occasionally take risks that a robot would find extremely dangerous. We may obtain manipulation sequences by employing knowledge that is drawn from numerous video sources thanks to knowledge retrieval through graph search.
翻訳日:2022-11-09 16:56:12 公開日:2022-11-06
# エンドツーエンド人物探索のための逐次変換器

Sequential Transformer for End-to-End Person Search ( http://arxiv.org/abs/2211.04323v1 )

ライセンス: Link先を確認
Long Chen, Jinhua Xu(参考訳) Person Searchは、ターゲットの人物をリアルなギャラリーイメージから、同時にローカライズし、認識することを目的としている。 人探索の大きな課題の一つは,2つのサブタスクの矛盾する目標,すなわち,人物検出は,人物と背景を区別するために,すべての人の共通性を見出すことに焦点を合わせ,また,人物再同定(re-id)は異なる人物間の差異に焦点をあてることである。 本稿では,この課題に対処するエンド・ツー・エンドの人物探索のためのシークエンシャル・トランスフォーマー(SeqTR)を提案する。 我々のSeqTRは検出変換器と、検出タスクと再IDタスクを逐次処理する新しいre-ID変換器を備えている。 リイドトランスは、文脈情報を利用するセルフアテンション層と、人体の局所的なきめ細かい識別特徴を学ぶクロスアテンション層とを含む。 さらに、学習者表現の堅牢性を向上させるため、マルチスケール機能によってre-ID変換器を共有・管理する。 CUHK-SYSU と PRW の2つの広く使われている人物検索ベンチマークにおいて,提案したSeqTR は 59.3% mAP の既存人物検索手法を PRW で上回る結果を得ただけでなく, CUHK-SYSU で 94.8% のmAP を達成している。

Person Search aims to simultaneously localize and recognize a target person from realistic and uncropped gallery images. One major challenge of person search comes from the contradictory goals of the two sub-tasks, i.e., person detection focuses on finding the commonness of all persons so as to distinguish persons from the background, while person re-identification (re-ID) focuses on the differences among different persons. In this paper, we propose a novel Sequential Transformer (SeqTR) for end-to-end person search to deal with this challenge. Our SeqTR contains a detection transformer and a novel re-ID transformer that sequentially addresses detection and re-ID tasks. The re-ID transformer comprises the self-attention layer that utilizes contextual information and the cross-attention layer that learns local fine-grained discriminative features of the human body. Moreover, the re-ID transformer is shared and supervised by multi-scale features to improve the robustness of learned person representations. Extensive experiments on two widely-used person search benchmarks, CUHK-SYSU and PRW, show that our proposed SeqTR not only outperforms all existing person search methods with a 59.3% mAP on PRW but also achieves comparable performance to the state-of-the-art results with an mAP of 94.8% on CUHK-SYSU.
翻訳日:2022-11-09 16:48:45 公開日:2022-11-06
# 2+1D U(1) ゲージ理論シミュレーションのためのゲージ同変ニューラルネットワーク

Gauge Equivariant Neural Networks for 2+1D U(1) Gauge Theory Simulations in Hamiltonian Formulation ( http://arxiv.org/abs/2211.03198v1 )

ライセンス: Link先を確認
Di Luo, Shunyue Yuan, James Stokes, Bryan K. Clark(参考訳) ゲージ理論は高エネルギー物理学、凝縮物質物理学、量子情報科学など多くの分野において重要な役割を果たす。 格子ゲージ理論の量子シミュレーションにおいて、重要なステップはゲージ対称性に従う波動関数を構築することである。 本論文では,ハミルトニアン定式化における連続可変量子格子ゲージ理論をシミュレーションするためのゲージ同変ニューラルネットワーク波動関数法を開発した。 変分モンテカルロを用いたU(1)ゲージ群を用いた2+1次元格子ゲージ理論の基底状態を求めるためにゲージ同変ニューラルネットワーク手法を適用した。 我々は、最先端の複素ガウス波動関数に対する我々のアプローチをベンチマークし、強い結合状態における性能の向上と弱い結合状態における同等の結果を示す。

Gauge Theory plays a crucial role in many areas in science, including high energy physics, condensed matter physics and quantum information science. In quantum simulations of lattice gauge theory, an important step is to construct a wave function that obeys gauge symmetry. In this paper, we have developed gauge equivariant neural network wave function techniques for simulating continuous-variable quantum lattice gauge theories in the Hamiltonian formulation. We have applied the gauge equivariant neural network approach to find the ground state of 2+1-dimensional lattice gauge theory with U(1) gauge group using variational Monte Carlo. We have benchmarked our approach against the state-of-the-art complex Gaussian wave functions, demonstrating improved performance in the strong coupling regime and comparable results in the weak coupling regime.
翻訳日:2022-11-08 19:30:31 公開日:2022-11-06
# 構造ベース仮想スクリーニングの最近の進歩

Recent Developments in Structure-Based Virtual Screening Approaches ( http://arxiv.org/abs/2211.03208v1 )

ライセンス: Link先を確認
Christoph Gorgulla(参考訳) 薬物開発は、近年多くの課題に直面している幅広い科学分野である。 その中には、非常に高い開発コスト、長い開発時間、そして毎年承認される新しい薬物の少なさが含まれている。 これらの問題を解決するには、小分子の創薬プロセスがより時間とコスト効率が向上し、タンパク質とタンパク質の相互作用のような従来実行不可能だった標的クラスをターゲットにできる、新しい革新的な技術が必要である。 この文脈では、構造ベースの仮想スクリーニングが主要な候補となっている。 本稿では,構造ベースの仮想スクリーニングの基礎について紹介するとともに,過去数年間の進捗状況について概説する。 主要な原則、最近の成功談、新しい方法、利用可能なソフトウェア、将来的な研究方向性について概説する。 バーチャルスクリーニングは、新しい小分子薬の開発に大きな可能性を持ち、すでに初期段階の薬物発見を変革し始めている。

Drug development is a wide scientific field that faces many challenges these days. Among them are extremely high development costs, long development times, as well as a low number of new drugs that are approved each year. To solve these problems, new and innovate technologies are needed that make the drug discovery process of small-molecules more time and cost-efficient, and which allow to target previously undruggable target classes such as protein-protein interactions. Structure-based virtual screenings have become a leading contender in this context. In this review, we give an introduction to the foundations of structure-based virtual screenings, and survey their progress in the past few years. We outline key principles, recent success stories, new methods, available software, and promising future research directions. Virtual screenings have an enormous potential for the development of new small-molecule drugs, and are already starting to transform early-stage drug discovery.
翻訳日:2022-11-08 19:30:18 公開日:2022-11-06
# WeakIdent: Narrow-fit と Trimming を用いた微分方程式同定のための弱定式化

WeakIdent: Weak formulation for Identifying Differential Equations using Narrow-fit and Trimming ( http://arxiv.org/abs/2211.03134v1 )

ライセンス: Link先を確認
Mengyi Tang, Wenjing Liao, Rachel Kuske and Sung Ha Kang(参考訳) データ駆動による微分方程式の同定は興味深いが難しい問題であり、特に与えられたデータがノイズによって破壊される。 支配微分方程式が様々な微分項の線形結合である場合、識別問題は線形系を解くものとして定式化することができ、特徴行列は係数ベクトルで乗算される線型項と非線形項からなる。 この積は時間微分項に等しく、従って動的挙動を生成する。 目標は、与えられたデータのダイナミクスを捉えるために方程式を形成する正しい用語を特定することである。 本稿では,一般微分方程式と偏微分方程式(odesとpdes)の両方に対して,弱定式化を用いて微分方程式を復元する汎用的かつロバストな枠組みを提案する。 弱い定式化は、ノイズを処理する効率的で堅牢な方法を促進する。 騒音に対する頑健な回復とハイパーパラメータの選択のために, それぞれ係数支持と値回復の2つの新しいメカニズム, 狭小化とトリミングを導入する。 各空間レベルに対して、Subspace Pursuitは、大きな辞書から最初のサポートセットを見つけるために使用される。 次に、高度にダイナミックな領域(特徴行列の行)に焦点を当て、誤差は狭いステップで特徴行列を正規化する。 サポートは、最も貢献の少ない用語をトリミングすることでさらに更新される。 最後に、最小のクロスバリデーションエラーを伴う機能のサポートセットを結果として選択する。 様々なノイズレベルを持つODEとPDEの両方のシステムに対して、包括的な数値実験を行う。 提案手法は係数の頑健な回復と,いくつかの方程式に対して最大100\%の雑音-信号比を処理できる有意な復調効果を与える。 提案手法を微分方程式の回復のための最先端アルゴリズムと比較する。

Data-driven identification of differential equations is an interesting but challenging problem, especially when the given data are corrupted by noise. When the governing differential equation is a linear combination of various differential terms, the identification problem can be formulated as solving a linear system, with the feature matrix consisting of linear and nonlinear terms multiplied by a coefficient vector. This product is equal to the time derivative term, and thus generates dynamical behaviors. The goal is to identify the correct terms that form the equation to capture the dynamics of the given data. We propose a general and robust framework to recover differential equations using a weak formulation, for both ordinary and partial differential equations (ODEs and PDEs). The weak formulation facilitates an efficient and robust way to handle noise. For a robust recovery against noise and the choice of hyper-parameters, we introduce two new mechanisms, narrow-fit and trimming, for the coefficient support and value recovery, respectively. For each sparsity level, Subspace Pursuit is utilized to find an initial set of support from the large dictionary. Then, we focus on highly dynamic regions (rows of the feature matrix), and error normalize the feature matrix in the narrow-fit step. The support is further updated via trimming of the terms that contribute the least. Finally, the support set of features with the smallest Cross-Validation error is chosen as the result. A comprehensive set of numerical experiments are presented for both systems of ODEs and PDEs with various noise levels. The proposed method gives a robust recovery of the coefficients, and a significant denoising effect which can handle up to $100\%$ noise-to-signal ratio for some equations. We compare the proposed method with several state-of-the-art algorithms for the recovery of differential equations.
翻訳日:2022-11-08 19:27:08 公開日:2022-11-06
# ガラス液体表現学習のためのSE(3)-同変グラフニューラルネットワーク

SE(3)-equivariant Graph Neural Networks for Learning Glassy Liquids Representations ( http://arxiv.org/abs/2211.03226v1 )

ライセンス: Link先を確認
Francesco Saverio Pezzicoli, Guillaume Charpiat, Fran\c{c}ois P. Landes(参考訳) glassy liquidsコミュニティ内では、粒子の静的構造をモデル化して将来のダイナミクスを予測する機械学習(ml)が、現在ホットなトピックである。 実際の技術状況はグラフニューラルネットワーク(GNN) (Bapst 2020) で構成されており、表現力が非常に高い一方、多くのパラメータを持ち、解釈性に欠ける重いモデルである。 近年の進歩(Thomas 2018)に触発されて、ガラスの静的構造の堅牢な表現を、ロト翻訳(SE(3))同値を維持するために制約することで学習するGNNを構築した。 この制約は予測能力を大幅に向上するだけでなく、解釈可能性を改善しながらパラメータ数を削減できることを示す。 さらに、学習した同変特徴を、ネットワークの単一層で容易に表現可能な、よく知られた不変専門家特徴に関連付ける。

Within the glassy liquids community, the use of Machine Learning (ML) to model particles' static structure in order to predict their future dynamics is currently a hot topic. The actual state of the art consists in Graph Neural Networks (GNNs) (Bapst 2020) which, beside having a great expressive power, are heavy models with numerous parameters and lack interpretability. Inspired by recent advances (Thomas 2018), we build a GNN that learns a robust representation of the glass' static structure by constraining it to preserve the roto-translation (SE(3)) equivariance. We show that this constraint not only significantly improves the predictive power but also allows to reduce the number of parameters while improving the interpretability. Furthermore, we relate our learned equivariant features to well-known invariant expert features, which are easily expressible with a single layer of our network.
翻訳日:2022-11-08 19:26:40 公開日:2022-11-06
# スパースグラフを用いたコミュニティ検出のためのグラフニューラルネットワーク

Graph Neural Networks for Community Detection on Sparse Graphs ( http://arxiv.org/abs/2211.03231v1 )

ライセンス: Link先を確認
Luana Ruiz, Ningyuan (Teresa) Huang, Soledad Villar(参考訳) スペクトル法は、密度グラフにおけるコミュニティ検出のための一貫した推定器を提供する。 しかし、グラフがスペーサーになるにつれてパフォーマンスは悪化する。 本研究では,異なるレベルのグラフを生成可能なランダムグラフモデルについて検討し,グラフニューラルネットワークがスパースグラフのスペクトル法より優れていることを示す。 結果は合成グラフと実グラフの両方で数値的な例で示します。

Spectral methods provide consistent estimators for community detection in dense graphs. However, their performance deteriorates as the graphs become sparser. In this work we consider a random graph model that can produce graphs at different levels of sparsity, and we show that graph neural networks can outperform spectral methods on sparse graphs. We illustrate the results with numerical examples in both synthetic and real graphs.
翻訳日:2022-11-08 19:26:25 公開日:2022-11-06
# オフライン深層強化学習による配車サービスのための時空間インセンティブ最適化

Spatio-temporal Incentives Optimization for Ride-hailing Services with Offline Deep Reinforcement Learning ( http://arxiv.org/abs/2211.03240v1 )

ライセンス: Link先を確認
Yanqiu Wu, Qingyang Li, Zhiwei Qin(参考訳) ピアツーピアのライドシェアリングシステムにおける基本的な問題は、乗客の要求を効果的かつ効率的に満たし、リアルタイムで需要と需要のバランスをとる方法である。 利用者側では、従来のアプローチは需要分布を調整するための利用者の呼びかけの確率を高めることによって価格戦略に重点を置いている。 しかし、これまでの方法では、将来の需要と需要の変化に対する戦略の変更の影響を考慮せず、つまり、ドライバーは乗客の呼び出しによって異なる目的地に移動され、将来的にはドライバーの収入に影響を及ぼすことになる。 本研究の目的は,価格戦略の指針として長期時空間値を学習することで,需要分布を最適化してこの問題に対処することである。 本研究では,輸送資源の利用と顧客満足度を改善するために,需要側に着目したオフライン深層強化学習手法を提案する。 時間と位置の異なる値を学習する時空間学習手法を採用し,利用者の乗車要求にインセンティブを与え,需要分布を調整し,システムにおける需要と需要のバランスをとる。 特に,この問題をマルコフ決定過程(MDP)としてモデル化する。

A fundamental question in any peer-to-peer ride-sharing system is how to, both effectively and efficiently, meet the request of passengers to balance the supply and demand in real time. On the passenger side, traditional approaches focus on pricing strategies by increasing the probability of users' call to adjust the distribution of demand. However, previous methods do not take into account the impact of changes in strategy on future supply and demand changes, which means drivers are repositioned to different destinations due to passengers' calls, which will affect the driver's income for a period of time in the future. Motivated by this observation, we make an attempt to optimize the distribution of demand to handle this problem by learning the long-term spatio-temporal values as a guideline for pricing strategy. In this study, we propose an offline deep reinforcement learning based method focusing on the demand side to improve the utilization of transportation resources and customer satisfaction. We adopt a spatio-temporal learning method to learn the value of different time and location, then incentivize the ride requests of passengers to adjust the distribution of demand to balance the supply and demand in the system. In particular, we model the problem as a Markov Decision Process (MDP).
翻訳日:2022-11-08 19:26:20 公開日:2022-11-06
# 強化学習, 攻撃グラフ, サイバー地形によるサーベイランス検出経路の抽出

Exposing Surveillance Detection Routes via Reinforcement Learning, Attack Graphs, and Cyber Terrain ( http://arxiv.org/abs/2211.03027v1 )

ライセンス: Link先を確認
Lanxiao Huang, Tyler Cody, Christopher Redino, Abdul Rahman, Akshay Kakkar, Deepak Kushwaha, Cheng Wang, Ryan Clark, Daniel Radke, Peter Beling, Edward Bowen(参考訳) サイバー地形原理を利用した攻撃グラフを用いた強化学習(RL)は、監視検出経路(SDR)の決定に関連する報酬と状態を開発するために用いられる。 本研究は,企業ネットワークにおける経路解析のためのRL手法開発への取り組みを拡大する。 この作業は、リスクを避けながらネットワークサービスの探索に重点を置くSDRの構築に焦点を当てている。 RLは、これらの経路の実現に役立つ報酬メカニズムを構築することで、これらの経路の開発を支援するために利用される。 RLアルゴリズムは、報酬とペナルティスケール係数に基づいて、ネットワークのどの領域が安全に探索できるかを初期探索で決定する新しいウォームアップフェーズを持つように修正される。

Reinforcement learning (RL) operating on attack graphs leveraging cyber terrain principles are used to develop reward and state associated with determination of surveillance detection routes (SDR). This work extends previous efforts on developing RL methods for path analysis within enterprise networks. This work focuses on building SDR where the routes focus on exploring the network services while trying to evade risk. RL is utilized to support the development of these routes by building a reward mechanism that would help in realization of these paths. The RL algorithm is modified to have a novel warm-up phase which decides in the initial exploration which areas of the network are safe to explore based on the rewards and penalty scale factor.
翻訳日:2022-11-08 19:17:08 公開日:2022-11-06
# 未観測イベントの信頼区間

Confidence Intervals for Unobserved Events ( http://arxiv.org/abs/2211.03052v1 )

ライセンス: Link先を確認
Amichai Painsky(参考訳) 可算アルファベット上の未知分布からの有限サンプルを考える。 観測されていないイベントは、サンプルに現れないアルファベット記号である。 観測されていない事象の確率を推定することは統計学および関連する分野における基本的な問題であり、点推定の文脈で広く研究された。 本研究では,観測不能事象に対する新しい間隔推定手法を提案する。 提案手法は,所望のパラメータ集合に対する信頼区間(CI)を構成するため,選択的推論を適用する。 興味深いことに、得られたCIはアルファベットサイズで成長しないため、次元自由である。 さらに,これらのCIは(ほぼ)厳密なものであり,所定のカバレッジ率に違反することなく,さらなる改善が不可能であることを示す。 提案手法の性能を実世界の合成実験で実証し, 代替案よりも大幅に向上したことを示す。 最後に,提案手法を大規模アルファベットモデルに適用する。 本稿では,現在知られている方法よりも高い精度で,所定のカバレッジ率を維持しつつ,大きなアルファベット分布の同時CI方式を提案する。

Consider a finite sample from an unknown distribution over a countable alphabet. Unobserved events are alphabet symbols which do not appear in the sample. Estimating the probabilities of unobserved events is a basic problem in statistics and related fields, which was extensively studied in the context of point estimation. In this work we introduce a novel interval estimation scheme for unobserved events. Our proposed framework applies selective inference, as we construct confidence intervals (CIs) for the desired set of parameters. Interestingly, we show that obtained CIs are dimension-free, as they do not grow with the alphabet size. Further, we show that these CIs are (almost) tight, in the sense that they cannot be further improved without violating the prescribed coverage rate. We demonstrate the performance of our proposed scheme in synthetic and real-world experiments, showing a significant improvement over the alternatives. Finally, we apply our proposed scheme to large alphabet modeling. We introduce a novel simultaneous CI scheme for large alphabet distributions which outperforms currently known methods while maintaining the prescribed coverage rate.
翻訳日:2022-11-08 19:16:55 公開日:2022-11-06
# 多環境FDD-OFDMシステムの深層学習による秘密鍵生成

Enabling Deep Learning-based Physical-layer Secret Key Generation for FDD-OFDM Systems in Multi-Environments ( http://arxiv.org/abs/2211.03065v1 )

ライセンス: Link先を確認
Xinwei Zhang, Guyue Li, Junqing Zhang, Aiqun Hu, Xianbin Wang(参考訳) 深層学習に基づく物理層秘密鍵生成(PKG)は、周波数分割二重化(FDD)直交周波数分割多重化(OFDM)システムにおける不完全なアップリンク/ダウンリンクチャネルの相反性を克服するために用いられている。 しかし、既存の取り組みは、トレーニングサンプルとテストサンプルが同じ分布に従う特定の環境でのユーザにとって重要な生成に焦点を当てており、これは現実世界のアプリケーションでは非現実的である。 本稿では,複数の環境におけるPKG問題を学習に基づく問題として,既知の環境からデータやモデルなどの知識を学習し,鍵を迅速かつ効率的に生成する。 具体的には,鍵生成のためのディープトランスファー学習(DTL)とメタラーニングに基づくチャネル特徴マッピングアルゴリズムを提案する。 2つのアルゴリズムは、異なるトレーニング方法を使用して、既知の環境でモデルを事前学習し、新しい環境に素早く適応し、デプロイする。 シミュレーションの結果,適応しない手法と比較して,dtlとメタラーニングアルゴリズムはともに生成鍵の性能を向上させることができた。 さらに、複雑性分析により、メタラーニングアルゴリズムは、時間、cpu、gpuリソースを削減し、dtlアルゴリズムよりも優れた性能を達成できることを示した。

Deep learning-based physical-layer secret key generation (PKG) has been used to overcome the imperfect uplink/downlink channel reciprocity in frequency division duplexing (FDD) orthogonal frequency division multiplexing (OFDM) systems. However, existing efforts have focused on key generation for users in a specific environment where the training samples and test samples obey the same distribution, which is unrealistic for real world applications. This paper formulates the PKG problem in multiple environments as a learning-based problem by learning the knowledge such as data and models from known environments to generate keys quickly and efficiently in multiple new environments. Specifically, we propose deep transfer learning (DTL) and meta-learning-based channel feature mapping algorithms for key generation. The two algorithms use different training methods to pre-train the model in the known environments, and then quickly adapt and deploy the model to new environments. Simulation results show that compared with the methods without adaptation, the DTL and meta-learning algorithms both can improve the performance of generated keys. In addition, the complexity analysis shows that the meta-learning algorithm can achieve better performance than the DTL algorithm with less time, lower CPU and GPU resources.
翻訳日:2022-11-08 19:16:40 公開日:2022-11-06
# Going In Style:ステレオ変換によるオーディオバックドア

Going In Style: Audio Backdoors Through Stylistic Transformations ( http://arxiv.org/abs/2211.03117v1 )

ライセンス: Link先を確認
Stefanos Koffas, Luca Pajola, Stjepan Picek, Mauro Conti(参考訳) バックドア攻撃は、被害者のディープラーニングモデルにトリガーを配置し、テスト時にターゲットとする誤分類を可能にする。 一般的に、トリガーはサンプルに固定されたアーティファクトであり、バックドア攻撃を簡単に発見できる。 つい最近になって、入力サンプル(例えば、特定の書き込みスタイル)にスタイリスティックな変換を適用するスタイリスティックなトリガーが提案された。 現在,本論文では,形式的なバックドア文学は攻撃の適切な形式化を欠いている。 さらに、スタイリスティックなトリガーのほとんどの研究はテキストと画像に焦点を当てているが、音で機能するかどうかは理解されていない。 この仕事はこのギャップを埋める。 我々は,コーラスやゲインなどの音声変換に基づく最初のスタイリスティックなバックドア攻撃であるJingleBackを提案する。 音声分類タスクにおける444モデルを用いて,音声におけるスタイル的トリガの実現可能性を確認し,攻撃成功率96%を得た。

A backdoor attack places triggers in victims' deep learning models to enable a targeted misclassification at testing time. In general, triggers are fixed artifacts attached to samples, making backdoor attacks easy to spot. Only recently, a new trigger generation harder to detect has been proposed: the stylistic triggers that apply stylistic transformations to the input samples (e.g., a specific writing style). Currently, stylistic backdoor literature lacks a proper formalization of the attack, which is established in this paper. Moreover, most studies of stylistic triggers focus on text and images, while there is no understanding of whether they can work in sound. This work fills this gap. We propose JingleBack, the first stylistic backdoor attack based on audio transformations such as chorus and gain. Using 444 models in a speech classification task, we confirm the feasibility of stylistic triggers in audio, achieving 96% attack success.
翻訳日:2022-11-08 19:16:18 公開日:2022-11-06
# 統計データからのセンサス・マイクロデータの信頼性関連再構築

Confidence-Ranked Reconstruction of Census Microdata from Published Statistics ( http://arxiv.org/abs/2211.03128v1 )

ライセンス: Link先を確認
Travis Dick, Cynthia Dwork, Michael Kearns, Terrance Liu, Aaron Roth, Giuseppe Vietri, Zhiwei Steven Wu(参考訳) プライベートデータセットに対するリコンストラクション攻撃は、データセットに関する公開アクセス情報として$D$を入力し、$D$の候補要素のリストを生成する。 非凸最適化のためのランダム化手法に基づく新しい種類のデータ再構成攻撃を提案する。 我々の攻撃は、集約クエリ統計から$d$の全行を再構築できるだけでなく、個人データに出現する確率によって再構築された行を確実にランク付けし、再建された行を優先順位付けして、盗難やヘイトクライムの特定などの追加アクションを行うことができることを実証する。 また,再建攻撃を評価するためのベースラインを設計する。 我々の攻撃は、公開ディストリビューションへのアクセスのみに基づくものや、プライベートデータセットの$D$がサンプリングされた集団にのみアクセスされたものよりもはるかに優れており、それらは分布の全体構造ではなく、集計統計の$Q(D)$の情報を活用していることを示している。 言い換えれば、$Q(D)$は、$D$が描かれた分布ではなく、このデータセットの要素の再構成を可能にする。 これらの結果は2010年のアメリカ合衆国国勢調査データとクェリ、および国勢調査から派生したアメリカコミュニティ調査データセットの両方で確立されている。 本手法と実験により,大規模データセットの数値的精度の高い集計統計を公表するリスクを明らかにし,差分プライバシーなどの実証可能なプライベート手法を慎重に適用する動機を与える。

A reconstruction attack on a private dataset $D$ takes as input some publicly accessible information about the dataset and produces a list of candidate elements of $D$. We introduce a new class of data reconstruction attacks based on randomized methods for non-convex optimization. We empirically demonstrate that our attacks can not only reconstruct full rows of $D$ from aggregate query statistics $Q(D)\in \mathbb{R}^m$, but can do so in a way that reliably ranks reconstructed rows by their odds of appearing in the private data, providing a signature that could be used for prioritizing reconstructed rows for further actions such as identify theft or hate crime. We also design a sequence of baselines for evaluating reconstruction attacks. Our attacks significantly outperform those that are based only on access to a public distribution or population from which the private dataset $D$ was sampled, demonstrating that they are exploiting information in the aggregate statistics $Q(D)$, and not simply the overall structure of the distribution. In other words, the queries $Q(D)$ are permitting reconstruction of elements of this dataset, not the distribution from which $D$ was drawn. These findings are established both on 2010 U.S. decennial Census data and queries and Census-derived American Community Survey datasets. Taken together, our methods and experiments illustrate the risks in releasing numerically precise aggregate statistics of a large dataset, and provide further motivation for the careful application of provably private techniques such as differential privacy.
翻訳日:2022-11-08 19:16:02 公開日:2022-11-06
# cementron:光学画像によるセメントクリンカーの構成相の機械学習

Cementron: Machine Learning the Constituent Phases in Cement Clinker from Optical Images ( http://arxiv.org/abs/2211.03223v1 )

ライセンス: Link先を確認
Mohd Zaki, Siddhant Sharma, Sunil Kumar Gurjar, Raju Goyal, Jayadeva, N. M. Anoop Krishnan(参考訳) セメントが最も使用される材料である。 セメントハイドレートの性能は, 質的にも定量的にも, セメントクリンカーに存在する組成相, viz. alite, belite, aluminateおよびフェライトに依存する。 伝統的に、クリンカーフェーズはドメインエキスパートと単純な画像処理技術に依存する光学画像から分析される。 しかし、画像の不均一性、位相の幾何や大きさの変化、実験的アプローチやイメージング手法の多様性は、位相を得るのを困難にしている。 本稿では,クリンカーの微細構造を自動検出する機械学習(ML)手法を提案する。 本研究では, セメントクリンカーのアノテートデータセットを, alite と belite の粒子をセグメンテーションすることによって作成する。 さらに,教師付きml法を用いてalite領域とbelite領域を識別するモデルを訓練する。 具体的には, セメント組織上に画像検出・セグメンテーションモデル検出子-2を微細化し, セメント相, すなわちセメントロンを検出するモデルを開発した。 文献データのみに基づいてトレーニングされたCementronは,本実験から得られた新たな画像に対して極めて良好に動作し,その一般化性を示す。 Cementronを一般公開しています。

Cement is the most used construction material. The performance of cement hydrate depends on the constituent phases, viz. alite, belite, aluminate, and ferrites present in the cement clinker, both qualitatively and quantitatively. Traditionally, clinker phases are analyzed from optical images relying on a domain expert and simple image processing techniques. However, the non-uniformity of the images, variations in the geometry and size of the phases, and variabilities in the experimental approaches and imaging methods make it challenging to obtain the phases. Here, we present a machine learning (ML) approach to detect clinker microstructure phases automatically. To this extent, we create the first annotated dataset of cement clinker by segmenting alite and belite particles. Further, we use supervised ML methods to train models for identifying alite and belite regions. Specifically, we finetune the image detection and segmentation model Detectron-2 on the cement microstructure to develop a model for detecting the cement phases, namely, Cementron. We demonstrate that Cementron, trained only on literature data, works remarkably well on new images obtained from our experiments, demonstrating its generalizability. We make Cementron available for public use.
翻訳日:2022-11-08 19:09:35 公開日:2022-11-06
# 制限トレーニングデータレジームにおける非学習非線形グラフ分類器

Unlearning Nonlinear Graph Classifiers in the Limited Training Data Regime ( http://arxiv.org/abs/2211.03216v1 )

ライセンス: Link先を確認
Chao Pan, Eli Chien, Olgica Milenkovic(参考訳) ユーザのプライバシの需要が増大するにつれて、ソーシャルネットワークやレコメンダシステムといったデータに敏感なWebアプリケーションのための機械学習モデルにおいて、制御されたデータ削除(マシンアンラーニング)が重要な機能になりつつある。 しかしながら、現時点でグラフニューラルネットワーク(GNN)の効率的なマシンアンラーニングの実行方法はほとんど不明であり、特にトレーニングサンプルの数が少ない場合には、未学習がモデルの性能を著しく損なう可能性がある。 この問題に対処するため,グラフ散乱変換(GST)の学習を開始する。これは,特徴やグラフトポロジの摂動下で効率よく安定し,GNNに匹敵するグラフ分類性能を提供する数学的フレームワークである。 我々の主な貢献は GST に基づく非線形近似グラフアンラーニング法である。 第2の貢献は,深層ニューラルネットワークでは再現が難しい未学習機構の計算複雑性の理論的解析である。 第3のコントリビューションは、削除要求後のGNNの完全再トレーニングと比較して、新しいGSTベースのアプローチは、平均10.38ドルxのスピードアップを提供し、IMDBデータセットからのトレーニンググラフの90ドルのうち10ドル(約10ドル)のアンラーニング中にテスト精度が2.6ドル(約2,600円)上昇することを示している。

As the demand for user privacy grows, controlled data removal (machine unlearning) is becoming an important feature of machine learning models for data-sensitive Web applications such as social networks and recommender systems. Nevertheless, at this point it is still largely unknown how to perform efficient machine unlearning of graph neural networks (GNNs); this is especially the case when the number of training samples is small, in which case unlearning can seriously compromise the performance of the model. To address this issue, we initiate the study of unlearning the Graph Scattering Transform (GST), a mathematical framework that is efficient, provably stable under feature or graph topology perturbations, and offers graph classification performance comparable to that of GNNs. Our main contribution is the first known nonlinear approximate graph unlearning method based on GSTs. Our second contribution is a theoretical analysis of the computational complexity of the proposed unlearning mechanism, which is hard to replicate for deep neural networks. Our third contribution are extensive simulation results which show that, compared to complete retraining of GNNs after each removal request, the new GST-based approach offers, on average, a $10.38$x speed-up and leads to a $2.6$% increase in test accuracy during unlearning of $90$ out of $100$ training graphs from the IMDB dataset ($10$% training ratio).
翻訳日:2022-11-08 19:01:29 公開日:2022-11-06
# 多層パーセプトロンネットワークによる幼体ゼブラフィッシュ遺伝子型判別

Multilayer Perceptron Perceptron Network Discriminates Larval Zebrafish Genotype using Behaviour ( http://arxiv.org/abs/2211.03051v1 )

ライセンス: Link先を確認
Christopher Fusco, Angel Allen(参考訳) ゼブラフィッシュ(zebrafish)は、新しい疾患の治療に用いられる一般的なモデル生物である。 高スループットの薬物スクリーンは、治療後の行動の変化を観察することで、マルチウェルプレートの幼虫ゼブラフィッシュ上で行うことができる。 しかし、この挙動の解析は、得られたデータの高次元性のため困難である。 個々の統計(例えば移動距離など)の統計分析は一般に、治療群間で有意な差異を検出するのに十分ではない。 本稿では,5日間の遺伝子型によるパーキンソン病のゼブラフィッシュモデルの分類法を提案する。 2次元の動作特徴のセットを使用して、多層パーセプトロンニューラルネットワークを訓練する。 さらに,統合勾配を用いることで,各行動特徴がモデルによる遺伝子型分類に与える影響を把握できることを示した。 このようにして、我々はゼブラフィッシュ幼虫を分類するための新しいパイプラインを提供する。

Zebrafish are a common model organism used to identify new disease therapeutics. High-throughput drug screens can be performed on larval zebrafish in multi-well plates by observing changes in behaviour following a treatment. Analysis of this behaviour can be difficult, however, due to the high dimensionality of the data obtained. Statistical analysis of individual statistics (such as the distance travelled) is generally not powerful enough to detect meaningful differences between treatment groups. Here, we propose a method for classifying zebrafish models of Parkinson's disease by genotype at 5 days old. Using a set of 2D behavioural features, we train a multi-layer perceptron neural network. We further show that the use of integrated gradients can give insight into the impact of each behaviour feature on genotype classifications by the model. In this way, we provide a novel pipeline for classifying zebrafish larvae, beginning with feature preparation and ending with an impact analysis of said features.
翻訳日:2022-11-08 18:50:03 公開日:2022-11-06
# 集団知覚問題における悪意的影響に対する分散レジリエンスの開発

Developing Decentralised Resilience to Malicious Influence in Collective Perception Problem ( http://arxiv.org/abs/2211.03063v1 )

ライセンス: Link先を確認
Chris Wise, Aya Hussein, Heba El-Fiqi(参考訳) 集団意思決定において、局所的な情報のみを使用して群レベルの行動に影響を及ぼすアルゴリズムを設計することは、非自明な問題である。 我々は、機械学習技術を用いて、Swarmメンバーに環境の局所的な認識を最適な行動にマッピングするように教えた。 機械教育のアプローチにインスパイアされたカリキュラムは、この学習プロセスを促進し、メンバーに集団認識問題における最適なパフォーマンスに必要なスキルを教えるために設計された。 我々は,エージェントに悪影響に対するレジリエンスを教えるカリキュラムを作成することで,これまでのアプローチを拡張した。 実験の結果,よく設計されたルールベースアルゴリズムが効果的なエージェントを生成できることが示されている。 意見融合を行う際,エージェントを動的に重み付けすることで分散レジリエンスを実現した。 定数と動的重みの非有意差を見出した結果,運動量に基づく意見融合はすでに弾力性のあるメカニズムである可能性が示唆された。

In collective decision-making, designing algorithms that use only local information to effect swarm-level behaviour is a non-trivial problem. We used machine learning techniques to teach swarm members to map their local perceptions of the environment to an optimal action. A curriculum inspired by Machine Education approaches was designed to facilitate this learning process and teach the members the skills required for optimal performance in the collective perception problem. We extended upon previous approaches by creating a curriculum that taught agents resilience to malicious influence. The experimental results show that well-designed rules-based algorithms can produce effective agents. When performing opinion fusion, we implemented decentralised resilience by having agents dynamically weight received opinion. We found a non-significant difference between constant and dynamic weights, suggesting that momentum-based opinion fusion is perhaps already a resilience mechanism.
翻訳日:2022-11-08 18:49:52 公開日:2022-11-06
# 影響の最大化に関する調査:MLに基づく組合せ最適化から

A Survey on Influence Maximization: From an ML-Based Combinatorial Optimization ( http://arxiv.org/abs/2211.03074v1 )

ライセンス: Link先を確認
Yandi Li, Haobo Gao, Yunxuan Gao, Jianxiong Guo, Weili Wu(参考訳) 影響最大化(im)は古典的な組合せ最適化問題であり、モバイルネットワーク、ソーシャルコンピューティング、レコメンデーションシステムで広く使われている。 オンラインソーシャルネットワークにまたがる影響力を最大化する少数のユーザーを選択することを目的としている。 その潜在的な商業的価値と学術的価値から、異なる視点からIM問題を研究することに注力する研究者は多い。 主な課題は、im問題のnp-hardnessと影響の拡散を推定する \#p-hardness から来ているため、これらを克服するための従来のアルゴリズムは、ヒューリスティックアルゴリズムと近似アルゴリズムの2つのクラスに分類できる。 しかし、ヒューリスティックなアルゴリズムには理論的保証はなく、理論的設計は限界に近い。 したがって、パフォーマンスをさらに最適化し改善することはほぼ不可能である。 人工知能の急速な発展に伴い、機械学習(ML)に基づく技術は多くの分野で大きな成果を上げている。 これを踏まえ、近年、MLに基づく手法を用いて組合せ最適化問題を解決するために、多くの新しい手法が出現している。 これらの手法は未知グラフに対する高速解法と強力な一般化能力の利点があり、組合せ最適化問題を解くための新たな方向を提供する。 そこで我々は,従来のアルゴリズムを反復探索に基づいて放棄し,最近のMLベースの手法,特に深層強化学習(Deep Reinforcement Learning)を検証して,ソーシャルネットワークにおけるIM問題や他の変種を解決する。 我々は,関連する背景知識,基本原則,共通手法,応用研究の要約に注力する。 最後に,今後のIM研究において緊急に解決すべき課題を指摘する。

Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
翻訳日:2022-11-08 18:49:38 公開日:2022-11-06
# 機械学習モデルによる材料の超伝導特性の予測

Prediction of superconducting properties of materials based on machine learning models ( http://arxiv.org/abs/2211.03075v1 )

ライセンス: Link先を確認
Jie Hu, Yongquan Jiang, Yang Yan, Houchen Zuo(参考訳) 超伝導材料の応用はますます広くなってきている。 伝統的に、新しい超伝導材料の発見は、専門家の経験と多くの"trial and error"実験に依存しており、実験のコストを増加させるだけでなく、新しい超伝導材料の発見期間を延ばす。 近年、機械学習は材料科学にますます応用されている。 そこで本研究では,xgboostモデルを用いて超伝導体を特定すること,超伝導体の臨界温度を予測するためのディープフォレストモデルが初めて適用すること,材料のバンドギャップを予測するためにディープフォレストを初めて適用すること,および物質のフェルミエネルギーレベルを予測するための新しいサブネットワークモデルの適用を提案する。 既知の類似の文献と比較して、上記のアルゴリズムはすべて最先端に到達します。 最後に、この写本は上記のモデルを用いてcod公開データセットを検索し、90k以上の臨界温度を持つ50の候補超伝導材料を同定する。

The application of superconducting materials is becoming more and more widespread. Traditionally, the discovery of new superconducting materials relies on the experience of experts and a large number of "trial and error" experiments, which not only increases the cost of experiments but also prolongs the period of discovering new superconducting materials. In recent years, machine learning has been increasingly applied to materials science. Based on this, this manuscript proposes the use of XGBoost model to identify superconductors; the first application of deep forest model to predict the critical temperature of superconductors; the first application of deep forest to predict the band gap of materials; and application of a new sub-network model to predict the Fermi energy level of materials. Compared with our known similar literature, all the above algorithms reach state-of-the-art. Finally, this manuscript uses the above models to search the COD public dataset and identify 50 candidate superconducting materials with possible critical temperature greater than 90 K.
翻訳日:2022-11-08 18:49:12 公開日:2022-11-06
# 微分同相写像によるリーマン安定力学系の学習

Learning Riemannian Stable Dynamical Systems via Diffeomorphisms ( http://arxiv.org/abs/2211.03169v1 )

ライセンス: Link先を確認
Jiechao Zhang, Hadi Beik-Mohammadi, Leonel Rozo(参考訳) 巧妙で自律的なロボットは精巧な動的動きを巧みに行うことができるべきである。 学習技術は、このようなダイナミックスキルのモデルを構築するために利用することができる。 これを達成するために、学習モデルは所望の運動力学に類似した安定したベクトル場を符号化する必要がある。 ロボットの状態がユークリッド空間上では進化しないため、安定性の保証とベクトル場のエンコーディングは例えば向き表現から生じる幾何学を考慮しなければならないため、これは困難である。 この問題に対処するため、我々は実演からリーマン安定力学系(RSDS)の学習を提案し、力学系状態表現から生じる様々な幾何学的制約を考慮に入れた。 我々のアプローチは、ニューラル多様体 ODE 上に構築された微分同相写像を通じて所望の運動力学に強制されるリーマン多様体に対するリャプノフ安定性を保証する。 我々のリーマン的アプローチにより、実世界の操作タスクと実例の両方に複雑なベクトル場を表示する安定な力学系を学習できることが示され、ユークリッド近似は失敗する。

Dexterous and autonomous robots should be capable of executing elaborated dynamical motions skillfully. Learning techniques may be leveraged to build models of such dynamic skills. To accomplish this, the learning model needs to encode a stable vector field that resembles the desired motion dynamics. This is challenging as the robot state does not evolve on a Euclidean space, and therefore the stability guarantees and vector field encoding need to account for the geometry arising from, for example, the orientation representation. To tackle this problem, we propose learning Riemannian stable dynamical systems (RSDS) from demonstrations, allowing us to account for different geometric constraints resulting from the dynamical system state representation. Our approach provides Lyapunov-stability guarantees on Riemannian manifolds that are enforced on the desired motion dynamics via diffeomorphisms built on neural manifold ODEs. We show that our Riemannian approach makes it possible to learn stable dynamical systems displaying complicated vector fields on both illustrative examples and real-world manipulation tasks, where Euclidean approximations fail.
翻訳日:2022-11-08 18:48:56 公開日:2022-11-06
# 身体モデルを学ぶ:人間からヒューマノイドへ

Learning body models: from humans to humanoids ( http://arxiv.org/abs/2211.03049v1 )

ライセンス: Link先を確認
Matej Hoffmann(参考訳) 人間と動物は、複数の感覚モーダルからの情報を組み合わせて、複雑な体を制御し、成長、失敗、ツールの使用に適応する。 これらの能力はロボットにも非常に望ましい。 ある程度は機械で展示されている。 しかし、人工生物は後れを取っている。 キーとなる基礎は、エージェント(人間、動物、ロボット)が開発してきた身体の内部表現である。 脳における身体モデルの操作のメカニズムはほとんど不明であり、生後の経験からどのように構築されるかについてもあまり知られていない。 発達心理学者と共同で、幼児が最初に「感覚運動体知識」を得る方法を理解するための標的実験を行った。 これらの実験は,マルチモーダル体表現の学習,適応,操作のメカニズムに対処するヒューマノイドロボットの具体化計算モデルを構築する上で,我々の研究成果を示唆するものである。 同時に、「脳内の体」の特徴のどれをロボットに移すかを評価し、より適応的で弾力性があり自己調整する機械を創出する。 従来のロボット・キネマティック・キャリブレーションを,外部計測が不要な自己完結型アプローチに焦点をあてて拡張する。 いくつかのロボットプラットフォーム上でのキャリブレーションツールボックスと実験検証とともに,数種類のキネマティックチェーンを同時に閉ざすことができる問題定式化について述べる。 最後に、体自体のモデルの横で、身近な空間(体をすぐに囲む空間)を研究する。 また、具体化された計算モデルを開発し、その後、生物学的にインスパイアされた表現を安全な人間とロボットのコラボレーションに変える可能性について研究する。

Humans and animals excel in combining information from multiple sensory modalities, controlling their complex bodies, adapting to growth, failures, or using tools. These capabilities are also highly desirable in robots. They are displayed by machines to some extent. Yet, the artificial creatures are lagging behind. The key foundation is an internal representation of the body that the agent - human, animal, or robot - has developed. The mechanisms of operation of body models in the brain are largely unknown and even less is known about how they are constructed from experience after birth. In collaboration with developmental psychologists, we conducted targeted experiments to understand how infants acquire first "sensorimotor body knowledge". These experiments inform our work in which we construct embodied computational models on humanoid robots that address the mechanisms behind learning, adaptation, and operation of multimodal body representations. At the same time, we assess which of the features of the "body in the brain" should be transferred to robots to give rise to more adaptive and resilient, self-calibrating machines. We extend traditional robot kinematic calibration focusing on self-contained approaches where no external metrology is needed: self-contact and self-observation. Problem formulation allowing to combine several ways of closing the kinematic chain simultaneously is presented, along with a calibration toolbox and experimental validation on several robot platforms. Finally, next to models of the body itself, we study peripersonal space - the space immediately surrounding the body. Again, embodied computational models are developed and subsequently, the possibility of turning these biologically inspired representations into safe human-robot collaboration is studied.
翻訳日:2022-11-08 18:41:55 公開日:2022-11-06
# 高レベル人工知能の差別化リスクと制御の課題

Examining the Differential Risk from High-level Artificial Intelligence and the Question of Control ( http://arxiv.org/abs/2211.03157v1 )

ライセンス: Link先を確認
Kyle A. Kilian, Christopher J. Ventura, and Mark M. Bailey(参考訳) 人工知能(AI)は21世紀で最も革新的な技術の一つである。 将来のAI能力の範囲と範囲は依然として重要な不確実性であり、タイムラインと潜在的な影響について広く意見が分かれている。 国家やテクノロジー企業はAIシステムの複雑さと自律性に向かって競争しているため、不透明なAI決定プロセスの統合と監視の程度に懸念がある。 これは特に機械学習(ml)のサブ分野において当てはまり、システムは人間の助けなしに目的を最適化することを学ぶ。 オブジェクトは不完全な指定や、予期しないあるいは潜在的に有害な方法で実行される。 システムがパワーと自律性が増すにつれて、突然の能力の上昇が予期せぬパワーダイナミクスの変化や壊滅的な失敗を引き起こす可能性がある。 本研究では,aiリスクをモデル化する階層的複雑システムフレームワークと,代替先物分析のためのテンプレートを提案する。 調査データは、AIの影響と可能性の分類のために、パブリックおよびプライベートセクターのドメインエキスパートから収集された。 その結果、強力なaiエージェントシナリオに対する不確実性が高まり、マルチエージェント環境への信頼が高まり、aiアライメントの失敗や影響調査行動に対する懸念が高まった。

Artificial Intelligence (AI) is one of the most transformative technologies of the 21st century. The extent and scope of future AI capabilities remain a key uncertainty, with widespread disagreement on timelines and potential impacts. As nations and technology companies race toward greater complexity and autonomy in AI systems, there are concerns over the extent of integration and oversight of opaque AI decision processes. This is especially true in the subfield of machine learning (ML), where systems learn to optimize objectives without human assistance. Objectives can be imperfectly specified or executed in an unexpected or potentially harmful way. This becomes more concerning as systems increase in power and autonomy, where an abrupt capability jump could result in unexpected shifts in power dynamics or even catastrophic failures. This study presents a hierarchical complex systems framework to model AI risk and provide a template for alternative futures analysis. Survey data were collected from domain experts in the public and private sectors to classify AI impact and likelihood. The results show increased uncertainty over the powerful AI agent scenario, confidence in multiagent environments, and increased concern over AI alignment failures and influence-seeking behavior.
翻訳日:2022-11-08 18:41:28 公開日:2022-11-06
# アルツハイマー病診断における閉鎖型血管検出のための経時的マルチモーダル前処理法

A Sequence Agnostic Multimodal Preprocessing for Clogged Blood Vessel Detection in Alzheimer's Diagnosis ( http://arxiv.org/abs/2211.03109v1 )

ライセンス: Link先を確認
Partho Ghosh, Md. Abrar Istiak, Mir Sayeed Mohammad, Swapnil Saha, Uday Kamal(参考訳) 血管閉塞の診断はアルツハイマー病の診断において重要なステップである。 これらのブロックは、機械学習手法を用いて、脳血管の空間的および時間的変化の2光子励起顕微鏡(TPEF)画像から識別することができる。 本研究では,これらの手法の性能向上のために,いくつかの前処理方式を提案する。 本手法では,画像モダリティから3dポイントクラウドデータ抽出と特徴空間融合を行い,異なるモダリティに固有の補完的情報を活用する。 また,双方向データフローを利用して,学習表現を逐次不変に強制する。 clog損失データセットを用いた実験結果から,本手法は不定型および非定型容器分類における最先端前処理法を一貫して上回っていることがわかった。

Successful identification of blood vessel blockage is a crucial step for Alzheimer's disease diagnosis. These blocks can be identified from the spatial and time-depth variable Two-Photon Excitation Microscopy (TPEF) images of the brain blood vessels using machine learning methods. In this study, we propose several preprocessing schemes to improve the performance of these methods. Our method includes 3D-point cloud data extraction from image modality and their feature-space fusion to leverage complementary information inherent in different modalities. We also enforce the learned representation to be sequence-order invariant by utilizing bi-direction dataflow. Experimental results on The Clog Loss dataset show that our proposed method consistently outperforms the state-of-the-art preprocessing methods in stalled and non-stalled vessel classification.
翻訳日:2022-11-08 18:33:27 公開日:2022-11-06
# スチュアート:自動行動認識と追跡機能を有する学生の個別教室観察

StuArt: Individualized Classroom Observation of Students with Automatic Behavior Recognition and Tracking ( http://arxiv.org/abs/2211.03127v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Jiaxin Si, Lili Xiong, Hongtao Lu(参考訳) 各生徒は重要だが、教官がコース中のすべての生徒を観察し、必要な生徒に即座に支援することはほとんどない。 本稿では,教師が生徒の学習状況に注意を向けるように支援する授業観察用自動システムであるstuartについて述べる。 スチュアートは、5つの代表的な学生の行動(ハンドレイディング、スタンディング、スリープ、あくび、笑顔)を認識でき、コース中の彼らの変動傾向を追跡することができる。 生徒のプライバシーを保護するため、変動傾向はすべて、個人識別情報なしで座席番号によってインデックス化される。 さらに、StuArtは様々なユーザフレンドリーな視覚化デザインを採用し、インストラクターが個人と学習のステータスを素早く理解できるようにする。 実教室ビデオにおける実験結果は,組込みアルゴリズムの優位性と堅牢性を示している。 我々は,学生の大規模個別指導の開発を促進することを期待する。

Each student matters, but it is hardly for instructors to observe all the students during the courses and provide helps to the needed ones immediately. In this paper, we present StuArt, a novel automatic system designed for the individualized classroom observation, which empowers instructors to concern the learning status of each student. StuArt can recognize five representative student behaviors (hand-raising, standing, sleeping, yawning, and smiling) that are highly related to the engagement and track their variation trends during the course. To protect the privacy of students, all the variation trends are indexed by the seat numbers without any personal identification information. Furthermore, StuArt adopts various user-friendly visualization designs to help instructors quickly understand the individual and whole learning status. Experimental results on real classroom videos have demonstrated the superiority and robustness of the embedded algorithms. We expect our system promoting the development of large-scale individualized guidance of students.
翻訳日:2022-11-08 18:33:17 公開日:2022-11-06
# モーションスタイル転送:深部動作予測のためのモジュール型低ランク適応

Motion Style Transfer: Modular Low-Rank Adaptation for Deep Motion Forecasting ( http://arxiv.org/abs/2211.03165v1 )

ライセンス: Link先を確認
Parth Kothari, Danya Li, Yuejiang Liu, Alexandre Alahi(参考訳) ディープモーション予測モデルは、大量のデータをトレーニングすることで大きな成功を収めています。 しかし、トレーニングデータに制限がある場合、しばしばパフォーマンスが悪くなります。 そこで本研究では,エージェントタイプやシーンコンテキストなど,事前学習された予測モデルを新しい領域に効率的に適応するトランスファー学習手法を提案する。 エンコーダ全体を更新する従来の微調整アプローチとは異なり、主な考え方は、ターゲットとなるドメイン固有の動作スタイルを正確に説明できる調整可能なパラメータの量を減らすことである。 この目的のために、モーションスタイルシフトの事前知識を利用する2つのコンポーネントを紹介します。 (i)低次元ボトルネックでスタイルの特徴を投影・調整する低ランクモーションスタイルアダプタ、及び (ii)適応層の細かな選択を容易にするために、シーンコンテキストとモーション履歴の特徴を分断するモジュラーアダプタ戦略。 広範囲な実験を通して,提案するアダプタ設計であるMoSAが,いくつかの予測ベンチマークにおいて先行手法より優れていることを示す。

Deep motion forecasting models have achieved great success when trained on a massive amount of data. Yet, they often perform poorly when training data is limited. To address this challenge, we propose a transfer learning approach for efficiently adapting pre-trained forecasting models to new domains, such as unseen agent types and scene contexts. Unlike the conventional fine-tuning approach that updates the whole encoder, our main idea is to reduce the amount of tunable parameters that can precisely account for the target domain-specific motion style. To this end, we introduce two components that exploit our prior knowledge of motion style shifts: (i) a low-rank motion style adapter that projects and adjusts the style features at a low-dimensional bottleneck; and (ii) a modular adapter strategy that disentangles the features of scene context and motion history to facilitate a fine-grained choice of adaptation layers. Through extensive experimentation, we show that our proposed adapter design, coined MoSA, outperforms prior methods on several forecasting benchmarks.
翻訳日:2022-11-08 18:32:59 公開日:2022-11-06
# 逆問題を解くための深部暗黙層による計測一貫性ネットワーク

Measurement-Consistent Networks via a Deep Implicit Layer for Solving Inverse Problems ( http://arxiv.org/abs/2211.03177v1 )

ライセンス: Link先を確認
Rahul Mourya and Jo\~ao F. C. Mota(参考訳) エンドツーエンドのディープニューラルネットワーク(DNN)は、逆問題を解決するための最先端(SOTA)になっている。 優れた性能にもかかわらず、配備中は、これらのネットワークは訓練パイプラインの小さなバリエーションに敏感であり、医療画像、天文学、防衛において重要な特徴である、小さなが重要な詳細を再構築することができないことが多い。 DNNのこのような不安定性は、デプロイ中に前方測定モデルを無視し、出力と入力測定の間の一貫性を強制できないという事実によって説明できる。 そこで本研究では,逆問題に対する任意のDNNを計測一貫性に変換するフレームワークを提案する。 これは、モデルに基づく最適化問題を解決するために設計された暗黙の層(あるいは深い平衡ネットワーク)を付加することで実現される。 暗黙のレイヤは浅い学習可能なネットワークで構成されており、エンドツーエンドのトレーニングに統合することができる。 単一画像超解像実験により,提案手法がSOTA DNNの再構成品質とロバスト性を大幅に向上させることが示された。

End-to-end deep neural networks (DNNs) have become state-of-the-art (SOTA) for solving inverse problems. Despite their outstanding performance, during deployment, such networks are sensitive to minor variations in the training pipeline and often fail to reconstruct small but important details, a feature critical in medical imaging, astronomy, or defence. Such instabilities in DNNs can be explained by the fact that they ignore the forward measurement model during deployment, and thus fail to enforce consistency between their output and the input measurements. To overcome this, we propose a framework that transforms any DNN for inverse problems into a measurement-consistent one. This is done by appending to it an implicit layer (or deep equilibrium network) designed to solve a model-based optimization problem. The implicit layer consists of a shallow learnable network that can be integrated into the end-to-end training. Experiments on single-image super-resolution show that the proposed framework leads to significant improvements in reconstruction quality and robustness over the SOTA DNNs.
翻訳日:2022-11-08 18:32:41 公開日:2022-11-06
# 砕波中の気泡生成と音発生過程の高忠実度シミュレーションと新しいデータ解析

High-Fidelity Simulation and Novel Data Analysis of the Bubble Creation and Sound Generation Processes in Breaking Waves ( http://arxiv.org/abs/2211.03024v1 )

ライセンス: Link先を確認
Qiang Gao, Grant B. Deane, Saswata Basak, Umberto Bitencourt, Lian Shen(参考訳) 近年の計算能力の増大により、海軍で実用的かつ戦略的に重要な複雑な流れ問題の数値シミュレーションが可能となった。 特筆すべき進展領域は、波の破断による乱流二相流の計算や、水中音を発生させるキャビテーションのような他の多相流の計算、船舶後流中の気泡のエントレインなどである。 高度なフローソルバは洗練されており、大量のグリッドポイント上の高レイノルズ数フローをシミュレートすることができるが、データ分析における課題は残る。 具体的には、離散時間ステップで細粒度グリッド上に記述された高度に解決された流れ場を、海軍の用途で流れのダイナミクスを理解・活用できる物理的に解決された特徴に変換する必要がある。 本稿では,この分野における最近の取り組みについて述べる。 前報では,破波シミュレーションにおいて気泡を追跡し,その動的挙動を時間とともに解釈する新しいアルゴリズムを開発した(gao et al., 2021a)。 また,破波堤内の気泡発生を駆動する新しい物理機構(gao et al., 2021b)を発見し,水中音発生と気泡挙動を関連付けるモデル(gao et al., 2021c)を開発した。 本研究では, 気泡追跡アルゴリズムを破砕波シミュレーションに適用し, 気泡の軌跡, 気泡生成機構, 気泡の音響特性について検討した。

Recent increases in computing power have enabled the numerical simulation of many complex flow problems that are of practical and strategic interest for naval applications. A noticeable area of advancement is the computation of turbulent, two-phase flows resulting from wave breaking and other multiphase flow processes such as cavitation that can generate underwater sound and entrain bubbles in ship wakes, among other effects. Although advanced flow solvers are sophisticated and are capable of simulating high Reynolds number flows on large numbers of grid points, challenges in data analysis remain. Specifically, there is a critical need to transform highly resolved flow fields described on fine grids at discrete time steps into physically resolved features for which the flow dynamics can be understood and utilized in naval applications. This paper presents our recent efforts in this field. In previous works, we developed a novel algorithm to track bubbles in breaking wave simulations and to interpret their dynamical behavior over time (Gao et al., 2021a). We also discovered a new physical mechanism driving bubble production within breaking wave crests (Gao et al., 2021b) and developed a model to relate bubble behaviors to underwater sound generation (Gao et al., 2021c). In this work, we applied our bubble tracking algorithm to the breaking waves simulations and investigated the bubble trajectories, bubble creation mechanisms, and bubble acoustics based on our previous works.
翻訳日:2022-11-08 18:24:06 公開日:2022-11-06
# 実世界のHDRTV再構築に向けて:データ合成に基づくアプローチ

Towards Real World HDRTV Reconstruction: A Data Synthesis-based Approach ( http://arxiv.org/abs/2211.03058v1 )

ライセンス: Link先を確認
Zhen Cheng, Tao Wang, Yong Li, Fenglong Song, Chang Chen, Zhiwei Xiong(参考訳) 既存のディープラーニングに基づくHDRTV再構成手法は、教師あり訓練のためにSDRTV-HDRTVペアを合成する分解過程として、ある種類のトーンマッピング演算子(TMO)を仮定する。 本稿では,従来のTMOが効率的なダイナミックレンジ圧縮を生かしているが,情報保存やカラーバイアス,可能アーティファクトといった現実的な劣化をモデル化する上で,いくつかの欠点があることを論じる。 この問題を解決するために,ネットワーク構造と損失関数の両方に複数のトーンマッピングを組み込むことで,実世界のSDRTVの特性を学習ベースで学習する手法を提案する。 具体的には,SDRTVをグローバル変換とローカル変換の両方で合成するためのガイダンスとして,事前トーンマッピング結果を用いた条件付き2ストリームネットワークを設計する。 データ合成ネットワークを訓練するために, 輝度分布の異なる領域における合成sdrtvの異なる局面を制約し, 詳細をより現実的なものにするために, 新たな自己教師付きコンテンツ損失を形成する。 提案手法の有効性を検証するため,本手法を用いてSDRTV-HDRTVペアを合成し,複数のHDRTV再構成ネットワークを訓練する。 次に,ラベル付きSDRTVとラベルなしSDRTVの両方を含む2つの推論データセットを収集する。 実験結果から,本合成データを用いて学習したネットワークは,既存のソリューションよりも,これら2つの実世界のデータセットに対してはるかに優れていることがわかった。

Existing deep learning based HDRTV reconstruction methods assume one kind of tone mapping operators (TMOs) as the degradation procedure to synthesize SDRTV-HDRTV pairs for supervised training. In this paper, we argue that, although traditional TMOs exploit efficient dynamic range compression priors, they have several drawbacks on modeling the realistic degradation: information over-preservation, color bias and possible artifacts, making the trained reconstruction networks hard to generalize well to real-world cases. To solve this problem, we propose a learning-based data synthesis approach to learn the properties of real-world SDRTVs by integrating several tone mapping priors into both network structures and loss functions. In specific, we design a conditioned two-stream network with prior tone mapping results as a guidance to synthesize SDRTVs by both global and local transformations. To train the data synthesis network, we form a novel self-supervised content loss to constraint different aspects of the synthesized SDRTVs at regions with different brightness distributions and an adversarial loss to emphasize the details to be more realistic. To validate the effectiveness of our approach, we synthesize SDRTV-HDRTV pairs with our method and use them to train several HDRTV reconstruction networks. Then we collect two inference datasets containing both labeled and unlabeled real-world SDRTVs, respectively. Experimental results demonstrate that, the networks trained with our synthesized data generalize significantly better to these two real-world datasets than existing solutions.
翻訳日:2022-11-08 18:23:24 公開日:2022-11-06
# myoPS-Net: 心筋病理領域分割と多周波CMR画像のフレキシブルな組み合わせ

MyoPS-Net: Myocardial Pathology Segmentation with Flexible Combination of Multi-Sequence CMR Images ( http://arxiv.org/abs/2211.03062v1 )

ライセンス: Link先を確認
Junyi Qiu, Lei Li, Sihan Wang, Ke Zhang, Yinyin Chen, Shan Yang, Xiahai Zhuang(参考訳) 心筋病理分画(myops)は、心筋梗塞の正確な診断と治療計画のための前提条件である。 しかし、このセグメンテーションを達成することは、主に画像からの不適切で不明瞭な情報のために困難である。 本研究は、MyoPS-Netと呼ばれるエンド・ツー・エンドのディープニューラルネットワークを開発し、MyoPSのための5シーケンス心磁気共鳴(CMR)画像を柔軟に組み合わせる。 正確かつ適切な情報を抽出するために,クロスモーダルな特徴を抽出・融合する効果的かつフレキシブルなアーキテクチャを設計する。 このアーキテクチャは、特定の病理をターゲットとした出力ブランチを用いて、異なる数のCMRイメージと複雑なモダリティの組み合わせに取り組むことができる。 解剖学的知識をセグメント化結果に適用するために,まず,心筋の整合性を規則化し,病理組織を局在させるモジュールを提案し,心筋の傷跡と浮腫の関係を活かすために包括的障害を導入する。 提案したMyoPS-Netを,50組のマルチシーケンスCMR画像とMICCAI2020myoPS Challengeの公開画像からなるプライベートデータセットで評価した。 実験の結果,MyoPS-Netは様々なシナリオで最先端の性能を実現することができた。 実践的な臨床では、被験者はLGE CMRの欠失やCMRのマッピングのような完全なシーケンスを持っていない可能性がある。 そこで我々は, 異なるCMR配列の複雑な組み合わせを扱う際の提案手法の性能について, 広範な実験を行った。 その結果,MyoPS-Netの優位性と一般化性が証明され,さらに臨床的に有用であることが示唆された。

Myocardial pathology segmentation (MyoPS) can be a prerequisite for the accurate diagnosis and treatment planning of myocardial infarction. However, achieving this segmentation is challenging, mainly due to the inadequate and indistinct information from an image. In this work, we develop an end-to-end deep neural network, referred to as MyoPS-Net, to flexibly combine five-sequence cardiac magnetic resonance (CMR) images for MyoPS. To extract precise and adequate information, we design an effective yet flexible architecture to extract and fuse cross-modal features. This architecture can tackle different numbers of CMR images and complex combinations of modalities, with output branches targeting specific pathologies. To impose anatomical knowledge on the segmentation results, we first propose a module to regularize myocardium consistency and localize the pathologies, and then introduce an inclusiveness loss to utilize relations between myocardial scars and edema. We evaluated the proposed MyoPS-Net on two datasets, i.e., a private one consisting of 50 paired multi-sequence CMR images and a public one from MICCAI2020 MyoPS Challenge. Experimental results showed that MyoPS-Net could achieve state-of-the-art performance in various scenarios. Note that in practical clinics, the subjects may not have full sequences, such as missing LGE CMR or mapping CMR scans. We therefore conducted extensive experiments to investigate the performance of the proposed method in dealing with such complex combinations of different CMR sequences. Results proved the superiority and generalizability of MyoPS-Net, and more importantly, indicated a practical clinical application.
翻訳日:2022-11-08 18:22:59 公開日:2022-11-06
# brifiseg: ブライトフィールド画像における核のセマンティクスとインスタンスセグメンテーションのための深層学習に基づく手法

BriFiSeg: a deep learning-based method for semantic and instance segmentation of nuclei in brightfield images ( http://arxiv.org/abs/2211.03072v1 )

ライセンス: Link先を確認
Gendarme Mathieu, Lambert Annika M., El Debs Bachir(参考訳) 一般的に生物学における顕微鏡画像解析は、個々の細胞を識別するために、専用の染色画像を用いて個々の核のセグメンテーションに依存する。 しかし、染色された原子核は、試料の調製や顕微鏡上の特定の装置のような欠点があるが、最も重要なことは、ほとんどの場合、核の染色は生物学的な問題とは関係がなく、セグメンテーションのタスクにのみ使用されることである。 本研究では, 生検体と固定検体の両方から任意の顕微鏡で取得でき, 特定の試料の調製を必要とせず, 核セグメンテーションに非ステンドブライトフィールド像を用いた。 ブライトフィールド画像からの核セマンティクスセグメンテーションは、u-netベースのアーキテクチャを持つ4つの異なるセルライン上で得られた。 ニューラルネットワークアーキテクチャと組み合わせて最適な性能を識別するために,事前学習済みエンコーダを系統的にテストした。 さらに、インスタンスのセグメンテーションに2つの異なる効果的な戦略が採用され、続いて完全なインスタンス評価が行われた。 標準テストセットおよび各種小分子阻害剤の処理により引き起こされる非常に多様な生物学的文脈から、brightfield画像中の核の効果的な意味的およびインスタンス的セグメンテーションを得た。 この研究で使用されたコードは、コミュニティによるさらなる利用を可能にするために公開された。

Generally, microscopy image analysis in biology relies on the segmentation of individual nuclei, using a dedicated stained image, to identify individual cells. However stained nuclei have drawbacks like the need for sample preparation, and specific equipment on the microscope but most importantly, and as it is in most cases, the nuclear stain is not relevant to the biological questions of interest but is solely used for the segmentation task. In this study, we used non-stained brightfield images for nuclei segmentation with the advantage that they can be acquired on any microscope from both live or fixed samples and do not necessitate specific sample preparation. Nuclei semantic segmentation from brightfield images was obtained, on four distinct cell lines with U-Net-based architectures. We tested systematically deep pre-trained encoders to identify the best performing in combination with the different neural network architectures used. Additionally, two distinct and effective strategies were employed for instance segmentation, followed by thorough instance evaluation. We obtained effective semantic and instance segmentation of nuclei in brightfield images from standard test sets as well as from very diverse biological contexts triggered upon treatment with various small molecule inhibitor. The code used in this study was made public to allow further use by the community.
翻訳日:2022-11-08 18:22:32 公開日:2022-11-06
# 関数型オブジェクト指向ネットワークを用いた知識検索

Knowledge Retrieval using Functional Object-Oriented Network ( http://arxiv.org/abs/2211.03037v1 )

ライセンス: Link先を確認
Naseem Shaik(参考訳) ロボットはすべての人間によるタスクを完遂できるが、現在の知識が不足しているため、高い成功率で完了できないタスクもある。 しかし、適切な知識で、これらのタスクは高い成功率のロボットによって完了することができ、日々のタスクを完了するために必要な人的労力を減らすことができる。 本稿では,ロボットの行動成功率を記述するフォオンについて述べる。 関数型オブジェクト指向ネットワーク(foon)は、グラフの形をとる象徴的タスク計画のための知識表現である。 様々な情報源から得られた知識を利用して問題を解決する新規かつ適応的な手法を開発する際に、フーンの適応性を示すために、グラフ検索手法を示し、フーンから操作動作シーケンスを生成し、所望の目的を達成する。 結果は、シミュレーション環境で望まれる目的を達成するために、FOONによって生成された動きシーケンスを用いて説明される。

Robots can complete all human-performed tasks, but due to their current lack of knowledge, some tasks still cannot be completed by them with a high degree of success. However, with the right knowledge, these tasks can be completed by robots with a high degree of success, reducing the amount of human effort required to complete daily tasks. In this paper, the FOON, which describes the robot action success rate, is discussed. The functional object-oriented network (FOON) is a knowledge representation for symbolic task planning that takes the shape of a graph. It is to demonstrate the adaptability of FOON in developing a novel and adaptive method of solving a problem utilizing knowledge obtained from various sources, a graph retrieval methodology is shown to produce manipulation motion sequences from the FOON to accomplish a desired aim. The outcomes are illustrated using motion sequences created by the FOON to complete the desired objectives in a simulated environment.
翻訳日:2022-11-08 18:15:50 公開日:2022-11-06
# 教師なしASRを用いたブリッジ音声とテキスト事前学習モデル

Bridging Speech and Textual Pre-trained Models with Unsupervised ASR ( http://arxiv.org/abs/2211.03025v1 )

ライセンス: Link先を確認
Jiatong Shi, Chan-Jan Hsu, Holam Chung, Dongji Gao, Paola Garcia, Shinji Watanabe, Ann Lee, Hung-yi Lee(参考訳) 音声言語理解(slu)は、話し言葉からハイレベルな意味論を抽出することを目的としたタスクである。 これまでの研究で、音声自己教師モデルとテキスト事前学習モデルの使用が検討され、様々なsluタスクに合理的な改善が見られた。 しかし、音声信号とテキストトークンの不一致のために、従来の方法はフレームワークの複雑な設計を必要とする。 本研究は,音声とテキストによる事前学習モデルを結合した,シンプルで効率的な非教師付きパラダイムを提案する。 具体的には、教師なし自動音声認識(ASR)を、音声とテキストの事前学習モデルで使用される様々なモダリティをブリッジするコネクタとして用いることを提案する。 実験の結果,教師なしASR自体が自己教師付き音声モデルから表現を改善することがわかった。 さらに、音声とテキストによる事前学習モデルの効率的な接続として示され、5つのSLUタスクのパフォーマンスが向上する。 特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。

Spoken language understanding (SLU) is a task aiming to extract high-level semantics from spoken utterances. Previous works have investigated the use of speech self-supervised models and textual pre-trained models, which have shown reasonable improvements to various SLU tasks. However, because of the mismatched modalities between speech signals and text tokens, previous methods usually need complex designs of the frameworks. This work proposes a simple yet efficient unsupervised paradigm that connects speech and textual pre-trained models, resulting in an unsupervised speech-to-semantic pre-trained model for various tasks in SLU. To be specific, we propose to use unsupervised automatic speech recognition (ASR) as a connector that bridges different modalities used in speech and textual pre-trained models. Our experiments show that unsupervised ASR itself can improve the representations from speech self-supervised models. More importantly, it is shown as an efficient connector between speech and textual pre-trained models, improving the performances of five different SLU tasks. Notably, on spoken question answering, we reach the state-of-the-art result over the challenging NMSQA benchmark.
翻訳日:2022-11-08 18:13:37 公開日:2022-11-06
# デザインプロセスは強化学習問題である

Design Process is a Reinforcement Learning Problem ( http://arxiv.org/abs/2211.03136v1 )

ライセンス: Link先を確認
Reza kakooee and Benjamin Dillunberger(参考訳) 近年、強化学習は研究で広く使われているが、シミュレータから実世界への遷移における性能劣化など、RLアルゴリズムが抱える弱点により、教師あり学習よりも現実世界の応用が少ないことが判明した。 ここでは、設計プロセスは強化学習の問題であり、オフラインプロセスであるRLアルゴリズムの適切な応用になり得ると論じ、従来CADソフトウェア(一種のシミュレーター)で行われている。 これはRLメソッドを使用する機会を生み出し、同時に課題を提起する。 設計プロセスは非常に多様であるが、ここでは空間レイアウト計画(SLP)に注目し、マルコフ決定プロセスの下でRL問題としてフレーム化し、PPOを用いてレイアウト設計問題に対処する。 そこで我々は,SLPをシミュレートするRLDesignerという環境を開発した。 rldesignerはopenai gym互換の環境であり、多様なデザインシナリオを定義するために簡単にカスタマイズすることができる。 我々は、RLとアーキテクチャのコミュニティの両方が、異なるRLアルゴリズムのテストや彼らの設計実践にそれを使うことを奨励するために、環境を公に共有します。 コードは以下のGitHubリポジトリ https://github.com/RezaKakooee/rldesigner/tree/Second_Paperで公開されている。

While reinforcement learning has been used widely in research during the past few years, it found fewer real-world applications than supervised learning due to some weaknesses that the RL algorithms suffer from, such as performance degradation in transitioning from the simulator to the real world. Here, we argue the design process is a reinforcement learning problem and can potentially be a proper application for RL algorithms as it is an offline process and conventionally is done in CAD software - a sort of simulator. This creates opportunities for using RL methods and, at the same time, raises challenges. While the design processes are so diverse, here we focus on the space layout planning (SLP), frame it as an RL problem under the Markov Decision Process, and use PPO to address the layout design problem. To do so, we developed an environment named RLDesigner, to simulate the SLP. The RLDesigner is an OpenAI Gym compatible environment that can be easily customized to define a diverse range of design scenarios. We publicly share the environment to encourage both RL and architecture communities to use it for testing different RL algorithms or in their design practice. The codes are available in the following GitHub repository https://github.com/ RezaKakooee/rldesigner/tree/Second_Paper
翻訳日:2022-11-08 18:07:11 公開日:2022-11-06
# 拡大ガラスを用いたグラフニューラルネットワークフレームワークの効率性評価

Characterizing the Efficiency of Graph Neural Network Frameworks with a Magnifying Glass ( http://arxiv.org/abs/2211.03021v1 )

ライセンス: Link先を確認
Xin Huang, Jongryool Kim, Bradley Rees, Chul-Ho Lee(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ関連学習タスクの成功によって大きな注目を集めている。 その後、GNNモデルの高速かつ簡単な実装のために、いくつかのGNNフレームワークが開発された。 その人気にもかかわらず、それらは十分に文書化されておらず、その実装とシステム性能はよく理解されていない。 特に、グラフ全体をフルバッチでトレーニングする従来のGNNとは異なり、最近のGNNはグラフサンプリング技術を用いて、大規模グラフ上でのGNNのミニバッチトレーニングを行っている。 スケーラビリティは向上するが、トレーニング時間はサンプリングとしてフレームワークの実装に依存しており、関連する操作は不要なオーバーヘッドと計算コストをもたらす可能性がある。 さらに、グリーンコンピューティングの観点から、フレームワークがどの程度'エコフレンドリー'なのかは不明だ。 本稿では,2つの主流GNNフレームワークと3つの最先端GNNについて,ランタイムと電力/エネルギー消費の観点から,その性能を詳細に分析する。 いくつかの異なるレベルで広範なベンチマーク実験を行い、詳細な分析結果と観察を行い、さらなる改善と最適化に役立ちます。

Graph neural networks (GNNs) have received great attention due to their success in various graph-related learning tasks. Several GNN frameworks have then been developed for fast and easy implementation of GNN models. Despite their popularity, they are not well documented, and their implementations and system performance have not been well understood. In particular, unlike the traditional GNNs that are trained based on the entire graph in a full-batch manner, recent GNNs have been developed with different graph sampling techniques for mini-batch training of GNNs on large graphs. While they improve the scalability, their training times still depend on the implementations in the frameworks as sampling and its associated operations can introduce non-negligible overhead and computational cost. In addition, it is unknown how much the frameworks are 'eco-friendly' from a green computing perspective. In this paper, we provide an in-depth study of two mainstream GNN frameworks along with three state-of-the-art GNNs to analyze their performance in terms of runtime and power/energy consumption. We conduct extensive benchmark experiments at several different levels and present detailed analysis results and observations, which could be helpful for further improvement and optimization.
翻訳日:2022-11-08 17:56:30 公開日:2022-11-06
# 分散型政策最適化

Decentralized Policy Optimization ( http://arxiv.org/abs/2211.03032v1 )

ライセンス: Link先を確認
Kefan Su and Zongqing Lu(参考訳) 協調型マルチエージェント強化学習における分散学習や独立学習の研究には数十年の歴史がある。 近年の実証研究では、独立系PPO(IPPO)が、分散的実行を伴う集中的な訓練方法に近いか、あるいはそれ以上に優れた性能が得られることをいくつかのベンチマークで示している。 しかし、収束保証付き分散型アクター批判はまだオープンである。 本稿では,単調な改善と収束保証を備えた分散型アクター批判型アルゴリズムである<textit{decentralized Policy Optimization} (DPO)を提案する。 我々は,共同政策の単調な改善が各エージェント \textit{independently} によって保証されるように,方針最適化のための新たな分散サーロゲートを導出する。 実際、この分散サーロゲートは、各エージェントのポリシー最適化のための2つの適応係数によって実現される。 実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的なアクション空間、完全かつ部分的に観察可能な環境をカバーする。 その結果、DPOはIPPOよりも多くのタスクで優れており、これは我々の理論的結果の証拠となる。

The study of decentralized learning or independent learning in cooperative multi-agent reinforcement learning has a history of decades. Recently empirical studies show that independent PPO (IPPO) can obtain good performance, close to or even better than the methods of centralized training with decentralized execution, in several benchmarks. However, decentralized actor-critic with convergence guarantee is still open. In this paper, we propose \textit{decentralized policy optimization} (DPO), a decentralized actor-critic algorithm with monotonic improvement and convergence guarantee. We derive a novel decentralized surrogate for policy optimization such that the monotonic improvement of joint policy can be guaranteed by each agent \textit{independently} optimizing the surrogate. In practice, this decentralized surrogate can be realized by two adaptive coefficients for policy optimization at each agent. Empirically, we compare DPO with IPPO in a variety of cooperative multi-agent tasks, covering discrete and continuous action spaces, and fully and partially observable environments. The results show DPO outperforms IPPO in most tasks, which can be the evidence for our theoretical results.
翻訳日:2022-11-08 17:56:12 公開日:2022-11-06
# 時空間的ネットワーク依存を用いた効率的なトラヒック状態予測:スパースグラフニューラルネットワークアプローチ

Efficient Traffic State Forecasting using Spatio-Temporal Network Dependencies: A Sparse Graph Neural Network Approach ( http://arxiv.org/abs/2211.03033v1 )

ライセンス: Link先を確認
Bin Lei, Shaoyi Huang, Caiwen Ding, Monika Filipovska(参考訳) 交通ネットワークにおける交通状況の予測は、効果的な交通業務や管理、情報提供者やシステムレベルの意思決定において最重要となる。 しかし、現在の研究では、長期的な交通予測(30分以内)が難しいままである。 本研究では,ネットワークモデリングとグラフ畳み込みネットワーク (gcn) とグラフアテンションネットワーク (gat) の融合により,輸送ネットワークの時空間依存性を統合する。 さらに,複数のカスケード層による巨大モデルサイズ(すなわち重み数)に起因する劇的な計算とメモリコストにさらに取り組むため,予測精度を保ちながら,トレーニングコストを軽減するためのスパーストレーニングを提案する。 イテレーション毎に各レイヤに一定数の非ゼロウェイトを使用してトレーニングするプロセスである。 本稿では,カリフォルニア交通省 (Caltrans) Performance Measurement System (PeMS) の大規模交通ネットワークデータに対する長期交通速度予測の問題点について考察する。 実験の結果,提案するgcn-stgtモデルとgat-stgtモデルはそれぞれ15分,30分,45分周期の短期,中,長期の予測地平線で低い予測誤差を達成した。 スパーストレーニングを用いて、スクラッチから高間隔(例えば、最大90%)でトレーニングし、高密度トレーニングと同じエポックを用いて計算コストを10倍の浮動小数点演算(FLOP)に削減し、元の高密度トレーニングと比較して非常に少ない精度でモデルに到達することができる。

Traffic state prediction in a transportation network is paramount for effective traffic operations and management, as well as informed user and system-level decision-making. However, long-term traffic prediction (beyond 30 minutes into the future) remains challenging in current research. In this work, we integrate the spatio-temporal dependencies in the transportation network from network modeling, together with the graph convolutional network (GCN) and graph attention network (GAT). To further tackle the dramatic computation and memory cost caused by the giant model size (i.e., number of weights) caused by multiple cascaded layers, we propose sparse training to mitigate the training cost, while preserving the prediction accuracy. It is a process of training using a fixed number of nonzero weights in each layer in each iteration. We consider the problem of long-term traffic speed forecasting for a real large-scale transportation network data from the California Department of Transportation (Caltrans) Performance Measurement System (PeMS). Experimental results show that the proposed GCN-STGT and GAT-STGT models achieve low prediction errors on short-, mid- and long-term prediction horizons, of 15, 30 and 45 minutes in duration, respectively. Using our sparse training, we could train from scratch with high sparsity (e.g., up to 90%), equivalent to 10 times floating point operations per second (FLOPs) reduction on computational cost using the same epochs as dense training, and arrive at a model with very small accuracy loss compared with the original dense training
翻訳日:2022-11-08 17:55:54 公開日:2022-11-06
# 特徴選択のための合成データ

Synthetic Data for Feature Selection ( http://arxiv.org/abs/2211.03035v1 )

ライセンス: Link先を確認
Firuz Kamalov, Hana Sulieman, Aswani Kumar Cherukuri(参考訳) 特徴選択は、機械学習とデータサイエンスにおける重要かつ活発な研究分野である。 本研究の目的は,特徴選択アルゴリズムの共通参照点として使用できる合成データセットの集合を提案することである。 合成データセットは、選択された特徴の正確な評価と総合的な評価のためのデータパラメータの制御を可能にする。 提案されたデータセットは、現実のシナリオを模倣するために電子工学の応用に基づいている。 提案したデータの有用性を説明するために、いくつかの人気のある特徴選択アルゴリズムをテストするためにデータセットの1つを使用します。 データセットはgithubで公開されており、研究者が機能選択アルゴリズムを評価するために使用することができる。

Feature selection is an important and active field of research in machine learning and data science. Our goal in this paper is to propose a collection of synthetic datasets that can be used as a common reference point for feature selection algorithms. Synthetic datasets allow for precise evaluation of selected features and control of the data parameters for comprehensive assessment. The proposed datasets are based on applications from electronics in order to mimic real life scenarios. To illustrate the utility of the proposed data we employ one of the datasets to test several popular feature selection algorithms. The datasets are made publicly available on GitHub and can be used by researchers to evaluate feature selection algorithms.
翻訳日:2022-11-08 17:55:23 公開日:2022-11-06
# 会話スレッドへの埋め込みによるソーシャルメディアプラットフォーム上のターゲット固有のスタンス検出の改善

Improved Target-specific Stance Detection on Social Media Platforms by Delving into Conversation Threads ( http://arxiv.org/abs/2211.03061v1 )

ライセンス: Link先を確認
Yupeng Li, Haorui He, Shaonan Wang, Francis C.M. Lau, and Yunya Song(参考訳) 投稿やコメントなどのテキストデータインスタンスをターゲット問題のスタンスクラスに分類することを目的としたソーシャルメディアにおけるターゲット固有のスタンス検出は、重要度の高い意見マイニングパラダイムとして注目されている。 例を挙げると、新型コロナウイルスのパンデミックとの戦いにおけるワクチンの忍耐を克服する。 しかし、既存のスタンス検出戦略は、特定のターゲットの表現されたスタンスを常にキャプチャできない個々のインスタンスにのみ依存する。 これに対し、データインスタンスとその対応する会話スレッドが与えられたとき、所定のターゲット(例えば、COVID-19ワクチン接種)に対する姿勢を推測する会話姿勢検出と呼ばれる新しいタスクに対処する。 そこで本研究では,まず,香港の6つの主要ソーシャルメディアプラットフォームを基盤として,スタンスと会話スレッドの構造をアノテーションとしたcsd(benchmarking conversational stance detection)データセットを提案する。 データインスタンスと会話スレッドの両方から所望のスタンスを推測するため,会話スレッドにコンテキスト情報を組み込んだBranch-BERTモデルを提案する。 csdデータセットの広範な実験により,提案モデルが文脈情報を使用しないベースラインモデルよりも優れていることが示された。 具体的には、SemEval-2016 Task 6コンペティションの最先端メソッドと比較して、F1スコアを10.3%改善する。 これは、ソーシャルメディアプラットフォーム上でターゲット固有のスタンスを検出するために、リッチなコンテキスト情報を組み込む可能性を示し、将来のスタンス検出タスクを構築するより実用的な方法を示している。

Target-specific stance detection on social media, which aims at classifying a textual data instance such as a post or a comment into a stance class of a target issue, has become an emerging opinion mining paradigm of importance. An example application would be to overcome vaccine hesitancy in combating the coronavirus pandemic. However, existing stance detection strategies rely merely on the individual instances which cannot always capture the expressed stance of a given target. In response, we address a new task called conversational stance detection which is to infer the stance towards a given target (e.g., COVID-19 vaccination) when given a data instance and its corresponding conversation thread. To tackle the task, we first propose a benchmarking conversational stance detection (CSD) dataset with annotations of stances and the structures of conversation threads among the instances based on six major social media platforms in Hong Kong. To infer the desired stances from both data instances and conversation threads, we propose a model called Branch-BERT that incorporates contextual information in conversation threads. Extensive experiments on our CSD dataset show that our proposed model outperforms all the baseline models that do not make use of contextual information. Specifically, it improves the F1 score by 10.3% compared with the state-of-the-art method in the SemEval-2016 Task 6 competition. This shows the potential of incorporating rich contextual information on detecting target-specific stances on social media platforms and implies a more practical way to construct future stance detection tasks.
翻訳日:2022-11-08 17:48:48 公開日:2022-11-06
# MAIL: マルウェア解析中間言語

MAIL: Malware Analysis Intermediate Language ( http://arxiv.org/abs/2211.03068v1 )

ライセンス: Link先を確認
Shahid Alam(参考訳) 本稿では,MAIL (Malware Analysis Intermediate Language) という新しい言語を紹介し,提示する。 MAILは基本的にマルウェア分析と検出ツールの構築に使用される。 mailはアセンブリプログラムの抽象表現を提供し、マルウェアの分析と検出を自動化するツールの能力を提供する。 異なるプラットフォーム用にコンパイルされたバイナリをMAILに変換することで、ツールはプラットフォーム独立を達成することができる。 各MAILステートメントには、ツールがマルウェアの分析と検出を最適化するために使用できるパターンがアノテートされている。

This paper introduces and presents a new language named MAIL (Malware Analysis Intermediate Language). MAIL is basically used for building malware analysis and detection tools. MAIL provides an abstract representation of an assembly program and hence the ability of a tool to automate malware analysis and detection. By translating binaries compiled for different platforms to MAIL, a tool can achieve platform independence. Each MAIL statement is annotated with patterns that can be used by a tool to optimize malware analysis and detection.
翻訳日:2022-11-08 17:48:23 公開日:2022-11-06
# LG-Hand: 局所的およびグローバルなキネマティック知識による3Dハンドポース推定の改善

LG-Hand: Advancing 3D Hand Pose Estimation with Locally and Globally Kinematic Knowledge ( http://arxiv.org/abs/2211.03151v1 )

ライセンス: Link先を確認
Tu Le-Xuan, Trung Tran-Quang, Thi Ngoc Hien Doan, Thanh-Hai Tran(参考訳) RGB画像からの3次元手ポーズ推定は深度情報を得るのが困難である。 そのため, 2次元手指関節から3次元手足の位置推定に多くの注意が払われている。 本稿では,空間-時間グラフ畳み込みニューラルネットワークの利点を活用し,3次元ポーズ推定のための強力な手法であるlg-handを提案する。 本手法は,空間的および時間的依存関係を一つのプロセスに組み込む。 キネマティックな情報が重要な役割を担っており、3dハンドポーズ推定の性能に寄与していると論じる。 これにより、手の構造を考慮した2つの新たな目的関数、角度損失と方向損失を導入する。 角度損失は局所運動情報をカバーするが、方向損失はグローバルな運動情報を扱う。 我々のLG-Handは、First-Person Hand Action Benchmark (FPHAB)データセットで有望な結果を得る。 また,2つの目的関数の有効性を示すためのアブレーション研究も行った。

3D hand pose estimation from RGB images suffers from the difficulty of obtaining the depth information. Therefore, a great deal of attention has been spent on estimating 3D hand pose from 2D hand joints. In this paper, we leverage the advantage of spatial-temporal Graph Convolutional Neural Networks and propose LG-Hand, a powerful method for 3D hand pose estimation. Our method incorporates both spatial and temporal dependencies into a single process. We argue that kinematic information plays an important role, contributing to the performance of 3D hand pose estimation. We thereby introduce two new objective functions, Angle and Direction loss, to take the hand structure into account. While Angle loss covers locally kinematic information, Direction loss handles globally kinematic one. Our LG-Hand achieves promising results on the First-Person Hand Action Benchmark (FPHAB) dataset. We also perform an ablation study to show the efficacy of the two proposed objective functions.
翻訳日:2022-11-08 17:32:30 公開日:2022-11-06
# gan発生器からのスクイーズとスパンによる蒸留表現

Distilling Representations from GAN Generator via Squeeze and Span ( http://arxiv.org/abs/2211.03000v1 )

ライセンス: Link先を確認
Yu Yang, Xiaotian Cheng, Chang Liu, Hakan Bilen, Xiangyang Ji(参考訳) 近年,GAN(Generative Adversarial Network)が盛んに研究され,様々な領域で高品質な現実画像が作成されている。 GANジェネレータの制御可能な合成能力は、情報的、非絡み合い、説明可能な画像表現を維持することを示唆するが、下流タスクへの表現の活用と転送はほとんど探索されていない。 本稿では,gan生成器からの知識を絞り込み,その表現にまたがって蒸留することを提案する。 生成した特徴を,学生ネットワークに蒸留する前にネットワークを通じて意味保存変換に不変な表現に絞る。 我々は,合成ドメインの蒸留された表現を実ドメインに分散し,実ドメインにおけるGANのモード崩壊を軽減し,学生ネットワーク性能を高めるために,実際のトレーニングデータを使用する。 実験は,本手法の有効性を正当化し,自己指導型表現学習においてその意義を明らかにする。 コードはhttps://github.com/yangyu12/squeeze-and-spanで入手できる。

In recent years, generative adversarial networks (GANs) have been an actively studied topic and shown to successfully produce high-quality realistic images in various domains. The controllable synthesis ability of GAN generators suggests that they maintain informative, disentangled, and explainable image representations, but leveraging and transferring their representations to downstream tasks is largely unexplored. In this paper, we propose to distill knowledge from GAN generators by squeezing and spanning their representations. We squeeze the generator features into representations that are invariant to semantic-preserving transformations through a network before they are distilled into the student network. We span the distilled representation of the synthetic domain to the real domain by also using real training data to remedy the mode collapse of GANs and boost the student network performance in a real domain. Experiments justify the efficacy of our method and reveal its great significance in self-supervised representation learning. Code is available at https://github.com/yangyu12/squeeze-and-span.
翻訳日:2022-11-08 17:21:55 公開日:2022-11-06
# 勾配マッチングを用いた部分セグメンテーションのアノテート学習

Learning to Annotate Part Segmentation with Gradient Matching ( http://arxiv.org/abs/2211.03003v1 )

ライセンス: Link先を確認
Yu Yang, Xiaotian Cheng, Hakan Bilen, Xiangyang Ji(参考訳) 最先端のディープニューラルネットワークの成功は、大規模なラベル付きデータセットの存在に大きく依存している。 本稿では,事前学習されたganを用いた高品質画像の生成と,生成した画像の自動アノテーションによるラベル付けにより,半教師あり部分分割タスクに取り組むことに焦点を当てる。 特に,アノテータ学習を学習学習問題として定式化する。 予め訓練されたganが与えられたとき、注釈器は、これらの合成画像にトレーニングされた部分セグメンテーションモデルが、手動ラベル付き画像の小さな検証セットで低いセグメンテーション誤差を得るように、ランダムに生成された一連の画像のオブジェクト部分のラベル付けを学習する。 さらに,このネストループ最適化問題を簡単な勾配マッチング問題に還元し,反復アルゴリズムを用いて効率的に解く。 本手法は,実画像や生成画像,さらには解析的にレンダリングされた画像など,幅広いラベル付き画像から注釈を学習できることを示す。 本手法は半教師付き部分分割タスクを用いて評価し,ラベル付きサンプルの量が非常に限定された場合,他の半教師付き競合よりも大幅に優れる。

The success of state-of-the-art deep neural networks heavily relies on the presence of large-scale labelled datasets, which are extremely expensive and time-consuming to annotate. This paper focuses on tackling semi-supervised part segmentation tasks by generating high-quality images with a pre-trained GAN and labelling the generated images with an automatic annotator. In particular, we formulate the annotator learning as a learning-to-learn problem. Given a pre-trained GAN, the annotator learns to label object parts in a set of randomly generated images such that a part segmentation model trained on these synthetic images with their predicted labels obtains low segmentation error on a small validation set of manually labelled images. We further reduce this nested-loop optimization problem to a simple gradient matching problem and efficiently solve it with an iterative algorithm. We show that our method can learn annotators from a broad range of labelled images including real images, generated images, and even analytically rendered images. Our method is evaluated with semi-supervised part segmentation tasks and significantly outperforms other semi-supervised competitors when the amount of labelled examples is extremely limited.
翻訳日:2022-11-08 17:21:36 公開日:2022-11-06
# オンラインエゴセントリックな行動認識を野生に持ち込む

Bringing Online Egocentric Action Recognition into the wild ( http://arxiv.org/abs/2211.03004v1 )

ライセンス: Link先を確認
Gabriele Goletto, Mirco Planamente, Barbara Caputo and Giuseppe Averta(参考訳) 安全かつ効果的な人間とロボットの協力を可能にするためには,人間活動の識別モデルの開発が不可欠である。 エゴセントリックなビジョンは、この問題を解決するための有効なソリューションであると思われるため、ファーストパーソンビデオからのヒューマンアクションを推論するためのディープラーニングソリューションを提供する作品が多い。 しかし、非常に有望だが、そのほとんどは、モデルのポータビリティ、リアルタイム推論の必要性、新しいドメイン(すなわち新しいスペース、ユーザ、タスク)に対する堅牢性など、現実的なデプロイメントに伴う大きな課題を考慮していない。 本稿では,エゴセントリックな視覚モデルが現実的な応用のために考慮すべき境界を設定し,エゴセントリックな行動認識の新たな設定を定義する。 また,この新たなコンテキストにおいて既存アーキテクチャの迅速な再調達を可能にし,小型デバイス(Jetson Nano)にモデルをデプロイし,極めて低消費電力(平均2.4W,50fps)でエッジ上で直接タスクを実行することが可能であることを示す。

To enable a safe and effective human-robot cooperation, it is crucial to develop models for the identification of human activities. Egocentric vision seems to be a viable solution to solve this problem, and therefore many works provide deep learning solutions to infer human actions from first person videos. However, although very promising, most of these do not consider the major challenges that comes with a realistic deployment, such as the portability of the model, the need for real-time inference, and the robustness with respect to the novel domains (i.e., new spaces, users, tasks). With this paper, we set the boundaries that egocentric vision models should consider for realistic applications, defining a novel setting of egocentric action recognition in the wild, which encourages researchers to develop novel, applications-aware solutions. We also present a new model-agnostic technique that enables the rapid repurposing of existing architectures in this new context, demonstrating the feasibility to deploy a model on a tiny device (Jetson Nano) and to perform the task directly on the edge with very low energy consumption (2.4W on average at 50 fps).
翻訳日:2022-11-08 17:21:15 公開日:2022-11-06
# view-invariant cross-ratios に基づく幾何学的制約付き点マッチングとホモグラフィ

A Geometrically Constrained Point Matching based on View-invariant Cross-ratios, and Homography ( http://arxiv.org/abs/2211.03007v1 )

ライセンス: Link先を確認
Yueh-Cheng Huang, Ching-Huai Yang, Chen-Tao Hsu, and Jen-Hui Chuang(参考訳) コンピュータビジョンでは、画像のスティッチング、画像検索、視覚定位など、多くのアプリケーションにおいて画像間の点対応を見つけることが重要な役割を果たす。 RANSACのようなサンプリング手法の前に局所的な特徴のマッチングに関する研究成果の多くは、画像間の特定のグローバルな変換の繰り返しフィッティングによる初期マッチング結果の検証に使用される。 しかし、そのような問題に対する慎重な検査は省略されることが多い。 そこで,本研究では幾何制約付きアルゴリズムを提案し,ビュー不変クロス比(crs)に基づく初期マッチングされたsiftキーポイントの正しさを検証する。 これらのキーポイントからペンタゴンをランダムに形成し、画像間の形状と位置とcrsとを一致させることにより、上記検証のためにロバストな平面領域推定を効率的に行うことができ、その形状と位置が一致したペンタゴンに対して、キーポイントの正しい不正確な一致を容易に検証することができる。 実験結果から,複数平面領域の複数シーンで良好な結果が得られることがわかった。

In computer vision, finding point correspondence among images plays an important role in many applications, such as image stitching, image retrieval, visual localization, etc. Most of the research worksfocus on the matching of local feature before a sampling method is employed, such as RANSAC, to verify initial matching results via repeated fitting of certain global transformation among the images. However, incorrect matches may still exist, while careful examination of such problems is often skipped. Accordingly, a geometrically constrained algorithm is proposed in this work to verify the correctness of initially matched SIFT keypoints based on view-invariant cross-ratios (CRs). By randomly forming pentagons from these keypoints and matching their shape and location among images with CRs, robust planar region estimation can be achieved efficiently for the above verification, while correct and incorrect matches of keypoints can be examined easily with respect to those shape and location matched pentagons. Experimental results show that satisfactory results can be obtained for various scenes with single as well as multiple planar regions.
翻訳日:2022-11-08 17:20:54 公開日:2022-11-06
# hear the flow:光フローに基づく自己教師付き視覚音源定位

Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source Localization ( http://arxiv.org/abs/2211.03019v1 )

ライセンス: Link先を確認
Dennis Fedorishin, Deen Dayal Mohan, Bhavin Jawade, Srirangaraj Setlur, Venu Govindaraju(参考訳) 明示的な注釈を使わずに映像中の音源をローカライズする学習は、視聴覚研究の新しい分野である。 この領域における既存の研究は、音の源を局所化する2つのモダリティ間の相関を捉えるために注意マップを作成することに焦点を当てている。 ビデオでは、しばしば、動きを示す物体が音を発生させる。 本研究では,映像中の光の流れを,音源の局所化支援に先立ってモデル化することにより,この特性を捉える。 さらに, 流れに基づく注意の付加により, 音源定位が大幅に向上することを示す。 最後に,本手法を標準音源定位データセットにベンチマークし,Soundnet Flickr および VGG Sound Source データセットの最先端性能を実現する。 コード: https://github.com/denfed/heartheflow。

Learning to localize the sound source in videos without explicit annotations is a novel area of audio-visual research. Existing work in this area focuses on creating attention maps to capture the correlation between the two modalities to localize the source of the sound. In a video, oftentimes, the objects exhibiting movement are the ones generating the sound. In this work, we capture this characteristic by modeling the optical flow in a video as a prior to better aid in localizing the sound source. We further demonstrate that the addition of flow-based attention substantially improves visual sound source localization. Finally, we benchmark our method on standard sound source localization datasets and achieve state-of-the-art performance on the Soundnet Flickr and VGG Sound Source datasets. Code: https://github.com/denfed/heartheflow.
翻訳日:2022-11-08 17:20:33 公開日:2022-11-06
# RGBD追跡のためのデュアルフューズモード対応表現の学習

Learning Dual-Fused Modality-Aware Representations for RGBD Tracking ( http://arxiv.org/abs/2211.03055v1 )

ライセンス: Link先を確認
Shang Gao and Jinyu Yang and Zhe Li and Feng Zheng and Ale\v{s} Leonardis and Jingkuan Song(参考訳) 近年,深度センサの開発により,RGBD物体追跡が注目されている。 従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加はターゲットとバックグラウンドの干渉を効果的に解決することができる。 しかし、既存のrgbdトラッカーは2つのモードを別々に使っているため、特に有用な共有情報は無視される。 一方、等しく扱うことによって2つのモダリティを融合させようとする手法もあり、モダリティ固有の特徴が欠如している。 これらの制約に対処するために、ターゲットオブジェクトの情報的および識別的表現を学習し、堅牢なRGBDトラッキングを実現するために、新しいDMTracker(Dual-fused Modality-aware Tracker)を提案する。 第1の融合モジュールは、モーダル間の共有情報の抽出に重点を置いている。 第2の目標は、RGB固有の情報と深度固有の情報を統合して、融合した機能を強化することである。 モダリティ認識方式では,モダリティ共有情報とモダリティ固有情報の両方を融合させることで,複雑なトラッキングシーンにおける識別表現を学習することができる。 実験の結果,提案手法はrgbdベンチマークにおいて非常に有望な結果が得られることがわかった。 コードは \url{https://github.com/ShangGaoG/DMTracker} で入手できる。

With the development of depth sensors in recent years, RGBD object tracking has received significant attention. Compared with the traditional RGB object tracking, the addition of the depth modality can effectively solve the target and background interference. However, some existing RGBD trackers use the two modalities separately and thus some particularly useful shared information between them is ignored. On the other hand, some methods attempt to fuse the two modalities by treating them equally, resulting in the missing of modality-specific features. To tackle these limitations, we propose a novel Dual-fused Modality-aware Tracker (termed DMTracker) which aims to learn informative and discriminative representations of the target objects for robust RGBD tracking. The first fusion module focuses on extracting the shared information between modalities based on cross-modal attention. The second aims at integrating the RGB-specific and depth-specific information to enhance the fused features. By fusing both the modality-shared and modality-specific information in a modality-aware scheme, our DMTracker can learn discriminative representations in complex tracking scenes. Experiments show that our proposed tracker achieves very promising results on challenging RGBD benchmarks. Code is available at \url{https://github.com/ShangGaoG/DMTracker}.
翻訳日:2022-11-08 17:20:19 公開日:2022-11-06
# MSMG-Net:マルチタスク画像操作検出と局所化のためのマルチスケールマルチグラデーション・メトワーク

MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task Image Manipulation Detection and Localization ( http://arxiv.org/abs/2211.03140v1 )

ライセンス: Link先を確認
Fengsheng Wang, Leyi Wei(参考訳) 近年,画像編集技術の急速な進歩に伴い,画像改ざんによるセキュリティリスクの増加に伴い,画像操作検出が注目されている。 これらの課題に対処するために,マルチスケール多粒深層ネットワーク (msmg-net) を提案する。 我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。 次に,複数の粒度特徴学習を用いて,散逸した自己認識を導入することにより,多スケール特徴のオブジェクトレベルの意味関係を知覚する。 マルチスケールのマルチグレード特徴を融合するために、ボトムアップアプローチによる領域分割操作のためにグローバルおよびローカル特徴融合ブロックを設計、トップダウンアプローチによるエッジアーティファクト検出のためにマルチレベル特徴集約ブロックをデザインする。 したがって、MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードすることができる。 5つのベンチマークデータセットにおける実験結果は,提案手法の優れた性能を正当化し,最先端のマニピュレーション検出およびローカライズ手法を上回っている。 広範囲のアブレーション実験と特徴の可視化により、マルチスケール多粒学習は、操作された領域の効果的な視覚的表現を示すことができる。 さらに、MSMG-Netは、様々な後処理手法がさらに画像を操作した場合、より堅牢性を示す。

With the rapid advances of image editing techniques in recent years, image manipulation detection has attracted considerable attention since the increasing security risks posed by tampered images. To address these challenges, a novel multi-scale multi-grained deep network (MSMG-Net) is proposed to automatically identify manipulated regions. In our MSMG-Net, a parallel multi-scale feature extraction structure is used to extract multi-scale features. Then the multi-grained feature learning is utilized to perceive object-level semantics relation of multi-scale features by introducing the shunted self-attention. To fuse multi-scale multi-grained features, global and local feature fusion block are designed for manipulated region segmentation by a bottom-up approach and multi-level feature aggregation block is designed for edge artifacts detection by a top-down approach. Thus, MSMG-Net can effectively perceive the object-level semantics and encode the edge artifact. Experimental results on five benchmark datasets justify the superior performance of the proposed method, outperforming state-of-the-art manipulation detection and localization methods. Extensive ablation experiments and feature visualization demonstrate the multi-scale multi-grained learning can present effective visual representations of manipulated regions. In addition, MSMG-Net shows better robustness when various post-processing methods further manipulate images.
翻訳日:2022-11-08 17:19:56 公開日:2022-11-06
# B-SMART: インテリジェントなスマートビルディングのためのリファレンスアーキテクチャ

B-SMART: A Reference Architecture for Artificially Intelligent Autonomic Smart Buildings ( http://arxiv.org/abs/2211.03219v1 )

ライセンス: Link先を確認
Mikhail Genkin and J. J. McArthur(参考訳) 人工知能と機械学習アルゴリズムの幅広い応用は、人間の経験の多くの産業や側面を変えつつある。 重要な産業トレンドの1つは、既存の人間の住居をスマートな建物に転換し、新しいスマートな建物を作ることだ。 スマートな建物は、エネルギー消費と関連する二酸化炭素排出量を減らすことで気候変動を緩和することを目指している。 これを実現するために、人工知能、ビッグデータ、機械学習アルゴリズムを活用してシステムパフォーマンスを学習し、最適化する。 これらの研究分野は、現在非常に急速に進化し、進歩していますが、スマートな建物に取り組んでいるエンジニアやアーキテクトが人工知能アルゴリズムや技術を体系的かつ効果的な方法で適用するためのガイダンスはほとんどありません。 本稿では,b-smart: the first reference architecture for autonomic smart buildingsについて述べる。 b-smartは、概念的に異なる機能層を分離し、それらを自律制御ループにまとめることで、人工知能技術と技術をスマートな建物に応用することを促進する。 また,既存のスマートビルへの人工知能の導入を加速するために,B-SMARTをどのように適用できるかを示すケーススタディを提案する。

The pervasive application of artificial intelligence and machine learning algorithms is transforming many industries and aspects of the human experience. One very important industry trend is the move to convert existing human dwellings to smart buildings, and to create new smart buildings. Smart buildings aim to mitigate climate change by reducing energy consumption and associated carbon emissions. To accomplish this, they leverage artificial intelligence, big data, and machine learning algorithms to learn and optimize system performance. These fields of research are currently very rapidly evolving and advancing, but there has been very little guidance to help engineers and architects working on smart buildings apply artificial intelligence algorithms and technologies in a systematic and effective manner. In this paper we present B-SMART: the first reference architecture for autonomic smart buildings. B-SMART facilitates the application of artificial intelligence techniques and technologies to smart buildings by decoupling conceptually distinct layers of functionality and organizing them into an autonomic control loop. We also present a case study illustrating how B-SMART can be applied to accelerate the introduction of artificial intelligence into an existing smart building.
翻訳日:2022-11-08 17:14:21 公開日:2022-11-06
# 布団の創造

Foon Creation ( http://arxiv.org/abs/2211.02992v1 )

ライセンス: Link先を確認
Ujwal Saini(参考訳) 我々は,機能的オブジェクト指向ネットワークを用いて,与えられた目標ノードのタスクツリーを生成するための3つの探索手法を設計した。 本稿では,戦略,手順,成果について詳述する。

We have designed three search methods for producing the task trees for the provided goal nodes using the Functional Object-Oriented Network. This paper details the strategy, the procedure, and the outcomes.
翻訳日:2022-11-08 17:01:51 公開日:2022-11-06
# 機械翻訳のための並列注意強制

Parallel Attention Forcing for Machine Translation ( http://arxiv.org/abs/2211.03237v1 )

ライセンス: Link先を確認
Qingyun Dou and Mark Gales(参考訳) 注意に基づく自己回帰モデルは、text-to-speech(tts)やneural machine translation(nmt)など、さまざまなシーケンス-シーケンスタスクで最先端のパフォーマンスを達成しているが、トレーニングは困難である。 標準的なトレーニングアプローチである教師強制は、モデルの参照バックヒストリーを導く。 推論では、生成されたバックヒストリーを使用する必要がある。 このミスマッチは評価性能を制限します。 ミスマッチに対処するために注意を喚起し、モデルに生成されたバックヒストリーと参照注意を導く。 TTSのような連続的なアウトプットを持つタスクでは成功したが、NMTのような個別のアウトプットを持つタスクでは注意の強制がさらなる課題に直面している。 本稿では,これらの課題に取り組むための注意力の2つの拡張について述べる。 1) スケジュールされた注意強制は、離散的なアウトプットを持つタスクに不可欠な、注意をオン/オフする。 2) 並列注意強制はトレーニングを並列にし, Transformer ベースのモデルに適用できる。 実験の結果,提案手法は RNN と Transformer に基づくモデルの性能向上を図っている。

Attention-based autoregressive models have achieved state-of-the-art performance in various sequence-to-sequence tasks, including Text-To-Speech (TTS) and Neural Machine Translation (NMT), but can be difficult to train. The standard training approach, teacher forcing, guides a model with the reference back-history. During inference, the generated back-history must be used. This mismatch limits the evaluation performance. Attention forcing has been introduced to address the mismatch, guiding the model with the generated back-history and reference attention. While successful in tasks with continuous outputs like TTS, attention forcing faces additional challenges in tasks with discrete outputs like NMT. This paper introduces the two extensions of attention forcing to tackle these challenges. (1) Scheduled attention forcing automatically turns attention forcing on and off, which is essential for tasks with discrete outputs. (2) Parallel attention forcing makes training parallel, and is applicable to Transformer-based models. The experiments show that the proposed approaches improve the performance of models based on RNNs and Transformers.
翻訳日:2022-11-08 16:55:53 公開日:2022-11-06
# 事前学習した言語モデルのためのロバスト抽選券

Robust Lottery Tickets for Pre-trained Language Models ( http://arxiv.org/abs/2211.03013v1 )

ライセンス: Link先を確認
Rui Zheng, Rong Bao, Yuhao Zhou, Di Liang, Sirui Wang, Wei Wu, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) Lottery Ticket仮説に関する最近の研究は、事前学習された言語モデル(PLM)が、元のモデルに匹敵する精度に達することのできる、より小さなマッチングサブネットワーク(勝利チケット)を含んでいることを示した。 しかし、これらのチケットは敵対的な例には不利であり、plmのチケットよりも悪いことが証明されている。 そこで本研究では,従来のPLMに隠されたロバストチケットを識別するために,二重マスクの学習に基づく新しい手法を提案する。 この損失は二項マスクでは識別できないため、マスクにハードコンクリート分布を割り当て、L0正規化のスムーズな近似を用いてそれらの空間性を奨励するが、一方で、ロバストなチケットの探索を誘導し、チケットの精度とロバストさを両立させるための対向損失目標を設計する。 実験の結果, 提案手法は, 先行研究である逆ロバスト性評価よりも有意な改善が得られた。

Recent works on Lottery Ticket Hypothesis have shown that pre-trained language models (PLMs) contain smaller matching subnetworks(winning tickets) which are capable of reaching accuracy comparable to the original models. However, these tickets are proved to be notrobust to adversarial examples, and even worse than their PLM counterparts. To address this problem, we propose a novel method based on learning binary weight masks to identify robust tickets hidden in the original PLMs. Since the loss is not differentiable for the binary mask, we assign the hard concrete distribution to the masks and encourage their sparsity using a smoothing approximation of L0 regularization.Furthermore, we design an adversarial loss objective to guide the search for robust tickets and ensure that the tickets perform well bothin accuracy and robustness. Experimental results show the significant improvement of the proposed method over previous work on adversarial robustness evaluation.
翻訳日:2022-11-08 16:45:26 公開日:2022-11-06
# 低リソース名前付きエンティティ認識のためのプロンプトに基づくテキストインテリメント

Prompt-based Text Entailment for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2211.03039v1 )

ライセンス: Link先を確認
Dongfang Li, Baotian Hu, Qingcai Chen(参考訳) プレトレーニング言語モデル(PLM)は,NLPタスクに適用され,有望な結果が得られた。 それでも、微調整手順はターゲットドメインのラベル付きデータを必要とするため、低リソースで非自明なラベル付きシナリオでは学習が困難である。 これらの課題に対処するため,PLM における知識をより活用した低リソースなエンティティ認識のための Prompt-based Text Entailment (PTE) を提案する。 まず,名前付きエンティティ認識をテキスト包含タスクとして再編成する。 エンティティタイプ固有のプロンプトを持つ原文はPLMに入力され、各候補の詳細なスコアを取得する。 その後、トップスコアのエンティティタイプが最終ラベルとして選択される。 次に,n-gramスパンの代わりに,タグラベルをプロンプトに挿入し,単語を基本単位として扱うことで,n-gram列挙による候補生成における時間的複雑さを低減する。 実験により,提案手法はCoNLL03データセット上での競合性能と,低リソース環境下でのMIT MovieおよびFew-NERDデータセットの微調整よりも優れていた。

Pre-trained Language Models (PLMs) have been applied in NLP tasks and achieve promising results. Nevertheless, the fine-tuning procedure needs labeled data of the target domain, making it difficult to learn in low-resource and non-trivial labeled scenarios. To address these challenges, we propose Prompt-based Text Entailment (PTE) for low-resource named entity recognition, which better leverages knowledge in the PLMs. We first reformulate named entity recognition as the text entailment task. The original sentence with entity type-specific prompts is fed into PLMs to get entailment scores for each candidate. The entity type with the top score is then selected as final label. Then, we inject tagging labels into prompts and treat words as basic units instead of n-gram spans to reduce time complexity in generating candidates by n-grams enumeration. Experimental results demonstrate that the proposed method PTE achieves competitive performance on the CoNLL03 dataset, and better than fine-tuned counterparts on the MIT Movie and Few-NERD dataset in low-resource settings.
翻訳日:2022-11-08 16:45:07 公開日:2022-11-06
# 接尾辞検索による言語モデル

Suffix Retrieval-Augmented Language Modeling ( http://arxiv.org/abs/2211.03053v1 )

ライセンス: Link先を確認
Zecheng Wang and Yik-Cheung Tam(参考訳) 因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。 一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。 BERTはシーケンスエンコーディングに有効であるが、本質的には非因果であり、シーケンス生成のために設計されていない。 本稿では,2方向の文脈効果を自己回帰的にシミュレートする新しい言語モデル Suffix Retrieval-Augmented LM (SUREALM) を提案する。 SUREALMは埋め込みレトリバーを使用して、シーケンス生成中に類似した単語履歴を共有するデータストア内のトレーニング文を検索する。 特に、検索された文の接尾辞部分は「未来」の文脈を模倣している。 提案するdstc9音声対話コーパスのモデルを評価し,競合ベースラインと比較して,検証とテストセットにおいて有望な単語パープレキシティ低減を示した。

Causal language modeling (LM) uses word history to predict the next word. BERT, on the other hand, makes use of bi-directional word information in a sentence to predict words at masked positions. While BERT is effective in sequence encoding, it is non-causal by nature and is not designed for sequence generation. In this paper, we propose a novel language model, SUffix REtrieval-Augmented LM (SUREALM), that simulates a bi-directional contextual effect in an autoregressive manner. SUREALM employs an embedding retriever to search for training sentences in a data store that share similar word history during sequence generation. In particular, the suffix portions of the retrieved sentences mimick the "future" context. We evaluated our proposed model on the DSTC9 spoken dialogue corpus and showed promising word perplexity reduction on the validation and test set compared to competitive baselines.
翻訳日:2022-11-08 16:44:47 公開日:2022-11-06
# 事前学習言語モデルのドメイン適応と一般化について:調査

On the Domain Adaptation and Generalization of Pretrained Language Models: A Survey ( http://arxiv.org/abs/2211.03154v1 )

ライセンス: Link先を確認
Xu Guo, Han Yu(参考訳) NLPの最近の進歩は、大規模事前訓練言語モデル(PLM)によってもたらされている。 これらのPLMは、様々なNLPタスクに対して大幅なパフォーマンス向上をもたらし、特定のタスクのために複雑な設計をカスタマイズする必要を回避した。 しかし、現在のほとんどの作業は、ドメイン固有のデータセットにplmを微調整することに集中しており、ドメインのギャップがオーバーフィットやパフォーマンス低下につながるという事実を無視している。 したがって, PLMを対象領域に効果的に適応させる適切な方法を見つけることは事実上重要である。 近年,この目的を達成するために様々な手法が提案されている。 ドメイン適応に関する初期の調査は、スクラッチから訓練された従来のモデルからPLMが示す洗練された振る舞いや、PLMのドメイン適応が効果を発揮するために再設計される必要があるため、PLMに適さない。 本稿では,これらの新手法に関する調査と,従来の機械学習手法を新技術と今後の技術に適用する方法についての光を当てる。 下流タスクにplmを配置する問題を調べることで、機械学習システムの観点から、入力強化、モデル最適化、パーソナライゼーションの方法をカバーする、ドメイン適応アプローチの分類法を提案する。 我々は,これらの手法を議論し,比較し,今後の研究の方向性を示唆する。

Recent advances in NLP are brought by a range of large-scale pretrained language models (PLMs). These PLMs have brought significant performance gains for a range of NLP tasks, circumventing the need to customize complex designs for specific tasks. However, most current work focus on finetuning PLMs on a domain-specific datasets, ignoring the fact that the domain gap can lead to overfitting and even performance drop. Therefore, it is practically important to find an appropriate method to effectively adapt PLMs to a target domain of interest. Recently, a range of methods have been proposed to achieve this purpose. Early surveys on domain adaptation are not suitable for PLMs due to the sophisticated behavior exhibited by PLMs from traditional models trained from scratch and that domain adaptation of PLMs need to be redesigned to take effect. This paper aims to provide a survey on these newly proposed methods and shed light in how to apply traditional machine learning methods to newly evolved and future technologies. By examining the issues of deploying PLMs for downstream tasks, we propose a taxonomy of domain adaptation approaches from a machine learning system view, covering methods for input augmentation, model optimization and personalization. We discuss and compare those methods and suggest promising future research directions.
翻訳日:2022-11-08 16:44:31 公開日:2022-11-06
# 判例決定の教師なし抽出要約を改善するための文書構造の計算と活用

Computing and Exploiting Document Structure to Improve Unsupervised Extractive Summarization of Legal Case Decisions ( http://arxiv.org/abs/2211.03229v1 )

ライセンス: Link先を確認
Yang Zhong, Diane Litman(参考訳) 多くのアルゴリズムは、自動的に判例決定を要約するために使用することができるが、ほとんどの場合、法的決定における重要な文が文書構造の表現にどの程度関係しているかに関するドメイン知識を組み込むことができない。 例えば、判例要約データセットの分析は、決定において異なる種類の議論的役割を果たす文が、文書の異なるセクションに現れることを実証する。 本研究では,再重み付けアルゴリズムを用いて判例決定の文書構造の性質を活用し,教師なしグラフに基づくランキングモデルを提案する。 また、異なる手法を用いて文書構造を計算することの影響についても検討する。 カナディアン・訴訟法データセットの結果,提案手法がいくつかの強いベースラインを上回っていることがわかった。

Though many algorithms can be used to automatically summarize legal case decisions, most fail to incorporate domain knowledge about how important sentences in a legal decision relate to a representation of its document structure. For example, analysis of a legal case summarization dataset demonstrates that sentences serving different types of argumentative roles in the decision appear in different sections of the document. In this work, we propose an unsupervised graph-based ranking model that uses a reweighting algorithm to exploit properties of the document structure of legal case decisions. We also explore the impact of using different methods to compute the document structure. Results on the Canadian Legal Case Law dataset show that our proposed method outperforms several strong baselines.
翻訳日:2022-11-08 16:44:09 公開日:2022-11-06
# マルコフ決定過程を制御する学習履歴に基づく政策に関する研究

On learning history based policies for controlling Markov decision processes ( http://arxiv.org/abs/2211.03011v1 )

ライセンス: Link先を確認
Gandharv Patil, Aditya Mahajan, Doina Precup(参考訳) 強化学習(rl)folkloresuggeststhathistory-basedfunctionapproximation methods(recurrent neural netsやhistory-based state abstractionなど)は、マルコフ決定過程(mdp)における関数近似が部分的に観察可能なmdpを誘発すると見なすことができるため、メモリレスと同等の性能を発揮する。 しかし、ほとんどの既存のフレームワークはメモリレス機能のみに重点を置いているため、このような履歴ベースのアルゴリズムの正式な分析はほとんど行われていない。 本稿では,歴史に基づく特徴抽象化マッピングを用いてMDPを制御することを学ぶRLアルゴリズムの挙動を研究するための理論的枠組みを提案する。 さらに,本フレームワークを用いて実用的なRLアルゴリズムを設計し,その有効性を連続制御タスクセット上で数値的に評価する。

Reinforcementlearning(RL)folkloresuggeststhathistory-basedfunctionapproximationmethods,suchas recurrent neural nets or history-based state abstraction, perform better than their memory-less counterparts, due to the fact that function approximation in Markov decision processes (MDP) can be viewed as inducing a Partially observable MDP. However, there has been little formal analysis of such history-based algorithms, as most existing frameworks focus exclusively on memory-less features. In this paper, we introduce a theoretical framework for studying the behaviour of RL algorithms that learn to control an MDP using history-based feature abstraction mappings. Furthermore, we use this framework to design a practical RL algorithm and we numerically evaluate its effectiveness on a set of continuous control tasks.
翻訳日:2022-11-08 16:38:13 公開日:2022-11-06
# 化学表作成のための物理インフォームド機械学習

Physics Informed Machine Learning for Chemistry Tabulation ( http://arxiv.org/abs/2211.03022v1 )

ライセンス: Link先を確認
Amol Salunkhe, Dwyer Deighan, Paul Desjardin, Varun Chandola(参考訳) 乱流燃焼システムのモデリングには、基礎となる化学と乱流のモデリングが必要である。 両方のシステムを同時に解くことは、計算的に禁止される。 代わりに、2つのサブシステムが進化するスケールの違いを考えると、2つのサブシステムは通常(再)別々に解決される。 フラムレット生成多様体 (FGM) のような一般的なアプローチでは、制御反応の速度論を事前計算し、いくつかの反応進行変数(モデル還元)を特徴とする低次元多様体にマッピングする2段階の戦略を用いており、その多様体は、フローシステムによって高次元系の状態を推定するために実行時に 'looked-up' となる。 既存の研究は,これら2つのステップを独立して研究してきたが,本研究では,進捗変数とルックアップモデルの合同学習により,より正確な結果が得られることを示す。 我々は,ChemTabの基本的な定式化と実装に基づいて,動的に生成するThemochemical State Variables (Lower dimensional Dynamic Source Terms) を含む。 このディープニューラルネットワークアーキテクチャの実装における課題について議論し、その性能を実験的に実証する。

Modeling of turbulent combustion system requires modeling the underlying chemistry and the turbulent flow. Solving both systems simultaneously is computationally prohibitive. Instead, given the difference in scales at which the two sub-systems evolve, the two sub-systems are typically (re)solved separately. Popular approaches such as the Flamelet Generated Manifolds (FGM) use a two-step strategy where the governing reaction kinetics are pre-computed and mapped to a low-dimensional manifold, characterized by a few reaction progress variables (model reduction) and the manifold is then ``looked-up'' during the runtime to estimate the high-dimensional system state by the flow system. While existing works have focused on these two steps independently, in this work we show that joint learning of the progress variables and the look--up model, can yield more accurate results. We build on the base formulation and implementation ChemTab to include the dynamically generated Themochemical State Variables (Lower Dimensional Dynamic Source Terms). We discuss the challenges in the implementation of this deep neural network architecture and experimentally demonstrate it's superior performance.
翻訳日:2022-11-08 16:37:54 公開日:2022-11-06
# 見る音」:ウィグナー・ウィリー分布と畳み込みニューラルネットワークを用いた音声分類

"Seeing Sound": Audio Classification with the Wigner-Wille Distribution and Convolutional Neural Networks ( http://arxiv.org/abs/2211.03202v1 )

ライセンス: Link先を確認
Antonios Marios Christonasis, Stef van Eijndhoven, Peter Duin(参考訳) ビッグデータがますます普及し、IoTハードウェアが広く採用され、AI機能がより強力になるにつれて、組織はセンサーに継続的に投資している。 センサーネットワークから得られるデータは、現在、センサーフュージョンとAIアルゴリズムを組み合わせて、自動運転車のような分野のイノベーションを推進する。 これらのセンサーからのデータは、都市環境の安全システムにおける警告や、銃声や爆発などのイベントなど、多くのユースケースで利用することができる。 さらに、音センサのような多様なセンサーは、低照度環境でも、カメラが使えない場所でも利用することができる。 本稿では,都市環境における音センサデータの利用の可能性について検討する。 本稿では,Wigner-Ville分布と畳み込みニューラルネットワークを用いた音声データの分類手法を提案する。 本稿では,オープンソースデータセットに対するアプローチの性能について報告する。 この概念と研究は、アイントホーフェン大学のデータサイエンスにおける工学博士課程の一環として、オランダ国立警察と共同で行った私の博士論文に基づいている。 現実世界のデータセットに関する追加の作業は論文中に行われたが、秘密性のためここでは提示されていない。

With big data becoming increasingly available, IoT hardware becoming widely adopted, and AI capabilities becoming more powerful, organizations are continuously investing in sensing. Data coming from sensor networks are currently combined with sensor fusion and AI algorithms to drive innovation in fields such as self-driving cars. Data from these sensors can be utilized in numerous use cases, including alerts in safety systems of urban settings, for events such as gun shots and explosions. Moreover, diverse types of sensors, such as sound sensors, can be utilized in low-light conditions or at locations where a camera is not available. This paper investigates the potential of the utilization of sound-sensor data in an urban context. Technically, we propose a novel approach of classifying sound data using the Wigner-Ville distribution and Convolutional Neural Networks. In this paper, we report on the performance of the approach on open-source datasets. The concept and work presented is based on my doctoral thesis, which was performed as part of the Engineering Doctorate program in Data Science at the University of Eindhoven, in collaboration with the Dutch National Police. Additional work on real-world datasets was performed during the thesis, which are not presented here due to confidentiality.
翻訳日:2022-11-08 16:36:16 公開日:2022-11-06
# LSTMに基づく複数ラベル分類によるユーザ固有の将来活動予測

Predicting User-specific Future Activities using LSTM-based Multi-label Classification ( http://arxiv.org/abs/2211.03100v1 )

ライセンス: Link先を確認
Mohammad Sabik Irbaz, Fardin Ahsan Sakib and Lutfun Nahar Lota(参考訳) 以前の活動に基づく医療領域におけるユーザ固有の将来の活動予測は、看護師が提供するサービスを大幅に改善することができる。 他のドメインとは異なり、医療活動には看護師と患者の両方が関係しており、時間によっても異なるため、これは難しい。 本稿では,新しい2段階学習手法(ユーザ非依存事前学習とユーザ固有微調整)のために,データ構造の整理と修正に様々なデータ処理手法とlstmに基づくマルチラベル分類器を用いる。 検証精度は31.58\%,精度57.94%,リコール68.31%,F1スコア60.38%である。 適切なデータ前処理と2段階のトレーニングプロセスによって、パフォーマンスが向上したと結論づけた。 この実験は,我々のチーム "Not A Fan of Local Minima" による,"Fourth Nurse Care Activity Recognition Challenge" の一部である。

User-specific future activity prediction in the healthcare domain based on previous activities can drastically improve the services provided by the nurses. It is challenging because, unlike other domains, activities in healthcare involve both nurses and patients, and they also vary from hour to hour. In this paper, we employ various data processing techniques to organize and modify the data structure and an LSTM-based multi-label classifier for a novel 2-stage training approach (user-agnostic pre-training and user-specific fine-tuning). Our experiment achieves a validation accuracy of 31.58\%, precision 57.94%, recall 68.31%, and F1 score 60.38%. We concluded that proper data pre-processing and a 2-stage training process resulted in better performance. This experiment is a part of the "Fourth Nurse Care Activity Recognition Challenge" by our team "Not A Fan of Local Minima".
翻訳日:2022-11-08 16:28:32 公開日:2022-11-06
# NMRスペクトルからの化学クラスの直接推論

Direct deduction of chemical class from NMR spectra ( http://arxiv.org/abs/2211.03173v1 )

ライセンス: Link先を確認
Stefan Kuhn, Carlos Cobas, Agustin Barba, Simon Colreavy-Donnelly, Fabio Caraffini, Ricardo Moreira Borges(参考訳) 本稿では,nmrデータから化学化合物を構造解明せずに直接分類する概念実証法を提案する。 これは優れた構造候補を見つけるのにかかる時間を短縮するのに役立ちます。ほとんどの場合、マッチングは人間のエンジニアによって行われなければならず、少なくともマッチングのプロセスは1つによって意味的に解釈されなければなりません。 そのため、長い間NMR領域における自動化が求められてきた。 分類に好適であると同定された方法は畳み込みニューラルネットワーク(cnn)である。 クラスタリングや画像登録を含む他の手法は、比較分析においてタスクに適したものではない。 その結果、深層学習はケミノフォマティクスにおける自動化問題に対する解決策を提供することができた。

This paper presents a proof-of-concept method for classifying chemical compounds directly from NMR data without doing structure elucidation. This can help to reduce time in finding good structure candidates, as in most cases matching must be done by a human engineer, or at the very least a process for matching must be meaningfully interpreted by one. Therefore, for a long time automation in the area of NMR has been actively sought. The method identified as suitable for the classification is a convolutional neural network (CNN). Other methods, including clustering and image registration, have not been found suitable for the task in a comparative analysis. The result shows that deep learning can offer solutions to automation problems in cheminformatics.
翻訳日:2022-11-08 16:28:16 公開日:2022-11-06
# シングルビューコーンビームX線における物体のリアルタイム6次元ポーズ推定に向けて

Towards real-time 6D pose estimation of objects in single-view cone-beam X-ray ( http://arxiv.org/abs/2211.03211v1 )

ライセンス: Link先を確認
Christiaan G.A. Viviers, Joel de Bruijn, Lena Filatova, Peter H.N. de With and Fons van der Sommen(参考訳) 深層学習に基づくポーズ推定アルゴリズムは、特にカラー画像の分野において、画像内のオブジェクトのポーズをうまく推定することができる。 X線画像の深層学習モデルに基づく6Dオブジェクトのポーズ推定には,CADモデルとシミュレーションデータを用いたカスタムアーキテクチャが使用される。 最近のRGBベースの手法では、小さなデータセットを使ってポーズ推定の問題を解くことを選択しており、医療データが少ないX線領域ではより魅力的である。 本稿では,既存のrgbベースモデル(singleshotpose)を洗練し,実x線データのみに基づいて訓練された汎用解を作成し,x線取得幾何に調整することにより,グレースケールx線画像からマークされた立方体の6dポーズを推定する。 このモデルは2D制御点を回帰し、パースペクティブ-n-Point(PnP)を用いて2D/3D対応を通してポーズを計算する。 現代のx線システムは、手続き中に取得パラメータを継続的に調整するため、このようなポーズ推定ネットワークがこれらのパラメータを考慮し、デプロイに成功し、実際のユースケースを見つけることが不可欠である。 5cm/5度の精度は93%、平均3次元回転誤差は2.2度であり、提案手法の結果は最先端の代替品に匹敵するが、実際の訓練例は大幅に少なく、リアルタイムアプリケーションに適用できる。

Deep learning-based pose estimation algorithms can successfully estimate the pose of objects in an image, especially in the field of color images. 6D Object pose estimation based on deep learning models for X-ray images often use custom architectures that employ extensive CAD models and simulated data for training purposes. Recent RGB-based methods opt to solve pose estimation problems using small datasets, making them more attractive for the X-ray domain where medical data is scarcely available. We refine an existing RGB-based model (SingleShotPose) to estimate the 6D pose of a marked cube from grayscale X-ray images by creating a generic solution trained on only real X-ray data and adjusted for X-ray acquisition geometry. The model regresses 2D control points and calculates the pose through 2D/3D correspondences using Perspective-n-Point(PnP), allowing a single trained model to be used across all supporting cone-beam-based X-ray geometries. Since modern X-ray systems continuously adjust acquisition parameters during a procedure, it is essential for such a pose estimation network to consider these parameters in order to be deployed successfully and find a real use case. With a 5-cm/5-degree accuracy of 93% and an average 3D rotation error of 2.2 degrees, the results of the proposed approach are comparable with state-of-the-art alternatives, while requiring significantly less real training examples and being applicable in real-time applications.
翻訳日:2022-11-08 16:20:21 公開日:2022-11-06
# モンテカルロ線トレーシングによる複雑な屋内シーンの学習に基づく逆レンダリング

Learning-based Inverse Rendering of Complex Indoor Scenes with Differentiable Monte Carlo Raytracing ( http://arxiv.org/abs/2211.03017v1 )

ライセンス: Link先を確認
Jingsen Zhu, Fujun Luan, Yuchi Huo, Zihao Lin, Zhihua Zhong, Dianbing Xi, Jiaxiang Zheng, Rui Tang, Hujun Bao, Rui Wang(参考訳) 室内のシーンは通常、地球規模の照明から複雑で空間的に変化した外観を示す。 本研究はモンテカルロ線トレーシングと重要サンプリングを組み合わせたエンドツーエンドの学習ベースの逆レンダリングフレームワークを提案する。 このフレームワークは、単一の画像を入力として、基礎となる幾何学、空間変動する照明、フォトリアリスティックな素材を共同で復元する。 具体的には、スクリーン空間のレイトレーシングを備えた物理ベースの微分可能レンダリング層を導入し、入力された写真にマッチするより現実的な鏡面反射を実現する。 さらに,複雑な家具や装飾など,より詳細な情報を含む大規模かつフォトリアリスティックな屋内シーンデータセットを作成する。 さらに,ハイパーネットワークに基づく光放射場を利用した不確かさを意識した新しいアウトオブビューライティングネットワークを設計し,入力画像の視野外のライティングを予測する。 一般的なベンチマークデータセットの広範囲な評価を通じて,提案手法の逆レンダリング品質を最先端のベースラインと比較し,複雑なオブジェクト挿入や高忠実度材料編集などの様々な応用を可能にする。 コードとデータは \url{https://jingsenzhu.github.io/invrend}で入手できる。

Indoor scenes typically exhibit complex, spatially-varying appearance from global illumination, making inverse rendering a challenging ill-posed problem. This work presents an end-to-end, learning-based inverse rendering framework incorporating differentiable Monte Carlo raytracing with importance sampling. The framework takes a single image as input to jointly recover the underlying geometry, spatially-varying lighting, and photorealistic materials. Specifically, we introduce a physically-based differentiable rendering layer with screen-space ray tracing, resulting in more realistic specular reflections that match the input photo. In addition, we create a large-scale, photorealistic indoor scene dataset with significantly richer details like complex furniture and dedicated decorations. Further, we design a novel out-of-view lighting network with uncertainty-aware refinement leveraging hypernetwork-based neural radiance fields to predict lighting outside the view of the input photo. Through extensive evaluations on common benchmark datasets, we demonstrate superior inverse rendering quality of our method compared to state-of-the-art baselines, enabling various applications such as complex object insertion and material editing with high fidelity. Code and data will be made available at \url{https://jingsenzhu.github.io/invrend}.
翻訳日:2022-11-08 16:19:31 公開日:2022-11-06
# 近赤外視線推定のためのコントラスト重み学習

Contrastive Weighted Learning for Near-Infrared Gaze Estimation ( http://arxiv.org/abs/2211.03073v1 )

ライセンス: Link先を確認
Adam Lee(参考訳) 外観に基づく視線推定は、ディープラーニングを用いて非常に成功した。 以下の多くの研究は、視線推定のための領域一般化を改善した。 しかしながら、視線推定のための領域一般化の進展は多いが、最近の研究の多くは、照度、ヘッドポーズ、照明の異なる分布を考慮した、クロスデータセットのパフォーマンスに焦点を当てている。 RGB画像の異なる分布における視線推定の改善は重要であるが、近赤外画像に基づく視線推定は暗黒環境での視線推定にも重要である。 また、回帰タスクの教師付き学習のみに依存する固有の制限もある。 本稿では,これらの問題の解決に寄与し,コントラスト学習を用いた近赤外画像による視線推定のための新しいフレームワークであるGazeCWLを提案する。 これは、データ拡張のための逆攻撃技術と、潜在空間で異なるサンプルの特徴を効果的にクラスタ化する回帰タスクに特化した新しいコントラスト損失関数を利用する。 我々のモデルは、赤外線画像に基づく視線推定における従来の領域一般化モデルより優れ、ベースラインは45.6\%、最先端は8.6\%、提案手法の有効性を実証する。

Appearance-based gaze estimation has been very successful with the use of deep learning. Many following works improved domain generalization for gaze estimation. However, even though there has been much progress in domain generalization for gaze estimation, most of the recent work have been focused on cross-dataset performance -- accounting for different distributions in illuminations, head pose, and lighting. Although improving gaze estimation in different distributions of RGB images is important, near-infrared image based gaze estimation is also critical for gaze estimation in dark settings. Also there are inherent limitations relying solely on supervised learning for regression tasks. This paper contributes to solving these problems and proposes GazeCWL, a novel framework for gaze estimation with near-infrared images using contrastive learning. This leverages adversarial attack techniques for data augmentation and a novel contrastive loss function specifically for regression tasks that effectively clusters the features of different samples in the latent space. Our model outperforms previous domain generalization models in infrared image based gaze estimation and outperforms the baseline by 45.6\% while improving the state-of-the-art by 8.6\%, we demonstrate the efficacy of our method.
翻訳日:2022-11-08 16:09:28 公開日:2022-11-06
# ProtoX: プロトタイピングによる強化学習エージェントの説明

ProtoX: Explaining a Reinforcement Learning Agent via Prototyping ( http://arxiv.org/abs/2211.03162v1 )

ライセンス: Link先を確認
Ronilo J. Ragodos, Tong Wang, Qihang Lin, Xun Zhou(参考訳) 深層強化学習は制御タスクの解決に成功しているが、エージェントの「ブラックボックス」の性質はますます懸念されている。 本稿では,エージェントの振る舞いをシナリオにプロトタイピングすることでブラックボックスエージェントを説明するプロトタイプベースのポストホックポリシー説明器ProtoXを提案する。 プロトタイプを学ぶ際、ProtoXは視覚的類似性とシナリオ類似性の両方を考慮する。 後者は強化学習の文脈に特有であり、なぜ同じ行動が視覚的に異なる状態で行われるのかを説明する。 視覚の類似性についてプロトックスを教えるために、自己教師学習によるコントラスト学習を用いてエンコーダを事前学習し、それらが時間内に近接して発生し、ブラックボックスエージェントから同じアクションを受ける場合に類似した状態を認識する。 次に、ProtoXが下流タスクに類似したシナリオを適応できるように、アイソメトリ層を追加します。 プロトックスは行動のクローンを使って模倣学習によって訓練され、そのため環境やエージェントへのアクセスは必要ない。 説明の忠実性に加えて,目的関数の異なるプロトタイプ整形語をデザインし,解釈性の向上を図る。 ProtoXをテストするための様々な実験を行った。 その結果, ProtoXは, 有意義かつ理解可能な説明を提供しながら, 元のブラックボックスエージェントに対して高い忠実性を示した。

While deep reinforcement learning has proven to be successful in solving control tasks, the "black-box" nature of an agent has received increasing concerns. We propose a prototype-based post-hoc policy explainer, ProtoX, that explains a blackbox agent by prototyping the agent's behaviors into scenarios, each represented by a prototypical state. When learning prototypes, ProtoX considers both visual similarity and scenario similarity. The latter is unique to the reinforcement learning context, since it explains why the same action is taken in visually different states. To teach ProtoX about visual similarity, we pre-train an encoder using contrastive learning via self-supervised learning to recognize states as similar if they occur close together in time and receive the same action from the black-box agent. We then add an isometry layer to allow ProtoX to adapt scenario similarity to the downstream task. ProtoX is trained via imitation learning using behavior cloning, and thus requires no access to the environment or agent. In addition to explanation fidelity, we design different prototype shaping terms in the objective function to encourage better interpretability. We conduct various experiments to test ProtoX. Results show that ProtoX achieved high fidelity to the original black-box agent while providing meaningful and understandable explanations.
翻訳日:2022-11-08 16:09:10 公開日:2022-11-06
# 分布外検出のためのコントラスト学習の性質と限界の理解

Understanding the properties and limitations of contrastive learning for Out-of-Distribution detection ( http://arxiv.org/abs/2211.03183v1 )

ライセンス: Link先を確認
Nawid Keshtmand, Raul Santos-Rodriguez, Jonathan Lawry(参考訳) 最近のOOD(out-of-distriion)検出に対する一般的なアプローチは、コントラスト学習と呼ばれる自己教師付き学習技術に基づいている。 対照的な学習には2つの主な変種、すなわちインスタンスとクラス識別があり、前者が異なるインスタンスを区別できる特徴を標的としており、後者は異なるクラスである。 本稿では,OOD検出のための既存のコントラスト学習手法の有効性と限界を理解することを目的とする。 私たちはこれを3つの方法でアプローチします。 まず,異なるood検出環境において,インスタンス識別と教師付きコントラスト学習型の性能差を体系的に検討する。 第2に,OODデータはどのクラスに分類されるかを検討する。 最後に,異なるコントラスト学習手法のスペクトル減衰特性について検討し,OOD検出性能との関連性を検討した。 IDとOODデータセットが互いに十分に異なるシナリオでは、微調整がない場合のインスタンス識別は、OOD検出における教師付きアプローチと競合する。 OODサンプルはデータセット全体の分布に類似した分布を持つクラスに分類される傾向にある。 さらに,提案手法では,複数方向を含む特異ベクトルを含む特徴空間を学習し,それを用いた推定手法により,OOD検出に有害あるいは有益であることを示す。

A recent popular approach to out-of-distribution (OOD) detection is based on a self-supervised learning technique referred to as contrastive learning. There are two main variants of contrastive learning, namely instance and class discrimination, targeting features that can discriminate between different instances for the former, and different classes for the latter. In this paper, we aim to understand the effectiveness and limitation of existing contrastive learning methods for OOD detection. We approach this in 3 ways. First, we systematically study the performance difference between the instance discrimination and supervised contrastive learning variants in different OOD detection settings. Second, we study which in-distribution (ID) classes OOD data tend to be classified into. Finally, we study the spectral decay property of the different contrastive learning approaches and examine how it correlates with OOD detection performance. In scenarios where the ID and OOD datasets are sufficiently different from one another, we see that instance discrimination, in the absence of fine-tuning, is competitive with supervised approaches in OOD detection. We see that OOD samples tend to be classified into classes that have a distribution similar to the distribution of the entire dataset. Furthermore, we show that contrastive learning learns a feature space that contains singular vectors containing several directions with a high variance which can be detrimental or beneficial to OOD detection depending on the inference approach used.
翻訳日:2022-11-08 16:08:48 公開日:2022-11-06
# 連続学習のための強ゼロショットモデルのモーメントベース重み補間

Momentum-based Weight Interpolation of Strong Zero-Shot Models for Continual Learning ( http://arxiv.org/abs/2211.03186v1 )

ライセンス: Link先を確認
Zafir Stojanovski, Karsten Roth, Zeynep Akata(参考訳) 大規模な事前訓練されたゼロショット能力を持つモデルでは、標準転送と適応タスクの両方で大きな成功を収めており、特に分布シフトに対する堅牢性を示している。 さらに、後続の微調整は、選択された下流タスクの性能を大幅に向上させることができる。 しかし、ナイーブな微調整により、これらのゼロショットモデルは分布シフトに対する一般化性と堅牢性を失う。 これは、継続学習(CL)のようなタスクでは特に問題であり、新しいタスク分布が順次導入されるにつれて、継続的適応を行う必要がある。 本研究では,このようなゼロショット対応モデルに微調整が不足している場合に,単純な運動量に基づく重み補間がメモリフリーとメモリベースの両方のclタスクに対して一貫した改善をもたらすことを示す。 特に,通常のCLベンチマークでは,+4\%以上の改善が見られ,また,一箇所で一度にすべてのタスクを共同トレーニングする上限まで誤差を減らし,継続学習者が共同トレーニング限界に近づくことが可能となった。

Large pre-trained, zero-shot capable models have shown considerable success both for standard transfer and adaptation tasks, with particular robustness towards distribution shifts. In addition, subsequent fine-tuning can considerably improve performance on a selected downstream task. However, through naive fine-tuning, these zero-shot models lose their generalizability and robustness towards distribution shifts. This is a particular problem for tasks such as Continual Learning (CL), where continuous adaptation has to be performed as new task distributions are introduced sequentially. In this work, we showcase that where fine-tuning falls short to adapt such zero-shot capable models, simple momentum-based weight interpolation can provide consistent improvements for CL tasks in both memory-free and memory-based settings. In particular, we find improvements of over $+4\%$ on standard CL benchmarks, while reducing the error to the upper limit of jointly training on all tasks at once in parts by more than half, allowing the continual learner to inch closer to the joint training limits.
翻訳日:2022-11-08 16:08:27 公開日:2022-11-06
# 教師なし外乱検出のためのオートエンコーダにおける完全再構成抑制の重要性

The Importance of Suppressing Complete Reconstruction in Autoencoders for Unsupervised Outlier Detection ( http://arxiv.org/abs/2211.03054v1 )

ライセンス: Link先を確認
Yafei Shen, Ling Yang(参考訳) オートエンコーダは、高次元および非線形データセットの処理が優れているため、異常検出に広く使われている。 オートエンコーダによる任意のデータセットの再構成は、複雑な回帰過程と見なすことができる。 回帰分析では、外れ値は通常高いレバレッジ点と影響点に分けられる。 オートエンコーダは影響力点の同定に優れた結果を示したが、高いレバレッジ点の検出にはいくつかの問題がある。 理論的導出により, 最悪の主成分に対応する方向にほとんどの異常値が検出されることがわかったが, 良く回収された主成分の方向には, しばしば異常が無視される。 本稿では,上記の異常検出の欠陥を解決する新しい損失関数を提案する。 提案手法の核となる考え方は,高レバレッジ点をよりよく検出するためには,高レバレッジ点を影響力点に変換するためにデータセットの完全な再構築を抑制することであり,また,元のデータセットの共分散行列の固有値とそれに対応する各主成分の方向の再構成結果との差が等しくなることを保証する必要がある。 さらに、厳密な理論的導出を通して、我々の計画の合理性を説明する。 最後に,複数のデータセットに対する実験により,外乱検出の精度を大幅に向上させることを確認した。

Autoencoders are widely used in outlier detection due to their superiority in handling high-dimensional and nonlinear datasets. The reconstruction of any dataset by the autoencoder can be considered as a complex regression process. In regression analysis, outliers can usually be divided into high leverage points and influential points. Although the autoencoder has shown good results for the identification of influential points, there are still some problems when detect high leverage points. Through theoretical derivation, we found that most outliers are detected in the direction corresponding to the worst-recovered principal component, but in the direction of the well-recovered principal components, the anomalies are often ignored. We propose a new loss function which solve the above deficiencies in outlier detection. The core idea of our scheme is that in order to better detect high leverage points, we should suppress the complete reconstruction of the dataset to convert high leverage points into influential points, and it is also necessary to ensure that the differences between the eigenvalues of the covariance matrix of the original dataset and their corresponding reconstructed results in the direction of each principal component are equal. Besides, we explain the rationality of our scheme through rigorous theoretical derivation. Finally, our experiments on multiple datasets confirm that our scheme significantly improves the accuracy of outlier detection.
翻訳日:2022-11-08 16:01:21 公開日:2022-11-06
# 照明条件の違いによる歩行者死亡・傷害事故パターン調査のためのアソシエーションルールの適用

Applying Association Rules Mining to Investigate Pedestrian Fatal and Injury Crash Patterns Under Different Lighting Conditions ( http://arxiv.org/abs/2211.03187v1 )

ライセンス: Link先を確認
Ahmed Hossain, Xiaoduan Sun, Raju Thapa, Julius Codjoe(参考訳) 歩行者の衝突パターンは照明条件によって大きく異なり、様々な照明条件で歩行者の衝突を調べる必要性が強調される。 ルイジアナ州の歩行者死亡事故および傷害事故データ(2010-2019年)を用いて、アソシエーション・ルール・マイニング(arm)を用いて、3つの異なる照明条件(日光、街灯、街灯)に応じて、クラッシュリスク要因の隠れたパターンを特定する。 この結果から,子ども (15歳未満), 高齢者 (64歳未満), 高齢者 (64歳未満) , 高齢者 (64歳未満) , その他の運転行動 (収量不足, 不注意/欠失, 病/失脚など) との関連性が示唆された。 また、若いドライバー(15~24歳)は、日中の厳しい歩行者事故に関与している。 この研究は、歩行者のアルコール/ドラッグの関与が、暗黒と街路条件における最も頻繁な項目であることも見出した。 このクラッシュタイプは特に歩行者行動(交差点/ミッドブロックを横切る)、ドライバー年齢(55-64歳)、速度制限(30-35mph)、特定の地域タイプ(住宅地が混在したビジネス)に関係している。 歩行者の死亡事故は、街灯のない暗闇の中で、高速な限界(50 mph)を持つ道路と関連している。 高速制限に関連した事故と関連する他の危険要因としては、交通量、歩行者の暗い衣服の存在、歩行者のアルコール/ドラッグの関与などが挙げられる。 研究結果は,歩行者事故リスク要因と特定の照明条件との関係の理解を深めることが期待されている。 道路安全の専門家は、これらの知見を利用して、歩行者の衝突を戦略的に軽減するための効果的な対策を選択する意思決定を行うことができる。

The pattern of pedestrian crashes varies greatly depending on lighting circumstances, emphasizing the need of examining pedestrian crashes in various lighting conditions. Using Louisiana pedestrian fatal and injury crash data (2010-2019), this study applied Association Rules Mining (ARM) to identify the hidden pattern of crash risk factors according to three different lighting conditions (daylight, dark-with-streetlight, and dark-no-streetlight). Based on the generated rules, the results show that daylight pedestrian crashes are associated with children (less than 15 years), senior pedestrians (greater than 64 years), older drivers (>64 years), and other driving behaviors such as failure to yield, inattentive/distracted, illness/fatigue/asleep. Additionally, young drivers (15-24 years) are involved in severe pedestrian crashes in daylight conditions. This study also found pedestrian alcohol/drug involvement as the most frequent item in the dark-with-streetlight condition. This crash type is particularly associated with pedestrian action (crossing intersection/midblock), driver age (55-64 years), speed limit (30-35 mph), and specific area type (business with mixed residential area). Fatal pedestrian crashes are found to be associated with roadways with high-speed limits (>50 mph) during the dark without streetlight condition. Some other risk factors linked with high-speed limit related crashes are pedestrians walking with/against the traffic, presence of pedestrian dark clothing, pedestrian alcohol/drug involvement. The research findings are expected to provide an improved understanding of the underlying relationships between pedestrian crash risk factors and specific lighting conditions. Highway safety experts can utilize these findings to conduct a decision-making process for selecting effective countermeasures to reduce pedestrian crashes strategically.
翻訳日:2022-11-08 16:00:59 公開日:2022-11-06
# グラフニューラルネットワークを用いたWeisfeiler-Lehmanテストの複雑さの指数論的改善

Exponentially Improving the Complexity of Simulating the Weisfeiler-Lehman Test with Graph Neural Networks ( http://arxiv.org/abs/2211.03232v1 )

ライセンス: Link先を確認
Anders Aamand, Justin Y. Chen, Piotr Indyk, Shyam Narayanan, Ronitt Rubinfeld, Nicholas Schiefer, Sandeep Silwal, Tal Wagner(参考訳) 最近の研究は、非同型グラフを識別するグラフニューラルネットワーク(GNN)の表現力は、Weisfeiler-Lehmanグラフテストと全く同じであることを示している。 特に、彼らはWLテストがGNNによってシミュレート可能であることを示した。 しかし、これらのシミュレーションには、サイズ多項式の'結合'関数やグラフノード数を指数関数的に n$ とするニューラルネットワークや、n$ で線形な長さベクトルなどが含まれる。 本稿では,GNN 上での WL テストのシミュレーションを,より低い複雑性で改良した。 特に、各ノードに合成関数を実装するニューラルネットワークは、$n$のパラメータの多元数しか持たず、GNNのノードによって交換される特徴ベクトルは、$O(\log n)$ bitsのみである。 また、特徴ベクトル長とニューラルネットワークの大きさの対数的下界も与え、構築の(近く)最適性を示している。

Recent work shows that the expressive power of Graph Neural Networks (GNNs) in distinguishing non-isomorphic graphs is exactly the same as that of the Weisfeiler-Lehman (WL) graph test. In particular, they show that the WL test can be simulated by GNNs. However, those simulations involve neural networks for the 'combine' function of size polynomial or even exponential in the number of graph nodes $n$, as well as feature vectors of length linear in $n$. We present an improved simulation of the WL test on GNNs with \emph{exponentially} lower complexity. In particular, the neural network implementing the combine function in each node has only a polylogarithmic number of parameters in $n$, and the feature vectors exchanged by the nodes of GNN consists of only $O(\log n)$ bits. We also give logarithmic lower bounds for the feature vector length and the size of the neural networks, showing the (near)-optimality of our construction.
翻訳日:2022-11-08 16:00:10 公開日:2022-11-06
# 因果機械学習による持続可能な農業のパーソナライズ

Personalizing Sustainable Agriculture with Causal Machine Learning ( http://arxiv.org/abs/2211.03179v1 )

ライセンス: Link先を確認
Georgios Giannarakis, Vasileios Sitokonstantinou, Roxanne Suzette Lorilla, Charalampos Kontoes(参考訳) 気候変動と闘い、人口増加に対応するためには、世界の作物生産を強化する必要がある。 農業の「持続可能強化」を達成するためには、炭素エミッターから炭素シンクへの転換が最優先であり、農業経営実践の環境への影響を理解することがその基本的な前提条件である。 同時に、世界の農業の景観は、気候、土壌、土地利用の違いが農業システムの農業行動に対する反応の多様性を誘発しているため、非常に異質である。 持続的農業の「個人化」と地域的適応型経営アドバイスは、グリーンメトリクスの効率的な上昇と差し迫った政策の不可欠な発展のために必要条件である。 ここでは, 持続可能農業を条件付き平均処理効果推定タスクとして定式化し, 因果機械学習を用いて対処する。 気候データ,土地利用情報,ダブル機械学習を用いて,リトアニアの土壌有機炭素含有量に及ぼす持続的プラクティスの不均一な効果を推定した。 これにより,持続可能な実践を目標とし,グローバルカーボンシンクを効果的に拡大するためのデータ駆動視点を提供する。

To fight climate change and accommodate the increasing population, global crop production has to be strengthened. To achieve the "sustainable intensification" of agriculture, transforming it from carbon emitter to carbon sink is a priority, and understanding the environmental impact of agricultural management practices is a fundamental prerequisite to that. At the same time, the global agricultural landscape is deeply heterogeneous, with differences in climate, soil, and land use inducing variations in how agricultural systems respond to farmer actions. The "personalization" of sustainable agriculture with the provision of locally adapted management advice is thus a necessary condition for the efficient uplift of green metrics, and an integral development in imminent policies. Here, we formulate personalized sustainable agriculture as a Conditional Average Treatment Effect estimation task and use Causal Machine Learning for tackling it. Leveraging climate data, land use information and employing Double Machine Learning, we estimate the heterogeneous effect of sustainable practices on the field-level Soil Organic Carbon content in Lithuania. We thus provide a data-driven perspective for targeting sustainable practices and effectively expanding the global carbon sink.
翻訳日:2022-11-08 15:52:42 公開日:2022-11-06
# 因果推論を用いた持続的農業のためのデジタルツールの評価

Evaluating Digital Tools for Sustainable Agriculture using Causal Inference ( http://arxiv.org/abs/2211.03195v1 )

ライセンス: Link先を確認
Ilias Tsoumas, Georgios Giannarakis, Vasileios Sitokonstantinou, Alkiviadis Koukos, Dimitra Loka, Nikolaos Bartsotas, Charalampos Kontoes, Ioannis Athanasiadis(参考訳) いくつかの産業の急速なデジタル化とは対照的に、農業は温暖化による農業ツールの採用が低い。 ai駆動のデジタル農業は高いパフォーマンスの予測機能を提供できるが、農家の利益に関する具体的な定量的な証拠が欠けている。 フィールド実験はそのような証拠を導き出すことができるが、しばしばコストと時間を要する。 そこで本研究では,デジタルツールが農業パフォーマンス指標に与える影響を実証的に評価するための観察的因果推論フレームワークを提案する。 このようにして、デジタル農業市場の透明性を高め、生産性を高め、気候変動に対して持続可能で弾力的な農業を確保する技術の採用を加速することで、農家の信頼を高めることができる。 事例研究として,2021年の生育期において,農業協同組合が利用した最適綿播栽培の推薦システムについて,実証的な評価を行った。 農学の知識を活用して農業システムの因果グラフを作成し,バックドア基準を用いて収量に対するレコメンデーションの影響を同定し,観察データを用いた推定を行った。 結果から,畑の播種は収量の増加(12%から17%)を示した。

In contrast to the rapid digitalization of several industries, agriculture suffers from low adoption of climate-smart farming tools. Even though AI-driven digital agriculture can offer high-performing predictive functionalities, it lacks tangible quantitative evidence on its benefits to the farmers. Field experiments can derive such evidence, but are often costly and time consuming. To this end, we propose an observational causal inference framework for the empirical evaluation of the impact of digital tools on target farm performance indicators. This way, we can increase farmers' trust by enhancing the transparency of the digital agriculture market, and in turn accelerate the adoption of technologies that aim to increase productivity and secure a sustainable and resilient agriculture against a changing climate. As a case study, we perform an empirical evaluation of a recommendation system for optimal cotton sowing, which was used by a farmers' cooperative during the growing season of 2021. We leverage agricultural knowledge to develop a causal graph of the farm system, we use the back-door criterion to identify the impact of recommendations on the yield and subsequently estimate it using several methods on observational data. The results show that a field sown according to our recommendations enjoyed a significant increase in yield (12% to 17%).
翻訳日:2022-11-08 15:52:23 公開日:2022-11-06
# 討論ネットワークと学習の仕方

Deliberation Networks and How to Train Them ( http://arxiv.org/abs/2211.03217v1 )

ライセンス: Link先を確認
Qingyun Dou and Mark Gales(参考訳) Deliberation Networkはシーケンシャル・ツー・シーケンス・モデルの一群であり、機械翻訳や音声合成といった幅広いタスクにおいて最先端のパフォーマンスを達成した。 検討ネットワークは、複数の標準シーケンス-シーケンスモデルで構成され、それぞれが初期入力と前モデルの出力を条件とする。 トレーニング中、モンテカルロ近似を勾配や損失に適用するか、標準モデルを共同または別々にトレーニングするか、教師の強制またはフリーランニングモードで中間モデルを走らせるか、タスク固有のテクニックを適用するか、といったいくつかの重要な疑問がある。 審議ネットワークに関する以前の作業は、通常、特定のタスクに対して1つまたは2つのトレーニングオプションを探索する。 この作業は、さまざまなトレーニングオプションをカバーする統一フレームワークを導入し、上記の質問に答える。 一般に、勾配を近似するのは簡単である。 並列トレーニングが不可欠の場合、個別のトレーニングが採用される。 タスクにかかわらず、中間モデルはフリーランニングモードでなければならない。 アウトプットが連続しているタスクでは、標準モデルへの劣化を防ぐために注意の誘導損失が用いられる。

Deliberation networks are a family of sequence-to-sequence models, which have achieved state-of-the-art performance in a wide range of tasks such as machine translation and speech synthesis. A deliberation network consists of multiple standard sequence-to-sequence models, each one conditioned on the initial input and the output of the previous model. During training, there are several key questions: whether to apply Monte Carlo approximation to the gradients or the loss, whether to train the standard models jointly or separately, whether to run an intermediate model in teacher forcing or free running mode, whether to apply task-specific techniques. Previous work on deliberation networks typically explores one or two training options for a specific task. This work introduces a unifying framework, covering various training options, and addresses the above questions. In general, it is simpler to approximate the gradients. When parallel training is essential, separate training should be adopted. Regardless of the task, the intermediate model should be in free running mode. For tasks where the output is continuous, a guided attention loss can be used to prevent degradation into a standard model.
翻訳日:2022-11-08 15:45:22 公開日:2022-11-06
# ViT-CX:視覚変換器の因果説明

ViT-CX: Causal Explanation of Vision Transformers ( http://arxiv.org/abs/2211.03064v1 )

ライセンス: Link先を確認
Weiyan Xie, Xiao-Hui Li, Caleb Chen Cao, Nevin L.Zhang(参考訳) ViT(Vision Transformers)やeXplainable AI(XAI)の人気にもかかわらず、これまでのViTではいくつかの説明方法が提案されている。 彼らはパッチ埋め込みに分類トークンの注意重みを使用し、しばしば満足のいく満足度マップを生成する。 本稿では, ViT-CX と呼ばれる新しい ViT 記述法を提案する。 それは、それらに注意を払うのではなく、パッチの埋め込みと、それらがモデル出力に与える影響に基づいている。 ViT-CXは異なるViTモデルを説明するために使用できる。 実験の結果,ViT-CXは従来の手法と比較して,より有意義なサリエンシマップを作成でき,予測のための重要な証拠を明らかにするのに有効であることがわかった。 また、AUCの削除とAUCの挿入によって測定されたモデルにかなり忠実である。

Despite the popularity of Vision Transformers (ViTs) and eXplainable AI (XAI), only a few explanation methods have been proposed for ViTs thus far. They use attention weights of the classification token on patch embeddings and often produce unsatisfactory saliency maps. In this paper, we propose a novel method for explaining ViTs called ViT-CX. It is based on patch embeddings, rather than attentions paid to them, and their causal impacts on the model output. ViT-CX can be used to explain different ViT models. Empirical results show that, in comparison with previous methods, ViT-CX produces more meaningful saliency maps and does a better job at revealing all the important evidence for prediction. It is also significantly more faithful to the model as measured by deletion AUC and insertion AUC.
翻訳日:2022-11-08 15:34:41 公開日:2022-11-06
# MiddleGAN: 教師なしドメイン適応のためのドメイン非依存サンプルの生成

MiddleGAN: Generate Domain Agnostic Samples for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2211.03144v1 )

ライセンス: Link先を確認
Ye Gao, Zhendong Chu, Hongning Wang, John Stankovic(参考訳) 近年、機械学習は様々なアプリケーション領域で印象的な成果を上げている。 しかし、機械学習アルゴリズムは、トレーニングセットとは異なる分布を持つ新しいドメインで必ずしもうまく機能するとは限らない。 ドメイン適応(DA)はこの問題を緩和するために使われる。 既存のDAアルゴリズムの1つのアプローチは、ソース領域の分布がターゲット領域の分布と同じであるようなドメイン不変性を見つけることである。 本稿では,対象領域で最終的な分類タスクを行う分類器が,不変な特徴を暗黙的に学習して分類を行うことを提案する。 トレーニング中に分類器に入力することで、ソースドメインとターゲットドメインの両方のサンプルに似た偽のサンプルを生成する。 生成されたサンプルをドメインに依存しないサンプルと呼んでいます。 これを実現するために,2つの判別器と1つの生成器を用いて,ソースドメインとターゲットドメインの両方のサンプルと類似した偽のサンプルを生成する,新たなgan(generative adversarial networks)を提案する。 2つの判別器と1つのジェネレータのパラメータに対する最適解が存在することを示すために、GANの理論を拡張し、ミドルガンの生成したサンプルがソースドメインのサンプルとターゲットドメインのサンプルの両方に類似していることを実証的に示す。 我々は24のベンチマークを用いて広範囲な評価を行い、24のベンチマークでは、MiddleGANを様々な最先端アルゴリズムと比較し、特定のベンチマークで20.1\%の精度で最先端のアルゴリズムを上回りました。

In recent years, machine learning has achieved impressive results across different application areas. However, machine learning algorithms do not necessarily perform well on a new domain with a different distribution than its training set. Domain Adaptation (DA) is used to mitigate this problem. One approach of existing DA algorithms is to find domain invariant features whose distributions in the source domain are the same as their distribution in the target domain. In this paper, we propose to let the classifier that performs the final classification task on the target domain learn implicitly the invariant features to perform classification. It is achieved via feeding the classifier during training generated fake samples that are similar to samples from both the source and target domains. We call these generated samples domain-agnostic samples. To accomplish this we propose a novel variation of generative adversarial networks (GAN), called the MiddleGAN, that generates fake samples that are similar to samples from both the source and target domains, using two discriminators and one generator. We extend the theory of GAN to show that there exist optimal solutions for the parameters of the two discriminators and one generator in MiddleGAN, and empirically show that the samples generated by the MiddleGAN are similar to both samples from the source domain and samples from the target domain. We conducted extensive evaluations using 24 benchmarks; on the 24 benchmarks, we compare MiddleGAN against various state-of-the-art algorithms and outperform the state-of-the-art by up to 20.1\% on certain benchmarks.
翻訳日:2022-11-08 15:34:27 公開日:2022-11-06
# l+s分解のための時間空間rpcaネットワーク

A Deep-Unfolded Spatiotemporal RPCA Network For L+S Decomposition ( http://arxiv.org/abs/2211.03184v1 )

ライセンス: Link先を確認
Shoaib Imran, Muhammad Tahir, Zubair Khalid, Momin Uppal(参考訳) 低ランクおよびスパース分解に基づく手法は、乱れ抑制やオブジェクト追跡といった背景モデリングを含む多くのアプリケーションで使用されている。 Robustプリンシパルコンポーネント分析(RPCA)は、このタスクを実行する上で大きな成功を収めていますが、数百のイテレーションを収束させ、オクルージョン、ジッタ、ファストモーションといった異なる現象の存在下でパフォーマンスが低下します。 一方、最近提案されたディープ・アンフォールド・ネットワークは、より精度が高く、反復的等価性だけでなく、他のニューラルネットワークアーキテクチャよりも収束性も向上している。 本研究では,低ランク成分の空間的および時間的連続性を明示的に生かした,深層展開時空間RPCA(DUST-RPCA)ネットワークを提案する。 動作中のMNISTデータセットに対する実験結果から, DUST-RPCAは, 最先端のRPCAネットワークと比較して精度がよいことが示された。

Low-rank and sparse decomposition based methods find their use in many applications involving background modeling such as clutter suppression and object tracking. While Robust Principal Component Analysis (RPCA) has achieved great success in performing this task, it can take hundreds of iterations to converge and its performance decreases in the presence of different phenomena such as occlusion, jitter and fast motion. The recently proposed deep unfolded networks, on the other hand, have demonstrated better accuracy and improved convergence over both their iterative equivalents as well as over other neural network architectures. In this work, we propose a novel deep unfolded spatiotemporal RPCA (DUST-RPCA) network, which explicitly takes advantage of the spatial and temporal continuity in the low-rank component. Our experimental results on the moving MNIST dataset indicate that DUST-RPCA gives better accuracy when compared with the existing state of the art deep unfolded RPCA networks.
翻訳日:2022-11-08 15:34:01 公開日:2022-11-06
# 強化Few-Shot学習のためのトレーニングデータジェネレータとしての言語モデル

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning ( http://arxiv.org/abs/2211.03044v1 )

ライセンス: Link先を確認
Yu Meng, Martin Michalski, Jiaxin Huang, Yu Zhang, Tarek Abdelzaher, Jiawei Han(参考訳) 最近の研究は、事前訓練された言語モデル(PLM)の興味深い数発の学習能力を明らかにしている: タスク固有のアノテーションを必要とせず、プロンプトとして表現された少量のラベル付きデータに微調整を施すと、新しいタスクに迅速に適応できる。 有望なパフォーマンスにもかかわらず、小さなトレーニングセットからしか学ばない既存の数発のアプローチは、非自明なマージンによる完全な教師付きトレーニングをまだ下回っている。 本研究は, PLMを用いた数ショット学習について, 異なる視点から検討する: まず, 数ショットサンプルに自己回帰型PLMをチューニングし, 生成体として使用して, 元のトレーニングセットを増強する大量の新規トレーニングサンプルを合成する。 ラベル識別サンプルの作成を促すため,各トークンの重みが識別メタ学習目標に基づいて自動的に調整される重み付き最大度を用いて学習する。 分類PLMは、より高度な一般化と安定性のために、数ショットと合成サンプルの両方で微調整することができる。 提案手法は,従来手法に比べて7つの分類タスクにまたがる総合的な結果を達成し,無示板法を5以上の平均点で改善し,加算法を3以上の平均点で上回った。

Recent studies have revealed the intriguing few-shot learning ability of pretrained language models (PLMs): They can quickly adapt to a new task when fine-tuned on a small amount of labeled data formulated as prompts, without requiring abundant task-specific annotations. Despite their promising performance, most existing few-shot approaches that only learn from the small training set still underperform fully supervised training by nontrivial margins. In this work, we study few-shot learning with PLMs from a different perspective: We first tune an autoregressive PLM on the few-shot samples and then use it as a generator to synthesize a large amount of novel training samples which augment the original training set. To encourage the generator to produce label-discriminative samples, we train it via weighted maximum likelihood where the weight of each token is automatically adjusted based on a discriminative meta-learning objective. A classification PLM can then be fine-tuned on both the few-shot and the synthetic samples with regularization for better generalization and stability. Our approach FewGen achieves an overall better result across seven classification tasks of the GLUE benchmark than existing few-shot learning methods, improving no-augmentation methods by 5+ average points, and outperforming augmentation methods by 3+ average points.
翻訳日:2022-11-08 15:33:01 公開日:2022-11-06
# 知識は力である - 因果関係を理解することで,法的判断予測モデルがより一般化し,堅牢になる

Knowledge is Power: Understanding Causality Makes Legal judgment Prediction Models More Generalizable and Robust ( http://arxiv.org/abs/2211.03046v1 )

ライセンス: Link先を確認
Haotian Chen, Lingwei Zhang, Fanchao Chen, Yang Yu(参考訳) 事実記述に基づく判断の予測を目的とした法的判断予測(LJP)は、限られた法律実務者の作業負担を軽減するための法的支援となる。 既存のほとんどの手法は、LJPタスクで微調整された様々な大規模事前訓練言語モデル(PLM)を適用し、一貫した改善を得る。 しかし, 現状技術(SOTA)モデルが誤った情報(あるいは非因果情報)に基づいて判断を下すことは, モデルの一般化能力を低下させるだけでなく, 差別などの深刻な社会問題を引き起こす。 本稿では,ljpモデルを誤解してスプリアス相関を学習する因果メカニズムを分析し,その基礎となる因果知識を法律テキストで学ぶための枠組みを提案する。 具体的には、まずオープン情報抽出(OIE)を行い、因果情報の割合の高いテキストを改良し、新しいデータセットを生成する。 次に,改良データと生データの重み付けを学習し,ljpモデルトレーニングを行うモデルの設計を行う。 広範な実験結果から,本モデルはベースラインよりも汎用的でロバストであり,一般的な2つの法定データセット上で新たなsota性能を実現することができた。

Legal judgment Prediction (LJP), aiming to predict a judgment based on fact descriptions, serves as legal assistance to mitigate the great work burden of limited legal practitioners. Most existing methods apply various large-scale pre-trained language models (PLMs) finetuned in LJP tasks to obtain consistent improvements. However, we discover the fact that the state-of-the-art (SOTA) model makes judgment predictions according to wrong (or non-casual) information, which not only weakens the model's generalization capability but also results in severe social problems like discrimination. Here, we analyze the causal mechanism misleading the LJP model to learn the spurious correlations, and then propose a framework to guide the model to learn the underlying causality knowledge in the legal texts. Specifically, we first perform open information extraction (OIE) to refine the text having a high proportion of causal information, according to which we generate a new set of data. Then, we design a model learning the weights of the refined data and the raw data for LJP model training. The extensive experimental results show that our model is more generalizable and robust than the baselines and achieves a new SOTA performance on two commonly used legal-specific datasets.
翻訳日:2022-11-08 15:26:32 公開日:2022-11-06
# テキスト自動簡略化のためのノイズチャネル

Noisy Channel for Automatic Text Simplification ( http://arxiv.org/abs/2211.03152v1 )

ライセンス: Link先を確認
Oscar M Cumbicus-Pineda, Iker Guti\'errez-Fandi\~no, Itziar Gonzalez-Dios, Aitor Soroa(参考訳) 本稿では,ノイズチャネル方式に基づく文の自動短縮のための簡易な再ランキング手法を提案する。 複雑なテキストが与えられたときの最高の単純化を直接計算する代わりに、言語モデルによれば、単純な文が複雑なテキストを生成する確率と単純なテキスト自体の確率も考慮している。 実験の結果、これらのスコアの組み合わせは3つの異なる英語データセットで元のシステムよりも優れており、そのうちの1つで最もよく知られた結果が得られることがわかった。 ノイズの多いチャネルスキームを採用することで、atsシステムに新たな情報を注入し、エンドツーエンドのニューラルseq2seq生成モデルの既知の制限であるそれらの重要な側面を制御するための新しい方法が開かれる。

In this paper we present a simple re-ranking method for Automatic Sentence Simplification based on the noisy channel scheme. Instead of directly computing the best simplification given a complex text, the re-ranking method also considers the probability of the simple sentence to produce the complex counterpart, as well as the probability of the simple text itself, according to a language model. Our experiments show that combining these scores outperform the original system in three different English datasets, yielding the best known result in one of them. Adopting the noisy channel scheme opens new ways to infuse additional information into ATS systems, and thus to control important aspects of them, a known limitation of end-to-end neural seq2seq generative models.
翻訳日:2022-11-08 15:26:06 公開日:2022-11-06
# キャリブレーションと説明:モデル信頼度推定のためのシンプルで効果的なアプローチ

Calibration Meets Explanation: A Simple and Effective Approach for Model Confidence Estimates ( http://arxiv.org/abs/2211.03041v1 )

ライセンス: Link先を確認
Dongfang Li, Baotian Hu, Qingcai Chen(参考訳) キャリブレーションは、ブラックボックスモデルの信頼性を高め、与えられた例に基づいてより正確な信頼度を推定する。 しかし、モデル説明が信頼性の校正に役立つかどうかはほとんど分かっていない。 直感的には、人間は重要な特徴の属性を見て、モデルが信頼できるかどうかを決定する。 同様に、モデルがいつ知っているかどうかを説明できる。 そこで本研究では,モデル説明を利用したCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。 モデルが高度に自信を持っていない場合、どのクラスの強い指示を識別することは困難であり、それゆえトークンはどのクラスにも高い帰属スコアを持たず、その逆もできない、という考えである。 ドメイン内およびドメイン外設定で2つの人気のあるトレーニング済み言語モデルを用いて、6つのデータセットに対して広範な実験を行う。 その結果、CMEは全ての設定におけるキャリブレーション性能を改善した。 温度スケーリングと組み合わせることで、予想される校正誤差はさらに低減される。 その結果,モデル説明が後方推定の校正に役立つことが明らかとなった。

Calibration strengthens the trustworthiness of black-box models by producing better accurate confidence estimates on given examples. However, little is known about if model explanations can help confidence calibration. Intuitively, humans look at important features attributions and decide whether the model is trustworthy. Similarly, the explanations can tell us when the model may or may not know. Inspired by this, we propose a method named CME that leverages model explanations to make the model less confident with non-inductive attributions. The idea is that when the model is not highly confident, it is difficult to identify strong indications of any class, and the tokens accordingly do not have high attribution scores for any class and vice versa. We conduct extensive experiments on six datasets with two popular pre-trained language models in the in-domain and out-of-domain settings. The results show that CME improves calibration performance in all settings. The expected calibration errors are further reduced when combined with temperature scaling. Our findings highlight that model explanations can help calibrate posterior estimates.
翻訳日:2022-11-08 15:15:15 公開日:2022-11-06
# UATTA-ENS : PIRC糖尿病網膜症検出のための不確実な検査時間増強

UATTA-ENS: Uncertainty Aware Test Time Augmented Ensemble for PIRC Diabetic Retinopathy Detection ( http://arxiv.org/abs/2211.03148v1 )

ライセンス: Link先を確認
Pratinav Seth, Adil Khan, Ananya Gupta, Saurabh Kumar Mishra and Akshat Bhandhari(参考訳) Deep Ensemble Convolutional Neural Networksは、糖尿病網膜症の診断を含む、医師に匹敵する診断性能で医療画像を分析する方法として選択されている。 しかし、一般的な手法は決定論的であり、予測の不確実性の推定はできない。 不確実性の定量化は誤診のリスクを軽減するために重要である。 信頼できるアーキテクチャは、自信過剰な予測を避けるために適切に調整されるべきです。 そこで本研究では,5クラスPIRC糖尿病網膜症分類のためのUATTA-ENS: Uncertainty-Aware Test-Time Augmented Ensemble Techniqueを提案する。

Deep Ensemble Convolutional Neural Networks has become a methodology of choice for analyzing medical images with a diagnostic performance comparable to a physician, including the diagnosis of Diabetic Retinopathy. However, commonly used techniques are deterministic and are therefore unable to provide any estimate of predictive uncertainty. Quantifying model uncertainty is crucial for reducing the risk of misdiagnosis. A reliable architecture should be well-calibrated to avoid over-confident predictions. To address this, we propose a UATTA-ENS: Uncertainty-Aware Test-Time Augmented Ensemble Technique for 5 Class PIRC Diabetic Retinopathy Classification to produce reliable and well-calibrated predictions.
翻訳日:2022-11-08 15:06:36 公開日:2022-11-06
# KGTN-ens:知識グラフを用いた画像分類

KGTN-ens: Few-Shot Image Classification with Knowledge Graph Ensembles ( http://arxiv.org/abs/2211.03199v1 )

ライセンス: Link先を確認
Dominik Filipiak and Anna Fensel and Agata Filipowska(参考訳) 我々は,KGTN-ensを提案する。KGTNは,複数の知識グラフの埋め込みを低コストで組み込むために,最近の知識グラフ転送ネットワーク(KGTN)を拡張したフレームワークである。 画像分類タスクにおいて,埋め込みの異なる組み合わせを用いて評価を行った。 また,KGTN と KGTN-ens を用いて,ウィキデータ埋め込みという新たな知識源を構築した。 テスト設定の大部分でImageNet-FSデータセットでトップ5の精度でKGTNよりも優れています。

We propose KGTN-ens, a framework extending the recent Knowledge Graph Transfer Network (KGTN) in order to incorporate multiple knowledge graph embeddings at a small cost. We evaluate it with different combinations of embeddings in a few-shot image classification task. We also construct a new knowledge source - Wikidata embeddings - and evaluate it with KGTN and KGTN-ens. Our approach outperforms KGTN in terms of the top-5 accuracy on the ImageNet-FS dataset for the majority of tested settings.
翻訳日:2022-11-08 15:06:23 公開日:2022-11-06
# ワイドブースティング

Wide Boosting ( http://arxiv.org/abs/2007.09855v4 )

ライセンス: Link先を確認
Michael T. Horrell(参考訳) グラディエントブースティング(GB)は、微分可能損失関数を最小化して予測問題を解くために使われる一般的な手法である。 GBは表型機械学習(ML)問題において非常によく機能するが、純粋なMLソルバとして、複数の相関したベルヌーイ出力など、確率的だが相関的な多次元出力にモデルを適合させる能力に欠ける。 GBは、他のタイプの問題に対する柔軟性とパフォーマンスを提供するDeep Learningの1つの特性である、中間的な抽象データ埋め込みを形成しない。 本稿では,ニューラルネットワークに動機づけられたgbへの簡単な調整を提案する。 具体的には、gbモデルの出力と損失値である$l$の間に行列の乗算を挿入する。 これにより、gbモデルの出力は、損失に投入される前に寸法を増加させ、標準のgb実装よりも ``wider''' となる。 提案手法をwb(wide boosting)と呼び,mult-dimesional output タスクではwb が gb を上回っており,wb が生成する埋め込みは gb の出力予測のみよりも下流予測タスクに有効であることを示した。

Gradient Boosting (GB) is a popular methodology used to solve prediction problems by minimizing a differentiable loss function, $L$. GB performs very well on tabular machine learning (ML) problems; however, as a pure ML solver it lacks the ability to fit models with probabilistic but correlated multi-dimensional outputs, for example, multiple correlated Bernoulli outputs. GB also does not form intermediate abstract data embeddings, one property of Deep Learning that gives greater flexibility and performance on other types of problems. This paper presents a simple adjustment to GB motivated in part by artificial neural networks. Specifically, our adjustment inserts a matrix multiplication between the output of a GB model and the loss, $L$. This allows the output of a GB model to have increased dimension prior to being fed into the loss and is thus ``wider'' than standard GB implementations. We call our method Wide Boosting (WB) and show that WB outperforms GB on mult-dimesional output tasks and that the embeddings generated by WB contain are more useful in downstream prediction tasks than GB output predictions alone.
翻訳日:2022-11-08 12:37:31 公開日:2022-11-06