このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230126となっている論文です。

PDF登録状況(公開日: 20230126)

TitleAuthorsAbstract論文公表日・翻訳日
# 最適化手順のない局所隠れ変数値

Local hidden variable values without optimization procedures ( http://arxiv.org/abs/2004.00695v4 )

ライセンス: Link先を確認
Dardo Goyeneche, Wojciech Bruzda, Ond\v{r}ej Turek, Daniel Alsina, Karol \.Zyczkowski(参考訳) ベル不等式の局所隠れ変数(LHV)値を計算する問題は、量子非局所性の研究において中心的な役割を果たす。 特に、この問題は与えられたシナリオのlhvポリトープを特徴づける最初のステップである。 本研究は,二分的ベルの不等式のLHV値と行列の超越という数学的概念との関係性を確立する。 過剰性の理論に触発され、量子非局所性の場に直接影響を与えるいくつかの結果が導かれる。 我々は,LHV値が正確に計算できるような二部式ベル不等式の無限族を示す。 また、多数の測定設定でベルの不等式も厳格になる。

The problem of computing the local hidden variable (LHV) value of a Bell inequality plays a central role in the study of quantum nonlocality. In particular, this problem is the first step towards characterizing the LHV polytope of a given scenario. In this work, we establish a relation between the LHV value of bipartite Bell inequalities and the mathematical notion of excess of a matrix. Inspired by the well developed theory of excess, we derive several results that directly impact the field of quantum nonlocality. We show infinite families of bipartite Bell inequalities for which the LHV value can be computed exactly, without needing to solve any optimization problem, for any number of measurement settings. We also find tight Bell inequalities for a large number of measurement settings.
翻訳日:2023-05-27 05:22:18 公開日:2023-01-26
# 入力独立性

Input independence ( http://arxiv.org/abs/2105.14610v2 )

ライセンス: Link先を確認
Yuri Gurevich and Andreas Blass(参考訳) 私たちは次の入力独立原則を確立します。 量子回路 $\mathcal C$ が計算経路 $\mu$ に沿ってユニタリ変換 $U_\mu$ を演算した場合、$\mathcal C$ の計算が経路 $\mu$ に従う確率 $\mu$ は入力から独立である。

We establish the following input independence principle. If a quantum circuit $\mathcal C$ computes a unitary transformation $U_\mu$ along a computation path $\mu$, then the probability that computation of $\mathcal C$ follows path $\mu$ is independent of the input.
翻訳日:2023-03-28 08:00:12 公開日:2023-01-26
# SparCA: 特徴抽出と次元化のためのスパース圧縮凝集

SparCA: Sparse Compressed Agglomeration for Feature Extraction and Dimensionality Reduction ( http://arxiv.org/abs/2302.10776v1 )

ライセンス: Link先を確認
Leland Barnard, Farwa Ali, Hugo Botha, David T. Jones(参考訳) 最も効果的な次元削減手順は、下流教師あり学習タスクに優れた性能を提供しながら、生の入力空間から解釈可能な特徴を生成する。 多くのメソッドでは、これは特定のタスクのために1つ以上のハイパーパラメータを最適化する必要がある。 本研究では,多段階の階層的特徴グループ化,圧縮,特徴選択を含む新しい次元還元法であるスパース圧縮凝集法(SparCA)を提案する。 本研究では,SparCA法の特徴と性能を,画像,自然言語,単一細胞遺伝子発現データを含む異種合成および実世界のデータセットで示す。 以上の結果から,sparcaは幅広いデータ型に適用可能であり,高度に解釈可能な特徴を持ち,ハイパーパラメータチューニングを必要とせず下流の教師付き学習タスクにおいて魅力的な性能を示す。

The most effective dimensionality reduction procedures produce interpretable features from the raw input space while also providing good performance for downstream supervised learning tasks. For many methods, this requires optimizing one or more hyperparameters for a specific task, which can limit generalizability. In this study we propose sparse compressed agglomeration (SparCA), a novel dimensionality reduction procedure that involves a multistep hierarchical feature grouping, compression, and feature selection process. We demonstrate the characteristics and performance of the SparCA method across heterogenous synthetic and real-world datasets, including images, natural language, and single cell gene expression data. Our results show that SparCA is applicable to a wide range of data types, produces highly interpretable features, and shows compelling performance on downstream supervised learning tasks without the need for hyperparameter tuning.
翻訳日:2023-02-26 14:09:02 公開日:2023-01-26
# 電位浸透パス(p3)

Potential Penetrative Pass (P3) ( http://arxiv.org/abs/2302.10760v1 )

ライセンス: Link先を確認
Hadi Sotudeh(参考訳) サッカーでゴールを決めるには、チームはピッチで前進する必要があるので、それを行うにはさまざまな方法があります。 ゲーム計画や哲学によっては、翼や防御から長いボールをプレーすることを好むチームもある。 他のプレイヤーはパスで奥行きを貫き、相手プレイヤーを追い越すことを好む。 目的的かつ自動的な方法でチームが浸透パスをプレイする方法を、その可能性を持つ回数と比較して評価するために、"Potential Penetrative Pass (P3)"の概念を紹介します。

To score goals in football, a team needs to move forward on the pitch and there are various ways to do so. Depending on the game plan & philosophy; some teams prefer to play long balls from either wings or defense. Others, prefer to penetrate in depth with passes and outplay the opponent players. To objectively & in an automated way evaluate how teams play penetrative passes compared to the number of times they had the potential to do so, the "Potential Penetrative Pass (P3)" concept is presented here.
翻訳日:2023-02-26 14:06:59 公開日:2023-01-26
# normflows: フローの正規化のためのPyTorchパッケージ

normflows: A PyTorch Package for Normalizing Flows ( http://arxiv.org/abs/2302.12014v1 )

ライセンス: Link先を確認
Vincent Stimper, David Liu, Andrew Campbell, Vincent Berenz, Lukas Ryll, Bernhard Sch\"olkopf, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 正規化流動モデル確率分布は表現力のある移動密度を通る。 それらは、ガウス函数のような単純な基底分布を、層と呼ばれる可逆関数の列を通して変換する。 これらの層は通常、ニューラルネットワークを使って非常に表現力がある。 フローは機械学習においてユビキタスであり、画像生成、テキストモデリング、変分推論、ボルツマン分布の近似など多くの問題に適用されている。 ここでは、フローを正規化するPythonパッケージである normflows を紹介する。 ベースディストリビューション、フロー層、ニューラルネットワークのスイートから正規化フローモデルを構築することができる。 このパッケージは、一般的なディープラーニングフレームワークであるpytorchで実装されている。 Real NVP、Glow、Masked Autoregressive Flows、Neural Spline Flows、Residual Flowsなど、一般的な正規化フローアーキテクチャの大部分をサポートする。 パッケージはpip経由で簡単にインストールでき、コードはgithubで公開されている。

Normalizing flows model probability distributions through an expressive tractable density. They transform a simple base distribution, such as a Gaussian, through a sequence of invertible functions, which are referred to as layers. These layers typically use neural networks to become very expressive. Flows are ubiquitous in machine learning and have been applied to image generation, text modeling, variational inference, approximating Boltzmann distributions, and many other problems. Here, we present normflows, a Python package for normalizing flows. It allows to build normalizing flow models from a suite of base distributions, flow layers, and neural networks. The package is implemented in the popular deep learning framework PyTorch, which simplifies the integration of flows in larger machine learning models or pipelines. It supports most of the common normalizing flow architectures, such as Real NVP, Glow, Masked Autoregressive Flows, Neural Spline Flows, Residual Flows, and many more. The package can be easily installed via pip and the code is publicly available on GitHub.
翻訳日:2023-02-26 13:13:36 公開日:2023-01-26
# 多目的充足依存性最適化アルゴリズム

Multi objective Fitness Dependent Optimizer Algorithm ( http://arxiv.org/abs/2302.05519v1 )

ライセンス: Link先を確認
Jaza M. Abdullah, Tarik A. Rashid, Bestan B. Maaroof, Seyedali Mirjalili(参考訳) 本稿では、最近導入されたフィットネス依存オプティマイザ(FDO)の多目的変種を提案する。 このアルゴリズムはMulti objective Fitness Dependent Optimizer (MOFDO)と呼ばれ、FDOのように5種類の知識(situational, normative, topographical, domain, historical knowledge)を備えている。 MOFDOは、2つの標準ベンチマークでテストされている。古典的なZDTテスト関数は、作者のZitzler、Deb、Thieleから名付けられた広範なテストスイートであり、IEEE Congress of Evolutionary Computation benchmark (CEC 2019)マルチモーダル多目的関数である。 MOFDOの結果は、最新の多目的粒子群最適化(MOPSO)、非支配的ソート遺伝的アルゴリズム第三改良(NSGA-III)、多目的トンボアルゴリズム(MODA)と比較される。 比較研究は,mofdoの優位性と他の症例との比較結果を示している。 さらに、MOFDOは実世界の工学的問題を最適化するために使われる(溶接ビーム設計問題など)。 提案アルゴリズムは,多種多様な分散可能な実現可能解を提供することで,意思決定者がより適用可能な快適な選択をすることができる。

This paper proposes the multi objective variant of the recently introduced fitness dependent optimizer (FDO). The algorithm is called a Multi objective Fitness Dependent Optimizer (MOFDO) and is equipped with all five types of knowledge (situational, normative, topographical, domain, and historical knowledge) as in FDO. MOFDO is tested on two standard benchmarks for the performance-proof purpose; classical ZDT test functions, which is a widespread test suite that takes its name from its authors Zitzler, Deb, and Thiele, and on IEEE Congress of Evolutionary Computation benchmark (CEC 2019) multi modal multi objective functions. MOFDO results are compared to the latest variant of multi objective particle swarm optimization (MOPSO), non-dominated sorting genetic algorithm third improvement (NSGA-III), and multi objective dragonfly algorithm (MODA). The comparative study shows the superiority of MOFDO in most cases and comparative results in other cases. Moreover, MOFDO is used for optimizing real-world engineering problems (e.g., welded beam design problems). It is observed that the proposed algorithm successfully provides a wide variety of well-distributed feasible solutions, which enable the decision-makers to have more applicable-comfort choices to consider.
翻訳日:2023-02-19 14:19:21 公開日:2023-01-26
# 実践可能な学習分析の紹介

Introducing Practicable Learning Analytics ( http://arxiv.org/abs/2301.13043v1 )

ライセンス: Link先を確認
Viberg Olga, Gronlund Ake(参考訳) 学習分析は、大規模な学習を改善するための重要な手段として議論されてきた。 しかし、過去10年間、世界中の学習分析コミュニティによるかなりの努力にもかかわらず、その主張を支持する証拠は乏しい。 実践的な学習分析の概念を導入し、実践の観点から学習分析がどのように見えるか、そしてこの実践を学習分析設計に組み込むことによって、実践者にとってより魅力的なものにする。 学習分析ツールや手法を活用すべき実践を体系的に分析するための枠組みとして,情報システムアーティファクト (isa) という3つの相互関連サブシステム (情報システムアーティファクト, 社会的, 技術的アーティファクト) からなる概念を用いる。 ISAアプローチは、教育システム、実践、状況の文脈でデータ駆動意思決定について議論するために必要な体系的思考を必要とする。 本書の10章をisaの視点から紹介,考察し,ソーシャルアーティファクトへの細部的な注意が実践可能な学習分析の設計に不可欠であることを明らかにした。

Learning analytics have been argued as a key enabler to improving student learning at scale. Yet, despite considerable efforts by the learning analytics community across the world over the past decade, the evidence to support that claim is hitherto scarce, as is the demand from educators to adopt it into their practice. We introduce the concept of practicable learning analytics to illuminate what learning analytics may look like from the perspective of practice, and how this practice can be incorporated in learning analytics designs so as to make them more attractive for practitioners. As a framework for systematic analysis of the practice in which learning analytics tools and methods are to be employed, we use the concept of Information Systems Artifact (ISA) which comprises three interrelated subsystems: the informational, the social and the technological artefacts. The ISA approach entails systemic thinking which is necessary for discussing data-driven decision making in the context of educational systems, practices, and situations. The ten chapters in this book are presented and reflected upon from the ISA perspective, clarifying that detailed attention to the social artefact is critical to the design of practicable learning analytics.
翻訳日:2023-02-19 13:56:50 公開日:2023-01-26
# twitterにまた1日:24時間分のtwitterデータ

Just Another Day on Twitter: A Complete 24 Hours of Twitter Data ( http://arxiv.org/abs/2301.11429v1 )

ライセンス: Link先を確認
Juergen Pfeffer, Daniel Matter, Kokil Jaidka, Onur Varol, Afra Mashhadi, Jana Lasser, Dennis Assenmacher, Siqi Wu, Diyi Yang, Cornelia Brantner, Daniel M. Romero, Jahna Otterbacher, Carsten Schwemmer, Kenneth Joseph, David Garcia, Fred Morstatter(参考訳) 2022年10月末、イーロン・マスクはTwitterの買収を完了した。 その前の数週間と数ヶ月の間に、プラットフォームの将来的な購入者にとって関心があるだけでなく、計算社会科学研究コミュニティに高い関連性を持ついくつかの質問が公に議論された。 例えば、このプラットフォームにはアクティブユーザー数がありますか? サイト上のアカウントの何%がボットか? そして、プラットフォームで主要なトピックとサブトピックの球体は何ですか? 世界中に80人の学者が協力してこれらの疑問に光を当て、他の研究者に同じことをするデータセットを提供するために、私たちは2022年9月21日から24時間以内に3億7500万件のツイートを収集しました。 私たちの知る限りでは、これは研究コミュニティで利用可能な最初の24時間twitterデータセットです。 本研究は2つの目標を達成することを目的としている。 まず、上記の質問に答え、他の研究者の参考となるTwitterに関する説明的な指標を提供しようとしています。 第二に、将来の研究のためのベースラインデータセットを作成し、プラットフォームのオーナシップ変更による潜在的影響を研究するために使用します。

At the end of October 2022, Elon Musk concluded his acquisition of Twitter. In the weeks and months before that, several questions were publicly discussed that were not only of interest to the platform's future buyers, but also of high relevance to the Computational Social Science research community. For example, how many active users does the platform have? What percentage of accounts on the site are bots? And, what are the dominating topics and sub-topical spheres on the platform? In a globally coordinated effort of 80 scholars to shed light on these questions, and to offer a dataset that will equip other researchers to do the same, we have collected all 375 million tweets published within a 24-hour time period starting on September 21, 2022. To the best of our knowledge, this is the first complete 24-hour Twitter dataset that is available for the research community. With it, the present work aims to accomplish two goals. First, we seek to answer the aforementioned questions and provide descriptive metrics about Twitter that can serve as references for other researchers. Second, we create a baseline dataset for future research that can be used to study the potential impact of the platform's ownership change.
翻訳日:2023-02-19 13:53:44 公開日:2023-01-26
# 顧客プロファイルに基づくデザイン美学推薦システムと希望する影響

Design aesthetics recommender system based on customer profile and wanted affect ( http://arxiv.org/abs/2301.10984v1 )

ライセンス: Link先を確認
Brahim Benaissa, Masakazu Kobayashi, Keita Kinoshita(参考訳) 商品レコメンデーションシステムは、初期からオンラインコマースで活用されてきた。 彼らの開発は、消費者プロファイリングが中心となるビッグデータと高度なディープラーニング手法の助けを借りて、さらに拡大されている。 消費者の関心は、過去の個人的選択と類似した消費者の選択に基づいて予測できる。 しかし、現在選択として定義されているものは、製品の特徴、コスト、タイプなどの定量化データに基づいている。 本稿では,好意的な製品デザインと希望する影響に基づいて,顧客のプロファイリングの可能性を検討する。 我々は,それぞれのデザインの個別の感性を研究する花瓶デザインの事例について考察した。 本研究における消費者の個人的側面は,製品デザインに対する消費者の反応に関する文献レビューの結論に基づいて決定された。 ディープラーニングを用いて,レコメンデーションシステムのコアを構成する代表的消費者モデルを構築する。 新たな消費者に対して、感性形容詞を通じてどのような影響を求めているのかを指示し、その結果、その影響を引き起こす可能性のある美的デザインを推奨する。

Product recommendation systems have been instrumental in online commerce since the early days. Their development is expanded further with the help of big data and advanced deep learning methods, where consumer profiling is central. The interest of the consumer can now be predicted based on the personal past choices and the choices of similar consumers. However, what is currently defined as a choice is based on quantifiable data, like product features, cost, and type. This paper investigates the possibility of profiling customers based on the preferred product design and wanted affects. We considered the case of vase design, where we study individual Kansei of each design. The personal aspects of the consumer considered in this study were decided based on our literature review conclusions on the consumer response to product design. We build a representative consumer model that constitutes the recommendation system's core using deep learning. It asks the new consumers to provide what affect they are looking for, through Kansei adjectives, and recommend; as a result, the aesthetic design that will most likely cause that affect.
翻訳日:2023-02-19 13:52:43 公開日:2023-01-26
# a golden age:共謀説と偽情報、ニュースメディア、そしてより広いインターネットの関係

A Golden Age: Conspiracy Theories' Relationship with Misinformation Outlets, News Media, and the Wider Internet ( http://arxiv.org/abs/2301.10880v1 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) 我々は「陰謀論の黄金時代」に生きているのか? 過去数十年間、陰謀説はインターネット上で広まり、現実世界では危険な結果をもたらしている。 1月6日の米国議会議事堂攻撃に参加した人々の多くは、QAnon陰謀説に熱心に信じていた。 本研究では,5つの有名な陰謀論(QAnon, COVID, UFO/Aliens, 9-11, Flat-Earth)と,それぞれのメディアとの関係について検討する。 5つの陰謀論を専門とする755の異なる陰謀論のウェブサイトを同定し公開し、それぞれのセットがしばしば同じ外部ドメインにハイパーリンクし、COVID-19とQAnonの陰謀論のウェブサイトは最大の共有接続数であることがわかった。 ニュースメディアの役割を見てみると、私たちの陰謀論ウェブサイトに誤情報ハイパーリンクを広めることで知られるメディアは、主流のウェブサイトよりも頻繁に存在するだけでなく、2018年から2021年にかけて、QAnonの出現と新型コロナウイルスのパンデミックの始まりによって、このハイパーリンクが劇的に増加したことが分かる。 誤報サイトからのハイパーリンクと陰謀論Webサイトの人気との間には,いくつかの肯定的な相関関係が発見され,誤報ニュースメディアが陰謀論の普及に果たす重要な役割が示唆された。

Do we live in a "Golden Age of Conspiracy Theories?" In the last few decades, conspiracy theories have proliferated on the Internet with some having dangerous real-world consequences. A large contingent of those who participated in the January 6th attack on the US Capitol believed fervently in the QAnon conspiracy theory. In this work, we study the relationships amongst five prominent conspiracy theories (QAnon, COVID, UFO/Aliens, 9-11, and Flat-Earth) and each of their respective relationships to the news media, both mainstream and fringe. Identifying and publishing a set of 755 different conspiracy theory websites dedicated to our five conspiracy theories, we find that each set often hyperlinks to the same external domains, with COVID and QAnon conspiracy theory websites largest amount of shared connections. Examining the role of news media, we further find that not only do outlets known for spreading misinformation hyperlink to our set of conspiracy theory websites more often than mainstream websites but this hyperlinking has increased dramatically between 2018 and 2021, with the advent of QAnon and the start of COVID-19 pandemic. Using partial Granger-causality, we uncover several positive correlative relationships between the hyperlinks from misinformation websites and the popularity of conspiracy theory websites, suggesting the prominent role that misinformation news outlets play in popularizing many conspiracy theories.
翻訳日:2023-02-19 13:52:26 公開日:2023-01-26
# コンピューティングコースに倫理を取り入れる:教育者の視点から

Incorporating Ethics in Computing Courses: Perspectives from Educators ( http://arxiv.org/abs/2212.06220v2 )

ライセンス: Link先を確認
Jessie J. Smith, Blakeley H. Payne, Shamika Klassen, Dylan Thomas Doyle, Casey Fiesler(参考訳) コンピュータ教育に倫理を取り入れることがSIGCSEコミュニティの優先事項となっている。 多くのコンピューティング部門や教育者は、スタンドアロンのコンピューティング倫理コースを作成したり、倫理モジュールや議論を既存のカリキュラムに統合することで、この取り組みに貢献してきた。 本研究は,コンピュータ教育者の授業における倫理的態度を報告し,この取り組みを妨げたり支援したりする構造に特化することで,この取り組みを支援することを目的とする。 138名の高等教育コンピュータインストラクターを対象に,授業に倫理を取り入れることに対する態度や,それを妨げる障壁,どのような構造が彼らを最も支えているか,などについて調査した。 我々は、コンピュータ教育の構成要素として倫理に概して肯定的だが、一部のコンピューティングコースに倫理が組み込まれないようにする特定の障壁があることを発見した。 本研究では,これらの障壁を緩和し,高等教育における倫理とコンピューティングのさらなる統合を促進する支援構造の概要を考察する。

Incorporating ethics into computing education has become a priority for the SIGCSE community. Many computing departments and educators have contributed to this endeavor by creating standalone computing ethics courses or integrating ethics modules and discussions into preexisting curricula. In this study, we hope to support this effort by reporting on computing educators' attitudes toward including ethics in their computing classroom, with a special focus on the structures that hinder or help this endeavor. We surveyed 138 higher education computing instructors to understand their attitudes toward including ethics in their classes, what barriers might be preventing them from doing so, and which structures best support them. We found that even though instructors were generally positive about ethics as a component of computing education, there are specific barriers preventing ethics from being included in some computing courses. In this work, we explore how to alleviate these barriers and outline support structures that could encourage further integration of ethics and computing in higher education.
翻訳日:2023-02-19 12:58:27 公開日:2023-01-26
# ドレインのデジタルトレース:ロシアによるウクライナ侵攻中の開発者

Digital Traces of Brain Drain: Developers during the Russian Invasion of Ukraine ( http://arxiv.org/abs/2209.01041v2 )

ライセンス: Link先を確認
Johannes Wachs(参考訳) ロシアによるウクライナ侵攻は、大規模な破壊、生命の大幅な喪失、何百万人もの人々の移住を引き起こした。 ウクライナで直接の紛争を逃れる者以外にも、ロシア国内の多くの個人は第三国に移住したと考えられている。 特に、熟練した人的資本の流出(時に脳ドレインと呼ばれる)は、長期にわたる戦争とロシア経済に重大な影響を及ぼす可能性がある。 しかし、特に危機時の脳排水量の定量化は一般的に困難である。 これにより、ドライバを理解し、結果を予測する能力が妨げられます。 このギャップに対処するため、私は侵略の1年前の2021年2月に収集された、活発なソフトウェア開発者のロケーションの大規模なデータセットを作成して拡張します。 2021年にロシアに居た開発者を再訪し、2022年6月と11月に撮影されたスナップショットで、ロシアからの継続的な開発者流出を確認します。 11月11日までにロシアの開発者の1.1%が新しい国をリストアップし、同地域の2.8%が競合に直接関与していない。 ロシアの開発者の13.2%が位置を曖昧にしている(比較では2.4%)。 ロシアを離れる開発者は、残る人よりも、コラボレーションネットワークにおいて非常に活発で中心的だった。 これは、最も重要な開発者の多くがすでにロシアを去ったことを示唆している。 私は、アルメニアでは42%、キプロスでは60%、グルジアでは94%の地元のソフトウェア開発者が増加していると見積もっています。

The Russian invasion of Ukraine has caused large scale destruction, significant loss of life, and the displacement of millions of people. Besides those fleeing direct conflict in Ukraine, many individuals in Russia are also thought to have moved to third countries. In particular the exodus of skilled human capital, sometimes called brain drain, out of Russia may have a significant effect on the course of the war and the Russian economy in the long run. Yet quantifying brain drain, especially during crisis situations is generally difficult. This hinders our ability to understand its drivers and to anticipate its consequences. To address this gap, I draw on and extend a large scale dataset of the locations of highly active software developers collected in February 2021, one year before the invasion. Revisiting those developers that had been located in Russia in 2021, I confirm an ongoing exodus of developers from Russia in snapshots taken in June and November 2022. By November 11.1% of Russian developers list a new country, compared with 2.8% of developers from comparable countries in the region but not directly involved in the conflict. 13.2% of Russian developers have obscured their location (vs. 2.4% in the comparison set). Developers leaving Russia were significantly more active and central in the collaboration network than those who remain. This suggests that many of the most important developers have already left Russia. In some receiving countries the number of arrivals is significant: I estimate an increase in the number of local software developers of 42% in Armenia, 60% in Cyprus and 94% in Georgia.
翻訳日:2023-02-19 10:56:22 公開日:2023-01-26
# 閾値最適化による複数サブタスクからの信頼性決定:野生におけるコンテンツモデレーション

Reliable Decision from Multiple Subtasks through Threshold Optimization: Content Moderation in the Wild ( http://arxiv.org/abs/2208.07522v5 )

ライセンス: Link先を確認
Donghyun Son, Byounggyu Lew, Kwanghee Choi, Yongsu Baek, Seungwoo Choi, Beomjun Shin, Sungjoo Ha, Buru Chang(参考訳) ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。 これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。 モデレーション政策は国や製品の種類によって異なるため、政策ごとにモデルを訓練し展開することが一般的である。 しかし、このアプローチは非常に非効率であり、特にポリシーが変更され、データセットの再ラベル付けと、シフトしたデータ分散のモデル再トレーニングが必要になる。 このコストの非効率を緩和するために、ソーシャルメディアプラットフォームでは、未成年者、失礼なジェスチャー、武器の存在を予測するなど、複数のサブタスクの予測スコアを提供するサードパーティのコンテンツモデレーションサービスを採用することが多い。 しかしながら、特定のターゲットポリシーに対する複数のサブタスクの予測スコアから信頼できる自動モデレーション決定を行うことは、まだ広く検討されていない。 本研究では,コンテンツモデレーションの現実シナリオを定式化し,複数のサブタスクの最適しきい値を求めるための簡易かつ効果的なしきい値最適化手法を導入し,信頼性の高いモデレーション決定をコスト効率よく行う。 広範な実験により,既存のしきい値最適化法やヒューリスティックスに比べて,コンテンツモデレーションの性能が向上することを示した。

Social media platforms struggle to protect users from harmful content through content moderation. These platforms have recently leveraged machine learning models to cope with the vast amount of user-generated content daily. Since moderation policies vary depending on countries and types of products, it is common to train and deploy the models per policy. However, this approach is highly inefficient, especially when the policies change, requiring dataset re-labeling and model re-training on the shifted data distribution. To alleviate this cost inefficiency, social media platforms often employ third-party content moderation services that provide prediction scores of multiple subtasks, such as predicting the existence of underage personnel, rude gestures, or weapons, instead of directly providing final moderation decisions. However, making a reliable automated moderation decision from the prediction scores of the multiple subtasks for a specific target policy has not been widely explored yet. In this study, we formulate real-world scenarios of content moderation and introduce a simple yet effective threshold optimization method that searches the optimal thresholds of the multiple subtasks to make a reliable moderation decision in a cost-effective way. Extensive experiments demonstrate that our approach shows better performance in content moderation compared to existing threshold optimization methods and heuristics.
翻訳日:2023-02-19 10:33:05 公開日:2023-01-26
# 物理プロセスの変換のための数学的枠組み

A Mathematical Framework for Transformations of Physical Processes ( http://arxiv.org/abs/2204.04319v2 )

ライセンス: Link先を確認
Matt Wilson, Giulio Chiribella(参考訳) 高次物理学におけるシーケンシャルおよび並列合成スーパーマップの存在は、エンリッチド圏理論を用いて定式化できる。 高次因果圏 (HOCCs) 内のユニタリスーパーマップや層のような物理的に関係のある例によって促進され、より高次な物理理論とリッチなモノイダル圏のモデリングを、物理理論のモデリングがモノイダル圏と類似して扱う。 リッチなモノイド設定を用いて、グロタンディーク構成を通して高次物理理論の間の構造保存写像の適切な定義を構築する。 次に、高次物理理論におけるカリー化の便利な特徴は、並列およびシーケンシャルな合成スーパーマップの存在の原始的な仮定とリンクの付加的な特徴とを組み合わせた結果であることを示す。 第2の応用では、構造保存写像の定義を用いて、その間の写像を保存する完全かつ忠実な構造を持つリッチモノイダル圏の無限タワーを含む圏が、必然的に閉モノイダル構造につながることを示す。 提案された定義の目的は、量子論における新しい因果構造の研究と比較のための広範な枠組みを提供することであり、より広義には、静的および動的特徴を統一的に扱う物理理論のパラダイムを提供することである。

We observe that the existence of sequential and parallel composition supermaps in higher order physics can be formalised using enriched category theory. Encouraged by physically relevant examples such as unitary supermaps and layers within higher order causal categories (HOCCs), we treat the modelling of higher order physical theories with enriched monoidal categories in analogy with the modelling of physical theories are with monoidal categories. We use the enriched monoidal setting to construct a suitable definition of structure preserving map between higher order physical theories via the Grothendieck construction. We then show that the convenient feature of currying in higher order physical theories can be seen as a consequence of combining the primitive assumption of the existence of parallel and sequential composition supermaps with an additional feature of linking. In a second application we use our definition of structure preserving map to show that categories containing infinite towers of enriched monoidal categories with full and faithful structure preserving maps between them inevitably lead to closed monoidal structures. The aim of the proposed definitions is to step towards providing a broad framework for the study and comparison of novel causal structures in quantum theory, and, more broadly, a paradigm of physical theory where static and dynamical features are treated in a unified way.
翻訳日:2023-02-17 21:09:36 公開日:2023-01-26
# 可動完全鏡で分離した2つの半空間における電界観測物の空間相関

Spatial correlations of field observables in two half-spaces separated by a movable perfect mirror ( http://arxiv.org/abs/2204.06886v2 )

ライセンス: Link先を確認
Federico Montalbano, Federico Armata, Lucia Rizzuto, Roberto Passante(参考訳) 移動自在な有限質量の反射境界によって分離され、調和ポテンシャルによってその平衡位置に有界な2つの空洞系を考える。 これにより、有効ミラー-フィールド相互作用と、可動境界によって媒介されるフィールドモード間の効果的な相互作用が得られる。 2つの無質量スカラー場は各空洞で定義される。 ミラーの自由度とスカラー場の両方の仮想励起を含む系の2次相互作用基底状態を考える。 2つのキャビティ内の電界観測値間の相関関数について検討し、相互作用する基底状態にある2つのキャビティ内の正方形スカラー場が反相関であることを示す。 本研究では,鏡の平均位置から考える2点の距離と,その質量と振動角の周波数に対する相関の依存性について検討した。 これらの結果から,移動鏡によって分離された2つの半空間間の通信は,その位置ゆらぎを媒介とする。 偏光性物体間の二体または多体相互作用を利用した新しい現象の観測可能性について論じる。 実導体の場合と同様に、周波数積分を正則化するために導入されたカットオフ周波数への依存性についても論じる。

We consider a system of two cavities separated by a reflecting boundary of finite mass that is free to move, and bounded to its equilibrium position by a harmonic potential. This yields an effective mirror-field interaction, as well as an effective interaction between the field modes mediated by the movable boundary. Two massless scalar fields are defined in each cavity. We consider the second-order interacting ground state of the system, that contains virtual excitations of both mirror's degrees of freedom and of the scalar fields. We investigate the correlation functions between field observables in the two cavities, and find that the squared scalar fields in the two cavities, in the interacting ground state, are anti-correlated. We discuss the dependence of the correlation on the distance of the two points considered from the mirror's average position, and on its mass and oscillation angular frequency. These results show a sort of communication between the two half-spaces separated by the movable mirror, mediated by its position fluctuations. Observability of this new phenomenon exploiting two- or many-body dispersion interactions between polarizable bodies is discussed. The dependence on a cutoff frequency introduced to regularize the frequency integrations, as well as the case of a real conductor, are also discussed.
翻訳日:2023-02-17 00:17:13 公開日:2023-01-26
# 量子スーパーマップは局所性によって特徴づけられる

Quantum Supermaps are Characterized by Locality ( http://arxiv.org/abs/2205.09844v3 )

ライセンス: Link先を確認
Matt Wilson, Giulio Chiribella, Aleks Kissinger(参考訳) 我々は、シーケンシャルおよび並列合成のみを参照する公理の観点から量子スーパーマップの新しい特徴付けを提供する。 したがって、量子スーパーマップを任意のモノイド圏と運用確率論に一般化する。 我々は、モノイド圏上で局所適用可能変換の簡単な定義を提供することでそうする。 この定義は自然性の原理を用いて圏論の言語で記述することができ、すべての証明が提示されるという観点から直感的な図式表現を与えることができる。 この図式表現を用いて、量子チャネル上の局所適用可能な変換が決定論的量子スーパーマップとの1対1の対応にあることを示す。 この量子スーパーマップの代替的な特徴付けは、量子スイッチのようなより一般的な多重入力スーパーマップや、信号制約の満足度によって定義されるような量子チャネルの任意の正規凸空間に作用することが証明されている。

We provide a new characterisation of quantum supermaps in terms of an axiom that refers only to sequential and parallel composition. Consequently, we generalize quantum supermaps to arbitrary monoidal categories and operational probabilistic theories. We do so by providing a simple definition of locally-applicable transformation on a monoidal category. The definition can be rephrased in the language of category theory using the principle of naturality, and can be given an intuitive diagrammatic representation in terms of which all proofs are presented. In our main technical contribution, we use this diagrammatic representation to show that locally-applicable transformations on quantum channels are in one-to-one correspondence with deterministic quantum supermaps. This alternative characterization of quantum supermaps is proven to work for more general multiple-input supermaps such as the quantum switch and on arbitrary normal convex spaces of quantum channels such as those defined by satisfaction of signaling constraints.
翻訳日:2023-02-12 15:25:56 公開日:2023-01-26
# 拡散モデルの理解と文脈化

Understanding and contextualising diffusion models ( http://arxiv.org/abs/2302.01394v1 )

ライセンス: Link先を確認
Stefano Scotta, Alberto Messina(参考訳) 人工知能の最新の開発には、拡散生成モデル、無条件で、場合によってはユーザが提供した入力によって条件づけられたオリジナルのイメージを生成できる非常に一般的なツールが含まれている。 この作業の範囲外の実装の詳細は別として、画像を生成するために使用される主要なモデルはすべて、完全に劣化した画像から新しい画像を復元する共通の理論に基づいている。 本研究では,その背景にある数学的理論,すなわち具体的実装や関連する手法を詳細に分析することなく,これを実現する方法について説明する。 本研究の目的は, 興味のある読者に対して, 数学的, 直感的に何を意味するのかを明らかにすることである。

The latest developments in Artificial Intelligence include diffusion generative models, quite popular tools which can produce original images both unconditionally and, in some cases, conditioned by some inputs provided by the user. Apart from implementation details, which are outside the scope of this work, all of the main models used to generate images are substantially based on a common theory which restores a new image from a completely degraded one. In this work we explain how this is possible by focusing on the mathematical theory behind them, i.e. without analyzing in detail the specific implementations and related methods. The aim of this work is to clarify to the interested reader what all this means mathematically and intuitively.
翻訳日:2023-02-12 13:12:31 公開日:2023-01-26
# 非トレース保存マップのための選択的かつ効率的な量子プロセストモグラフィー:超伝導量子プロセッサの実装

Selective and efficient quantum process tomography for non-trace preserving maps: a superconducting quantum processor implementation ( http://arxiv.org/abs/2205.10453v3 )

ライセンス: Link先を確認
Quimey Pears Stefano, Ignacio Perito and Lorena Reb\'on(参考訳) あるいは、未知の量子プロセスの完全な再構成に対して、いわゆる選択的かつ効率的な量子プロセストモグラフィ(SEQPT)は、多項式量の資源でそのような操作を記述する行列の所定の要素である、個々の精度までの推定を可能にする。 このプロトコルの実装は、トレース保存量子マップによってよく記述された量子システムの進化を特徴づけることに成功した。 ここでは、量子情報科学や量子力学制御の文脈において、不完全なデバイスやシステム環境相互作用の存在下で自然に発生する入力量子状態の痕跡を保存しない、より一般的なタイプの量子プロセスを扱う。 その場合、量子チャネルの損失構造に関する {\it a priori} 情報の助けを借りて、seqpt再構成を非トレース保存写像の再構築に適用できることを示す。 有限次元$d$の任意のヒルベルト空間における再構成の実装方法を明示的に記述する。 この方法はibm量子サービスの超伝導量子プロセッサ上で実験的に検証され、いくつかの非トレース保存量子プロセスを最大$d=6$で推定する。 以上の結果から,非トレーサ保存プロセスは,トレーサ保存プロセスよりも精度が高く,高い忠実度で効率的に再構築できることがわかった。

Alternatively to the full reconstruction of an unknown quantum process, the so-called selective and efficient quantum process tomography (SEQPT) allows estimating, individually and up to the required accuracy, a given element of the matrix that describes such an operation with a polynomial amount of resources. The implementation of this protocol has been carried out with success to characterize the evolution of a quantum system that is well described by a trace preserving quantum map. Here, we deal with a more general type of quantum process that does not preserve the trace of the input quantum state, which naturally arises in the presence of imperfect devices and system-environment interactions, in the context of quantum information science or quantum dynamics control. In that case, we show that with the aid of {\it a priori} information on the losses structure of the quantum channel, the SEQPT reconstruction can be adapted to reconstruct the non-trace-preserving map. We explicitly describe how to implement the reconstruction in an arbitrary Hilbert space of finite dimension $d$. The method is experimentally verified on a superconducting quantum processor of the IBM Quantum services, by estimating several non trace-preserving quantum processes in dimensions up to $d=6$. Our results show that it is possible to efficiently reconstruct non trace-preserving processes, with high precision, and with significantly higher fidelity than when the process is assumed to be trace-preserving.
翻訳日:2023-02-12 07:47:00 公開日:2023-01-26
# 非可換な$c^*$-algebra net:$c^*$-algebraにおける強力な製品構造を持つニューラルネットワークの学習

Noncommutative $C^*$-algebra Net: Learning Neural Networks with Powerful Product Structure in $C^*$-algebra ( http://arxiv.org/abs/2302.01191v1 )

ライセンス: Link先を確認
Ryuichiro Hataya and Yuka Hashimoto(参考訳) 非可換な$c^*$-代数を持つニューラルネットワークの新しい一般化を提案する。 c^*$-algebras の重要な特徴は製品の非可換構造であるが、既存の $c^*$-algebra のネットフレームワークは、可換な $c^*$-algebras しか考慮していない。 C^*$-代数のこの非可換構造はニューラルネットワーク学習において強力な効果をもたらすことを示す。 私たちのフレームワークは、複数の関連するニューラルネットワークを同時に学習したり、グループアクションに関する不変機能を学習したりするなど、幅広いアプリケーションを持っています。 また,本フレームワークの有効性を数値的に示すとともに,その潜在能力を示す。

We propose a new generalization of neural networks with noncommutative $C^*$-algebra. An important feature of $C^*$-algebras is their noncommutative structure of products, but the existing $C^*$-algebra net frameworks have only considered commutative $C^*$-algebras. We show that this noncommutative structure of $C^*$-algebras induces powerful effects in learning neural networks. Our framework has a wide range of applications, such as learning multiple related neural networks simultaneously with interactions and learning invariant features with respect to group actions. We also show the validity of our framework numerically, which illustrates its potential power.
翻訳日:2023-02-06 00:09:35 公開日:2023-01-26
# LAGAN: 条件付き生成逆ニューラルネットを用いた半監督言語-アントロポロジー分類

LAGAN: Deep Semi-Supervised Linguistic-Anthropology Classification with Conditional Generative Adversarial Neural Network ( http://arxiv.org/abs/2301.13853v1 )

ライセンス: Link先を確認
Rossi Kamal, Zuzana Kubincova(参考訳) しかし、教育はすべての権利であり、個人は他のものとは異なる。 ポスト共産主義時代の教師は、第四次産業革命の雇用市場に向けて均等に訓練する固有の個人主義を発見した。 学術実践における少数民族教育のシナリオを考えることができる。 民族的少数派は独自の文化で成長し、彼らのネイティブな方法で教えることを好む。 我々は,このような言語人類学に基づくエンゲージメントを半教師付き問題として定式化した。 そこで我々は,学生エンゲージメントにおける言語的エスノグラフィの特徴を分類するために,LA-GANという条件付き深層生成敵ネットワークアルゴリズムを開発した。 理論的正当化は、半教師付き逆モデルの目的、正規化、損失関数を証明する。 調査質問は、学習スタイル、学習アプローチ、嗜好が主な関心領域であるz世代と民族マイノリティグループに関するある種の仮定に到達する準備が整っている。

Education is a right of all, however, every individual is different than others. Teachers in post-communism era discover inherent individualism to equally train all towards job market of fourth industrial revolution. We can consider scenario of ethnic minority education in academic practices. Ethnic minority group has grown in their own culture and would prefer to be taught in their native way. We have formulated such linguistic anthropology(how people learn)based engagement as semi-supervised problem. Then, we have developed an conditional deep generative adversarial network algorithm namely LA-GAN to classify linguistic ethnographic features in student engagement. Theoretical justification proves the objective, regularization and loss function of our semi-supervised adversarial model. Survey questions are prepared to reach some form of assumptions about z-generation and ethnic minority group, whose learning style, learning approach and preference are our main area of interest.
翻訳日:2023-02-05 04:18:29 公開日:2023-01-26
# 量子場理論に基づく量子情報:測定と相関

Quantum Field Theory based Quantum Information: Measurements and Correlations ( http://arxiv.org/abs/2208.03696v2 )

ライセンス: Link先を確認
Charis Anastopoulos, Bei-Lok Hu and Konstantina Savvidou(参考訳) これは、量子場理論における不等時相関関数の観点から相対論的量子情報理論を開発することを目的とした一連の論文の最初のものである。 本稿では,今後の発展に適した有用な理論的プラットフォームを提供するための2つの形式を強調する。 1)Quantum Temporal Probabilities(QTP)法による量子場計測 2) 因果時間発展のための閉時間経路形式(ctp) QTPは検出器を量子記述に組み込んでおり、測定記録はマクロ的であり、古典的な時空座標で表すことができる。 まず, n個の測定事象の確率に対するqtp公式の初等的導出について述べる。 次に、QTPと閉時間パス形式との関係を、関連する生成関数を関連づけた明示的な公式を記述することによって示す。 我々は、ctp形式性のパス積分表現を用いて、経路積分の観点で測定された確率を表現する。 この後、我々はqtp形式化の簡単な応用を提供する。 特に、Unruh-DeWitt検出器モデルとGlauberの光検出理論が制限ケースとしてどのように見えるかを示す。 最後に、相対論的量子情報と測定において、量子相関が重要な概念であることから、この目的のために非平衡量子場理論の資源を活用できる、ctp2粒子の既約実効作用が果たす役割を強調する。

This is the first in a series of papers aiming to develop a relativistic quantum information theory in terms of unequal-time correlation functions in quantum field theory. In this work, we highlight two formalisms which together can provide a useful theoretical platform suitable for further developments: 1) Quantum field measurements using the Quantum Temporal Probabilities (QTP) method; 2) Closed-Time-Path (CTP) formalism for causal time evolutions. QTP incorporates the detector into the quantum description, while emphasising that the records of measurement are macroscopic, and they can be expressed in terms of classical spacetime coordinates. We first present a new, elementary derivation of the QTP formulas for the probabilities of n measurement events. We then demonstrate the relation of QTP with the Closed-Time-Path formalism, by writing an explicit formula that relates the associated generating functionals. We exploit the path integral representation of the CTP formalism, in order to express the measured probabilities in terms of path integrals. After this, we provide some simple applications of the QTP formalism. In particular, we show how Unruh-DeWitt detector models and Glauber's photodetection theory appear as limiting cases . Finally, with quantum correlation being the pivotal notion in relativistic quantum information and measurements, we highlight the role played by the CTP two-particle irreducible effective action which enables one to tap into the resources of non-equilibrium quantum field theory for our stated purpose.
翻訳日:2023-02-02 00:09:10 公開日:2023-01-26
# 遷移対応多能性知識追跡

Transition-Aware Multi-Activity Knowledge Tracing ( http://arxiv.org/abs/2301.12916v1 )

ライセンス: Link先を確認
Siqian Zhao, Chunpai Wang, Shaghayegh Sahebi(参考訳) 学生の学習にますます使われる大規模オンライン学習システムでは,学生知識の正確なモデリングが不可欠である。 知識追跡は、学生の学習活動のシーケンスから学生の知識状態をモデル化することを目的としている。 現代の知識追跡(KT)は通常、教師付きシーケンス学習問題として定式化され、学生の知識状態を進化した隠れ変数の集合として要約することにより、過去の観察された実践スコアに従って将来の実践パフォーマンスを予測する。 この定式化により、多くの現在のKTソリューションは、明示的なフィードバックやスコアオブザーバー(例えば、グレードされていないビデオ講義を見るなど)なしで、非評価学習活動から学生の学習をモデル化するのに適していない。 さらに、これらのモデルは、異なる学習活動、特に評価された(例えば、クイズ)と非評価された(例えば、ビデオ講義)学習活動の間の知識伝達のダイナミクスを明示的に表現することはできない。 本稿では,学生が評価対象と非評価対象の学習教材を移行する際に,学生の知識に加えて学習教材間の知識伝達をモデル化するトランジッション・アウェア・マルチアクティビティ・ナレッジ・トレーシング(tamkot)を提案する。 TAMKOTは,学生活動間の遷移タイプごとに,一組の知識伝達行列を活性化・学習することにより,知識伝達を明示的に学習する深層反復多行動学習モデルとして定式化されている。 したがって,本モデルでは,学生の知識を共有空間に保持しながら,異なる移動可能な潜在空間における各材料タイプを表現することができる。 我々は,実世界の3つのデータセットについて評価し,tamkotの学生成績予測能力と知識伝達のモデリング能力を示す。

Accurate modeling of student knowledge is essential for large-scale online learning systems that are increasingly used for student training. Knowledge tracing aims to model student knowledge state given the student's sequence of learning activities. Modern Knowledge tracing (KT) is usually formulated as a supervised sequence learning problem to predict students' future practice performance according to their past observed practice scores by summarizing student knowledge state as a set of evolving hidden variables. Because of this formulation, many current KT solutions are not fit for modeling student learning from non-assessed learning activities with no explicit feedback or score observation (e.g., watching video lectures that are not graded). Additionally, these models cannot explicitly represent the dynamics of knowledge transfer among different learning activities, particularly between the assessed (e.g., quizzes) and non-assessed (e.g., video lectures) learning activities. In this paper, we propose Transition-Aware Multi-activity Knowledge Tracing (TAMKOT), which models knowledge transfer between learning materials, in addition to student knowledge, when students transition between and within assessed and non-assessed learning materials. TAMKOT is formulated as a deep recurrent multi-activity learning model that explicitly learns knowledge transfer by activating and learning a set of knowledge transfer matrices, one for each transition type between student activities. Accordingly, our model allows for representing each material type in a different yet transferrable latent space while maintaining student knowledge in a shared space. We evaluate our model on three real-world publicly available datasets and demonstrate TAMKOT's capability in predicting student performance and modeling knowledge transfer.
翻訳日:2023-01-31 14:34:06 公開日:2023-01-26
# 位置スケール騒音モデルにおける因果効果推定--最大確率と独立性テスト

Cause-Effect Inference in Location-Scale Noise Models: Maximum Likelihood vs. Independence Testing ( http://arxiv.org/abs/2301.12930v1 )

ライセンス: Link先を確認
Xiangyu Sun, Oliver Schulte(参考訳) ロケーションスケールノイズモデル (LSNMs) は、アフィンフローモデルと密接に関連し、広範囲に適用可能なヘテロ代用構造因果モデルの一種である。 雑音分布に関する仮定を満たしたlsnmのための最近の確率ベース手法は最先端の精度を実現している。 しかし,特に反因果方向の条件分散が因果方向の条件分散よりも小さい場合には,その精度は著しく低下する。 本稿では,誤特定問題を実演し,その原因と発生時期について分析する。 残留独立性テストは確率に基づく因果効果推論よりも誤特定に対してはるかに頑健であることを示す。 実験的な評価には、580の合成データセットと99の現実世界データセットが含まれています。

Location-scale noise models (LSNMs) are a class of heteroscedastic structural causal models with wide applicability, closely related to affine flow models. Recent likelihood-based methods designed for LSNMs that infer cause-effect relationships achieve state-of-the-art accuracy, when their assumptions are satisfied concerning the noise distributions. However, under misspecification their accuracy deteriorates sharply, especially when the conditional variance in the anti-causal direction is smaller than that in the causal direction. In this paper, we demonstrate the misspecification problem and analyze why and when it occurs. We show that residual independence testing is much more robust to misspecification than likelihood-based cause-effect inference. Our empirical evaluation includes 580 synthetic and 99 real-world datasets.
翻訳日:2023-01-31 14:23:28 公開日:2023-01-26
# プロンプトは本当にアートなのか?

Is Writing Prompts Really Making Art? ( http://arxiv.org/abs/2301.13049v1 )

ライセンス: Link先を確認
Jon McCormack, Camilo Cruz Gambardella, Nina Rajcic, Stephen James Krol, Maria Teresa Llano, Meng Yang(参考訳) 近年、生成機械学習システムは大幅に進歩している。 現在の生成システムの波は、テキストプロンプトを使って複雑な画像、ビデオ、さらには3dデータセットを作成する。 これらのシステムのクリエーターは、プロンプトをタイプできる人に創造性と芸術をもたらす革命を主張する。 本稿では,これらの主張の基礎を疑問視し,言語記述の限界,データセットの意味,最後には具体性と具体化の問題という3つの領域に分析を分割した。 我々は,プロンプトベースのシステムによって実現される創造的可能性の分析から,新たな芸術的媒体として考えられるかどうかを問う。

In recent years Generative Machine Learning systems have advanced significantly. A current wave of generative systems use text prompts to create complex imagery, video, even 3D datasets. The creators of these systems claim a revolution in bringing creativity and art to anyone who can type a prompt. In this position paper, we question the basis for these claims, dividing our analysis into three areas: the limitations of linguistic descriptions, implications of the dataset, and lastly, matters of materiality and embodiment. We conclude with an analysis of the creative possibilities enabled by prompt-based systems, asking if they can be considered a new artistic medium.
翻訳日:2023-01-31 13:56:23 公開日:2023-01-26
# 分子結晶構造サンプリングのための剛体流

Rigid body flows for sampling molecular crystal structures ( http://arxiv.org/abs/2301.11355v1 )

ライセンス: Link先を確認
Jonas K\"ohler, Michele Invernizzi, Pim de Haan, Frank No\'e(参考訳) 正規化フロー(NF)は、高い柔軟性と表現力を持つ複雑な分布をモデル化する能力によって近年人気を集めている強力な生成モデルである。 本研究では,結晶中の分子などの3次元空間における複数の物体の位置と向きをモデル化するために調整された新しい正規化フローを導入する。 第一に、単位四元数の群上の滑らかで表現的な流れを定義し、剛体の連続的な回転運動を捉えること、第二に、単位四元数の二重被覆性を用いて回転群の適切な密度を定義することである。 これにより,本モデルは,熱力学的対象密度に対する標準確率法や変分推論を用いてトレーニングすることができる。 TIP4P-Ew水モデルでは,外部磁場における四面体系の多モード密度と氷XI相の2つの分子例に対してボルツマン発生器を訓練して評価した。 我々の流れは分子の内部自由度に作用する流れと組み合わせることができ、多くの相互作用する分子の分布のモデリングへの重要なステップとなる。

Normalizing flows (NF) are a class of powerful generative models that have gained popularity in recent years due to their ability to model complex distributions with high flexibility and expressiveness. In this work, we introduce a new type of normalizing flow that is tailored for modeling positions and orientations of multiple objects in three-dimensional space, such as molecules in a crystal. Our approach is based on two key ideas: first, we define smooth and expressive flows on the group of unit quaternions, which allows us to capture the continuous rotational motion of rigid bodies; second, we use the double cover property of unit quaternions to define a proper density on the rotation group. This ensures that our model can be trained using standard likelihood-based methods or variational inference with respect to a thermodynamic target density. We evaluate the method by training Boltzmann generators for two molecular examples, namely the multi-modal density of a tetrahedral system in an external field and the ice XI phase in the TIP4P-Ew water model. Our flows can be combined with flows operating on the internal degrees of freedom of molecules, and constitute an important step towards the modeling of distributions of many interacting molecules.
翻訳日:2023-01-30 17:36:09 公開日:2023-01-26
# マルチタスク深層アンサンブルによる因果効果の推定

Estimating Causal Effects using a Multi-task Deep Ensemble ( http://arxiv.org/abs/2301.11351v1 )

ライセンス: Link先を確認
Ziyang Jiang, Zhuoran Hou, Yiling Liu, Yiman Ren, Keyu Li, David Carlson(参考訳) 過去数十年間、因果効果推定のためのいくつかの手法が提案されてきたが、画像のような複雑な構造でデータを扱うのに有効な方法がほとんど示されていない。 このギャップを埋めるために,研究集団から共有情報とグループ固有情報の両方を学習し,コリージョン化カーネルを持つマルチタスクガウスプロセス(GP)と等価性を証明するために,CMDE(Causal Multi-task Deep Ensemble)フレームワークを提案する。 マルチタスクGPと比較して、CMDEは高次元およびマルチモーダルな共変体を効率的に処理し、因果効果のポイントワイズ不確実性を推定する。 本手法は各種のデータセットやタスクにまたがって評価し,CMDEがこれらのタスクの大部分において最先端の手法より優れていることを示す。

Over the past few decades, a number of methods have been proposed for causal effect estimation, yet few have been demonstrated to be effective in handling data with complex structures, such as images. To fill this gap, we propose a Causal Multi-task Deep Ensemble (CMDE) framework to learn both shared and group-specific information from the study population and prove its equivalence to a multi-task Gaussian process (GP) with coregionalization kernel a priori. Compared to multi-task GP, CMDE efficiently handles high-dimensional and multi-modal covariates and provides pointwise uncertainty estimates of causal effects. We evaluate our method across various types of datasets and tasks and find that CMDE outperforms state-of-the-art methods on a majority of these tasks.
翻訳日:2023-01-30 17:35:31 公開日:2023-01-26
# シュテルン・ゲルルハの実験 : マグネトフェルトにおけるナヒヴァイスとリヒトゥングスカンテルングの実験」の翻訳

The Stern-Gerlach Experiment, Translation of: "Der experimentelle Nachweis der Richtungsquantelung im Magnetfeld" ( http://arxiv.org/abs/2301.11343v1 )

ライセンス: Link先を確認
Martin Bauer(参考訳) 以下は、Walther GerlachとOtto Sternによる、磁場中の原子の量子化の最初の証拠を報告した論文の翻訳である。 原子は、原子の角モーメントの方向と磁場の間の可能な角度の限られた数に対応する量子状態を持ち、空間量子化とも呼ばれる。 単語とレイアウトは可能な限りオリジナルに近いものとして選択されている。 状況については、最近のレビューを推奨します。

The following is a translation of the paper by Walther Gerlach and Otto Stern that reported the first evidence for the quantisation of atoms in a magnetic field. The atoms have quantum states corresponding to a limited number of possible angles between the directions of the angular momenta of the atoms and the magnetic field, also called space quantisation. Wording and layout have been chosen to be as close to the original as possible. For context we recommend the recent review.
翻訳日:2023-01-30 17:35:14 公開日:2023-01-26
# ニューラルネットワークの反例誘導修復におけるロバスト最適化の視点

A Robust Optimisation Perspective on Counterexample-Guided Repair of Neural Networks ( http://arxiv.org/abs/2301.11342v1 )

ライセンス: Link先を確認
David Boetius, Stefan Leue, Tobias Sutter(参考訳) Counterexample-Guided repairは、数学的安全性を保証するニューラルネットワークの作成を目標とし、安全クリティカルドメインへのニューラルネットワークの適用を容易にする。 しかし、反例による修理が終了を保証されるかどうかは、まだ未解決の問題である。 我々は,反例誘導修復を頑健な最適化アルゴリズムとして捉えることにより,この問題にアプローチする。 ニューラルネットワークの修復自体の終了保証は到達範囲を超えていますが、より抑制された機械学習モデルの終了を証明し、一般的な環境での終了を論じます。 我々は, 理論結果の実用的意義を実証的に研究し, 不利な理論結果にもかかわらず, 共通検証器とファルシファイアの修理適性を示す。 さらに,線形回帰モデルに対する新しいアルゴリズムを考案し,既存の手法を超越した理論的考察を行った。

Counterexample-guided repair aims at creating neural networks with mathematical safety guarantees, facilitating the application of neural networks in safety-critical domains. However, whether counterexample-guided repair is guaranteed to terminate remains an open question. We approach this question by showing that counterexample-guided repair can be viewed as a robust optimisation algorithm. While termination guarantees for neural network repair itself remain beyond our reach, we prove termination for more restrained machine learning models and disprove termination in a general setting. We empirically study the practical implications of our theoretical results, demonstrating the suitability of common verifiers and falsifiers for repair despite a disadvantageous theoretical result. Additionally, we use our theoretical insights to devise a novel algorithm for repairing linear regression models, surpassing existing approaches.
翻訳日:2023-01-30 17:35:05 公開日:2023-01-26
# ハイパーグラフ状態の絡み合い浄化

Entanglement Purification of Hypergraph States ( http://arxiv.org/abs/2301.11341v1 )

ライセンス: Link先を確認
Lina Vandr\'e and Otfried G\"uhne(参考訳) 絡み合いの浄化は、量子情報処理におけるプリミティブであり、いくつかのノイズの多い量子状態のコピーを、局所的な操作や古典的な通信を通じて、ほとんど純度の高い状態のコピーに蒸留する。 特に多粒子の場合、多くの非等価な純粋な状態の絡み合いが存在するため、絡み合いの浄化の作業は複雑であり、異なる標的状態のために浄化プロトコルを調整する必要がある。 本稿では,複数の観点から関係する多ビット状態の族を形成するハイパーグラフ状態の浄化のための最適化プロトコルを提案する。 まず、既存の浄化プロトコルをグラフィカル言語で書き換えることから始める。 これにより、体系的な最適化が可能となり、3方向の改善が図れる。 まず、プロトコルの順序に関して、プロトコルのシーケンスを最適化することができる。 第二に、プロトコル内で得られた測定結果をプロトコルを変更するために使用する適応スキームを用いることができる。 最後に、プロトコルを効率的に改善でき、特定のターゲット状態に到達するためにノイズ状態のコピーを少なくできる。

Entanglement purification describes a primitive in quantum information processing, where several copies of noisy quantum states are distilled into few copies of nearly-pure states of high quality via local operations and classical communication. Especially in the multiparticle case, the task of entanglement purification is complicated, as many inequivalent forms of pure state entanglement exist and purification protocols need to be tailored for different target states. In this paper we present optimized protocols for the purification of hypergraph states, which form a family of multi-qubit states that are relevant from several perspectives. We start by reformulating an existing purification protocol in a graphical language. This allows for systematical optimization and we present improvements in three directions. First, one can optimize the sequences of the protocol with respect to the ordering of the parties. Second, one can use adaptive schemes, where the measurement results obtained within the protocol are used to modify the protocols. Finally, one can improve the protocol with respect to the efficiency, requiring fewer copies of noisy states to reach a certain target state.
翻訳日:2023-01-30 17:34:50 公開日:2023-01-26
# 相対論的原理からの微分位相シフトQKDの安全性

Security of differential phase shift QKD from relativistic principles ( http://arxiv.org/abs/2301.11340v1 )

ライセンス: Link先を確認
Martin Sandfuchs, Marcus Haberland, V. Vilasini, Ramona Wolf(参考訳) セキュアな鍵生成のための量子プロトコルの設計は多くの課題を生んでいる。 一方で、それらの理論的記述は、すべての攻撃の可能性に対するセキュリティ証明を可能にするほど単純でなければならない。 多くの場合、これら2つの要件は相反しており、差分位相シフト(dps)qkdプロトコルは、その優れた例である: このプロトコルのために、多くの標準セキュリティ証明技術が適用されないコストで、現在の光通信技術で実装できるように設計されている。 本研究は, DPS QKD の一般攻撃に対するセキュリティ証明として, 有限サイズ効果を含む最初のものである。 この証明は、量子情報理論、量子光学、相対性理論の技法を組み合わせている。 まず,相対論的制約に起因するQKDプロトコルのセキュリティ証明を行う。 次に、DPS QKDを相対論的プロトコルの例として定式化できることを示す。 さらに、DPSプロトコルに対するコヒーレントな攻撃は、実際には集団攻撃よりも強いことを示す。

The design of quantum protocols for secure key generation poses many challenges: On the one hand, they need to be practical concerning experimental realisations. On the other hand, their theoretical description must be simple enough to allow for a security proof against all possible attacks. Often, these two requirements are in conflict with each other, and the differential phase shift (DPS) QKD protocol is an excellent example of this: It is designed to be implementable with current optical telecommunication technology, which, for this protocol, comes at the cost that many standard security proof techniques do not apply to it. In this work, we give the first full security proof of DPS QKD against general attacks, including finite-size effects. The proof combines techniques from quantum information theory, quantum optics, and relativity. We first give a security proof of a QKD protocol whose security stems from relativistic constraints. We then show that DPS QKD can be formulated as an instance of the relativistic protocol. In addition, we show that coherent attacks on the DPS protocol are, in fact, stronger than collective attacks.
翻訳日:2023-01-30 17:34:35 公開日:2023-01-26
# ボソニック皮膚効果:非対称輸送における境界凝縮

The bosonic skin effect: boundary condensation in asymmetric transport ( http://arxiv.org/abs/2301.11339v1 )

ライセンス: Link先を確認
Louis Garbe, Yuri Minoguchi, Julian Huber, Peter Rabl(参考訳) 非対称単純包含法(asip)によりモデル化された、左右のホッピング率の異なる1次元格子によるボソニック粒子の非コヒーレント輸送について検討した。 具体的には, このシステムを通過する電流が増加するにつれて, 境界近傍の定常密度プロファイルにおける特徴的なジグザグパターンの出現によって表される遷移が起こることを示す。 この非常に珍しい輸送相では、局所粒子分布は、u(1)対称性が破れたボース凝縮状態との熱分布の間の各部位で交互に変化する。 さらに, この位相の開始はいわゆる非エルミート皮膚効果と密接に関連しており, 密度変動スペクトルの異常点と一致することを示した。 したがって、この効果は量子輸送、非平衡凝縮現象と非エルミティアトポロジーの直接的な関係を確立し、これは低温原子実験や長寿命フォトニック、偏光、プラズモン励起を持つ系で探究できる。

We study the incoherent transport of bosonic particles through a one dimensional lattice with different left and right hopping rates, as modelled by the asymmetric simple inclusion process (ASIP). Specifically, we show that as the current passing through this system increases, a transition occurs, which is signified by the appearance of a characteristic zigzag pattern in the stationary density profile near the boundary. In this highly unusual transport phase, the local particle distribution alternates on every site between a thermal distribution and a Bose-condensed state with broken U(1)-symmetry. Furthermore, we show that the onset of this phase is closely related to the so-called non-Hermitian skin effect and coincides with an exceptional point in the spectrum of density fluctuations. Therefore, this effect establishes a direct connection between quantum transport, non-equilibrium condensation phenomena and non-Hermitian topology, which can be probed in cold-atom experiments or in systems with long-lived photonic, polaritonic and plasmonic excitations.
翻訳日:2023-01-30 17:34:19 公開日:2023-01-26
# 測定による新しい臨界状態

New critical states induced by measurement ( http://arxiv.org/abs/2301.11337v1 )

ライセンス: Link先を確認
Xinyu Sun, Hong Yao, Shao-Kai Jian(参考訳) 物質の新しい臨界状態を見つけることは、現代の多体物理学において重要な主題である。 本稿では,Luttinger液体理論の臨界基底状態に対する測定とポストセレクションの効果について検討し,定性的に新しい臨界状態をもたらすことを示す。 ルッティンガーパラメータ$K$により、測定の効果は、K>1$$$K<1$で無関係(関連)である。 これは2つの位相間の絡み合い遷移を引き起こし、一方は部分領域(k>1$)に対して対数絡み合いエントロピーを持ち、もう一方は代数的絡み合いエントロピー(k<1$)となる。 臨界点$K=1$では、測定値が限界であり、エントロピーの絡み合いが測定強度の関数として連続的な有効中心電荷を持つ対数的挙動を示す新しい臨界状態が見つかる。 また, 数値密度行列再正規化群とフェルミオンガウス状態シミュレーションを行い, 実験結果を裏付けた。 我々の研究は、新しい臨界状態を実験的に実現するための有望で実現可能な経路を提供すると信じています。

Finding new critical states of matter is an important subject in modern many-body physics. Here we study the effect of measurement and postselection on the critical ground state of a Luttinger liquid theory and show that it can lead to qualitatively new critical states. Depending on the Luttinger parameter $K$, the effect of measurement is irrelevant (relevant) at $K>1$ ($K<1$). We reveal that this causes an entanglement transition between two phases, one with logarithmic entanglement entropy for a subregion ($K>1$), and the other an algebraic entanglement entropy ($K<1$). At the critical point $K=1$, the measurement is marginal, and we find new critical states whose entanglement entropy exhibits a logarithmic behavior with a continuous effective central charge as a function of measurement strength. We also performed numerical density matrix renormalization group and fermionic Gaussian state simulations to support our results. We believe that our work provides a promising and feasible route to experimentally realize new critical states.
翻訳日:2023-01-30 17:34:00 公開日:2023-01-26
# 時系列からの因果構造学習:凸最適化アプローチ

Causal Structural Learning from Time Series: A Convex Optimization Approach ( http://arxiv.org/abs/2301.11336v1 )

ライセンス: Link先を確認
Song Wei, Yao Xie(参考訳) 観測データから有向非循環グラフ(dag)を学ぶことを目的とした構造学習は、因果推論と科学的発見の基盤である。 近年、構造学習を連続最適化問題に定式化しているが、DAG学習は依然として非凸問題であり、因果構造学習によく発達した凸最適化技術を活用する研究はあまり行われていない。 このギャップを補うために、時系列データから因果構造学習のためのデータ適応線形アプローチを提案し、最近開発された単調演算子変分不等式(VI)を用いて凸最適化問題に都合よく打ち込むことができる。 さらに,viベースアプローチの非漸近的回復保証を確立し,提案手法が既存の手法よりも優れた性能を示す。

Structural learning, which aims to learn directed acyclic graphs (DAGs) from observational data, is foundational to causal reasoning and scientific discovery. Recent advancements formulate structural learning into a continuous optimization problem; however, DAG learning remains a highly non-convex problem, and there has not been much work on leveraging well-developed convex optimization techniques for causal structural learning. We fill this gap by proposing a data-adaptive linear approach for causal structural learning from time series data, which can be conveniently cast into a convex optimization problem using a recently developed monotone operator variational inequality (VI) formulation. Furthermore, we establish non-asymptotic recovery guarantee of the VI-based approach and show the superior performance of our proposed method on structure recovery over existing methods via extensive numerical experiments.
翻訳日:2023-01-30 17:33:43 公開日:2023-01-26
# リモートセンシング画像シーン分類のためのユニバーサルドメイン適応

Universal Domain Adaptation for Remote Sensing Image Scene Classification ( http://arxiv.org/abs/2301.11387v1 )

ライセンス: Link先を確認
Qingsong Xu, Yilei Shi, Xin Yuan, Xiao Xiang Zhu(参考訳) これらの手法(教師なしのdaなど)は、ソースとターゲットドメインのラベルセットの関係に関する豊富な事前知識に依存しており、ソースデータはプライバシーや機密性の問題のためにアクセスできないことが多いため、これまで利用可能なドメイン適応(da)アプローチは、リモートセンシング画像分類の実用的なdaシナリオには適していない。 そこで本稿では,ラベルセットに関する事前知識を必要としないリモートセンシング画像シーン分類のための,実用的なユニバーサルドメイン適応設定を提案する。 さらに、ソースデータが利用できない場合に、ソースデータのない新しいユニバーサルドメイン適応法を提案する。 モデルのアーキテクチャは、ソースデータ生成段階とモデル適応段階の2つの部分に分けられる。 第1段階では、ソース領域におけるクラス分離可能性の知識を用いて、事前訓練されたモデルからソースデータの条件分布を推定し、ソースデータを合成する。 この合成ソースデータが手元にある場合、対象のサンプルがソースラベルセットのどのカテゴリに属しているかを正確に分類する普遍的なdaタスクとなり、そうでない場合は `unknown" とマークする。 第2段階では、各ドメイン内の共有ラベルセットとプライベートラベルセットを区別する新しい転送可能なウェイトが、自動的に検出された共有ラベルセットの適応を促進し、'未知'サンプルを正常に認識する。 実験の結果,提案モデルは,ソースデータの有無に関わらず,リモートセンシング画像シーン分類に有効かつ実用的であることがわかった。 コードはhttps://github.com/zhu-xlab/UniDAで入手できる。

The domain adaptation (DA) approaches available to date are usually not well suited for practical DA scenarios of remote sensing image classification, since these methods (such as unsupervised DA) rely on rich prior knowledge about the relationship between label sets of source and target domains, and source data are often not accessible due to privacy or confidentiality issues. To this end, we propose a practical universal domain adaptation setting for remote sensing image scene classification that requires no prior knowledge on the label sets. Furthermore, a novel universal domain adaptation method without source data is proposed for cases when the source data is unavailable. The architecture of the model is divided into two parts: the source data generation stage and the model adaptation stage. The first stage estimates the conditional distribution of source data from the pre-trained model using the knowledge of class-separability in the source domain and then synthesizes the source data. With this synthetic source data in hand, it becomes a universal DA task to classify a target sample correctly if it belongs to any category in the source label set, or mark it as ``unknown" otherwise. In the second stage, a novel transferable weight that distinguishes the shared and private label sets in each domain promotes the adaptation in the automatically discovered shared label set and recognizes the ``unknown'' samples successfully. Empirical results show that the proposed model is effective and practical for remote sensing image scene classification, regardless of whether the source data is available or not. The code is available at https://github.com/zhu-xlab/UniDA.
翻訳日:2023-01-30 17:27:01 公開日:2023-01-26
# 臨床物語から健康の社会的決定要因を抽出するための課題定式化

Task formulation for Extracting Social Determinants of Health from Clinical Narratives ( http://arxiv.org/abs/2301.11386v1 )

ライセンス: Link先を確認
Manabu Torii, Ian M. Finn, Son Doan, Paul Wang, Elly W. Yang, Daniel S. Zisook(参考訳) 目的: 2022 n2c2 NLP Challengeでは、臨床物語における社会的健康決定因子(SDOH)の同定が提案された。 そこで本研究では,本課題のために開発した3つのシステムについて述べる。 Materials and Methods: 最初のシステムは、機械学習の分類器を用いて、目的の情報を独立して識別する。 第2のシステムは、文書ごとに完全に構造化された出力を抽出するために、大きな言語モデル(LLM)を使用する。 第3のシステムは、機械学習を用いて候補句を抽出し、手作りルールとターゲット関係を識別する。 結果: この3つのシステムは,15チーム中3位,7位,8位のサブタスクAで0.884,0.831,0.663得点を達成した。 本システムからの抽出結果のレビューにより,各アプローチの特徴とsodh抽出タスクの特徴が明らかになった。 議論: タスクにアノテートされたフレーズとリレーションはユニークで多様であり、従来のイベント抽出タスクに準拠していない。 これらのアノテーションは、限られたトレーニングデータでモデル化することが難しい。 注釈付き関係を無視して独立して情報を抽出するシステムは、最高F1スコアを得る。 一方、llmの汎用性は、注釈付き関係を尊重しながら高いf1スコアを達成する。 規則に基づく関係抽出はF1スコアが低く、最も説明可能なアプローチである。 結論:3つのシステムのf1スコアはこの課題設定で異なるが,それぞれのアプローチには実用上のメリットとデメリットがある。 アプローチの選択は、F1スコアだけでなく、アプリケーションの要件にも依存します。

Objective: The 2022 n2c2 NLP Challenge posed identification of social determinants of health (SDOH) in clinical narratives. We present three systems that we developed for the Challenge and discuss the distinctive task formulation used in each of the three systems. Materials and Methods: The first system identifies target pieces of information independently using machine learning classifiers. The second system uses a large language model (LLM) to extract complete structured outputs per document. The third system extracts candidate phrases using machine learning and identifies target relations with hand-crafted rules. Results: The three systems achieved F1 scores of 0.884, 0.831, and 0.663 in the Subtask A of the Challenge, which are ranked third, seventh, and eighth among the 15 participating teams. The review of the extraction results from our systems reveals characteristics of each approach and those of the SODH extraction task. Discussion: Phrases and relations annotated in the task is unique and diverse, not conforming to the conventional event extraction task. These annotations are difficult to model with limited training data. The system that extracts information independently, ignoring the annotated relations, achieves the highest F1 score. Meanwhile, LLM with its versatile capability achieves the high F1 score, while respecting the annotated relations. The rule-based system tackling relation extraction obtains the low F1 score, while it is the most explainable approach. Conclusion: The F1 scores of the three systems vary in this challenge setting, but each approach has advantages and disadvantages in a practical application. The selection of the approach depends not only on the F1 score but also on the requirements in the application.
翻訳日:2023-01-30 17:26:35 公開日:2023-01-26
# mg-gnn:多レベル領域分割法学習のためのマルチグリッドグラフニューラルネットワーク

MG-GNN: Multigrid Graph Neural Networks for Learning Multilevel Domain Decomposition Methods ( http://arxiv.org/abs/2301.11378v1 )

ライセンス: Link先を確認
Ali Taghibakhshi, Nicolas Nytko, Tareq Uz Zaman, Scott MacLachlan, Luke Olson, Matthew West(参考訳) ドメイン分解法 (DDM) は、偏微分方程式 (PDE) の離散化系(英語版)の1レベルおよび多レベル変種に対する一般的な解法である。 これらの解法はいくつかのアルゴリズム的および数学的パラメータ、重なり合い、サブドメイン境界条件、その他のDDMの性質に依存している。 これらのパラメータを最適化する作業がいくつか行われているが、主に1レベル設定や、通常のサブドメイン構成による構造化グリッド離散化のような特別なケースに焦点を当てている。 本稿では,2レベルDDMで最適化されたパラメータを学習するための新しいGNNアーキテクチャである,マルチグリッドグラフニューラルネットワーク(MG-GNN)を提案する。 我々は,新しい教師なし損失関数を用いてmg-gnnを訓練し,非構造化グリッドの頑健な性能をもたらす小さな問題に対する効果的なトレーニングを可能にした。 この最適化のためにmg-gnnは一般的な階層グラフネットワークアーキテクチャよりも優れており,提案する損失関数は性能向上に不可欠である。

Domain decomposition methods (DDMs) are popular solvers for discretized systems of partial differential equations (PDEs), with one-level and multilevel variants. These solvers rely on several algorithmic and mathematical parameters, prescribing overlap, subdomain boundary conditions, and other properties of the DDM. While some work has been done on optimizing these parameters, it has mostly focused on the one-level setting or special cases such as structured-grid discretizations with regular subdomain construction. In this paper, we propose multigrid graph neural networks (MG-GNN), a novel GNN architecture for learning optimized parameters in two-level DDMs\@. We train MG-GNN using a new unsupervised loss function, enabling effective training on small problems that yields robust performance on unstructured grids that are orders of magnitude larger than those in the training set. We show that MG-GNN outperforms popular hierarchical graph network architectures for this optimization and that our proposed loss function is critical to achieving this improved performance.
翻訳日:2023-01-30 17:26:08 公開日:2023-01-26
# ニューラルネットワークは意思決定境界付近の領域を拡大する

Neural networks learn to magnify areas near decision boundaries ( http://arxiv.org/abs/2301.11375v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Sheng Yang and Julian A. Rubinfien and Cengiz Pehlevan(参考訳) ニューラルネットワーク特徴写像によって誘導されるリーマン幾何学の学習方法を検討する。 無限の幅では、ランダムパラメータを持つニューラルネットワークは入力空間上で高度に対称なメトリクスを誘導する。 分類タスクを実行するために訓練されたネットワークにおける特徴学習は、決定境界に沿った地域を拡大する。 これらの変化は、前述した一般化を改善するためにカーネルメソッドのハンドチューニングのための幾何学的アプローチと一致している。

We study how training molds the Riemannian geometry induced by neural network feature maps. At infinite width, neural networks with random parameters induce highly symmetric metrics on input space. Feature learning in networks trained to perform classification tasks magnifies local areas along decision boundaries. These changes are consistent with previously proposed geometric approaches for hand-tuning of kernel methods to improve generalization.
翻訳日:2023-01-30 17:25:48 公開日:2023-01-26
# ロバストネス証明書による政策最適化

Policy Optimization with Robustness Certificates ( http://arxiv.org/abs/2301.11374v1 )

ライセンス: Link先を確認
Chenxi Yang, Greg Anderson, Swarat Chaudhuri(参考訳) 本稿では,学習したポリシが機械チェック可能な対向ロバスト性証明書を付与するポリシ最適化フレームワークを提案する。 我々のアプローチはCAROLと呼ばれ、環境のモデルを学ぶ。 各学習イテレーションでは、このモデルの現行バージョンと外部抽象インタプリタを使用して、証明可能な堅牢性のための識別可能な信号を構築する。 このシグナルはポリシー学習のガイドとして使われ、その構築に使用される抽象的な解釈は、収束時に返される堅牢性証明書に繋がる。 我々は、CAROLの最悪の累積報酬を束縛する理論的解析を行う。 また,4つのMuJoCo環境におけるCAROLを実験的に評価した。 連続状態とアクション空間を含むこれらのタスクにおいて、CAROLは、最先端のロバストなRL手法を用いて学んだ(認定されていない)ポリシーに匹敵するパフォーマンスを持つ認定されたポリシーを学ぶ。

We present a policy optimization framework in which the learned policy comes with a machine-checkable certificate of adversarial robustness. Our approach, called CAROL, learns a model of the environment. In each learning iteration, it uses the current version of this model and an external abstract interpreter to construct a differentiable signal for provable robustness. This signal is used to guide policy learning, and the abstract interpretation used to construct it directly leads to the robustness certificate returned at convergence. We give a theoretical analysis that bounds the worst-case accumulative reward of CAROL. We also experimentally evaluate CAROL on four MuJoCo environments. On these tasks, which involve continuous state and action spaces, CAROL learns certified policies that have performance comparable to the (non-certified) policies learned using state-of-the-art robust RL methods.
翻訳日:2023-01-30 17:25:43 公開日:2023-01-26
# 教師なし異常検出のための一致学習

Coincident Learning for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2301.11368v1 )

ライセンス: Link先を確認
Ryan Humble, Zhe Zhang, Finn O'Shea, Eric Darve, Daniel Ratner(参考訳) 異常検出は複雑なシステム(例えば、工業施設、製造、大規模科学実験)にとって重要な課題であり、サブシステムの故障は、低収率や不良品、部品の損傷につながる可能性がある。 複雑なシステムはしばしば豊富なデータを持っているが、ラベル付き異常は通常稀(あるいは存在しない)で、取得する費用がかかる。 本稿では,1つのサブシステムにおける異常動作が下流サブシステムや製品に一致する異常を発生させることを期待して,ラベルなしデータに対する異常検出モデルのトレーニングを行うcoadと呼ばれる新しい手法を提案する。 データを2つのストリーム$s$と$q$(サブシステム診断と最終製品品質)に分割すると、教師なしの計量である$\hat{F}_\beta$を、教師付き分類の$F_\beta$ statisticに例えて定義する。 本手法は, 合成時系列データセット, mnistから生成された合成画像データセット, 金属ミリングデータセット, 粒子加速器から取得したデータセットの4つのケースで実証する。

Anomaly detection is an important task for complex systems (e.g., industrial facilities, manufacturing, large-scale science experiments), where failures in a sub-system can lead to low yield, faulty products, or even damage to components. While complex systems often have a wealth of data, labeled anomalies are typically rare (or even nonexistent) and expensive to acquire. In this paper, we introduce a new method, called CoAD, for training anomaly detection models on unlabeled data, based on the expectation that anomalous behavior in one sub-system will produce coincident anomalies in downstream sub-systems and products. Given data split into two streams $s$ and $q$ (i.e., subsystem diagnostics and final product quality), we define an unsupervised metric, $\hat{F}_\beta$, out of analogy to the supervised classification $F_\beta$ statistic, which quantifies the performance of the independent anomaly detection algorithms on s and q based on their coincidence rate. We demonstrate our method in four cases: a synthetic time-series data set, a synthetic imaging data set generated from MNIST, a metal milling data set, and a data set taken from a particle accelerator.
翻訳日:2023-01-30 17:25:27 公開日:2023-01-26
# マルチスタイル画像キャプションのためのスタイル認識コントラスト学習

Style-Aware Contrastive Learning for Multi-Style Image Captioning ( http://arxiv.org/abs/2301.11367v1 )

ライセンス: Link先を確認
Yucheng Zhou, Guodong Long(参考訳) 既存のマルチスタイル画像キャプション手法は、正確な視覚内容と望ましい言語スタイルのキャプションを生成する上で有望な結果を示す。 しかし、既存の手法では言語スタイルと視覚内容の関係を見落としている。 この欠点を克服するために,マルチスタイル画像キャプションのためのスタイル認識コントラスト学習を提案する。 まず,スタイルに関連する潜在的な視覚コンテンツをマイニングするために,コントラスト学習を伴うスタイル認識型ビジュアルエンコーダを提案する。 さらに,画像,スタイル,キャプションが一致するか否かを識別するためのスタイル認識三重項コントラスト目標を提案する。 本研究では,オブジェクトベース検索,roiベース検索,トリプレットベース検索の3つの検索方式と,動的トレードオフ関数の設計と,検索スコアの算出を行う。 実験により,本手法が最先端性能を実現することを示す。 また,本手法の有効性を検証するために広範な分析を行った。

Existing multi-style image captioning methods show promising results in generating a caption with accurate visual content and desired linguistic style. However, existing methods overlook the relationship between linguistic style and visual content. To overcome this drawback, we propose style-aware contrastive learning for multi-style image captioning. First, we present a style-aware visual encoder with contrastive learning to mine potential visual content relevant to style. Moreover, we propose a style-aware triplet contrast objective to distinguish whether the image, style and caption matched. To provide positive and negative samples for contrastive learning, we present three retrieval schemes: object-based retrieval, RoI-based retrieval and triplet-based retrieval, and design a dynamic trade-off function to calculate retrieval scores. Experimental results demonstrate that our approach achieves state-of-the-art performance. In addition, we conduct an extensive analysis to verify the effectiveness of our method.
翻訳日:2023-01-30 17:25:02 公開日:2023-01-26
# テキストガイド画像インパインティングにおけるクロスモーダルアライメントの改善

Improving Cross-modal Alignment for Text-Guided Image Inpainting ( http://arxiv.org/abs/2301.11362v1 )

ライセンス: Link先を確認
Yucheng Zhou, Guodong Long(参考訳) テキスト誘導画像塗装(TGII)は、損傷画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。 既存の手法は、強力な視覚エンコーダとクロスモーダルな融合モデルに基づいて、クロスモーダルな特徴を統合する。 しかし、これらの手法は視覚エンコーディングにほとんどの計算を割り当てる一方で、モダリティ相互作用のモデリングにおける軽量な計算を行う。 さらに、テキストと画像の微妙なアライメントを無視した奥行き特徴に対して、クロスモーダル融合を行う。 近年,視覚言語事前学習モデル (VLPM) は多モーダルタスクの多くにおいて,多モーダルアライメントの豊富な知識をカプセル化している。 本研究では, クロスモーダルアライメント(CMA)を改善したTGIIの新しいモデルを提案する。 CMAモデルは、視覚言語エンコーダとしてのVLPM、画像生成器、グローバルローカル識別器からなる。 画像復元のためのクロスモーダルアライメント知識を探るため,クロスモーダルアライメント蒸留とインサンプル分布蒸留を導入する。 さらに,複雑な構造の欠落領域を効果的に埋めるモデルを強化するために,敵の訓練を採用する。 2つの一般的な視覚言語データセットで実験を行う。 以上の結果から,本モデルが他の強力な競合相手と比較して最先端の性能を達成することを示す。

Text-guided image inpainting (TGII) aims to restore missing regions based on a given text in a damaged image. Existing methods are based on a strong vision encoder and a cross-modal fusion model to integrate cross-modal features. However, these methods allocate most of the computation to visual encoding, while light computation on modeling modality interactions. Moreover, they take cross-modal fusion for depth features, which ignores a fine-grained alignment between text and image. Recently, vision-language pre-trained models (VLPM), encapsulating rich cross-modal alignment knowledge, have advanced in most multimodal tasks. In this work, we propose a novel model for TGII by improving cross-modal alignment (CMA). CMA model consists of a VLPM as a vision-language encoder, an image generator and global-local discriminators. To explore cross-modal alignment knowledge for image restoration, we introduce cross-modal alignment distillation and in-sample distribution distillation. In addition, we employ adversarial training to enhance the model to fill the missing region in complicated structures effectively. Experiments are conducted on two popular vision-language datasets. Results show that our model achieves state-of-the-art performance compared with other strong competitors.
翻訳日:2023-01-30 17:24:48 公開日:2023-01-26
# 1x1の畳み込みを再考する: 凍結ランダムフィルタでCNNをトレーニングできるか?

Rethinking 1x1 Convolutions: Can we train CNNs with Frozen Random Filters? ( http://arxiv.org/abs/2301.11360v1 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) 現代のCNNは多数の畳み込み演算子の重みを学習している。 本稿では,これが実際に必要かどうかという基本的な疑問を提起する。 空間フィルタをランダムに初期化して更新しない極端な場合においても、特定のCNNアーキテクチャは標準トレーニングの精度を超えるように訓練可能であることを示す。 凍結された(ランダムな)空間フィルタの線形結合(LC)を学習する演算子として、ポイントワイズ(1\times 1$)畳み込みの概念を再解釈することにより、これらの効果を分析し、線形結合率のチューニングを可能にする汎用LC畳み込みブロックを提案する。 実験により,本手法はCIFAR や ImageNet 上で高い精度を達成できるだけでなく,モデルロバスト性,一般化,空間性,必要な重量の総数に関して,良好な特性を持つことを示す。 さらに,全空間畳み込み層間の1重みテンソルの共有を可能とし,重み数を大幅に削減できる新しい重み共有機構を提案する。

Modern CNNs are learning the weights of vast numbers of convolutional operators. In this paper, we raise the fundamental question if this is actually necessary. We show that even in the extreme case of only randomly initializing and never updating spatial filters, certain CNN architectures can be trained to surpass the accuracy of standard training. By reinterpreting the notion of pointwise ($1\times 1$) convolutions as an operator to learn linear combinations (LC) of frozen (random) spatial filters, we are able to analyze these effects and propose a generic LC convolution block that allows tuning of the linear combination rate. Empirically, we show that this approach not only allows us to reach high test accuracies on CIFAR and ImageNet but also has favorable properties regarding model robustness, generalization, sparsity, and the total number of necessary weights. Additionally, we propose a novel weight sharing mechanism, which allows sharing of a single weight tensor between all spatial convolution layers to massively reduce the number of weights.
翻訳日:2023-01-30 17:24:26 公開日:2023-01-26
# 画像誘導ストーリーエンディング生成のためのマルチモーダルイベントトランス

Multimodal Event Transformer for Image-guided Story Ending Generation ( http://arxiv.org/abs/2301.11357v1 )

ライセンス: Link先を確認
Yucheng Zhou, Guodong Long(参考訳) 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。 既存の手法では、クロスモーダルな特徴融合にフォーカスしているが、推論や、ストーリープロットやエンディングイメージからの暗黙の情報のマイニングは見落としている。 この欠点に対処するため、IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。 具体的には、ストーリープロットとエンドイメージから視覚的かつセマンティックなイベントグラフを構築し、イベントベースの推論を利用して、暗黙の情報を単一のモダリティで推論しマイニングする。 次に,視覚的およびセマンティックなイベントグラフを接続し,クロスモーダル融合を利用して異なるモーダリティ機能を統合する。 さらに,デコーダに必須情報を適応的に渡すマルチモーダルインジェクタを提案する。 さらに,ストーリープロットの文脈理解とモデルに対するグラフモデリングの堅牢性を高めるために,一貫性のない検出手法を提案する。 実験結果から,本手法は画像誘導ストーリーエンディング生成のための最先端性能を実現する。

Image-guided story ending generation (IgSEG) is to generate a story ending based on given story plots and ending image. Existing methods focus on cross-modal feature fusion but overlook reasoning and mining implicit information from story plots and ending image. To tackle this drawback, we propose a multimodal event transformer, an event-based reasoning framework for IgSEG. Specifically, we construct visual and semantic event graphs from story plots and ending image, and leverage event-based reasoning to reason and mine implicit information in a single modality. Next, we connect visual and semantic event graphs and utilize cross-modal fusion to integrate different-modality features. In addition, we propose a multimodal injector to adaptive pass essential information to decoder. Besides, we present an incoherence detection to enhance the understanding context of a story plot and the robustness of graph modeling for our model. Experimental results show that our method achieves state-of-the-art performance for the image-guided story ending generation.
翻訳日:2023-01-30 17:24:07 公開日:2023-01-26
# カーネルメソッドのスケールアップのための簡易アルゴリズム

A Simple Algorithm For Scaling Up Kernel Methods ( http://arxiv.org/abs/2301.11414v1 )

ライセンス: Link先を確認
Teng Andrea Xu, Bryan Kelly, Semyon Malamud(参考訳) 遅延トレーニング体制における無限広ニューラルネットワーク(NN)とニューラルタンジェントカーネル(NTK)の同値性の発見(Jacot et al., 2018)により、カーネルメソッドへの関心が復活した。 しかしながら、カーネルメソッドは計算の複雑さとメモリ要件のために大規模なサンプルには適さない、という従来の知見は示唆している。 そこで我々は,無作為な特徴を無作為に無限個までスケールできる,新しいランダムな特徴回帰アルゴリズムを提案する。 CIFAR-10データセット上で,本手法の性能について述べる。

The recent discovery of the equivalence between infinitely wide neural networks (NNs) in the lazy training regime and Neural Tangent Kernels (NTKs) (Jacot et al., 2018) has revived interest in kernel methods. However, conventional wisdom suggests kernel methods are unsuitable for large samples due to their computational complexity and memory requirements. We introduce a novel random feature regression algorithm that allows us (when necessary) to scale to virtually infinite numbers of random features. We illustrate the performance of our method on the CIFAR-10 dataset.
翻訳日:2023-01-30 17:18:26 公開日:2023-01-26
# 統一フレームワークにおける自己テスト複合測定と束縛絡み状態

Self-testing composite measurements and bound entangled state in a unified framework ( http://arxiv.org/abs/2301.11409v1 )

ライセンス: Link先を確認
Shubhayan Sarkar, Chandan Datta, Saronath Halder, Remigiusz Augusiak(参考訳) 量子ネットワークのシナリオの中では、3量子ヒルベルト空間に作用する3種類の複合射影測度を認証するための単一のスキームを導入する。1つは真に絡み合ったGHZ様の状態から構築され、もう1つは非局所性(NLWE)現象を示す完全積ベクトルから構築され、もう1つは拡張不可能な積基底(UPB)から得られるハイブリッド測度である。 特に,この現象を支持することができる最小次元のNLWEを示す基底を認証する。 一方、UPBから得られる測定値の証明の可能性は、検討された量子ネットワークにおいて有界絡み状態も自己テストできるという興味深い意味を持つ。 このような可能性はベルの標準的なシナリオには存在しないようである。

Within the quantum networks scenario, we introduce a single scheme allowing to certify three different types of composite projective measurements acting on a three-qubit Hilbert space: one constructed from genuinely entangled GHZ-like states, one constructed from fully product vectors that exhibit the phenomenon of nonlocality without entanglement (NLWE), and a hybrid measurement obtained from an unextendible product basis (UPB). Noticeably, we certify a basis exhibiting NLWE in the smallest dimension capable of supporting this phenomenon. On the other hand, the possibility of certification of a measurement obtained from a UPB has an interesting implication that one can also self-test a bound entangled state in the considered quantum network. Such a possibility does not seem to exist in the standard Bell scenario.
翻訳日:2023-01-30 17:18:13 公開日:2023-01-26
# DBGDGM: 動的脳グラフ深部生成モデル

DBGDGM: Dynamic Brain Graph Deep Generative Model ( http://arxiv.org/abs/2301.11408v1 )

ライセンス: Link先を確認
Alexander Campbell, Simeon Spasov, Nicola Toschi, Pietro Lio(参考訳) グラフは機能的磁気画像(fMRI)データから得られる脳活動の自然な表現である。 機能的接続ネットワーク(FCN)として知られる解剖学的脳領域のクラスターは、脳の機能や機能不全を理解するのに有用なバイオマーカーとなる時間的関係を符号化することが知られている。 しかし、以前の研究は脳の時間的ダイナミクスを無視し、静的グラフに焦点を当てていた。 本稿では,脳の領域を時間的に進化するコミュニティにクラスタリングし,非教師なしノードの動的埋め込みを学習する動的脳グラフ深部生成モデル(DBGDGM)を提案する。 具体的には、DBGDGMは、時間とともに進化するコミュニティ上の分布からサンプリングされた脳グラフノードを表す。 対象とノードの埋め込みから学習するニューラルネットワークと,過去のコミュニティ割り当てを用いて,このコミュニティ分布をパラメータ化する。 実験では、DBGDGMはグラフ生成、動的リンク予測においてベースラインよりも優れており、グラフ分類に匹敵する。 最後に、学習したコミュニティ分布の分析は、神経科学の文献で報告されている既知のFCNと重複している。

Graphs are a natural representation of brain activity derived from functional magnetic imaging (fMRI) data. It is well known that clusters of anatomical brain regions, known as functional connectivity networks (FCNs), encode temporal relationships which can serve as useful biomarkers for understanding brain function and dysfunction. Previous works, however, ignore the temporal dynamics of the brain and focus on static graphs. In this paper, we propose a dynamic brain graph deep generative model (DBGDGM) which simultaneously clusters brain regions into temporally evolving communities and learns dynamic unsupervised node embeddings. Specifically, DBGDGM represents brain graph nodes as embeddings sampled from a distribution over communities that evolve over time. We parameterise this community distribution using neural networks that learn from subject and node embeddings as well as past community assignments. Experiments demonstrate DBGDGM outperforms baselines in graph generation, dynamic link prediction, and is comparable for graph classification. Finally, an analysis of the learnt community distributions reveals overlap with known FCNs reported in neuroscience literature.
翻訳日:2023-01-30 17:17:57 公開日:2023-01-26
# Beyond Arabic: Perso-Arabic Script 操作のためのソフトウェア

Beyond Arabic: Software for Perso-Arabic Script Manipulation ( http://arxiv.org/abs/2301.11406v1 )

ライセンス: Link先を確認
Alexander Gutkin, Cibu Johny, Raiomond Doctor, Brian Roark, Richard Sproat(参考訳) 本稿では,Perso-Arabicスクリプトを用いた言語記述システムを操作するための有限状態トランスデューサ(FST)コンポーネントセットと,それに対応するユーティリティを提供するオープンソースソフトウェアライブラリを提案する。 この操作には、標準のunicode正規化形式を超えた視覚的な不変性保存操作や、様々な言語からの11の現代言語の地域的正書法に従って文字の視覚的外観を変更する変換など、様々なレベルのスクリプト正規化が含まれている。 ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。 さらに、Unicodeコードポイントからそれらを使用する言語への一対多マッピングを提供することにより、ペルソ・アラビア文字の類型化を試みる。 我々の研究はアラビア語そのものではなくアラビア語の文字であるディアスポラに焦点を当てているが、このアプローチはアラビア語の文字を使用する言語で採用される可能性がある。

This paper presents an open-source software library that provides a set of finite-state transducer (FST) components and corresponding utilities for manipulating the writing systems of languages that use the Perso-Arabic script. The operations include various levels of script normalization, including visual invariance-preserving operations that subsume and go beyond the standard Unicode normalization forms, as well as transformations that modify the visual appearance of characters in accordance with the regional orthographies for eleven contemporary languages from diverse language families. The library also provides simple FST-based romanization and transliteration. We additionally attempt to formalize the typology of Perso-Arabic characters by providing one-to-many mappings from Unicode code points to the languages that use them. While our work focuses on the Arabic script diaspora rather than Arabic itself, this approach could be adopted for any language that uses the Arabic script, thus providing a unified framework for treating a script family used by close to a billion people.
翻訳日:2023-01-30 17:17:40 公開日:2023-01-26
# 判別エントロピークラスタリングの再検討とk-meansとの関係

Revisiting Discriminative Entropy Clustering and its relation to K-means ( http://arxiv.org/abs/2301.11405v1 )

ライセンス: Link先を確認
Zhongwen Zhang, Yuri Boykov(参考訳) モデルの入力と出力の間の相互情報の最大化は、ソフトマックス予測の「決定性」と「フェアネス」と正式に関連しており、識別ニューラルネットワークに対する教師なしエントロピーに基づく損失を動機付けている。 このような損失に基づく最近の自己ラベル手法は、ディープクラスタリングにおける技術の現状を表している。 しかしながら、エントロピークラスタリングの重要な特性のいくつかは、よく知られておらず、誤解されている。 例えば、分散クラスタリング(K-平均)の等価性に関する事前の主張に対する反例を示し、そのような理論の技術的誤りを指摘する。 これらの識別的クラスタリングアプローチと生成的クラスタリングアプローチの根本的な違いについて論じる。 さらに, 標準エントロピークラスタリングの狭いマージンに対する感受性を示し, 明らかなマージン最大化項を動機付ける。 また,疑似ラベル誤りに対して頑健であり,公平性が強い自己ラベル損失の改善を提案する。 我々は,従来の代替手段よりもはるかに高速なEMアルゴリズムを開発した。 その結果,標準ベンチマークの最先端性能が向上した。

Maximization of mutual information between the model's input and output is formally related to "decisiveness" and "fairness" of the softmax predictions, motivating such unsupervised entropy-based losses for discriminative neural networks. Recent self-labeling methods based on such losses represent the state of the art in deep clustering. However, some important properties of entropy clustering are not well-known, or even misunderstood. For example, we provide a counterexample to prior claims about equivalence to variance clustering (K-means) and point out technical mistakes in such theories. We discuss the fundamental differences between these discriminative and generative clustering approaches. Moreover, we show the susceptibility of standard entropy clustering to narrow margins and motivate an explicit margin maximization term. We also propose an improved self-labeling loss; it is robust to pseudo-labeling errors and enforces stronger fairness. We develop an EM algorithm for our loss that is significantly faster than the standard alternatives. Our results improve the state-of-the-art on standard benchmarks.
翻訳日:2023-01-30 17:17:22 公開日:2023-01-26
# オンラインフォーラムによるポンプ・ダンプ市場操作の検出

Detecting Pump&Dump Stock Market Manipulation from Online Forums ( http://arxiv.org/abs/2301.11403v1 )

ライセンス: Link先を確認
D. Nam and D.B. Skillicorn(参考訳) ソーシャルメディア、低コスト取引プラットフォーム、そしてナイーブな投資家の交わりは、情報ベースの市場操作、特にポンプ&ダンプにとって理想的な状況を生み出した。 マニピュレータは小額の株式を蓄積し、ソーシャルメディア上で偽情報を拡散して価格を上昇させ、ピーク時に販売する。 私たちは、価格とボリュームプロファイルがポンプ&ダンプの特徴的な形を持つ株式のデータセットと、初期価格上昇のタイミングに合致する同じ株式のソーシャルメディア投稿を収集します。 これらから,ソーシャルメディア投稿で使用される言語に基づいて,ポンプ・ダンプイベントの予測モデルを構築する。 すべての投稿が意図された市場反応を引き起こすわけではないし、いくつかのポンプ&ダンプイベントが他のフォーラムの投稿によって引き起こされる可能性があり、また、ポストのタイミングと市場の動きが偶然に合流する可能性がある。 それにもかかわらず、最良のモデルは85%の予測精度を達成し、f1-scoreは62%である。 このようなツールは、投資家や規制当局にポンプ&ダンプが進行中であることを早期に警告することができる。

The intersection of social media, low-cost trading platforms, and naive investors has created an ideal situation for information-based market manipulations, especially pump&dumps. Manipulators accumulate small-cap stocks, disseminate false information on social media to inflate their price, and sell at the peak. We collect a dataset of stocks whose price and volume profiles have the characteristic shape of a pump&dump, and social media posts for those same stocks that match the timing of the initial price rises. From these we build predictive models for pump&dump events based on the language used in the social media posts. There are multiple difficulties: not every post will cause the intended market reaction, some pump&dump events may be triggered by posts in other forums, and there may be accidental confluences of post timing and market movements. Nevertheless, our best model achieves a prediction accuracy of 85% and an F1-score of 62%. Such a tool can provide early warning to investors and regulators that a pump&dump may be underway.
翻訳日:2023-01-30 17:17:05 公開日:2023-01-26
# 氷床モデリングのためのハイブリッド深層ニューラルネットワーク/有限要素法

A Hybrid Deep Neural Operator/Finite Element Method for Ice-Sheet Modeling ( http://arxiv.org/abs/2301.11402v1 )

ライセンス: Link先を確認
QiZhi He, Mauro Perego, Amanda A. Howard, George Em Karniadakis, Panos Stinis(参考訳) 気候モデリングにおける最も困難な問題の一つは、海面上昇の確率的予測を提供することである。 海面投射の不確実性の大部分は、氷床のダイナミックスの不確実性に起因する。 現在、不確実性の正確な定量化は、氷床計算モデルのコストによって妨げられている。 本研究では,既存の氷床計算モデルをそのコストのごく一部で近似するハイブリッド手法を開発した。 本手法は,氷床モデルで最も高価な部分である氷速度の運動量方程式の有限要素モデルからディープオペレーターネットワークに置き換えるとともに,氷厚の進化のための古典的な有限要素離散化を保ちながら構成する。 その結果,ハイブリッドモデルは非常に精度が高く,従来の有限要素モデルよりも桁違いに高速であることが判明した。 さらに, 提案モデルの特徴として, 氷河床の基底摩擦などの高次元パラメータ空間(パラメータ場)を扱えること, したがって不確実性定量化のためのサンプル生成に利用できることが挙げられる。 本研究では,人工氷床モデルにおけるハイパーパラメータ,未知数,パラメータ分布の相関長がディープオペレータネットワークのトレーニングと精度に及ぼす影響について検討した。 次にグリーンランドのハンボルト氷河の進化をターゲットとし、我々のハイブリッドモデルが氷河質量損失の正確な統計を提供し、不確かさの定量化を効果的に加速できることを示す。

One of the most challenging and consequential problems in climate modeling is to provide probabilistic projections of sea level rise. A large part of the uncertainty of sea level projections is due to uncertainty in ice sheet dynamics. At the moment, accurate quantification of the uncertainty is hindered by the cost of ice sheet computational models. In this work, we develop a hybrid approach to approximate existing ice sheet computational models at a fraction of their cost. Our approach consists of replacing the finite element model for the momentum equations for the ice velocity, the most expensive part of an ice sheet model, with a Deep Operator Network, while retaining a classic finite element discretization for the evolution of the ice thickness. We show that the resulting hybrid model is very accurate and it is an order of magnitude faster than the traditional finite element model. Further, a distinctive feature of the proposed model compared to other neural network approaches, is that it can handle high-dimensional parameter spaces (parameter fields) such as the basal friction at the bed of the glacier, and can therefore be used for generating samples for uncertainty quantification. We study the impact of hyper-parameters, number of unknowns and correlation length of the parameter distribution on the training and accuracy of the Deep Operator Network on a synthetic ice sheet model. We then target the evolution of the Humboldt glacier in Greenland and show that our hybrid model can provide accurate statistics of the glacier mass loss and can be effectively used to accelerate the quantification of uncertainty.
翻訳日:2023-01-30 17:16:47 公開日:2023-01-26
# グラフ学習のない因果帯域

Causal Bandits without Graph Learning ( http://arxiv.org/abs/2301.11401v1 )

ライセンス: Link先を確認
Mikhail Konobeev, Jalal Etesami, Negar Kiyavash(参考訳) 因果グラフが未知な場合の因果バンディット問題を調べ,原子間介入を用いて報奨ノードの親ノードを探索する効率的なアルゴリズムを開発した。 アルゴリズムが実施する介入回数の正確な式を導出し、あるグラフィカルな条件下では対数的に速く、あるいはより一般的な仮定の下では、変数数では遅いが、いまだサブ線形に実行可能であることを示す。 我々は、原子間干渉を行うアルゴリズムに対して確立した普遍的な下限を満たすように、我々のアルゴリズムが最適であることを示す。 最後に、報酬ノードが複数の親を持つ場合にアルゴリズムを拡張します。 このアルゴリズムとバンディット文学の標準的なアルゴリズムを併用すると、後悔の限界が改善される。

We study the causal bandit problem when the causal graph is unknown and develop an efficient algorithm for finding the parent node of the reward node using atomic interventions. We derive the exact equation for the expected number of interventions performed by the algorithm and show that under certain graphical conditions it could perform either logarithmically fast or, under more general assumptions, slower but still sublinearly in the number of variables. We formally show that our algorithm is optimal as it meets the universal lower bound we establish for any algorithm that performs atomic interventions. Finally, we extend our algorithm to the case when the reward node has multiple parents. Using this algorithm together with a standard algorithm from bandit literature leads to improved regret bounds.
翻訳日:2023-01-30 17:16:25 公開日:2023-01-26
# 繰り返しを伴う授業実践学習

Class-Incremental Learning with Repetition ( http://arxiv.org/abs/2301.11396v1 )

ライセンス: Link先を確認
Hamed Hemati, Andrea Cossu, Antonio Carta, Julio Hurtado, Lorenzo Pellegrini, Davide Bacciu, Vincenzo Lomonaco, Damian Borth(参考訳) 実世界のデータストリームは、自然に以前の概念の繰り返しを含む。 連続学習(cl)の観点からは、反復は環境の特性であり、リプレイとは異なり、ユーザーによって制御できない。 現在、クラスインクリメンタルシナリオはcl戦略の評価と比較のための主要なテストベッドである。 このシナリオのファミリーは非常に簡単に使えるが、これまで見てきたクラスを再考することは許されず、繰り返しの役割を完全に無視する。 繰り返しがストリームの定義に埋め込まれた繰り返し(cir)シナリオによるクラスインクリメンタルのファミリーに注目します。 本稿では,1つのデータセットといくつかの制御パラメータから,幅広いCIRシナリオを生成する確率シナリオ生成器を提案する。 異なるcirシナリオにおける既存のcl戦略の挙動を調べることにより,clにおける反復の包括的評価を行う。 次に,繰り返しを活用し,ストリームに存在する自然な不均衡を相殺する,新たなリプレイ戦略を提案する。 cifar100とtinyimagenetの両方において、当社の戦略は他のリプレイアプローチよりも優れています。

Real-world data streams naturally include the repetition of previous concepts. From a Continual Learning (CL) perspective, repetition is a property of the environment and, unlike replay, cannot be controlled by the user. Nowadays, Class-Incremental scenarios represent the leading test-bed for assessing and comparing CL strategies. This family of scenarios is very easy to use, but it never allows revisiting previously seen classes, thus completely disregarding the role of repetition. We focus on the family of Class-Incremental with Repetition (CIR) scenarios, where repetition is embedded in the definition of the stream. We propose two stochastic scenario generators that produce a wide range of CIR scenarios starting from a single dataset and a few control parameters. We conduct the first comprehensive evaluation of repetition in CL by studying the behavior of existing CL strategies under different CIR scenarios. We then present a novel replay strategy that exploits repetition and counteracts the natural imbalance present in the stream. On both CIFAR100 and TinyImageNet, our strategy outperforms other replay approaches, which are not designed for environments with repetition.
翻訳日:2023-01-30 17:16:12 公開日:2023-01-26
# s$-diagnostic --single-reference coupled-cluster methodの後方誤差評価

The $S$-diagnostic -- an a posteriori error assessment for single-reference coupled-cluster methods ( http://arxiv.org/abs/2301.11393v1 )

ライセンス: Link先を確認
Fabian M. Faulstich, H{\aa}kon E. Kristiansen, Mihaly A. Csirik, Simen Kvaal, Thomas Bondo Pedersen, Andre Laestadius(参考訳) 本稿では,S$-diagnosticと呼ばれる単一参照結合クラスタ法(SRCC)の後方誤差評価法を提案する。 我々は、異なるSRCC変種の数学的解析に根ざした$S$-diagnosticの導出を提供する。 我々は,(1)幾何最適化,(2)様々な数値困難を持つ系の電子相関シミュレーション,(3)正方平面銅錯体 [CuCl$_4$]$^{2-}$, [Cu(NH$_3$)$_4$]$^{2+}$, [Cu(H$_2$O)$_4$]$^{2+}$,および[Cu(H$_2$O)$_4$]$^{2+}$を数値的に精査した。 数値的な調査を通じて、$S$-diagnostic は他の SRCC 診断手順、すなわち$T_1$, $D_1$, $D_2$ 診断と、結合クラスタ理論における多重行列および多重参照文字の異なる指標と比較される。 我々の数値的な研究は、$S$-diagnosticが$T_1$、$D_1$、$D_2$診断よりも優れており、それぞれの応用分野における結合クラスタ理論における多重行列および多重参照文字の指標に匹敵することを示している。 SRCCを用いた幾何最適化のための$S$-diagnosticの性能を調査した結果、$S$-diagnosticは高い統計的関連性で異なる誤差尺度とよく相関していることがわかった。 電子相関シミュレーションにおける$S$-diagnosticの性能を調べた結果,$S$-diagnosticは強いマルチ参照レギュレーションを正しく予測できることがわかった。 さらに$S$-diagnosticは、[CuCl$_4$]$^{2-}$, [Cu(NH$_3$)$_4$]$^{2+}$, [Cu(H$_2$O)$_4$]$^{2+}$のSRCC計算を正しく検出する。 これは,S$-diagnosticがSRCC計算における後部診断の候補であることを示している。

We propose a novel a posteriori error assessment for the single-reference coupled-cluster (SRCC) method called the $S$-diagnostic. We provide a derivation of the $S$-diagnostic that is rooted in the mathematical analysis of different SRCC variants. We numerically scrutinized the $S$-diagnostic, testing its performance for (1) geometry optimizations, (2) electronic correlation simulations of systems with varying numerical difficulty, and (3) the square-planar copper complexes [CuCl$_4$]$^{2-}$, [Cu(NH$_3$)$_4$]$^{2+}$, and [Cu(H$_2$O)$_4$]$^{2+}$. Throughout the numerical investigations, the $S$-diagnostic is compared to other SRCC diagnostic procedures, that is, the $T_1$, $D_1$, and $D_2$ diagnostics as well as different indices of multi-determinantal and multi-reference character in coupled-cluster theory. Our numerical investigations show that the $S$-diagnostic outperforms the $T_1$, $D_1$, and $D_2$ diagnostics and is comparable to the indices of multi-determinantal and multi-reference character in coupled-cluster theory in their individual fields of applicability. The experiments investigating the performance of the $S$-diagnostic for geometry optimizations using SRCC reveal that the $S$-diagnostic correlates well with different error measures at a high level of statistical relevance. The experiments investigating the performance of the $S$-diagnostic for electronic correlation simulations show that the $S$-diagnostic correctly predicts strong multi-reference regimes. The $S$-diagnostic moreover correctly detects the successful SRCC computations for [CuCl$_4$]$^{2-}$, [Cu(NH$_3$)$_4$]$^{2+}$, and [Cu(H$_2$O)$_4$]$^{2+}$, which have been known to be misdiagnosed by $T_1$ and $D_1$ diagnostics in the past. This shows that the $S$-diagnostic is a promising candidate for an a posteriori diagnostic for SRCC calculations.
翻訳日:2023-01-30 17:15:55 公開日:2023-01-26
# モジュラー理論の学習

Learning Modulo Theories ( http://arxiv.org/abs/2301.11435v1 )

ライセンス: Link先を確認
Matt Fredrikson, Kaiji Lu, Saranya Vijayakumar, Somesh Jha, Vijay Ganesh, Zifan Wang(参考訳) 近年、ディープニューラルネットワーク (dnn) に \emph{solver layers} を統合する技術は、帰納的学習と記号的推論の長年のギャップを埋めることに有望である。 本稿では,SMTLayer と呼ばれるディープネットワーク層の前方・後方通過に \emph{Satisfiability Modulo Theories} (SMT) ソルバを統合する手法について述べる。 このアプローチを用いることで、リッチなドメイン知識を数学的公式の形でネットワークにエンコードすることができる。 前方通過では、解法は、これらの式とともに前の層によって生成されたシンボルを使用して推論を構築し、後方通過では、解法はネットワークへの更新を通知し、解法の理論と互換性のある表現へと誘導する。 特に、解法は微分可能である必要はない。 我々は、pytorch モジュールとして \layername を実装し、経験的な結果から、従来のモデルよりもトレーニングサンプルの少ない \emph{1)}、特定のタイプの共変量シフトに頑健な \emph{2)}、そして最終的に記号的知識に一致する表現を学習する \emph{3)} 、そして自然に解釈可能なモデルへと導かれることが示されている。

Recent techniques that integrate \emph{solver layers} into Deep Neural Networks (DNNs) have shown promise in bridging a long-standing gap between inductive learning and symbolic reasoning techniques. In this paper we present a set of techniques for integrating \emph{Satisfiability Modulo Theories} (SMT) solvers into the forward and backward passes of a deep network layer, called SMTLayer. Using this approach, one can encode rich domain knowledge into the network in the form of mathematical formulas. In the forward pass, the solver uses symbols produced by prior layers, along with these formulas, to construct inferences; in the backward pass, the solver informs updates to the network, driving it towards representations that are compatible with the solver's theory. Notably, the solver need not be differentiable. We implement \layername as a Pytorch module, and our empirical results show that it leads to models that \emph{1)} require fewer training samples than conventional models, \emph{2)} that are robust to certain types of covariate shift, and \emph{3)} that ultimately learn representations that are consistent with symbolic knowledge, and thus naturally interpretable.
翻訳日:2023-01-30 17:08:06 公開日:2023-01-26
# 自由光子の場構造

The Field Structure of Free Photons ( http://arxiv.org/abs/2301.11434v1 )

ライセンス: Link先を確認
Anthony Rizzi(参考訳) 光子の量子場論的な記述を用いて、直感的には予想されるが理論的に証明される前には、光子のベクトルポテンシャルは離散周波数、従ってエネルギー、運動量に付随する可能性のある振幅を持つことを示した。 特に、ベクトルポテンシャルの波動汎関数を見つけることにより、絶対振幅スペクトルは与えられた周波数でデルタ関数を持つことが示されている。 この分析はn-photonシステムにも拡張される。 これらの系はベクトルポテンシャル分布を持ち、最も可能性が高い元素は強い正弦波成分を持ち、単一の光子系よりもn倍エネルギーの振幅を持つ。 異なるエネルギーの光子に対する類似の結果も導出される。 確率系に対するParsevalの定理を用いることで、計算と関連する解析は一般にQFTシュロディンガー波動関数の性質を探索するための単純なツールを導入する。

Using a quantum field theoretic description of the photon it is shown that, as intuitively expected but not before theoretically proven, the vector potential of a photon has a likely amplitude associated with a discrete frequency and therefore energy, and momentum. In particular, by finding the wave-functional for the vector potential, it is shown that the likely absolute amplitude spectrum has delta function at a given frequency. This analysis is extended to n-photon systems. It shows that such systems have a vector potential distribution whose most likely element has a strong sinusoidal component which has an amplitude corresponding to n-fold more energy than a single photon system. An analogous result for photons of different energy is also derived. Through the use of Parseval's theorem for stochastic systems, the calculations and associated analyses introduces a simple tool for exploring the nature of QFT Schrodinger wave-functional generally.
翻訳日:2023-01-30 17:07:45 公開日:2023-01-26
# ロバスト多視点三角測量のための半定値緩和

Semidefinite Relaxations for Robust Multiview Triangulation ( http://arxiv.org/abs/2301.11431v1 )

ライセンス: Link先を確認
Linus H\"arenstam-Nielsen, Niclas Zeller, Daniel Cremers(参考訳) ノイズと外周の両方に頑健なマルチビュー三角測量のための最初の凸緩和法を提案する。 この目的のために、既存の半定値緩和アプローチを、外れ値を考慮した最小二乗コストを含む損失関数に拡張する。 本稿では,エピポーラ制約に基づく2つの定式化と,分数再射方程式に基づく2つの定式化を提案する。 1つ目は低次元であり、中程度の騒音と降圧レベルの下ではきつく、もう1つ目は高次元であり、したがって遅いが、極端な騒音と降圧レベルでもきつい。 提案手法は,実証可能な最適再構成の計算を可能にするとともに,高雑音下でも緩和が密に保たれ,外乱の比率が大きいことを実証的に示す。

We propose the first convex relaxation for multiview triangulation that is robust to both noise and outliers. To this end, we extend existing semidefinite relaxation approaches to loss functions that include a truncated least squares cost to account for outliers. We propose two formulations, one based on epipolar constraints and one based on the fractional reprojection equations. The first is lower dimensional and remains tight under moderate noise and outlier levels, while the second is higher dimensional and therefore slower but remains tight even under extreme noise and outlier levels. We demonstrate through extensive experiments that the proposed approach allows us to compute provably optimal reconstructions and that empirically the relaxations remain tight even under significant noise and a large percentage of outliers.
翻訳日:2023-01-30 17:07:30 公開日:2023-01-26
# 局所的不特定化を伴うモデルベースオフライン強化学習

Model-based Offline Reinforcement Learning with Local Misspecification ( http://arxiv.org/abs/2301.11426v1 )

ライセンス: Link先を確認
Kefan Dong, Yannis Flet-Berliac, Allen Nie, Emma Brunskill(参考訳) 本稿では,動的モデルの誤特定と分布ミスマッチを明示的に捉えたモデルベースオフライン強化学習ポリシー性能下限を提案し,最適オフラインポリシー選択のための経験的アルゴリズムを提案する。 理論的には, ペシミズム近似を値関数に定め, 新たな安全政策改善定理を実証する。 我々の重要な洞察は、動的モデルとポリシーよりも選択を共同で検討することである: 動的モデルが与えられたポリシーが訪れた状態-作用ペアのダイナミクスを正確に表現できる限り、その特定のポリシーの価値を近似することができる。 我々は、LQR設定における下位境界を分析し、D4RLタスクの集合におけるポリシー選択に対する以前の下位境界に対する競合性能を示す。

We present a model-based offline reinforcement learning policy performance lower bound that explicitly captures dynamics model misspecification and distribution mismatch and we propose an empirical algorithm for optimal offline policy selection. Theoretically, we prove a novel safe policy improvement theorem by establishing pessimism approximations to the value function. Our key insight is to jointly consider selecting over dynamics models and policies: as long as a dynamics model can accurately represent the dynamics of the state-action pairs visited by a given policy, it is possible to approximate the value of that particular policy. We analyze our lower bound in the LQR setting and also show competitive performance to previous lower bounds on policy selection across a set of D4RL tasks.
翻訳日:2023-01-30 17:07:18 公開日:2023-01-26
# rmsim:静的患者スキャンによる呼吸運動シミュレーション

RMSim: Controlled Respiratory Motion Simulation on Static Patient Scans ( http://arxiv.org/abs/2301.11422v1 )

ライセンス: Link先を確認
Donghoon Lee, Ellen Yorke, Masoud Zarepisheh, Saad Nadeem, Yu-Chi Hu(参考訳) この研究は、静的な患者スキャンから現実的な解剖学的変形を生み出すことを目的としている。 具体的には,dir(deformable image registration)アルゴリズムの検証と,より正確な深層学習に基づくdirの駆動のための基礎的真理を提供する,深層学習駆動呼吸運動シミュレーションにより,これらの変形・推定を生成する手法を提案する。 4D-CT画像から学習し,静止CT画像から将来の呼吸位相を予測する3D Seq2Seqディープラーニング呼吸運動シミュレータ(RMSim)を提案する。 異なる呼吸相における時間変化変位ベクトル場(DVF)で表される予測された呼吸パターンは、1次元呼吸軌跡の補助入力によって変調され、トレースの振幅が大きいとより大きな予測変形が生じる。 重ねられた3D-ConvLSTMは空間的・時間的呼吸パターンを捉えるために使用される。 トレーニング損失には、DVFの滑らかさ損失と、予測された真理相と基底相の平均2乗誤差が含まれる。 空間トランスは、予測されたdvfで静的ctを変形して予測位相画像を生成する。 rmsimの訓練と試験には内科140例の10相4d-ctを用いた。 トレーニングされたrmsimは、rmsimが生成した変形増強の有効性を示すためにvoxelmorphをトレーニングするための公開dirチャレンジデータセットの強化に使用された。 RMSimの出力を、プライベートとパブリック両方のベンチマークデータセット(健康とがんの患者)で検証した。 提案手法は、DIRアルゴリズムの検証や、深層学習DIRアルゴリズムを改善するための患者固有の拡張に利用できる。 コード、事前トレーニングされたモデル、拡張されたDIR検証データセットはhttps://github.com/nadeemlab/SeqX2Yでリリースされる。

This work aims to generate realistic anatomical deformations from static patient scans. Specifically, we present a method to generate these deformations/augmentations via deep learning driven respiratory motion simulation that provides the ground truth for validating deformable image registration (DIR) algorithms and driving more accurate deep learning based DIR. We present a novel 3D Seq2Seq deep learning respiratory motion simulator (RMSim) that learns from 4D-CT images and predicts future breathing phases given a static CT image. The predicted respiratory patterns, represented by time-varying displacement vector fields (DVFs) at different breathing phases, are modulated through auxiliary inputs of 1D breathing traces so that a larger amplitude in the trace results in more significant predicted deformation. Stacked 3D-ConvLSTMs are used to capture the spatial-temporal respiration patterns. Training loss includes a smoothness loss in the DVF and mean-squared error between the predicted and ground truth phase images. A spatial transformer deforms the static CT with the predicted DVF to generate the predicted phase image. 10-phase 4D-CTs of 140 internal patients were used to train and test RMSim. The trained RMSim was then used to augment a public DIR challenge dataset for training VoxelMorph to show the effectiveness of RMSim-generated deformation augmentation. We validated our RMSim output with both private and public benchmark datasets (healthy and cancer patients). The proposed approach can be used for validating DIR algorithms as well as for patient-specific augmentations to improve deep learning DIR algorithms. The code, pretrained models, and augmented DIR validation datasets will be released at https://github.com/nadeemlab/SeqX2Y.
翻訳日:2023-01-30 17:07:07 公開日:2023-01-26
# 短時間ハミルトン進化における平均値問題の古典的アルゴリズム

Classical Algorithm for the Mean Value problem over Short-Time Hamiltonian Evolutions ( http://arxiv.org/abs/2301.11420v1 )

ライセンス: Link先を確認
Reyhaneh Aghaei Saem, Ali Hamed Moosavian(参考訳) 物理システムのシミュレーションは、古典的および量子コンピュータの重要な応用である。 本稿では、時間依存の量子力学的ハミルトニアンを一定時間にわたってシミュレーションする効率的な古典アルゴリズムを提案する。 ここで示されるアルゴリズムは、そのような短時間ハミルトニアン発展の出力状態上の観測可能な平均値を計算する。 このアルゴリズムの性能を証明するために、光錐内の局所作用素の進化を制限するためにリーブ・ロビンソン型境界を用いる。 これにより、大きな量子システムを通常の古典的コンピュータで処理できるより小さなシステムにシミュレートするタスクを分割することができる。

Simulating physical systems has been an important application of classical and quantum computers. In this article we present an efficient classical algorithm for simulating time-dependent quantum mechanical Hamiltonians over constant periods of time. The algorithm presented here computes the mean value of an observable over the output state of such short-time Hamiltonian evolutions. In proving the performance of this algorithm we use Lieb-Robinson type bounds to limit the evolution of local operators within a lightcone. This allows us to divide the task of simulating a large quantum system into smaller systems that can be handled on normal classical computers.
翻訳日:2023-01-30 17:06:40 公開日:2023-01-26
# グラフニューラルネットワークによる高分解能質量スペクトルの効率的な予測

Efficiently predicting high resolution mass spectra with graph neural networks ( http://arxiv.org/abs/2301.11419v1 )

ライセンス: Link先を確認
Michael Murphy, Stefanie Jegelka, Ernest Fraenkel, Tobias Kind, David Healey, Thomas Butler(参考訳) 質量スペクトルから小さな分子を同定することは、計算メタボロミクスの主要な問題である。 未知のスペクトルは、化学構造の大規模なデータベースから計算的に予測されたスペクトルと一致する。 しかし、スペクトル予測への現在のアプローチは、高解像度のマス情報と抽出可能な学習との間のトレードオフを強いる方法で出力空間をモデル化している。 入力分子グラフから分子式上の確率分布へのマッピングとしてスペクトル予測をキャストすることで、このトレードオフを解決する。 質量スペクトルの大きなコーパスは、全ての観測式のうち2%のみを構成する固定語彙を用いて近似できることがわかった。 これにより、グラフ分類(GrAFF-MS)に類似したアーキテクチャを用いて効率的なスペクトル予測が可能となり、最先端の手法よりも予測誤差が大幅に低く、実行命令が高速になる。

Identifying a small molecule from its mass spectrum is the primary open problem in computational metabolomics. This is typically cast as information retrieval: an unknown spectrum is matched against spectra predicted computationally from a large database of chemical structures. However, current approaches to spectrum prediction model the output space in ways that force a tradeoff between capturing high resolution mass information and tractable learning. We resolve this tradeoff by casting spectrum prediction as a mapping from an input molecular graph to a probability distribution over molecular formulas. We discover that a large corpus of mass spectra can be closely approximated using a fixed vocabulary constituting only 2% of all observed formulas. This enables efficient spectrum prediction using an architecture similar to graph classification - GrAFF-MS - achieving significantly lower prediction error and orders-of-magnitude faster runtime than state-of-the-art methods.
翻訳日:2023-01-30 17:06:33 公開日:2023-01-26
# 異常深部表現によるパーキンソン・ゲイト・モデリング

Parkinson gait modelling from an anomaly deep representation ( http://arxiv.org/abs/2301.11418v1 )

ライセンス: Link先を確認
Edgar Rangel, Fabio Martinez(参考訳) パーキンソン病は、姿勢不安定性、硬度、震動などの歩行運動障害と関連している。 今日では、運動中の運動パターンを定量化するための学習表現を導入し、診断や治療計画などの臨床手順を支援している。 これらのアプローチは、識別表現を最適化するために、大量の階層化およびラベル付きデータを仮定する。 それにもかかわらず、これらの考慮は、臨床実践中の実際のシナリオにおけるアプローチの操作性を制限する可能性がある。 本研究では,映像再構成と異常検出の枠組みを前提とした自己教師付き生成表現を導入する。 このアーキテクチャは、クラス間の分散を回避し、移動を表す複数の関係にアプローチするために、一流の教師付き学習に従って訓練される。 検証のために14名のpd患者と23名の対照被験者を記録し, 対照群のみで訓練し, auc 86.9%, ホモシedasticity レベル80%, shapeness レベル70%を一般化した。

Parkinson's Disease is associated with gait movement disorders, such as postural instability, stiffness, and tremors. Today, some approaches implemented learning representations to quantify kinematic patterns during locomotion, supporting clinical procedures such as diagnosis and treatment planning. These approaches assumes a large amount of stratified and labeled data to optimize discriminative representations. Nonetheless, these considerations may restrict the operability of approaches in real scenarios during clinical practice. This work introduces a self-supervised generative representation, under the pretext of video reconstruction and anomaly detection framework. This architecture is trained following a one-class weakly supervised learning to avoid inter-class variance and approach the multiple relationships that represent locomotion. For validation 14 PD patients and 23 control subjects were recorded, and trained with the control population only, achieving an AUC of 86.9%, homoscedasticity level of 80% and shapeness level of 70% in the classification task considering its generalization.
翻訳日:2023-01-30 17:06:14 公開日:2023-01-26
# インクリメンタルインスタンス学習にラベルは必要か?

Are Labels Needed for Incremental Instance Learning? ( http://arxiv.org/abs/2301.11417v1 )

ライセンス: Link先を確認
Mert Kilickaya and Joaquin Vanschoren(参考訳) 本稿では,視覚オブジェクトのインスタンスを段階的に,自己監督(自己増分)によって分類することを学ぶ。 学習者は一度にひとつのインスタンスを観察し、データセットから破棄される。 長い学習セッションが忘れやすさを悪化させるため、増分的なインスタンス学習は難しい。 これらの課題は,3つのコントリビューションを通じて克服します。 vinilは、オブジェクトインスタンスを逐次的に学習できる自己インクリメンタル学習ツールで、 \textit{ii)。 We equip VINIL with self-supervision to by-pass the need for instance labelling, \textit{iii。 We compare VINIL to label-supervised variants on two large-scale benchmarks~\cite{core50,ilab20m}, and shows VINIL improve accuracy while reduce forgetfulness。

In this paper, we learn to classify visual object instances, incrementally and via self-supervision (self-incremental). Our learner observes a single instance at a time, which is then discarded from the dataset. Incremental instance learning is challenging, since longer learning sessions exacerbate forgetfulness, and labeling instances is cumbersome. We overcome these challenges via three contributions: \textit{i).} We propose VINIL, a self-incremental learner that can learn object instances sequentially, \textit{ii).} We equip VINIL with self-supervision to by-pass the need for instance labelling, \textit{iii).} We compare VINIL to label-supervised variants on two large-scale benchmarks~\cite{core50,ilab20m}, and show that VINIL significantly improves accuracy while reducing forgetfulness.
翻訳日:2023-01-30 17:05:58 公開日:2023-01-26
# パラメトリック空間を超えた設計空間探索の代替としての特徴空間探索

Feature space exploration as an alternative for design space exploration beyond the parametric space ( http://arxiv.org/abs/2301.11416v1 )

ライセンス: Link先を確認
Tomas Cabezon Pedroso, Jinmo Rhee and Daragh Byrne(参考訳) 本稿では,設計空間探索の代替手段として,Deep Learning (DL) を用いた設計特徴抽出によって生成された特徴空間とパラメトリック設計空間を比較した。 この比較において、パラメトリック設計空間は、パラメトリックアルゴリズムを用いて15万要素の合成データセットを作成し、その次元を可視化する。 同じデータセット上でDLモデルをトレーニングすることで,特徴空間 – 埋め込みデータ特徴の次元の縮小ベクトル空間 – が構築される。 抽出した設計特徴を分析し,その寸法を縮小し,その結果を可視化することで比較する。 パラメトリックな設計空間は、個々のパラメータの組み合わせに基づくため、設計ソリューションの記述方法において狭くなっていることを実証する。 比較して,機能設計空間は複雑なパラメータ関係に従って直感的に設計解を表現できることがわかった。 本稿では,dlモデルによって学習された特徴を翻訳し,直感的な設計探索空間のメカニズムと可能な設計ソリューションの可視化を行う可能性について考察する。

This paper compares the parametric design space with a feature space generated by the extraction of design features using deep learning (DL) as an alternative way for design space exploration. In this comparison, the parametric design space is constructed by creating a synthetic dataset of 15.000 elements using a parametric algorithm and reducing its dimensions for visualization. The feature space - reduced-dimensionality vector space of embedded data features - is constructed by training a DL model on the same dataset. We analyze and compare the extracted design features by reducing their dimension and visualizing the results. We demonstrate that parametric design space is narrow in how it describes the design solutions because it is based on the combination of individual parameters. In comparison, we observed that the feature design space can intuitively represent design solutions according to complex parameter relationships. Based on our results, we discuss the potential of translating the features learned by DL models to provide a mechanism for intuitive design exploration space and visualization of possible design solutions.
翻訳日:2023-01-30 17:05:41 公開日:2023-01-26
# 実現可能なすべての行動を生み出すための学習

Learning to Generate All Feasible Actions ( http://arxiv.org/abs/2301.11461v1 )

ライセンス: Link先を確認
Mirco Theile, Daniele Bernardini, Raphael Trumpp, Cristina Piazza, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli(参考訳) いくつかの機械学習(ML)アプリケーションは、複雑なタスクに対する最適解を探すことで特徴付けられる。 この最適解の探索空間は、しばしば非常に大きく、この最適解が計算不可能であるという事実が非常に大きい。 問題の一部は、mlで見つかる多くの候補ソリューションが実際には実現不可能であり、破棄されなければならないことである。 検索空間を実現可能な解候補のみに制限することは、タスクに最適な解を見つけることを単純化する。 さらに、実現可能な解の集合は、異なるタスクによって特徴づけられる複数の問題で再利用することができる。 特に,複雑なタスクをサブタスクとそれに対応するスキルに分解することができる。 我々は,アクタが実行可能なすべてのアクションを生成するようにトレーニングすることで,再利用可能で転送可能なスキルを学ぶことを提案する。 訓練されたアクターは実行可能なアクションを提案でき、その中に特定のタスクに応じて最適なアクションを選択することができる。 アクタは、各アクションの実行可能性を目標分布として解釈することで訓練される。 訓練手順は、この目標に対するアクターの出力分布の発散を最小限にする。 任意のf-divergencesに対する一般最適化ターゲットを,カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて導出する。 さらに,環境との相互作用を減らすために,補助的な批評家を利用する。 関連戦略に対する予備的な比較は,本手法が実現可能なアクション空間のすべてのモードに到達し,様々な下流タスクで使用できる学習スキルのフレームワークの可能性を示すことを示している。

Several machine learning (ML) applications are characterized by searching for an optimal solution to a complex task. The search space for this optimal solution is often very large, so large in fact that this optimal solution is often not computable. Part of the problem is that many candidate solutions found via ML are actually infeasible and have to be discarded. Restricting the search space to only the feasible solution candidates simplifies finding an optimal solution for the tasks. Further, the set of feasible solutions could be re-used in multiple problems characterized by different tasks. In particular, we observe that complex tasks can be decomposed into subtasks and corresponding skills. We propose to learn a reusable and transferable skill by training an actor to generate all feasible actions. The trained actor can then propose feasible actions, among which an optimal one can be chosen according to a specific task. The actor is trained by interpreting the feasibility of each action as a target distribution. The training procedure minimizes a divergence of the actor's output distribution to this target. We derive the general optimization target for arbitrary f-divergences using a combination of kernel density estimates, resampling, and importance sampling. We further utilize an auxiliary critic to reduce the interactions with the environment. A preliminary comparison to related strategies shows that our approach learns to visit all the modes in the feasible action space, demonstrating the framework's potential for learning skills that can be used in various downstream tasks.
翻訳日:2023-01-30 17:00:05 公開日:2023-01-26
# ハロゲン化鉛ペロブスカイトにおける暗黒核スピン状態の証明

Evidencing the squeezed dark nuclear spin state in lead halide perovskites ( http://arxiv.org/abs/2301.11460v1 )

ライセンス: Link先を確認
E. Kirstein, D. S. Smirnov, E. A. Zhukov, D. R. Yakovlev, N. E. Kopteva, D. N. Dirin, O. Hordiichuk, M. V. Kovalenko, and M. Bayer(参考訳) コヒーレント多体状態は、堅牢でスケーラブルな量子情報処理に非常に有望である。 様々な実装で広範囲にわたる理論的予測がなされているが、その魅力の直接実験的な証拠は困難である。 ここでは, 鉛ハロゲン化ペロブスカイト半導体FAPbBr$_3$ (FA=ホルマミジニウム) における核スピンアンサンブルのコヒーレント光学的操作を実証する。 局所的なホールスピンの光学的配向により、核多体系を絡み合った状態に駆動し、低温ではわずか数ミリテスラ強度の弱い磁場を必要とする。 光軸に沿った核偏極は小さいままであるが、逆核スピン揺らぎは、一般化された核偏極性が$\xi_s < 0.3$の強い違反によって証明されたスピンスクイージングに対応するように強く減少する。 この過程で証明された暗黒状態は、核間の約750体の絡み合いに対応する。 暗核スピン状態は、長寿命の多体コヒーレンスから得られる量子情報を保存し、標準限界を超える精度で量子測定を行うために利用することができる。

Coherent many-body states are highly promising for robust and scalable quantum information processing. While far-reaching theoretical predictions have been made for various implementations, direct experimental evidence of their appealing properties can be challenging. Here, we demonstrate coherent optical manipulation of the nuclear spin ensemble in the lead halide perovskite semiconductor FAPbBr$_3$ (FA=formamidinium), targeting a long-postulated collective dark state that is insensitive to optical pumping. Via optical orientation of localized hole spins we drive the nuclear many-body system into an entangled state, requiring a weak magnetic field of only a few Millitesla strength at cryogenic temperatures. During its fast build-up, the nuclear polarization along the optical axis remains small, while the transverse nuclear spin fluctuations are strongly reduced, corresponding to spin squeezing as evidenced by a strong violation of the generalized nuclear squeezing-inequality with $\xi_s < 0.3$. The dark state evidenced in this process corresponds to an approximately 750-body entanglement between the nuclei. Dark nuclear spin states can be exploited to store quantum information benefiting from their long-lived many-body coherence and to perform quantum measurements with a precision beyond the standard limit.
翻訳日:2023-01-30 16:59:44 公開日:2023-01-26
# 構成不確実性定量化によるロバスト自己回帰グラフ解析のためのニューラルシンボリック推論

Neural-Symbolic Inference for Robust Autoregressive Graph Parsing via Compositional Uncertainty Quantification ( http://arxiv.org/abs/2301.11459v1 )

ライセンス: Link先を確認
Zi Lin, Jeremiah Liu, Jingbo Shang(参考訳) 事前学習されたseq2seqモデルは、豊富な注釈付きデータによるグラフセマンティクス解析に優れているが、od(out-of-distribution)やロングテールの例に一般化している。 シンボリック・パーサーは人口レベルの指標では性能が劣るが、OODと尾の一般化には独特な強さを示す。 本研究では,モデル信頼度にフィードバックされたニューラルシンボリック推論に対する構成性認識アプローチ,サブグラフレベルでのきめ細かなニューラルシンボリック推論(つまりノードとエッジ),ニューラルパーサ内の不確かさの高いサブグラフコンポーネントを的確にターゲットとした。 その結果、グラフ予測の異なる側面を捉える際に、ニューラルネットワークとシンボリックアプローチの異なる強みを組み合わせ、ドメイン間および尾部の両方において、十分に包括された一般化性能をもたらす。 我々は,英語資源文法(ERG)解析問題における,標準内ドメインとOODコーパスの多種多様な組に関するアプローチを実証的に検討した。 提案手法は, ニューラルモデルとシンボリックアプローチに比較して, 集約されたSmatchスコアの35.26%と35.60%の誤差低減を実現し, ニューラルモデルに対するキーテール言語カテゴリーの絶対精度は14%向上し, 構成性や不確実性を考慮しない先行技術手法よりも優れていた。

Pre-trained seq2seq models excel at graph semantic parsing with rich annotated data, but generalize worse to out-of-distribution (OOD) and long-tail examples. In comparison, symbolic parsers under-perform on population-level metrics, but exhibit unique strength in OOD and tail generalization. In this work, we study compositionality-aware approach to neural-symbolic inference informed by model confidence, performing fine-grained neural-symbolic reasoning at subgraph level (i.e., nodes and edges) and precisely targeting subgraph components with high uncertainty in the neural parser. As a result, the method combines the distinct strength of the neural and symbolic approaches in capturing different aspects of the graph prediction, leading to well-rounded generalization performance both across domains and in the tail. We empirically investigate the approach in the English Resource Grammar (ERG) parsing problem on a diverse suite of standard in-domain and seven OOD corpora. Our approach leads to 35.26% and 35.60% error reduction in aggregated Smatch score over neural and symbolic approaches respectively, and 14% absolute accuracy gain in key tail linguistic categories over the neural model, outperforming prior state-of-art methods that do not account for compositionality or uncertainty.
翻訳日:2023-01-30 16:59:17 公開日:2023-01-26
# アンカーフリー検出器の重要画素攻撃

Attacking Important Pixels for Anchor-free Detectors ( http://arxiv.org/abs/2301.11457v1 )

ライセンス: Link先を確認
Yunxu Xie, Shu Hu, Xin Wang, Quanyu Liao, Bin Zhu, Xi Wu, Siwei Lyu(参考訳) 深いニューラルネットワークは敵の攻撃に弱いことが示されており、微妙な摂動は予測結果を完全に変える可能性がある。 既存の敵による物体検出攻撃は、アンカーフリー検出器ではうまく機能しないアンカーベース検出器の攻撃に重点を置いている。 本稿では,アンカーフリー検出器に特化した最初の敵攻撃を提案する。 これはカテゴリワイド攻撃であり、カテゴリの全インスタンスの重要なピクセルを同時に攻撃する。 sparse category-wise attack (sca) と dense category-wise attack (dca) の2つの形態で、それぞれ$l_0$ と $l_\infty$ のノルムベースの摂動を最小限に抑える。 DCAでは, DCA-G, DCA-L, DCA-Sの3つの変種をそれぞれ, グローバル領域, ローカル領域, セマンティック領域を選択して攻撃する。 PascalVOC, MS-COCO, MS-COCOキーポイントなどの大規模ベンチマークデータセットを用いた実験により, 提案手法は, 物体検出と人的ポーズ推定の両タスクにおいて, 最先端の攻撃性能と伝達性を達成することを示す。

Deep neural networks have been demonstrated to be vulnerable to adversarial attacks: subtle perturbation can completely change the prediction result. Existing adversarial attacks on object detection focus on attacking anchor-based detectors, which may not work well for anchor-free detectors. In this paper, we propose the first adversarial attack dedicated to anchor-free detectors. It is a category-wise attack that attacks important pixels of all instances of a category simultaneously. Our attack manifests in two forms, sparse category-wise attack (SCA) and dense category-wise attack (DCA), that minimize the $L_0$ and $L_\infty$ norm-based perturbations, respectively. For DCA, we present three variants, DCA-G, DCA-L, and DCA-S, that select a global region, a local region, and a semantic region, respectively, to attack. Our experiments on large-scale benchmark datasets including PascalVOC, MS-COCO, and MS-COCO Keypoints indicate that our proposed methods achieve state-of-the-art attack performance and transferability on both object detection and human pose estimation tasks.
翻訳日:2023-01-30 16:58:48 公開日:2023-01-26
# ウェーブレットシャクルスを超えるグラフ散乱

Graph Scattering beyond Wavelet Shackles ( http://arxiv.org/abs/2301.11456v1 )

ライセンス: Link先を確認
Christian Koke, Gitta Kutyniok(参考訳) 本研究では,可変分岐比と汎用関数計算フィルタを用いたグラフ散乱ネットワークの設計と解析を行うための,柔軟で数学的に健全なフレームワークを開発した。 ノードおよびグラフレベルの摂動に対するスペクトル依存的安定性保証が導出され、頂点セット非保存ケースは、最近開発された数理物理学に基づくツールを用いて処理される。 ネットワーク層を経由するエネルギーの伝播と切断安定性との関連性について検討した。 グラフレベルの特徴集約の新しい手法が導入され、複合散乱アーキテクチャの安定性が確立された。 最後に、散乱変換はエッジおよび高次テンソル入力に拡張される。 qm7における量子化学エネルギーの回帰に対する他のグラフベースの学習アプローチよりも、従来のグラフウェーブレットに基づくソーシャル・ネットワーク分類タスクでの散乱アプローチよりも、適切に選択されたカテリングネットワークの方が優れている。

This work develops a flexible and mathematically sound framework for the design and analysis of graph scattering networks with variable branching ratios and generic functional calculus filters. Spectrally-agnostic stability guarantees for node- and graph-level perturbations are derived; the vertex-set non-preserving case is treated by utilizing recently developed mathematical-physics based tools. Energy propagation through the network layers is investigated and related to truncation stability. New methods of graph-level feature aggregation are introduced and stability of the resulting composite scattering architectures is established. Finally, scattering transforms are extended to edge- and higher order tensorial input. Theoretical results are complemented by numerical investigations: Suitably chosen cattering networks conforming to the developed theory perform better than traditional graph-wavelet based scattering approaches in social network graph classification tasks and significantly outperform other graph-based learning approaches to regression of quantum-chemical energies on QM7.
翻訳日:2023-01-30 16:58:22 公開日:2023-01-26
# 氷河セグメンテーションのための境界認識U-Net

Boundary Aware U-Net for Glacier Segmentation ( http://arxiv.org/abs/2301.11454v1 )

ライセンス: Link先を確認
Bibek Aryal, Katie E. Miles, Sergio A. Vargas Zesati, Olac Fuentes(参考訳) 氷河の大規模研究は、地球規模の氷河変化の理解を改善し、生態環境のモニタリング、災害の防止、地球規模の気候変動の影響の研究に不可欠である。 ヒンドゥー・クシュ・ヒマラヤ(hkh)の氷河は、hkhが気候変動に最も敏感な地域のひとつであるため、特に興味深い。 本研究では,(1)大規模で空間的に重複しない,クリーンな氷河氷,および破砕氷のセグメンテーションのためのU-Netの修正版を提案し,(2)破砕氷のセグメンテーション性能を改善するための新たな自己学習境界認識損失を導入し,(3)多スペクトルランドサット7画像における各特徴の寄与を理解するための特徴的サリエンシスコアを提案する。 以上の結果から, 氷河氷分別モデルでは, 自己学習による氷分分別モデルの方が, ダイス損失モデルよりも優れていた。 また,赤,短波赤外線,近赤外帯は,ランドサット7号画像からの氷氷分画に最も寄与していると結論づけた。

Large-scale study of glaciers improves our understanding of global glacier change and is imperative for monitoring the ecological environment, preventing disasters, and studying the effects of global climate change. Glaciers in the Hindu Kush Himalaya (HKH) are particularly interesting as the HKH is one of the world's most sensitive regions for climate change. In this work, we: (1) propose a modified version of the U-Net for large-scale, spatially non-overlapping, clean glacial ice, and debris-covered glacial ice segmentation; (2) introduce a novel self-learning boundary-aware loss to improve debris-covered glacial ice segmentation performance; and (3) propose a feature-wise saliency score to understand the contribution of each feature in the multispectral Landsat 7 imagery for glacier mapping. Our results show that the debris-covered glacial ice segmentation model trained using self-learning boundary-aware loss outperformed the model trained using dice loss. Furthermore, we conclude that red, shortwave infrared, and near-infrared bands have the highest contribution toward debris-covered glacial ice segmentation from Landsat 7 images.
翻訳日:2023-01-30 16:58:05 公開日:2023-01-26
# 不均一特徴空間における個人化連合学習

Personalised Federated Learning On Heterogeneous Feature Spaces ( http://arxiv.org/abs/2301.11447v1 )

ライセンス: Link先を確認
Alain Rakotomamonjy and Maxime Vono and Hamlet Jesse Medina Ruiz and Liva Ralaivola(参考訳) ほとんどのパーソナライズドフェデレーション学習(fl)アプローチでは、すべてのクライアントの生データは共通のサブスペースで定義されていると仮定している。 現実世界のアプリケーションでは、クライアントがデータを収集して保存する独自のシステムを持っているため、この仮定は制約を受ける。 私たちはこのギャップを埋めようとしている。 この目的のために,クライアントのデータをローカルな埋め込み関数を介して共通の特徴空間にマッピングする汎用フレームワークFLICを提案する。 共通特徴空間はwasserstein barycentersを用いて連合的に学習され、局所埋め込み関数は分散アライメントを介して各クライアントで訓練される。 我々は,この分布整合機構をフェデレート学習手法に統合し,FLICのアルゴリズムを提供する。 不均一な入力特徴空間を含むFLベンチマークと比較した。 さらに,方法論の妥当性を裏付ける理論的洞察を提供する。

Most personalised federated learning (FL) approaches assume that raw data of all clients are defined in a common subspace i.e. all clients store their data according to the same schema. For real-world applications, this assumption is restrictive as clients, having their own systems to collect and then store data, may use heterogeneous data representations. We aim at filling this gap. To this end, we propose a general framework coined FLIC that maps client's data onto a common feature space via local embedding functions. The common feature space is learnt in a federated manner using Wasserstein barycenters while the local embedding functions are trained on each client via distribution alignment. We integrate this distribution alignement mechanism into a federated learning approach and provide the algorithmics of FLIC. We compare its performances against FL benchmarks involving heterogeneous input features spaces. In addition, we provide theoretical insights supporting the relevance of our methodology.
翻訳日:2023-01-30 16:57:42 公開日:2023-01-26
# 3DShape2VecSet: ニューラルネットワークと生成拡散モデルのための3次元形状表現

3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models ( http://arxiv.org/abs/2301.11445v1 )

ライセンス: Link先を確認
Biao Zhang, Jiapeng Tang, Matthias Niessner, Peter Wonka(参考訳) 3dshape2vecsetは,生成拡散モデル用に設計されたニューラルフィールドの新たな形状表現である。 私たちの形状表現は、表面モデルまたは点雲として与えられる3d形状をエンコードし、それらを神経場として表現することができる。 神経場の概念は、以前は大域的潜在ベクトル、正規な潜在ベクトルのグリッド、あるいは不規則な潜在ベクトルのグリッドと組み合わされていた。 我々の新しい表現は、ベクトルの集合の上に神経場を符号化する。 本研究では,ラジアル基底関数表現やクロス・アテンション・セルフ・アテンション関数といった複数の概念から,特にトランスフォーマーを用いた処理に適した学習可能表現を設計する。 その結果、3次元形状エンコーディングと3次元形状生成モデリングタスクの性能が向上した。 非条件生成,カテゴリ条件生成,テキスト条件生成,ポイントクラウド補完,イメージ条件生成など,多種多様な生成アプリケーションを示す。

We introduce 3DShape2VecSet, a novel shape representation for neural fields designed for generative diffusion models. Our shape representation can encode 3D shapes given as surface models or point clouds, and represents them as neural fields. The concept of neural fields has previously been combined with a global latent vector, a regular grid of latent vectors, or an irregular grid of latent vectors. Our new representation encodes neural fields on top of a set of vectors. We draw from multiple concepts, such as the radial basis function representation and the cross attention and self-attention function, to design a learnable representation that is especially suitable for processing with transformers. Our results show improved performance in 3D shape encoding and 3D shape generative modeling tasks. We demonstrate a wide variety of generative applications: unconditioned generation, category-conditioned generation, text-conditioned generation, point-cloud completion, and image-conditioned generation.
翻訳日:2023-01-30 16:57:25 公開日:2023-01-26
# グラフ畳み込みネットワークの無限界安定性

Limitless stability for Graph Convolutional Networks ( http://arxiv.org/abs/2301.11443v1 )

ライセンス: Link先を確認
Christian Koke(参考訳) この研究は、グラフ畳み込みネットワークに対する厳密で斬新で広く適用可能な安定性保証と転送可能性境界を確立する。 重要なことに、グラフシフト演算子(GSO)は必ずしも正規ではないと考えられており、指向性グラフと非指向性グラフの両方のネットワークを扱える。 ノードレベルの摂動に対する安定性は、各層におけるフィルタの「適切な(スペクトル)被覆」特性に関連している。 エッジレベルの摂動に対する安定性は、リプシッツ定数や新しく導入されたフィルタのセミノルムと関連している。 位相摂動に対する安定性に関する結果は、最近開発された数理物理学に基づくツールによって得られる。 グラフ畳み込みネットワークは,gsoがグラフラプラシアンでフィルタが無限に規則的である場合に,グラフコアグライン処理(強連結サブグラフを単一ノードで置き換える)の下で安定であることが,重要かつ斬新な例として示されている。 これらの新しい理論結果は対応する数値的研究によって支持される。

This work establishes rigorous, novel and widely applicable stability guarantees and transferability bounds for graph convolutional networks -- without reference to any underlying limit object or statistical distribution. Crucially, utilized graph-shift operators (GSOs) are not necessarily assumed to be normal, allowing for the treatment of networks on both directed- and for the first time also undirected graphs. Stability to node-level perturbations is related to an 'adequate (spectral) covering' property of the filters in each layer. Stability to edge-level perturbations is related to Lipschitz constants and newly introduced semi-norms of filters. Results on stability to topological perturbations are obtained through recently developed mathematical-physics based tools. As an important and novel example, it is showcased that graph convolutional networks are stable under graph-coarse-graining procedures (replacing strongly-connected sub-graphs by single nodes) precisely if the GSO is the graph Laplacian and filters are regular at infinity. These new theoretical results are supported by corresponding numerical investigations.
翻訳日:2023-01-30 16:57:09 公開日:2023-01-26
# 多関節バンドにおける協調レグレスト最小化

Collaborative Regret Minimization in Multi-Armed Bandits ( http://arxiv.org/abs/2301.11442v1 )

ライセンス: Link先を確認
Nikolai Karpov, Qin Zhang(参考訳) 本稿では,マルチエージェント強化学習における並列性と通信オーバーヘッドのトレードオフに関する協調学習モデルについて検討する。 バンディット理論における基本的な問題として,複数腕のバンディットにおける後悔の最小化について,エージェント間のコミュニケーションのラウンド数と協調学習プロセスの後悔のトレードオフについて述べる。

In this paper, we study the collaborative learning model, which concerns the tradeoff between parallelism and communication overhead in multi-agent reinforcement learning. For a fundamental problem in bandit theory, regret minimization in multi-armed bandits, we present the first and almost tight tradeoffs between the number of rounds of communication between the agents and the regret of the collaborative learning process.
翻訳日:2023-01-30 16:56:50 公開日:2023-01-26
# ユーザ関心調整によるクロスドメインレコメンデーション

Cross-domain recommendation via user interest alignment ( http://arxiv.org/abs/2301.11467v1 )

ライセンス: Link先を確認
Chuang Zhao, Hongke Zhao, Ming He, Jian Zhang and Jianping Fan(参考訳) クロスドメインレコメンデーションは、複数のドメインからの知識を活用して、従来のレコメンデーションシステムにおけるデータの分散性とコールドスタートの問題を軽減することを目的としている。 一般的なパラダイムのひとつは、重複するユーザ表現を使用してドメイン接続を確立することで、すべてのシナリオにおけるレコメンデーションパフォーマンスを改善することだ。 このアプローチの一般的な実践は、各ドメインへのユーザ埋め込みを個別にトレーニングし、それらを平易な方法で集約することであり、ユーザとアイテム間の潜在的なドメイン間の類似性を無視していることが多い。 さらに、特定の正規化を伴わない推奨タスク指向のトレーニング目標であることを考えると、最適化埋め込みはユーザの視点間の関心のアライメントを無視し、元の関心分布にも違反する。 これらの課題に対処するために、エンティティ間のドメイン間の類似性を認識し、ユーザ関心を整合させることにより、二重ドメインにおける推奨性能を改善するための新しいドメイン間推薦フレームワークであるCOASTを提案する。 具体的には、まず、統一されたクロスドメイン異種グラフを構築し、グラフ畳み込みネットワークのメッセージパッシングメカニズムを再定義し、ドメイン間のユーザとアイテムの高次類似性をキャプチャする。 ユーザ関心のアライメントを目標とし、豊かな教師なしおよびセマンティックな信号によって、ドメイン間のユーザ関心の分散とユーザ関心の2つのよりきめ細かな視点から深い洞察を深める。 2つの大きなレコメンデーションデータセットから構築した複数のタスクに対して集中的な実験を行う。 COASTは、最先端のクロスドメインレコメンデーションアルゴリズムや古典的な単一ドメインレコメンデーション手法よりも一貫して、はるかに優れています。

Cross-domain recommendation aims to leverage knowledge from multiple domains to alleviate the data sparsity and cold-start problems in traditional recommender systems. One popular paradigm is to employ overlapping user representations to establish domain connections, thereby improving recommendation performance in all scenarios. Nevertheless, the general practice of this approach is to train user embeddings in each domain separately and then aggregate them in a plain manner, often ignoring potential cross-domain similarities between users and items. Furthermore, considering that their training objective is recommendation task-oriented without specific regularizations, the optimized embeddings disregard the interest alignment among user's views, and even violate the user's original interest distribution. To address these challenges, we propose a novel cross-domain recommendation framework, namely COAST, to improve recommendation performance on dual domains by perceiving the cross-domain similarity between entities and aligning user interests. Specifically, we first construct a unified cross-domain heterogeneous graph and redefine the message passing mechanism of graph convolutional networks to capture high-order similarity of users and items across domains. Targeted at user interest alignment, we develop deep insights from two more fine-grained perspectives of user-user and user-item interest invariance across domains by virtue of affluent unsupervised and semantic signals. We conduct intensive experiments on multiple tasks, constructed from two large recommendation data sets. Extensive results show COAST consistently and significantly outperforms state-of-the-art cross-domain recommendation algorithms as well as classic single-domain recommendation methods.
翻訳日:2023-01-30 16:48:26 公開日:2023-01-26
# Nik Defense:Bitcoinの自家用マイニングに対する人工知能ベースの防衛メカニズム

Nik Defense: An Artificial Intelligence Based Defense Mechanism against Selfish Mining in Bitcoin ( http://arxiv.org/abs/2301.11463v1 )

ライセンス: Link先を確認
Ali Nikhalat Jahromi, Ali Mohammad Saghiri, Mohammad Reza Meybodi(参考訳) Bitcoin暗号通貨は最近注目を集めている。 Bitcoinのネットワークでは、トランザクションは台帳に記録される。 このネットワークでは、トランザクションを記録するプロセスはマイニングプロトコルとして知られるプロトコルを実行するマイナと呼ばれるいくつかのノードに依存する。 マイニングプロトコルの重要な側面の1つはインセンティブ互換性である。 しかし、文献によるとBitcoinマイニングのプロトコルはインセンティブ互換ではない。 計算能力の高いノードは、利己的なマイニング攻撃と呼ばれるタイプの攻撃を採用することで、その公平なシェアよりも多くの収益を得ることができる。 本稿では,学習オートマトン理論を適用し,自律的なマイニング攻撃に対する人工知能ベースの防御を提案する。 提案手法は,ブロック発見時間に基づいて重みを割り当てることでプライベートブロックを無視し,学習オートマトンを活用した自己適応的な方法で分枝の高さ差を評価することにより,現在のbitcoinフォーク解決方針を変更する。 我々の知る限りでは、提案プロトコルは文献の最初の学習に基づく防御機構である。 シミュレーションの結果,よく知られた防御機構である結合破壊機構に対して,提案する機構の優越性が示された。 シミュレーションの結果,提案した防御機構は利益閾値を40%まで引き上げ,利己的な攻撃者の収益を減少させることがわかった。

The Bitcoin cryptocurrency has received much attention recently. In the network of Bitcoin, transactions are recorded in a ledger. In this network, the process of recording transactions depends on some nodes called miners that execute a protocol known as mining protocol. One of the significant aspects of mining protocol is incentive compatibility. However, literature has shown that Bitcoin mining's protocol is not incentive-compatible. Some nodes with high computational power can obtain more revenue than their fair share by adopting a type of attack called the selfish mining attack. In this paper, we propose an artificial intelligence-based defense against selfish mining attacks by applying the theory of learning automata. The proposed defense mechanism ignores private blocks by assigning weight based on block discovery time and changes current Bitcoin's fork resolving policy by evaluating branches' height difference in a self-adaptive manner utilizing learning automata. To the best of our knowledge, the proposed protocol is the literature's first learning-based defense mechanism. Simulation results have shown the superiority of the proposed mechanism against tie-breaking mechanism, which is a well-known defense. The simulation results have shown that the suggested defense mechanism increases the profit threshold up to 40\% and decreases the revenue of selfish attackers.
翻訳日:2023-01-30 16:47:57 公開日:2023-01-26
# 刺激はどれくらい貧弱ですか。 児童指向音声を用いたニューラルネットワークにおける階層的一般化の評価

How poor is the stimulus? Evaluating hierarchical generalization in neural networks trained on child-directed speech ( http://arxiv.org/abs/2301.11462v1 )

ライセンス: Link先を確認
Aditya Yedetore, Tal Linzen, Robert Frank, R. Thomas McCoy(参考訳) 構文を取得する際、子どもたちは一貫して、競合する非階層的可能性よりも階層的ルールを選択する。 これは、階層構造に対する学習バイアスや、子どもの言語入力における階層的手がかりと相互作用するより一般的なバイアスによるものであるか? LSTMとトランスフォーマー(階層的バイアスのない2種類のニューラルネットワーク)を、子どもの言語入力に類似した量と内容(ChiLDESコーパスからのテキスト)でトレーニングすることで、これらの可能性を探る。 次に、これらのモデルが英語のyes/no質問について学んだこと、階層構造が重要な現象について評価する。 子ども向け音声(パープレキシティによって測定される)の表面統計をうまく捉えることができるが、両方のモデルタイプは正しい階層規則よりも不正確な線形規則と一貫性のある方法で一般化する。 これらの結果は、標準的なニューラルネットワークアーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスを必要とすることを示唆している。

When acquiring syntax, children consistently choose hierarchical rules over competing non-hierarchical possibilities. Is this preference due to a learning bias for hierarchical structure, or due to more general biases that interact with hierarchical cues in children's linguistic input? We explore these possibilities by training LSTMs and Transformers - two types of neural networks without a hierarchical bias - on data similar in quantity and content to children's linguistic input: text from the CHILDES corpus. We then evaluate what these models have learned about English yes/no questions, a phenomenon for which hierarchical structure is crucial. We find that, though they perform well at capturing the surface statistics of child-directed speech (as measured by perplexity), both model types generalize in a way more consistent with an incorrect linear rule than the correct hierarchical rule. These results suggest that human-like generalization from text alone requires stronger biases than the general sequence-processing biases of standard neural network architectures.
翻訳日:2023-01-30 16:47:39 公開日:2023-01-26
# 魚眼画像整流のための二重拡散アーキテクチャ--合成から現実への一般化

Dual Diffusion Architecture for Fisheye Image Rectification: Synthetic-to-Real Generalization ( http://arxiv.org/abs/2301.11785v1 )

ライセンス: Link先を確認
Shangrong Yang, Chunyu Lin, Kang Liao, Yao Zhao(参考訳) 魚眼画像の補正は、合成から現実への一般化の長期的な未解決問題である。 これまでのほとんどの作品において、合成画像で訓練されたモデルは、実世界の魚眼画像において不十分な性能を得る。 そこで本研究では,魚眼整定のための2重拡散アーキテクチャ (dda) を提案する。 提案するddaは合成魚眼画像とラベルなしの本物の魚眼画像を同時に訓練する。 ノイズを徐々に導入することにより、合成および実魚眼画像は最終的には一貫したノイズ分布へと発展し、一般化を改善し、ラベルのない実魚眼補正を実現する。 オリジナルの画像は既存のDDPM(Denoising Diffusion Probabilistic Models)の事前ガイダンスとして機能している。 しかし、事前条件と目標との非無視不確定関係は、生成性能に影響を与える。 特に整流作業では、放射状の歪みが重要なアーティファクトを引き起こす可能性がある。 そのため、教師なしのワンパスネットワークを提供し、ガイダンスを強化するための妥当な新しい条件を生成する。 このネットワークは、反復推論なしで信頼性の高い結果を高速に生成するための代替スキームとみなすことができる。 現状の手法と比較して,本手法は合成魚眼画像補正と実魚眼画像修正の両方において優れた性能が得られる。

Fisheye image rectification has a long-term unresolved issue with synthetic-to-real generalization. In most previous works, the model trained on the synthetic images obtains unsatisfactory performance on the real-world fisheye image. To this end, we propose a Dual Diffusion Architecture (DDA) for the fisheye rectification with a better generalization ability. The proposed DDA is simultaneously trained with paired synthetic fisheye images and unlabeled real fisheye images. By gradually introducing noises, the synthetic and real fisheye images can eventually develop into a consistent noise distribution, improving the generalization and achieving unlabeled real fisheye correction. The original image serves as the prior guidance in existing DDPMs (Denoising Diffusion Probabilistic Models). However, the non-negligible indeterminate relationship between the prior condition and the target affects the generation performance. Especially in the rectification task, the radial distortion can cause significant artifacts. Therefore, we provide an unsupervised one-pass network that produces a plausible new condition to strengthen guidance. This network can be regarded as an alternate scheme for fast producing reliable results without iterative inference. Compared with the state-of-the-art methods, our approach can reach superior performance in both synthetic and real fisheye image corrections.
翻訳日:2023-01-30 15:10:05 公開日:2023-01-26
# 分布外一般化のための不変メタ学習

Invariant Meta Learning for Out-of-Distribution Generalization ( http://arxiv.org/abs/2301.11779v1 )

ライセンス: Link先を確認
Penghao Jiang, Ke Xin, Zifeng Wang, Chunxi Li(参考訳) 現代のディープラーニング技術は多くの分野で優れた能力を示しているが、大規模なトレーニングデータに依存している。 最適化に基づくメタラーニングは、少数のトレーニングサンプルだけで新しい学習タスクを解くことができるように、様々なタスクでモデルを訓練するが、これらの方法は、トレーニングとテストデータは同一かつ独立に分散されていると仮定する。 このような制約を克服するために,本論文では分散課題に対する不変メタ学習を提案する。 具体的には、不変メタ学習は不変最適メタ初期化を見つけ、正規化ペナルティを伴う分散外タスクに素早く適応する。 広汎な実験により,提案した不変メタ学習がアウト・オブ・ディストリビューション・数ショットタスクに与える影響を実証した。

Modern deep learning techniques have illustrated their excellent capabilities in many areas, but relies on large training data. Optimization-based meta-learning train a model on a variety tasks, such that it can solve new learning tasks using only a small number of training samples.However, these methods assumes that training and test dataare identically and independently distributed. To overcome such limitation, in this paper, we propose invariant meta learning for out-of-distribution tasks. Specifically, invariant meta learning find invariant optimal meta-initialization,and fast adapt to out-of-distribution tasks with regularization penalty. Extensive experiments demonstrate the effectiveness of our proposed invariant meta learning on out-of-distribution few-shot tasks.
翻訳日:2023-01-30 15:09:21 公開日:2023-01-26
# 重力を媒介とする絡み合いは 量子重力について

What gravity mediated entanglement can really tell us about quantum gravity ( http://arxiv.org/abs/2208.09489v2 )

ライセンス: Link先を確認
Eduardo Mart\'in-Mart\'inez and T. Rick Perche(参考訳) 我々は,Bose-Marletto-Vedral (BMV) テーブルトップ実験を見直し,重力による絡み合いを用いた量子重力の観測を目標とし,実験における局所性の役割を分析する。 BMV実験における重力による絡み合いは、重力場の量子的性質に訴えることなく説明できることを示す。 次に、物質と重力の相互作用の完全な量子モデリングを行い、重力相互作用の量子的特徴を真に明らかにするために、BMVのような実験が持つべき変化を同定する。

We revisit the Bose-Marletto-Vedral (BMV) table-top experimental proposal -- which aims to witness quantum gravity using gravity mediated entanglement -- analyzing the role of locality in the experiment. We show how gravity mediated entanglement in the BMV experiment can be accounted for without appealing to the quantum nature of the gravitational field. We then carry out a fully quantum modelling of the interaction of matter and gravity and identify the modifications that a BMV-like experiment should have in order to truly reveal quantum features of the gravitational interaction.
翻訳日:2023-01-30 11:59:24 公開日:2023-01-26
# 量子時空からの基本的なデコヒーレンス

Fundamental decoherence from quantum spacetime ( http://arxiv.org/abs/2208.14119v2 )

ライセンス: Link先を確認
Michele Arzano, Vittorio D'Esposito, Giulia Gubitosi(参考訳) プランクスケールでの非可換性によって符号化された時空の量子的性質は、純粋な状態が混合状態へと進化する量子系の一般化時間進化をもたらすことを示す。 具体的には、時変発生器の作用が時空非可換性の影響によって変形した場合、密度演算子に対するリンドブラッド様時間進化の形でデコヒーレンス機構を得る。 自由粒子の進化のデコヒーレンス時間は、プランク質量が基本量子系の最大許容質量であることを示すために用いられる。

We show that quantum properties of spacetime, encoded by noncommutativity at the Planck scale, lead to a generalized time evolution of quantum systems in which pure states can evolve into mixed states. Specifically, a decoherence mechanism is obtained in the form of a Lindblad-like time evolution for the density operator when the action of time translations generator is deformed by the effects of spacetime noncommutativity. The decoherence time for the evolution of a free particle is used to show that the Planck mass is the maximum allowed mass for elementary quantum systems.
翻訳日:2023-01-28 12:01:29 公開日:2023-01-26
# フェデレーション型長期学習における局所実データとグローバル・グラディエント・プロトタイプの統合

Integrating Local Real Data with Global Gradient Prototypes for Classifier Re-Balancing in Federated Long-Tailed Learning ( http://arxiv.org/abs/2301.10394v2 )

ライセンス: Link先を確認
Wenkai Yang, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun(参考訳) フェデレートラーニング(FL)は、データプライバシ保護の方法でグローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散学習パラダイムになっています。 しかし、データサンプルは通常、現実世界の長い尾の分布に追従し、分散データと長い尾のデータのFLは、訓練サンプルの大多数がヘッドクラスに偏っている、劣悪なグローバルモデルをもたらす。 この問題を緩和するために、最近FLに非結合型トレーニングが導入され、インスタンスバランストレーニング後にバイアス付き分類器を再バランスさせることにより、集中型長期学習において有望な結果を得た。 しかし,本研究は, FLにおけるグローバルバランスデータセットの不適切性のため, 擬似特徴集合に基づいて再学習した準最適分類器を用いて, 連合長尾学習における疎結合学習の能力を制限する。 本研究では,より効率的に分類器を再バランスさせるために,局所実データとグローバル勾配プロトタイプを統合し,局所バランスデータセットを作成し,局所トレーニング中に分類器を再バランスさせる。 さらに,グローバルなデータ分布のモデル化を支援するために,学習フェーズに余分な分類器を導入し,局所的に再分散を行うことによって生じる矛盾する最適化目標の問題に対処する。 広範な実験により,本手法は,既存の最先端手法を様々な設定で一貫して上回ることがわかった。

Federated Learning (FL) has become a popular distributed learning paradigm that involves multiple clients training a global model collaboratively in a data privacy-preserving manner. However, the data samples usually follow a long-tailed distribution in the real world, and FL on the decentralized and long-tailed data yields a poorly-behaved global model severely biased to the head classes with the majority of the training samples. To alleviate this issue, decoupled training has recently been introduced to FL, considering it has achieved promising results in centralized long-tailed learning by re-balancing the biased classifier after the instance-balanced training. However, the current study restricts the capacity of decoupled training in federated long-tailed learning with a sub-optimal classifier re-trained on a set of pseudo features, due to the unavailability of a global balanced dataset in FL. In this work, in order to re-balance the classifier more effectively, we integrate the local real data with the global gradient prototypes to form the local balanced datasets, and thus re-balance the classifier during the local training. Furthermore, we introduce an extra classifier in the training phase to help model the global data distribution, which addresses the problem of contradictory optimization goals caused by performing classifier re-balancing locally. Extensive experiments show that our method consistently outperforms the existing state-of-the-art methods in various settings.
翻訳日:2023-01-27 15:25:25 公開日:2023-01-26
# 順調に進化し、一貫して適合する: アドベクション支配系に対する滑らかな潜時ダイナミクスの学習

Evolve Smoothly, Fit Consistently: Learning Smooth Latent Dynamics For Advection-Dominated Systems ( http://arxiv.org/abs/2301.10391v2 )

ライセンス: Link先を確認
Zhong Yi Wan, Leonardo Zepeda-N\'u\~nez, Anudhyan Boral and Fei Sha(参考訳) 本稿では,複雑な物理系のサーロゲートモデルを学ぶためのデータ駆動,時空連続フレームワークを提案する。 これらのシステムはKolmogorovn-widthを遅く分解し、低次モデリングを含む標準的な手法を低コストで高忠実度シミュレーションから妨げている。 本研究では,コンパクト表現ネットワークのパラメータ空間上にハイパーネットワークに基づく潜在力学モデルを構築する。 ネットワークの表現力と特別に設計された整合性誘導正規化を利用して,低次元かつ滑らかな潜在軌道を得る。 これらのプロパティにより、推論時にsurrogateモデルが非常に効率的になります。 提案手法は,複数ステップの正確なロールアウト予測を,より高速な推論速度で生成するフレームワークバイ学習モデルの有効性を示す。

We present a data-driven, space-time continuous framework to learn surrogatemodels for complex physical systems described by advection-dominated partialdifferential equations. Those systems have slow-decaying Kolmogorovn-widththat hinders standard methods, including reduced order modeling, from producinghigh-fidelity simulations at low cost. In this work, we construct hypernetwork-based latent dynamical models directly on the parameter space of a compactrepresentation network. We leverage the expressive power of the network and aspecially designed consistency-inducing regularization to obtain latent trajectoriesthat are both low-dimensional and smooth. These properties render our surrogatemodels highly efficient at inference time. We show the efficacy of our frameworkby learning models that generate accurate multi-step rollout predictions at muchfaster inference speed compared to competitors, for several challenging examples.
翻訳日:2023-01-27 15:24:57 公開日:2023-01-26
# vihos:ヘイトスピーチはベトナム語を検知する

ViHOS: Hate Speech Spans Detection for Vietnamese ( http://arxiv.org/abs/2301.10186v2 )

ライセンス: Link先を確認
Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 他のユーザーに向けられた憎しみと攻撃的な言葉の増加は、ソーシャルネットワークプラットフォームの利用の増加による悪影響の1つだ。 これにより、人間のモデレーターが分類システムによってフィルタリングされたタグ付きコメントをレビューすることが困難になる可能性がある。 この問題に対処するために、11kコメントに26kのスパンを含む最初の人間アノテーション付きコーパスであるViHOS(Vietnamese Hate and Offensive Spans)データセットを提示する。 ベトナムのコメントにヘイトフルと攻撃的なスパンの定義や、詳細なガイドラインも提供します。 さらに,様々な最先端モデルを用いて実験を行う。 特に、xlm-r$_{large}$は、単一スパン検出および全スパン検出で最高のf1-scoreを達成し、phobert$_{large}$は複数のスパン検出で最高値を得た。 最後に,誤り解析は,今後の研究のためにデータ中の特定の種類のスパンを検出することの難しさを示す。 Disclaimer: この論文には、挑発的、攻撃的、あるいは虐待的と考えられる、真のコメントが含まれています。

The rise in hateful and offensive language directed at other users is one of the adverse side effects of the increased use of social networking platforms. This could make it difficult for human moderators to review tagged comments filtered by classification systems. To help address this issue, we present the ViHOS (Vietnamese Hate and Offensive Spans) dataset, the first human-annotated corpus containing 26k spans on 11k comments. We also provide definitions of hateful and offensive spans in Vietnamese comments as well as detailed annotation guidelines. Besides, we conduct experiments with various state-of-the-art models. Specifically, XLM-R$_{Large}$ achieved the best F1-scores in Single span detection and All spans detection, while PhoBERT$_{Large}$ obtained the highest in Multiple spans detection. Finally, our error analysis demonstrates the difficulties in detecting specific types of spans in our data for future research. Disclaimer: This paper contains real comments that could be considered profane, offensive, or abusive.
翻訳日:2023-01-27 15:24:42 公開日:2023-01-26
# 局所最適分類規則の大きな集合の効率的な学習

Efficient learning of large sets of locally optimal classification rules ( http://arxiv.org/abs/2301.09936v2 )

ライセンス: Link先を確認
Van Quoc Phuong Huynh, Johannes F\"urnkranz, Florian Beck(参考訳) 従来のルール学習アルゴリズムは、単純なルールの集合を見つけることを目的としており、各ルールは可能な限り多くの例をカバーする。 本稿では,この方法で発見された規則は,それらの例の最適説明ではないかもしれないと論じる。 代わりに,1つの特殊化と1つの一般化ループからなる欲望最適化において,各トレーニング例をカバーする最善のルールを見つけることを目的とした効率的なアルゴリズムを提案する。 これらの局所最適ルールは、従来のルール学習アルゴリズムが学習したセットよりもはるかに大きい最終ルールセットのために収集され、フィルタされる。 新しい例は、この例をカバーするルールの中でベストを選択することで分類される。 小規模から超大規模のデータセットを用いた実験では,アルゴリズムの平均分類精度は最先端ルール学習アルゴリズムよりも高い。 さらに、アルゴリズムは非常に効率的で、学習されたルールセットに影響を与えることなく本質的に並列に処理できるので、分類精度が向上する。 そこで我々は,大規模分類規則の帰納化において重要なギャップを埋めると考えている。

Conventional rule learning algorithms aim at finding a set of simple rules, where each rule covers as many examples as possible. In this paper, we argue that the rules found in this way may not be the optimal explanations for each of the examples they cover. Instead, we propose an efficient algorithm that aims at finding the best rule covering each training example in a greedy optimization consisting of one specialization and one generalization loop. These locally optimal rules are collected and then filtered for a final rule set, which is much larger than the sets learned by conventional rule learning algorithms. A new example is classified by selecting the best among the rules that cover this example. In our experiments on small to very large datasets, the approach's average classification accuracy is higher than that of state-of-the-art rule learning algorithms. Moreover, the algorithm is highly efficient and can inherently be processed in parallel without affecting the learned rule set and so the classification accuracy. We thus believe that it closes an important gap for large-scale classification rule induction.
翻訳日:2023-01-27 15:24:24 公開日:2023-01-26
# 量子生成モデルの性能評価

A performance characterization of quantum generative models ( http://arxiv.org/abs/2301.09363v2 )

ライセンス: Link先を確認
Carlos A. Riofr\'io, Oliver Mitevski, Caitlin Jones, Florian Krellner, Aleksandar Vu\v{c}kovi\'c, Joseph Doetsch, Johannes Klepsch, Thomas Ehmer, and Andre Luckow(参考訳) 量子生成モデリングは、産業関連アプリケーションへの関心が高まっている。 この分野はまだ初期段階にあり、多くの競合する技術がある。 この研究は、量子コンピューティングの実践者がどのモデルやテクニックをアプリケーションで使うかを決める際に、幅広い手法を体系的に比較する試みである。 量子生成モデリングに使用されるパラメトリック量子回路のアーキテクチャ上の要点を比較する。 1.連続的なデータサンプルを生成する連続的なアーキテクチャ 2. 離散格子上でサンプルを行う離散アーキテクチャ。 異なるデータ変換の性能を比較する: min-max変換による正規化や確率積分変換。 2つの一般的なトレーニング手法により、データセットの基盤となる確率分布を学習する。 1.量子回路ボルンマシン(QCBM)、及び 2.量子生成敵ネットワーク(QGAN) モデルパラメータの数が増えるにつれて、同様の訓練を受けた古典的ニューラルネットワークのベースラインとともに、それらのパフォーマンスとトレードオフを調査した。 この研究は6つの低次元合成と2つの実財務データに対して行われた。 私たちの2つの重要な発見は 1.すべてのデータセットに対して、我々の量子モデルは、古典的パラメータよりも類似または少ないパラメータを必要とする。 極端な場合、量子モデルは桁違いのパラメータを2つ必要とします。 2) 確率分布のコプラを学習する離散アーキテクチャの変種が, 他の手法よりも優れていることを実証的に見出した。

Quantum generative modeling is a growing area of interest for industry-relevant applications. With the field still in its infancy, there are many competing techniques. This work is an attempt to systematically compare a broad range of these techniques to guide quantum computing practitioners when deciding which models and techniques to use in their applications. We compare fundamentally different architectural ansatzes of parametric quantum circuits used for quantum generative modeling: 1. A continuous architecture, which produces continuous-valued data samples, and 2. a discrete architecture, which samples on a discrete grid. We compare the performance of different data transformations: normalization by the min-max transform or by the probability integral transform. We learn the underlying probability distribution of the data sets via two popular training methods: 1. quantum circuit Born machines (QCBM), and 2. quantum generative adversarial networks (QGAN). We study their performance and trade-offs as the number of model parameters increases, with the baseline of similarly trained classical neural networks. The study is performed on six low-dimensional synthetic and two real financial data sets. Our two key findings are that: 1. For all data sets, our quantum models require similar or fewer parameters than their classical counterparts. In the extreme case, the quantum models require two of orders of magnitude less parameters. 2. We empirically find that a variant of the discrete architecture, which learns the copula of the probability distribution, outperforms all other methods.
翻訳日:2023-01-27 15:24:09 公開日:2023-01-26
# TTSのための教師なしデータ選択:アラビア放送ニュースを事例として

Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a Case Study ( http://arxiv.org/abs/2301.09099v2 )

ライセンス: Link先を確認
Massa Baali, Tomoki Hayashi, Hamdy Mubarak, Soumi Maiti, Shinji Watanabe, Wassim El-Hajj, Ahmed Ali(参考訳) tts(high-resource text to speech)システムは、自然に確立された人間のような音声を生成する。 対照的に、アラビア語を含む低リソース言語はリソース不足のため、TSシステムが非常に限られている。 本稿では,RTS トレーニングのための自動データ選択と事前学習/微調整戦略を含む TTS 構築のための完全教師なし手法を提案する。 大規模データセットで訓練されたシステムよりも, ttsシステムの自然音声生成効率が, 慎重かつ少ないデータ選択によって向上することを示す。 異なるアプローチを提案しています 1)データ: DNSMOS, 自動母音化, 自動音声認識(ASR)を用いて自動アノテーションを適用し, 書き起こし誤りの修正を行った。 2) モデル: TTSモデルにおける高リソース言語からの変換学習を1時間放送記録で微調整し, このモデルを用いてFastSpeech2ベースのコンバータモデルを長時間ガイドした。 評価の結果,CERは3.9%,CERは1.3%であった。 主観評価では,1 が不良で5 が優れている場合,我々のFastSpeech2 ベースの Conformer モデルでは,インテリジェンス4.4 と自然性4.2 の平均スコア(MOS)を達成し,多くのアノテータが放送者の声を認識し,提案手法の有効性を実証した。

Several high-resource Text to Speech (TTS) systems currently produce natural, well-established human-like speech. In contrast, low-resource languages, including Arabic, have very limited TTS systems due to the lack of resources. We propose a fully unsupervised method for building TTS, including automatic data selection and pre-training/fine-tuning strategies for TTS training, using broadcast news as a case study. We show how careful selection of data, yet smaller amounts, can improve the efficiency of TTS system in generating more natural speech than a system trained on a bigger dataset. We adopt to propose different approaches for the: 1) data: we applied automatic annotations using DNSMOS, automatic vowelization, and automatic speech recognition (ASR) for fixing transcriptions' errors; 2) model: we used transfer learning from high-resource language in TTS model and fine-tuned it with one hour broadcast recording then we used this model to guide a FastSpeech2-based Conformer model for duration. Our objective evaluation shows 3.9% character error rate (CER), while the groundtruth has 1.3% CER. As for the subjective evaluation, where 1 is bad and 5 is excellent, our FastSpeech2-based Conformer model achieved a mean opinion score (MOS) of 4.4 for intelligibility and 4.2 for naturalness, where many annotators recognized the voice of the broadcaster, which proves the effectiveness of our proposed unsupervised method.
翻訳日:2023-01-27 15:23:51 公開日:2023-01-26
# オンライン学習における事前ミススペクテーションの克服

Overcoming Prior Misspecification in Online Learning to Rank ( http://arxiv.org/abs/2301.10651v2 )

ライセンス: Link先を確認
Javad Azizi, Ofer Meshi, Masrour Zoghi, Maryam Karimzadehgan(参考訳) オンライン・ラーニング・トゥ・ランク(LTR)に関する最近の文献は、ベイジアン・ランキング・バンディットアルゴリズムの事前知識の有効性を確立している。 しかし、既存の作業の大きな制限は、アルゴリズムが真に一致させる前に使用する事前の要件である。 本稿では,この問題に対処する適応アルゴリズムの提案と解析を行い,これらの結果を線形および一般化線形モデルに拡張する。 クリックフィードバックに加えてスカラー関連フィードバックも検討する。 さらに, 合成実験と実世界実験の両方を用いて, アルゴリズムの有効性を示す。

The recent literature on online learning to rank (LTR) has established the utility of prior knowledge to Bayesian ranking bandit algorithms. However, a major limitation of existing work is the requirement for the prior used by the algorithm to match the true prior. In this paper, we propose and analyze adaptive algorithms that address this issue and additionally extend these results to the linear and generalized linear models. We also consider scalar relevance feedback on top of click feedback. Moreover, we demonstrate the efficacy of our algorithms using both synthetic and real-world experiments.
翻訳日:2023-01-27 15:13:00 公開日:2023-01-26
# 深層強化学習における探索のための自己報酬の自動生成

Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2301.10886v1 )

ライセンス: Link先を確認
Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng(参考訳) 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。 より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。 さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。 我々は、ProcgenゲームやDeepMind Control Suiteの様々なタスクでAIRSをテストする。 拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。

We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects shaping function from a predefined set based on the estimated task return in real-time, providing reliable exploration incentives and alleviating the biased objective problem. Moreover, we develop an intrinsic reward toolkit to provide efficient and reliable implementations of diverse intrinsic reward approaches. We test AIRS on various tasks of Procgen games and DeepMind Control Suite. Extensive simulation demonstrates that AIRS can outperform the benchmarking schemes and achieve superior performance with simple architecture.
翻訳日:2023-01-27 14:49:35 公開日:2023-01-26
# 古典システムによる非決定主義とベル非局所性

Indeterminism and Bell nonlocality with classical systems ( http://arxiv.org/abs/2301.10885v1 )

ライセンス: Link先を確認
Lorenzo Giannelli, Carlo Maria Scandolo and Giulio Chiribella(参考訳) 古典物理学の一般的な解釈は、すべての古典系が十分に定義された純粋状態にあると仮定しており、これは観測者にとって未知であるが、それでも物理現実の一部である。 ここでは,この解釈が必ずしも持続可能とは限らないことを示す。 我々は、全ての可能な古典的システムを含むおもちゃの理論と、反古典的(anti-classical)と呼ばれる他の体系を、反粒子が粒子と双対であるのと同様に、古典的システムと双対に構成する。 おもちゃ理論の世界では、全ての古典系は反古典的パートナーと絡み合うことができ、全ての古典的混合状態は、反古典的部分を捨てることで純粋に絡み合った状態から得ることができる。 そのような絡み合いが存在する場合、古典的なシステムだけに明確に定義された純粋状態を与えることは不可能である。 さらに強く、古典/反古典複合化合物の絡み合った状態がベル非局所性の活性化を示すことを証明し、この事実を用いて個々の古典系が明確に定義された局所状態が割り当てられるすべてのオントロジーモデルを排除する。

A popular interpretation of classical physics assumes that every classical system is in a well-defined pure state, which may be unknown to the observer, but is nevertheless part of the physical reality. Here we show that this interpretation is not always tenable. We construct a toy theory that includes all possible classical systems, alongside with another set of systems, called anti-classical, which are dual to the classical ones in a similar way as anti-particles are dual to particles. In the world of our toy theory, every classical system can be entangled with an anti-classical partner, and every classical mixed state can be obtained from a pure entangled state by discarding the anti-classical part. In the presence of such entanglement, it is impossible to assign a well-defined pure state to classical systems alone. Even more strongly, we prove that entangled states of classical/anti-classical composites exhibit activation of Bell nonlocality, and we use this fact to rule out every ontological model in which individual classical systems are assigned well-defined local states.
翻訳日:2023-01-27 14:49:22 公開日:2023-01-26
# 分解:ニューラルネットワークの構造的構成性の証拠

Break It Down: Evidence for Structural Compositionality in Neural Networks ( http://arxiv.org/abs/2301.10884v1 )

ライセンス: Link先を確認
Michael A. Lepori, Thomas Serre, Ellie Pavlick(参考訳) 多くのタスクはサブルーチン上のコンポジションとして記述できる。 現代のニューラルネットワークは、視覚と言語の両方のタスクで印象的なパフォーマンスを達成していますが、実装する機能についてはほとんど分かっていません。 1つの可能性として、ニューラルネットワークが暗黙的に複雑なタスクをサブルーチンに分解し、これらのサブルーチンに対するモジュラーなソリューションを実装し、タスクに対する全体的なソリューションに構成する。 あるいは、単に新しい入力を記憶された表現にマッチさせることを学び、タスクの分解を完全に排除する。 ここでは,モデルプルーニング手法を応用して,さまざまなアーキテクチャやタスク,事前学習レジームを通じて,ビジョンと言語の両方でこの問題を調査します。 以上の結果から,モデルではモジュールサブネットワークによるサブルーチンのソリューションの実装がしばしば行われ,他のサブルーチンの機能を維持しつつ,それを改善できることが示唆された。 このことは、ニューラルネットワークが構成性を習得し、特別なシンボリックメカニズムの必要性を回避できる可能性を示唆している。

Many tasks can be described as compositions over subroutines. Though modern neural networks have achieved impressive performance on both vision and language tasks, we know little about the functions that they implement. One possibility is that neural networks implicitly break down complex tasks into subroutines, implement modular solutions to these subroutines, and compose them into an overall solution to a task -- a property we term structural compositionality. Or they may simply learn to match new inputs to memorized representations, eliding task decomposition entirely. Here, we leverage model pruning techniques to investigate this question in both vision and language, across a variety of architectures, tasks, and pretraining regimens. Our results demonstrate that models oftentimes implement solutions to subroutines via modular subnetworks, which can be ablated while maintaining the functionality of other subroutines. This suggests that neural networks may be able to learn to exhibit compositionality, obviating the need for specialized symbolic mechanisms.
翻訳日:2023-01-27 14:49:03 公開日:2023-01-26
# メディアの誇大広告が物理学教育に与える影響--量子コンピューティングを事例として

How media hype affects our physics teaching: A case study on quantum computing ( http://arxiv.org/abs/2301.10882v1 )

ライセンス: Link先を確認
Josephine C. Meyer, Gina Passante, Steven J. Pollock, Bethany R. Wilcox(参考訳) popular mediaは、物理学の展望と、私たちの教育に使えるツールの、これまでないほど目立たない要素だ。 また、学生が世界から学んだ概念のホストとともに物理学教室に入ることもよく理解されている。 したがって、メディアの報道が、学生の身体現象や科学の性質に対する見解に大きく貢献する要因であるかもしれないと疑うのは理にかなっている。 しかし、物理教育と学習の形成におけるメディアの役割は、これまで物理学教育研究(PER)の文献でほとんど解明されていない。 本稿では,メディアハイプ現象を理論的かつ実践的な視点から探究する。科学技術における現在の話題のメディアレトリックと,それが学生やインストラクターに与える影響について述べる。 最先端科学のメディアの誇大宣伝は、学生が教室に入る動機となり、科学やテクノロジーが実際にできることに対する思いが膨らむ傾向にあるのと同じように、教育者にとって二刃の剣になり得ると我々は主張する。 我々は、量子コンピューティングの教育に関する事例をケーススタディとして取り上げるが、その発見は、外惑星からグラフェン、電気自動車用電池に至るまで、メディアの注目を集める他のトピックに一般化されるべきである。 我々は,一般のメディアが学生に与える役割をより認識し,それに応じて授業を調整したいと考える,あらゆるレベルの物理学教師に対して,実践的な勧告をまとめて締めくくる。

Popular media is an unspoken yet ever-present element of the physics landscape and a tool we can utilize in our teaching. It is also well-understood that students enter the physics classroom with a host of conceptions learned from the world at large. It stands to reason, then, to suspect that media coverage may be a major contributing factor to students' views on physical phenomena and the nature of science - one whose influence will only grow amid the 21st century digital age. Yet the role of the media in shaping physics teaching and learning has remained largely unexplored in the physics education research (PER) literature so far. Here, we explore the phenomenon of media hype from a theoretical and practical perspective: how media rhetoric of current topics in science and technology evolves, and how it affects students and instructors. We argue that media hype of cutting-edge science can be a double-edged sword for educators, with the same amped-up rhetoric that motivates students to enter the classroom tending to result in inflated preconceptions of what the science and technology can actually do. We draw on examples related to teaching quantum computing as a case study, though the findings we present should generalize to other topics garnering significant media attention - from exoplanets to graphene to batteries for electric vehicles. We conclude with a set of practical recommendations for physics teachers at all levels who wish to be more cognizant of the role exposure to popular media has on students and to tailor our teaching accordingly.
翻訳日:2023-01-27 14:48:47 公開日:2023-01-26
# superfed: 重み共有連合学習

SuperFed: Weight Shared Federated Learning ( http://arxiv.org/abs/2301.10879v1 )

ライセンス: Link先を確認
Alind Khare, Animesh Agrawal, Myungjin Lee, Alexey Tumanov(参考訳) フェデレーテッド・ラーニング(FL)は、分散トレーニングをプライバシに保存するための確立したテクニックである。 flトレーニングのさまざまな側面に多くの注意が払われている。 しかし、flで訓練されたモデルを消費するアプリケーションの数は増加しており、動的かつ予測不能な条件下での運用が増え、単一のモデルでは不十分になっている。 グローバルなモデルファミリーのトレーニングは、フェデレーション方式で効率的にコストがかかると論じている。 しかし、異なるトレードオフポイントに対して独立したトレーニングを行うと、興味のあるkアーキテクチャに対して$O(k)$コストが発生する。 FL手法の最近の重み付けトレーニングアプローチへのストレートフォワード適用は、実現不可能または違法に高価である。 SuperFed - 重み付き学習を活用することで、大きなモデルのファミリーを連携して訓練する、コスト$O(1)のアーキテクチャフレームワークを提案する。 2つの新しい訓練機構を提案することにより,コミュニケーションと計算の両面で1桁のコスト削減を実現する。 (a)連合顧客に対する重み付きモデルの分布 (b)重み付きモデルパラメータの任意の重み付けの中央集約。 これらの機構の組み合わせは、5*10^{18}$サイズのモデルの訓練に要する計算コストと通信コストの桁違い(9.43倍)に低下することが示されている。

Federated Learning (FL) is a well-established technique for privacy preserving distributed training. Much attention has been given to various aspects of FL training. A growing number of applications that consume FL-trained models, however, increasingly operate under dynamically and unpredictably variable conditions, rendering a single model insufficient. We argue for training a global family of models cost efficiently in a federated fashion. Training them independently for different tradeoff points incurs $O(k)$ cost for any k architectures of interest, however. Straightforward applications of FL techniques to recent weight-shared training approaches is either infeasible or prohibitively expensive. We propose SuperFed - an architectural framework that incurs $O(1)$ cost to co-train a large family of models in a federated fashion by leveraging weight-shared learning. We achieve an order of magnitude cost savings on both communication and computation by proposing two novel training mechanisms: (a) distribution of weight-shared models to federated clients, (b) central aggregation of arbitrarily overlapping weight-shared model parameters. The combination of these mechanisms is shown to reach an order of magnitude (9.43x) reduction in computation and communication cost for training a $5*10^{18}$-sized family of models, compared to independently training as few as $k = 9$ DNNs without any accuracy loss.
翻訳日:2023-01-27 14:47:58 公開日:2023-01-26
# プロジェクション・エンハンスメント・ネットワーク(PEN)

The Projection-Enhancement Network (PEN) ( http://arxiv.org/abs/2301.10877v1 )

ライセンス: Link先を確認
Christopher Z. Eddy, Austin Naylor, Bo Sun(参考訳) 細胞科学におけるインスタンスセグメンテーションの現代的アプローチは、実験とデータ構造に応じて2Dまたは3D畳み込みネットワークを使用する。 しかし、顕微鏡システムの制限や光毒性の防止には、特にオブジェクト間の大きな軸重なる混在環境において、そのような3Dデータの有用性を著しく低減する、準最適サンプルデータレギュレーションを記録する必要がある。 このような方法では、2dのセグメンテーションは細胞の形態に信頼性があり、注釈が容易である。 本研究では,サブサンプリングされた3dデータを処理し,2d rgb意味圧縮を生成する新しい畳み込みモジュールであるprojection enhancement network (pen)を提案する。 提案手法は,低密度のセルイメージデータセットを用いてPENを訓練し,PENを評価するためのキュレートデータセットを用いて,セル密度を増大させる。 ペンでは,セルポスで学習された意味表現が奥行きを符号化し,最大強度投影画像の入力によるセグメンテーション性能を大幅に向上させるが,mask-rcnnのような領域ベースのネットワークでは同じようにセグメンテーションを補助しない。 最後に,PENとCellPoseの細胞密度に対するセグメンテーション強度を左右のスフェロイドから散布した細胞上で解析した。 我々は、PENをデータ駆動型ソリューションとして、インスタンスセグメンテーションネットワークから2次元セグメンテーションを改善する3次元データの圧縮表現を形成する。

Contemporary approaches to instance segmentation in cell science use 2D or 3D convolutional networks depending on the experiment and data structures. However, limitations in microscopy systems or efforts to prevent phototoxicity commonly require recording sub-optimally sampled data regimes that greatly reduces the utility of such 3D data, especially in crowded environments with significant axial overlap between objects. In such regimes, 2D segmentations are both more reliable for cell morphology and easier to annotate. In this work, we propose the Projection Enhancement Network (PEN), a novel convolutional module which processes the sub-sampled 3D data and produces a 2D RGB semantic compression, and is trained in conjunction with an instance segmentation network of choice to produce 2D segmentations. Our approach combines augmentation to increase cell density using a low-density cell image dataset to train PEN, and curated datasets to evaluate PEN. We show that with PEN, the learned semantic representation in CellPose encodes depth and greatly improves segmentation performance in comparison to maximum intensity projection images as input, but does not similarly aid segmentation in region-based networks like Mask-RCNN. Finally, we dissect the segmentation strength against cell density of PEN with CellPose on disseminated cells from side-by-side spheroids. We present PEN as a data-driven solution to form compressed representations of 3D data that improve 2D segmentations from instance segmentation networks.
翻訳日:2023-01-27 14:47:25 公開日:2023-01-26
# Reef-insight:リモートセンシングによるクラスタリング法による礁生息環境マッピングのためのフレームワーク

Reef-insight: A framework for reef habitat mapping with clustering methods via remote sensing ( http://arxiv.org/abs/2301.10876v1 )

ライセンス: Link先を確認
Saharsh Barve, Jody Webster, Rohitash Chandra(参考訳) 環境被害は、特に沿岸地域や海洋において、気候変動と環境汚染の劇的な影響と極端な気候現象が懸念されている。 我々は,サンゴ礁生態系の管理と研究にリモートセンシングなどの情報取得技術の進歩とともに,今日の分析能力を利用することができる。 本稿では,リーフコミュニティマッピングのための高度なクラスタリング手法とリモートセンシングを特徴とする教師なし機械学習フレームワークであるlef-insightを提案する。 本稿では,異なるクラスタリング手法を比較し,リモートセンシングデータを用いたリーフコミュニティマッピングの評価を行う。 我々は,k平均,階層クラスタリング,ガウス混合モデル,および定性的および視覚的評価に基づく密度に基づくクラスタリングの4つの主要なクラスタリング手法を評価する。 オーストラリア・グレートバリアリーフのヘロン・リーフ島地域を特徴とするリモートセンシングデータを活用した。 以上の結果から,リモートセンシングデータを用いたクラスタリング手法は,サンゴ礁に生息するベントニック・ジオモルフィック・クラスタを他の研究と比較するとよく識別できることがわかった。 以上の結果から,サンゴ礁の生息域を網羅した詳細なサンゴ礁群集マップを作成できる可能性が示唆された。 私たちはフレームワークをオープンソースソフトウェアとしてリリースし、世界中の様々な地域への拡張を可能にしました。

Environmental damage has been of much concern, particularly coastal areas and the oceans given climate change and drastic effects of pollution and extreme climate events. Our present day analytical capabilities along with the advancements in information acquisition techniques such as remote sensing can be utilized for the management and study of coral reef ecosystems. In this paper, we present Reef-insight, an unsupervised machine learning framework that features advanced clustering methods and remote sensing for reef community mapping. Our framework compares different clustering methods to evaluate them for reef community mapping using remote sensing data. We evaluate four major clustering approaches such as k- means, hierarchical clustering, Gaussian mixture model, and density-based clustering based on qualitative and visual assessment. We utilise remote sensing data featuring Heron reef island region in the Great Barrier Reef of Australia. Our results indicate that clustering methods using remote sensing data can well identify benthic and geomorphic clusters that are found in reefs when compared to other studies. Our results indicate that Reef-insight can generate detailed reef community maps outlining distinct reef habitats and has the potential to enable further insights for reef restoration projects. We release our framework as open source software to enable its extension to different parts of the world
翻訳日:2023-01-27 14:46:57 公開日:2023-01-26
# 顔の感情認識

Facial Emotion Recognition ( http://arxiv.org/abs/2301.10906v1 )

ライセンス: Link先を確認
Arpita Vats, Aman Chadha(参考訳) 本稿では,swin vision transformersとswing and excitation block (se)を併用した表情感情認識フレームワークを提案する。 近年,視覚課題に対処するために注意機構に基づくトランスフォーマーモデルが提案されている。 本稿では,Squeeze Excitation block (SE) と sharpness-aware minimalr (SAM) を用いた視覚変換器を提案する。 ハイブリッドデータセットを使用して、モデルとAffectNetデータセットをトレーニングし、モデルの結果を評価しました。

We present a facial emotion recognition framework, built upon Swin vision Transformers jointly with squeeze and excitation block (SE). A transformer model based on an attention mechanism has been presented recently to address vision tasks. Our method uses a vision transformer with a Squeeze excitation block (SE) and sharpness-aware minimizer (SAM). We have used a hybrid dataset, to train our model and the AffectNet dataset to evaluate the result of our model
翻訳日:2023-01-27 14:40:22 公開日:2023-01-26
# gpuを用いたオンデバイス機械学習推論のためのプライベート情報検索

GPU-based Private Information Retrieval for On-Device Machine Learning Inference ( http://arxiv.org/abs/2301.10904v1 )

ライセンス: Link先を確認
Maximilian Lam, Jeff Johnson, Wenjie Xiong, Kiwan Maeng, Udit Gupta, Minsoo Rhu, Hsien-Hsin S. Lee, Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks, Edward Suh(参考訳) オンデバイス機械学習(ML)推論は、リモートサーバなしでユーザデバイス上でプライベートなユーザデータを使用できる。 しかし、プライベートML推論に対する純粋なオンデバイスソリューションは、デバイス上に格納するには大きすぎる埋め込みテーブルに依存する多くのアプリケーションにとって実用的ではない。 この障壁を克服するために,デバイス上でのml推論中にプライベート情報を共有することなく,サーバからの埋め込みを効率的かつプライベートに検索するpir(private information retrieval)の利用を提案する。 オフザシェルフのPIRアルゴリズムは、通常計算量が多く、遅延に敏感な推論タスクに直接使用することができないので、我々はそうする。 1)GPU上でPIRを加速する新しいアルゴリズムを開発し、 2) 下流MLアプリケーションとPIRを併用してさらなる高速化を実現する。 我々のGPUアクセラレーション戦略は、最適化されたCPU PIR実装よりも20ドル以上のシステムスループットを向上し、我々の共同設計技術は、固定モデル品質で5ドル以上のスループット改善を得る。 レコメンデーションや言語モデリングといったさまざまなオンデバイスmlアプリケーションでは、単一のv100 gpu上のシステムは、モデル精度を維持しつつ、推論通信と応答レイテンシをそれぞれ300$kbと100$ms以内に制限しながら、1秒間に最大10万ドル(100ドル)のクエリーを処理できます。

On-device machine learning (ML) inference can enable the use of private user data on user devices without remote servers. However, a pure on-device solution to private ML inference is impractical for many applications that rely on embedding tables that are too large to be stored on-device. To overcome this barrier, we propose the use of private information retrieval (PIR) to efficiently and privately retrieve embeddings from servers without sharing any private information during on-device ML inference. As off-the-shelf PIR algorithms are usually too computationally intensive to directly use for latency-sensitive inference tasks, we 1) develop a novel algorithm for accelerating PIR on GPUs, and 2) co-design PIR with the downstream ML application to obtain further speedup. Our GPU acceleration strategy improves system throughput by more than $20 \times$ over an optimized CPU PIR implementation, and our co-design techniques obtain over $5 \times$ additional throughput improvement at fixed model quality. Together, on various on-device ML applications such as recommendation and language modeling, our system on a single V100 GPU can serve up to $100,000$ queries per second -- a $>100 \times$ throughput improvement over a naively implemented system -- while maintaining model accuracy, and limiting inference communication and response latency to within $300$KB and $<100$ms respectively.
翻訳日:2023-01-27 14:40:15 公開日:2023-01-26
# 効率的な超次元計算

Efficient Hyperdimensional Computing ( http://arxiv.org/abs/2301.10902v1 )

ライセンス: Link先を確認
Zhanglu Yan, Shida Wang, Kaiwen Tang, Weng-Fai Wong(参考訳) 超次元計算(HDC)は高次元の2進ベクトルを用いて分類を行う。 その単純さと膨大な並列性のため、HDCはエネルギー効率が高く、資源制約のあるプラットフォームに適している。 しかし、直交性を効率と引き換えに、超ベクトルは数万次元を使用することがある。 本稿では,このような高次元の必要性について検討する。 特に、超ベクトルの次元、精度、直交性の間の関係を詳細に理論的に解析する。 本研究の主な結論は、通常100未満の非常に低い次元でも、他の最先端HDCモデルと比較して、類似またはより高い検出精度が得られることである。 そこで本研究では,従来のHDCモデルよりも桁違いに小さい次元の2次超ベクトルを用いたHDCモデルを構築する手法を提案する。 画像分類では,MNISTデータセットの次元がわずか32のHDC精度96.88\%を達成した。 我々はさらに、CIFAR-10のようなより複雑なデータセットの手法を探求し、HDCコンピューティングの限界を示す。

Hyperdimensional computing (HDC) uses binary vectors of high dimensions to perform classification. Due to its simplicity and massive parallelism, HDC can be highly energy-efficient and well-suited for resource-constrained platforms. However, in trading off orthogonality with efficiency, hypervectors may use tens of thousands of dimensions. In this paper, we will examine the necessity for such high dimensions. In particular, we give a detailed theoretical analysis of the relationship among dimensions of hypervectors, accuracy, and orthogonality. The main conclusion of this study is that a much lower dimension, typically less than 100, can also achieve similar or even higher detecting accuracy compared with other state-of-the-art HDC models. Based on this insight, we propose a suite of novel techniques to build HDC models that use binary hypervectors of dimensions that are orders of magnitude smaller than those found in the state-of-the-art HDC models, yet yield equivalent or even improved accuracy and efficiency. For image classification, we achieved an HDC accuracy of 96.88\% with a dimension of only 32 on the MNIST dataset. We further explore our methods on more complex datasets like CIFAR-10 and show the limits of HDC computing.
翻訳日:2023-01-27 14:39:52 公開日:2023-01-26
# クラスタリングの回復保証を強化するためのデータ再埋め込み

Re-embedding data to strengthen recovery guarantees of clustering ( http://arxiv.org/abs/2301.10901v1 )

ライセンス: Link先を確認
Tao Jiang, Samuel Tan, Stephen Vavasis(参考訳) そこで本研究では, 4つの既知手法をパイプラインにチェーンし, 4つのコンポーネントのいずれよりも強い回復保証を持つアルゴリズムを導出するクラスタリング手法を提案する。 私たちがleapfrog distancesと呼ぶパイプラインの最初のコンポーネントである$n$が$\mathbb r^d$で与えられると、密度ベースのクラスタリングを思い起こさせ、$n\times n$ distance matrixになります。 leapfrog距離は、他の2つの既知の手法である多次元スケーリングとスペクトル法を用いて、新しい埋め込みに変換され、$d'$ が $d'\ll d$ を満たす$n$ を$\mathbb r^{d'}$ に新しい埋め込みを与える。 最後に、再埋め込みされた点にSONクラスタリングを適用する。 第4のステップ(SONクラスタリング)は原則として他のクラスタリング手法に置き換えることができますが、我々は基盤となる構造の回復を保証することに注力しています。 したがって,sonクラスタリングは十分に研究されている手法であり,すでに証明可能な保証があるため,再エンベディングによりsonクラスタリングの回復が向上する。

We propose a clustering method that involves chaining four known techniques into a pipeline yielding an algorithm with stronger recovery guarantees than any of the four components separately. Given $n$ points in $\mathbb R^d$, the first component of our pipeline, which we call leapfrog distances, is reminiscent of density-based clustering, yielding an $n\times n$ distance matrix. The leapfrog distances are then translated to new embeddings using multidimensional scaling and spectral methods, two other known techniques, yielding new embeddings of the $n$ points in $\mathbb R^{d'}$, where $d'$ satisfies $d'\ll d$ in general. Finally, sum-of-norms (SON) clustering is applied to the re-embedded points. Although the fourth step (SON clustering) can in principle be replaced by any other clustering method, our focus is on provable guarantees of recovery of underlying structure. Therefore, we establish that the re-embedding improves recovery SON clustering, since SON clustering is a well-studied method that already has provable guarantees.
翻訳日:2023-01-27 14:39:35 公開日:2023-01-26
# 骨格に基づく行動認識のためのグラフコントラスト学習

Graph Contrastive Learning for Skeleton-based Action Recognition ( http://arxiv.org/abs/2301.10900v1 )

ライセンス: Link先を確認
Xiaohu Huang, Hao Zhou, Bin Feng, Xinggang Wang, Wenyu Liu, Jian Wang, Haocheng Feng, Junyu Han, Errui Ding, Jingdong Wang(参考訳) スケルトンに基づく行動認識の分野では、現在のトップパフォーマンスグラフ畳み込みネットワーク(GCN)は、列内コンテキストを利用して特徴集約のための適応グラフを構築する。 しかし、そのような文脈は、リッチな直交関係が明確に研究されていないため、依然として \textit{local} であると主張する。 本稿では,骨格に基づく行動認識(\textit{SkeletonGCL})のためのグラフコントラスト学習フレームワークを提案する。 具体的には、スケルトンgclは、グラフをクラス差別的、すなわちクラス内コンパクトかつクラス間分散に強制することによって、シーケンス間でのグラフ学習を関連付け、様々なアクションパターンを識別するgcn能力を向上させる。 さらに、2つのメモリバンクは、複数のコンテキストスケールでグラフコントラスト学習を可能にするために、2つの補完的なレベルである \emph{i}インスタンスとセマンティックレベルからクロスシーケンスコンテキストを豊かにするように設計されている。 その結果、SkeletonGCLは新しいトレーニングパラダイムを確立し、現在のGCNにシームレスに組み込むことができる。 一般性を失うことなく、SkeletonGCLを3つのGCN(2S-ACGN、CTR-GCN、InfoGCN)と組み合わせ、NTU60、NTU120、NW-UCLAベンチマークで一貫した改善を実現した。 ソースコードは \url{https://github.com/OliverHxh/SkeletonGCL} で入手できる。

In the field of skeleton-based action recognition, current top-performing graph convolutional networks (GCNs) exploit intra-sequence context to construct adaptive graphs for feature aggregation. However, we argue that such context is still \textit{local} since the rich cross-sequence relations have not been explicitly investigated. In this paper, we propose a graph contrastive learning framework for skeleton-based action recognition (\textit{SkeletonGCL}) to explore the \textit{global} context across all sequences. In specific, SkeletonGCL associates graph learning across sequences by enforcing graphs to be class-discriminative, \emph{i.e.,} intra-class compact and inter-class dispersed, which improves the GCN capacity to distinguish various action patterns. Besides, two memory banks are designed to enrich cross-sequence context from two complementary levels, \emph{i.e.,} instance and semantic levels, enabling graph contrastive learning in multiple context scales. Consequently, SkeletonGCL establishes a new training paradigm, and it can be seamlessly incorporated into current GCNs. Without loss of generality, we combine SkeletonGCL with three GCNs (2S-ACGN, CTR-GCN, and InfoGCN), and achieve consistent improvements on NTU60, NTU120, and NW-UCLA benchmarks. The source code will be available at \url{https://github.com/OliverHxh/SkeletonGCL}.
翻訳日:2023-01-27 14:39:16 公開日:2023-01-26
# 手続きテキストにおけるエンティティとイベントの因果推論

Causal Reasoning of Entities and Events in Procedural Texts ( http://arxiv.org/abs/2301.10896v1 )

ライセンス: Link先を確認
Li Zhang, Hainiu Xu, Yue Yang, Shuyan Zhou, Weiqiu You, Manni Arora and Chris Callison-Burch(参考訳) 存在や出来事は長い間、機械推論の要点と見なされてきた。 具体的には、関連するエンティティやイベントのダイナミックな性質から、手続き的なテキストが注目を集めている。 既存の作業は、エンティティ状態のトラッキング(例えば、パンの温度)や反ファクトイベントの推論(例えば、パンに触れて燃える確率など)にのみ焦点を合わせているが、これらの2つのタスクは密接に絡み合っている。 本研究では,エンティティ状態に基づく事象の妥当性に関する因果推論に関する最初のベンチマークであるCREPEを提案する。 GPT3を含むほとんどのモデルは、.30 F1の確率に近づき、.87 F1の人間のパフォーマンスよりもはるかに遅れていることを示す。 プログラミング言語のような構造化表現は、codexのようなコード言語モデルのプロンプトとしてイベント推論に便益があることに着想を得て、中間変数を通じてエンティティとイベントの因果関係を創造的に注入し、.67から.72 f1のパフォーマンスを高める。 提案するイベント表現は,知識注入を可能にするだけでなく,コード言語モデルによる思考連鎖推論を初めて成功させた試みでもある。

Entities and events have long been regarded as the crux of machine reasoning. Specifically, procedural texts have received increasing attention due to the dynamic nature of involved entities and events. Existing work has exclusively focused on entity state tracking (e.g., the temperature of a pan) or counterfactual event reasoning (e.g., how likely am I to burn myself by touching the pan), while these two tasks are tightly intertwined. In this work, we propose CREPE, the first benchmark on causal reasoning about event plausibility based on entity states. We experiment with strong large language models and show that most models including GPT3 perform close to chance of .30 F1, lagging far behind the human performance of .87 F1. Inspired by the finding that structured representations such as programming languages benefits event reasoning as a prompt to code language models such as Codex, we creatively inject the causal relations between entities and events through intermediate variables and boost the performance to .67 to .72 F1. Our proposed event representation not only allows for knowledge injection, but also marks the first successful attempt of chain-of-thought reasoning with code language models.
翻訳日:2023-01-27 14:38:43 公開日:2023-01-26
# 事故経験参照と常識参照を用いた自動運転計画

Planning Automated Driving with Accident Experience Referencing and Common-sense Inferencing ( http://arxiv.org/abs/2301.10892v1 )

ライセンス: Link先を確認
Shaobo Qiu, Ji Li, Guoxi Chen, Hong Wang, and Boqi Li(参考訳) 典型的なオートパイロットシステムは、精度、パフォーマンスの安定性、応答の俊敏性の点で人間をはるかに上回るが、そのようなシステムは、創造性、適応性、レジリエンスで馴染みのない環境を理解するという知恵において、まだ人間よりはるかに優れている。 現在のAD脳は基本的に、戦術レベルで働く左脳の思考の流れに似た論理計算を特徴とするエキスパートシステムである。 戦術的行動計画を監督できる直感的な戦略判断を行うことにより、自動走行車の安全性を次世代にアップグレードするためには、正しい脳が必要である。 本研究では,ADSB(Automated Driving Strategical Brain)の概念として,自動走行計画における意思決定の文脈的視点を提供するために,体験参照,常識推論,目標・価値判断機能を取り入れた,より抽象的なレベルで動作するシーン認識とシーン安全評価システムの枠組みを提案する。 ADSBの脳アーキテクチャは、Experience Reference Engine (ERE)、Common-sense Reference Engine (CIE)、Goal and Value Keeper (GVK)で構成されている。 1975年から2018年までのNHTSAのFARS/CRSSデータベースから1,614,748件のEREモデルのトレーニングに使用されている。 cieのカーネルは訓練されたモデルであり、アトミックによるcomet-bartであり、戦術レベルの環境認識の結論が曖昧であるときに方向性のアドバイスを提供するのに使うことができる。 GVKは、質的な性質を持つ追加の専門家によるルールを取り入れることができる。 さらに, ADSB アプローチは, スケーラビリティが向上すれば, ルールベース計画アルゴリズムの検証において, 長いコーナーケースに遭遇する問題に対する潜在的な解決策となると信じている。

Although a typical autopilot system far surpasses humans in term of sensing accuracy, performance stability and response agility, such a system is still far behind humans in the wisdom of understanding an unfamiliar environment with creativity, adaptivity and resiliency. Current AD brains are basically expert systems featuring logical computations, which resemble the thinking flow of a left brain working at tactical level. A right brain is needed to upgrade the safety of automated driving vehicle onto next generation by making intuitive strategical judgements that can supervise the tactical action planning. In this work, we present the concept of an Automated Driving Strategical Brain (ADSB): a framework of a scene perception and scene safety evaluation system that works at a higher abstraction level, incorporating experience referencing, common-sense inferring and goal-and-value judging capabilities, to provide a contextual perspective for decision making within automated driving planning. The ADSB brain architecture is made up of the Experience Referencing Engine (ERE), the Common-sense Referencing Engine (CIE) and the Goal and Value Keeper (GVK). 1,614,748 cases from FARS/CRSS database of NHTSA in the period 1975 to 2018 are used for the training of ERE model. The kernel of CIE is a trained model, COMET-BART by ATOMIC, which can be used to provide directional advice when tactical-level environmental perception conclusions are ambiguous; it can also use future scenario models to remind tactical-level decision systems to plan ahead of a perceived hazard scene. GVK can take in any additional expert-hand-written rules that are of qualitative nature. Moreover, we believe that with good scalability, the ADSB approach provides a potential solution to the problem of long-tail corner cases encountered in the validation of a rule-based planning algorithm.
翻訳日:2023-01-27 14:38:20 公開日:2023-01-26
# スキッパーCCDを用いた赤外光子数解像装置

Infrared photon-number-resolving imager using a Skipper-CCD ( http://arxiv.org/abs/2301.10891v1 )

ライセンス: Link先を確認
Q. Pears Stefano, A. G. Magnoni, J. Estrada, C. Iemmi, D. Rodrigues, J. Tiffenberg(参考訳) 高信号-雑音比の広い光強度系におけるイメージングは、量子メトロロジーや天文学のような様々な分野において重要な能力である。 量子画像における高信号対雑音比の達成は、パラメータ推定における古典的な限界を超える。 天文学的な検出において、居住可能な太陽系外惑星の探索は、その大気が生体信号を求める赤外線のイメージングを必要とする。 これらの光学応用は検出ノイズによって妨げられ、そのポテンシャルを著しく制限し、光子数および空間分解能検出器を必要とする。 本稿では,可読ノイズを任意に低減できる赤外波長域の撮像装置について報告する。 我々は,広ダイナミックレンジの光子数解決能力,空間分解能,近赤外および超低暗数での量子効率を備えた,厚いバックイルミネートセンサを備えた露光スキップccdセンサ機器を開発した。 本装置は,同一フレーム内の幅広い強度の物体を撮像し,読み出しノイズを0.2e$^-$以下にすることで,1ピクセルあたり2光子未満の形状でも識別し,これまでノイズに隠されていたものを明らかにする。 これらの結果は、skipper-ccdに基づく高規格赤外線画像作成の道を開いた。

Imaging in a broad light-intensity regime with a high signal-to-noise ratio is a key capability in fields as diverse as Quantum Metrology and Astronomy. Achieving high signal-to-noise ratios in quantum imaging leads to surpassing the classical limit in parameter estimation. In astronomical detection, the search for habitable exoplanets demands imaging in the infrared its atmospheres looking for biosignatures. These optical applications are hampered by detection noise, which critically limits their potential, and thus demands photon-number and spatial resolution detectors. Here we report an imaging device in the infrared wavelength range able to arbitrarily reduce the readout noise. We built a Measured Exposure Skipper-CCD Sensor Instrument equipped with a thick back-illuminated sensor, with photon-number-resolving capability in a wide dynamic range, spatial resolution, high quantum efficiency in the near-infrared and ultra-low dark counts. This device allows us to image objects in a broad range of intensities within the same frame and, by reducing the readout noise to less than 0.2e$^-$, to distinguish even those shapes with less than two photons per pixel, unveiling what was previously hidden in the noise. These results pave the way for building high-standard infrared imagers based on Skipper-CCDs.
翻訳日:2023-01-27 14:37:49 公開日:2023-01-26
# 不均衡データ学習評価フレームワーク(EFIDL)による実験

Experimenting with an Evaluation Framework for Imbalanced Data Learning (EFIDL) ( http://arxiv.org/abs/2301.10888v1 )

ライセンス: Link先を確認
Chenyu Li, Xia Jiang(参考訳) データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。 例えば、現実世界の医療データ、スパム検出ラベル、金融詐欺検出データセットなどです。 機械学習アルゴリズムの性能を改善するために、多くのデータバランス手法が導入された。 研究によると、SMOTEとSMOTEベースのデータ拡張(新しいデータポイントの生成)手法はアルゴリズムの性能を向上させる。 しかし、多くのオンラインチュートリアルでは、評価にバイアスをもたらす合成データセットに基づいて評価方法が適用され、パフォーマンスが誤って改善されていることがわかった。 本研究では,不均衡なデータ学習手法のための新しい評価フレームワークを提案する。 我々は5つのデータバランス手法とアルゴリズムの性能が改善されるかどうかを実験した。 方法 異なる領域の異なる不均衡率を持つ8つの不均衡な医療データセットを収集した。 適用された6つのデータ拡張方法 11の機械学習方法 データ拡張が機械学習のパフォーマンスを改善するのに役立つかどうかをテストする。 本稿では,従来のデータ拡張評価手法と,従来のデータ拡張評価メタホッドを用いたクロスバリデーション評価フレームワークの結果を比較し,性能改善の誤った印象を与える。 しかし,提案手法は,データ拡張が結果を改善する能力に限界があることを示す。 結論 EFIDL はデータ拡張時のML法の予測性能を評価するのにより適している。 不適切な評価フレームワークを使用することで、誤った結果が得られる。 今後の研究者は、拡張データセットを扱う際に提案する評価フレームワークを検討するべきである。 実験の結果,データ拡張はML予測性能の向上に寄与しないことがわかった。

Introduction Data imbalance is one of the crucial issues in big data analysis with fewer labels. For example, in real-world healthcare data, spam detection labels, and financial fraud detection datasets. Many data balance methods were introduced to improve machine learning algorithms' performance. Research claims SMOTE and SMOTE-based data-augmentation (generate new data points) methods could improve algorithm performance. However, we found in many online tutorials, the valuation methods were applied based on synthesized datasets that introduced bias into the evaluation, and the performance got a false improvement. In this study, we proposed, a new evaluation framework for imbalanced data learning methods. We have experimented on five data balance methods and whether the performance of algorithms will improve or not. Methods We collected 8 imbalanced healthcare datasets with different imbalanced rates from different domains. Applied 6 data augmentation methods with 11 machine learning methods testing if the data augmentation will help with improving machine learning performance. We compared the traditional data augmentation evaluation methods with our proposed cross-validation evaluation framework Results Using traditional data augmentation evaluation meta hods will give a false impression of improving the performance. However, our proposed evaluation method shows data augmentation has limited ability to improve the results. Conclusion EFIDL is more suitable for evaluating the prediction performance of an ML method when data are augmented. Using an unsuitable evaluation framework will give false results. Future researchers should consider the evaluation framework we proposed when dealing with augmented datasets. Our experiments showed data augmentation does not help improve ML prediction performance.
翻訳日:2023-01-27 14:37:26 公開日:2023-01-26
# 特権時系列テキストからの蒸留によるテキストベース早期予測の改善

Improving Text-based Early Prediction by Distillation from Privileged Time-Series Text ( http://arxiv.org/abs/2301.10887v1 )

ライセンス: Link先を確認
Jinghui Liu, Daniel Capurro, Anthony Nguyen, Karin Verspoor(参考訳) 将来の出来事や結果を予測するためにテキストベースの時系列をモデル化することは、幅広いアプリケーションにおいて重要なタスクである。 標準的なアプローチでは、同じ入力ウィンドウを使ってモデルをトレーニングし、テストするが、この手法は、予測時間と最終的な結果の間の長い入力ウィンドウで収集されたデータを無視する。 本研究では,この無視されたテキストを訓練中に利用できる特権情報として扱い,知識蒸留による早期予測モデルを強化することを提案する。 本手法を臨床およびソーシャルメディアのテキスト上で評価し,臨床ノートに基づく4つの臨床予測課題と,ソーシャルメディア投稿に基づく2つのメンタルヘルス予測課題について検討した。 以上の結果から,lupietはテキストベース早期予測の精度向上に有効であるが,適切なテキスト表現とウィンドウの選択を考慮すべきである。 トランスファーラーニングと混合トレーニングを使った他の2つの方法と比較して、LuPIETはベースラインよりも安定した標準トレーニングを提供する。 本研究は,NLP文脈における時系列の特権情報を用いた学習に関する最初の研究である。

Modeling text-based time-series to make prediction about a future event or outcome is an important task with a wide range of applications. The standard approach is to train and test the model using the same input window, but this approach neglects the data collected in longer input windows between the prediction time and the final outcome, which are often available during training. In this study, we propose to treat this neglected text as privileged information available during training to enhance early prediction modeling through knowledge distillation, presented as Learning using Privileged tIme-sEries Text (LuPIET). We evaluate the method on clinical and social media text, with four clinical prediction tasks based on clinical notes and two mental health prediction tasks based on social media posts. Our results show LuPIET is effective in enhancing text-based early predictions, though one may need to consider choosing the appropriate text representation and windows for privileged text to achieve optimal performance. Compared to two other methods using transfer learning and mixed training, LuPIET offers more stable improvements over the baseline, standard training. As far as we are concerned, this is the first study to examine learning using privileged information for time-series in the NLP context.
翻訳日:2023-01-27 14:37:10 公開日:2023-01-26
# 2ビットハイゼンベルクスピンチェーン相関とエントロピー不確かさ

Biqubit Heisenberg spin chain correlations and entropic uncertainty ( http://arxiv.org/abs/2301.10925v1 )

ライセンス: Link先を確認
Atta ur Rahman, S. M. Zangi, Ma-Cheng Yang, Cong-Feng Qiao(参考訳) 2量子XXZ型ハイゼンベルクスピンチェーン系における量子相関とエントロピーの不確かさのダイナミクスを,磁場と古典磁場に同時に曝露した場合に検討する。 エンタングルメント,コヒーレンス,エントロピーの不確かさ,混合性障害を示すために,それぞれネガティビティと$\ell_1$-norm of coherence,量子メモリ支援エントロピー不確実性,線形エントロピー関数を用いる。 また、外部の磁気チャネルと古典チャネルの結合スキームに悪影響を及ぼす静的ノイズも考慮される。 エンタングルメント, コヒーレンス, 不確実性, 障害のダイナミクスは, クビットチャネル結合, 静音強度, スピンスピン結合, ハイゼンベルクスピン交換相互作用, ジアロシンスキー-モリヤ相互作用 (DM), カプラン, シェフトマン, エンチン-ヴルマン, およびアハロニパラメータ (KSEA) や異方性パラメータなど, 現在の構成の様々なパラメータに対して明らかに研究されている。 古典的および磁場の個々の応用と比較して、それらの同時適用は量子相関保存により適していることを示す。 絡み合いとコヒーレンス関数は、エントロピーの不確実性やエントロピー障害と反対の関係があることが示されている。 最後に、エンタングルメントと比較して、コヒーレンスは2量子ビットのハイゼンベルクスピンチェーン系で強化されたままである。

We investigate the dynamics of quantum correlations and entropic uncertainty in a system of two-qubit XXZ-type Heisenberg spin chain when exposed to a magnetic and classical field simultaneously. To demonstrate entanglement, coherence, entropic uncertainty and mixedness disorder, we utilize negativity and $\ell_1$-norm of coherence, quantum memory-assisted entropic uncertainty and linear entropy functions, respectively. Besides, a dephasing static noise is considered affecting the joint scheme of the external magnetic and classical channel. The dynamics of entanglement, coherence, uncertainty, and disorder have been explicitly investigated against various several parameters of the current configuration, such as qubit-channel coupling, static noise strength, spin-spin coupling, Heisenberg spin exchange interaction, Dzyaloshinskii-Moriya interaction (DM), Kaplan, Shekhtman, Entin-Wohlman, and Aharony (KSEA) and anisotropy parameters. We show that compared to the individual application of the classical and magnetic field, their simultaneous application is more appropriate for the quantum correlations preservation. The entanglement and coherence functions have been shown to have opposite relationship with the entropic uncertainty and entropy disorder. Finally, compared to the entanglement, coherence remains strengthened in the two-qubit Heisenberg spin chain system.
翻訳日:2023-01-27 14:30:25 公開日:2023-01-26
# 低バイアス分布Actor-Criticを用いた信頼領域に基づく安全な強化学習

Efficient Trust Region-Based Safe Reinforcement Learning with Low-Bias Distributional Actor-Critic ( http://arxiv.org/abs/2301.10923v1 )

ライセンス: Link先を確認
Dohyeong Kim, Kyungjae Lee, Songhwai Oh(参考訳) 実世界の応用に強化学習(RL)を適用するためには、エージェントはそれぞれのドメインの安全ガイドラインに従う必要がある。 安全なRLは、それらをRL問題の制約に変換することで、ガイドラインを効果的に処理できる。 本稿では,信頼領域法に基づいて,制約を一貫して満たした安全な分散rl法を提案する。 しかし、分布批判者の推定バイアスのため、政策は安全ガイドラインを満たさない可能性があり、信頼領域法に必要な重要サンプリングは、その大きなばらつきにより性能を損なう可能性がある。 したがって, 安全性能は以下の方法で向上する。 まず, バイアス分散をトレードオフ可能な対象分布を用いて, 評価バイアスの低い分布批判者を訓練する。 第二に,再パラメータ化手法を用いてq関数で表現した信頼領域法に対する新しいサロゲートを提案する。 さらに、初期ポリシー設定によっては、信頼領域内の制約を満たすポリシーは存在しない。 この問題に対処するために、安全でない初期ポリシーから全ての制約を満たすポリシーを見つけることを保証する勾配積分法を提案する。 リスク逆制約を用いた提案手法は,既存の安全RL法と比較して高いリターンを達成しつつ,最小限の制約違反を示す。

To apply reinforcement learning (RL) to real-world applications, agents are required to adhere to the safety guidelines of their respective domains. Safe RL can effectively handle the guidelines by converting them into constraints of the RL problem. In this paper, we develop a safe distributional RL method based on the trust region method, which can satisfy constraints consistently. However, policies may not meet the safety guidelines due to the estimation bias of distributional critics, and importance sampling required for the trust region method can hinder performance due to its significant variance. Hence, we enhance safety performance through the following approaches. First, we train distributional critics to have low estimation biases using proposed target distributions where bias-variance can be traded off. Second, we propose novel surrogates for the trust region method expressed with Q-functions using the reparameterization trick. Additionally, depending on initial policy settings, there can be no policy satisfying constraints within a trust region. To handle this infeasible issue, we propose a gradient integration method which guarantees to find a policy satisfying all constraints from an unsafe initial policy. From extensive experiments, the proposed method with risk-averse constraints shows minimal constraint violations while achieving high returns compared to existing safe RL methods.
翻訳日:2023-01-27 14:29:52 公開日:2023-01-26
# オフnadir空中画像による建物変化の検出

Detecting Building Changes with Off-Nadir Aerial Images ( http://arxiv.org/abs/2301.10922v1 )

ライセンス: Link先を確認
Chao Pang, Jiang Wu, Jian Ding, Can Song, Gui-Song Xia(参考訳) オフナディア航空画像の傾いた視界特性は、近くの建物のミスマッチや建物ファサードの意味的曖昧さといった、ビル変更検出(BCD)問題に深刻な課題をもたらす。 これらの課題に対処するため,MTGCD-Netと呼ばれるマルチタスクガイドによる変更検出ネットワークモデルを提案する。 提案手法は,(1)建物の屋根とファサードの予測を行う画素ワイド分類タスク,(2)建物の屋根とフットプリントの相違を考慮に入れた各建物の屋根とフットプリントの相違点を学習する補助タスク,(3)建築屋根のミスマッチ問題に対処する時空間画像間の同一の屋根の一致フローを学習する補助タスク,の3つのタスクを設計することによって,特定のBCD問題にアプローチする。 これらの補助タスクは、必須で補完的な建物解析とマッチング情報を提供する。 補助タスクの予測は、最終的にマルチモーダル蒸留モジュールを備えた主建物変更検出ブランチに融合される。 そこで我々は,BANDONという新しいベンチマークデータセットを作成し,BCD問題のトレーニングとテストを行う。 広範な実験により,これまでの最先端の競争相手よりも優れた性能が得られた。

The tilted viewing nature of the off-nadir aerial images brings severe challenges to the building change detection (BCD) problem: the mismatch of the nearby buildings and the semantic ambiguity of the building facades. To tackle these challenges, we present a multi-task guided change detection network model, named as MTGCD-Net. The proposed model approaches the specific BCD problem by designing three auxiliary tasks, including: (1) a pixel-wise classification task to predict the roofs and facades of buildings; (2) an auxiliary task for learning the roof-to-footprint offsets of each building to account for the misalignment between building roof instances; and (3) an auxiliary task for learning the identical roof matching flow between bi-temporal aerial images to tackle the building roof mismatch problem. These auxiliary tasks provide indispensable and complementary building parsing and matching information. The predictions of the auxiliary tasks are finally fused to the main building change detection branch with a multi-modal distillation module. To train and test models for the BCD problem with off-nadir aerial images, we create a new benchmark dataset, named BANDON. Extensive experiments demonstrate that our model achieves superior performance over the previous state-of-the-art competitors.
翻訳日:2023-01-27 14:29:32 公開日:2023-01-26
# SoftMatch: セミ教師付き学習における量-品質トレードオフへの対処

SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised Learning ( http://arxiv.org/abs/2301.10921v1 )

ライセンス: Link先を確認
Hao Chen, Ran Tao, Yue Fan, Yidong Wang, Jindong Wang, Bernt Schiele, Xing Xie, Bhiksha Raj, Marios Savvides(参考訳) Semi-Supervised Learning (SSL) の重要な課題は、制限付きラベル付きデータと大量のラベルなしデータを効果的に活用して、モデルの一般化性能を改善することである。 本稿では,まずサンプル重み付けの統一化による擬似ラベル法を再検討し,学習を禁止しうる閾値付き擬似ラベルの質の高いトレードオフ問題を示す。 そこで本稿では,学習中の擬似ラベルの高量化と高品質化を両立させることで,トレードオフを克服するSoftMatchを提案する。 その信頼度に基づいて, 切断されたガウス関数から試料を重み付けし, 信頼しきい値のソフトバージョンと見なすことができる。 さらに,一様アライメントアプローチを提案することにより,弱学習クラスの利用をさらに高める。 実験では、softmatchは画像、テキスト、不均衡分類など、さまざまなベンチマークで大幅に改善されている。

The critical challenge of Semi-Supervised Learning (SSL) is how to effectively leverage the limited labeled data and massive unlabeled data to improve the model's generalization performance. In this paper, we first revisit the popular pseudo-labeling methods via a unified sample weighting formulation and demonstrate the inherent quantity-quality trade-off problem of pseudo-labeling with thresholding, which may prohibit learning. To this end, we propose SoftMatch to overcome the trade-off by maintaining both high quantity and high quality of pseudo-labels during training, effectively exploiting the unlabeled data. We derive a truncated Gaussian function to weight samples based on their confidence, which can be viewed as a soft version of the confidence threshold. We further enhance the utilization of weakly-learned classes by proposing a uniform alignment approach. In experiments, SoftMatch shows substantial improvements across a wide variety of benchmarks, including image, text, and imbalanced classification.
翻訳日:2023-01-27 14:29:09 公開日:2023-01-26
# 近位政策最適化のための部分優位推定器

Partial advantage estimator for proximal policy optimization ( http://arxiv.org/abs/2301.10920v1 )

ライセンス: Link先を確認
Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas(参考訳) 政策勾配法における値の推定は基本的な問題である。 generalized advantage estimation (gae) は$\lambda$-return に似たアドバンテージ関数の指数重み付き推定子である。 バイアスを犠牲にして、政策勾配推定のばらつきを実質的に低減する。 現実的な応用では、軌道の不完全性により切り離されたGAEが使われ、推定時に大きなバイアスが生じる。 この課題に対処するために、切り捨てられたGAE全体を使わずに、更新を計算する際にその一部を取ることを提案し、不完全な軌道から生じるバイアスを著しく低減する。 mujoco と $\mu$rts で実験を行い, 異なる部分係数とサンプリング長さの影響について検討した。 両環境においてGAEアプローチがより優れた実験結果をもたらすことを示す。

Estimation of value in policy gradient methods is a fundamental problem. Generalized Advantage Estimation (GAE) is an exponentially-weighted estimator of an advantage function similar to $\lambda$-return. It substantially reduces the variance of policy gradient estimates at the expense of bias. In practical applications, a truncated GAE is used due to the incompleteness of the trajectory, which results in a large bias during estimation. To address this challenge, instead of using the entire truncated GAE, we propose to take a part of it when calculating updates, which significantly reduces the bias resulting from the incomplete trajectory. We perform experiments in MuJoCo and $\mu$RTS to investigate the effect of different partial coefficient and sampling lengths. We show that our partial GAE approach yields better empirical results in both environments.
翻訳日:2023-01-27 14:28:51 公開日:2023-01-26
# 近位政策最適化のための共同動作損失

Joint action loss for proximal policy optimization ( http://arxiv.org/abs/2301.10919v1 )

ライセンス: Link先を確認
Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas(参考訳) PPO(Proximal Policy Optimization)は、Dota 2やHonor of Kingsのような複雑なコンピュータゲームに適用された最先端のポリシー勾配アルゴリズムである。 これらの環境では、エージェントは複数のサブアクションからなる複合作用を行う。 PPOは、ポリシー更新を制限するためにクリップを使用する。 クリッピングは単純で効果的であるが, 試料使用では有効ではない。 複合作用の場合、ほとんどのPPO実装は部分作用の結合確率(密度)を考慮しており、サンプル(状態複作用対)の比が範囲を超えた場合、サンプルが生成する勾配はゼロである。 代わりに、各サブアクションに対して、損失を別々に計算します。 さらに,ジョイントと分離確率を組み合わせたマルチアクション混合損失を提案する。 Gym-$\mu$RTS と MuJoCo で実験を行った。 当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境における性能を50%以上向上させる。 そして、Gym-$\mu$RTSでは、特にクリップ範囲が大きい場合、サブアクション損失は標準的なPPOアプローチよりも優れている。 本手法は, 試料の使用効率と品質のバランスを良くすると考えられる。

PPO (Proximal Policy Optimization) is a state-of-the-art policy gradient algorithm that has been successfully applied to complex computer games such as Dota 2 and Honor of Kings. In these environments, an agent makes compound actions consisting of multiple sub-actions. PPO uses clipping to restrict policy updates. Although clipping is simple and effective, it is not efficient in its sample use. For compound actions, most PPO implementations consider the joint probability (density) of sub-actions, which means that if the ratio of a sample (state compound-action pair) exceeds the range, the gradient the sample produces is zero. Instead, for each sub-action we calculate the loss separately, which is less prone to clipping during updates thereby making better use of samples. Further, we propose a multi-action mixed loss that combines joint and separate probabilities. We perform experiments in Gym-$\mu$RTS and MuJoCo. Our hybrid model improves performance by more than 50\% in different MuJoCo environments compared to OpenAI's PPO benchmark results. And in Gym-$\mu$RTS, we find the sub-action loss outperforms the standard PPO approach, especially when the clip range is large. Our findings suggest this method can better balance the use-efficiency and quality of samples.
翻訳日:2023-01-27 14:28:39 公開日:2023-01-26
# ITstyler: 画像最適化テキストベースのスタイル転送

ITstyler: Image-optimized Text-based Style Transfer ( http://arxiv.org/abs/2301.10916v1 )

ライセンス: Link先を確認
Yunpeng Bai, Jiayue Liu, Chao Dong, Chun Yuan(参考訳) テキストベースのスタイル転送は、スタイルイメージの代わりにテキスト情報を使用して転送プロセスをガイドする新しい研究トピックであり、スタイル転送のアプリケーションシナリオを大幅に拡張する。 しかし、従来の手法では最適化やテキストイメージのペアデータに余分な時間を要するため、有効性は限られている。 本研究では,推論段階で最適化を必要とせず,データ効率の良いテキストベースのスタイル転送手法を実現する。 具体的には,テキスト入力を事前学習したVGGネットワークのスタイル空間に変換し,より効果的なスタイルスワップを実現する。 また、CLIPのマルチモーダル埋め込みスペースを活用して、画像データセットのみによるテキストからスタイルへのマッピングを学習します。 本手法は,任意のテキスト入力スタイルをリアルタイムに転送し,高品質な芸術画像を合成する。

Text-based style transfer is a newly-emerging research topic that uses text information instead of style image to guide the transfer process, significantly extending the application scenario of style transfer. However, previous methods require extra time for optimization or text-image paired data, leading to limited effectiveness. In this work, we achieve a data-efficient text-based style transfer method that does not require optimization at the inference stage. Specifically, we convert text input to the style space of the pre-trained VGG network to realize a more effective style swap. We also leverage CLIP's multi-modal embedding space to learn the text-to-style mapping with the image dataset only. Our method can transfer arbitrary new styles of text input in real-time and synthesize high-quality artistic images.
翻訳日:2023-01-27 14:28:19 公開日:2023-01-26
# プロンプトチューニングによるパラメータ効率の低リソース対話状態追跡

Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt Tuning ( http://arxiv.org/abs/2301.10915v1 )

ライセンス: Link先を確認
Mingyu Derek Ma, Jiun-Yu Kao, Shuyang Gao, Arpit Gupta, Di Jin, Tagyoung Chung, Nanyun Peng(参考訳) 対話状態追跡(dst)は、ユーザの信念を追跡するための対話管理の重要なステップである。 既存の作業では、トレーニングとホスティングのために重要なデータと計算リソースを必要とするdstタスクに取り組むために、すべての言語モデル(lm)パラメータを微調整している。 さまざまなドメインやタスクに数十の微調整lmが使用される現実のデプロイメントでは、コストが指数関数的に増加する。 パラメータサイズを小さくし,クロスタスク共有情報を活用するために,ソフトプロンプトトークン埋め込みを用いたタスク特性の学習を提案する。 LMパラメータをチューニングせずに、従来の作業の0.5%未満に必要なパラメータ数を劇的に削減し、低リソースDST性能を向上する。

Dialogue state tracking (DST) is an important step in dialogue management to keep track of users' beliefs. Existing works fine-tune all language model (LM) parameters to tackle the DST task, which requires significant data and computing resources for training and hosting. The cost grows exponentially in the real-world deployment where dozens of fine-tuned LM are used for different domains and tasks. To reduce parameter size and better utilize cross-task shared information, we propose to use soft prompt token embeddings to learn task properties. Without tuning LM parameters, our method drastically reduces the number of parameters needed to less than 0.5% of prior works while achieves better low-resource DST performance.
翻訳日:2023-01-27 14:28:06 公開日:2023-01-26
# 不均一治療効果の近位因果学習

Proximal Causal Learning of Heterogeneous Treatment Effects ( http://arxiv.org/abs/2301.10913v1 )

ライセンス: Link先を確認
Erik Sverdrup and Yifan Cui(参考訳) 医療からマーケティングまで幅広い場面で治療効果の多様性を効率的かつ柔軟に推定することは重要な課題であり、現在利用可能な有望な条件付き平均治療効果推定装置が多数存在する。 しかし、これらは通常、測定された共変量は条件付き交換可能性の正当化に十分であるという仮定に依存している。 本稿では,R-learnerを動機とするP-learnerを提案する。このP-learnerは,観測された共変量に対する交換性が不可解な仮定である設定において,不均一な処理効果を学習するための2段階の損失関数である。 提案手法は,既定の損失最小化機械学習手法によって実現可能であり,カーネル回帰の場合,ニュアサンス成分が合理的に推定される限り,推定誤差にバウンドしたオラクルを満足させることができる。

Efficiently and flexibly estimating treatment effect heterogeneity is an important task in a wide variety of settings ranging from medicine to marketing, and there are a considerable number of promising conditional average treatment effect estimators currently available. These, however, typically rely on the assumption that the measured covariates are enough to justify conditional exchangeability. We propose the P-learner, motivated by the R-learner, a tailored two-stage loss function for learning heterogeneous treatment effects in settings where exchangeability given observed covariates is an implausible assumption, and we wish to rely on proxy variables for causal inference. Our proposed estimator can be implemented by off-the-shelf loss-minimizing machine learning methods, which in the case of kernel regression satisfies an oracle bound on the estimated error as long as the nuisance components are estimated reasonably well.
翻訳日:2023-01-27 14:27:54 公開日:2023-01-26
# イメージ内の認知的バックドアパターンの蒸留

Distilling Cognitive Backdoor Patterns within an Image ( http://arxiv.org/abs/2301.10908v1 )

ライセンス: Link先を確認
Hanxun Huang, Xingjun Ma, Sarah Erfani, James Bailey(参考訳) 本稿では,画像中のバックドアパターンを簡易に蒸留・検出する手法である \emph{cognitive distillation} (cd)を提案する。 そのアイデアは、モデルの予測に責任を持つ入力画像から「最小本質」を抽出することである。 CDは入力マスクを最適化し、入力画像から同じモデル出力(例えば、ロジットや深い特徴)につながる小さなパターンを抽出する。 抽出されたパターンは、クリーン対バックドア画像におけるモデルの認知メカニズムを理解するのに役立ち、これを \emph{cognitive pattern} (cp) と呼ぶ。 cdと蒸留したcpsを使用することで、バックドア攻撃の興味深い現象が明らかになる。異なる攻撃で使われるトリガーパターンの形態やサイズにもかかわらず、バックドアサンプルのcpsは驚くほど小さく、疑わしいほど小さい。 これにより、学習されたマスクを利用して、有毒なトレーニングデータセットからバックドアの例を検出し、取り除くことができる。 我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。 また、顔のデータセットから潜在的なバイアスを検出するためにCDを適用できることも示しています。 コードは \url{https://github.com/hanxunh/cognitivedistillation} で入手できる。

This paper proposes a simple method to distill and detect backdoor patterns within an image: \emph{Cognitive Distillation} (CD). The idea is to extract the "minimal essence" from an input image responsible for the model's prediction. CD optimizes an input mask to extract a small pattern from the input image that can lead to the same model output (i.e., logits or deep features). The extracted pattern can help understand the cognitive mechanism of a model on clean vs. backdoor images and is thus called a \emph{Cognitive Pattern} (CP). Using CD and the distilled CPs, we uncover an interesting phenomenon of backdoor attacks: despite the various forms and sizes of trigger patterns used by different attacks, the CPs of backdoor samples are all surprisingly and suspiciously small. One thus can leverage the learned mask to detect and remove backdoor examples from poisoned training datasets. We conduct extensive experiments to show that CD can robustly detect a wide range of advanced backdoor attacks. We also show that CD can potentially be applied to help detect potential biases from face datasets. Code is available at \url{https://github.com/HanxunH/CognitiveDistillation}.
翻訳日:2023-01-27 14:27:36 公開日:2023-01-26
# 確率的二階最適化のための完全一階法

A Fully First-Order Method for Stochastic Bilevel Optimization ( http://arxiv.org/abs/2301.10945v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Dohyun Kwon, Stephen Wright, Robert Nowak(参考訳) 一階勾配オラクルのみが利用できる場合の確率的非制約二値最適化問題を考える。 両レベル問題に対処するための多くの最適化手法が提案されているが、既存の手法では、より低レベルな目的のヘッセンについて、あるいは厳密な有限時間性能保証が欠如している場合が多い。 本研究では,完全一階確率近似(f2sa)法を提案し,非漸近収束特性について検討する。 具体的には、F2SA が 2 レベル問題の $\epsilon^{-7/2} と \epsilon^{-5/2} と $\epsilon^{-3/2} の反復(それぞれ$O(1)$サンプルを用いた反復)に収束することを示す。 さらに, 運動量支援勾配推定器を用いる場合, 反復複雑性をそれぞれ$\epsilon^{-5/2}, \epsilon^{-4/2}$, $\epsilon^{-3/2}$に改善できることを示した。 MNISTデータハイパクリーニング実験において,既存の2次手法よりも提案手法の実用性能が優れていることを示す。

We consider stochastic unconstrained bilevel optimization problems when only the first-order gradient oracles are available. While numerous optimization methods have been proposed for tackling bilevel problems, existing methods either tend to require possibly expensive calculations regarding Hessians of lower-level objectives, or lack rigorous finite-time performance guarantees. In this work, we propose a Fully First-order Stochastic Approximation (F2SA) method, and study its non-asymptotic convergence properties. Specifically, we show that F2SA converges to an $\epsilon$-stationary solution of the bilevel problem after $\epsilon^{-7/2}, \epsilon^{-5/2}$, and $\epsilon^{-3/2}$ iterations (each iteration using $O(1)$ samples) when stochastic noises are in both level objectives, only in the upper-level objective, and not present (deterministic settings), respectively. We further show that if we employ momentum-assisted gradient estimators, the iteration complexities can be improved to $\epsilon^{-5/2}, \epsilon^{-4/2}$, and $\epsilon^{-3/2}$, respectively. We demonstrate even superior practical performance of the proposed method over existing second-order based approaches on MNIST data-hypercleaning experiments.
翻訳日:2023-01-27 14:21:44 公開日:2023-01-26
# GeCoNeRF:Geometric Consistencyによる数発のニューラルラジアンスフィールド

GeCoNeRF: Few-shot Neural Radiance Fields via Geometric Consistency ( http://arxiv.org/abs/2301.10941v1 )

ライセンス: Link先を確認
Minseop Kwak, Jiuhn Song, Seungryong Kim(参考訳) 我々は、幾何認識整合性正規化を伴う数ショット設定でニューラルラジアンス場(NeRF)を正則化する新しいフレームワークを提案する。 提案手法は、未観測視点での深度マップを利用して、未観測視点にスパース入力画像をワープし、それらを擬似基底真理として与えて、NeRFの学習を容易にする。 画素レベルの再構成損失を使わずに機能レベルでの幾何的整合性を奨励することにより、NeRFを意味的および構造レベルで規則化し、ビュー依存放射率をモデル化し、視点間の色変化を考慮できる。 また,最適化中のトレーニングを安定させるトレーニング戦略とともに,誤った解をフィルタする効果的な手法を提案する。 本モデルは,最先端のnrfモデルと比較して,競争力のある結果が得られることを示す。 プロジェクトページはhttps://ku-cvlab.github.io/geconerf/。

We present a novel framework to regularize Neural Radiance Field (NeRF) in a few-shot setting with a geometry-aware consistency regularization. The proposed approach leverages a rendered depth map at unobserved viewpoint to warp sparse input images to the unobserved viewpoint and impose them as pseudo ground truths to facilitate learning of NeRF. By encouraging such geometry-aware consistency at a feature-level instead of using pixel-level reconstruction loss, we regularize the NeRF at semantic and structural levels while allowing for modeling view dependent radiance to account for color variations across viewpoints. We also propose an effective method to filter out erroneous warped solutions, along with training strategies to stabilize training during optimization. We show that our model achieves competitive results compared to state-of-the-art few-shot NeRF models. Project page is available at https://ku-cvlab.github.io/GeCoNeRF/.
翻訳日:2023-01-27 14:21:19 公開日:2023-01-26
# 目標駆動型ディヤドコミュニケーションのための感情的顔

Affective Faces for Goal-Driven Dyadic Communication ( http://arxiv.org/abs/2301.10939v1 )

ライセンス: Link先を確認
Scott Geng, Revant Teotia, Purva Tendulkar, Sachit Menon, and Carl Vondrick(参考訳) 本稿では,言語間コミュニケーションと非言語間コミュニケーションの関連をモデル化するビデオフレームワークを提案する。 話者の入力音声を考慮すれば,コンテキストに応じて社会的に適切な表情を持つ聞き手の映像を検索する。 我々のアプローチは、リスナーが自身の目標、個性、バックグラウンドを条件付けることを可能にする。 我々のアプローチは、大きな言語モデルと視覚言語モデルの合成を通して会話をモデル化し、解釈可能で制御可能な内部表現を作成する。 マルチモーダルコミュニケーションを研究するために,多種多様なトピックや人口動態を網羅したビデオデータセットを提案する。 実験と可視化は、我々のアプローチがベースラインよりもはるかに社会的に適切であるリスナーを出力できることを示している。 しかし、多くの課題は残っており、さらなる進歩を促すためにデータセットを公開しています。 ビデオ結果、データ、コードについては、私たちのWebサイトを参照してください。

We introduce a video framework for modeling the association between verbal and non-verbal communication during dyadic conversation. Given the input speech of a speaker, our approach retrieves a video of a listener, who has facial expressions that would be socially appropriate given the context. Our approach further allows the listener to be conditioned on their own goals, personalities, or backgrounds. Our approach models conversations through a composition of large language models and vision-language models, creating internal representations that are interpretable and controllable. To study multimodal communication, we propose a new video dataset of unscripted conversations covering diverse topics and demographics. Experiments and visualizations show our approach is able to output listeners that are significantly more socially appropriate than baselines. However, many challenges remain, and we release our dataset publicly to spur further progress. See our website for video results, data, and code: https://realtalk.cs.columbia.edu.
翻訳日:2023-01-27 14:21:02 公開日:2023-01-26
# 相関マスクモデルを用いた小型変圧器トラッカー

Compact Transformer Tracker with Correlative Masked Modeling ( http://arxiv.org/abs/2301.10938v1 )

ライセンス: Link先を確認
Zikai Song, Run Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang(参考訳) Transformerフレームワークは、テンプレートと検索画像によく知られたアテンション機構を備えた情報収集において、視覚オブジェクト追跡において優れたパフォーマンスを示している。 最近の進歩は、より優れた情報集約のための注意機構の変種を探究することに焦点を当てている。 これらのスキームは、基本的な自己認識機構のサブセットと同等か、あるいは単なるサブセットである。 本稿では,バニラ自己注意構造は情報集約に十分であり,構造適応は不要であることを示す。 鍵となるのは注意構造ではなく、ターゲットと検索画像間のコミュニケーションを追跡し強化するための識別的特徴を抽出する方法である。 この発見に基づいて、我々は基本視覚変換器(ViT)アーキテクチャをメイントラッカーとして採用し、特徴埋め込みのためのテンプレートと検索画像を結合する。 追跡のための不変な特徴を捉えるためのエンコーダのガイドとして,対応するマスクトークンから元のテンプレートと検索画像を再構成する軽量な相関マスクデコーダを取り付ける。 相関マスクデコーダはコンパクトトランスフォーメーショントラッカーのプラグインとして機能し、推論でスキップされる。 我々の小型トラッカーは、ViTバックボーンとボックスヘッドのみで構成され、40fpsで動作可能な最も単純な構造を使っている。 広範な実験により,提案するコンパクトトランスフォーメーショントラッカは,先進的注意型を含む既存のアプローチを上回り,追跡作業における自己着脱の十分性を示す。 提案手法は,VOT2020, UAV123, LaSOT, TrackingNet, GOT-10kベンチマークとともに,5つの挑戦的データセットの最先端性能を実現する。 私たちのプロジェクトはhttps://github.com/hustdml/cttrackで利用可能です。

Transformer framework has been showing superior performances in visual object tracking for its great strength in information aggregation across the template and search image with the well-known attention mechanism. Most recent advances focus on exploring attention mechanism variants for better information aggregation. We find these schemes are equivalent to or even just a subset of the basic self-attention mechanism. In this paper, we prove that the vanilla self-attention structure is sufficient for information aggregation, and structural adaption is unnecessary. The key is not the attention structure, but how to extract the discriminative feature for tracking and enhance the communication between the target and search image. Based on this finding, we adopt the basic vision transformer (ViT) architecture as our main tracker and concatenate the template and search image for feature embedding. To guide the encoder to capture the invariant feature for tracking, we attach a lightweight correlative masked decoder which reconstructs the original template and search image from the corresponding masked tokens. The correlative masked decoder serves as a plugin for the compact transform tracker and is skipped in inference. Our compact tracker uses the most simple structure which only consists of a ViT backbone and a box head, and can run at 40 fps. Extensive experiments show the proposed compact transform tracker outperforms existing approaches, including advanced attention variants, and demonstrates the sufficiency of self-attention in tracking tasks. Our method achieves state-of-the-art performance on five challenging datasets, along with the VOT2020, UAV123, LaSOT, TrackingNet, and GOT-10k benchmarks. Our project is available at https://github.com/HUSTDML/CTTrack.
翻訳日:2023-01-27 14:20:47 公開日:2023-01-26
# 機械学習による超解像解析:流体流れのサーベイ

Super-Resolution Analysis via Machine Learning: A Survey for Fluid Flows ( http://arxiv.org/abs/2301.10937v1 )

ライセンス: Link先を確認
Kai Fukami, Koji Fukagata, Kunihiko Taira(参考訳) 本稿では,機械学習による渦流の超解像再構成について検討する。 super resolutionは低解像度データから高解像度のフローフィールドを見つけることを目的としており、一般的に画像再構成に使用されるアプローチである。 近年の超解像応用に関する調査に加えて, 2次元減衰等方性乱流の例として, 超解像解析のケーススタディを提供する。 物理に着想を得たモデル設計により,空間的に限られた測定値から渦流の復元が成功できることを実証する。 また,流体応用における機械学習による超解像解析の課題と展望についても述べる。 本研究から得られた知見は,数値および実験フローデータの超解像解析に活用できる。

This paper surveys machine-learning-based super-resolution reconstruction for vortical flows. Super resolution aims to find the high-resolution flow fields from low-resolution data and is generally an approach used in image reconstruction. In addition to surveying a variety of recent super-resolution applications, we provide case studies of super-resolution analysis for an example of two-dimensional decaying isotropic turbulence. We demonstrate that physics-inspired model designs enable successful reconstruction of vortical flows from spatially limited measurements. We also discuss the challenges and outlooks of machine-learning-based super-resolution analysis for fluid flow applications. The insights gained from this study can be leveraged for super-resolution analysis of numerical and experimental flow data.
翻訳日:2023-01-27 14:20:20 公開日:2023-01-26
# SparDA: スパース密度変換による動的スパースディープニューラルネットワークの高速化

SparDA: Accelerating Dynamic Sparse Deep Neural Networks via Sparse-Dense Transformation ( http://arxiv.org/abs/2301.10936v1 )

ライセンス: Link先を確認
Ningxin Zheng, Huiqiang Jiang, Quanlu Zhang, Zhenhua Han, Yuqing Yang, Lingxiao Ma, Fan Yang, Lili Qiu, Mao Yang, Lidong Zhou(参考訳) コスト効率が高いため、効率的なディープラーニングモデルを構築する上では、スパーシリティが最も重要なアプローチとなっている。 しかし、コモディティ・アクセラレーターは主に高効率な密度計算のために構築され、一般的なスパース計算を利用するための大きなギャップを生み出す。 既存のソリューションでは、スパースカーネルの効率を前もって改善するために時間を要するため、静的な間隔に制限される。 分散パターンが実行時にのみ知られるため、幅広い動的疎性機会が欠落している。 これにより、より生物学的な脳のようなニューラルネットワークの構築が制限される。 本稿では,分散計算とコモディティ・アクセラレーターのギャップを,動的疎性を持つディープラーニングモデルを効率的に実行するためのSpiderと呼ばれるシステムを提案する。 多くのディープラーニング計算に適用可能な置換不変量という重要な特性を同定する。 この性質により、Spider (1) は実行時にほとんどオーバーヘッドのないテンソルの動的スパースパターンを抽出し、(2) 動的スパース計算を商品加速器に非常に最適化された等価な密度計算に変換することができる。 多様なモデルに対する広範囲な評価により、スパイダーは不可解なオーバーヘッドで動的スパーシティを抽出および変換できるが、最先端のソリューションよりも最大9.4倍のスピードアップをもたらす。

Due to its high cost-effectiveness, sparsity has become the most important approach for building efficient deep-learning models. However, commodity accelerators are built mainly for efficient dense computation, creating a huge gap for general sparse computation to leverage. Existing solutions have to use time-consuming compiling to improve the efficiency of sparse kernels in an ahead-of-time manner and thus are limited to static sparsity. A wide range of dynamic sparsity opportunities is missed because their sparsity patterns are only known at runtime. This limits the future of building more biological brain-like neural networks that should be dynamically and sparsely activated. In this paper, we bridge the gap between sparse computation and commodity accelerators by proposing a system, called Spider, for efficiently executing deep learning models with dynamic sparsity. We identify an important property called permutation invariant that applies to most deep-learning computations. The property enables Spider (1) to extract dynamic sparsity patterns of tensors that are only known at runtime with little overhead; and (2) to transform the dynamic sparse computation into an equivalent dense computation which has been extremely optimized on commodity accelerators. Extensive evaluation on diverse models shows Spider can extract and transform dynamic sparsity with negligible overhead but brings up to 9.4x speedup over state-of-art solutions.
翻訳日:2023-01-27 14:20:09 公開日:2023-01-26
# 動的時間整合リスク対策によるリスク回避政策勾配法のグローバル収束について

On the Global Convergence of Risk-Averse Policy Gradient Methods with Dynamic Time-Consistent Risk Measures ( http://arxiv.org/abs/2301.10932v1 )

ライセンス: Link先を確認
Xian Yu and Lei Ying(参考訳) リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御し、様々なシーケンシャルな意思決定問題において信頼性の高い性能を確保するための一般的なツールとなっている。 リスクに敏感なrlのためのポリシーグラデーション手法が開発されているが、リスク中立の場合と同じグローバルコンバージェンス保証を享受するかどうかはまだ不明である。 本稿では,予測条件付きリスク対策 (ECRMs) と呼ばれる動的時間整合性リスク対策のクラスを考察し,ECRMに基づく目標関数に対する政策勾配の更新を導出する。 制約付き直接パラメタライゼーションと制約なしソフトマックスパラメタライゼーションの両方の下で、我々は対応するリスク-逆ポリシー勾配アルゴリズムを大域的に収束させる。 さらに,確率的クリフウォーク環境下でREINFORCEアルゴリズムのリスク-逆変種を検証し,アルゴリズムの有効性とリスク管理の重要性を実証する。

Risk-sensitive reinforcement learning (RL) has become a popular tool to control the risk of uncertain outcomes and ensure reliable performance in various sequential decision-making problems. While policy gradient methods have been developed for risk-sensitive RL, it remains unclear if these methods enjoy the same global convergence guarantees as in the risk-neutral case. In this paper, we consider a class of dynamic time-consistent risk measures, called Expected Conditional Risk Measures (ECRMs), and derive policy gradient updates for ECRM-based objective functions. Under both constrained direct parameterization and unconstrained softmax parameterization, we provide global convergence of the corresponding risk-averse policy gradient algorithms. We further test a risk-averse variant of REINFORCE algorithm on a stochastic Cliffwalk environment to demonstrate the efficacy of our algorithm and the importance of risk control.
翻訳日:2023-01-27 14:19:47 公開日:2023-01-26
# 連続的エゴセントリック活動認識に向けて--連続学習のためのマルチモーダルエゴセントリック活動データセット

Towards Continual Egocentric Activity Recognition: A Multi-modal Egocentric Activity Dataset for Continual Learning ( http://arxiv.org/abs/2301.10931v1 )

ライセンス: Link先を確認
Linfeng Xu, Qingbo Wu, Lili Pan, Fanman Meng, Hongliang Li, Chiyuan He, Hanxin Wang, Shaoxu Cheng, Yu Dai(参考訳) ウェアラブルカメラの急速な発展により、一人称視覚知覚のためのエゴセントリックビデオの膨大なコレクションが利用可能になる。 エゴセントリックなビデオを使って一対一の活動を予測することは、視野の制限、閉塞、不安定な動きなど、多くの課題に直面している。 ウェアラブルデバイスからのセンサデータが人間のアクティビティ認識を促進することを観察するマルチモーダルアクティビティ認識が注目を集めている。 しかしながら、関連するデータセットの欠如は、エゴセントリックなアクティビティ認識のためのマルチモーダルディープラーニングの開発を妨げる。 近年、現実世界のディープラーニングは、しばしば破滅的な忘れ物に悩まされる継続的学習に焦点をあてている。 しかし、エゴセントリックなアクティビティ認識の破滅的な忘れ問題、特に複数のモダリティの文脈では、データセットが使えないため、いまだに未解決のままである。 そこで本研究では,一対一カメラとウェアラブルセンサを統合した自己開発眼鏡を用いて収集した「uestc-mmea-cl」と呼ばれる連続学習のためのマルチモーダル・エゴセントリック・アクティビティデータセットを提案する。 ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。 クラスタイプとスケールは他の公開データセットと比較される。 センサデータの統計的解析は、異なる行動に対する補助効果を示すために与えられる。 また,ベースネットワークアーキテクチャ上でrgb,アクセラレーション,ジャイロスコープの3つのモードを別々に使用した場合に,エゴセントリック活動認識の結果が報告された。 連続学習タスクにおける破滅的な忘れ方を探るために,4つのベースライン手法をマルチモーダルの異なる組み合わせで広範囲に評価した。 UESTC-MMEA-CLはウェアラブルアプリケーションにおける一対一の活動認識のための継続学習の今後の研究を促進することを願っている。

With the rapid development of wearable cameras, a massive collection of egocentric video for first-person visual perception becomes available. Using egocentric videos to predict first-person activity faces many challenges, including limited field of view, occlusions, and unstable motions. Observing that sensor data from wearable devices facilitates human activity recognition, multi-modal activity recognition is attracting increasing attention. However, the deficiency of related dataset hinders the development of multi-modal deep learning for egocentric activity recognition. Nowadays, deep learning in real world has led to a focus on continual learning that often suffers from catastrophic forgetting. But the catastrophic forgetting problem for egocentric activity recognition, especially in the context of multiple modalities, remains unexplored due to unavailability of dataset. In order to assist this research, we present a multi-modal egocentric activity dataset for continual learning named UESTC-MMEA-CL, which is collected by self-developed glasses integrating a first-person camera and wearable sensors. It contains synchronized data of videos, accelerometers, and gyroscopes, for 32 types of daily activities, performed by 10 participants. Its class types and scale are compared with other publicly available datasets. The statistical analysis of the sensor data is given to show the auxiliary effects for different behaviors. And results of egocentric activity recognition are reported when using separately, and jointly, three modalities: RGB, acceleration, and gyroscope, on a base network architecture. To explore the catastrophic forgetting in continual learning tasks, four baseline methods are extensively evaluated with different multi-modal combinations. We hope the UESTC-MMEA-CL can promote future studies on continual learning for first-person activity recognition in wearable applications.
翻訳日:2023-01-27 14:19:31 公開日:2023-01-26
# 一般化幾何位相

Generalised Geometric Phase ( http://arxiv.org/abs/2301.10929v1 )

ライセンス: Link先を確認
Vivek M. Vyas(参考訳) 純状態に対する幾何学的位相の一般化の概念を提案し、その物理的表現を示す。 干渉現象が観測可能な平均値にも現れるという事実を理解すれば、観測可能な行列要素の議論を一般化された相対位相として定義することができる。 この識別は自然にパンカラトナムに続く幾何学的位相の作用素一般化を定義する方法である。 自然接続の概念は適切な作用素の一般化を見つけ、一般化された幾何学的位相は実際に一般化された接続の(一)ホロノミーであることが分かる。 通常の幾何学的位相が定義されていない場合、一般化された幾何学的位相は時間発展の過程で量子状態によって獲得される大域的位相として表される。 一般化された幾何学的位相は、摂動によるエネルギースペクトルの変化と散乱問題における前方散乱振幅に寄与する。

A generalised notion of geometric phase for pure states is proposed and its physical manifestations are shown. An appreciation of fact that the interference phenomenon also manifests in the average of an observable, allows us to define the argument of the matrix element of an observable as a generalised relative phase. This identification naturally paves the way for defining an operator generalisation of the geometric phase following Pancharatnam. The notion of natural connection finds an appropriate operator generalisation, and the generalised geometric phase is indeed found to be the (an)holonomy of the generalised connection. It is shown that in scenarios wherein the usual geometric phase is not defined, the generalised geometric phase manifests as a global phase acquired by a quantum state in course of time evolution. The generalised geometric phase is found to contribute to the shift in the energy spectrum due perturbation, and to the forward scattering amplitude in a scattering problem.
翻訳日:2023-01-27 14:19:01 公開日:2023-01-26
# 知識中心型プロセスマイニングに向けて

Towards Knowledge-Centric Process Mining ( http://arxiv.org/abs/2301.10927v1 )

ライセンス: Link先を確認
Asjad Khan, Arsal Huda, Aditya Ghose, Hoa Khanh Dam(参考訳) プロセス分析アプローチは、プロセス関連データを利用してパフォーマンスボトルネックを特定し、コスト削減に関する洞察を抽出し、利用可能なリソースの利用を最適化することで、ビジネスプロセス管理と継続的プロセス改善の実践をサポートする上で重要な役割を果たす。 プロセス分析のテクニックは、利用可能なログがノイズや不完全な実際の設定と競合することが多い。 本稿では,プロセス分析技術によるノイズ/不完全なイベントログに対する価値提供を可能にするアプローチを提案する。 本手法では,イベントログにおけるノイズの影響を軽減するために知識グラフを活用するとともに,プロセスアナリストによるイベントログの多様性の理解を支援する。

Process analytic approaches play a critical role in supporting the practice of business process management and continuous process improvement by leveraging process-related data to identify performance bottlenecks, extracting insights about reducing costs and optimizing the utilization of available resources. Process analytic techniques often have to contend with real-world settings where available logs are noisy or incomplete. In this paper we present an approach that permits process analytics techniques to deliver value in the face of noisy/incomplete event logs. Our approach leverages knowledge graphs to mitigate the effects of noise in event logs while supporting process analysts in understanding variability associated with event logs.
翻訳日:2023-01-27 14:18:45 公開日:2023-01-26
# ニューラル・ダイナミック・フォーカス・トピック・モデル

Neural Dynamic Focused Topic Model ( http://arxiv.org/abs/2301.10988v1 )

ライセンス: Link先を確認
Kostadin Cvejoski, Rams\'es J. S\'anchez, C\'esar Ojeda(参考訳) 話題モデルとその変形は、単語共起を通じて意味のある表現を学習することでテキストを分析する。 Williamson et al. (2010) によって指摘されているように、そのようなモデルは、あるトピックがアクティブである確率とそのドキュメント内の比率が正に相関していることを暗黙的に仮定する。 この相関関係は、時間とともに作成された文書の場合、単に最近の文書が新しくて稀なトピックによってよりよく説明されるため、強く有害である可能性がある。 この研究では、ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。 実際,Bernolli確率変数の列を利用してトピックの出現を追跡し,それらの比率からそれらのアクティビティを分離する,トピック進化のためのニューラルモデルを開発した。 我々は3つの異なるデータセット(国連一般討論会、NeurIPS論文の収集、ACLアンソロジーデータセット)でモデルを評価し、それを示す。 (i)一般化タスクにおける最先端トピックモデルと性能 (二)予測タスクにおいて、ほぼ同じ数のパラメータを使用し、収束が約二倍速くなる。 我々の実験を再現するソースコードはオンラインで入手できる。

Topic models and all their variants analyse text by learning meaningful representations through word co-occurrences. As pointed out by Williamson et al. (2010), such models implicitly assume that the probability of a topic to be active and its proportion within each document are positively correlated. This correlation can be strongly detrimental in the case of documents created over time, simply because recent documents are likely better described by new and hence rare topics. In this work we leverage recent advances in neural variational inference and present an alternative neural approach to the dynamic Focused Topic Model. Indeed, we develop a neural model for topic evolution which exploits sequences of Bernoulli random variables in order to track the appearances of topics, thereby decoupling their activities from their proportions. We evaluate our model on three different datasets (the UN general debates, the collection of NeurIPS papers, and the ACL Anthology dataset) and show that it (i) outperforms state-of-the-art topic models in generalization tasks and (ii) performs comparably to them on prediction tasks, while employing roughly the same number of parameters, and converging about two times faster. Source code to reproduce our experiments is available online.
翻訳日:2023-01-27 14:12:11 公開日:2023-01-26
# 最小コピーから対称状態の物理的性質を推定する

Inferring physical properties of symmetric states from fewest copies ( http://arxiv.org/abs/2301.10982v1 )

ライセンス: Link先を確認
Da-Jian Zhang and D. M. Tong(参考訳) 期待値 $\langle X\rangle_\rho$ of an observable $X$ in a state $\rho$は、通常、$X$自身を測定して実験で得られるもので、ある対称性を尊重するときに$\rho$のコピーを消費することなく、他の観測可能な$Y$を測定することによってより正確に得られる。 このような精度の改善は、有限あるいはコンパクトリー群によって記述される対称性を含むすべての状況で利用可能であり、さらに、$\rho$の対称性以外は量子力学によって課される精度の究極の限界に達することができる。 我々は,2つの偏光子https://journals.aps.org/prl/abstract/10.1103/physrevlett.113.170402の未知のヴェルナー状態の絡み合いを検出するために,証人演算子を実装した実験にそれを適用して,一般的な結果を示す。

We find that the expectation value $\langle X\rangle_\rho$ of an observable $X$ in a state $\rho$, which is typically obtained in experiments by measuring $X$ itself, can be generally obtained more precisely through measuring another observable $Y$ without consuming more copies of $\rho$ when $\rho$ respects some symmetries. We show that such a precision improvement is available in all circumstances involving the symmetries described by finite or compact Lie groups, and moreover, it can reach the ultimate limit of precision imposed by quantum mechanics if nothing but the symmetries of $\rho$ is known. We illustrate the general result by applying it to an experiment which implements witness operators to detect the entanglement of an unknown Werner state of two polarized photons https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.113.170402
翻訳日:2023-01-27 14:11:51 公開日:2023-01-26
# 不均一フェデレートエッジインテリジェンスのための時間知覚学習

Time-sensitive Learning for Heterogeneous Federated Edge Intelligence ( http://arxiv.org/abs/2301.10977v1 )

ライセンス: Link先を確認
Yong Xiao, Xiaohan Zhang, Guangming Shi, Marwan Krunz, Diep N. Nguyen, Dinh Thai Hoang(参考訳) リアルタイム機械学習は、自動運転車、インテリジェントトランスポート、産業自動化など、幅広いアプリケーション領域における即時学習、適応、意思決定をサポートする可能性から、最近大きな関心を集めている。 本稿では、分散データネットワークから収集・アップロードされたデータに基づいて、フェデレーション学習(FL)ソリューションを実装するエッジコンピューティングシステムであるFEIシステムにおけるリアルタイムMLについて検討する。 FEIシステムはしばしば異種通信と計算資源の分布、すなわち非単位のデータサンプルを示し、長い訓練時間と非効率な資源利用をもたらす。 この事実に触発され,共有MLモデルを協調訓練するための全体の実行時間を最小化するために,時間に敏感なフェデレーション学習(TS-FL)フレームワークを提案する。 同期協調型TS-FL(TS-FL-SC)と非同期協調型TS-FL-ASC(TS-FL-ASC)の訓練促進ソリューションについて検討した。 TS-FL-SCにおけるストラグラー効果に対処するために,エッジサーバの異なるサブセットがモデルトレーニング時間全体に与える影響を特徴付ける解析解を開発した。 モデル精度への影響が限定された場合,サーバドロップベースのソリューションにより,性能の遅いエッジサーバをモデルトレーニングへの参加から外すことができる。 参加するエッジサーバ,局所エポック数を選択することで,モデルトレーニング全体の時間消費を最小限に抑えるための統合最適化アルゴリズムを提案する。 本研究では, TS-FL-ASC の時間消費に及ぼす FL の非同期調整およびストラグラー効果の影響を特徴付ける解析式を開発した。 実験の結果, TS-FL-SCとTS-FL-ASCは, モデルトレーニング時間全体で最大63%, 28%の削減が可能であった。

Real-time machine learning has recently attracted significant interest due to its potential to support instantaneous learning, adaptation, and decision making in a wide range of application domains, including self-driving vehicles, intelligent transportation, and industry automation. We investigate real-time ML in a federated edge intelligence (FEI) system, an edge computing system that implements federated learning (FL) solutions based on data samples collected and uploaded from decentralized data networks. FEI systems often exhibit heterogenous communication and computational resource distribution, as well as non-i.i.d. data samples, resulting in long model training time and inefficient resource utilization. Motivated by this fact, we propose a time-sensitive federated learning (TS-FL) framework to minimize the overall run-time for collaboratively training a shared ML model. Training acceleration solutions for both TS-FL with synchronous coordination (TS-FL-SC) and asynchronous coordination (TS-FL-ASC) are investigated. To address straggler effect in TS-FL-SC, we develop an analytical solution to characterize the impact of selecting different subsets of edge servers on the overall model training time. A server dropping-based solution is proposed to allow slow-performance edge servers to be removed from participating in model training if their impact on the resulting model accuracy is limited. A joint optimization algorithm is proposed to minimize the overall time consumption of model training by selecting participating edge servers, local epoch number. We develop an analytical expression to characterize the impact of staleness effect of asynchronous coordination and straggler effect of FL on the time consumption of TS-FL-ASC. Experimental results show that TS-FL-SC and TS-FL-ASC can provide up to 63% and 28% of reduction, in the overall model training time, respectively.
翻訳日:2023-01-27 14:11:26 公開日:2023-01-26
# 拡散モデルにおけるノイズスケジューリングの重要性について

On the Importance of Noise Scheduling for Diffusion Models ( http://arxiv.org/abs/2301.10972v1 )

ライセンス: Link先を確認
Ting Chen(参考訳) 拡散生成モデルに対するノイズスケジューリング手法の効果を実験的に検討する。 1) ノイズスケジューリングは性能に不可欠であり,(2) 最適なノイズスケジューリングはタスク(画像サイズなど)に依存する,(2) 画像サイズを増加させると,よりノイズの少ないものにシフトする,(3) ノイズスケジュール関数を固定する(lognrを$\log b$にシフトするのと同値) 入力データをb$でスケールする,という3つの知見がある。 この簡単なレシピは、最近提案されたRecurrent Interface Network (RIN)と組み合わせて、ImageNet上の高解像度画像のための最先端のピクセルベースの拡散モデルを生成し、初めて1024$\times$1024で、多彩かつ高忠実な画像を単一ステージでエンドツーエンドに生成できる。

We empirically study the effect of noise scheduling strategies for denoising diffusion generative models. There are three findings: (1) the noise scheduling is crucial for the performance, and the optimal one depends on the task (e.g., image sizes), (2) when increasing the image size, the optimal noise scheduling shifts towards a noisier one (due to increased redundancy in pixels), and (3) simply scaling the input data by a factor of $b$ while keeping the noise schedule function fixed (equivalent to shifting the logSNR by $\log b$) is a good strategy across image sizes. This simple recipe, when combined with recently proposed Recurrent Interface Network (RIN), yields state-of-the-art pixel-based diffusion models for high-resolution images on ImageNet, enabling single-stage, end-to-end generation of diverse and high-fidelity images at 1024$\times$1024 resolution for the first time (without upsampling/cascades).
翻訳日:2023-01-27 14:10:53 公開日:2023-01-26
# グラフ畳み込みネットワークにおける遠隔隣人訪問

Visiting Distant Neighbors in Graph Convolutional Networks ( http://arxiv.org/abs/2301.10960v1 )

ライセンス: Link先を確認
Alireza Hashemi, Hernan Makse(参考訳) 本稿では,グラフデータの深層学習のためのグラフ畳み込みネットワーク手法を,隣接ノードの観点から高次に拡張する。 グラフ内のノードの表現を構成するために、ノードとそのすぐ隣のノードの特徴に加えて、計算にもっと遠いノードも含む。 多くの公開引用グラフデータセットを用いて実験したところ、特にモデルのトレーニングに利用可能なラベル付きデータポイントが限られている場合に、この上位の隣人の訪問は元のモデルよりも優れていることがわかった。

We extend the graph convolutional network method for deep learning on graph data to higher order in terms of neighboring nodes. In order to construct representations for a node in a graph, in addition to the features of the node and its immediate neighboring nodes, we also include more distant nodes in the calculations. In experimenting with a number of publicly available citation graph datasets, we show that this higher order neighbor visiting pays off by outperforming the original model especially when we have a limited number of available labeled data points for the training of the model.
翻訳日:2023-01-27 14:10:32 公開日:2023-01-26
# 大規模スパースモデルの学習

Learning Large Scale Sparse Models ( http://arxiv.org/abs/2301.10958v1 )

ライセンス: Link先を確認
Atul Dhingra, Jie Shen, Nicholas Kleene(参考訳) 本研究では,スパースモデルを大規模に学習し,サンプルの数と特徴次元を数百万から数十億に拡大する方法について検討する。 そのような困難なシナリオでは、すぐに2つの問題が発生する。 (i)計算コスト (ii)メモリオーバーヘッド。 特に、メモリ問題は、バッチ最適化技術に基づく大量の事前アルゴリズムを妨げている。 そこで本研究では,sparse iterateを更新するために,各イテレーションにおいてランダムに選択されたサンプルが1つしかないことを明らかにするオンライン手法を用いて,lassoのようなスパースモデルを学ぶことを提案する。 これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。 おそらく驚くべきことに、同じパラメータでバッチメソッドによって促進されるスパーシティは、オンライン形式では保存されない。 このような興味深い現象を分析し、ミニバッチ法やハードしきい値に基づく確率勾配アルゴリズムなど、いくつかの有効な変種を示す。 我々の発見とアルゴリズムをサポートする公開データセットで広範な実験が行われます。

In this work, we consider learning sparse models in large scale settings, where the number of samples and the feature dimension can grow as large as millions or billions. Two immediate issues occur under such challenging scenario: (i) computational cost; (ii) memory overhead. In particular, the memory issue precludes a large volume of prior algorithms that are based on batch optimization technique. To remedy the problem, we propose to learn sparse models such as Lasso in an online manner where in each iteration, only one randomly chosen sample is revealed to update a sparse iterate. Thereby, the memory cost is independent of the sample size and gradient evaluation for one sample is efficient. Perhaps amazingly, we find that with the same parameter, sparsity promoted by batch methods is not preserved in online fashion. We analyze such interesting phenomenon and illustrate some effective variants including mini-batch methods and a hard thresholding based stochastic gradient algorithm. Extensive experiments are carried out on a public dataset which supports our findings and algorithms.
翻訳日:2023-01-27 14:10:23 公開日:2023-01-26
# Neurorehab: リハビリテーションのためのインターフェース

Neurorehab: An Interface for Rehabilitation ( http://arxiv.org/abs/2301.10957v1 )

ライセンス: Link先を確認
Atul Dhingra, Adeboye A. Adejare Jr, Adam Fendler, Roopeswar Kommalapati(参考訳) 世界の人口の約15%は何らかの形で障害の影響を受けており、そのうち31%のみが介入なしに推奨運動を行っている。 私たちは、人々を励ますモチベーションと効果的な方法の開発に取り組んでいます。 我々の研究は、反復運動が脳の前頭前部認知制御システムの頑健な可塑性のために運動障害の患者を助けるという事実を活用している。 kinect v2.0とunity 3dによる没入型ゲームデザインを用いて,脳コンピュータインタフェースを用いて神経再生における反復的活動の役割について検討した。 また,患者に対する適応学習のためのゲームデザインパラダイムも導入する。

About 15% of the world population is affected by a disability in some form, amongst whom only 31% perform the recommended exercises without intervention. We are working on developing a motivating and effective way to encourage people. In our work, we leverage the fact that repetitive exercises can help people with motor disabilities due to the robust plasticity of the pre-frontal cognitive control system in the brain. We investigate the role of repetitive activities for neurorehabilitation with the help of a brain computer interface, formulated using immersive game design with Kinect v2.0 and Unity 3D. We also introduce a game design paradigm for adaptive learning for the patients.
翻訳日:2023-01-27 14:10:08 公開日:2023-01-26
# グラフニューラルネットワークは、グラフ構造のみから隠れた特徴を回復できる

Graph Neural Networks can Recover the Hidden Features Solely from the Graph Structure ( http://arxiv.org/abs/2301.10956v1 )

ライセンス: Link先を確認
Ryoma Sato(参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習問題の一般的なモデルである。 gnnは多くの実用的なタスクで強い経験的パフォーマンスを示します。 しかし、理論的な性質は完全に解明されていない。 本稿では,GNNの表現力の観点から,GNNがグラフ構造を活用できるかどうかを検討する。 本稿では,グラフ構造に関するすべての情報を含む隠れノード特徴によって制御されるグラフ生成プロセスについて考察する。 このフレームワークの典型的な例は、隠れた特徴から構築されたkNNグラフである。 本研究の主目的は,隠れた特徴自身や間接的なヒントを含むすべてのノード特徴が利用できない場合でも,GNNが入力グラフのみから隠れたノード特徴を復元できることである。 gnnは、ダウンストリームタスクで回復したノード機能をさらに使用できる。 これらの結果から、GNNはグラフ構造を自分自身で完全に活用でき、事実上、GNNは下流タスクに隠されたノード機能と明示的なノード機能の両方を利用することができる。 実験では,理論解析に基づいて構築されたGNNアーキテクチャを用いて,GNNが隠れた特徴を正確に復元できることを示し,その妥当性を確認した。

Graph Neural Networks (GNNs) are popular models for graph learning problems. GNNs show strong empirical performance in many practical tasks. However, the theoretical properties have not been completely elucidated. In this paper, we investigate whether GNNs can exploit the graph structure from the perspective of the expressive power of GNNs. In our analysis, we consider graph generation processes that are controlled by hidden node features, which contain all information about the graph structure. A typical example of this framework is kNN graphs constructed from the hidden features. In our main results, we show that GNNs can recover the hidden node features from the input graph alone, even when all node features, including the hidden features themselves and any indirect hints, are unavailable. GNNs can further use the recovered node features for downstream tasks. These results show that GNNs can fully exploit the graph structure by themselves, and in effect, GNNs can use both the hidden and explicit node features for downstream tasks. In the experiments, we confirm the validity of our results by showing that GNNs can accurately recover the hidden features using a GNN architecture built based on our theoretical analysis.
翻訳日:2023-01-27 14:09:58 公開日:2023-01-26
# 放射線画像とx線胸部画像からのクロスモーダルグローバル局所表現学習

Cross Modal Global Local Representation Learning from Radiology Reports and X-Ray Chest Images ( http://arxiv.org/abs/2301.10951v1 )

ライセンス: Link先を確認
Nathan Hadjiyski, Ali Vosoughi, and Axel Wismueller(参考訳) ディープラーニングモデルは、実際の問題にうまく適用できるが、これらのモデルのトレーニングには大量のデータが必要である。 最近の手法では言語とビジョンを使用するが、残念ながら通常は公開されていないデータセットに依存している。 ここでは、放射線学のマルチモーダル言語ビジョン領域におけるさらなる研究の道を開く。 本稿では,インディアナ大学放射線学レポート(IU-RR)データセットに基づいて,言語と視覚の局所的およびグローバルな表現を用いた表現学習手法を訓練する。 さらに,atelectasis,cardiomegaly,浮腫,胸水,圧密の5つの肺病理の診断に,学習表現を用いた。 最後に、教師付き分類とゼロショット分類の両方を用いて、IU-RRデータセット上での表現学習の性能を広範囲に分析する。 5つの肺病理を分類するための分類器の精度を評価するために、曲線下平均領域 (auc) が用いられる。 IU-RRテストセットの5つの肺病理を分類する平均的なAUCは、CheXpertとCheXphotoという異なるトレーニングデータセットを使用して0.85から0.87の範囲であった。 これらの結果はUI-RRを用いた他の研究と比較した。 広汎な実験により,多モーダルな局所的言語表現と視覚情報を用いた肺病理分類の一貫性が確認された。

Deep learning models can be applied successfully in real-work problems; however, training most of these models requires massive data. Recent methods use language and vision, but unfortunately, they rely on datasets that are not usually publicly available. Here we pave the way for further research in the multimodal language-vision domain for radiology. In this paper, we train a representation learning method that uses local and global representations of the language and vision through an attention mechanism and based on the publicly available Indiana University Radiology Report (IU-RR) dataset. Furthermore, we use the learned representations to diagnose five lung pathologies: atelectasis, cardiomegaly, edema, pleural effusion, and consolidation. Finally, we use both supervised and zero-shot classifications to extensively analyze the performance of the representation learning on the IU-RR dataset. Average Area Under the Curve (AUC) is used to evaluate the accuracy of the classifiers for classifying the five lung pathologies. The average AUC for classifying the five lung pathologies on the IU-RR test set ranged from 0.85 to 0.87 using the different training datasets, namely CheXpert and CheXphoto. These results compare favorably to other studies using UI-RR. Extensive experiments confirm consistent results for classifying lung pathologies using the multimodal global local representations of language and vision information.
翻訳日:2023-01-27 14:09:41 公開日:2023-01-26
# メッセージ・リトゥル:ランプで生活するポストヒューマンのアカウント

Message Ritual: A Posthuman Account of Living with Lamp ( http://arxiv.org/abs/2301.10947v1 )

ライセンス: Link先を確認
Nina Rajcic and Jon McCormack(参考訳) デジタル技術に縛られていくにつれて、人間と機械の境界は徐々にぼやけつつある。 性能的、ポストヒューマニスト的な観点を採用することで、そのような境界は所定の物質構成で制定されるのではなく、あらかじめ定められたものではないという提案によって、この曖昧さを解消する。 このアプローチを 'enanglement hci' と呼ぶもので,マシン生成の詩的手法によるメモリの再フレーミングを促進する,新しい統合型aiシステムである \emph{message ritual} を提案する。 家庭内のテーブルランプに埋め込まれたシステムは、家庭内で発生した会話を聴き、その日の重要トピックやフレーズを描き出し、マシンが生成した詩を通してそれらを再構成し、毎朝目を覚ますとSMSで家族に届ける。 4世帯の参加者は2週間にわたってランプで生活するよう求められた。 我々は,このランプが参加者とどのように作用するかを微分解析し,この手法が将来のhci研究に与える影響について考察する。

As we become increasingly entangled with digital technologies, the boundary between human and machine is progressively blurring. Adopting a performative, posthumanist perspective resolves this ambiguity by proposing that such boundaries are not predetermined, rather they are enacted within a certain material configuration. Using this approach, dubbed `Entanglement HCI', this paper presents \emph{Message Ritual} -- a novel, integrated AI system that encourages the re-framing of memory through machine generated poetics. Embodied within a domestic table lamp, the system listens in on conversations occurring within the home, drawing out key topics and phrases of the day and reconstituting them through machine generated poetry, delivered to household members via SMS upon waking each morning. Participants across four households were asked to live with the lamp over a two week period. We present a diffractive analysis exploring how the lamp \emph{becomes with} participants and discuss the implications of this method for future HCI research.
翻訳日:2023-01-27 14:09:17 公開日:2023-01-26
# セマンティクスセグメンテーションによる人間注意予測のためのトランスフォーマーモデル

Semantic Segmentation Enhanced Transformer Model for Human Attention Prediction ( http://arxiv.org/abs/2301.11022v1 )

ライセンス: Link先を確認
Shuo Zhang(参考訳) 塩分予測は、rgb画像から人間の眼の注意分布を予測することを目的としている。 最近の最先端手法のほとんどは、従来のCNNのディープイメージ特徴表現に基づいている。 しかし、伝統的な畳み込みは、カーネルサイズが小さいため、画像のグローバルな特徴をうまく捉えられなかった。 また、物体、色、光など、人間の視覚知覚と密接に関連している高レベル要因も考慮されていない。 そこで本研究では,意味的セグメンテーションを学習目的とするTransformerに基づく手法を提案する。 よりグローバルな画像の手がかりはTransformerが捉えた。 さらに,物体のセグメンテーションを同時に学習することで人間の視覚知覚をシミュレートし,認知科学における人間の視線制御の検証を行う。 サブタスクのための余分なデコーダを構築し、複数のタスクは同じTransformerエンコーダを共有し、複数の機能空間から学ぶことを強制します。 サブタスクの追加がメインタスク学習を混乱させる可能性があるため、マルチタスクアテンションモジュールは、複数の学習対象間の機能インタラクションに対処するために提案されている。 本手法は他の最先端手法と比較して競争性能が向上する。

Saliency Prediction aims to predict the attention distribution of human eyes given an RGB image. Most of the recent state-of-the-art methods are based on deep image feature representations from traditional CNNs. However, the traditional convolution could not capture the global features of the image well due to its small kernel size. Besides, the high-level factors which closely correlate to human visual perception, e.g., objects, color, light, etc., are not considered. Inspired by these, we propose a Transformer-based method with semantic segmentation as another learning objective. More global cues of the image could be captured by Transformer. In addition, simultaneously learning the object segmentation simulates the human visual perception, which we would verify in our investigation of human gaze control in cognitive science. We build an extra decoder for the subtask and the multiple tasks share the same Transformer encoder, forcing it to learn from multiple feature spaces. We find in practice simply adding the subtask might confuse the main task learning, hence Multi-task Attention Module is proposed to deal with the feature interaction between the multiple learning targets. Our method achieves competitive performance compared to other state-of-the-art methods.
翻訳日:2023-01-27 14:03:42 公開日:2023-01-26
# ファウショット学習におけるドロップアウトの力を探る

Explore the Power of Dropout on Few-shot Learning ( http://arxiv.org/abs/2301.11015v1 )

ライセンス: Link先を確認
Shaobo Lin, Xingyu Zeng, Rui Zhao(参考訳) 事前学習モデルの一般化力は、数発の深層学習の鍵となる。 dropoutは、従来のディープラーニング手法で使用される正規化テクニックである。 本稿では,少人数学習におけるドロップアウトのパワーについて検討し,その使い方に関する洞察を提供する。 本手法の有効性を検証すべく,数発の物体検出と数発の画像分類データセット(Pascal VOC, MS COCO, CUB, mini-ImageNet)の大規模な実験を行った。

The generalization power of the pre-trained model is the key for few-shot deep learning. Dropout is a regularization technique used in traditional deep learning methods. In this paper, we explore the power of dropout on few-shot learning and provide some insights about how to use it. Extensive experiments on the few-shot object detection and few-shot image classification datasets, i.e., Pascal VOC, MS COCO, CUB, and mini-ImageNet, validate the effectiveness of our method.
翻訳日:2023-01-27 14:03:25 公開日:2023-01-26
# フェデレーションマルチエージェント強化学習による車両インターネットのプライバシ保護統合エッジアソシエーションと電力最適化

Privacy-Preserving Joint Edge Association and Power Optimization for the Internet of Vehicles via Federated Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2301.11014v1 )

ライセンス: Link先を確認
Yan Lin, Jinming Bao, Yijin Zhang, Jun Li, Feng Shu and Lajos Hanzo(参考訳) 積極的なエッジアソシエーションは、意思決定に必要な大量のプライベート情報共有に依存しながら、ハンドオーバ(HO)周波数の増加とエネルギー消費のコストで無線接続を改善することができる。 プライバシリークのないコネクティビティコストのトレードオフを改善するため,環境の不確実性や個別学習の可能性に直面するプライバシー保護連立エッジアソシエーションとパワーアロケーション(JEAPA)問題について検討する。 分散部分可観測マルコフ決定過程(dec-pomdp)によって問題をモデル化すると、要求された方針を連合的に学習するための暗号化されたトレーニングデータのみを共有することで、フェデレートマルチエージェント強化学習(fmarl)によって解決される。 シミュレーションの結果,提案手法は最先端ソリューションよりも高いプライバシレベルを維持しつつ,説得力のあるトレードオフをもたらすことがわかった。

Proactive edge association is capable of improving wireless connectivity at the cost of increased handover (HO) frequency and energy consumption, while relying on a large amount of private information sharing required for decision making. In order to improve the connectivity-cost trade-off without privacy leakage, we investigate the privacy-preserving joint edge association and power allocation (JEAPA) problem in the face of the environmental uncertainty and the infeasibility of individual learning. Upon modelling the problem by a decentralized partially observable Markov Decision Process (Dec-POMDP), it is solved by federated multi-agent reinforcement learning (FMARL) through only sharing encrypted training data for federatively learning the policy sought. Our simulation results show that the proposed solution strikes a compelling trade-off, while preserving a higher privacy level than the state-of-the-art solutions.
翻訳日:2023-01-27 14:03:15 公開日:2023-01-26
# WSe2/MoSe2ヘテロ二層膜のモアレトリオンのダイナミクスとその谷分極

Dynamics of moire trion and its valley polarization in microfabricated WSe2/MoSe2 heterobilayer ( http://arxiv.org/abs/2301.11012v1 )

ライセンス: Link先を確認
Heejun Kim, Duanfei Dong, Yuki Okamura, Keisuke Shinokita, Kenji Watanabe, Takashi Taniguchi, Kazunari Matsuda(参考訳) モワールポテンシャルは、わずかに異なる格子ミスマッチを持つ2つの単層半導体を積み重ねることで引き起こされ、光学的に生成された励起子の周期的量子閉じ込めとして作用し、空間的に順序付けられたゼロ次元量子系をもたらす。 しかしながら、モアレポテンシャルの不均一性に起因する多くのピークからのアンサンブルの平均化と拡大によるモアレ励起子の固有の光学的性質の探索には制限がある。 本研究では,集束型ga+イオンビームを用いたマイクロファブリケーション手法を提案し,moire電位由来のピーク数を制御し,wse2/mose2ヘテロ二層膜の未知のmoire光学特性を探索する。 この手法を活用し、静電ドーピング条件下で1つのmoire励起子と荷電moire励起子(トリオン)からの放出を明らかにした。 我々は, 明るいトリオン状態の上の運動量ダークモワールトリオン状態を約4mvの分割エネルギーで示し, そのダイナミクスが明るい状態における初期トリオン人口によって決定されることを明らかにした。 さらに、負の円偏光放射の程度とモアトリオンのバレーダイナミクスは、700 ns以下の非常に長い谷緩和過程によって支配されている。 マイクロファブリケードヘテロ二層膜の発見は、モアレ超格子を用いた量子光学の分野における画期的な取り組みの延長と見なすことができる。

The moire potential, induced by stacking two monolayer semiconductors with slightly different lattice mismatches, acts as periodic quantum confinement for optically generated excitons, resulting in spatially ordered zero-dimensional quantum systems. However, there are limitations to exploring intrinsic optical properties of moire excitons due to ensemble averaged and broadened emissions from many peaks caused by the inhomogeneity of the moire potential. In this study, we proposed a microfabrication technique based on focused Ga+ ion beams, which enables us to control the number of peaks originating from the moire potential and thus explore unknown moire optical characteristics of WSe2/MoSe2 heterobilayers. By taking advantage of this approach, we reveal emissions from a single moire exciton and charged moire exciton (trion) under electrostatic doping conditions. We show the momentum dark moire trion state above the bright trion state with a splitting energy of approximately 4 meV and clarify that the dynamics are determined by the initial trion population in the bright state. Furthermore, the degree of negative circularly polarized emissions and their valley dynamics of moire trions are dominated by a very long valley relaxation process lasting ~700 ns. Our findings on microfabricated heterobilayers could be viewed as an extension of our groundbreaking efforts in the field of quantum optics application using moire superlattices.
翻訳日:2023-01-27 14:02:55 公開日:2023-01-26
# Digitized-counterdiabatic quantum factorization

Digitized-counterdiabatic quantum factorization ( http://arxiv.org/abs/2301.11005v1 )

ライセンス: Link先を確認
Narendra N. Hegade, Enrique Solano(参考訳) 量子コンピュータ上の10個のイオン量子ビットを用いて48ビット整数を分解する。 この結果は、B. Yan et al., arXiv:2212.12372 (2022) の最近の業績よりも優れており、非ヒブリドデジタルカウンテルダイバティック量子分解(DCQF)アルゴリズムで6倍の成功確率を高める。 NISQ時代のRSA-64,RSA-128,RSA-2048を分解するためのハイブリッドDCQF法では,後者のケースではDAQC(Digital-analog quantum computing)の符号化が必要となる可能性がある。

We factorize a 48-bit integer using 10 trapped-ion qubits on a Quantinuum's quantum computer. This result outperforms the recent achievement by B. Yan et al., arXiv:2212.12372 (2022), increasing the success probability by a factor of 6 with a non-hybrid digitized-counterdiabatic quantum factorization (DCQF) algorithm. We expect better results with hybrid DCQF methods on our path to factoring RSA-64, RSA-128, and RSA-2048 in this NISQ era, where the latter case may need digital-analog quantum computing (DAQC) encoding.
翻訳日:2023-01-27 14:02:28 公開日:2023-01-26
# ソーシャルメディア上でのメンタルヘルス評価のための因果分析と知覚マイニングのためのレンズとしてのNLP

NLP as a Lens for Causal Analysis and Perception Mining to Infer Mental Health on Social Media ( http://arxiv.org/abs/2301.11004v1 )

ライセンス: Link先を確認
Muskan Garg and Chandni Saxena and Usman Naseem and Bonnie J Dorr(参考訳) ソーシャルメディア上の人間同士のインタラクションは、しばしば行動の背後にある意図を伝達し、オンラインユーザーのメンタルヘルス分析(MHA)のための心理的言語資源を生み出す。 このようなソーシャルメディア資源から精神疾患を推定するためのコンピュータインテリジェンス技術(CIT)の成功は、因果解析と知覚マイニングのためのレンズとしてNLPを指している。 しかし, 臨床心理学やパーソナライズされた精神医療に最適な影響を与えるためには, より連続的で説明可能な研究が必要である。 このギャップを埋めるために,(1)ユーザ生成テキストの因果関係を説明する因果分析,(2)オンライン利用者の意図に社会的影響の心理的視点を推測する知覚マイニングの2つの重要な側面を提示する。 自然言語処理(nlp)の範囲内では、これらの2つの次元、特に最近の談話分析の進歩にかかわる研究の重要領域をさらに探究する。 本論文は,ソーシャルメディアからメンタルヘルスを推定するための対話型エージェントの開発において,この領域におけるソリューションの探求と実践の進展を促すものである。 我々は,因果関係抽出と知覚の強化のためのデータセットや問題定式化における研究成果の増大を観察しながら,言語レンズによる計算心理学的問題をモデル化するための,より説明可能なアプローチを提唱する。

Interactions among humans on social media often convey intentions behind their actions, yielding a psychological language resource for Mental Health Analysis (MHA) of online users. The success of Computational Intelligence Techniques (CIT) for inferring mental illness from such social media resources points to NLP as a lens for causal analysis and perception mining. However, we argue that more consequential and explainable research is required for optimal impact on clinical psychology practice and personalized mental healthcare. To bridge this gap, we posit two significant dimensions: (1) Causal analysis to illustrate a cause and effect relationship in the user generated text; (2) Perception mining to infer psychological perspectives of social effects on online users intentions. Within the scope of Natural Language Processing (NLP), we further explore critical areas of inquiry associated with these two dimensions, specifically through recent advancements in discourse analysis. This position paper guides the community to explore solutions in this space and advance the state of practice in developing conversational agents for inferring mental health from social media. We advocate for a more explainable approach toward modeling computational psychology problems through the lens of language as we observe an increased number of research contributions in dataset and problem formulation for causal relation extraction and perception enhancements while inferring mental states.
翻訳日:2023-01-27 14:02:13 公開日:2023-01-26
# PerfSAGE:エッジデバイス上の任意ディープラーニングモデルのための一般化推論性能予測器

PerfSAGE: Generalized Inference Performance Predictor for Arbitrary Deep Learning Models on Edge Devices ( http://arxiv.org/abs/2301.10999v1 )

ライセンス: Link先を確認
Yuji Chai, Devashree Tripathy, Chuteng Zhou, Dibakar Gope, Igor Fedorov, Ramon Matas, David Brooks, Gu-Yeon Wei, Paul Whatmough(参考訳) ターゲットハードウェアプラットフォーム上の任意のDNNに対して、レイテンシ、電力、メモリフットプリントなどのディープニューラルネットワーク(DNN)推論パフォーマンスメトリクスを正確に予測する能力は、DNNベースのモデルの設計に不可欠である。 この機能は、特定のハードウェアデプロイメントプラットフォーム向けの実用的なDNNの設計(手動または自動)、最適化、デプロイにおいて重要である。 残念ながら、これらのメトリクスはシミュレータ(利用可能な場所)での評価が遅く、通常はターゲットハードウェアで測定する必要がある。 この研究は、任意のDNN TFliteグラフ(TFL, 2017)上で、推論レイテンシ、エネルギー、メモリフットプリントを予測する新しいグラフニューラルネットワーク(GNN)であるPerfSAGEを説明する。 対照的に、以前に公開されたパフォーマンス予測器は遅延を予測でき、事前に定義された建設ルールや検索スペースに制限される。 本稿では、4つのタスク検索空間からランダムにサンプリングされた134,912個のDNNのEdgeDLPerfデータセットについて述べる。 このデータセットを用いて,すべての対象とモデル検索空間において,平均絶対パーセンテージ誤差が5%の精度で最先端の予測精度を示す実験結果を提供する。 これらの結果は,(1)先行したGNN予測器(Dudziak et al., 2020),(2)加速器の性能を正確に予測する(非GNN予測器(Zhang et al., 2021)),(3)特徴抽出器を変更せずに任意の入力グラフ上での予測を実証する。

The ability to accurately predict deep neural network (DNN) inference performance metrics, such as latency, power, and memory footprint, for an arbitrary DNN on a target hardware platform is essential to the design of DNN based models. This ability is critical for the (manual or automatic) design, optimization, and deployment of practical DNNs for a specific hardware deployment platform. Unfortunately, these metrics are slow to evaluate using simulators (where available) and typically require measurement on the target hardware. This work describes PerfSAGE, a novel graph neural network (GNN) that predicts inference latency, energy, and memory footprint on an arbitrary DNN TFlite graph (TFL, 2017). In contrast, previously published performance predictors can only predict latency and are restricted to pre-defined construction rules or search spaces. This paper also describes the EdgeDLPerf dataset of 134,912 DNNs randomly sampled from four task search spaces and annotated with inference performance metrics from three edge hardware platforms. Using this dataset, we train PerfSAGE and provide experimental results that demonstrate state-of-the-art prediction accuracy with a Mean Absolute Percentage Error of <5% across all targets and model search spaces. These results: (1) Outperform previous state-of-art GNN-based predictors (Dudziak et al., 2020), (2) Accurately predict performance on accelerators (a shortfall of non-GNN-based predictors (Zhang et al., 2021)), and (3) Demonstrate predictions on arbitrary input graphs without modifications to the feature extractor.
翻訳日:2023-01-27 14:01:50 公開日:2023-01-26
# ボース・アインシュタイン凝縮の李陽理論

Lee-Yang theory of Bose-Einstein condensation ( http://arxiv.org/abs/2301.10997v1 )

ライセンス: Link先を確認
Fredrik Brange, Tuomas Pyh\"aranta, Eppu Heinonen, Kay Brandner, Christian Flindt(参考訳) ボース・アインシュタイン凝縮は、ボソンのガスがその遷移温度以下で冷却され、基底状態がマクロ的に占有されるときに起こる。 相転移は多くの粒子の熱力学的極限で起こる。 しかし、最近の実験的進歩により、例えば光学格子に1度に1つの原子を加えることで、ボトムアップから量子多体系を組み立てることができるようになった。 ここでは,少数のボソンのエネルギー変動から,ボースガスの凝縮温度を予測する方法について述べる。 これにより、エネルギー変動の高累積から逆温度の複素平面における分配関数の零点と極を決定することができる。 トラップポテンシャルにおけるボソンの数を増やすことで、熱力学的限界における分割関数 0 の収束点を予測でき、そこでは実軸上の逆臨界温度に達する。 100ボーソン以下を用いることで、2次元と3次元の調和ポテンシャルを持つボース気体の凝縮温度を推定でき、また1次元の相転移は期待できるほど存在しないことが判明した。

Bose-Einstein condensation happens as a gas of bosons is cooled below its transition temperature, and the ground state becomes macroscopically occupied. The phase transition occurs in the thermodynamic limit of many particles. However, recent experimental progress has made it possible to assemble quantum many-body systems from bottom up, for example, by adding single atoms to an optical lattice one at a time. Here, we show how one can predict the condensation temperature of a Bose gas from the energy fluctuations of a small number of bosons. To this end, we make use of recent advances in Lee-Yang theories of phase transitions, which allow us to determine the zeros and the poles of the partition function in the complex plane of the inverse temperature from the high cumulants of the energy fluctuations. By increasing the number of bosons in the trapping potential, we can predict the convergence point of the partition function zeros in the thermodynamic limit, where they reach the inverse critical temperature on the real axis. Using less than 100 bosons, we can estimate the condensation temperature for a Bose gas in a harmonic potential in two and three dimensions, and we also find that there is no phase transition in one dimension as one would expect.
翻訳日:2023-01-27 14:01:18 公開日:2023-01-26
# Zero-IFにおける量子相関:InP HEMT回路効果

Quantum Correlation at Zero-IF: InP HEMT Circuitry Effect ( http://arxiv.org/abs/2301.10996v1 )

ライセンス: Link先を確認
Ahmad Salmanogli(参考訳) rf電子回路におけるマイクロ波モード間の量子相関を解析・研究する。 4.2kで動作し、非線形成分としてinp hemtが2つの外部発振器を結合するオープン量子システムを設計する。 量子論は、全てのノイズ源を含む関連する量子ハミルトニアンが導出される系を完全に解析するために適用される。 リンドブラッドマスター方程式は、環境効果をカバーする拡大閉システムの時間発展を分析するために用いられる。 以下の例では、密度行列を用いて、アンサンブル平均状態を用いて、定義されたシステムの状態を決定するとともに、異なる演算子のアンサンブル平均を算出する。 これにより、量子系の共分散行列が導出され、量子相関を決定する鍵量としての量子不一致が計算される。 興味深い点として,inp hemtは2つの結合振動子モードを混合し,第2,第3,第5の異なる周波数で量子相関が生成されることを示した。 サンプリングとデジタル化に適した高調波は、量子相関が生成される零if(第2高調波のダウンサイド)帯域である。 もう1つのポイントは、InP HEMTに結合された各発振器の周波数共鳴に量子相関がないことである。

The quantum correlation between microwave modes in an RF electronic circuit is analyzed and studied. An open quantum system operating at 4.2 K is designed in which InP HEMT as the nonlinear component couples two external oscillators to each other. The quantum theory is applied to completely analyze the system, by which the related quantum Hamiltonian containing all noise sources is derived. The Lindblad Master equation is used to analyze the time evolution of the expanded closed system that covers the environmental effects. In the following, the state of the system defined is determined in terms of the ensemble average state using the density matrix; then, the ensemble average of the different operators is calculated. Accordingly, the covariance matrix of the quantum system is derived, and the quantum discord as a key quantity to determine the quantum correlation is calculated. As an interesting point, the results show that InP HEMT mixes two coupling oscillator modes so that the quantum correlation is created at different frequency productions such as 2nd, 3rd, and 5th. The harmonics suitable for sampling and digitalization is the zero-IF (downside of 2nd harmonics) band at which the quantum correlation is generated. Another point is that there is no quantum correlation at the frequency resonance of each oscillator coupled to InP HEMT.
翻訳日:2023-01-27 14:00:58 公開日:2023-01-26
# 線形関数近似を用いたマルチエージェント混雑コスト最小化

Multi-Agent congestion cost minimization with linear function approximation ( http://arxiv.org/abs/2301.10993v1 )

ライセンス: Link先を確認
Prashant Trivedi, Nandyala Hemachandra(参考訳) この作業では、ソースノードからゴールノードにネットワークをトラバースする複数のエージェントについて検討する。 リンクを移動するためのエージェントに対するコストは、混雑成分と同様にプライベートである。 エージェントの目的は、分散的に最小の全体的なコストでゴールノードへのパスを見つけることである。 我々は,これを完全分散化マルチエージェント強化学習問題としてモデル化し,新しいマルチエージェント混雑コスト最小化アルゴリズムを提案する。 我々のMACCMアルゴリズムは、遷移確率とグローバルコスト関数の線形関数近似を用いる。 中央のコントローラが無く、プライバシを保存するために、エージェントは時間変化のある通信ネットワークを介して、コスト関数パラメータを隣人に通信する。 さらに、各エージェントは、マルチエージェント拡張値イテレーション(maevi)サブルーチンを介して更新されるグローバル状態アクション値の推定を維持する。 我々は,MACCMアルゴリズムがサブ線形後悔を実現することを示す。 この証明には、コスト関数パラメータの収束、MAEVIアルゴリズム、および各エージェントに対するMAEVIトリガ条件によって誘導される後悔境界の解析が必要である。 提案アルゴリズムは,複数のリンクを持つ2ノードネットワーク上に実装して検証する。 まず,各期間に目標ノードに行くエージェントの最適数,最適ポリシーを特定する。 平均的後悔は 2 と 3 のエージェントに対して 0 に近い。 最適ポリシーは、ノードに留まる最小コストと、ゴールノードに行く際の混雑コストとの間のトレードオフをキャプチャする。 我々の仕事は確率的最短経路問題を学ぶ一般化である。

This work considers multiple agents traversing a network from a source node to the goal node. The cost to an agent for traveling a link has a private as well as a congestion component. The agent's objective is to find a path to the goal node with minimum overall cost in a decentralized way. We model this as a fully decentralized multi-agent reinforcement learning problem and propose a novel multi-agent congestion cost minimization (MACCM) algorithm. Our MACCM algorithm uses linear function approximations of transition probabilities and the global cost function. In the absence of a central controller and to preserve privacy, agents communicate the cost function parameters to their neighbors via a time-varying communication network. Moreover, each agent maintains its estimate of the global state-action value, which is updated via a multi-agent extended value iteration (MAEVI) sub-routine. We show that our MACCM algorithm achieves a sub-linear regret. The proof requires the convergence of cost function parameters, the MAEVI algorithm, and analysis of the regret bounds induced by the MAEVI triggering condition for each agent. We implement our algorithm on a two node network with multiple links to validate it. We first identify the optimal policy, the optimal number of agents going to the goal node in each period. We observe that the average regret is close to zero for 2 and 3 agents. The optimal policy captures the trade-off between the minimum cost of staying at a node and the congestion cost of going to the goal node. Our work is a generalization of learning the stochastic shortest path problem.
翻訳日:2023-01-27 14:00:36 公開日:2023-01-26
# ナノスケール力センシングのためのインダクティブメカノ電気変換

Kinetic inductive mechano-electric transduction for nano-scale force sensing ( http://arxiv.org/abs/2301.11055v1 )

ライセンス: Link先を確認
August K. Roos, Ermes Scarano, Elisabet K. Arvidsson, Erik Holmgren, David B. Haviland(参考訳) 我々はキャビティオプティメカニクスの原理を用いて原子間力顕微鏡のための共鳴機械力センサを設計する。 このセンサーは、従来の静電容量カップリングと二重の電気機械カップリングの新たなタイプに基づいており、カンチレバーの運動は、超伝導ナノワイヤの動的インダクタンスの変化を引き起こす表面ひずみを誘導する。 キャビティは、ナノワイヤの運動インダクタンスを含む等価LC回路を備えた小型のマイクロ波プラズマモードによって実現される。 デバイスは完全に共平面であり、伝送線路と読み出し回路への最適な結合のためにキャビティインピーダンスを変換する方法を示す。 ここで紹介する装置は, ベア・キネティック・インダクティブ・メカノ・エレクトロリック・カップリング (KIMEC) を$g_0/2\pi \sim$ 3-10 Hz で推定する。 多周波ポンピングと測定手法を用いて, キャンチレバーの位相感度検出を行う。

We use the principles of cavity opto-mechanics to design a resonant mechanical force sensor for atomic force microscopy. The sensor is based on a new type of electro-mechanical coupling, dual to traditional capacitive coupling, whereby the motion of a cantilever induces surface strain that causes a change in the kinetic inductance of a superconducting nanowire. The cavity is realized by a compact microwave plasma mode with an equivalent LC circuit involving the nanowire's kinetic inductance. The device is fully co-planar and we show how to transform the cavity impedance for optimal coupling to the transmission line and readout circuit. For the device presented here, we estimate the bare Kinetic Inductive Mechano-Electric Coupling (KIMEC) rate $g_0/2\pi \sim$ 3-10 Hz. We demonstrate phase-sensitive detection of cantilever motion using a multifrequency pumping and measurement scheme.
翻訳日:2023-01-27 13:53:55 公開日:2023-01-26
# Minerva:ファイルベースのランサムウェア検出器

Minerva: A File-Based Ransomware Detector ( http://arxiv.org/abs/2301.11050v1 )

ライセンス: Link先を確認
Dorjan Hitaj, Giulio Pagnotta, Fabio De Gaspari, Lorenzo De Carli, Luigi V. Mancini(参考訳) ランサムウェア(英: Ransomware)は、デバイス上のユーザーファイルを暗号化し、ランサムを正確に識別するためにアクセス不能なマルウェアである。 ランサムウェア攻撃は近年数十億ドルの損害をもたらし、今後10年で数十億ドルの被害をもたらすと予想されている。 現在の最先端のプロセスベース検出器は、回避攻撃に強い影響を受けやすいため、この問題に対する包括的な解決策は今のところ存在しない。 本稿ではランサムウェア検出の新しいアプローチであるMinervaを提案する。 現在のプロセスレベルの動作モデリングに基づいてランサムウェアを特定する方法とは異なり、minrvaは、タイムウィンドウで受信したすべての操作に基づいてファイルの動作プロファイルを構築してランサムウェアを検出する。 minervaはプロセスベースのアプローチ、特に複雑な回避攻撃に対する脆弱性に関連するいくつかの重要な課題に対処する。 Minervaの評価は、既存の防御を回避できるものを含むランサムウェア攻撃の検出の有効性を示す。 その結果、ミネルバはランサムウェアを平均99.45%、平均リコール99.66%、ランサムウェアの99.97%を1秒以内に検出した。

Ransomware is a rapidly evolving type of malware designed to encrypt user files on a device, making them inaccessible in order to exact a ransom. Ransomware attacks resulted in billions of dollars in damages in recent years and are expected to cause hundreds of billions more in the next decade. With current state-of-the-art process-based detectors being heavily susceptible to evasion attacks, no comprehensive solution to this problem is available today. This paper presents Minerva, a new approach to ransomware detection. Unlike current methods focused on identifying ransomware based on process-level behavioral modeling, Minerva detects ransomware by building behavioral profiles of files based on all the operations they receive in a time window. Minerva addresses some of the critical challenges associated with process-based approaches, specifically their vulnerability to complex evasion attacks. Our evaluation of Minerva demonstrates its effectiveness in detecting ransomware attacks, including those that are able to bypass existing defenses. Our results show that Minerva identifies ransomware activity with an average accuracy of 99.45% and an average recall of 99.66%, with 99.97% of ransomware detected within 1 second.
翻訳日:2023-01-27 13:53:39 公開日:2023-01-26
# Green AIのシステムレビュー

A Systematic Review of Green AI ( http://arxiv.org/abs/2301.11047v1 )

ライセンス: Link先を確認
Roberto Verdecchia and June Sallou and Lu\'is Cruz(参考訳) AIベースのシステムの普及が続く中、AIのカーボンフットプリントはもはや無視できない。 そのため、AI研究者や実践者は、自分たちが設計し使用するAIモデルの二酸化炭素排出量について責任を負うように促されている。 これは近年、グリーンAIと呼ばれる分野である、環境の持続可能性に取り組む研究の出現につながった。 このトピックへの関心は急速に高まっているが、グリーンai研究の包括的な概要は、いまだに欠けている。 本稿では,このギャップに対処するために,グリーンai文献を体系的にレビューする。 98の一次研究の分析から異なるパターンが出現した。 この話題は2020年以降、かなりの成長を遂げた。 ほとんどの研究は、AIモデルのフットプリントの監視、モデルサステナビリティ改善のためのハイパーパラメータのチューニング、あるいはベンチマークモデルについて検討している。 位置論文、観察研究、解答論文が混在している。 ほとんどの論文はトレーニングフェーズに注目し、アルゴリズムに依存しない、あるいはニューラルネットワークを研究し、画像データを使用する。 実験室実験は最も一般的な研究戦略である。 グリーンaiによる省エネは115%まで増加し、50%以上の省エネが一般的である。 産業団体はグリーンAI研究に関わっており、ほとんどの学術読者が対象だ。 グリーンAIツールのプロビジョニングは少ない。 結論として、green ai研究分野は、かなり成熟したレベルに達している。 したがって、このレビューから、他のグリーンAI研究戦略を採用し、多くの有望な学術成果を工業的実践に移植するのに適切な時期が現れる。

With the ever-growing adoption of AI-based systems, the carbon footprint of AI is no longer negligible. AI researchers and practitioners are therefore urged to hold themselves accountable for the carbon emissions of the AI models they design and use. This led in recent years to the appearance of researches tackling AI environmental sustainability, a field referred to as Green AI. Despite the rapid growth of interest in the topic, a comprehensive overview of Green AI research is to date still missing. To address this gap, in this paper, we present a systematic review of the Green AI literature. From the analysis of 98 primary studies, different patterns emerge. The topic experienced a considerable growth from 2020 onward. Most studies consider monitoring AI model footprint, tuning hyperparameters to improve model sustainability, or benchmarking models. A mix of position papers, observational studies, and solution papers are present. Most papers focus on the training phase, are algorithm-agnostic or study neural networks, and use image data. Laboratory experiments are the most common research strategy. Reported Green AI energy savings go up to 115%, with savings over 50% being rather common. Industrial parties are involved in Green AI studies, albeit most target academic readers. Green AI tool provisioning is scarce. As a conclusion, the Green AI research field results to have reached a considerable level of maturity. Therefore, from this review emerges that the time is suitable to adopt other Green AI research strategies, and port the numerous promising academic results to industrial practice.
翻訳日:2023-01-27 13:53:17 公開日:2023-01-26
# プロトタイプベースインプットによる不完全多視点クラスタリング

Incomplete Multi-view Clustering via Prototype-based Imputation ( http://arxiv.org/abs/2301.11045v1 )

ライセンス: Link先を確認
Haobin Li, Yunfan Li, Mouxing Yang, Peng Hu, Dezhong Peng, Xi Peng(参考訳) 本稿では,不完全マルチビュークラスタリング(imvc)による2つの特徴の達成方法について検討する。 つまり 一 インスタンス共通性とは、クラスタ内インスタンスが共通のパターンを共有すること、及び ii) ビューの汎用性は、ビュー間のサンプルがビュー固有のパターンを持つべきであることを意味する。 そこで本研究では,2重アテンション層と2重コントラスト学習損失を用いた新しい2重ストリームモデルを設計し,ビュー固有のプロトタイプを学習し,サンプル・プロトタイプ関係をモデル化する。 ビューが欠落した場合,本モデルでは,欠落したビューのプロトタイプと,観察されたビューから受け継いだサンプル-プロトタイプ関係を用いてデータリカバリを行う。 我々のデュアルストリームモデルのおかげで、クラスタ固有の情報とビュー固有の情報の両方をキャプチャできるので、インスタンスの共通性とビューの汎用性はIMvCを促進するために保存できます。 11のアプローチと比較して,6つの挑戦的ベンチマークにおいて,本手法の優位性を示した。 コードはリリースされます。

In this paper, we study how to achieve two characteristics highly-expected by incomplete multi-view clustering (IMvC). Namely, i) instance commonality refers to that within-cluster instances should share a common pattern, and ii) view versatility refers to that cross-view samples should own view-specific patterns. To this end, we design a novel dual-stream model which employs a dual attention layer and a dual contrastive learning loss to learn view-specific prototypes and model the sample-prototype relationship. When the view is missed, our model performs data recovery using the prototypes in the missing view and the sample-prototype relationship inherited from the observed view. Thanks to our dual-stream model, both cluster- and view-specific information could be captured, and thus the instance commonality and view versatility could be preserved to facilitate IMvC. Extensive experiments demonstrate the superiority of our method on six challenging benchmarks compared with 11 approaches. The code will be released.
翻訳日:2023-01-27 13:52:55 公開日:2023-01-26
# パラメトリック偏微分方程式に対するランダム格子ニューラルプロセス

Random Grid Neural Processes for Parametric Partial Differential Equations ( http://arxiv.org/abs/2301.11040v1 )

ライセンス: Link先を確認
Arnaud Vadeboncoeur, Ieva Kazlauskaite, Yanni Papandreou, Fehmi Cirak, Mark Girolami, \"Omer Deniz Akyildiz(参考訳) 本稿では、空間確率物理学の新しいクラスと、スケーラブルな変動型ニューラルプロセスを通して動作するパラメトリック偏微分方程式(PDE)の深部潜伏モデルについて紹介する。 これを空間領域に確率測度を割り当てることで達成し、確率的にコロケーショングリッドを確率変数として扱うことができる。 この空間統計的視点に適応して、パラメトリックPDEの前方および逆問題を解場のガウス過程モデルの構築につながる方法で解決する。 これらのランダムグリッドの実装は、逆物理情報深層学習フレームワークに固有の課題をもたらし、これらの課題を克服するために、Grid Invariant Convolutional Networks (GICNets) と呼ばれる新しいアーキテクチャを提案する。 さらに、物理情報モデルにノイズデータを原則的に組み込んで、データが利用可能なが、測定位置が固定メッシュやグリッドと一致しない問題に対する予測を改善する方法を示す。 提案手法は, 非線形ポアソン問題, バーガーズ方程式, ナビエ・ストークス方程式で検証し, 広範な数値比較を行った。 我々は,これらのモデルの予測能力と柔軟性を改善しつつ,パラメトリックPDEに対する現在の物理情報ニューラルラーニング法に対する計算上の優位性を示す。

We introduce a new class of spatially stochastic physics and data informed deep latent models for parametric partial differential equations (PDEs) which operate through scalable variational neural processes. We achieve this by assigning probability measures to the spatial domain, which allows us to treat collocation grids probabilistically as random variables to be marginalised out. Adapting this spatial statistics view, we solve forward and inverse problems for parametric PDEs in a way that leads to the construction of Gaussian process models of solution fields. The implementation of these random grids poses a unique set of challenges for inverse physics informed deep learning frameworks and we propose a new architecture called Grid Invariant Convolutional Networks (GICNets) to overcome these challenges. We further show how to incorporate noisy data in a principled manner into our physics informed model to improve predictions for problems where data may be available but whose measurement location does not coincide with any fixed mesh or grid. The proposed method is tested on a nonlinear Poisson problem, Burgers equation, and Navier-Stokes equations, and we provide extensive numerical comparisons. We demonstrate significant computational advantages over current physics informed neural learning methods for parametric PDEs while improving the predictive capabilities and flexibility of these models.
翻訳日:2023-01-27 13:52:38 公開日:2023-01-26
# WL meet VC

WL meet VC ( http://arxiv.org/abs/2301.11039v1 )

ライセンス: Link先を確認
Christopher Morris, Floris Geerts, Jan T\"onshoff, Martin Grohe(参考訳) 近年,グラフニューラルネットワーク(GNN)の表現力について,1次元Weisfeiler-Lemanアルゴリズム(1\text{-}\mathsf{WL}$)にリンクすることで研究されている。 ここで、1\text{-}\mathsf{WL}$ はグラフ同型問題に対するよく研究されたヒューリスティックであり、グラフの頂点集合を反復的に色付けまたは分割する。 この関係は、GNNの表現力の理解と強化に大きな進歩をもたらしたが、その一般化性能、すなわちトレーニングセットを超えて有意義な予測を行う能力についての洞察を与えていない。 本稿では,GNNの一般化能力を,Vapnik-Chervonenkis(VC)次元理論のレンズを用いて2つの設定で研究し,グラフレベルの予測に焦点を当てた。 まず、グラフの順序の上限が知られていない場合、gnnの重みのビット長がvc次元に密着していることを示す。 さらに、GNN の VC 次元の上限を $1\text{-}\mathsf{WL}$ で生成される色数を用いて導出する。 第二に、グラフの順序の上限が分かっているとき、 1\text{-}\mathsf{wl}$ と gnns の vc 次元で区別可能なグラフの数と密接な関係を示す。 実験結果は理論的な結果の妥当性を確認した。

Recently, many works studied the expressive power of graph neural networks (GNNs) by linking it to the $1$-dimensional Weisfeiler--Leman algorithm ($1\text{-}\mathsf{WL}$). Here, the $1\text{-}\mathsf{WL}$ is a well-studied heuristic for the graph isomorphism problem, which iteratively colors or partitions a graph's vertex set. While this connection has led to significant advances in understanding and enhancing GNNs' expressive power, it does not provide insights into their generalization performance, i.e., their ability to make meaningful predictions beyond the training set. In this paper, we study GNNs' generalization ability through the lens of Vapnik--Chervonenkis (VC) dimension theory in two settings, focusing on graph-level predictions. First, when no upper bound on the graphs' order is known, we show that the bitlength of GNNs' weights tightly bounds their VC dimension. Further, we derive an upper bound for GNNs' VC dimension using the number of colors produced by the $1\text{-}\mathsf{WL}$. Secondly, when an upper bound on the graphs' order is known, we show a tight connection between the number of graphs distinguishable by the $1\text{-}\mathsf{WL}$ and GNNs' VC dimension. Our empirical study confirms the validity of our theoretical findings.
翻訳日:2023-01-27 13:52:16 公開日:2023-01-26
# Baxter-Fendley自由パラフェミオンモデルにおける例外点

Exceptional Points in the Baxter-Fendley Free Parafermion Model ( http://arxiv.org/abs/2301.11031v1 )

ライセンス: Link先を確認
Robert A. Henry and Murray T. Batchelor(参考訳) 量子イジング鎖のような特定のスピン鎖は自由フェルミオンスペクトルを持ち、分離された2レベルフェルミオン系の和として表現できる。 \textit{Free parafermions} はこのアイデアを$Z(N)$-対称モデルに単純な一般化である。 1989年、バクスターはイジングチェーンを直接一般化する非エルミート的だが$pt$対称モデルを発見したが、これは後にフェンドリーによって自由パラフェルミオンスペクトルであると認識された。 モデルの磁場パラメータを複素平面に拡張することにより、一連の例外点が出現し、自由スペクトルを定義する準エネルギーが縮退することを示す。 これらの点の位置に関する解析式を導出し,様々な数値解析を行った。 これらの例外点は、複雑な横体を持つイジング鎖にも存在する。 モデルは通常これらの例外点において$PT$対称ではないが、それらの近接性は$PT$対称実数直線上のモデルに大きな影響を与える。 さらに、モデルのある場合には、(負の場を持つ)実数直線上に例外点が現れることがある。

Certain spin chains, such as the quantum Ising chain, have free fermion spectra which can be expressed as the sum of decoupled two-level fermionic systems. \textit{Free parafermions} are a simple generalisation of this idea to $Z(N)$-symmetric models. In 1989 Baxter discovered a non-Hermitian but $PT$-symmetric model directly generalising the Ising chain which was much later recognised by Fendley to be a free parafermion spectrum. By extending the model's magnetic field parameter to the complex plane, we show that a series of exceptional points emerges, where the quasienergies defining the free spectrum become degenerate. An analytic expression for the locations of these points is derived, and various numerical investigations are performed. These exceptional points also exist in the Ising chain with a complex transverse field. Although the model is not in general $PT$-symmetric at these exceptional points, their proximity can have a profound impact on the model on the $PT$-symmetric real line. Furthermore, in certain cases of the model an exceptional point may appear on the real line (with negative field).
翻訳日:2023-01-27 13:51:49 公開日:2023-01-26
# 画像キャプションからのパラフレーズ獲得

Paraphrase Acquisition from Image Captions ( http://arxiv.org/abs/2301.11030v1 )

ライセンス: Link先を確認
Marcel Gohsen and Matthias Hagen and Martin Potthast and Benno Stein(参考訳) 本稿では,Webのキャプションをパラフレーズ(例えば,同じ「メッセージ」を持つテキスト)の未使用リソースとして利用し,対応するデータセットを作成し,分析することを提案する。 画像がWeb上で再利用されると、しばしばオリジナルのキャプションが割り当てられる。 同じ画像に対して異なるキャプションが自然に相互のパラフレーズの組を形成すると仮定する。 このアイデアの適合性を示すために、英語ウィキペディアのキャプションを分析し、編集者は異なる記事に対して同じイメージを頻繁にリラベルする。 本論文は基礎となる鉱業技術を紹介し,我々の新資源との構文的・意味的類似性について既知のパラフローゼコーパスと比較する。 この文脈では、2つの類似度次元に沿って特徴写像を導入し、異なるソースから来るパラフレーズのスタイルを識別する。 アノテーション研究はアルゴリズムによって決定された特徴写像の信頼性を示す。

We propose to use captions from the Web as a previously underutilized resource for paraphrases (i.e., texts with the same "message") and to create and analyze a corresponding dataset. When an image is reused on the Web, an original caption is often assigned. We hypothesize that different captions for the same image naturally form a set of mutual paraphrases. To demonstrate the suitability of this idea, we analyze captions in the English Wikipedia, where editors frequently relabel the same image for different articles. The paper introduces the underlying mining technology and compares known paraphrase corpora with respect to their syntactic and semantic paraphrase similarity to our new resource. In this context, we introduce characteristic maps along the two similarity dimensions to identify the style of paraphrases coming from different sources. An annotation study demonstrates the high reliability of the algorithmically determined characteristic maps.
翻訳日:2023-01-27 13:51:31 公開日:2023-01-26
# プラスチック中の2分子からの散乱のオンチップ干渉

On-chip interference of scattering from two individual molecules in plastic ( http://arxiv.org/abs/2301.11024v1 )

ライセンス: Link先を確認
Dominik Rattenbacher, Alexey Shkarin, Jan Renger, Tobias Utikal, Stephan G\"otzinger and Vahid Sandoghdar(参考訳) 集積フォトニック回路は、制御された量子エミッタの集合のコヒーレントな協調効果を研究するための有望な経路を提供する。 しかし、固体状態におけるスペクトルの不均一性、デコヒーレンス、物質的不整合は、非自明なタスクである。 ここでは,プラスチックフィルムに埋め込まれた有機分子対を,ガラスチップ上のTiO$2$マイクロディスク共振器に効率よく結合することを示した。 さらに, ナノファブリケーション電極を用いて, 分子の共振周波数をマイクロ共振器の共振周波数と比較した。 約8$\,\mu$mの距離と約$\pi/2$の光学位相差で分離された2つの分子について、入射光の前方方向における大規模な消滅と後方方向における散乱の破壊的干渉について報告する。 本研究は、共振モードによる複数の分子のコヒーレントカップリングと、高分子系ハイブリッド量子フォトニック回路の実現の基礎となる。

Integrated photonic circuits offer a promising route for studying coherent cooperative effects of a controlled collection of quantum emitters. However, spectral inhomogeneities, decoherence and material incompatibilities in the solid state make this a nontrivial task. Here, we demonstrate efficient coupling of a pair of organic molecules embedded in a plastic film to a TiO$_2$ microdisc resonator on a glass chip. Moreover, we tune the resonance frequencies of the molecules with respect to that of the microresonator by employing nanofabricated electrodes. For two molecules separated by a distance of about 8$\,\mu$m and an optical phase difference of about $\pi/2$, we report on a large collective extinction of the incident light in the forward direction and the destructive interference of its scattering in the backward direction. Our work sets the ground for the coherent coupling of several molecules via a common mode and the realization of polymer-based hybrid quantum photonic circuits.
翻訳日:2023-01-27 13:51:18 公開日:2023-01-26
# コヒーレンスと不確かさの関連に基づく量子生物学的効果の生理学的探索

Physiological search for quantum biological effects based on the Wigner-Yanase connection between coherence and uncertainty ( http://arxiv.org/abs/2301.11023v1 )

ライセンス: Link先を確認
I. K. Kominis(参考訳) 量子物理学の基本的な概念であるウィグナー・ヤナーゼ情報(wigner yanase information)は、生物磁気センシングに関連するスピン依存ラジカルペア反応における量子コヒーレンスの測定に用いられる。 この測定は、反応収量の不確かさ、さらに、磁場の変化を生化学的に伝達するために用いられる細胞受容体リガンド系の統計と結びついている。 受容体の数やリガンド濃度のゆらぎなどの測定可能な生理量は、一重項コヒーレンスのwigner-yanase測度を反映している。 我々は、生物資源の積と、wigner-yanaseコヒーレンスとをつなぐ量子生物学的不確実性関係に到達する。 我々のアプローチは、細胞内環境における量子コヒーレント効果の一般探索に役立つ。

A fundamental concept of quantum physics, the Wigner Yanase information, is here used as a measure of quantum coherence in spin-dependent radical-pair reactions pertaining to biological magnetic sensing. This measure is connected to the uncertainty of the reaction yields, and further, to the statistics of a cellular receptor-ligand system used to biochemically convey magnetic-field changes. Measurable physiological quantities, such as the number of receptors and fluctuations in ligand concentration, are shown to reflect the introduced Wigner-Yanase measure of singlet-triplet coherence. We arrive at a quantum-biological uncertainty relation, connecting the product of a biological resource and a biological figure of merit with the Wigner-Yanase coherence. Our approach can serve a general search for quantum-coherent effects within cellular environments.
翻訳日:2023-01-27 13:51:03 公開日:2023-01-26
# 字幕生成による視覚バイアスの表現

Explaining Visual Biases as Words by Generating Captions ( http://arxiv.org/abs/2301.11104v1 )

ライセンス: Link先を確認
Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo Shin(参考訳) 画像分類器の潜在的なバイアスを診断することを目的としている。 この目的のために、プリエントワークは手動でバイアス付き属性をラベル付けしたり、高いアノテーションコストを必要とするか、解釈にあいまいなバイアス付き特徴を視覚化したりする。 代わりに、前訓練された視覚言語モデルの2つのタイプ(生成的および判別的)を活用して、視覚バイアスを単語として記述する。 具体的には,事前学習したキャプションモデルを用いて誤予測画像のキャプションを生成するバイアス・トゥ・テキスト(B2T)を提案する。 次に、クラス毎の誤った予測画像とキーワードの類似性に基づいて、クラスに固有のか非依存であるかをチェックすることにより、バイアスタイプを散発的な相関または多数派バイアスとして分類する。 提案手法は,既知の性別や背景バイアスを再現し,実世界のデータセットから新しい手法を発見できることを示す。 さらに,B2Tを用いて異なるアーキテクチャやトレーニング手法を用いて分類器を比較する。 最後に,b2tバイアスキーワードとクリップをゼロショット法とフルショット法の両方で用い,バイアスに人間のアノテーションを使わずにデバイアス分類できることを示す。

We aim to diagnose the potential biases in image classifiers. To this end, prior works manually labeled biased attributes or visualized biased features, which need high annotation costs or are often ambiguous to interpret. Instead, we leverage two types (generative and discriminative) of pre-trained vision-language models to describe the visual bias as a word. Specifically, we propose bias-to-text (B2T), which generates captions of the mispredicted images using a pre-trained captioning model to extract the common keywords that may describe visual biases. Then, we categorize the bias type as spurious correlation or majority bias by checking if it is specific or agnostic to the class, based on the similarity of class-wise mispredicted images and the keyword upon a pre-trained vision-language joint embedding space, e.g., CLIP. We demonstrate that the proposed simple and intuitive scheme can recover well-known gender and background biases, and discover novel ones in real-world datasets. Moreover, we utilize B2T to compare the classifiers using different architectures or training methods. Finally, we show that one can obtain debiased classifiers using the B2T bias keywords and CLIP, in both zero-shot and full-shot manners, without using any human annotation on the bias.
翻訳日:2023-01-27 13:44:38 公開日:2023-01-26
# ゼロショットタスクを実行する視覚言語モデルにおける性差

Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based Disparities ( http://arxiv.org/abs/2301.11100v1 )

ライセンス: Link先を確認
Melissa Hall, Laura Gustafson, Aaron Adcock, Ishan Misra, Candace Ross(参考訳) ゼロショット視覚言語モデルが、異なる視覚タスクに対してジェンダーバイアスを示す範囲について検討する。 ビジョンモデルは伝統的に概念を表現するためにタスク固有のラベルと微調整を必要としており、CLIPのようなゼロショットモデルは代わりにオープン語彙でタスクを実行する。 視覚言語モデルでは、ゼロショット画像分類、オブジェクト検出、セマンティックセグメンテーションを行う際、性別バイアスを生じるか? 概念セットにまたがる複数のデータセットを用いた視覚言語モデルの評価と発見 (i)評価された全てのモデルは、画像中の所定の概念と共起している人の知覚された性別に基づいて異なる性能の差異を示し、すべての概念に関する分析を集約することは、これらの懸念を隠蔽することができる。 (ii)モデルキャリブレーション(すなわち、正確性と自信の関係)は、概念の類似表現上で評価しても、知覚性によっても明確に異なる。 3)これらの差異は,言語モデルからの単語埋め込みにおける既存性バイアスと一致している。 これらの結果は、言語が視覚タスクの能力を大きく拡大する一方で、ゼロショット視覚設定における社会的バイアスにも寄与することを示唆している。 さらに、CLIPのような基礎モデルがゼロショット機能を実現するために他のモデルで使用されている場合、バイアスはさらに伝播する。

We explore the extent to which zero-shot vision-language models exhibit gender bias for different vision tasks. Vision models traditionally required task-specific labels for representing concepts, as well as finetuning; zero-shot models like CLIP instead perform tasks with an open-vocabulary, meaning they do not need a fixed set of labels, by using text embeddings to represent concepts. With these capabilities in mind, we ask: Do vision-language models exhibit gender bias when performing zero-shot image classification, object detection and semantic segmentation? We evaluate different vision-language models with multiple datasets across a set of concepts and find (i) all models evaluated show distinct performance differences based on the perceived gender of the person co-occurring with a given concept in the image and that aggregating analyses over all concepts can mask these concerns; (ii) model calibration (i.e. the relationship between accuracy and confidence) also differs distinctly by perceived gender, even when evaluating on similar representations of concepts; and (iii) these observed disparities align with existing gender biases in word embeddings from language models. These findings suggest that, while language greatly expands the capability of vision tasks, it can also contribute to social biases in zero-shot vision settings. Furthermore, biases can further propagate when foundational models like CLIP are used by other models to enable zero-shot capabilities.
翻訳日:2023-01-27 13:44:07 公開日:2023-01-26
# 結合グラフによるフェデレーション学習

Federated Learning over Coupled Graphs ( http://arxiv.org/abs/2301.11099v1 )

ライセンス: Link先を確認
Runze Lei, Pinghui Wang, Junzhou Zhao, Lin Lan, Jing Tao, Chao Deng, Junlan Feng, Xidian Wang, Xiaohong Guan(参考訳) グラフはエンティティ間の関係を表現するために広く使われている。 完全なデータを所有している場合、グラフ全体を簡単に構築できるため、グラフ上での分析は簡単である。 しかし、多くのシナリオでは、データプライバシの懸念により、データの集中化は不可能である。 組織やパーティは、グラフデータ全体、すなわち、グラフデータは異なるパーティから分離されている部分のみを保持します。 近年,euclideanデータを中心に,データ分離問題を解決するために連合学習(federated learning,fl)が提案されている。 グラフデータにflを適用するのは依然として難しい。なぜならグラフには、その非iid性で知られ、分割が難しいトポロジカルな情報が含まれているからだ。 本研究では,分散グラフデータの一種でありながら,モバイルキャリアの通信ネットワークや銀行のトランザクションネットワークなど,さまざまな現実のアプリケーションに広く存在するような,結合グラフを効率的に扱うための,グラフデータのための新しいFLフレームワークであるFedCogを提案する。 我々はフェデコグの正確性と安全性を理論的に証明する。 実験の結果,FedCog法は従来のFL法よりも有意な性能を示した。 注目すべきは、FedCogはノード分類タスクの精度を最大14.7%改善することです。

Graphs are widely used to represent the relations among entities. When one owns the complete data, an entire graph can be easily built, therefore performing analysis on the graph is straightforward. However, in many scenarios, it is impractical to centralize the data due to data privacy concerns. An organization or party only keeps a part of the whole graph data, i.e., graph data is isolated from different parties. Recently, Federated Learning (FL) has been proposed to solve the data isolation issue, mainly for Euclidean data. It is still a challenge to apply FL on graph data because graphs contain topological information which is notorious for its non-IID nature and is hard to partition. In this work, we propose a novel FL framework for graph data, FedCog, to efficiently handle coupled graphs that are a kind of distributed graph data, but widely exist in a variety of real-world applications such as mobile carriers' communication networks and banks' transaction networks. We theoretically prove the correctness and security of FedCog. Experimental results demonstrate that our method FedCog significantly outperforms traditional FL methods on graphs. Remarkably, our FedCog improves the accuracy of node classification tasks by up to 14.7%.
翻訳日:2023-01-27 13:43:45 公開日:2023-01-26
# ナノ粒子による高質量物質波干渉実験

Experimental challenges for high-mass matter-wave interference with nanoparticles ( http://arxiv.org/abs/2301.11095v1 )

ライセンス: Link先を確認
Sebastian Pedalino, Bruno Ram\'irez Galindo, Tomas de Sousa, Yaakov Y. Fein, Philipp Geyer, Stefan Gerlich, and Markus Arndt(参考訳) 金属および誘電体ナノ粒子の自由ビームを用いた物質波干渉実験への最近の進歩について論じる。 それらは、これらのクラスターに関連するド・ブロイ波を分離するために、輝かしい源、効率的な検出スキーム、コヒーレントな方法を必要としている:我々は、集中したクラスタービームを広い質量分散で放出するマグネトロンスパッタリング源に基づくアプローチについて述べる。 ソースは、すべての導電性材料と多くの半導体や絶縁材料で使用できるため、普遍的である。 ここでは、バルクの作業関数が低く、したがってクラスター電離エネルギーが低い金属と誘電体に焦点を当てる。 これにより、光イオン化格子をコヒーレント物質波ビームスプリッタとして実現し、効率的なイオン化検出法を実現することができる。 これらの新しい方法は、3つの266nmの枯渇グレーティングを備えたタルボット・ラウ干渉計に組み合わされた。 ここでは実験境界条件と実験室での実現方法について述べる。 この次世代の近接場干渉計は、物質波干渉の限界をすぐに10メガダルトンまで押し上げることができる。

We discuss recent advances towards matter-wave interference experiments with free beams of metallic and dielectric nanoparticles. They require a brilliant source, an efficient detection scheme and a coherent method to divide the de Broglie waves associated with these clusters: We describe an approach based on a magnetron sputtering source which ejects an intense cluster beam with a wide mass dispersion but a small velocity spread of 10%. The source is universal as it can be used with all conducting and many semiconducting or even insulating materials. Here we focus on metals and dielectrics with a low work function of the bulk and thus a low cluster ionization energy. This allows us to realize photoionization gratings as coherent matter-wave beam splitters and also to realize an efficient ionization detection scheme. These new methods are now combined in an upgraded Talbot-Lau interferometer with three 266 nm depletion gratings. We here describe the experimental boundary conditions and how to realize them in the lab. This next generation of near-field interferometers shall allow us to soon push the limits of matter-wave interference to masses up to 10 megadaltons.
翻訳日:2023-01-27 13:43:26 公開日:2023-01-26
# 簡易拡散:高分解能画像のためのエンドツーエンド拡散

simple diffusion: End-to-end diffusion for high resolution images ( http://arxiv.org/abs/2301.11093v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Jonathan Heek, Tim Salimans(参考訳) 現在,高解像度画像の画素空間における拡散モデルの適用は困難である。 その代わり、既存のアプローチは低次元空間における拡散(相対拡散)にフォーカスするか、カスケードと呼ばれる複数の超解像レベルを持つ。 欠点は、これらのアプローチが拡散フレームワークにさらに複雑さをもたらすことです。 本稿では,高分解能画像のデノナイズ拡散を改善することを目的とした。 この論文は、高分解能画像上で標準的な拡散モデルを訓練し、それでもこれらの代替手法に匹敵する性能を得ることができるか? 4つの主な発見は 1)高解像度画像のノイズスケジュールを調整すべきである。 2) アーキテクチャの特定の部分のみをスケールするには十分です。 3) アーキテクチャ内の特定の場所にドロップアウトを追加する必要がある。 4) ダウンサンプリングは高解像度の特徴マップを避けるための効果的な戦略である。 これらの単純かつ効果的な手法を組み合わせることで、ImageNet上のモデレータをサンプリングすることなく拡散モデル間の画像生成の最先端を実現する。

Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolution levels of generation referred to as cascades. The downside is that these approaches add additional complexity to the diffusion framework. This paper aims to improve denoising diffusion for high resolution images while keeping the model as simple as possible. The paper is centered around the research question: How can one train a standard denoising diffusion models on high resolution images, and still obtain performance comparable to these alternate approaches? The four main findings are: 1) the noise schedule should be adjusted for high resolution images, 2) It is sufficient to scale only a particular part of the architecture, 3) dropout should be added at specific locations in the architecture, and 4) downsampling is an effective strategy to avoid high resolution feature maps. Combining these simple yet effective techniques, we achieve state-of-the-art on image generation among diffusion models without sampling modifiers on ImageNet.
翻訳日:2023-01-27 13:43:09 公開日:2023-01-26
# ヒューリスティック検索としての一般計画:オブジェクト上のポインタを利用する新しい計画探索空間

Generalized Planning as Heuristic Search: A new planning search-space that leverages pointers over objects ( http://arxiv.org/abs/2301.11087v1 )

ライセンス: Link先を確認
Javier Segovia-Aguas, Sergio Jim\'enez, Anders Jonsson(参考訳) ヒューリスティックな探索としての計画は古典的計画において最も成功した手法の1つであるが、残念ながら一般計画(GP)にはさほど及ばない。 GPは、オブジェクトの数、状態変数の数、ドメインサイズ、初期および目標設定が異なる場合でも、与えられたドメインから古典的な計画インスタンスの集合に有効なアルゴリズム的なソリューションを計算することを目的としている。 GPの一般化要件は、通常、ヒューリスティックプランナーによって実装される状態空間探索の実行を非現実的にする。 本稿では,GPの一般化要件にヒューリスティック検索パラダイムとしての計画を適用し,GPに対する最初のネイティブなヒューリスティック検索手法を提案する。 まず,gp問題における古典的な計画インスタンスの数や,それらのインスタンスのサイズ(オブジェクト数,状態変数,ドメインサイズなど)に依存しない,gpのための新しいポインタベースの解空間を提案する。 第二に,新しいgp解空間における組合せ探索を導くための評価関数とヒューリスティック関数の集合を定義する。 これらの評価とヒューリスティック関数の計算は、事前に基底状態やアクションを必要としない。 したがって、ヒューリスティックな探索手法としてのGPは、例えば–integersのような大きな数値領域を持つ大きな状態変数の集合を処理できる。 最後に,BFGP(Best-First Generalized Planning)と呼ばれるGPの新しいアルゴリズムのアップグレード版を定義し,GPに対する評価・ヒューリスティック関数によって導かれるポインタベースの解空間におけるベストファースト探索を実装した。

Planning as heuristic search is one of the most successful approaches to classical planning but unfortunately, it does not extend trivially to Generalized Planning (GP). GP aims to compute algorithmic solutions that are valid for a set of classical planning instances from a given domain, even if these instances differ in the number of objects, the number of state variables, their domain size, or their initial and goal configuration. The generalization requirements of GP make it impractical to perform the state-space search that is usually implemented by heuristic planners. This paper adapts the planning as heuristic search paradigm to the generalization requirements of GP, and presents the first native heuristic search approach to GP. First, the paper introduces a new pointer-based solution space for GP that is independent of the number of classical planning instances in a GP problem and the size of those instances (i.e. the number of objects, state variables and their domain sizes). Second, the paper defines a set of evaluation and heuristic functions for guiding a combinatorial search in our new GP solution space. The computation of these evaluation and heuristic functions does not require grounding states or actions in advance. Therefore our GP as heuristic search approach can handle large sets of state variables with large numerical domains, e.g.~integers. Lastly, the paper defines an upgraded version of our novel algorithm for GP called Best-First Generalized Planning (BFGP), that implements a best-first search in our pointer-based solution space, and that is guided by our evaluation/heuristic functions for GP.
翻訳日:2023-01-27 13:42:54 公開日:2023-01-26
# 分類に基づく計量学習モデルにおけるクラス階層の検査

Inspecting class hierarchies in classification-based metric learning models ( http://arxiv.org/abs/2301.11065v1 )

ライセンス: Link先を確認
Hyeongji Kim, Pekka Parviainen, Terje Berge and Ketil Malde(参考訳) ほとんどの分類モデルは全ての誤分類を等しく扱う。 しかし、異なるクラスは関連しており、これらの階層的関係はいくつかの分類問題において考慮されなければならない。 これらの問題は、トレーニング中に階層情報を使用することで対処できる。 残念ながら、この情報はすべてのデータセットで利用できない。 多くの分類に基づく計量学習法は、異なるクラスを表現するために埋め込み空間におけるクラス代表を用いる。 学習したクラスの代表者間の関係は、クラス階層構造の推定に使用できる。 事前に定義されたクラス階層がある場合、学習したクラス代表者は、メトリック学習モデルが以前の知識と一致する意味的距離を学習したかどうかを判断することができる。 本研究では,ベンチマークと実世界のデータセットで,ソフトマックス分類器と3つのメトリック学習モデルを訓練する。 標準分類精度に加えて,学習したクラスの代表者や階層的インフォームドのパフォーマンス,すなわち分類性能や計量学習性能を事前に定義された階層構造を考慮し,階層的推論性能を評価する。 さらに,様々なモデルやトレーニングの選択肢によって,検討対象がどう影響を受けるかを検討する。 提案するProxyDRモデルは,事前定義された階層構造を使わずにトレーニングされる場合,階層推論性能は人気のあるNormFaceモデルよりも大幅に向上する。 さらに,本モデルでは,同一のトレーニングオプション下での階層的インフォームドパフォーマンス対策も強化する。 また,ランダム重み付き畳み込みニューラルネットワーク(cnns)は,ランダム確率よりも事前定義された階層に対応することが分かった。

Most classification models treat all misclassifications equally. However, different classes may be related, and these hierarchical relationships must be considered in some classification problems. These problems can be addressed by using hierarchical information during training. Unfortunately, this information is not available for all datasets. Many classification-based metric learning methods use class representatives in embedding space to represent different classes. The relationships among the learned class representatives can then be used to estimate class hierarchical structures. If we have a predefined class hierarchy, the learned class representatives can be assessed to determine whether the metric learning model learned semantic distances that match our prior knowledge. In this work, we train a softmax classifier and three metric learning models with several training options on benchmark and real-world datasets. In addition to the standard classification accuracy, we evaluate the hierarchical inference performance by inspecting learned class representatives and the hierarchy-informed performance, i.e., the classification performance, and the metric learning performance by considering predefined hierarchical structures. Furthermore, we investigate how the considered measures are affected by various models and training options. When our proposed ProxyDR model is trained without using predefined hierarchical structures, the hierarchical inference performance is significantly better than that of the popular NormFace model. Additionally, our model enhances some hierarchy-informed performance measures under the same training options. We also found that convolutional neural networks (CNNs) with random weights correspond to the predefined hierarchies better than random chance.
翻訳日:2023-01-27 13:42:27 公開日:2023-01-26
# rewarded meta-pruning: チャネルpruningのための報酬付きメタ学習

Rewarded meta-pruning: Meta Learning with Rewards for Channel Pruning ( http://arxiv.org/abs/2301.11063v1 )

ライセンス: Link先を確認
Athul Shibu, Abhishek Kumar, Heechul Jung, Dong-Gyu Lee(参考訳) 畳み込みニューラルネットワーク(CNN)は多数のパラメータを持ち、計算するハードウェアリソースが非常に大きいため、エッジデバイスはハイレベルネットワークの実行に苦労する。 本稿では,ディープラーニングモデルにおける計算効率向上のためのパラメータとFLOPの削減手法を提案する。 本稿では,ネットワークの精度と計算効率のトレードオフを制御するために,精度と効率係数を導入する。 提案する報酬メタプルーニングアルゴリズムは、報酬関数を用いて相互作用を制御することにより、最終モデルの近似パラメータに基づいて選択されたプルーニングモデルの重みを生成するネットワークを訓練する。 報酬関数は、最終的なプルーンドモデルのメトリクスをより制御することができる。 大規模な実験により,ResNet-50,MobileNetV1,MobileNetV2ネットワークにおける最先端手法よりも優れた性能を示した。

Convolutional Neural Networks (CNNs) have a large number of parameters and take significantly large hardware resources to compute, so edge devices struggle to run high-level networks. This paper proposes a novel method to reduce the parameters and FLOPs for computational efficiency in deep learning models. We introduce accuracy and efficiency coefficients to control the trade-off between the accuracy of the network and its computing efficiency. The proposed Rewarded meta-pruning algorithm trains a network to generate weights for a pruned model chosen based on the approximate parameters of the final model by controlling the interactions using a reward function. The reward function allows more control over the metrics of the final pruned model. Extensive experiments demonstrate superior performances of the proposed method over the state-of-the-art methods in pruning ResNet-50, MobileNetV1, and MobileNetV2 networks.
翻訳日:2023-01-27 13:42:05 公開日:2023-01-26
# 鉄道信号の信頼できる検出のための等角予測

Conformal Prediction for Trustworthy Detection of Railway Signals ( http://arxiv.org/abs/2301.11136v1 )

ライセンス: Link先を確認
L\'eo And\'eol (IMT), Thomas Fel, Florence De Grancey, Luca Mossina(参考訳) 本稿では,鉄道信号の検出に対する不確実性定量化の一形態である共形予測の適用について述べる。 最先端アーキテクチャをテストし、最も有望なアーキテクチャは共形化のプロセスを実行し、予測された境界ボックス(すなわち、その高さと幅)に補正を適用して、あらかじめ定義された成功の確率に従う。 鉄道事業者の視点から撮影した画像の探索的データセットを,鉄道信号検出のための将来信頼性の高い機械学習モデルの構築と検証のための第一歩として活用する。

We present an application of conformal prediction, a form of uncertainty quantification with guarantees, to the detection of railway signals. State-of-the-art architectures are tested and the most promising one undergoes the process of conformalization, where a correction is applied to the predicted bounding boxes (i.e. to their height and width) such that they comply with a predefined probability of success. We work with a novel exploratory dataset of images taken from the perspective of a train operator, as a first step to build and validate future trustworthy machine learning models for the detection of railway signals.
翻訳日:2023-01-27 13:36:12 公開日:2023-01-26
# FedHQL: 異種Q-Learningのフェデレーション

FedHQL: Federated Heterogeneous Q-Learning ( http://arxiv.org/abs/2301.11135v1 )

ライセンス: Link先を確認
Flint Xiaofeng Fan, Yining Ma, Zhongxiang Dai, Cheston Tan, Bryan Kian Hsiang Low, Roger Wattenhofer(参考訳) フェデレーション強化学習(federated reinforcement learning, fedrl)は、分散エージェントが互いに経験から学習し、生のトラジェクタを交換することなくパフォーマンスを改善することを奨励する。 既存のFedRLの研究は、全てのエージェントが均質であり、すべてのエージェントが同じポリシーパラメータ化(ネットワークアーキテクチャやトレーニング設定など)を共有する必要があると仮定している。 しかし、現実のアプリケーションでは、エージェントはアーキテクチャとパラメータに関してしばしば意見が一致しない。 均質性は実際には与えられないため、異種性およびbLack-box agEnts (FedRL-HALE) を用いたフェデレーション強化学習の問題設定を導入する。 本稿では,これらの課題に主に対処するFederated Heterogeneous Q-Learning(FedHQL)アルゴリズムを提案する。 我々は、標準RLタスクを用いたポリシーパラメータ化の異なる異種エージェントのサンプル効率を高めるためのFedHQLの有効性を実証的に実証した。

Federated Reinforcement Learning (FedRL) encourages distributed agents to learn collectively from each other's experience to improve their performance without exchanging their raw trajectories. The existing work on FedRL assumes that all participating agents are homogeneous, which requires all agents to share the same policy parameterization (e.g., network architectures and training configurations). However, in real-world applications, agents are often in disagreement about the architecture and the parameters, possibly also because of disparate computational budgets. Because homogeneity is not given in practice, we introduce the problem setting of Federated Reinforcement Learning with Heterogeneous And bLack-box agEnts (FedRL-HALE). We present the unique challenges this new setting poses and propose the Federated Heterogeneous Q-Learning (FedHQL) algorithm that principally addresses these challenges. We empirically demonstrate the efficacy of FedHQL in boosting the sample efficiency of heterogeneous agents with distinct policy parameterization using standard RL tasks.
翻訳日:2023-01-27 13:35:53 公開日:2023-01-26
# 有限不規則スピン鎖におけるギャップ比のサンプル-サンプル間揺らぎのモデル化

Modelling sample-to-sample fluctuations of the gap ratio in finite disordered spin chains ( http://arxiv.org/abs/2301.11132v1 )

ライセンス: Link先を確認
Bartosz Krajewski, Marcin Mierzejewski, Janez Bon\v{c}a(参考訳) 有限個のスピン鎖のエネルギースペクトルにおけるギャップ比のサンプル-サンプル間変動について検討した。 鎖はランダム場イジングモデルとハイゼンベルクモデルによって記述される。 エルゴディック/ノルナーゴディックの交叉から離れて、揺らぎはRosenzweig-Porter(RP)モデルによって正確に捉えられることを示す。 しかし, 微視的モデルのゆらぎは, 交叉近傍のRPモデルのゆらぎを大きく上回った。 RPモデルの拡張を導入することで、エルゴード系と非エルゴード系の全ての状態、すなわちそれらの間の交叉において、ゆらぎを正しく再現できることが示される。 最後に,2つの顕微鏡モデルを用いて試料対サンプルのゆらぎを低減する方法を示す。

We study sample-to-sample fluctuations of the gap ratio in the energy spectra in finite disordered spin chains. The chains are described by the random-field Ising model and the Heisenberg model. We show that away from the ergodic/nonergodic crossover, the fluctuations are correctly captured by the Rosenzweig-Porter (RP) model. However, fluctuations in the microscopic models significantly exceed those in the RP model in the vicinity of the crossover. We show that upon introducing an extension to the RP model, one correctly reproduces the fluctuations in all regimes, i.e., in the ergodic and nonergodic regimes as well as at the crossover between them. Finally, we demonstrate how to reduce the sample-to-sample fluctuations in both studied microscopic models.
翻訳日:2023-01-27 13:35:24 公開日:2023-01-26
# Civil Comments データセットにおける有害コメント分類のベンチマーク

A benchmark for toxic comment classification on Civil Comments dataset ( http://arxiv.org/abs/2301.11125v1 )

ライセンス: Link先を確認
Corentin Duchene, Henri Jamet, Pierre Guillaume, Reda Dehak(参考訳) ソーシャルメディア上での有害コメント検出は、コンテンツモデレーションに不可欠であることが証明されている。 本稿では,高度に歪んだマルチラベルヘイトスピーチデータセットにおいて,多種多様なモデルを比較する。 比較では、推論時間といくつかのメトリクスを使ってパフォーマンスとバイアスを測定します。 すべてのbertは、モデル事前トレーニングに使用されるサイズ、最適化、言語に関係なく、同様のパフォーマンスを示す。 rnn は bert よりも推論がはるかに高速である。 BiLSTMは、パフォーマンスと推論時間の間の良い妥協点である。 Focal LossのRoBERTaはバイアスとAUROCで最高のパフォーマンスを提供する。 しかし、DistilBERTは良いAUROCと低い推論時間を組み合わせたものである。 すべてのモデルは、関連付けられたアイデンティティのバイアスによって影響を受ける。 BERT、RNN、XLNetはCNNやCompact Convolutional Transformerよりも感度が低い。

Toxic comment detection on social media has proven to be essential for content moderation. This paper compares a wide set of different models on a highly skewed multi-label hate speech dataset. We consider inference time and several metrics to measure performance and bias in our comparison. We show that all BERTs have similar performance regardless of the size, optimizations or language used to pre-train the models. RNNs are much faster at inference than any of the BERT. BiLSTM remains a good compromise between performance and inference time. RoBERTa with Focal Loss offers the best performance on biases and AUROC. However, DistilBERT combines both good AUROC and a low inference time. All models are affected by the bias of associating identities. BERT, RNN, and XLNet are less sensitive than the CNN and Compact Convolutional Transformers.
翻訳日:2023-01-27 13:35:05 公開日:2023-01-26
# ランダムスパース植込みベクトル問題に対するSQ下界

SQ Lower Bounds for Random Sparse Planted Vector Problem ( http://arxiv.org/abs/2301.11124v1 )

ライセンス: Link先を確認
Jingqiu Ding, Yiding Hua(参考訳) 例えば、$\rho$-sparse Rademacherベクトルが$R^n$のランダムな$d$-次元部分空間に植え付けられるような設定を考える。 古典的な疑問は、この部分空間においてランダムな基底を与えられたこの植込みベクトルの回復方法である。 ZSWB21] による最近の結果は,$n\geq d+1$ のとき,格子基底還元アルゴリズムが植付ベクトルを復元できることを示した。 このアルゴリズムは逆多項式の雑音を許容するものではないが、$n\ll \rho^2 d^{2}$ [MW21] のときの低次多項式によって回復が達成できないことがこれまで示されていたため、驚くべきものである。 自然な疑問は、[MW21]の前の低次下界と一致する統計的クエリ(SQ)の下界を導出できるかどうかである。 このことは、SQの下界が格子ベースのアルゴリズムによって超えられることを暗示する; - 植込みベクトルが逆多項式のノイズ量によって摂動されるときの計算硬度を予測する。 本稿では、そのようなSQの下限を証明する。 特に、n\ll \rho^2 d^{2}$ と $\rho\gg \frac{1}{\sqrt{d}}$ の場合、より簡単な統計テスト問題を解決するには、vstatクエリの超多項数が必要である。 我々がSQ下界を導出した最も顕著な手法は、SQ下界と低次下界 [BBH+20, MW21] のほぼ同値関係である。

Consider the setting where a $\rho$-sparse Rademacher vector is planted in a random $d$-dimensional subspace of $R^n$. A classical question is how to recover this planted vector given a random basis in this subspace. A recent result by [ZSWB21] showed that the Lattice basis reduction algorithm can recover the planted vector when $n\geq d+1$. Although the algorithm is not expected to tolerate inverse polynomial amount of noise, it is surprising because it was previously shown that recovery cannot be achieved by low degree polynomials when $n\ll \rho^2 d^{2}$ [MW21]. A natural question is whether we can derive an Statistical Query (SQ) lower bound matching the previous low degree lower bound in [MW21]. This will - imply that the SQ lower bound can be surpassed by lattice based algorithms; - predict the computational hardness when the planted vector is perturbed by inverse polynomial amount of noise. In this paper, we prove such an SQ lower bound. In particular, we show that super-polynomial number of VSTAT queries is needed to solve the easier statistical testing problem when $n\ll \rho^2 d^{2}$ and $\rho\gg \frac{1}{\sqrt{d}}$. The most notable technique we used to derive the SQ lower bound is the almost equivalence relationship between SQ lower bound and low degree lower bound [BBH+20, MW21].
翻訳日:2023-01-27 13:34:50 公開日:2023-01-26
# 単一観測値を用いた部分的および完全量子ビット推定:最適化と量子シミュレーション

Partial and complete qubit estimation using a single observable: optimization and quantum simulation ( http://arxiv.org/abs/2301.11121v1 )

ライセンス: Link先を確認
Cristian A. Galvis Florez, J. Mart\'inez-Cifuentes, K. M. Fonseca-Romero(参考訳) 量子状態推定は多くの量子情報プロトコルの重要なタスクである。 1つのパラメータと2つのパラメータを持つ2つのユニタリ進化作用素の2つのファミリーを考察し、それぞれ1つのスピン成分と全てのスピン成分を2レベル量子系の推定を可能にする。 トモグラフィ性能を評価するために,フィッシャー情報行列の逆行列のトレースのすべての純状態の平均値として計算される量子トモグラフィ伝達関数 (qttf) を用いる。 我々の目標は、両方の推定モデルに対してqTTFを最適化することである。 1パラメータモデルの最小qTTFは、対応するユニタリ作用素のエンタングルパワーがその最大値であるときに達成される。 モデルはIBMの量子処理ユニット上に実装され、単一スピン成分の推定は成功したが、スピン推定全体は関連する回路の深さによって比較的大きな誤差を示した。 この問題に対処するため、IBM量子処理ユニット上で動作する際の量子ビット状態トモグラフィーを改善するスケーラブルな回路設計を提案する。

Quantum state estimation is an important task of many quantum information protocols. We consider two families of unitary evolution operators, one with a one-parameter and the other with a two-parameter, which enable the estimation of a single spin component and all spin components, respectively, of a two-level quantum system. To evaluate the tomographic performance, we use the quantum tomographic transfer function (qTTF), which is calculated as the average over all pure states of the trace of the inverse of the Fisher information matrix. Our goal is to optimize the qTTF for both estimation models. We find that the minimum qTTF for the one-parameter model is achieved when the entangling power of the corresponding unitary operator is at its maximum. The models were implemented on an IBM quantum processing unit, and while the estimation of a single-spin component was successful, the whole spin estimation displayed relatively large errors due to the depth of the associated circuit. To address this issue, we propose a new scalable circuit design that improves qubit state tomography when run on an IBM quantum processing unit.
翻訳日:2023-01-27 13:34:19 公開日:2023-01-26
# box$^2$el: 記述論理el++のための概念とロールボックス埋め込み

Box$^2$EL: Concept and Role Box Embeddings for the Description Logic EL++ ( http://arxiv.org/abs/2301.11118v1 )

ライセンス: Link先を確認
Mathias Jackermeier, Jiaoyan Chen, Ian Horrocks(参考訳) セマンティック埋め込みの形での表現学習は、自然言語処理や知識グラフにおける様々なタスクにうまく適用されてきた。 近年,全オントロジの埋め込みを学習する同様の手法の開発への関心が高まっている。 記述論理el++におけるオントロジー表現の新たな手法であるbox$^2$elを提案し,概念と役割の両方をボックスとして表現し,オントロジーの論理構造を保存した。 理論上はモデルの健全性を実証し, 推定, リンク予測, 帰納的推論において最先端の結果が得られるような, 広範な経験的評価を行う。 評価の一環として,原子概念と複素概念の両方を含む仮定を予測するため,EL++埋め込みモデルを評価するための新しいベンチマークを提案する。

Representation learning in the form of semantic embeddings has been successfully applied to a variety of tasks in natural language processing and knowledge graphs. Recently, there has been growing interest in developing similar methods for learning embeddings of entire ontologies. We propose Box$^2$EL, a novel method for representation learning of ontologies in the Description Logic EL++, which represents both concepts and roles as boxes (i.e. axis-aligned hyperrectangles), such that the logical structure of the ontology is preserved. We theoretically prove the soundness of our model and conduct an extensive empirical evaluation, in which we achieve state-of-the-art results in subsumption prediction, link prediction, and deductive reasoning. As part of our evaluation, we introduce a novel benchmark for evaluating EL++ embedding models on predicting subsumptions involving both atomic and complex concepts.
翻訳日:2023-01-27 13:34:00 公開日:2023-01-26
# CLIPに基づく画像間知識伝達のための時間モデルの再検討

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring ( http://arxiv.org/abs/2301.11116v1 )

ライセンス: Link先を確認
Ruyang Liu and Jingjia Huang and Ge Li and Jiashi Feng and Xinglong Wu and Thomas H. Li(参考訳) 画像テキストプリトレーニングモデル、例えばクリップは、大規模な画像テキストデータペアから学んだ印象的な一般的なマルチモーダル知識を示しており、ビデオ領域での視覚的表現学習を改善する可能性に注目を集めている。 本稿では、CLIPモデルに基づいて、画像から映像への知識伝達の文脈における時間的モデリングを再考する。 現在の時間的モデリングメカニズムは、高レベルなセマンティック支配タスク(例えば、検索)または低レベルな視覚パターン支配タスク(例えば、認識)に適合し、2つのケースで同時に機能しない。 重要な課題は、CLIPモデルにおける高レベルと低レベルの両方の知識を活用しながら、時間的依存をモデル化することである。 この問題に対処するために,CLIPモデルを多様なビデオタスクに拡張するシンプルで効果的な時間的モデリング機構である空間時間補助ネットワーク(STAN)を提案する。 具体的には、低レベルの知識伝達と高レベルの知識伝達の両方を実現するために、STANは、空間時間モジュールを分解した分岐構造を採用する。 本手法は,ビデオテキスト検索とビデオ認識の2つの代表的な課題について評価する。 広範な実験により,msr-vtt,didemo,lsmdc,msvd,kinetics-400,thing-something-v2など,さまざまなデータセットにおける最先端手法よりも優れたモデルが得られた。 コードはhttps://github.com/farewell Three/STANで入手できる。

Image-text pretrained models, e.g., CLIP, have shown impressive general multi-modal knowledge learned from large-scale image-text data pairs, thus attracting increasing attention for their potential to improve visual representation learning in the video domain. In this paper, based on the CLIP model, we revisit temporal modeling in the context of image-to-video knowledge transferring, which is the key point for extending image-text pretrained models to the video domain. We find that current temporal modeling mechanisms are tailored to either high-level semantic-dominant tasks (e.g., retrieval) or low-level visual pattern-dominant tasks (e.g., recognition), and fail to work on the two cases simultaneously. The key difficulty lies in modeling temporal dependency while taking advantage of both high-level and low-level knowledge in CLIP model. To tackle this problem, we present Spatial-Temporal Auxiliary Network (STAN) -- a simple and effective temporal modeling mechanism extending CLIP model to diverse video tasks. Specifically, to realize both low-level and high-level knowledge transferring, STAN adopts a branch structure with decomposed spatial-temporal modules that enable multi-level CLIP features to be spatial-temporally contextualized. We evaluate our method on two representative video tasks: Video-Text Retrieval and Video Recognition. Extensive experiments demonstrate the superiority of our model over the state-of-the-art methods on various datasets, including MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400, and Something-Something-V2. Codes will be available at https://github.com/farewellthree/STAN
翻訳日:2023-01-27 13:33:46 公開日:2023-01-26
# ロバスト最適化による反事実的説明領域の探索

Finding Regions of Counterfactual Explanations via Robust Optimization ( http://arxiv.org/abs/2301.11113v1 )

ライセンス: Link先を確認
Donato Maragno, Jannis Kurtz, Tabea E. R\"ober, Rob Goedhart, \c{S}. Ilker Birbil, Dick den Hertog(参考訳) 反事実的説明は、バイアスの検出とデータ駆動分類モデルの説明可能性の改善において重要な役割を果たす。 反事実的説明(CE)は、モデルの決定が変化する最小の摂動データポイントである。 既存のメソッドのほとんどは1つのCEしか提供できないが、ユーザにとっては達成できないかもしれない。 本研究では,特徴がわずかに乱れた後も有効であるような頑健なCEを反復的に計算する手法を導出する。 この目的のために,提案手法はCEの全体領域を提供し,ユーザが適切なレコースを選択して望ましい結果を得ることを可能にする。 我々はロバスト最適化からのアルゴリズム的アイデアを用いて,ロジスティック回帰,決定木,ランダムフォレスト,ニューラルネットワークなど,最も一般的な機械学習手法における収束結果を証明する。 提案手法は,様々な共通データセットや分類モデルに対して,大域的に最適なロバストCEを効率的に生成できることを示す。

Counterfactual explanations play an important role in detecting bias and improving the explainability of data-driven classification models. A counterfactual explanation (CE) is a minimal perturbed data point for which the decision of the model changes. Most of the existing methods can only provide one CE, which may not be achievable for the user. In this work we derive an iterative method to calculate robust CEs, i.e. CEs that remain valid even after the features are slightly perturbed. To this end, our method provides a whole region of CEs allowing the user to choose a suitable recourse to obtain a desired outcome. We use algorithmic ideas from robust optimization and prove convergence results for the most common machine learning methods including logistic regression, decision trees, random forests, and neural networks. Our experiments show that our method can efficiently generate globally optimal robust CEs for a variety of common data sets and classification models.
翻訳日:2023-01-27 13:33:12 公開日:2023-01-26
# uHelp: 相互支援コミュニティのための知的ボランティア検索

uHelp: intelligent volunteer search for mutual help communities ( http://arxiv.org/abs/2301.11112v1 )

ライセンス: Link先を確認
Nardine Osman and Bruno Rosell and Carles Sierra and Marco Schorlemmer and Jordi Sabater-Mir and Lissette Lemus(参考訳) 日々の活動で助けが必要なときは、家族や友人、近所の人に頼る。 しかし、ますますネットワーク化された世界にもかかわらず、テクノロジーは適切なボランティアを見つけるには不十分だ。 そこで本稿では,ソーシャル・ネットワークにおいて,支援者やコミュニティ・メンバのコミュニティ構築を支援するプラットフォームであるuhelpを提案する。 最近、ヘルプインやfacebookのコミュニティヘルプなど、ボランティアを見つけることに焦点を当てたアプリケーションが登場し始めた。 しかし、uhelpと既存のアプリケーションとの違いは、信頼に基づくボランティアのインテリジェント検索だ。 信頼はこれらの革新的な社会アプリケーションにとって不可欠であるが、uhelpのような信頼構築ソリューションを真に達成した者はいない。 uhelpのインテリジェントなボランティア探索は、(1)ソーシャルネットワークで適切な信頼度を求める新しい信頼ベースのフラッディングアルゴリズム、(2)類似した過去の経験から学ぶことによって仲間の信頼度を維持する新しい信頼モデル、(3)経験の類似性を評価する意味的類似性モデルなど、多くのai技術に基づいている。 この記事では、uHelpアプリケーションを紹介し、uHelpが信頼できるボランティアを効率的に見つけることができる基盤となるAI技術を説明し、実装の詳細を説明します。 uHelpの最初のプロトタイプはバルセロナの独身の両親のコミュニティでテストされ、アプリはApple StoreとGoogle Playの両方でオンラインで入手できる。

When people need help with their day-to-day activities, they turn to family, friends or neighbours. But despite an increasingly networked world, technology falls short in finding suitable volunteers. In this paper, we propose uHelp, a platform for building a community of helpful people and supporting community members find the appropriate help within their social network. Lately, applications that focus on finding volunteers have started to appear, such as Helpin or Facebook's Community Help. However, what distinguishes uHelp from existing applications is its trust-based intelligent search for volunteers. Although trust is crucial to these innovative social applications, none of them have seriously achieved yet a trust-building solution such as that of uHelp. uHelp's intelligent search for volunteers is based on a number of AI technologies: (1) a novel trust-based flooding algorithm that navigates one's social network looking for appropriate trustworthy volunteers; (2) a novel trust model that maintains the trustworthiness of peers by learning from their similar past experiences; and (3) a semantic similarity model that assesses the similarity of experiences. This article presents the uHelp application, describes the underlying AI technologies that allow uHelp find trustworthy volunteers efficiently, and illustrates the implementation details. uHelp's initial prototype has been tested with a community of single parents in Barcelona, and the app is available online at both Apple Store and Google Play.
翻訳日:2023-01-27 13:32:57 公開日:2023-01-26
# エージェントにはどんな経験があるのか? ターンオーバードロップアウトによるポリシーイテレーション

Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout ( http://arxiv.org/abs/2301.11168v1 )

ライセンス: Link先を確認
Takuya Hiraoka, Takashi Onishi, Yoshimasa Tsuruoka(参考訳) 経験的再生を伴う強化学習(RL)では、リプレイバッファに格納された経験がRLエージェントのパフォーマンスに影響を与える。 影響に関する情報は、経験の浄化や分析など、さまざまな目的に有用である。 個人体験の影響を推定する1つの方法はエージェント比較であるが、多数の経験がある場合、極めて高価である。 本稿では,経験の影響を効率的に推定する手法としてPI+ToDを提案する。 PI+ToDは、ターンオーバードロップアウトを利用して、経験の影響を効率的に見積もるポリシーイテレーションである。 我々は,mujoco環境における実験により,pi+todの効率を示す。

In reinforcement learning (RL) with experience replay, experiences stored in a replay buffer influence the RL agent's performance. Information about the influence is valuable for various purposes, including experience cleansing and analysis. One method for estimating the influence of individual experiences is agent comparison, but it is prohibitively expensive when there is a large number of experiences. In this paper, we present PI+ToD as a method for efficiently estimating the influence of experiences. PI+ToD is a policy iteration that efficiently estimates the influence of experiences by utilizing turn-over dropout. We demonstrate the efficiency of PI+ToD with experiments in MuJoCo environments.
翻訳日:2023-01-27 13:26:30 公開日:2023-01-26
# PDE逆問題解くニューラルネットワーク逆演算子

Neural Inverse Operators for Solving PDE Inverse Problems ( http://arxiv.org/abs/2301.11167v1 )

ライセンス: Link先を確認
Roberto Molinaro, Yunan Yang, Bj\"orn Engquist, Siddhartha Mishra(参考訳) PDEに対する逆問題の大規模なクラスは、作用素から関数への写像としてのみよく定義される。 既存のオペレータ学習フレームワークは関数を関数にマッピングし、データから逆マップを学習するために修正する必要がある。 本稿では,これらのPDE逆問題を解決するために,NIO(Neural Inverse Operators)と呼ばれる新しいアーキテクチャを提案する。 基礎となる数学的構造によって動機づけられたNIOは、作用素から関数への写像を近似するためのDeepONetsとFNOsの適切な構成に基づいている。 NIOがベースラインを著しく上回り、PDEの逆問題に対して堅牢かつ正確に解き、既存の直接最適化法やPDE制約最適化法よりも数桁高速であることを示すために、様々な実験を行った。

A large class of inverse problems for PDEs are only well-defined as mappings from operators to functions. Existing operator learning frameworks map functions to functions and need to be modified to learn inverse maps from data. We propose a novel architecture termed Neural Inverse Operators (NIOs) to solve these PDE inverse problems. Motivated by the underlying mathematical structure, NIO is based on a suitable composition of DeepONets and FNOs to approximate mappings from operators to functions. A variety of experiments are presented to demonstrate that NIOs significantly outperform baselines and solve PDE inverse problems robustly, accurately and are several orders of magnitude faster than existing direct and PDE-constrained optimization methods.
翻訳日:2023-01-27 13:26:21 公開日:2023-01-26
# グラフカラー化のための負のメッセージパス付きグラフニューラルネットワーク

A Graph Neural Network with Negative Message Passing for Graph Coloring ( http://arxiv.org/abs/2301.11164v1 )

ライセンス: Link先を確認
Xiangyu Wang, Xueming Yan, Yaochu Jin(参考訳) グラフニューラルネットワークは、推奨システムや薬物合成といった現実世界の多くの問題で見られるグラフ構造化データを扱う有望な能力のために、ここ数年で注目を集めている。 既存の研究は、グラフニューラルネットワークによるホモフィルス問題の解決に重点を置いているが、ヘテロフィル型問題にはほとんど注目されていない。 本稿では,グラフカラー化のためのグラフネットワークモデルを提案する。 従来のグラフネットワークとは違って,提案するグラフニューラルネットワークに負のメッセージパスを導入することで,グラフカラー化問題に対するより効果的な情報交換を実現する。 さらに,ノードの自己情報を考慮した新たな損失関数を提案し,学習プロセスを加速させる。 提案したグラフモデルと最先端の5つのアルゴリズムを10のグラフカラー問題と1つの実世界のアプリケーションで比較する実験を行った。 計算結果は,提案したグラフニューラルネットワークの有効性を示す。

Graph neural networks have received increased attention over the past years due to their promising ability to handle graph-structured data, which can be found in many real-world problems such as recommended systems and drug synthesis. Most existing research focuses on using graph neural networks to solve homophilous problems, but little attention has been paid to heterophily-type problems. In this paper, we propose a graph network model for graph coloring, which is a class of representative heterophilous problems. Different from the conventional graph networks, we introduce negative message passing into the proposed graph neural network for more effective information exchange in handling graph coloring problems. Moreover, a new loss function taking into account the self-information of the nodes is suggested to accelerate the learning process. Experimental studies are carried out to compare the proposed graph model with five state-of-the-art algorithms on ten publicly available graph coloring problems and one real-world application. Numerical results demonstrate the effectiveness of the proposed graph neural network.
翻訳日:2023-01-27 13:26:07 公開日:2023-01-26
# 単純複体に関する畳み込み学習

Convolutional Learning on Simplicial Complexes ( http://arxiv.org/abs/2301.11163v1 )

ライセンス: Link先を確認
Maosheng Yang and Elvin Isufi(参考訳) 本稿では, 単純複雑畳み込みニューラルネットワーク(SCCNN)を提案する。 共通面とコフェイスによる多面的簡素な隣接性に基づく畳み込みを独立に行い、単純化間結合をキャプチャし、最先端を一般化する。 単純領域とデータ空間の対称性を研究する際、置換と向きの同変が示され、そのような帰納バイアスが組み込まれている。 ホッジ理論に基づき、sccnnが異なる周波数でどのようにデータを制御しているかを理解するためにスペクトル解析を行い、顔と顔間の畳み込みが2つの直交データ空間で機能するかを示した。 最後に,SCCNNのドメイン変形に対する安定性について検討し,各種因子の影響について検討する。 実験の結果、単純な予測と軌道予測における高次畳み込みと単純結合の利点が示された。

We propose a simplicial complex convolutional neural network (SCCNN) to learn data representations on simplicial complexes. It performs convolutions based on the multi-hop simplicial adjacencies via common faces and cofaces independently and captures the inter-simplicial couplings, generalizing state-of-the-art. Upon studying symmetries of the simplicial domain and the data space, it is shown to be permutation and orientation equivariant, thus, incorporating such inductive biases. Based on the Hodge theory, we perform a spectral analysis to understand how SCCNNs regulate data in different frequencies, showing that the convolutions via faces and cofaces operate in two orthogonal data spaces. Lastly, we study the stability of SCCNNs to domain deformations and examine the effects of various factors. Empirical results show the benefits of higher-order convolutions and inter-simplicial couplings in simplex prediction and trajectory prediction.
翻訳日:2023-01-27 13:25:51 公開日:2023-01-26
# 最適化畳み込みニューラルネットワークを用いたマルウェア検出の新しい手法

New Approach to Malware Detection Using Optimized Convolutional Neural Network ( http://arxiv.org/abs/2301.11161v1 )

ライセンス: Link先を確認
Marwan Omar(参考訳) 近年、サイバー犯罪は数十億ドルの産業となっている。 ほとんどのサイバー犯罪/攻撃は、ある種のマルウェアをデプロイする。 あらゆる業界、あらゆる部門、あらゆる企業、さらには個人をターゲットにしたマルウェアは、ビジネス組織全体をオフラインにし、年間数十億ドルの経済的損害を与える能力を示している。 マルウェアの作者は、攻撃戦略や洗練度において絶えず進化し、検出が困難で、セキュリティコントロールを回避するためにかなり長い間背景に潜伏する可能性のあるマルウェアを開発している。 上記の主張を踏まえると、従来のマルウェア検出アプローチはもはや有効ではない。 その結果、ディープラーニングモデルがマルウェアの検出と分類の新たなトレンドになりつつある。 本稿では,高精度かつ効果的にマルウェアを検出する新しい畳み込み型ディープラーニングニューラルネットワークを提案する。 本論文は他の文献と異なり、まず畳み込みニューラルネットワークをスクラッチから開発し、まず性能モデルのベースラインを確立し、ベースラインモデルから改善モデルの探索と実装を行い、最後に最終モデルの性能を評価することにより、専門家データサイエンスアプローチを用いる。 ベースラインモデルは当初98%の精度を達成していたが、CNNモデルの深さを増大させた後、その精度は99.183に達し、CNNモデルの大半を上回った。 最後に、このCNNモデルの有効性をさらに強化するために、改良されたモデルを用いて、データセット内の新しいマルウェアサンプルの予測を行う。

Cyber-crimes have become a multi-billion-dollar industry in the recent years. Most cybercrimes/attacks involve deploying some type of malware. Malware that viciously targets every industry, every sector, every enterprise and even individuals has shown its capabilities to take entire business organizations offline and cause significant financial damage in billions of dollars annually. Malware authors are constantly evolving in their attack strategies and sophistication and are developing malware that is difficult to detect and can lay dormant in the background for quite some time in order to evade security controls. Given the above argument, Traditional approaches to malware detection are no longer effective. As a result, deep learning models have become an emerging trend to detect and classify malware. This paper proposes a new convolutional deep learning neural network to accurately and effectively detect malware with high precision. This paper is different than most other papers in the literature in that it uses an expert data science approach by developing a convolutional neural network from scratch to establish a baseline of the performance model first, explores and implements an improvement model from the baseline model, and finally it evaluates the performance of the final model. The baseline model initially achieves 98% accurate rate but after increasing the depth of the CNN model, its accuracy reaches 99.183 which outperforms most of the CNN models in the literature. Finally, to further solidify the effectiveness of this CNN model, we use the improved model to make predictions on new malware samples within our dataset.
翻訳日:2023-01-27 13:25:35 公開日:2023-01-26
# sentinel-2画像の高分解能化のためのマルチタイム・マルチスペクトルデータ融合

Multitemporal and multispectral data fusion for super-resolution of Sentinel-2 images ( http://arxiv.org/abs/2301.11154v1 )

ライセンス: Link先を確認
Tomasz Tarasiewicz, Jakub Nalepa, Reuben A. Farrugia, Gianluca Valentino, Mang Chen, Johann A. Briffa, Michal Kawulok(参考訳) マルチスペクトルセンチネル2画像は、地球観測データの貴重な情報源であるが、10m, 20m, 60mのスペクトル帯の空間分解能は、多くの場合不十分である。 この問題は、低分解能観測から高分解能画像の再構成を目的とした超高分解能で解決できる。 センチネル-2では、スペクトル情報の融合により20mと60mのバンドを10mの解像度に拡張できる。 また、個々のSentinel-2バンドのマルチテンポラルスタックを組み合わせる試みもあったが、これら2つのアプローチは今のところ組み合わせられていない。 本稿では,マルチスペクトルsentinel-2画像の超時間系列を超解くための深層ネットワークdeepsentを提案する。 スペクトル次元と時間次元を同時に行う情報融合を基盤とし、拡大した多スペクトル画像を生成する。 広範な実験により,本ソリューションは,多時間的あるいは多スペクトル的データ融合を実現する他の最先端技術よりも優れていることを実証した。 さらに,deepsentの利点は,これら2つの融合型が単一のアーキテクチャでどのように結合されるかにある。 さらに,本手法を実世界のセンチネル-2画像の超解像に適用し,全スペクトル帯の空間分解能を3.3mの地上サンプリング距離まで向上させ,高分解能ワールドビュー-2画像と比較した。 我々は,論文の受理により実装を公開し,超解像Sentinel-2イメージを現実のアプリケーションで活用する可能性を高めることを期待する。

Multispectral Sentinel-2 images are a valuable source of Earth observation data, however spatial resolution of their spectral bands limited to 10 m, 20 m, and 60 m ground sampling distance remains insufficient in many cases. This problem can be addressed with super-resolution, aimed at reconstructing a high-resolution image from a low-resolution observation. For Sentinel-2, spectral information fusion allows for enhancing the 20 m and 60 m bands to the 10 m resolution. Also, there were attempts to combine multitemporal stacks of individual Sentinel-2 bands, however these two approaches have not been combined so far. In this paper, we introduce DeepSent -- a new deep network for super-resolving multitemporal series of multispectral Sentinel-2 images. It is underpinned with information fusion performed simultaneously in the spectral and temporal dimensions to generate an enlarged multispectral image. In our extensive experimental study, we demonstrate that our solution outperforms other state-of-the-art techniques that realize either multitemporal or multispectral data fusion. Furthermore, we show that the advantage of DeepSent results from how these two fusion types are combined in a single architecture, which is superior to performing such fusion in a sequential manner. Importantly, we have applied our method to super-resolve real-world Sentinel-2 images, enhancing the spatial resolution of all the spectral bands to 3.3 m nominal ground sampling distance, and we compare the outcome with very high-resolution WorldView-2 images. We will publish our implementation upon paper acceptance, and we expect it will increase the possibilities of exploiting super-resolved Sentinel-2 images in real-life applications.
翻訳日:2023-01-27 13:25:11 公開日:2023-01-26
# マルチエージェント強化学習における複数の独立アドバイザからの学習

Learning from Multiple Independent Advisors in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2301.11153v1 )

ライセンス: Link先を確認
Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson and Mark Crowley(参考訳) マルチエージェント強化学習は通常、サンプルの非効率性の問題に悩まされる。 外部のデモンストレータから学ぶことは、この問題を緩和する可能性のある解決策である。 しかし、この領域の最も古いアプローチは、単一のデモレーターの存在を前提としている。 複数の知識ソース(アドバイザ)を環境の異なる側面で専門知識で活用することで、複雑な環境における学習を大幅に高速化することができる。 本稿では,マルチエージェント強化学習において,複数のアドバイザから同時に学習する問題を考える。 このアプローチは2レベルqラーニングアーキテクチャを活用し、このフレームワークをシングルエージェントからマルチエージェント設定に拡張する。 各州のアドバイザーを評価し、その後にアドバイザを使用してアクション選択を導くことによって、アドバイザのセットを組み込んだ原則付きアルゴリズムを提供する。 理論的な収束とサンプル複雑性の保証も提供する。 実験では、3つの異なるテストベッドでアプローチを検証し、我々のアルゴリズムがベースラインよりも優れたパフォーマンスを提供し、異なるアドバイザーの専門知識を効果的に統合し、悪いアドバイスを無視することを学びます。

Multi-agent reinforcement learning typically suffers from the problem of sample inefficiency, where learning suitable policies involves the use of many data samples. Learning from external demonstrators is a possible solution that mitigates this problem. However, most prior approaches in this area assume the presence of a single demonstrator. Leveraging multiple knowledge sources (i.e., advisors) with expertise in distinct aspects of the environment could substantially speed up learning in complex environments. This paper considers the problem of simultaneously learning from multiple independent advisors in multi-agent reinforcement learning. The approach leverages a two-level Q-learning architecture, and extends this framework from single-agent to multi-agent settings. We provide principled algorithms that incorporate a set of advisors by both evaluating the advisors at each state and subsequently using the advisors to guide action selection. We also provide theoretical convergence and sample complexity guarantees. Experimentally, we validate our approach in three different test-beds and show that our algorithms give better performances than baselines, can effectively integrate the combined expertise of different advisors, and learn to ignore bad advice.
翻訳日:2023-01-27 13:24:42 公開日:2023-01-26
# トレーニングし、簡単に戦う - 堅牢なメタ強化学習

Train Hard, Fight Easy: Robust Meta Reinforcement Learning ( http://arxiv.org/abs/2301.11147v1 )

ライセンス: Link先を確認
Ido Greenberg, Shie Mannor, Gal Chechik, Eli Meirom(参考訳) 実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。 Meta-RL(MRL)は新しいタスクに適応するメタ政治を学ぶことでこの問題に対処する。 標準的なmrl法は平均的なタスクのリターンを最適化するが、リスクや難易度の高いタスクの成績が悪いことが多い。 これにより、テストタスクが事前に分かっていない場合、システムの信頼性が制限される。 本研究では,頑健度を制御したMRL目標を提案する。 RLにおける類似の頑健な目的の最適化はしばしばバイアス勾配とデータ非効率の両方をもたらす。 MRLでは, 前者は消滅し, 後者はロバストメタRLアルゴリズム(RoML)を用いて処理する。 RoMLはメタアルゴリズムであり、トレーニングを通じて難しいタスクを特定し、オーバーサンプリングすることで、任意のMRLアルゴリズムの堅牢なバージョンを生成する。 複数のナビゲーションおよび連続制御ベンチマークにおいて,RoMLがほぼ異なるメタポリティシを学習し,堅牢なリターンを達成することを示す。

A major challenge of reinforcement learning (RL) in real-world applications is the variation between environments, tasks or clients. Meta-RL (MRL) addresses this issue by learning a meta-policy that adapts to new tasks. Standard MRL methods optimize the average return over tasks, but often suffer from poor results in tasks of high risk or difficulty. This limits system reliability whenever test tasks are not known in advance. In this work, we propose a robust MRL objective with a controlled robustness level. Optimization of analogous robust objectives in RL often leads to both biased gradients and data inefficiency. We prove that the former disappears in MRL, and address the latter via the novel Robust Meta RL algorithm (RoML). RoML is a meta-algorithm that generates a robust version of any given MRL algorithm, by identifying and over-sampling harder tasks throughout training. We demonstrate that RoML learns substantially different meta-policies and achieves robust returns on several navigation and continuous control benchmarks.
翻訳日:2023-01-27 13:24:25 公開日:2023-01-26
# 集中治療後感染の2段階解釈モデル

Two-step interpretable modeling of Intensive Care Acquired Infections ( http://arxiv.org/abs/2301.11146v1 )

ライセンス: Link先を確認
Giacomo Lancia, Meri Varkila, Olaf Cremer, Cristian Spitoni(参考訳) 本稿では,高解像度長手データと生存モデルの動的予測機能を統合する新しい手法を提案する。 目標は2つある:モデルの解釈可能性を維持しながら予測力を向上させること。 ニューラルネットワークのブラックボックスパラダイムを超越するために,高分解能の時間依存情報に基づいて学習された畳み込みニューラルネットワークから抽出された予測特徴と,日常的に収集される低解像度データを組み合わせた,強固な半パラメトリックアプローチ(すなわち,ランドマーク型競合リスクモデル)を提案する。 次に、このモデルの余分な予測力を分析し説明するために、塩分マップを使用します。 本手法を説明するために,集中治療室に入院した患者の医療関連感染症に焦点を当てた。

We present a novel methodology for integrating high resolution longitudinal data with the dynamic prediction capabilities of survival models. The aim is two-fold: to improve the predictive power while maintaining interpretability of the models. To go beyond the black box paradigm of artificial neural networks, we propose a parsimonious and robust semi-parametric approach (i.e., a landmarking competing risks model) that combines routinely collected low-resolution data with predictive features extracted from a convolutional neural network, that was trained on high resolution time-dependent information. We then use saliency maps to analyze and explain the extra predictive power of this model. To illustrate our methodology, we focus on healthcare-associated infections in patients admitted to an intensive care unit.
翻訳日:2023-01-27 13:24:13 公開日:2023-01-26
# 誤解から学ぶ:ポイントクラウドセグメンテーションにおける自己規則化階層的セマンティック表現

Learning from Mistakes: Self-Regularizing Hierarchical Semantic Representations in Point Cloud Segmentation ( http://arxiv.org/abs/2301.11145v1 )

ライセンス: Link先を確認
Elena Camuffo, Umberto Michieli, Simone Milani(参考訳) 自律ロボット技術の最近の進歩は、正確な環境分析の必要性の高まりを浮き彫りにした。 lidarのセマンティクスセグメンテーションは、センサーが提供する生のコンテンツに直接作用することで、きめ細かなシーン理解を達成するために注目されている。 最近のソリューションでは、アーキテクチャやデータセットの変更なしに、異なる学習テクニックを使ってモデルのパフォーマンスを改善する方法が示されています。 この傾向に続いて、標準モデルから派生した分類ミスタケ(LEAK)からLEArnを分離する粗大な設定を示す。 まず,クラスは相互予測誤差に従ってマクログループにクラスタ化され,学習プロセスは(1)細かなクラスと粗いクラスの両方に対して,クラス条件の原型的特徴表現を整列させ,(2)クラスごとの公平度指数を重み付けする。 私たちのLEAKアプローチは非常に一般的なもので,任意のセグメンテーションアーキテクチャ上でシームレスに適用可能です。実際に実験結果から,さまざまなアーキテクチャやデータセット,タスク上での最先端のパフォーマンスを実現すると同時に,よりバランスの取れたクラスワイドな結果とより高速な収束を実現しています。

Recent advances in autonomous robotic technologies have highlighted the growing need for precise environmental analysis. LiDAR semantic segmentation has gained attention to accomplish fine-grained scene understanding by acting directly on raw content provided by sensors. Recent solutions showed how different learning techniques can be used to improve the performance of the model, without any architectural or dataset change. Following this trend, we present a coarse-to-fine setup that LEArns from classification mistaKes (LEAK) derived from a standard model. First, classes are clustered into macro groups according to mutual prediction errors; then, the learning process is regularized by: (1) aligning class-conditional prototypical feature representation for both fine and coarse classes, (2) weighting instances with a per-class fairness index. Our LEAK approach is very general and can be seamlessly applied on top of any segmentation architecture; indeed, experimental results showed that it enables state-of-the-art performances on different architectures, datasets and tasks, while ensuring more balanced class-wise results and faster convergence.
翻訳日:2023-01-27 13:23:57 公開日:2023-01-26
# 二次割当て問題に対する(不完全)線形割当て問題に対する相対的相互解法と応用

Relative-Interior Solution for (Incomplete) Linear Assignment Problem with Applications to Quadratic Assignment Problem ( http://arxiv.org/abs/2301.11201v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Dlask and Bogdan Savchynskyy(参考訳) 本稿では,線形代入問題 (LAP) の線形計画法を最適化した最適解の集合について検討し,その集合の相対的内部から解を計算する方法を提案する。 任意の双対最適解と最適代入(多くの効率的なアルゴリズムがすでに存在する)が可能であると仮定すると、線形時間で相対的中間解を計算する。 LAPは2次代入問題(QAP)の線形プログラミング緩和のサブプロブレムとして発生するため、この手法はQAPの最適値のバウンダリを提供する2進アルゴリズムの族における新しい成分として用いられる。 また,本研究の結果を,実用上興味のある不完全QAPに適用するために,不完全LAPから完全LAPへの線形時間短縮と,相対内部における最適性とメンバシップを維持するマッピングも提供する。 私たちの公開ベンチマーク実験は、相対対話型ソリューションを用いたアプローチは、しばしば優れた境界を提供することができ、それ以外は少なくとも同等であることを示している。

We study the set of optimal solutions of the dual linear programming formulation of the linear assignment problem (LAP) to propose a method for computing a solution from the relative interior of this set. Assuming that an arbitrary dual-optimal solution and an optimal assignment are available (for which many efficient algorithms already exist), our method computes a relative-interior solution in linear time. Since LAP occurs as a subproblem in the linear programming relaxation of quadratic assignment problem (QAP), we employ our method as a new component in the family of dual-ascent algorithms that provide bounds on the optimal value of QAP. To make our results applicable to incomplete QAP, which is of interest in practical use-cases, we also provide a linear-time reduction from incomplete LAP to complete LAP along with a mapping that preserves optimality and membership in the relative interior. Our experiments on publicly available benchmarks indicate that our approach with relative-interior solution is frequently capable of providing superior bounds and otherwise is at least comparable.
翻訳日:2023-01-27 13:17:58 公開日:2023-01-26
# I-24 MOTION:高速道路交通科学のための機器

I-24 MOTION: An instrument for freeway traffic science ( http://arxiv.org/abs/2301.11198v1 )

ライセンス: Link先を確認
Derek Gloudemans, Yanbing Wang, Junyi Ji, Gergely Zachar, Will Barbour, Daniel B. Work(参考訳) 州間高速道路24号線技術州間高速道路観測ネットワーク (I-24 MOTION) はテネシー州ナッシュビルに近い交通科学の新しい手段である。 I-24 MoTION は約4.2マイルのI-24をシームレスにカバーする276個の極マウントの高解像度交通カメラと、頻繁に観測される渋滞を伴う4-5車線(全方向)の高速道路で構成されている。 カメラは、光ファイバーネットワークを介して、コンピュータビジョン技術を用いてビデオ画像から車両軌道を抽出する計算設備に接続される。 年間約2億3000万マイルの走行がI-24 MoTIONで行われている。 この機器の主な出力は、高速道路上の各車両の位置を含む車両軌跡データセットと、その他の補助的な情報車両の寸法とクラスである。 本稿では,楽器の設計と作成について述べるとともに,楽器から生成された最初の公開データセットについて述べる。 この記事で公開されたデータセットには、10日毎に少なくとも4時間の車両軌跡データが含まれている。 システムが成熟し続けるにつれて、すべての軌道データはi24motion.org/dataで公開される。

The Interstate-24 MObility Technology Interstate Observation Network (I-24 MOTION) is a new instrument for traffic science located near Nashville, Tennessee. I-24 MOTION consists of 276 pole-mounted high-resolution traffic cameras that provide seamless coverage of approximately 4.2 miles I-24, a 4-5 lane (each direction) freeway with frequently observed congestion. The cameras are connected via fiber optic network to a compute facility where vehicle trajectories are extracted from the video imagery using computer vision techniques. Approximately 230 million vehicle miles of travel occur within I-24 MOTION annually. The main output of the instrument are vehicle trajectory datasets that contain the position of each vehicle on the freeway, as well as other supplementary information vehicle dimensions and class. This article describes the design and creation of the instrument, and provides the first publicly available datasets generated from the instrument. The datasets published with this article contains at least 4 hours of vehicle trajectory data for each of 10 days. As the system continues to mature, all trajectory data will be made publicly available at i24motion.org/data.
翻訳日:2023-01-27 13:17:37 公開日:2023-01-26
# 自己と相互にエキサイティングな時系列から因果グラフの発見

Causal Graph Discovery from Self and Mutually Exciting Time Series ( http://arxiv.org/abs/2301.11197v1 )

ライセンス: Link先を確認
Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran(参考訳) 時系列から因果指向非巡回グラフ (DAG) を復元するために, 線形因果モデルと新しいデータ適応線形正則化を組み合わせた一般化線形因果モデルを提案する。 最近開発された確率的単調変分不等式(vi)の定式化を利用して,因果発見問題を一般凸最適化として位置づけた。 さらに,幅広い非線形モノトンリンク関数に対する信頼区間を確立するための線形プログラムを解いて,非漸近的回復保証と定量化可能不確実性を開発する。 実験の結果を検証し, 広範な数値実験により, 提案手法の競争力を示す。 最も重要なことは、セプシス関連乱れ (SAD) に対する高度に解釈可能な因果DAGの復元におけるアプローチの有効性を示すと同時に、XGBoost のような強力な `black-box' モデルに匹敵する予測性能を実現することである。 したがって, 今後, 高リスク患者を臨床医が継続的に監視する手法が採用される可能性が高い。

We present a generalized linear structural causal model, coupled with a novel data-adaptive linear regularization, to recover causal directed acyclic graphs (DAGs) from time series. By leveraging a recently developed stochastic monotone Variational Inequality (VI) formulation, we cast the causal discovery problem as a general convex optimization. Furthermore, we develop a non-asymptotic recovery guarantee and quantifiable uncertainty by solving a linear program to establish confidence intervals for a wide range of non-linear monotone link functions. We validate our theoretical results and show the competitive performance of our method via extensive numerical experiments. Most importantly, we demonstrate the effectiveness of our approach in recovering highly interpretable causal DAGs over Sepsis Associated Derangements (SADs) while achieving comparable prediction performance to powerful ``black-box'' models such as XGBoost. Thus, the future adoption of our proposed method to conduct continuous surveillance of high-risk patients by clinicians is much more likely.
翻訳日:2023-01-27 13:17:20 公開日:2023-01-26
# 局所近似モデルによるニューラル画像圧縮の統計的忠実度向上

Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models ( http://arxiv.org/abs/2301.11189v1 )

ライセンス: Link先を確認
Matthew J. Muckley, Alaaeldin El-Nouby, Karen Ullrich, Herv\'e J\'egou, Jakob Verbeek(参考訳) ロスシー画像圧縮は、オリジナルへの忠実さを維持しながら、可能な限り数ビットで画像を表現することを目的としている。 理論的には、PSNRやMS-SSIMなどの歪み測定値の最適化は、圧縮された画像のぼやけによってしばしば現れる、特に低ビットレートでの再構成画像と元の画像の統計に違いをもたらす。 以前の研究では、adversarial discriminatorsを利用して統計の忠実性を改善した。 しかし、生成的モデリングタスクから採用されているこれらのバイナリ判別器は、画像圧縮に理想的ではないかもしれない。 本稿では,VQ-VAEオートエンコーダを用いて得られた局所像の量子化を条件とした非バイナリ判別器を提案する。 CLIC2020,DIV2K,Kodakのデータセットによる評価から,我々の判別器は現状のHiFiCモデルよりも歪み(PSNRなど)と統計的忠実度(FIDなど)を共同最適化するのに有効であることが示された。 CLIC2020テストセットでは、30~40%ビット少ないHiFiCと同じFIDを得る。

Lossy image compression aims to represent images in as few bits as possible while maintaining fidelity to the original. Theoretical results indicate that optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a discrepancy in the statistics of original images from those of reconstructions, in particular at low bitrates, often manifested by the blurring of the compressed images. Previous work has leveraged adversarial discriminators to improve statistical fidelity. Yet these binary discriminators adopted from generative modeling tasks may not be ideal for image compression. In this paper, we introduce a non-binary discriminator that is conditioned on quantized local image representations obtained via VQ-VAE autoencoders. Our evaluations on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more effective for jointly optimizing distortion (e.g., PSNR) and statistical fidelity (e.g., FID) than the state-of-the-art HiFiC model. On the CLIC2020 test set, we obtain the same FID as HiFiC with 30-40% fewer bits.
翻訳日:2023-01-27 13:17:00 公開日:2023-01-26
# ピアスワイドアフィンシステムにおける予測のための平滑オンライン学習

Smoothed Online Learning for Prediction in Piecewise Affine Systems ( http://arxiv.org/abs/2301.11187v1 )

ライセンス: Link先を確認
Adam Block, Max Simchowitz, Russ Tedrake(参考訳) pwa(slitwise affine)の回帰と計画の問題は、オンライン学習、制御、ロボット工学の研究において基礎的な重要性があり、そこでは、力学の鋭い変化を受けるシステムを研究するための理論的かつ経験的な設定を提供する。 残念なことに、異なる「要素」に交差する際に生じる不連続のため、一般的な逐次的な学習は不可能であり、実用的なアルゴリズムはヒューリスティックなアプローチに頼らざるを得ない。 本稿では,最近開発された平滑化オンライン学習フレームワークをベースとし,弱平滑性仮定下で関連するすべての問題パラメータの多項式を後悔するpwaシステムにおいて,予測とシミュレーションのための最初のアルゴリズムを提供する。 さらに,シミュレーションデータと実データとの間のwasserstein距離から,学習者が軌道をシミュレーションし,後悔を計測する分節アフィン力学系において,一段階予測と多段階シミュレーションの後悔の問題にも適用する。 その過程で、より一般的な技術ツールを開発します。

The problem of piecewise affine (PWA) regression and planning is of foundational importance to the study of online learning, control, and robotics, where it provides a theoretically and empirically tractable setting to study systems undergoing sharp changes in the dynamics. Unfortunately, due to the discontinuities that arise when crossing into different ``pieces,'' learning in general sequential settings is impossible and practical algorithms are forced to resort to heuristic approaches. This paper builds on the recently developed smoothed online learning framework and provides the first algorithms for prediction and simulation in PWA systems whose regret is polynomial in all relevant problem parameters under a weak smoothness assumption; moreover, our algorithms are efficient in the number of calls to an optimization oracle. We further apply our results to the problems of one-step prediction and multi-step simulation regret in piecewise affine dynamical systems, where the learner is tasked with simulating trajectories and regret is measured in terms of the Wasserstein distance between simulated and true data. Along the way, we develop several technical tools of more general interest.
翻訳日:2023-01-27 13:16:38 公開日:2023-01-26
# 時間拡張探査のための深いラプラシアンに基づく選択肢

Deep Laplacian-based Options for Temporally-Extended Exploration ( http://arxiv.org/abs/2301.11181v1 )

ライセンス: Link先を確認
Martin Klissarov and Marlos C. Machado(参考訳) より良い学習のために豊富な経験の流れを生み出す探索行動を選択することは、強化学習(RL)における根本的な課題である。 この問題に取り組むアプローチは、特定のポリシーに従って、オプションとしても知られる長期にわたってアクションを選択することで成り立っている。 このような探索的オプションを導出するための最近の作業は、グラフラプラシアンの固有関数に基づいている。 重要なことに、これらの手法は、(1)グラフラプラシア行列が与えられたか、あるいは完全に推定できるような表付き領域に限られており、(2)この行列上で固有分解を行うことは、計算的に抽出可能であり、(3)値関数を正確に学習することができる。 さらに、これらのメソッドは別のオプション発見フェーズを必要とした。 これらの仮定は基本的にスケーラブルではない。 本稿では,ラプラシアンの固有関数を直接近似する最近の結果が,選択肢に基づく探索の真のスケールアップにどのように役立つかを示す。 そこで我々は,ラプラシアンベースの選択肢を発見するための完全オンラインディープRLアルゴリズムを導入し,様々なピクセルベースのタスクに対するアプローチを評価する。 我々は,いくつかの最先端探査手法と比較し,本手法が非定常環境で有効であり,特に有望であることを示す。

Selecting exploratory actions that generate a rich stream of experience for better learning is a fundamental challenge in reinforcement learning (RL). An approach to tackle this problem consists in selecting actions according to specific policies for an extended period of time, also known as options. A recent line of work to derive such exploratory options builds upon the eigenfunctions of the graph Laplacian. Importantly, until now these methods have been mostly limited to tabular domains where (1) the graph Laplacian matrix was either given or could be fully estimated, (2) performing eigendecomposition on this matrix was computationally tractable, and (3) value functions could be learned exactly. Additionally, these methods required a separate option discovery phase. These assumptions are fundamentally not scalable. In this paper we address these limitations and show how recent results for directly approximating the eigenfunctions of the Laplacian can be leveraged to truly scale up options-based exploration. To do so, we introduce a fully online deep RL algorithm for discovering Laplacian-based options and evaluate our approach on a variety of pixel-based tasks. We compare to several state-of-the-art exploration methods and show that our approach is effective, general, and especially promising in non-stationary settings.
翻訳日:2023-01-27 13:16:18 公開日:2023-01-26
# 3次元畳み込みニューラルネットワークにおける低ランクウィノグラード変換

Low-Rank Winograd Transformation for 3D Convolutional Neural Networks ( http://arxiv.org/abs/2301.11180v1 )

ライセンス: Link先を確認
Ziran Qin, Mingbao Lin, Weiyao Lin(参考訳) 本稿では,3次元畳み込みニューラルネットワーク(CNN)におけるWinograd変換について述べる。 過度に増加するウィノグラードパラメータは、トレーニングの複雑さを悪化させるだけでなく、ウィノグラードドメインの要素単位積の量によって、実際のスピードアップを妨げている。 低ランクなウィノグラード変換を導入することで、トレーニング可能なパラメータを減らそうとしている。これは、元の大きなテンソルを2つのより少ないストレージ要求のトレーニング可能なテンソルに分解する新しいトレーニングパラダイムで、複雑さを著しく減少させる。 低ランクなウィノグラード変換に基づいて、列のパラメータの重要性を測る低ランク指向のスパース粒度を提案する。 非零列を要素単位の積に含めるだけで、我々のスパース粒度は、実効的なウィノグラードスピードアップを得るために非常に規則的なスパースパターンを生成することができる。 本手法の有効性をよりよく理解するために,3次元cnnを用いた広範囲な実験を行った。 その結果、我々の低ランクなウィノグラード変換はバニラ・ウィノグラード変換よりも優れていた。 また,提案した低ランク配向スパース粒度は,バニラに比べて実用的なウィノグラード加速を可能にすることを示した。

This paper focuses on Winograd transformation in 3D convolutional neural networks (CNNs) that are more over-parameterized compared with the 2D version. The over-increasing Winograd parameters not only exacerbate training complexity but also barricade the practical speedups due simply to the volume of element-wise products in the Winograd domain. We attempt to reduce trainable parameters by introducing a low-rank Winograd transformation, a novel training paradigm that decouples the original large tensor into two less storage-required trainable tensors, leading to a significant complexity reduction. Built upon our low-rank Winograd transformation, we take one step ahead by proposing a low-rank oriented sparse granularity that measures column-wise parameter importance. By simply involving the non-zero columns in the element-wise product, our sparse granularity is empowered with the ability to produce a very regular sparse pattern to acquire effectual Winograd speedups. To better understand the efficacy of our method, we perform extensive experiments on 3D CNNs. Results manifest that our low-rank Winograd transformation well outperforms the vanilla Winograd transformation. We also show that our proposed low-rank oriented sparse granularity permits practical Winograd acceleration compared with the vanilla counterpart.
翻訳日:2023-01-27 13:15:57 公開日:2023-01-26
# quick$^3$ -- 宇宙における量子通信と拡張物理理論実験のための衛星ベースの量子光源の設計

QUICK$^3$ -- Design of a satellite-based quantum light source for quantum communication and extended physical theory tests in space ( http://arxiv.org/abs/2301.11177v1 )

ライセンス: Link先を確認
Najme Ahmadi, Sven Schwertfeger, Philipp Werner, Lukas Wiese, Joseph Lester, Elisa Da Ros, Josefine Krause, Sebastian Ritter, Mostafa Abasifard, Chanaprom Cholsuk, Ria G. Kr\"amer, Simone Atzeni, Mustafa G\"undo\u{g}an, Subash Sachidananda, Daniel Pardo, Stefan Nolte, Alexander Lohrmann, Alexander Ling, Julian Bartholom\"aus, Giacomo Corrielli, Markus Krutzik, Tobias Vogl(参考訳) 現代の量子技術は、例えば長距離量子通信のような宇宙アプリケーションで使用できるように成熟している。 本稿では,衛星ベースの量子鍵分布シナリオにおいて,従来のレーザ光源と比較してセキュアなデータレートを向上できるコンパクトな単一光子源の設計について述べる。 我々の量子光源は六方晶窒化ホウ素の蛍光色中心である。 エミッタはダイオードレーザーによってオフ共鳴励起され、集積フォトニックプロセッサに直接結合され、光子を直接チップ上で行う異なる実験に導かれる。 (i)単一光子源の特性及び特性 (ii)量子力学の基本的な仮定、すなわち確率密度と波動関数の関係(ボーンの法則として知られる)をテストすること。 このペイロードは現在3u cubesatに統合されており、2024年に低軌道に打ち上げられる予定である。 したがって、真の単一光子源と空間における再構成可能なフォトニック回路の実現可能性を評価することができる。 これは高速量子ネットワークへの有望な経路を提供する。

Modern quantum technologies have matured such that they can now be used in space applications, e.g., long-distance quantum communication. Here, we present the design of a compact true single photon source that can enhance the secure data rates in satellite-based quantum key distribution scenarios compared to conventional laser-based light sources. Our quantum light source is a fluorescent color center in hexagonal boron nitride. The emitter is off-resonantly excited by a diode laser and directly coupled to an integrated photonic processor that routes the photons to different experiments performed directly on-chip: (i) the characterization of the single photon source and (ii) testing a fundamental postulate of quantum mechanics, namely the relation of the probability density and the wave function (known as Born's rule). The described payload is currently being integrated into a 3U CubeSat and scheduled for launch in 2024 into low Earth orbit. We can therefore evaluate the feasibility of true single photon sources and reconfigurable photonic circuits in space. This provides a promising route toward a high-speed quantum network.
翻訳日:2023-01-27 13:15:31 公開日:2023-01-26
# ラベル付きデータの逆伝搬による半監督画像のキャプション

Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data ( http://arxiv.org/abs/2301.11174v1 )

ライセンス: Link先を確認
Dong-Jin Kim, Tae-Hyun Oh, Jinsoo Choi, In So Kweon(参考訳) 本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。 大規模ラベル付き画像キャプションデータセットの構築は、労力、時間、コストの面で高価な作業である。 すべてのトレーニングサンプルを手動でアノテートするのとは対照的に、ユニモーダルデータセットを個別に収集するのは、大規模な画像データセットや文データセットなど、非常に簡単である。 このような膨大な未ペア画像とキャプションデータを、標準的なペアデータに基づいて学習して関連づける。 そこで,提案する半教師付き学習法は,画像とキャプションの同時分布を学習する非ペア型学習手法において,擬似ラベルを非ペア型サンプルに割り当てる。 提案手法は,キャプタにペアデータから学習し,不適切なデータを段階的に関連付けるよう訓練する。 このアプローチは、アウト・オブ・タスクデータ(リレーショナルキャプション、ターゲットタスクがアンペアデータと異なるリレーショナルキャプション)やWebクローリングデータなど、困難なシナリオにおいても顕著なパフォーマンス向上を示す。 また,提案手法は理論的に好意的であり,大域的最適性を有することを示す。 1) 画像ベースと(2) 高密度領域型キャプションデータセットと, 少ないペア付きcocoデータセットの包括的解析の両方について, 包括的かつ包括的実験結果が得られた。

We present a novel data-efficient semi-supervised framework to improve the generalization of image captioning models. Constructing a large-scale labeled image captioning dataset is an expensive task in terms of labor, time, and cost. In contrast to manually annotating all the training samples, separately collecting uni-modal datasets is immensely easier, e.g., a large-scale image dataset and a sentence dataset. We leverage such massive unpaired image and caption data upon standard paired data by learning to associate them. To this end, our proposed semi-supervised learning method assigns pseudo-labels to unpaired samples in an adversarial learning fashion, where the joint distribution of image and caption is learned. Our method trains a captioner to learn from a paired data and to progressively associate unpaired data. This approach shows noticeable performance improvement even in challenging scenarios including out-of-task data (i.e., relational captioning, where the target task is different from the unpaired data) and web-crawled data. We also show that our proposed method is theoretically well-motivated and has a favorable global optimal property. Our extensive and comprehensive empirical results both on (1) image-based and (2) dense region-based captioning datasets followed by comprehensive analysis on the scarcely-paired COCO dataset demonstrate the consistent effectiveness of our semisupervised learning method with unpaired data compared to competing methods.
翻訳日:2023-01-27 13:15:15 公開日:2023-01-26
# 地上移動ロボットの低次元マップレスナビゲーションのための二重深度強化学習技術

Double Deep Reinforcement Learning Techniques for Low Dimensional Sensing Mapless Navigation of Terrestrial Mobile Robots ( http://arxiv.org/abs/2301.11173v1 )

ライセンス: Link先を確認
Linda Dotto de Moraes and Victor Augusto Kich and Alisson Henrique Kolling and Jair Augusto Bottega and Raul Steinmetz and Emerson Cassiano da Silva and Ricardo Bedin Grando and Anselmo Rafael Cuckla and Daniel Fernando Tello Gamarra(参考訳) 本研究では,地上移動ロボットのマップレスナビゲーション問題を改善するために,Deep Reinforcement Learning (Deep-RL) の2つのアプローチを提案する。 本手法は,Deep Q-Network (DQN) アルゴリズムとDouble Q-Network (DDQN) アルゴリズムに基づく第2の手法を比較した。 我々は,24個のレーザー計測試料と,対象物に対する相対的位置と角度を,対象物に対する情報として利用し,ロボットの速度としてその動作を提供する。 学習の低次元センシング構造を用いることで,複雑なセンシング情報を用いることなく,エージェントにナビゲーション関連のタスクや障害物回避を訓練できることを示す。 提案手法は3つの異なるシミュレーション環境でうまく利用された。 全体として, 二重深層構造は, 単純なq構造と比較して, 移動ロボットの航法上の問題をさらに高めることが示された。

In this work, we present two Deep Reinforcement Learning (Deep-RL) approaches to enhance the problem of mapless navigation for a terrestrial mobile robot. Our methodology focus on comparing a Deep-RL technique based on the Deep Q-Network (DQN) algorithm with a second one based on the Double Deep Q-Network (DDQN) algorithm. We use 24 laser measurement samples and the relative position and angle of the agent to the target as information for our agents, which provide the actions as velocities for our robot. By using a low-dimensional sensing structure of learning, we show that it is possible to train an agent to perform navigation-related tasks and obstacle avoidance without using complex sensing information. The proposed methodology was successfully used in three distinct simulated environments. Overall, it was shown that Double Deep structures further enhance the problem for the navigation of mobile robots when compared to the ones with simple Q structures.
翻訳日:2023-01-27 13:14:36 公開日:2023-01-26
# 最小ビンパッキング問題に対する量子および量子インスパイア最適化

Quantum and quantum-inspired optimization for solving the minimum bin packing problem ( http://arxiv.org/abs/2301.11265v1 )

ライセンス: Link先を確認
A. A. Bozhedarov, A. S. Boev, S. R. Usmanov, G. V. Salahov, E. O. Kiktenko, A. K. Fedorov(参考訳) 量子コンピューティングデバイスは、特に組合せ最適化の問題を解くのに強力であると考えられている。 本研究は, 原子力産業に関係のある深部貯留層において, 使用済み核燃料を充填する問題の解決に使用できる, 最小容器充填問題について考察する。 まず、上記の問題を2次非制約バイナリ最適化の観点から再定義する。 このような表現は、既存の量子アニーリングデバイスや量子インスパイアされたアルゴリズムとネイティブに互換性がある。 次に、量子および量子インスパイアされた方法の数値比較結果を示す。 本研究は、量子および量子に着想を得た最適化を用いて、原子エネルギー産業の産業関連問題を解く可能性を示す。

Quantum computing devices are believed to be powerful in solving hard computational tasks, in particular, combinatorial optimization problems. In the present work, we consider a particular type of the minimum bin packing problem, which can be used for solving the problem of filling spent nuclear fuel in deep-repository canisters that is relevant for atomic energy industry. We first redefine the aforementioned problem it in terms of quadratic unconstrained binary optimization. Such a representation is natively compatible with existing quantum annealing devices as well as quantum-inspired algorithms. We then present the results of the numerical comparison of quantum and quantum-inspired methods. Results of our study indicate on the possibility to solve industry-relevant problems of atomic energy industry using quantum and quantum-inspired optimization.
翻訳日:2023-01-27 13:09:12 公開日:2023-01-26
# 最大最適性マージン:文脈線形計画法と逆線形計画法の統一的アプローチ

Maximum Optimality Margin: A Unified Approach for Contextual Linear Programming and Inverse Linear Programming ( http://arxiv.org/abs/2301.11260v1 )

ライセンス: Link先を確認
Chunlin Sun, Shang Liu, Xiaocheng Li(参考訳) 本稿では,機械学習予測タスクの出力を下流最適化問題,例えば線形プログラムの客観的係数ベクトルの入力として使用する予測列最適化問題について検討する。 この問題は予測分析や文脈線形プログラミングとしても知られている。 既存のアプローチは、ほとんどどちらかに苦しむ (i)最適化難解性(非凸目的関数)/統計的非効率性(準最適一般化境界)、又は (ii)制約や損失校正がないなどの強い条件を必要とすること。 我々は、下流最適化の最適条件により機械学習損失関数を設計する「textit{maximum optimality margin}」と呼ばれる問題に対する新しいアプローチを開発する。 max-marginの定式化は、計算効率と学習手順の良質な理論特性の両方を享受する。 さらに,本手法では,目的関数ではなく,学習データにおける最適解の観測しか必要とせず,文脈的・文脈的・文脈的両条件下での逆線形プログラミング問題に対する新たな自然なアプローチとして,オフライン・オンライン両方の設定で提案手法を解析し,数値実験を用いてその性能を実証する。

In this paper, we study the predict-then-optimize problem where the output of a machine learning prediction task is used as the input of some downstream optimization problem, say, the objective coefficient vector of a linear program. The problem is also known as predictive analytics or contextual linear programming. The existing approaches largely suffer from either (i) optimization intractability (a non-convex objective function)/statistical inefficiency (a suboptimal generalization bound) or (ii) requiring strong condition(s) such as no constraint or loss calibration. We develop a new approach to the problem called \textit{maximum optimality margin} which designs the machine learning loss function by the optimality condition of the downstream optimization. The max-margin formulation enjoys both computational efficiency and good theoretical properties for the learning procedure. More importantly, our new approach only needs the observations of the optimal solution in the training data rather than the objective function, which makes it a new and natural approach to the inverse linear programming problem under both contextual and context-free settings; we also analyze the proposed method under both offline and online settings, and demonstrate its performance using numerical experiments.
翻訳日:2023-01-27 13:08:59 公開日:2023-01-26
# マルチタスクジェネレータとしての分子言語モデル

Molecular Language Model as Multi-task Generator ( http://arxiv.org/abs/2301.11259v1 )

ライセンス: Link先を確認
Yin Fang, Ningyu Zhang, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計する方法を変え、化学や材料の設計をサポートすることによって、非常に人気を高めてきた。 しかし、有望な結果にもかかわらず、従来の機械学習に基づく深層生成モデルは、複雑なタスク固有の微調整、限られた次元の潜在空間、あるいはエキスパートルールの品質に依存している。 本研究では,複数の世代タスクやドメインの知識を効果的に学習し,共有する分子言語モデルであるMolGenを提案する。 具体的には、MolGenを化学言語SELFIESで1億以上の未標識分子で事前訓練する。 さらに,複数の分子生成タスクと異なる分子ドメイン(合成および天然物)にまたがるマルチタスク分子プレフィックスチューニングを自己フィードバック機構で提案する。 大規模な実験により、MollGenはよく知られた分子生成ベンチマークデータセットで優れた性能を得ることができることが示された。 さらに,分子の分布を正確に把握し,その構造的特性を暗黙的に学習し,マルチタスク分子プレフィックスチューニングの指導により効率的に化学空間を探索できることを示した。 コード、データセット、および事前トレーニングされたモデルはhttps://github.com/zjunlp/MolGen.orgで入手できる。

Molecule generation with desired properties has grown immensely in popularity by disruptively changing the way scientists design molecular structures and providing support for chemical and materials design. However, despite the promising outcome, previous machine learning-based deep generative models suffer from a reliance on complex, task-specific fine-tuning, limited dimensional latent spaces, or the quality of expert rules. In this work, we propose MolGen, a pre-trained molecular language model that effectively learns and shares knowledge across multiple generation tasks and domains. Specifically, we pre-train MolGen with the chemical language SELFIES on more than 100 million unlabelled molecules. We further propose multi-task molecular prefix tuning across several molecular generation tasks and different molecular domains (synthetic & natural products) with a self-feedback mechanism. Extensive experiments show that MolGen can obtain superior performances on well-known molecular generation benchmark datasets. The further analysis illustrates that MolGen can accurately capture the distribution of molecules, implicitly learn their structural characteristics, and efficiently explore the chemical space with the guidance of multi-task molecular prefix tuning. Codes, datasets, and the pre-trained model will be available in https://github.com/zjunlp/MolGen.
翻訳日:2023-01-27 13:08:40 公開日:2023-01-26
# 内部クロック干渉法による局所位置不変性の量子実験

Quantum Test of the Local Position Invariance with Internal Clock Interferometry ( http://arxiv.org/abs/2301.11258v1 )

ライセンス: Link先を確認
Zhifan Zhou(参考訳) 局所位置不変性(lpi)をテストする現在の試みは、異なるクロック遷移率と古典的な交換信号を比較している。 1原子中の2つの干渉クロックからなる内部原子時計干渉計であるlpiの量子テストのための実験手法を提案する。 2つのクロック状態と1つの基底状態の重ね合わせで原子を準備し、2つの量子クロック振動に沿って安定な内部ラムゼー干渉パターンにコヒーレントに進化させる。 共有基底状態との干渉パターンは、個々のクロック振動のビーティングと相補性の直接的な結果と解釈できる可視変調を示す。 干渉計が異なる重力ポテンシャルを経験すると、LPIは両方のクロックティッチ速度が比例的に変化すると予測し、量子的相補性は可視性変調がそれに従って変化することを示す。 この変更は可視性変調の第1周期では重要でないとみなされるが、システムのコヒーレンス時間の限界まで積み重ねることができる。 分割や再結合は不要であるため、システムコヒーレンス時間はトラップ寿命やクロック状態寿命と同じくらいである。 可視性変調の観測に必要な解像度は、最先端の光時計の感度の範囲内である。 この実験的な手法は様々なシナリオで実現可能であり、時間と一般相対性理論の量子効果の研究に新たな光を当てることができる。

Current attempts to test local position invariance (LPI) compare different clock transition rates with classically exchanged signals. We propose an experimental scheme for the quantum test of LPI: an internal atomic clock interferometer comprising two interfering clocks within one atom. We prepare the atom in a superposition of two clock states and one ground state, which evolves coherently along two quantum clock oscillations into stable internal Ramsey interference patterns. The interference pattern with the shared ground state shows a visibility modulation, which can be interpreted as the beating of the individual clock oscillations and a direct consequence of complementarity. Upon the interferometer experiencing a different gravitational potential, LPI predicts that both clock tick rates will change proportionally, while quantum complementarity indicates that the visibility modulation should modify accordingly. This change is deemed insignificant for the first period of visibility modulation but can be stacked up until the limit of the system coherence time. Since no splitting or recombining is involved, the system coherence time can be as long as the trap lifetime or the clock state lifetime. The required resolution to observe the visibility modulation is within reach of the state-of-art optical clocks' sensitivities. This experimental scheme is feasible in different scenarios, still or with speed, and may shed new light on studying the quantum effect of time and general relativity.
翻訳日:2023-01-27 13:08:20 公開日:2023-01-26
# 各種機械学習モデルを用いたCovid-19トレンド予測のためのベンチマーク研究

A Benchmark Study by using various Machine Learning Models for Predicting Covid-19 trends ( http://arxiv.org/abs/2301.11257v1 )

ライセンス: Link先を確認
D. Kamelesun, R. Saranya, P. Kathiravan(参考訳) 機械学習とディープラーニングは、医療分野における疾患の予測において重要な役割を果たす。 機械学習アルゴリズムは、教師なし、教師なし、強化学習と広く分類されている。 本稿では,世界中に広まり,多くの死者を出した新規コロナウイルスの流行のモデルを構築するために,教師付き機械学習アルゴリズムを用いた実験研究の詳細な説明を含む。 人々はこの封鎖で生き残るために身体的、経済的に苦しんだ。 この研究は、機械学習、アンサンブル、ディープラーニングモデルがどのように機能し、実際のデータセットに実装されるのかをよりよく理解することを目的としている。 本研究では、新型コロナウイルスの現在の傾向やパターンを分析し、線形回帰、多項式回帰、k-ネアレスト近傍、決定木、サポートベクターマシン、ランダムフォレストアルゴリズムなどの機械学習アルゴリズムを用いて過去のcovid-19データセットをトレーニングすることで、新型コロナウイルスが確認されたケースや新しいケースのさらなる未来を予測する。 決定木とランダムフォレストアルゴリズムは、本研究でSVRよりも優れている。 SVRはこのような問題に対して超平面を用いてデータを分離することが難しいため、全ての予測領域においてSVRとラッソ回帰の性能は低い。 そのため、SVRはこの問題でパフォーマンスが低い。 アンサンブル(Voting, Bagging, Stacking)やディープラーニングモデル(ANN)もよく予測されている。 予測後,MAE,MSE,RMSE,MAPEを用いてモデルの評価を行った。 この研究は、covid-19のトレンドやパターンを見つけることを目的としている。

Machine learning and deep learning play vital roles in predicting diseases in the medical field. Machine learning algorithms are widely classified as supervised, unsupervised, and reinforcement learning. This paper contains a detailed description of our experimental research work in that we used a supervised machine-learning algorithm to build our model for outbreaks of the novel Coronavirus that has spread over the whole world and caused many deaths, which is one of the most disastrous Pandemics in the history of the world. The people suffered physically and economically to survive in this lockdown. This work aims to understand better how machine learning, ensemble, and deep learning models work and are implemented in the real dataset. In our work, we are going to analyze the current trend or pattern of the coronavirus and then predict the further future of the covid-19 confirmed cases or new cases by training the past Covid-19 dataset by using the machine learning algorithm such as Linear Regression, Polynomial Regression, K-nearest neighbor, Decision Tree, Support Vector Machine and Random forest algorithm are used to train the model. The decision tree and the Random Forest algorithm perform better than SVR in this work. The performance of SVR and lasso regression are low in all prediction areas Because the SVR is challenging to separate the data using the hyperplane for this type of problem. So SVR mostly gives a lower performance in this problem. Ensemble (Voting, Bagging, and Stacking) and deep learning models(ANN) also predict well. After the prediction, we evaluated the model using MAE, MSE, RMSE, and MAPE. This work aims to find the trend/pattern of the covid-19.
翻訳日:2023-01-27 13:07:57 公開日:2023-01-26
# 時変ゲームにおける非回帰学習ダイナミクスの収束について

On the Convergence of No-Regret Learning Dynamics in Time-Varying Games ( http://arxiv.org/abs/2301.11241v1 )

ライセンス: Link先を確認
Ioannis Anagnostides, Ioannis Panageas, Gabriele Farina, Tuomas Sandholm(参考訳) ゲームにおける学習に関する文献の多くは、根底にある繰り返しゲームが時間とともに変化しない制限的な設定に焦点を当てている。 動的マルチエージェント設定における非回帰学習アルゴリズムの収束についてはあまり知られていない。 本稿では, 時間変化ゲームにおける \emph{optimistic gradient descent (OGD) の収束を, \emph{dynamic regret} と強く結び付けることによって特徴づける。 本フレームワークは,nash平衡の1次変動とペイオフ行列の2次変動をパラメータとしたゼロサムゲームにおけるogdの平衡ギャップに対する鋭い収束限界を与え,静的ゲームにおける既知の結果を推定する。 さらに,各ゲームが複数回繰り返される限り,強い凸凸性の下で改良された 'emph{second-order} 変動境界を確立する。 また,関係平衡の双線形定式化による時間変化型 \emph{ General-sum} マルチプレイヤーゲームにも適用し,メタラーニングや改良された変分依存後悔境界の獲得に寄与し,先行論文に残された疑問に対処する。 最後に,我々のフレームワークを活用して,静的ゲームにおける動的後悔の保証に関する新たな洞察を提供する。

Most of the literature on learning in games has focused on the restrictive setting where the underlying repeated game does not change over time. Much less is known about the convergence of no-regret learning algorithms in dynamic multiagent settings. In this paper, we characterize the convergence of \emph{optimistic gradient descent (OGD)} in time-varying games by drawing a strong connection with \emph{dynamic regret}. Our framework yields sharp convergence bounds for the equilibrium gap of OGD in zero-sum games parameterized on the \emph{minimal} first-order variation of the Nash equilibria and the second-order variation of the payoff matrices, subsuming known results for static games. Furthermore, we establish improved \emph{second-order} variation bounds under strong convexity-concavity, as long as each game is repeated multiple times. Our results also apply to time-varying \emph{general-sum} multi-player games via a bilinear formulation of correlated equilibria, which has novel implications for meta-learning and for obtaining refined variation-dependent regret bounds, addressing questions left open in prior papers. Finally, we leverage our framework to also provide new insights on dynamic regret guarantees in static games.
翻訳日:2023-01-27 13:07:31 公開日:2023-01-26
# bibench: ベンチマークとネットワークバイナリ化の分析

BiBench: Benchmarking and Analyzing Network Binarization ( http://arxiv.org/abs/2301.11233v1 )

ライセンス: Link先を確認
Haotong Qin, Mingyuan Zhang, Yifu Ding, Aoyu Li, Zhongang Cai, Ziwei Liu, Fisher Yu, Xianglong Liu(参考訳) ネットワークバイナライゼーションは、ビット幅を最小化することで、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つである。 しかし、最近の研究では、現実的なシナリオで様々なタスク、アーキテクチャ、ハードウェアに既存のバイナリ化アルゴリズムを適用するのは、まだ単純ではないことが示されている。 精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。 このギャップを埋めるため,ネットワークバイナライゼーションのための詳細な解析を行うベンチマークであるBiBenchを提案する。 まず,実生産におけるバイナリ化の要件を慎重に検討し,総合的かつ公平な調査のために評価トラックとメトリクスを定義する。 そこで我々は,演算子レベルで機能し,幅広い影響を与える一連のマイルストーンバイナライズアルゴリズムを評価し,解析する。 私たちのベンチマークは 1) 二元化オペレータは、二元化ネットワークの性能及び展開性に重大な影響を与える。 2)二項化の精度は学習課題や神経アーキテクチャによって大きく異なる。 3)バイナライゼーションは,ハードウェアサポートが限られているにもかかわらず,エッジデバイスに有望な効率性を示す。 結果と分析は、正確で効率的なバイナリ化のための有望なパラダイムにもつながります。 BiBenchがバイナライゼーションの広範な採用に寄与し、将来の研究の基盤となると信じています。

Network binarization emerges as one of the most promising compression approaches offering extraordinary computation and memory savings by minimizing the bit-width. However, recent research has shown that applying existing binarization algorithms to diverse tasks, architectures, and hardware in realistic scenarios is still not straightforward. Common challenges of binarization, such as accuracy degradation and efficiency limitation, suggest that its attributes are not fully understood. To close this gap, we present BiBench, a rigorously designed benchmark with in-depth analysis for network binarization. We first carefully scrutinize the requirements of binarization in the actual production and define evaluation tracks and metrics for a comprehensive and fair investigation. Then, we evaluate and analyze a series of milestone binarization algorithms that function at the operator level and with extensive influence. Our benchmark reveals that 1) the binarized operator has a crucial impact on the performance and deployability of binarized networks; 2) the accuracy of binarization varies significantly across different learning tasks and neural architectures; 3) binarization has demonstrated promising efficiency potential on edge devices despite the limited hardware support. The results and analysis also lead to a promising paradigm for accurate and efficient binarization. We believe that BiBench will contribute to the broader adoption of binarization and serve as a foundation for future research.
翻訳日:2023-01-27 13:07:08 公開日:2023-01-26
# 有害なミームで実体を特徴づける: ヒーロー、悪役、被害者は誰なのか?

Characterizing the Entities in Harmful Memes: Who is the Hero, the Villain, the Victim? ( http://arxiv.org/abs/2301.11219v1 )

ライセンス: Link先を確認
Shivam Sharma, Atharva Kulkarni, Tharun Suresh, Himanshi Mathur, Preslav Nakov, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) ミームは、視覚情報とテキスト情報を簡単に要約できる方法で組み合わせることで、ソーシャルメディアに対して人々の意見を妨げうる。 ミームはすぐにウイルスとなるので、必要に応じて時間的措置をとるために、その意図や関連する有害性を推測することが重要である。 ミーム理解に関連する一般的な問題は、参照されるエンティティを検出し、これらのエンティティの役割を特徴付けることである。 ここでは、ミームが参照する各エンティティを栄光し、悪用し、または犠牲にするかどうかを理解することを目的としている。 この目的のために,有害ミームにおける物質の役割識別の課題,すなわち,ミームにおいて誰が「ヒーロー」,「悪役」,「犠牲者」を検知する課題に対処する。 hvvmemes - 米国の政治とcovid-19に関するミームデータセットで、先日、constraint@acl-2022共有タスクの一部としてリリースされた。 ミーム、言及された実体、それに付随する役割、英雄、悪役、犠牲者などが含まれる。 VECTOR (Visual-semantic role dEteCToR) は,マルチモーダル表現にエンティティベースのコンテキスト情報を統合し,複数の標準ユニモーダル (text-only, image-only) モデルやマルチモーダル (image+text) モデルと比較する。 実験の結果,提案モデルでは,最高のベースラインに対して4%,最も競合するスタンドアローンのサブミッションに対して1%の改善が得られた。 比較分析による広範な実験的な設定の分割に加えて,最終的に,ミーム内のセマンティクスロールラベリングの複雑な課題に直面する課題を浮き彫りにする。

Memes can sway people's opinions over social media as they combine visual and textual information in an easy-to-consume manner. Since memes instantly turn viral, it becomes crucial to infer their intent and potentially associated harmfulness to take timely measures as needed. A common problem associated with meme comprehension lies in detecting the entities referenced and characterizing the role of each of these entities. Here, we aim to understand whether the meme glorifies, vilifies, or victimizes each entity it refers to. To this end, we address the task of role identification of entities in harmful memes, i.e., detecting who is the 'hero', the 'villain', and the 'victim' in the meme, if any. We utilize HVVMemes - a memes dataset on US Politics and Covid-19 memes, released recently as part of the CONSTRAINT@ACL-2022 shared-task. It contains memes, entities referenced, and their associated roles: hero, villain, victim, and other. We further design VECTOR (Visual-semantic role dEteCToR), a robust multi-modal framework for the task, which integrates entity-based contextual information in the multi-modal representation and compare it to several standard unimodal (text-only or image-only) or multi-modal (image+text) models. Our experimental results show that our proposed model achieves an improvement of 4% over the best baseline and 1% over the best competing stand-alone submission from the shared-task. Besides divulging an extensive experimental setup with comparative analyses, we finally highlight the challenges encountered in addressing the complex task of semantic role labeling within memes.
翻訳日:2023-01-27 13:06:49 公開日:2023-01-26
# 好意を返す: 回帰が確率的因果知識から利益を得るとき

Returning The Favour: When Regression Benefits From Probabilistic Causal Knowledge ( http://arxiv.org/abs/2301.11214v1 )

ライセンス: Link先を確認
Shahine Bouabid, Jake Fawkes, Dino Sejdinovic(参考訳) 有向非巡回グラフ(DAG)は、機械学習においてしばしば回帰タスクで破棄される貴重な事前知識を提供する。 DAGにおけるコライダー構造の存在から生じる独立性は、回帰仮説空間を制約し、予測性能を向上させる有意義な帰納バイアスをもたらすことを示す。 本研究では,回帰問題における衝突者からの確率的因果知識を取り入れる枠組みである衝突者回帰を提案する。 仮説空間が再現核ヒルベルト空間であるとき、穏やかな仮定の下で厳密に正の一般化の利益を証明し、経験的リスク最小化の閉形式的推定子を与える。 合成および気候モデルデータに関する実験は,提案手法の性能向上を示す。

A directed acyclic graph (DAG) provides valuable prior knowledge that is often discarded in regression tasks in machine learning. We show that the independences arising from the presence of collider structures in DAGs provide meaningful inductive biases, which constrain the regression hypothesis space and improve predictive performance. We introduce collider regression, a framework to incorporate probabilistic causal knowledge from a collider in a regression problem. When the hypothesis space is a reproducing kernel Hilbert space, we prove a strictly positive generalisation benefit under mild assumptions and provide closed-form estimators of the empirical risk minimiser. Experiments on synthetic and climate model data demonstrate performance gains of the proposed methodology.
翻訳日:2023-01-27 13:06:15 公開日:2023-01-26
# 大面積超伝導マイクロストリップを用いた高効率低エネルギー単一電子検出

Efficient low-energy single-electron detection using a large-area superconducting microstrip ( http://arxiv.org/abs/2301.11212v1 )

ライセンス: Link先を確認
Masato Shigefuji, Alto Osada, Masahiro Yabuno, Shigehito Miki, Hirotaka Terai, and Atsushi Noguchi(参考訳) 超電導ストリップ単光子検出器(SSPD)は、単光子検出だけでなく、高検出効率、低暗数、低時間ジッタによる単粒子検出にも優れたツールである。 keVスケールの電子を含む様々な粒子の検出はこれまでに報告されているが、低エネルギー電子を検出する研究は行われていない。 低エネルギー電子が超伝導体内の電子やフォノンとどのように相互作用するかは、まだ明らかになっていない。 本稿では,200eV以下の電子に対する超伝導マイクロストリップ単電子検出器(SSED)の検出特性について報告する。 検出効率は、ストリップラインに衝突する電子が200 eVのエネルギーを持つ場合、少なくとも37 %と推定される。 また、電子の最小検出エネルギーは約10eVであり、イオンよりもはるかに低いことが示され、電子-電子相互作用が重要な役割を果たすことが示唆された。 SSEDは、凝縮物質物理学から量子情報科学まで、低温環境との互換性のため、幅広い応用を開拓する可能性がある。

Superconducting strip single-photon detectors (SSPDs) are excellent tools not only for single-photon detection but also for single-particle detection owing to their high detection efficiency, low dark counts, and low time jitter. Although the detection of various particles, including electrons with keV-scale energy, has been reported so far, there have been no studies for detecting low-energy electrons. It has yet to be clarified how low-energy electrons interact with electrons and/or phonons in a superconductor during electron detection. Here we report the detection property of a superconducting micro-strip single-electron detector (SSED) for electrons with energy below 200 eV. The detection efficiency is estimated as at least 37 % when electrons impinging on the stripline possess an energy of 200 eV. We also show that the minimum detectable energy of electrons is about 10 eV with our SSED, much lower than those of ions, which implies that the electron-electron interaction plays a significant role. SSEDs might open a wide range of applications, from condensed matter physics to quantum information science, because of their compatibility with the cryogenic environment.
翻訳日:2023-01-27 13:06:01 公開日:2023-01-26
# 満足度問題に対する量子交互演算子アンザッツ

The Quantum Alternating Operator Ansatz for Satisfiability Problems ( http://arxiv.org/abs/2301.11292v1 )

ライセンス: Link先を確認
John Golden, Andreas B\"artschi, Daniel O'Malley, Stephan Eidenbenz(参考訳) 本稿では, 大規模数値シミュレーションにより, 量子交互演算子Ansatz (QAOA) の大規模実装の性能を解析し, 制約のない組合せ最適化問題に対する近似解と最適解を求める。 調査には100以上の混合ユニタリが含まれており、各ミキサーを目的関数を表す標準位相分離ユニタリとしきい値付きバージョンの両方と組み合わせている。 ランダムに選択された最適化問題のMax 2-SAT と Max 3-SAT のインスタンスに対する数値実験により、従来の横フィールドミキサーと標準位相セパレータは8から14変数の問題に対して最適であり、最近導入されたGroverミキサーは6の問題でしきい値が当選した。 この結果 (i)グルーバーミキサーはサイズ6の問題の結果のみに基づいて優れたミキサーであることを示唆する以前の研究を補正し、より正確に性能を予測するために、より大きい問題サイズに数値シミュレーションをプッシュする必要性を示唆する。 (II)より複雑なミキサーと相分離器はQAOA性能を向上しない可能性が示唆された。

We comparatively study, through large-scale numerical simulation, the performance across a large set of Quantum Alternating Operator Ansatz (QAOA) implementations for finding approximate and optimum solutions to unconstrained combinatorial optimization problems. Our survey includes over 100 different mixing unitaries, and we combine each mixer with both the standard phase separator unitary representing the objective function and a thresholded version. Our numerical tests for randomly chosen instances of the unconstrained optimization problems Max 2-SAT and Max 3-SAT reveal that the traditional transverse-field mixer with the standard phase separator performs best for problem sizes of 8 through 14 variables, while the recently introduced Grover mixer with thresholding wins at problems of size 6. This result (i) corrects earlier work suggesting that the Grover mixer is a superior mixer based only on results from problems of size 6, thus illustrating the need to push numerical simulation to larger problem sizes to more accurately predict performance; and (ii) it suggests that more complicated mixers and phase separators may not improve QAOA performance.
翻訳日:2023-01-27 12:59:09 公開日:2023-01-26
# 自己テストの操作-代数的定式化

An operator-algebraic formulation of self-testing ( http://arxiv.org/abs/2301.11291v1 )

ライセンス: Link先を確認
Connor Paddock, William Slofstra, Yuming Zhao, and Yangchen Zhou(参考訳) 我々は、$C^*$-代数上の状態の観点からの相関関係に対する自己検定の新しい定義を与える。 この定義は閉である有限次元量子モデルの任意のクラスに対する標準定義と等価であることを示し、相関が極大でありクラス内にフルランクモデルを持つことを仮定する。 この最後の条件は、POVM量子モデルのクラスを自動で保持するが、カニェフスキとMan\v{c}inskaの結果によって射影モデルのクラスを必ずしも保持しない。 極端バイナリ相関と極端同期相関については、射影モデルに対する任意の自己テストはPOVMモデルに対する自己テストであることを示す。 POVMモデルの自己テストではない射影モデルの自己テストが存在するかどうかという問題は未解決のままである。 我々の新しい定義の利点は、自然に演算子モデルに拡張できることである。 極値相関が有限次元量子モデルに対する自己テストであることと、それが有限次元可換作用素モデルの自己テストであることは同値であることを示し、また、多くの既知の有限次元自己テストが実際には無限次元可換作用素モデルの自己テストであることも観察する。

We give a new definition of self-testing for correlations in terms of states on $C^*$-algebras. We show that this definition is equivalent to the standard definition for any class of finite-dimensional quantum models which is closed, provided that the correlation is extremal and has a full-rank model in the class. This last condition automatically holds for the class of POVM quantum models, but does not necessarily hold for the class of projective models by a result of Kaniewski and Man\v{c}inska. For extremal binary correlations and for extremal synchronous correlations, we show that any self-test for projective models is a self-test for POVM models. The question of whether there is a self-test for projective models which is not a self-test for POVM models remains open. An advantage of our new definition is that it extends naturally to commuting operator models. We show that an extremal correlation is a self-test for finite-dimensional quantum models if and only if it is a self-test for finite-dimensional commuting operator models, and also observe that many known finite-dimensional self-tests are in fact self-tests for infinite-dimensional commuting operator models.
翻訳日:2023-01-27 12:58:42 公開日:2023-01-26
# リアルタイムデジタルツイン:6g以降のビジョンと研究方向

Real-Time Digital Twins: Vision and Research Directions for 6G and Beyond ( http://arxiv.org/abs/2301.11283v1 )

ライセンス: Link先を確認
Ahmed Alkhateeb, Shuaifeng Jiang, and Gouranga Charan(参考訳) 本稿では,分散インフラストラクチャとユーザデバイスからのマルチモーダルセンシングデータを用いて,物理無線環境の‘textit{real-time}デジタルツインを継続的に更新し,通信やセンサの判断に利用する,というビジョンを述べる。 このビジョンは主に正確な3Dマップ、マルチモーダルセンシング、レイトレーシング計算、マシン/ディープ学習の進歩によって実現されている。 本稿では、このビジョンを詳述し、リアルタイムデジタルツインの構築と活用の異なるアプローチを説明し、アプリケーションとオープン問題について議論し、様々なデジタルツイン研究の方向性を調査するための研究プラットフォームを提案する。

This article presents a vision where \textit{real-time} digital twins of the physical wireless environments are continuously updated using multi-modal sensing data from the distributed infrastructure and user devices, and are used to make communication and sensing decisions. This vision is mainly enabled by the advances in precise 3D maps, multi-modal sensing, ray-tracing computations, and machine/deep learning. This article details this vision, explains the different approaches for constructing and utilizing these real-time digital twins, discusses the applications and open problems, and presents a research platform that can be used to investigate various digital twin research directions.
翻訳日:2023-01-27 12:58:09 公開日:2023-01-26
# テキストから4次元動的シーン生成

Text-To-4D Dynamic Scene Generation ( http://arxiv.org/abs/2301.11280v1 )

ライセンス: Link先を確認
Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman(参考訳) テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。 本手法では,テキスト・トゥ・ビデオ(t2v)拡散モデルに照会することにより,シーンの出現,密度,動きの一貫性を最適化した4次元動的神経放射場(nerf)を用いる。 提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。 MAV3Dは3Dや4Dのデータを一切必要とせず、T2Vモデルはテキストと画像のペアとラベルなしのビデオでのみ訓練される。 提案手法の有効性を定量的および定性的実験を用いて実証し, 従来確立されていた内部ベースラインよりも改善したことを示す。 我々の知る限りでは,本手法はテキスト記述による3次元動的シーンを初めて生成する手法である。

We present MAV3D (Make-A-Video3D), a method for generating three-dimensional dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural Radiance Field (NeRF), which is optimized for scene appearance, density, and motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The dynamic video output generated from the provided text can be viewed from any camera location and angle, and can be composited into any 3D environment. MAV3D does not require any 3D or 4D data and the T2V model is trained only on Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our approach using comprehensive quantitative and qualitative experiments and show an improvement over previously established internal baselines. To the best of our knowledge, our method is the first to generate 3D dynamic scenes given a text description.
翻訳日:2023-01-27 12:57:57 公開日:2023-01-26
# 逆問題におけるデータ同化のためのガウス過程回帰と条件付きKarhunen-Lo\'{e}veモデル

Gaussian process regression and conditional Karhunen-Lo\'{e}ve models for data assimilation in inverse problems ( http://arxiv.org/abs/2301.11279v1 )

ライセンス: Link先を確認
Yu-Hong Yeung and David A. Barajas-Solano and Alexandre M. Tartakovsky(参考訳) 空間的不均一なパラメータ場を持つ物理系の偏微分方程式モデルにおけるデータ同化とパラメータ推定のためのモデル逆アルゴリズムCKLEMAPを提案する。 これらの場は、パラメータの測定に基づいて訓練されたこれらの場のガウス過程回帰モデルを用いて構築される、低次元条件付きカルフネン-ロジュルベ拡大を用いて近似される。 次に, 非線形最小二乗問題を解くことにより, 系の状態の測定を同化し, CKLE係数の最大アフター推定を計算する。 この最適化問題を解く際、物理学問題の前方解に関連する方程式の線形系のスパーシティ構造を利用して、ベクトル目的のジャコビアンを効率的に計算する。 CKLEMAP法は標準的なMAP法に比べてスケーラビリティがよい。 MAP法では、推定される未知の要素の数と数値フォワードモデルの要素の数とが等しい。 一方、CKLEMAPでは、パラメータフィールドの滑らかさと測定回数によって未知数(CKLE係数)が制御され、一般に離散化ノードの数よりもはるかに小さくなり、標準MAP法に対する計算コストの大幅な削減につながる。 スケーラビリティの優位性を示すために, CKLEMAPを用いて, 透過率と油圧ヘッドの合成測定を併用することにより, ハンフォードサイトの2次元定常地下流れモデルにおける透過率場を推定する。 CKLEMAPの実行時間は、ほぼ線形に$N^{1.33}$にスケールし、$N$は離散化ノードの数であり、標準MAPの実行時間は$N^{2.91}$にスケールする。 CKLEMAP法は,標準MAPと比較して精度を犠牲にすることなく実行時間を改善した。

We present a model inversion algorithm, CKLEMAP, for data assimilation and parameter estimation in partial differential equation models of physical systems with spatially heterogeneous parameter fields. These fields are approximated using low-dimensional conditional Karhunen-Lo\'{e}ve expansions, which are constructed using Gaussian process regression models of these fields trained on the parameters' measurements. We then assimilate measurements of the state of the system and compute the maximum a posteriori estimate of the CKLE coefficients by solving a nonlinear least-squares problem. When solving this optimization problem, we efficiently compute the Jacobian of the vector objective by exploiting the sparsity structure of the linear system of equations associated with the forward solution of the physics problem. The CKLEMAP method provides better scalability compared to the standard MAP method. In the MAP method, the number of unknowns to be estimated is equal to the number of elements in the numerical forward model. On the other hand, in CKLEMAP, the number of unknowns (CKLE coefficients) is controlled by the smoothness of the parameter field and the number of measurements, and is in general much smaller than the number of discretization nodes, which leads to a significant reduction of computational cost with respect to the standard MAP method. To show its advantage in scalability, we apply CKLEMAP to estimate the transmissivity field in a two-dimensional steady-state subsurface flow model of the Hanford Site by assimilating synthetic measurements of transmissivity and hydraulic head. We find that the execution time of CKLEMAP scales nearly linearly as $N^{1.33}$, where $N$ is the number of discretization nodes, while the execution time of standard MAP scales as $N^{2.91}$. The CKLEMAP method improved execution time without sacrificing accuracy when compared to the standard MAP.
翻訳日:2023-01-27 12:57:42 公開日:2023-01-26
# 入力整合性を考慮した自己監督RGB-T追跡

Self-Supervised RGB-T Tracking with Cross-Input Consistency ( http://arxiv.org/abs/2301.11274v1 )

ライセンス: Link先を確認
Xingchen Zhang and Yiannis Demiris(参考訳) 本稿では,自己教師付きRGB-Tトラッキング手法を提案する。 トレーニングに多数の注釈付きRGB-Tイメージペアを使用する既存のディープRGB-Tトラッカーとは異なり、RGB-TトラッカーはラベルなしRGB-Tビデオペアを自己管理的にトレーニングする。 本稿では,異なる入力を用いて追跡を行うことができるという考え方に基づく,新たなクロス入力一貫性に基づく自己教師付き学習戦略を提案する。 具体的には、ラベルのないRGB-Tビデオペアを用いて、2つの異なる入力を構築する。 次に、これらの2つの入力を使ってオブジェクトを追跡して結果を生成します。 一方,低品質トレーニングサンプルに対して損失関数を堅牢化するための再重み付け手法を提案する。 我々は,シームズ相関フィルタネットワーク上にトラッカーを構築する。 我々の知る限りでは、トラッカーは初めての自己監督型RGB-Tトラッカーである。 2つの公開RGB-T追跡ベンチマークの大規模な実験は、提案したトレーニング戦略が有効であることを示す。 注目すべきは、ラベルなしのRGB-Tビデオペアのコーパスだけでトレーニングされているにも関わらず、我々のトラッカーはGTOTデータセット上で7つの教師付きRGB-Tトラッカーより優れています。

In this paper, we propose a self-supervised RGB-T tracking method. Different from existing deep RGB-T trackers that use a large number of annotated RGB-T image pairs for training, our RGB-T tracker is trained using unlabeled RGB-T video pairs in a self-supervised manner. We propose a novel cross-input consistency-based self-supervised training strategy based on the idea that tracking can be performed using different inputs. Specifically, we construct two distinct inputs using unlabeled RGB-T video pairs. We then track objects using these two inputs to generate results, based on which we construct our cross-input consistency loss. Meanwhile, we propose a reweighting strategy to make our loss function robust to low-quality training samples. We build our tracker on a Siamese correlation filter network. To the best of our knowledge, our tracker is the first self-supervised RGB-T tracker. Extensive experiments on two public RGB-T tracking benchmarks demonstrate that the proposed training strategy is effective. Remarkably, despite training only with a corpus of unlabeled RGB-T video pairs, our tracker outperforms seven supervised RGB-T trackers on the GTOT dataset.
翻訳日:2023-01-27 12:57:14 公開日:2023-01-26
# AlignGraph: グラフ生成モデルのグループ

AlignGraph: A Group of Generative Models for Graphs ( http://arxiv.org/abs/2301.11273v1 )

ライセンス: Link先を確認
Kimia Shayestehfard, Dana Brooks, Stratis Ioannnidis(参考訳) 置換不変性が欠如しているため、生成モデルがグラフ上の分布を学ぶことは困難である: ノードはグラフ間で任意に順序付けされ、標準グラフアライメントは組合せ的で、悪名高い。 本稿では,高速かつ効率的なグラフアライメント手法と,ノード置換に不変な深い生成モデル群を組み合わせた生成モデル群であるalignedgraphを提案する。 実験の結果,本フレームワークはグラフ分布の学習に成功し,関連するパフォーマンススコアにおいて,競争相手を25%~560%上回った。

It is challenging for generative models to learn a distribution over graphs because of the lack of permutation invariance: nodes may be ordered arbitrarily across graphs, and standard graph alignment is combinatorial and notoriously expensive. We propose AlignGraph, a group of generative models that combine fast and efficient graph alignment methods with a family of deep generative models that are invariant to node permutations. Our experiments demonstrate that our framework successfully learns graph distributions, outperforming competitors by 25% -560% in relevant performance scores.
翻訳日:2023-01-27 12:56:55 公開日:2023-01-26
# Pairwise と $K$-wise の比較による人間のフィードバックによる原則強化学習

Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons ( http://arxiv.org/abs/2301.11270v1 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。 解析により、真の報酬関数が線型であるとき、広く用いられる最大極大推定器(MLE)はブラッドリー・テリー・ルーシ(BTL)モデルとプラケット・ルーシ(PL)モデルの両方に収束することを示した。 しかし、学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。 さらに、plモデルの下では、$k$-wise比較をペアワイズ比較に分割する真のmleと代替mleの両方が収束することを示す。 さらに、真のMLEは漸近的により効率的である。 InstructGPTにおける既存のRLHFアルゴリズムの実証的成功を検証し,アルゴリズム設計の新しい知見を提供する。 さらに,本結果はRLHFとMax Entropy Inverse Reinforcement Learningの問題を統一し,両問題に限定した最初のサンプル複雑性を提供する。

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and Max Entropy Inverse Reinforcement Learning, and provide the first sample complexity bound for both problems.
翻訳日:2023-01-27 12:56:44 公開日:2023-01-26
# 確率的制約によるオンライン凸最適化:ゼロ制約違反とバンディットフィードバック

Online Convex Optimization with Stochastic Constraints: Zero Constraint Violation and Bandit Feedback ( http://arxiv.org/abs/2301.11267v1 )

ライセンス: Link先を確認
Yeongjong Kim, Dabeen Lee(参考訳) 本稿では,オンライン凸最適化と確率的制約について検討する。 本研究では,一定の回数の反復を繰り返すと,o(\sqrt{t})$制約違反を保証し,o(\sqrt{t})$制約違反でバニラドリフトプラスペナルティ法を改善するドリフトプラスペナルティアルゴリズムの変種を提案する。 我々のアルゴリズムは、バニラドリフトプラスペナルティ法とは対照的に、時間軸$t$の長さに従わない。 これは、仮想キュードリフトの時間変化バウンダリを提供し、その結果、期待される仮想キュー長の時間変化バウンダリをもたらす、我々の新しいドリフトレンマに基づいている。 さらに,このフレームワークを2点の帯域フィードバックの下で,確率制約付きオンライン凸最適化に拡張する。 アルゴリズムフレームワークを帯域フィードバック設定に適応させることで、同じ制約関数の場合の以前の作業を改善して、期待された後悔とゼロ制約違反を達成できることが示される。 数値結果は理論的な結果を示している。

This paper studies online convex optimization with stochastic constraints. We propose a variant of the drift-plus-penalty algorithm that guarantees $O(\sqrt{T})$ expected regret and zero constraint violation, after a fixed number of iterations, which improves the vanilla drift-plus-penalty method with $O(\sqrt{T})$ constraint violation. Our algorithm is oblivious to the length of the time horizon $T$, in contrast to the vanilla drift-plus-penalty method. This is based on our novel drift lemma that provides time-varying bounds on the virtual queue drift and, as a result, leads to time-varying bounds on the expected virtual queue length. Moreover, we extend our framework to stochastic-constrained online convex optimization under two-point bandit feedback. We show that by adapting our algorithmic framework to the bandit feedback setting, we may still achieve $O(\sqrt{T})$ expected regret and zero constraint violation, improving upon the previous work for the case of identical constraint functions. Numerical results demonstrate our theoretical results.
翻訳日:2023-01-27 12:56:23 公開日:2023-01-26
# 原発性開放隅角緑内障の診断における深層学習モデルの低診断と過診断バイアスの評価

Evaluate underdiagnosis and overdiagnosis bias of deep learning model on primary open-angle glaucoma diagnosis in under-served patient populations ( http://arxiv.org/abs/2301.11315v1 )

ライセンス: Link先を確認
Mingquan Lin, Yuyun Xiao, Bojian Hou, Tingyi Wanyan, Mohit Manoj Sharma, Zhangyang Wang, Fei Wang, Sarah Van Tassel, Yifan Peng(参考訳) アメリカ合衆国では、特にアフリカ系アメリカ人やヒスパニック人の間で、原発性開放角緑内障(POAG)が盲目の主要な原因となっている。 深層学習は、眼底画像を用いたPOAGの検出に広く用いられており、その性能は臨床医の診断に匹敵するか、超えている。 しかし、臨床診断における人間のバイアスは、広く使われているディープラーニングモデルに反映され増幅され、それによってパフォーマンスに影響を及ぼす可能性がある。 バイアスは(1)過度の診断を引き起こし、遅滞または不適切な治療のリスクを増加させ、(2)過度な診断は個人のストレス、恐怖、幸福感、不必要な/費用的な治療を増加させる可能性がある。 本研究では,米国16州22施設における眼圧亢進症治療研究(ohts)に基づき,気孔検出に深層学習を適用した際の過度診断と過度診断について検討した。 以上の結果から,広く使用されている深層学習モデルでは,人口過多の診断が可能であることが示唆された。 最も低い診断群は女性若年者(<60 yrs)群であり、最も過度に診断された群は黒人高齢者(>60 yrs)群である。 従来の深層学習手法による偏りのある診断は、疾患の検出、治療を遅らせ、未保存集団間の負担を生じさせ、眼科診療所における深層学習モデルの使用に関する倫理的懸念を引き起こす可能性がある。

In the United States, primary open-angle glaucoma (POAG) is the leading cause of blindness, especially among African American and Hispanic individuals. Deep learning has been widely used to detect POAG using fundus images as its performance is comparable to or even surpasses diagnosis by clinicians. However, human bias in clinical diagnosis may be reflected and amplified in the widely-used deep learning models, thus impacting their performance. Biases may cause (1) underdiagnosis, increasing the risks of delayed or inadequate treatment, and (2) overdiagnosis, which may increase individuals' stress, fear, well-being, and unnecessary/costly treatment. In this study, we examined the underdiagnosis and overdiagnosis when applying deep learning in POAG detection based on the Ocular Hypertension Treatment Study (OHTS) from 22 centers across 16 states in the United States. Our results show that the widely-used deep learning model can underdiagnose or overdiagnose underserved populations. The most underdiagnosed group is female younger (< 60 yrs) group, and the most overdiagnosed group is Black older (>=60 yrs) group. Biased diagnosis through traditional deep learning methods may delay disease detection, treatment and create burdens among under-served populations, thereby, raising ethical concerns about using deep learning models in ophthalmology clinics.
翻訳日:2023-01-27 12:51:02 公開日:2023-01-26
# LoRaLay:Long Range and Layout-Aware Summarizationのためのマルチ言語およびマルチモーダルデータセット

LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization ( http://arxiv.org/abs/2301.11312v1 )

ライセンス: Link先を確認
Laura Nguyen, Thomas Scialom, Benjamin Piwowarski, Jacopo Staiano(参考訳) テキスト要約は自然言語処理コミュニティにとって人気のあるタスクであり、活発な研究領域である。 定義上は、ニューラルモデルに計算上の課題をもたらす特徴である長い入力テキストを考慮する必要がある。 さらに、現実世界のドキュメントには、複雑で視覚的にリッチなレイアウトがある。 この情報は、有能なコンテンツをハイライトするか、テキストパス間の長距離インタラクションをエンコードするか、非常に関連性が高い。 しかし、すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。 視覚的/レイアウト情報を利用して、要約モデルの長距離依存性をよりよく把握する方法を研究するために、視覚的/レイアウト情報を伴う長距離要約のためのデータセットコレクションであるLoRaLayを提案する。 我々は既存の英語データセット(arxivとpubmed)をレイアウト情報と共に拡張し、フランス語、スペイン語、ポルトガル語、韓国語をカバーする4つの新しいデータセットを提案する。 さらに,2つの直交アプローチであるレイアウト認識モデルと長距離モデルを組み合わせた新しいベースラインを提案する。

Text Summarization is a popular task and an active area of research for the Natural Language Processing community. By definition, it requires to account for long input texts, a characteristic which poses computational challenges for neural models. Moreover, real-world documents come in a variety of complex, visually-rich, layouts. This information is of great relevance, whether to highlight salient content or to encode long-range interactions between textual passages. Yet, all publicly available summarization datasets only provide plain text content. To facilitate research on how to exploit visual/layout information to better capture long-range dependencies in summarization models, we present LoRaLay, a collection of datasets for long-range summarization with accompanying visual/layout information. We extend existing and popular English datasets (arXiv and PubMed) with layout information and propose four novel datasets -- consistently built from scholar resources -- covering French, Spanish, Portuguese, and Korean languages. Further, we propose new baselines merging layout-aware and long-range models -- two orthogonal approaches -- and obtain state-of-the-art results, showing the importance of combining both lines of research.
翻訳日:2023-01-27 12:50:34 公開日:2023-01-26
# タスクとドメイン間で転送する優れた機能を学ぶ

Learning Good Features to Transfer Across Tasks and Domains ( http://arxiv.org/abs/2301.11310v1 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Adriano Cardace, Luca De Luigi, Alessio Tonioni, Samuele Salti, Luigi Di Stefano(参考訳) ラベル付きデータの可用性は、新しいドメインにおけるコンピュータビジョンタスクのためのディープラーニングアルゴリズムの展開の大きな障害である。 異なるタスクを解決するために採用された多くのフレームワークが同じアーキテクチャを共有しているという事実は、特定の環境で学んだ知識を再利用して新しいタスクを限定的あるいは追加的な監督なしに解決する方法があることを示唆している。 本稿ではまず,特定の領域におけるタスク固有の深層機能間のマッピングを学習することで,その知識をタスク間で共有できることを示す。 次に,このマッピング関数はニューラルネットワークによって実装され,新たな未知領域に一般化できることを示す。 さらに,学習対象の機能空間を制約し,学習の容易化とマッピングネットワークの一般化能力の向上を図り,フレームワークの最終的な性能を大幅に向上させる戦略を提案する。 本提案は,単眼深度推定と意味セグメンテーションタスクの知識を伝達することにより,合成から現実への適応シナリオに挑戦する説得力のある結果を得る。

Availability of labelled data is the major obstacle to the deployment of deep learning algorithms for computer vision tasks in new domains. The fact that many frameworks adopted to solve different tasks share the same architecture suggests that there should be a way of reusing the knowledge learned in a specific setting to solve novel tasks with limited or no additional supervision. In this work, we first show that such knowledge can be shared across tasks by learning a mapping between task-specific deep features in a given domain. Then, we show that this mapping function, implemented by a neural network, is able to generalize to novel unseen domains. Besides, we propose a set of strategies to constrain the learned feature spaces, to ease learning and increase the generalization capability of the mapping network, thereby considerably improving the final performance of our framework. Our proposal obtains compelling results in challenging synthetic-to-real adaptation scenarios by transferring knowledge between monocular depth estimation and semantic segmentation tasks.
翻訳日:2023-01-27 12:50:14 公開日:2023-01-26
# SemSup-XC:zeroとFew-shot Extremeのセマンティックスーパービジョン

SemSup-XC: Semantic Supervision for Zero and Few-shot Extreme Classification ( http://arxiv.org/abs/2301.11309v1 )

ライセンス: Link先を確認
Pranjal Aggarwal, Ameet Deshpande, Karthik Narasimhan(参考訳) エクストリーム分類(xc)は、ニュース記事の分類やeコマース商品のタグ付けといった現実世界のアプリケーションを含む、大量のクラス(数千から数百万)の予測を伴う。 このタスクのゼロショットバージョンは、追加の監督なしで新しいクラスへの一般化を必要とする。 本稿では,法的,電子商取引,ウィキペディアのデータから得られた3つのXCデータセットに対して,最先端のゼロショットと少数ショットのパフォーマンスを実現するモデルであるSemSup-XCを開発する。 SemSup-XCを開発するために、セマンティッククラス記述を自動的に収集し、クラスを表現し、セマンティックと語彙の類似性を組み合わせた入力インスタンスとクラス記述をマッチングする新しいハイブリッドマッチングモジュールによる一般化を容易にする。 対照的な学習でトレーニングされたsemsup-xcは、ベースラインを著しく上回り、3つのデータセットすべてで最先端のパフォーマンスを確立し、ゼロショットで最大12点、ワンショットテストで10点以上を獲得し、リコール@10も同様に向上した。 アブレーション研究では,ハイブリッドマッチングモジュールの相対的重要性とクラス記述の自動収集が強調された。

Extreme classification (XC) involves predicting over large numbers of classes (thousands to millions), with real-world applications like news article classification and e-commerce product tagging. The zero-shot version of this task requires generalization to novel classes without additional supervision. In this paper, we develop SemSup-XC, a model that achieves state-of-the-art zero-shot and few-shot performance on three XC datasets derived from legal, e-commerce, and Wikipedia data. To develop SemSup-XC, we use automatically collected semantic class descriptions to represent classes and facilitate generalization through a novel hybrid matching module that matches input instances to class descriptions using a combination of semantic and lexical similarity. Trained with contrastive learning, SemSup-XC significantly outperforms baselines and establishes state-of-the-art performance on all three datasets considered, gaining up to 12 precision points on zero-shot and more than 10 precision points on one-shot tests, with similar gains for recall@10. Our ablation studies highlight the relative importance of our hybrid matching module and automatically collected class descriptions.
翻訳日:2023-01-27 12:49:57 公開日:2023-01-26
# 不規則サンプリング時間列に対するニューラル連続離散状態空間モデル

Neural Continuous-Discrete State Space Models for Irregularly-Sampled Time Series ( http://arxiv.org/abs/2301.11308v1 )

ライセンス: Link先を確認
Abdul Fatir Ansari, Alvin Heng, Andre Lim, Harold Soh(参考訳) 実世界の動的現象(例えば気候、生物)の正確な予測モデルを学ぶことは難しい課題である。 鍵となる問題は、自然プロセスと人工プロセスの両方によって生成されたデータは、しばしば不規則にサンプリングされ、または欠落した観察を含む時系列で構成されていることである。 本研究では,離散時間観測による時系列連続時間モデリングのためのニューラル連続離散状態空間モデル(NCDSSM)を提案する。 NCDSSMは補助変数を用いて力学からの認識をアンタングルし、補助変数のみに償却推論を必要とする。 連続離散フィルタリング理論の手法を活用して,動的状態の正確なベイズ推定を行う方法を示す。 本研究では,潜在ダイナミクスの3つの柔軟なパラメータ化と,推論中に動的状態を限界化する効率的な学習目標を提案する。 様々なドメインにわたる複数のベンチマークデータセットでの実証結果は、既存のモデルに対するncdssmのインプテーションと予測性能が改善されたことを示している。

Learning accurate predictive models of real-world dynamic phenomena (e.g., climate, biological) remains a challenging task. One key issue is that the data generated by both natural and artificial processes often comprise time series that are irregularly sampled and/or contain missing observations. In this work, we propose the Neural Continuous-Discrete State Space Model (NCDSSM) for continuous-time modeling of time series through discrete-time observations. NCDSSM employs auxiliary variables to disentangle recognition from dynamics, thus requiring amortized inference only for the auxiliary variables. Leveraging techniques from continuous-discrete filtering theory, we demonstrate how to perform accurate Bayesian inference for the dynamic states. We propose three flexible parameterizations of the latent dynamics and an efficient training objective that marginalizes the dynamic states during inference. Empirical results on multiple benchmark datasets across various domains show improved imputation and forecasting performance of NCDSSM over existing models.
翻訳日:2023-01-27 12:49:33 公開日:2023-01-26
# DetectGPT:確率曲線を用いたゼロショットマシン生成テキスト検出

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature ( http://arxiv.org/abs/2301.11305v1 )

ライセンス: Link先を確認
Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn(参考訳) 大規模言語モデル(llm)の流動性と事実知識は、テキストが機械書きであるかどうかを検出するための対応するシステムの必要性を高める。 例えば、学生はllmを使って文章の割り当てを完了し、インストラクターは学生の学習を正確に評価できない。 本稿では, LLM からサンプリングしたテキストが, モデルの対数確率関数の負の曲率領域を占める傾向があることを示す。 この観察を生かして、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。 このアプローチは detectiongpt と呼ばれ、個別の分類器を訓練したり、実文や生成文のデータセットを収集したり、生成されたテキストを明示的にウォーターマークしたりする必要がありません。 興味のモデルと他の一般的な事前訓練された言語モデル(例えばT5)からのパスのランダムな摂動によって計算されるログ確率のみを使用する。 本研究では,20Bパラメータ GPT-NeoX による偽ニュース記事の検出を,最強ゼロショットベースラインの 0.81 AUROC から DetectGPT の 0.95 AUROC に改善した。 コード、データ、その他のプロジェクト情報についてはhttps://ericmitchell.ai/detectgptを参照してください。

The fluency and factual knowledge of large language models (LLMs) heightens the need for corresponding systems to detect whether a piece of text is machine-written. For example, students may use LLMs to complete written assignments, leaving instructors unable to accurately assess student learning. In this paper, we first demonstrate that text sampled from an LLM tends to occupy negative curvature regions of the model's log probability function. Leveraging this observation, we then define a new curvature-based criterion for judging if a passage is generated from a given LLM. This approach, which we call DetectGPT, does not require training a separate classifier, collecting a dataset of real or generated passages, or explicitly watermarking generated text. It uses only log probabilities computed by the model of interest and random perturbations of the passage from another generic pre-trained language model (e.g, T5). We find DetectGPT is more discriminative than existing zero-shot methods for model sample detection, notably improving detection of fake news articles generated by 20B parameter GPT-NeoX from 0.81 AUROC for the strongest zero-shot baseline to 0.95 AUROC for DetectGPT. See https://ericmitchell.ai/detectgpt for code, data, and other project information.
翻訳日:2023-01-27 12:49:20 公開日:2023-01-26
# 不連続最適輸送写像のミニマックス推定:半離散の場合

Minimax estimation of discontinuous optimal transport maps: The semi-discrete case ( http://arxiv.org/abs/2301.11302v1 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian, Vincent Divol, Jonathan Niles-Weed(参考訳) 我々は,2つの確率分布間の最適輸送写像,$P$と$Q$ in $\mathbb R^d$を,i.d.サンプルに基づいて推定する問題を考える。 既存の統計分析では、輸送写像がリプシッツであるという仮定が必要であり、特に輸送写像が不連続であるような例を除外する強い要求である。 不連続写像の推定手順を開発するための第一歩として、データ分布 $Q$ が $\mathbb R^d$ の有限点上で支えられる離散測度である重要な特別な場合を考える。 本研究では,2021年にpooladian と niles-weed (niles-weed) によって提唱された,エントロピー的最適移動に基づく計算効率の高い推定器について検討し,次元に依存しない最小最適速度 $n^{-1/2}$ で収束することを示す。 他の標準的な地図推定手法はこの設定において有限個の保証を欠き、明らかに次元の呪いに苦しむ。 我々はこれらの結果を数値実験で確認し, エントロピック推定器が他の不連続輸送地図推定問題に対して有望な手法であることを示唆する, 本理論ではカバーされていない他の設定に対する実験を行う。

We consider the problem of estimating the optimal transport map between two probability distributions, $P$ and $Q$ in $\mathbb R^d$, on the basis of i.i.d. samples. All existing statistical analyses of this problem require the assumption that the transport map is Lipschitz, a strong requirement that, in particular, excludes any examples where the transport map is discontinuous. As a first step towards developing estimation procedures for discontinuous maps, we consider the important special case where the data distribution $Q$ is a discrete measure supported on a finite number of points in $\mathbb R^d$. We study a computationally efficient estimator initially proposed by Pooladian and Niles-Weed (2021), based on entropic optimal transport, and show in the semi-discrete setting that it converges at the minimax-optimal rate $n^{-1/2}$, independent of dimension. Other standard map estimation techniques both lack finite-sample guarantees in this setting and provably suffer from the curse of dimensionality. We confirm these results in numerical experiments, and provide experiments for other settings, not covered by our theory, which indicate that the entropic estimator is a promising methodology for other discontinuous transport map estimation problems.
翻訳日:2023-01-27 12:48:55 公開日:2023-01-26
# zico:勾配の変動の逆係数によるゼロショットnas

ZiCo: Zero-shot NAS via Inverse Coefficient of Variation on Gradients ( http://arxiv.org/abs/2301.11300v1 )

ライセンス: Link先を確認
Guihong Li, Yuedong Yang, Kartikeya Bhardwaj, Radu Marculescu(参考訳) neural architecture search (nas) は、多数の候補アーキテクチャの中で最適なパフォーマンスを持つニューラルネットワークを自動設計するために広く使われている。 検索時間を短縮するため、ゼロショットnasは、所定のアーキテクチャのテストパフォーマンスを予測するトレーニングフリープロキシを設計することを目的としている。 しかし、最近示したように、現在提案されているゼロショットプロキシは、実際にはネイティブなプロキシ、すなわちネットワークパラメータ(#param)よりも一貫して機能することができない。 この状況を改善するために、まず、異なるサンプルにまたがる特定の勾配特性が、ニューラルネットワークの収束速度と一般化能力にどのように影響するかを明らかにする。 この理論解析に基づいて、我々は#Paramsよりも一貫して動作する最初のプロキシであるZiCoというゼロショットプロキシを提案する。 我々は、複数のアプリケーション(画像分類/再構成や画素レベルの予測など)において、複数のNASベンチマーク(NASBench101, NATSBench-SSS/TSS, TransNASBench-101)上で、ZiCoがState-Of-The-Art(SOTA)プロキシよりも優れていることを示した。 最後に,zicoが採用する最適アーキテクチャは,単発および複数ショットのnas法と同等に競争力があるが,検索時間がはるかに少ないことを示す。 例えば、ZiCoベースのNASは、イメージネットで0.4GPU日以内に450M、600M、1000M FLOPの推論予算の下で78.1%、79.4%、80.4%のテスト精度で最適なアーキテクチャを見つけることができる。

Neural Architecture Search (NAS) is widely used to automatically design the neural network with the best performance among a large number of candidate architectures. To reduce the search time, zero-shot NAS aims at designing training-free proxies that can predict the test performance of a given architecture. However, as shown recently, none of the zero-shot proxies proposed to date can actually work consistently better than a naive proxy, namely, the number of network parameters (#Params). To improve this state of affairs, as the main theoretical contribution, we first reveal how some specific gradient properties across different samples impact the convergence rate and generalization capacity of neural networks. Based on this theoretical analysis, we propose a new zero-shot proxy, ZiCo, the first proxy that works consistently better than #Params. We demonstrate that ZiCo works better than State-Of-The-Art (SOTA) proxies on several popular NAS-Benchmarks (NASBench101, NATSBench-SSS/TSS, TransNASBench-101) for multiple applications (e.g., image classification/reconstruction and pixel-level prediction). Finally, we demonstrate that the optimal architectures found via ZiCo are as competitive as the ones found by one-shot and multi-shot NAS methods, but with much less search time. For example, ZiCo-based NAS can find optimal architectures with 78.1%, 79.4%, and 80.4% test accuracy under inference budgets of 450M, 600M, and 1000M FLOPs on ImageNet within 0.4 GPU days.
翻訳日:2023-01-27 12:48:30 公開日:2023-01-26
# コインサンプリング:学習率のない勾配に基づくベイズ推論

Coin Sampling: Gradient-Based Bayesian Inference without Learning Rates ( http://arxiv.org/abs/2301.11294v1 )

ライセンス: Link先を確認
Louis Sharrock, Christopher Nemeth(参考訳) 近年、svgd (stein variational gradient descent) のような粒子ベース変分推論 (parvi) 法はベイズ推定のスケーラブルな手法として人気が高まっている。 残念ながら、そのような手法の特性は学習率などのハイパーパラメータに必ず依存しており、適切なレートで目標尺度への収束を確保するためには、実践者が慎重に調整する必要がある。 本稿では,コインベッティングに基づくスケーラブルベイズ推論のための新しい粒子ベースの手法について紹介する。 本稿では,ParVIアルゴリズムに匹敵する性能を示す高次元モデルやデータセットを含む,多種多様な数値例に対するアプローチの性能について述べる。

In recent years, particle-based variational inference (ParVI) methods such as Stein variational gradient descent (SVGD) have grown in popularity as scalable methods for Bayesian inference. Unfortunately, the properties of such methods invariably depend on hyperparameters such as the learning rate, which must be carefully tuned by the practitioner in order to ensure convergence to the target measure at a suitable rate. In this paper, we introduce a suite of new particle-based methods for scalable Bayesian inference based on coin betting, which are entirely learning-rate free. We illustrate the performance of our approach on a range of numerical examples, including several high-dimensional models and datasets, demonstrating comparable performance to other ParVI algorithms.
翻訳日:2023-01-27 12:47:56 公開日:2023-01-26
# 言語モデルからのファクチュアル知識抽出のためのファクチュニング理解

Understanding Finetuning for Factual Knowledge Extraction from Language Models ( http://arxiv.org/abs/2301.11293v1 )

ライセンス: Link先を確認
Mehran Kazemi, Sid Mittal, Deepak Ramachandran(参考訳) Webからの大量のテキストコーパスに事前訓練された言語モデル(LM)は、世界に関する様々な種類の知識を含むことが観察されている。 この観察は知識グラフ構築において新たなエキサイティングなパラダイムをもたらし、手作業によるキュレーションやテキストマイニングの代わりに、LMのパラメータから知識を抽出する。 近年,実知識集合上でのlmsの微調整により,異なる集合からのクエリに対する回答が向上し,その結果,lmsが知識抽出の候補となり,知識グラフ構築が容易であることが示されている。 本稿では,実知識抽出のための微調整lmsの分析を行う。 従来知られていた正の効果とともに、微調整は周波数ショックと呼ばれる(潜在的に有害な)現象にもつながり、テスト時にモデルがトレーニングセットに現れる稀なエンティティを過大に予測し、トレーニングセットに十分に現れない共通エンティティを過大に予測する。 我々は,周波数衝撃がモデル予測の劣化を招き,一点を超えると,周波数衝撃による害は微調整の正の効果を上回り,全体として有害となることを示した。 次に, 1-モデル混合と 2-混合ファインタニングの2つの負の効果を, LMの事前学習タスクと組み合わせて検討する。 2つのソリューションを組み合わせることで、バニラファインタニングよりも大幅に改善された。

Language models (LMs) pretrained on large corpora of text from the web have been observed to contain large amounts of various types of knowledge about the world. This observation has led to a new and exciting paradigm in knowledge graph construction where, instead of manual curation or text mining, one extracts knowledge from the parameters of an LM. Recently, it has been shown that finetuning LMs on a set of factual knowledge makes them produce better answers to queries from a different set, thus making finetuned LMs a good candidate for knowledge extraction and, consequently, knowledge graph construction. In this paper, we analyze finetuned LMs for factual knowledge extraction. We show that along with its previously known positive effects, finetuning also leads to a (potentially harmful) phenomenon which we call Frequency Shock, where at the test time the model over-predicts rare entities that appear in the training set and under-predicts common entities that do not appear in the training set enough times. We show that Frequency Shock leads to a degradation in the predictions of the model and beyond a point, the harm from Frequency Shock can even outweigh the positive effects of finetuning, making finetuning harmful overall. We then consider two solutions to remedy the identified negative effect: 1- model mixing and 2- mixture finetuning with the LM's pre-training task. The two solutions combined lead to significant improvements compared to vanilla finetuning.
翻訳日:2023-01-27 12:47:44 公開日:2023-01-26
# SynthMorph を用いた解剖学的認識と獲得診断関節登録

Anatomy-aware and acquisition-agnostic joint registration with SynthMorph ( http://arxiv.org/abs/2301.11329v1 )

ライセンス: Link先を確認
Malte Hoffmann, Andrew Hoopes, Douglas N. Greve, Bruce Fischl, Adrian V. Dalca(参考訳) アフィン画像の登録は医療画像処理と分析の基礎となる。 古典的アルゴリズムは精度が良いが、新しい画像ペアごとに時間を要する最適化を解く。 ディープラーニング(dl)メソッドは、画像ペアを出力変換にマッピングする関数を学習する。 関数の評価は速いが、大きな変換をキャプチャすることは困難であり、テストイメージの特徴がコントラストや解像度などのトレーニング領域からシフトした場合、ネットワークは苦労する傾向がある。 アフィン法の大部分は、ユーザが整列したい解剖学にも依存せず、アルゴリズムが画像のすべての構造を考慮すれば、登録は不正確になる。 われわれはこれらの欠点に、MRIスキャナーのすぐ外にある前処理なしで、あらゆる脳画像のアフィンで変形可能な登録のための高速で堅牢で使いやすいDLツールで対処する。 まず,様々な神経画像データからアフィン変換を学習する方法を厳格に分析し,現実世界におけるメソッドの挙動を真に把握することを目的とした。 第2に,ラベルマップから大々的に異なる画像が合成されたネットワークをトレーニングするために,最近の戦略を活用する。 第3に、ネットワークが興味のある解剖学と無関係な構造の区別を可能にする、選択された解剖学ラベルの空間的重なりを最適化し、そうでなければ解剖学固有の登録の精度を低下させるコンテンツを除外する前処理の必要性を排除する。 我々は、アフィンモデルと、変形可能な登録と、トレーニング時に見えないMRIプロトコルのランドスケープにおける脳特異的登録テストに関する以前の研究を組み合わせる。 コードとツールをhttps://w3id.org/synthmorphで配布し、単一のエンドツーエンドソリューションで脳MRIの登録を行います。

Affine image registration is a cornerstone of medical-image processing and analysis. While classical algorithms can achieve excellent accuracy, they solve a time-consuming optimization for every new image pair. Deep-learning (DL) methods learn a function that maps an image pair to an output transform. Evaluating the functions is fast, but capturing large transforms can be challenging, and networks tend to struggle if a test-image characteristic shifts from the training domain, such as the contrast or resolution. A majority of affine methods are also agnostic to the anatomy the user wishes to align; the registration will be inaccurate if algorithms consider all structures in the image. We address these shortcomings with a fast, robust, and easy-to-use DL tool for affine and deformable registration of any brain image without preprocessing, right off the MRI scanner. First, we rigorously analyze how competing architectures learn affine transforms across a diverse set of neuroimaging data, aiming to truly capture the behavior of methods in the real world. Second, we leverage a recent strategy to train networks with wildly varying images synthesized from label maps, yielding robust performance across acquisition specifics. Third, we optimize the spatial overlap of select anatomical labels, which enables networks to distinguish between anatomy of interest and irrelevant structures, removing the need for preprocessing that excludes content that would otherwise reduce the accuracy of anatomy-specific registration. We combine the affine model with prior work on deformable registration and test brain-specific registration across a landscape of MRI protocols unseen at training, demonstrating consistent and improved accuracy compared to existing tools. We distribute our code and tool at https://w3id.org/synthmorph, providing a single complete end-to-end solution for registration of brain MRI.
翻訳日:2023-01-27 12:41:03 公開日:2023-01-26
# 教師なしボリュームアニメーション

Unsupervised Volumetric Animation ( http://arxiv.org/abs/2301.11326v1 )

ライセンス: Link先を確認
Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Kyle Olszewski, Jian Ren, Hsin-Ying Lee, Menglei Chai, Sergey Tulyakov(参考訳) 非剛性変形物体の教師なし3次元アニメーションのための新しい手法を提案する。 本手法は,RGBビデオのみからオブジェクトの3次元構造とダイナミックスを学習し,それらを意味的に意味のある部分に分解し,追跡・アニメーションすることができる。 微分可能なPnPアルゴリズムを用いてキーポイント推定器と組み合わせた3Dオートデコーダフレームワークを用いて,本モデルでは基礎となるオブジェクト形状と部分分解を教師なしで学習する。 これにより、3Dセグメンテーション、3Dキーポイント推定、新しいビュー合成、アニメーションを実行できる。 VoxCeleb $256^2$ と TEDXPeople $256^2$ である。 さらに、Catsの256^2$イメージデータセットでは、静止画像から魅力的な3D幾何学を学ぶことも示しています。 最後に,本モデルを用いて,単一または少数の画像からアニマタブルな3Dオブジェクトが得られることを示す。 プロジェクトのWebサイトにあるコードとビジュアルの結果は、https://snap-research.github.io/unsupervised-volumetric-animation を参照してください。

We propose a novel approach for unsupervised 3D animation of non-rigid deformable objects. Our method learns the 3D structure and dynamics of objects solely from single-view RGB videos, and can decompose them into semantically meaningful parts that can be tracked and animated. Using a 3D autodecoder framework, paired with a keypoint estimator via a differentiable PnP algorithm, our model learns the underlying object geometry and parts decomposition in an entirely unsupervised manner. This allows it to perform 3D segmentation, 3D keypoint estimation, novel view synthesis, and animation. We primarily evaluate the framework on two video datasets: VoxCeleb $256^2$ and TEDXPeople $256^2$. In addition, on the Cats $256^2$ image dataset, we show it even learns compelling 3D geometry from still images. Finally, we show our model can obtain animatable 3D objects from a single or few images. Code and visual results available on our project website, see https://snap-research.github.io/unsupervised-volumetric-animation .
翻訳日:2023-01-27 12:40:28 公開日:2023-01-26
# MusicLM: テキストから音楽を生成する

MusicLM: Generating Music From Text ( http://arxiv.org/abs/2301.11325v1 )

ライセンス: Link先を確認
Andrea Agostinelli, Timo I. Denk, Zal\'an Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank(参考訳) 本稿では,「ゆがんだギターリフに裏打ちされた穏やかなヴァイオリンメロディ」などのテキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストし、数分間連続した24kHzの音楽を生成する。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。 さらに,テキストキャプションに記述されたスタイルに応じて,口笛やハンメドメロディを変換できるという点で,テキストとメロディの両方でmusiclmが条件付け可能であることを実証する。 今後の研究を支援するため、私たちは5.5kの音楽テキストペアからなるデータセットであるMusicCapsを公開しました。

We introduce MusicLM, a model generating high-fidelity music from text descriptions such as "a calming violin melody backed by a distorted guitar riff". MusicLM casts the process of conditional music generation as a hierarchical sequence-to-sequence modeling task, and it generates music at 24 kHz that remains consistent over several minutes. Our experiments show that MusicLM outperforms previous systems both in audio quality and adherence to the text description. Moreover, we demonstrate that MusicLM can be conditioned on both text and a melody in that it can transform whistled and hummed melodies according to the style described in a text caption. To support future research, we publicly release MusicCaps, a dataset composed of 5.5k music-text pairs, with rich text descriptions provided by human experts.
翻訳日:2023-01-27 12:40:10 公開日:2023-01-26
# クラスアクティベーションマッピングのための認証解釈可能性ロバスト性

Certified Interpretability Robustness for Class Activation Mapping ( http://arxiv.org/abs/2301.11324v1 )

ライセンス: Link先を確認
Alex Gu, Tsui-Wei Weng, Pin-Yu Chen, Sijia Liu, Luca Daniel(参考訳) 機械学習モデルの解釈は難しいが、自動運転システムにおけるディープネットワークの安全性を確保するには不可欠である。 自動運転車におけるディープラーニングに基づく知覚モデルの普及により、予測を正確に解釈することが重要である。 様々な手法が提案されているが、そのほとんどは堅牢性に欠ける。 しかし、解釈可能性の堅牢さの証明書を提供するためにはほとんど行われていない。 この方向への一歩を踏み出し、解釈可能性マッピングのためのCORGI(Certifiably prOvable Robustness Guarantees for Interpretability mapping)を提案する。 CORGIは入力画像を取り込み、CAMの解釈可能性マップの上位kピクセルのロバスト性に対する証明可能な下界を与えるアルゴリズムである。 交通標識データを用いたケーススタディによるCORGIの有効性を示すとともに, (4-5x) 最先端攻撃法とは程遠い最小対向摂動に対する下限の証明を行う。

Interpreting machine learning models is challenging but crucial for ensuring the safety of deep networks in autonomous driving systems. Due to the prevalence of deep learning based perception models in autonomous vehicles, accurately interpreting their predictions is crucial. While a variety of such methods have been proposed, most are shown to lack robustness. Yet, little has been done to provide certificates for interpretability robustness. Taking a step in this direction, we present CORGI, short for Certifiably prOvable Robustness Guarantees for Interpretability mapping. CORGI is an algorithm that takes in an input image and gives a certifiable lower bound for the robustness of the top k pixels of its CAM interpretability map. We show the effectiveness of CORGI via a case study on traffic sign data, certifying lower bounds on the minimum adversarial perturbation not far from (4-5x) state-of-the-art attack methods.
翻訳日:2023-01-27 12:39:55 公開日:2023-01-26
# 学習者の結束による深層アンサンブルの合同訓練失敗

Joint Training of Deep Ensembles Fails Due to Learner Collusion ( http://arxiv.org/abs/2301.11323v1 )

ライセンス: Link先を確認
Alan Jeffares, Tennison Liu, Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) 機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。 伝統的に、センシングアルゴリズムは基礎学習者を独立または順次に訓練し、共同パフォーマンスを最適化することを目的としている。 ニューラルネットワークの深いアンサンブルの場合、私たちは真の目的、すなわちアンサンブル全体のジョイントパフォーマンスを直接最適化する機会を提供する。 しかし驚くべきことに、アンサンブルの損失を直接最小化することは、実際にはめったに適用されないようである。 従来の研究は個々のモデルを個別に訓練し、アンサンブルはポストホックを実行した。 本研究は,アンサンブル損失の協調最適化が縮退行動をもたらすという正当な理由によるものであることを示す。 我々は,アンサンブル目標を基礎学習者の強さとそれらの間の多様性に分解することで,この問題に対処する。 共同最適化の結果,基礎学習者が人為的に多様性を膨らませる現象が生じた。 この擬似多様性はトレーニングデータを超えた一般化に失敗し、より大きな一般化ギャップを引き起こす。 この効果の実際的な意義を実証し、場合によっては、独立したトレーニングと共同最適化のバランスが、後者の変性を回避しつつ、前者よりもパフォーマンスを向上できることを見出す。

Ensembles of machine learning models have been well established as a powerful method of improving performance over a single model. Traditionally, ensembling algorithms train their base learners independently or sequentially with the goal of optimizing their joint performance. In the case of deep ensembles of neural networks, we are provided with the opportunity to directly optimize the true objective: the joint performance of the ensemble as a whole. Surprisingly, however, directly minimizing the loss of the ensemble appears to rarely be applied in practice. Instead, most previous research trains individual models independently with ensembling performed post hoc. In this work, we show that this is for good reason - joint optimization of ensemble loss results in degenerate behavior. We approach this problem by decomposing the ensemble objective into the strength of the base learners and the diversity between them. We discover that joint optimization results in a phenomenon in which base learners collude to artificially inflate their apparent diversity. This pseudo-diversity fails to generalize beyond the training data, causing a larger generalization gap. We proceed to demonstrate the practical implications of this effect finding that, in some cases, a balance between independent training and joint optimization can improve performance over the former while avoiding the degeneracies of the latter.
翻訳日:2023-01-27 12:39:38 公開日:2023-01-26
# オフポリシー強化学習のための軌道認識適性トレース

Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2301.11321v1 )

ライセンス: Link先を確認
Brett Daley, Martha White, Christopher Amato, Marlos C. Machado(参考訳) 多段階回帰からのオフポリシー学習はサンプル効率のよい強化学習には不可欠であるが、分散を悪化させることなくオフポリシーバイアスを相殺することは困難である。 伝統的に、オフ・ポリシーのバイアスは分解ごとに補正され、過去の時間差誤差は、適性トレースによる各アクションの後に瞬時重要度サンプリング(is)比率によって再重み付けされる。 多くの非政治アルゴリズムは、IS比をカットしてIS推定器のばらつきに対処するための異なるプロトコルとともに、このメカニズムに依存している。 残念なことに、一度トレースが完全にカットされると、その効果は逆転できない。 これは、一度に複数の過去の経験を説明するクレジット割り当て戦略の開発につながった。 これらの軌道認識法は広くは分析されておらず、理論上の正当性は不明である。 本稿では,分解法と軌道認識法の両方を表現できるマルチステップ演算子を提案する。 表の設定において演算子の収束条件を証明し、既存のいくつかのメソッドと多くの新しいメソッドに対する最初の保証を確立する。 最後に,オフポリシー制御タスクで$\lambda$値に対してロバストに実行するために,軌跡認識を利用するrecency-bounded importance sampling (rbis)を導入する。

Off-policy learning from multistep returns is crucial for sample-efficient reinforcement learning, but counteracting off-policy bias without exacerbating variance is challenging. Classically, off-policy bias is corrected in a per-decision manner: past temporal-difference errors are re-weighted by the instantaneous Importance Sampling (IS) ratio after each action via eligibility traces. Many off-policy algorithms rely on this mechanism, along with differing protocols for cutting the IS ratios to combat the variance of the IS estimator. Unfortunately, once a trace has been fully cut, the effect cannot be reversed. This has led to the development of credit-assignment strategies that account for multiple past experiences at a time. These trajectory-aware methods have not been extensively analyzed, and their theoretical justification remains uncertain. In this paper, we propose a multistep operator that can express both per-decision and trajectory-aware methods. We prove convergence conditions for our operator in the tabular setting, establishing the first guarantees for several existing methods as well as many new ones. Finally, we introduce Recency-Bounded Importance Sampling (RBIS), which leverages trajectory awareness to perform robustly across $\lambda$-values in an off-policy control task.
翻訳日:2023-01-27 12:39:06 公開日:2023-01-26
# 教師なしオブジェクト検出とインスタンス分割のためのカット・アンド・ラーニング

Cut and Learn for Unsupervised Object Detection and Instance Segmentation ( http://arxiv.org/abs/2301.11320v1 )

ライセンス: Link先を確認
Xudong Wang and Rohit Girdhar and Stella X. Yu and Ishan Misra(参考訳) 我々は、教師なしオブジェクトの検出とセグメンテーションモデルを訓練するための簡単なアプローチであるCut-and-LeaRn(CutLER)を提案する。 自己教師付きモデルの特性を利用して、監視なしでオブジェクトを「発見」し、人間のラベルを使わずに最先端のローカライゼーションモデルを訓練する。 CutLERはまず、提案したMaskCutアプローチを使用して、画像内の複数のオブジェクトに対して粗いマスクを生成し、それからロバストな損失関数を使ってこれらのマスクの検出器を学習します。 予測モデルに基づいて自己学習を行うことにより,さらなる性能向上を図る。 以前の作業と比較すると、CutLERはシンプルで、異なる検出アーキテクチャと互換性があり、複数のオブジェクトを検出する。 CutLERはゼロショットの教師なし検出器であり、ビデオフレーム、絵画、スケッチなど11のベンチマークでAP50の検出性能を2.7倍改善している。 微調整により、CutLERは5%ラベルのトレーニングでMoCo-v2を7.3%のAPboxと6.6%のAPmaskに超える低ショット検出器として機能する。

We propose Cut-and-LEaRn (CutLER), a simple approach for training unsupervised object detection and segmentation models. We leverage the property of self-supervised models to 'discover' objects without supervision and amplify it to train a state-of-the-art localization model without any human labels. CutLER first uses our proposed MaskCut approach to generate coarse masks for multiple objects in an image and then learns a detector on these masks using our robust loss function. We further improve the performance by self-training the model on its predictions. Compared to prior work, CutLER is simpler, compatible with different detection architectures, and detects multiple objects. CutLER is also a zero-shot unsupervised detector and improves detection performance AP50 by over 2.7 times on 11 benchmarks across domains like video frames, paintings, sketches, etc. With finetuning, CutLER serves as a low-shot detector surpassing MoCo-v2 by 7.3% APbox and 6.6% APmask on COCO when training with 5% labels.
翻訳日:2023-01-27 12:38:44 公開日:2023-01-26
# アフィントーダ格子の良性ゴーストを持つ高次微分ハミルトン多様体

Higher derivative Hamiltonians with benign ghosts from affine Toda lattices ( http://arxiv.org/abs/2301.11317v1 )

ライセンス: Link先を確認
Andreas Fring and Bethan Turner(参考訳) スミルガの予想のさらなる証拠として、可積分系の高次電荷は、そのパラメータ空間に良性ゴーストセクタを持つ高次微分理論の候補となる。 具体例として、異なるタイプのKac-ムーディ代数に関連する多くのアフィントーダ格子理論に対する古典位相空間の性質について研究する。 高電荷ハミルトニアンを持つ理論のいくつかのタイプのシナリオを同定する: 初期条件に対して安定または極めて敏感な良性ゴーストセクタを持つもの、変数を適切に選択して良性セクタに変換できる不安定なゴーストセクタを持つもの、強変形に対して安定である良性ゴーストセクタを持つ理論である。

We provide further evidence for Smilga's conjecture that higher charges of integrable systems are suitable candidates for higher derivative theories that possess benign ghost sectors in their parameter space. As concrete examples we study the properties of the classical phase spaces for a number of affine Toda lattices theories related to different types of Kac-Moody algebras. We identify several types of scenarios for theories with higher charge Hamiltonians: some that possess benign ghost sectors which are stable or extremely sensitive towards the initial conditions, some that have malevolent ghost sectors that can be converted into benign sectors with an appropriate choice of variables and some theories with benign ghost sectors that are stable towards strong deformations.
翻訳日:2023-01-27 12:38:25 公開日:2023-01-26
# 深層学習におけるオープン問題

Open Problems in Applied Deep Learning ( http://arxiv.org/abs/2301.11316v1 )

ライセンス: Link先を確認
Maziar Raissi(参考訳) 本研究は,二段階最適化問題として機械学習機構を定式化する。 インナーレベル最適化ループは、トレーニングデータで評価された適切に選択された損失関数を最小化する。 最適なモデルパラメータを追求する上で、よく研究されたトレーニングプロセスに過ぎません。 外層最適化ループは十分に研究されておらず、検証データに基づいて評価された適切に選択されたパフォーマンスメトリックを最大化する。 これは我々が「イテレーションプロセス」と呼ぶもので、最適なモデルハイパーパラメータを追求するものです。 他の多くの自由度の中で、このプロセスにはモデルエンジニアリング(例えば、ニューラルネットワークアーキテクチャ設計)とマネジメント、実験追跡、データセットのバージョニング、拡張が含まれる。 イテレーションプロセスは自動機械学習(automl)を通じて自動化するか、あるいは機械学習の学生、エンジニア、研究者の直観に委ねることができる。 経路にかかわらず、反復ステップの計算コストを削減し、直接的な結果として、人工知能アルゴリズムを開発する際の炭素フットプリントを減らす必要がある。 二段階最適化問題としての反復ステップのクリーンで統一的な数学的定式化にもかかわらず、その解はケース固有かつ複雑である。 この研究は、教師付き学習から、半教師付き、自己教師なし、無監督、少数ショット、連合、強化、物理学未形成学習まで、複雑さのレベルを増加させながら、このようなケースを考察する。 この運動の結果、この提案はこの分野の多くの未解決問題に面しており、その多くが並列に扱うことができる。

This work formulates the machine learning mechanism as a bi-level optimization problem. The inner level optimization loop entails minimizing a properly chosen loss function evaluated on the training data. This is nothing but the well-studied training process in pursuit of optimal model parameters. The outer level optimization loop is less well-studied and involves maximizing a properly chosen performance metric evaluated on the validation data. This is what we call the "iteration process", pursuing optimal model hyper-parameters. Among many other degrees of freedom, this process entails model engineering (e.g., neural network architecture design) and management, experiment tracking, dataset versioning and augmentation. The iteration process could be automated via Automatic Machine Learning (AutoML) or left to the intuitions of machine learning students, engineers, and researchers. Regardless of the route we take, there is a need to reduce the computational cost of the iteration step and as a direct consequence reduce the carbon footprint of developing artificial intelligence algorithms. Despite the clean and unified mathematical formulation of the iteration step as a bi-level optimization problem, its solutions are case specific and complex. This work will consider such cases while increasing the level of complexity from supervised learning to semi-supervised, self-supervised, unsupervised, few-shot, federated, reinforcement, and physics-informed learning. As a consequence of this exercise, this proposal surfaces a plethora of open problems in the field, many of which can be addressed in parallel.
翻訳日:2023-01-27 12:38:10 公開日:2023-01-26