このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230129となっている論文です。

PDF登録状況(公開日: 20230129)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダム化および量子化クエリの最適分離

An Optimal Separation of Randomized and Quantum Query Complexity ( http://arxiv.org/abs/2008.10223v4 )

ライセンス: Link先を確認
Alexander A. Sherstov, Andrey A. Storozhenko, and Pei Wu(参考訳) すべての決定木に対して、与えられた順序のフーリエ係数の絶対値は$\ell\geq1$ sum to at least $c^{\ell}\sqrt{\binom{d}{\ell}(1+\log n)^{\ell-1}},$ where $n$ is the number of variables, $d$ is the tree depth, $c>0$ is a absolute constant。 この境界は本質的に厳密であり、Tal (arxiv 2019; FOCS 2020) による予想を決着させる。 作業前のバウンダリは、$\ell,$が$\ell=\sqrt{d}ですでに自明になったことで急速に低下しました。 アプリケーションとして、すべての整数 $k\geq1,$$n$ビット上の部分ブール関数は、最大$k$で境界付きエラー量子クエリの複雑さを持ち、ランダム化されたクエリの複雑さは$\tilde{\Omega}(n^{1-\frac{1}{2k}})である。 aaronson and ambainis (stoc 2015) と bravyi, gosset, grier, schaeffer (2021) の結果により、この境界付きエラー量子とランダム化されたクエリの複雑さの分離が最良である。 我々の研究以前は、最もよく知られた分離は多項式的に弱かった: $o(1)$ vs $\omega(n^{2/3-\epsilon})$ 任意の$\epsilon>0$ (tal, focs 2020)。 別の応用として、$O(\log n)$ vs $\Omega(n^{1-\epsilon})$ for bounded-error quantum versus randomized communication complexity, for any $\epsilon>0.$ 以前の最良の分離は多項式的に弱かった: $O(\log n)$ versus $\Omega(n^{2/3-\epsilon})$ (implicit in Tal, FOCS 2020)。

We prove that for every decision tree, the absolute values of the Fourier coefficients of a given order $\ell\geq1$ sum to at most $c^{\ell}\sqrt{\binom{d}{\ell}(1+\log n)^{\ell-1}},$ where $n$ is the number of variables, $d$ is the tree depth, and $c>0$ is an absolute constant. This bound is essentially tight and settles a conjecture due to Tal (arxiv 2019; FOCS 2020). The bounds prior to our work degraded rapidly with $\ell,$ becoming trivial already at $\ell=\sqrt{d}.$ As an application, we obtain, for every integer $k\geq1,$ a partial Boolean function on $n$ bits that has bounded-error quantum query complexity at most $k$ and randomized query complexity $\tilde{\Omega}(n^{1-\frac{1}{2k}}).$ This separation of bounded-error quantum versus randomized query complexity is best possible, by the results of Aaronson and Ambainis (STOC 2015) and Bravyi, Gosset, Grier, and Schaeffer (2021). Prior to our work, the best known separation was polynomially weaker: $O(1)$ versus $\Omega(n^{2/3-\epsilon})$ for any $\epsilon>0$ (Tal, FOCS 2020). As another application, we obtain an essentially optimal separation of $O(\log n)$ versus $\Omega(n^{1-\epsilon})$ for bounded-error quantum versus randomized communication complexity, for any $\epsilon>0.$ The best previous separation was polynomially weaker: $O(\log n)$ versus $\Omega(n^{2/3-\epsilon})$ (implicit in Tal, FOCS 2020).
翻訳日:2023-05-05 02:21:55 公開日:2023-01-29
# 宇宙の量子物理学

Quantum Physics in Space ( http://arxiv.org/abs/2108.01435v2 )

ライセンス: Link先を確認
Alessio Belenchia, Matteo Carlesso, \"Omer Bayraktar, Daniele Dequal, Ivan Derkach, Giulio Gasbarri, Waldemar Herr, Ying Lia Li, Markus Rademacher, Jasminder Sidhu, Daniel KL Oi, Stephan T. Seidel, Rainer Kaltenbaek, Christoph Marquardt, Hendrik Ulbricht, Vladyslav C. Usenko, Lisa W\"orner, Andr\'e Xuereb, Mauro Paternostro, Angelo Bassi(参考訳) 量子技術の進歩は、基礎物理学の問題が経験的なレベルで探索される方法に革命をもたらしている。 同時に、それらは将来の量子物理学の破壊的な技術応用の種でもある。 驚くべきことに、宇宙ベースの環境は、量子物理学とテクノロジーを探求し利用するために、多くの新しい道を開くかもしれない。 近年,量子技術を用いた基礎研究や応用研究のための宇宙ミッションが提案され,その成果が目覚ましい。 量子物理学とその宇宙応用の組み合わせは、このレビューの焦点である:我々は、宇宙における量子技術で取り組める基本的な科学的問題と、様々な学術的および商業的な目的のためにこれらの技術の可能な実装の両方を扱っている。

Advances in quantum technologies are giving rise to a revolution in the way fundamental physics questions are explored at the empirical level. At the same time, they are the seeds for future disruptive technological applications of quantum physics. Remarkably, a space-based environment may open many new avenues for exploring and employing quantum physics and technologies. Recently, space missions employing quantum technologies for fundamental or applied studies have been proposed and implemented with stunning results. The combination of quantum physics and its space application is the focus of this review: we cover both the fundamental scientific questions that can be tackled with quantum technologies in space and the possible implementation of these technologies for a variety of academic and commercial purposes.
翻訳日:2023-03-20 00:55:18 公開日:2023-01-29
# Rydberg多ビットゲートの電子雲設計

Electron cloud design for Rydberg multi-qubit gates ( http://arxiv.org/abs/2111.01581v3 )

ライセンス: Link先を確認
Mohammadsadegh Khazali and Wolfgang Lechner(参考訳) 本稿では、スピン依存格子中の基底状態原子からのRydberg電子のフェルミ散乱を相互作用源として、光学格子における量子処理を提案する。 ライドバーグ対ポテンシャルに頼る代わりに、相互作用は単独のライドバーグ原子の電子雲によって制御される。 本稿では,安定化器位相演算子とトフォリゲートという2つの顕著なマルチキュービットゲートの実装を提案する。 この新しいスキームは、マルチキュービット演算に対する短命なRydberg状態の人口を抑えることで、Rydberg量子シミュレーションにおける主要なボトルネックに対処する。 このスキームは異なる競合する不忠実性基準を緩和し、不要なクロストークを排除し、密度の高い原子格子での操作を可能にする。 分子タイプRyd-Fermi電位の回復力は、長い相互作用期間にわたってトラップを保っている。 新しいスキームの特徴は、量子最適化と誤り訂正アルゴリズムの実装に特に関心を寄せている。

This article proposes quantum processing in an optical lattice, using Rydberg electron's Fermi scattering from ground-state atoms in spin-dependent lattices as a source of interaction. Instead of relying on Rydberg pair potentials, the interaction is controlled by engineering the electron cloud of a sole Rydberg atom. Here we specifically propose the implementation of two prominent multi-qubit gates i.e. the stabilizer-phase operator and the Toffoli gate. The new scheme addresses the main bottleneck in Rydberg quantum simulation by suppressing the population of short-lived Rydberg states over multi-qubit operations. This scheme mitigates different competing infidelity criteria, eliminates unwanted cross-talks, and allows operations in dense atomic lattices. The restoring forces in the molecule type Ryd-Fermi potential preserve the trapping over a long interaction period. The features in the new scheme are of special interest for the implementation of quantum optimization and error correction algorithms.
翻訳日:2023-03-09 08:59:41 公開日:2023-01-29
# 均質線形微分方程式解のための量子振幅減衰:非干渉アルゴリズム

Quantum amplitude damping for solving homogeneous linear differential equations: A noninterferometric algorithm ( http://arxiv.org/abs/2111.05646v2 )

ライセンス: Link先を確認
Jo\~ao H. Romeiro and Frederico Brito(参考訳) 関連する問題が巨大な構成空間に容易に到達できる状況において、線形微分方程式(LDE)の解法は古典的コンピュータにとって難しい成果となり得るが、一方で量子ハードウェアの台頭は、そのような高次元の問題を予測可能な数量子ビットで概念的に解決し、時間的複雑さの観点から量子的優位性をもたらす。 それでも、数量子ビットの実験的な実現に向けて橋渡しし、そのようなポテンシャルを短期的に得るためには、技術と限界の両方の観点から、最先端ハードウェアの短期的予測と互換性のある効率的な量子アルゴリズムを使わなければならない。 このようなアルゴリズムの概念は自明な作業ではないので、新しいヒューリスティックに関する洞察は歓迎される。 本研究は,同種LDEを解くための効率的な量子アルゴリズムを構築するために,量子振幅減衰演算を資源として利用する新しい手法を提案する。 実装は、単純な等価量子回路を通してのみ振幅減衰を行うため、本アルゴリズムは、ゲートレベル量子回路(通常、基本2量子ビットゲートから構成される)によって与えられるものであり、特に、メインの量子レジスタの内部および間の接続に関して非制限的である。 このようなオープンな量子系にインスパイアされた回路は、非干渉的な方法で解の実際の指数項を構築することが可能であり、基礎となる量子演算の減衰特性を探索することにより、各実現の確率の低い境界を保証するためのガイドラインも提供する。

In contexts where relevant problems can easily attain configuration spaces of enormous sizes, solving Linear Differential Equations (LDEs) can become a hard achievement for classical computers; on the other hand, the rise of quantum hardware can conceptually enable such high-dimensional problems to be solved with a foreseeable number of qubits, whilst also yielding quantum advantage in terms of time complexity. Nevertheless, in order to bridge towards experimental realizations with several qubits and harvest such potential in a short-term basis, one must dispose of efficient quantum algorithms that are compatible with near-term projections of state-of-the-art hardware, in terms of both techniques and limitations. As the conception of such algorithms is no trivial task, insights on new heuristics are welcomed. This work proposes a novel approach by using the Quantum Amplitude Damping operation as a resource, in order to construct an efficient quantum algorithm for solving homogeneous LDEs. As the intended implementation involves performing Amplitude Damping exclusively via a simple equivalent quantum circuit, our algorithm shall be given by a gate-level quantum circuit (predominantly composed of elementary 2-qubit gates) and is particularly nonrestrictive in terms of connectivity within and between some of its main quantum registers. We show that such an open quantum system-inspired circuitry allows for constructing the real exponential terms in the solution in a non-interferometric way; we also provide a guideline for guaranteeing a lower bound on the probability of success for each realization, by exploring the decay properties of the underlying quantum operation.
翻訳日:2023-03-08 12:07:40 公開日:2023-01-29
# シリコンフォトニクスにおける個別アドレス可能およびスペクトルプログラマブル人工原子

Individually Addressable and Spectrally Programmable Artificial Atoms in Silicon Photonics ( http://arxiv.org/abs/2202.02342v2 )

ライセンス: Link先を確認
Mihika Prabhu, Carlos Errando-Herranz, Lorenzo De Santis, Ian Christen, Changchen Chen, Connor Gerlach, and Dirk R. Englund(参考訳) 固体中の人工原子は量子ネットワーク、センシング、計算などの量子情報処理タスクの先駆的なシステムとして登場した。 中心となる目標は、効率的な光学インターフェイスを備えた個別に対応可能な人工原子を正確にかつスケーラブルに制御するためのプラットフォームを開発することである。 最近分離された炭素関連「G中心」のようなシリコンの発色中心は、電気通信Oバンドに直接放出され、シリコンオン絶縁体(SOI)フォトニクスの成熟を利用することができる。 本稿では,soiフォトニック集積回路(pic)プラットフォームにおけるg中心人工原子の生成,個別アドレス,スペクトルトリミングについて述べる。 1278nmにおける中性電荷状態の放出に着目し、標準偏差1.1nm、励起状態寿命8.3$\pm$0.7ns、手術後の劣化なしの導波路結合単光子放射を観測した。 さらに,300 pm (55 GHz)までのスペクトル遷移の光トリミングと,単一人工原子の局所的不活性化技術を導入する。 この不揮発性"スペクトラルプログラミング"により、量子エミッタを25ghzの通信グリッドチャネルにアライメントすることができる。 我々の実証は、極大規模集積(VLSI)フォトニクスにおける埋め込み可能な人工原子に基づく量子情報処理への道を開く。

Artificial atoms in solids have emerged as leading systems for quantum information processing tasks such as quantum networking, sensing, and computing. A central goal is to develop platforms for precise and scalable control of individually addressable artificial atoms that feature efficient optical interfaces. Color centers in silicon, such as the recently-isolated carbon-related 'G-center', exhibit emission directly into the telecommunications O-band and can leverage the maturity of silicon-on-insulator (SOI) photonics. Here, we demonstrate the generation, individual addressing, and spectral trimming of G-center artificial atoms in a SOI photonic integrated circuit (PIC) platform. Focusing on the neutral charge state emission at 1278nm, we observe waveguide-coupled single photon emission with an exceptionally narrow inhomogeneous distribution with standard deviation of 1.1nm, an excited state lifetime of 8.3$\pm$0.7ns, and no degradation after months of operation. In addition, we introduce a technique for optical trimming of spectral transitions up to 300 pm (55 GHz) and local deactivation of single artificial atoms. This non-volatile "spectral programming" enables the alignment of quantum emitters into 25 GHz telecommunication grid channels. Our demonstration opens the path to quantum information processing based on implantable artificial atoms in very large scale integrated (VLSI) photonics.
翻訳日:2023-02-26 20:42:32 公開日:2023-01-29
# 都市におけるパンデミックのためのエージェントベースシミュレータの深層学習による空間的エミュレーション

Deep Learning-based Spatially Explicit Emulation of an Agent-Based Simulator for Pandemic in a City ( http://arxiv.org/abs/2205.14396v2 )

ライセンス: Link先を確認
Varun Madhavan, Adway Mitra, Partha Pratim Chakrabarti(参考訳) エージェントベースモデルは、都市におけるパンデミックの拡散など、物理的または社会的プロセスのシミュレーションに非常に有用である。 このようなモデルは、個人(エージェント)の行動とその相互作用を特定し、都市の地理とデモグラフィに基づいて、そのような相互作用に基づいて感染の過程をパラメータ化する。 しかし、そのようなモデルは非常に高価であり、複雑度はエージェントの総数において線形であることが多い。 これは、しばしばポリシー計画やモデルパラメータ推定のために何百回も実行されなければならないシミュレーションにおけるそのようなモデルの使用を著しく制限する。 別の方法は、エージェントベースシミュレータの出力を初期条件とパラメータに基づいて予測できる代理モデルであるエミュレータを開発することである。 本稿では,そのようなエージェントベースモデルを高精度にエミュレートできる拡張畳み込みニューラルネットワークに基づく深層学習モデルについて述べる。 エージェントベースモデルではなくこのモデルを使用することで,シミュレーションの速度が大幅に向上し,観測に対するキャリブレーションの迅速化と,より広範なシナリオ解析が可能になる。 感染した個体の位置は総数ではなくシミュレートされるので、我々が考慮するモデルは空間的に明らかである。 私たちのエミュレーションフレームワークのもう1つの側面は、都市を複数の小さな重なり合うブロックに分割し、エミュレーションを並列に実行し、その結果をマージする分割・コンカのアプローチである。 これにより、同じエミュレータが任意の大きさの都市でも機能し、オリジナルのシミュレータと比較してエミュレータの時間的複雑さを大幅に改善できる。

Agent-Based Models are very useful for simulation of physical or social processes, such as the spreading of a pandemic in a city. Such models proceed by specifying the behavior of individuals (agents) and their interactions, and parameterizing the process of infection based on such interactions based on the geography and demography of the city. However, such models are computationally very expensive, and the complexity is often linear in the total number of agents. This seriously limits the usage of such models for simulations, which often have to be run hundreds of times for policy planning and even model parameter estimation. An alternative is to develop an emulator, a surrogate model that can predict the Agent-Based Simulator's output based on its initial conditions and parameters. In this paper, we discuss a Deep Learning model based on Dilated Convolutional Neural Network that can emulate such an agent based model with high accuracy. We show that use of this model instead of the original Agent-Based Model provides us major gains in the speed of simulations, allowing much quicker calibration to observations, and more extensive scenario analysis. The models we consider are spatially explicit, as the locations of the infected individuals are simulated instead of the gross counts. Another aspect of our emulation framework is its divide-and-conquer approach that divides the city into several small overlapping blocks and carries out the emulation in them parallelly, after which these results are merged together. This ensures that the same emulator can work for a city of any size, and also provides significant improvement of time complexity of the emulator, compared to the original simulator.
翻訳日:2023-02-19 17:17:56 公開日:2023-01-29
# フレンドシップネットワーク行動の文化的差異:Snapchatのケーススタディ

Cultural Differences in Friendship Network Behaviors: A Snapchat Case Study ( http://arxiv.org/abs/2301.13801v1 )

ライセンス: Link先を確認
Agrima Seth (University of Michigan), Jiyin Cao (Stony Brook University), Xiaolin Shi (Snap Inc.), Ron Dotsch (Snap Inc.), Yozen Liu (Snap Inc.), Maarten W. Bos (Snap Inc.)(参考訳) 文化は人々の行動、オンラインとオフラインの両方を形作る。 驚くべきことに、文化的な文脈がソーシャルメディアにおけるネットワーク形成とコンテンツ消費にどのように影響するか、という研究は少ない。 73か国にまたがるコンテンツ制作者と消費者との友好関係を,クローズドネットワーク環境における文化レンズを用いて分析した。 クローズドネットワークは密接な結合と自己表現を可能にし、行動の文化的差異を研究する自然な環境を提供する。 文化の3つの理論的枠組み(個性主義、関係性モビリティ、タイトネス)を研究した。 異なる文化にまたがって形成された友情ネットワークは,エゴセントリック性(egocentricity,すなわち,ユーザの友人同士のつながり)が異なることがわかった。 個人主義、モビリティ、ゆるみもまた、ネクタイの強さがコンテンツ消費に与える影響に著しく悪影響を及ぼす。 われわれの研究結果は、文化がソーシャルメディアの行動にどのように影響するかを示し、研究者がこれを研究に組み込む方法について概説した。 私たちの仕事はコンテンツレコメンデーションに影響を与え、コンテンツエンゲージメントを改善することができます。

Culture shapes people's behavior, both online and offline. Surprisingly, there is sparse research on how cultural context affects network formation and content consumption on social media. We analyzed the friendship networks and dyadic relations between content producers and consumers across 73 countries through a cultural lens in a closed-network setting. Closed networks allow for intimate bonds and self-expression, providing a natural setting to study cultural differences in behavior. We studied three theoretical frameworks of culture - individualism, relational mobility, and tightness. We found that friendship networks formed across different cultures differ in egocentricity, meaning the connectedness between a user's friends. Individualism, mobility, and looseness also significantly negatively impact how tie strength affects content consumption. Our findings show how culture affects social media behavior, and we outline how researchers can incorporate this in their work. Our work has implications for content recommendations and can improve content engagement.
翻訳日:2023-02-19 13:58:52 公開日:2023-01-29
# OAuth(USPFO)エコシステムのための統一Singular Protocol Flow

Unified Singular Protocol Flow for OAuth (USPFO) Ecosystem ( http://arxiv.org/abs/2301.12496v1 )

ライセンス: Link先を確認
Jaimandeep Singh and Naveen Kumar Chaudhary(参考訳) OAuth 2.0は、Webサイトやモバイルアプリなどのサードパーティクライアントが、他のアプリケーション上でユーザのアカウントに制限されたアクセスを要求できる、一般的な認証フレームワークである。 仕様は、クライアントの認証情報を機密保持する能力に基づいて、クライアントを異なるタイプに分類する。 また、保護されたリソースへのアクセスを取得するための様々な付与タイプも記述しており、認可コードと暗黙の付与が最も一般的に使用される。 各クライアントタイプと関連する付与タイプは、それぞれ独自のセキュリティとユーザビリティを考慮しています。 本稿では,異なるクライアントと許可型を組み合わせたoauthエコシステムの新たなアプローチとして,機密クライアントと公開クライアントの両方で使用可能なuspfo(unified singular protocol flow for oauth)を提案する。 このアプローチは、異なるクライアントタイプの実装と設定に関連する脆弱性を減らすことを目的としている。 さらに、クライアントの偽造、トークン(またはコード)盗難、整合性、認証、オーディエンスバインディングによる攻撃などの既知のOAuth 2.0脆弱性に対するビルトイン保護を提供する。 提案されたUSPFOは、既存のInternet Engineering Task Force (IETF) Proposed Standard Request for Comments (RFC)、OAuth 2.0拡張、アクティブなインターネットドラフトと互換性がある。

OAuth 2.0 is a popular authorization framework that allows third-party clients such as websites and mobile apps to request limited access to a user's account on another application. The specification classifies clients into different types based on their ability to keep client credentials confidential. It also describes different grant types for obtaining access to the protected resources, with the authorization code and implicit grants being the most commonly used. Each client type and associated grant type have their unique security and usability considerations. In this paper, we propose a new approach for OAuth ecosystem that combines different client and grant types into a unified singular protocol flow for OAuth (USPFO), which can be used by both confidential and public clients. This approach aims to reduce the vulnerabilities associated with implementing and configuring different client types and grant types. Additionally, it provides built-in protections against known OAuth 2.0 vulnerabilities such as client impersonation, token (or code) thefts and replay attacks through integrity, authenticity, and audience binding. The proposed USPFO is largely compatible with existing Internet Engineering Task Force (IETF) Proposed Standard Request for Comments (RFCs), OAuth 2.0 extensions and active internet drafts.
翻訳日:2023-02-19 13:55:43 公開日:2023-01-29
# フリップ教室における音声対話からの学習分析

Learning Analytics from Spoken Discussion Dialogs in Flipped Classroom ( http://arxiv.org/abs/2301.12399v1 )

ライセンス: Link先を確認
Hang Su, Borislav Dzodzo, Changlun Li, Danyang Zhao, Hao Geng, Yunxiang Li, Sidharth Jaggi, and Helen Meng(参考訳) ひっくり返された教室は、近年重要性を増している新しい教育戦略である。 学生の学習の過程や進行を示す豊富な情報を組み込んだ授業で、会話の会話が頻繁に行われる。 本研究は, グループ学習のプロセスや成果を知るために, 授業中の会話談話を収集し, 分析することを目的とした授業における会話談話からの学習分析に焦点を当てた。 我々は最近,授業におけるグループベースの問題解決議論に先立ち,家庭でビデオ録画講義を視聴する授業戦略を転換した。 クラス内での議論は学期を通して記録され、手書きで書き起こされた。 複数のツールとカスタマイズされた処理技術によってダイアログから特徴を抽出した後、フリップ教室における対面対話ダイアログからグループ学習結果に関連する指標を検討するために統計的分析を行った。 次に、その指標に機械学習アルゴリズムを適用して、グループ学習結果をHigh, Mid, Lowと予測する。 最良予測精度は78.9%に達し, 対向教室におけるグループディスカッション対話から自動学習結果予測の実現可能性を示した。

The flipped classroom is a new pedagogical strategy that has been gaining increasing importance recently. Spoken discussion dialog commonly occurs in flipped classroom, which embeds rich information indicating processes and progression of students' learning. This study focuses on learning analytics from spoken discussion dialog in the flipped classroom, which aims to collect and analyze the discussion dialogs in flipped classroom in order to get to know group learning processes and outcomes. We have recently transformed a course using the flipped classroom strategy, where students watched video-recorded lectures at home prior to group-based problem-solving discussions in class. The in-class group discussions were recorded throughout the semester and then transcribed manually. After features are extracted from the dialogs by multiple tools and customized processing techniques, we performed statistical analyses to explore the indicators that are related to the group learning outcomes from face-to-face discussion dialogs in the flipped classroom. Then, machine learning algorithms are applied to the indicators in order to predict the group learning outcome as High, Mid or Low. The best prediction accuracy reaches 78.9%, which demonstrates the feasibility of achieving automatic learning outcome prediction from group discussion dialog in flipped classroom.
翻訳日:2023-02-19 13:55:24 公開日:2023-01-29
# 多国間データガバナンスにおける学術機関:ビッグデータ経済におけるリスク・価値・倫理の交渉のための新たなアレンジメント

Academic Institutions in Multilateral Data Governance: Emerging Arrangements for Negotiating Risk, Value and Ethics in the Big Data Economy ( http://arxiv.org/abs/2301.12347v1 )

ライセンス: Link先を確認
Tsvetelina Hristova, Liam Magee, Emma Kearney(参考訳) データ共有パートナーシップは、研究機関にとってますます重要であり、同時に、データガバナンスと倫理研究の確立されたモデルに対する挑戦でもある。 リスク,価値,信頼,倫理の関係について,学術機関とのデータ連携の4事例を分析し,研究パートナーが果たす役割について検討する。 この領域では、金融化の抑制には程遠いが、倫理の計測は、ビッグデータ経済における利益実現のためのインフラのより広範な動員の一部となっている。 我々が「複合データガバナンス」と呼ぶ研究倫理管理のための学術構造は、評判のダメージと社会的不信を和らげるための組織機能として機能する。 実験的データガバナンス(experimental data governance)の代替モデルでは、研究者はデータ倫理とそれに関連するリスクを再考するためのフレームワークと手段を提案している。

Data sharing partnerships are increasingly an imperative for research institutions and, at the same time, a challenge for established models of data governance and ethical research oversight. We analyse four cases of data partnership involving academic institutions and examine the role afforded to the research partner in negotiating the relationship between risk, value, trust and ethics. Within this terrain, far from being a restraint on financialisation, the instrumentation of ethics forms part of the wider mobilisation of infrastructure for the realisation of profit in the big data economy. Under what we term `combinatorial data governance' academic structures for the management of research ethics are instrumentalised as organisational functions that serve to mitigate reputational damage and societal distrust. In the alternative model of `experimental data governance' researchers propose frameworks and instruments for the rethinking of data ethics and the risks associated with it - a model that is promising but limited in its practical application.
翻訳日:2023-02-19 13:55:03 公開日:2023-01-29
# 事後予測による公平かつ最適分類

Fair and Optimal Classification via Post-Processing Predictors ( http://arxiv.org/abs/2211.01528v2 )

ライセンス: Link先を確認
Ruicheng Xian, Lang Yin, Han Zhao(参考訳) 機械学習モデルで示されるバイアスに対処するために、公正度基準は全ての人口集団に平等な扱いを保証するための統計的制約を課すが、通常、性能をモデル化するのにコストがかかる。 したがって、このトレードオフを理解することは、公正で効果的なアルゴリズムの設計の基礎となる。 本稿では, 最も一般的なマルチグループ, マルチクラス, ノイズ設定における分類問題に対する, 人口統計学的パリティの固有のトレードオフの特徴について述べる。 具体的には、最小誤差率はwasserstein-barycenter問題の最適値によって与えられることを示す。 より現実的に、この改定は、訓練済みの予測器を後処理して、一般的な設定で人口統計値を満たすための単純な手順をもたらし、ベイズ予測器に適用した場合、特に最適な公平な分類器が得られる。 提案手法の準最適および有限サンプル解析を行い,十分なデータを得た実世界のデータセットに対する公平性に対する誤差率のトレードオフの正確な制御を実証する。

To address the bias exhibited by machine learning models, fairness criteria impose statistical constraints for ensuring equal treatment to all demographic groups, but typically at a cost to model performance. Understanding this tradeoff, therefore, underlies the design of fair and effective algorithms. This paper completes the characterization of the inherent tradeoff of demographic parity on classification problems in the most general multigroup, multiclass, and noisy setting. Specifically, we show that the minimum error rate is given by the optimal value of a Wasserstein-barycenter problem. More practically, this reformulation leads to a simple procedure for post-processing any pre-trained predictors to satisfy demographic parity in the general setting, which, in particular, yields the optimal fair classifier when applied to the Bayes predictor. We provide suboptimality and finite sample analyses for our procedure, and demonstrate precise control of the tradeoff of error rate for fairness on real-world datasets provided sufficient data.
翻訳日:2023-02-19 12:14:12 公開日:2023-01-29
# 説明可能な(単にポストホックな説明がつかない)医療クレームモデルによる退院拒否または死を避けるために

Interpretable (not just posthoc-explainable) medical claims modeling for discharge placement to prevent avoidable all-cause readmissions or death ( http://arxiv.org/abs/2208.12814v3 )

ライセンス: Link先を確認
Joshua C. Chang, Ted L. Chang, Carson C. Chow, Rohit Mahajan, Sonya Mahajan, Joe Maisog, Shashaank Vattikuti, Hongjing Xia(参考訳) relu活性化ディープニューラルネットワークの分割線形性を模倣した回帰係数の変動を表現するために,本質的に解釈可能な多レベルベイズフレームワークを開発した。 本枠組みは, 医療クレームを用いた生存モデルを用いて, 退院場所に着目し, 因果的局所的平均治療効果を推定するためのコンバウンディングの調整を行う病院の退院と死亡を予測した。 2009-2011年の入院エピソードに基づいて、2008年と2011年の医療受給者の5%のサンプルを用いてモデルをトレーニングし、2012年のエピソードでテストした。 公式のCenters for Medicare and Medicaid Services(CMS)方法論を用いて定義されている、約0.76のAUROC、または30日間の退院期間内に死亡を予測し、XGBoostやベイジアンディープニューラルネットワークと競合し、正確性に対する解釈性を犠牲にしないことを示した。 重要なのは、回帰モデルとして、ブラックボックスができないもの -- モデルの正確な金標準のグローバル解釈、相対的なリスク要因の特定、退院の影響の定量化 -- を提供することです。 また,ポストホックの説明器SHAPでは正確な説明が得られなかった。

We developed an inherently interpretable multilevel Bayesian framework for representing variation in regression coefficients that mimics the piecewise linearity of ReLU-activated deep neural networks. We used the framework to formulate a survival model for using medical claims to predict hospital readmission and death that focuses on discharge placement, adjusting for confounding in estimating causal local average treatment effects. We trained the model on a 5% sample of Medicare beneficiaries from 2008 and 2011, based on their 2009--2011 inpatient episodes, and then tested the model on 2012 episodes. The model scored an AUROC of approximately 0.76 on predicting all-cause readmissions -- defined using official Centers for Medicare and Medicaid Services (CMS) methodology -- or death within 30-days of discharge, being competitive against XGBoost and a Bayesian deep neural network, demonstrating that one need-not sacrifice interpretability for accuracy. Crucially, as a regression model, we provide what blackboxes cannot -- the exact gold-standard global interpretation of the model, identifying relative risk factors and quantifying the effect of discharge placement. We also show that the posthoc explainer SHAP fails to provide accurate explanations.
翻訳日:2023-02-19 10:49:18 公開日:2023-01-29
# 渋滞したメガシティの自転車レーンネットワーク設計にインスパイアされたPhysarum

Physarum Inspired Bicycle Lane Network Design in a Congested Mega City ( http://arxiv.org/abs/2301.13609v1 )

ライセンス: Link先を確認
Md. Ahsan Habib and M. A. H. Akhand(参考訳) モビリティは都市生活の重要な要素であり、交通ネットワークはモビリティにおいて重要な役割を果たす。 移動性の低い交通ネットワークの悪化は、計画外の大都市における生活水準を低下させる重要な理由の1つである。 計画外の大都市における交通移動の強化は、複雑な設計やコストのかかる様々な制約のために常に困難である。 本論文の目的は、自転車道を導入する大都市における交通移動性の向上である。 自転車レーンの自然フィザラムを設計するために、脳のない単細胞多核プロテアーゼの研究と改良を行い、最適化した。 近年、Physarum にインスパイアされた技術が、効果的なネットワーク構築に大きな注目を集めている。 本研究のユニークな貢献は, 交通ネットワーク設計や自転車レーンの修正, 含意など, 異なる課題を効果的かつ効率的に解決することである。 バングラデシュの首都ダッカの中心部は、主要道路をバイパスする自転車道網を分析し設計すると考えられている。

Mobility is a key factor in urban life and transport network plays a vital role in mobility. Worse transport network having less mobility is one of the key reasons to decline the living standard in any unplanned mega city. Transport mobility enhancement in an unplanned mega city is always challenging due to various constraints including complex design and high cost involvement. The aim of this thesis is to enhance transport mobility in a megacity introducing a bicycle lane. To design the bicycle lane natural Physarum, brainless single celled multi-nucleated protist, is studied and modified for better optimization. Recently Physarum inspired techniques are drawn significant attention to the construction of effective networks. Exiting Physarum inspired models effectively and efficiently solves different problems including transport network design and modification and implication for bicycle lane is the unique contribution of this study. Central area of Dhaka, the capital city of Bangladesh, is considered to analyze and design the bicycle lane network bypassing primary roads.
翻訳日:2023-02-01 16:40:01 公開日:2023-01-29
# マルチモーダルクレーンを用いたマルチビデオモーメントランク付け

Multi-video Moment Ranking with Multimodal Clue ( http://arxiv.org/abs/2301.13606v1 )

ライセンス: Link先を確認
Danyang Hou, Liang Pang, Yanyan Lan, Huawei Shen, Xueqi Cheng(参考訳) ビデオコーパスモーメント検索〜(VCMR)は、自然言語クエリを通じて、大量の未編集ビデオコーパスから関連ビデオモーメントを検索するタスクである。 VCMRの最先端の研究は、2段階の手法に基づいている。 本稿では,(1)モーメント予測バイアス: 学習と推論における共有正規化の不整合に起因する,対象モーメントが最下位の検索ビデオに含まれる可能性を無視して,ほとんどのクエリの予測モーメントを上位の検索ビデオから得る。 (2)潜在鍵コンテンツ:ビデオの異なるモダリティは、モーメントの局所化のためのキー情報が異なる。 この目的のために、m\textbf{u}l\textbf{t}imodal clu\textbf{e}~(分)を持つ二段階モデル \textbf{m}ult\textbf{i}-video ra\textbf{n}kingを提案する。 MINUTEはトレーニングと推論の両方で共有正規化を使用して、複数のビデオから候補モーメントをランク付けし、モーメント予測バイアスを解決する。 さらに、MINUTEのMutilmdaol Clue Mining〜(MCM)は、動画中の様々なモードのキー内容を発見し、モーメントをより正確にローカライズすることができる。 MINUTEはTVRとDiDeMoデータセットのベースラインを上回り、VCMRの新たな最先端を実現している。 私たちのコードはgithubで入手できる。

Video corpus moment retrieval~(VCMR) is the task of retrieving a relevant video moment from a large corpus of untrimmed videos via a natural language query. State-of-the-art work for VCMR is based on two-stage method. In this paper, we focus on improving two problems of two-stage method: (1) Moment prediction bias: The predicted moments for most queries come from the top retrieved videos, ignoring the possibility that the target moment is in the bottom retrieved videos, which is caused by the inconsistency of Shared Normalization during training and inference. (2) Latent key content: Different modalities of video have different key information for moment localization. To this end, we propose a two-stage model \textbf{M}ult\textbf{I}-video ra\textbf{N}king with m\textbf{U}l\textbf{T}imodal clu\textbf{E}~(MINUTE). MINUTE uses Shared Normalization during both training and inference to rank candidate moments from multiple videos to solve moment predict bias, making it more efficient to predict target moment. In addition, Mutilmdaol Clue Mining~(MCM) of MINUTE can discover key content of different modalities in video to localize moment more accurately. MINUTE outperforms the baselines on TVR and DiDeMo datasets, achieving a new state-of-the-art of VCMR. Our code will be available at GitHub.
翻訳日:2023-02-01 16:39:43 公開日:2023-01-29
# ソーシャルメディア上でのメンタルヘルス評価のための因果分析と知覚マイニングのためのレンズとしてのNLP

NLP as a Lens for Causal Analysis and Perception Mining to Infer Mental Health on Social Media ( http://arxiv.org/abs/2301.11004v2 )

ライセンス: Link先を確認
Muskan Garg and Chandni Saxena and Usman Naseem and Bonnie J Dorr(参考訳) ソーシャルメディア上の人間同士のインタラクションは、しばしば行動の背後にある意図を伝達し、オンラインユーザーのメンタルヘルス分析(MHA)のための心理的言語資源を生み出す。 このようなソーシャルメディア資源から精神疾患を推定するためのコンピュータインテリジェンス技術(CIT)の成功は、因果解析と知覚マイニングのためのレンズとしてNLPを指している。 しかし, 臨床心理学やパーソナライズされた精神医療に最適な影響を与えるためには, より連続的で説明可能な研究が必要である。 このギャップを埋めるために,(1)ユーザ生成テキストの因果関係を説明する因果分析,(2)オンライン利用者の意図に社会的影響の心理的視点を推測する知覚マイニングの2つの重要な側面を提示する。 自然言語処理(nlp)の範囲内では、これらの2つの次元、特に最近の談話分析の進歩にかかわる研究の重要領域をさらに探究する。 本論文は,ソーシャルメディアからメンタルヘルスを推定するための対話型エージェントの開発において,この領域におけるソリューションの探求と実践の進展を促すものである。 我々は,因果関係抽出と知覚の強化のためのデータセットや問題定式化における研究成果の増大を観察しながら,言語レンズによる計算心理学的問題をモデル化するための,より説明可能なアプローチを提唱する。

Interactions among humans on social media often convey intentions behind their actions, yielding a psychological language resource for Mental Health Analysis (MHA) of online users. The success of Computational Intelligence Techniques (CIT) for inferring mental illness from such social media resources points to NLP as a lens for causal analysis and perception mining. However, we argue that more consequential and explainable research is required for optimal impact on clinical psychology practice and personalized mental healthcare. To bridge this gap, we posit two significant dimensions: (1) Causal analysis to illustrate a cause and effect relationship in the user generated text; (2) Perception mining to infer psychological perspectives of social effects on online users intentions. Within the scope of Natural Language Processing (NLP), we further explore critical areas of inquiry associated with these two dimensions, specifically through recent advancements in discourse analysis. This position paper guides the community to explore solutions in this space and advance the state of practice in developing conversational agents for inferring mental health from social media. We advocate for a more explainable approach toward modeling computational psychology problems through the lens of language as we observe an increased number of research contributions in dataset and problem formulation for causal relation extraction and perception enhancements while inferring mental states.
翻訳日:2023-01-31 20:37:06 公開日:2023-01-29
# グラフ畳み込みネットワークにおける遠隔隣人訪問

Visiting Distant Neighbors in Graph Convolutional Networks ( http://arxiv.org/abs/2301.10960v2 )

ライセンス: Link先を確認
Alireza Hashemi, Hernan Makse(参考訳) 本稿では,グラフデータの深層学習のためのグラフ畳み込みネットワーク手法を,隣接ノードの観点から高次に拡張する。 グラフ内のノードの表現を構成するために、ノードとそのすぐ隣のノードの特徴に加えて、計算にもっと遠いノードも含む。 多くの公開引用グラフデータセットを用いて実験したところ、特にモデルのトレーニングに利用可能なラベル付きデータポイントが限られている場合に、この上位の隣人の訪問は元のモデルよりも優れていることがわかった。

We extend the graph convolutional network method for deep learning on graph data to higher order in terms of neighboring nodes. In order to construct representations for a node in a graph, in addition to the features of the node and its immediate neighboring nodes, we also include more distant nodes in the calculations. In experimenting with a number of publicly available citation graph datasets, we show that this higher order neighbor visiting pays off by outperforming the original model especially when we have a limited number of available labeled data points for the training of the model.
翻訳日:2023-01-31 20:36:43 公開日:2023-01-29
# 手続きテキストにおけるエンティティとイベントの因果推論

Causal Reasoning of Entities and Events in Procedural Texts ( http://arxiv.org/abs/2301.10896v2 )

ライセンス: Link先を確認
Li Zhang, Hainiu Xu, Yue Yang, Shuyan Zhou, Weiqiu You, Manni Arora and Chris Callison-Burch(参考訳) 存在や出来事は長い間、機械推論の要点と見なされてきた。 具体的には、関連するエンティティやイベントのダイナミックな性質から、手続き的なテキストが注目を集めている。 既存の作業は、エンティティ状態のトラッキング(例えば、パンの温度)や反ファクトイベントの推論(例えば、パンに触れて燃える確率など)にのみ焦点を合わせているが、これらの2つのタスクは密接に絡み合っている。 本研究では,エンティティ状態に基づく事象の妥当性に関する因果推論に関する最初のベンチマークであるCREPEを提案する。 GPT3を含むほとんどのモデルは、.30 F1の確率に近づき、.87 F1の人間のパフォーマンスよりもはるかに遅れていることを示す。 プログラミング言語のような構造化表現は、codexのようなコード言語モデルのプロンプトとしてイベント推論に便益があることに着想を得て、中間変数を通じてエンティティとイベントの因果関係を創造的に注入し、.67から.72 f1のパフォーマンスを高める。 提案するイベント表現は,知識注入を可能にするだけでなく,コード言語モデルによる思考連鎖推論を初めて成功させた試みでもある。

Entities and events have long been regarded as the crux of machine reasoning. Specifically, procedural texts have received increasing attention due to the dynamic nature of involved entities and events. Existing work has exclusively focused on entity state tracking (e.g., the temperature of a pan) or counterfactual event reasoning (e.g., how likely am I to burn myself by touching the pan), while these two tasks are tightly intertwined. In this work, we propose CREPE, the first benchmark on causal reasoning about event plausibility based on entity states. We experiment with strong large language models and show that most models including GPT3 perform close to chance of .30 F1, lagging far behind the human performance of .87 F1. Inspired by the finding that structured representations such as programming languages benefits event reasoning as a prompt to code language models such as Codex, we creatively inject the causal relations between entities and events through intermediate variables and boost the performance to .67 to .72 F1. Our proposed event representation not only allows for knowledge injection, but also marks the first successful attempt of chain-of-thought reasoning with code language models.
翻訳日:2023-01-31 20:36:34 公開日:2023-01-29
# 原発性開放隅角緑内障の診断における深層学習モデルの低診断と過診断バイアスの評価

Evaluate underdiagnosis and overdiagnosis bias of deep learning model on primary open-angle glaucoma diagnosis in under-served patient populations ( http://arxiv.org/abs/2301.11315v2 )

ライセンス: Link先を確認
Mingquan Lin, Yuyun Xiao, Bojian Hou, Tingyi Wanyan, Mohit Manoj Sharma, Zhangyang Wang, Fei Wang, Sarah Van Tassel, Yifan Peng(参考訳) アメリカ合衆国では、特にアフリカ系アメリカ人やヒスパニック人の間で、原発性開放角緑内障(POAG)が盲目の主要な原因となっている。 深層学習は、眼底画像を用いたPOAGの検出に広く用いられており、その性能は臨床医の診断に匹敵するか、超えている。 しかし、臨床診断における人間のバイアスは、広く使われているディープラーニングモデルに反映され増幅され、それによってパフォーマンスに影響を及ぼす可能性がある。 バイアスは(1)過度の診断を引き起こし、遅滞または不適切な治療のリスクを増加させ、(2)過度な診断は個人のストレス、恐怖、幸福感、不必要な/費用的な治療を増加させる可能性がある。 本研究では,米国16州22施設における眼圧亢進症治療研究(ohts)に基づき,気孔検出に深層学習を適用した際の過度診断と過度診断について検討した。 以上の結果から,広く使用されている深層学習モデルでは,人口過多の診断が可能であることが示唆された。 最も低い診断群は女性若年者(<60 yrs)群であり、最も過度に診断された群は黒人高齢者(>60 yrs)群である。 従来の深層学習手法による偏りのある診断は、疾患の検出、治療を遅らせ、未保存集団間の負担を生じさせ、眼科診療所における深層学習モデルの使用に関する倫理的懸念を引き起こす可能性がある。

In the United States, primary open-angle glaucoma (POAG) is the leading cause of blindness, especially among African American and Hispanic individuals. Deep learning has been widely used to detect POAG using fundus images as its performance is comparable to or even surpasses diagnosis by clinicians. However, human bias in clinical diagnosis may be reflected and amplified in the widely-used deep learning models, thus impacting their performance. Biases may cause (1) underdiagnosis, increasing the risks of delayed or inadequate treatment, and (2) overdiagnosis, which may increase individuals' stress, fear, well-being, and unnecessary/costly treatment. In this study, we examined the underdiagnosis and overdiagnosis when applying deep learning in POAG detection based on the Ocular Hypertension Treatment Study (OHTS) from 22 centers across 16 states in the United States. Our results show that the widely-used deep learning model can underdiagnose or overdiagnose underserved populations. The most underdiagnosed group is female younger (< 60 yrs) group, and the most overdiagnosed group is Black older (>=60 yrs) group. Biased diagnosis through traditional deep learning methods may delay disease detection, treatment and create burdens among under-served populations, thereby, raising ethical concerns about using deep learning models in ophthalmology clinics.
翻訳日:2023-01-31 20:28:25 公開日:2023-01-29
# マルチタスクジェネレータとしての分子言語モデル

Molecular Language Model as Multi-task Generator ( http://arxiv.org/abs/2301.11259v2 )

ライセンス: Link先を確認
Yin Fang, Ningyu Zhang, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計する方法を変え、化学や材料の設計をサポートすることによって、非常に人気を高めてきた。 しかし、有望な結果にもかかわらず、従来の機械学習に基づく深層生成モデルは、複雑なタスク固有の微調整、限られた次元の潜在空間、あるいはエキスパートルールの品質に依存している。 本研究では,複数の世代タスクやドメインの知識を効果的に学習し,共有する分子言語モデルであるMolGenを提案する。 具体的には、MolGenを化学言語SELFIESで1億以上の未標識分子で事前訓練する。 さらに,複数の分子生成タスクと異なる分子ドメイン(合成および天然物)にまたがるマルチタスク分子プレフィックスチューニングを自己フィードバック機構で提案する。 大規模な実験により、MollGenはよく知られた分子生成ベンチマークデータセットで優れた性能を得ることができることが示された。 さらに,分子の分布を正確に把握し,その構造的特性を暗黙的に学習し,マルチタスク分子プレフィックスチューニングの指導により効率的に化学空間を探索できることを示した。 コード、データセット、および事前トレーニングされたモデルはhttps://github.com/zjunlp/MolGen.orgで入手できる。

Molecule generation with desired properties has grown immensely in popularity by disruptively changing the way scientists design molecular structures and providing support for chemical and materials design. However, despite the promising outcome, previous machine learning-based deep generative models suffer from a reliance on complex, task-specific fine-tuning, limited dimensional latent spaces, or the quality of expert rules. In this work, we propose MolGen, a pre-trained molecular language model that effectively learns and shares knowledge across multiple generation tasks and domains. Specifically, we pre-train MolGen with the chemical language SELFIES on more than 100 million unlabelled molecules. We further propose multi-task molecular prefix tuning across several molecular generation tasks and different molecular domains (synthetic & natural products) with a self-feedback mechanism. Extensive experiments show that MolGen can obtain superior performances on well-known molecular generation benchmark datasets. The further analysis illustrates that MolGen can accurately capture the distribution of molecules, implicitly learn their structural characteristics, and efficiently explore the chemical space with the guidance of multi-task molecular prefix tuning. Codes, datasets, and the pre-trained model will be available in https://github.com/zjunlp/MolGen.
翻訳日:2023-01-31 20:27:35 公開日:2023-01-29
# 私たちの心の目に - schr\"odinger's cat experiment による量子論における可視性と可視性

In our mind's eye: Visible and invisible in quantum theory, with Schr\"odinger's cat experiment ( http://arxiv.org/abs/2301.11933v1 )

ライセンス: Link先を確認
Arkady Plotnitsky(参考訳) この記事では、e. schr\"odingerの有名な思考実験、キャットパラドックス実験、量子基礎におけるその位置を、量子現象と量子力学の解釈の類型に基づく新しい視点から再考することを目的としている。 このような解釈は以前には猫実験に当てはまることはなく、例えばn. bohrは猫の究極の形での解釈(彼の解釈を数回変えた)はrwrの解釈であるが、猫の実験についてコメントしていないようである。 この論文で採用された解釈はボーアの解釈に従っており、2つの仮定や仮定に基づいてハイゼンベルクとボーアは仮定するが、第3の仮定であるディラックの仮定を加える。 記事はまた、現実主義のない現実の概念とともに、思考に目に見えるものや見えないものの概念を紹介し、猫パラドックス実験におけるその役割を考察している。

This article aims to reconsider E. Schr\"odinger's famous thought experiment, the cat paradox experiment, and its place in quantum foundations from a new perspective, grounded in the type of interpretation of quantum phenomena and quantum mechanics, which belongs to the class of interpretations designated here as "reality without realism" (RWR) interpretations. Such interpretations have not been previously brought to bear on the cat experiment, including by N. Bohr, whose interpretation in its ultimate forms (as he changes his interpretation a few times) is an RWR interpretation, but who does not appear to have commented on the cat experiment. The interpretation adopted in this articles follows Bohr's interpretation, as based on two assumptions or postulates, the Heisenberg and Bohr postulates, but it adds a third postulate, the Dirac postulate. The article also introduces, in conjunction with the concept of reality without realism, the concepts of visible and invisible to thought and considers their role in the cat-paradox experiment.
翻訳日:2023-01-31 20:09:34 公開日:2023-01-29
# 問題データ識別のための神経関係グラフ

Neural Relation Graph for Identifying Problematic Data ( http://arxiv.org/abs/2301.12321v1 )

ライセンス: Link先を確認
Jang-Hyun Kim, Sangdoo Yun, Hyun Oh Song(参考訳) 堅牢な機械学習システムを構築するには、データセットの診断とクリーニングが不可欠だ。 しかしながら、ラベルエラーや特定のタイプの過小表現といった複雑な問題が存在するため、大規模なデータセット内の問題を現実の分布で識別することは困難である。 本稿では,主に無視される情報の源泉である特徴埋め込み空間におけるデータの関係構造を利用して,問題のあるデータを特定する新しい手法を提案する。 本研究では,データセットのリレーショナルグラフ構造に基づいて,ラベルエラーやアウトレイラデータポイントを検出するアルゴリズムを開発した。 さらに,データセットを対話的に診断するための効果的なツールとして使用できる,データポイントのコンテキスト化のための可視化ツールについても紹介する。 本研究では,imagenet と glue ベンチマークを含む大規模画像および言語領域タスクにおけるラベルエラーおよび分散検出性能を評価し,データセットのデバッグと堅牢な機械学習システム構築における本手法の有効性を実証する。

Diagnosing and cleaning datasets are crucial for building robust machine learning systems. However, identifying problems within large-scale datasets with real-world distributions is difficult due to the presence of complex issues, such as label errors or under-representation of certain types. In this paper, we propose a novel approach for identifying problematic data by utilizing a largely ignored source of information: a relational structure of data in the feature-embedded space. We develop an efficient algorithm for detecting label errors and outlier data points based on the relational graph structure of the dataset. We further introduce a visualization tool for contextualizing data points, which can serve as an effective tool for interactively diagnosing datasets. We evaluate label error and out-of-distribution detection performances on large-scale image and language domain tasks, including ImageNet and GLUE benchmarks, and demonstrate the effectiveness of our approach for debugging datasets and building robust machine learning systems.
翻訳日:2023-01-31 17:54:17 公開日:2023-01-29
# 勾配整形:リバースエンジニアリングに対するバックドア攻撃の強化

Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering ( http://arxiv.org/abs/2301.12318v1 )

ライセンス: Link先を確認
Rui Zhu, Di Tang, Siyuan Tang, Guanhong Tao, Shiqing Ma, Xiaofeng Wang, Haixu Tang(参考訳) バックドア機械学習(ML)モデルを検出する既存の手法は、インバージョン(リバースエンジニア)と重み解析(モデル診断)の2つのアプローチの1つである。 特に、勾配に基づくトリガーインバージョンは、TrojAIコンペティション、Trojan Detection Challenge、BackdoorBenchなど、最も効果的なバックドア検出手法の1つであると考えられている。 しかし、なぜこのテクニックがうまく機能するのか、さらに重要なことに、それがバックドア攻撃にバーを上げるかどうかを理解するためにはほとんど行われていない。 本稿では,そのトリガキャリング入力に伴うバックドアモデルの変化率を分析して,この問題に対処する最初の試みについて報告する。 本研究は,既存の攻撃がトリガー搬送入力の変動率が低いことに起因するバックドアを注入する傾向があることを示し,グラデーションに基づくトリガー反転により容易に捕捉できることを示す。 我々は,バックドア効果を損なうことなく,トリガーに関するバックドアモデルの変化率を低減するために,敵対的トレーニングの反対方向に従う新たな攻撃強化である \textit{gradient shaping} (grasp) を設計した。 また,この新しい手法の有効性と,勾配に基づくトリガーインバージョンの基本弱点を説明するための理論的解析を行う。 最後に,GRASPの強化は,重量分析に基づくバックドア検出手法に対するステルス攻撃の有効性を低下させるものではないことを示すとともに,検出を使わずにバックドアを緩和する方法も提案する。

Most existing methods to detect backdoored machine learning (ML) models take one of the two approaches: trigger inversion (aka. reverse engineer) and weight analysis (aka. model diagnosis). In particular, the gradient-based trigger inversion is considered to be among the most effective backdoor detection techniques, as evidenced by the TrojAI competition, Trojan Detection Challenge and backdoorBench. However, little has been done to understand why this technique works so well and, more importantly, whether it raises the bar to the backdoor attack. In this paper, we report the first attempt to answer this question by analyzing the change rate of the backdoored model around its trigger-carrying inputs. Our study shows that existing attacks tend to inject the backdoor characterized by a low change rate around trigger-carrying inputs, which are easy to capture by gradient-based trigger inversion. In the meantime, we found that the low change rate is not necessary for a backdoor attack to succeed: we design a new attack enhancement called \textit{Gradient Shaping} (GRASP), which follows the opposite direction of adversarial training to reduce the change rate of a backdoored model with regard to the trigger, without undermining its backdoor effect. Also, we provide a theoretic analysis to explain the effectiveness of this new technique and the fundamental weakness of gradient-based trigger inversion. Finally, we perform both theoretical and experimental analysis, showing that the GRASP enhancement does not reduce the effectiveness of the stealthy attacks against the backdoor detection methods based on weight analysis, as well as other backdoor mitigation methods without using detection.
翻訳日:2023-01-31 17:54:01 公開日:2023-01-29
# プログレッシブプロンプト: 言語モデルのための継続的学習

Progressive Prompts: Continual Learning for Language Models ( http://arxiv.org/abs/2301.12314v1 )

ライセンス: Link先を確認
Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Amjad Almahairi(参考訳) 言語モデルにおける継続学習のためのシンプルで効率的なアプローチであるProgressive Promptsを紹介します。 本手法は,データ再生やタスク固有のパラメータの多さに頼らずに,前方転送と破滅的な忘れ込みを抑える。 プログレッシブプロンプトは、各タスクに対する新しいソフトプロンプトを学習し、ベースモデルを凍結しながら、事前に学習したプロンプトと順次結合する。 標準連続学習ベンチマーク実験により,提案手法は従来のT5モデルよりも平均テスト精度が20%向上し,最先端の手法よりも優れていることが示された。 さらに,タスクのシーケンスを長くすることで,より難易度の高い連続学習環境を探索し,プログレッシブプロンプトが従来の手法を大きく上回ることを示す。

We introduce Progressive Prompts - a simple and efficient approach for continual learning in language models. Our method allows forward transfer and resists catastrophic forgetting, without relying on data replay or a large number of task-specific parameters. Progressive Prompts learns a new soft prompt for each task and sequentially concatenates it with the previously learned prompts, while keeping the base model frozen. Experiments on standard continual learning benchmarks show that our approach outperforms state-of-the-art methods, with an improvement >20% in average test accuracy over the previous best-preforming method on T5 model. We also explore a more challenging continual learning setup with longer sequences of tasks and show that Progressive Prompts significantly outperforms prior methods.
翻訳日:2023-01-31 17:53:29 公開日:2023-01-29
# 複雑な問合せ応答に対するニューラルリンク予測器の適応

Adapting Neural Link Predictors for Complex Query Answering ( http://arxiv.org/abs/2301.12313v1 )

ライセンス: Link先を確認
Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein(参考訳) 不完全な知識グラフに複雑なクエリを答えることは、モデルが不足する知識が存在する場合、複雑な論理的クエリに答える必要があるという課題である。 arakelyan et al. (2021), minervini et al. (2022) は、ニューラルネットワークの予測器は複雑なクエリに対する応答にも使用できることを示した。 しかし、CQDは否定を処理せず、アトミックなトレーニングクエリからのトレーニング信号のみを使用する: ニューラルネットワーク予測スコアは、複雑なクエリ応答中にファジィ論理t-ノルムを介して相互に相互作用するように調整されていない。 本稿では、パラメータ効率のよいスコア適応モデルをトレーニングして、ニューラルネットワーク予測スコアを再分類することで、この問題に対処することを提案する。 我々の手法であるCQD$^{A}$は、現在の最先端の手法よりもはるかに正確な結果を生成し、利用可能なトレーニングクエリタイプの$\leq 35\%$を使用しながら、すべてのデータセットとクエリタイプの平均値の平均34.4$から35.1ドルに改善した。 さらに、CQD$^{A}$はデータ効率が高く、トレーニングデータのわずか1\%の値で競合結果が得られ、ドメイン外の評価が堅牢であることを示す。

Answering complex queries on incomplete knowledge graphs is a challenging task where a model needs to answer complex logical queries in the presence of missing knowledge. Recently, Arakelyan et al. (2021); Minervini et al. (2022) showed that neural link predictors could also be used for answering complex queries: their Continuous Query Decomposition (CQD) method works by decomposing complex queries into atomic sub-queries, answers them using neural link predictors and aggregates their scores via t-norms for ranking the answers to each complex query. However, CQD does not handle negations and only uses the training signal from atomic training queries: neural link prediction scores are not calibrated to interact together via fuzzy logic t-norms during complex query answering. In this work, we propose to address this problem by training a parameter-efficient score adaptation model to re-calibrate neural link prediction scores: this new component is trained on complex queries by back-propagating through the complex query-answering process. Our method, CQD$^{A}$, produces significantly more accurate results than current state-of-the-art methods, improving from $34.4$ to $35.1$ Mean Reciprocal Rank values averaged across all datasets and query types while using $\leq 35\%$ of the available training query types. We further show that CQD$^{A}$ is data-efficient, achieving competitive results with only $1\%$ of the training data, and robust in out-of-domain evaluations.
翻訳日:2023-01-31 17:53:11 公開日:2023-01-29
# 因果的深層生成モデルの機会について--調査と今後の方向性

On the Opportunity of Causal Deep Generative Models: A Survey and Future Directions ( http://arxiv.org/abs/2301.12351v1 )

ライセンス: Link先を確認
Guanglin Zhou and Lina Yao and Xiwei Xu and Chen Wang and Liming Zhu and Kun Zhang(参考訳) 深層生成モデルは、固有の経験的分布を正確に再現し、新しいサンプルを生産する能力によって近年人気を集めている。 特に、モデルが特定の属性に従うデータ例を包含する、ある種の進歩が提案されている。 それでも、いくつかの課題が残っており、すなわち、サンプル外のデータを外挿することの難しさと、非絡み合った表現の学習が不十分である。 一方、構造因果モデル(scms)は生成過程を支配する因果因子をカプセル化し、因果関係に基づく生成モデルの特徴付けを行い、深層生成モデルにおける現在の障害に対処する上で重要な洞察を与える。 本稿では,scmと深層生成モデルを組み合わせた因果的深層生成モデル(cgms)の包括的調査を行い,ロバスト性,公平性,解釈性などの信頼性を高める手法を提案する。 本稿では,CGMの最近の進歩を概観し,生成型に基づいて分類し,どのように因果関係が深層生成モデルの系に導入されるかについて議論する。 この分野での今後の研究の道のりについても検討する。

Deep generative models have gained popularity in recent years due to their ability to accurately replicate inherent empirical distributions and yield novel samples. In particular, certain advances are proposed wherein the model engenders data examples following specified attributes. Nevertheless, several challenges still exist and are to be overcome, i.e., difficulty in extrapolating out-of-sample data and insufficient learning of disentangled representations. Structural causal models (SCMs), on the other hand, encapsulate the causal factors that govern a generative process and characterize a generative model based on causal relationships, providing crucial insights for addressing the current obstacles in deep generative models. In this paper, we present a comprehensive survey of Causal deep Generative Models (CGMs), which combine SCMs and deep generative models in a way that boosts several trustworthy properties such as robustness, fairness, and interpretability. We provide an overview of the recent advances in CGMs, categorize them based on generative types, and discuss how causality is introduced into the family of deep generative models. We also explore potential avenues for future research in this field.
翻訳日:2023-01-31 17:45:13 公開日:2023-01-29
# アクティブポートフォリオ管理のための金融機械学習の長期モデリング

Long-Term Modeling of Financial Machine Learning for Active Portfolio Management ( http://arxiv.org/abs/2301.12346v1 )

ライセンス: Link先を確認
Kazuki Amagai and Tomoya Suzuki(参考訳) 投資信託等による資産管理の実務においては、運用の負担や取引コストの増加により、中間から長期にわたって運用を行うことが一般的である。 しかし,機械学習を用いて管理モデルを構築すると,長期スケールの増加に伴って学習データの数が減少し,学習精度が低下する。 そこで本研究では,対象タスクの時間スケールだけでなく,短期の時間スケールの学習データも併用することにより,機械学習の目標タスクが長期の時間スケールであっても,一般化性能の劣化を抑制できることを実証した。 さらに,このデータ拡張の応用例として,マルチファクタモデルの機械学習をオートエンコーダで行い,推定理論値から誤算を行ったポートフォリオ管理を行った。 この効果は株式市場だけでなくFX市場でも確認でき、様々な金融市場で汎用的な管理モデルを構築することができる。

In the practical business of asset management by investment trusts and the like, the general practice is to manage over the medium to long term owing to the burden of operations and increase in transaction costs with the increase in turnover ratio. However, when machine learning is used to construct a management model, the number of learning data decreases with the increase in the long-term time scale; this causes a decline in the learning precision. Accordingly, in this study, data augmentation was applied by the combined use of not only the time scales of the target tasks but also the learning data of shorter term time scales, demonstrating that degradation of the generalization performance can be inhibited even if the target tasks of machine learning have long-term time scales. Moreover, as an illustration of how this data augmentation can be applied, we conducted portfolio management in which machine learning of a multifactor model was done by an autoencoder and mispricing was used from the estimated theoretical values. The effectiveness could be confirmed in not only the stock market but also the FX market, and a general-purpose management model could be constructed in various financial markets.
翻訳日:2023-01-31 17:44:55 公開日:2023-01-29
# 非自己回帰型エンドツーエンドASRモデルを用いたタイムスタンプ予測

Achieving Timestamp Prediction While Recognizing with Non-Autoregressive End-to-End ASR Model ( http://arxiv.org/abs/2301.12343v1 )

ライセンス: Link先を確認
Xian Shi, Yanni Chen, Shiliang Zhang, and Zhijie Yan(参考訳) 従来のASRシステムはフレームレベルの音素を後続音素を用いてフォースアライメント~(FA)を行い、タイムスタンプを提供する。 本稿では,非自己回帰型ASRモデルParaformerにおいて,連続的な統合・消火機構を活用しながらタイムスタンプ予測~(TP)を行うことを提案する。 CIFの発火場所バイアス問題に着目し, 消火・消火・消火などの後処理を実施。 また,asr と tp タスクの両方に有益である cif 出力の重みを滑らかにするためにscaled-cif を用いることを提案する。 累積平均シフト〜(aas)とダイアリゼーション誤差〜(der)を用いてタイムスタンプの品質を測定し,提案システムと従来のハイブリッド力調整システムとの比較を行った。 その結果,提案手法はcifタイムスタンプの精度を大幅に向上させ,それぞれ66.7\%と82.1\%のaasとderを削減した。 同じデータで訓練されたカルディの力調整と比較すると、最適化されたCIFタイムスタンプは相対AASの12.3\%の減少を達成した。

Conventional ASR systems use frame-level phoneme posterior to conduct force-alignment~(FA) and provide timestamps, while end-to-end ASR systems especially AED based ones are short of such ability. This paper proposes to perform timestamp prediction~(TP) while recognizing by utilizing continuous integrate-and-fire~(CIF) mechanism in non-autoregressive ASR model - Paraformer. Foucing on the fire place bias issue of CIF, we conduct post-processing strategies including fire-delay and silence insertion. Besides, we propose to use scaled-CIF to smooth the weights of CIF output, which is proved beneficial for both ASR and TP task. Accumulated averaging shift~(AAS) and diarization error rate~(DER) are adopted to measure the quality of timestamps and we compare these metrics of proposed system and conventional hybrid force-alignment system. The experiment results over manually-marked timestamps testset show that the proposed optimization methods significantly improve the accuracy of CIF timestamps, reducing 66.7\% and 82.1\% of AAS and DER respectively. Comparing to Kaldi force-alignment trained with the same data, optimized CIF timestamps achieved 12.3\% relative AAS reduction.
翻訳日:2023-01-31 17:44:38 公開日:2023-01-29
# 新型コロナウイルス感染症の重症度を検出するための機械学習を用いた肺・心外膜組織の特徴の統合

A novel method using machine learning to integrate features from lung and epicardial adipose tissue for detecting the severity of COVID-19 infection ( http://arxiv.org/abs/2301.12340v1 )

ライセンス: Link先を確認
Ni Yao, Yanhui Tian, Daniel Gama das Neves, Chen Zhao, Claudio Tinoco Mesquita, Wolney de Andrade Martins, Alair Augusto Sarmet Moreira Damas dos Santos, Yanting Li, Chuang Han, Fubao Zhu, Neng Dai, Weihua Zhou(参考訳) 目的: コロナウイルス感染症(COVID-19)感染の重症度を検出するため, 肺と心房細動組織(EAT)の放射線学的特徴について検討する。 方法】2020年1月から2020年7月までの2施設で515人の新型コロナウイルス患者(Cohort1:415,Cohort2:100)のデータを調査した。 胸部CTから心筋と内臓を抽出する深層学習法を開発し,EATの自動抽出にしきい値を適用した。 肺分画は公表方法により達成された。 重症度予測のためにEATと肺の放射線学的特徴を抽出した。 導出コホート(290, cohort1)では, 単変量解析とピアソン相関解析を用いて, 新型コロナウイルスの重症度の予測因子を同定した。 導出コホート(125, cohort1)と外部(100, cohort2)のバリデーションコホートにおいて, 新型コロナウイルスの重症度を検出するための一般線形回帰モデルを構築した。 結果: EAT抽出では, 両中心のDice類似係数は0.972(0.011), 0.968(0.005)であった。 重症度検出では,AUC,net reclassification improvement (NRI), and integrated discrimination improvement (IDI) が, 内的検証コホートでは, それぞれ0.09 (p<0.001), 22.4%, 17.0%増加していた。 AUC, NRI, IDIはそれぞれ0.04(p<0.001), 11.1%, 8.0%増加した。 結論:eatと肺を併用した放射線学的特徴は,covid-19の重症度を漸増的に検出する。

Objectives: To investigate the value of radiomics features of epicardial adipose tissue (EAT) combined with lung for detecting the severity of Coronavirus Disease 2019 (COVID-19) infection. Methods: The retrospective study included data from 515 COVID-19 patients (Cohort1: 415, cohort2: 100) from the two centers between January 2020 and July 2020. A deep learning method was developed to extract the myocardium and visceral pericardium from chest CTs, and then a threshold was applied for automatic EAT extraction. Lung segmentation was achieved according to a published method. Radiomics features of both EAT and lung were extracted for the severity prediction. In a derivation cohort (290, cohort1), univariate analysis and Pearson correlation analysis were used to identify predictors of the severity of COVID-19. A generalized linear regression model for detecting the severity of COVID-19 was built in a derivation cohort and evaluated in internal (125, cohort1) and external (100, cohort2) validation cohorts. Results: For EAT extraction, the Dice similarity coefficients (DSC) of the two centers were 0.972 (0.011) and 0.968 (0.005), respectively. For severity detection, the AUC, net reclassification improvement (NRI), and integrated discrimination improvement (IDI) of the model with radiomics features of both lung and EAT increased by 0.09 (p<0.001), 22.4%, and 17.0%, respectively, compared with the model with lung radiomics features, in the internal validation cohort. The AUC, NRI, and IDI increased by 0.04 (p<0.001), 11.1%, and 8.0%, respectively, in the external validation cohort. Conclusion: Radiomics features of EAT combined with lung have incremental value in detecting the severity of COVID-19.
翻訳日:2023-01-31 17:44:10 公開日:2023-01-29
# don't play favorites: 拡散モデルのためのマイノリティガイダンス

Don't Play Favorites: Minority Guidance for Diffusion Models ( http://arxiv.org/abs/2301.12334v1 )

ライセンス: Link先を確認
Soobin Um, Jong Chul Ye(参考訳) 拡散モデルを用いてマイノリティサンプルを生成する問題を考察する。 マイノリティサンプルは、データ多様体の低密度領域にある例である。 このような少数なインスタンスの十分な数の生成が重要である。 しかし、拡散モデルの従来の生成過程は、高い可能性のために多数サンプル(多様体の高密度領域にある)を主に生成し、タスクに非常に非効率で時間を要する。 本稿では,拡散モデルの生成過程をマイノリティサンプルに焦点をあてた新しい枠組みを提案する。 まず,拡散モデルが多数派に焦点を絞った性質について,新たな知見を提示する。 この観察は、与えられたサンプルの特異性を記述する計量を導入する動機となる。 拡散モデル(拡散モデル)の本質的な嗜好に対処するため,本研究では,所望の確率レベルを持つ領域に向けて生成プロセスを導くサンプリング手法であるマイノリティガイダンスをさらに発展させる。 ベンチマーク実データを用いた実験により、標準拡散サンプリング器を含む既存の生成フレームワークよりも、低濃度のマイノリティサンプルを生成する能力を大幅に向上できることが示された。

We explore the problem of generating minority samples using diffusion models. The minority samples are instances that lie on low-density regions of a data manifold. Generating sufficient numbers of such minority instances is important, since they often contain some unique attributes of the data. However, the conventional generation process of the diffusion models mostly yields majority samples (that lie on high-density regions of the manifold) due to their high likelihoods, making themselves highly ineffective and time-consuming for the task. In this work, we present a novel framework that can make the generation process of the diffusion models focus on the minority samples. We first provide a new insight on the majority-focused nature of the diffusion models: they denoise in favor of the majority samples. The observation motivates us to introduce a metric that describes the uniqueness of a given sample. To address the inherent preference of the diffusion models w.r.t. the majority samples, we further develop minority guidance, a sampling technique that can guide the generation process toward regions with desired likelihood levels. Experiments on benchmark real datasets demonstrate that our minority guidance can greatly improve the capability of generating the low-likelihood minority samples over existing generative frameworks including the standard diffusion sampler.
翻訳日:2023-01-31 17:43:39 公開日:2023-01-29
# 固定点アルゴリズムによる視覚変換器の展開:画像復元を事例として

Towards Vision Transformer Unrolling Fixed-Point Algorithm: a Case Study on Image Restoration ( http://arxiv.org/abs/2301.12332v1 )

ライセンス: Link先を確認
Peng Qiao, Sidun Liu, Tao Sun, Ke Yang, Yong Dou(参考訳) Deep Neural Networks (DNN) の大きな成功は、コンピュータビジョンタスクのためのDNNベースの固定点(DNN-FP)のアルゴリズム開発にインスピレーションを与えた。 DNN-FP法は、時間を通してバックプロパゲーションによって訓練されたり、ヤコビアンの不正確な逆転を計算したりするが、表現能力に劣る。 トランスフォーマーの表現力に触発され、FPをアンロールし、トランスフォーマーブロック(FPformer)と呼ばれる各アンロールされたプロセスを近似するフレームワークを提案する。 メモリ消費と計算量を削減するため、連続するブロック間でパラメータを共有することでfprformerを考案した。 さらに,アンダーソン加速度をfprformerに適用し,未ロールのイテレーションを拡大し,fpaformerと呼ばれる性能を向上させるモジュールを設計した。 トランスフォーマーの能力をフル活用するために,自己教師付き事前学習と教師付き微調整を用いた画像復元モデルを提案する。 画像復元問題の4つのカテゴリから161のタスクが事前トレーニングフェーズで使用されている。 その後、事前訓練されたFPformer、FPRformer、FPAformerは、比較シナリオをさらに微調整する。 fpformer, fprformer, fpaformerは, 自己教師付き事前学習と教師付き微調整を用い, 最先端画像復元法とより良い訓練効率を両立させた。 FPAformerは29.82%のパラメータしか使用せず、微調整後に優れた性能を提供する。 これらの比較モデルをトレーニングするには、SwinIRモデルのトレーニングに使用される時間は26.9%しかかからない。 低レベルの視覚タスクでTransformerを導入するための有望な方法を提供する。

The great success of Deep Neural Networks (DNNs) has inspired the algorithmic development of DNN-based Fixed-Point (DNN-FP) for computer vision tasks. DNN-FP methods, trained by Back-Propagation Through Time or computing the inaccurate inversion of the Jacobian, suffer from inferior representation ability. Motivated by the representation power of the Transformer, we propose a framework to unroll the FP and approximate each unrolled process via Transformer blocks, called FPformer. To reduce the high consumption of memory and computation, we come up with FPRformer by sharing parameters between the successive blocks. We further design a module to adapt Anderson acceleration to FPRformer to enlarge the unrolled iterations and improve the performance, called FPAformer. In order to fully exploit the capability of the Transformer, we apply the proposed model to image restoration, using self-supervised pre-training and supervised fine-tuning. 161 tasks from 4 categories of image restoration problems are used in the pre-training phase. Hereafter, the pre-trained FPformer, FPRformer, and FPAformer are further fine-tuned for the comparison scenarios. Using self-supervised pre-training and supervised fine-tuning, the proposed FPformer, FPRformer, and FPAformer achieve competitive performance with state-of-the-art image restoration methods and better training efficiency. FPAformer employs only 29.82% parameters used in SwinIR models, and provides superior performance after fine-tuning. To train these comparison models, it takes only 26.9% time used for training SwinIR models. It provides a promising way to introduce the Transformer in low-level vision tasks.
翻訳日:2023-01-31 17:43:19 公開日:2023-01-29
# タイム・オブ・マインド:感情条件付き発話率の生成

Time out of Mind: Generating Emotionally Conditioned Rate of Speech ( http://arxiv.org/abs/2301.12331v1 )

ライセンス: Link先を確認
Navjot Kaur, Paige Tuttosi(参考訳) 音声合成は、過去10年間に大幅に改善され、非常に知的な声になった。 さらなる調査により、条件付き感情表現を含む可変発話を生成できるモデルが得られた。 しかし問題は、フレーズレベルの修正と韻律的な発声機能に焦点を当てることにある。 CREMA-Dデータセットを使用して、感情を条件としたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。 これらの単語長は中性音声に対して相対的であり、音声合成マークアップ言語(SSML)とテキスト音声(TTS)システムを介してより表現力のある音声を生成することができる。 我々は,中性音声に対する客観的尺度の精度向上と,アウトオブボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。

Voice synthesis has seen significant improvements in the past decade resulting in highly intelligible voices. Further investigations have resulted in models that can produce variable speech, including conditional emotional expression. The problem lies, however, in a focus on phrase level modifications and prosodic vocal features. Using the CREMA-D dataset we have trained a GAN conditioned on emotion to generate worth lengths for a given input text. These word lengths are relative to neutral speech and can be provided, through speech synthesis markup language (SSML) to a text to speech (TTS) system to generate more expressive speech. We were able to achieve better performances on objective measures for neutral speech, and better time alignment for happy speech when compared to an out of box model.
翻訳日:2023-01-31 17:42:50 公開日:2023-01-29
# ショック下のチームレジリエンス:covid-19パンデミック初期のgithubリポジトリの実証分析

Team Resilience under Shock: An Empirical Analysis of GitHub Repositories during Early COVID-19 Pandemic ( http://arxiv.org/abs/2301.12326v1 )

ライセンス: Link先を確認
Xuan Lu, Wei Ai, Yixin Wang, Qiaozhu Mei(参考訳) 新型コロナウイルス(covid-19)パンデミックの間、多くの組織はリモートワークに移行してきたが、リモートワークとリモートチームがこの影響を受け、どのように対応し、今後のショックに対応するかはほとんど不明だ。 ソフトウェア開発者はパンデミックのずっと前からリモートのコラボレーションに依存しており、仮想チーム(githubリポジトリ)で作業している。 パンデミックによるこれらのリポジトリのダイナミクスは、ショックの下でリモートチームがどう反応するかを理解するためのユニークな機会を提供する。 本研究は系統的分析を示す。 パンデミックが起こらないように予測された結果と、そのサイズと生産性を比較して、githubリポジトリに対する早期パンデミックの影響を総合的に測定する。 これらのチームの生産性レベルとアクティブなメンバの数は、パンデミックの期間によって大きく異なることが分かりました。 次に,詳細な調査を行い,各チームに対するショックの異種影響について検討する。 チームのレジリエンスは、パンデミック前のチームの特定の特性と高い相関関係にあることが分かりました。 ブートストラップによる回帰分析を通じて、ショックに対して堅牢で脆弱なチームの種類を明らかにします。

While many organizations have shifted to working remotely during the COVID-19 pandemic, how the remote workforce and the remote teams are influenced by and would respond to this and future shocks remain largely unknown. Software developers have relied on remote collaborations long before the pandemic, working in virtual teams (GitHub repositories). The dynamics of these repositories through the pandemic provide a unique opportunity to understand how remote teams react under shock. This work presents a systematic analysis. We measure the overall effect of the early pandemic on public GitHub repositories by comparing their sizes and productivity with the counterfactual outcomes forecasted as if there were no pandemic. We find that the productivity level and the number of active members of these teams vary significantly during different periods of the pandemic. We then conduct a finer-grained investigation and study the heterogeneous effects of the shock on individual teams. We find that the resilience of a team is highly correlated to certain properties of the team before the pandemic. Through a bootstrapped regression analysis, we reveal which types of teams are robust or fragile to the shock.
翻訳日:2023-01-31 17:42:35 公開日:2023-01-29
# 次世代量子光学実験のためのキャビティ負荷ロック装置

A Cavity Load Lock Apparatus for Next-Generation Quantum Optics Experiments ( http://arxiv.org/abs/2301.12323v1 )

ライセンス: Link先を確認
Chuan Yin, Henry Ando, Mark Stone, Danial Shadmany, Anna Soper, Matt Jaffe, Aishwarya Kumar, Jonathan Simon(参考訳) 量子エミッタと光キャビティに閉じ込められた光子との相互作用の研究であるキャビティ量子電磁力学(qed)は、計算、ネットワーク、合成物質における量子科学の重要な道具である。 原子空洞qedでは、このアプローチは通常、冷却された原子アンサンブルと光学キャビティを持つ超高真空チャンバーに依存している。 キャビティをアップグレードするには、外部の光学系を取り除き、換気し、共振器を交換し、焼成し、光学系を交換する、数ヶ月の労力を要する。 本研究では,キャビティの設置,焼成,科学室への輸送に要するサイクル時間を削減し,科学室で3x10^(10)torr圧を発生させる真空負荷ロック技術を用いて,光キャビティの柔軟性とそれらの切り替え時の迅速なターンアラウンドタイムを回復できることを実証する。 真空の制限を減らすことで、新しい光学キャビティや、真空中の光学に依存する他の原子物理学に興味を持つ研究室にとって、このアプローチは特に強力である。

Cavity quantum electrodynamics (QED), the study of the interaction between quantized emitters and photons confined in an optical cavity, is an important tool for quantum science in computing, networking, and synthetic matter. In atomic cavity QED, this approach typically relies upon an ultra-high vacuum chamber that hosts a cold trapped atomic ensemble and an optical cavity. Upgrading the cavity necessitates a months-long laborious process of removing external optics, venting, replacing the resonator, baking, and replacing optics, constituting a substantial bottleneck to innovation in resonator design. In this work, we demonstrate that the flexibility of optical cavities, and the quick turnaround time in switching between them, can be restored with the vacuum loadlock technique--reducing the cycle time to install a cavity, bake it, and transport it into the science chamber to days, achieving 3x10^(-10) Torr pressure in the science chamber. By reducing vacuum limitations, this approach is particularly powerful for labs interested in quickly exploring novel optic cavities, or any other atomic physics relying on in-vacuum optics.
翻訳日:2023-01-31 17:42:17 公開日:2023-01-29
# 脳-コンピューターインタフェースにおける誘発電位のクロスサブジェクトディープトランスファーモデル

Cross-Subject Deep Transfer Models for Evoked Potentials in Brain-Computer Interface ( http://arxiv.org/abs/2301.12322v1 )

ライセンス: Link先を確認
Chad Mello, Troy Weingart and Ethan M. Rudd(参考訳) 脳コンピュータインタフェース(BCI)技術は、補助技術や臨床診断ツールによっても、世界中の何百万人もの人々の生活を改善する可能性がある。 しかし、この分野の進歩にもかかわらず、現在の消費者と臨床の生存率は低いままである。 この主な理由は、既存のbciデプロイメントの多くがエンドユーザ毎の実質的なデータ収集を必要とするため、収集が面倒で面倒で、面倒で、エラーが発生しやすいためである。 この課題は、複数の被験者から十分なデータにわたって訓練されたディープラーニングモデルを用いて解決し、適切なパフォーマンスを提供するとともに、トランスファー学習プロセスを通じて新しい被験者にカスタマイズすることができる。 本研究は,脳波(EEG)データセットを再取得し,いくつかの一般的なアプローチ/技術に対するベンチマークを行うことにより,我々のアプローチの基本的な可能性を示す。 次に、このデータセットを転送学習ベンチマークに分割し、このアプローチがオブジェクトごとのデータ収集負担を大幅に削減することを示す。 このことから,私たちのモデルと方法論は,BCI技術の改善と,消費者・クリニカル・ビジュアビリティの向上を示唆している。

Brain Computer Interface (BCI) technologies have the potential to improve the lives of millions of people around the world, whether through assistive technologies or clinical diagnostic tools. Despite advancements in the field, however, at present consumer and clinical viability remains low. A key reason for this is that many of the existing BCI deployments require substantial data collection per end-user, which can be cumbersome, tedious, and error-prone to collect. We address this challenge via a deep learning model, which, when trained across sufficient data from multiple subjects, offers reasonable performance out-of-the-box, and can be customized to novel subjects via a transfer learning process. We demonstrate the fundamental viability of our approach by repurposing an older but well-curated electroencephalography (EEG) dataset and benchmarking against several common approaches/techniques. We then partition this dataset into a transfer learning benchmark and demonstrate that our approach significantly reduces data collection burden per-subject. This suggests that our model and methodology may yield improvements to BCI technologies and enhance their consumer/clinical viability.
翻訳日:2023-01-31 17:41:53 公開日:2023-01-29
# 平滑な非定常バンド

Smooth Non-Stationary Bandits ( http://arxiv.org/abs/2301.12366v1 )

ライセンス: Link先を確認
Su Jia, Qian Xie, Nathan Kallus, Peter I. Frazier(参考訳) オンライン意思決定の多くの応用において、環境は非定常的であり、変化を処理するバンディットアルゴリズムを使用することが重要である。 既存のほとんどのアプローチは、全変動やリプシッツ性によって制限された非滑らかな変更から保護するために設計されている。 しかし、実際には環境がスムーズに変化している場合が多いため、このようなアルゴリズムはこれらの設定において必要以上の後悔を招き、変化率に関する情報を活用できない。 本稿では、腕の平均報酬を(正規化)時間で$\beta$-H\"older関数と仮定する非定常二本腕バンディット問題について検討し、これは、(\beta-1)$-times Lipschitz-continuously differentiableである。 滑らかな状態と非滑らかな状態の間の最初の分離を、$T^{3/5}$ regret for $\beta=2$で表すことで示します。 この結果は、$T^{\frac{\beta+1}{2\beta+1}}$ lower bound for any integer $\beta\ge 1$で補います。

In many applications of online decision making, the environment is non-stationary and it is therefore crucial to use bandit algorithms that handle changes. Most existing approaches are designed to protect against non-smooth changes, constrained only by total variation or Lipschitzness over time, where they guarantee $T^{2/3}$ regret. However, in practice environments are often changing {\it smoothly}, so such algorithms may incur higher-than-necessary regret in these settings and do not leverage information on the {\it rate of change}. In this paper, we study a non-stationary two-arm bandit problem where we assume an arm's mean reward is a $\beta$-H\"older function over (normalized) time, meaning it is $(\beta-1)$-times Lipschitz-continuously differentiable. We show the first {\it separation} between the smooth and non-smooth regimes by presenting a policy with $T^{3/5}$ regret for $\beta=2$. We complement this result by a $T^{\frac{\beta+1}{2\beta+1}}$ lower bound for any integer $\beta\ge 1$, which matches our upper bound for $\beta=2$.
翻訳日:2023-01-31 17:36:39 公開日:2023-01-29
# 不確実性下における公平な意思決定

Fair Decision-making Under Uncertainty ( http://arxiv.org/abs/2301.12364v1 )

ライセンス: Link先を確認
Wenbin Zhang and Jeremy C. Weiss(参考訳) 人工知能(AI)コミュニティと、AIベースの意思決定システムの公平性の潜在的な欠如に関して、幅広い社会が懸念されている。 意外なことに、マーケティング分析からアクチュアリル分析、リシディミズム予測機器に至るまで、社会に敏感な多くのアプリケーションでよく見られる不確実性の存在下での公正性を定量化し保証する作業はほとんどない。 本研究では,公平性制約を主とする縦断的検閲学習問題について検討し,アルゴリズムによる決定は,検閲によるクラスラベルの不確実性の存在下では,特定の個人や社会集団に悪影響を与えないよう要求する。 この定式化は、公平性に関する現実的なシナリオに広く適用可能であると論じる。 検閲情報を含む新たな公平性概念と、検閲の存在下で公正な予測のための一般的な枠組みが、現実世界のアプリケーションとのギャップを橋渡しする不確実性下での差別をいかにして測定し緩和するかを示す。 検閲付き実世界の識別データセットに関する実証評価は,我々のアプローチの実用性を示している。

There has been concern within the artificial intelligence (AI) community and the broader society regarding the potential lack of fairness of AI-based decision-making systems. Surprisingly, there is little work quantifying and guaranteeing fairness in the presence of uncertainty which is prevalent in many socially sensitive applications, ranging from marketing analytics to actuarial analysis and recidivism prediction instruments. To this end, we study a longitudinal censored learning problem subject to fairness constraints, where we require that algorithmic decisions made do not affect certain individuals or social groups negatively in the presence of uncertainty on class label due to censorship. We argue that this formulation has a broader applicability to practical scenarios concerning fairness. We show how the newly devised fairness notions involving censored information and the general framework for fair predictions in the presence of censorship allow us to measure and mitigate discrimination under uncertainty that bridges the gap with real-world applications. Empirical evaluations on real-world discriminated datasets with censorship demonstrate the practicality of our approach.
翻訳日:2023-01-31 17:36:15 公開日:2023-01-29
# クラス条件分布アライメントを用いたグラフ構造化データの教師なし領域適応

Unsupervised Domain Adaptation for Graph-Structured Data Using Class-Conditional Distribution Alignment ( http://arxiv.org/abs/2301.12361v1 )

ライセンス: Link先を確認
Mengxi Wu and Mohammad Rostami(参考訳) 大規模トレーニングデータの収集と注釈付けのコストが高いため,グラフ構造化データにディープラーニングモデルを採用するのは困難である。 非教師付きドメイン適応(UDA)は、配列構造データに対するデータアノテーションの課題に対処するためにうまく使われてきた。 しかし、グラフ構造化データのUDA法は非常に限られている。 対象領域と無注データとの分布を共有埋め込み空間における注釈データとソース領域の分布とを整合させたグラフ構造データのための新しいudaアルゴリズムを開発した。 具体的には、スライスされたワッサースタイン距離(SWD)と、グラフ符号化層の出力におけるソースとターゲットドメインの分布間の最大平均誤差(MMD)を最小化する。 さらに, クラスミスマッチの課題に対処するために, 分布をクラス条件で整列する新しい擬似ラベル生成手法を開発した。 Ego-network と IMDB$\&$Reddit データセットに関する実証的な結果は,我々の手法が有効であり,最先端のパフォーマンスにつながることを示す。

Adopting deep learning models for graph-structured data is challenging due to the high cost of collecting and annotating large training data. Unsupervised domain adaptation (UDA) has been used successfully to address the challenge of data annotation for array-structured data. However, UDA methods for graph-structured data are quite limited. We develop a novel UDA algorithm for graph-structured data based on aligning the distribution of the target domain with unannotated data with the distribution of a source domain with annotated data in a shared embedding space. Specifically, we minimize both the sliced Wasserstein distance (SWD) and the maximum mean discrepancy (MMD) between the distributions of the source and the target domains at the output of graph encoding layers. Moreover, we develop a novel pseudo-label generation technique to align the distributions class-conditionally to address the challenge of class mismatch. Our empirical results on the Ego-network and the IMDB$\&$Reddit datasets demonstrate that our method is effective and leads to state-of-the-art performance.
翻訳日:2023-01-31 17:35:56 公開日:2023-01-29
# ADL-ID: 時間領域適応を用いた無線デバイスフィンガープリントのための対角距離学習

ADL-ID: Adversarial Disentanglement Learning for Wireless Device Fingerprinting Temporal Domain Adaptation ( http://arxiv.org/abs/2301.12360v1 )

ライセンス: Link先を確認
Abdurrahman Elmaghbub, Bechir Hamdaoui and Weng-Keen Wong(参考訳) 5Gの標準化の旅が終わるにつれ、学界や業界は今後10年間のサービス要求を満たすために、第6世代(6G)無線ネットワークについて検討し始めている。 深層学習に基づくRFフィンガープリント(DL-RFFP)は、近年、スペクトルポリシー適用やネットワークアクセス制御といった重要な無線ネットワークアプリケーションやサービスを実現するための潜在的なソリューションとして認識されている。 最先端のDL-RFFPフレームワークは、トレーニングデータとは異なるドメインから引き出されたデータでテストすると、大幅なパフォーマンス低下に悩まされる。 本稿では, RFFPタスクの時間領域適応に対処するため, 対角不整合表現に基づく教師なしドメイン適応フレームワークであるADL-IDを提案する。 我々のフレームワークは実LoRaおよびWiFiデータセットで評価され、短期適応におけるベースラインCNNネットワークと比較して約24%精度が向上した。 また、長期的な時間適応において、分類精度を最大9%向上させる。 さらに,50台のPycomデバイスから収集した5日間の2.1TBの大規模WiFi 802.11bデータセットを公開し,ロバストなRFFP手法の開発と検証に関する研究コミュニティの取り組みを支援する。

As the journey of 5G standardization is coming to an end, academia and industry have already begun to consider the sixth-generation (6G) wireless networks, with an aim to meet the service demands for the next decade. Deep learning-based RF fingerprinting (DL-RFFP) has recently been recognized as a potential solution for enabling key wireless network applications and services, such as spectrum policy enforcement and network access control. The state-of-the-art DL-RFFP frameworks suffer from a significant performance drop when tested with data drawn from a domain that is different from that used for training data. In this paper, we propose ADL-ID, an unsupervised domain adaption framework that is based on adversarial disentanglement representation to address the temporal domain adaptation for the RFFP task. Our framework has been evaluated on real LoRa and WiFi datasets and showed about 24% improvement in accuracy when compared to the baseline CNN network on short-term temporal adaptation. It also improves the classification accuracy by up to 9% on long-term temporal adaptation. Furthermore, we release a 5-day, 2.1TB, large-scale WiFi 802.11b dataset collected from 50 Pycom devices to support the research community efforts in developing and validating robust RFFP methods.
翻訳日:2023-01-31 17:35:38 公開日:2023-01-29
# 統一多変量トレース推定と量子誤差軽減

Unified multivariate trace estimation and quantum error mitigation ( http://arxiv.org/abs/2301.12358v1 )

ライセンス: Link先を確認
Jin-Min Liang, Qiao-Qiao Lv, Zhi-Xi Wang, Shao-Ming Fei(参考訳) m$$n$-qubit 密度行列 (multivariate trace) の積のトレースを計算することは、量子誤差緩和と情報測度推定において重要なサブルーチンである。 量子回路深度と量子ビット数を用いて,従来の量子ビット最適・深度最適のアプローチを概念的に統一する統一多変量トレース推定法(UMT)を提案する。 構成された回路は、$\lceil(m-1)/s\rceil$ または $n\lceil(m-1)/s\rceil$ の深さが $(s+m)n$ または $s+mn$ qubits for $s\in\{1,\cdots,\lfloor m/2\rfloor\}$ である。 このようなフレキシブルな回路構造により、ユーザーは異なるハードウェアデバイスに応じて適切な回路を選択できる。 我々は, 仮想蒸留にumtを適用して指数的誤差抑制を行い, コンクリート回路群の設計を行い, 8 ドルおよび 9 ドルの密度行列の積のトレースを計算する。 数値例は、付加回路が大域的非分極チャネル下でノイズ期待値を緩和していることを示している。

Calculating the trace of the product of $m$ $n$-qubit density matrices (multivariate trace) is a crucial subroutine in quantum error mitigation and information measures estimation. We propose an unified multivariate trace estimation (UMT) which conceptually unifies the previous qubit-optimal and depth-optimal approaches with tunable quantum circuit depth and the number of qubits. The constructed circuits have $\lceil(m-1)/s\rceil$ or $n\lceil(m-1)/s\rceil$ depth corresponding to $(s+m)n$ or $s+mn$ qubits for $s\in\{1,\cdots,\lfloor m/2\rfloor\}$, respectively. Such flexible circuit structures enable people to choose suitable circuits according different hardware devices. We apply UMT to virtual distillation for achieving exponential error suppression and design a family of concrete circuits to calculate the trace of the product of $8$ and $9$ $n$-qubit density matrices. Numerical example shows that the additional circuits still mitigate the noise expectation value under the global depolarizing channel.
翻訳日:2023-01-31 17:35:11 公開日:2023-01-29
# SPEED:リニア・ヘテロセダスティックバンドの政策評価のための実験的設計

SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits ( http://arxiv.org/abs/2301.12357v1 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Qiaomin Xie, Josiah Hanna, Robert Nowak(参考訳) 本稿では,線形帯域における政策評価のための最適データ収集の問題について検討する。 政策評価では、対象政策が与えられ、マルチアームバンディットとして形式化された環境で実行されると得られる期待累積報酬を見積もる。 本稿では,ヘテロシデスティック報酬ノイズを伴う線形バンディット設定に着目した。 これは、線形バンディット設定におけるヘテロシデスティック報酬ノイズを含む政策評価のための最適なデータ収集戦略に焦点を当てた最初の作品である。 まず,重み付き最小二乗推定の最適設計をヘテロシデスティック線形バンディット設定において定式化し,目標政策のmseを減少させる。 これをポリシー重み付き最小二乗推定と呼び、この定式化を用いてデータ収集の最適行動ポリシーを導出する。 次に, 最適な行動方針を追跡し, 最適な行動方針に対する後悔を生じる新しいアルゴリズム速度(構造的政策評価実験設計)を提案する。 最後に、oracleの戦略に匹敵する平均二乗誤差で、ターゲットのポリシーを実行するよりもかなり低い、というポリシー評価のスピードを実証的に検証します。

In this paper, we study the problem of optimal data collection for policy evaluation in linear bandits. In policy evaluation, we are given a target policy and asked to estimate the expected cumulative reward it will obtain when executed in an environment formalized as a multi-armed bandit. In this paper, we focus on linear bandit setting with heteroscedastic reward noise. This is the first work that focuses on such an optimal data collection strategy for policy evaluation involving heteroscedastic reward noise in the linear bandit setting. We first formulate an optimal design for weighted least squares estimates in the heteroscedastic linear bandit setting that reduces the MSE of the target policy. We term this as policy-weighted least square estimation and use this formulation to derive the optimal behavior policy for data collection. We then propose a novel algorithm SPEED (Structured Policy Evaluation Experimental Design) that tracks the optimal behavior policy and derive its regret with respect to the optimal behavior policy. Finally, we empirically validate that SPEED leads to policy evaluation with mean squared error comparable to the oracle strategy and significantly lower than simply running the target policy.
翻訳日:2023-01-31 17:34:41 公開日:2023-01-29
# 効率的なスパイクパターンを用いた高速スパイクニューラルネットワークの活用

Exploiting High Performance Spiking Neural Networks with Efficient Spiking Patterns ( http://arxiv.org/abs/2301.12356v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao and Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、離散スパイクシーケンスを使用して情報を伝達し、脳の情報伝達を著しく模倣する。 この二項化表現は、SNNのエネルギー効率とロバスト性を大幅に向上させるが、実値に基づくSNNとニューラルネットワークの性能のギャップも大きい。 脳には多くの異なるスパイクパターンがあり、これらのスパイクパターンの動的シナジーは表現能力を大幅に向上させる。 本稿では,生体ニューロンのスパイクパターンに触発されて動的バーストパターンを導入し,ネットワーク情報キャパシティの観点から短時間の性能と動的時間的性能のトレードオフを生かしたLeaky Integrate and Fire or Burst(LIFB)ニューロンを設計する。 LIFBニューロンは、安静、規則スパイク、バーストスパイクの3つのモードを示す。 ニューロンのバースト密度は適応的に調整できるため、キャラクタリゼーション能力が著しく向上する。 また, LIFBニューロンを等価なLIFニューロンに無作為に分離し, LIFBニューロンをニューロモルフィックハードウェア上で効率的に実装できることを実証するデカップリング手法を提案する。 我々は,静的データセットCIFAR10,CIFAR100,ImageNetの実験を行い,SNNの性能を大幅に改善し,ネットワーク遅延を大幅に低減した。 また, ニューロモルフィックデータセットDVS-CIFAR10とNCALTECH101の実験を行い, ネットワーク構造を小さくして最先端化を実現した。

Spiking Neural Networks (SNNs) use discrete spike sequences to transmit information, which significantly mimics the information transmission of the brain. Although this binarized form of representation dramatically enhances the energy efficiency and robustness of SNNs, it also leaves a large gap between the performance of SNNs and Artificial Neural Networks based on real values. There are many different spike patterns in the brain, and the dynamic synergy of these spike patterns greatly enriches the representation capability. Inspired by spike patterns in biological neurons, this paper introduces the dynamic Burst pattern and designs the Leaky Integrate and Fire or Burst (LIFB) neuron that can make a trade-off between short-time performance and dynamic temporal performance from the perspective of network information capacity. LIFB neuron exhibits three modes, resting, Regular spike, and Burst spike. The burst density of the neuron can be adaptively adjusted, which significantly enriches the characterization capability. We also propose a decoupling method that can losslessly decouple LIFB neurons into equivalent LIF neurons, which demonstrates that LIFB neurons can be efficiently implemented on neuromorphic hardware. We conducted experiments on the static datasets CIFAR10, CIFAR100, and ImageNet, which showed that we greatly improved the performance of the SNNs while significantly reducing the network latency. We also conducted experiments on neuromorphic datasets DVS-CIFAR10 and NCALTECH101 and showed that we achieved state-of-the-art with a small network structure.
翻訳日:2023-01-31 17:34:24 公開日:2023-01-29
# コンテンツキャッシングと省エネルギーのためのセマンティックス強化時間グラフネットワーク

Semantics-enhanced Temporal Graph Networks for Content Caching and Energy Saving ( http://arxiv.org/abs/2301.12355v1 )

ライセンス: Link先を確認
Jianhang Zhu, Rongpeng Li, Xianfu Chen, Shiwen Mao, Jianjun Wu, Zhifeng Zhao(参考訳) ネットワーク機器やユーザの増加は、マルチメディアサービスにおけるインターネットトラフィックの大幅な増加を意味する。 トラフィックプレッシャーを軽減するため、ネットワーク上のストレージを持つアーキテクチャは、ユーザに近いノードで人気のあるコンテンツをキャッシュし、バックホールリンクを短縮する。 一方、伝送距離の削減は省エネにも寄与している。 しかし、ストレージが限られているため、キャッシュできるコンテンツはごくわずかだが、最も人気のあるコンテンツのキャッシュは費用対効果が高い。 それに応じて、効果的な人気予測方法を考案することが不可欠となる。 この点において、既存の取り組みでは動的グラフニューラルネットワーク(DGNN)モデルを採用しているが、スパースデータセットに取り組むことは依然として難しい。 本稿ではまず,dgnnモデルの時間的および構造的学習を強化するために,追加的な意味的メッセージを利用するstgnと呼ばれる修正時相グラフネットワークを提案する。 さらに,様々なセマンティクスを細粒度に集約するユーザ固有の注意機構を提案する。 最後に、広範囲なシミュレーションにより、STGNモデルの優位性を検証し、省エネの可能性を示す。

The enormous amount of network equipment and users implies a tremendous growth of Internet traffic for multimedia services. To mitigate the traffic pressure, architectures with in-network storage are proposed to cache popular content at nodes in close proximity to users to shorten the backhaul links. Meanwhile, the reduction of transmission distance also contributes to the energy saving. However, due to limited storage, only a fraction of the content can be cached, while caching the most popular content is cost-effective. Correspondingly, it becomes essential to devise an effective popularity prediction method. In this regard, existing efforts adopt dynamic graph neural network (DGNN) models, but it remains challenging to tackle sparse datasets. In this paper, we first propose a reformative temporal graph network, which is named STGN, that utilizes extra semantic messages to enhance the temporal and structural learning of a DGNN model, since the consideration of semantics can help establish implicit paths within the sparse interaction graph and hence improve the prediction performance. Furthermore, we propose a user-specific attention mechanism to fine-grainedly aggregate various semantics. Finally, extensive simulations verify the superiority of our STGN models and demonstrate their high potential in energy-saving.
翻訳日:2023-01-31 17:33:57 公開日:2023-01-29
# 単一固定サイズReLUネットワークの構成による表現力向上について

On Enhancing Expressive Power via Compositions of Single Fixed-Size ReLU Network ( http://arxiv.org/abs/2301.12353v1 )

ライセンス: Link先を確認
Shijun Zhang, Jianfeng Lu, Hongkai Zhao(参考訳) 本稿では,機能構成の観点から,ディープニューラルネットワークの表現力について考察する。 1つの固定サイズReLUネットワークの繰り返し合成によって超表現力が得られることを示す。 特に、$\mathcal{l}_2\circ \boldsymbol{g}^{\circ r}\circ \boldsymbol{\mathcal{l}}_1$ は、$[0,1]^d$ で$\mathcal{o}(r^{-1/d})$ の誤差を持つ$$$-lipschitz連続関数を近似し、$\boldsymbol{g}$ は固定サイズのreluネットワークによって実現され、$\boldsymbol{\mathcal{l}}_1$ と $\mathcal{l}_2$ は次元に一致する2つのアフィン線型写像であり、$\boldsymbol{g}^{\circ r}$ は$r$ である。 さらに、そのような結果を$[0,1]^d$上の一般連続関数に拡張し、近似誤差は連続性の係数によって特徴づけられる。 この結果から, 動的システムによって生成された連続深度ネットワークは, 動的関数が時間非依存であり, 固定サイズReLUネットワークによって実現された場合でも, 近似能力に優れることがわかった。

This paper studies the expressive power of deep neural networks from the perspective of function compositions. We show that repeated compositions of a single fixed-size ReLU network can produce super expressive power. In particular, we prove by construction that $\mathcal{L}_2\circ \boldsymbol{g}^{\circ r}\circ \boldsymbol{\mathcal{L}}_1$ can approximate $1$-Lipschitz continuous functions on $[0,1]^d$ with an error $\mathcal{O}(r^{-1/d})$, where $\boldsymbol{g}$ is realized by a fixed-size ReLU network, $\boldsymbol{\mathcal{L}}_1$ and $\mathcal{L}_2$ are two affine linear maps matching the dimensions, and $\boldsymbol{g}^{\circ r}$ means the $r$-times composition of $\boldsymbol{g}$. Furthermore, we extend such a result to generic continuous functions on $[0,1]^d$ with the approximation error characterized by the modulus of continuity. Our results reveal that a continuous-depth network generated via a dynamical system has good approximation power even if its dynamics function is time-independent and realized by a fixed-size ReLU network.
翻訳日:2023-01-31 17:33:38 公開日:2023-01-29
# 教師なしビデオオブジェクトセグメンテーションのためのマルチフレーム提案グラフの最大傾き

Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2301.12352v1 )

ライセンス: Link先を確認
Jialin Yuan, Jay Patravali, Hung Nguyen, Chanho Kim, Li Fuxin(参考訳) Unsupervised Video Object Segmentation (UVOS)は、オブジェクトを発見し、ビデオを通して追跡することを目的としている。 正確なUVOSのために、キーフレーム上の正確なセグメント提案を特定できるかどうかを観察する。 そこで本稿では,まず複数のフレームから生成したオブジェクト確率マスクを用いて構築したグラフを用いて,キーフレームの提案を推理し,その後キーフレームに伝播する。 このグラフ上で、最大傾きを計算し、各傾きは1つの候補対象を表す。 キーフレーム提案に投票する複数の提案を行うことにより,単一フレーム提案のどの提案よりも優れた,洗練されたキーフレーム提案を得る。 半教師付きVOSアルゴリズムはその後、ビデオ全体のキーフレーム提案を追跡する。 我々のアルゴリズムはモジュール化されており、任意のインスタンスセグメンテーションと半教師付きVOSアルゴリズムで使用できる。 DAVIS-2017バリデーションとtest-devデータセットで最先端のパフォーマンスを実現する。 ビデオ・インスタンス・セグメンテーションの問題点について,VOSアルゴリズムとの協調学習を必要とする従来の最良のアルゴリズムと競合する性能を示す。

Unsupervised Video Object Segmentation (UVOS) aims at discovering objects and tracking them through videos. For accurate UVOS, we observe if one can locate precise segment proposals on key frames, subsequent processes are much simpler. Hence, we propose to reason about key frame proposals using a graph built with the object probability masks initially generated from multiple frames around the key frame and then propagated to the key frame. On this graph, we compute maximal cliques, with each clique representing one candidate object. By making multiple proposals in the clique to vote for the key frame proposal, we obtain refined key frame proposals that could be better than any of the single-frame proposals. A semi-supervised VOS algorithm subsequently tracks these key frame proposals to the entire video. Our algorithm is modular and hence can be used with any instance segmentation and semi-supervised VOS algorithm. We achieve state-of-the-art performance on the DAVIS-2017 validation and test-dev dataset. On the related problem of video instance segmentation, our method shows competitive performance with the previous best algorithm that requires joint training with the VOS algorithm.
翻訳日:2023-01-31 17:32:59 公開日:2023-01-29
# 必要十分因果グラフの学習について

On Learning Necessary and Sufficient Causal Graphs ( http://arxiv.org/abs/2301.12389v1 )

ライセンス: Link先を確認
Hengrui Cai, Yixin Wang, Michael Jordan, Rui Song(参考訳) 因果革命は様々な分野における複雑な関係を理解することに興味を惹いた。 既存のほとんどの手法は、大規模な複素グラフにおいて、すべての変数間の因果関係を発見することを目的としている。 しかし、実際には、関心のある結果に関係があるのはグラフ内の少数の変数のみである。 その結果、完全な因果グラフ(特に限られたデータによって)による因果推定は、高い相関性を持つが、目的とする結果に因果的影響を持たない多くの偽の素因果変数をもたらす可能性がある。 本稿では,関心のある結果に対して,因果関係変数のみを含む必要十分因果グラフ(nscg)のクラスを学習し,因果特徴(causal features)と呼ぶ。 鍵となる考え方は、因果関係の確率を利用して因果関係グラフにおける特徴の重要性を体系的に評価し、興味ある結果に関連する部分グラフを特定することである。 データからNSCGを学習するために、因果関係の確率と特徴の因果関係の理論的関係を確立することにより、必要なスコアに基づく十分な因果構造学習(NSCSL)アルゴリズムを開発した。 シミュレーションおよび実データを用いた実証研究により,提案手法が既存のアルゴリズムよりも優れており,目的とする遺伝特性に重要な酵母遺伝子を明らかにすることができることを示した。

The causal revolution has spurred interest in understanding complex relationships in various fields. Most existing methods aim to discover causal relationships among all variables in a large-scale complex graph. However, in practice, only a small number of variables in the graph are relevant for the outcomes of interest. As a result, causal estimation with the full causal graph -- especially given limited data -- could lead to many falsely discovered, spurious variables that may be highly correlated with but have no causal impact on the target outcome. In this paper, we propose to learn a class of necessary and sufficient causal graphs (NSCG) that only contains causally relevant variables for an outcome of interest, which we term causal features. The key idea is to utilize probabilities of causation to systematically evaluate the importance of features in the causal graph, allowing us to identify a subgraph that is relevant to the outcome of interest. To learn NSCG from data, we develop a score-based necessary and sufficient causal structural learning (NSCSL) algorithm, by establishing theoretical relationships between probabilities of causation and causal effects of features. Across empirical studies of simulated and real data, we show that the proposed NSCSL algorithm outperforms existing algorithms and can reveal important yeast genes for target heritable traits of interest.
翻訳日:2023-01-31 17:27:02 公開日:2023-01-29
# 拒否する学習はOOD検出に一致する: すべての棄権は平等か?

Learning to reject meets OOD detection: Are all abstentions created equal? ( http://arxiv.org/abs/2301.12386v1 )

ライセンス: Link先を確認
Harikrishna Narasimhan, Aditya Krishna Menon, Wittawat Jitkrittum, Sanjiv Kumar(参考訳) L2Rでは、停止すべき"ハード"サンプルを検出し、OOD検出では、トレーニング分布から引き出されていない"アウトリー"サンプルを検出することが目標である。 興味深いことに、並列文献で開発されたにもかかわらず、どちらの問題も単純なベースラインを共有している: 最大ソフトマックス確率(MSP)スコア。 しかし、これらの問題がどのように関連しているかの理解は限られている。 本稿では,これらの問題を形式的に関連付け,その解決方法を示す。 MSPは理論的にL2Rに最適であるが,OOD検出には理論的に準最適であることを示す。 次に、L2RとOODの両方を一般化する統一定式化のためのベイズ最適分類器を特徴付ける。 そこで我々は,インリアとOODの両方のサンプルを吸収するプラグインアプローチを設計し,総吸収予算を制約する。 OODデータセットのベンチマーク実験により,本手法は両文献のベースラインと比較して,競合分類とOOD検出性能が向上することを示した。

Learning to reject (L2R) and out-of-distribution (OOD) detection are two classical problems, each of which involve detecting certain abnormal samples: in L2R, the goal is to detect "hard" samples on which to abstain, while in OOD detection, the goal is to detect "outlier" samples not drawn from the training distribution. Intriguingly, despite being developed in parallel literatures, both problems share a simple baseline: the maximum softmax probability (MSP) score. However, there is limited understanding of precisely how these problems relate. In this paper, we formally relate these problems, and show how they may be jointly solved. We first show that while MSP is theoretically optimal for L2R, it can be theoretically sub-optimal for OOD detection in some important practical settings. We then characterize the Bayes-optimal classifier for a unified formulation that generalizes both L2R and OOD detection. Based on this, we design a plug-in approach for learning to abstain on both inlier and OOD samples, while constraining the total abstention budget. Experiments on benchmark OOD datasets demonstrate that our approach yields competitive classification and OOD detection performance compared to baselines from both literatures.
翻訳日:2023-01-31 17:26:40 公開日:2023-01-29
# 不均一因果グラフにおける不均一処理効果について

On Heterogeneous Treatment Effects in Heterogeneous Causal Graphs ( http://arxiv.org/abs/2301.12383v1 )

ライセンス: Link先を確認
Richard A Watson, Hengrui Cai, Xinming An, Samuel McLean, Rui Song(参考訳) 異種性と共生性は、様々な医療問題にかかわる2つの課題であり、基礎となる神経生物学的メカニズムの効果的な治療と理解に関する研究を著しく妨げている。 統計学的手法の欠如により, グラフィカルな文脈におけるヘテロジニアス因果効果(HCE)を調査する研究はほとんど行われていない。 この不均一性を特徴付けるために,我々はまず,共起的相互作用と複数の仲介者による因果的グラフィカルモデルを一般化し,異種因果グラフ(hcgs)の概念化を行った。 このような治療と相互作用を持つ共同創設者はモデレーターとして知られている。 これにより、異なるモデレーターが与えられたHCGを柔軟に生成し、その結果に対する治療または潜在的なメディエータからHCEを明示的に特徴付けることができる。 我々はHCEの理論形式を確立し、線形モデルと非線形モデルの両方においてそれらの性質を個々のレベルで導出する。 複雑なHCGとHCEを信頼区間で推定するインタラクティブな構造学習法を開発した。 本手法は広範囲なシミュレーションにより実証的に正当化され, 外傷被害者に対する精神疾患の因果関係を探究し, その実用性を示した。

Heterogeneity and comorbidity are two interwoven challenges associated with various healthcare problems that greatly hampered research on developing effective treatment and understanding of the underlying neurobiological mechanism. Very few studies have been conducted to investigate heterogeneous causal effects (HCEs) in graphical contexts due to the lack of statistical methods. To characterize this heterogeneity, we first conceptualize heterogeneous causal graphs (HCGs) by generalizing the causal graphical model with confounder-based interactions and multiple mediators. Such confounders with an interaction with the treatment are known as moderators. This allows us to flexibly produce HCGs given different moderators and explicitly characterize HCEs from the treatment or potential mediators on the outcome. We establish the theoretical forms of HCEs and derive their properties at the individual level in both linear and nonlinear models. An interactive structural learning is developed to estimate the complex HCGs and HCEs with confidence intervals provided. Our method is empirically justified by extensive simulations and its practical usefulness is illustrated by exploring causality among psychiatric disorders for trauma survivors.
翻訳日:2023-01-31 17:26:21 公開日:2023-01-29
# データ駆動型インテリジェント計算設計:方法、技術、応用

Data-driven intelligent computational design: Method, techniques, and applications ( http://arxiv.org/abs/2301.12382v1 )

ライセンス: Link先を確認
Maolin Yang, Pingyu Jiang, Tianshuo Zang, Yuhao Liu(参考訳) data-driven intelligent computational design (dicd) は、高速な人工知能のコンテキスト下で出現した研究ホットスポットである。 ディープラーニングアルゴリズムを活用して、歴史的または製造された設計プロセスデータに隠されたデザイン特徴を抽出し、表現し、設計ソリューションの検索、生成、最適化、評価などのためにこれらのデザイン特徴の組み合わせとマッピングパターンを学ぶ。 自動的かつ効率的に設計ソリューションを生成できる能力と、人力によるインテリジェントで革新的な設計活動を支援する能力から、dcdは学術分野と産業分野の両方から注目を集めてきた。 しかし、新たな研究課題として、特定のデータセットの構築、エンジニアリング設計に関連する機能工学、DICD実装のための体系的手法や技術、製品設計ライフサイクル全体におけるDICDアプリケーションへのエントリポイントなど、DICDの理論的開発と産業的応用を制限する未解決の問題がまだ数多く存在する。 この点に関して、DICDプロジェクト計画のための一般的なワークフロー、DICDプロジェクト実装のための全体的なフレームワーク、DICD実装のためのコンピューティングメカニズム、詳細なDICD実装のための重要な実現技術、DICDの3つのアプリケーションシナリオを含む、DICD実装のための体系的な理論的参照が確立されている。 これらの研究は、簡単な研究状況、重要な研究トピック、さらに重要なことは、DICD実装のための一般的なロードマップを提供する。

Data-driven intelligent computational design (DICD) is a research hotspot emerged under the context of fast-developing artificial intelligence. It emphasizes on utilizing deep learning algorithms to extract and represent the design features hidden in historical or fabricated design process data, and then learn the combination and mapping patterns of these design features for the purposes of design solution retrieval, generation, optimization, evaluation, etc. Due to its capability of automatically and efficiently generating design solutions and thus supporting human-in-the-loop intelligent and innovative design activities, DICD has drawn the attentions from both academic and industrial fields. However, as an emerging research subject, there are still many unexplored issues that limit the theorical development and industrial application of DICD, such as specific dataset building, engineering design related feature engineering, systematic methods and techniques for DICD implementation, more entry points for DICD application in the entire product design life cycle, etc. In this regard, a systematic theorical reference for DICD implementation is established, including a general workflow for DICD project planning, an overall framework for DICD project implementation, the computing mechanisms for DICD implementation, key enabling technologies for detailed DICD implementation, and three application scenarios of DICD. The works provide a brief research status, key research topics, and more importantly a general road map for DICD implementation.
翻訳日:2023-01-31 17:26:02 公開日:2023-01-29
# 任意の次元におけるUnruh-DeWitt検出器のデコヒーレンスと熱化

Decoherence and thermalization of Unruh-DeWitt detector in arbitrary dimensions ( http://arxiv.org/abs/2301.12381v1 )

ライセンス: Link先を確認
Hao Xu(参考訳) 自由質量スカラー場に線形に結合したunruh-dewitt検出器の任意の次元の平坦時空(d\geq 2$)におけるデコヒーレンスと熱化について検討した。 検出器の初期状態は、接地状態と励起状態の線形重ね合わせからなる純粋な状態として選択され、検出器の密度行列の時間変化を計算する。 摂動法を用いて, 検出器の遷移速度 (密度行列における対角要素の変化率) とデコヒーレンス率 (密度行列における対角要素の変化率) を解析的に導出した。 結果が奇数および次元時空において同じではないことが分かるが、量子ビットのユニタリ性はどちらの場合においても保存される。 デコヒーレンス率の実部は遷移速度と関連しており、虚部は時間次積作用素と量子場理論のワイトマン関数の特異性のために異なる次元の発散項の異なる形式を含むことができる。 各次元における発散項を得るために再帰公式を導出し、再正規化問題を解析する。

We study the decoherence and thermalization of an Unruh-DeWitt detector linearly coupled to the free massless scalar field in flat spacetime of arbitrary dimensions ($d\geq 2$). The initial state of the detector is chosen to be a pure state consisting of a linear superposition of ground and excited states, and we calculate the time evolution of reduced density matrix of the detector. Using perturbation method, we analytically derive the transition rate of the detector (the rate of change of the diagonal elements in the density matrix) and the decoherence rate (the rate of change of the off-diagonal elements in the density matrix). We find that the results are not the same in odd and even dimensional spacetimes, but the unitarity of the qubit is preserved in both cases. The real part of the decoherence rate is related to the transition rate, while the imaginary part may contain different forms of divergence terms in different dimensions due to the temporal order product operator and the singularities of the Wightman function for quantum field theory. We derive the recurrence formula to obtain the divergence terms in each dimension and analyze the renormalization problem.
翻訳日:2023-01-31 17:25:37 公開日:2023-01-29
# FedConceptEM: 分散シフトによるロバストなフェデレーション学習

FedConceptEM: Robust Federated Learning Under Diverse Distribution Shifts ( http://arxiv.org/abs/2301.12379v1 )

ライセンス: Link先を確認
Yongxin Guo, Xiaoying Tang, Tao Lin(参考訳) Federated Learning(FL)は、クライアントデータをエッジデバイスに保持することでプライバシを保護する機械学習パラダイムである。 しかし,学習システムの多様性や多様性から,実際にflを最適化することは困難である。 最近の研究は、分布シフトを伴うFLの最適化の改善を目的としているが、複数種類の分布シフト、すなわち、特徴分布スキュー、ラベル分布スキュー、概念シフトを同時に行う場合、FLモデルをトレーニングする方法は未解決の問題である。 この課題に対処するために,FLにおける多様な分布シフトを扱うための新しいアルゴリズムフレームワークであるFedConceptEMを提案する。 fedconceptemは、コンセプトシフトを異なるモデルに自動的に割り当て、これらのシフトによるパフォーマンス低下を回避する。 同時に、機能やラベルのスキューであっても、コンセプトシフトのないクライアントが同じモデルに割り当てられ、トレーニングされたモデルの堅牢性が改善される。 大規模な実験により、FedConceptEMは他の最先端のクラスタベースのFL法よりも大きなマージンで優れていることが示された。

Federated Learning (FL) is a machine learning paradigm that protects privacy by keeping client data on edge devices. However, optimizing FL in practice can be challenging due to the diversity and heterogeneity of the learning system. Recent research efforts have aimed to improve the optimization of FL with distribution shifts, but it is still an open problem how to train FL models when multiple types of distribution shifts, i.e., feature distribution skew, label distribution skew, and concept shift occur simultaneously. To address this challenge, we propose a novel algorithm framework, FedConceptEM, for handling diverse distribution shifts in FL. FedConceptEM automatically assigns clients with concept shifts to different models, avoiding the performance drop caused by these shifts. At the same time, clients without concept shifts, even with feature or label skew, are assigned to the same model, improving the robustness of the trained models. Extensive experiments demonstrate that FedConceptEM outperforms other state-of-the-art cluster-based FL methods by a significant margin.
翻訳日:2023-01-31 17:25:18 公開日:2023-01-29
# 効率的な深層学習をめざして

Towards Inference Efficient Deep Ensemble Learning ( http://arxiv.org/abs/2301.12378v1 )

ライセンス: Link先を確認
Ziyue Li, Kan Ren, Yifan Yang, Xinyang Jiang, Yuqing Yang, Dongsheng Li(参考訳) アンサンブルメソッドは驚くべきパフォーマンス向上をもたらすが、大規模なアンサンブルタスクでは最大2048倍の計算コストをもたらす。 しかし,アンサンブル法における計算の大半は冗長であることがわかった。 例えば、CIFAR-100データセットの77%以上のサンプルは、1つのResNet-18モデルで正しく分類することができる。 そこで本研究では,アンサンブル学習の有効性と効率を同時に最適化する推論効率の高いアンサンブル学習手法を提案する。 より具体的には、モデルのアンサンブルを逐次的推論プロセスとみなし、特定のサンプル上での推論の最適な停止イベントを学ぶ。 推論プロセスの各時間ステップにおいて、共通セレクタは、現在のアンサンブルがアンサンブルの有効性に達したかどうかを判断し、さらなる推論を停止する。 ベースモデルと共通セレクタを共同で最適化し、連続的なアンサンブルブースティングや計算節約を含む新しい最適化目標により、異なるサンプルのアンサンブル推論を動的に調整する。 実世界のデータセット上で異なるバックボーンを用いた実験により,本手法は,フルアンサンブルに匹敵する性能を維持しつつ,最大56\%の推論コスト削減を実現し,他のベースラインよりもかなり優れたアンサンブルユーティリティを実現する。 コードと補足資料はhttps://seqml.github.io/ireneで入手できる。

Ensemble methods can deliver surprising performance gains but also bring significantly higher computational costs, e.g., can be up to 2048X in large-scale ensemble tasks. However, we found that the majority of computations in ensemble methods are redundant. For instance, over 77% of samples in CIFAR-100 dataset can be correctly classified with only a single ResNet-18 model, which indicates that only around 23% of the samples need an ensemble of extra models. To this end, we propose an inference efficient ensemble learning method, to simultaneously optimize for effectiveness and efficiency in ensemble learning. More specifically, we regard ensemble of models as a sequential inference process and learn the optimal halting event for inference on a specific sample. At each timestep of the inference process, a common selector judges if the current ensemble has reached ensemble effectiveness and halt further inference, otherwise filters this challenging sample for the subsequent models to conduct more powerful ensemble. Both the base models and common selector are jointly optimized to dynamically adjust ensemble inference for different samples with various hardness, through the novel optimization goals including sequential ensemble boosting and computation saving. The experiments with different backbones on real-world datasets illustrate our method can bring up to 56\% inference cost reduction while maintaining comparable performance to full ensemble, achieving significantly better ensemble utility than other baselines. Code and supplemental materials are available at https://seqml.github.io/irene.
翻訳日:2023-01-31 17:24:57 公開日:2023-01-29
# トピック対応グローバルとローカルレベル中心性による対話要約の強化

Enhancing Dialogue Summarization with Topic-Aware Global- and Local- Level Centrality ( http://arxiv.org/abs/2301.12376v1 )

ライセンス: Link先を確認
Xinnian Liang, Shuangzhi Wu, Chenhao Cui, Jiaqi Bai, Chao Bian, Zhoujun Li(参考訳) 対話要約は、与えられた対話をシンプルで集中した要約テキストにまとめることを目的としている。 典型的には、役割の視点と会話の話題の両方が対話ストリームで変化する。 このように、シフトするトピックを効果的に処理し、最も健全な発話を選択する方法が、このタスクの大きな課題の1つになります。 本稿では,すべてのサブトピックから高度コンテキストを選択するための新しいトピックアウェアグローバルローカル集中度(glc)モデルを提案する。 中心地はグローバルとローカルの両方に構築されている。 グローバル・ワンは対話における重要なサブトピックを特定し、ローカル・ワンは各サブトピックにおける最も重要なコンテキストを選択することを目的としている。 特に、glcは、発話表現に基づいてサブトピックを収集する。 各発話は1つのサブトピックと一致している。 サブトピックに基づいて、glcはグローバルおよびローカルレベルの集中度を計算する。 最後に、この2つを組み合わせることで、サマリーコンテキストとサブトピックの両方をキャプチャするモデルをガイドします。 実験の結果,CSDS,MC,SAMSUMの3つの公開対話要約データセットでは,モデルが強いベースラインを達成できた。 さらなる分析により、GLCはサブトピックから重要な内容を正確に特定できることが示される。 ~\footnote{\url{https://github.com/xnliang98/bart-glc}}

Dialogue summarization aims to condense a given dialogue into a simple and focused summary text. Typically, both the roles' viewpoints and conversational topics change in the dialogue stream. Thus how to effectively handle the shifting topics and select the most salient utterance becomes one of the major challenges of this task. In this paper, we propose a novel topic-aware Global-Local Centrality (GLC) model to help select the salient context from all sub-topics. The centralities are constructed at both the global and local levels. The global one aims to identify vital sub-topics in the dialogue and the local one aims to select the most important context in each sub-topic. Specifically, the GLC collects sub-topic based on the utterance representations. And each utterance is aligned with one sub-topic. Based on the sub-topics, the GLC calculates global- and local-level centralities. Finally, we combine the two to guide the model to capture both salient context and sub-topics when generating summaries. Experimental results show that our model outperforms strong baselines on three public dialogue summarization datasets: CSDS, MC, and SAMSUM. Further analysis demonstrates that our GLC can exactly identify vital contents from sub-topics.~\footnote{\url{https://github.com/xnliang98/bart-glc}}
翻訳日:2023-01-31 17:24:31 公開日:2023-01-29
# 宇宙線レインボー時空と一様磁場におけるpdm kg-クーロン粒子

PDM KG-Coulombic particles in cosmic string rainbow gravity spacetime and a uniform magnetic field ( http://arxiv.org/abs/2301.12370v1 )

ライセンス: Link先を確認
Omar Mustafa(参考訳) Klein-Gordon (KG) 粒子の宇宙線レインボー重力時空と均一磁場について, 比喩的に言えば, 位置依存質量 (PDM) 設定の文脈で検討した。 対応するKG方程式が2次元ラジアルSchr\"{o}dinger-Coulomb様モデルに崩壊することを示す。 正確な教科書解は、KG-クーロン粒子(定数質量とPDM粒子の両方)のエネルギーと波動関数を見つけるために用いられる。 この場合、$y=E/E_{P}$で4組の虹函数を考える。 (a) $% g_{_{0}}\left(y\right) =1$, $g_{_{1}}\left(y\right) =\sqrt{1-\epsilon y^{2}% }$, である。 (b) $g_{_{0}}\left(y\right) =1$, $g_{_{1}}\left(y\right) =\sqrt{% 1-\epsilon y}$, である。 (c) $g_{_{0}}\left( y\right) =g_{_{1}}\left( y\right) =\left( 1-\epsilon y\right) ^{-1}$, and (d) $g_{_{0}}( y) =(e^{\epsilon y}-1) /\epsilon y$, $g_{_{1}}\left( y\right) =1$。 興味深いことに、最初のペアは (a) プランクエネルギー $e_{p}$ を最大 kg-粒子/粒子エネルギー値として導入する。

Klein-Gordon (KG) particles in cosmic string rainbow gravity spacetime and a uniform magnetic field are studied in the context of the so called, metaphorically speaking, position-dependent mass (PDM) settings. We show that the corresponding KG-equation collapses into a two-dimensional radial Schr\"{o}dinger-Coulomb like model. The exact textbook solution of which is used to find the energies and wave functions of KG-Coulombic particles (both constant mass and PDM ones). In so doing, we consider, with $y=E/E_{P}$, four pairs of rainbow functions: (a) $% g_{_{0}}\left( y\right) =1$, $g_{_{1}}\left( y\right) =\sqrt{1-\epsilon y^{2}% }$, (b) $g_{_{0}}\left( y\right) =1$, $g_{_{1}}\left( y\right) =\sqrt{% 1-\epsilon y}$, (c) $g_{_{0}}\left( y\right) =g_{_{1}}\left( y\right) =\left( 1-\epsilon y\right) ^{-1}$, and (d) $g_{_{0}}( y) =(e^{\epsilon y}-1) /\epsilon y$, $g_{_{1}}\left( y\right) =1$. Interestingly, we observe that the first pair in (a) introduces the Planck energy $E_{p}$ as a maximum possible KG-particle/antiparticle energy value.
翻訳日:2023-01-31 17:24:12 公開日:2023-01-29
# ドメインシフトによるAIの公正性の確保

Preserving Fairness in AI under Domain Shift ( http://arxiv.org/abs/2301.12369v1 )

ライセンス: Link先を確認
Serban Stan and Mohammad Rostami(参考訳) 既存のAIの公正性を保証するアルゴリズムでは、単一ショットのトレーニング戦略を使用して、AIモデルを注釈付きトレーニングデータセットにセンシティブな属性でトレーニングし、使用のためにフィールド化する。 このトレーニング戦略は、トレーニングデータとテストデータの両方が同一分布から引き出される定常分布の問題に有効である。 しかし、最初のトレーニングフェーズ後に発生する可能性のある入力空間の分布シフトに対して脆弱である。 結果として、データの時間依存の性質はモデル予測にバイアスをもたらす可能性がある。 新しいアノテートデータセットを使用したスクラッチからのモデル再トレーニングは、高価で時間を要する単純なソリューションである。 我々は、新しい注釈のないデータポイントのみを用いて、ドメインシフトの下で公平なモデルに適応するアルゴリズムを開発した。 我々はこの学習環境を教師なし領域適応問題として再考する。 本アルゴリズムは,入力空間の分散シフトにもかかわらず,データの内部表現が不偏であるようなモデルを更新することに基づいている。 提案アルゴリズムの有効性を実証するために,広く利用されている3つのフェアネスデータセットに対して広範な実証検証を行った。

Existing algorithms for ensuring fairness in AI use a single-shot training strategy, where an AI model is trained on an annotated training dataset with sensitive attributes and then fielded for utilization. This training strategy is effective in problems with stationary distributions, where both training and testing data are drawn from the same distribution. However, it is vulnerable with respect to distributional shifts in the input space that may occur after the initial training phase. As a result, the time-dependent nature of data can introduce biases into the model predictions. Model retraining from scratch using a new annotated dataset is a naive solution that is expensive and time-consuming. We develop an algorithm to adapt a fair model to remain fair under domain shift using solely new unannotated data points. We recast this learning setting as an unsupervised domain adaptation problem. Our algorithm is based on updating the model such that the internal representation of data remains unbiased despite distributional shifts in the input space. We provide extensive empirical validation on three widely employed fairness datasets to demonstrate the effectiveness of our algorithm.
翻訳日:2023-01-31 17:23:49 公開日:2023-01-29
# l=1/n を持つルジャンドル方程式の他の一連の解。 角運動量の分数量子数

Other series of solutions to Legendre equation with L=1/n. Fractional quantum numbers of angular momentum ( http://arxiv.org/abs/2301.12433v1 )

ライセンス: Link先を確認
Qingzhang Lv(参考訳) 関連するルジャンドル微分方程式は量子力学でよく知られている。 角運動量量子数 l は球面高調波 y(l m) に付随するルジャンドル多項式に基づくもので、非負整数 0 1 2 などであり、分数でなければならない。 しかし、この論文での研究は、ルジャンドル方程式の他の一連の解に対応する量子数 L が分数であることに驚いた。 この論文は、L=1/2 の Y の球高調波が存在するだけでなく、L = 1/n = 1/3 1/4 1/5 等の球高調波 Y が存在することを証明している。 そこで本論文は、s=1/2の電子様粒子に加えて、1/31/41/5等の分数スピンを持つ他の微粒子の存在を大胆に推察する。 2つのスピン成分しか持たない粒子のスピンを s=1/2 に設定することは必ずしも正しくない。 Y のプロットの対称性に基づいて、粒子の3つの異なるスピンクラスが予測される。 第1級粒子(s=1/21/6)は電子に似ており、同じスピンを持つ粒子は互いに遠ざかる傾向にあり、第2級粒子(s=1/31/5)はスピンが同じかどうかにかかわらず互いに反発せず、第3級粒子(s=1/41/8)は常に互いに撃退し、スピンが同じかどうかに関わらず移動しがちである。 したがって、電子はスピンs=1/3の粒子とスピンs=1/6の粒子からなる可能性が高いが、スピンs=1/4の粒子とスピンs=1/6の粒子は2つではない。 この研究は量子力学や素粒子研究において非常に重要である。 この見解は以前の量子論を破り、理論と実践においてさらに証明する必要がある。

Associated Legendre differential equation is well known in quantum mechanics. The angular momentum quantum number L according to spherical harmonics Y(l m) based on an associated Legendre polynomials is non-negative integer 0 1 2 etc. and must never be a fraction. But the study in this paper was surprised to find that the quantum number L corresponding to other series of solutions of Legendre equation could be fractions. This paper not only proves that there are the spherical harmonics of Y of L=1/2 but also spherical harmonics Y of L = 1/n = 1/3 1/4 1/5 etc. So, this paper boldly speculates that there may be other microscopic particles with fractional spin such as 1/3 1/4 1/5 etc. to be verified in addition to electron-like particles with s=1/2. Setting the spin of a particle with only two spin components up and down to s=1/2 is not necessarily correct. Based on the symmetry of the plots of Y, three different spin classes of particles are predicted. The first class of particles (s=1/2 1/6) resembles electrons, particles with the same spin tend to move away from each other, and the second class of particles (s=1/3 1/5) does not repel each other regardless of whether their spins are the same, and the third class of particles s=1/4 1/8 always repels each other and tends to move away whether their spins are the same or not. So, the electron is likely to consist of a particle with spin s=1/3 and a particle with spin s=1/6, but not two particles with spin s=1/4 or three particles with spin s=1/6. This work may be very important to quantum mechanics and elementary particle research. This view breaks the previous quantum theory and needs to be further proved in theory and practice.
翻訳日:2023-01-31 17:18:23 公開日:2023-01-29
# プロンプト正規化による視覚言語モデルのdebiased fine-tuning

Debiased Fine-Tuning for Vision-language Models by Prompt Regularization ( http://arxiv.org/abs/2301.12429v1 )

ライセンス: Link先を確認
Beier Zhu and Yulei Niu and Saeil Lee and Minhoe Hur and Hanwang Zhang(参考訳) 我々は,ダウンストリームタスクにおける大規模視覚言語事前学習モデルの微調整のための新しいパラダイムであるpromply regularization (proreg)を提案する。 下流のタスクデータに簡単に適合する従来の微調整とは異なり、ProRegは事前訓練されたモデルに微調整を規則化するよう促すことで予測を使用する。 動機は、大きなモデル「[CLASS]の写真」をプロンプトすることで、FI-linの答えは、通常バイアスのかかるタスクデータ分布とは独立しながら、事前学習された百科事典の知識にのみ依存する。 具体的には、微調整中のトレーニングサンプル予測を考慮し、まず、即時予測のKullbackLeibler損失とグランドトラストラベルのクロスエントロピー損失を計算し、次に、予め訓練された領域と下流領域の転送を自動的に調整するサンプル適応トレードオフ重みと組み合わせる。 様々なアウト・オブ・ディストリビューション・ベンチマークにおいて,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。

We present a new paradigm for fine-tuning large-scale visionlanguage pre-trained models on downstream task, dubbed Prompt Regularization (ProReg). Different from traditional fine-tuning which easily overfits to the downstream task data, ProReg uses the prediction by prompting the pretrained model to regularize the fine-tuning. The motivation is: by prompting the large model "a photo of a [CLASS]", the fil-lin answer is only dependent on the pretraining encyclopedic knowledge while independent of the task data distribution, which is usually biased. Specifically, given a training sample prediction during fine-tuning, we first calculate its KullbackLeibler loss of the prompt prediction and Cross-Entropy loss of the ground-truth label, and then combine them with a proposed sample-wise adaptive trade-off weight, which automatically adjusts the transfer between the pretrained and downstream domains. On various out-of-distribution benchmarks, we show the consistently strong performance of ProReg compared with conventional fine-tuning, zero-shot prompt, prompt tuning, and other state-of-the-art methods.
翻訳日:2023-01-31 17:17:47 公開日:2023-01-29
# syrupy mouthfeel and hints of chocolate -- テキストベースの感情を用いたコーヒーレビュースコアの予測

Syrupy Mouthfeel and Hints of Chocolate -- Predicting Coffee Review Scores using Text Based Sentiment ( http://arxiv.org/abs/2301.12417v1 )

ライセンス: Link先を確認
Christopher Lohse, Jeroen Lemsom and Athanasios Kalogiratos(参考訳) 本稿では,認定コーヒーレビューに含まれるテキストデータを用いて,0~100の尺度で対応するスコアを予測する。 この高度に特殊で標準化されたテキストデータを予測空間に変換することにより,コーヒー豆スコアのパターンを正確に捉えた回帰モデルを構築する。

This paper uses textual data contained in certified (q-graded) coffee reviews to predict corresponding scores on a scale from 0-100. By transforming this highly specialized and standardized textual data in a predictor space, we construct regression models which accurately capture the patterns in corresponding coffee bean scores.
翻訳日:2023-01-31 17:17:24 公開日:2023-01-29
# 人間の解析のためのディープラーニング:調査

Deep Learning for Human Parsing: A Survey ( http://arxiv.org/abs/2301.12416v1 )

ライセンス: Link先を確認
Xiaomei Zhang, Xiangyu Zhu, Ming Tang, Zhen Lei(参考訳) 人間のパーシングは、監視分析、人間とロボットの相互作用、人物探索、衣服カテゴリー分類など、多くのアプリケーションによる画像処理における重要なトピックである。 近年,コンピュータビジョンにおける深層学習の成功により,深層学習モデルを用いた人間の解析アルゴリズムの開発を目的とした研究が数多く行われている。 方法が提案されているように、このトピックに関する包括的な調査は極めて重要である。 本研究は,セマンティックな人間解析のための先駆的研究の幅広い範囲をカバーする,最先端の人間解析手法の分析を提供する。 We introduce five insightful categories: (1) structure-driven architectures exploit the relationship of different human parts and the inherent hierarchical structure of a human body, (2) graph-based networks capture the global information to achieve an efficient and complete human body analysis, (3) context-aware networks explore useful contexts across all pixel to characterize a pixel of the corresponding class, (4) LSTM-based methods can combine short-distance and long-distance spatial dependencies to better exploit abundant local and global contexts, and (5) combined auxiliary information approaches use related tasks or supervision to improve network performance. また,各カテゴリにおける手法の長所・短所,異なるカテゴリの手法間の関係,最も広く利用されているデータセットの検証,性能の報告,この分野の今後の研究方向性について検討する。

Human parsing is a key topic in image processing with many applications, such as surveillance analysis, human-robot interaction, person search, and clothing category classification, among many others. Recently, due to the success of deep learning in computer vision, there are a number of works aimed at developing human parsing algorithms using deep learning models. As methods have been proposed, a comprehensive survey of this topic is of great importance. In this survey, we provide an analysis of state-of-the-art human parsing methods, covering a broad spectrum of pioneering works for semantic human parsing. We introduce five insightful categories: (1) structure-driven architectures exploit the relationship of different human parts and the inherent hierarchical structure of a human body, (2) graph-based networks capture the global information to achieve an efficient and complete human body analysis, (3) context-aware networks explore useful contexts across all pixel to characterize a pixel of the corresponding class, (4) LSTM-based methods can combine short-distance and long-distance spatial dependencies to better exploit abundant local and global contexts, and (5) combined auxiliary information approaches use related tasks or supervision to improve network performance. We also discuss the advantages/disadvantages of the methods in each category and the relationships between methods in different categories, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
翻訳日:2023-01-31 17:17:16 公開日:2023-01-29
# コンテキスト因果ベイズ最適化

Contextual Causal Bayesian Optimisation ( http://arxiv.org/abs/2301.12412v1 )

ライセンス: Link先を確認
Vahan Arsenyan, Antoine Grosnit, Haitham Bou-Ammar(参考訳) 因果ベイズ最適化 (cabo) は因果性とベイズ最適化 (bo) を結合し、因果性知識が無視される場合、最適報酬が達成できない状況が存在することを示す。 CaBOは因果関係を利用して介入する制御可能な変数の集合を決定するが、純粋に観察可能な変数を利用せず、それらを差分する。 一般に、介入変数の値を選択する文脈として観察変数のサブセットを利用すると、累積的後悔が減少することを示す。 本稿では,制御変数と文脈変数の組み合わせを効率的に探索し,最適変数を同定する,文脈因果ベイズ最適化の一般的な枠組みを提案する。 本稿では,現在 CaBO で使用されている因果獲得関数を用いて,コンテキスト設定でポリシースコープを選択することによる問題点を強調し,マルチアームバンディットに基づく選択機構を提案する。 本研究では,コンテキストBO (CoBO) やCaBO (CaBO) のような確立された手法では最適性が得られないことを解析的に示し,提案手法が様々な環境や異なる構成下でのサブ線形後悔を実現することを実証的に示す。

Causal Bayesian optimisation (CaBO) combines causality with Bayesian optimisation (BO) and shows that there are situations where the optimal reward is not achievable if causal knowledge is ignored. While CaBO exploits causal relations to determine the set of controllable variables to intervene on, it does not exploit purely observational variables and marginalises them. We show that, in general, utilising a subset of observational variables as a context to choose the values of interventional variables leads to lower cumulative regrets. We propose a general framework of contextual causal Bayesian optimisation that efficiently searches through combinations of controlled and contextual variables, known as policy scopes, and identifies the one yielding the optimum. We highlight the difficulties arising from the application of the causal acquisition function currently used in CaBO to select the policy scope in contextual settings and propose a multi-armed bandits based selection mechanism. We analytically show that well-established methods, such as contextual BO (CoBO) or CaBO, are not able to achieve the optimum in some cases, and empirically show that the proposed method achieves sub-linear regret in various environments and under different configurations.
翻訳日:2023-01-31 17:16:55 公開日:2023-01-29
# FedEBA+:エントロピーモデルによる公正かつ効果的なフェデレーション学習を目指して

FedEBA+: Towards Fair and Effective Federated Learning via Entropy-Based Model ( http://arxiv.org/abs/2301.12407v1 )

ライセンス: Link先を確認
Lin Wang, Zhichao Wang and Xiaoying Tang(参考訳) 公平性を確保することは、モデルがすべてのクライアントで一貫した実行を可能にする連合学習(fl)の重要な側面である。 しかし,グローバルモデルの性能を同時に向上し,公平性を促進するFLアルゴリズムの設計は,前者とのトレードオフがしばしば必要となるため,依然として困難な課題であり,この課題に対処するため,グローバルモデル性能を同時に向上する新たなFLアルゴリズムであるFedEBA+を提案する。 提案手法では, クライアントの性能低下により高い重みを割り当てるフェアアグリゲーション方式と, FLの新しいモデル更新方式を取り入れた。 さらに、理論的収束解析を示し、アルゴリズムの公正性を実証する。 実験の結果,fedeba+ は他の sota フェアネス fl 法よりもフェアネスとグローバルモデルの性能において優れていた。

Ensuring fairness is a crucial aspect of Federated Learning (FL), which enables the model to perform consistently across all clients. However, designing an FL algorithm that simultaneously improves global model performance and promotes fairness remains a formidable challenge, as achieving the latter often necessitates a trade-off with the former.To address this challenge, we propose a new FL algorithm, FedEBA+, which enhances fairness while simultaneously improving global model performance. Our approach incorporates a fair aggregation scheme that assigns higher weights to underperforming clients and a novel model update method for FL. Besides, we show the theoretical convergence analysis and demonstrate the fairness of our algorithm. Experimental results reveal that FedEBA+ outperforms other SOTA fairness FL methods in terms of both fairness and global model's performance.
翻訳日:2023-01-31 17:16:33 公開日:2023-01-29
# クリックスルー率予測のための意思決定コンテキストインタラクションネットワーク

Decision-Making Context Interaction Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2301.12402v1 )

ライセンス: Link先を確認
Xiang Li, Shuwei Chen, Jian Dong, Jin Zhang, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) クリックスルー率(CTR)予測は、レコメンデーションおよびオンライン広告システムにおいて重要である。 既存のメソッドは通常、ユーザの動作をモデル化するが、クリックしたページやユーザーの興味に関する推測を知らせる事前の候補など、ユーザに影響を与える情報的コンテキストを無視して、最適でないパフォーマンスに導く。 本稿では、意思決定コンテキストを学習するために、慎重に設計されたコンテキストインタラクションユニット(CIU)をデプロイし、CTR予測に有効である決定-製造コンテキストインタラクションネットワーク(DCIN)を提案する。 さらに,提案する適応的利子集約ユニット(aiau)により,意思決定コンテキストの異なるソース間の関係を考察し,ctr予測をさらに改善する。 パブリックデータセットと産業データセットの実験では、DCINは最先端の手法よりも大幅に優れています。 特に、オンラインA/BテストではCTR+2.9%/CPM+2.1%/GMV+1.5%の改善が得られ、Meituan Waimai広告システムの主要なトラフィックとなった。

Click-through rate (CTR) prediction is crucial in recommendation and online advertising systems. Existing methods usually model user behaviors, while ignoring the informative context which influences the user to make a click decision, e.g., click pages and pre-ranking candidates that inform inferences about user interests, leading to suboptimal performance. In this paper, we propose a Decision-Making Context Interaction Network (DCIN), which deploys a carefully designed Context Interaction Unit (CIU) to learn decision-making contexts and thus benefits CTR prediction. In addition, the relationship between different decision-making context sources is explored by the proposed Adaptive Interest Aggregation Unit (AIAU) to improve CTR prediction further. In the experiments on public and industrial datasets, DCIN significantly outperforms the state-of-the-art methods. Notably, the model has obtained the improvement of CTR+2.9%/CPM+2.1%/GMV+1.5% for online A/B testing and served the main traffic of Meituan Waimai advertising system.
翻訳日:2023-01-31 17:16:16 公開日:2023-01-29
# HeroNet:会話ボットのためのハイブリッド検索生成ネットワーク

HeroNet: A Hybrid Retrieval-Generation Network for Conversational Bots ( http://arxiv.org/abs/2301.12400v1 )

ライセンス: Link先を確認
Bolin Zhang and Yunzhe Xu and Zhiying Tu and Dianhui Chu(参考訳) 自然言語を利用するConversational Botは、情報検索、項目推薦、質問応答など、多くの課題に対して前例のない方法を提供している。 既存のボットは通常、検索ベースまたは生成ベースアプローチによって開発されるが、どちらも独自の利点と欠点を持っている。 この2つのアプローチを組み立てるために,3つのアイデアを持つハイブリッド検索生成ネットワーク (HeroNet) を提案する。 高品質な文表現を生成するため、heronetは類似したクエリ発見とクエリ応答マッチングという2つのサブタスクでマルチタスク学習を行う。 具体的には、t5エンコーダモデルのみを共有する2つの軽量タスク固有のアダプタモジュールをトレーニングすることで、モデルサイズを削減しながら、検索性能が向上する。 2). 敵のトレーニングを導入することで、heronetは互いにパフォーマンスを最大化しながら、検索と生成の両方のタスクを同時に解決することができる。 3). 生成結果が判別器によってスコア付けされ、そのスコアが生成器のクロスエントロピー損失関数に統合される間、検索結果を先行知識として生成性能を向上させる。 オープンデータセットの実験結果はheronetの有効性を示しており、コードはhttps://github.com/temphero/heronet.gitで入手できる。

Using natural language, Conversational Bot offers unprecedented ways to many challenges in areas such as information searching, item recommendation, and question answering. Existing bots are usually developed through retrieval-based or generative-based approaches, yet both of them have their own advantages and disadvantages. To assemble this two approaches, we propose a hybrid retrieval-generation network (HeroNet) with the three-fold ideas: 1). To produce high-quality sentence representations, HeroNet performs multi-task learning on two subtasks: Similar Queries Discovery and Query-Response Matching. Specifically, the retrieval performance is improved while the model size is reduced by training two lightweight, task-specific adapter modules that share only one underlying T5-Encoder model. 2). By introducing adversarial training, HeroNet is able to solve both retrieval\&generation tasks simultaneously while maximizing performance of each other. 3). The retrieval results are used as prior knowledge to improve the generation performance while the generative result are scored by the discriminator and their scores are integrated into the generator's cross-entropy loss function. The experimental results on a open dataset demonstrate the effectiveness of the HeroNet and our code is available at https://github.com/TempHero/HeroNet.git
翻訳日:2023-01-31 17:15:56 公開日:2023-01-29
# DocILE 2023 ティーザー: 文書情報のローカライゼーションと抽出

DocILE 2023 Teaser: Document Information Localization and Extraction ( http://arxiv.org/abs/2301.12394v1 )

ライセンス: Link先を確認
\v{S}t\v{e}p\'an \v{S}imsa, Milan \v{S}ulc, Maty\'a\v{s} Skalick\'y, Yash Patel, Ahmed Hamdi(参考訳) 半構造化ビジネス文書からの情報抽出(IE)のためのデータ不足は、IEコミュニティにとって真の問題である。 大規模なデータセットに依存する出版物は、そのような文書の機密性のため、プロプライエタリで未公開のデータのみを使用する。 公開データセットは主に小さく、ドメイン固有である。 大規模なパブリックデータセットやベンチマークの欠如は、公開メソッドの再現性と相互評価を妨げる。 CLEF 2023カンファレンスでラボとして開催され、ICDAR 2023コンペティションとして開催されているDocILE 2023コンペティションは、ビジネス文書からキー情報ローカライゼーションと抽出(KILE)とラインアイテム認識(LIR)のタスクの最初のメジャーベンチマークを実行する。 オープンソースから何千もの注釈入りの実際の文書、数十万の生成された合成文書、100万近いラベルなしの文書によって、DocILE研究所はKILEとLIRのための公開データセットとして最大である。 我々はコンピュータビジョン、自然言語処理、情報検索などのコミュニティからの貢献を楽しみにしています。 ラボと競争に関するデータ、ベースライン、コード、最新の情報はhttps://docile.rossum.ai/で入手できる。

The lack of data for information extraction (IE) from semi-structured business documents is a real problem for the IE community. Publications relying on large-scale datasets use only proprietary, unpublished data due to the sensitive nature of such documents. Publicly available datasets are mostly small and domain-specific. The absence of a large-scale public dataset or benchmark hinders the reproducibility and cross-evaluation of published methods. The DocILE 2023 competition, hosted as a lab at the CLEF 2023 conference and as an ICDAR 2023 competition, will run the first major benchmark for the tasks of Key Information Localization and Extraction (KILE) and Line Item Recognition (LIR) from business documents. With thousands of annotated real documents from open sources, a hundred thousand of generated synthetic documents, and nearly a million unlabeled documents, the DocILE lab comes with the largest publicly available dataset for KILE and LIR. We are looking forward to contributions from the Computer Vision, Natural Language Processing, Information Retrieval, and other communities. The data, baselines, code and up-to-date information about the lab and competition are available at https://docile.rossum.ai/.
翻訳日:2023-01-31 17:15:32 公開日:2023-01-29
# 量子アニールのための論理量子ビット実装:拡張ラグランジアンアプローチ

Logical qubit implementation for quantum annealing: augmented Lagrangian approach ( http://arxiv.org/abs/2301.12393v1 )

ライセンス: Link先を確認
Hristo N. Djidjev(参考訳) 量子異方体上の最適化問題の解法は通常、論理量子ビットまたは連鎖と呼ばれる連結量子ビットの集合で表される問題の各変数を必要とする。 鎖の重みは、鎖の量子ビット間の強磁性結合の形で適用され、鎖内の物理的量子ビットは低エネルギーサンプルで同じ値を取る。 優れたチェーン強度の値を割り当てることは、量子アニールが難しい問題を解くのに不可欠であるが、そのような値を計算するための一般的な方法はなく、たとえ最適な値が見つかったとしても、正確なアニール結果には大きすぎることには相応しい。 本稿では,より小さな連鎖重みをもたらす適切な論理量子ビット表現を生成するための最適化に基づく手法を提案する。 ランダムグラフ上でのD-Waveアドバンテージシステムと最大傾き問題の実験により,チェーン強度割当におけるデフォルトD-Wave法と2次ペナルティ法の両方に優れることを示した。

Solving optimization problems on quantum annealers usually requires each variable of the problem to be represented by a connected set of qubits called a logical qubit or a chain. Chain weights, in the form of ferromagnetic coupling between the chain qubits, are applied so that the physical qubits in a chain favor taking the same value in low energy samples. Assigning a good chain-strength value is crucial for the ability of quantum annealing to solve hard problems, but there are no general methods for computing such a value and, even if an optimal value is found, it may still not be suitable by being too large for accurate annealing results. In this paper, we propose an optimization-based approach for producing suitable logical qubits representations that results in smaller chain weights and show that the resulting optimization problem can be successfully solved using the augmented Lagrangian method. Experiments on the D-Wave Advantage system and the maximum clique problem on random graphs show that our approach outperforms both the default D-Wave method for chain-strength assignment as well as the quadratic penalty method.
翻訳日:2023-01-31 17:15:13 公開日:2023-01-29
# マスキングを用いた自己教師付き半単純グラフ変分オートエンコーダ

Self-supervised Semi-implicit Graph Variational Auto-encoders with Masking ( http://arxiv.org/abs/2301.12458v1 )

ライセンス: Link先を確認
Xiang Li, Tiandi Ye, Caihua Shan, Dongsheng Li, Ming Gao(参考訳) 生成グラフ自己教師学習(SSL)は,入力グラフデータを再構成することでノード表現を学習することを目的としている。 しかし、既存のほとんどの手法は教師なし学習にのみ焦点をあてており、最先端のグラフコントラスト学習(GCL)モデル、特に分類タスクよりも優れていることを示す研究はほとんどない。 ギャップを埋めるために非常に最近のモデルが提案されているが、教師なし学習タスクのパフォーマンスはまだ不明である。 本稿では,教師なしと教師なしの両方の学習課題におけるGCLモデルに対する生成グラフSSLの性能を総合的に向上させるために,自己教師付き変分グラフオートエンコーダ(VGAE)のファミリに基づくSeeeGeraモデルを提案する。 具体的には、SeeeGeraは半単純変分推論フレームワーク、階層的変分推論フレームワークを採用し、主に特徴再構成と構造/機能マスキングに焦点を当てている。 一方、SeeGeraはエンコーダのノードと機能の両方を共同で埋め込み、デコーダのリンクと機能の両方を再構築する。 機能埋め込みは機能に関する豊富なセマンティック情報を含んでいるため、ノード埋め込みと組み合わせることで、機能再構築のためのきめ細かい知識を提供することができる。 一方、SeeeGeraは階層的変動フレームワークに構造/機能マスキングのための追加レイヤを追加し、モデルの一般化性を高めます。 SeeGeraを他の9つの最先端の競合と比較する広範な実験を行っている。 その結果,SeeeGeraは教師なしおよび教師なしの学習タスクにおいて,最先端のGCL手法と良好に比較できることがわかった。

Generative graph self-supervised learning (SSL) aims to learn node representations by reconstructing the input graph data. However, most existing methods focus on unsupervised learning tasks only and very few work has shown its superiority over the state-of-the-art graph contrastive learning (GCL) models, especially on the classification task. While a very recent model has been proposed to bridge the gap, its performance on unsupervised learning tasks is still unknown. In this paper, to comprehensively enhance the performance of generative graph SSL against other GCL models on both unsupervised and supervised learning tasks, we propose the SeeGera model, which is based on the family of self-supervised variational graph auto-encoder (VGAE). Specifically, SeeGera adopts the semi-implicit variational inference framework, a hierarchical variational framework, and mainly focuses on feature reconstruction and structure/feature masking. On the one hand, SeeGera co-embeds both nodes and features in the encoder and reconstructs both links and features in the decoder. Since feature embeddings contain rich semantic information on features, they can be combined with node embeddings to provide fine-grained knowledge for feature reconstruction. On the other hand, SeeGera adds an additional layer for structure/feature masking to the hierarchical variational framework, which boosts the model generalizability. We conduct extensive experiments comparing SeeGera with 9 other state-of-the-art competitors. Our results show that SeeGera can compare favorably against other state-of-the-art GCL methods in a variety of unsupervised and supervised learning tasks.
翻訳日:2023-01-31 17:08:15 公開日:2023-01-29
# EvoX: スケーラブル進化計算のための分散GPUアクセラレーションライブラリ

EvoX: A Distributed GPU-accelerated Library towards Scalable Evolutionary Computation ( http://arxiv.org/abs/2301.12457v1 )

ライセンス: Link先を確認
Beichen Huang, Ran Cheng, Yaochu Jin, Kay Chen Tan(参考訳) 過去数十年間、進化計算(EC)は比較的小さなスケールで様々な複雑な最適化問題を解く可能性を実証してきた。 しかし、現代科学とエンジニアリングの継続的な発展は、スケーラビリティの観点から従来のECパラダイムにますます重大な課題をもたらしています。 問題の規模が大きくなるにつれて、符号化空間(すなわち決定ベクトルの次元)は本質的に大きくなり、一方ecアルゴリズムは機能評価の数が増加する(おそらく人口も大きくなる)ことがしばしば必要となる。 このような課題に対処するためには、繊細なアルゴリズム設計を必要とするだけでなく、より重要なことに、高性能なコンピューティングフレームワークが不可欠である。 そこで我々は分散gpuアクセラレーションアルゴリズムライブラリevoxを開発した。 まず,汎用ECアルゴリズムの実装のための汎用ワークフローを提案する。 次に、分散GPUデバイス上でECアルゴリズムを実行するためのスケーラブルなコンピューティングフレームワークを設計する。 第3に、ベンチマーク研究と拡張実世界のアプリケーションのために、研究者と実践者の両方にユーザフレンドリーなインターフェースを提供します。 実験的に,問題次元/人口規模を最大数百万とする一連のベンチマーク実験により,EvoXの有望なスケーラビリティを評価する。 さらに,OpenAI Gym上での強化学習タスクに応用することで,EvoXの使いやすさを実証する。 私たちの知る限りでは、これはEC文献における分散GPUコンピューティングをサポートする最初のライブラリです。 EvoXのコードはhttps://github.com/EMI-Group/EvoXで公開されている。

During the past decades, evolutionary computation (EC) has demonstrated promising potential in solving various complex optimization problems of relatively small scales. Nowadays, however, ongoing developments in modern science and engineering are bringing increasingly grave challenges to the conventional EC paradigm in terms of scalability. As problem scales increase, on the one hand, the encoding spaces (i.e., dimensions of the decision vectors) are intrinsically larger; on the other hand, EC algorithms often require growing numbers of function evaluations (and probably larger population sizes as well) to work properly. To meet such emerging challenges, not only does it require delicate algorithm designs, but more importantly, a high-performance computing framework is indispensable. Hence, we develop a distributed GPU-accelerated algorithm library -- EvoX. First, we propose a generalized workflow for implementing general EC algorithms. Second, we design a scalable computing framework for running EC algorithms on distributed GPU devices. Third, we provide user-friendly interfaces to both researchers and practitioners for benchmark studies as well as extended real-world applications. Empirically, we assess the promising scalability of EvoX via a series of benchmark experiments with problem dimensions/population sizes up to millions. Moreover, we demonstrate the easy usability of EvoX by applying it to solving reinforcement learning tasks on OpenAI Gym. To the best of our knowledge, this is the first library supporting distributed GPU computing in the EC literature. The code of EvoX is available at https://github.com/EMI-Group/EvoX.
翻訳日:2023-01-31 17:07:44 公開日:2023-01-29
# 大規模ニューラルネットワークの幾何ロバスト性検証に向けて

Towards Verifying the Geometric Robustness of Large-scale Neural Networks ( http://arxiv.org/abs/2301.12456v1 )

ライセンス: Link先を確認
Fu Wang, Peipei Xu, Wenjie Ruan, Xiaowei Huang(参考訳) ディープニューラルネットワーク(DNN)は、敵対的な幾何学的変換に弱いことが知られている。 本稿では,複数の幾何変換と証明可能な保証の組み合わせに対して,大規模DNNのロバスト性を検証することを目的とする。 一連の変換(回転、スケーリングなど)が与えられた場合、ネットワークの出力に影響を与え、変更する変換の最悪の組み合わせを見つけるために、新しいグローバル最適化戦略に基づいて構築されたブラックボックスロバスト分析器であるGeoRobustを開発する。 GeoRobustは、リプシッツ理論の最近の進歩に基づく最悪の組み合わせを見つけるための証明可能な保証を提供することができる。 ブラックボックスの性質のため、GeoRobustはアーキテクチャ、アクティベーション機能、ニューロンの数に関わらず、大規模DNNにデプロイすることができる。 実際にGeoRobustは、ImageNet上のResNet50モデルの精度の高い最悪の幾何学変換を、平均数秒で見つけることができる。 我々は,ResNetファミリやビジョントランスフォーマーを含む18のイメージネット分類器を調査し,ネットワークの幾何学的ロバスト性とパラメータ数との正の相関を見出した。 また,DNNの深さの増大は,その幾何学的堅牢性の向上の観点から,その幅の増大よりも有益であることを示す。 GeoRobustはhttps://github.com/TrustAI/GeoRobust.comで利用可能です。

Deep neural networks (DNNs) are known to be vulnerable to adversarial geometric transformation. This paper aims to verify the robustness of large-scale DNNs against the combination of multiple geometric transformations with a provable guarantee. Given a set of transformations (e.g., rotation, scaling, etc.), we develop GeoRobust, a black-box robustness analyser built upon a novel global optimisation strategy, for locating the worst-case combination of transformations that affect and even alter a network's output. GeoRobust can provide provable guarantees on finding the worst-case combination based on recent advances in Lipschitzian theory. Due to its black-box nature, GeoRobust can be deployed on large-scale DNNs regardless of their architectures, activation functions, and the number of neurons. In practice, GeoRobust can locate the worst-case geometric transformation with high precision for the ResNet50 model on ImageNet in a few seconds on average. We examined 18 ImageNet classifiers, including the ResNet family and vision transformers, and found a positive correlation between the geometric robustness of the networks and the parameter numbers. We also observe that increasing the depth of DNN is more beneficial than increasing its width in terms of improving its geometric robustness. Our tool GeoRobust is available at https://github.com/TrustAI/GeoRobust.
翻訳日:2023-01-31 17:07:25 公開日:2023-01-29
# マトリックス生成物状態からの非エルミート親ハミルトニアンの構築

Construction of Non-Hermitian Parent Hamiltonian from Matrix Product States ( http://arxiv.org/abs/2301.12448v1 )

ライセンス: Link先を確認
Ruohan Shen, Yuchen Guo, Shuo Yang(参考訳) 非エルミート系の標準的な研究戦略は、単一粒子パラダイムの使用や、非エルミート項を既存のエルミート・ハミルトンに組み込むことである。 エルミート系にはないユニークな特徴を示す非エルミート多体モデルを直接設計することは困難である。 本稿では,親ハミルトニアン法を非ヘルミト系に一般化し,非ヘルミト多体系を構築する新しい方法を提案する。 これにより、与えられた行列積状態をその左右の基底状態として用いる局所ハミルトニアンを構築することができる。 キラル次数と対称性が保護された位相次数の両方を保持する非対称アフレック・ケネディ・リーブ・タサキ(aklt)状態から非エルミートスピン-$モデルを構築することにより,本手法を実証する。 提案手法は,非エルミート多体系を体系的に構築・研究するための新しいパラダイムを開き,非エルミート物理学における新しい性質や現象を探求するための指針となる。

Standard research strategies for non-Hermitian systems include using the single-particle paradigm and incorporating non-Hermitian terms into existing Hermitian Hamiltonians. It can be challenging to directly design non-Hermitian many-body models that exhibit unique features not found in Hermitian systems. In this Letter, we propose a new method to construct non-Hermitian many-body systems by generalizing the parent Hamiltonian method into non-Hermitian regimes. This allows us to build a local Hamiltonian using given matrix product states as its left and right ground states. We demonstrate this method by constructing a non-Hermitian spin-$1$ model from the asymmetric Affleck-Kennedy-Lieb-Tasaki (AKLT) state, which preserves both chiral order and symmetry-protected topological order. Our approach opens up a new paradigm for systematically constructing and studying non-Hermitian many-body systems, providing guiding principles to explore new properties and phenomena in non-Hermitian physics.
翻訳日:2023-01-31 17:07:03 公開日:2023-01-29
# 効率的な変圧器ニューラルネットワークのための注意マップ検索

Exploring Attention Map Reuse for Efficient Transformer Neural Networks ( http://arxiv.org/abs/2301.12444v1 )

ライセンス: Link先を確認
Kyuhong Shim, Jungwook Choi, Wonyong Sung(参考訳) トランスベースのディープニューラルネットワークは、長距離依存性をモデル化する能力が優れているため、さまざまなシーケンスアプリケーションで大きな成功を収めています。 Transformerのキーモジュールは自己アテンション(SA)であり、位置間の距離に関わらず、シーケンス全体から特徴を抽出する。 SAはTransformerを特に長距離タスクでうまく動作させるが、SAは入力シーケンス長の2次計算とメモリの複雑さを必要とする。 近年,複数のsa層をグループ化して一つのアテンションマップを共有するアテンションマップの再利用が提案され,音声認識モデルの高速化が実現されている。 本稿では,推論を加速する能力に着目したアテンションマップの再利用に関する総合的研究を行う。 本手法を他のSA圧縮手法と比較し,その長周期に対する利点の分解分析を行う。 本稿では,CPUおよびGPUプラットフォーム上での遅延測定によるアテンションマップの再利用の有効性を示す。

Transformer-based deep neural networks have achieved great success in various sequence applications due to their powerful ability to model long-range dependency. The key module of Transformer is self-attention (SA) which extracts features from the entire sequence regardless of the distance between positions. Although SA helps Transformer performs particularly well on long-range tasks, SA requires quadratic computation and memory complexity with the input sequence length. Recently, attention map reuse, which groups multiple SA layers to share one attention map, has been proposed and achieved significant speedup for speech recognition models. In this paper, we provide a comprehensive study on attention map reuse focusing on its ability to accelerate inference. We compare the method with other SA compression techniques and conduct a breakdown analysis of its advantages for a long sequence. We demonstrate the effectiveness of attention map reuse by measuring the latency on both CPU and GPU platforms.
翻訳日:2023-01-31 17:06:42 公開日:2023-01-29
# パイプ-BD:パイプライン並列ブロックワイド蒸留

Pipe-BD: Pipelined Parallel Blockwise Distillation ( http://arxiv.org/abs/2301.12443v1 )

ライセンス: Link先を確認
Hongsun Jang, Jaewon Jung, Jaeyong Song, Joonsang Yu, Youngsok Kim, and Jinho Lee(参考訳) 大きなディープニューラルネットワークモデルのトレーニングは、その膨大な計算とメモリ要求のため、非常に難しい。 ブロックワイズ蒸留は、大きなモデルを複数の小さなモデルに分割することで、より高速な収束を実現するための1つの有望な方法を提供する。 最先端のブロックワイド蒸留法では、複数のGPUを用いてデータ並列方式で訓練を行う。 学習ブロックの入力を生成するために、教師モデルが初期から訓練中の現在のブロックまで実行される。 しかし、この結果、教師の冗長な実行、gpu使用率の低下、データ読み込みの余分なオーバーヘッドが高まる。 そこで本研究では,ブロックワイズ蒸留の並列化法である pipe-bd を提案する。 pipe-bdは、ブロック回りの蒸留にパイプライン並列処理を積極的に利用し、冗長な教師ブロックの実行をなくし、リソース利用を改善するためにデバイス単位のバッチサイズを増加させる。 効率的なワークロードバランシングのためのハイブリッド並列性にも拡張しています。 その結果、パイプ-BDはブロックワイズ蒸留の数学的定式化を変えることなく大きな加速を達成する。 PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。

Training large deep neural network models is highly challenging due to their tremendous computational and memory requirements. Blockwise distillation provides one promising method towards faster convergence by splitting a large model into multiple smaller models. In state-of-the-art blockwise distillation methods, training is performed block-by-block in a data-parallel manner using multiple GPUs. To produce inputs for the student blocks, the teacher model is executed from the beginning until the current block under training. However, this results in a high overhead of redundant teacher execution, low GPU utilization, and extra data loading. To address these problems, we propose Pipe-BD, a novel parallelization method for blockwise distillation. Pipe-BD aggressively utilizes pipeline parallelism for blockwise distillation, eliminating redundant teacher block execution and increasing per-device batch size for better resource utilization. We also extend to hybrid parallelism for efficient workload balancing. As a result, Pipe-BD achieves significant acceleration without modifying the mathematical formulation of blockwise distillation. We implement Pipe-BD on PyTorch, and experiments reveal that Pipe-BD is effective on multiple scenarios, models, and datasets.
翻訳日:2023-01-31 17:06:28 公開日:2023-01-29
# ロングレイリー長共焦点顕微鏡:カラーセンターの量子正当性を得るための高速評価ツール

Long Rayleigh length confocal microscope: A fast evaluation tool for obtaining quantum propensities of color centers ( http://arxiv.org/abs/2301.12441v1 )

ライセンス: Link先を確認
Yuta Masuyama, Chikara Shinei, Shuya Ishii, Hiroshi Abe, Takashi Taniguchi, Tokuyuki Teraji, Takeshi Ohshima(参考訳) 室温や大気圧でも優れた量子特性を有する広帯域半導体における色中心は、量子センシングデバイスに積極的に応用されている。 半導体材料における色中心の量子的性質のキャラクタリゼーションと、これらの特性が広い領域で均一であることを保証することが、色中心に基づく量子センシングデバイスを開発する上で重要な課題である。 本稿では,長いレイリー長(LRCFM)を持つ新しい共焦点顕微鏡システムの原理と性能について述べる。 このシステムは、色中心評価に一般的に使用される共焦点顕微鏡システムよりも広い面積を特徴付けることができる。

Color centers in wide band-gap semiconductors, which have superior quantum properties even at room temperature and atmospheric pressure, have been actively applied to quantum sensing devices. Characterization of the quantum properties of the color centers in the semiconductor materials and ensuring that these properties are uniform over a wide area are key issues for developing quantum sensing devices based on color center. In this article, we will describe the principle and performance of a newly developed confocal microscope system with a long Rayleigh length (LRCFM). This system can characterize a wider area faster than the confocal microscope systems commonly used for color center evaluation.
翻訳日:2023-01-31 17:06:08 公開日:2023-01-29
# 二重レベル非対称相互学習による人物再同定における教師なしドメイン適応

Unsupervised Domain Adaptation on Person Re-Identification via Dual-level Asymmetric Mutual Learning ( http://arxiv.org/abs/2301.12439v1 )

ライセンス: Link先を確認
Qiong Wu, Jiahan Li, Pingyang Dai, Qixiang Ye, Liujuan Cao, Yongjian Wu, Rongrong Ji(参考訳) 教師なし領域適応者再識別(Re-ID)は、ラベルなし対象領域内の歩行者画像を補助ラベル付きソースドメインデータセットで識別することを目的としている。 既存の作品の多くは、複数の均質ネットワークを考慮して信頼できるアイデンティティ情報を復元しようとする。 そして、生成されたラベルを使ってターゲットドメインのモデルをトレーニングします。 しかし、これらの均質ネットワークは、近似部分空間内の人々を識別し、その知識を他人や平均ネットと等しく交換して能力を高め、必然的に利用可能な知識の範囲を制限し、同じ誤りに陥らせる。 本稿では,多種多様な埋め込み空間を持つ広い知識範囲から識別表現を学ぶための2レベル非対称相互学習法(daml)を提案する。 具体的には、2つの異種ネットワークが相互に非対称部分空間からの知識を疑似ラベル生成を通じてハード蒸留によって学習する。 2つのネットワーク間の知識伝達は、非対称な相互学習方式に基づいている。 教師ネットワークは、生徒の知識に基づいて、対象領域分布に適応しながら、対象領域と対象領域の両方を識別することを学ぶ。 一方、学生ネットワークは、ターゲットデータセットに基づいて訓練され、教師の知識を生かして、地道ラベルを採用する。 Market-1501、CUHK-SYSU、MSMT17の公開データセットにおける大規模な実験は、最先端技術よりもDAMLの方が優れていることを証明した。

Unsupervised domain adaptation person re-identification (Re-ID) aims to identify pedestrian images within an unlabeled target domain with an auxiliary labeled source-domain dataset. Many existing works attempt to recover reliable identity information by considering multiple homogeneous networks. And take these generated labels to train the model in the target domain. However, these homogeneous networks identify people in approximate subspaces and equally exchange their knowledge with others or their mean net to improve their ability, inevitably limiting the scope of available knowledge and putting them into the same mistake. This paper proposes a Dual-level Asymmetric Mutual Learning method (DAML) to learn discriminative representations from a broader knowledge scope with diverse embedding spaces. Specifically, two heterogeneous networks mutually learn knowledge from asymmetric subspaces through the pseudo label generation in a hard distillation manner. The knowledge transfer between two networks is based on an asymmetric mutual learning manner. The teacher network learns to identify both the target and source domain while adapting to the target domain distribution based on the knowledge of the student. Meanwhile, the student network is trained on the target dataset and employs the ground-truth label through the knowledge of the teacher. Extensive experiments in Market-1501, CUHK-SYSU, and MSMT17 public datasets verified the superiority of DAML over state-of-the-arts.
翻訳日:2023-01-31 17:05:57 公開日:2023-01-29
# 符号問題と位相遷移の関係はいかに普遍的であるか

How universal is the relation between sign problem and phase transition ( http://arxiv.org/abs/2301.12438v1 )

ライセンス: Link先を確認
Zheng Yan, Jun-Song Sun, Gaopei Pan, Chen Cheng and Nvsen Ma(参考訳) 量子モンテカルロシミュレーションにおける悪名高い符号問題の謎は、フェルミオン系やフラストレーション系における手法の適用をうまく制限している。 最近の研究 (Science \textbf{375}, 417 (2022)) は、符号問題において顕著なブレークスルーを行い、符号と位相遷移の間の正のつながりを示唆した。 この議論は、凝縮物物理学、量子化学、核物理学など多体系に関連する様々な分野において極めて重要である。 異なる手法による典型例と数値シミュレーションの普遍的分析に基づいて,この記号の研究が,特定のモデルやアルゴリズムに依存しない一般システムにおける相転移に関する有用な情報を提供する時期と方法について論じる。 我々の結果は、悪名高いサインが量子多体問題の探索に新たな角度をもたらすことを支持しているが、このサインを活用することは、未知のシステムでサイン問題自体を中和するのと同じくらい困難であることにも気付く。

The mystery of the infamous sign problem in quantum Monte Carlo simulations mightily restricts applications of the method in fermionic and frustrated systems. A recent work [Science \textbf{375}, 417 (2022)] made a remarkable breakthrough in the sign problem and suggested a positive connection between the sign and phase transition. How general this argument is can be crucial in various fields related to many-body systems, such as condensed matter physics, quantum chemistry, and nuclear physics. Based on universal analyses of typical examples and numerical simulations from different approaches, we discuss when and how studying the sign can provide helpful information on phase transitions in general systems independent of specific models and algorithms. While our results support that the notorious sign offers new angles in exploring quantum many-body problems, we also notice that taking advantage of the sign can even be as challenging as neutralizing the sign problem itself in unknown systems.
翻訳日:2023-01-31 17:05:36 公開日:2023-01-29
# EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2022 参加報告

Team VI-I2R Technical Report on EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2022 ( http://arxiv.org/abs/2301.12436v1 )

ライセンス: Link先を確認
Yi Cheng, Dongyun Lin, Fen Fang, Hao Xuan Woon, Qianli Xu, Ying Sun(参考訳) 本稿では,epic-kitchens-100unsupervised domain adaptation (uda) challenge for action recognition 2022の技術的詳細を紹介する。 このタスクはラベル付きソースドメインでトレーニングされたアクション認識モデルをラベルなしターゲットドメインに適応させることを目的としている。 この目的を達成するために,行動認識タスクから引き起こされる事前知識を活用した行動認識ドメイン適応フレームワークを提案する。 具体的には、学習したアクション分類器を用いて、ソース特徴をアクション関連特徴とアクション関連特徴に分解し、ターゲット特徴とアクション関連特徴を整列する。 行動予測性能をさらに向上するため,動詞の共起行列を用いて行動予測の制約と改善を行う。 最終提出はトップ1の行動認識精度で第1位を獲得しました。

In this report, we present the technical details of our submission to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation (UDA) Challenge for Action Recognition 2022. This task aims to adapt an action recognition model trained on a labeled source domain to an unlabeled target domain. To achieve this goal, we propose an action-aware domain adaptation framework that leverages the prior knowledge induced from the action recognition task during the adaptation. Specifically, we disentangle the source features into action-relevant features and action-irrelevant features using the learned action classifier and then align the target features with the action-relevant features. To further improve the action prediction performance, we exploit the verb-noun co-occurrence matrix to constrain and refine the action predictions. Our final submission achieved the first place in terms of top-1 action recognition accuracy.
翻訳日:2023-01-31 17:05:18 公開日:2023-01-29
# 均一に拡散する配向雲による新規, 設計可能, 多様なタンパク質構造の生成

Generating Novel, Designable, and Diverse Protein Structures by Equivariantly Diffusing Oriented Residue Clouds ( http://arxiv.org/abs/2301.12485v1 )

ライセンス: Link先を確認
Yeqing Lin, Mohammed AlQuraishi(参考訳) タンパク質は生きた細胞の幅広い機能的プロセスを動かします。 設計された構造と機能を持つ新しいタンパク質を作る能力は、細胞行動のエンジニアリングとタンパク質ベースの治療および材料の開発を可能にする。 構造に基づくタンパク質の設計は、設計可能な構造(タンパク質配列によって実現できる)、新しい構造(天然タンパク質と異なる幾何学を持つ)、多様な構造(幅広い幾何学)を見つけることを目的としている。 タンパク質構造予測の進歩により、新規なタンパク質配列の構造を予測できるようになったが、配列と構造の組み合わせ的な大きな空間は探索に基づく方法の実用性を制限している。 生成モデルは、複雑なデータ分布の低次元構造を暗黙的に学習することで、魅力的な代替手段を提供する。 本稿では、拡散確率モデルと同変ニューラルネットワークの分極化の最近の進歩を活用し、3次元空間における配向参照フレームの雲を用いて離散時間拡散を行うタンパク質構造の生成モデルであるGenieを開発する。 サイリコの評価を通じて、ジェニーが既存のモデルよりも設計可能で、新規で多様なタンパク質のバックボーンを生成することを示した。 これは、genieがタンパク質構造空間の分布の重要な側面を捉えており、高い成功率でタンパク質の設計を促進することを示している。

Proteins power a vast array of functional processes in living cells. The capability to create new proteins with designed structures and functions would thus enable the engineering of cellular behavior and development of protein-based therapeutics and materials. Structure-based protein design aims to find structures that are designable (can be realized by a protein sequence), novel (have dissimilar geometry from natural proteins), and diverse (span a wide range of geometries). While advances in protein structure prediction have made it possible to predict structures of novel protein sequences, the combinatorially large space of sequences and structures limits the practicality of search-based methods. Generative models provide a compelling alternative, by implicitly learning the low-dimensional structure of complex data distributions. Here, we leverage recent advances in denoising diffusion probabilistic models and equivariant neural networks to develop Genie, a generative model of protein structures that performs discrete-time diffusion using a cloud of oriented reference frames in 3D space. Through in silico evaluations, we demonstrate that Genie generates protein backbones that are more designable, novel, and diverse than existing models. This indicates that Genie is capturing key aspects of the distribution of protein structure space and facilitates protein design with high success rates.
翻訳日:2023-01-31 16:58:37 公開日:2023-01-29
# StriderNET: 粗エネルギー景観における原子構造最適化のためのグラフ強化学習アプローチ

StriderNET: A Graph Reinforcement Learning Approach to Optimize Atomic Structures on Rough Energy Landscapes ( http://arxiv.org/abs/2301.12477v1 )

ライセンス: Link先を確認
Vaibhav Bihani, Sahil Manchanda, Srikanth Sastry, Sayan Ranu, N.M. Anoop Krishnan(参考訳) 原子構造の最適化は、薬物設計、材料発見、メカニクスの分野で広く応用されている、非常に粗く非凸なエネルギー環境のため、難しい問題である。 本稿では,原子を低エネルギー配置に置換する政策を学習するグラフ強化学習手法であるStriderNETを提案する。 StriderNETを2元系レナード-ジョーンズ粒子, ケイ酸カルシウムハイドレートゲル, および不規則シリコンの3つの複雑な原子系上での性能評価を行った。 stridernetは従来の最適化アルゴリズムよりも優れており、低エネルギーの最小値の発見を可能にする。 さらに、StriderNETは、複数の実現平均によって確認されるように、エネルギーで最小値に達する確率が高い。 最後に、stridernetは、トレーニングシステムとは異なる桁違いな、未知のシステムサイズへのインダクティビティを示すことを示した。

Optimization of atomic structures presents a challenging problem, due to their highly rough and non-convex energy landscape, with wide applications in the fields of drug design, materials discovery, and mechanics. Here, we present a graph reinforcement learning approach, StriderNET, that learns a policy to displace the atoms towards low energy configurations. We evaluate the performance of StriderNET on three complex atomic systems, namely, binary Lennard-Jones particles, calcium silicate hydrates gel, and disordered silicon. We show that StriderNET outperforms all classical optimization algorithms and enables the discovery of a lower energy minimum. In addition, StriderNET exhibits a higher rate of reaching minima with energies, as confirmed by the average over multiple realizations. Finally, we show that StriderNET exhibits inductivity to unseen system sizes that are an order of magnitude different from the training system.
翻訳日:2023-01-31 16:58:15 公開日:2023-01-29
# バイオメディカル因果グラフ構築のための大規模言語モデル

Large Language Models for Biomedical Causal Graph Construction ( http://arxiv.org/abs/2301.12473v1 )

ライセンス: Link先を確認
Vahan Arsenyan, Davit Shahnazaryan(参考訳) 自動因果グラフ構築は医学研究において重要である。 臨床治験基準設計など多くの応用があり、そこでは共起変数の同定が重要なステップである。 臨床応用のための品質バーは高く,公的なコーパスの欠如が研究の障壁となっている。 大規模言語モデル(llm)は自然言語処理と理解において印象的な能力を示しており、特に疾患、症状、治療などの複雑な関係を持つ臨床応用において、臨床環境でのモデルの適用は魅力的な方向である。 関係抽出はすでにLLMを用いて研究されているが,EMRノートを用いた因果関係解析のエンドツーエンド機械学習ソリューションを提案する。 また,他の研究と比較して,本手法の広範な評価を行った。

Automatic causal graph construction is of high importance in medical research. They have many applications, such as clinical trial criteria design, where identification of confounding variables is a crucial step. The quality bar for clinical applications is high, and the lack of public corpora is a barrier for such studies. Large language models (LLMs) have demonstrated impressive capabilities in natural language processing and understanding, so applying such models in clinical settings is an attractive direction, especially in clinical applications with complex relations between entities, such as diseases, symptoms and treatments. Whereas, relation extraction has already been studied using LLMs, here we present an end-to-end machine learning solution of causal relationship analysis between aforementioned entities using EMR notes. Additionally, in comparison to other studies, we demonstrate extensive evaluation of the method.
翻訳日:2023-01-31 16:57:59 公開日:2023-01-29
# トンネルにおける絡み合いとアイデンティティ効果の比較

Comparing entanglement and identity effects in tunnelling ( http://arxiv.org/abs/2301.12472v1 )

ライセンス: Link先を確認
Pedro Sancho(参考訳) 2つの粒子の同時トンネルの確率は、システムが非分離状態にあり、絡み合っているか対称性があるときに変化する。 重畳状態における伝送速度の評価により, 矩形ポテンシャル障壁における両効果を比較した。 大きな瞬間において、それらの同時存在は伝達速度の形式を大きく変える。 ジョイント効果は重ね合わせ効果よりもはるかに大きい。 さらに、ボソンとフェルミオンの間には大きな違いがある。 本稿では,結合効果を量子干渉現象として統一的に捉える。 この分析はまた、絡み合った系における排除の新たな側面、すなわち重畳の存在がパウリの原理によって禁じられている条件の1つを示している。

The probability of simultaneous tunnelling of two particles is modified when the system is in a non-separable state, either entangled or symmetrised. We compare both effects in the rectangular potential barrier by evaluating the transmission rates in superposition states. For large momenta, their simultaneous presence greatly changes the form of the transmission rates. The joint effects are much larger than the superposition ones. Moreover, there are significant differences between bosons and fermions. We present an unified view of the combined effects as a quantum interference phenomenon. The analysis also illustrates a novel aspect of exclusion in entangled systems, the existence of superposition states one of whose terms is forbidden by Pauli's principle.
翻訳日:2023-01-31 16:57:45 公開日:2023-01-29
# グラフニューラルネットワークと動的GNNの利用による天気予報精度の最大化

Maximising Weather Forecasting Accuracy through the Utilisation of Graph Neural Networks and Dynamic GNNs ( http://arxiv.org/abs/2301.12471v1 )

ライセンス: Link先を確認
Gaganpreet Singh, Surya Durbha, Shreelakshmi C R(参考訳) 気候変動に取り組むためには、天気予報が不可欠である。 気象予報には、異種気象センサが生成する多変量データの解析が必要である。 これらのセンサは、衛星に搭載された地上センサ、ラジオゾンデ、センサーから構成されており、これらのセンサによって生成されたデータを解析するために、グラフニューラルネットワーク(GNN)ベースの天気予報モデルを用いる。 gnnはグラフ学習に基づくモデルであり、多くの機械学習アプローチで強い経験的パフォーマンスを示す。 本研究では,GNNと従来の機械学習モデルを用いた天気予報の性能について検討する。

Weather forecasting is an essential task to tackle global climate change. Weather forecasting requires the analysis of multivariate data generated by heterogeneous meteorological sensors. These sensors comprise of ground-based sensors, radiosonde, and sensors mounted on satellites, etc., To analyze the data generated by these sensors we use Graph Neural Networks (GNNs) based weather forecasting model. GNNs are graph learning-based models which show strong empirical performance in many machine learning approaches. In this research, we investigate the performance of weather forecasting using GNNs and traditional Machine learning-based models.
翻訳日:2023-01-31 16:57:35 公開日:2023-01-29
# マイクロドロンのジェスチャー制御:ドメインランダム化と軌道発生器を備えた軽量ネット

Gesture Control of Micro-drone: A Lightweight-Net with Domain Randomization and Trajectory Generators ( http://arxiv.org/abs/2301.12470v1 )

ライセンス: Link先を確認
Isaac Osei Agyemang, Isaac Adjei Mensah, Sophyani Banaamwini Yussif, Fiasam Linda Delali, Bernard Cobinnah Mawuli, Bless Lord Y. Agbley, Collins Sey, and Joshua Berkohd(参考訳) マイクロドローンは様々な産業アプリケーションに統合できるが、その計算能力と熟練パイロットに制約されている。 本研究では,gaborフィルタと計算量の低い空間分離畳み込みを用いた計算効率の高い深層畳み込みニューラルネットワークを提案する。 パフォーマンスを補完するために、アテンションモジュールがモデルに統合される。 さらに、知覚に基づく行動空間と軌道生成器は、直感的なナビゲーションのためのモデルの予測と統合される。 この計算効率のよいモデルは、ジェスチャを介してマイクロドローンを制御する人間のオペレータを助ける。 約18%の計算リソースは、トレーニング中にNVIDIA GPUプロファイラを使用して保存される。 低コストのdji telloドローンを使って実験を行い、計算効率の良いモデルは最先端のコンピュータビジョンベースの技術と比較して有望な結果を示している。

Micro-drones can be integrated into various industrial applications but are constrained by their computing power and expert pilots, a secondary challenge. This study presents a computationally-efficient deep convolutional neural network that utilizes Gabor filters and spatial separable convolutions with low computational complexities. An attention module is integrated with the model to complement the performance. Further, perception-based action space and trajectory generators are integrated with the model's predictions for intuitive navigation. The computationally-efficient model aids a human operator in controlling a micro-drone via gestures. Nearly 18% of computational resources are conserved using the NVIDIA GPU profiler during training. Using a low-cost DJI Tello drone for experiment verification, the computationally-efficient model shows promising results compared to a state-of-the-art and conventional computer vision-based technique.
翻訳日:2023-01-31 16:57:26 公開日:2023-01-29
# 予測メンテナンスのための連続学習:概要と課題

Continual Learning for Predictive Maintenance: Overview and Challenges ( http://arxiv.org/abs/2301.12467v1 )

ライセンス: Link先を確認
Julio Hurtado and Dario Salvati and Rudy Semola and Mattia Bosio and Vincenzo Lomonaco(参考訳) 機械学習技術は多くの工学的問題を効果的かつ効率的に解くための主要なプロペラの1つになっている。 例えば、予測保守において、データ駆動手法は、異なるマシンや運用コンテキストでメンテナンスが必要なときの予測を改善するために使われてきた。 しかし、これらの手法の限界の1つは、時間とともに変化しない固定分布で訓練され、現実のアプリケーションではめったに起こらないことである。 内部または外部の要因がデータ分布を変更すると、モデルの性能が低下したり、予測不能に失敗する可能性があり、マシンのメンテナンスに重大な結果をもたらす。 継続的学習手法は、予測モデルを適応し、デプロイ後に新しい知識を導入する方法を提案する。 これらの手法の主な目的は,従来の課題を忘れずにパラメトリックモデルを更新することで,塑性安定性ジレンマを回避することである。 本稿では,継続学習を予測メンテナンスに適用する技術の現状と,両分野の広範なレビューを紹介する。 まず,2つの研究テーマを個別に紹介し,継続学習と予測保守の交わりについて論じる。 最後に,主な研究の方向性と結論について述べる。

Machine learning techniques have become one of the main propellers for solving many engineering problems effectively and efficiently. In Predictive Maintenance, for instance, Data-Driven methods have been used to improve predictions of when maintenance is needed on different machines and operative contexts. However, one of the limitations of these methods is that they are trained on a fixed distribution that does not change over time, which seldom happens in real-world applications. When internal or external factors alter the data distribution, the model performance may decrease or even fail unpredictably, resulting in severe consequences for machine maintenance. Continual Learning methods propose ways of adapting prediction models and incorporating new knowledge after deployment. The main objective of these methods is to avoid the plasticity-stability dilemma by updating the parametric model while not forgetting previously learned tasks. In this work, we present the current state of the art in applying Continual Learning to Predictive Maintenance, with an extensive review of both disciplines. We first introduce the two research themes independently, then discuss the current intersection of Continual Learning and Predictive Maintenance. Finally, we discuss the main research directions and conclusions.
翻訳日:2023-01-31 16:57:14 公開日:2023-01-29
# Kernelized Cumulants: Kernel Mean Embeddingsを超えて

Kernelized Cumulants: Beyond Kernel Mean Embeddings ( http://arxiv.org/abs/2301.12466v1 )

ライセンス: Link先を確認
Patric Bonnier, Harald Oberhauser, Zolt\'an Szab\'o(参考訳) $\mathbb R^d$ では、累積が、低分散推定器のような多くの利点で同じ目標を達成するモーメントの代替となることが知られている。 本稿では、テンソル代数のツールを用いて、累積をカーネルヒルベルト空間(RKHS)に拡張し、カーネルトリックによって計算可能となることを示す。 古典的な最大誤差とヒルベルト=シュミット独立基準は、我々の一般的な構成における次数 1 の対象として生じる。 理論上も実証的にも(合成、環境、交通データ分析において)、次数1を超えるといくつかの利点があり、同じ計算複雑性と最小のオーバーヘッドで達成できると論じている。

In $\mathbb R^d$, it is well-known that cumulants provide an alternative to moments that can achieve the same goals with numerous benefits such as lower variance estimators. In this paper we extend cumulants to reproducing kernel Hilbert spaces (RKHS) using tools from tensor algebras and show that they are computationally tractable by a kernel trick. These kernelized cumulants provide a new set of all-purpose statistics; the classical maximum mean discrepancy and Hilbert-Schmidt independence criterion arise as the degree one objects in our general construction. We argue both theoretically and empirically (on synthetic, environmental, and traffic data analysis) that going beyond degree one has several advantages and can be achieved with the same computational complexity and minimal overhead in our experiments.
翻訳日:2023-01-31 16:56:56 公開日:2023-01-29
# 音のパニン系と有限状態機械を用いた言語解析

Linguistic Analysis using Paninian System of Sounds and Finite State Machines ( http://arxiv.org/abs/2301.12463v1 )

ライセンス: Link先を確認
Shreekanth M Prabhu and Abhisek Midye(参考訳) 音声言語の研究は、音韻学、形態学、文法を含む。 言語の分析は、その構文、意味論、実践論に基づくことができる。 これらの言語はルート言語、インフレクション言語、stem言語に分類される。 これらすべての要因は、言語間で異なる微妙な違いだけでなく、共通性と類似性を持つ語彙の形成に繋がる。 本稿では,パニアン系を用いた音声マップの構築を行い,その状態遷移として単語を表現した。 言語を横断する関連する単語群は、それぞれm言語(形態言語)で表される。 形態的有限オートマタ(MFA)は、与えられたm言語に属する単語を受け入れる。 この演習により、言語非依存と言語認識の両方の方法で、音声言語における単語間の相互関係をよりよく理解することができる。

The study of spoken languages comprises phonology, morphology, and grammar. Analysis of a language can be based on its syntax, semantics, and pragmatics. The languages can be classified as root languages, inflectional languages, and stem languages. All these factors lead to the formation of vocabulary which has commonality/similarity as well as distinct and subtle differences across languages. In this paper, we make use of Paninian system of sounds to construct a phonetic map and then words are represented as state transitions on the phonetic map. Each group of related words that cut across languages is represented by a m-language (morphological language). Morphological Finite Automata (MFA) are defined that accept the words belonging to a given m-language. This exercise can enable us to better understand the inter-relationships between words in spoken languages in both language-agnostic and language-cognizant manner.
翻訳日:2023-01-31 16:56:41 公開日:2023-01-29
# 視覚コントラスト学習における色と形状の特徴の影響

The Influences of Color and Shape Features in Visual Contrastive Learning ( http://arxiv.org/abs/2301.12459v1 )

ライセンス: Link先を確認
Xiaoqi Zhuang(参考訳) 視覚表現学習の分野では、一般的には分類畳み込みニューラルネットワークである教師あり学習法(supervised method)にコントラスト学習の性能が追いつきつつある。 しかし,研究の大部分は,画像分類や物体検出などの下流タスクの精度向上に重点を置いている。 視覚的コントラスト学習では、個々の画像特徴(色や形状など)がモデル性能に与える影響はあいまいである。 本稿では,種々のアブレーション実験をデザインし,その影響について検討した。 これらのメトリクスは私たちが発明したものではありませんが、まず表現評価の分野で使用します。 具体的には,2つの画像特徴(色と形状)を定量的に評価する。 実験結果から, 教師付き表現と比較すると, コントラッシブ表現は表現空間に類似した色を持つオブジェクトをクラスタリングし, 教師付き表現よりも少ない形状情報を含む傾向が示された。 最後に、これらの結果に対して、現在のデータ拡張が責任を負うことを議論する。 教師なしの増補法の探求は

In the field of visual representation learning, performance of contrastive learning has been catching up with the supervised method which is commonly a classification convolutional neural network. However, most of the research work focuses on improving the accuracy of downstream tasks such as image classification and object detection. For visual contrastive learning, the influences of individual image features (e.g., color and shape) to model performance remain ambiguous. This paper investigates such influences by designing various ablation experiments, the results of which are evaluated by specifically designed metrics. While these metrics are not invented by us, we first use them in the field of representation evaluation. Specifically, we assess the contribution of two primary image features (i.e., color and shape) in a quantitative way. Experimental results show that compared with supervised representations, contrastive representations tend to cluster with objects of similar color in the representation space, and contain less shape information than supervised representations. Finally, we discuss that the current data augmentation is responsible for these results. We believe that exploring an unsupervised augmentation method that
翻訳日:2023-01-31 16:56:28 公開日:2023-01-29
# EMP-EVAL:オープンドメイン対話における共感を測定するフレームワーク

EMP-EVAL: A Framework for Measuring Empathy in Open Domain Dialogues ( http://arxiv.org/abs/2301.12510v1 )

ライセンス: Link先を確認
Bushra Amjad, Muhammad Zeeshan and Mirza Omer Beg(参考訳) 共感は、認知的要素と感情的要素の両方を含む複雑で多面的な心理的構成物である。 人間の評価は主観的であり、矛盾した結果をもたらす。 したがって、人間評価の必要性を減少させる共感を測定する自動方法が必要となる。 本稿では,単純で効果的な自動共感評価手法であるEMP-EVALを提案する。 提案手法は,感情・認知・感情の共感に影響を及ぼす。 最高の知識を得るために、私たちの研究は、人間が注釈付けしたスコアなしで共感を体系的に測定する最初のものです。 実験の結果,人間の好みと相関し,人間の判断と同等の結果が得られることがわかった。

Measuring empathy in conversation can be challenging, as empathy is a complex and multifaceted psychological construct that involves both cognitive and emotional components. Human evaluations can be subjective, leading to inconsistent results. Therefore, there is a need for an automatic method for measuring empathy that reduces the need for human evaluations. In this paper, we proposed a novel approach EMP-EVAL, a simple yet effective automatic empathy evaluation method. The proposed technique takes the influence of Emotion, Cognitive and Emotional empathy. To the best knowledge, our work is the first to systematically measure empathy without the human-annotated provided scores. Experimental results demonstrate that our metrics can correlate with human preference, achieving comparable results with human judgments.
翻訳日:2023-01-31 16:50:31 公開日:2023-01-29
# 電子化エージェントへのインターネットスケールビジョンランゲージモデルの蒸留

Distilling Internet-Scale Vision-Language Models into Embodied Agents ( http://arxiv.org/abs/2301.12507v1 )

ライセンス: Link先を確認
Theodore Sumers, Kenneth Marino, Arun Ahuja, Rob Fergus, Ishita Dasgupta(参考訳) 命令追従エージェントは言語を観察空間と行動空間に基礎付ける必要がある。 基底言語への学習は、通常、ドメイン固有のエンジニアリングまたは大量のヒューマンインタラクションデータを必要とする。 この課題に対処するために,事前に訓練された視覚言語モデル (VLM) を用いてエンボディエージェントを監督する手法を提案する。 モデル蒸留と後視体験再生(HER)のアイデアを組み合わせて, VLMを用いてエージェントの動作を記述する言語を遡及的に生成する。 単純なプロンプトによって監督信号を制御でき、エージェントに3dレンダリングされた環境で名前(平面など)や特徴(色など)に基づいて、新しいオブジェクトと対話するように教えます。 fewshotプロンプトでは、既存のカテゴリ(食べ物とおもちゃ)やアドホックなもの(オブジェクトよりもアービタリーな好み)など、抽象的なカテゴリのメンバシップを教えられます。 我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルが獲得した汎用言語基盤を再利用し、エージェントにタスク関連基盤を教える。

Instruction-following agents must ground language into their observation and action spaces. Learning to ground language is challenging, typically requiring domain-specific engineering or large quantities of human interaction data. To address this challenge, we propose using pretrained vision-language models (VLMs) to supervise embodied agents. We combine ideas from model distillation and hindsight experience replay (HER), using a VLM to retroactively generate language describing the agent's behavior. Simple prompting allows us to control the supervision signal, teaching an agent to interact with novel objects based on their names (e.g., planes) or their features (e.g., colors) in a 3D rendered environment. Fewshot prompting lets us teach abstract category membership, including pre-existing categories (food vs toys) and ad-hoc ones (arbitrary preferences over objects). Our work outlines a new and effective way to use internet-scale VLMs, repurposing the generic language grounding acquired by such models to teach task-relevant groundings to embodied agents.
翻訳日:2023-01-31 16:50:18 公開日:2023-01-29
# 認知症検出のための変分量子回路を用いたハイブリッド量子古典ニューラルネットワークの実装

Implementing a Hybrid Quantum-Classical Neural Network by Utilizing a Variational Quantum Circuit for Detection of Dementia ( http://arxiv.org/abs/2301.12505v1 )

ライセンス: Link先を確認
Ryan Kim(参考訳) MRI(MRI)は脳卒中、腫瘍、その他の認知症の原因となる疾患をスキャンする一般的な技術である。 しかし、アルツハイマー病患者3人に1人近くが2019年に誤診されたため、mriから認知症を正しく診断することは困難であり、ニューラルネットワークが修正できる問題である。 量子コンピューティングアプリケーション この提案するニューラルネットワークアーキテクチャは、完全接続(fc)層を使用しており、変動量子回路(vqc)を実装して期待値を得るための特徴の数を減らす。 本研究で作成したVQCは,アダマールゲート,画素のanh(intensity) * (pi/2) でパラメータ化された回転Yゲート,制御ノット(CNOT)ゲート,および測定演算子を用いて,期待値を得る。 提案されたハイブリッド量子古典畳み込みニューラルネットワーク(QCCNN)は、それぞれ97.5%と95.1%のテストと検証の精度を提供しており、従来のニューラルネットワーク(CNN)のテストと検証の精度は91.5%と89.2%であった。 さらに、100個の正常画像と100個の認知症mri画像の検査セットを用いて、qccnnは正常画像と推論画像の95%と98%を、cnnの89%と91%の精度で正確に検出した。 マサチューセッツ総合病院のような病院がバイオメディカル画像検出に機械学習を応用し始めており、この提案されたアーキテクチャは異常を認め、より多くの命を救う可能性がある。 さらに、提案するアーキテクチャは一般に柔軟であり、転送学習タスク、時間とリソースの節約に使用できる。

Magnetic resonance imaging (MRI) is a common technique to scan brains for strokes, tumors, and other abnormalities that cause forms of dementia. However, correctly diagnosing forms of dementia from MRIs is difficult, as nearly 1 in 3 patients with Alzheimer's were misdiagnosed in 2019, an issue neural networks can rectify. Quantum computing applications This proposed novel neural network architecture uses a fully-connected (FC) layer, which reduces the number of features to obtain an expectation value by implementing a variational quantum circuit (VQC). The VQC created in this study utilizes a layer of Hadamard gates, Rotation-Y gates that are parameterized by tanh(intensity) * (pi/2) of a pixel, controlled-not (CNOT) gates, and measurement operators to obtain the expected values. This study found that the proposed hybrid quantum-classical convolutional neural network (QCCNN) provided 97.5% and 95.1% testing and validation accuracies, respectively, which was considerably higher than the classical neural network (CNN) testing and validation accuracies of 91.5% and 89.2%. Additionally, using a testing set of 100 normal and 100 dementia MRI images, the QCCNN detected normal and demented images correctly 95% and 98% of the time, compared to the CNN accuracies of 89% and 91%. With hospitals like Massachusetts General Hospital beginning to adopt machine learning applications for biomedical image detection, this proposed architecture would approve accuracies and potentially save more lives. Furthermore, the proposed architecture is generally flexible, and can be used for transfer-learning tasks, saving time and resources.
翻訳日:2023-01-31 16:49:58 公開日:2023-01-29
# audioldm:潜在拡散モデルを用いたテキスト音声生成

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models ( http://arxiv.org/abs/2301.12503v1 )

ライセンス: Link先を確認
Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley(参考訳) text-to-audio(tta)システムは最近、テキスト記述に基づいて一般音声を合成する能力で注目を集めている。 しかし、TTAにおける以前の研究では、高い計算コストで生成品質が制限されていた。 本研究では,Language-audio pretraining (CLAP)から連続的な音声表現を学習するために,潜在空間上に構築されたTTAシステムであるAudioLDMを提案する。 事前学習したCLAPモデルは,サンプリング中にテキスト埋め込みを条件として提供しながら,オーディオ埋め込みによるLCMの訓練を可能にする。 モーダル関係をモデル化することなく音声信号とその合成の潜在表現を学習することにより、AudioLDMは生成品質と計算効率の両方において有利である。 単一GPUでAudioCapsでトレーニングされたAudioLDMは、客観的および主観的なメトリクス(例えば、フレケット距離)によって測定された最先端のTTAパフォーマンスを達成する。 さらに、AudioLDMは、様々なテキスト誘導オーディオ操作(スタイル転送など)をゼロショット方式で行える最初のTTAシステムである。 実装とデモはhttps://audioldm.github.io.com/で公開しています。

Text-to-audio (TTA) system has recently gained attention for its ability to synthesize general audio based on text descriptions. However, previous studies in TTA have limited generation quality with high computational costs. In this study, we propose AudioLDM, a TTA system that is built on a latent space to learn the continuous audio representations from contrastive language-audio pretraining (CLAP) latents. The pretrained CLAP models enable us to train LDMs with audio embedding while providing text embedding as a condition during sampling. By learning the latent representations of audio signals and their compositions without modeling the cross-modal relationship, AudioLDM is advantageous in both generation quality and computational efficiency. Trained on AudioCaps with a single GPU, AudioLDM achieves state-of-the-art TTA performance measured by both objective and subjective metrics (e.g., frechet distance). Moreover, AudioLDM is the first TTA system that enables various text-guided audio manipulations (e.g., style transfer) in a zero-shot fashion. Our implementation and demos are available at https://audioldm.github.io.
翻訳日:2023-01-31 16:49:18 公開日:2023-01-29
# アルゴンの周波数依存性双極子偏光率の第一原理計算

First-principles calculation of the frequency-dependent dipole polarizability of argon ( http://arxiv.org/abs/2301.12502v1 )

ライセンス: Link先を確認
Micha{\l} Lesiuk and Bogumi{\l} Jeziorski(参考訳) 本研究では、アルゴン原子の双極子分極性に関する最新理論計算を報告する。 偏光率の周波数依存性は分散係数(コーシー係数)によって考慮され、これは第一共振周波数以下で実験的に関連する波長に十分である。 理論的な枠組みでは、相対論的、量子電磁力学、有限核質量、有限核サイズの補正を含む全ての既知の物理効果が説明される。 第2および第4の分散係数に対してそれぞれ$\alpha_0=11.0763(19)$と$\alpha_2=27.976(15)$および$\alpha_4=95.02(11)$を得た。 静的偏光率について得られた結果は、最新の実験データ(C. Gaiser and B. Fellmuth, Phys. Rev. 120, 123203 (2018))と一致しているが、精度は低い。 この研究で決定された分散係数は文献において最も正確であり、以前の推定値よりも1桁以上改善されている。 静的偏光率の実験的値と計算結果の分散係数を組み合わせることで、約450,$nm以上の波長に対して約10,$ppmの精度でアルゴンの偏光率を計算することができる。 この結果は量子メトロロジーの観点から、特に気体アルゴンの熱物性に基づく新しい圧力標準に関して重要である。 さらに, 本研究では, 希薄アルゴンガスの屈折率とその圧力に関連するアルゴンの静的磁化率を計算する。 この量の結果は偏光率よりも精度が低いが、ロレンツ・ローレンツの公式により、アルゴンの屈折率の最良の理論的推定値が得られる。

In this work we report state-of-the-art theoretical calculations of the dipole polarizability of the argon atom. Frequency dependence of the polarizability is taken into account by means of the dispersion coefficients (Cauchy coefficients) which is sufficient for experimentally relevant wavelengths below the first resonant frequency. In the proposed theoretical framework, all known physical effects including the relativistic, quantum electrodynamics, finite nuclear mass, and finite nuclear size corrections are accounted for. We obtained $\alpha_0=11.0763(19)$ for the static polarizability and $\alpha_2=27.976(15)$ and $\alpha_4=95.02(11)$ for the second and fourth dispersion coefficients, respectively. The result obtained for the static polarizability agrees (within the estimated uncertainty) with the most recent experimental data [C. Gaiser and B. Fellmuth, Phys. Rev. Lett. 120, 123203 (2018)], but is less accurate. The dispersion coefficients determined in this work appear to be most accurate in the literature, improving by more than an order of magnitude upon previous estimates. By combining the experimentally determined value of the static polarizability with the dispersion coefficients from our calculations, the polarizability of argon can be calculated with accuracy of around $10\,$ppm for wavelengths above roughly $450\,$nm. This result is important from the point of view of quantum metrology, especially for a new pressure standard based on thermophysical properties of gaseous argon. Additionally, in this work we calculate the static magnetic susceptibility of argon which relates the refractive index of dilute argon gas with its pressure. While our results for this quantity are less accurate than in the case of the polarizability, they can provide, via Lorenz-Lorentz formula, the best available theoretical estimate of the refractive index of argon.
翻訳日:2023-01-31 16:48:43 公開日:2023-01-29
# ROSTという,BERTに基づくルーマニアのデータセットのオーサリング属性

BERT-based Authorship Attribution on the Romanian Dataset called ROST ( http://arxiv.org/abs/2301.12500v1 )

ライセンス: Link先を確認
Sanda-Maria Avram(参考訳) 何十年もの間、著者の帰属という問題は今もなお非常に焦点を絞っている。 最近の楽器のいくつかは事前訓練された言語モデルであり、最も一般的なものはBERTである。 ここでは、ルーマニア語で書かれたテキストの著者検出にそのようなモデルを用いた。 使用するデータセットは、著者1人当たりのテキスト数、テキストが収集された資料、著者が居住し、執筆する期間、読みたいメディア(紙またはオンライン)、執筆のタイプ(物語、短編、妖精物語、小説、文学記事、スケッチなど)において大きな違いがある。 結果は予想より優れており、時には87\%のマクロ精度を超えることもある。

Being around for decades, the problem of Authorship Attribution is still very much in focus currently. Some of the more recent instruments used are the pre-trained language models, the most prevalent being BERT. Here we used such a model to detect the authorship of texts written in the Romanian language. The dataset used is highly unbalanced, i.e., significant differences in the number of texts per author, the sources from which the texts were collected, the time period in which the authors lived and wrote these texts, the medium intended to be read (i.e., paper or online), and the type of writing (i.e., stories, short stories, fairy tales, novels, literary articles, and sketches). The results are better than expected, sometimes exceeding 87\% macro-accuracy.
翻訳日:2023-01-31 16:48:08 公開日:2023-01-29
# 理想的位置測定によるガウス量子状態の再構成:パウリの問題を超えたI

Reconstruction of Gaussian Quantum States from Ideal Position Measurements: Beyond Pauli's Problem, I ( http://arxiv.org/abs/2301.12498v1 )

ライセンス: Link先を確認
Maurice de Gosson(参考訳) 量子状態の共分散行列は、凸幾何学に精通した極双対性の概念を用いて位置測定から再構成できることを示した。 特に、すべての多次元ガウス状態(純あるいは混合)は、量子系が構成空間において十分に局所化されている場合、原理的に再構成することができる。 これを可能にする主な観察は、極双対による位置局在のデカルト積のジョン楕円体が量子ブロブを含み、従って量子状態の共分散楕円体と同一視することができることである。

We show that the covariance matrix of a quantum state can be reconstructed from position measurements using the simple notion of polar duality, familiar from convex geometry. In particular, all multidimensional Gaussian states (pure or mixed) can in principle be reconstructed if the quantum system is well localized in configuration space. The main observation which makes this possible is that the John ellipsoid of the Cartesian product of the position localization by its polar dual contains a quantum blob, and can therefore be identified with the covariance ellipsoid of a quantum state.
翻訳日:2023-01-31 16:47:54 公開日:2023-01-29
# スマート製造システムにおける時系列パターン認識:文献レビューとオントロジ

Time-Series Pattern Recognition in Smart Manufacturing Systems: A Literature Review and Ontology ( http://arxiv.org/abs/2301.12495v1 )

ライセンス: Link先を確認
Mojtaba A. Farahani, M. R. McCormick, Robert Gianinny, Frank Hudacheck, Ramy Harik, Zhichao Liu, Thorsten Wuest(参考訳) 2012年の業界4.0の開始以来、新興技術は、機械ツール、高度な情報モデルを備えた堅牢で安価なセンサーシステム、およびスマート製造システム(sms)内の他のソースといった、さまざまなソースから膨大なデータを取得することができる。 その結果、製造環境で利用可能なデータ量が爆発的に増加し、人工知能(AI)や機械学習(ML)といったデータ処理ツールが活用できるようになった。 時系列分析は様々な業界で成功しており、その成功は、高品質な製品、欠陥製造のゼロ、顧客満足度の向上をサポートするために、製造におけるパターン認識アプリケーションに移行している。 しかし、製造業の多様な景観は、時系列パターン認識を用いた産業の問題解決に挑戦している。 製造における時系列パターン認識の主題の理解と応用に関する研究ギャップは、産業における採用の大きな制限要因である。 本研究の目的は,問題解決に焦点をあてた製造における時系列パターン認識の現状に関する構造化的視点を提供することである。 オントロジーを用いて概念の分類と定義を行い,それらの構造,特性,それらの関係,適用時の考慮事項について述べる。

Since the inception of Industry 4.0 in 2012, emerging technologies have enabled the acquisition of vast amounts of data from diverse sources such as machine tools, robust and affordable sensor systems with advanced information models, and other sources within Smart Manufacturing Systems (SMS). As a result, the amount of data that is available in manufacturing settings has exploded, allowing data-hungry tools such as Artificial Intelligence (AI) and Machine Learning (ML) to be leveraged. Time-series analytics has been successfully applied in a variety of industries, and that success is now being migrated to pattern recognition applications in manufacturing to support higher quality products, zero defect manufacturing, and improved customer satisfaction. However, the diverse landscape of manufacturing presents a challenge for successfully solving problems in industry using time-series pattern recognition. The resulting research gap of understanding and applying the subject matter of time-series pattern recognition in manufacturing is a major limiting factor for adoption in industry. The purpose of this paper is to provide a structured perspective of the current state of time-series pattern recognition in manufacturing with a problem-solving focus. By using an ontology to classify and define concepts, how they are structured, their properties, the relationships between them, and considerations when applying them, this paper aims to provide practical and actionable guidelines for application and recommendations for advancing time-series analytics.
翻訳日:2023-01-31 16:47:42 公開日:2023-01-29
# グラフミキサーネットワーク

Graph Mixer Networks ( http://arxiv.org/abs/2301.12493v1 )

ライセンス: Link先を確認
Ahmet Sar{\i}g\"un(参考訳) 近年、注目機構は様々なタスクにおいて優れた性能を示しており、この機構を利用してグラフ構造化データから関係情報を抽出するGATおよびグラフトランスフォーマーモデルが出現している。 しかし、Vision Transformers に見られるように、Transformer ブロックに関連する高い計算コストは、計算コストを削減しつつ、画像タスクのパフォーマンスを向上させることが示されている MLP-Mixers のような代替アーキテクチャの開発を動機付けている。 グラフに基づくタスクにおけるトランスフォーマーの有効性にもかかわらず、その計算効率は依然として懸念されている。 画像タスクにおけるこの問題に対処するMLP-Mixersのロジックは、グラフ構造化データにも適用される可能性がある。 本稿では,グラフ構造化データに対するMLP-Mixerの原理を取り入れたフレームワークであるGNasNets(Graph Nasreddin Nets)を提案する。 複数のアグリゲータを備えたPNAモデルを基礎として提案したGMNでは,グラフ変換器と比較して性能が向上した。 ソースコードはhttps://github.com/asarigun/GraphMixerNetworksで公開されている。

In recent years, the attention mechanism has demonstrated superior performance in various tasks, leading to the emergence of GAT and Graph Transformer models that utilize this mechanism to extract relational information from graph-structured data. However, the high computational cost associated with the Transformer block, as seen in Vision Transformers, has motivated the development of alternative architectures such as MLP-Mixers, which have been shown to improve performance in image tasks while reducing the computational cost. Despite the effectiveness of Transformers in graph-based tasks, their computational efficiency remains a concern. The logic behind MLP-Mixers, which addresses this issue in image tasks, has the potential to be applied to graph-structured data as well. In this paper, we propose the Graph Mixer Network (GMN), also referred to as Graph Nasreddin Nets (GNasNets), a framework that incorporates the principles of MLP-Mixers for graph-structured data. Using a PNA model with multiple aggregators as the foundation, our proposed GMN has demonstrated improved performance compared to Graph Transformers. The source code is available publicly at https://github.com/asarigun/GraphMixerNetworks.
翻訳日:2023-01-31 16:47:19 公開日:2023-01-29
# 情報完全共変正値測度の構成について

On constructing informationally complete covariant positive operator-valued measures ( http://arxiv.org/abs/2301.12492v1 )

ライセンス: Link先を確認
Grigori Amosov(参考訳) 局所コンパクトアーベル群の射影ユニタリ表現の軌道によって生成される正の作用素値測度について検討する。 そのような測度に対する積分は、表現からユニタリ作用素の倍数である収縮の族を定義する。 この事実を用いて、測定が情報的に完結していることが証明される。 得られた結果は、コヒーレント状態の集合において密度が値を取る測度に対して示される。

We study positive operator-valued measures generated by orbits of projective unitary representations of locally compact Abelian groups. It is shown that integration over such a measure defines a family of contractions being multiples of unitary operators from the representation. Using this fact it is proved that the measures are informationally complete. The obtained results are illustrated for the measure with density taking values in the set of coherent states.
翻訳日:2023-01-31 16:47:00 公開日:2023-01-29
# G-Rank: P2Pネットワークにおけるエッジデバイスのための教師なし連続学習

G-Rank: Unsupervised Continuous Learn-to-Rank for Edge Devices in a P2P Network ( http://arxiv.org/abs/2301.12530v1 )

ライセンス: Link先を確認
Andrew Gold, Johan Pouwelse(参考訳) 従来の検索エンジンのランク付けアルゴリズムは、集中型エンティティによって慎重に設計され、キュレーションされる巨大なトレーニングデータセットによって実現されている。 トレントアプリケーションやWeb3プロトコルのような分散ピアツーピア(p2p)ネットワークは、サービスや機能を設計する際に、意図的に集中型データベースや計算アーキテクチャを設計する。 このように、このようなドメイン向けに設計された堅牢な検索・ランクアルゴリズムは、分散ネットワーク用に特別に設計され、スマートフォンやラップトップコンピュータのような消費者級のパーソナルデバイスで操作できるほど軽量でなければならない。 分散ネットワーク専用に設計された教師なしランキングアルゴリズムであるg-rankを提案する。 集中型データ集約や機能工学,モデルトレーニングを必要とせずに,完全分散ネットワークにおいて,正確かつ適切なランキング結果が達成できることを実証する。 さらに,データ前処理や計算オーバーヘッドが最小限に抑えられ,ユーザのデバイスがネットワークから切断された場合でも,高い関連性のある結果を返すことができることを示す。 G-Rankは設計において高度にモジュール化されており、分類データに限らず、最小限の変更で様々な領域で実装できる。 この結果は、分散p2pネットワーク用に設計された教師なしのランキングモデルが実行可能なだけでなく、さらなる研究に値することを示している。

Ranking algorithms in traditional search engines are powered by enormous training data sets that are meticulously engineered and curated by a centralized entity. Decentralized peer-to-peer (p2p) networks such as torrenting applications and Web3 protocols deliberately eschew centralized databases and computational architectures when designing services and features. As such, robust search-and-rank algorithms designed for such domains must be engineered specifically for decentralized networks, and must be lightweight enough to operate on consumer-grade personal devices such as a smartphone or laptop computer. We introduce G-Rank, an unsupervised ranking algorithm designed exclusively for decentralized networks. We demonstrate that accurate, relevant ranking results can be achieved in fully decentralized networks without any centralized data aggregation, feature engineering, or model training. Furthermore, we show that such results are obtainable with minimal data preprocessing and computational overhead, and can still return highly relevant results even when a user's device is disconnected from the network. G-Rank is highly modular in design, is not limited to categorical data, and can be implemented in a variety of domains with minimal modification. The results herein show that unsupervised ranking models designed for decentralized p2p networks are not only viable, but worthy of further research.
翻訳日:2023-01-31 16:41:46 公開日:2023-01-29
# ガウス過程に基づく深部状態空間モデルの逐次推定

Sequential Estimation of Gaussian Process-based Deep State-Space Models ( http://arxiv.org/abs/2301.12528v1 )

ライセンス: Link先を確認
Yuhao Liu, Marzieh Ajirak, Petar Djuric(参考訳) 状態空間モデルと深部状態空間モデルの未知点を逐次推定する問題について考察する。 提案手法は、ランダムな特徴に基づくガウス過程によって実装されるガウス過程とディープガウス過程に依存する。 このモデルでは、非常に非線形な未知数(潜在過程の値)と条件付き線形未知数(ランダムな特徴に基づくガウス過程の定数パラメータ)の2組の未知数がある。 本稿では,粒子の予測密度を得るためにランダム特徴量に基づくガウス過程の定数パラメータを積分し,粒子を必要としない粒子フィルタリング法を提案する。 また,本手法のアンサンブル版を提案し,各アンサンブルの構成員に独自の特徴を付与する。 いくつかの実験により,提案手法は潜伏過程をスケールと回転まで追跡できることを示した。

We consider the problem of sequential estimation of the unknowns of state-space and deep state-space models that include estimation of functions and latent processes of the models. The proposed approach relies on Gaussian and deep Gaussian processes that are implemented via random feature-based Gaussian processes. With this model, we have two sets of unknowns, highly nonlinear unknowns (the values of the latent processes) and conditionally linear unknowns (the constant parameters of the random feature-based Gaussian processes). We present a method based on particle filtering where the constant parameters of the random feature-based Gaussian processes are integrated out in obtaining the predictive density of the states and do not need particles. We also propose an ensemble version of the method, with each member of the ensemble having its own set of features. With several experiments, we show that the method can track the latent processes up to a scale and rotation.
翻訳日:2023-01-31 16:41:25 公開日:2023-01-29
# Diverse, Difficult, and Odd Instances (D2O): オブジェクト分類のための新しいテストセット

Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object Classification ( http://arxiv.org/abs/2301.12527v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) テストセットは、モデルの評価とオブジェクト認識の進歩、さらにコンピュータビジョンとAIにおいて、不可欠な部分である。 しかし、既存のオブジェクト認識のためのテストセットは、イメージネットの特徴や慣用性に対するバイアス(例:imagenet-v2)、特定のタイプの刺激(例:objectnetの屋内シーン)、モデルパフォーマンスの過小評価(例:imagenet-a)といった欠点に苦しめられている。 これらの問題を緩和するために、既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入する。 画像は生成された画像とwebからクロールされた画像の混合である。 それらは多様で、変更されず、現実世界のシナリオを代表し、最先端のモデルに自信を持ってそれらを誤分類させる。 一般化を強調するために、設計によるデータセットはトレーニングセットと組み合わせられません。 36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29はImageNetに掲載されている。 私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。 一般的なビジョンAPIは ``faces'' や ``cars'' や ``cats'' といった D2O カテゴリ上のオブジェクトを検出できない。 データセットには ‘miscellaneous' カテゴリも付属しており、イメージタグ付けモデルをテストする。 以上の結果から,D2Oテストセットには様々な難易度を持つ画像が混在しており,モデルの平均ケース性能が予測可能であることが示された。 今後何年もオブジェクト認識モデルに挑戦し、この基本分野のさらなる研究を促す可能性がある。

Test sets are an integral part of evaluating models and gauging progress in object recognition, and more broadly in computer vision and AI. Existing test sets for object recognition, however, suffer from shortcomings such as bias towards the ImageNet characteristics and idiosyncrasies (e.g., ImageNet-V2), being limited to certain types of stimuli (e.g., indoor scenes in ObjectNet), and underestimating the model performance (e.g., ImageNet-A). To mitigate these problems, we introduce a new test set, called D2O, which is sufficiently different from existing test sets. Images are a mix of generated images as well as images crawled from the web. They are diverse, unmodified, and representative of real-world scenarios and cause state-of-the-art models to misclassify them with high confidence. To emphasize generalization, our dataset by design does not come paired with a training set. It contains 8,060 images spread across 36 categories, out of which 29 appear in ImageNet. The best Top-1 accuracy on our dataset is around 60% which is much lower than 91% best Top-1 accuracy on ImageNet. We find that popular vision APIs perform very poorly in detecting objects over D2O categories such as ``faces'', ``cars'', and ``cats''. Our dataset also comes with a ``miscellaneous'' category, over which we test the image tagging models. Overall, our investigations demonstrate that the D2O test set contain a mix of images with varied levels of difficulty and is predictive of the average-case performance of models. It can challenge object recognition models for years to come and can spur more research in this fundamental area.
翻訳日:2023-01-31 16:41:09 公開日:2023-01-29
# Composerのアシスタント:マルチトラックMIDIインフィルのためのインタラクティブトランス

Composer's Assistant: Interactive Transformers for Multi-Track MIDI Infilling ( http://arxiv.org/abs/2301.12525v1 )

ライセンス: Link先を確認
Martin E. Malandro(参考訳) 任意の情報(トラック,測度)がMIDIファイルから連続した測度スライスから削除された場合に,多トラックMIDIを埋め込むタスクについて検討する。 この課題を解決するために,2つのT5様モデルをトレーニングする。1つは基本的MIDI様イベント語彙,もう1つは結合した単語様バージョンである。 9つの多トラックMIDI入力タスクからなるLakh MIDIデータセットから作成した新しいテストセットを導入する。 私たちはこれらのタスクでモデルを評価し、あるタスクではモデルがうまく機能し、他のタスクではモデルが良く機能することを見つけます。 この結果は、バイト配列モデリングやタンパク質配列モデリングなど、他の小語彙領域におけるニューラルネットワークのトレーニングに影響を及ぼす。 我々はソースコードを公開し、REAPERデジタルオーディオワークステーションでリアルタイムのヒューマン・コンピュータ・インタラクティブな構成を可能にすることを実証した。

We consider the task of multi-track MIDI infilling when arbitrary (track, measure) pairs of information have been deleted from a contiguous slice of measures from a MIDI file. We train two T5-like models to solve this task, one using a basic MIDI-like event vocabulary and one using a joined word-like version of this vocabulary. We introduce a new test set, created from the Lakh MIDI dataset, consisting of 9 multi-track MIDI infilling tasks. We evaluate our models on these tasks and find that one model works better on some tasks while the other works better on others. Our results have implications for the training of neural networks in other small-vocabulary domains, such as byte sequence modeling and protein sequence modeling. We release our source code, and we demonstrate that our models are capable of enabling real-time human-computer interactive composition in the REAPER digital audio workstation.
翻訳日:2023-01-31 16:40:37 公開日:2023-01-29
# Pinterestで動的$\mu$-topicsを使って使用可能なタコノミを迅速かつ迅速に生成する

Producing Usable Taxonomies Cheaply and Rapidly at Pinterest Using Discovered Dynamic $\mu$-Topics ( http://arxiv.org/abs/2301.12520v1 )

ライセンス: Link先を確認
Abhijit Mahabal, Jiyun Luo, Rui Huang, Michael Ellsworth, Rui Li(参考訳) ノードを特定してそれらを相互接続する必要があるだけでなく、その分類を使用するには、ノードをユーザ、ピン、クエリなどの関連エンティティに接続する必要があります。 エンティティへの接続は言語固有のあいまいさだけでなく、個々の関心が動的で進化しているため、難しい。 ここでは、Pinceptsと呼ばれる$\mu$-topicsのボトムアップ発見から始まる別のアプローチを提示します。 発見プロセス自体は、これらの$\mu$トピックと関連するクエリ、ピン、ユーザを高精度で動的に接続し、興味のシフトに自動的に適応する。 ピンセプトはユーザ関心のあらゆる領域をカバーし、ユーザ関心の特異性を自動的に調整するので、様々な分類学の作成に適している。 人間の専門家は分類ノードを$\mu$-topics(平均で3$\mu$-topics)に関連付け、$\mu$-topicsは、迅速な定義、即時検査、簡単な修正を可能にするハイレベルなデータ層を提供する。 さらに強力なのは、$\mu$-topicsによって、近くのセマンティックスペースを簡単に探索できることだ。 キュレーターのドメイン知識は大いに活用されており、未訓練の機械トルクは必要とせず、さらなるコスト削減を可能にしている。 これらの$\mu$-topicsは、分類論を定義するのに十分な「象徴的」層を提供する。 pinterestの検索結果のトップの94%の精度で、検索成功率を34.8%向上させ、長いクリックとピンセーブを増加させた、スタイルベースのパーソナライゼーションのためのホームデコーとファッションスタイルの分類法を、非常に迅速に繰り返してローンチするために、このテクニックをうまく適用しました。

Creating a taxonomy of interests is expensive and human-effort intensive: not only do we need to identify nodes and interconnect them, in order to use the taxonomy, we must also connect the nodes to relevant entities such as users, pins, and queries. Connecting to entities is challenging because of ambiguities inherent to language but also because individual interests are dynamic and evolve. Here, we offer an alternative approach that begins with bottom-up discovery of $\mu$-topics called pincepts. The discovery process itself connects these $\mu$-topics dynamically with relevant queries, pins, and users at high precision, automatically adapting to shifting interests. Pincepts cover all areas of user interest and automatically adjust to the specificity of user interests and are thus suitable for the creation of various kinds of taxonomies. Human experts associate taxonomy nodes with $\mu$-topics (on average, 3 $\mu$-topics per node), and the $\mu$-topics offer a high-level data layer that allows quick definition, immediate inspection, and easy modification. Even more powerfully, $\mu$-topics allow easy exploration of nearby semantic space, enabling curators to spot and fill gaps. Curators' domain knowledge is heavily leveraged and we thus don't need untrained mechanical Turks, allowing further cost reduction. These $\mu$-topics thus offer a satisfactory "symbolic" stratum over which to define taxonomies. We have successfully applied this technique for very rapidly iterating on and launching the home decor and fashion styles taxonomy for style-based personalization, prominently featured at the top of Pinterest search results, at 94% precision, improving search success rate by 34.8% as well as boosting long clicks and pin saves.
翻訳日:2023-01-31 16:40:22 公開日:2023-01-29
# グラフニューラルネットワークを用いたLiDAR点雲中の3次元物体検出

3D Object Detection in LiDAR Point Clouds using Graph Neural Networks ( http://arxiv.org/abs/2301.12519v1 )

ライセンス: Link先を確認
Shreelakshmi C R, Surya S. Durbha, Gaganpreet Singh(参考訳) LiDAR(Light Detection and Ranging)は、旅行時間(ToT)の原理に基づいて、周囲の高精度な3D情報を収集する高度なリモートセンシング技術である。 LiDAR産業は2025年までに280億ドルに達すると予測されている。 LiDARデータセットは密度が豊富で空間解像度が高いが、その固有の3次元幾何学と巨大な体積のため、LiDARデータの処理は困難である。 しかし、このような高解像度データセットは多くのアプリケーションにおいて大きなポテンシャルを持ち、3Dオブジェクトの検出と認識において大きなポテンシャルを持っている。 本研究では,3次元LiDAR点雲内の物体を学習・識別するためのグラフニューラルネットワーク(GNN)ベースのフレームワークを提案する。 GNNは、様々な3Dコンピュータビジョンタスクで成功したグラフ学習の原理に基づいてパターンやオブジェクトを学習するディープラーニングのクラスである。

LiDAR (Light Detection and Ranging) is an advanced active remote sensing technique working on the principle of time of travel (ToT) for capturing highly accurate 3D information of the surroundings. LiDAR has gained wide attention in research and development with the LiDAR industry expected to reach 2.8 billion $ by 2025. Although the LiDAR dataset is of rich density and high spatial resolution, it is challenging to process LiDAR data due to its inherent 3D geometry and massive volume. But such a high-resolution dataset possesses immense potential in many applications and has great potential in 3D object detection and recognition. In this research we propose Graph Neural Network (GNN) based framework to learn and identify the objects in the 3D LiDAR point clouds. GNNs are class of deep learning which learns the patterns and objects based on the principle of graph learning which have shown success in various 3D computer vision tasks.
翻訳日:2023-01-31 16:39:48 公開日:2023-01-29
# LiDAR-CSデータセット:3Dオブジェクト検出のためのクロスセンサー付きLiDARポイントクラウドデータセット

LiDAR-CS Dataset: LiDAR Point Cloud Dataset with Cross-Sensors for 3D Object Detection ( http://arxiv.org/abs/2301.12515v1 )

ライセンス: Link先を確認
Jin Fang, Dingfu Zhou, Jingjing Zhao, Chulin Tang, Cheng-Zhong Xu and Liangjun Zhang(参考訳) LiDARデバイスは自動運転のシナリオで広く使われ、3Dポイントクラウドの研究は過去数年間で顕著な進歩を遂げた。 しかし、ディープラーニングベースの手法はアノテーションデータに大きく依存しており、しばしばドメインの一般化問題に直面している。 通常、テクスチャ情報に関係している2D画像とは異なり、3Dポイントクラウドから抽出された特徴はポイントの分布に影響される。 3Dドメイン適応ベンチマークがないため、一般的なプラクティスは、あるベンチマーク(Waymoなど)でモデルをトレーニングし、別のデータセット(KITTIなど)で評価することである。 しかし、この設定では、シナリオドメインとセンサードメインという2つのタイプのドメインギャップがあり、評価と分析を複雑かつ困難にしている。 そこで本研究では,6つの異なるセンサ群の下に,大規模アノテートされたLiDAR点群を含むクロスセンサを用いたLiDARデータセット(LiDAR-CS Dataset)を提案する。 知る限り、LiDAR-CS Datasetは、リアルタイムトラフィックにおける3Dオブジェクト検出のためのセンサー(例えば点分布)ドメインギャップに焦点を当てた最初のデータセットである。 さらに,LiDAR-CSベンチマークを用いて,いくつかのベースライン検出器の性能評価と解析を行い,その応用例を示した。

LiDAR devices are widely used in autonomous driving scenarios and researches on 3D point cloud achieve remarkable progress over the past years. However, deep learning-based methods heavily rely on the annotation data and often face the domain generalization problem. Unlike 2D images whose domains are usually related to the texture information, the feature extracted from the 3D point cloud is affected by the distribution of the points. Due to the lack of a 3D domain adaptation benchmark, the common practice is to train the model on one benchmark (e.g, Waymo) and evaluate it on another dataset (e.g. KITTI). However, in this setting, there are two types of domain gaps, the scenarios domain, and sensors domain, making the evaluation and analysis complicated and difficult. To handle this situation, we propose LiDAR Dataset with Cross-Sensors (LiDAR-CS Dataset), which contains large-scale annotated LiDAR point cloud under 6 groups of different sensors but with same corresponding scenarios, captured from hybrid realistic LiDAR simulator. As far as we know, LiDAR-CS Dataset is the first dataset focused on the sensor (e.g., the points distribution) domain gaps for 3D object detection in real traffic. Furthermore, we evaluate and analyze the performance with several baseline detectors on the LiDAR-CS benchmark and show its applications.
翻訳日:2023-01-31 16:39:35 公開日:2023-01-29
# 長距離カップリングによるマヨラナエッジ状態の軟化

Softening of Majorana edge states by long-range couplings ( http://arxiv.org/abs/2301.12514v1 )

ライセンス: Link先を確認
Alessandro Tarantola and Nicol\`o Defenu(参考訳) キタエフ連鎖における長距離結合の包含は、臨界点に近い位相状態の普遍的スケーリングを変えることが示されている。 散乱アプローチによって、マヨラナ状態が軟化し、相互作用範囲のみによって決定される普遍的な速度で徐々に非局在化することを証明する。 このエッジ機構は、臨界度におけるバルクトポロジカル指数の値の変化に関係し、後者の再定義を慎重に行うことができる。 臨界点は、2つの位相の間を補間するよりも、自明な位相に近いことが判明した。 さらに、量子モデルの様々なトポロジ的側面を解析的に研究できることを示す。

The inclusion of long-range couplings in the Kitaev chain is shown to modify the universal scaling of topological states close to the critical point. By means of the scattering approach, we prove that the Majorana states soften, becoming increasingly delocalised at a universal rate which is only determined by the interaction range. This edge mechanism can be related to a change in the value of the bulk topological index at criticality, upon careful redefinition of the latter. The critical point turns out to be topologically akin to the trivial phase rather than interpolating between the two phases. Our treatment moreover showcases how various topological aspects of quantum models can be investigated analytically.
翻訳日:2023-01-31 16:39:12 公開日:2023-01-29
# 状態多項式:正性、最適化、非線形ベル不等式

State polynomials: positivity, optimization and nonlinear Bell inequalities ( http://arxiv.org/abs/2301.12513v1 )

ライセンス: Link先を確認
Igor Klep, Victor Magron, Jurij Vol\v{c}i\v{c}, Jie Wang(参考訳) 本稿では、状態多項式、すなわち非可換変数の多項式とその積の形式的状態を紹介する。 ヒルベルトの17番目の問題に対するアルティンの解の状態類似性は、すべての行列と行列状態に対して正の状態多項式が分母を持つ平方の和であることを示す。 やや意外なことに、krivine-stengle positivstellensatz は状態多項式設定では保持されない。 さらに、Putinar と Helton-McCullough の精神におけるアルキメデス Positivstellens {\displaystyle Positivstellens\"atze in the spirit of Putinar and Helton-McCullough が提示され、状態制約を受ける状態多項式の最適値に単調に収束する半有限緩和の階層が導かれる。 この階層は多項式の最適化のためのラッサール階層と非可換多項式の最適化のためのNavascu\'es-Pironio-Ac\inスキームの状態類似と見なすことができる。 この理論の背後にある動機は、量子ネットワークにおける相関の研究から生じる。 任意のネットワークに対する多項式ベルの不等式の最大量子違反を状態多項式最適化問題として再定義する。 二部岩体と二部岩体の二次ベル不等式のいくつかの例を解析した。 構築されたSDPのサイズを小さくするために、観測対象群構造の疎度、符号対称性、条件予測を利用する。 上記の結果を得るためには、非可換代数、実代数幾何学、作用素理論、凸最適化の技法を用いる。

This paper introduces state polynomials, i.e., polynomials in noncommuting variables and formal states of their products. A state analog of Artin's solution to Hilbert's 17th problem is proved showing that state polynomials, positive over all matrices and matricial states, are sums of squares with denominators. Somewhat surprisingly, it is also established that a Krivine-Stengle Positivstellensatz fails to hold in the state polynomial setting. Further, archimedean Positivstellens\"atze in the spirit of Putinar and Helton-McCullough are presented leading to a hierarchy of semidefinite relaxations converging monotonically to the optimum of a state polynomial subject to state constraints. This hierarchy can be seen as a state analog of the Lasserre hierarchy for optimization of polynomials, and the Navascu\'es-Pironio-Ac\'in scheme for optimization of noncommutative polynomials. The motivation behind this theory arises from the study of correlations in quantum networks. Determining the maximal quantum violation of a polynomial Bell inequality for an arbitrary network is reformulated as a state polynomial optimization problem. Several examples of quadratic Bell inequalities in the bipartite and the bilocal tripartite scenario are analyzed. To reduce the size of the constructed SDPs, sparsity, sign symmetry and conditional expectation of the observables' group structure are exploited. To obtain the above-mentioned results, techniques from noncommutative algebra, real algebraic geometry, operator theory, and convex optimization are employed.
翻訳日:2023-01-31 16:38:59 公開日:2023-01-29
# Fast-BEV:高速で強力な鳥の知覚ベースライン

Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline ( http://arxiv.org/abs/2301.12511v1 )

ライセンス: Link先を確認
Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu Shen, Fenggang Liu, Enze Xie, Lu Sheng, Wanli Ouyang, Jing Shao(参考訳) 近年,Bird's-Eye View (BEV) の表現に基づく認識タスクがますます注目され,BEV の表現が次世代の自律走行車 (AV) の認識基盤として期待されている。 しかし、既存のbevソリューションの多くは車載推論を実行するのにかなりのリソースを必要とするか、ささやかな性能に苦しんでいる。 本稿では、車載チップ上で高速なBEV認識を実現するための、シンプルで効果的なフレームワークであるFast-BEVを提案する。 この目標に向けて、我々はまず、高価なトランスフォーマーベースの変換や深度表現なしに、BEV表現が十分に強力であることを示す。 我々は,(1)2d画像特徴を3dボクセル空間に高速転送する軽量なデプロイメントフレンドリなビュー変換,(2)マルチスケール情報を活用したマルチスケール画像エンコーダ,(3)車載推定の高速化を目的とした効率的なbevエンコーダを提案する。 さらに,画像空間とbev空間の両方に対する強固なデータ拡張戦略を導入し,オーバーフィッティングを回避し,(5)時間情報を活用するマルチフレーム特徴融合機構を導入する。 2080Tiプラットフォーム上では、我々のR50モデルは52.6 FPSと47.3% NDSをヌースシーンの検証セットで実行でき、BEVDepth-R50モデルの41.3 FPSと47.5% NDS、BEVDet4D-R50モデルの30.2 FPSと45.7% NDSを超える。 我々の最大のモデル(R101@900x1600)は、nuScenes検証セット上で53.5%のNDSを確立する。 我々はさらに,現在普及している車載用チップの精度と効率性を示すベンチマークを開発した。 コードは以下の通り:https://github.com/Sense-GVT/Fast-BEV。

Recently, perception task based on Bird's-Eye View (BEV) representation has drawn more and more attention, and BEV representation is promising as the foundation for next-generation Autonomous Vehicle (AV) perception. However, most existing BEV solutions either require considerable resources to execute on-vehicle inference or suffer from modest performance. This paper proposes a simple yet effective framework, termed Fast-BEV , which is capable of performing faster BEV perception on the on-vehicle chips. Towards this goal, we first empirically find that the BEV representation can be sufficiently powerful without expensive transformer based transformation nor depth representation. Our Fast-BEV consists of five parts, We novelly propose (1) a lightweight deployment-friendly view transformation which fast transfers 2D image feature to 3D voxel space, (2) an multi-scale image encoder which leverages multi-scale information for better performance, (3) an efficient BEV encoder which is particularly designed to speed up on-vehicle inference. We further introduce (4) a strong data augmentation strategy for both image and BEV space to avoid over-fitting, (5) a multi-frame feature fusion mechanism to leverage the temporal information. Through experiments, on 2080Ti platform, our R50 model can run 52.6 FPS with 47.3% NDS on the nuScenes validation set, exceeding the 41.3 FPS and 47.5% NDS of the BEVDepth-R50 model and 30.2 FPS and 45.7% NDS of the BEVDet4D-R50 model. Our largest model (R101@900x1600) establishes a competitive 53.5% NDS on the nuScenes validation set. We further develop a benchmark with considerable accuracy and efficiency on current popular on-vehicle chips. The code is released at: https://github.com/Sense-GVT/Fast-BEV.
翻訳日:2023-01-31 16:38:32 公開日:2023-01-29
# 適応平滑化による分類器の精度・ロバスト性トレードオフの改善

Improving the Accuracy-Robustness Trade-off of Classifiers via Adaptive Smoothing ( http://arxiv.org/abs/2301.12554v1 )

ライセンス: Link先を確認
Yatong Bai, Brendon G. Anderson, Aerin Kim, Somayeh Sojoudi(参考訳) 文献では、共通データセットに対して同時に正確かつ堅牢な分類器が存在することが示されているが、分類器の対角的堅牢性を改善する以前の手法は、しばしば正確でロバストなトレードオフを示す。 データ駆動型 ‘locally biased smoothing'' の最近の進歩に基づいて,良性テストデータと反対テストデータを別々に扱う分類器を開発した。 具体的には、ロバストなニューラルネットワークをロバスト性源として使用するように、スムース化操作を調整します。 次に、スムーシング手順を多クラス設定に拡張し、逆入力検出器をポリシーネットワークに適応させる。 このポリシーは、ロバストベース分類器と標準ネットワークの混合を適応的に調整し、標準ネットワークはクリーンな精度に最適化され、一般にロバストではない。 適応的平滑化手法の使用を動機づける理論解析を行い、現実的な仮定の下で平滑化分類器の堅牢性を証明し、ポリシーネットワークの導入を正当化する。 我々は,AutoAttackやアダプティブアタックなどの様々な攻撃手法を用いて,スムーズなモデルが精度と損耗のトレードオフを著しく改善することを示す。 CIFAR-100データセットでは,80.09\%のクリーン精度と32.94\%のオートアタック精度が同時に達成される。 adaptive smoothingを実装したコードは、https://github.com/bai-yt/adaptivesmoothingで入手できる。

While it is shown in the literature that simultaneously accurate and robust classifiers exist for common datasets, previous methods that improve the adversarial robustness of classifiers often manifest an accuracy-robustness trade-off. We build upon recent advancements in data-driven ``locally biased smoothing'' to develop classifiers that treat benign and adversarial test data differently. Specifically, we tailor the smoothing operation to the usage of a robust neural network as the source of robustness. We then extend the smoothing procedure to the multi-class setting and adapt an adversarial input detector into a policy network. The policy adaptively adjusts the mixture of the robust base classifier and a standard network, where the standard network is optimized for clean accuracy and is not robust in general. We provide theoretical analyses to motivate the use of the adaptive smoothing procedure, certify the robustness of the smoothed classifier under realistic assumptions, and justify the introduction of the policy network. We use various attack methods, including AutoAttack and adaptive attack, to empirically verify that the smoothed model noticeably improves the accuracy-robustness trade-off. On the CIFAR-100 dataset, our method simultaneously achieves an 80.09\% clean accuracy and a 32.94\% AutoAttacked accuracy. The code that implements adaptive smoothing is available at https://github.com/Bai-YT/AdaptiveSmoothing.
翻訳日:2023-01-31 16:32:11 公開日:2023-01-29
# 高次元特徴を有する多段階定常処理政策の漸近推論

Asymptotic Inference for Multi-Stage Stationary Treatment Policy with High Dimensional Features ( http://arxiv.org/abs/2301.12553v1 )

ライセンス: Link先を確認
Daiqi Gao, Yufeng Liu, Donglin Zeng(参考訳) 動的処理ルールやポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能のシーケンスである。 多段階定常治療方針(multi-stage stationary treatment policy)は、基準変数(例えば、人口動態)と時間発展変数(例えば、定期的に収集された疾患バイオマーカー)の両方からなる同じ特徴セットに基づいて決定を行う段階において、同じ決定関数を用いた治療割り当て確率を規定する。 動的処理ポリシに関連する値関数について,有効な推論を行うための文献が多数存在するが,特に高次元特徴変数の存在下では,ポリシー自体に対する作業はほとんど行われていない。 私たちはこの仕事のギャップを埋めようとしている。 具体的には、まず、漸近効率を高めるために値関数に対する拡張逆確率重み付き推定器に基づいて多段階定常処理方針を推定し、さらに重要な特徴変数の選択にペナルティを適用する。 次に、ポリシーパラメータ推定器のワンステップ改善を行う。 理論上, 改良された推定器は低収束速度でニュアンスパラメータを推定しても漸近的に正常であり, 特徴変数の次元は標本サイズとともに指数関数的に増加する。 数値実験により,提案手法は小標本において十分な性能を示し,報酬近似や値関数の分散を最小化する増補項の選択により,その性能を向上できることを示した。

Dynamic treatment rules or policies are a sequence of decision functions over multiple stages that are tailored to individual features. One important class of treatment policies for practice, namely multi-stage stationary treatment policies, prescribe treatment assignment probabilities using the same decision function over stages, where the decision is based on the same set of features consisting of both baseline variables (e.g., demographics) and time-evolving variables (e.g., routinely collected disease biomarkers). Although there has been extensive literature to construct valid inference for the value function associated with the dynamic treatment policies, little work has been done for the policies themselves, especially in the presence of high dimensional feature variables. We aim to fill in the gap in this work. Specifically, we first estimate the multistage stationary treatment policy based on an augmented inverse probability weighted estimator for the value function to increase the asymptotic efficiency, and further apply a penalty to select important feature variables. We then construct one-step improvement of the policy parameter estimators. Theoretically, we show that the improved estimators are asymptotically normal, even if nuisance parameters are estimated at a slow convergence rate and the dimension of the feature variables increases exponentially with the sample size. Our numerical studies demonstrate that the proposed method has satisfactory performance in small samples, and that the performance can be improved with a choice of the augmentation term that approximates the rewards or minimizes the variance of the value function.
翻訳日:2023-01-31 16:31:46 公開日:2023-01-29
# 深さのスケーリング - ImageNetによるロバストネス認証のアンロック

Scaling in Depth: Unlocking Robustness Certification on ImageNet ( http://arxiv.org/abs/2301.12549v1 )

ライセンス: Link先を確認
Kai Hu, Andy Zou, Zifan Wang, Klas Leino, Matt Fredrikson(参考訳) 強固なディープネットワークをトレーニングし、証明するためのlipschitzベースのアプローチの約束にもかかわらず、最先端の結果は低次元データ(例えばcifar-10)でフィードフォワード畳み込みネットワーク(convnets)を成功に活用するだけである。 ConvNetは、多くのクラス(例えばImageNet)を持つ大規模データセットの奥深くに進むと、勾配が消えることがしばしばある。 本稿では,Residual Networks (ResNets) に対する堅牢なトレーニングのスケールアップ方法について検討する。 まず,従来のリプシッツ境界に比べて,リプシッツ境界を容易にするように設計された新しい残差ブロックを用いて,リブネット(liresnet)アーキテクチャを導入する。 第二に、emph{all}クラスから最悪の逆例を同時にペナルティ化することにより、堅牢なトレーニングを安定化する損失関数であるEMMA(Efficient Margin MAximization)を導入する。 LiResNetとEMMAを組み合わせることで、CIFAR-10/100とTiny-ImageNetに対して、$\ell_2$-norm-boundedな摂動の下で、新しいemph{state-of-the-art}の堅牢な精度を実現する。 さらに、我々は初めて、決定論的ロバスト性保証をimagenetにスケールアップすることができ、現実世界のアプリケーションに決定論的認証を適用する可能性を期待できる。

Notwithstanding the promise of Lipschitz-based approaches to \emph{deterministically} train and certify robust deep networks, the state-of-the-art results only make successful use of feed-forward Convolutional Networks (ConvNets) on low-dimensional data, e.g. CIFAR-10. Because ConvNets often suffer from vanishing gradients when going deep, large-scale datasets with many classes, e.g., ImageNet, have remained out of practical reach. This paper investigates ways to scale up certifiably robust training to Residual Networks (ResNets). First, we introduce the \emph{Linear ResNet} (LiResNet) architecture, which utilizes a new residual block designed to facilitate \emph{tighter} Lipschitz bounds compared to a conventional residual block. Second, we introduce Efficient Margin MAximization (EMMA), a loss function that stabilizes robust training by simultaneously penalizing worst-case adversarial examples from \emph{all} classes. Combining LiResNet and EMMA, we achieve new \emph{state-of-the-art} robust accuracy on CIFAR-10/100 and Tiny-ImageNet under $\ell_2$-norm-bounded perturbations. Moreover, for the first time, we are able to scale up deterministic robustness guarantees to ImageNet, bringing hope to the possibility of applying deterministic certification to real-world applications.
翻訳日:2023-01-31 16:31:21 公開日:2023-01-29
# グローバル洪水予測:マルチモーダル機械学習アプローチ

Global Flood Prediction: a Multimodal Machine Learning Approach ( http://arxiv.org/abs/2301.12548v1 )

ライセンス: Link先を確認
Cynthia Zeng, Dimitris Bertsimas(参考訳) 洪水は最も破壊的で費用がかかる自然災害の1つであり、気候変動によって世界規模でリスクが増大する。 本研究は,地理的情報と歴史的自然災害データセットを組み合わせた多年にわたる世界的な洪水リスク予測のための,新しいマルチモーダル機械学習手法を提案する。 マルチモーダルフレームワークは最先端処理技術を用いて,テキストベースの地理データや表ベースの時系列データなど,各データモダリティから埋め込みを抽出する。 実験により、テキストと統計データを組み合わせるマルチモーダルアプローチが、単一モーダルアプローチよりも優れていることが示されている。 ディチルベルトモデル上で転送学習を用いて抽出した埋め込みを用いて,過去1~5年間の洪水発生予測において,75\%-77\%のrocaucスコアを達成している。 本研究は,自然災害管理における長期計画に機械学習を利用する可能性を示す。

Flooding is one of the most destructive and costly natural disasters, and climate changes would further increase risks globally. This work presents a novel multimodal machine learning approach for multi-year global flood risk prediction, combining geographical information and historical natural disaster dataset. Our multimodal framework employs state-of-the-art processing techniques to extract embeddings from each data modality, including text-based geographical data and tabular-based time-series data. Experiments demonstrate that a multimodal approach, that is combining text and statistical data, outperforms a single-modality approach. Our most advanced architecture, employing embeddings extracted using transfer learning upon DistilBert model, achieves 75\%-77\% ROCAUC score in predicting the next 1-5 year flooding event in historically flooded locations. This work demonstrates the potentials of using machine learning for long-term planning in natural disaster management.
翻訳日:2023-01-31 16:30:52 公開日:2023-01-29
# リモートセンシングにおける高密度予測問題に対する教師付き自己監督型ドメイン内表現学習

Supervised and Contrastive Self-Supervised In-Domain Representation Learning for Dense Prediction Problems in Remote Sensing ( http://arxiv.org/abs/2301.12541v1 )

ライセンス: Link先を確認
Ali Ghanbarzade and Dr. Hossein Soleimani(参考訳) 近年、畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおいて大きな進歩を遂げている。 これらの進歩はリモートセンシングなど他の分野にも適用され、良好な結果を示している。 しかし、大規模なラベル付きデータセットの欠如とリモートセンシング問題の本質的な複雑さにより、密集した予測問題に対する深層CNNの訓練が困難になっている。 この問題を解決するために、ImageNetの事前訓練された重みは、様々な密集した予測タスクの出発点として使われてきた。 この種の転送学習は改善されているが、自然画像とリモートセンシング画像の領域差も深いCNNの性能に制限されている。 一方,大規模無ラベル画像から視覚表現を学習するための自己教師あり学習手法は,過去2年間で大きく増加している。 そこで本稿では,リモートセンシングとイメージネットデータセットの領域差を解決するために,教師付きおよび自己教師型両方のドメイン表現の有効性を検討した。 リモートセンシング画像から得られた重みを初期重みとして利用し、意味セグメンテーションと物体検出課題を解決し、最新結果を得る。 自己教師付き事前学習では,SimSiamアルゴリズムは単純であり,膨大な計算資源を必要としない。 リモートセンシング画像から一般的な視覚表現を取得する最も大きな要因の1つは、事前学習データセットである。 プリトレーニングデータセットの効果を調べるために、同じサイズのリモートセンシングデータセットをプリトレーニングに使用する。 その結果,自己教師付き表現学習に空間分解能の高いデータセットを用いることで,下流タスクの性能が向上することが実証された。

In recent years Convolutional neural networks (CNN) have made significant progress in computer vision. These advancements have been applied to other areas, such as remote sensing and have shown satisfactory results. However, the lack of large labeled datasets and the inherent complexity of remote sensing problems have made it difficult to train deep CNNs for dense prediction problems. To solve this issue, ImageNet pretrained weights have been used as a starting point in various dense predictions tasks. Although this type of transfer learning has led to improvements, the domain difference between natural and remote sensing images has also limited the performance of deep CNNs. On the other hand, self-supervised learning methods for learning visual representations from large unlabeled images have grown substantially over the past two years. Accordingly, in this paper we have explored the effectiveness of in-domain representations in both supervised and self-supervised forms to solve the domain difference between remote sensing and the ImageNet dataset. The obtained weights from remote sensing images are utilized as initial weights for solving semantic segmentation and object detection tasks and state-of-the-art results are obtained. For self-supervised pre-training, we have utilized the SimSiam algorithm as it is simple and does not need huge computational resources. One of the most influential factors in acquiring general visual representations from remote sensing images is the pre-training dataset. To examine the effect of the pre-training dataset, equal-sized remote sensing datasets are used for pre-training. Our results have demonstrated that using datasets with a high spatial resolution for self-supervised representation learning leads to high performance in downstream tasks.
翻訳日:2023-01-31 16:30:35 公開日:2023-01-29
# グループスポーシティのインプシット正規化

Implicit Regularization for Group Sparsity ( http://arxiv.org/abs/2301.12540v1 )

ライセンス: Link先を確認
Jiangyuan Li, Thanh V. Nguyen, Chinmay Hegde and Raymond K. W. Wong(参考訳) 直交型線形ニューラルネットワークと呼ばれる新しいニューラルリパラメトリゼーションを用いて, 構造的疎結合に対する勾配降下の暗黙的正則化について検討した。 正方形回帰損失に対する勾配降下は, 明示的な正則化を伴わずに, 群間隔構造を持つ解への偏りを示す。 暗黙の正規化を理解する多くの既存の研究とは対照的に、我々の訓練軌道はミラー降下によってシミュレートできない。 一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。 ダイアゴナル線形ネットワークを用いた暗黙的スパース正規化の既存の境界と比較して,新しい再パラメータ化を用いた解析により,サンプルの複雑さが向上した。 サイズ1群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。 最後に,いくつかの数値実験を行い,本手法の有効性を示す。

We study the implicit regularization of gradient descent towards structured sparsity via a novel neural reparameterization, which we call a diagonally grouped linear neural network. We show the following intriguing property of our reparameterization: gradient descent over the squared regression loss, without any explicit regularization, biases towards solutions with a group sparsity structure. In contrast to many existing works in understanding implicit regularization, we prove that our training trajectory cannot be simulated by mirror descent. We analyze the gradient dynamics of the corresponding regression problem in the general noise setting and obtain minimax-optimal error rates. Compared to existing bounds for implicit sparse regularization using diagonal linear networks, our analysis with the new reparameterization shows improved sample complexity. In the degenerate case of size-one groups, our approach gives rise to a new algorithm for sparse linear regression. Finally, we demonstrate the efficacy of our approach with several numerical experiments.
翻訳日:2023-01-31 16:30:07 公開日:2023-01-29
# オペレータ・ラーニングによる同期発電機の動的応答の近似化:ディープ・オペレータ・ベースの電力グリッド・シミュレータの構築に向けて

On Approximating the Dynamic Response of Synchronous Generators via Operator Learning: A Step Towards Building Deep Operator-based Power Grid Simulators ( http://arxiv.org/abs/2301.12538v1 )

ライセンス: Link先を確認
Christian Moya, Guang Lin, Tianqiao Zhao, and Meng Yue(参考訳) 本稿では,同期発電機の動的応答を近似する演算子学習フレームワークを設計する。 そのようなフレームワークを使うことができる。 (i)電力網の他の部分の数値シミュレータと相互作用可能なニューラル・ベースの発電機モデルの設計 (ii)発電機の過渡応答をシャドーする。 そこで我々は,データ駆動型Deep Operator Network~(DeepONet)を設計し,生成元の無限次元解演算子を近似する。 そこで我々は, 短時間・中期の地平線上の発生器の動的応答をシミュレートするdeeponetに基づく数値スキームを開発した。 提案手法は、与えられた多次元入力に対する応答をシミュレートするために訓練されたDeepONetを再帰的に利用し、生成器とシステムの他の部分との相互作用を記述する。 さらに,同期発電機の数学的モデルからの情報を含む残差DeepONet数値スキームを開発した。 我々はこの残差のDeepONetスキームに付随し、予測の累積誤差を推定する。 データアグリゲーション(DAgger)戦略も設計しています。 (i)提案の深層学習に教師付き学習を用いること、及び (II)DeepONetが他のグリッドコンポーネントとのインタラクティブなシミュレーション中に遭遇しそうな集約トレーニングデータを用いてDeepONetを微調整する。 最後に、概念実証として、提案するdeeponetフレームワークが同期発生器の過渡モデルを効果的に近似できることを実証する。

This paper designs an Operator Learning framework to approximate the dynamic response of synchronous generators. One can use such a framework to (i) design a neural-based generator model that can interact with a numerical simulator of the rest of the power grid or (ii) shadow the generator's transient response. To this end, we design a data-driven Deep Operator Network~(DeepONet) that approximates the generators' infinite-dimensional solution operator. Then, we develop a DeepONet-based numerical scheme to simulate a given generator's dynamic response over a short/medium-term horizon. The proposed numerical scheme recursively employs the trained DeepONet to simulate the response for a given multi-dimensional input, which describes the interaction between the generator and the rest of the system. Furthermore, we develop a residual DeepONet numerical scheme that incorporates information from mathematical models of synchronous generators. We accompany this residual DeepONet scheme with an estimate for the prediction's cumulative error. We also design a data aggregation (DAgger) strategy that allows (i) employing supervised learning to train the proposed DeepONets and (ii) fine-tuning the DeepONet using aggregated training data that the DeepONet is likely to encounter during interactive simulations with other grid components. Finally, as a proof of concept, we demonstrate that the proposed DeepONet frameworks can effectively approximate the transient model of a synchronous generator.
翻訳日:2023-01-31 16:29:52 公開日:2023-01-29
# 連続観察における同時シャッフル差分プライバシー

Concurrent Shuffle Differential Privacy Under Continual Observation ( http://arxiv.org/abs/2301.12535v1 )

ライセンス: Link先を確認
Jay Tenenbaum, Haim Kaplan, Yishay Mansour, Uri Stemmer(参考訳) 差分プライバシーの同時シャッフルモデルを導入する。 このモデルでは、複数の同時シャフラーが、異なる、おそらく重複している、ユーザのバッチからメッセージを調整する。 標準(シングル)シャッフルモデルと同様に、プライバシー要件はすべてのシャッフルメッセージの結合は異なるプライベートであることである。 本研究では, 逐次和問題(対数問題)について検討し, 同時シャッフルモデルにより, 標準シャッフルモデルに比べて誤差が大幅に改善されることを示す。 具体的には、誤差$\tilde{O}(n^{1/(2k+1)})$と$k$の同時シャフラーを長さ$n$の列にまとめるアルゴリズムを与える。 さらに、アルゴリズムがバッチのサイズを適応的に選択できるとしても、この境界は任意の$k$に対して厳密であることを示す。 k=\log n$ shuffler の場合、結果として生じる誤差は多対数であり、1つのシャッシャーで可能な最小の値を示す $\tilde{\theta}(n^{1/3})$ よりもずっと良い。 オンライン要約アルゴリズムを用いて、文脈線形帯域問題に対する後悔境界を改良したアルゴリズムを得る。 特に、最適な$\tilde{o}(\sqrt{n})$ regret with $k= \tilde{\omega}(\log n)$ concurrent shufflers が得られる。

We introduce the concurrent shuffle model of differential privacy. In this model we have multiple concurrent shufflers permuting messages from different, possibly overlapping, batches of users. Similarly to the standard (single) shuffle model, the privacy requirement is that the concatenation of all shuffled messages should be differentially private. We study the private continual summation problem (a.k.a. the counter problem) and show that the concurrent shuffle model allows for significantly improved error compared to a standard (single) shuffle model. Specifically, we give a summation algorithm with error $\tilde{O}(n^{1/(2k+1)})$ with $k$ concurrent shufflers on a sequence of length $n$. Furthermore, we prove that this bound is tight for any $k$, even if the algorithm can choose the sizes of the batches adaptively. For $k=\log n$ shufflers, the resulting error is polylogarithmic, much better than $\tilde{\Theta}(n^{1/3})$ which we show is the smallest possible with a single shuffler. We use our online summation algorithm to get algorithms with improved regret bounds for the contextual linear bandit problem. In particular we get optimal $\tilde{O}(\sqrt{n})$ regret with $k= \tilde{\Omega}(\log n)$ concurrent shufflers.
翻訳日:2023-01-31 16:29:27 公開日:2023-01-29
# 攻撃的音声分類器の悪意ある犯罪と騒音監査

Vicarious Offense and Noise Audit of Offensive Speech Classifiers ( http://arxiv.org/abs/2301.12534v1 )

ライセンス: Link先を確認
Tharindu Cyril Weerasooriya and Sujan Dutta and Tharindu Ranasinghe and Marcos Zamperi and Christopher M. Homan and Ashiqur R. KhudaBukhsh(参考訳) 本稿では,自動手法(機械モデレーター)と人間評価器(人モデレーター)の2つの重要な視点から,ソーシャルWebコンテンツのモデレーションを検討する。 我々は、9億9200万のyoutubeコメントから収集したコーパスで評価された悪質な音声データセットを訓練した9人のマシンモデレーターを用いて、前例のない規模のノイズ監査を行う。 我々は、悪質な犯罪の第一種データセットを紹介する。 我々は,(1)特定のソーシャルメディアポスト攻撃を見つけた場合,(2)異なる政治的信念を共有する攻撃的アノテータが,どのように同じ内容を見出すのかを尋ねる。 機械モデレーターを用いた実験により, 機械モデレーター毎にモデレーション結果が大きく異なることがわかった。 Our experiments with human moderators suggest that (1) political leanings considerably affect first-person offense perspective; (2) Republicans are the worst predictors of vicarious offense; (3) predicting vicarious offense for the Republicans is most challenging than predicting vicarious offense for the Independents and the Democrats; and (4) disagreement across political identity groups considerably increases when sensitive issues such as reproductive rights or gun control/rights are discussed. どちらの実験も、悪行は確かに非常に主観的であり、コンテンツモデレーションの実践に関する重要な疑問を提起している。

This paper examines social web content moderation from two key perspectives: automated methods (machine moderators) and human evaluators (human moderators). We conduct a noise audit at an unprecedented scale using nine machine moderators trained on well-known offensive speech data sets evaluated on a corpus sampled from 92 million YouTube comments discussing a multitude of issues relevant to US politics. We introduce a first-of-its-kind data set of vicarious offense. We ask annotators: (1) if they find a given social media post offensive; and (2) how offensive annotators sharing different political beliefs would find the same content. Our experiments with machine moderators reveal that moderation outcomes wildly vary across different machine moderators. Our experiments with human moderators suggest that (1) political leanings considerably affect first-person offense perspective; (2) Republicans are the worst predictors of vicarious offense; (3) predicting vicarious offense for the Republicans is most challenging than predicting vicarious offense for the Independents and the Democrats; and (4) disagreement across political identity groups considerably increases when sensitive issues such as reproductive rights or gun control/rights are discussed. Both experiments suggest that offense, is indeed, highly subjective and raise important questions concerning content moderation practices.
翻訳日:2023-01-31 16:29:07 公開日:2023-01-29
# phycv: 物理に触発された最初のコンピュータビジョンライブラリ

PhyCV: The First Physics-inspired Computer Vision Library ( http://arxiv.org/abs/2301.12531v1 )

ライセンス: Link先を確認
Yiming Zhou, Callen MacPhee, Madhuri Suthar, Bahram Jalali(参考訳) PhyCVは物理現象を制御している物理方程式から直接派生したアルゴリズムを利用する最初のコンピュータビジョンライブラリである。 現在のリリースに現れるアルゴリズムは、比喩的な意味で、自然で工学的な回折特性を持つ物理媒体を通して光の伝播をエミュレートし、コヒーレント検出を行う。 従来の手作りの経験則の連続である従来のアルゴリズムとは異なり、物理学に触発されたアルゴリズムは、自然法則をアルゴリズムを発明するための青写真として利用する。 さらに、これらのアルゴリズムはアナログ計算の形で高速で効率的な計算を行うために、実際の物理デバイスに実装される可能性がある。 この原稿は、githubリポジトリで利用可能なオープンソースのphycvコードをサポートする準備ができています。

PhyCV is the first computer vision library which utilizes algorithms directly derived from the equations of physics governing physical phenomena. The algorithms appearing in the current release emulate, in a metaphoric sense, the propagation of light through a physical medium with natural and engineered diffractive properties followed by coherent detection. Unlike traditional algorithms that are a sequence of hand-crafted empirical rules, physics-inspired algorithms leverage physical laws of nature as blueprints for inventing algorithms. In addition, these algorithms have the potential to be implemented in real physical devices for fast and efficient computation in the form of analog computing. This manuscript is prepared to support the open-sourced PhyCV code which is available in the GitHub repository: https://github.com/JalaliLabUCLA/phycv
翻訳日:2023-01-31 16:28:48 公開日:2023-01-29
# ローカルプランニングによる高効率深層強化学習

Sample Efficient Deep Reinforcement Learning via Local Planning ( http://arxiv.org/abs/2301.12579v1 )

ライセンス: Link先を確認
Dong Yin, Sridhar Thiagarajan, Nevena Lazic, Nived Rajaraman, Botao Hao, Csaba Szepesvari(参考訳) 本研究の焦点は,シミュレータを用いた試料効率深部強化学習(RL)である。 シミュレーターの便利な特性の1つは、通常、環境を以前観測された状態にリセットすることが容易であることである。 本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。 具体的には、各データ収集イテレーションにおいて、いくつかの確率で、我々のメタアルゴリズムは、初期状態分布に従ってサンプリングするのではなく、環境を高い不確実性を持つ観測状態にリセットする。 エージェント-環境相互作用は、標準オンラインRL設定のように進行する。 この簡単な手順は、難しい探索タスクにおいて、いくつかのベースラインrlアルゴリズムのサンプルコストを劇的に改善できることを実証する。 特に、我々のフレームワークでは、単純な(分配的な)ダブルDQNで、悪名高いアタリゲームであるモンテズマのリベンジで超人的なパフォーマンスを達成することができる。 我々の研究は、理論的な保証のある既存のアルゴリズムの効率的な近似実装と見なすことができ、肯定的な結果の解釈を提供する。

The focus of this work is sample-efficient deep reinforcement learning (RL) with a simulator. One useful property of simulators is that it is typically easy to reset the environment to a previously observed state. We propose an algorithmic framework, named uncertainty-first local planning (UFLP), that takes advantage of this property. Concretely, in each data collection iteration, with some probability, our meta-algorithm resets the environment to an observed state which has high uncertainty, instead of sampling according to the initial-state distribution. The agent-environment interaction then proceeds as in the standard online RL setting. We demonstrate that this simple procedure can dramatically improve the sample cost of several baseline RL algorithms on difficult exploration tasks. Notably, with our framework, we can achieve super-human performance on the notoriously hard Atari game, Montezuma's Revenge, with a simple (distributional) double DQN. Our work can be seen as an efficient approximate implementation of an existing algorithm with theoretical guarantees, which offers an interpretation of the positive empirical results.
翻訳日:2023-01-31 16:22:42 公開日:2023-01-29
# テスト時間適応の敵意的リスクを明らかにする

Uncovering Adversarial Risks of Test-Time Adaptation ( http://arxiv.org/abs/2301.12576v1 )

ライセンス: Link先を確認
Tong Wu, Feiran Jia, Xiangyu Qi, Jiachen T. Wang, Vikash Sehwag, Saeed Mahloujifar, Prateek Mittal(参考訳) 近年,分布シフトに対処するための有望なソリューションとして,テスト時間適応(tta)が提案されている。 ベースモデルは、(ラベルのない)テストデータのバッチからの情報を活用することで、推論中に予期せぬ分布に適応することができる。 しかし、良性サンプルの予測は、同じバッチ内の悪意のあるサンプルによって影響されるという知見に基づいて、TTAの新たなセキュリティ脆弱性を明らかにする。 この脆弱性を利用するために,テストバッチに悪意のあるデータのごく一部を注入する分散侵入攻撃(dia)を提案する。 DIAは、TTAを使用したモデルに、良性および不飽和なテストデータを誤分類させ、標準的な機械学習パイプラインでは不可能な敵に対して、まったく新しい機能を提供する。 総合的な評価を通じて、6つのTTAメソッドにわたる複数のベンチマークに対する攻撃の有効性を示す。 そこで本研究では,既存の安全でないTTA実装を「設計によるセキュリティ」の原則に従って強化する2つの対策について検討する。 共に、私たちの発見が、TTAのデプロイにおけるユーティリティセキュリティのトレードオフをコミュニティに認識させ、堅牢なTTAアプローチを開発する上で貴重な洞察を提供することを期待しています。

Recently, test-time adaptation (TTA) has been proposed as a promising solution for addressing distribution shifts. It allows a base model to adapt to an unforeseen distribution during inference by leveraging the information from the batch of (unlabeled) test data. However, we uncover a novel security vulnerability of TTA based on the insight that predictions on benign samples can be impacted by malicious samples in the same batch. To exploit this vulnerability, we propose Distribution Invading Attack (DIA), which injects a small fraction of malicious data into the test batch. DIA causes models using TTA to misclassify benign and unperturbed test data, providing an entirely new capability for adversaries that is infeasible in canonical machine learning pipelines. Through comprehensive evaluations, we demonstrate the high effectiveness of our attack on multiple benchmarks across six TTA methods. In response, we investigate two countermeasures to robustify the existing insecure TTA implementations, following the principle of "security by design". Together, we hope our findings can make the community aware of the utility-security tradeoffs in deploying TTA and provide valuable insights for developing robust TTA approaches.
翻訳日:2023-01-31 16:22:24 公開日:2023-01-29
# 探索コーディネータとしてのレコメンデータシステム : 大規模プラットフォームのための有界o(1)後悔アルゴリズム

Recommender system as an exploration coordinator: a bounded O(1) regret algorithm for large platforms ( http://arxiv.org/abs/2301.12571v1 )

ライセンス: Link先を確認
Hyunwook Kang, P. R. Kumar(参考訳) 現代の一般的なプラットフォームでは、ユーザーは利用可能なアイテムのごく一部しか試すことができない。 これにより、全ての項目を探索する典型的なオンライン学習者として、プラットフォームユーザの探索行動のモデル化が困難になる。 この問題に対処するため,我々は,偽情報更新を提供するバンディット探索コーディネータとしてレコメンデータシステムを解釈する。 特に,リニア表現の存在下でのユーザ探索協調と有界後悔の両立を保証する新しいアルゴリズムであるCFUCB(Counterfactual UCB)を導入する。 以上の結果から,情報共有はエージェントに対するサブゲーム完全ナッシュ平衡であり,各エージェントが限定的後悔を達成できることを示す。 このアプローチは、パーソナライズされたレコメンデーションシステムと適応実験に潜在的応用をもたらす。

On typical modern platforms, users are only able to try a small fraction of the available items. This makes it difficult to model the exploration behavior of platform users as typical online learners who explore all the items. Towards addressing this issue, we propose to interpret a recommender system as a bandit exploration coordinator that provides counterfactual information updates. In particular, we introduce a novel algorithm called Counterfactual UCB (CFUCB) which is guarantees user exploration coordination with bounded regret under the presence of linear representations. Our results show that sharing information is a Subgame Perfect Nash Equilibrium for agents in terms of regret, leading to each agent achieving bounded regret. This approach has potential applications in personalized recommender systems and adaptive experimentation.
翻訳日:2023-01-31 16:22:05 公開日:2023-01-29
# 信頼理論という,心のモデル

A Mental Model Based Theory of Trust ( http://arxiv.org/abs/2301.12569v1 )

ライセンス: Link先を確認
Zahra Zahedi, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 信頼の扱いは、人間とAIエージェントの効果的なインタラクションを促進するためのコア要件の1つです。 したがって、人間と一緒に働くように設計された意思決定フレームワークは、人間の信頼を見積り、活用する能力を持つ必要がある。 本稿では,信頼モデルに基づく信頼理論を提案する。信頼を推論するだけでなく,心理学的・行動的信頼推論手法の代替手段を提供するとともに,信頼を意識した意思決定フレームワークの基盤としても利用できる。 まず,信頼の意味を理論に基づいて紹介し,その理論を用いて信頼の進化,人間の信頼と意思決定,エージェントに対する信頼の適切なレベルを定式化する。 人間の主観的研究を用いて、我々の理論を最も一般的な信頼尺度(ミューアスケール)と比較して評価する。 1)人間研究の観察が我々の提案する理論に合致するか 2) 信頼の側面は, 提案する理論とより一致している。

Handling trust is one of the core requirements for facilitating effective interaction between the human and the AI agent. Thus, any decision-making framework designed to work with humans must possess the ability to estimate and leverage human trust. In this paper, we propose a mental model based theory of trust that not only can be used to infer trust, thus providing an alternative to psychological or behavioral trust inference methods, but also can be used as a foundation for any trust-aware decision-making frameworks. First, we introduce what trust means according to our theory and then use the theory to define trust evolution, human reliance and decision making, and a formalization of the appropriate level of trust in the agent. Using human subject studies, we compare our theory against one of the most common trust scales (Muir scale) to evaluate 1) whether the observations from the human studies match our proposed theory and 2) what aspects of trust are more aligned with our proposed theory.
翻訳日:2023-01-31 16:21:51 公開日:2023-01-29
# schema-guided semantic accuracy: タスク指向対話応答生成における忠実性

Schema-Guided Semantic Accuracy: Faithfulness in Task-Oriented Dialogue Response Generation ( http://arxiv.org/abs/2301.12568v1 )

ライセンス: Link先を確認
Jinghong Chen, Weizhe Lin and Bill Byrne(参考訳) タスク指向対話応答生成では,発話生成が対話行動に忠実であることを保証することが重要である。 SER(Slot Error Rate)は生成品質を部分的に測定するだけで、正確に再現されると予想される非カテゴリスロットから発生する発話のみを評価する。 より可変なカテゴリスロットから生成される発話は、SERでは評価されない。 本研究は,カテゴリー的および非カテゴリー的スロットから発生する発話を,テキスト的帰属を認識して評価するためのスキーマ誘導意味的正確性(sgsacc)を提案する。 我々は,SGSAccを用いて,人間の判断とよく一致したSchema Guided Dialogue(SGD)データセットにおいて,幅広い対話行動から発生する発話を評価することができることを示す。 また,未熟な領域におけるカテゴリー的スロットから忠実な発話を生成する上で,これまで見過ごされていた弱点を特定する。 t5世代に適用されるプレフィックスチューニングがこの問題に対処できることを示す。 さらに,SGDデータセット上でのSER報告および高いSGSAccを実現するために,プレフィックスチューニングおよび微調整モデルのアンサンブルを構築する。

Ensuring that generated utterances are faithful to dialogue actions is crucial for Task-Oriented Dialogue Response Generation. Slot Error Rate (SER) only partially measures generation quality in that it solely assesses utterances generated from non-categorical slots whose values are expected to be reproduced exactly. Utterances generated from categorical slots, which are more variable, are not assessed by SER. We propose Schema-Guided Semantic Accuracy (SGSAcc) to evaluate utterances generated from both categorical and non-categorical slots by recognizing textual entailment. We show that SGSAcc can be applied to evaluate utterances generated from a wide range of dialogue actions in the Schema Guided Dialogue (SGD) dataset with good agreement with human judgment. We also identify a previously overlooked weakness in generating faithful utterances from categorical slots in unseen domains. We show that prefix tuning applied to T5 generation can address this problem. We further build an ensemble of prefix-tuning and fine-tuning models that achieves the lowest SER reported and high SGSAcc on the SGD dataset.
翻訳日:2023-01-31 16:21:35 公開日:2023-01-29
# 最適輸送蒸留による低リソース言語における言語間情報検索の改善

Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation ( http://arxiv.org/abs/2301.12566v1 )

ライセンス: Link先を確認
Zhiqi Huang, Puxuan Yu, James Allan(参考訳) トランスフォーマーベースの事前訓練言語モデルから恩恵を受け、ニューラルランキングモデルは大きな進歩を遂げた。 最近では、多言語事前訓練言語モデルの出現は、ニューラルな言語間検索モデルを設計するための優れたサポートを提供する。 しかし、異なる言語で不均衡な事前学習データのため、多言語言語モデルは、多くの下流タスクにおいて、高リソース言語と低リソース言語のパフォーマンスギャップを既に示している。 そして、そのような事前訓練されたモデル上に構築された言語間検索モデルは、言語バイアスを継承し、低リソース言語に最適な結果をもたらす。 さらに、MS MARCOのような文書ランキングのための大規模トレーニングコレクションが利用できる英語と英語の検索タスクとは異なり、低リソース言語のための言語間検索データが欠如しているため、言語間検索モデルの訓練が困難になる。 本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。 高リソース言語から低リソース言語へモデルを転送するために、OPTICALは、よく訓練された単言語検索モデルから学習する最適な輸送問題として、クロスランガルトークンアライメントタスクを形成する。 言語横断的な知識とクエリ文書マッチングの知識を分離することで、opticalは蒸留訓練のためのバイテキストデータのみを必要とする。 実験の結果、最小限のトレーニングデータにより、OPTICALはニューラルマシン翻訳を含む低リソース言語における強力なベースラインを著しく上回っていることがわかった。

Benefiting from transformer-based pre-trained language models, neural ranking models have made significant progress. More recently, the advent of multilingual pre-trained language models provides great support for designing neural cross-lingual retrieval models. However, due to unbalanced pre-training data in different languages, multilingual language models have already shown a performance gap between high and low-resource languages in many downstream tasks. And cross-lingual retrieval models built on such pre-trained models can inherit language bias, leading to suboptimal result for low-resource languages. Moreover, unlike the English-to-English retrieval task, where large-scale training collections for document ranking such as MS MARCO are available, the lack of cross-lingual retrieval data for low-resource language makes it more challenging for training cross-lingual retrieval models. In this work, we propose OPTICAL: Optimal Transport distillation for low-resource Cross-lingual information retrieval. To transfer a model from high to low resource languages, OPTICAL forms the cross-lingual token alignment task as an optimal transport problem to learn from a well-trained monolingual retrieval model. By separating the cross-lingual knowledge from knowledge of query document matching, OPTICAL only needs bitext data for distillation training, which is more feasible for low-resource languages. Experimental results show that, with minimal training data, OPTICAL significantly outperforms strong baselines on low-resource languages, including neural machine translation.
翻訳日:2023-01-31 16:21:17 公開日:2023-01-29
# 数千の判決を識別する: GPT-3 は,+形容詞+数詞+名詞構成を格付けする

A Discerning Several Thousand Judgments: GPT-3 Rates the Article + Adjective + Numeral + Noun Construction ( http://arxiv.org/abs/2301.12564v1 )

ライセンス: Link先を確認
Kyle Mahowald(参考訳) 文法の知識には希少で慣用的な構成の知識が含まれる。 LLMはそのような構造を習得するために周波数バイアスを克服しなければならない。 本研究では, gpt-3に対して, 英語記事 + 形容詞 + 数字 + 名詞構成(例: "a lovely five days" など)に対する受容性判断を促す。 受理性判定のCoLAコーパスを用いて,AANN構築においてゼロインのプロンプトを検証した。 私はGPT-3の判断を、文のサブセットでクラウドソーシングされた人間の判断と比較する。 GPT-3の判断は、ヒトの判断と大きく類似しており、一般的に文学における提案された制約と一致するが、いくつかの場合において、GPT-3の判断と人間の判断は、文学と相互に分岐する。

Knowledge of syntax includes knowledge of rare, idiosyncratic constructions. LLMs must overcome frequency biases in order to master such constructions. In this study, I prompt GPT-3 to give acceptability judgments on the English-language Article + Adjective + Numeral + Noun construction (e.g., "a lovely five days"). I validate the prompt using the CoLA corpus of acceptability judgments and then zero in on the AANN construction. I compare GPT- 3's judgments to crowdsourced human judgments on a subset of sentences. GPT-3's judgments are broadly similar to human judgments and generally align with proposed constraints in the literature but, in some cases, GPT-3's judgments and human judgments diverge from the literature and from each other.
翻訳日:2023-01-31 16:20:53 公開日:2023-01-29
# スケーラブルリンク予測のための部分グラフ表現学習の簡略化

Simplifying Subgraph Representation Learning for Scalable Link Prediction ( http://arxiv.org/abs/2301.12562v1 )

ライセンス: Link先を確認
Paul Louis, Shweta Ann Jacob and Amirali Salehi-Abari(参考訳) グラフ上のリンク予測は、グラフ表現学習の基本的な問題である。 グラフ表現学習手法(SGRL)は,リンク予測を対象リンク周辺のグラフ分類に変換することで,リンク予測のためのグラフニューラルネットワーク(GNN)の学習能力を向上した。 最先端の性能にもかかわらず、SGRLは計算コストが高く、ターゲットリンクごとに高価なサブグラフレベルの演算を行うため、大規模グラフには拡張性がない。 SGRLのスケーラビリティを解放するために,SGRLの新たなクラスを提案し,SGRL(Scalable Simplified SGRL)と呼ぶ。 高速なトレーニングと推論を目的としたS3GRLは、各リンクのサブグラフにおけるメッセージパッシングとアグリゲーション操作を単純化する。 拡張性フレームワークであるS3GRLは、様々なサブグラフサンプリング戦略や拡散演算子に柔軟に対応し、計算的に拡張可能なSGRLをエミュレートする。 さらに,S3GRLの複数事例について実験的に検討した。 広範な実験により,提案するs3grlモデルがsgrlを大幅な性能上の妥協なくスケールアップできることが示され,計算量を大幅に削減した(マルチフォールド推論やトレーニングスピードアップなど)。

Link prediction on graphs is a fundamental problem in graph representation learning. Subgraph representation learning approaches (SGRLs), by transforming link prediction to graph classification on the subgraphs around the target links, have advanced the learning capability of Graph Neural Networks (GNNs) for link prediction. Despite their state-of-the-art performance, SGRLs are computationally expensive, and not scalable to large-scale graphs due to their expensive subgraph-level operations for each target link. To unlock the scalability of SGRLs, we propose a new class of SGRLs, that we call Scalable Simplified SGRL (S3GRL). Aimed at faster training and inference, S3GRL simplifies the message passing and aggregation operations in each link's subgraph. S3GRL, as a scalability framework, flexibly accommodates various subgraph sampling strategies and diffusion operators to emulate computationally-expensive SGRLs. We further propose and empirically study multiple instances of S3GRL. Our extensive experiments demonstrate that the proposed S3GRL models scale up SGRLs without any significant performance compromise (even with considerable gains in some cases), while offering substantially lower computational footprints (e.g., multi-fold inference and training speedup).
翻訳日:2023-01-31 16:20:38 公開日:2023-01-29
# 不均衡混合線形回帰

Imbalanced Mixed Linear Regression ( http://arxiv.org/abs/2301.12559v1 )

ライセンス: Link先を確認
Pini Zilber and Boaz Nadler(参考訳) ここでは,各サンプルが未知の線形モデルの1つに属する混合線形回帰(MLR)の問題を考察する。 実用的な応用では、K$成分の割合はしばしば不均衡である。 残念ながら、ほとんどのMLRメソッドはそのような設定ではうまく機能しない。 そこで本研究では,均衡混合と不均衡混合の両方において優れた性能を有するmlrのための新しい単純高速アルゴリズムであるmix-irlsを提案する。 K$モデルを同時に回収する一般的なアプローチとは対照的に、Mix-IRLSは堅牢な回帰からツールを逐次使用する。 経験的に、Mix-IRLSは他のメソッドが失敗する幅広い設定で成功する。 これらは、不均衡混合物、小さなサンプルサイズ、異常値の存在、未知数のモデル$k$を含む。 さらにmix-irlは、いくつかの実世界のデータセットで競合するメソッドを上回っています。 我々は,不均衡混合に対する優位性を強調したMix-IRLSの回復保証を導出した経験的結果を補完する。

We consider the problem of mixed linear regression (MLR), where each observed sample belongs to one of $K$ unknown linear models. In practical applications, the proportions of the $K$ components are often imbalanced. Unfortunately, most MLR methods do not perform well in such settings. Motivated by this practical challenge, in this work we propose Mix-IRLS, a novel, simple and fast algorithm for MLR with excellent performance on both balanced and imbalanced mixtures. In contrast to popular approaches that recover the $K$ models simultaneously, Mix-IRLS does it sequentially using tools from robust regression. Empirically, Mix-IRLS succeeds in a broad range of settings where other methods fail. These include imbalanced mixtures, small sample sizes, presence of outliers, and an unknown number of models $K$. In addition, Mix-IRLS outperforms competing methods on several real-world datasets, in some cases by a large margin. We complement our empirical results by deriving a recovery guarantee for Mix-IRLS, which highlights its advantage on imbalanced mixtures.
翻訳日:2023-01-31 16:20:16 公開日:2023-01-29
# データセンターの混雑制御を最適化する深層強化学習フレームワーク

A Deep Reinforcement Learning Framework for Optimizing Congestion Control in Data Centers ( http://arxiv.org/abs/2301.12558v1 )

ライセンス: Link先を確認
Shiva Ketabi, Hongkai Chen, Haiwei Dong, Yashar Ganjali(参考訳) 様々なネットワーク環境で高い性能を達成するために、様々な混雑制御プロトコルが設計されている。 集中制御アクションをマシンに委譲する現代のオンライン学習ソリューションは、データセンターの厳格な時間スケールに適切に収束できない。 我々はマルチエージェント強化学習を利用して、データセンターのエンドホストにおける混雑制御パラメータを動的にチューニングするシステムを設計する。 このシステムには、ネットワークとトラフィック状態を監視して報告するエージェントと、その状態に応じて強化学習アルゴリズムを実行するエージェントが含まれている。 環境の状態に基づいて、システムはスループットやレイテンシなどのネットワークパフォーマンスメトリクスを最適化する混雑制御パラメータを生成する。 本研究では,最近開発された渋滞制御プロトコルの例として,bbrについて検討する。 実験により,提案システムは静的パラメータの問題を軽減できる可能性が示された。

Various congestion control protocols have been designed to achieve high performance in different network environments. Modern online learning solutions that delegate the congestion control actions to a machine cannot properly converge in the stringent time scales of data centers. We leverage multiagent reinforcement learning to design a system for dynamic tuning of congestion control parameters at end-hosts in a data center. The system includes agents at the end-hosts to monitor and report the network and traffic states, and agents to run the reinforcement learning algorithm given the states. Based on the state of the environment, the system generates congestion control parameters that optimize network performance metrics such as throughput and latency. As a case study, we examine BBR, an example of a prominent recently-developed congestion control protocol. Our experiments demonstrate that the proposed system has the potential to mitigate the problems of static parameters.
翻訳日:2023-01-31 16:19:57 公開日:2023-01-29
# カリキュラム学習における信頼度対応型校正とスコアリング機能

Confidence-Aware Calibration and Scoring Functions for Curriculum Learning ( http://arxiv.org/abs/2301.12589v1 )

ライセンス: Link先を確認
Shuang Ao, Stefan Rueger, Advaith Siddharthan(参考訳) 最先端のディープニューラルネットワークの成功にもかかわらず、いくつかの研究はモデルが予測に自信過剰であると報告し、不一致を示している。 ラベル・スムーシングは、過信問題に対する解法として提案され、訓練中にハードターゲットを軟化することで機能し、通常、確率質量の一部を「1ホット」ラベルから他の全てのラベルに均一に分配する。 しかしながら、この方法では、モデルも人的信頼も均一に分散しない傾向があり、一部のラベルは他のラベルよりも混乱する傾向にある。 本稿では,モデルキャリブレーションと一般化を達成するために,ラベルスムース化によるモデル信頼と人間信頼の概念,それぞれ \textit{Model Confidence LS} と \textit{Human Confidence LS} を統合する。 モデル一般化を促進するために,我々は「より難しい」タスクの学習に触発された学習戦略であるカリキュラム学習に,モデルと人間の信頼度スコアをうまく適用できることを示す。 より高いモデルまたは人間の信頼度スコアは、より認識可能でより簡単なサンプルを示すため、カリキュラム学習においてサンプルをランク付けするスコア関数として使用できる。 提案手法は,人間によるマルチレートラベルアノテーションを用いたデータセットを用いて,画像とテキストの分類タスクのための4つの最先端アーキテクチャを用いて評価する。 ラベル平滑化とカリキュラム学習におけるモデルや人間の信頼度情報の統合は,モデル性能とモデル校正の両方を改善する。 コードは \url{https://github.com/aoshuang92/confidence_calibration_cl} で入手できる。

Despite the great success of state-of-the-art deep neural networks, several studies have reported models to be over-confident in predictions, indicating miscalibration. Label Smoothing has been proposed as a solution to the over-confidence problem and works by softening hard targets during training, typically by distributing part of the probability mass from a `one-hot' label uniformly to all other labels. However, neither model nor human confidence in a label are likely to be uniformly distributed in this manner, with some labels more likely to be confused than others. In this paper we integrate notions of model confidence and human confidence with label smoothing, respectively \textit{Model Confidence LS} and \textit{Human Confidence LS}, to achieve better model calibration and generalization. To enhance model generalization, we show how our model and human confidence scores can be successfully applied to curriculum learning, a training strategy inspired by learning of `easier to harder' tasks. A higher model or human confidence score indicates a more recognisable and therefore easier sample, and can therefore be used as a scoring function to rank samples in curriculum learning. We evaluate our proposed methods with four state-of-the-art architectures for image and text classification task, using datasets with multi-rater label annotations by humans. We report that integrating model or human confidence information in label smoothing and curriculum learning improves both model performance and model calibration. The code are available at \url{https://github.com/AoShuang92/Confidence_Calibration_CL}.
翻訳日:2023-01-31 16:12:03 公開日:2023-01-29
# 歩行時の腰仙関節活動に基づく思春期特発性脊柱症児のコブ角度同定のための機械学習アルゴリズムの開発(第1報)

Development of Machine learning algorithms to identify the Cobb angle in adolescents with idiopathic scoliosis based on lumbosacral joint efforts during gait (Case study) ( http://arxiv.org/abs/2301.12588v1 )

ライセンス: Link先を確認
Bahare Samadi, Maxime Raison, Philippe Mahaudens, Christine Detrembleur, Sofiane Achiche(参考訳) 目的: 思春期特発性強皮症(AIS)における脊髄変形の程度を定量化するために, 脊椎X線画像上でコブ角を測定する。 スコリオーシスの進行をフォローアップするためのX線連続曝露は、患者に負の副作用をもたらす可能性がある。 さらに、コブ角の手動測定は、観察者の内/間の変化によって最大10{\deg}以上の差をもたらす可能性がある。 そこで本研究の目的は,機械学習アルゴリズムを用いて自動放射能フリーモデルを構築し,コブ角を同定することである。 方法: 腰椎・胸腰椎 AIS (15{\deg} < Cobb angle < 66{\deg}) の30名の被験者が歩行周期を行った。 ランボサクラール (L5-S1) は6回の歩行周期において, 訓練アルゴリズムの給餌に利用した。 様々な回帰アルゴリズムが実装され実行された。 結果: 決定木回帰アルゴリズムは, 平均10倍のクロスバリデーションの4.6{\degに等しい平均絶対誤差で最良の結果を得た。 結論: 本研究は, 無放射線データとして歩行中の腰仙関節が, 機械学習アルゴリズムを用いてコブ角度を識別できることを示す。 提案手法は,放射線のないX線ラジオグラフィーの代替手法として,AISの進行にともなって臨床医を支援することができる。

Objectives: To quantify the magnitude of spinal deformity in adolescent idiopathic scoliosis (AIS), the Cobb angle is measured on X-ray images of the spine. Continuous exposure to X-ray radiation to follow-up the progression of scoliosis may lead to negative side effects on patients. Furthermore, manual measurement of the Cobb angle could lead to up to 10{\deg} or more of a difference due to intra/inter observer variation. Therefore, the objective of this study is to identify the Cobb angle by developing an automated radiation-free model, using Machine learning algorithms. Methods: Thirty participants with lumbar/thoracolumbar AIS (15{\deg} < Cobb angle < 66{\deg}) performed gait cycles. The lumbosacral (L5-S1) joint efforts during six gait cycles of participants were used as features to feed training algorithms. Various regression algorithms were implemented and run. Results: The decision tree regression algorithm achieved the best result with the mean absolute error equal to 4.6{\deg} of averaged 10-fold cross-validation. Conclusions: This study shows that the lumbosacral joint efforts during gait as radiation-free data are capable to identify the Cobb angle by using Machine learning algorithms. The proposed model can be considered as an alternative, radiation-free method to X-ray radiography to assist clinicians in following-up the progression of AIS.
翻訳日:2023-01-31 16:11:34 公開日:2023-01-29
# 触覚に基づく物体挿入ポリシーのゼロショット転送

Zero-Shot Transfer of Haptics-Based Object Insertion Policies ( http://arxiv.org/abs/2301.12587v1 )

ライセンス: Link先を確認
Samarth Brahmbhatt, Ankur Deka, Andrew Spielberg, Matthias M\"uller(参考訳) 人間は自然に、食器洗い機を積んだり、本棚を積んだりといった、接触の多いタスク中に触覚フィードバックを利用する。 現在のロボットシステムは予期せぬ接触を避けることに注力しており、しばしば戦略的に配置された環境センサーに依存している。 近年,実際のロボット上での接触探索操作ポリシの訓練が進められている。 しかし、シム・トゥ・リアルギャップを橋渡しするには何らかの実世界適応が必要であり、全てのシナリオで実現不可能である。 本稿では,プレートをスロット式ホルダに積載するコンタクトリッチホームタスクのシミュレーションにおいて,実際のロボットに微調整を行なわずに伝達する接触探索操作ポリシーを訓練する。 我々は、時間遅延モデリング、メモリ表現、ドメインのランダム化など、このゼロショット転送に必要な様々な要因について検討する。 我々の方針は、最小限のsim-to-realギャップで伝達し、ヒューリスティックかつ学習ベースラインを著しく上回る。 大きさや重量の異なるプレートにも一般化される。 デモビデオとコードはhttps://sites.google.com/view/ compliant-object-insertionで入手できる。

Humans naturally exploit haptic feedback during contact-rich tasks like loading a dishwasher or stocking a bookshelf. Current robotic systems focus on avoiding unexpected contact, often relying on strategically placed environment sensors. Recently, contact-exploiting manipulation policies have been trained in simulation and deployed on real robots. However, they require some form of real-world adaptation to bridge the sim-to-real gap, which might not be feasible in all scenarios. In this paper we train a contact-exploiting manipulation policy in simulation for the contact-rich household task of loading plates into a slotted holder, which transfers without any fine-tuning to the real robot. We investigate various factors necessary for this zero-shot transfer, like time delay modeling, memory representation, and domain randomization. Our policy transfers with minimal sim-to-real gap and significantly outperforms heuristic and learnt baselines. It also generalizes to plates of different sizes and weights. Demonstration videos and code are available at https://sites.google.com/view/ compliant-object-insertion.
翻訳日:2023-01-31 16:11:11 公開日:2023-01-29
# マルチタスク言語モデリングによる分子・テキスト表現の統一

Unifying Molecular and Textual Representations via Multi-task Language Modelling ( http://arxiv.org/abs/2301.12586v1 )

ライセンス: Link先を確認
Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino, Matteo Manica(参考訳) ニューラルネットワークモデルの最近の進歩は化学分野にもうまく適用され、分子設計や合成計画における古典的な問題に対する生成的解を提供する。 これらの新しい手法は、実験室の操作を最適化し、科学的発見におけるデータ駆動自動化の新しい時代を加速する可能性を秘めている。 しかし、通常、各タスクには特別なモデルが必要であるため、問題固有の微調整やタスクの相互関係の無視が必要となる。 この分野の主な障害は、自然言語と化学表現の統一表現の欠如であり、人間と機械の相互作用の複雑化と制限である。 本稿では, 化学・自然言語の両領域において, 幅広い課題を解くために, マルチドメイン多タスク言語モデルを提案する。 マルチタスク学習を利用することで、単一のドメインやタスク固有のモデルで高価な事前トレーニングを必要とせずに、化学言語と自然言語を同時に扱うことができる。 興味深いことに、ドメイン間での重み共有は、単一ドメインとクロスドメインタスクの最先端のベースラインに対してベンチマークすることで、我々のモデルを大幅に改善します。 特に、ドメインとタスク間での情報共有は、数十以上の関連するメトリクスで測定されるように、スケールによって増大するクロスドメインタスクに大きな改善をもたらす。 本研究は,問題特異的な微調整と人間-モデル間相互作用の強化により,物理科学における発見を堅牢かつ効率的に促進できることを示唆する。

The recent advances in neural language models have also been successfully applied to the field of chemistry, offering generative solutions for classical problems in molecular design and synthesis planning. These new methods have the potential to optimize laboratory operations and fuel a new era of data-driven automation in scientific discovery. However, specialized models are still typically required for each task, leading to the need for problem-specific fine-tuning and neglecting task interrelations. The main obstacle in this field is the lack of a unified representation between natural language and chemical representations, complicating and limiting human-machine interaction. Here, we propose a multi-domain, multi-task language model to solve a wide range of tasks in both the chemical and natural language domains. By leveraging multi-task learning, our model can handle chemical and natural language concurrently, without requiring expensive pre-training on single domains or task-specific models. Interestingly, sharing weights across domains remarkably improves our model when benchmarked against state-of-the-art baselines on single-domain and cross-domain tasks. In particular, sharing information across domains and tasks gives rise to large improvements in cross-domain tasks, the magnitude of which increase with scale, as measured by more than a dozen of relevant metrics. Our work suggests that such models can robustly and efficiently accelerate discovery in physical sciences by superseding problem-specific fine-tuning and enhancing human-model interactions.
翻訳日:2023-01-31 16:10:55 公開日:2023-01-29
# 複素制約領域の固有ベイズ最適化

Intrinsic Bayesian Optimisation on Complex Constrained Domain ( http://arxiv.org/abs/2301.12581v1 )

ライセンス: Link先を確認
Yuan Liu, Mu Niu, Claire Miller(参考訳) ユークリッド空間におけるベイズ最適化アルゴリズムの成功に触発されて、複素制約領域やR2, R3 などの部分多様体に主眼を置いた多様体上での固有ベイズ最適化(In-BO)を構築するための新しいアプローチを提案する。 データは空間領域で収集されるが、湖のような地理的特徴に対応する複雑な領域や複雑な構造に制限される。 従来のベイズ最適化(Tra-BO)は、放射基底関数(RBF)カーネルで定義されており、これらの複雑な制約条件に対応できない。 In-BOは、多様体の幾何学構造を考慮したスパース固有ガウス過程(SIn-GP)シュロゲートモデルを用いる。 SInGP は多様体上のブラウン運動の遷移密度と推定される多様体の熱核を用いて構成される。 In-BOの効率は、U字型の領域、ビッテントーラス、アラル海からの実際のデータセットのシミュレーション研究によって実証される。 その性能はユークリッド空間で定義される伝統的なBOと比較される。

Motivated by the success of Bayesian optimisation algorithms in the Euclidean space, we propose a novel approach to construct Intrinsic Bayesian optimisation (In-BO) on manifolds with a primary focus on complex constrained domains or irregular-shaped spaces arising as submanifolds of R2, R3 and beyond. Data may be collected in a spatial domain but restricted to a complex or intricately structured region corresponding to a geographic feature, such as lakes. Traditional Bayesian Optimisation (Tra-BO) defined with a Radial basis function (RBF) kernel cannot accommodate these complex constrained conditions. The In-BO uses the Sparse Intrinsic Gaussian Processes (SIn-GP) surrogate model to take into account the geometric structure of the manifold. SInGPs are constructed using the heat kernel of the manifold which is estimated as the transition density of the Brownian Motion on manifolds. The efficiency of In-BO is demonstrated through simulation studies on a U-shaped domain, a Bitten torus, and a real dataset from the Aral sea. Its performance is compared to that of traditional BO, which is defined in Euclidean space.
翻訳日:2023-01-31 16:10:29 公開日:2023-01-29