このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220619となっている論文です。

PDF登録状況(公開日: 20220619)

TitleAuthorsAbstract論文公表日・翻訳日
# 欧州連合における製品安全規制の見直し

A Review of Product Safety Regulations in the European Union ( http://arxiv.org/abs/2102.03679v3 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 1960年代初期以来、ヨーロッパでは製品安全性が懸念されている。 製品安全規制、新技術、世界経済の変化など、長く比較的安定した歴史的系統にもかかわらず、近年では製品安全が政策論争の最前線に再び持ち込まれた。 改革が進行中であるため、欧州連合(eu)における複雑な安全政策枠組みを見直したいという動機がある。 そこで本稿では, 審議政策分析と解釈文献レビューに基づき, eu における非食品消費製品の安全政策について概説する。 このレビューは、歴史的背景と主要な法律、行政と執行、標準化と調和、特定の製品に関する法律、国家安全当局からの通知、危険な製品のリコール、それらの責任について書かれている。 これらのテーマと関連する文献のレビューと分析に基づいて、現在の政策課題をさらに議論する。

Product safety has been a concern in Europe ever since the early 1960s. Despite the long and relatively stable historical lineage of product safety regulations, new technologies, changes in the world economy, and other major transformations have in recent years brought product safety again to the forefront of policy debates. As reforms are also underway, there is a motivation to review the complex safety policy framework in the European Union (EU). Thus, building on deliberative policy analysis and interpretative literature review, this paper reviews the safety policy for non-food consumer products in the EU. The review covers the historical background and the main laws, administration and enforcement, standardization and harmonization, laws enacted for specific products, notifications delivered by national safety authorities, recalls of dangerous products, and the liability of these. Based on the review and analysis of these themes and the associated literature, some current policy challenges are further discussed.
翻訳日:2023-04-12 09:10:56 公開日:2022-06-19
# 暗くなる? オランダ刑事訴訟の結果に及ぼすエンドツーエンド暗号化の影響の分析

Going dark? Analysing the impact of end-to-end encryption on the outcome of Dutch criminal court cases ( http://arxiv.org/abs/2104.06444v3 )

ライセンス: Link先を確認
Pieter Hartel, Rolf van Wegberg(参考訳) 法執行機関はエンドツーエンド暗号化(E2EE)を利用する犯罪者と戦う。 最近の政策論文は「暗号化は不可欠であり、プライバシーとサイバーセキュリティは守らなければならないが、完全に法執行を禁じるべきではない」と述べている。 主な論点は、E2EEのハマーは、麻薬のシンジケートから児童性的虐待物質(CSAM)のプラットフォームまで、暗号化されたコミュニケーションに依存する犯罪者の帰属と起訴である。 この声明は「暗くなる」と称される政策サークルで、まだ実証的な証拠によって支持されていない。 そこで我々は,オランダの公判データを分析して,法執行機関や検察機関が,事件の審理と結果にE2EEを使用することによってどの程度の影響を受けているかを示す。 以上の結果から、オランダの裁判所は、E2EEに依存している犯罪者を、そうでない者と同じくらい有罪にすることに成功したと考えられる。 われわれのデータでは、E2EEが刑事捜査に与える影響について結論を出すことはできない。

Law enforcement agencies struggle with criminals using to end-to-end encryption (E2EE). A recent policy paper states: "while encryption is vital and privacy and cyber security must be protected, that should not come at the expense of wholly precluding law enforcement". The main argument is that E2EE hampers attribution and prosecution of criminals who rely on encrypted communication - ranging from drug syndicates to child sexual abuse material (CSAM) platforms. This statement - in policy circles dubbed 'going dark' - is not yet supported by empirical evidence. That is why, in our work, we analyse public court data from the Netherlands to show to what extent law enforcement agencies and the public prosecution service are impacted by the use of E2EE in bringing cases to court and their outcome. Our results show that Dutch courts appear to be as successful in convicting offenders who rely on E2EE as those who do not. Our data does not permit us to draw conclusions on the effect of E2EE on criminal investigations.
翻訳日:2023-04-03 23:23:41 公開日:2022-06-19
# 対流を用いたクリフォード群表現の近似3次元設計と部分分解

Approximate 3-designs and partial decomposition of the Clifford group representation using transvections ( http://arxiv.org/abs/2111.13678v2 )

ライセンス: Link先を確認
Tanmay Singal and Min-Hsiu Hsieh(参考訳) 我々は漸近的ユニタリ3設計を実現するためのスキームについて検討する。 このスキームは一度ランダムなパウリを実装し、その後状態ツイリングを用いてランダムな対流クリフォードを実装した。 したがって、このスキームは量子チャネルの形で実装される。 このスキームが $k$ で実装された場合、$k \rightarrow \infty$ の制限において、全体的なスキームは一元的な$$-design を実装している。 これはスキームの固有分解を研究することで証明される:$+1$固有空間は正確なユニタリな3$-設計のそれと一致し、残りの固有値は定数で有界である。 これを用いて、このスキームを約$\mathcal{o}(m + \log 1/\epsilon)$で実装し、$\epsilon$-approximateユニタリデザイン、$m$がキュービット数、$\epsilon$が正確なユニタリデザインのダイヤモンドノルム距離であることが証明される。 また、このスキームは、以下の収束率で漸近的ユニタリ 2$-設計を実装している:$\mathcal{O}(\log 1/\epsilon)$ times to be a $\epsilon$-approximate Unitary $2$-設計である。 横断クリフォードはクリフォード群の共役類であるため、スキームの量子チャネルの固有空間はクリフォード群の随伴表現の既約不変部分空間と一致する。 私たちが得られる部分表現のいくつかは、J. Mathで得られたものと同じである。 Phys 59, 072201 (2018) であり、残りは新しい不変部分空間である。 したがって、クリフォード群に対する3ドルのコピーに対する随伴表現の部分分解が得られる。 したがって、ユニタリな3$-設計の実装のスキームを提供する以外に、この研究はクリフォード群の表現論とこのトピックの潜在的な応用を研究することに興味がある。 論文は、クリフォード群のスキームと表現論に関する公然とした質問で終わる。

We study a scheme to implement an asymptotic unitary 3-design. The scheme implements a random Pauli once followed by the implementation of a random transvection Clifford by using state twirling. Thus the scheme is implemented in the form of a quantum channel. We show that when this scheme is implemented $k$ times, then, in the $k \rightarrow \infty$ limit, the overall scheme implements a unitary $3$-design. This is proved by studying the eigendecomposition of the scheme: the $+1$ eigenspace of the scheme coincides with that of an exact unitary $3$-design, and the remaining eigenvalues are bounded by a constant. Using this we prove that the scheme has to be implemented approximately $\mathcal{O}(m + \log 1/\epsilon)$ times to obtain an $\epsilon$-approximate unitary $3$-design, where $m$ is the number of qubits, and $\epsilon$ is the diamond-norm distance of the exact unitary $3$-design. Also, the scheme implements an asymptotic unitary $2$-design with the following convergence rate: it has to be sampled $\mathcal{O}(\log 1/\epsilon)$ times to be an $\epsilon$-approximate unitary $2$-design. Since transvection Cliffords are a conjugacy class of the Clifford group, the eigenspaces of the scheme's quantum channel coincide with the irreducible invariant subspaces of the adjoint representation of the Clifford group. Some of the subrepresentations we obtain are the same as were obtained in J. Math. Phys. 59, 072201 (2018), whereas the remaining are new invariant subspaces. Thus we obtain a partial decomposition of the adjoint representation for $3$ copies for the Clifford group. Thus, aside from providing a scheme for the implementation of unitary $3$-design, this work is of interest for studying representation theory of the Clifford group, and the potential applications of this topic. The paper ends with open questions regarding the scheme and representation theory of the Clifford group.
翻訳日:2023-03-06 19:32:50 公開日:2022-06-19
# メムリスタネットワークを用いた貯水池計算に基づくパターン認識のためのシミュレーションプラットフォーム

Simulation platform for pattern recognition based on reservoir computing with memristor networks ( http://arxiv.org/abs/2112.00248v2 )

ライセンス: Link先を確認
Gouhei Tanaka and Ryosho Nakane(参考訳) memristiveシステムとデバイスは、パターン認識に適用された貯水池コンピューティング(rc)システムを実装するために利用可能である。 しかし,rcシステムの計算能力は,システムアーキテクチャやmemristive要素の物理特性などの相互に絡み合う要因に依存するため,システム性能の鍵となる要因の同定が複雑になる。 そこで我々は,メムリスタデバイスネットワークを用いたRCシミュレーションプラットフォームを開発し,性能改善のためのシステム設計の異なるテストを可能にする。 数値シミュレーションにより,memristor-network-based RCシステムは3つの時系列分類タスクにおける最先端手法に匹敵する高い計算性能が得られることが示された。 ネットワーク構造, メムリスタの非線形性, およびプリ/ポスト処理を適切に設定することにより, 信頼性の低いコンポーネントデバイスによる信頼性の高い計算の可能性を高めることができる。 本研究は,エネルギー効率のよい機械学習ハードウェアの実現に向けて,メモリリザーバーの設計ガイドの確立に寄与する。

Memristive systems and devices are potentially available for implementing reservoir computing (RC) systems applied to pattern recognition. However, the computational ability of memristive RC systems depends on intertwined factors such as system architectures and physical properties of memristive elements, which complicates identifying the key factor for system performance. Here we develop a simulation platform for RC with memristor device networks, which enables testing different system designs for performance improvement. Numerical simulations show that the memristor-network-based RC systems can yield high computational performance comparable to that of state-of-the-art methods in three time series classification tasks. We demonstrate that the excellent and robust computation under device-to-device variability can be achieved by appropriately setting network structures, nonlinearity of memristors, and pre/post-processing, which increases the potential for reliable computation with unreliable component devices. Our results contribute to an establishment of a design guide for memristive reservoirs toward a realization of energy-efficient machine learning hardware.
翻訳日:2023-03-06 04:50:12 公開日:2022-06-19
# 校正は公平な要件か? 道徳哲学・意思決定論の観点からの議論

Is calibration a fairness requirement? An argument from the point of view of moral philosophy and decision theory ( http://arxiv.org/abs/2205.05512v3 )

ライセンス: Link先を確認
Michele Loi and Christoph Heitz(参考訳) 本稿では,機械学習文学における統計的公正性の2つの基準の道徳的分析について述べる。 1)グループ間の校正 2) グループ間での偽陽性と偽陰性率の等価性。 本稿では,いずれの尺度も支持する道徳的議論に焦点をあてる。 グループキャリブレーションと偽陽性と偽陰性率平等の対立は、実践者間のグループフェアネス定義に関する議論の中心的な問題の一つである。 徹底的な道徳分析のためには、公正という用語の意味を明確化し、適切に定義する必要がある。 我々の論文では、公平性は(非)差別と同等であり、これは集団公平性に関する議論における正当な理解である。 より具体的には、Lippert-Rasmussen教授のこの定義に対する扱いで使われるという意味で、プライマー・ファシエの誤った差別と等価である。 本稿では,集団校正の違反が不公平である場合もあれば,不公平ではない場合もあると論じる。 これは、既に文献で進歩している主張と一致しており、アルゴリズム的公正性は文脈に敏感な方法で定義されるべきである。 最も重要な実践的意味は、フェアネスが群間キャリブレーションや偽陽性/偽陰性率の等式を必要とする例に基づく議論は一般化しないということである。 グループキャリブレーションは、あるケースではフェアネス要件であるが、別のケースではそうではない。

In this paper, we provide a moral analysis of two criteria of statistical fairness debated in the machine learning literature: 1) calibration between groups and 2) equality of false positive and false negative rates between groups. In our paper, we focus on moral arguments in support of either measure. The conflict between group calibration vs. false positive and false negative rate equality is one of the core issues in the debate about group fairness definitions among practitioners. For any thorough moral analysis, the meaning of the term fairness has to be made explicit and defined properly. For our paper, we equate fairness with (non-)discrimination, which is a legitimate understanding in the discussion about group fairness. More specifically, we equate it with prima facie wrongful discrimination in the sense this is used in Prof. Lippert-Rasmussen's treatment of this definition. In this paper, we argue that a violation of group calibration may be unfair in some cases, but not unfair in others. This is in line with claims already advanced in the literature, that algorithmic fairness should be defined in a way that is sensitive to context. The most important practical implication is that arguments based on examples in which fairness requires between-group calibration, or equality in the false-positive/false-negative rates, do no generalize. For it may be that group calibration is a fairness requirement in one case, but not in another.
翻訳日:2023-02-19 16:49:34 公開日:2022-06-19
# インドにおける誤情報理解 : ソーシャルメディアプラットフォームにおける意味ある規制アプローチの事例

Understanding misinformation in India: The case for a meaningful regulatory approach for social media platforms ( http://arxiv.org/abs/2207.01508v1 )

ライセンス: Link先を確認
Gandharv Dhruv Madan(参考訳) 本稿では,誤情報の話題,ソーシャルメディア,偽ニュース,誤情報の規制,ソーシャルメディアプラットフォームに関するさまざまな情報を取り上げ,インド向けに提示した。 誤情報の主題分析、ソーシャルメディアの簡潔な歴史、誤情報の増幅、インド政府による現在および過去の政策介入、産業における自己規制の歴史、インドの文脈における規制アプローチの分析を含む研究。 本稿では,我が国の誤報とその後の社会的・ビジネス的混乱の文脈に一貫性のある読解を導入することを目的とする。 業界規制に関する歴史、既存の政策研究、フレームワーク分析から得た教訓を活用して、関係者全員にとって好都合な政策介入の性質を読者に納得させる。 文献の資料はそれぞれの節で言及されている。 この研究は、パステルの枠組みを利用して、学術用ホワイトペーパーやニュースメディアのブログや記事にまたがる誤情報や規制の話題をカバーする他の研究成果から収集されたデータを分析した。 関連セカンダリデータは、情報、他の研究活動における過去の分析、および論文の各セクションに含まれる文献を再生し、共有し、必要に応じて表示している。

For research, this paper has included numerous literature that are covering a variety of information on the topics of misinformation, social media and fake news, regulation of misinformation and social media platforms, all presented for India. Studies including thematic analysis of misinformation, brief history on social media and its amplification of misinformation, current and past policy interventions by the Indian government, history of self-regulations in industries, and an analysis of regulatory approaches in the Indian context. This paper aims at introducing a coherent reading into the context of misinformation in the country and the subsequent social and business disruptions that will follow. Utilizing lessons from history around industry regulations, existing policy research and framework analysis to convince the reader of the nature of policy intervention that will bode well for all stakeholders involved. The literature sources have been mentioned in their respective sections for reference. The research utilized the PASTEL framework to analyse data collected from other research efforts covering the topic of misinformation and regulation across academic whitepapers and news media blogs and articles, all available freely on the public domain. Relevant secondary data, in terms of information, previous analysis in other research efforts, and literature work included in respective sections in the paper have been reproduced, shared and/or indicated wherever necessary.
翻訳日:2023-02-19 09:39:54 公開日:2022-06-19
# W_N$および$W_N^d$状態のエントロピー円錐

The entropy cones of $W_N$ and $W_N^d$ states ( http://arxiv.org/abs/2204.04532v3 )

ライセンス: Link先を確認
Howard J. Schnitzer(参考訳) 量子ビットの$W_N$状態と$W_N^d$状態の量子エントロピーコーン(QEC)を演算する。 これらの円錐は、任意の$N$と$d$に対してシンメトリズド量子エントロピー円錐(SQEC)として現れる。 有向グラフモデルは、$W_N$状態と$W_N^d$状態のSQECを記述する。 MMI(Monogamous mutual information)は、すべての$N>3$に対して違反される。

The quantum entropy cones (QEC) for $W_N$ states of qubits and $W_N^d$ states of qudits are computed. These cones emerge as symmetrized quantum entropy cones (SQEC) for arbitrary $N$ and $d$. Directed graph models are presented which describe the SQEC for $W_N$ states and $W_N^d$ states. Monogamous mutual information (MMI) is violated for all $N>3$.
翻訳日:2023-02-17 18:51:41 公開日:2022-06-19
# CommonsenseQAにおけるDeBERTaV3の解法

Solution of DeBERTaV3 on CommonsenseQA ( http://arxiv.org/abs/2206.05033v2 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li, Hai Zhao(参考訳) 本報告では,CommonsenseQAにおけるDeBERTaV3の性能について報告する。 DeBERTaV3のテキスト分類として回答の選択を形式化する。 DeBERTaV3の強力な自然言語推論能力は、その単一およびアンサンブルモデルがCommonsenseQA上で新しい(w/o外部知識)最先端を設定するのに役立つ。

We report the performance of DeBERTaV3 on CommonsenseQA in this report. We simply formalize the answer selection as a text classification for DeBERTaV3. The strong natural language inference ability of DeBERTaV3 helps its single and ensemble model set the new (w/o external knowledge) state-of-the-art on CommonsenseQA.
翻訳日:2023-02-15 01:24:20 公開日:2022-06-19
# 浴への量子コヒーレント経路の絡み合い

Quantum Coherent Route to Bath Induced Entanglement ( http://arxiv.org/abs/2205.08315v2 )

ライセンス: Link先を確認
Kowsar. Al Mousavitaha, \"Ozg\"ur E. M\"ustecapl{\i}oglu, and Esfandyar Faizi(参考訳) マイクロメーザーは、励起された2レベル原子のビームが高濃度のキャビティに注入されるアーチェタイプの実験装置である。 量子光学の予測のためのテストベッドとして重要な役割を果たしている。 3レベル原子のビームで励起される高品質キャビティからなる一般化マイクロメーザセットを考える。 原子は励起状態のダブルトの間に量子コヒーレンスを持つ準備が整っていると仮定される。 我々の目的は、ポンプ原子の量子コヒーレンスを利用して、右利きの円形(RHC)と左利きの円形(LHC)の偏光子を共役させることである。 この目的のために,システムに対する一般化マイクロメーザマスター方程式を導出する。 ポンプビームによって駆動されるマイクロマザー場の力学は、共通の非平衡環境を共有する2つの非相互作用RHCおよびLHCフォトニス系と等価である。 共有浴の効果は、非相互作用性キャビティ光子間の非一貫性相互作用を媒介することであり、これは原子が量子コヒーレンスを持つ場合にのみ生じる。 我々は空洞損失を量子デコヒーレンスの源として考慮し、マスター方程式の動的解を用いて計算した対数ネガティビティの観点からLHCとRHC偏光子間の量子絡みを特徴づける。 観測結果から、定常状態の絡み合いは存在せず、lhcとrhc偏光子が過渡状態において絡み合っていることが明らかとなった。

The micromaser is an archetype experimental setting where a beam of excited two-level atoms is injected into a high-finesse cavity. It has played a pivotal role as a testbed for predictions of quantum optics. We consider a generalized micromaser setting consisting of high-quality cavity pumped by a beam of three-level atoms. The atoms are assumed to be prepared to carry quantum coherence between their excited state doublet. Our objective is to produce quantum entanglement between the right-handed circular (RHC) and left-handed circular (LHC) polarized photons in the cavity, exploiting the quantum coherence in the pump atoms. For that aim, we derive the generalized micromaser master equation for our system. We find that the dynamics of the micromaser field driven by the pump beam is equivalent to two non-interacting RHC and LHC photonis systems sharing a common non-equilibrium environment. The effect of the shared bath is to mediate an incoherent interaction between the otherwise non-interacting cavity photons, which emerges only if the atoms carry quantum coherence. We take into account cavity losses as a source of quantum decoherence and characterize the quantum entanglement between the LHC and RHC polarized photons in terms of logarithmic negativity, calculated using the dynamical solution of the master equation. Our reseults reveal that while there is no steady-state entanglement, LHC and RHC polarzied photons can be entangled in the transient regime.
翻訳日:2023-02-12 21:17:26 公開日:2022-06-19
# 量子状態におけるコヒーレント結合機械振動子

Coherently Coupled Mechanical Oscillators in the Quantum Regime ( http://arxiv.org/abs/2205.14841v2 )

ライセンス: Link先を確認
Pan-Yu Hou, Jenny J. Wu, Stephen D. Erickson, Daniel C. Cole, Giorgio Zarantonello, Adam D. Brandt, Andrew C. Wilson, Daniel H. Slichter, and Dietrich Leibfried(参考訳) 結合調和振動子は物理学においてユビキタスであり、量子科学において顕著な役割を果たす。 量子力学と量子場理論の基礎であり、第二量子化は粒子の生成と消滅に調和振動子演算子に依存する。 量子トンネル、ビームスプリッター、結合ポテンシャル井戸、"ホッピング用語"、デコヒーレンスなどの多くの現象は結合調和振動子に依存している。 その優位性にもかかわらず、別々の高調波発振器間の直接結合を示す実験システムはほとんどなく、これらの実証は高忠実度量子制御の能力に欠けていた。 ここでは、調和振動子間の単一運動量子のコヒーレントな交換を実現し、この場合、適切な空間変動を持つ振動電場の適用により、結合のタイミング、強度、位相が制御される捕捉されたイオン結晶の運動のスペクトル分離された調和モードを実現する。 高忠実な量子状態移動、運動モードの絡み合い、ホン・ウー・マンデル型干渉を示す。 また,連続変数の量子誤差補正における非破壊的シンドローム測定の重要な前提条件である射影的測定を繰り返して,高調波振動子を基底状態に投影し,その状態を保存する。 調和振動子間の制御可能な結合は、連続変数を持つ量子情報処理、量子シミュレーション、精度測定に潜在的に応用できる。 また、直接アクセスできない捕捉イオンの運動モードを含む冷却および量子論理分光法を可能にすることもできる。

Coupled harmonic oscillators are ubiquitous in physics and play a prominent role in quantum science. They are a cornerstone of quantum mechanics and quantum field theory, where second quantization relies on harmonic oscillator operators to create and annihilate particles. Descriptions of quantum tunneling, beamsplitters, coupled potential wells, "hopping terms", decoherence and many other phenomena rely on coupled harmonic oscillators. Despite their prominence, only a few experimental systems have demonstrated direct coupling between separate harmonic oscillators; these demonstrations lacked the capability for high-fidelity quantum control. Here, we realize coherent exchange of single motional quanta between harmonic oscillators -- in this case, spectrally separated harmonic modes of motion of a trapped ion crystal where the timing, strength, and phase of the coupling are controlled through the application of an oscillating electric field with suitable spatial variation. We demonstrate high-fidelity quantum state transfer, entanglement of motional modes, and Hong-Ou-Mandel-type interference. We also project a harmonic oscillator into its ground state by measurement and preserve that state during repetitions of the projective measurement, an important prerequisite for non-destructive syndrome measurement in continuous-variable quantum error correction. Controllable coupling between harmonic oscillators has potential applications in quantum information processing with continuous variables, quantum simulation, and precision measurements. It can also enable cooling and quantum logic spectroscopy involving motional modes of trapped ions that are not directly accessible.
翻訳日:2023-02-11 06:48:11 公開日:2022-06-19
# 分子スピンクビット生成のためのスピメリズムの創発

Emergence of Spinmerism for Molecular Spin-Qubits Generation ( http://arxiv.org/abs/2206.03978v2 )

ライセンス: Link先を確認
Roseiro Pablo, Petit Louis, Robert Vincent, Yalouz Saad(参考訳) 分子プラットフォームは量子コンピューティングのための情報単位の生成において有望な候補と見なされている。 ここでは、スピン交差金属イオンとラジカル配位子を組み合わせた戦略が、最初に交換相互作用に制限されたモデルから提案されている。 特異スピン状態構造は、2つのダブルトラジカル配位子を持つ一重項/三重項可換金属中心の結合から現れる。 基底状態の性質は電荷移動によって変調され、三重項と一重項の局所金属スピン状態の混合を示す。 さらに、重ね合わせは最大2K_M = K_1 + K_2$に到達し、分子内$K_M$と金属間リガンド$K_1$と直接交換相互作用$K_2$の競合を示唆する。 この結果は、金属中心のスピン状態とラジカル配位子の間の量子絡み合いの元々の表現である \textit{spinmerism} を促進する。 この研究はスピン結合化合物の洞察と分子スピン量子ビットの開発へのインスピレーションを与える。

Molecular platforms are regarded as promising candidates in the generation of units of information for quantum computing. Herein, a strategy combining spin-crossover metal ions and radical ligands is proposed from a model Hamiltonian first restricted to exchange interactions. Unusual spin states structures emerge from the linkage of a singlet/triplet commutable metal centre with two doublet-radical ligands. The ground state nature is modulated by charge transfers and can exhibit a mixture of triplet and singlet local metal spin states. Besides, the superposition reaches a maximum for $2K_M = K_1 + K_2$, suggesting a necessary competition between the intramolecular $K_M$ and inter-metal-ligand $K_1$ and $K_2$ direct exchange interactions. The results promote \textit{spinmerism}, an original manifestation of quantum entanglement between the spin states of a metal centre and radical ligands. The study provides insights into spin-coupled compounds and inspiration for the development of molecular spin-qubits.
翻訳日:2023-02-10 04:09:46 公開日:2022-06-19
# 捕捉イオンのロバスト絡み合いに対する量子制御法

Quantum control methods for robust entanglement of trapped ions ( http://arxiv.org/abs/2206.06064v2 )

ライセンス: Link先を確認
Christophe H. Valahu, Iason Apostolatos, Sebastian Weidt, Winfried K. Hensinger(参考訳) 実用的な量子コンピューティングにおける大きな障害は、スケーラブルで堅牢な高忠実なエンタングゲートの実現である。 この目的のために、量子制御は、絡み合う相互作用をノイズ源に耐性を持たせるため、必須のツールとなっている。 それでも、頑丈な絡み合いに関連する仕事の広さを考えると、特定のニーズに対して適切な量子制御技術を特定するのは難しいかもしれない。 そこで本稿では,非引用的な要約と批判的分析を提供することにより,文献の統合を試みる。 量子制御法は、ロバスト性を拡張するスキームの2つのカテゴリに分けられる。 (i)回転する、または回転する (ii)運動脱コヒーレンス。 我々はマイクロ波と静磁場勾配を用いた$\sigma_x\otimes\sigma_x$ Molmer-Sorensen相互作用の拡張に焦点を当てる。 しかしながら、ここで論じられる技法のいくつかは、他の閉じ込められたイオンアーキテクチャや物理量子ビットの実装と関係がある。 最後に,本論文で提示したいくつかの量子制御手法を組み合わせることにより,スピンと運動デコヒーレンスに対する同時堅牢性による概念実証を実現する。

A major obstacle in the way of practical quantum computing is achieving scalable and robust high-fidelity entangling gates. To this end, quantum control has become an essential tool, as it can make the entangling interaction resilient to sources of noise. Nevertheless, it may be difficult to identify an appropriate quantum control technique for a particular need given the breadth of work pertaining to robust entanglement. To this end, we attempt to consolidate the literature by providing a non-exhaustive summary and critical analysis. The quantum control methods are separated into two categories: schemes which extend the robustness to (i) spin or (ii) motional decoherence. We choose to focus on extensions of the $\sigma_x\otimes\sigma_x$ Molmer-Sorensen interaction using microwaves and a static magnetic field gradient. Nevertheless, some of the techniques discussed here can be relevant to other trapped ion architectures or physical qubit implementations. Finally, we experimentally realize a proof-of-concept interaction with simultaneous robustness to spin and motional decoherence by combining several quantum control methods presented in this manuscript.
翻訳日:2023-02-09 12:48:07 公開日:2022-06-19
# 加速オブザーバのための絡み合った真空状態

Entangled vacuum state for accelerated observers ( http://arxiv.org/abs/2206.09327v1 )

ライセンス: Link先を確認
Leyli Esmaelifar, Behrouz Mirza and Zahra Ebadi(参考訳) ディラック場の絡み合いは研究され、非慣性フレームのユーザ間で量子状態が共有されると加速が増加することで減少することが知られている。 加速オブザーバによって観測される新しい形の絡み合った真空状態は、時空の2つの因果的に切り離された領域で定義される鋭いモーメントを持つ量子場のモードと反対のモーメントの間に絡み合いが存在すると仮定される。 この仮定はシステムの絡み合いに影響を与えない。

Entanglement of Dirac fields has been studied and it is known to decrease with increasing acceleration when a quantum state is shared between users in non-inertial frames. A new form of an entangled vacuum state observed by the accelerated observer is postulated in which it is assumed that entanglement is present between the modes of the quantum field with sharp and opposite momenta defined in two causally disconnected regions of space-time. We find that this assumption does not affect the entanglement of the system.
翻訳日:2023-02-08 21:19:19 公開日:2022-06-19
# Bose-Hubbardモデルに基づく回転速度の量子センシング

Quantum sensing of rotation velocity based on Bose-Hubbard model ( http://arxiv.org/abs/2206.09318v1 )

ライセンス: Link先を確認
Che Jiang, Yaojie Zeng, Qi Qin, Zhirui Gong, and Hongchen Fu(参考訳) この研究は、回転するフレーム内の環幾何学におけるボース・ハバードモデルについて理論的に研究する。 一元変換を用いて実効ハミルトニアンを得るが、回転参照フレームの効果はホッピング定数に付加的な位相を導入している。 平均場理論において、ボース・ハバード模型の位相遷移辺は粒子数とリング半径に依存するだけでなく、回転速度にも依存する。 そこで本研究では,Bose-Hubbardモデルの位相遷移エッジを用いた回転速度検出手法を提案する。 このセンシング法が最も敏感な正確な位相遷移エッジでは、解像度は回転速度、粒子数、環半径に依存するが、ホッピング定数やオンサイト相互作用のようなボース・ハバードモデルのパラメータとは独立である。

This work theoretically study the Bose-Hubbard model in a ring geometry in a rotating frame. We obtain an effective Hamiltonian by using unitary transformation, where the effect of the rotating reference frame is introducing additional phases to the hopping constant. Within the mean-field theory, the phase transition edge of the Bose-Hubbard model not only depends on the particle numbers and the ring radius, but also depends on the rotation velocity. Therefore, we propose a sensing method of the rotation velocity using the phase transition edge of the Bose-Hubbard model. At the exact phase transition edge where this sensing method is most sensitive, the resolution depends on the rotation velocity, the particle numbers and the ring radius, while is independent of the parameters in the Bose-Hubbard model such as the hopping constant and the on-site interaction.
翻訳日:2023-02-08 21:19:11 公開日:2022-06-19
# 超ラジアントパラメトリックx線放射

Superradiant parametric X-ray emission ( http://arxiv.org/abs/2206.09482v1 )

ライセンス: Link先を確認
I. D. Feranchuk and N. Q. San and O. D. Skoromnik(参考訳) 我々は、密度で周期的に変調される電子束から結晶内のパラメトリックx線放射(pxr)のスペクトルを計算する。 我々は、電子の束がxfelチャネルから出ていると考える。 パラメトリックx線放射の周波数と電子束の変調の周波数との共鳴の場合、強い準単色x線パルスのシーケンス -- superradiant parametric x-ray emission (spxe) が、変調周波数の周波数倍の周波数で形成されることを実証する。 極端に非対称な回折の場合のSPXEのインパルスにおける光子の数は、XFELのインパルスにおける光子数に匹敵する。 さらに、SPXEは電子速度に対する大きな角度で方向付けされ、スペクトル内のすべての高調波は自身の角度で放射される。

We compute a spectrum of parametric X-ray radiation (PXR) inside a crystal from a bunch of electrons, which is periodically modulated in density. We consider that the bunch of electrons is exiting from a XFEL channel. We demonstrate that in the case of a resonance between the frequency of parametric X-ray radiation and a frequency of modulation of an electron bunch the sequence of strong quasi-monochromatic X-ray pulses is formed -- superradiant parametric X-ray emission (SPXE) with frequencies multiples of the modulation frequency. The number of photons in the impulse of SPXE in the case of an extremely asymmetric diffraction is comparable with the photon number in the impulse of a XFEL. Moreover the SPXE is directed under the large angle to the electron velocity and every harmonic in the spectrum is emitted under its own angle.
翻訳日:2023-02-08 21:17:11 公開日:2022-06-19
# 電子自己反発の除去

Eliminating Electron Self-Repulsion ( http://arxiv.org/abs/2206.09472v1 )

ライセンス: Link先を確認
Charles T. Sebens(参考訳) 自己相互作用の問題は古典場理論と量子場理論の両方で生じる。 このような問題をディラックと電磁場(量子電磁力学)の量子論でどのように扱うべきかを理解するために、これらの場の古典理論を分析することから始めることができる。 このような古典的場の理論では、電子は電荷の拡散分布を持ち、自己相互作用の対向する点電荷モデルの問題を回避する。 しかし、電子が自己反発を経験する問題は残されている。 この自己反発は古典的場の理論において、異なる粒子間のクーロン相互作用も失わずに排除できない。 しかし、電子自己反発は、ハミルトニアンにおけるクーロン項を完全に正規化することでクーロンゲージの量子電気力学から排除することができる。 通常の順序付けの後、クーロン項は、異なる粒子間の引力と反発を記述する部分と、粒子の生成と消滅を記述する部分を含むが、自己反発を表す部分は存在しない。

Problems of self-interaction arise in both classical and quantum field theories. To understand how such problems are to be addressed in a quantum theory of the Dirac and electromagnetic fields (quantum electrodynamics), we can start by analyzing a classical theory of these fields. In such a classical field theory, the electron has a spread-out distribution of charge that avoids some of the problems of self-interaction facing point charge models. However, there remains the problem that the electron will experience self-repulsion. This self-repulsion cannot be eliminated within classical field theory without also losing Coulomb interactions between distinct particles. But, electron self-repulsion can be eliminated from quantum electrodynamics in the Coulomb gauge by fully normal-ordering the Coulomb term in the Hamiltonian. After normal-ordering, the Coulomb term contains pieces describing attraction and repulsion between distinct particles and also pieces describing particle creation and annihilation, but no pieces describing self-repulsion.
翻訳日:2023-02-08 21:16:57 公開日:2022-06-19
# 混合状態圧縮のための強逆境界

Strong Converse Bounds for Compression of Mixed States ( http://arxiv.org/abs/2206.09415v1 )

ライセンス: Link先を確認
Zahra Baghali Khanian(参考訳) 我々は、エンコーダとアクセス不能な参照システムである$r$の間で共有される一般的な混合状態ソースである$\rho^{ar}$の多くのコピーを考える。 我々は、このソースの圧縮に対して強いコンバースバウンドを得る。 これはただちに、混合状態のアンサンブルのブラインド圧縮に対する強い逆であり、これは一般の混合状態源である$\rho^{ar}$ の特別な場合である。 さらに,混合状態のアンサンブルの可視圧縮について考察する。 2成分状態 $\rho^{ar}$ に対して、新たな量 $e_{\alpha,p}(a:r)_{\rho}$ for $\alpha \in (0,1)\cup (1,\infty)$ を、精製の絡み合いである $e_{p}(a:r)_{\rho}$ の $\alpha$-r\'enyi 一般化として定義する。 $\alpha=1$ に対して、$E_{1,p}(A:R)_{\rho}:=E_{p}(A:R)_{\rho}$ を定義する。 正規化$\lim_{\alpha \to 1^+}E_{\alpha,p}^{\infty}(A:R)_{\rho}:=\lim_{\alpha \to 1^+} \lim_{n \to \infty} \frac{E_{\alpha,p}(A^n:R^n)_{\rho^{\otimes n}}}{n}$ 混合状態のアンサンブルの可視圧縮に対する忠実度は指数的にゼロに収束することを示す。 この正規化量が$\alpha$ に関して連続であるなら、すなわち、$\lim_{\alpha \to 1^+}e_{\alpha,p}^{\infty}(a:r)_{\rho}=e_{p}^{\infty}(a:r)_{\rho}$ であれば、強逆は混合状態のアンサンブルの可視圧縮に対して成立する。

We consider many copies of a general mixed-state source $\rho^{AR}$ shared between an encoder and an inaccessible reference system $R$. We obtain a strong converse bound for the compression of this source. This immediately implies a strong converse for the blind compression of ensembles of mixed states since this is a special case of the general mixed-state source $\rho^{AR}$. Moreover, we consider the visible compression of ensembles of mixed states. For a bipartite state $\rho^{AR}$, we define a new quantity $E_{\alpha,p}(A:R)_{\rho}$ for $\alpha \in (0,1)\cup (1,\infty)$ as the $\alpha$-R\'enyi generalization of the entanglement of purification $E_{p}(A:R)_{\rho}$. For $\alpha=1$, we define $E_{1,p}(A:R)_{\rho}:=E_{p}(A:R)_{\rho}$. We show that for any rate below the regularization $\lim_{\alpha \to 1^+}E_{\alpha,p}^{\infty}(A:R)_{\rho}:=\lim_{\alpha \to 1^+} \lim_{n \to \infty} \frac{E_{\alpha,p}(A^n:R^n)_{\rho^{\otimes n}}}{n}$ the fidelity for the visible compression of ensembles of mixed states exponentially converges to zero. We conclude that if this regularized quantity is continuous with respect to $\alpha$, namely, if $\lim_{\alpha \to 1^+}E_{\alpha,p}^{\infty}(A:R)_{\rho}=E_{p}^{\infty}(A:R)_{\rho}$, then the strong converse holds for the visible compression of ensembles of mixed states.
翻訳日:2023-02-08 21:16:21 公開日:2022-06-19
# 2.1\times{10}^{-13}/\sqrt{\tau}$短期安定性を持つコンパクト459 nm csセル光周波数標準

Compact 459 nm Cs cell optical frequency standard with $2.1\times{10}^{-13}/\sqrt{\tau}$ short-term stability ( http://arxiv.org/abs/2206.09409v1 )

ライセンス: Link先を確認
Jianxiang Miao and Tiantian Shi and Jia Zhang and Jingbiao Chen(参考訳) 459 nm 6S$_{1/2}$ - 7P$_{1/2}$熱$^{133}$Cs原子を変調転移分光法(MTS)を用いて10 mm$\times$50 mmガラスセルで転移させることにより、拡張キャビティダイオードレーザーをコンパクトな光周波数標準を実現する。 このレーザーの自己推定周波数安定性は1.4\times{10}^{-14}/\sqrt{\tau}$である。 ヘテロダイン測定により、MSSロックの直線幅狭め効果を検証するとともに、ロックレーザの周波数安定性を測定する。 各レーザーの直線幅は、TS安定化後の69.6kHzから10.3kHzに6.75倍に縮小される。 ビート検出によって測定されたアラン偏差は、MTS安定化レーザー毎に2.1\times{10}^{-13}/\sqrt{\tau}$である。 さらに、ヘテロダイン測定に基づいて7P$_{1/2}$エネルギーレベルの超微細構造を測定し、Cs 7P$_{1/2}$レベルの磁気双極子定数$A$を94.38(6)MHzと計算する。 このコンパクトな光周波数標準は、レーザー干渉計、レーザー冷却、測地線などの高安定性レーザーを必要とする他の用途でも使用できる。

We achieve a compact optical frequency standard with an extended cavity diode laser locked to the 459 nm 6S$_{1/2}$ - 7P$_{1/2}$ transition of thermal $^{133}$Cs atoms in a $\phi$ 10 mm $\times$ 50 mm glass cell, using modulation transfer spectroscopy (MTS). The self-estimated frequency stability of this laser is $1.4\times{10}^{-14}/\sqrt{\tau}$. With heterodyne measurement, we verify the linewidth-narrowing effect of MTS locking and measure the frequency stability of the locked laser. The linewidth of each laser is reduced from the free-running 69.6 kHz to 10.3 kHz after MTS stabilization, by a factor of 6.75. The Allan deviation measured via beat detection is $2.1\times{10}^{-13}/\sqrt{\tau}$ for each MTS-stabilized laser. In addition, we measure the hyperfine structure of the 7P$_{1/2}$ energy level based on the heterodyne measurements, and calculate the magnetic dipole constant $A$ of the Cs 7P$_{1/2}$ level to be 94.38(6) MHz, which agrees well with previous measurements. This compact optical frequency standard can also be used in other applications that require high-stability lasers, such as laser interferometry, laser cooling, geodesy, and so on.
翻訳日:2023-02-08 21:15:35 公開日:2022-06-19
# SZXダイアグラムによる高レベル量子プログラムの符号化

Encoding High-level Quantum Programs as SZX-diagrams ( http://arxiv.org/abs/2206.09376v1 )

ライセンス: Link先を確認
Agust\'in Borgna, Rafael Romero(参考訳) スケーラブルなZX計算は、量子状態間の線形写像を推論するために使われるコンパクトなグラフィカル言語である。 これらの図には複数のアプリケーションがありますが、ケースバイケースで構築する必要があります。 本稿では,線形依存型プロトキッパーd言語の断片として実装された量子プログラムをszxダイアグラムの族としてエンコードする手法を提案する。 我々は、変換可能なproto-quipper-dプログラムのサブセットを定義し、プログラムのサイズで線形に成長するダイアグラムとして非自明なアルゴリズムをエンコードできることを示す。

The Scalable ZX-calculus is a compact graphical language used to reason about linear maps between quantum states. These diagrams have multiple applications, but they frequently have to be constructed in a case-by-case basis. In this work we present a method to encode quantum programs implemented in a fragment of the linear dependently typed Proto-Quipper-D language as families of SZX-diagrams. We define a subset of translatable Proto-Quipper-D programs and show that our procedure is able to encode non-trivial algorithms as diagrams that grow linearly on the size of the program.
翻訳日:2023-02-08 21:15:05 公開日:2022-06-19
# カオス支援多体トンネル

Chaos assisted many-body tunnelling ( http://arxiv.org/abs/2206.09371v1 )

ライセンス: Link先を確認
Urbashi Satpathi, Sayak Ray, and Amichay Vardi(参考訳) 2つの弱結合bose-josephson接合間のカオスとトンネルの相互作用について検討した。 複合系の古典相空間は、カオス海によって分離された粒子と励起のための準積分可能な自己トラップ島を含む混合構造を有する。 これらの島々が支持する巨視的schr\"odinger cat状態間の多体動的トンネルギャップはカオスエンハンスであることを示す。 多体トンネル速度は、システムパラメータや粒子番号の小さなバリエーションで数桁にわたって変動する。

We study the interplay of chaos and tunnelling between two weakly-coupled Bose-Josephson junctions. The classical phase space of the composite system has a mixed structure including quasi-integrable self-trapping islands for particles and excitations, separated by a chaotic sea. We show that the many-body dynamical tunnelling gap between macroscopic Schr\"odinger cat states supported by these islands is chaos-enhanced. The many-body tunnelling rate fluctuates over several orders of magnitude with small variations of the system parameters or the particle number.
翻訳日:2023-02-08 21:14:55 公開日:2022-06-19
# 循環行列の量子化とその量子弦処理への応用

Quantum implementation of circulant matrices and its use in quantum string processing ( http://arxiv.org/abs/2206.09364v1 )

ライセンス: Link先を確認
Ammar Daskin(参考訳) 文字列問題は、多くの場合、木や配列として構造化された接尾辞のような特殊なデータ構造を使うことで、より早く解くことができる。 本稿では,それらのデータ構造で用いられる接尾辞を,対数時間で実装可能な量子演算子として循環行列を用いて得られることを示す。 したがって、文字列が量子状態として与えられると、提示された回路実装を用いて量子コンピュータ上で効率的に文字列処理を行うことができる。

Strings problems in general can be solved faster by using special data structures such as suffixes in many cases structured as trees and arrays. In this paper, we show that suffixes used in those data structures can be obtained by using circulant matrices as a quantum operator which can be implemented in logarithmic time. Hence, if the strings are given as quantum states, using the presented circuit implementation one can do string processing efficiently on quantum computers.
翻訳日:2023-02-08 21:14:48 公開日:2022-06-19
# 深部ReLUニューラルネットワークを用いたシフト不変空間の近似

Approximation in shift-invariant spaces with deep ReLU neural networks ( http://arxiv.org/abs/2005.11949v3 )

ライセンス: Link先を確認
Yunfei Yang, Zhen Li, Yang Wang(参考訳) 本稿では,信号処理,画像処理,通信などにおいて広く用いられている拡張シフト不変空間の近似関数に対する深部ReLUニューラルネットワークの表現力について検討する。 近似誤差境界は、ニューラルネットワークの幅と深さに対して推定される。 ネットワーク構築は、ディープニューラルネットワークのビット抽出とデータ適合能力に基づいている。 我々の主な結果の応用として、ソボレフ空間やベッソフ空間のような古典函数空間の近似率は得られる。 また、ソボレフ空間に対する$L^p (1\le p \le \infty)$近似誤差の下限を与え、これはニューラルネットワークの構築が漸近的に対数係数まで最適であることを示している。

We study the expressive power of deep ReLU neural networks for approximating functions in dilated shift-invariant spaces, which are widely used in signal processing, image processing, communications and so on. Approximation error bounds are estimated with respect to the width and depth of neural networks. The network construction is based on the bit extraction and data-fitting capacity of deep neural networks. As applications of our main results, the approximation rates of classical function spaces such as Sobolev spaces and Besov spaces are obtained. We also give lower bounds of the $L^p (1\le p \le \infty)$ approximation error for Sobolev spaces, which show that our construction of neural network is asymptotically optimal up to a logarithmic factor.
翻訳日:2022-11-29 05:38:20 公開日:2022-06-19
# 多変量特異スペクトル解析とその変異について

On Multivariate Singular Spectrum Analysis and its Variants ( http://arxiv.org/abs/2006.13448v5 )

ライセンス: Link先を確認
Anish Agarwal, Abdullah Alomar, Devavrat Shah(参考訳) 多変量特異スペクトル分析(mSSA)の変種を導入,解析し,多変量時系列をインプットし,予測する一般的な時系列法を提案する。 時系列にn$の時系列とt$の観測を与えられた時空間的因子モデルでは、予測平均二乗誤差をインプテーションとサンプル外予測の両方に設定し、1 / \sqrt{\min(n, t )t}$と効果的に拡張する。 これは改善点です (i)$/\sqrt{T}$SSAのエラースケーリング、mSSAを単変量時系列に制限すること。 (ii)1/\min(N, T)$エラースケーリングは,データ中の時間構造を利用していない行列推定法である。 私たちが導入した時空間モデルは、調和、多項式、微分可能周期関数、ホルダー連続関数の任意の有限和と積を含む。 我々のアウトオブサンプル予測結果は、時空間モデルの下でオンライン学習に独立した関心を持つ可能性がある。 実験的に、ベンチマークデータセット上で、我々のmSSAの変種は最先端のニューラルネットワーク時系列メソッド(例えばDeepAR、LSTM)と競合して動作し、ベクトル自己回帰(VAR)のような古典的手法よりも大幅に優れている。 最後にmSSAの拡張を提案する。 (i)時系列の時間変動を推定する変種 (ii)$N$と$T$の特定のレギュレーションに対してより良いサンプリング複雑性を持つテンソル変種。

We introduce and analyze a variant of multivariate singular spectrum analysis (mSSA), a popular time series method to impute and forecast a multivariate time series. Under a spatio-temporal factor model we introduce, given $N$ time series and $T$ observations per time series, we establish prediction mean-squared-error for both imputation and out-of-sample forecasting effectively scale as $1 / \sqrt{\min(N, T )T}$. This is an improvement over: (i) $1 /\sqrt{T}$ error scaling of SSA, the restriction of mSSA to a univariate time series; (ii) $1/\min(N, T)$ error scaling for matrix estimation methods which do not exploit temporal structure in the data. The spatio-temporal model we introduce includes any finite sum and products of: harmonics, polynomials, differentiable periodic functions, and Holder continuous functions. Our out-of-sample forecasting result could be of independent interest for online learning under a spatio-temporal factor model. Empirically, on benchmark datasets, our variant of mSSA performs competitively with state-of-the-art neural-network time series methods (e.g. DeepAR, LSTM) and significantly outperforms classical methods such as vector autoregression (VAR). Finally, we propose extensions of mSSA: (i) a variant to estimate time-varying variance of a time series; (ii) a tensor variant which has better sample complexity for certain regimes of $N$ and $T$.
翻訳日:2022-11-17 09:15:33 公開日:2022-06-19
# 部分的参加を伴う分散・フェデレーション学習における不均一環境における双方向圧縮:密接な収束保証

Bidirectional compression in heterogeneous settings for distributed or federated learning with partial participation: tight convergence guarantees ( http://arxiv.org/abs/2006.14591v4 )

ライセンス: Link先を確認
Constantin Philippenko and Aymeric Dieuleveut(参考訳) コミュニケーションの制約とデバイス部分参加を伴う分散あるいは連合環境での学習の問題に取り組むために,artemisというフレームワークを導入する。 いくつかのワーカー(ほとんどがサンプル)は、中央サーバを使用して計算を集約する最適化プロセスを実行します。 通信コストを軽減するため、artemisは(ワーカーからサーバへ、逆に)両方の方向に送信される情報をメモリ機構と組み合わせて圧縮することができる。 既存のアルゴリズムでは(サーバへの)一方向圧縮のみを考えるか、圧縮演算子に非常に強い仮定を用いるように改善され、デバイスの部分的な参加を考慮していないことが多い。 確率勾配(最適点のみに有界なノイズの分散)の弱い仮定の下で、高速収束率(しきい値まで線形)を提供し、一方向および双方向圧縮におけるメモリの影響を強調し、Polyak-Ruppert平均化を解析する。 我々は分布の収束を利用して、実際の圧縮限界を強調する漸近的分散の低い境界を得る。 デバイス部分参加の課題に取り組むための2つのアプローチを提案し,その妥当性を実証するための実験結果を提供する。

We introduce a framework - Artemis - to tackle the problem of learning in a distributed or federated setting with communication constraints and device partial participation. Several workers (randomly sampled) perform the optimization process using a central server to aggregate their computations. To alleviate the communication cost, Artemis allows to compress the information sent in both directions (from the workers to the server and conversely) combined with a memory mechanism. It improves on existing algorithms that only consider unidirectional compression (to the server), or use very strong assumptions on the compression operator, and often do not take into account devices partial participation. We provide fast rates of convergence (linear up to a threshold) under weak assumptions on the stochastic gradients (noise's variance bounded only at optimal point) in non-i.i.d. setting, highlight the impact of memory for unidirectional and bidirectional compression, analyze Polyak-Ruppert averaging. We use convergence in distribution to obtain a lower bound of the asymptotic variance that highlights practical limits of compression. We propose two approaches to tackle the challenging case of devices partial participation and provide experimental results to demonstrate the validity of our analysis.
翻訳日:2022-11-17 03:22:36 公開日:2022-06-19
# 強凸有限和最適化のための低次複素境界

Tight Lower Complexity Bounds for Strongly Convex Finite-Sum Optimization ( http://arxiv.org/abs/2010.08766v2 )

ライセンス: Link先を確認
Min Zhang, Yao Shu, Kun He(参考訳) 有限サム最適化は機械学習の分野で重要な役割を担い、近年は関心の高まりを招いている。 この最適化問題に対処するために、様々なランダム化漸進勾配法が提案され、それらの収束のために上層と下層の複雑性境界が保証されている。 それにもかかわらず、これらの下限は特定の条件に依存する:決定論的最適化アルゴリズム、または成分関数の選択のための固定確率分布。 一方、いくつかの下限は、特定の場合において最もよく知られた方法の上限にさえ一致しない。 これらの制限を断ち切るために、有限サム最適化の典型的な2つのケースに対して、SAG、SAGA、SVRG、SARAHを含むランダム化インクリメンタル勾配法の厳密なより低い複雑性境界を導出する。 具体的には,各成分関数が強凸かつ滑らかである場合,また,有限和関数が強凸で成分関数が平均滑らかである場合,sdcaやkatyushaxの高次複雑性と密に一致する場合,katyushaやvradaの高次複雑度と密に一致した。

Finite-sum optimization plays an important role in the area of machine learning, and hence has triggered a surge of interest in recent years. To address this optimization problem, various randomized incremental gradient methods have been proposed with guaranteed upper and lower complexity bounds for their convergence. Nonetheless, these lower bounds rely on certain conditions: deterministic optimization algorithm, or fixed probability distribution for the selection of component functions. Meanwhile, some lower bounds even do not match the upper bounds of the best known methods in certain cases. To break these limitations, we derive tight lower complexity bounds of randomized incremental gradient methods, including SAG, SAGA, SVRG, and SARAH, for two typical cases of finite-sum optimization. Specifically, our results tightly match the upper complexity of Katyusha or VRADA when each component function is strongly convex and smooth, and tightly match the upper complexity of SDCA without duality and of KatyushaX when the finite-sum function is strongly convex and the component functions are average smooth.
翻訳日:2022-10-06 11:38:23 公開日:2022-06-19
# 閾値付きラッソ・バンディット

Thresholded Lasso Bandit ( http://arxiv.org/abs/2010.11994v4 )

ライセンス: Link先を確認
Kaito Ariu, Kenshi Abe, Alexandre Prouti\`ere(参考訳) 本稿では,特徴ベクトルが大きめの次元$d$である場合,例えば$s_0\ll d$のような報酬関数にのみ依存する場合において,スパース確率的文脈線形包帯における後悔の最小化問題を再検討する。 私たちはThresholded Lasso banditというアルゴリズムを紹介します。 (i)報酬関数を定義するベクトルとそのスパースサポート、すなわち重要な特徴要素をしきい値付きlassoフレームワークを用いて推定する。 (二)その支持に投じられたこの推定に従って腕を優しく選別する。 このアルゴリズムはスパーシティ指数 $s_0$ の事前知識を必要とせず、いくつかの対称的な仮定の下でパラメータフリーとなる。 この単純なアルゴリズムでは、一般に$\mathcal{O}( \log d + \sqrt{T} )$、いわゆるマージン条件の下で$\mathcal{O}( \log d + \log T)$としてスケールする非漸近的後悔の上界(腕の報酬の分離に関する確率的条件)を確立する。 以前のアルゴリズムの後悔は、2つの設定でそれぞれ$\mathcal{O}( \log d + \sqrt{T \log (d T)})$と$\mathcal{O}( \log T \log d)$にスケールする。 数値実験により,本アルゴリズムが既存手法より優れていることを確認した。

In this paper, we revisit the regret minimization problem in sparse stochastic contextual linear bandits, where feature vectors may be of large dimension $d$, but where the reward function depends on a few, say $s_0\ll d$, of these features only. We present Thresholded Lasso bandit, an algorithm that (i) estimates the vector defining the reward function as well as its sparse support, i.e., significant feature elements, using the Lasso framework with thresholding, and (ii) selects an arm greedily according to this estimate projected on its support. The algorithm does not require prior knowledge of the sparsity index $s_0$ and can be parameter-free under some symmetric assumptions. For this simple algorithm, we establish non-asymptotic regret upper bounds scaling as $\mathcal{O}( \log d + \sqrt{T} )$ in general, and as $\mathcal{O}( \log d + \log T)$ under the so-called margin condition (a probabilistic condition on the separation of the arm rewards). The regret of previous algorithms scales as $\mathcal{O}( \log d + \sqrt{T \log (d T)})$ and $\mathcal{O}( \log T \log d)$ in the two settings, respectively. Through numerical experiments, we confirm that our algorithm outperforms existing methods.
翻訳日:2022-10-04 05:38:10 公開日:2022-06-19
# 小隊c-v2xシステムにおけるチャネル割り当てと電力割当のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Channel Assignment and Power Allocation in Platoon-Based C-V2X Systems ( http://arxiv.org/abs/2011.04555v2 )

ライセンス: Link先を確認
Hung V. Vu, Mohammad Farzanullah, Zheyu Liu, Duy H. N. Nguyen, Robert Morawski and Tho Le-Ngoc(参考訳) 本稿では、複数の車両間ネットワーク(V2N)アップリンクが複数の車両間ネットワーク(V2V)プラトン(V2V)と時間的リソースを共有し、接続された車両群と自律車両群が緊密に協調して移動できるようにする。 車両環境における高いユーザ移動性の性質から,グローバルチャネル情報に依存する従来の集中型最適化アプローチは,多数のユーザを持つC-V2Xシステムでは実現できない可能性がある。 マルチエージェント強化学習(RL)手法を用いて,この課題を克服するための分散リソース割り当て(RA)アルゴリズムを提案する。 具体的には,ra問題をマルチエージェントシステムとしてモデル化する。 ローカルチャネル情報のみに基づいて、エージェントとして振る舞う各小隊リーダーが集団で相互作用し、サブバンドと電力レベルの最適な組み合わせを選択して信号を送信する。 この目的に向けて、両深度Q-ラーニングアルゴリズムを用いて、V2Nリンクの総和レートを最大化し、所望のレイテンシ制限で各V2Vリンクのパケット配信確率を満たすことを目的としてエージェントを協調訓練する。 シミュレーションの結果,提案したRLに基づくアルゴリズムは,よく知られた網羅的探索アルゴリズムと比較して高い性能を示した。

We consider the problem of joint channel assignment and power allocation in underlaid cellular vehicular-to-everything (C-V2X) systems where multiple vehicle-to-network (V2N) uplinks share the time-frequency resources with multiple vehicle-to-vehicle (V2V) platoons that enable groups of connected and autonomous vehicles to travel closely together. Due to the nature of high user mobility in vehicular environment, traditional centralized optimization approach relying on global channel information might not be viable in C-V2X systems with large number of users. Utilizing a multi-agent reinforcement learning (RL) approach, we propose a distributed resource allocation (RA) algorithm to overcome this challenge. Specifically, we model the RA problem as a multi-agent system. Based solely on the local channel information, each platoon leader, acting as an agent, collectively interacts with each other and accordingly selects the optimal combination of sub-band and power level to transmit its signals. Toward this end, we utilize the double deep Q-learning algorithm to jointly train the agents under the objectives of simultaneously maximizing the sum-rate of V2N links and satisfying the packet delivery probability of each V2V link in a desired latency limitation. Simulation results show that our proposed RL-based algorithm provides a close performance compared to that of the well-known exhaustive search algorithm.
翻訳日:2022-09-28 02:21:19 公開日:2022-06-19
# 多項ロジット文脈バンディットのための扱いやすいオンライン学習アルゴリズム

A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit ( http://arxiv.org/abs/2011.14033v4 )

ライセンス: Link先を確認
Priyank Agrawal, Theja Tulabandhula and Vashist Avadhanula(参考訳) 本稿では,MNL-Bandit問題の文脈変化について考察する。 より具体的には、動的集合最適化問題を考えると、意思決定者が消費者に製品のサブセット(ソートメント)を提供し、各ラウンドでその応答を観察する。 消費者は有用性を最大化するために製品を購入する。 我々は、一連の属性が製品を記述すると仮定し、製品の平均効用はこれらの属性の値に線形であると仮定する。 本稿では,広く使用されているMNLモデルを用いて消費者選択行動のモデル化を行い,モデルパラメータを動的に学習する上での意思決定問題について考察する。 この問題は近年注目されているが、既存の多くの手法では難解な非凸最適化問題を解くことがしばしばある。 彼らの理論的な性能保証は、禁止的に大きい問題依存パラメータに依存する。 特に、この問題に対する既存のアルゴリズムは、$o(\sqrt{\kappa d t})$で制限されていることを後悔している。 本稿では,楽観的なアルゴリズムを提案し,その後悔は$O(\sqrt{dT} + \kappa)$で束縛されていることを示す。 さらに,好ましくない後悔保証を保ちながら,扱いやすい意思決定を可能にする最適化ステップの凸緩和を提案する。

In this paper, we consider the contextual variant of the MNL-Bandit problem. More specifically, we consider a dynamic set optimization problem, where a decision-maker offers a subset (assortment) of products to a consumer and observes their response in every round. Consumers purchase products to maximize their utility. We assume that a set of attributes describes the products, and the mean utility of a product is linear in the values of these attributes. We model consumer choice behavior using the widely used Multinomial Logit (MNL) model and consider the decision maker problem of dynamically learning the model parameters while optimizing cumulative revenue over the selling horizon $T$. Though this problem has attracted considerable attention in recent times, many existing methods often involve solving an intractable non-convex optimization problem. Their theoretical performance guarantees depend on a problem-dependent parameter which could be prohibitively large. In particular, existing algorithms for this problem have regret bounded by $O(\sqrt{\kappa d T})$, where $\kappa$ is a problem-dependent constant that can have an exponential dependency on the number of attributes. In this paper, we propose an optimistic algorithm and show that the regret is bounded by $O(\sqrt{dT} + \kappa)$, significantly improving the performance over existing methods. Further, we propose a convex relaxation of the optimization step, which allows for tractable decision-making while retaining the favourable regret guarantee.
翻訳日:2022-09-19 19:22:37 公開日:2022-06-19
# (参考訳) 顕在的統計ソフトの敵意調査

Adversarial Scrutiny of Evidentiary Statistical Software ( http://arxiv.org/abs/2206.09305v1 )

ライセンス: CC BY 4.0
Rediet Abebe, Moritz Hardt, Angela Jin, John Miller, Ludwig Schmidt, Rebecca Wexler(参考訳) 米国の刑事法体系は、ますます、人を有罪とし、投獄するためにソフトウェア出力に依存している。 毎年、多くのケースで、政府は、確率的遺伝子型付け、環境オーディオ検出、ツールマーク分析ツールなどの統計ソフトウェアからの証拠に基づいて、弁護人が完全に横断的または精査できないという一連の決定を下している。 これは、被告が個人の権利を保護するために検察の事件を捜査し、試験する能力に依存する、敵対的な刑事法制度のコミットメントを損なう。 このようなソフトウェアからのアウトプットを敵対的に精査する必要性に対応して、実証統計ソフトウェアの有効性を検証するための監査フレームワークとして、ロバストな逆テストを提案する。 我々は、ロバストな機械学習とアルゴリズムの公平性に関する最近の研究の多くを描いて、防衛利用のためのロバストな敵対的テストの概念を定義し、運用する。 この枠組みは,これらのツールを精査するプロセスを標準化し,被告弁護士に対して,事件に最も関係のある事例に対する妥当性を検討するよう促すものである。 さらに、米国刑事法制度における既存の構造的・制度的課題について論じ、これや他の監査枠組みの実施の障壁を生じさせ、これらの懸念に対処するための政策変更に関する議論を締めくくる。

The U.S. criminal legal system increasingly relies on software output to convict and incarcerate people. In a large number of cases each year, the government makes these consequential decisions based on evidence from statistical software -- such as probabilistic genotyping, environmental audio detection, and toolmark analysis tools -- that defense counsel cannot fully cross-examine or scrutinize. This undermines the commitments of the adversarial criminal legal system, which relies on the defense's ability to probe and test the prosecution's case to safeguard individual rights. Responding to this need to adversarially scrutinize output from such software, we propose robust adversarial testing as an audit framework to examine the validity of evidentiary statistical software. We define and operationalize this notion of robust adversarial testing for defense use by drawing on a large body of recent work in robust machine learning and algorithmic fairness. We demonstrate how this framework both standardizes the process for scrutinizing such tools and empowers defense lawyers to examine their validity for instances most relevant to the case at hand. We further discuss existing structural and institutional challenges within the U.S. criminal legal system that may create barriers for implementing this and other such audit frameworks and close with a discussion on policy changes that could help address these concerns.
翻訳日:2022-06-26 00:25:39 公開日:2022-06-19
# (参考訳) TBraTS: 信頼できる脳腫瘍分離

TBraTS: Trusted Brain Tumor Segmentation ( http://arxiv.org/abs/2206.09309v1 )

ライセンス: CC BY 4.0
Ke Zou and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 最近の脳腫瘍のセグメンテーションの精度は改善されているが、信頼性と堅牢性は依然として低い。 不確実性の推定は、セグメンテーション結果に対する信頼度を測定するため、この状況を変える効果的な方法の1つです。 本稿では, 骨盤ネットワークの過剰な計算負担や修正を伴わずに, 頑健なセグメンテーション結果と確実な不確実性推定を生成できる信頼性脳腫瘍セグメンテーションネットワークを提案する。 本手法では,セグメンテーションのクラス確率をディリクレ分布としてパラメータ化することにより,バックボーンニューラルネットワークの予測を主観的意見として扱う主観的論理理論を用いて,不確かさを明示的にモデル化する。 一方、信頼できるセグメンテーションフレームワークは、最終セグメンテーション結果につながる機能から信頼できる証拠を収集する関数を学習する。 全体として、統一された信頼されたセグメンテーションフレームワークは、分散サンプルに対する信頼性と堅牢性をモデルに内包しています。 堅牢性と信頼性におけるモデルの有効性を評価するため,BraTS 2019データセット上で定性的かつ定量的な実験を行った。

Despite recent improvements in the accuracy of brain tumor segmentation, the results still exhibit low levels of confidence and robustness. Uncertainty estimation is one effective way to change this situation, as it provides a measure of confidence in the segmentation results. In this paper, we propose a trusted brain tumor segmentation network which can generate robust segmentation results and reliable uncertainty estimations without excessive computational burden and modification of the backbone network. In our method, uncertainty is modeled explicitly using subjective logic theory, which treats the predictions of backbone neural network as subjective opinions by parameterizing the class probabilities of the segmentation as a Dirichlet distribution. Meanwhile, the trusted segmentation framework learns the function that gathers reliable evidence from the feature leading to the final segmentation results. Overall, our unified trusted segmentation framework endows the model with reliability and robustness to out-of-distribution samples. To evaluate the effectiveness of our model in robustness and reliability, qualitative and quantitative experiments are conducted on the BraTS 2019 dataset.
翻訳日:2022-06-25 23:57:41 公開日:2022-06-19
# (参考訳) 不均衡分類のためのSVMの一次推定下位解法

Primal Estimated Subgradient Solver for SVM for Imbalanced Classification ( http://arxiv.org/abs/2206.09311v1 )

ライセンス: CC BY 4.0
John Sun(参考訳) 我々は,PEGASOS SVMバランスが8.6~1~130~1のマイノリティ比を持つ不均衡データセットに対して良好な性能を発揮することを示す実験を行うことを目的とする。 学習曲線を調べることにより,その性能を評価する。 また、検証曲線によるハイパーパラメータの変化の効果についても検討する。 我々は、ペガソスのコストに敏感なsvmの結果を、彼の線形svm decidl法を用いて解析した3つのデータセットと比較した。 マルチパラメータのクロスバリデーション中に混合データ型を格納するための辞書があるため、MATLABではなくPythonを使用します。

We aim to demonstrate in experiments that our cost sensitive PEGASOS SVM balances achieve good performance on imbalanced data sets with a Majority to Minority Ratio ranging from 8.6 to one through 130 to one. We evaluate the performance by examining the learning curves. We will also examine the effect of varying the hyperparameters via validation curves. We compare our PEGASOS Cost-Sensitive SVM's results on three of the datasets Ding analyzed using his LINEAR SVM DECIDL method. We will use Python rather than MATLAB as python has dictionaries for storing mixed data types during multi-parameter cross-validation.
翻訳日:2022-06-25 23:48:11 公開日:2022-06-19
# (参考訳) FRAPPE: $\underline{\text{F}}$ast $\underline{\text{Ra}}$nk $\underline{\text{App}}$roximation with $\underline{\text{E}}$xplainable Features for Tensors

FRAPPE: $\underline{\text{F}}$ast $\underline{\text{Ra}}$nk $\underline{\text{App}}$roximation with $\underline{\text{E}}$xplainable Features for Tensors ( http://arxiv.org/abs/2206.09316v1 )

ライセンス: CC BY-SA 4.0
William Shiao and Evangelos E. Papalexakis(参考訳) テンソル分解は多次元データの構造解析に有効であることが証明されている。 しかし、これらのメソッドのほとんどはキーパラメータ、すなわち所望のコンポーネントの数を必要とします。 CANDECOMP/PARAFAC分解(CPD)の場合、この値は標準ランクとして知られ、結果の品質に大きな影響を与える。 既存の手法ではヒューリスティックス法やベイズ法を用いて CPD を計算し、計算コストを極端に高めている。 本研究では, cpd を計算せずにテンソルの正準位を推定するための, 安価な教師付き自己教師付き手法である frappe と self-frappe を提案する。 FRAPPEは、実世界の実例を必要とせず、完全に総合的なトレーニングセットを使用するため、安価に管理されている。 これらの手法を合成テンソル,既知のランクの実テンソル,畳み込みニューラルネットワークの重みテンソルについて評価する。 FRAPPE と Self-FRAPPE は,それぞれ 15 %$ と 10 %$ の MAPE の改善,4000 倍の $ と 13 倍の $ のベースラインに対する評価速度の向上など,有効性と速度の両面で大きな改善をもたらすことを示す。

Tensor decompositions have proven to be effective in analyzing the structure of multidimensional data. However, most of these methods require a key parameter: the number of desired components. In the case of the CANDECOMP/PARAFAC decomposition (CPD), this value is known as the canonical rank and greatly affects the quality of the results. Existing methods use heuristics or Bayesian methods to estimate this value by repeatedly calculating the CPD, making them extremely computationally expensive. In this work, we propose FRAPPE and Self-FRAPPE: a cheaply supervised and a self-supervised method to estimate the canonical rank of a tensor without ever having to compute the CPD. We call FRAPPE cheaply supervised because it uses a fully synthetic training set without requiring real-world examples. We evaluate these methods on synthetic tensors, real tensors of known rank, and the weight tensor of a convolutional neural network. We show that FRAPPE and Self-FRAPPE offer large improvements in both effectiveness and speed, with a respective $15\%$ and $10\%$ improvement in MAPE and an $4000\times$ and $13\times$ improvement in evaluation speed over the best-performing baseline.
翻訳日:2022-06-25 23:42:43 公開日:2022-06-19
# (参考訳) TrafficFlowGAN:不確実性定量化のための物理インフォームドフローに基づく生成逆ネットワーク

TrafficFlowGAN: Physics-informed Flow based Generative Adversarial Network for Uncertainty Quantification ( http://arxiv.org/abs/2206.09319v1 )

ライセンス: CC BY 4.0
Zhaobin Mo, Yongjie Fu, Daran Xu, Xuan Di(参考訳) 本稿では,動的システムの不確実性定量化(UQ)のための物理インフォームドフローベース生成逆ネットワークであるTrafficFlowGANを提案する。 TrafficFlowGANは、データ可能性を明確に見積もるために、正規化フローモデルをジェネレータとして採用している。 このフローモデルは、データ可能性の最大化と、畳み込み判別器を騙すことができる合成データを生成するために訓練される。 さらに,従来の物理情報,いわゆる物理インフォームド・ディープ・ラーニング(PIDL)を用いて,このトレーニングプロセスを標準化する。 我々の知る限りでは、UQ問題に対するフロー、GAN、PIDLの統合を最初に提案します。 提案モデルの性能を示す例として,部分観測データを用いて交通変数(交通密度や速度など)を推定することを目的とした交通状態推定(TSE)を挙げる。 確率微分方程式の解を学習するために,提案モデルを適用した数値実験を行う。 その結果,提案モデルの堅牢性と精度,および機械学習代理モデルの学習能力が示された。 また、実世界のデータセットであるNGSIM(Next Generation SIMulation)を用いて、提案したTrafficFlowGANが、純粋なフローモデル、物理インフォームドフローモデル、フローベースGANモデルなど、ベースラインより優れていることを示す。

This paper proposes the TrafficFlowGAN, a physics-informed flow based generative adversarial network (GAN), for uncertainty quantification (UQ) of dynamical systems. TrafficFlowGAN adopts a normalizing flow model as the generator to explicitly estimate the data likelihood. This flow model is trained to maximize the data likelihood and to generate synthetic data that can fool a convolutional discriminator. We further regularize this training process using prior physics information, so-called physics-informed deep learning (PIDL). To the best of our knowledge, we are the first to propose an integration of flow, GAN and PIDL for the UQ problems. We take the traffic state estimation (TSE), which aims to estimate the traffic variables (e.g. traffic density and velocity) using partially observed data, as an example to demonstrate the performance of our proposed model. We conduct numerical experiments where the proposed model is applied to learn the solutions of stochastic differential equations. The results demonstrate the robustness and accuracy of the proposed model, together with the ability to learn a machine learning surrogate model. We also test it on a real-world dataset, the Next Generation SIMulation (NGSIM), to show that the proposed TrafficFlowGAN can outperform the baselines, including the pure flow model, the physics-informed flow model, and the flow based GAN model.
翻訳日:2022-06-25 23:28:56 公開日:2022-06-19
# (参考訳) モデルに基づく強化学習に関する調査

A Survey on Model-based Reinforcement Learning ( http://arxiv.org/abs/2206.09328v1 )

ライセンス: CC BY 4.0
Fan-Ming Luo, Tian Xu, Hang Lai, Xiong-Hui Chen, Weinan Zhang, Yang Yu(参考訳) 強化学習(RL)は、環境と相互作用する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。 RLは、大規模な試行錯誤を可能にする複雑なビデオゲームをプレイする上で、優れた成功を収めています。 サンプル効率の向上とエラー低減のため、モデルベース強化学習(mbrl)は有望な方向性であると考えられており、実コストで試行錯誤を行うことができる環境モデルを構築している。 本調査では,近年の深部RLの進展に焦点をあてて,MBRLを概観する。 非タブラキ環境の場合、学習環境モデルと実環境との間には常に一般化誤差が存在する。 そのため、環境モデルにおけるポリシートレーニングと実際の環境におけるポリシートレーニングの相違を分析することが重要であり、それによって、より良いモデル学習、モデル利用、ポリシートレーニングのためのアルゴリズム設計がガイドされる。 さらに、オフラインRL、ゴール条件付きRL、マルチエージェントRL、メタRLなど、RLの他の形態におけるモデルベース手法の最近の進歩についても論じる。 さらに、実世界のタスクにおけるMBRLの適用性と利点についても論じる。 最後に,MBRLの将来開発の可能性について論じることで,この調査を終わらせる。 私たちは、MBRLは見落とされた現実世界のアプリケーションにおいて大きな可能性と利点を持っていると考えています。

Reinforcement learning (RL) solves sequential decision-making problems via a trial-and-error process interacting with the environment. While RL achieves outstanding success in playing complex video games that allow huge trial-and-error, making errors is always undesired in the real world. To improve the sample efficiency and thus reduce the errors, model-based reinforcement learning (MBRL) is believed to be a promising direction, which builds environment models in which the trial-and-errors can take place without real costs. In this survey, we take a review of MBRL with a focus on the recent progress in deep RL. For non-tabular environments, there is always a generalization error between the learned environment model and the real environment. As such, it is of great importance to analyze the discrepancy between policy training in the environment model and that in the real environment, which in turn guides the algorithm design for better model learning, model usage, and policy training. Besides, we also discuss the recent advances of model-based techniques in other forms of RL, including offline RL, goal-conditioned RL, multi-agent RL, and meta-RL. Moreover, we discuss the applicability and advantages of MBRL in real-world tasks. Finally, we end this survey by discussing the promising prospects for the future development of MBRL. We think that MBRL has great potential and advantages in real-world applications that were overlooked, and we hope this survey could attract more research on MBRL.
翻訳日:2022-06-25 23:16:12 公開日:2022-06-19
# (参考訳) loggene: 深い医療推論タスクのためのチェックロスのスムーズな代替手段

LogGENE: A smooth alternative to check loss for Deep Healthcare Inference Tasks ( http://arxiv.org/abs/2206.09333v1 )

ライセンス: CC BY 4.0
Aryaman Jeendgar, Aditya Pola, Soma S Dhavala, Snehanshu Saha(参考訳) ハイスループットのGenomicsは、パーソナライズされたヘルスケアの新しい時代を築き、ドラッグのデザインとデリバリーをターゲットとしている。 これらの大きなデータセットをマイニングし、キャリブレーションされた予測を取得することは、直ちに妥当性と有用性である。 本研究では,ディープニューラルネットワークに基づく遺伝子発現推論手法を開発した。 しかし,従来のディープラーニング手法と異なり,我々の推論手法は,最先端の性能を精度で達成しつつ,説明や不確実性評価の報告も可能である。 本研究では,特定のハウスキーピング遺伝子群の完全条件量子化を予測するためにQuantile Regressionフレームワークを採用する。 条件量子は、予測の豊かな解釈を提供するのに有用であるだけでなく、ノイズの測定にも堅牢である。 しかし、量的回帰で推定プロセスを駆動するために使われるチェック損失は、微分不可能である。 チェック損失に対するスムーズな代替手段としてlog-coshを提案する。 本手法をGEOマイクロアレイデータセットに適用する。 また、メソッドをバイナリ分類設定に拡張する。 さらに、高速収束における損失の滑らかさの他の結果についても検討する。

High-throughput Genomics is ushering a new era in personalized health care, and targeted drug design and delivery. Mining these large datasets, and obtaining calibrated predictions is of immediate relevance and utility. In our work, we develop methods for Gene Expression Inference based on Deep neural networks. However, unlike typical Deep learning methods, our inferential technique, while achieving state-of-the-art performance in terms of accuracy, can also provide explanations, and report uncertainty estimates. We adopt the Quantile Regression framework to predict full conditional quantiles for a given set of house keeping gene expressions. Conditional quantiles, in addition to being useful in providing rich interpretations of the predictions, are also robust to measurement noise. However, check loss, used in quantile regression to drive the estimation process is not differentiable. We propose log-cosh as a smooth-alternative to the check loss. We apply our methods on GEO microarray dataset. We also extend the method to binary classification setting. Furthermore, we investigate other consequences of the smoothness of the loss in faster convergence.
翻訳日:2022-06-25 22:24:50 公開日:2022-06-19
# (参考訳) 制御のための組込み特徴選択フレームワーク

An Embedded Feature Selection Framework for Control ( http://arxiv.org/abs/2206.11064v1 )

ライセンス: CC BY 4.0
Jiawen Wei, Fangyuan Wang, Wanxin Zeng, Wenwei Lin and Ning Gui(参考訳) センサ要求の低減と最適制御性能の維持は、ロバストで低コストで計算効率のよいコントローラを実現するために、多くの産業制御アプリケーションにとって不可欠である。 しかし、既存の一般的な機械学習領域の機能選択ソリューションは、ダイナミクスの変化を伴う制御領域にはほとんど適用できない。 本稿では,D-AFS(Dual World Embedded Attentive Feature Selection)と呼ばれる新しいフレームワークを用いて,動的制御下で,最も関連性の高いセンサを効率的に選択する。 多くのDeep Reinforcement Learning (DRL)アルゴリズムで使用される1つの世界ではなく、D-AFSは現実世界と、ねじれた特徴を持つ仮想ピアの両方を持っている。 2つの世界でDRLの反応を分析することで、D-AFSは各特徴の重要性を定量的に把握することができる。 良く知られたアクティブフロー制御問題であるシリンダー抵抗低減法を用いて評価を行う。 結果は、D-AFSが151プローブの最先端ソリューションよりも18.7 %のドラッグダウンと5 プローブのレイアウトよりも49.2 %の削減を達成できたことを示している。 このソリューションを4つのopenaiクラシックコントロールケースにも適用します。 いずれの場合も、D-AFSは元々提供されたソリューションと同じまたは優れたセンサー構成を実現する。 結果は、実験システムや産業システムのための効率的で最適なセンサー設計を実現する新しい方法を強調した。 ソースコードはhttps://github.com/G-AILab/DAFSFluid.comで公開されています。

Reducing sensor requirements while keeping optimal control performance is crucial to many industrial control applications to achieve robust, low-cost, and computation-efficient controllers. However, existing feature selection solutions for the typical machine learning domain can hardly be applied in the domain of control with changing dynamics. In this paper, a novel framework, namely the Dual-world embedded Attentive Feature Selection (D-AFS), can efficiently select the most relevant sensors for the system under dynamic control. Rather than the one world used in most Deep Reinforcement Learning (DRL) algorithms, D-AFS has both the real world and its virtual peer with twisted features. By analyzing the DRL's response in two worlds, D-AFS can quantitatively identify respective features' importance towards control. A well-known active flow control problem, cylinder drag reduction, is used for evaluation. Results show that D-AFS successfully finds an optimized five-probes layout with 18.7\% drag reduction than the state-of-the-art solution with 151 probes and 49.2\% reduction than five-probes layout by human experts. We also apply this solution to four OpenAI classical control cases. In all cases, D-AFS achieves the same or better sensor configurations than originally provided solutions. Results highlight, we argued, a new way to achieve efficient and optimal sensor designs for experimental or industrial systems. Our source codes are made publicly available at https://github.com/G-AILab/DAFSFluid.
翻訳日:2022-06-25 22:10:34 公開日:2022-06-19
# (参考訳) 確率遅延フィードバックによるベイズ最適化

Bayesian Optimization under Stochastic Delayed Feedback ( http://arxiv.org/abs/2206.09341v1 )

ライセンス: CC BY 4.0
Arun Verma, Zhongxiang Dai, Bryan Kian Hsiang Low(参考訳) ベイズ最適化 (bayesian optimization, bo) は、複雑で高価なブラックボックス関数のゼロ次最適化に広く使われている逐次法である。 既存のBOメソッドは、関数評価(フィードバック)が学習者の即時または固定遅延後に利用可能であると仮定する。 このような仮定は、オンラインレコメンデーション、臨床試験、ハイパーパラメータチューニングなど、ランダムな遅延後にフィードバックが利用できる多くの現実的な問題では実用的ではないかもしれない。 これらの問題の実験的並列化の恩恵を受けるために、学習者は遅れるフィードバックを待つことなく、新しい関数評価を開始する必要がある。 本稿では,BOの確率的遅延フィードバック問題について考察する。 ランダムに遅延したフィードバックを待ちながら、新しい関数クエリを選択するジレンマに効率よく対処するサブ線形後悔保証付きアルゴリズムを提案する。 この結果をもとに,バッチboやコンテクストガウスプロセスバンディットへの新たな貢献も行います。 合成および実生活データセットの実験は、アルゴリズムの性能を検証する。

Bayesian optimization (BO) is a widely-used sequential method for zeroth-order optimization of complex and expensive-to-compute black-box functions. The existing BO methods assume that the function evaluation (feedback) is available to the learner immediately or after a fixed delay. Such assumptions may not be practical in many real-life problems like online recommendations, clinical trials, and hyperparameter tuning where feedback is available after a random delay. To benefit from the experimental parallelization in these problems, the learner needs to start new function evaluations without waiting for delayed feedback. In this paper, we consider the BO under stochastic delayed feedback problem. We propose algorithms with sub-linear regret guarantees that efficiently address the dilemma of selecting new function queries while waiting for randomly delayed feedback. Building on our results, we also make novel contributions to batch BO and contextual Gaussian process bandits. Experiments on synthetic and real-life datasets verify the performance of our algorithms.
翻訳日:2022-06-25 21:54:21 公開日:2022-06-19
# (参考訳) 生成逆ネットワークを用いた交通状態推定の不確かさの定量化

Quantifying Uncertainty In Traffic State Estimation Using Generative Adversarial Networks ( http://arxiv.org/abs/2206.09349v1 )

ライセンス: CC BY 4.0
Zhaobin Mo, Yongjie Fu, Xuan Di(参考訳) 本稿では, 生成逆数ネットワークに基づく物理インフォームドディープラーニング(PIDL)を用いた交通状態推定(TSE)の不確かさの定量化を目的とする。 焦点の不確実性は、基本的な図から生じ、言い換えれば、交通密度から速度へのマッピングである。 TSE問題の不確実性を定量化するためには、予測された交通状態の堅牢性を特徴づけることである。 誕生以来、gan(generative adversarial networks)は一般的な確率的機械学習フレームワークとなっている。 本稿では,確率的トラフィックフローモデルを用いてGANに基づく予測を報知し,PhysGAN-TSEと名付けられたTSEのためのGANベースのPIDLフレームワークを開発する。 実世界のデータセットであるNGSIM(Next Generation SIMulation)データセットで実験を行うことにより,本手法は純粋なGANモデルや純粋なトラフィックフローモデルよりも,不確実な定量化のためにより堅牢であることが示されている。 2つの物理モデル、lighthill-whitham-richards (lwr) と aw-rascle-zhang (arz) をphysganの物理要素として比較した結果、arzベースのphysganはlwrベースのモデルよりも優れた性能を達成していることが示された。

This paper aims to quantify uncertainty in traffic state estimation (TSE) using the generative adversarial network based physics-informed deep learning (PIDL). The uncertainty of the focus arises from fundamental diagrams, in other words, the mapping from traffic density to velocity. To quantify uncertainty for the TSE problem is to characterize the robustness of predicted traffic states. Since its inception, generative adversarial networks (GAN) have become a popular probabilistic machine learning framework. In this paper, we will inform the GAN based predictions using stochastic traffic flow models and develop a GAN based PIDL framework for TSE, named ``PhysGAN-TSE". By conducting experiments on a real-world dataset, the Next Generation SIMulation (NGSIM) dataset, this method is shown to be more robust for uncertainty quantification than the pure GAN model or pure traffic flow models. Two physics models, the Lighthill-Whitham-Richards (LWR) and the Aw-Rascle-Zhang (ARZ) models, are compared as the physics components for the PhysGAN, and results show that the ARZ-based PhysGAN achieves a better performance than the LWR-based one.
翻訳日:2022-06-25 21:10:37 公開日:2022-06-19
# (参考訳) テキスト分類のための深部NLPモデルの統一的理解

A Unified Understanding of Deep NLP Models for Text Classification ( http://arxiv.org/abs/2206.09355v1 )

ライセンス: CC BY 4.0
Zhen Li, Xiting Wang, Weikai Yang, Jing Wu, Zhengyan Zhang, Zhiyuan Liu, Maosong Sun, Hui Zhang, Shixia Liu(参考訳) テキスト分類のための深層自然言語処理(NLP)モデルの急速な発展により、個別に提案されるこれらのモデルの統一的な理解が緊急に必要になった。 既存の手法は、低レベル(単語など)と高レベル(フレーズなど)の両方を説明する統一された尺度が欠けているため、一つのフレームワークで異なるモデルを理解する必要性を満たすことができない。 我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。 主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。 最終予測に対する単語の重要性を計測する各層における語内情報と語間情報をモデル化し,句形成などの語間関係をモデル化した。 コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。 分類タスクとモデルの比較に関する2つのケーススタディは、DeepNLPVisが、サンプルやモデルアーキテクチャに起因する潜在的な問題を効果的に識別し、インフォームド改善を行うのに役立つことを示した。

The rapid development of deep natural language processing (NLP) models for text classification has led to an urgent need for a unified understanding of these models proposed individually. Existing methods cannot meet the need for understanding different models in one framework due to the lack of a unified measure for explaining both low-level (e.g., words) and high-level (e.g., phrases) features. We have developed a visual analysis tool, DeepNLPVis, to enable a unified understanding of NLP models for text classification. The key idea is a mutual information-based measure, which provides quantitative explanations on how each layer of a model maintains the information of input words in a sample. We model the intra- and inter-word information at each layer measuring the importance of a word to the final prediction as well as the relationships between words, such as the formation of phrases. A multi-level visualization, which consists of a corpus-level, a sample-level, and a word-level visualization, supports the analysis from the overall training set to individual samples. Two case studies on classification tasks and comparison between models demonstrate that DeepNLPVis can help users effectively identify potential problems caused by samples and model architectures and then make informed improvements.
翻訳日:2022-06-25 20:56:52 公開日:2022-06-19
# (参考訳) ペルーの熱帯雨林におけるRGBおよびマルチスペクトル画像を用いた小型水域の半監督的変化検出

Semi-supervised Change Detection of Small Water Bodies Using RGB and Multispectral Images in Peruvian Rainforests ( http://arxiv.org/abs/2206.09365v1 )

ライセンス: CC BY 4.0
Kangning Cui, Seda Camalan, Ruoning Li, Victor P. Pauca, Sarra Alqahtani, Robert J. Plemmons, Miles Silman, Evan N. Dethier, David Lutz, Raymond H. Chan(参考訳) 工芸・小規模金鉱業(ASGM)は多くの家庭にとって重要な収入源であるが、特に発展途上国の熱帯雨林では大きな社会的・環境効果がある。 sentinel-2衛星は、採掘現場の位置を示す水深と品質の変化を検出する目的で使用できるマルチスペクトル画像を収集する。 本研究は、ペルーのアマゾン熱帯雨林におけるASGM活動の認識に焦点を当てている。 我々は,ASGM活動の世界的なホットスポットの一つであるマドレ・デ・ディオス地域で,2019年から2021年までの水体変化を検出するために,SVM(Support Vector Machines)に基づくいくつかの半教師付き分類器を試験した。 実験によると、SVMベースのモデルはRGB(Cohenの$\kappa$ 0.49)と6チャンネルのイメージ(Cohenの$\kappa$ 0.71)の両方に対して、非常に限定的なアノテーションで、合理的なパフォーマンスを達成することができる。 また、変化検出のためのラボ色空間を取り入れた効果も分析した。

Artisanal and Small-scale Gold Mining (ASGM) is an important source of income for many households, but it can have large social and environmental effects, especially in rainforests of developing countries. The Sentinel-2 satellites collect multispectral images that can be used for the purpose of detecting changes in water extent and quality which indicates the locations of mining sites. This work focuses on the recognition of ASGM activities in Peruvian Amazon rainforests. We tested several semi-supervised classifiers based on Support Vector Machines (SVMs) to detect the changes of water bodies from 2019 to 2021 in the Madre de Dios region, which is one of the global hotspots of ASGM activities. Experiments show that SVM-based models can achieve reasonable performance for both RGB (using Cohen's $\kappa$ 0.49) and 6-channel images (using Cohen's $\kappa$ 0.71) with very limited annotations. The efficacy of incorporating Lab color space for change detection is analyzed as well.
翻訳日:2022-06-25 20:31:57 公開日:2022-06-19
# (参考訳) scalable neural data server: 転送学習のためのデータレコメンデータ

Scalable Neural Data Server: A Data Recommender for Transfer Learning ( http://arxiv.org/abs/2206.09386v1 )

ライセンス: CC BY 4.0
Tianshi Cao, Sasha Doubov, David Acuna, Sanja Fidler(参考訳) 実践者の対象領域に大規模ラベル付きデータがないことは、実際に機械学習アルゴリズムを適用する際のボトルネックになり得る。 転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略であるが、最も関連するデータを見つけることは困難である。 特定の下流タスクに関連するデータを推奨する検索エンジンであるNeural Data Server(NDS)が、この問題に対処するためにこれまで提案されていた。 ndsはデータソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似度を見積もる。 これにより、各ユーザに対する計算コストはソース数に応じて増加する。 これらの問題に対処するために,我々は,数千のデータセットを理論的にインデックス化して,エンドユーザに関連するMLデータを提供する,大規模検索エンジンであるScalable Neural Data Server (SNDS)を提案する。 SNDSは、初期化中に中間データセットの専門家の混合物をトレーニングし、中間データセットに近接してデータソースと下流タスクの両方を表現する。 そのため、SNDSユーザによる計算コストは、サーバに新しいデータセットが追加されるにつれて固定されている。 我々は,SNDSが推奨するデータが,ベースラインよりもダウンストリームタスクのパフォーマンスを向上させることを確認する。 また,自然画像から外部に転送するための関連データを選択する能力を示すことにより,sndのスケーラビリティを実証する。

Absence of large-scale labeled data in the practitioner's target domain can be a bottleneck to applying machine learning algorithms in practice. Transfer learning is a popular strategy for leveraging additional data to improve the downstream performance, but finding the most relevant data to transfer from can be challenging. Neural Data Server (NDS), a search engine that recommends relevant data for a given downstream task, has been previously proposed to address this problem. NDS uses a mixture of experts trained on data sources to estimate similarity between each source and the downstream task. Thus, the computational cost to each user grows with the number of sources. To address these issues, we propose Scalable Neural Data Server (SNDS), a large-scale search engine that can theoretically index thousands of datasets to serve relevant ML data to end users. SNDS trains the mixture of experts on intermediary datasets during initialization, and represents both data sources and downstream tasks by their proximity to the intermediary datasets. As such, computational cost incurred by SNDS users remains fixed as new datasets are added to the server. We validate SNDS on a plethora of real world tasks and find that data recommended by SNDS improves downstream task performance over baselines. We also demonstrate the scalability of SNDS by showing its ability to select relevant data for transfer outside of the natural image setting.
翻訳日:2022-06-25 20:21:12 公開日:2022-06-19
# (参考訳) 非平衡グロモフ-ワッサーシュタイン融合脳の配向

Aligning individual brains with Fused Unbalanced Gromov-Wasserstein ( http://arxiv.org/abs/2206.09398v1 )

ライセンス: CC BY 4.0
Alexis Thual, Huy Tran, Tatiana Zemskova, Nicolas Courty, R\'emi Flamary, Stanislas Dehaene, Bertrand Thirion(参考訳) 個々の脳は解剖学的にも機能的組織でも、特定の種でも様々である。 個人間変動は、被験者のグループで収集された神経画像データから一般化可能な結論を引き出そうとする際の大きな障害である。 現在の共同登録手順は限られたデータに依存しており、従って非常に粗いオブジェクト間のアライメントをもたらす。 本研究では,Flused Un Balanced Gromov Wasserstein (FUGW) と呼ばれる最適輸送に基づく物体間アライメント手法を提案する。 本手法は, 種々の刺激条件に応じて, 機能的シグネチャの類似性に基づいて皮質表面を整列させ, 個々の地形組織に大きな変形を罰する。 FUGWは脳全体のランドマークのないアライメントに適していることを示す。 バランスのとれない機能は、機能領域のサイズが被験者によって異なるという事実に対処できる。 その結果, FUGWアライメントは, 独立機能データに対する活動のオブジェクト間相関を著しく増加させ, グループレベルでのより正確なマッピングをもたらすことがわかった。

Individual brains vary in both anatomy and functional organization, even within a given species. Inter-individual variability is a major impediment when trying to draw generalizable conclusions from neuroimaging data collected on groups of subjects. Current co-registration procedures rely on limited data, and thus lead to very coarse inter-subject alignments. In this work, we present a novel method for inter-subject alignment based on Optimal Transport, denoted as Fused Unbalanced Gromov Wasserstein (FUGW). The method aligns cortical surfaces based on the similarity of their functional signatures in response to a variety of stimulation settings, while penalizing large deformations of individual topographic organization. We demonstrate that FUGW is well-suited for whole-brain landmark-free alignment. The unbalanced feature allows to deal with the fact that functional areas vary in size across subjects. Our results show that FUGW alignment significantly increases between-subject correlation of activity for independent functional data, and leads to more precise mapping at the group level.
翻訳日:2022-06-25 19:56:52 公開日:2022-06-19
# (参考訳) 自動運転のための3次元物体検出:レビューと新しい展望

3D Object Detection for Autonomous Driving: A Review and New Outlooks ( http://arxiv.org/abs/2206.09474v1 )

ライセンス: CC BY 4.0
Jiageng Mao, Shaoshuai Shi, Xiaogang Wang, Hongsheng Li(参考訳) 近年、自動運転はドライバーの負担を軽減し、運転の安全性を向上させる可能性について注目が集まっている。 現代の自動運転パイプラインでは、知覚システムは不可欠の構成要素であり、周囲の環境の状態を正確に推定し、予測と計画のための信頼できる観察を提供することを目的としている。 自動運転車の近くで重要な3Dオブジェクトの位置、サイズ、カテゴリをインテリジェントに予測する3Dオブジェクト検出は、認識システムの重要な部分である。 本稿では,自律運転における3次元物体検出技術の進歩を概観する。 まず,3次元物体検出の背景を紹介し,その課題について議論する。 第2に,lidarベース,カメラベース,マルチモーダル検出手法など,モデルとセンサ入力の観点から,3次元物体検出の進展を包括的に調査する。 また,各手法のカテゴリにおけるポテンシャルと課題を詳細に分析する。 さらに,運転システムにおける3次元物体検出の応用を体系的に検討した。 最後に,3次元物体検出手法の性能解析を行い,今後の動向を概観し,今後の方向性を展望する。

Autonomous driving, in recent years, has been receiving increasing attention for its potential to relieve drivers' burdens and improve the safety of driving. In modern autonomous driving pipelines, the perception system is an indispensable component, aiming to accurately estimate the status of surrounding environments and provide reliable observations for prediction and planning. 3D object detection, which intelligently predicts the locations, sizes, and categories of the critical 3D objects near an autonomous vehicle, is an important part of a perception system. This paper reviews the advances in 3D object detection for autonomous driving. First, we introduce the background of 3D object detection and discuss the challenges in this task. Second, we conduct a comprehensive survey of the progress in 3D object detection from the aspects of models and sensory inputs, including LiDAR-based, camera-based, and multi-modal detection approaches. We also provide an in-depth analysis of the potentials and challenges in each category of methods. Additionally, we systematically investigate the applications of 3D object detection in driving systems. Finally, we conduct a performance analysis of the 3D object detection approaches, and we further summarize the research trends over the years and prospect the future directions of this area.
翻訳日:2022-06-25 19:21:07 公開日:2022-06-19
# (参考訳) デュアル露光センサを用いた高ダイナミックレンジシーケンスの映像フレーム補間

Video frame interpolation for high dynamic range sequences captured with dual-exposure sensors ( http://arxiv.org/abs/2206.09485v1 )

ライセンス: CC BY 4.0
Ugur Cogalan, Mojtaba Bemana, Hans-Peter Seidel, Karol Myszkowski(参考訳) ビデオフレーム補間(VFI)は、スローモーション再生のような時間領域やストップモーションシーケンスのような空間領域を含む多くの重要なアプリケーションを可能にする。 我々は,高ダイナミックレンジ(HDR)シーンを複雑な動作で処理する上で重要な課題の1つとして,前者の課題に焦点を当てている。 この目的のために,空間的に登録され,終端が時間的に整列する鋭く短くぼやけた長時間露光を容易に提供できるデュアル露光センサの利点を探究する。 これにより、動きのぼやけはシーンの動きの時間的連続情報を登録し、シャープな参照と組み合わせることで、1つのカメラショット内でより正確な動きサンプリングが可能になる。 本稿では,VFIタスクにおけるより複雑な動き再構成とHDRフレーム再構成が,これまでは補間フレームではなく,最初に捕捉されたフレームに対してのみ考慮されてきたことを実証する。 私たちはこれらのタスクで訓練されたニューラルネットワークを設計します。 また,テスト時間におけるVFI手法の性能に関する重要な洞察を提供する,シーン動作の複雑さの指標も提案する。

Video frame interpolation (VFI) enables many important applications that might involve the temporal domain, such as slow motion playback, or the spatial domain, such as stop motion sequences. We are focusing on the former task, where one of the key challenges is handling high dynamic range (HDR) scenes in the presence of complex motion. To this end, we explore possible advantages of dual-exposure sensors that readily provide sharp short and blurry long exposures that are spatially registered and whose ends are temporally aligned. This way, motion blur registers temporally continuous information on the scene motion that, combined with the sharp reference, enables more precise motion sampling within a single camera shot. We demonstrate that this facilitates a more complex motion reconstruction in the VFI task, as well as HDR frame reconstruction that so far has been considered only for the originally captured frames, not in-between interpolated frames. We design a neural network trained in these tasks that clearly outperforms existing solutions. We also propose a metric for scene motion complexity that provides important insights into the performance of VFI methods at the test time.
翻訳日:2022-06-25 19:19:44 公開日:2022-06-19
# (参考訳) 総合型ゲームにおける正規化の力

The Power of Regularization in Solving Extensive-Form Games ( http://arxiv.org/abs/2206.09495v1 )

ライセンス: CC BY 4.0
Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang(参考訳) 本稿では,強化学習と最適化において共通する手法である正規化のパワーを,広範形式ゲーム(EFG)の解法において検討する。 ゲームにおけるペイオフ関数の正規化に基づく一連の新しいアルゴリズムを提案し、より弱い仮定やより強い収束保証を用いて、既存のものよりも厳密に改善する収束結果のセットを確立する。 特に,適応正則化をともなうomdの効率的な変種である拡張楽観的ミラー降下 (domd) は,nash平衡 (ne) の一意性仮定を伴わない双対性ギャップの観点で,高速な$\tilde o(1/t)$ last-iterate 収束を達成できることを示した。 さらに、Reg-DOMDのインスタンスである正規化拡張楽観的乗法重み更新(Reg-DOMWU)は、NEの集合への距離の最終的な収束率を$\tilde O(1/T)$でさらに楽しむ。 このことは、EFGと正規形式の両方のゲーム文学において一意性を仮定することなく、OMWUアルゴリズムに対して反復収束が得られるかどうかというオープンな疑問に対処する。 第2に,正則化された反事実最小化(Reg-CFR)と,楽観的ミラー降下アルゴリズムの変種を最小化することで,EFGにおけるNEを見つけるための平均収束率を$O(1/T^{1/4})と$O(1/T^{3/4})とすることができることを示す。 最後に、reg-cfr が漸近的ラスト・イテレート収束を実現できること、および摂動型efgの ne を見つけるのに最適な $o(1/t)$ 平均イテレート収束率を示す。 我々の知る限り、これらは、非摂動EFGのNEを見つける際に、SOTA平均収束率と整合しながら、CFR型アルゴリズムの最終的な収束結果を構成する。 また,アルゴリズムの利点を補う数値的な結果も提供する。

In this paper, we investigate the power of regularization, a common technique in reinforcement learning and optimization, in solving extensive-form games (EFGs). We propose a series of new algorithms based on regularizing the payoff functions of the game, and establish a set of convergence results that strictly improve over the existing ones, with either weaker assumptions or stronger convergence guarantees. In particular, we first show that dilated optimistic mirror descent (DOMD), an efficient variant of OMD for solving EFGs, with adaptive regularization can achieve a fast $\tilde O(1/T)$ last-iterate convergence in terms of duality gap without the uniqueness assumption of the Nash equilibrium (NE). Moreover, regularized dilated optimistic multiplicative weights update (Reg-DOMWU), an instance of Reg-DOMD, further enjoys the $\tilde O(1/T)$ last-iterate convergence rate of the distance to the set of NE. This addresses an open question on whether iterate convergence can be obtained for OMWU algorithms without the uniqueness assumption in both the EFG and normal-form game literature. Second, we show that regularized counterfactual regret minimization (Reg-CFR), with a variant of optimistic mirror descent algorithm as regret-minimizer, can achieve $O(1/T^{1/4})$ best-iterate, and $O(1/T^{3/4})$ average-iterate convergence rate for finding NE in EFGs. Finally, we show that Reg-CFR can achieve asymptotic last-iterate convergence, and optimal $O(1/T)$ average-iterate convergence rate, for finding the NE of perturbed EFGs, which is useful for finding approximate extensive-form perfect equilibria (EFPE). To the best of our knowledge, they constitute the first last-iterate convergence results for CFR-type algorithms, while matching the SOTA average-iterate convergence rate in finding NE for non-perturbed EFGs. We also provide numerical results to corroborate the advantages of our algorithms.
翻訳日:2022-06-25 18:58:36 公開日:2022-06-19
# (参考訳) 無バイアス教師v2:アンカーフリーおよびアンカーベース検出器のための半教師対象検出

Unbiased Teacher v2: Semi-supervised Object Detection for Anchor-free and Anchor-based Detectors ( http://arxiv.org/abs/2206.09500v1 )

ライセンス: CC BY 4.0
Yen-Cheng Liu, Chih-Yao Ma, Zsolt Kira(参考訳) 近年,Semi-Supervised Object Detection (SS-OD)技術が開発され,ラベル付きデータと豊富なラベル付きデータを用いることで,オブジェクト検出の改善が可能となった。 しかし,(1) アンカーフリー検出器に先行するSS-ODが存在しないこと,(2) 擬ラベル境界ボックスの回帰に先行する処理が有効でないこと,の2つの課題がまだ解決されていない。 本稿では,アンカーレス検出器に対するSS-OD法の一般化を示すUnbiased Teacher v2と,教師なし回帰損失に対するListen2Student機構を提案する。 具体的には, 既存のSS-OD法をアンカーフリー検出器に適用し, 半教師付き環境下での性能改善を実現していることを示す。 また,アンカーフリー検出器では,センタネスを用いたボックス選択やローカライズベースのラベリングは,半教師あり設定ではうまく動作しないことがわかった。 一方,我々のListen2Studentメカニズムは,有界ボックス回帰訓練における疑似ラベルの誤解を防ぎ,教師と学生の相対的不確実性に基づく新しい擬似ラベル選択機構を特に開発する。 このアイデアは、半教師付き設定における回帰分岐の改善に寄与する。 提案手法は, アンカーフリー法とアンカーベース法の両方で有効であり, VOC, COCO標準法およびCOCO付加法における最先端手法に対して, 常に良好に機能する。

With the recent development of Semi-Supervised Object Detection (SS-OD) techniques, object detectors can be improved by using a limited amount of labeled data and abundant unlabeled data. However, there are still two challenges that are not addressed: (1) there is no prior SS-OD work on anchor-free detectors, and (2) prior works are ineffective when pseudo-labeling bounding box regression. In this paper, we present Unbiased Teacher v2, which shows the generalization of SS-OD method to anchor-free detectors and also introduces Listen2Student mechanism for the unsupervised regression loss. Specifically, we first present a study examining the effectiveness of existing SS-OD methods on anchor-free detectors and find that they achieve much lower performance improvements under the semi-supervised setting. We also observe that box selection with centerness and the localization-based labeling used in anchor-free detectors cannot work well under the semi-supervised setting. On the other hand, our Listen2Student mechanism explicitly prevents misleading pseudo-labels in the training of bounding box regression; we specifically develop a novel pseudo-labeling selection mechanism based on the Teacher and Student's relative uncertainties. This idea contributes to favorable improvement in the regression branch in the semi-supervised setting. Our method, which works for both anchor-free and anchor-based methods, consistently performs favorably against the state-of-the-art methods in VOC, COCO-standard, and COCO-additional.
翻訳日:2022-06-25 18:57:02 公開日:2022-06-19
# (参考訳) リアルタイム感情分類と予測のためのハイブリッド表情認識(FER2013)モデル

Hybrid Facial Expression Recognition (FER2013) Model for Real-Time Emotion Classification and Prediction ( http://arxiv.org/abs/2206.09509v1 )

ライセンス: CC BY 4.0
Ozioma Collins Oguine (1), Kaleab Alamayehu Kinfu (2), Kanyifeechukwu Jane Oguine (1), Hashim Ibrahim Bisallah (1), Daniel Ofuani (1) ((1) Department of Computer Science, University of Abuja, Nigeria, (2) Department of Computer Science, Johns Hopkins University, Baltimore, USA)(参考訳) 表情認識は、人工知能やゲーム、人間とコンピュータの相互作用(hci)、心理学など、ほとんどの分野において重要な研究テーマである。 本稿では,deep convolutional neural network(dcnn)とhaar cascade deep learningアーキテクチャを用いた表情認識のためのハイブリッドモデルを提案する。 目的は、リアルタイムおよびデジタル顔画像の7つの感情カテゴリの1つに分類することである。 本研究で採用されているdcnnは,より畳み込み層,reluアクティベーション関数,マルチカーネルを有し,フィルタリング深度と顔特徴抽出を増強する。 さらに、ハールカスケードモデルは、リアルタイム画像やビデオフレームで顔の特徴を検出するためにも相互に使われた。 Kaggleリポジトリからのグレースケールイメージ(FER-2013)とグラフィクス処理ユニット(GPU)計算を利用して、トレーニングと検証プロセスを高速化する。 トレーニング効率と分類性能を向上させるために,前処理およびデータ拡張技術を適用した。 実験の結果, 最先端(SoTA)実験や研究と比較して, 分類性能は有意に向上した。 また,従来のモデルと比較して,提案手法は最大6%の精度向上,最大70%の精度,2098.8秒の実行時間の短縮により,分類性能が優れていることを検証した。

Facial Expression Recognition is a vital research topic in most fields ranging from artificial intelligence and gaming to Human-Computer Interaction (HCI) and Psychology. This paper proposes a hybrid model for Facial Expression recognition, which comprises a Deep Convolutional Neural Network (DCNN) and Haar Cascade deep learning architectures. The objective is to classify real-time and digital facial images into one of the seven facial emotion categories considered. The DCNN employed in this research has more convolutional layers, ReLU Activation functions, and multiple kernels to enhance filtering depth and facial feature extraction. In addition, a haar cascade model was also mutually used to detect facial features in real-time images and video frames. Grayscale images from the Kaggle repository (FER-2013) and then exploited Graphics Processing Unit (GPU) computation to expedite the training and validation process. Pre-processing and data augmentation techniques are applied to improve training efficiency and classification performance. The experimental results show a significantly improved classification performance compared to state-of-the-art (SoTA) experiments and research. Also, compared to other conventional models, this paper validates that the proposed architecture is superior in classification performance with an improvement of up to 6%, totaling up to 70% accuracy, and with less execution time of 2098.8s.
翻訳日:2022-06-25 18:55:48 公開日:2022-06-19
# aiによる自動車事故の防止

Prevent Car Accidents by Using AI ( http://arxiv.org/abs/2206.11381v1 )

ライセンス: Link先を確認
Sri Siddhartha Reddy Gudemupati, Yen Ling Chao, Lakshmi Praneetha Kotikalapudi, Ebrima Ceesay(参考訳) 社会が発展するにつれて交通機関が発展し、人々の旅行需要も増加しているが、結果として交通安全の問題も生じている。 そして、自動車事故は世界中で大きな問題だ。 交通事故と交通事故のコストは社会に大きな影響を及ぼす。 交通事故の分野における機械学習技術の利用は、ますます人気が高まっている。 機械学習分類器は従来のデータマイニング技術の代わりに使われ、より良い結果と精度が得られる。 その結果,本プロジェクトは機械学習を用いた事故予測に関する既存の研究を行っている。 クラッシュデータと天気データを使って、機械学習モデルをトレーニングし、クラッシュの重大度を予測し、クラッシュを減らす。

Transportation facilities are becoming more developed as society develops, and people's travel demand is increasing, but so are the traffic safety issues that arise as a result. And car accidents are a major issue all over the world. The cost of traffic fatalities and driver injuries has a significant impact on society. The use of machine learning techniques in the field of traffic accidents is becoming increasingly popular. Machine learning classifiers are used instead of traditional data mining techniques to produce better results and accuracy. As a result, this project conducts research on existing work related to accident prediction using machine learning. We will use crash data and weather data to train machine learning models to predict crash severity and reduce crashes.
翻訳日:2022-06-24 12:39:44 公開日:2022-06-19
# 自己移動の世代差:勾配ブースティング決定木を用いたアメリカのミレニアル世代とxers世代の比較

Generational Differences in Automobility: Comparing America's Millennials and Gen Xers Using Gradient Boosting Decision Trees ( http://arxiv.org/abs/2206.11056v1 )

ライセンス: Link先を確認
Kailai Wang (University of Houston), Xize Wang (National University of Singapore)(参考訳) ミレニアル世代が前世代よりも自己中心的でないかどうかは文献で広く議論されている。 既存の研究の多くは回帰モデルを用いており、全ての要因が若い成人の運転行動に寄与する線形加法的であると仮定している。 本研究は,非パラメトリック統計学習法である勾配ブースティング決定木(gbdt)を適用することで,この仮定を緩和する。 2001年と2017年の米国全国旅行調査を用いて、ミレニアル世代とGen-X若年成人の日常運転距離に対するライフサイクル、社会デコグラフィー、居住要因の非線形線量応答効果を調べた。 ミレニアル世代の若者は、他のすべての要因を一定に保ちながら、毎日の運転距離をGen-Xよりも短く予測していた。 また、若者の日常運転距離の約50%は住宅や経済的な要因で説明されており、ライフコースイベントや人口統計学への貢献はおよそ33%である。 また,自動車の交通需要削減を目的とした土地利用政策を策定するための密度範囲についても検討した。

Whether the Millennials are less auto-centric than the previous generations has been widely discussed in the literature. Most existing studies use regression models and assume that all factors are linear-additive in contributing to the young adults' driving behaviors. This study relaxes this assumption by applying a non-parametric statistical learning method, namely the gradient boosting decision trees (GBDT). Using U.S. nationwide travel surveys for 2001 and 2017, this study examines the non-linear dose-response effects of lifecycle, socio-demographic and residential factors on daily driving distances of Millennial and Gen-X young adults. Holding all other factors constant, Millennial young adults had shorter predicted daily driving distances than their Gen-X counterparts. Besides, residential and economic factors explain around 50% of young adults' daily driving distances, while the collective contributions for life course events and demographics are about 33%. This study also identifies the density ranges for formulating effective land use policies aiming at reducing automobile travel demand.
翻訳日:2022-06-23 16:34:44 公開日:2022-06-19
# 没入型ARにおける垂直的階層型メニュー選択における人的パフォーマンス予測

Predicting Human Performance in Vertical Hierarchical Menu Selection in Immersive AR Using Hand-gesture and Head-gaze ( http://arxiv.org/abs/2206.09480v1 )

ライセンス: Link先を確認
Majid Pourmemar, Yashas Joshi, Charalambos Poullis(参考訳) 現在、没入型拡張現実(AR)アプリケーションのためのユーザーインターフェイス(UI)の設計に関するガイドラインが限定されている。 デザイナーは、デスクトップおよびモバイルアプリケーションのUI設計の経験を反映し、UIがARユーザーのパフォーマンスにどのように影響するかを推測する必要がある。 本研究では,ユーザ研究への参加者の関与を伴わずに,対象UIのユーザパフォーマンスを推定する予測モデルを提案する。 モデルは、階層的なドロップダウンメニューを使用して、消費持続時間(CE)やポインティング時間(PT)などの客観的パフォーマンス対策に対する参加者の反応に基づいて訓練される。 語彙データベースWordNetに含まれる単語から階層的なドロップダウンメニューと関連するユーザタスクをランダムに動的に生成することにより、メニューの深さとコンテキストに大きなばらつきが保証される。 モデルトレーニング中にユーザの非言語標準パフォーマンスwais-ivを組み込むことで、主観的パフォーマンスバイアスを低減する。 メニューの意味情報はUniversal Sentence Encoderを使って符号化される。 本稿では,認知能力の異なるユーザの階層的メニュー上でのCE予測において,提案した予測モデルが高精度であることを示すユーザスタディの結果を示す。 私たちの知る限りでは、没入型ARアプリケーション用のUIを設計する上で、CEを予測する最初の作業です。

There are currently limited guidelines on designing user interfaces (UI) for immersive augmented reality (AR) applications. Designers must reflect on their experience designing UI for desktop and mobile applications and conjecture how a UI will influence AR users' performance. In this work, we introduce a predictive model for determining users' performance for a target UI without the subsequent involvement of participants in user studies. The model is trained on participants' responses to objective performance measures such as consumed endurance (CE) and pointing time (PT) using hierarchical drop-down menus. Large variability in the depth and context of the menus is ensured by randomly and dynamically creating the hierarchical drop-down menus and associated user tasks from words contained in the lexical database WordNet. Subjective performance bias is reduced by incorporating the users' non-verbal standard performance WAIS-IV during the model training. The semantic information of the menu is encoded using the Universal Sentence Encoder. We present the results of a user study that demonstrates that the proposed predictive model achieves high accuracy in predicting the CE on hierarchical menus of users with various cognitive abilities. To the best of our knowledge, this is the first work on predicting CE in designing UI for immersive AR applications.
翻訳日:2022-06-23 16:19:30 公開日:2022-06-19
# 敵対的に訓練された神経表現は、対応する生物学的神経表現と同じくらい頑丈であるかもしれない

Adversarially trained neural representations may already be as robust as corresponding biological neural representations ( http://arxiv.org/abs/2206.11228v1 )

ライセンス: Link先を確認
Chong Guo, Michael J. Lee, Guillaume Leclerc, Joel Dapello, Yug Rao, Aleksander Madry, James J. DiCarlo(参考訳) 霊長類の視覚システムは強固な知覚の金の標準である。 したがって、これらのシステムの基盤となる神経表現を模倣すると、対角的に堅牢な人工視覚システムが得られるという一般的な信念がある。 本研究では,霊長類脳活動に直接対人視覚攻撃を行う手法を開発した。 この手法を利用して、上記の信念が十分に確立されていないことを実証する。 具体的には、霊長類の視覚系を構成する生物学的ニューロンは、既存の(不正に訓練された)ニューラルネットワークに匹敵する敵の摂動に感受性を示す。

Visual systems of primates are the gold standard of robust perception. There is thus a general belief that mimicking the neural representations that underlie those systems will yield artificial visual systems that are adversarially robust. In this work, we develop a method for performing adversarial visual attacks directly on primate brain activity. We then leverage this method to demonstrate that the above-mentioned belief might not be well founded. Specifically, we report that the biological neurons that make up visual systems of primates exhibit susceptibility to adversarial perturbations that is comparable in magnitude to existing (robustly trained) artificial neural networks.
翻訳日:2022-06-23 16:15:22 公開日:2022-06-19
# 建設管理のための完全連結ニューラルネットワークの多値分類に基づく人工知能システム

Artificial intelligence system based on multi-value classification of fully connected neural network for construction management ( http://arxiv.org/abs/2206.10604v1 )

ライセンス: Link先を確認
Tetyana Honcharenko, Roman Akselrod, Andrii Shpakov, Oleksandr Khomenko(参考訳) 本研究は,人工知能システムを用いた建設管理スタッフの適応能力を決定するための課題を解決し,完全接続型フィードフォワードニューラルネットワークアーキテクチャを提案し,データセット作成のための経験的モデリングを行った。 人工知能システムのモデルでは、専門分野の多値分類の実行中に、完全連結フィードフォワードニューラルネットワークのプロセスを評価することができる。 人工知能システムのコンポーネント間の内部接続を反映し、トレーニングデータから学習できるようにする機械学習モデルのトレーニングプロセスのための手法が開発されている。 ニューラルネットワークのトレーニングには、35の入力パラメータと29の出力パラメータからなるデータセットが使用された。 ニューラルネットワークトレーニングは,それぞれ10%と90%の割合で実施された。 本研究の成果は、専門的実現に必要な知識とスキルをさらに改善するために利用できる。

This study is devoted to solving the problem to determine the professional adaptive capabilities of construction management staff using artificial intelligence systems.It is proposed Fully Connected Feed-Forward Neural Network architecture and performed empirical modeling to create a Data Set. Model of artificial intelligence system allows evaluating the processes in an Fully Connected Feed-Forward Neural Network during the execution of multi-value classification of professional areas. A method has been developed for the training process of a machine learning model, which reflects the internal connections between the components of an artificial intelligence system that allow it to learn from training data. To train the neural network, a data set of 35 input parameters and 29 output parameters was used; the amount of data in the set is 936 data lines. Neural network training occurred in the proportion of 10% and 90%, respectively. Results of this study research can be used to further improve the knowledge and skills necessary for successful professional realization.
翻訳日:2022-06-23 14:07:51 公開日:2022-06-19
# Traffic-Twitter Transformer: ネットワーク全体のトラフィック予測のための自然言語処理フレームワーク

Traffic-Twitter Transformer: A Nature Language Processing-joined Framework For Network-wide Traffic Forecasting ( http://arxiv.org/abs/2206.11078v1 )

ライセンス: Link先を確認
Meng-Ju Tsai, Zhiyong Cui, Hao (Frank) Yang, and Yinhai Wang(参考訳) 正確かつタイムリーな交通予報により、影響した交通状況が事前に予測され、自治体や住民が交通パターンの変化に適切に対応できるようにする。 しかし、交通予測に関する既存の研究は、例えば1時間以内の短期的な予測に終始する歴史的交通パターンに大きく依存している。 将来的な道路容量の管理と社会的・人的影響に対応するためには,利用者や交通機関の身体的認識による長期交通状況を予測するための柔軟で包括的な枠組みを提案することが重要である。 本稿では,ソーシャルメディアの特徴を考慮に入れて,堅牢な長期交通予測のギャップを埋めた。 まず,2つの時系列データ,トラフィック強度,およびTwitterデータ強度の相関性を評価するために,相関研究と線形回帰モデルを構築した。 次に、2つの時系列データをソーシャル対応フレームワークであるTraffic-Twitter Transformerに入力し、Nature Language表現を時系列レコードに統合し、長期トラフィック予測を行った。 シアトル大都市圏における実験結果は,提案モデルがすべての評価行列においてベースラインモデルよりも優れていることを示した。 このnlpに結合したソーシャルアウェアフレームワークは、交通機関のネットワーク全体のトラフィック予測と管理の貴重な実装となり得る。

With accurate and timely traffic forecasting, the impacted traffic conditions can be predicted in advance to guide agencies and residents to respond to changes in traffic patterns appropriately. However, existing works on traffic forecasting mainly relied on historical traffic patterns confining to short-term prediction, under 1 hour, for instance. To better manage future roadway capacity and accommodate social and human impacts, it is crucial to propose a flexible and comprehensive framework to predict physical-aware long-term traffic conditions for public users and transportation agencies. In this paper, the gap of robust long-term traffic forecasting was bridged by taking social media features into consideration. A correlation study and a linear regression model were first implemented to evaluate the significance of the correlation between two time-series data, traffic intensity and Twitter data intensity. Two time-series data were then fed into our proposed social-aware framework, Traffic-Twitter Transformer, which integrated Nature Language representations into time-series records for long-term traffic prediction. Experimental results in the Great Seattle Area showed that our proposed model outperformed baseline models in all evaluation matrices. This NLP-joined social-aware framework can become a valuable implement of network-wide traffic prediction and management for traffic agencies.
翻訳日:2022-06-23 14:05:51 公開日:2022-06-19
# ネスト・バンディット

Nested bandits ( http://arxiv.org/abs/2206.09348v1 )

ライセンス: Link先を確認
Matthieu Martin and Panayotis Mertikopoulos and Thibaud Rahier and Houssam Zenati(参考訳) 多くのオンライン意思決定プロセスにおいて、最適化エージェントは、多くの固有の類似性を持つ多くの選択肢を選択するために呼ばれる。 本研究では, 組込み型(非組合せ型)類似性の階層を持つ多数の異なる代替品の存在下で, 学習者が後悔を最小限に抑えようとする, 対向型多武装型盗賊問題のクラスであるネスト型盗賊の文脈において, この問題を考察する。 この設定では、指数重みの青写真(ヘッジ、exp3、それらの変種など)に基づく最適アルゴリズムは、類似の非最適コストで無関係な選択肢を探索するのに過度に時間を費やす傾向があるため、重大な後悔をもたらす可能性がある。 そこで本研究では,ネスト化指数重み (nested exponential weights, new) アルゴリズムを提案する。 そこで我々は,選択肢間の類似度が高いオンライン学習問題を,レッドバス/ブルーバスパラドックスを発生させずに効率的に解決できることを示す,学習者の後悔に対する一連の厳密な境界を得る。

In many online decision processes, the optimizing agent is called to choose between large numbers of alternatives with many inherent similarities; in turn, these similarities imply closely correlated losses that may confound standard discrete choice models and bandit algorithms. We study this question in the context of nested bandits, a class of adversarial multi-armed bandit problems where the learner seeks to minimize their regret in the presence of a large number of distinct alternatives with a hierarchy of embedded (non-combinatorial) similarities. In this setting, optimal algorithms based on the exponential weights blueprint (like Hedge, EXP3, and their variants) may incur significant regret because they tend to spend excessive amounts of time exploring irrelevant alternatives with similar, suboptimal costs. To account for this, we propose a nested exponential weights (NEW) algorithm that performs a layered exploration of the learner's set of alternatives based on a nested, step-by-step selection method. In so doing, we obtain a series of tight bounds for the learner's regret showing that online learning problems with a high degree of similarity between alternatives can be resolved efficiently, without a red bus / blue bus paradox occurring.
翻訳日:2022-06-22 19:59:33 公開日:2022-06-19
# 圧縮とデータ類似性:分散変分不等式のコミュニケーション効率向上のための2つの手法の組み合わせ

Compression and Data Similarity: Combination of Two Techniques for Communication-Efficient Solving of Distributed Variational Inequalities ( http://arxiv.org/abs/2206.09446v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Alexander Gasnikov(参考訳) 変分不等式は、最小化、サドル、ゲーム、固定点問題を含む重要なツールである。 現代の大規模で計算に費用がかかる実践的応用は、これらの問題を解くための分散手法を普及させる。 一方、ほとんどの分散システムには基本的な問題があります。 それに対処する技法は様々である。 特に,本論文では圧縮とデータ類似性という2つの一般的なアプローチの組み合わせについて検討する。 この相乗効果は, 分散平滑な強単調変分不等式を別々に解く場合, それぞれのアプローチよりも効果的であることを示す。 実験は理論的な結論を裏付ける。

Variational inequalities are an important tool, which includes minimization, saddles, games, fixed-point problems. Modern large-scale and computationally expensive practical applications make distributed methods for solving these problems popular. Meanwhile, most distributed systems have a basic problem - a communication bottleneck. There are various techniques to deal with it. In particular, in this paper we consider a combination of two popular approaches: compression and data similarity. We show that this synergy can be more effective than each of the approaches separately in solving distributed smooth strongly monotonic variational inequalities. Experiments confirm the theoretical conclusions.
翻訳日:2022-06-22 19:59:12 公開日:2022-06-19
# 資源効率の良い分離変圧器

Resource-Efficient Separation Transformer ( http://arxiv.org/abs/2206.09507v1 )

ライセンス: Link先を確認
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Fr\'ed\'eric Lepoutre, Fran\c{c}ois Grondin(参考訳) トランスフォーマーは最近、音声分離において最先端のパフォーマンスを達成している。 しかし、これらのモデルは計算的に要求され、多くの学習可能なパラメータを必要とする。 本稿では,トランスフォーマーを用いた音声分離手法を提案する。 私たちの主な貢献は、リソース効率の良い分離変換器(RE-SepFormer)の開発です。 まず、潜在空間で重複しないブロックを使用する。 第二に、各チャンクから計算されたコンパクトな潜在サマリーで動作する。 re-sepformerは、因果設定と非因果設定の両方で、人気のあるwsj0-2mixとwham!データセットで競合性能に達する。 注目すべきは、メモリと推論時間の観点から、以前のTransformerやRNNベースのアーキテクチャよりも大幅にスケールし、長い混合処理に適していることだ。

Transformers have recently achieved state-of-the-art performance in speech separation. These models, however, are computationally-demanding and require a lot of learnable parameters. This paper explores Transformer-based speech separation with a reduced computational cost. Our main contribution is the development of the Resource-Efficient Separation Transformer (RE-SepFormer), a self-attention-based architecture that reduces the computational burden in two ways. First, it uses non-overlapping blocks in the latent space. Second, it operates on compact latent summaries calculated from each chunk. The RE-SepFormer reaches a competitive performance on the popular WSJ0-2Mix and WHAM! datasets in both causal and non-causal settings. Remarkably, it scales significantly better than the previous Transformer and RNN-based architectures in terms of memory and inference-time, making it more suitable for processing long mixtures.
翻訳日:2022-06-22 19:59:04 公開日:2022-06-19
# 物理・等質制約ニューラルネットワークにおける学習複雑性の緩和

Mitigating Learning Complexity in Physics and Equality Constrained Artificial Neural Networks ( http://arxiv.org/abs/2206.09321v1 )

ライセンス: Link先を確認
Shamsulhaq Basir, Inanc Senocak(参考訳) 偏微分方程式 (PDE) の解を求めるために, 物理インフォームドニューラルネットワーク (PINN) が提案されている。 PINNでは、利害関係のPDEの残留形態とその境界条件は、軟罰として複合目的関数にまとめられる。 本稿では,この目的関数を定式化する方法が,異なる種類のPDEに適用した場合のPINNアプローチにおける厳しい制約の源であることを示す。 これらの制約に対処するため、我々は拡張ラグランジアン法(ALM)を用いて、PDEの解をその境界条件と利用可能な高忠実度データに制約する、制約付き最適化問題定式化に基づく汎用フレームワークを提案する。 我々のアプローチは、多元的データ融合における前方および逆問題に適しています。 我々は、多次元PDEを含むいくつかの前方および逆問題に適用することで、物理・等式制約付きディープラーニングフレームワークの有効性と汎用性を実証し、最先端の物理インフォームドニューラルネットワークと比較して精度の桁違いの改善を実現した。

Physics-informed neural networks (PINNs) have been proposed to learn the solution of partial differential equations (PDE). In PINNs, the residual form of the PDE of interest and its boundary conditions are lumped into a composite objective function as soft penalties. Here, we show that this specific way of formulating the objective function is the source of severe limitations in the PINN approach when applied to different kinds of PDEs. To address these limitations, we propose a versatile framework based on a constrained optimization problem formulation, where we use the augmented Lagrangian method (ALM) to constrain the solution of a PDE with its boundary conditions and any high-fidelity data that may be available. Our approach is adept at forward and inverse problems with multi-fidelity data fusion. We demonstrate the efficacy and versatility of our physics- and equality-constrained deep-learning framework by applying it to several forward and inverse problems involving multi-dimensional PDEs.Our framework achieves orders of magnitude improvements in accuracy levels in comparison with state-of-the-art physics-informed neural networks.
翻訳日:2022-06-22 19:27:10 公開日:2022-06-19
# フェアネスを意識したモデルに依存しない肯定とラベルなし学習

Fairness-aware Model-agnostic Positive and Unlabeled Learning ( http://arxiv.org/abs/2206.09346v1 )

ライセンス: Link先を確認
Ziwei Wu, Jingrui He(参考訳) 高度な意思決定問題における機械学習の応用が増加する中、特定の社会集団の人々に対する潜在的なアルゴリズムバイアスは、個人や社会全体に悪影響を及ぼす。 現実のシナリオでは、医療診断、犯罪リスク評価、レコメンダシステムなど、ポジティブでラベルのないデータを含む多くの問題が発生する。 例えば、診断では、診断された疾患のみが記録される(陽性)が、他の疾患は記録されない(ラベルなし)。 フェアネスを意識した機械学習が(半教師付きで教師なしの)設定で数多く行われているにもかかわらず、フェアネス問題は前述のPUL(Positive and Unlabeled Learning)の文脈ではほとんど探索されていない。 本稿では,この緊張を軽減するためにFairPULというフェアネス対応PUL法を提案する。 特に,2つの集団の個体に対する二進分類では,同一の真正率と偽陽性率を公平度指標として達成することを目指している。 PULの最適フェア分類器の解析に基づいて,モデルに依存しない後処理フレームワークを設計し,正の例と未ラベルの例の両方を活用する。 我々の枠組みは分類誤差と公平度指標の両方の観点から統計的に一貫性があることが証明されている。 合成および実世界のデータセットの実験により、我々のフレームワークはPULと公正な分類の両方において最先端であることを示した。

With the increasing application of machine learning in high-stake decision-making problems, potential algorithmic bias towards people from certain social groups poses negative impacts on individuals and our society at large. In the real-world scenario, many such problems involve positive and unlabeled data such as medical diagnosis, criminal risk assessment and recommender systems. For instance, in medical diagnosis, only the diagnosed diseases will be recorded (positive) while others will not (unlabeled). Despite the large amount of existing work on fairness-aware machine learning in the (semi-)supervised and unsupervised settings, the fairness issue is largely under-explored in the aforementioned Positive and Unlabeled Learning (PUL) context, where it is usually more severe. In this paper, to alleviate this tension, we propose a fairness-aware PUL method named FairPUL. In particular, for binary classification over individuals from two populations, we aim to achieve similar true positive rates and false positive rates in both populations as our fairness metric. Based on the analysis of the optimal fair classifier for PUL, we design a model-agnostic post-processing framework, leveraging both the positive examples and unlabeled ones. Our framework is proven to be statistically consistent in terms of both the classification error and the fairness metric. Experiments on the synthetic and real-world data sets demonstrate that our framework outperforms state-of-the-art in both PUL and fair classification.
翻訳日:2022-06-22 19:26:52 公開日:2022-06-19
# 地理的モデリングのための一般化された地域化枠組みとその空間回帰への応用

A generalized regionalization framework for geographical modelling and its application in spatial regression ( http://arxiv.org/abs/2206.09429v1 )

ライセンス: Link先を確認
Hao Guo, Andre Python, Yu Liu(参考訳) 空間的異質性の存在下では、地理的データに適用されたモデルは、一般的な結果の生成と局所的な変動の捕捉の間のトレードオフに直面している。 局所スケールでのモデリングは、精度と一般性の両方を最適化する解を識別することができる。 しかし、現在のほとんどの地域化アルゴリズムは、属性を生成する過程を考慮せずに、属性の均質性を仮定している。 本稿では,領域数を最小にしつつ,最も精度の高い解を優先する2項目目的関数に基づく一般化的地域化フレームワークを提案する。 本稿では,空間制約クラスタリングを考慮した従来の手法を拡張した3つの地域化アルゴリズムを提案する。 提案手法の有効性をシミュレーションデータと実データの両方の回帰実験で検証した。 その結果,空間的暗黙的アルゴリズムが自動後処理によって拡張され,空間的明示的アプローチよりも優れていた。 提案手法は,多種多様な地理モデルにおいて,空間的不均質性に関連するプロセスをよりよく把握するのに役立つ。

In presence of spatial heterogeneity, models applied to geographic data face a trade-off between producing general results and capturing local variations. Modelling at a regional scale may allow the identification of solutions that optimize both accuracy and generality. However, most current regionalization algorithms assume homogeneity in the attributes to delineate regions without considering the processes that generate the attributes. In this paper, we propose a generalized regionalization framework based on a two-item objective function which favors solutions with the highest overall accuracy while minimizing the number of regions. We introduce three regionalization algorithms, which extend previous methods that account for spatially constrained clustering. The effectiveness of the proposed framework is examined in regression experiments on both simulated and real data. The results show that a spatially implicit algorithm extended with an automatic post-processing procedure outperforms spatially explicit approaches. Our suggested framework contributes to better capturing the processes associated with spatial heterogeneity with potential applications in a wide range of geographical models.
翻訳日:2022-06-22 19:26:27 公開日:2022-06-19
# 進化的多目的クラスタリングにおける目的関数の許容性の解析

An Analysis of the Admissibility of the Objective Functions Applied in Evolutionary Multi-objective Clustering ( http://arxiv.org/abs/2206.09483v1 )

ライセンス: Link先を確認
Cristina Y. Morimoto and Aurora Pozo and Marc\'ilio C. P. de Souto(参考訳) 進化的多目的クラスタリングアプローチ(EMOC)において,様々なクラスタリング基準が客観的関数として適用されている。 しかし、ほとんどのEMOCは、目的関数の選択と使用に関する詳細な分析を提供していない。 本稿では,EMOCにおける目的のよりよい選択と定義を支援することを目的として,進化最適化におけるクラスタリング基準の許容可能性について,探索方向と最適結果の発見の可能性を調べて分析する。 その結果,目的関数の許容性が最適化にどのように影響するかを示した。 さらに,EMOCにおけるクラスタリング基準の組み合わせと利用に関する知見を提供する。

A variety of clustering criteria has been applied as an objective function in Evolutionary Multi-Objective Clustering approaches (EMOCs). However, most EMOCs do not provide detailed analysis regarding the choice and usage of the objective functions. Aiming to support a better choice and definition of the objectives in the EMOCs, this paper proposes an analysis of the admissibility of the clustering criteria in evolutionary optimization by examining the search direction and its potential in finding optimal results. As a result, we demonstrate how the admissibility of the objective functions can influence the optimization. Furthermore, we provide insights regarding the combinations and usage of the clustering criteria in the EMOCs.
翻訳日:2022-06-22 19:26:10 公開日:2022-06-19
# 確率的前処理防御の限界について

On the Limitations of Stochastic Pre-processing Defenses ( http://arxiv.org/abs/2206.09491v1 )

ライセンス: Link先を確認
Yue Gao, Ilia Shumailov, Kassem Fawaz, Nicolas Papernot(参考訳) 敵対的な例に対する防御は未解決の問題である。 推論におけるランダム性は、逆入力を見つけるコストを増大させるという考え方が一般的である。 そのような防御の例として、モデルに入力を渡す前にランダム変換を適用することが挙げられる。 本稿では,このような確率的前処理防御を経験的かつ理論的に検討し,その欠陥を実証する。 まず,ほとんどの確率的防御は従来考えられていたよりも弱いことを示し,予測された勾配降下のような標準的な攻撃に耐える十分なランダム性が欠けていることを示した。 このことは、確率的防御が決定論的防御を避けるために設計された攻撃を無効にし、攻撃者に変換に対する期待(EOT)の概念を統合するよう強制するという長年の仮定に疑問を投げかけている。 第2に、確率的防御は、対向的ロバスト性とモデル不変性の間のトレードオフに直面していることを示す。 今後この2つの効果を分離する必要がある。 私たちのコードは補足資料で入手できる。

Defending against adversarial examples remains an open problem. A common belief is that randomness at inference increases the cost of finding adversarial inputs. An example of such a defense is to apply a random transformation to inputs prior to feeding them to the model. In this paper, we empirically and theoretically investigate such stochastic pre-processing defenses and demonstrate that they are flawed. First, we show that most stochastic defenses are weaker than previously thought; they lack sufficient randomness to withstand even standard attacks like projected gradient descent. This casts doubt on a long-held assumption that stochastic defenses invalidate attacks designed to evade deterministic defenses and force attackers to integrate the Expectation over Transformation (EOT) concept. Second, we show that stochastic defenses confront a trade-off between adversarial robustness and model invariance; they become less effective as the defended model acquires more invariance to their randomization. Future work will need to decouple these two effects. Our code is available in the supplementary material.
翻訳日:2022-06-22 19:26:01 公開日:2022-06-19
# トランスフォーマおよびソースフィルタワーピングを用いたロバスト低リソース音声asrの転送学習

Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping ( http://arxiv.org/abs/2206.09396v1 )

ライセンス: Link先を確認
Jenthe Thienpondt and Kris Demuynck(参考訳) 自動音声認識システム (ASR) は, 子どもの発話の書き起こしが困難であることが知られている。 これは主に、大人のデータに基づいて訓練されたシステムで子どもの音声を復号する際に、頑健なASRモデルを訓練する子どもの音声コーパスが存在しないことによる。 本稿では,これらの問題を緩和する複数の拡張を提案する。 まず,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。 これにより、これらのサンプルを子供の発話と知覚的に類似させることで、成人音声コーパスのデータ可用性を活用できる。 次に,この拡張戦略を用いて,成人データに事前学習されたトランスフォーマモデルに転送学習を適用する。 このモデルは最近導入されたXLS-Rアーキテクチャに従っており、これは複数の言語間の成人音声コーパスで事前訓練されたwav2vec 2.0モデルで、汎用的でロバストなフレームレベルの表現を学習する。 提案したソース・フィルタ・ワープ・ストラテジーを付加した成人データとドメイン内子どものスピーチを併用したASRタスクへのこのモデルの適用は、公式テストセットの4.86%のWERを持つPF-STAR英国英語幼児音声コーパスにおいて、これまでの最先端の成果を著しく上回っている。

Automatic Speech Recognition (ASR) systems are known to exhibit difficulties when transcribing children's speech. This can mainly be attributed to the absence of large children's speech corpora to train robust ASR models and the resulting domain mismatch when decoding children's speech with systems trained on adult data. In this paper, we propose multiple enhancements to alleviate these issues. First, we propose a data augmentation technique based on the source-filter model of speech to close the domain gap between adult and children's speech. This enables us to leverage the data availability of adult speech corpora by making these samples perceptually similar to children's speech. Second, using this augmentation strategy, we apply transfer learning on a Transformer model pre-trained on adult data. This model follows the recently introduced XLS-R architecture, a wav2vec 2.0 model pre-trained on several cross-lingual adult speech corpora to learn general and robust acoustic frame-level representations. Adopting this model for the ASR task using adult data augmented with the proposed source-filter warping strategy and a limited amount of in-domain children's speech significantly outperforms previous state-of-the-art results on the PF-STAR British English Children's Speech corpus with a 4.86% WER on the official test set.
翻訳日:2022-06-22 18:46:32 公開日:2022-06-19
# eatformer:進化的アルゴリズムに触発された視覚トランスフォーマーの改良

EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm ( http://arxiv.org/abs/2206.09325v1 )

ライセンス: Link先を確認
Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang, Yong Liu, Dacheng Tao(参考訳) 本稿では, 生物進化に動機づけられ, 実用的進化アルゴリズム (ea) の類似性を用いて視覚トランスフォーマーの合理性を説明し, 両者が一貫した数学的定式化を持っていることを導出する。 次に, 効果的な ea 変種に触発されて, 提案する \emph{ea-based transformer} (eat) ブロックのみを含む新しいピラミッドイートフォーマーバックボーンを提案し, マルチスケール, インタラクティブ, 個別情報を個別にモデル化するために, \ie, \emph{multi-scale region aggregation} (msra), \emph{global and local interaction} (gli), \emph{feed-forward network} (ffn) モジュールの3つの残部からなる。 さらに, トランスバータバックボーンとドッキングした \emph{Task-Related Head} (TRH) と, 不規則な位置を動的にモデル化する \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) を設計する。 画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチがSOTA(State-Of-The-Art)法よりも優れていることを示す。 \Eg, our Mobile (1.8M), Tiny (6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7. コードは \url{https://https://github.com/zhangzjn/EATFormer} で入手できる。

Motivated by biological evolution, this paper explains the rationality of Vision Transformer by analogy with the proven practical Evolutionary Algorithm (EA) and derives that both have consistent mathematical formulation. Then inspired by effective EA variants, we propose a novel pyramid EATFormer backbone that only contains the proposed \emph{EA-based Transformer} (EAT) block, which consists of three residual parts, \ie, \emph{Multi-Scale Region Aggregation} (MSRA), \emph{Global and Local Interaction} (GLI), and \emph{Feed-Forward Network} (FFN) modules, to model multi-scale, interactive, and individual information separately. Moreover, we design a \emph{Task-Related Head} (TRH) docked with transformer backbone to complete final information fusion more flexibly and \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) to dynamically model irregular locations. Massive quantitative and quantitative experiments on image classification, downstream tasks, and explanatory experiments demonstrate the effectiveness and superiority of our approach over State-Of-The-Art (SOTA) methods. \Eg, our Mobile (1.8M), Tiny (6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7. Code will be available at \url{https://https://github.com/zhangzjn/EATFormer}.
翻訳日:2022-06-22 18:43:09 公開日:2022-06-19
# 非許可顔認識システムに対するjpeg圧縮耐性低mid逆摂動

JPEG Compression-Resistant Low-Mid Adversarial Perturbation against Unauthorized Face Recognition System ( http://arxiv.org/abs/2206.09410v1 )

ライセンス: Link先を確認
Jiaming Zhang, Qi Yi, Jitao Sang(参考訳) 顔認識システムの不正使用がプライバシー問題を引き起こすことが観察されている。 敵対的摂動を用いることでこの問題に対処できる解決策が1つある。 ウェブにアップロードされた画像はJPEG圧縮によって処理する必要があるため、敵の摂動の有効性は低下する。 既存のJPEG圧縮耐性手法では、圧縮抵抗、転送可能性、攻撃効率のバランスが取れない。 そこで本研究では,低周波対向摂動(LFAP)と呼ばれるより自然な解を提案する。 対向摂動を制限する代わりに、対向訓練によってより低周波の特徴を用いるようにソースモデルを定式化する。 さらに、異なる周波数成分のモデルにより良い影響を与えるために、中間周波数成分を生産的補完として考慮した改良された低中周波対向摂動(LMFAP)を提案する。 本研究では、クロスバックボーン、監視ヘッド、データセットのトレーニング、データセットのテストなど、現実世界のアプリケーションシナリオをシミュレートするために、さまざまな設定を設計しました。 定量的および定性的な実験結果により,提案手法の有効性が検証された。

It has been observed that the unauthorized use of face recognition system raises privacy problems. Using adversarial perturbations provides one possible solution to address this issue. A critical issue to exploit adversarial perturbation against unauthorized face recognition system is that: The images uploaded to the web need to be processed by JPEG compression, which weakens the effectiveness of adversarial perturbation. Existing JPEG compression-resistant methods fails to achieve a balance among compression resistance, transferability, and attack effectiveness. To this end, we propose a more natural solution called low frequency adversarial perturbation (LFAP). Instead of restricting the adversarial perturbations, we turn to regularize the source model to employing more low-frequency features by adversarial training. Moreover, to better influence model in different frequency components, we proposed the refined low-mid frequency adversarial perturbation (LMFAP) considering the mid frequency components as the productive complement. We designed a variety of settings in this study to simulate the real-world application scenario, including cross backbones, supervisory heads, training datasets and testing datasets. Quantitative and qualitative experimental results validate the effectivenss of proposed solutions.
翻訳日:2022-06-22 18:42:28 公開日:2022-06-19
# MU-MIMO検出器を用いたグラフニューラルネットワーク

Graph Neural Network Aided MU-MIMO Detectors ( http://arxiv.org/abs/2206.09381v1 )

ライセンス: Link先を確認
Alva Kosasih, Vincent Onasis, Vera Miloslavskaya, Wibowo Hardjawana, Victor Andrean, and Branka Vucetic(参考訳) マルチユーザマルチインプットマルチアウトプット(mu-mimo)システムは、5g以上の高いスループット要件を満たすために使用できる。 基地局はアップリンクのmu-mimoシステムで多くのユーザに対応しており、実質的なマルチユーザー干渉(mui)につながる。 強力なmuiを扱うための高性能検出器の設計は困難である。 本稿では,高度MUIの存在下でのMP(State-of-the-art message passing)検出器における後部分布近似による性能劣化を解析する。 本研究では,mp検出器のキャビティ分布を微調整し,mp検出器の後方分布近似を改善するグラフニューラルネットワークフレームワークを開発した。 次に、予測伝搬(EP)とベイズ並列干渉キャンセル(BPIC)に依存する2つの新しいニューラルネットワークベース検出器を提案し、それぞれGEPNetおよびGPICNet検出器と呼ぶ。 GEPNet検出器は検出性能を最大化し、GPICNet検出器は性能と複雑さのバランスをとる。 ユーザ数を動的に変化させたシステムであっても,検出器を1回だけトレーニングすることが可能な,置換同分散特性の証明を提供する。 シミュレーションの結果,提案したGEPNet検出器の性能は様々な構成で最大最大性能に近づき,GPICNet検出器はBPIC検出器の多重化ゲインを2倍にすることがわかった。

Multi-user multiple-input multiple-output (MU-MIMO) systems can be used to meet high throughput requirements of 5G and beyond networks. A base station serves many users in an uplink MU-MIMO system, leading to a substantial multi-user interference (MUI). Designing a high-performance detector for dealing with a strong MUI is challenging. This paper analyses the performance degradation caused by the posterior distribution approximation used in the state-of-the-art message passing (MP) detectors in the presence of high MUI. We develop a graph neural network based framework to fine-tune the MP detectors' cavity distributions and thus improve the posterior distribution approximation in the MP detectors. We then propose two novel neural network based detectors which rely on the expectation propagation (EP) and Bayesian parallel interference cancellation (BPIC), referred to as the GEPNet and GPICNet detectors, respectively. The GEPNet detector maximizes detection performance, while GPICNet detector balances the performance and complexity. We provide proof of the permutation equivariance property, allowing the detectors to be trained only once, even in the systems with dynamic changes of the number of users. The simulation results show that the proposed GEPNet detector performance approaches maximum likelihood performance in various configurations and GPICNet detector doubles the multiplexing gain of BPIC detector.
翻訳日:2022-06-22 18:13:56 公開日:2022-06-19
# 分布サンプルを用いた非iidデータからのグレイ学習

Gray Learning from Non-IID Data with Out-of-distribution Samples ( http://arxiv.org/abs/2206.09375v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao and Chang-Dong Wang(参考訳) 専門家がアノテートしたトレーニングデータの品質は保証できないが、分布内と分布外の両方からなる非iidデータ(分布内と分布外の両方が異なる分布を持つ)では、さらに保証されない。 専門家は、不正に分布外サンプルを分布内サンプルと同一に注釈付けし、信頼できない表層ラベルを引き起こすことがある。 非IIDデータ混合と非分布サンプルを信頼できないラベルで学習することは、浅層学習と深層学習の両方に顕著に挑戦し、関連する研究は報告されていない。 アウトオブディストリビューションとイン・オブ・ディストリビューションの2つのサンプルは、接地ラベルに対応するクラスを除いてはクラスに属しないため、どのクラスに属していないかを示す信頼できる補完的なラベルを識別することが可能である。 そこで本研究では,非iidデータから分布標本と分布標本の両方をロバストに学習する,新しい \textit{gray learning} 手法を提案する。 トレーニングサンプルの分布が不確かであるため,高信頼度入力をグランドトラストラベルにマッピングしながら,低信頼度入力の補完ラベルを拒否する。 統計的学習理論に基づいて,グレイ学習が非iidデータに厳密な束縛を達成していることを示す一般化誤差を導出する。 広範な実験により,本手法はロバスト統計学の代替手法に対して有意な改善をもたらすことが示された。

The quality of the training data annotated by experts cannot be guaranteed, even more so for non-IID data consisting of both in- and out-of-distribution samples (i.e., in-distribution and out-of-distribution samples hold different distributions). Experts may mistakenly annotate out-of-distribution samples the same as in-distribution samples, incurring untrustworthy ground-truth labels. Learning such non-IID data mixing in- and out-of-distribution samples with untrustworthy labels significantly challenges both shallow and deep learning, with no relevant work reported. It would be possible to identify trustworthy complementary labels of a sample indicating which classes it does not belong to, because both in- and out-of-distribution samples do not belong to the classes except those corresponding to the ground-truth label. With this insight, we propose a novel \textit{gray learning} approach to robustly learn from non-IID data with both in- and out-of-distribution samples. Due to the uncertain distributions of training samples, we reject the complementary labels for low-confidence inputs while mapping high-confidence inputs to the ground-truth labels in training. Building on the statistical learning theory, we derive the generalization error which shows that gray learning achieves a tight bound on the non-IID data. Extensive experiments show that our method provides significant improvement over alternative methods from robust statistics.
翻訳日:2022-06-22 17:53:18 公開日:2022-06-19
# 0/1 ブロック座標降下によるディープニューラルネットワーク

0/1 Deep Neural Networks via Block Coordinate Descent ( http://arxiv.org/abs/2206.09379v1 )

ライセンス: Link先を確認
Hui Zhang, Shenglong Zhou, Geoffrey Ye Li, Naihua Xiu(参考訳) ステップ関数は、ディープニューラルネットワーク(DNN)の最も単純かつ最も自然なアクティベーション関数の1つである。 正の変数は 1 で、他の変数は 0 なので、本質的な特性(例えば、不連続性や下位段階の情報がないなど)は数十年にわたってその発展を妨げる。 ステップ関数のサロゲートと見なされる連続活性化関数を持つDNNを設計する際、驚くべき仕事の本体があるとしても、アウトレーヤに対する完全堅牢性や、予測精度の最良の学習理論的保証を達成できるなど、いくつかの有利な特性を持っている。 そこで本研究では,ステップ関数をアクティベーション関数 (0/1 DNN) として使用するDNNの訓練を目的とした。 まず,制約のない最適化問題として0/1 DNNを再構成し,ブロック座標降下法(BCD)により解いた。 さらに,BCDのサブプロブレムおよび収束特性に対する閉形式解を得る。 さらに,$\ell_{2,0}$-regularizationを0/1 dnnに統合し,トレーニングプロセスを高速化し,ネットワーク規模を圧縮した。 その結果,提案アルゴリズムはMNISTデータセットとFashion-MNISTデータセットの分類において高い性能を示した。

The step function is one of the simplest and most natural activation functions for deep neural networks (DNNs). As it counts 1 for positive variables and 0 for others, its intrinsic characteristics (e.g., discontinuity and no viable information of subgradients) impede its development for several decades. Even if there is an impressive body of work on designing DNNs with continuous activation functions that can be deemed as surrogates of the step function, it is still in the possession of some advantageous properties, such as complete robustness to outliers and being capable of attaining the best learning-theoretic guarantee of predictive accuracy. Hence, in this paper, we aim to train DNNs with the step function used as an activation function (dubbed as 0/1 DNNs). We first reformulate 0/1 DNNs as an unconstrained optimization problem and then solve it by a block coordinate descend (BCD) method. Moreover, we acquire closed-form solutions for sub-problems of BCD as well as its convergence properties. Furthermore, we also integrate $\ell_{2,0}$-regularization into 0/1 DNN to accelerate the training process and compress the network scale. As a result, the proposed algorithm has a high performance on classifying MNIST and Fashion-MNIST datasets.
翻訳日:2022-06-22 17:52:49 公開日:2022-06-19
# 配当一般化と配当検出における監督適応バランス

Supervision Adaptation Balances In-Distribution Generalization and Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09380v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao and Kun-Yu Lin(参考訳) 分布内(ID)サンプルと分布外(OOD)サンプルの間に不一致がある場合、IDサンプルに基づいてトレーニングされたディープニューラルネットワークは、OODサンプルに対する信頼度の高い予測に悩まされる。 これは主に、トレーニングプロセスのネットワークを制約するOODサンプルが利用できないためである。 ディープネットワークのOOD感度を改善するために、いくつかの最先端手法は、トレーニングプロセスにOODサンプルとして他の実世界のデータセットからのサンプルを導入し、これらのOODサンプルに手動で決定されたラベルを割り当てる。 しかし、OODサンプルの信頼性の低いラベル付けがID分類を損なうため、分類精度を犠牲にしている。 本稿では,IDの一般化とOOD検出のバランスをとるために,OODサンプルをIDサンプルと互換性を持たせることが大きな課題である。 まず,IDサンプルとそのラベル間の依存度を相互情報を用いて測定することにより,すべてのクラスにおいて負の確率で監督情報の形式を明らかにする。 次に,複数の2次回帰問題を解くことで,idとoodサンプル間のデータ相関を探索し,管理情報を推定し,idクラスをより分離可能にした。 我々は、ID分類能力とOOD検出能力の両方を達成する上で、監視適応方式のバランス効果を示すために、2つのIDデータセットと11のOODデータセットを持つ4つの先進ネットワークアーキテクチャの実験を行った。

When there is a discrepancy between in-distribution (ID) samples and out-of-distribution (OOD) samples, deep neural networks trained on ID samples suffer from high-confidence prediction on OOD samples. This is primarily caused by unavailable OOD samples to constrain the networks in the training process. To improve the OOD sensitivity of deep networks, several state-of-the-art methods introduce samples from other real-world datasets as OOD samples to the training process and assign manually-determined labels to these OOD samples. However, they sacrifice the classification accuracy because the unreliable labeling of OOD samples would disrupt ID classification. To balance ID generalization and OOD detection, a major challenge to tackle is to make OOD samples compatible with ID ones, which is addressed by our proposed \textit{supervision adaptation} method in this paper to define adaptive supervision information for OOD samples. First, by measuring the dependency between ID samples and their labels through mutual information, we reveal the form of the supervision information in terms of the negative probabilities of all classes. Second, after exploring the data correlations between ID and OOD samples by solving multiple binary regression problems, we estimate the supervision information to make ID classes more separable. We perform experiments on four advanced network architectures with two ID datasets and eleven OOD datasets to demonstrate the balancing effect of our supervision adaptation method in achieving both the ID classification ability and the OOD detection capacity.
翻訳日:2022-06-22 17:52:27 公開日:2022-06-19
# 分布データのクラス間分布による分布外検出

Out-of-distribution Detection by Cross-class Vicinity Distribution of In-distribution Data ( http://arxiv.org/abs/2206.09385v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao and Kun-Yu Lin(参考訳) ディープニューラルネットワークは、分布サンプルと分布サンプルを区別することなく、トレーニングフェーズにおいて、分布内入力を対応する基底真理ラベルにマッピングすることのみを学習する。 これは、全てのサンプルが独立であり、分布の区別なしに同一に分布しているという仮定から生じる。 そこで, 分布内サンプルから学習した事前学習ネットワークは, 分布外サンプルを分布内として扱い, 試験段階での信頼度の高い予測を行う。 この問題に対処するために,学習用分布標本の近傍分布から分布標本を作成し,分布標本の予測を拒否する。 複数の分布サンプルを混合して生成された分配外サンプルは、その構成要素の同じクラスを共有しないことを仮定して、 \textit{cross-class near distribution} が導入された。 そこで我々は,各分布外入力が相補ラベルに対応するクロスクラス近傍分布から抽出された分布外サンプルを微調整することにより,事前学習ネットワークの識別性を向上させる。 各種分布内/分布外データセットを用いた実験により,提案手法が既存の手法を著しく上回っており,分布内および分布外サンプルの識別能力が向上することを示した。

Deep neural networks only learn to map in-distribution inputs to their corresponding ground truth labels in the training phase without differentiating out-of-distribution samples from in-distribution ones. This results from the assumption that all samples are independent and identically distributed without distributional distinction. Therefore, a pretrained network learned from the in-distribution samples treats out-of-distribution samples as in-distribution and makes high-confidence predictions on them in the test phase. To address this issue, we draw out-of-distribution samples from the vicinity distribution of training in-distribution samples for learning to reject the prediction on out-of-distribution inputs. A \textit{Cross-class Vicinity Distribution} is introduced by assuming that an out-of-distribution sample generated by mixing multiple in-distribution samples does not share the same classes of its constituents. We thus improve the discriminability of a pretrained network by finetuning it with out-of-distribution samples drawn from the cross-class vicinity distribution, where each out-of-distribution input corresponds to a complementary label. Experiments on various in-/out-of-distribution datasets show that the proposed method significantly outperforms existing methods in improving the capacity of discriminating between in- and out-of-distribution samples.
翻訳日:2022-06-22 17:51:57 公開日:2022-06-19
# 分布外検出のためのラベルと分布判別型二重表現学習

Label and Distribution-discriminative Dual Representation Learning for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09387v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao(参考訳) 分散サンプルを分類するために、ディープニューラルネットワークはラベル識別表現を学習するが、情報ボトルネックに応じて必ずしも分布識別表現ではない。 そのため、トレーニングされたネットワークは、分布から引き出された分布外サンプルに、予想外の高信頼予測を割り当てることができる。 特に、ネットワークは、分布サンプルから強いラベル関連情報を抽出してラベル識別表現を学習するが、弱いラベル関連情報を破棄する。 したがって、ネットワークは、最小限のラベルに敏感な情報を含む分配外サンプルを分配内サンプルとして扱う。 二重表現学習(drl)法は、分布内および分布外サンプルの異なる情報性特性に応じて、分布内サンプルのラベル付けに弱い分布判別表現を学習し、ラベルおよび分布判別表現を結合して分布外サンプルを検出する。 ラベル識別表現に対して、DRLは暗黙の制約により相補的な分布識別表現を構築する、すなわちラベル識別表現とあまり類似しない中間表現がより高い重みを持つような多様な中間表現を統合する。 実験の結果,DRLは分布外検出の最先端手法よりも優れていた。

To classify in-distribution samples, deep neural networks learn label-discriminative representations, which, however, are not necessarily distribution-discriminative according to the information bottleneck. Therefore, trained networks could assign unexpected high-confidence predictions to out-of-distribution samples drawn from distributions differing from that of in-distribution samples. Specifically, networks extract the strongly label-related information from in-distribution samples to learn the label-discriminative representations but discard the weakly label-related information. Accordingly, networks treat out-of-distribution samples with minimum label-sensitive information as in-distribution samples. According to the different informativeness properties of in- and out-of-distribution samples, a Dual Representation Learning (DRL) method learns distribution-discriminative representations that are weakly related to the labeling of in-distribution samples and combines label- and distribution-discriminative representations to detect out-of-distribution samples. For a label-discriminative representation, DRL constructs the complementary distribution-discriminative representation by an implicit constraint, i.e., integrating diverse intermediate representations where an intermediate representation less similar to the label-discriminative representation owns a higher weight. Experiments show that DRL outperforms the state-of-the-art methods for out-of-distribution detection.
翻訳日:2022-06-22 17:51:26 公開日:2022-06-19
# LordNet: シミュレーションデータなしでパラメトリック部分微分方程式を解くことを学ぶ

LordNet: Learning to Solve Parametric Partial Differential Equations without Simulated Data ( http://arxiv.org/abs/2206.09418v1 )

ライセンス: Link先を確認
Wenlei Shi, Xinquan Huang, Xiaotian Gao, Xinran Wei, Jia Zhang, Jiang Bian, Mao Yang, Tie-Yan Liu(参考訳) ニューラル作用素は、無限次元函数空間間の非線形作用素の強力な近似として、偏微分方程式(PDE)の解の加速に有望であることが証明されている。 しかし、大量のシミュレーションデータが必要であるため、収集にコストがかかるため、鶏卵ジレンマが発生し、PDEの解決に使用が制限される。 ディレンマから飛び出すために、ニューラルネットワークは離散化されたPDEによって構築された平均2乗残差(MSR)損失から物理を直接学習する一般データ自由パラダイムを提案する。 我々は、MSR損失の物理的情報を調べ、ニューラルネットワークがPDEの空間領域における長い範囲の絡み合いをモデル化しなければならないという課題を特定し、そのパターンは異なるPDEで異なる。 そこで本研究では,様々な絡み合いをモデル化できる低ランク分解ネットワーク(LordNet)を提案する。 特にlordnetは、単純な完全連結層を持つ大域的絡み合いに対する低ランク近似を学び、計算コストを低減した支配的なパターンを抽出する。 ポアソン方程式とナビエ・ストークス方程式を解く実験は、MSR損失による物理的制約がニューラルネットワークの精度と一般化能力の向上につながることを示した。 加えて、LordNetは両方のPDEにおいて、最も少ないパラメータと最速の推論速度で、他の現代的なニューラルネットワークアーキテクチャよりも優れています。 Navier-Stokes方程式の場合、学習作用素は同じ計算資源を持つ有限差分解の50倍以上高速である。

Neural operators, as a powerful approximation to the non-linear operators between infinite-dimensional function spaces, have proved to be promising in accelerating the solution of partial differential equations (PDE). However, it requires a large amount of simulated data which can be costly to collect, resulting in a chicken-egg dilemma and limiting its usage in solving PDEs. To jump out of the dilemma, we propose a general data-free paradigm where the neural network directly learns physics from the mean squared residual (MSR) loss constructed by the discretized PDE. We investigate the physical information in the MSR loss and identify the challenge that the neural network must have the capacity to model the long range entanglements in the spatial domain of the PDE, whose patterns vary in different PDEs. Therefore, we propose the low-rank decomposition network (LordNet) which is tunable and also efficient to model various entanglements. Specifically, LordNet learns a low-rank approximation to the global entanglements with simple fully connected layers, which extracts the dominant pattern with reduced computational cost. The experiments on solving Poisson's equation and Navier-Stokes equation demonstrate that the physical constraints by the MSR loss can lead to better accuracy and generalization ability of the neural network. In addition, LordNet outperforms other modern neural network architectures in both PDEs with the fewest parameters and the fastest inference speed. For Navier-Stokes equation, the learned operator is over 50 times faster than the finite difference solution with the same computational resources.
翻訳日:2022-06-22 17:51:04 公開日:2022-06-19
# 関数近似による epsilon-greedy reinforcement learning の保証

Guarantees for Epsilon-Greedy Reinforcement Learning with Function Approximation ( http://arxiv.org/abs/2206.09421v1 )

ライセンス: Link先を確認
Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari, Karthik Sridharan(参考訳) エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習課題において効率的に探索することができないが、他の多くの分野ではうまく機能する。 実際、それらは多くの場合、その単純さのために、最高の選択肢として選ばれます。 しかし、こうした政策が成功するタスクは何か。 彼らの好成績を理論的に保証できますか? これらの重要な問題は、これらの政策の実際的な重要性にもかかわらず、ほとんど調査されていない。 本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑な境界を提供する。 ベルマンエルダー次元が有界なエピソードMDPにおける値関数に基づくアルゴリズムに適用した。 本研究では,mdpの構造的性質,探索方針,与えられた値関数クラスを捉えた,筋明性探索ギャップと呼ばれる新しい複雑性尺度を提案する。 この量の逆数である1/α^2と、ミオピック探索のサンプル複雑度は2次にスケールすることを示した。 さらに具体例を通して、ミオピック探索が成功するいくつかのタスクにおいて、対応するダイナミクスと報酬構造により、ミオピック探索ギャップが本当に有利であることを示す。

Myopic exploration policies such as epsilon-greedy, softmax, or Gaussian noise fail to explore efficiently in some reinforcement learning tasks and yet, they perform well in many others. In fact, in practice, they are often selected as the top choices, due to their simplicity. But, for what tasks do such policies succeed? Can we give theoretical guarantees for their favorable performance? These crucial questions have been scarcely investigated, despite the prominent practical importance of these policies. This paper presents a theoretical analysis of such policies and provides the first regret and sample-complexity bounds for reinforcement learning with myopic exploration. Our results apply to value-function-based algorithms in episodic MDPs with bounded Bellman Eluder dimension. We propose a new complexity measure called myopic exploration gap, denoted by alpha, that captures a structural property of the MDP, the exploration policy and the given value function class. We show that the sample-complexity of myopic exploration scales quadratically with the inverse of this quantity, 1 / alpha^2. We further demonstrate through concrete examples that myopic exploration gap is indeed favorable in several tasks where myopic exploration succeeds, due to the corresponding dynamics and reward structure.
翻訳日:2022-06-22 17:50:38 公開日:2022-06-19
# スケーラブル検索空間分割による効率的なエンドツーエンドオートML

Efficient End-to-End AutoML via Scalable Search Space Decomposition ( http://arxiv.org/abs/2206.09423v1 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Wentao Zhang, Ce Zhang, Bin Cui(参考訳) エンドツーエンドのAutoMLは、機能エンジニアリング、アルゴリズム/モデル選択、ハイパーパラメータチューニングによって誘導される領域でMLパイプラインを自動的に検索する学術と産業の両方から、大きな関心を集めている。 しかし、既存のAutoMLシステムは、大規模で高次元の検索空間を持つアプリケーションドメインに適用する際のスケーラビリティの問題に悩まされている。 本稿では,大規模AutoML検索空間の体系的な探索を容易にするスケーラブルで拡張可能なフレームワークであるVolcanoMLを提案する。 VolcanoMLは、大規模な検索スペースを小さなものに分解する基本的なビルディングブロックを導入し、実装している。 VolcanoMLはさらに、現在のデータベースシステムでサポートされているような、Volcanoスタイルの実行モデルをサポートし、構築された計画を実行する。 評価の結果,VolcanoMLは,AutoMLにおける検索空間分解の表現性を向上するだけでなく,Auto-sklearnのような最先端のAutoMLシステムで採用されているものよりもはるかに効率的な分解戦略の実際の発見につながることが示された。

End-to-end AutoML has attracted intensive interests from both academia and industry which automatically searches for ML pipelines in a space induced by feature engineering, algorithm/model selection, and hyper-parameter tuning. Existing AutoML systems, however, suffer from scalability issues when applying to application domains with large, high-dimensional search spaces. We present VolcanoML, a scalable and extensible framework that facilitates systematic exploration of large AutoML search spaces. VolcanoML introduces and implements basic building blocks that decompose a large search space into smaller ones, and allows users to utilize these building blocks to compose an execution plan for the AutoML problem at hand. VolcanoML further supports a Volcano-style execution model -- akin to the one supported by modern database systems -- to execute the plan constructed. Our evaluation demonstrates that, not only does VolcanoML raise the level of expressiveness for search space decomposition in AutoML, it also leads to actual findings of decomposition strategies that are significantly more efficient than the ones employed by state-of-the-art AutoML systems such as auto-sklearn.
翻訳日:2022-06-22 17:49:00 公開日:2022-06-19
# データ拡張対等価ネットワーク:ダイナミクス予測に関する一般化の理論

Data Augmentation vs. Equivariant Networks: A Theory of Generalization on Dynamics Forecasting ( http://arxiv.org/abs/2206.09450v1 )

ライセンス: Link先を確認
Rui Wang, Robin Walters, Rose Yu(参考訳) 力学系における対称性の利用は、ディープラーニングの一般化を改善する強力な方法である。 このモデルは変換に不変であることを学び、従って分布シフトに対してより頑健である。 データ拡張と同変ネットワークは、学習に対称性を注入する2つの主要なアプローチである。 しかし、一般化を改善する上での正確な役割はよく分かっていない。 本研究では,データ拡張と同変ネットワークの一般化境界を導出し,統一フレームワークにおける学習への影響を特徴付ける。 i.d.設定の以前の理論とは異なり、複雑な時間的依存を伴う非定常力学の予測に焦点をあてる。

Exploiting symmetry in dynamical systems is a powerful way to improve the generalization of deep learning. The model learns to be invariant to transformation and hence is more robust to distribution shift. Data augmentation and equivariant networks are two major approaches to injecting symmetry into learning. However, their exact role in improving generalization is not well understood. In this work, we derive the generalization bounds for data augmentation and equivariant networks, characterizing their effect on learning in a unified framework. Unlike most prior theories for the i.i.d. setting, we focus on non-stationary dynamics forecasting with complex temporal dependencies.
翻訳日:2022-06-22 17:48:37 公開日:2022-06-19
# シルベスター多グラフニューラルネットワークによる幾何学的行列補完

Geometric Matrix Completion via Sylvester Multi-Graph Neural Network ( http://arxiv.org/abs/2206.09477v1 )

ライセンス: Link先を確認
Boxin Du, Changhe Yuan, Fei Wang, Hanghang Tong(参考訳) シルヴェスター方程式が成功したにもかかわらず、半教師付きラベル学習やネットワークアライメントなど、様々なグラフマイニングの手法にはいくつかの制限がある。 シルヴェスター方程式の非線形関係をモデル化できないことと、異なるタスクに対するチューニングの柔軟性は、その性能を制限している。 本稿では,マルチネットワーク・ニューラルアグリゲーション・モジュールと,それ以前のマルチネットワーク・アソシエーション学習モジュールからなるエンドツーエンド・ニューラル・フレームワークであるSYMGNNを提案する。 提案したフレームワークはシルヴェスター方程式の鍵となるアイデアを継承し、上記の制限を克服するために一般化する。 実世界のデータセットに対する実証的な評価は、SYMGNNのインスタンス化は、幾何行列補完タスクのベースラインを全体的に上回り、低ランクのインスタンス化は、メモリ消費を平均16.98\%削減することを示している。

Despite the success of the Sylvester equation empowered methods on various graph mining applications, such as semi-supervised label learning and network alignment, there also exists several limitations. The Sylvester equation's inability of modeling non-linear relations and the inflexibility of tuning towards different tasks restrict its performance. In this paper, we propose an end-to-end neural framework, SYMGNN, which consists of a multi-network neural aggregation module and a prior multi-network association incorporation learning module. The proposed framework inherits the key ideas of the Sylvester equation, and meanwhile generalizes it to overcome aforementioned limitations. Empirical evaluations on real-world datasets show that the instantiations of SYMGNN overall outperform the baselines in geometric matrix completion task, and its low-rank instantiation could further reduce the memory consumption by 16.98\% on average.
翻訳日:2022-06-22 17:48:23 公開日:2022-06-19
# 統合型弱学習

Integrated Weak Learning ( http://arxiv.org/abs/2206.09496v1 )

ライセンス: Link先を確認
Peter Hayes, Mingtian Zhang, Raza Habib, Jordan Burgess, Emine Yilmaz and David Barber(参考訳) 我々は,機械学習モデルの学習プロセスに弱い監督を統合する原則付きフレームワークである統合弱学習を導入する。 当社のアプローチは,複数の弱監督源を集約するエンドモデルとラベルモデルとを共同で訓練する。 本稿では,異なるデータポイントに対して弱い監督源を集約し,トレーニング中のエンドモデルの性能を考慮したラベルモデルを提案する。 提案手法は,6つのベンチマーク分類データセットにおいて,既存の弱い学習手法よりも優れていることを示す。 少量のラベル付きデータと弱い監視の両方が存在する場合、性能の上昇は一貫性と大きく、非積分法よりも確実に2-5点試験F1スコアを得る。

We introduce Integrated Weak Learning, a principled framework that integrates weak supervision into the training process of machine learning models. Our approach jointly trains the end-model and a label model that aggregates multiple sources of weak supervision. We introduce a label model that can learn to aggregate weak supervision sources differently for different datapoints and takes into consideration the performance of the end-model during training. We show that our approach outperforms existing weak learning techniques across a set of 6 benchmark classification datasets. When both a small amount of labeled data and weak supervision are present the increase in performance is both consistent and large, reliably getting a 2-5 point test F1 score gain over non-integrated methods.
翻訳日:2022-06-22 17:47:53 公開日:2022-06-19
# 偏微分方程式解のための深層学習ネットワークにおける連続的物理対称性の強制

Enforcing Continuous Physical Symmetries in Deep Learning Network for Solving Partial Differential Equations ( http://arxiv.org/abs/2206.09299v1 )

ライセンス: Link先を確認
Zhi-Yong Zhang, Hui Zhang, Li-Sheng Zhang, Lei-Lei Guo(参考訳) ディープラーニングの典型的な応用として、物理インフォームドニューラルネットワーク(PINN) {has been} は偏微分方程式(PDE)の数値解を見つけるのに成功しましたが、制限された精度を改善する方法はまだPINNにとって大きな課題です。 本研究では,PDE のリー対称性によって誘導される不変表面条件を PINN の損失関数に埋め込んで PINN の精度を向上させる,対称性向上型物理情報ニューラルネットワーク (SPINN) を提案する。 熱方程式の独立数値実験であるKdV方程式と電位バーガース方程式の2つのグループを用いてSPINNの有効性を検証したところ,SPINNはトレーニングポイントが少なく,ニューラルネットワークのアーキテクチャが単純であるPINNよりも優れた性能を示した。 さらに, PINNに対する相対計算コストの観点から, SPINNの計算オーバーヘッドについて考察し, SPINNのトレーニング時間はPINNより少なく, 明らかな増加はないことを示す。

As a typical {application} of deep learning, physics-informed neural network (PINN) {has been} successfully used to find numerical solutions of partial differential equations (PDEs), but how to improve the limited accuracy is still a great challenge for PINN. In this work, we introduce a new method, symmetry-enhanced physics informed neural network (SPINN) where the invariant surface conditions induced by the Lie symmetries of PDEs are embedded into the loss function of PINN, for improving the accuracy of PINN. We test the effectiveness of SPINN via two groups of ten independent numerical experiments for the heat equation, Korteweg-de Vries (KdV) equation and potential Burgers {equations} respectively, which shows that SPINN performs better than PINN with fewer training points and simpler architecture of neural network. Furthermore, we discuss the computational overhead of SPINN in terms of the relative computational cost to PINN and show that the training time of SPINN has no obvious increases, even less than PINN for some cases.
翻訳日:2022-06-22 17:31:39 公開日:2022-06-19
# MTAIR(Transformative AI Risks)プロジェクトのモデリング - 概要報告

Modeling Transformative AI Risks (MTAIR) Project -- Summary Report ( http://arxiv.org/abs/2206.09360v1 )

ライセンス: Link先を確認
Sam Clarke, Ben Cottier, Aryeh Englander, Daniel Eth, David Manheim, Samuel Dylan Martin, Issa Rice(参考訳) このレポートは、高度なaiによる破滅的リスクとそれらの関係に関する議論における重要な仮説、不確実性、不一致をマッピングする試みであるmodeling transformative ai risk(mtair)プロジェクトの成果を概説する。 これはBen Cottier氏とRohin Shah氏による以前の図の上に構築されている。 広範な文献レビューと専門家との関わりに基づき、報告書は関連する問題のモデルと、確率推定やその他の定量的要素を組み込んだ最初のソフトウェアベースの実装を説明し、探索、計画、および/または決定支援を可能にする。 さまざまな議論や議論から情報を単一の一貫性のあるプレゼンテーションに集めることで、より優れた議論や問題に関する議論を可能にしたいと思っています。 このモデルは、アナロジーと人工知能に関する一般的な以前の信念による推論に関する議論から始まる。 続いて、異なる経路のモデルとハイレベルなマシンインテリジェンスのための技術の実現、そして、これらのシステムの能力の進歩がどのように進行するかのモデル、例えば、自己改善、不連続的な改善、分散、非アゲネスなハイレベルインテリジェンスの可能性、あるいはより遅い改善に関する議論を配置する。 このモデルはまた、学習された最適化の問題と、機械学習システムがmesa最適化を作成するかどうかを特に検討している。 従来の問題に対する異なる安全研究の影響について検討し、より安全なシステムの実現にどのように研究が役立つかを明らかにする。 最後に、異なる障害モードのモデルと制御や乗っ取りシナリオの喪失について論じる。

This report outlines work by the Modeling Transformative AI Risk (MTAIR) project, an attempt to map out the key hypotheses, uncertainties, and disagreements in debates about catastrophic risks from advanced AI, and the relationships between them. This builds on an earlier diagram by Ben Cottier and Rohin Shah which laid out some of the crucial disagreements ("cruxes") visually, with some explanation. Based on an extensive literature review and engagement with experts, the report explains a model of the issues involved, and the initial software-based implementation that can incorporate probability estimates or other quantitative factors to enable exploration, planning, and/or decision support. By gathering information from various debates and discussions into a single more coherent presentation, we hope to enable better discussions and debates about the issues involved. The model starts with a discussion of reasoning via analogies and general prior beliefs about artificial intelligence. Following this, it lays out a model of different paths and enabling technologies for high-level machine intelligence, and a model of how advances in the capabilities of these systems might proceed, including debates about self-improvement, discontinuous improvements, and the possibility of distributed, non-agentic high-level intelligence or slower improvements. The model also looks specifically at the question of learned optimization, and whether machine learning systems will create mesa-optimizers. The impact of different safety research on the previous sets of questions is then examined, to understand whether and how research could be useful in enabling safer systems. Finally, we discuss a model of different failure modes and loss of control or takeover scenarios.
翻訳日:2022-06-22 17:11:49 公開日:2022-06-19
# テキスト入力なしのオープンワールド・フレーズ・ギャラリングについて

What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs ( http://arxiv.org/abs/2206.09358v1 )

ライセンス: Link先を確認
Tal Shaharabany, Yoad Tewel and Lior Wolf(参考訳) 入力画像が与えられ、その他何も与えられません。このメソッドは、画像内のオブジェクトのバウンディングボックスと、オブジェクトを記述する句を返します。 これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。 さらに、トレーニングは、バウンディングボックスが提供されない、弱い監督された設定で行われる。 そこで本手法では,CLIP画像対テキストマッチングスコアとBLIP画像キャプションツールの2つの事前学習ネットワークを組み合わせた。 訓練はCOCOイメージとそのキャプションで行われ、CLIPに基づいている。 そして、推論中にBLIPを使用して、現在の画像の様々な領域に関する仮説を生成する。 本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。 また,我々の研究で提示されたオープンワールドの純粋に視覚的なフレーズ接頭辞の弱い教師による新しいタスクにおいて,非常に説得力のある結果を示す。 例えば、フレーズグラウンドのベンチマークに使用するデータセットでは、人間のキャプションを付加的な入力として利用する手法と比較して、非常に緩やかに劣化する。 私たちのコードはhttps://github.com/talshaharabany/what-is-where-lookで公開されています。

Given an input image, and nothing else, our method returns the bounding boxes of objects in the image and phrases that describe the objects. This is achieved within an open world paradigm, in which the objects in the input image may not have been encountered during the training of the localization mechanism. Moreover, training takes place in a weakly supervised setting, where no bounding boxes are provided. To achieve this, our method combines two pre-trained networks: the CLIP image-to-text matching score and the BLIP image captioning tool. Training takes place on COCO images and their captions and is based on CLIP. Then, during inference, BLIP is used to generate a hypothesis regarding various regions of the current image. Our work generalizes weakly supervised segmentation and phrase grounding and is shown empirically to outperform the state of the art in both domains. It also shows very convincing results in the novel task of weakly-supervised open-world purely visual phrase-grounding presented in our work. For example, on the datasets used for benchmarking phrase-grounding, our method results in a very modest degradation in comparison to methods that employ human captions as an additional input. Our code is available at https://github.com/talshaharabany/what-is-where-by-looking and a live demo can be found at https://talshaharabany/what-is-where-by-looking.
翻訳日:2022-06-22 17:04:28 公開日:2022-06-19
# バイストリーム生成モデルによる人物再同定の一般化に向けて

Towards Generalizable Person Re-identification with a Bi-stream Generative Model ( http://arxiv.org/abs/2206.09362v1 )

ライセンス: Link先を確認
Xin Xu, Wei Liu, Zheng Wang, Ruiming Hu, Qi Tian(参考訳) 一般化可能な人物識別(re-ID)は、目に見えないデータ領域における強力な適応能力によって注目を集めている。 しかし、既存の解決策は、横断カメラ(例えば、照明と解像度の違い)や歩行者のミスアライメント(例えば、視点とポーズの相違)を無視することが多く、新しい領域に適応する際の一般化能力の低下につながる。 本稿では,これらの困難を次のように定式化する。 1)カメラカメラ(CC)問題は、異なるカメラによって引き起こされる様々な人間の外見の変化を示す。 2)カメラ・パーソン(CP)問題とは,カメラの視点やポーズの変化によって同一人物が引き起こした歩行者の不一致を指す。 上記の課題を解決するため,BGM (Bi-stream Generative Model) を提案し,符号化ネットワークと2つのストリーム復号サブネットワークを含む,カメラ不変のグローバル機能と歩行者対応のローカル機能とを融合した微細な表現を学習する。 オリジナルの歩行者画像に導かれ、カメラ間干渉因子をフィルタリングすることでcc問題に対するカメラ不変なグローバル特徴を学ぶために1つのストリームが使用される。 CP問題に対して、別のストリームは、情報完全で意味的に整合した部分マップを用いて、歩行者が整列する局所的な特徴を学習する。 さらに、歩行者アライメントに対する欠落部分の影響を低減するために、部分重み付き損失関数を示す。 大規模な一般化可能なre-IDベンチマークでは,ドメインの一般化設定やクロスドメイン設定を含む,最先端の手法よりも優れた結果が得られた。

Generalizable person re-identification (re-ID) has attracted growing attention due to its powerful adaptation capability in the unseen data domain. However, existing solutions often neglect either crossing cameras (e.g., illumination and resolution differences) or pedestrian misalignments (e.g., viewpoint and pose discrepancies), which easily leads to poor generalization capability when adapted to the new domain. In this paper, we formulate these difficulties as: 1) Camera-Camera (CC) problem, which denotes the various human appearance changes caused by different cameras; 2) Camera-Person (CP) problem, which indicates the pedestrian misalignments caused by the same identity person under different camera viewpoints or changing pose. To solve the above issues, we propose a Bi-stream Generative Model (BGM) to learn the fine-grained representations fused with camera-invariant global feature and pedestrian-aligned local feature, which contains an encoding network and two stream decoding sub-networks. Guided by original pedestrian images, one stream is employed to learn a camera-invariant global feature for the CC problem via filtering cross-camera interference factors. For the CP problem, another stream learns a pedestrian-aligned local feature for pedestrian alignment using information-complete densely semantically aligned part maps. Moreover, a part-weighted loss function is presented to reduce the influence of missing parts on pedestrian alignment. Extensive experiments demonstrate that our method outperforms the state-of-the-art methods on the large-scale generalizable re-ID benchmarks, involving domain generalization setting and cross-domain setting.
翻訳日:2022-06-22 17:04:03 公開日:2022-06-19
# シーケンス生成のためのマルチスケールトランスフォーマの学習

Learning Multiscale Transformer Models for Sequence Generation ( http://arxiv.org/abs/2206.09337v1 )

ライセンス: Link先を確認
Bei Li, Tong Zheng, Yi Jing, Chengbo Jiao, Tong Xiao and Jingbo Zhu(参考訳) マルチスケールな特徴階層がコンピュータビジョン領域での成功を目撃されている。 これはまた、研究者が自然言語処理のためのマルチスケールトランスフォーマーを設計する動機となった。 例えば、頭部にまたがる受容野を制限するか、畳み込みによって局所的な細かな特徴を抽出する。 しかし、既存の作品の多くは局所的な特徴を直接モデル化しているが、単語境界情報を無視している。 この結果、冗長で曖昧な注意分布となり、解釈性に欠ける。 本研究では,これらの尺度をサブワード,単語,フレーズなど,異なる言語単位で定義する。 単語境界情報と句レベルの事前知識に基づいて,尺度間の関係を確立することにより,マルチスケールトランスフォーマモデルを構築した。 提案した \textbf{U}niversal \textbf{M}ulti\textbf{S}cale \textbf{T}ransformer, すなわち \textsc{Umst} は2つのシーケンス生成タスクで評価された。 注目すべきは、効率を犠牲にすることなく、複数のテストセットの強いベースラインに対して一貫したパフォーマンス向上を実現したことだ。

Multiscale feature hierarchies have been witnessed the success in the computer vision area. This further motivates researchers to design multiscale Transformer for natural language processing, mostly based on the self-attention mechanism. For example, restricting the receptive field across heads or extracting local fine-grained features via convolutions. However, most of existing works directly modeled local features but ignored the word-boundary information. This results in redundant and ambiguous attention distributions, which lacks of interpretability. In this work, we define those scales in different linguistic units, including sub-words, words and phrases. We built a multiscale Transformer model by establishing relationships among scales based on word-boundary information and phrase-level prior knowledge. The proposed \textbf{U}niversal \textbf{M}ulti\textbf{S}cale \textbf{T}ransformer, namely \textsc{Umst}, was evaluated on two sequence generation tasks. Notably, it yielded consistent performance gains over the strong baseline on several test sets without sacrificing the efficiency.
翻訳日:2022-06-22 15:48:30 公開日:2022-06-19
# MME-CRS:オープンドメイン対話評価のための相関再スケーリングに基づくマルチメトリック評価

MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue ( http://arxiv.org/abs/2206.09403v1 )

ライセンス: Link先を確認
Pengfei Zhang, Xiaohui Hu, Kaidong Yu, Jian Wang, Song Han, Cao Liu, Chunyang Yuan(参考訳) 自動オープンドメイン対話評価は対話システムにおいて重要な要素である。 近年,オープンドメイン対話評価において,学習に基づく評価指標が最先端のパフォーマンスを達成した。 しかしながら、これらの指標は少数の品質にのみ焦点を合わせており、対話を包括的に評価することは困難である。 さらに、これらの指標は、様々な評価品質に対する効果的なスコア構成アプローチを欠いている。 本稿では,オープンドメイン対話を評価するために,相関再スケーリング(mme-crs)に基づくマルチメトリック評価を提案する。 まず,MME(Multi-Metric Evaluation)と呼ばれる5つの並列サブメトリックからなる評価尺度を構築し,対話の質を総合的に評価する。 さらに、サブメトリックと多様な品質の関係をモデル化するための相関再スケーリング(CRS)と呼ばれる新しいスコア合成手法を提案する。 MME-CRS は DSTC10 track5 subtask1 の自動開領域対話評価チャレンジの最終試験データで第1位となり,提案手法の有効性が証明された。

Automatic open-domain dialogue evaluation is a crucial component of dialogue systems. Recently, learning-based evaluation metrics have achieved state-of-the-art performance in open-domain dialogue evaluation. However, these metrics, which only focus on a few qualities, are hard to evaluate dialogue comprehensively. Furthermore, these metrics lack an effective score composition approach for diverse evaluation qualities. To address the above problems, we propose a Multi-Metric Evaluation based on Correlation Re-Scaling (MME-CRS) for evaluating open-domain dialogue. Firstly, we build an evaluation metric composed of 5 groups of parallel sub-metrics called Multi-Metric Evaluation (MME) to evaluate the quality of dialogue comprehensively. Furthermore, we propose a novel score composition method called Correlation Re-Scaling (CRS) to model the relationship between sub-metrics and diverse qualities. Our approach MME-CRS ranks first on the final test data of DSTC10 track5 subtask1 Automatic Open-domain Dialogue Evaluation Challenge with a large margin, which proved the effectiveness of our proposed approach.
翻訳日:2022-06-22 15:48:16 公開日:2022-06-19
# 必要なのはフィードバックのみ - ブロック注意フィードバックコードによるコミュニケーション

All you need is feedback: Communication with block attention feedback codes ( http://arxiv.org/abs/2206.09457v1 )

ライセンス: Link先を確認
Emre Ozfatura, Yulin Shao, Alberto Perotti, Branislav Popovic, Deniz Gunduz(参考訳) ディープラーニングに基づくチャネル設計は、特に既存のコードが効果的なソリューションを提供していないチャネルに対して、従来のコーディングアルゴリズムに代わるものとして最近関心を集めている。 フィードバックチャネル上でのコミュニケーションはそのような問題であり,様々なディープラーニングアーキテクチャを用いて,将来性のある結果が得られた。 本稿では,GBAF(Generalized Block attention feedback)コードと呼ばれる,フィードバックチャネルのための新しい学習支援コード設計を提案する。 i) 異なるニューラルネットワークアーキテクチャを用いて実装可能なモジュールアーキテクチャを採用する。 二 既存の意匠に比較して誤差の確率の秩序改善を提供すること。 iii) 所望の符号レートで送信することができる。

Deep learning based channel code designs have recently gained interest as an alternative to conventional coding algorithms, particularly for channels for which existing codes do not provide effective solutions. Communication over a feedback channel is one such problem, for which promising results have recently been obtained by employing various deep learning architectures. In this paper, we introduce a novel learning-aided code design for feedback channels, called generalized block attention feedback (GBAF) codes, which i) employs a modular architecture that can be implemented using different neural network architectures; ii) provides order-of-magnitude improvements in the probability of error compared to existing designs; and iii) can transmit at desired code rates.
翻訳日:2022-06-22 15:35:25 公開日:2022-06-19
# dnnのための生産的再現性ワークフロー:産業的欠陥検出のための事例研究

Productive Reproducible Workflows for DNNs: A Case Study for Industrial Defect Detection ( http://arxiv.org/abs/2206.09359v1 )

ライセンス: Link先を確認
Perry Gibson, Jos\'e Cano(参考訳) Deep Neural Networks(DNN)はますますユビキタスなワークロードになりつつあるため、開発やデプロイメントを支援するためのライブラリやツーリングの範囲は大幅に拡大している。 スケーラブルでプロダクション品質の高いツールは許容ライセンス下で自由に利用でき、小さなチームでも非常に生産的になるのに十分アクセスできます。 しかし、研究コミュニティ内では、これらのツールの認識と使用が必ずしも広まっていないため、研究者は最新のツールやワークフローを活用することで生産性が向上する可能性を欠いている可能性がある。 本稿では,産業欠陥検出のためのエンドツーエンド人工知能アプリケーションを開発した最近の経験について論じる。 私たちは、高レベルのディープラーニングライブラリ、コンテナ化されたワークフロー、継続的インテグレーション/デプロイパイプライン、競合する結果を生み出すために利用したオープンソースのコードテンプレートについて詳しく説明します。 サーバクラスのGPU上での精度と推論時間,サーバクラスのCPU上での推論時間,Raspberry Pi 4上での推論時間といった観点から,このようなシステムを活用することで,私たちのソリューションを研究,詳細化することが可能な価値を強調します。

As Deep Neural Networks (DNNs) have become an increasingly ubiquitous workload, the range of libraries and tooling available to aid in their development and deployment has grown significantly. Scalable, production quality tools are freely available under permissive licenses, and are accessible enough to enable even small teams to be very productive. However within the research community, awareness and usage of said tools is not necessarily widespread, and researchers may be missing out on potential productivity gains from exploiting the latest tools and workflows. This paper presents a case study where we discuss our recent experience producing an end-to-end artificial intelligence application for industrial defect detection. We detail the high level deep learning libraries, containerized workflows, continuous integration/deployment pipelines, and open source code templates we leveraged to produce a competitive result, matching the performance of other ranked solutions to our three target datasets. We highlight the value that exploiting such systems can bring, even for research, and detail our solution and present our best results in terms of accuracy and inference time on a server class GPU, as well as inference times on a server class CPU, and a Raspberry Pi 4.
翻訳日:2022-06-22 15:30:04 公開日:2022-06-19
# SNN2ANN: ニューラルネットワークをスパイクするための高速かつメモリ効率のトレーニングフレームワーク

SNN2ANN: A Fast and Memory-Efficient Training Framework for Spiking Neural Networks ( http://arxiv.org/abs/2206.09449v1 )

ライセンス: Link先を確認
Jianxiong Tang, Jianhuang Lai, Xiaohua Xie, Lingxiao Yang, Wei-Shi Zheng(参考訳) スパイクニューラルネットワークは低消費電力環境における効率的な計算モデルである。 スパイクに基づくBPアルゴリズムとANN-to-SNN(ANN2SNN)変換はSNNトレーニングにおいて成功している。 それでも、スパイクベースBPトレーニングは遅く、メモリコストが大きい。 ANN2NNは、SNNを訓練するための低コストな方法を提供するが、優れたパフォーマンスを得るためには、よく訓練されたANNを模倣する多くの推論ステップが必要である。 本稿では,SNNを高速かつメモリ効率で学習するためのSNN-to-ANN(SNN2ANN)フレームワークを提案する。 SNN2ANNは2つのコンポーネントから構成される。 a)ANNとSNNの間の重み共有アーキテクチャ b) スパイキングマッピングユニット。 まず、アーキテクチャはANNブランチのウェイトシェアリングパラメータをトレーニングし、高速なトレーニングとSNNのメモリコストの低減を実現している。 第二に、スパイクマッピングユニットは、ANNの活性化値がスパイク特徴であることを保証する。 その結果、SNNの分類誤差は、ANNブランチをトレーニングすることで最適化できる。 さらに,ノイズスパイク問題に対処するため,適応しきい値調整(ATA)アルゴリズムを設計する。 実験の結果,SNN2ANNベースのモデルはベンチマークデータセット(CIFAR10,CIFAR100,Tiny-ImageNet)で良好に動作することがわかった。 さらに、SNN2ANNは、0.625倍のタイムステップ、0.377倍のトレーニング時間、0.27倍のGPUメモリコスト、およびSpikeベースのBPモデルの0.33倍のスパイクアクティビティで同等の精度を達成することができる。

Spiking neural networks are efficient computation models for low-power environments. Spike-based BP algorithms and ANN-to-SNN (ANN2SNN) conversions are successful techniques for SNN training. Nevertheless, the spike-base BP training is slow and requires large memory costs. Though ANN2NN provides a low-cost way to train SNNs, it requires many inference steps to mimic the well-trained ANN for good performance. In this paper, we propose a SNN-to-ANN (SNN2ANN) framework to train the SNN in a fast and memory-efficient way. The SNN2ANN consists of 2 components: a) a weight sharing architecture between ANN and SNN and b) spiking mapping units. Firstly, the architecture trains the weight-sharing parameters on the ANN branch, resulting in fast training and low memory costs for SNN. Secondly, the spiking mapping units ensure that the activation values of the ANN are the spiking features. As a result, the classification error of the SNN can be optimized by training the ANN branch. Besides, we design an adaptive threshold adjustment (ATA) algorithm to address the noisy spike problem. Experiment results show that our SNN2ANN-based models perform well on the benchmark datasets (CIFAR10, CIFAR100, and Tiny-ImageNet). Moreover, the SNN2ANN can achieve comparable accuracy under 0.625x time steps, 0.377x training time, 0.27x GPU memory costs, and 0.33x spike activities of the Spike-based BP model.
翻訳日:2022-06-22 15:29:42 公開日:2022-06-19
# StudioGAN: 画像合成のためのGANの分類とベンチマーク

StudioGAN: A Taxonomy and Benchmark of GANs for Image Synthesis ( http://arxiv.org/abs/2206.09479v1 )

ライセンス: Link先を確認
Minguk Kang, Joonghyuk Shin, and Jaesik Park(参考訳) Generative Adversarial Network (GAN) は、現実的な画像合成のための最先端の生成モデルの一つである。 GANのトレーニングと評価がますます重要になる一方で、現在のGAN研究エコシステムは、その評価が一貫して公平に行われる信頼できるベンチマークを提供していない。 さらに、検証済みのGAN実装が少ないため、研究者はベースラインの再現にかなりの時間を費やしている。 我々はGANアプローチの分類について研究し、StudioGANという新しいオープンソースライブラリを提示する。 StudioGANは7つのGANアーキテクチャ、9つの条件付きメソッド、4つの敵損失、13の正規化モジュール、3つの差別化可能な拡張、7つの評価指標、5つの評価バックボーンをサポートする。 本稿では,各種データセット(CIFAR10, ImageNet, AFHQv2, FFHQ, Baby/Papa/Granpa-ImageNet)と3種類の評価バックボーン(InceptionV3, SwAV, Swin Transformer)を用いた大規模ベンチマークを提案する。 GANコミュニティで使用されている他のベンチマークとは異なり、BigGAN、StyleGAN2、StyleGAN3といった代表的GANを統一的なトレーニングパイプラインでトレーニングし、7つの評価指標で生成パフォーマンスを定量化しています。 このベンチマークは、他の最先端生成モデル(stylegan-xl, adm, maskgit, rq-transformerなど)を評価する。 StudioGANは、事前トレーニングされた重量でGAN実装、トレーニング、評価スクリプトを提供する。 StudioGANはhttps://github.com/POSTECH-CVLab/PyTorch-StudioGANで入手できる。

Generative Adversarial Network (GAN) is one of the state-of-the-art generative models for realistic image synthesis. While training and evaluating GAN becomes increasingly important, the current GAN research ecosystem does not provide reliable benchmarks for which the evaluation is conducted consistently and fairly. Furthermore, because there are few validated GAN implementations, researchers devote considerable time to reproducing baselines. We study the taxonomy of GAN approaches and present a new open-source library named StudioGAN. StudioGAN supports 7 GAN architectures, 9 conditioning methods, 4 adversarial losses, 13 regularization modules, 3 differentiable augmentations, 7 evaluation metrics, and 5 evaluation backbones. With our training and evaluation protocol, we present a large-scale benchmark using various datasets (CIFAR10, ImageNet, AFHQv2, FFHQ, and Baby/Papa/Granpa-ImageNet) and 3 different evaluation backbones (InceptionV3, SwAV, and Swin Transformer). Unlike other benchmarks used in the GAN community, we train representative GANs, including BigGAN, StyleGAN2, and StyleGAN3, in a unified training pipeline and quantify generation performance with 7 evaluation metrics. The benchmark evaluates other cutting-edge generative models(e.g., StyleGAN-XL, ADM, MaskGIT, and RQ-Transformer). StudioGAN provides GAN implementations, training, and evaluation scripts with the pre-trained weights. StudioGAN is available at https://github.com/POSTECH-CVLab/PyTorch-StudioGAN.
翻訳日:2022-06-22 15:29:16 公開日:2022-06-19
# フランクウルフに基づくタイラーのm推定器近似アルゴリズム

Frank-Wolfe-based Algorithms for Approximating Tyler's M-estimator ( http://arxiv.org/abs/2206.09370v1 )

ライセンス: Link先を確認
Lior Danon, Dan Garber(参考訳) タイラーのM-推定器は、頑健で重み付き共分散推定のためのよく知られた手順である。 タイラー自身は、彼の推定値を計算するために反復固定点アルゴリズムを提案したが、それはイテレーション毎の超線形(データのサイズ)ランタイムを必要とする。 この研究では、我々の知る限りでは、タイラーの推定値を計算する最初のフランクウルフベースのアルゴリズムを提案する。 1つの変種は標準的なフランク=ウルフステップを使用し、もう1つは \textit{away-steps} (afw)、もう1つは afw (gafw) の \textit{geodesic} バージョンである。 AFWは、ログファクタまで、イテレーション毎の線形時間しか必要とせず、GAFWは大規模な$n$(データポイントの数)で線形時間(ログファクタまで)で動作する。 3つの変種は、根底にある最適化問題は凸や滑らかではないにもかかわらず、標準仮定の下で、最適解に正に準線形率で収束することが示される。 さらに、(正規化された)データポイントが単位球全体に支持される連続分布からのサンプルであるとき、確率 1 で成り立つ仮定では、AFW とGAFW は線形速度に収束することが証明される。 重要なことに、これら3つのバリエーションはパラメータフリーであり、適応ステップサイズを使用する。

Tyler's M-estimator is a well known procedure for robust and heavy-tailed covariance estimation. Tyler himself suggested an iterative fixed-point algorithm for computing his estimator however, it requires super-linear (in the size of the data) runtime per iteration, which may be prohibitive in large scale. In this work we propose, to the best of our knowledge, the first Frank-Wolfe-based algorithms for computing Tyler's estimator. One variant uses standard Frank-Wolfe steps, the second also considers \textit{away-steps} (AFW), and the third is a \textit{geodesic} version of AFW (GAFW). AFW provably requires, up to a log factor, only linear time per iteration, while GAFW runs in linear time (up to a log factor) in a large $n$ (number of data-points) regime. All three variants are shown to provably converge to the optimal solution with sublinear rate, under standard assumptions, despite the fact that the underlying optimization problem is not convex nor smooth. Under an additional fairly mild assumption, that holds with probability 1 when the (normalized) data-points are i.i.d. samples from a continuous distribution supported on the entire unit sphere, AFW and GAFW are proved to converge with linear rates. Importantly, all three variants are parameter-free and use adaptive step-sizes.
翻訳日:2022-06-22 15:22:05 公開日:2022-06-19
# 軟弱ダイキンウォークによるポリトープ上の対数凹分布からの高速サンプリング

Faster Sampling from Log-Concave Distributions over Polytopes via a Soft-Threshold Dikin Walk ( http://arxiv.org/abs/2206.09384v1 )

ライセンス: Link先を確認
Oren Mangoubi, Nisheeth K. Vishnoi(参考訳) 我々は、$m$不等式で定義されるポリトープ $k$ に制約された$d$-次元対数分布 $\pi(\theta) \propto e^{-f(\theta)} からサンプリングする問題を考える。 我々の主な成果はダイキン・ウォーク・マルコフ・チェーンの「ソフトスレッショルド」変種であり、最大$O((md + d L^2 R^2) \times md^{\omega-1}) \log(\frac{w}{\delta})$算術演算により、$\pi$ in error $\delta>0$から$w$-warm startまでの総変量距離、$L$は$f$のリプシッツ・コンスタント、$K$は半径$R$のボールに含まれ、$\omega$は小半径$r$のボールを含み、$\omega$は行列乗算定数である。 ウォームスタートが利用できない場合、$k$が$m=o(d)$不等式と$lr = o(\sqrt{d})$で与えられるポリトープである設定において、全変動誤差で$\pi$からサンプリングするための最善の条件で$\tilde{o}(d^{3.5-\omega})$演算が改善されることを意味する。 ウォームスタートが利用可能になった場合、この設定において、このアルゴリズムは、ディキンウォークアルゴリズムの異なるバージョンで得られた最も前の最良境界における$d^2$算術演算によって改善される。 ダイキンウォークマルコフ連鎖をmangoubi と vishnoi の処理後アルゴリズムに差し込む(2021年)ことで、k$ がポリトープである特別な場合において、$\pi$ から無限距離境界を持つサンプルを生成する問題に対する実行時間の依存性がさらに改善される。

We consider the problem of sampling from a $d$-dimensional log-concave distribution $\pi(\theta) \propto e^{-f(\theta)}$ constrained to a polytope $K$ defined by $m$ inequalities. Our main result is a "soft-threshold'' variant of the Dikin walk Markov chain that requires at most $O((md + d L^2 R^2) \times md^{\omega-1}) \log(\frac{w}{\delta}))$ arithmetic operations to sample from $\pi$ within error $\delta>0$ in the total variation distance from a $w$-warm start, where $L$ is the Lipschitz-constant of $f$, $K$ is contained in a ball of radius $R$ and contains a ball of smaller radius $r$, and $\omega$ is the matrix-multiplication constant. When a warm start is not available, it implies an improvement of $\tilde{O}(d^{3.5-\omega})$ arithmetic operations on the previous best bound for sampling from $\pi$ within total variation error $\delta$, which was obtained with the hit-and-run algorithm, in the setting where $K$ is a polytope given by $m=O(d)$ inequalities and $LR = O(\sqrt{d})$. When a warm start is available, our algorithm improves by a factor of $d^2$ arithmetic operations on the best previous bound in this setting, which was obtained for a different version of the Dikin walk algorithm. Plugging our Dikin walk Markov chain into the post-processing algorithm of Mangoubi and Vishnoi (2021), we achieve further improvements in the dependence of the running time for the problem of generating samples from $\pi$ with infinity distance bounds in the special case when $K$ is a polytope.
翻訳日:2022-06-22 15:21:37 公開日:2022-06-19
# テキスト分類のための普遍的逆政策

A Universal Adversarial Policy for Text Classifiers ( http://arxiv.org/abs/2206.09458v1 )

ライセンス: Link先を確認
Gallil Maimon, Lior Rokach(参考訳) 普遍的対向的摂動の存在を明らかにすることは、対向的学習の分野に大きな理論的および実践的な影響をもたらした。 テキスト領域では、ほとんどの普遍的研究は、すべてのテキストに追加される敵の接頭辞に焦点を当てた。 しかし、視覚領域とは異なり、異なる入力に同じ摂動を加えると明らかに不自然な入力となる。 そこで,本研究では,新たな普遍的敵意設定,すなわち,他の普遍的攻撃の多くの利点を持つ普遍的敵意政策を導入する。 テキスト変更を保存するセマンティクスのセットに対して,多くのテキストで単一の検索ポリシーを学習することで,これを実現する。 この定式化は、新しいテキストに対する敵の例を効率的に見つけることに成功しているという点で普遍的である。 提案手法では,非普遍的な設定(特定の同義語置換)において自然攻撃を生じさせるように広く示されるテキスト摂動を用いる。 この定式化には強化学習を用いる強力なベースラインアプローチを提案する。 最大500のトレーニングテキストから)一般化する能力は、テキストドメインにも普遍的な敵のパターンが存在することを示している。

Discovering the existence of universal adversarial perturbations had large theoretical and practical impacts on the field of adversarial learning. In the text domain, most universal studies focused on adversarial prefixes which are added to all texts. However, unlike the vision domain, adding the same perturbation to different inputs results in noticeably unnatural inputs. Therefore, we introduce a new universal adversarial setup - a universal adversarial policy, which has many advantages of other universal attacks but also results in valid texts - thus making it relevant in practice. We achieve this by learning a single search policy over a predefined set of semantics preserving text alterations, on many texts. This formulation is universal in that the policy is successful in finding adversarial examples on new texts efficiently. Our approach uses text perturbations which were extensively shown to produce natural attacks in the non-universal setup (specific synonym replacements). We suggest a strong baseline approach for this formulation which uses reinforcement learning. It's ability to generalise (from as few as 500 training texts) shows that universal adversarial patterns exist in the text domain as well.
翻訳日:2022-06-22 14:55:17 公開日:2022-06-19
# クラウドソーシングによる知識学習: 簡単なレビューとシステム的展望

Knowledge Learning with Crowdsourcing: A Brief Review and Systematic Perspective ( http://arxiv.org/abs/2206.09315v1 )

ライセンス: Link先を確認
Jing Zhang(参考訳) ビッグデータには、膨大なボリューム、高い速度、多様性、価値の分離、不確実性といった特徴があり、そこから知識学習が課題に満ちている。 クラウドソーシングの出現により、クラウドソーシングの知識が容易に関与できるように、オンデマンドで多彩な情報を得ることができる。 過去13年間、AIコミュニティの研究者たちは、群衆から学習分野の障害を取り除くために多大な努力を払ってきた。 本稿では,データ,モデル,学習プロセスの3次元を含む体系的な視点から,クラウドソーシング学習の技術的進歩を総合的にレビューする。 この論文では、既存の重要な研究のレビューに加えて、各次元に有望な青写真を提供することや、過去の研究成果から学んだ教訓について論じることに特に重点を置いている。

Big data have the characteristics of enormous volume, high velocity, diversity, value-sparsity, and uncertainty, which lead the knowledge learning from them full of challenges. With the emergence of crowdsourcing, versatile information can be obtained on-demand so that the wisdom of crowds is easily involved to facilitate the knowledge learning process. During the past thirteen years, researchers in the AI community made great efforts to remove the obstacles in the field of learning from crowds. This concentrated survey paper comprehensively reviews the technical progress in crowdsourcing learning from a systematic perspective that includes three dimensions of data, models, and learning processes. In addition to reviewing existing important work, the paper places a particular emphasis on providing some promising blueprints on each dimension as well as discussing the lessons learned from our past research work, which will light up the way for new researchers and encourage them to pursue new contributions.
翻訳日:2022-06-22 14:52:45 公開日:2022-06-19
# 変分逆強化学習によるマルチタスク・トランスファタブル・リワードの学習

Learning Multi-Task Transferable Rewards via Variational Inverse Reinforcement Learning ( http://arxiv.org/abs/2206.09498v1 )

ライセンス: Link先を確認
Se-Wook Yoo, Seung-Woo Seo(参考訳) 多くのロボットタスクは、非常に複雑な環境で時間的に相関したサブタスクで構成されている。 問題を効果的に解決するために時間的抽象化を検討することで、状況意図や適切な行動を発見することが重要である。 タスクのダイナミクスの変化から切り離された意図を理解するため、生成的敵ネットワークの枠組みに基づく複数のタスクを伴う状況にエンパワーメントベースの正規化手法を拡張した。 未知のダイナミクスを持つマルチタスク環境では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。 本研究では、状況のエンパワーメントを、ある状態とサブタスクの両方の動作条件が未来に与える影響を示す相互情報の最大化として定義する。 提案手法は,状況的相互情報の変動的下限を導出し,最適化する。 目的関数に誘導項を追加することで、転送可能なマルチタスク報酬関数とポリシーを同時に学習する。 これにより、マルチタスク報酬関数は、環境変化に対する堅牢なポリシーを学ぶのに役立つ。 我々は,マルチタスク学習とマルチタスク転送学習におけるアプローチの利点を検証する。 提案手法はランダム性とタスクの動的変化の両方の堅牢性を有することを示す。 最後に,本手法は様々なベンチマークにおいて既存の模倣学習法よりも性能とデータ効率が優れていることを示す。

Many robotic tasks are composed of a lot of temporally correlated sub-tasks in a highly complex environment. It is important to discover situational intentions and proper actions by deliberating on temporal abstractions to solve problems effectively. To understand the intention separated from changing task dynamics, we extend an empowerment-based regularization technique to situations with multiple tasks based on the framework of a generative adversarial network. Under the multitask environments with unknown dynamics, we focus on learning a reward and policy from the unlabeled expert examples. In this study, we define situational empowerment as the maximum of mutual information representing how an action conditioned on both a certain state and sub-task affects the future. Our proposed method derives the variational lower bound of the situational mutual information to optimize it. We simultaneously learn the transferable multi-task reward function and policy by adding an induced term to the objective function. By doing so, the multi-task reward function helps to learn a robust policy for environmental change. We validate the advantages of our approach on multi-task learning and multi-task transfer learning. We demonstrate our proposed method has the robustness of both randomness and changing task dynamics. Finally, we prove that our method has significantly better performance and data efficiency than existing imitation learning methods on various benchmarks.
翻訳日:2022-06-22 14:52:27 公開日:2022-06-19
# mvHOTA:多点検出における空間的・時間的関連を測定する多視点高次追跡精度測定

mvHOTA: A multi-view higher order tracking accuracy metric to measure spatial and temporal associations in multi-point detection ( http://arxiv.org/abs/2206.09372v1 )

ライセンス: Link先を確認
Lalith Sharan, Halvar Kelm, Gabriele Romano, Matthias Karck, Raffaele De Simone, Sandy Engelhardt(参考訳) マルチオブジェクトトラッキング(MOT)は、シーン内のオブジェクトを検出し、それらを一連のフレームにわたって追跡する、困難なタスクである。 このタスクの評価は、時間的閉塞と画像のシーケンス間での軌跡の変化のため困難である。 KITTIのようなデータセット上でMOTメソッドをベンチマークする主要な評価基準は、MOTA、DetA、IFF1といったメトリクスよりもパフォーマンスをよりよく記述できる、高次追跡精度(HOTA)指標となっている。 ポイント検出とトラッキングは密接に関連するタスクであり、オブジェクト検出の特別なケースとみなすことができる。 しかし、検出タスク自体の評価には違いがある(点距離と境界ボックスの重なり)。 時間次元と多視点のシナリオを含む場合、評価タスクはさらに複雑になる。 本研究では,時間的および空間的関連性を考慮したマルチポイント検出(マルチインスタンス,マルチクラス)の精度を決定するためのマルチビュー高次追跡指標(mvHOTA)を提案する。 mvHOTAは、検出、関連、対応の精度の幾何学的平均として解釈することができ、各因子に等しい重み付けを与える。 我々は、以前に組織された医療課題から利用可能な内視鏡的点検出データセットを通してユースケースを実証する。 さらに,本研究では他の調整されたmot指標と比較し,mvhotaの特性について検討し,提案する対応精度と咬合指数が咬合の取扱いに関してどのように解析が容易かを示す。 コードは公開される予定だ。

Multi-object tracking (MOT) is a challenging task that involves detecting objects in the scene and tracking them across a sequence of frames. Evaluating this task is difficult due to temporal occlusions, and varying trajectories across a sequence of images. The main evaluation metric to benchmark MOT methods on datasets such as KITTI has recently become the higher order tracking accuracy (HOTA) metric, which is capable of providing a better description of the performance over metrics such as MOTA, DetA, and IDF1. Point detection and tracking is a closely related task, which could be regarded as a special case of object detection. However, there are differences in evaluating the detection task itself (point distances vs. bounding box overlap). When including the temporal dimension and multi-view scenarios, the evaluation task becomes even more complex. In this work, we propose a multi-view higher order tracking metric (mvHOTA) to determine the accuracy of multi-point (multi-instance and multi-class) detection, while taking into account temporal and spatial associations. mvHOTA can be interpreted as the geometric mean of the detection, association, and correspondence accuracies, thereby providing equal weighting to each of the factors. We demonstrate a use-case through a publicly available endoscopic point detection dataset from a previously organised medical challenge. Furthermore, we compare with other adjusted MOT metrics for this use-case, discuss the properties of mvHOTA, and show how the proposed correspondence accuracy and the Occlusion index facilitate analysis of methods with respect to handling of occlusions. The code will be made publicly available.
翻訳日:2022-06-22 14:08:47 公開日:2022-06-19
# 平均平均精度計算の並列化

A Parallel Implementation of Computing Mean Average Precision ( http://arxiv.org/abs/2206.09504v1 )

ライセンス: Link先を確認
Beinan Wang(参考訳) 平均精度(mAP)は物体検出器の品質評価に広く用いられているが、効率的な実装はいまだに存在しない。 現在の実装では、そのクラスのすべての検出を順次ループすることで、1つのクラスに対して真正(TP)と偽正(FP)しかカウントできない。 これらのアプローチは非効率であるだけでなく、トレーニング中の検証mAPを報告するのに不都合でもある。 本稿では,検出されたバウンディングボックス(DTBB)とグラウンド真理バウンディングボックス(GTBB)のミニバッチを,推論が完了するとmAPが即座に計算されるように並列化された代替手段を提案する。 シーケンシャル実装におけるループと制御ステートメントは、ブロードキャスト、マスキング、インデックス化の広範な利用に置き換えられる。 関連するすべてのオペレータは、PyTorchやTensorFlowといった一般的な機械学習フレームワークによってサポートされている。 その結果、我々の実装はより高速で、典型的なトレーニングルーチンに容易に適合できる。 実装のpytorchバージョンはhttps://github.com/bwangca/fast-mapで利用可能です。

Mean Average Precision (mAP) has been widely used for evaluating the quality of object detectors, but an efficient implementation is still absent. Current implementations can only count true positives (TP's) and false positives (FP's) for one class at a time by looping through every detection of that class sequentially. Not only are these approaches inefficient, but they are also inconvenient for reporting validation mAP during training. We propose a parallelized alternative that can process mini-batches of detected bounding boxes (DTBB's) and ground truth bounding boxes (GTBB's) as inference goes such that mAP can be instantly calculated after inference is finished. Loops and control statements in sequential implementations are replaced with extensive uses of broadcasting, masking, and indexing. All operators involved are supported by popular machine learning frameworks such as PyTorch and TensorFlow. As a result, our implementation is much faster and can easily fit into typical training routines. A PyTorch version of our implementation is available at https://github.com/bwangca/fast-map.
翻訳日:2022-06-22 14:08:19 公開日:2022-06-19
# ナレッジエンハンスド・プロンプト・ラーニングによる会話型推薦システムの構築

Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning ( http://arxiv.org/abs/2206.09363v1 )

ライセンス: Link先を確認
Xiaolei Wang, Kun Zhou, Ji-Rong Wen, Wayne Xin Zhao(参考訳) 会話レコメンデータシステム(CRS)は,ユーザの嗜好を積極的に取り入れ,自然言語会話を通じて高品質な項目を推薦することを目的としている。 通常、CRSは、ユーザの好む項目を予測するレコメンデーションモジュールと、適切な応答を生成する会話モジュールから構成される。 効果的なCRSを開発するためには、2つのモジュールをシームレスに統合することが不可欠である。 既存の作業はセマンティックアライメント戦略を設計するか、2つのモジュール間で知識リソースと表現を共有します。 しかし、これらのアプローチは2つのモジュールを開発するために異なるアーキテクチャやテクニックに依存しているため、効果的なモジュール統合は困難である。 この問題に対処するため,知識強調学習に基づく統一CRSモデルUniCRSを提案する。 提案手法は,提案する提案と会話のサブタスクを即時学習パラダイムに統合し,固定事前学習言語モデル(PLM)に基づく知識強化プロンプトを用いて,両サブタスクを統一的なアプローチで実現する。 プロンプトデザインでは,crsタスクにplmを適用するのに十分なコンテキスト情報を提供するための,融合した知識表現,タスク固有のソフトトークン,対話コンテキストを含む。 さらに、リコメンデーションサブタスクには、生成した応答テンプレートをプロンプトの重要な部分として組み込んで、2つのサブタスク間の情報相互作用を強化する。 2つの公開CRSデータセットに対する大規模な実験は、我々のアプローチの有効性を実証した。

Conversational recommender systems (CRS) aim to proactively elicit user preference and recommend high-quality items through natural language conversations. Typically, a CRS consists of a recommendation module to predict preferred items for users and a conversation module to generate appropriate responses. To develop an effective CRS, it is essential to seamlessly integrate the two modules. Existing works either design semantic alignment strategies, or share knowledge resources and representations between the two modules. However, these approaches still rely on different architectures or techniques to develop the two modules, making it difficult for effective module integration. To address this problem, we propose a unified CRS model named UniCRS based on knowledge-enhanced prompt learning. Our approach unifies the recommendation and conversation subtasks into the prompt learning paradigm, and utilizes knowledge-enhanced prompts based on a fixed pre-trained language model (PLM) to fulfill both subtasks in a unified approach. In the prompt design, we include fused knowledge representations, task-specific soft tokens, and the dialogue context, which can provide sufficient contextual information to adapt the PLM for the CRS task. Besides, for the recommendation subtask, we also incorporate the generated response template as an important part of the prompt, to enhance the information interaction between the two subtasks. Extensive experiments on two public CRS datasets have demonstrated the effectiveness of our approach.
翻訳日:2022-06-22 14:04:37 公開日:2022-06-19
# 環境変動に対するロバストな模倣学習

Robust Imitation Learning against Variations in Environment Dynamics ( http://arxiv.org/abs/2206.09314v1 )

ライセンス: Link先を確認
Jongseong Chae, Seungyul Han, Whiyoung Jung, Myungsik Cho, Sungho Choi, Youngchul Sung(参考訳) 本稿では,環境力学が摂動した場合のilのロバスト性を改善するためのロバスト模倣学習(il)フレームワークを提案する。 単一の環境でトレーニングされた既存のilフレームワークは、環境のダイナミクスを変更することができるという状況を捉えていないため、環境のダイナミクスの摂動によって壊滅的に失敗する可能性がある。 本フレームワークは, サンプル環境力学の複数の専門家を模倣して, 環境力学の全般的な変動の堅牢性を高めることで, 環境の動的変化を効果的に扱う。 複数のサンプルエキスパートをロバストに模倣するために、エージェントのポリシーと各サンプルエキスパートとのjensen-shannonの相違に関して、リスクを最小限に抑える。 その結果,従来のILベースラインに比べて動的摂動に対するロバスト性は著しく向上した。

In this paper, we propose a robust imitation learning (IL) framework that improves the robustness of IL when environment dynamics are perturbed. The existing IL framework trained in a single environment can catastrophically fail with perturbations in environment dynamics because it does not capture the situation that underlying environment dynamics can be changed. Our framework effectively deals with environments with varying dynamics by imitating multiple experts in sampled environment dynamics to enhance the robustness in general variations in environment dynamics. In order to robustly imitate the multiple sample experts, we minimize the risk with respect to the Jensen-Shannon divergence between the agent's policy and each of the sample experts. Numerical results show that our algorithm significantly improves robustness against dynamics perturbations compared to conventional IL baselines.
翻訳日:2022-06-22 14:01:20 公開日:2022-06-19
# グラフ領域一般化のための多様で予測可能な部分グラフの探索

Finding Diverse and Predictable Subgraphs for Graph Domain Generalization ( http://arxiv.org/abs/2206.09345v1 )

ライセンス: Link先を確認
Junchi Yu, Jian Liang, Ran He(参考訳) 本稿では, 分布シフトにより性能が低下するグラフにおける分散の一般化に着目する。 以前のグラフドメインの一般化は、常に異なるソースドメイン間で不変な予測を学習することに依存している。 しかし、トレーニング中に十分なソースドメインが利用できると仮定し、現実的なアプリケーションにとって大きな課題となる。 対照的に、ソースドメインから複数の集団を構築することにより、DPSと呼ばれる新しいグラフ領域一般化フレームワークを提案する。 具体的には、DPS は複数の \textbf{D}iverse と \textbf{P}redictable \textbf{S}ubgraphs をジェネレータの集合で発見することを目的としている。 これらの生成されたソースドメインは、対象領域をまたいで \textit{equi-predictive} graph neural network (gnn) を学ぶために利用される。 一般的に、DPSはモデルに依存しないため、様々なGNNバックボーンを組み込むことができる。 ノードレベルのベンチマークとグラフレベルのベンチマークによる大規模な実験により、提案したDPSはグラフ領域の一般化タスクにおいて印象的な性能を発揮することが示された。

This paper focuses on out-of-distribution generalization on graphs where performance drops due to the unseen distribution shift. Previous graph domain generalization works always resort to learning an invariant predictor among different source domains. However, they assume sufficient source domains are available during training, posing huge challenges for realistic applications. By contrast, we propose a new graph domain generalization framework, dubbed as DPS, by constructing multiple populations from the source domains. Specifically, DPS aims to discover multiple \textbf{D}iverse and \textbf{P}redictable \textbf{S}ubgraphs with a set of generators, namely, subgraphs are different from each other but all the them share the same semantics with the input graph. These generated source domains are exploited to learn an \textit{equi-predictive} graph neural network (GNN) across domains, which is expected to generalize well to unseen target domains. Generally, DPS is model-agnostic that can be incorporated with various GNN backbones. Extensive experiments on both node-level and graph-level benchmarks shows that the proposed DPS achieves impressive performance for various graph domain generalization tasks.
翻訳日:2022-06-22 14:01:05 公開日:2022-06-19
# ADBench: 異常検出ベンチマーク

ADBench: Anomaly Detection Benchmark ( http://arxiv.org/abs/2206.09426v1 )

ライセンス: Link先を確認
Songqiao Han, Xiyang Hu, Hailiang Huang, Mingqi Jiang, Yue Zhao(参考訳) 過去数十年に開発された異常検出アルゴリズムの長いリストを考えると、それらはどのように振る舞うのか? (i)様々なレベルの監督。 (ii)異なる種類の異常、 (iii)騒がしく、腐敗したデータ? 本研究では、55のベンチマークデータセット上で30のアルゴリズムによる最も包括的な異常検出ベンチマークをadbenchという名で実施し、これらの重要な質問に答える。 我々の広範囲な実験(合計93,654件)は、監視と異常タイプの役割に関する意味ある洞察を特定し、アルゴリズムの選択と設計における研究者の今後の方向性を解き放つ。 ADBenchを使えば、研究者は既存のベースラインに対して、データセット(自然言語やコンピュータビジョンドメインからの貢献者を含む)に新たに提案された手法について、包括的で公平な評価を容易に行えます。 アクセシビリティと再現性を向上するため,ADBenchとそれに対応する結果をオープンソース化した。

Given a long list of anomaly detection algorithms developed in the last few decades, how do they perform with regard to (i) varying levels of supervision, (ii) different types of anomalies, and (iii) noisy and corrupted data? In this work, we answer these key questions by conducting (to our best knowledge) the most comprehensive anomaly detection benchmark with 30 algorithms on 55 benchmark datasets, named ADBench. Our extensive experiments (93,654 in total) identify meaningful insights into the role of supervision and anomaly types, and unlock future directions for researchers in algorithm selection and design. With ADBench, researchers can easily conduct comprehensive and fair evaluations for newly proposed methods on the datasets (including our contributed ones from natural language and computer vision domains) against the existing baselines. To foster accessibility and reproducibility, we fully open-source ADBench and the corresponding results.
翻訳日:2022-06-22 14:00:43 公開日:2022-06-19
# ビジョンランゲージ事前学習モデルの逆攻撃に向けて

Towards Adversarial Attack on Vision-Language Pre-training Models ( http://arxiv.org/abs/2206.09391v1 )

ライセンス: Link先を確認
Jiaming Zhang, Qi Yi, Jitao Sang(参考訳) 視覚言語事前学習モデル(VLP)は、様々な視覚言語(V+L)タスクにおいて革命的な改善を示しているが、その逆の頑健性に関する研究はほとんど未解明のままである。 本稿では,VLPモデルとV+Lタスクに対する敵攻撃について検討した。 まず,異なる設定下での敵の攻撃性能を分析した。 異なる摂動対象と攻撃対象の影響を調べた結果,強いマルチモーダル対向攻撃の設計と堅牢なVLPモデルの構築に関するガイダンスとして,いくつかの重要な観測結果が得られた。 第2に,画像モダリティとテキストモダリティを総称して攻撃を行うコラボレーティブ・マルチモーダル・アタック(コ・アタック)という,vlpモデルに対する新しいマルチモーダルアタック手法を提案する。 実験により,提案手法は,V+L下流タスクとVLPモデルにおいて,攻撃性能の向上を実現することを示した。 解析観測と新たな攻撃手法は,より現実的なシナリオにおける安全性と信頼性の確保に寄与するため,VLPモデルの対角的堅牢性に対する新たな理解を提供する。

While vision-language pre-training model (VLP) has shown revolutionary improvements on various vision-language (V+L) tasks, the studies regarding its adversarial robustness remain largely unexplored. This paper studied the adversarial attack on popular VLP models and V+L tasks. First, we analyzed the performance of adversarial attacks under different settings. By examining the influence of different perturbed objects and attack targets, we concluded some key observations as guidance on both designing strong multimodal adversarial attack and constructing robust VLP models. Second, we proposed a novel multimodal attack method on the VLP models called Collaborative Multimodal Adversarial Attack (Co-Attack), which collectively carries out the attacks on the image modality and the text modality. Experimental results demonstrated that the proposed method achieves improved attack performances on different V+L downstream tasks and VLP models. The analysis observations and novel attack method hopefully provide new understanding into the adversarial robustness of VLP models, so as to contribute their safe and reliable deployment in more real-world scenarios.
翻訳日:2022-06-22 13:32:20 公開日:2022-06-19
# ハイパースペクトル画像を用いたトランスファー学習による地形分類--比較研究

Terrain Classification using Transfer Learning on Hyperspectral Images: A Comparative study ( http://arxiv.org/abs/2206.09414v1 )

ライセンス: Link先を確認
Uphar Singh, Kumar Saurabh, Neelaksh Trehan, Ranjana Vyas, O.P. Vyas(参考訳) ハイパースペクトル画像は、rgb画像に比べてチャネル数が多く、したがって画像内のエンティティに関するより多くの情報を含んでいる。 畳み込みニューラルネットワーク(CNN)とMulti-Layer Perceptron(MLP)は画像分類の有効な方法であることが証明されている。 しかし、彼らは、期待される結果を達成するために、長い訓練時間と大量のラベル付きデータを必要とする問題に苦しむ。 これらの問題はハイパースペクトル画像を扱う際にさらに複雑になる。 学習時間を減らし,大規模ラベル付きデータセットへの依存度を低減するために,転送学習法を提案する。 ハイパースペクトルデータセットはPCAを用いて下位次元に前処理され、深層学習モデルを適用して分類する。 このモデルで学習した特徴は、転送学習モデルによって、目に見えないデータセット上の新しい分類問題を解決するために使用される。 CNNと複数のMLPアーキテクチャモデルとの詳細な比較を行い、目的に適した最適なアーキテクチャを決定する。 その結果, レイヤーのスケーリングは必ずしも精度の向上につながるだけでなく, 過度に適合することが多く, トレーニング時間の増加につながることが示され, トレーニング時間は, 大規模データセット上で新しいモデルを直接訓練することで問題にアプローチするのではなく, 移行学習アプローチを適用することにより, より広範囲に短縮されることがわかった。

A Hyperspectral image contains much more number of channels as compared to a RGB image, hence containing more information about entities within the image. The convolutional neural network (CNN) and the Multi-Layer Perceptron (MLP) have been proven to be an effective method of image classification. However, they suffer from the issues of long training time and requirement of large amounts of the labeled data, to achieve the expected outcome. These issues become more complex while dealing with hyperspectral images. To decrease the training time and reduce the dependence on large labeled dataset, we propose using the method of transfer learning. The hyperspectral dataset is preprocessed to a lower dimension using PCA, then deep learning models are applied to it for the purpose of classification. The features learned by this model are then used by the transfer learning model to solve a new classification problem on an unseen dataset. A detailed comparison of CNN and multiple MLP architectural models is performed, to determine an optimum architecture that suits best the objective. The results show that the scaling of layers not always leads to increase in accuracy but often leads to overfitting, and also an increase in the training time.The training time is reduced to greater extent by applying the transfer learning approach rather than just approaching the problem by directly training a new model on large datasets, without much affecting the accuracy.
翻訳日:2022-06-22 13:30:53 公開日:2022-06-19
# CNNに基づく移動学習アプローチを用いた農業プランテーション分類

Agricultural Plantation Classification using Transfer Learning Approach based on CNN ( http://arxiv.org/abs/2206.09420v1 )

ライセンス: Link先を確認
Uphar Singh, Tushar Musale, Ranjana Vyas, O.P.Vyas (Indian Institute of Information Technology, Allahabad, India)(参考訳) ハイパースペクトル画像(Hyper-spectral image)は、特定の領域の空間的およびスペクトル的な情報を与える衛星から撮影された画像である。 これは、オブジェクトをスナップで分類するのに適しています。 近年,深層学習により高スペクトル画像認識の効率が著しく向上している。 Convolution Neural Network(CNN)とMulti-Layer Perceptron(MLP)は、画像の分類に優れたプロセスであることが示されている。 しかし、彼らは、期待される結果を達成するために、長い訓練時間と大量のラベル付きデータを必要とする問題に苦しむ。 これらの問題はハイパースペクトル画像を扱う際にさらに複雑になる。 学習時間を短縮し,大規模ラベル付きデータセットへの依存度を低減するために,cnnおよびmlpモデルで学習した特徴を転送学習モデルで活用し,未知データセットにおける新しい分類問題を解く。 CNNと複数のMLPアーキテクチャモデルとの詳細な比較を行い、目的に適した最適なアーキテクチャを決定する。 その結果,新しいモデルを大規模データセット上で直接トレーニングすることによって問題にアプローチするのではなく,トランスファー学習アプローチを適用することで,学習時間が大幅に短縮され,精度に大きな影響を与えることなく精度が向上することがわかった。

Hyper-spectral images are images captured from a satellite that gives spatial and spectral information of specific region.A Hyper-spectral image contains much more number of channels as compared to a RGB image, hence containing more information about entities within the image. It makes them well suited for the classification of objects in a snap. In the past years, the efficiency of hyper-spectral image recognition has increased significantly with deep learning. The Convolution Neural Network(CNN) and Multi-Layer Perceptron(MLP) has demonstrated to be an excellent process of classifying images. However, they suffer from the issues of long training time and requirement of large amounts of the labeled data, to achieve the expected outcome. These issues become more complex while dealing with hyper-spectral images. To decrease the training time and reduce the dependence on large labeled data-set, we propose using the method of transfer learning.The features learned by CNN and MLP models are then used by the transfer learning model to solve a new classification problem on an unseen dataset. A detailed comparison of CNN and multiple MLP architectural models is performed, to determine an optimum architecture that suits best the objective. The results show that the scaling of layers not always leads to increase in accuracy but often leads to over-fitting, and also an increase in the training time.The training time is reduced to greater extent by applying the transfer learning approach rather than just approaching the problem by directly training a new model on large data-sets, without much affecting the accuracy.
翻訳日:2022-06-22 13:30:31 公開日:2022-06-19
# 放射線レポート作成のための自己誘導型枠組み

A Self-Guided Framework for Radiology Report Generation ( http://arxiv.org/abs/2206.09378v1 )

ライセンス: Link先を確認
Jun Li, Shibo Li, Ying Hu, Huiren Tao(参考訳) 自動放射線診断はコンピュータ支援診断に不可欠である。 画像キャプションの成功により,医療報告生成が可能となった。 しかし, 注釈付き疾患ラベルの欠如はいまだにこの領域のボトルネックとなっている。 さらに、画像テキストデータのバイアス問題と複雑な文は、正確なレポートを生成するのを難しくする。 これらのギャップに対処するため、我々は、人間の学習と文章の過程を模倣する、教師なしおよび教師なしのディープラーニング手法のスイートである自己指導型フレームワーク(SGF)を事前に構築した。 本フレームワークは,病状ラベルを付加した医療報告からドメイン知識を取得し,テキストに関連付けられた微粒な視覚的特徴を抽出する。 さらに、SGFは、コンパラティブな実践を通じて、人間の自己改善の過程を模倣する類似性比較機構を組み込むことで、医療報告生成の精度と長さを向上する。 広範な実験により,多くの症例においてsgfの有用性が示され,最先端のmeth-odsよりも優れた性能を示す。 提案手法は, 語間の細粒度の視覚詳細を識別し, 医用報告書の作成においてその利点を検証できる。

Automatic radiology report generation is essential to computer-aided diagnosis. Through the success of image captioning, medical report generation has been achievable. However, the lack of annotated disease labels is still the bottleneck of this area. In addition, the image-text data bias problem and complex sentences make it more difficult to generate accurate reports. To address these gaps, we pre-sent a self-guided framework (SGF), a suite of unsupervised and supervised deep learning methods to mimic the process of human learning and writing. In detail, our framework obtains the domain knowledge from medical reports with-out extra disease labels and guides itself to extract fined-grain visual features as-sociated with the text. Moreover, SGF successfully improves the accuracy and length of medical report generation by incorporating a similarity comparison mechanism that imitates the process of human self-improvement through compar-ative practice. Extensive experiments demonstrate the utility of our SGF in the majority of cases, showing its superior performance over state-of-the-art meth-ods. Our results highlight the capacity of the proposed framework to distinguish fined-grained visual details between words and verify its advantage in generating medical reports.
翻訳日:2022-06-22 13:26:32 公開日:2022-06-19
# 機械学習における遅延, バレン高原, 騒音

Laziness, Barren Plateau, and Noise in Machine Learning ( http://arxiv.org/abs/2206.09313v1 )

ライセンス: Link先を確認
Junyu Liu, Zexi Lin, Liang Jiang(参考訳) 我々は,ニューラルネットワーク,古典的あるいは量子的な変動パラメータ更新の大規模な抑制を記述するために, \emph{laziness} を定義する。 量子の場合、抑制はランダム化された変分量子回路の量子ビット数で指数関数的である。 勾配降下時の損失関数ランドスケープの平坦性について,量子物理学者が生成した量子機械学習における遅延性とemph{barren plateau}の違いについて考察する。 ニューラル・タンジェント・カーネルの理論に照らして、これらの2つの現象の新たな理論的理解に取り組む。 ノイズのない量子回路では、測定ノイズがなければ、多くの訓練可能な変動角を持つ過パラメータ状態において損失関数のランドスケープは複雑である。 代わりに、最適化のランダムな出発点付近には、十分な量の局所ミニマが存在し、平均二乗損失関数を最小化することができる。 しかし、複雑な風景は限られた回数の反復の中では見えず、量子制御や量子センシングの精度は低い。 さらに,直感的な雑音モデルを想定し,最適化時の雑音の影響を考察し,過度なパラメータ化方式では変分量子アルゴリズムが耐雑音性を示す。 私たちの研究は、量子バレンプラトーステートメントを精密なステートメントに向けて正確に再構成し、特定のノイズモデルでステートメントを正当化し、短期的な変分量子アルゴリズムへの新たな希望を注入し、古典的機械学習への理論的接続を提供する。 本論文は,量子バレン高原に関する概念的視点と<cite{together}の勾配降下ダイナミクスに関する議論を提供する。

We define \emph{laziness} to describe a large suppression of variational parameter updates for neural networks, classical or quantum. In the quantum case, the suppression is exponential in the number of qubits for randomized variational quantum circuits. We discuss the difference between laziness and \emph{barren plateau} in quantum machine learning created by quantum physicists in \cite{mcclean2018barren} for the flatness of the loss function landscape during gradient descent. We address a novel theoretical understanding of those two phenomena in light of the theory of neural tangent kernels. For noiseless quantum circuits, without the measurement noise, the loss function landscape is complicated in the overparametrized regime with a large number of trainable variational angles. Instead, around a random starting point in optimization, there are large numbers of local minima that are good enough and could minimize the mean square loss function, where we still have quantum laziness, but we do not have barren plateaus. However, the complicated landscape is not visible within a limited number of iterations, and low precision in quantum control and quantum sensing. Moreover, we look at the effect of noises during optimization by assuming intuitive noise models, and show that variational quantum algorithms are noise-resilient in the overparametrization regime. Our work precisely reformulates the quantum barren plateau statement towards a precision statement and justifies the statement in certain noise models, injects new hope toward near-term variational quantum algorithms, and provides theoretical connections toward classical machine learning. Our paper provides conceptual perspectives about quantum barren plateaus, together with discussions about the gradient descent dynamics in \cite{together}.
翻訳日:2022-06-22 13:07:12 公開日:2022-06-19
# VAEにおけるログ類似度の評価と検証

Bounding Evidence and Estimating Log-Likelihood in VAE ( http://arxiv.org/abs/2206.09453v1 )

ライセンス: Link先を確認
{\L}ukasz Struski, Marcin Mazur, Pawe{\l} Batorski, Przemys{\l}aw Spurek, Jacek Tabor(参考訳) 深層学習と統計学における多くの重要な問題は、証拠と証拠の低い境界(ELBO)の違いによって引き起こされる。 その結果,従来のVAEモデルでは,ELBOがコスト関数として使用されるため,対数類似度が低い値しか得られないので,モデル間で対数類似度を比較することはできない。 本稿では,変分ギャップの一般的かつ効果的な上限を提示することで,真の証拠を効率的に推定する。 提案手法の広範な理論的研究について述べる。 さらに, この推定を適用して, VAEモデルのログ類似度に対する下限と上限を容易に得ることを示す。

Many crucial problems in deep learning and statistics are caused by a variational gap, i.e., a difference between evidence and evidence lower bound (ELBO). As a consequence, in the classical VAE model, we obtain only the lower bound on the log-likelihood since ELBO is used as a cost function, and therefore we cannot compare log-likelihood between models. In this paper, we present a general and effective upper bound of the variational gap, which allows us to efficiently estimate the true evidence. We provide an extensive theoretical study of the proposed approach. Moreover, we show that by applying our estimation, we can easily obtain lower and upper bounds for the log-likelihood of VAE models.
翻訳日:2022-06-22 13:06:47 公開日:2022-06-19