このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220827となっている論文です。

PDF登録状況(公開日: 20220827)

TitleAuthorsAbstract論文公表日・翻訳日
# 漸近的最適量子鍵分布プロトコル

Asymptotically Optimal Quantum Key Distribution Protocols ( http://arxiv.org/abs/2110.01973v4 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(QKD)は、量子情報理論の最も重要な応用である。 約40年の間、実質的なQKDプロトコルが開発されたが、BB84プロトコルとその変種は依然として最も研究されているプロトコルである。 bb84 プロトコルの qubit error rate (qber) のセキュアバウンドが 11$\%$ であるのに対して、6 状態プロトコルによって 12.6$\%$ に拡張できることはよく知られている。 より多くの基礎を雇うことで限界が高まることは驚くにあたらない。 しかし、最適なものは何か? 本稿では,漸近的に最適なQKDプロトコルを提案する。 そこで本研究では,QKDプロトコルを抽象化し,同一の状態でコーディングされるすべてのプロトコルで最適である2つの特別なケースについて検討する。 直交量子ビットによる漸近的に最適なQBER境界は、一般的なC-NOT攻撃とメモリレス攻撃で約22.17$\%、相互にバイアスのない2つの非直交状態で符号化された境界は、一般的なC-NOT攻撃で約25.30$\%、メモリレス攻撃で約27.00$\%であることを示す。 我々のプロトコルの最適性は、このような攻撃によるセキュリティの究極の可能性を示している。

Quantum key distribution (QKD) could be the most significant application of quantum information theory. In nearly four decades, although substantial QKD protocols are developed, the BB84 protocol and its variants are still the most researched ones. It is well-known that the secure bound of qubit error rate (QBER) of BB84 protocol is about 11$\%$ while it can be increased to 12.6$\%$ by six-state protocol. It would not be surprising that employing more basis could increase the bound. However, what is the optimal one? In this paper, investigations of asymptotically optimal QKD protocols are proposed. Precisely, We present an abstraction of prepare-measure QKD protocols and investigate two special cases which are optimal among all protocols coding by the same states. Our analyses demonstrate that the asymptotically optimal QBER bounds coding by orthogonal qubits are about 22.17$\%$ for both general C-NOT attacks and memoryless attacks while the bounds coding by non-orthogonal states in two mutually unbiased basis are about 25.30$\%$ for general C-NOT attacks and 27.00$\%$ for memoryless attacks. The optimality of our protocols demonstrates the ultimate potential of the security under such attacks.
翻訳日:2023-03-12 12:08:19 公開日:2022-08-27
# ガウス量子マルコフ半群のデコヒーレンスフリー部分代数

The decoherence-free subalgebra of Gaussian Quantum Markov Semigroups ( http://arxiv.org/abs/2112.13781v2 )

ライセンス: Link先を確認
Juli\'an Agredo, Franco Fagnola, Damiano Poletti(参考訳) フォン・ノイマン代数上のガウス量子マルコフ半群のデコヒーレンス-部分代数 $\mathcal{n}(\mathcal{t})$ をフォック空間上のすべての有界作用素 $\gamma(\mathbb{c}^d)$ on $\mathbb{c}^d$ で求める方法を示す。 すると、$\mathcal{n}(\mathcal{t})$ はタイプ i von neumann algebra $l^\infty(\mathbb{r}^{d_c};\mathbb{c})\bar{\otimes}\mathcal{b}(\gamma(\mathbb{c}^{d_f}))$ であり、ユニタリ同値まで、2つの自然数 $d_c,d_f\leq d$ によって決定される。 この結果はいくつかのアプリケーションや例で示されています。

We demonstrate a method for finding the decoherence-subalgebra $\mathcal{N}(\mathcal{T})$ of a Gaussian quantum Markov semigroup on the von Neumann algebra $\mathcal{B}(\Gamma(\mathbb{C}^d))$ of all bounded operator on the Fock space $\Gamma(\mathbb{C}^d)$ on $\mathbb{C}^d$. We show that $\mathcal{N}(\mathcal{T})$ is a type I von Neumann algebra $L^\infty(\mathbb{R}^{d_c};\mathbb{C})\bar{\otimes}\mathcal{B}(\Gamma(\mathbb{C}^{d_f}))$ determined, up to unitary equivalence, by two natural numbers $d_c,d_f\leq d$. This result is illustrated by some applications and examples.
翻訳日:2023-03-03 03:44:51 公開日:2022-08-27
# 量子領域障害を軽減する回路対称性検証

Circuit Symmetry Verification Mitigates Quantum-Domain Impairments ( http://arxiv.org/abs/2112.13904v2 )

ライセンス: Link先を確認
Yifeng Xiong, Daryus Chandra, Soon Xin Ng, Lajos Hanzo(参考訳) 最先端のうるさい中間スケール量子コンピュータは、量子デコヒーレンスによって生じる計算誤差の軽減のために、低複雑さ技術を必要とする。 対称性検証は量子エラー緩和(QEM)技法のクラスを構成し、計算タスク自体の内在対称性を利用して、誤った計算結果と正しい計算結果とを区別する。 量子通信理論における量子スイッチの利点に触発されて,量子状態の知識を使わずに量子回路の可換性を検証できる回路指向対称性検証のための有用な手法を提案する。 特に,従来の量子領域安定化器形式を回路指向安定化器に一般化した時空間安定化器(STS)手法を提案する。 提案手法の適用性と実装戦略は、量子フーリエ変換(QFT)や量子近似最適化アルゴリズム(QAOA)を含む実用的な量子アルゴリズムを用いて実証される。

State-of-the-art noisy intermediate-scale quantum computers require low-complexity techniques for the mitigation of computational errors inflicted by quantum decoherence. Symmetry verification constitutes a class of quantum error mitigation (QEM) techniques, which distinguishes erroneous computational results from the correct ones by exploiting the intrinsic symmetry of the computational tasks themselves. Inspired by the benefits of quantum switch in the quantum communication theory, we propose beneficial techniques for circuit-oriented symmetry verification that are capable of verifying the commutativity of quantum circuits without the knowledge of the quantum state. In particular, we propose the spatio-temporal stabilizer (STS) technique, which generalizes the conventional quantum-domain stabilizer formalism to circuit-oriented stabilizers. The applicability and implementational strategies of the proposed techniques are demonstrated by using practical quantum algorithms, including the quantum Fourier transform (QFT) and the quantum approximate optimization algorithm (QAOA).
翻訳日:2023-03-03 03:33:22 公開日:2022-08-27
# 量子ドットの量子ゼノ操作

Quantum Zeno Manipulation of Quantum Dots ( http://arxiv.org/abs/2201.11718v2 )

ライセンス: Link先を確認
N. Ahmadiniaz and M. Geller and J. K\"onig and P. Kratzer and A. Lorke and G. Schaller and R. Sch\"utzhold(参考訳) 我々は、量子ゼノ効果、すなわち頻繁な測定による量子進化の阻害が、量子ドットを周囲の電子貯水池から分離するためにどのように用いられるかを検討する。 離散準位間のトンネル化のしばしば研究されている場合とは対照的に、連続体貯水池からドット内の離散準位への電子のトンネル化を考える。 このシナリオでの量子ゼノ効果の実現は、貯水池に残されている穴の波束が点近傍から離れる前に測定を繰り返す必要があるため、はるかに困難である。 したがって、所要の繰り返し速度は、ドットと共鳴して平坦なバンド(遅い群速度)を持つか、十分に小さいフェルミ速度または強い外部磁場を持つことで低下させることができる。 我々はまた、反ゼノ効果、すなわち、測定が量子進化を加速または有効にする方法も検討する。

We investigate whether and how the quantum Zeno effect, i.e., the inhibition of quantum evolution by frequent measurements, can be employed to isolate a quantum dot from its surrounding electron reservoir. In contrast to the often studied case of tunneling between discrete levels, we consider the tunnelling of an electron from a continuum reservoir to a discrete level in the dot. Realizing the quantum Zeno effect in this scenario can be much harder because the measurements should be repeated before the wave packet of the hole left behind in the reservoir moves away from the vicinity of the dot. Thus, the required repetition rate could be lowered by having a flat band (with a slow group velocity) in resonance with the dot or a sufficiently small Fermi velocity or a strong external magnetic field. We also consider the anti-Zeno effect, i.e., how measurements can accelerate or enable quantum evolution.
翻訳日:2023-02-27 18:11:03 公開日:2022-08-27
# 2つの正則基底の不整合性の分類

Classification of incompatibility for two orthonormal bases ( http://arxiv.org/abs/2203.06460v4 )

ライセンス: Link先を確認
Jianwei Xu(参考訳) $d$次元複素ヒルベルト空間の2つの正則基底に対して、完備不和の概念はDe Bi\`{e}vre [Phys. Rev. Lett. 127, 190404 (2021)] によって最近導入された。 本稿では,2\leq s\leq d+1.$ を満たす正の整数 $s$ を持つ$s$-order の非互換性の概念,特に$(d+1)$-order の非互換性は完全不互換性と一致する。 我々は、$s$-orderの不適合性、最小サポートの不確実性、遷移行列のランク不足の関係性を確立する。 例えば、任意の有限次元の離散フーリエ変換の不整合順序を決定する。

For two orthonormal bases of a $d$-dimensional complex Hilbert space, the notion of complete incompatibility was introduced recently by De Bi\`{e}vre [Phys. Rev. Lett. 127, 190404 (2021)]. In this work, we introduce the notion of $s$-order incompatibility with positive integer $s$ satisfying $2\leq s\leq d+1.$ In particular, $(d+1)$-order incompatibility just coincides with the complete incompatibility. We establish some relations between $s$-order incompatibility, minimal support uncertainty and rank deficiency of the transition matrix. As an example, we determine the incompatibility order of the discrete Fourier transform with any finite dimension.
翻訳日:2023-02-22 07:27:36 公開日:2022-08-27
# 量子トモグラフィにおける情報ゲインに及ぼすカオスの影響

Effect of chaos on information gain in quantum tomography ( http://arxiv.org/abs/2203.07692v2 )

ライセンス: Link先を確認
Abinash Sahu, Sreeram PG, and Vaibhav Madhok(参考訳) 力学におけるカオスは、量子トモグラフィにおける情報獲得を可能にするか、あるいはそれを妨げるか? 量子キックトップのフロケマップの繰り返し適用の下で進化するエルミート観測値の期待値列として測定記録が得られた連続測定トモグラフィーを考慮し、この問題に対処する。 与えられた力学とエルミート可観測物に対しては、ランダム状態と比較して、よく局在したスピンコヒーレント状態のトモグラフィーにおいて全く逆の挙動を観察する。 ダイナミクスのカオスが増加すると、スピンコヒーレント状態の再構成忠実度が低下する。 これは、ランダム状態のトモグラフィーにおける情報ゲインと、システムを駆動するダイナミクスにおけるカオスの度合いを繋ぐ以前の結果とは対照的である。 情報ゲイン率とトモグラフィーで得られた忠実度は、ダイナミクスのカオスの程度や、オペレータ空間の様々な方向に拡散する最初の観測可能性の程度に依存するだけでなく、より重要なこととして、これらの方向が推定される密度行列とどの程度よく一致しているかに依存する。 本研究は,実際の量子情報トモグラフィープロトコルにおいて,演算子の精度向上に関する操作的解釈も提供する。

Does chaos in the dynamics enable information gain in quantum tomography or impede it? We address this question by considering continuous measurement tomography in which the measurement record is obtained as a sequence of expectation values of a Hermitian observable evolving under the repeated application of the Floquet map of the quantum kicked top. For a given dynamics and Hermitian observables, we observe completely opposite behavior in the tomography of well-localized spin coherent states compared to random states. As the chaos in the dynamics increases, the reconstruction fidelity of spin coherent states decreases. This contrasts with the previous results connecting information gain in tomography of random states with the degree of chaos in the dynamics that drives the system. The rate of information gain and hence the fidelity obtained in tomography depends not only on the degree of chaos in the dynamics and to what extent it causes the initial observable to spread in various directions of the operator space but, more importantly, how well these directions are aligned with the density matrix to be estimated. Our study also gives an operational interpretation for operator spreading in terms of fidelity gain in an actual quantum information tomography protocol.
翻訳日:2023-02-22 01:27:21 公開日:2022-08-27
# MyMigrationBot: ミグラント人口のためのクラウドベースのFacebookソーシャルチャットボット

MyMigrationBot: A Cloud-based Facebook Social Chatbot for Migrant Populations ( http://arxiv.org/abs/2208.13005v1 )

ライセンス: Link先を確認
Karol Chlasta, Pawe{\l} Sochaczewski, Izabela Grabowska, Agata Jastrz\k{e}bowska(参考訳) 我々は、Facebookにデプロイされた新しいクラウドベースのソーシャルチャットボットMyMigrationBotの設計、実装、評価を行う。 このシステムは、利用者の性格特性や人職能力に関する質問に答え、フィードバックを与え、移民の人口をサポートする。 チャットボットの応答データベースは、信頼できる社会心理学ツールに基づいており、カスタマイズできる。 システムのバックエンドはNode.jsで書かれ、AWSとTwilioにデプロイされ、GraphとMessenger APIを介してFacebookと結合する。 われわれの知る限り、これはFacebookに展開された初の多言語ソーシャルチャットボットであり、ヨーロッパからの移民を調査、支援するように設計されている。 他のボットのような性格は持たないが、移民の性格や、求職能力の適合など、カスタマイズされた質問に対する学習やフィードバックが可能である。 研究プロジェクトにおけるソーシャルチャットボットの目的は、移民に合ったフィードバック情報を用いて、社会研究への参加を支援することである。 移民が精神社会的資源に関する知識を得るのに役立つので、労働市場への統合を促進することができる。 チャットボットを53人のグループ、inclで評価した。 23人の移民が 結果を発表します

We present the design, implementation and evaluation of a new cloud-based social chatbot called MyMigrationBot, that is deployed to Facebook. The system asks and answers questions related to user's personality traits and person-job competency fit to give feedback, and potentially support migrant populations. The chatbot's response database is based on reputable socio-psychological tools and can be customised. The system's backend is written with Node.js, deployed to AWS and Twilio, and joined with Facebook through Graph and Messenger APIs. To our knowledge this is the first multilingual social chatbot deployed to Facebook and designed to research and support migrant populations with feedback in Europe. It does not have personality like other bots, but it can study and feedback on migrants' personality and on other customised questionnaires e.g., job-competency fit. The aim of a social chatbot in our research project is to help engage migrants with social research using feedback information tailored to them. It can help migrants to get knowledge about their psycho-social resources and therefore to facilitate their integration process into a receiving labour market. We evaluated the chatbot on a group of 53 people, incl. 23 migrants, and we present the results.
翻訳日:2023-02-19 10:50:28 公開日:2022-08-27
# YouTube COVID-19 ワクチンの誤情報:プラットフォーム間インタラクションとモデレーション盲点

YouTube COVID-19 Vaccine Misinformation on Twitter: Platform Interactions and Moderation Blind Spots ( http://arxiv.org/abs/2208.13000v1 )

ライセンス: Link先を確認
David S. Axelrod, Brian P. Harper, John C. Paolillo(参考訳) ほとんどのソーシャルメディア企業は、新型コロナウイルス(covid-19)の誤った情報への対処を試みているが、これらのポリシーの成功は、特に個々のプラットフォームに焦点を当てた場合、評価が難しい。 この研究は、2021年にTwitterアカウントが削除されたYouTubeビデオとリンクしているYouTubeビデオをシェアするツイートの集合を分析し、新型コロナウイルスのワクチン関連の誤情報を拡散する際のTwitterとYouTubeの関係を探る。 主要なコンポーネント、クラスタ、ネットワーク分析は、ビデオとツイートを、共有ツイート日時、条件、共有パターンによって解釈可能なグループにグループ化するために使用され、コンテンツ分析は、ツイートとビデオのCOVID-19メッセージへの向きを評価するために使用される。 このことから,これまで疑わしい情報を共有していたユーザの間では,反競争的な政治フレーミングが支配的であり,プラットフォームが相互作用するモデレーション政策の非効率性が示唆されている。

While most social media companies have attempted to address the challenge of COVID-19 misinformation, the success of those policies is difficult to assess, especially when focusing on individual platforms. This study explores the relationship between Twitter and YouTube in spreading COVID-19 vaccine-related misinformation through a mixed-methods approach to analyzing a collection of tweets in 2021 sharing YouTube videos where those Twitter accounts had also linked to deleted YouTube videos. Principal components, cluster and network analyses are used to group the videos and tweets into interpretable groups by shared tweet dates, terms and sharing patterns; content analysis is employed to assess the orientation of tweets and videos to COVID-19 messages. From this we observe that a preponderance of anti-vaccine messaging remains among users who previously shared suspect information, in which a dissident political framing dominates, and which suggests moderation policy inefficacy where the platforms interact.
翻訳日:2023-02-19 10:50:08 公開日:2022-08-27
# 中国におけるオンライン食品配達業者のアルゴリズム媒介労働の混合分析

A Mixed-Methods Analysis of the Algorithm-Mediated Labor of Online Food Deliverers in China ( http://arxiv.org/abs/2208.04518v2 )

ライセンス: Link先を確認
Zhilong Chen, Xiaochong Lan, Jinghua Piao, Yunke Zhang, Yong Li(参考訳) 近年、中国はギグエコノミーの新興型であるオンライン食品デリバリー産業の成長と成功を目撃している。 レストランから顧客に食品を届けるオンラインフードデリバリーは、この産業を実現する上で重要な役割を果たす。 アルゴリズムに媒介され、複数の利害関係者とのインタラクションと組み合わせることで、この新たなタイプの労働は何百万人もの人々が引き受けてきた。 本稿では,オンライン食品配送業者のこの労働力を調査し,アルゴリズムの仲介がいかに形作るかを明らかにするための混合手法分析を提案する。 10万人の納品者の行動データと15人のオンラインフードデリバリー担当者との詳細な質的インタビューの大規模定量データ駆動調査を組み合わせることで、作業活動の実証、納品手続きの仲介方法の特定、そして、アルゴリズムによる労働の結果、異なる利害関係者との関係をどう知覚するかを明らかにする。 本研究は, ギグエコノミーの労働者だけでなく, より優れた体験と, より人為的労働を可能にする上で重要な意味を持つ。

In recent years, China has witnessed the proliferation and success of the online food delivery industry, an emerging type of the gig economy. Online food deliverers who deliver the food from restaurants to customers play a critical role in enabling this industry. Mediated by algorithms and coupled with interactions with multiple stakeholders, this emerging kind of labor has been taken by millions of people. In this paper, we present a mixed-methods analysis to investigate this labor of online food deliverers and uncover how the mediation of algorithms shapes it. Combining large-scale quantitative data-driven investigations of 100,000 deliverers' behavioral data with in-depth qualitative interviews with 15 online food deliverers, we demonstrate their working activities, identify how algorithms mediate their delivery procedures, and reveal how they perceive their relationships with different stakeholders as a result of their algorithm-mediated labor. Our findings provide important implications for enabling better experiences and more humanized labor of deliverers as well as workers in gig economies of similar kinds.
翻訳日:2023-02-19 10:24:42 公開日:2022-08-27
# 実践者Versusユーザ: 現在の産業レコメンダシステム設計における価値感評価

Practitioners Versus Users: A Value-Sensitive Evaluation of Current Industrial Recommender System Design ( http://arxiv.org/abs/2208.04122v2 )

ライセンス: Link先を確認
Zhilong Chen, Jinghua Piao, Xiaochong Lan, Hancheng Cao, Chen Gao, Zhicong Lu, Yong Li(参考訳) レコメンダシステムは、情報の過負荷を緩和し、消費、社会化、エンターテイメントなど、ユーザのさまざまなニーズをサポートする上で、ますます重要な役割を担っている。 しかし、限られた研究は、レコメンデーターシステムの産業展開においてどのように価値が広く考慮されるべきかに焦点を当てており、その無知は問題となる可能性がある。 このギャップを埋めるため,本稿では,現在の産業レコメンダシステムの異なる価値をどのように認識するかを包括的に検討するために,価値に敏感な設計を採用する。 概念的および実証的な調査に基づいて、推奨品質、プライバシ、透明性、公正、信頼性の5つの価値に焦点を当てます。 さらに20人のユーザと10人の実践者との詳細な質的インタビューを行い、これらの価値について意見を掘り下げる。 本研究は, 実践者とユーザ間の緊張関係を, 価値解釈, 評価, 実践の観点から明らかにし, より人間中心で, 価値に敏感なレコメンデーションシステムの設計に新たな意味を与えるものである。

Recommender systems are playing an increasingly important role in alleviating information overload and supporting users' various needs, e.g., consumption, socialization, and entertainment. However, limited research focuses on how values should be extensively considered in industrial deployments of recommender systems, the ignorance of which can be problematic. To fill this gap, in this paper, we adopt Value Sensitive Design to comprehensively explore how practitioners and users recognize different values of current industrial recommender systems. Based on conceptual and empirical investigations, we focus on five values: recommendation quality, privacy, transparency, fairness, and trustworthiness. We further conduct in-depth qualitative interviews with 20 users and 10 practitioners to delve into their opinions about these values. Our results reveal the existence and sources of tensions between practitioners and users in terms of value interpretation, evaluation, and practice, which provide novel implications for designing more human-centric and value-sensitive recommender systems.
翻訳日:2023-02-19 10:23:36 公開日:2022-08-27
# AIライツ研究の歴史

The History of AI Rights Research ( http://arxiv.org/abs/2208.04714v2 )

ライセンス: Link先を確認
Jamie Harris(参考訳) 本報告では,AIの権利に関する研究の歴史と,人工エンティティの道徳的考察について述べる。 この文献に対する重要な知的影響や、より直接的に取り組む研究や学術的な議論が強調されている。 私たちは、AIの権利に対処する研究者が、自分の興味が重なる同僚の仕事に気づいていないことが多いことに気付きました。 この話題に対する学術的関心は近年大きくなり、学術研究の傾向を反映しているが、ある種の影響力のある出版物、AIとロボティクスの多様性を徐々に蓄積し、関連するニュースイベントはいずれも、この特定の話題に対する学術的関心を高めた可能性がある。 我々は4つのレバーを提案し、将来的には、最も成功した以前の寄稿者と同様の出版戦略の採用、隣接する学術分野や討論への関与の増加、専門誌、会議、研究機関の創設、そして人工物に対する法的権利のさらなる探究である。

This report documents the history of research on AI rights and other moral consideration of artificial entities. It highlights key intellectual influences on this literature as well as research and academic discussion addressing the topic more directly. We find that researchers addressing AI rights have often seemed to be unaware of the work of colleagues whose interests overlap with their own. Academic interest in this topic has grown substantially in recent years; this reflects wider trends in academic research, but it seems that certain influential publications, the gradual, accumulating ubiquity of AI and robotic technology, and relevant news events may all have encouraged increased academic interest in this specific topic. We suggest four levers that, if pulled on in the future, might increase interest further: the adoption of publication strategies similar to those of the most successful previous contributors; increased engagement with adjacent academic fields and debates; the creation of specialized journals, conferences, and research institutions; and more exploration of legal rights for artificial entities.
翻訳日:2023-02-06 09:30:50 公開日:2022-08-27
# ハミルトン力学系における分岐点検出への量子力学的アプローチ

Quantum Mechanical Approach to Bifurcation Point Detection in Hamiltonian Dynamical Systems ( http://arxiv.org/abs/2208.09244v3 )

ライセンス: Link先を確認
Hironori Makino(参考訳) 古典力学系が分岐を示す有界量子系のエネルギー準位統計は、2点相関関数 (TPCL) を用いて研究され、これは分岐点においてシェル効果と呼ばれるレベルの蓄積による周期的なスパイク振動を示す。 TPCLのスパイク振動は、分岐点において急激な上昇を示すと推定される還元されたチ二乗値により解析され、新しい検出方法が得られた。 この手法を用いて,レモン型ビリヤードの分岐点を数値的に検出する。

Energy level statistics of a bounded quantum system, whose classical dynamical system exhibits bifurcations, is investigated using the two-point correlation function (TPCL), which at the bifurcation points exhibits periodic spike oscillations owing to the accumulation of levels called the shell effect. The spike oscillations of the TPCL is analyzed by the reduced chi-squared value which deduced to exhibit abrupt increases at bifurcation points, thereby yielding a novel detection approach. Using this method, we attempt to numerically detect the bifurcation points of a lemon-shaped billiard.
翻訳日:2023-01-30 12:18:42 公開日:2022-08-27
# NLPを用いた法律協定のスマートな法律契約への転換

Conversion of Legal Agreements into Smart Legal Contracts using NLP ( http://arxiv.org/abs/2210.08954v1 )

ライセンス: Link先を確認
Eason Chen, Niall Roche, Yuen-Hsien Tseng, Walter Hernandez, Jiangbo Shangguan(参考訳) Smart Legal Contract (SLC) は、自然言語と計算可能なコンポーネントからなる特殊なデジタル契約である。 Accord Projectは,Cicero, Concerto, Ergoの3つの主要なモジュールを含む,オープンソースのSLCフレームワークである。 現在、アコーディオンプロジェクトを使って使用可能なslcを作成するために、弁護士、プログラマ、クライアントが協力して作業する必要があります。 本稿では,複数のNLPモデルを用いてSLC生成プロセスを自動化するパイプラインを提案し,契約書をアコースティックプロジェクトのSLCフォーマットに変換する。 次に,提案したパイプラインでSLCを構築可能なインターフェースについて述べる。

A Smart Legal Contract (SLC) is a specialized digital agreement that consists of natural language and computable components. The Accord Project is an open-source SLC framework containing three main modules: Cicero, Concerto, and Ergo. Currently, we need lawyers, programmers, and clients to work together with a great deal of effort to create a useable SLC using the Accord Project. This paper proposes a pipeline to automate the SLC creation process with several NLP models to convert law contracts to the Accord Project's SLC format. We then further describe an interface enabling users to build their SLC with the proposed pipeline.
翻訳日:2023-01-28 19:32:31 公開日:2022-08-27
# パワーロー減衰相互作用を有する系におけるガッピング基底状態の局所性

Locality of gapped ground states in systems with power-law decaying interactions ( http://arxiv.org/abs/2208.13057v1 )

ライセンス: Link先を確認
Zhiyuan Wang and Kaden R. A. Hazzard(参考訳) 局所相互作用量子系のギャップのある基底状態において、局所摂動の効果が指数関数的に距離で崩壊することが証明されている。 しかし、パワーロー(1/r^\alpha$)の崩壊相互作用を持つシステムでは、類似の主張は示されておらず、既存の手法で証明する上で深刻な数学的障害がある。 本稿では,空間次元が$D$を超える場合,局所摂動が局所特性に与える影響を$r$離れた場合,差分基底状態において1/r^{\alpha_1}$の電力法により上界となることを証明し,摂動がスペクトルギャップを閉じないことを示した。 パワーロー指数の$\alpha_1$は、$\alpha>2D$と相互作用が2体であればきつい。 この証明は、準断熱連続体の使用を回避し、複素解析の技法を取り入れる手法によって実現される。 この方法はまた、短距離相互作用系においても基底状態相関減衰の境界を改善する。 本研究は,局所摂動がパワーロー相互作用系に局所的影響を及ぼすという基本的な概念を一般化し,数値シミュレーションや実験に広く影響する。

It has been proved that in gapped ground states of locally-interacting quantum systems, the effect of local perturbations decays exponentially with distance. However, in systems with power-law ($1/r^\alpha$) decaying interactions, no analogous statement has been shown, and there are serious mathematical obstacles to proving it with existing methods. In this paper we prove that when $\alpha$ exceeds the spatial dimension $D$, the effect of local perturbations on local properties a distance $r$ away is upper bounded by a power law $1/r^{\alpha_1}$ in gapped ground states, provided that the perturbations do not close the spectral gap. The power-law exponent $\alpha_1$ is tight if $\alpha>2D$ and interactions are two-body, where we have $\alpha_1=\alpha$. The proof is enabled by a method that avoids the use of quasiadiabatic continuation and incorporates techniques of complex analysis. This method also improves bounds on ground state correlation decay, even in short-range interacting systems. Our work generalizes the fundamental notion that local perturbations have local effects to power-law interacting systems, with broad implications for numerical simulations and experiments.
翻訳日:2023-01-28 19:32:00 公開日:2022-08-27
# 局所マルコフと非マルコフ量子力学の混合に対する多元スポンの定理

Multiparty Spohn's theorem for mixed local Markovian and non-Markovian quantum dynamics ( http://arxiv.org/abs/2208.13026v1 )

ライセンス: Link先を確認
Ahana Ghoshal and Ujjwal Sen(参考訳) マルコフ熱浴と非マルコフ熱浴の組み合わせに局所に接続された2つ以上の量子系に対するゴリニ・コサコフスキ・スダールシャン・リンドブラドマスター方程式を得る。 このような混合局所環境に対する熱力学量を分析し,その構成に対するスポンの定理の修正形を導出する。 定理の修正は自然に証人や非マルコビアン性の計算が容易な量化子に繋がる。 さらに,マルコフ熱浴と非マルコフ熱浴の組み合わせが有効である多党的状況においては,非マルコフ熱浴による熱力学系特性の応答は進化の初期に近い時期に顕著であり,長期的挙動はマルコフ熱浴に支配されることが多い。

We obtain the Gorini-Kossakowski-Sudarshan-Lindblad master equation for two or more quantum systems connected locally to a combination of Markovian and non-Markovian heat baths. We analyze the thermodynamic quantities for such a mixed set of local environments, and derive a modified form of the Spohn's theorem for that setup. The modification of the theorem naturally leads to a witness as well as an easily computable quantifier of non-Markovianity. Furthermore, we find that for multiparty situations, where a combination of Markovian and non-Markovian heat baths are active, the response in thermodynamic system characteristics due to non-Markovian baths is prominent at times close to the initial time of evolution, whereas the long-time behavior is predominantly controlled by the Markovian ones.
翻訳日:2023-01-28 19:31:34 公開日:2022-08-27
# 磁場中のスピンの量子ランゲヴィン方程式 : 解析

Quantum Langevin Equation of a spin in a magnetic field : an analysis ( http://arxiv.org/abs/2208.12989v1 )

ライセンス: Link先を確認
Suraka Bhattacharjee, Koushik Mandal, Supurna Sinha(参考訳) 磁場の存在下で量子スピンに対する量子ランゲヴィン方程式を導出し、オオミック浴モデルを用いてマルコフ極限におけるその力学を研究する。 分析結果を有限メモリでドリュー浴に拡張する。 我々は磁気モーメントの期待値の時間発展を研究する。 スピン自己相関関数は減衰速度とドロード浴モデルの記憶時間によってランダム化時間を決定することにより減衰振動挙動を示す。 また,オーミック浴モデルにおけるシステムのスピン応答関数の解析を行った。 実験結果は寒冷原子実験の結果と一致した。 さらに, 将来の超低温原子実験で検証可能な予測を行う。

We derive a quantum Langevin equation for a quantum spin in the presence of a magnetic field and study its dynamics in the Markovian limit using the Ohmic bath model. We extend our analysis to the Drude bath with a finite memory. We study the time evolution of the expectation values of the magnetic moments. The spin auto-correlation functions exhibit a damped oscillatory behaviour with the randomization time being determined by the damping rate and also the memory time for the Drude bath model. We also analyse the spin response function of the system for the Ohmic bath model. Our results are consistent with findings in cold atom experiments. In addition we make predictions which can be tested in future ultra cold atom experiments.
翻訳日:2023-01-28 19:31:19 公開日:2022-08-27
# 光機械的界面誘起強スピン-マグノンカップリング

Optomechanical interface induced strong spin-magnon coupling ( http://arxiv.org/abs/2208.12988v1 )

ライセンス: Link先を確認
Wei Xiong, Mingfeng Wang, Guo-Qiang Zhang, Jiaojiao Chen(参考訳) 強い長距離スピン-マグノン結合は、固体量子情報処理と単一量子ビット操作に不可欠である。 本稿では,共振型共振器と共振した2つの共振器からなる光機械系が量子界面として機能するハイブリッド型光機械キャビティ・スピン・マグノン系において,強いスピン・マグノン結合を実現する手法を提案する。 メカニカルモードを除去することにより、2つのキャビティの位置合わせ結合と2モードスクイーズを誘導する。 スクイーズ表示では、スピン光子、マグノン光子および光子光子結合強度を指数的に増幅し、2つのキャビティの強く結合されたモードにより、下および上枝分極(LBP, UBP)を生成する。 LBPの臨界特性を利用すると、スピン量子ビット(マグノン)とLPPとの結合が大幅に向上し、スピン量子ビット(マグノン)とUDPの結合が完全に抑制される。 分散状態では、強いスピン-マグノン結合は仮想LPPによって誘導され、量子状態交換が可能である。 提案手法は,マグノン系ハイブリッドシステムの構築と,オプティメカルインタフェースを用いた固体量子情報処理を実現するための有望なプラットフォームを提供する。

Strong long-distance spin-magnon coupling is essential for solid-state quantum information processing and single qubit manipulation. Here, we propose an approach to realize strong spin-magnon coupling in a hybrid optomechanical cavity-spin-magnon system, where the optomechanical system, consisting of two cavities coupled to a common high-frequency mechanical resonator, acts as quantum interface. By eliminating the mechanical mode, a position-position coupling and two-mode squeezing of two cavities are induced. In the squeezing presentation, the spin-photon, magnon-photon and photon-photon coupling strengths are exponentially amplified, thus lower- and upper-branch polaritons (LBP and UBP) are generated by strongly coupled squeezed modes of two cavities. Utilizing the critical property of the LBP, the coupling between the spin qubit (magnon) and LBP is greatly enhanced, while the coupling between the spin qubit (magnon) and UBP is fully suppressed. In the dispersive regime, strong and tunable spin-magnon coupling is induced by the virtual LBP, allowing quantum state exchange between them. Our proposal provides a promising platform to construct magnon-based hybrid systems and realize solid-state quantum information processing with optomechanical interfaces.
翻訳日:2023-01-28 19:31:09 公開日:2022-08-27
# シリコンチップ上の三次元絡み合いの実験的最適検証

Experimental optimal verification of three-dimensional entanglement on a silicon chip ( http://arxiv.org/abs/2208.12952v1 )

ライセンス: Link先を確認
Lijun Xia, Liangliang Lu, Kun Wang, Xinhe Jiang, Shining Zhu and Xiaosong Ma(参考訳) 高次元の絡み合いは量子物理学の基礎研究において重要であり、様々な量子情報処理(QIP)タスクにおいてユニークな利点がある。 集積量子デバイスは最近、複雑な高次元の絡み合った状態を生成、処理、検出するための有望なプラットフォームとして登場した。 実用的な量子技術への重要なステップは、これらのデバイスが最適な戦略で確実に動作することを検証することである。 本研究では, シリコンフォトニックチップ上の局所射影計測を用いて, 3次元最大絡み合い状態における最適量子検証戦略を実験的に実装する。 1190のコピーから95%の信頼を得て、ターゲットの量子状態を検証する。 コピー数関数としての不忠実度のスケーリングは -0.5497+-0.0002 であり、248の標準偏差を持つ -0.5 の標準量子限界を超える。 以上の結果から,量子状態検証は複雑な量子計測タスクの効率的なツールとなる可能性が示唆された。

High-dimensional entanglement is significant for the fundamental studies of quantum physics and offers unique advantages in various quantum information processing (QIP) tasks. Integrated quantum devices have recently emerged as a promising platform for creating, processing, and detecting complex high-dimensional entangled states. A crucial step towards practical quantum technologies is to verify that these devices work reliably with an optimal strategy. In this work, we experimentally implement an optimal quantum verification strategy on a three-dimensional maximally entangled state using local projective measurements on a silicon photonic chip. A 95% confidence is achieved from 1190 copies to verify the target quantum state. The obtained scaling of infidelity as a function of the number of copies is -0.5497+-0.0002, exceeding the standard quantum limit of -0.5 with 248 standard deviations. Our results indicate that quantum state verification could serve as an efficient tool for complex quantum measurement tasks.
翻訳日:2023-01-28 19:30:42 公開日:2022-08-27
# 階層グラフネットワークを用いたファインチューニング型マルチホップ質問応答

Fine-tuning Multi-hop Question Answering with Hierarchical Graph Network ( http://arxiv.org/abs/2004.13821v3 )

ライセンス: Link先を確認
Guanming Xiong(参考訳) 本稿では,マルチホップ質問応答のための2段階モデルを提案する。 第1段階は階層的なグラフネットワークであり、マルチホップ質問を推論するために使用され、文書の性質構造(段落、質問、文、実体)を用いて異なるレベルの粒度を捉えることができる。 推論プロセスは、ノード分類タスク(すなわち、節ノードと文ノード)に変換される。 第2段階は言語モデルの微調整作業である。 一言で言えば、ステージ1はグラフニューラルネットワークを使用してサポート文を1段落として選択・結合し、ステージ2は言語モデルの微調整パラダイムで回答スパンを見つける。

In this paper, we present a two stage model for multi-hop question answering. The first stage is a hierarchical graph network, which is used to reason over multi-hop question and is capable to capture different levels of granularity using the nature structure(i.e., paragraphs, questions, sentences and entities) of documents. The reasoning process is convert to node classify task(i.e., paragraph nodes and sentences nodes). The second stage is a language model fine-tuning task. In a word, stage one use graph neural network to select and concatenate support sentences as one paragraph, and stage two find the answer span in language model fine-tuning paradigm.
翻訳日:2022-12-11 17:27:06 公開日:2022-08-27
# 未熟な人間の行動に対する反復的囚人のジレンマにおけるオンライン学習

Online Learning in Iterated Prisoner's Dilemma to Mimic Human Behavior ( http://arxiv.org/abs/2006.06580v3 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi(参考訳) 重要な心理学的、社会的実験として、反復囚人のジレンマ(ipd)は、協力や欠陥を原子作用として扱う。 In the Iterated Prisoner's Dilemma (IPD) game, we propose to study the behaviors of online learning algorithm in the Iterated Prisoner's Dilemma (IPD) game, where we investigated the full spectrum of reinforcement learning agent: multi-armed bandits, contextual bandits and reinforcement learning。 我々は、複数のエージェントが連続的に競争できる、反復囚人ジレンマのトーナメントに基づいて、それらを評価する。 これにより、複数の自己関心のある独立報酬駆動エージェントによって学習されるポリシーのダイナミクスを解析し、人間の行動に適合するアルゴリズムの能力を研究することが可能になります。 その結果, 社会的ジレンマゲームでは, 意思決定の現在の状況を考えることが最悪であることが示唆された。 オンライン学習行動と臨床検証に関する複数の発見は、人工知能アルゴリズムと人間の行動と、神経精神医学的な状態の異常状態を結びつける試みとして述べられている。

As an important psychological and social experiment, the Iterated Prisoner's Dilemma (IPD) treats the choice to cooperate or defect as an atomic action. We propose to study the behaviors of online learning algorithms in the Iterated Prisoner's Dilemma (IPD) game, where we investigate the full spectrum of reinforcement learning agents: multi-armed bandits, contextual bandits and reinforcement learning. We evaluate them based on a tournament of iterated prisoner's dilemma where multiple agents can compete in a sequential fashion. This allows us to analyze the dynamics of policies learned by multiple self-interested independent reward-driven agents, and also allows us study the capacity of these algorithms to fit the human behaviors. Results suggest that considering the current situation to make decision is the worst in this kind of social dilemma game. Multiples discoveries on online learning behaviors and clinical validations are stated, as an effort to connect artificial intelligence algorithms with human behaviors and their abnormal states in neuropsychiatric conditions.
翻訳日:2022-11-23 14:55:30 公開日:2022-08-27
# 強い凸分散最適化のための変動低減EXTRAとDIGingとその最適高速化

Variance Reduced EXTRA and DIGing and Their Optimal Acceleration for Strongly Convex Decentralized Optimization ( http://arxiv.org/abs/2009.04373v3 )

ライセンス: Link先を確認
Huan Li, Zhouchen Lin, Yongchun Fang(参考訳) 大規模分散データを用いた機械学習モデルの学習問題に対する確率的分散最適化について検討する。 広範に使われているEXTRA法とDIG法を拡張し,VR-EXTRA法とVR-DIGing法という2つの手法を提案する。 The proposed VR-EXTRA requires the time of $O((\kappa_s+n)\log\frac{1}{\epsilon})$ stochastic gradient evaluations and $O((\kappa_b+\kappa_c)\log\frac{1}{\epsilon})$ communication rounds to reach precision $\epsilon$, which are the best complexities among the non-accelerated gradient-type methods, where $\kappa_s$ and $\kappa_b$ are the stochastic condition number and batch condition number for strongly convex and smooth problems, respectively, $\kappa_c$ is the condition number of the communication network, and $n$ is the sample size on each distributed node. 提案されたVR-DIGingは通信コストが$O((\kappa_b+\kappa_c^2)\log\frac{1}{\epsilon})$よりやや高い。 SAGやSAGA,SVRGといった単一マシンのVR手法と確率勾配計算の複雑さは同一であり,通信の複雑さはEXTRAやDIGingと同じである。 さらに,vr-extraとvr-digingを最適な$o((\sqrt{n\kappa_s}+n)\log\frac{1}{\epsilon})$確率的勾配計算複雑性と$o(\sqrt{\kappa_b\kappa_c}\log\frac{1}{\epsilon})$通信複雑性で高速化する。 確率的勾配計算の複雑さはkatyushaのようなシングルマシン高速化vr法と同じであり、通信の複雑さはmsdaのような高速化された全バッチ分散手法と同じである。

We study stochastic decentralized optimization for the problem of training machine learning models with large-scale distributed data. We extend the widely used EXTRA and DIGing methods with variance reduction (VR), and propose two methods: VR-EXTRA and VR-DIGing. The proposed VR-EXTRA requires the time of $O((\kappa_s+n)\log\frac{1}{\epsilon})$ stochastic gradient evaluations and $O((\kappa_b+\kappa_c)\log\frac{1}{\epsilon})$ communication rounds to reach precision $\epsilon$, which are the best complexities among the non-accelerated gradient-type methods, where $\kappa_s$ and $\kappa_b$ are the stochastic condition number and batch condition number for strongly convex and smooth problems, respectively, $\kappa_c$ is the condition number of the communication network, and $n$ is the sample size on each distributed node. The proposed VR-DIGing has a little higher communication cost of $O((\kappa_b+\kappa_c^2)\log\frac{1}{\epsilon})$. Our stochastic gradient computation complexities are the same as the ones of single-machine VR methods, such as SAG, SAGA, and SVRG, and our communication complexities keep the same as those of EXTRA and DIGing, respectively. To further speed up the convergence, we also propose the accelerated VR-EXTRA and VR-DIGing with both the optimal $O((\sqrt{n\kappa_s}+n)\log\frac{1}{\epsilon})$ stochastic gradient computation complexity and $O(\sqrt{\kappa_b\kappa_c}\log\frac{1}{\epsilon})$ communication complexity. Our stochastic gradient computation complexity is also the same as the ones of single-machine accelerated VR methods, such as Katyusha, and our communication complexity keeps the same as those of accelerated full batch decentralized methods, such as MSDA.
翻訳日:2022-10-20 12:24:33 公開日:2022-08-27
# MangoLeafBD:病気や健康なマンゴーの葉を分類する総合的な画像データセット

MangoLeafBD: A Comprehensive Image Dataset to Classify Diseased and Healthy Mango Leaves ( http://arxiv.org/abs/2209.02377v1 )

ライセンス: Link先を確認
Sarder Iftekhar Ahmed, Muhammad Ibrahim, Md. Nadim, Md. Mizanur Rahman, Maria Mehjabin Shejunti, Taskeed Jabid, Md. Sawkat Ali(参考訳) 農業は、まだ機械学習コミュニティから適切な注目を集めていない数少ない分野の1つである。 機械学習分野におけるデータセットの重要性は強調できない。 農業に関連する標準データと公開データセットの欠如は、これらの強力な計算予測ツールとテクニックの利点を最大限に活用するこの分野の実践者を妨げている。 このシナリオを改善するために、私たちは、私たちの知る限り、最初の標準であり、使用可能で、公開されているマンゴーの葉のデータセットを開発します。 画像はバングラデシュの4つのマンゴー果樹園から収集されている。 このデータセットは7つの病気をカバーする約1800の異なる葉の4000枚の画像を含んでいる。 このデータセットはバングラデシュのマンゴー葉のみを用いて開発されているが、多くの国で共通する疾患を扱うため、他の国のマンゴー病の特定にも応用できる可能性が高いため、マンゴー収率を高めることができる。 このデータセットは、自動化農業の分野で機械学習の研究者や実践者から広く注目されるだろう。

Agriculture is of one of the few remaining sectors that is yet to receive proper attention from the machine learning community. The importance of datasets in the machine learning discipline cannot be overemphasized. The lack of standard and publicly available datasets related to agriculture impedes practitioners of this discipline to harness the full benefit of these powerful computational predictive tools and techniques. To improve this scenario, we develop, to the best of our knowledge, the first-ever standard, ready-to-use, and publicly available dataset of mango leaves. The images are collected from four mango orchards of Bangladesh, one of the top mango-growing countries of the world. The dataset contains 4000 images of about 1800 distinct leaves covering seven diseases. Although the dataset is developed using mango leaves of Bangladesh only, since we deal with diseases that are common across many countries, this dataset is likely to be applicable to identify mango diseases in other countries as well, thereby boosting mango yield. This dataset is expected to draw wide attention from machine learning researchers and practitioners in the field of automated agriculture.
翻訳日:2022-09-11 13:16:29 公開日:2022-08-27
# ContrastVAE:Sequential Recommendationのためのコントラスト変分オートエンコーダ

ContrastVAE: Contrastive Variational AutoEncoder for Sequential Recommendation ( http://arxiv.org/abs/2209.00456v1 )

ライセンス: Link先を確認
Yu Wang, Hengrui Zhang, Zhiwei Liu, Liangwei Yang, Philip S. Yu(参考訳) ユーザ行動シーケンスの豊富な情報を活用することを目的としたシーケンシャルレコメンデーションは,現実のレコメンデーションシステムにおいて広く採用されている。 しかし、現在の方法は以下の問題に苦しむ。 1)ユーザ間インタラクションのスパーシティ。 2) 逐次記録の不確実性 3)ロングテールアイテム。 本稿では,これらの課題を同時に解決するために,変分オートエンコーダの枠組みにコントラスト学習を組み込むことを提案する。 まず,従来の単視点elboを2視点ケースに拡張した新しい学習目標であるcon contrastelboを紹介し,理論上はvaeとコントラスト学習との関係を2視点視点から構築する。 そこで本研究では,コントラストリコメンデーションのためのコントラストボの具体例として,コントラストレギュライゼーションを用いた2分岐vaeモデルであるコントラスト変分オートエンコーダ(contrastvae)を提案する。 さらに,モデル拡張と変分拡張という,単純かつ効果的な拡張戦略を2つ導入して,シーケンスの2番目のビューを作成し,コントラスト学習を可能にした。 4つのベンチマークデータセットの実験では、ContrastVAEと提案手法の有効性が示されている。 コードはhttps://github.com/YuWang-1024/ContrastVAEで入手できる。

Aiming at exploiting the rich information in user behaviour sequences, sequential recommendation has been widely adopted in real-world recommender systems. However, current methods suffer from the following issues: 1) sparsity of user-item interactions, 2) uncertainty of sequential records, 3) long-tail items. In this paper, we propose to incorporate contrastive learning into the framework of Variational AutoEncoders to address these challenges simultaneously. Firstly, we introduce ContrastELBO, a novel training objective that extends the conventional single-view ELBO to two-view case and theoretically builds a connection between VAE and contrastive learning from a two-view perspective. Then we propose Contrastive Variational AutoEncoder (ContrastVAE in short), a two-branched VAE model with contrastive regularization as an embodiment of ContrastELBO for sequential recommendation. We further introduce two simple yet effective augmentation strategies named model augmentation and variational augmentation to create a second view of a sequence and thus making contrastive learning possible. Experiments on four benchmark datasets demonstrate the effectiveness of ContrastVAE and the proposed augmentation methods. Codes are available at https://github.com/YuWang-1024/ContrastVAE
翻訳日:2022-09-04 02:05:17 公開日:2022-08-27
# top-k on-shelfユーティリティマイニングのための汎用アルゴリズム

A Generic Algorithm for Top-K On-Shelf Utility Mining ( http://arxiv.org/abs/2208.14230v1 )

ライセンス: Link先を確認
Jiahui Chen, Xu Guo, Wensheng Gan, Shichen Wan, and Philip S. Yu(参考訳) オンシェルフユーティリティマイニング(OSUM)は、データマイニングにおける新たな研究方向である。 販売期間中に高い相対的効用を持つアイテムセットを見つけることを目的としている。 従来のユーティリティマイニングと比較して、OSUMは現実のアプリケーションでより実用的で意味のあるパターンを見つけることができる。 しかし、伝統的なオサムには大きな欠点がある。 一般ユーザーにとっては、正しい量の高ユーティリティアイテムセットをマイニングするための最小しきい値minutilを定義するのは難しい。 一方、しきい値が高すぎるとパターンの数は不十分になる。 一方、しきい値が低すぎると、あまりに多くのパターンが発見され、不要な時間とメモリ消費の無駄が発生する。 この問題に対処するために、ユーザは通常、パラメータkを直接指定し、トップkの高い相対的ユーティリティアイテムセットのみが考慮される。 そこで本研究では,Top-k On-Shelf hIgh-utility paTterns をマイニングする汎用アルゴリズム TOIT を提案する。 TOITは、オンシェルフデータセットに基づいてミニユーティリティを上げるための新しい戦略を適用している。 さらに,検索空間を熟成するために,サブツリーユーティリティとローカルユーティリティという2つの新しい上界戦略を適用した。 上記の戦略を採用することで、TOITアルゴリズムは検索スペースをできるだけ早く絞り込み、マイニング効率を向上し、メモリ消費を低減し、他のアルゴリズムよりも優れた性能を得ることができる。 異なるスタイルの実際のデータセットに対して、その効果を最先端のKOSHUアルゴリズムと比較する一連の実験が実施されている。 実験の結果,TOIT は動作時間とメモリ消費の両方において KoSHU よりも優れていた。

On-shelf utility mining (OSUM) is an emerging research direction in data mining. It aims to discover itemsets that have high relative utility in their selling time period. Compared with traditional utility mining, OSUM can find more practical and meaningful patterns in real-life applications. However, there is a major drawback to traditional OSUM. For normal users, it is hard to define a minimum threshold minutil for mining the right amount of on-shelf high utility itemsets. On one hand, if the threshold is set too high, the number of patterns would not be enough. On the other hand, if the threshold is set too low, too many patterns will be discovered and cause an unnecessary waste of time and memory consumption. To address this issue, the user usually directly specifies a parameter k, where only the top-k high relative utility itemsets would be considered. Therefore, in this paper, we propose a generic algorithm named TOIT for mining Top-k On-shelf hIgh-utility paTterns to solve this problem. TOIT applies a novel strategy to raise the minutil based on the on-shelf datasets. Besides, two novel upper-bound strategies named subtree utility and local utility are applied to prune the search space. By adopting the strategies mentioned above, the TOIT algorithm can narrow the search space as early as possible, improve the mining efficiency, and reduce the memory consumption, so it can obtain better performance than other algorithms. A series of experiments have been conducted on real datasets with different styles to compare the effects with the state-of-the-art KOSHU algorithm. The experimental results showed that TOIT outperforms KOSHU in both running time and memory consumption.
翻訳日:2022-08-31 13:28:01 公開日:2022-08-27
# 深層強化学習における教師なし表現学習

Unsupervised Representation Learning in Deep Reinforcement Learning: A Review ( http://arxiv.org/abs/2208.14226v1 )

ライセンス: Link先を確認
Nicol\`o Botteghi, Mannes Poel, Christoph Brune(参考訳) 本稿では,測定データの抽象表現を深層強化学習(DRL)の文脈で学習する問題に対処する。 データはしばしば曖昧で高次元で解釈が複雑であるが、多くの力学系は状態変数の低次元集合によって効果的に記述することができる。 これらの状態変数をデータから発見することは、データ効率、堅牢性、DRLメソッドの一般化を改善し、次元性の呪いに対処し、ブラックボックスDRLに解釈可能性と洞察をもたらす重要な側面である。 本レビューでは、世界の表現を学習するために使用される主要なディープラーニングツールを説明し、その方法と原則の体系的な視点を提供し、アプリケーション、ベンチマークおよび評価戦略を要約し、オープンチャレンジと今後の方向性について議論することで、drlにおける教師なし表現学習の包括的かつ完全な概要を提供する。

This review addresses the problem of learning abstract representations of the measurement data in the context of Deep Reinforcement Learning (DRL). While the data are often ambiguous, high-dimensional, and complex to interpret, many dynamical systems can be effectively described by a low-dimensional set of state variables. Discovering these state variables from the data is a crucial aspect for improving the data efficiency, robustness and generalization of DRL methods, tackling the curse of dimensionality, and bringing interpretability and insights into black-box DRL. This review provides a comprehensive and complete overview of unsupervised representation learning in DRL by describing the main Deep Learning tools used for learning representations of the world, providing a systematic view of the method and principles, summarizing applications, benchmarks and evaluation strategies, and discussing open challenges and future directions.
翻訳日:2022-08-31 13:20:18 公開日:2022-08-27
# CLUDA : セマンティックセグメンテーションのための教師なしドメイン適応におけるコントラスト学習

CLUDA : Contrastive Learning in Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2208.14227v1 )

ライセンス: Link先を確認
Midhun Vayyat, Jaswin Kasi, Anuraag Bhattacharya, Shuaib Ahmed, Rahul Tallamraju(参考訳) 本研究では,教師ネットワークがターゲットドメインから生成した擬似ラベルを利用して,教師と教師の学習パラダイムにコントラスト的損失を組み込むことにより,セマンティックセグメンテーションのための教師なしドメイン適応(UDA)を実現する,シンプルで斬新な手法であるCLUDAを提案する。 より具体的には、エンコーダからマルチレベルフューズド・フィーチャーマップを抽出し、画像のソース・ターゲット混合により、異なるクラスと異なるドメイン間でコントラストロスを適用する。 セマンティックセグメンテーションにおける様々な機能エンコーダアーキテクチャと異なるドメイン適応データセットの性能を一貫して改善する。 さらに、UDAにおける最先端のマルチレゾリューショントレーニングアプローチを改善するために、学習重み付きコントラスト損失を導入する。 GTA $\rightarrow$ Cityscapes (74.4 mIOU, +0.6) と Synthia $\rightarrow$ Cityscapes (67.2 mIOU, +1.4) のデータセットで最先端の結果を生成する。 CLUDAは、UDAのコントラスト学習を汎用的な方法として効果的に示しており、セマンティックセグメンテーションタスクのために既存のUDAに容易に統合することができる。 実施の詳細については補足資料を参照してください。

In this work, we propose CLUDA, a simple, yet novel method for performing unsupervised domain adaptation (UDA) for semantic segmentation by incorporating contrastive losses into a student-teacher learning paradigm, that makes use of pseudo-labels generated from the target domain by the teacher network. More specifically, we extract a multi-level fused-feature map from the encoder, and apply contrastive loss across different classes and different domains, via source-target mixing of images. We consistently improve performance on various feature encoder architectures and for different domain adaptation datasets in semantic segmentation. Furthermore, we introduce a learned-weighted contrastive loss to improve upon on a state-of-the-art multi-resolution training approach in UDA. We produce state-of-the-art results on GTA $\rightarrow$ Cityscapes (74.4 mIOU, +0.6) and Synthia $\rightarrow$ Cityscapes (67.2 mIOU, +1.4) datasets. CLUDA effectively demonstrates contrastive learning in UDA as a generic method, which can be easily integrated into any existing UDA for semantic segmentation tasks. Please refer to the supplementary material for the details on implementation.
翻訳日:2022-08-31 13:07:24 公開日:2022-08-27
# フェデレーションラーニングにおけるネットワークレベルアドバーナリー

Network-Level Adversaries in Federated Learning ( http://arxiv.org/abs/2208.12911v1 )

ライセンス: Link先を確認
Giorgio Severi, Matthew Jagielski, G\"okberk Yar, Yuxuan Wang, Alina Oprea, Cristina Nita-Rotaru(参考訳) フェデレートラーニング(Federated Learning)は、データプライバシを保護しながら、分散された機密データ上でモデルをトレーニングする一般的な戦略である。 以前の研究では、データやモデルを汚染する連合学習プロトコルに対する、さまざまなセキュリティ上の脅威を特定した。 しかし,フェデレーション学習は,クライアントとサーバ間のコミュニケーションが学習タスクのパフォーマンスに重要な役割を果たすネットワークシステムである。 我々は,フェデレーション学習において,コミュニケーションが新たな脆弱性面を導入し,フェデレーション学習モデルのトレーニングに対するネットワークレベルの敵の影響について検討する。 攻撃者が慎重に選択したクライアントからネットワークトラフィックを落とせば、ターゲット人口のモデル精度が著しく低下する。 さらに,数社のクライアントによる協調的な毒殺キャンペーンが,落下攻撃を増幅できることを実証する。 最後に,ターゲットの精度に積極的に寄与する可能性のあるクライアントを特定し,アップサンプリングすることで,攻撃の影響を軽減するサーバ側防御を開発する。 我々は,暗号化された通信チャネルとネットワークの可視性を有する攻撃者を想定し,3つのデータセットに対する攻撃と防御を包括的に評価する。

Federated learning is a popular strategy for training models on distributed, sensitive data, while preserving data privacy. Prior work identified a range of security threats on federated learning protocols that poison the data or the model. However, federated learning is a networked system where the communication between clients and server plays a critical role for the learning task performance. We highlight how communication introduces another vulnerability surface in federated learning and study the impact of network-level adversaries on training federated learning models. We show that attackers dropping the network traffic from carefully selected clients can significantly decrease model accuracy on a target population. Moreover, we show that a coordinated poisoning campaign from a few clients can amplify the dropping attacks. Finally, we develop a server-side defense which mitigates the impact of our attacks by identifying and up-sampling clients likely to positively contribute towards target accuracy. We comprehensively evaluate our attacks and defenses on three datasets, assuming encrypted communication channels and attackers with partial visibility of the network.
翻訳日:2022-08-30 14:54:51 公開日:2022-08-27
# グラフの順序付けとクラスタリングの整合性

Consistency between ordering and clustering methods for graphs ( http://arxiv.org/abs/2208.12933v1 )

ライセンス: Link先を確認
Tatsuro Kawamoto, Masaki Ochi, Teruyoshi Kobayashi(参考訳) リレーショナルデータセットは、クラスタリングや順序付けを通じて、各要素にラベルを最適に割り当てることで、しばしば分析される。 類似したデータセットの特徴はクラスタリングと順序付けの両方によって達成されるが、前者は後者よりも活発に研究され、特にグラフとして表されるデータについて研究されている。 本研究では,複数のクラスタリング手法と順序付け手法の方法論的関係を調べることにより,このギャップを埋めている。 さらに,クラスタリングおよび順序付け手法の性能評価を行った。 そこで本研究では,一連の要素の配列と分割の一貫性の程度を汎用的に定量化するラベル連続性誤差と呼ばれる尺度を提案する。 合成および実世界のデータセットに基づいて,注文方式がモジュール構造を識別する範囲を評価し,クラスタリング方式がバンド構造を識別する。

A relational dataset is often analyzed by optimally assigning a label to each element through clustering or ordering. While similar characterizations of a dataset would be achieved by both clustering and ordering methods, the former has been studied much more actively than the latter, particularly for the data represented as graphs. This study fills this gap by investigating methodological relationships between several clustering and ordering methods, focusing on spectral techniques. Furthermore, we evaluate the resulting performance of the clustering and ordering methods. To this end, we propose a measure called the label continuity error, which generically quantifies the degree of consistency between a sequence and partition for a set of elements. Based on synthetic and real-world datasets, we evaluate the extents to which an ordering method identifies a module structure and a clustering method identifies a banded structure.
翻訳日:2022-08-30 14:54:33 公開日:2022-08-27
# クローズドループ予測と最適化による電力市場経済の改善

Improving Electricity Market Economy via Closed-Loop Predict-and-Optimize ( http://arxiv.org/abs/2208.13065v1 )

ライセンス: Link先を確認
Xianbang Chen, Yikui Liu, Lei Wu(参考訳) 電力市場清算は通常、オープンループ予測最適化(O-PO)プロセスを通じて実施され、まず再生可能エネルギー源(RES)の利用可能な電力とシステム予備需要を予測し、その後、予測を前提として、最適化モデル、すなわち単位コミットメント(UC)と経済派遣(ED)を通じて市場をクリアし、最適な電力市場経済を追求する。 しかし、市場経済は、その予測が最適化に過度に近づき、すなわち、究極の市場経済ではなく、即時統計予測エラーの改善を図っているため、オープンループのプロセスに苦しむ可能性がある。 そこで本稿では,市場開拓最適化に適した経済指向予測器を訓練し,市場経済を改善するための三段階混合インテガープログラミングに基づく閉ループ予測・最適化(c-po)フレームワークを提案する。 特に、上位層は、その誘導市場経済に応じて、経済志向のresとreserve予測者を訓練し、中間層と下位層は、所定の予測で、市場決定過程を模倣し、誘導市場経済の結果を上位層に戻す。 訓練された経済志向の予測器はUCモデルに組み込まれ、市場経済の強化とともにRES保存予測とUC決定を同時に提供できる規範的なUCモデルを形成する。 IEEE 118バスシステムに関する数値ケーススタディでは、O-PO、ロバストUC、確率UCに対するC-POの潜在的経済的および実用的利点が示されている。

The electricity market clearing is usually implemented via an open-loop predict-then-optimize (O-PO) process: it first predicts the available power of renewable energy sources (RES) and the system reserve requirements; then, given the predictions, the markets are cleared via optimization models, i.e., unit commitment (UC) and economic dispatch (ED), to pursue the optimal electricity market economy. However, the market economy could suffer from the open-loop process because its predictions may be overly myopic to the optimizations, i.e., the predictions seek to improve the immediate statistical forecasting errors instead of the ultimate market economy. To this end, this paper proposes a closed-loop predict-and-optimize (C-PO) framework based on the tri-level mixed-integer programming, which trains economy-oriented predictors tailored for the market-clearing optimization to improve the ultimate market economy. Specifically, the upper level trains the economy-oriented RES and reserve predictors according to their induced market economy; the middle and lower levels, with given predictions, mimic the market-clearing process and feed the induced market economy results back to the upper level. The trained economy-oriented predictors are then embedded into the UC model, forming a prescriptive UC model that can simultaneously provide RES-reserve predictions and UC decisions with enhanced market economy. Numerical case studies on an IEEE 118-bus system illustrate potential economic and practical advantages of C-PO over O-PO, robust UC, and stochastic UC.
翻訳日:2022-08-30 14:53:01 公開日:2022-08-27
# 半構造化Web文書からの属性抽出のためのラベル効率の良い自己学習

Label-Efficient Self-Training for Attribute Extraction from Semi-Structured Web Documents ( http://arxiv.org/abs/2208.13086v1 )

ライセンス: Link先を確認
Ritesh Sarkhel, Binxuan Huang, Colin Lockard, Prashant Shiralkar(参考訳) htmlドキュメントから構造化情報を抽出することは、知識ベース構築、ファセット検索、パーソナライズドレコメンデーションなど、幅広いアプリケーションで長年研究されてきた問題である。 以前の作業では、ターゲットwebサイトのいくつかの人ラベルwebページや、一部のシードwebサイトからの数千の人ラベルwebページを使用して、ターゲットwebサイトを一般化した転送可能な抽出モデルをトレーニングしている。 ノイズの多いコンテンツ、サイトレベルの一貫性の低い、アノテーション間の合意の欠如により、Webページのラベル付けは時間と費用のかかる作業になる。 我々は,これらの制限を克服するために,半構造化 Web ドキュメントのためのラベル効率の良い自己学習手法 LEAST を開発した。 少数の人ラベルページを使用して、ターゲットの垂直方向から多数のラベルのないwebページを擬似注釈する。 自己学習を用いて、人ラベルと疑似ラベルのサンプルの両方で転送可能なweb抽出モデルを訓練する。 ノイズのあるトレーニングサンプルによるエラー伝搬を軽減し、推定ラベル精度に基づいて各トレーニングサンプルを最小再重み付けし、トレーニングに組み込む。 私たちの知る限りでは、これは少数の人間ラベルページのみを利用した、転送可能なweb抽出モデルのエンドツーエンドトレーニングを提案する最初の作業です。 大規模な公開データセットの実験では、トレーニングのために各シードWebサイトから10ページ未満の人間ラベル付きページを使用することで、LEASTトレーニングされたモデルは、目に見えないWebサイト上で26以上の平均F1ポイントを上回り、人間ラベル付きページの数を10倍以上に削減する。

Extracting structured information from HTML documents is a long-studied problem with a broad range of applications, including knowledge base construction, faceted search, and personalized recommendation. Prior works rely on a few human-labeled web pages from each target website or thousands of human-labeled web pages from some seed websites to train a transferable extraction model that generalizes on unseen target websites. Noisy content, low site-level consistency, and lack of inter-annotator agreement make labeling web pages a time-consuming and expensive ordeal. We develop LEAST -- a Label-Efficient Self-Training method for Semi-Structured Web Documents to overcome these limitations. LEAST utilizes a few human-labeled pages to pseudo-annotate a large number of unlabeled web pages from the target vertical. It trains a transferable web-extraction model on both human-labeled and pseudo-labeled samples using self-training. To mitigate error propagation due to noisy training samples, LEAST re-weights each training sample based on its estimated label accuracy and incorporates it in training. To the best of our knowledge, this is the first work to propose end-to-end training for transferable web extraction models utilizing only a few human-labeled pages. Experiments on a large-scale public dataset show that using less than ten human-labeled pages from each seed website for training, a LEAST-trained model outperforms previous state-of-the-art by more than 26 average F1 points on unseen websites, reducing the number of human-labeled pages to achieve similar performance by more than 10x.
翻訳日:2022-08-30 14:50:24 公開日:2022-08-27
# ディジタルツインの概観 -その2:不確実性定量化と最適化の役割, 電池ディジタルツイン, 展望-

A Comprehensive Review of Digital Twin -- Part 2: Roles of Uncertainty Quantification and Optimization, a Battery Digital Twin, and Perspectives ( http://arxiv.org/abs/2208.12904v1 )

ライセンス: Link先を確認
Adam Thelen, Xiaoge Zhang, Olga Fink, Yan Lu, Sayan Ghosh, Byeng D. Youn, Michael D. Todd, Sankaran Mahadevan, Chao Hu, Zhen Hu(参考訳) 産業4.0時代の新興技術として、物理的世界を相互接続型デジタルモデル群として包括的にモデル化することで、プロセス設計、品質管理、健康管理、意思決定、政策作成などをさらに最適化する約束により、デジタルツインが前例のない注目を集めている。 2部構成の論文において, 異なるモデリング手法, ツイン化実現技術, 不確実性定量化および最適化手法の基本的役割について検討した。 本稿では,不確実性定量化,最適化手法,オープンソースデータセットとツール,主要な発見,課題,今後の方向性を中心に,ディジタルツインの重要な実現技術に関する文献レビューを行う。 議論は、不確かさの定量化と最適化の現在の方法と、デジタル双生児の異なる次元にどのように適用されるかに焦点を当てている。 また,本論文では,バッテリデジタル双生児を製作・テストし,本2部レビューで検討したモデリング手法と双生児の方法を紹介する。 ケーススタディで提示されたすべての結果と数値を生成するためのコードと事前処理されたデータは、githubで入手できる。

As an emerging technology in the era of Industry 4.0, digital twin is gaining unprecedented attention because of its promise to further optimize process design, quality control, health monitoring, decision and policy making, and more, by comprehensively modeling the physical world as a group of interconnected digital models. In a two-part series of papers, we examine the fundamental role of different modeling techniques, twinning enabling technologies, and uncertainty quantification and optimization methods commonly used in digital twins. This second paper presents a literature review of key enabling technologies of digital twins, with an emphasis on uncertainty quantification, optimization methods, open source datasets and tools, major findings, challenges, and future directions. Discussions focus on current methods of uncertainty quantification and optimization and how they are applied in different dimensions of a digital twin. Additionally, this paper presents a case study where a battery digital twin is constructed and tested to illustrate some of the modeling and twinning methods reviewed in this two-part review. Code and preprocessed data for generating all the results and figures presented in the case study are available on GitHub.
翻訳日:2022-08-30 14:40:33 公開日:2022-08-27
# 神経画像のためのパイプライン不変表現学習

Pipeline-Invariant Representation Learning for Neuroimaging ( http://arxiv.org/abs/2208.12909v1 )

ライセンス: Link先を確認
Xinhui Li, Alex Fedorov, Mrinal Mathur, Anees Abrol, Gregory Kiar, Sergey Plis, Vince Calhoun(参考訳) 深層学習は、磁気共鳴画像(MRI)ボリュームから脳-フェノタイプ関係を予測することを含む、神経イメージングに広く応用されている。 MRIデータは通常、その高次元性と不均一性のために、ディープラーニングでさえモデリングの準備が整う前に、広範囲な事前処理を必要とする。 成長するMRI前処理パイプラインは、それぞれ独自の強みと限界を持って開発されている。 近年の研究では、パイプライン関連の変動が同一のデータを用いても異なる科学的発見につながることが示されている。 一方、機械学習コミュニティは、データ品質がディープラーニングアプリケーションにおいて重要な役割を果たすことから、モデル中心からデータ中心のアプローチに移行することの重要性を強調している。 このアイデアに動機づけられ、まず、前処理パイプラインの選択が教師付き学習モデルの下流のパフォーマンスにどのように影響するかを評価する。 次に,2つのパイプライン不変表現学習手法,MPSLとPXLを提案する。 英国バイオバンクデータセットの2000人の被験者を用いて、mpslが新しいパイプラインへのサンプル外一般化を改善するのに、pxlはクローズドパイプラインセットにおける予測パフォーマンスの一貫性と表現的類似性を改善するのに使用できる、という2つのモデルに特有の利点があることを実証した。 これらの結果は,提案モデルを用いてパイプライン関連バイアスを克服し,神経画像予測タスクの再現性を向上させることを示唆する。

Deep learning has been widely applied in neuroimaging, including to predicting brain-phenotype relationships from magnetic resonance imaging (MRI) volumes. MRI data usually requires extensive preprocessing before it is ready for modeling, even via deep learning, in part due to its high dimensionality and heterogeneity. A growing array of MRI preprocessing pipelines have been developed each with its own strengths and limitations. Recent studies have shown that pipeline-related variation may lead to different scientific findings, even when using the identical data. Meanwhile, the machine learning community has emphasized the importance of shifting from model-centric to data-centric approaches given that data quality plays an essential role in deep learning applications. Motivated by this idea, we first evaluate how preprocessing pipeline selection can impact the downstream performance of a supervised learning model. We next propose two pipeline-invariant representation learning methodologies, MPSL and PXL, to improve consistency in classification performance and to capture similar neural network representations between pipeline pairs. Using 2000 human subjects from the UK Biobank dataset, we demonstrate that both models present unique advantages, in particular that MPSL can be used to improve out-of-sample generalization to new pipelines, while PXL can be used to improve predictive performance consistency and representational similarity within a closed pipeline set. These results suggest that our proposed models can be applied to overcome pipeline-related biases and to improve reproducibility in neuroimaging prediction tasks.
翻訳日:2022-08-30 14:40:09 公開日:2022-08-27
# スケーラブルなcovid-19パイプライン - ドイツ,チェコ,ポーランドを事例として

A scalable pipeline for COVID-19: the case study of Germany, Czechia and Poland ( http://arxiv.org/abs/2208.12928v1 )

ライセンス: Link先を確認
Wildan Abdussalam, Adam Mertel, Kai Fan, Lennart Sch\"uler and Weronika Schlechte-We{\l}nicz and Justin M. Calabrese(参考訳) 新型コロナウイルス(COVID-19)のパンデミックを通じて、意思決定者は非医薬品介入(NPI)の予測モデルに頼ってきた。 予測モデルを構築するには、開発者、アナリスト、テスタを含むさまざまなステークホルダのデータセットを継続的に更新する必要がある。 ここでは,ドイツ,チェコ,ポーランドのwhere2testという,国間トップダウン時空間観測と予測モデルをサポートするために,データ同期として機能するスケーラブルなパイプラインの設計について報告する。 PostgreSQLを使用して運用データストア(ODS)を構築し、複数のデータソースからのデータセットを継続的に統合し、協調作業を行い、ハイパフォーマンスなデータ分析とトレース変更を可能にしました。 odsは、ドイツ、チェコ、ポーランドのcovid-19データを格納するだけでなく、他の地域も保存するために開発された。 次元ファクトモデルを用いることで、メタデータのスキーマは、それらの領域からのさまざまなデータ構造を同期することができ、世界全体にスケーラブルである。 次に、ODSはバッチ抽出、転送、ロード(ETL)ジョブを使用して集約される。 その後、SQLクエリが作成され、ユーザのデータ前処理の必要性が軽減される。 データは、バージョン管理されたArima-Holtモデルとその他の分析を使用して予測をサポートし、意思決定をサポートするだけでなく、リスク計算と最適化アプリもサポートする。 データ同期は日間隔で実行され、https://www.where2test.deで表示される。

Throughout the coronavirus disease 2019 (COVID-19) pandemic, decision makers have relied on forecasting models to determine and implement non-pharmaceutical interventions (NPI). In building the forecasting models, continuously updated datasets from various stakeholders including developers, analysts, and testers are required to provide precise predictions. Here we report the design of a scalable pipeline which serves as a data synchronization to support inter-country top-down spatiotemporal observations and forecasting models of COVID-19, named the where2test, for Germany, Czechia and Poland. We have built an operational data store (ODS) using PostgreSQL to continuously consolidate datasets from multiple data sources, perform collaborative work, facilitate high performance data analysis, and trace changes. The ODS has been built not only to store the COVID-19 data from Germany, Czechia, and Poland but also other areas. Employing the dimensional fact model, a schema of metadata is capable of synchronizing the various structures of data from those regions, and is scalable to the entire world. Next, the ODS is populated using batch Extract, Transfer, and Load (ETL) jobs. The SQL queries are subsequently created to reduce the need for pre-processing data for users. The data can then support not only forecasting using a version-controlled Arima-Holt model and other analyses to support decision making, but also risk calculator and optimisation apps. The data synchronization runs at a daily interval, which is displayed at https://www.where2test.de.
翻訳日:2022-08-30 14:39:43 公開日:2022-08-27
# 不確かさ非線形システムに対するリアプノフ安定保証を用いたニューラルオブザーバ

Neural Observer with Lyapunov Stability Guarantee for Uncertain Nonlinear Systems ( http://arxiv.org/abs/2208.13006v1 )

ライセンス: Link先を確認
Song Chen, Tehuan Chen, Chao Xu, and Jian Chu(参考訳) 本稿では,線形時間不変系(LTI)と不確定非線形系の観測タスクに対して,ニューラルネットワーク(NN)をオブザーバの設計に導入することにより,ニューロオブザーバと呼ばれる新しい非線形オブザーバを提案する。 NN写像ベクトルへのNN表現の手法を探索することにより、線形行列不等式(LMIs)のみを用いた観測問題の解法を導出するLTIと不確実性非線形系の安定性解析(指数収束率)を導出する。 注目すべきは、不確実性システムのために設計されたニューラルオブザーバは、リアルタイムに不確実性を測定する能動障害拒絶制御(ADRC)のイデオロギーに基づいていることである。 また,LMIの解が存在するためには,システム行列の可観測性と制御性が必要であることを明らかにするため,LMIの結果も重要である。 最後に,x-29a航空機モデル,非線形振り子,四輪操舵車両の3つのシミュレーションケースにおいて,ニューラルオブザーバの有効性を確認した。

In this paper, we propose a novel nonlinear observer, called the neural observer, for observation tasks of linear time-invariant (LTI) systems and uncertain nonlinear systems by introducing the neural network (NN) into the design of observers. By exploring the method of NN representation to the NN mapping vector, we derive stability analyses (e.g., exponential convergence rate) of LTI and uncertain nonlinear systems that pave the way to solve observation problems using linear matrix inequalities (LMIs) only. Remarkably, the neural observer designed for uncertain systems is based on the ideology of the active disturbance rejection control (ADRC), which can measure the uncertainty in real-time. The LMI results are also significant since we reveal that the observability and controllability of system matrices are required for the existence of solutions of LMIs. Finally, we verify the availability of neural observers on three simulation cases, including the X-29A aircraft model, the nonlinear pendulum, and the four-wheel steering vehicle.
翻訳日:2022-08-30 14:39:19 公開日:2022-08-27
# TrojViT:ビジョントランスフォーマーのトロイの木馬導入

TrojViT: Trojan Insertion in Vision Transformers ( http://arxiv.org/abs/2208.13049v1 )

ライセンス: Link先を確認
Mengxin Zheng, Qian Lou, Lei Jiang(参考訳) 視覚変換器(ViT)は様々な視覚関連タスクにおける最先端の性能を実証している。 ViTsの成功は、敵がViTsに対するバックドア攻撃を行う動機となっている。 バックドア攻撃に対する従来のCNNの脆弱性はよく知られているが、ViTに対するバックドア攻撃はほとんど研究されていない。 コンボリューションによってピクセルワイドなローカル特徴をキャプチャするCNNと比較して、ViTはパッチやアテンションを通じてグローバルなコンテキスト情報を抽出する。 確実にCNN固有のバックドア攻撃をViTに移植すると、クリーンなデータの精度が低く、攻撃の成功率が低いだけになる。 本稿では,vit特有のバックドア攻撃である$trojvit$を提案する。 CNN固有のバックドア攻撃で使用されるエリアワイドトリガーではなく、TrojViTはパッチサリエンスランキングとアテンションターゲット損失によってDRAMメモリに格納されたViTのパラメータにいくつかの脆弱なビットからなるトロイの木馬を構築するために設計されたパッチワイドトリガーを生成する。 trojvitはさらに最小調整パラメータ更新を使用して、トロイの木馬のビット数を削減する。 攻撃者が脆弱なビットを反転させてトロイの木馬をViTモデルに挿入すると、ViTモデルはベニグインプットで正常な推論精度が生成される。 しかし、攻撃者がインプットにトリガーを埋め込むと、vitモデルは入力を予め定義されたターゲットクラスに分類せざるを得なくなる。 有名なrowhammerを用いてvitモデル上でtroyvitが識別する脆弱なビットをフリップするだけで、モデルがバックドア付きに変換できることを示す。 様々なViTモデル上で複数のデータセットの広範な実験を行う。 TrojViTは、イメージネット用のViTで345ドルのビットを切り替えることで、99.64\%のテストイメージをターゲットクラスに分類することができる。

Vision Transformers (ViTs) have demonstrated the state-of-the-art performance in various vision-related tasks. The success of ViTs motivates adversaries to perform backdoor attacks on ViTs. Although the vulnerability of traditional CNNs to backdoor attacks is well-known, backdoor attacks on ViTs are seldom-studied. Compared to CNNs capturing pixel-wise local features by convolutions, ViTs extract global context information through patches and attentions. Na\"ively transplanting CNN-specific backdoor attacks to ViTs yields only a low clean data accuracy and a low attack success rate. In this paper, we propose a stealth and practical ViT-specific backdoor attack $TrojViT$. Rather than an area-wise trigger used by CNN-specific backdoor attacks, TrojViT generates a patch-wise trigger designed to build a Trojan composed of some vulnerable bits on the parameters of a ViT stored in DRAM memory through patch salience ranking and attention-target loss. TrojViT further uses minimum-tuned parameter update to reduce the bit number of the Trojan. Once the attacker inserts the Trojan into the ViT model by flipping the vulnerable bits, the ViT model still produces normal inference accuracy with benign inputs. But when the attacker embeds a trigger into an input, the ViT model is forced to classify the input to a predefined target class. We show that flipping only few vulnerable bits identified by TrojViT on a ViT model using the well-known RowHammer can transform the model into a backdoored one. We perform extensive experiments of multiple datasets on various ViT models. TrojViT can classify $99.64\%$ of test images to a target class by flipping $345$ bits on a ViT for ImageNet.
翻訳日:2022-08-30 14:38:59 公開日:2022-08-27
# コストと実用性を考慮した語彙データの対向ロバスト性

Adversarial Robustness for Tabular Data through Cost and Utility Awareness ( http://arxiv.org/abs/2208.13058v1 )

ライセンス: Link先を確認
Klim Kireev, Bogdan Kulynych, Carmela Troncoso(参考訳) 多くの機械学習問題は表領域のデータを使用する。 敵対的な例は、これらのアプリケーションに特に被害を与える可能性がある。 しかし、既存の敵対的堅牢性の研究は、主に画像とテキスト領域における機械学習モデルに焦点を当てている。 表データと画像やテキストの違いから、既存の脅威モデルは表ドメインには不適切であると主張する。 これらのモデルは、非知覚性よりもコストが重要になり得ることを捉えておらず、また、敵が異なる敵の例を配置することによって得られるユーティリティに異なる価値を割り当てることもできない。 これらの違いから,画像やテキストに使用する攻撃手法や防御手法を表形式で直接適用することは不可能であることを示す。 我々は,テーブル型ドメインを対象とする攻撃者の敵対的能力と制約に合わせて,新たなコストとユーティリティアウェアの脅威モデルを提案することで,これらの問題に対処する。 我々は、コストや実用性に配慮した敵(例えば、特定のドル予算で制約された敵)に対して保護されたモデルをもたらす攻撃・防御機構を設計できるフレームワークを導入する。 本手法は,実例が経済的・社会的意味を持つアプリケーションに対応する3つの表型データセットにおいて有効であることを示す。

Many machine learning problems use data in the tabular domains. Adversarial examples can be especially damaging for these applications. Yet, existing works on adversarial robustness mainly focus on machine-learning models in the image and text domains. We argue that due to the differences between tabular data and images or text, existing threat models are inappropriate for tabular domains. These models do not capture that cost can be more important than imperceptibility, nor that the adversary could ascribe different value to the utility obtained from deploying different adversarial examples. We show that due to these differences the attack and defence methods used for images and text cannot be directly applied to the tabular setup. We address these issues by proposing new cost and utility-aware threat models tailored to the adversarial capabilities and constraints of attackers targeting tabular domains. We introduce a framework that enables us to design attack and defence mechanisms which result in models protected against cost or utility-aware adversaries, e.g., adversaries constrained by a certain dollar budget. We show that our approach is effective on three tabular datasets corresponding to applications for which adversarial examples can have economic and social implications.
翻訳日:2022-08-30 14:38:27 公開日:2022-08-27
# RGBのみのオブジェクトマップ推定に基づく6次元ロボットアセンブリ

6D Robotic Assembly Based on RGB-only Object Pose Estimation ( http://arxiv.org/abs/2208.12986v1 )

ライセンス: Link先を確認
Bowen Fu, Sek Kun Leong, Xiaocong Lian and Xiangyang Ji(参考訳) 複数の物体との相互作用は高い精度を必要とするため、視覚に基づくロボット組み立ては極めて難しい作業である。 本稿では,厳密な耐性を有するブロックを知覚・把握・操作・組み立てする統合型6次元ロボットシステムを提案する。 本システムは,市販のrgb専用ソリューションを提供することを目的として,合成画像のみで訓練された単眼型6d物体ポーズ推定ネットワークを,物理的レンダリングを利用して構築する。 その後、任意の初期ポーズを持つ設計構造を構築するために、衝突のない組立とともにポーズ誘導6D変換を提案する。 新たな3軸キャリブレーション操作は,6次元ポーズ推定とロボット組立を両立させることにより,精度とロバスト性をさらに向上させる。 定量的および定性的な結果から,提案した6次元ロボット組立システムの有効性が示された。

Vision-based robotic assembly is a crucial yet challenging task as the interaction with multiple objects requires high levels of precision. In this paper, we propose an integrated 6D robotic system to perceive, grasp, manipulate and assemble blocks with tight tolerances. Aiming to provide an off-the-shelf RGB-only solution, our system is built upon a monocular 6D object pose estimation network trained solely with synthetic images leveraging physically-based rendering. Subsequently, pose-guided 6D transformation along with collision-free assembly is proposed to construct any designed structure with arbitrary initial poses. Our novel 3-axis calibration operation further enhances the precision and robustness by disentangling 6D pose estimation and robotic assembly. Both quantitative and qualitative results demonstrate the effectiveness of our proposed 6D robotic assembly system.
翻訳日:2022-08-30 14:35:12 公開日:2022-08-27
# オブジェクトゴールナビゲーションのための空間関係グラフとグラフ畳み込みネットワーク

Spatial Relation Graph and Graph Convolutional Network for Object Goal Navigation ( http://arxiv.org/abs/2208.13031v1 )

ライセンス: Link先を確認
D. A. Sasi Kiran, Kritika Anand, Chaitanya Kharyal, Gulshan Kumar, Nandiraju Gireesh, Snehasis Banerjee, Ruddra dev Roychoudhury, Mohan Sridharan, Brojeshwar Bhowmick, Madhava Krishna(参考訳) 本稿では,ロボットがランダムな開始位置から対象オブジェクトクラスの最も近いインスタンスを見つけて移動する必要がある,オブジェクト-goalナビゲーションタスクのためのフレームワークについて述べる。 このフレームワークは、異なる意味的ラベル付き領域の近さとこれらの領域における異なるオブジェクトクラスの発生の可能性について、空間関係グラフ(SRG)とグラフ畳み込みネットワーク(GCN)ベースの埋め込みを学ぶために、ロボット軌道の歴史を使用する。 評価中に対象オブジェクトのインスタンスを特定するために、ロボットはベイズ推論とSRGを使用して可視領域を推定し、学習したGCN埋め込みを使用して可視領域をランク付けし、次に探索する領域を選択する。

This paper describes a framework for the object-goal navigation task, which requires a robot to find and move to the closest instance of a target object class from a random starting position. The framework uses a history of robot trajectories to learn a Spatial Relational Graph (SRG) and Graph Convolutional Network (GCN)-based embeddings for the likelihood of proximity of different semantically-labeled regions and the occurrence of different object classes in these regions. To locate a target object instance during evaluation, the robot uses Bayesian inference and the SRG to estimate the visible regions, and uses the learned GCN embeddings to rank visible regions and select the region to explore next.
翻訳日:2022-08-30 14:29:33 公開日:2022-08-27
# 多様性を考慮したドメイン開発手法

A Diversity-Aware Domain Development Methodology ( http://arxiv.org/abs/2208.13064v1 )

ライセンス: Link先を確認
Mayukh Bagchi(参考訳) ドメインオントロジモデルの開発は、確立された方法論に支えられた成熟した研究領域でありながら、2つの重要な欠点に悩まされている。 まず、オントロジーの概念のセマンティックな持続性と、既存のアプローチを用いたドメイン開発における柔軟な再利用に関する問題。 第二に、既存の基礎的オントロジーにおけるトップレベル概念の理解と再利用が困難であるため、ドメイン表現の意味的性質に関する難解さがある。 本稿は,上記の代表多様性の欠点を根拠とし,3次元解を提案する。 (i)再利用可能な概念をレンダリングするためのパイプライン (二)基礎的テレロジーという最小主義的基礎知識モデルの最初の特徴付け、静的かつ動的なドメイン表現の性質を意味的に説明する基礎的区別、及び 三 多様性に配慮したドメイン開発活用のためのフレキシブルで再利用可能な方法論 (i)および (ii) 予備報告では、ソリューションコンポーネントの可能性を検証する。

The development of domain ontological models, though being a mature research arena backed by well-established methodologies, still suffer from two key shortcomings. Firstly, the issues concerning the semantic persistency of ontology concepts and their flexible reuse in domain development employing existing approaches. Secondly, due to the difficulty in understanding and reusing top-level concepts in existing foundational ontologies, the obfuscation regarding the semantic nature of domain representations. The paper grounds the aforementioned shortcomings in representation diversity and proposes a three-fold solution - (i) a pipeline for rendering concepts reuse-ready, (ii) a first characterization of a minimalistic foundational knowledge model, named foundational teleology, semantically explicating foundational distinctions enforcing the static as well as dynamic nature of domain representations, and (iii) a flexible, reuse-native methodology for diversity-aware domain development exploiting solutions (i) and (ii). The preliminary work reported validates the potentiality of the solution components.
翻訳日:2022-08-30 14:29:18 公開日:2022-08-27
# 置換不変ニューラルネットワークを用いた難解モデルによる高速最適推定

Fast Optimal Estimation with Intractable Models using Permutation-Invariant Neural Networks ( http://arxiv.org/abs/2208.12942v1 )

ライセンス: Link先を確認
Matthew Sainsbury-Dale, Andrew Zammit-Mangion, and Rapha\"el Huser(参考訳) ニューラルネットワークは、最近、古典的手法よりも桁違いなスピードアップを提供する、可能性のない推論を約束している。 しかし、現在の実装は独立した複製からパラメータを推定する場合に最適ではない。 本稿では、任意のモデルに対するベイズ推定器を構築するために、置換不変ニューラルネットワークが理想的に配置されていると主張するために、決定論的枠組みを用いる。 従来の空間モデルと高パラメータ化空間エクストリームモデルの両方において、これらの推定器の潜在可能性を示し、ネットワーク設計における複製を適切に考慮しない神経推定器よりもかなり優れていることを示す。 同時に、彼らは競争力が高く、従来の可能性に基づく推定よりもはるかに速い。 我々は,紅海における海面温度の空間的解析に適用し,訓練後,数百の空間場からブートストラップサンプリングにより推定値のパラメータ推定と不確かさの定量化を行う。

Neural networks have recently shown promise for likelihood-free inference, providing orders-of-magnitude speed-ups over classical methods. However, current implementations are suboptimal when estimating parameters from independent replicates. In this paper, we use a decision-theoretic framework to argue that permutation-invariant neural networks are ideally placed for constructing Bayes estimators for arbitrary models, provided that simulation from these models is straightforward. We illustrate the potential of these estimators on both conventional spatial models, as well as highly parameterised spatial-extremes models, and show that they considerably outperform neural estimators that do not account for replication appropriately in their network design. At the same time, they are highly competitive and much faster than traditional likelihood-based estimators. We apply our estimator on a spatial analysis of sea-surface temperature in the Red Sea where, after training, we obtain parameter estimates, and uncertainty quantification of the estimates via bootstrap sampling, from hundreds of spatial fields in a fraction of a second.
翻訳日:2022-08-30 14:28:24 公開日:2022-08-27
# 変圧器を用いたターゲット話者音声活動検出と終端ニューラルダイアリゼーションの統合

Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization ( http://arxiv.org/abs/2208.13085v1 )

ライセンス: Link先を確認
Dongmei Wang, Xiong Xiao, Naoyuki Kanda, Takuya Yoshioka, Jian Wu(参考訳) 本稿では,トランスを用いたターゲット話者音声活動検出(TS-VAD)に基づく話者ダイアリゼーションモデルについて述べる。 TS-VADモデルが任意の数の話者を扱えないという欠点を克服するため,可変長時間および話者次元の入力テンソルを用いたモデルアーキテクチャについて検討する。 変換器層をスピーカ軸に印加し、TS-VADモデルに提供される話者プロファイルの順序にモデル出力を不感にする。 これらの話者方向トランスフォーマー層の間に時間方向のシーケンシャルな層を挟むことにより、入力音声信号の時間的および時空間的相関を捉えることができる。 また,エンド・ツー・エンドのニューラルダイアリゼーションをエンコーダ・デコーダ・ベース・アトラクション(EEND-EDA)を用いて拡張し,ドット製品ベースの話者検出層を変換器ベースのTS-VADに置き換えた。 VoxConverseの実験結果から,トランスフォーマーを用いたTS-VADのダイアリゼーション誤差率(DER)を10.9%低減し,SOTA(State-of-the-art)DERの4.74%を達成した。 また、拡張EEND-EDAは、オリジナルのEEND-EDAと比較してDERを6.9%削減し、広く使われているトレーニングデータ設定の下で新しいSOTA DERの11.18%を達成する。

This paper describes a speaker diarization model based on target speaker voice activity detection (TS-VAD) using transformers. To overcome the original TS-VAD model's drawback of being unable to handle an arbitrary number of speakers, we investigate model architectures that use input tensors with variable-length time and speaker dimensions. Transformer layers are applied to the speaker axis to make the model output insensitive to the order of the speaker profiles provided to the TS-VAD model. Time-wise sequential layers are interspersed between these speaker-wise transformer layers to allow the temporal and cross-speaker correlations of the input speech signal to be captured. We also extend a diarization model based on end-to-end neural diarization with encoder-decoder based attractors (EEND-EDA) by replacing its dot-product-based speaker detection layer with the transformer-based TS-VAD. Experimental results on VoxConverse show that using the transformers for the cross-speaker modeling reduces the diarization error rate (DER) of TS-VAD by 10.9%, achieving a new state-of-the-art (SOTA) DER of 4.74%. Also, our extended EEND-EDA reduces DER by 6.9% on the CALLHOME dataset relative to the original EEND-EDA with a similar model size, achieving a new SOTA DER of 11.18% under a widely used training data setting.
翻訳日:2022-08-30 14:27:29 公開日:2022-08-27
# データ正規化Q-Learningを用いたオブジェクトゴールナビゲーション

Object Goal Navigation using Data Regularized Q-Learning ( http://arxiv.org/abs/2208.13009v1 )

ライセンス: Link先を確認
Nandiraju Gireesh, D. A. Sasi Kiran, Snehasis Banerjee, Mohan Sridharan, Brojeshwar Bhowmick, Madhava Krishna(参考訳) Object Goal Navigationでは、ロボットが未確認の環境で対象のオブジェクトクラスのインスタンスを探し、ナビゲートする必要がある。 私たちのフレームワークは、時間とともに環境のセマンティックマップを段階的に構築し、ターゲットオブジェクトインスタンスを見つけるためのセマンティックマップに基づいて、長期目標('どこへ行くか')を繰り返し選択します。 長期目標選択はビジョンに基づく深層強化学習問題として定式化されている。 具体的には、エンコーダネットワークを訓練して、セマンティックマップからハイレベルな特徴を抽出し、長期的な目標を選択する。 さらに,長期目標選択をより効果的にするために,データ拡張とq関数正規化が組み込まれている。 本稿では,AI Habitat 3Dシミュレーション環境におけるフォトリアリスティックGibsonベンチマークデータセットを用いた実験結果について報告する。

Object Goal Navigation requires a robot to find and navigate to an instance of a target object class in a previously unseen environment. Our framework incrementally builds a semantic map of the environment over time, and then repeatedly selects a long-term goal ('where to go') based on the semantic map to locate the target object instance. Long-term goal selection is formulated as a vision-based deep reinforcement learning problem. Specifically, an Encoder Network is trained to extract high-level features from a semantic map and select a long-term goal. In addition, we incorporate data augmentation and Q-function regularization to make the long-term goal selection more effective. We report experimental results using the photo-realistic Gibson benchmark dataset in the AI Habitat 3D simulation environment to demonstrate substantial performance improvement on standard measures in comparison with a state of the art data-driven baseline.
翻訳日:2022-08-30 14:20:33 公開日:2022-08-27
# BOBA:ラベルスキューネスによるビザンチン・ロバスト・フェデレーションラーニング

BOBA: Byzantine-Robust Federated Learning with Label Skewness ( http://arxiv.org/abs/2208.12932v1 )

ライセンス: Link先を確認
Wenxuan Bao, Jingrui He(参考訳) 連合学習において、ビザンチン攻撃に対するロバストアグリゲーションのための既存の技術のほとんどはID設定のために設計されている。 本稿では,より現実的で難易度の高い非IIDセッティングであるラベルスキューネスについて述べる。 この設定では、最先端の技術は選択バイアスに苦しめられ、特定のクラスでパフォーマンスが大幅に低下する。 これらの制約に対処するため,BOBAという2段階の効率的な手法を提案する。 理論的には、BOBAの収束を最適順序の誤差で証明する。 実験的に、BOBAの優れた不偏性および堅牢性は、様々なベースラインに対して幅広いモデルとデータセットにわたって検証する。

In federated learning, most existing techniques for robust aggregation against Byzantine attacks are designed for the IID setting, i.e., the data distributions for clients are independent and identically distributed. In this paper, we address label skewness, a more realistic and challenging non-IID setting, where each client only has access to a few classes of data. In this setting, state-of-the-art techniques suffer from selection bias, leading to significant performance drop for particular classes; they are also more vulnerable to Byzantine attacks due to the increased deviation among gradients of honest clients. To address these limitations, we propose an efficient two-stage method named BOBA. Theoretically, we prove the convergence of BOBA with an error of optimal order. Empirically, we verify the superior unbiasedness and robustness of BOBA across a wide range of models and data sets against various baselines.
翻訳日:2022-08-30 14:16:56 公開日:2022-08-27
# virtual control group: 隠れたパフォーマンスメトリクスの測定

Virtual Control Group: Measuring Hidden Performance Metrics ( http://arxiv.org/abs/2208.12941v1 )

ライセンス: Link先を確認
Moshe Tocker(参考訳) 財務整合性システムにおけるパフォーマンス指標の測定は、効率的で費用対効果の高いオペレーションを維持するために不可欠である。 重要なパフォーマンス指標は偽陽性率である。 このメトリクスは、ユーザが一度ブロックされたときに悪いかどうか確信が持てないので、直接監視することはできない。 本稿では,調査理論と因果推論に基づく統計的手法を用いて,システムの偽陽性率や単一ブロッキングポリシーを推定する。 また、実験データを含むいくつかのケースでは、他の一般的な手法よりも優れた結果マッチング手法を提案する。 本稿では,サイバーセキュリティなどの他の統合ドメインに適用可能なアプローチについて述べる。

Performance metrics measuring in Financial Integrity systems are crucial for maintaining an efficient and cost effective operation. An important performance metric is False Positive Rate. This metric cannot be directly monitored since we don't know for sure if a user is bad once blocked. We present a statistical method based on survey theory and causal inference methods to estimate the false positive rate of the system or a single blocking policy. We also suggest a new approach of outcome matching that in some cases including empirical data outperformed other commonly used methods. The approaches described in this paper can be applied in other Integrity domains such as Cyber Security.
翻訳日:2022-08-30 14:16:41 公開日:2022-08-27
# テンソル分解に基づく個人化フェデレーション学習

Tensor Decomposition based Personalized Federated Learning ( http://arxiv.org/abs/2208.12959v1 )

ライセンス: Link先を確認
Qing Wang, Jing Jin, Xiaofeng Liu, Huixuan Zong, Yunfeng Shao, Yinchuan Li(参考訳) Federated Learning(FL)は、ユーザのプライベートデータを収集することなく、確実に協調的なトレーニングを実現する、新しい分散機械学習フレームワークである。 しかしながら、flの頻繁なコミュニケーションと平均集約戦略のため、統計多様性データや大規模モデルへのスケーリングが困難である。 本稿では,テンソル分解に基づく個人化フェデレーション学習(TDPFed)というFLフレームワークを提案する。このフレームワークでは,テンソル化線形層と畳み込み層を有する新しいテンソル化局所モデルを設計し,通信コストを削減する。 TDPFedは、パーソナライズされたモデルとテンソル化された局所モデルとのギャップを制御することにより、パーソナライズされたモデル最適化をグローバルモデル学習から切り離すために、バイレベルロス関数を使用する。 さらに,提案するtdpfedフレームワークでは,効果的な分散学習戦略と2つの異なるモデル集約戦略がうまく設計されている。 理論的収束解析と徹底的な実験により,提案するTDPFedフレームワークが通信コストを低減しつつ,最先端の性能を実現することを示す。

Federated learning (FL) is a new distributed machine learning framework that can achieve reliably collaborative training without collecting users' private data. However, due to FL's frequent communication and average aggregation strategy, they experience challenges scaling to statistical diversity data and large-scale models. In this paper, we propose a personalized FL framework, named Tensor Decomposition based Personalized Federated learning (TDPFed), in which we design a novel tensorized local model with tensorized linear layers and convolutional layers to reduce the communication cost. TDPFed uses a bi-level loss function to decouple personalized model optimization from the global model learning by controlling the gap between the personalized model and the tensorized local model. Moreover, an effective distributed learning strategy and two different model aggregation strategies are well designed for the proposed TDPFed framework. Theoretical convergence analysis and thorough experiments demonstrate that our proposed TDPFed framework achieves state-of-the-art performance while reducing the communication cost.
翻訳日:2022-08-30 14:16:32 公開日:2022-08-27
# 画像データ削減のための幾何学的均質クラスタリング

Geometrical Homogeneous Clustering for Image Data Reduction ( http://arxiv.org/abs/2208.13079v1 )

ライセンス: Link先を確認
Shril Mody, Janvi Thakkar, Devvrat Joshi, Siddharth Soni, Rohan Patil, Nipun Batra(参考訳) 本稿では,データセットサイズを削減すべく,均質クラスタリングアルゴリズムと呼ばれる従来手法の新しいバリエーションを提案する。 提案手法の背景にある直感は,データセットを均一なクラスタに分割し,精度に大きく寄与する画像を選択することである。 選択された画像はトレーニングデータの適切なサブセットであり、人間が読める。 本稿では,ベースラインアルゴリズム-RHCの4つのバリエーションを提案する。 最初のアプローチであるRHCKONの背景にある直観は、境界点がクラスターの表現に大きく貢献するということである。 k個の最遠点と、星団の遠近点の1つを選択することを含む。 以下の2つのアプローチ (KONCW と CWKC) において、クラスタ重み付けの概念を導入する。 これらは、より大きなクラスタがより小さなクラスタに貢献するという事実に基づいている。 最後のバリエーションはGHCIDRで、データ分布の幾何学的側面に基づいて点を選択する。 我々は2つのディープラーニングモデルFully Connected Networks(FCN)とVGG1の実験を行った。 我々は、MNIST、CIFAR10、Fashion-MNISTの3つのデータセットで4つの変種を実験した。 ghcidrの精度は99.35%,81.10%,91.66%であり,トレーニングデータでは87.27%,32.34%,76.80%がmnist,cifar10,ファッションmnistであった。

In this paper, we present novel variations of an earlier approach called homogeneous clustering algorithm for reducing dataset size. The intuition behind the approaches proposed in this paper is to partition the dataset into homogeneous clusters and select some images which contribute significantly to the accuracy. Selected images are the proper subset of the training data and thus are human-readable. We propose four variations upon the baseline algorithm-RHC. The intuition behind the first approach, RHCKON, is that the boundary points contribute significantly towards the representation of clusters. It involves selecting k farthest and one nearest neighbour of the centroid of the clusters. In the following two approaches (KONCW and CWKC), we introduce the concept of cluster weights. They are based on the fact that larger clusters contribute more than smaller sized clusters. The final variation is GHCIDR which selects points based on the geometrical aspect of data distribution. We performed the experiments on two deep learning models- Fully Connected Networks (FCN) and VGG1. We experimented with the four variants on three datasets- MNIST, CIFAR10, and Fashion-MNIST. We found that GHCIDR gave the best accuracy of 99.35%, 81.10%, and 91.66% and a training data reduction of 87.27%, 32.34%, and 76.80% on MNIST, CIFAR10, and Fashion-MNIST respectively.
翻訳日:2022-08-30 14:16:13 公開日:2022-08-27
# federated sparse training: リソース制約されたエッジに対する宝くじ認識モデル圧縮

Federated Sparse Training: Lottery Aware Model Compression for Resource Constrained Edge ( http://arxiv.org/abs/2208.13092v1 )

ライセンス: Link先を確認
Sara Babakniya, Souvik Kundu, Saurav Prakash, Yue Niu, Salman Avestimehr(参考訳) クライアントの計算能力と通信能力の制限は、リソース制限されたエッジノード上での連合学習(fl)において大きな課題をもたらす。 この問題の潜在的な解決策は、一貫したスパースサーバーマスクのトレーニングを期待して、各クライアントにバイナリスパースマスクをトレーニングする、オフザシェルフスパース学習アルゴリズムをデプロイすることである。 しかし,本稿では,このようなナイーブな展開は,特に低クライアントのリソース予算下では,密集したモデルを持つflと比較して,かなり精度が低下する。 特に当社の調査では,クライアント上でトレーニングされたマスク間のコンセンサスが極めて欠如していることが分かり,サーバマスクの収束を防止し,モデルパフォーマンスが大幅に低下する可能性がある。 このようなキーとなる観察に基づいて,sparsity hunt(flash)と呼ばれる統一的スパース学習フレームワークを提案する。これは,リソース制限の強いクライアント設定で性能を大幅に向上できる,スパースサブモデルという観点で,サーバが宝くじを勝ち取るためのものだ。 さらに,デバイスの不均質性問題に対処するために,我々は,デバイスリソース制限に基づいてクライアントが異なるターゲットスパーシティ予算を持つヘテロフラッシュを提案する。 様々なデータセット(IIDと非IIDの両方)上の複数のモデルによる大規模な実験的評価は、同じハイパーパラメータ設定で既存の代替モデルと比較して、より少ない通信コストで、最大$\mathord{\sim}10.1\%の精度で改善された精度で、我々のモデルの優位性を示す。

Limited computation and communication capabilities of clients pose significant challenges in federated learning (FL) over resource-limited edge nodes. A potential solution to this problem is to deploy off-the-shelf sparse learning algorithms that train a binary sparse mask on each client with the expectation of training a consistent sparse server mask. However, as we investigate in this paper, such naive deployments result in a significant accuracy drop compared to FL with dense models, especially under low client's resource budget. In particular, our investigations reveal a serious lack of consensus among the trained masks on clients, which prevents convergence on the server mask and potentially leads to a substantial drop in model performance. Based on such key observations, we propose federated lottery aware sparsity hunting (FLASH), a unified sparse learning framework to make the server win a lottery in terms of a sparse sub-model, which can greatly improve performance under highly resource-limited client settings. Moreover, to address the issue of device heterogeneity, we leverage our findings to propose hetero-FLASH, where clients can have different target sparsity budgets based on their device resource limits. Extensive experimental evaluations with multiple models on various datasets (both IID and non-IID) show superiority of our models in yielding up to $\mathord{\sim}10.1\%$ improved accuracy with $\mathord{\sim}10.26\times$ fewer communication costs, compared to existing alternatives, at similar hyperparameter settings.
翻訳日:2022-08-30 14:15:52 公開日:2022-08-27
# Textwash -- オープンソースのテキスト匿名化自動化

Textwash -- automated open-source text anonymisation ( http://arxiv.org/abs/2208.13081v1 )

ライセンス: Link先を確認
Bennett Kleinberg, Toby Davies, Maximilian Mozes(参考訳) 社会科学研究におけるテキストデータの利用の増加は、アクセスしやすいデータ(例えばtwitter)の恩恵を受けている。 この傾向は、機密性の高いデータを必要とする研究コスト(例えば、インタビューデータ、警察報告、電子健康記録など)が伴う。 我々は、オープンソースのテキスト匿名化ソフトウェア_Textwash_と、そのスタレマティクスに対するソリューションを紹介します。 本稿では、TILD基準を用いたツールの実証評価について、技術的評価(ツールはどの程度正確か?)、情報損失評価(匿名化プロセスでどの程度情報が失われるのか?)、匿名化テスト(匿名化テキストデータから個人を特定できるのか? その結果,Textwashは最先端エンティティ認識モデルと類似して動作し,無視可能な情報損失は0.84%であることがわかった。 匿名化テストでは、非常に有名で、半有名で、実在しない人物の、クラウドソースされた人物記述のデータセットから、人間に名前で個人を特定するよう指示した。 匿名化レートは、ツールの現実的なユースケースに対して1.01-2.01%であった。 われわれはこの調査結果を2回目の研究で再現し、Textwashが機密性の高い情報を取り除くことに成功していると結論づけた。

The increased use of text data in social science research has benefited from easy-to-access data (e.g., Twitter). That trend comes at the cost of research requiring sensitive but hard-to-share data (e.g., interview data, police reports, electronic health records). We introduce a solution to that stalemate with the open-source text anonymisation software_Textwash_. This paper presents the empirical evaluation of the tool using the TILD criteria: a technical evaluation (how accurate is the tool?), an information loss evaluation (how much information is lost in the anonymisation process?) and a de-anonymisation test (can humans identify individuals from anonymised text data?). The findings suggest that Textwash performs similar to state-of-the-art entity recognition models and introduces a negligible information loss of 0.84%. For the de-anonymisation test, we tasked humans to identify individuals by name from a dataset of crowdsourced person descriptions of very famous, semi-famous and non-existing individuals. The de-anonymisation rate ranged from 1.01-2.01% for the realistic use cases of the tool. We replicated the findings in a second study and concluded that Textwash succeeds in removing potentially sensitive information that renders detailed person descriptions practically anonymous.
翻訳日:2022-08-30 14:09:10 公開日:2022-08-27
# xcloth:単眼像からのテンプレートフリーテクスチャ3d衣服の抽出

xCloth: Extracting Template-free Textured 3D Clothes from a Monocular Image ( http://arxiv.org/abs/2208.12934v1 )

ライセンス: Link先を確認
Astitva Srivastava, Chandradeep Pokhariya, Sai Sagar Jinka and Avinash Sharma(参考訳) 既存の3D衣料復元のアプローチでは、衣服幾何学の事前定義されたテンプレート(固定された衣服スタイルに制限する)を仮定するか、頂点色のメッシュ(高周波のテクスチャの詳細を遅延させる)を生成する。 入力単眼画像から衣服表面の幾何学的・意味的な情報を学習し, テンプレートレステクスチャ化された3次元衣料のデジタル化を行う。 具体的には,PeledHuman表現を拡張して,画素アライメント,階層化深度,セマンティックマップを推定し,3D衣服の抽出を提案する。 層状表現は、UVアトラスを形成するための人間の介入なしに、抽出された衣服の任意の表面をUVパラメトリゼーションするためにさらに利用される。 次に、入力画像から可視領域の紫外空間に最初に画素を投影し、その後、隠蔽領域に塗布することにより、ハイブリッド方式で紫外線アトラスにテクスチャを付与する。 これにより、単眼画像から高周波テクスチャ詳細を保ちつつ、任意にゆるやかな服装スタイルをデジタル化することができる。 3つのデータセットで高精度な3d衣料復元を行い,インターネット画像の一般化を行った。

Existing approaches for 3D garment reconstruction either assume a predefined template for the garment geometry (restricting them to fixed clothing styles) or yield vertex colored meshes (lacking high-frequency textural details). Our novel framework co-learns geometric and semantic information of garment surface from the input monocular image for template-free textured 3D garment digitization. More specifically, we propose to extend PeeledHuman representation to predict the pixel-aligned, layered depth and semantic maps to extract 3D garments. The layered representation is further exploited to UV parametrize the arbitrary surface of the extracted garment without any human intervention to form a UV atlas. The texture is then imparted on the UV atlas in a hybrid fashion by first projecting pixels from the input image to UV space for the visible region, followed by inpainting the occluded regions. Thus, we are able to digitize arbitrarily loose clothing styles while retaining high-frequency textural details from a monocular image. We achieve high-fidelity 3D garment reconstruction results on three publicly available datasets and generalization on internet images.
翻訳日:2022-08-30 13:54:03 公開日:2022-08-27
# アクター同定時空間行動検出 -- ビデオ中の誰が何をしているかを検出する

Actor-identified Spatiotemporal Action Detection -- Detecting Who Is Doing What in Videos ( http://arxiv.org/abs/2208.12940v1 )

ライセンス: Link先を確認
Fan Yang, Norimichi Ukita, Sakriani Sakti, Satoshi Nakamura(参考訳) ビデオアクション認識(ar)におけるディープラーニングの成功は、研究者たちが粗いレベルから細かなレベルまで、関連するタスクを段階的に促進する動機となった。 ビデオ全体のアクションラベルのみを予測する従来のARと比較して、ビデオ中の各アクションの開始時間と終了時間を推定するために、TAD(Temporal Action Detection)が調査されている。 TADをさらに一歩進めて、時空間行動検出(SAD)は、ビデオの空間的および時間的両方のアクションをローカライズするために研究されている。 しかし、アクションを演じる人物は、悲しいことに一般的に無視されるが、俳優を特定することも重要である。 そこで本研究では,SADとアクター識別のギャップを埋める新たなタスクであるアクター識別時空間行動検出(ASAD)を提案する。 ASADでは、インスタンスレベルのアクションの時空間境界を検出するだけでなく、アクター毎にユニークなIDを割り当てる。 ASADにアプローチするためには、Multiple Object Tracking(MOT)とAction Classification(AC)が2つの基本的な要素である。 MOTを使用することで、各アクターの時空間境界を求め、ユニークなアクターIDに割り当てる。 acを用いて、アクションクラスを対応する時空間境界内で推定する。 ASADは新しいタスクなので、既存のメソッドでは対処できない多くの新しい課題を生じさせます。 i) ASAD用に特別に作成されるデータセットは存在しない。 二 評価基準がASADのために設計されていないこと。 iii) 現在のmot性能は、十分なasad結果を得るためのボトルネックである。 これらの問題に対処するために i) 新しいASADデータセットをアノテートすること。 二 マルチラベル行動及びアクター識別を考慮したASAD評価指標の提案。 三 MOTのデータアソシエーション戦略の改善により、MOTのパフォーマンスが向上し、ASADの結果が向上する。 コードは \url{https://github.com/fandulu/asad} で入手できる。

The success of deep learning on video Action Recognition (AR) has motivated researchers to progressively promote related tasks from the coarse level to the fine-grained level. Compared with conventional AR that only predicts an action label for the entire video, Temporal Action Detection (TAD) has been investigated for estimating the start and end time for each action in videos. Taking TAD a step further, Spatiotemporal Action Detection (SAD) has been studied for localizing the action both spatially and temporally in videos. However, who performs the action, is generally ignored in SAD, while identifying the actor could also be important. To this end, we propose a novel task, Actor-identified Spatiotemporal Action Detection (ASAD), to bridge the gap between SAD and actor identification. In ASAD, we not only detect the spatiotemporal boundary for instance-level action but also assign the unique ID to each actor. To approach ASAD, Multiple Object Tracking (MOT) and Action Classification (AC) are two fundamental elements. By using MOT, the spatiotemporal boundary of each actor is obtained and assigned to a unique actor identity. By using AC, the action class is estimated within the corresponding spatiotemporal boundary. Since ASAD is a new task, it poses many new challenges that cannot be addressed by existing methods: i) no dataset is specifically created for ASAD, ii) no evaluation metrics are designed for ASAD, iii) current MOT performance is the bottleneck to obtain satisfactory ASAD results. To address those problems, we contribute to i) annotate a new ASAD dataset, ii) propose ASAD evaluation metrics by considering multi-label actions and actor identification, iii) improve the data association strategies in MOT to boost the MOT performance, which leads to better ASAD results. The code is available at \url{https://github.com/fandulu/ASAD}.
翻訳日:2022-08-30 13:53:41 公開日:2022-08-27
# 生涯学習における反レトロアクティブ干渉

Anti-Retroactive Interference for Lifelong Learning ( http://arxiv.org/abs/2208.12967v1 )

ライセンス: Link先を確認
Runqi Wang, Yuxiang Bao, Baochang Zhang, Jianzhuang Liu, Wentao Zhu and Guodong Guo(参考訳) 人間は新しい知識を継続的に学ぶことができる。 しかし、機械学習モデルは、新しいタスクを学んだ後、以前のタスクのパフォーマンスが大幅に低下する。 認知科学は、類似した知識の競合が忘れる重要な原因であると指摘した。 本稿では,脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。 知識の抽出と知識の記憶という2つの側面から問題に取り組む。 まず、背景攻撃によってサンプルの背景分布を乱し、モデルを強化して各タスクの重要な特徴を抽出する。 第二に、インクリメンタルな知識とベース知識の類似性に基づき、インクリメンタルな知識の適応的な融合を設計し、異なる困難の知識にキャパシティを割り当てるのに役立つ。 提案する学習パラダイムによって異なるタスクのモデルが同じ最適に収束できることを理論的に解析する。 提案手法は,MNIST, CIFAR100, CUB200, ImageNet100データセット上で検証される。

Humans can continuously learn new knowledge. However, machine learning models suffer from drastic dropping in performance on previous tasks after learning new tasks. Cognitive science points out that the competition of similar knowledge is an important cause of forgetting. In this paper, we design a paradigm for lifelong learning based on meta-learning and associative mechanism of the brain. It tackles the problem from two aspects: extracting knowledge and memorizing knowledge. First, we disrupt the sample's background distribution through a background attack, which strengthens the model to extract the key features of each task. Second, according to the similarity between incremental knowledge and base knowledge, we design an adaptive fusion of incremental knowledge, which helps the model allocate capacity to the knowledge of different difficulties. It is theoretically analyzed that the proposed learning paradigm can make the models of different tasks converge to the same optimum. The proposed method is validated on the MNIST, CIFAR100, CUB200 and ImageNet100 datasets.
翻訳日:2022-08-30 13:53:13 公開日:2022-08-27
# 限定的・雑音データを用いたテーブルグレープの弱・半教師あり検出, セグメンテーション, 追跡

Weakly and Semi-Supervised Detection, Segmentation and Tracking of Table Grapes with Limited and Noisy Data ( http://arxiv.org/abs/2208.13001v1 )

ライセンス: Link先を確認
Thomas A. Ciarfuglia, Ionut M. Motoi, Leonardo Saraceni, Mulham Fawakherji, Alberto Sanfeliu, Daniele Nardi(参考訳) 果実や野菜の検出・分断・追跡は精密農業の3つの基本的な課題であり、ロボットによる収穫と収量推定の応用を可能にしている。 しかし、現代のアルゴリズムはデータ空腹であり、最高のパフォーマンスの教師付きアプローチを適用するのに十分なデータを集めることは必ずしも不可能である。 データ収集は高価で面倒な作業なので、農業でコンピュータビジョンを使える技術は、小企業にとって手に入らないことが多い。 この状況下での以前の研究に続いて、精密農業アプリケーションにおける最先端検出とセグメント化に必要なデータを減らすための最初の弱い教師付きソリューションを提案し、システムを改善し、果樹園の果実を追跡する問題を探求する。 本報告では,南ラツィオ(イタリア)のテーブルグレープのブドウ園を事例として紹介する。 我々は、ソースデータ(例えば、ワインブドウのデータ)として機能する初期のラベル付きデータがある場合を考えるが、ターゲットデータ(例えば、テーブルグレープデータ)とはかなり異なる。 対象データの検出とセグメンテーションを改善するために,弱いバウンディングボックスラベルでセグメンテーションアルゴリズムを訓練すると同時に,動作アルゴリズムからの3d構造を利用して,ラベル付きサンプルから新たなラベルを生成する。 最後に、2つのシステムは完全な半教師付きアプローチで結合される。 SotAによる教師付きソリューションとの比較は,ラベル付き画像が少なく,非常に単純なラベル付けで高い性能を達成できる新しいモデルを,我々の手法がいかに訓練できるかを示す。

Detection, segmentation and tracking of fruits and vegetables are three fundamental tasks for precision agriculture, enabling robotic harvesting and yield estimation applications. However, modern algorithms are data hungry and it is not always possible to gather enough data to apply the best performing supervised approaches. Since data collection is an expensive and cumbersome task, the enabling technologies for using computer vision in agriculture are often out of reach for small businesses. Following previous work in this context, where we proposed an initial weakly supervised solution to reduce the data needed to get state-of-the-art detection and segmentation in precision agriculture applications, here we improve that system and explore the problem of tracking fruits in orchards. We present the case of vineyards of table grapes in southern Lazio (Italy) since grapes are a difficult fruit to segment due to occlusion, color and general illumination conditions. We consider the case when there is some initial labelled data that could work as source data (e.g. wine grape data), but it is considerably different from the target data (e.g. table grape data). To improve detection and segmentation on the target data, we propose to train the segmentation algorithm with a weak bounding box label, while for tracking we leverage 3D Structure from Motion algorithms to generate new labels from already labelled samples. Finally, the two systems are combined in a full semi-supervised approach. Comparisons with SotA supervised solutions show how our methods are able to train new models that achieve high performances with few labelled images and with very simple labelling.
翻訳日:2022-08-30 13:52:59 公開日:2022-08-27
# AesUST:美的拡張ユニバーサルスタイルトランスファーを目指して

AesUST: Towards Aesthetic-Enhanced Universal Style Transfer ( http://arxiv.org/abs/2208.13016v1 )

ライセンス: Link先を確認
Zhizhong Wang, Zhanjie Zhang, Lei Zhao, Zhiwen Zuo, Ailin Li, Wei Xing, Dongming Lu(参考訳) 近年の研究では、任意の視覚的スタイルをコンテンツイメージに転送するユニバーサルスタイル転送が目覚ましい成功を収めている。 しかし、既存のアプローチでは、無害なパターンや明白なアーティファクトを導入して、実際の絵画から簡単に見分けられるような美的非現実的な問題に苦しめられている。 この制限に対処するため,任意のスタイルに対する美的かつリアルな結果を生成する新しいユニバーサルスタイル転送手法であるAesUSTを提案する。 具体的には,芸術作品のコーパスから普遍的な美的特徴を学ぶための美的判別器を導入する。 次に、新規なAESSAモジュールを介して、スタイル伝達プロセスを強化するために、審美的特徴を組み込んだ。 このようなaesaモジュールにより、スタイル画像のグローバル美的チャネル分布とコンテンツ画像の局所的な意味空間分布とに応じて、スタイルパターンを効率的かつ柔軟に統合することができる。 さらに,2つの審美規則を組み込んだ新しい2段階移動訓練戦略を開発し,モデルをより効果的に訓練し,スタイリゼーション性能を向上する。 広範な実験とユーザスタディにより,本手法は芸術の状況よりも美学的に調和的で現実的な結果を合成し,実際の芸術家による絵画との差異を大幅に狭めていることが示された。 私たちのコードはhttps://github.com/endywon/aesustで利用可能です。

Recent studies have shown remarkable success in universal style transfer which transfers arbitrary visual styles to content images. However, existing approaches suffer from the aesthetic-unrealistic problem that introduces disharmonious patterns and evident artifacts, making the results easy to spot from real paintings. To address this limitation, we propose AesUST, a novel Aesthetic-enhanced Universal Style Transfer approach that can generate aesthetically more realistic and pleasing results for arbitrary styles. Specifically, our approach introduces an aesthetic discriminator to learn the universal human-delightful aesthetic features from a large corpus of artist-created paintings. Then, the aesthetic features are incorporated to enhance the style transfer process via a novel Aesthetic-aware Style-Attention (AesSA) module. Such an AesSA module enables our AesUST to efficiently and flexibly integrate the style patterns according to the global aesthetic channel distribution of the style image and the local semantic spatial distribution of the content image. Moreover, we also develop a new two-stage transfer training strategy with two aesthetic regularizations to train our model more effectively, further improving stylization performance. Extensive experiments and user studies demonstrate that our approach synthesizes aesthetically more harmonious and realistic results than state of the art, greatly narrowing the disparity with real artist-created paintings. Our code is available at https://github.com/EndyWon/AesUST.
翻訳日:2022-08-30 13:52:33 公開日:2022-08-27
# マルチアウトプットはDeblurに必要なもの

Multi-Outputs Is All You Need For Deblur ( http://arxiv.org/abs/2208.13029v1 )

ライセンス: Link先を確認
Sidun Liu, Peng Qiao and Yong Dou(参考訳) 画像デブラリングタスクは不適切なタスクであり、ぼやけた画像に対して無限に実行可能な解が存在する。 現代のディープラーニングアプローチは通常、ぼやけたカーネルの学習を破棄し、エンドツーエンドの教師付き学習を直接採用する。 一般的なデブロアリングデータセットは、ラベルを実現可能なソリューションの1つとして定義している。 しかし、特にランダムな分布からラベルがサンプリングされた場合、ラベルを直接指定するのは合理的ではないと論じる。 そこで本研究では,ネットワークが実現可能なソリューションの分布を学習できるようにし,新しいマルチヘッド出力アーキテクチャとそれに対応する損失関数の設計を提案する。 提案手法は, 対象分布を近似するために, 複数の実現可能な解を出力できる。 さらに,性能向上を図りつつ,パラメータ数と計算労力を削減する新しいパラメータ多重化手法を提案する。 我々は,現在のNAFNetを含む複数の画像分解モデルに対するアプローチを評価した。 総合的な改善(検証画像毎の複数のヘッドの最高スコア)により、PSNRは比較基準線を0.11~0.18dBまで上回る。 最高のシングルヘッドの改善(検証セット上の複数のヘッドの中で最高のパフォーマンスのヘッドをピックする)により、PSNRは比較ベースラインを0.04~0.08dBに向上させる。 コードはhttps://github.com/liu-sd/multi-output-deblurで入手できる。

Image deblurring task is an ill-posed one, where exists infinite feasible solutions for blurry image. Modern deep learning approaches usually discard the learning of blur kernels and directly employ end-to-end supervised learning. Popular deblurring datasets define the label as one of the feasible solutions. However, we argue that it's not reasonable to specify a label directly, especially when the label is sampled from a random distribution. Therefore, we propose to make the network learn the distribution of feasible solutions, and design based on this consideration a novel multi-head output architecture and corresponding loss function for distribution learning. Our approach enables the model to output multiple feasible solutions to approximate the target distribution. We further propose a novel parameter multiplexing method that reduces the number of parameters and computational effort while improving performance. We evaluated our approach on multiple image-deblur models, including the current state-of-the-art NAFNet. The improvement of best overall (pick the highest score among multiple heads for each validation image) PSNR outperforms the compared baselines up to 0.11~0.18dB. The improvement of the best single head (pick the best-performed head among multiple heads on validation set) PSNR outperforms the compared baselines up to 0.04~0.08dB. The codes are available at https://github.com/Liu-SD/multi-output-deblur.
翻訳日:2022-08-30 13:52:08 公開日:2022-08-27
# LAB-Net: シャドウ除去のためのLAB色空間配向軽量ネットワーク

LAB-Net: LAB Color-Space Oriented Lightweight Network for Shadow Removal ( http://arxiv.org/abs/2208.13039v1 )

ライセンス: Link先を確認
Hong Yang, Gongrui Nan, Mingbao Lin, Fei Chao, Yunhang Shen, Ke Li, Rongrong Ji(参考訳) 本稿では,現在の過パラメータ影除去モデルの限界に着目する。 本稿では,LAB色空間における影画像を処理する軽量深層ニューラルネットワークを提案する。 提案された「lab-net」と呼ばれるネットワークは、以下の3つの観測によって動機づけられている: まず、実験室の色空間は、輝度情報と色特性を十分に分離することができる。 第二に、逐次的に積み重ねられた畳み込み層は、異なる受容フィールドの特徴をフルに利用することができない。 第3に、非シャドウ領域は、影と非シャドウ領域の劇的な色差を減少させる重要な事前知識である。 その結果,L と AB の2分岐構造を含む LAB-Net を設計した。 これにより、ABブランチに色特性を良好に保持しつつ、Lブランチでシャドウ関連輝度情報を適切に処理することができる。 さらに、各ブランチはいくつかのベーシックブロック、ローカル空間アテンションモジュール(LSA)、畳み込みフィルタで構成されている。 各基本ブロックは、モデルパラメータと計算コストを節約するために異なるネットワーク幅で操作される異なる受容場を受信するために、分岐拡張率の複数の並列化拡張畳み込みからなる。 次に、異なる受容野から特徴を集約してシャドー除去を改善する拡張チャンネルアテンションモジュール(eca)を構築する。 最後に,非シャドウ領域における事前情報を十分に活用してシャドウ領域を浄化するために,lsaモジュールがさらに開発されている。 ISTDとSRDの両方のデータセットに対して広範な実験を行う。 実験の結果,LAB-Netは最先端の手法よりも優れていた。 また,モデルのパラメータと計算コストを桁違いに削減する。 私たちのコードはhttps://github.com/ngrxmu/lab-netで利用可能です。

This paper focuses on the limitations of current over-parameterized shadow removal models. We present a novel lightweight deep neural network that processes shadow images in the LAB color space. The proposed network termed "LAB-Net", is motivated by the following three observations: First, the LAB color space can well separate the luminance information and color properties. Second, sequentially-stacked convolutional layers fail to take full use of features from different receptive fields. Third, non-shadow regions are important prior knowledge to diminish the drastic color difference between shadow and non-shadow regions. Consequently, we design our LAB-Net by involving a two-branch structure: L and AB branches. Thus the shadow-related luminance information can well be processed in the L branch, while the color property is well retained in the AB branch. In addition, each branch is composed of several Basic Blocks, local spatial attention modules (LSA), and convolutional filters. Each Basic Block consists of multiple parallelized dilated convolutions of divergent dilation rates to receive different receptive fields that are operated with distinct network widths to save model parameters and computational costs. Then, an enhanced channel attention module (ECA) is constructed to aggregate features from different receptive fields for better shadow removal. Finally, the LSA modules are further developed to fully use the prior information in non-shadow regions to cleanse the shadow regions. We perform extensive experiments on the both ISTD and SRD datasets. Experimental results show that our LAB-Net well outperforms state-of-the-art methods. Also, our model's parameters and computational costs are reduced by several orders of magnitude. Our code is available at https://github.com/ngrxmu/LAB-Net.
翻訳日:2022-08-30 13:51:47 公開日:2022-08-27
# YOLOX-PAI: PAIによる改良されたYOLOXバージョン

YOLOX-PAI: An Improved YOLOX Version by PAI ( http://arxiv.org/abs/2208.13040v1 )

ライセンス: Link先を確認
Xinyi Zou, Ziheng Wu, Wenmeng Zhou, Jun Huang(参考訳) 我々は、様々なSOTAコンピュータビジョン手法の使用を容易にするためにEasyCVというオールインワンのコンピュータビジョンツールボックスを開発した。 近年,YOLOXの改良版であるYOLOX-PAIをEasyCVに追加している。 我々はYOLOXに対する検出方法の影響を調べるためにアブレーション研究を行っている。 我々はまた、BladeDISCとTensorRTに基づく推論プロセスの高速化に使用されるPAI-Bladeの簡単な使用法を提供する。 最後に、単一のNVIDIA V100 GPUで1.0ms以内のCOCO日付セットで42.8mAPを受け取り、YOLOv6より少し速い。 シンプルなが効率的な予測器apiもEasyCVで設計され、エンドツーエンドのオブジェクト検出を行う。 コードとモデルは現在、https://github.com/alibaba/EasyCV.comで入手できる。

We develop an all-in-one computer vision toolbox named EasyCV to facilitate the use of various SOTA computer vision methods. Recently, we add YOLOX-PAI, an improved version of YOLOX, into EasyCV. We conduct ablation studies to investigate the influence of some detection methods on YOLOX. We also provide an easy use for PAI-Blade which is used to accelerate the inference process based on BladeDISC and TensorRT. Finally, we receive 42.8 mAP on COCO dateset within 1.0 ms on a single NVIDIA V100 GPU, which is a bit faster than YOLOv6. A simple but efficient predictor api is also designed in EasyCV to conduct end2end object detection. Codes and models are now available at: https://github.com/alibaba/EasyCV.
翻訳日:2022-08-30 13:51:22 公開日:2022-08-27
# crackseg9k: crack segmentationデータセットとフレームワークの収集とベンチマーク

CrackSeg9k: A Collection and Benchmark for Crack Segmentation Datasets and Frameworks ( http://arxiv.org/abs/2208.13054v1 )

ライセンス: Link先を確認
Shreyas Kulkarni, Shreyas Singh, Dhananjay Balakrishnan, Siddharth Sharma, Saipraneeth Devunuri, Sai Chowdeswara Rao Korlapati(参考訳) ひび割れの検出は,構造物の健全性を監視し,構造物の安全性を確保する上で重要な課題である。 手動によるき裂検出のプロセスは時間がかかり、検査者に主観的である。 何人かの研究者が、従来の画像処理や学習ベースの技術を使ってこの問題に取り組んでいる。 しかし、その作業範囲は、一種類の表面(壁、舗装、ガラスなど)の亀裂を検出することに限定されている。 これらの手法を評価するために使われる指標も文献によって異なるため、テクニックを比較するのが困難である。 本稿では,従来利用可能なデータセットと,ノイズや歪みといった各データセット内固有の問題に取り組むことにより,アノテーションを統一することで,これらの問題に対処する。 また,画像処理とディープラーニングモデルを組み合わせたパイプラインを提案する。 最後に、提案するモデルの結果を新しいデータセット上でベンチマークし、論文の中で最先端のモデルと比較する。

The detection of cracks is a crucial task in monitoring structural health and ensuring structural safety. The manual process of crack detection is time-consuming and subjective to the inspectors. Several researchers have tried tackling this problem using traditional Image Processing or learning-based techniques. However, their scope of work is limited to detecting cracks on a single type of surface (walls, pavements, glass, etc.). The metrics used to evaluate these methods are also varied across the literature, making it challenging to compare techniques. This paper addresses these problems by combining previously available datasets and unifying the annotations by tackling the inherent problems within each dataset, such as noise and distortions. We also present a pipeline that combines Image Processing and Deep Learning models. Finally, we benchmark the results of proposed models on these metrics on our new dataset and compare them with state-of-the-art models in the literature.
翻訳日:2022-08-30 13:51:10 公開日:2022-08-27
# 動的グレースケールスニペットを用いた自己教師付き顔提示アタック検出

Self-Supervised Face Presentation Attack Detection with Dynamic Grayscale Snippets ( http://arxiv.org/abs/2208.13070v1 )

ライセンス: Link先を確認
Usman Muhammad and Mourad Oussalah(参考訳) 顔提示攻撃検出(pad)は、顔認識システムをプレゼンテーション攻撃から守る上で重要な役割を担っている。 PADの成功は主に、大量のラベル付きデータを必要とする教師あり学習に依存している。 本稿では,ラベル付きデータのコストのかかる収集を避けるために,動き予測による自己教師付き映像表現学習手法を提案する。 そこで本研究では,3つのRGBフレームの時間的一貫性をビデオシーケンスにおいて3つの異なるタイミングで取得する手法を提案する。 次に得られたフレームを、R(red)、G(green)、B(blue)の3つの異なるチャネルに指定してダイナミックグレースケールスニペット(DGS)を形成するグレースケール画像に変換する。 これにより、ビデオの時間長が異なるため、dgsに基づく時間的多様性を高めるためにラベルが自動生成され、下流タスクに非常に有用であることが証明される。 提案手法の自己監督性から,Replay-Attack, MSU-MFSD, CASIA-FASD, OULU-NPUの4つの公開ベンチマークデータセットにおいて,既存の手法よりも優れた結果が得られた。 LIMEおよびGrad-CAM技術を用いてDGSでもっとも重要な特徴を可視化する説明可能性解析を行った。

Face presentation attack detection (PAD) plays an important role in defending face recognition systems against presentation attacks. The success of PAD largely relies on supervised learning that requires a huge number of labeled data, which is especially challenging for videos and often requires expert knowledge. To avoid the costly collection of labeled data, this paper presents a novel method for self-supervised video representation learning via motion prediction. To achieve this, we exploit the temporal consistency based on three RGB frames which are acquired at three different times in the video sequence. The obtained frames are then transformed into grayscale images where each image is specified to three different channels such as R(red), G(green), and B(blue) to form a dynamic grayscale snippet (DGS). Motivated by this, the labels are automatically generated to increase the temporal diversity based on DGS by using the different temporal lengths of the videos, which prove to be very helpful for the downstream task. Benefiting from the self-supervised nature of our method, we report the results that outperform existing methods on four public benchmark datasets, namely Replay-Attack, MSU-MFSD, CASIA-FASD, and OULU-NPU. Explainability analysis has been carried out through LIME and Grad-CAM techniques to visualize the most important features used in the DGS.
翻訳日:2022-08-30 13:50:58 公開日:2022-08-27
# ニューラルカメラモデル

Neural Camera Models ( http://arxiv.org/abs/2208.12903v1 )

ライセンス: Link先を確認
Igor Vasiljevic(参考訳) 現代のコンピュータビジョンは、インターネットの写真収集の領域を超えて物理的世界へと移行し、カメラを搭載したロボットや自動運転車を非構造化環境に導く。 これらの具体化エージェントが現実世界の物体と対話できるようにするため、カメラは深度センサーとして使われ、下流の様々な推論タスクの環境を再構築している。 機械学習支援深度知覚(deep Estimation)は、画像中の各画素が画像化されたシーンポイントまでの距離を予測する。 奥行き推定では印象的な進歩が見られたが,(1)奥行きラベルの収集は困難で費用がかかる,(2)カメラ情報は一般的には分かっていないと仮定される,(3)カメラの種類やレンズが多種多様であっても,カメラの仮定が一般的である,など,大きな課題が残っている。 本論文では,これらの仮定を緩和することに焦点を当て,カメラを真に汎用的な深度センサにするという究極の目標に向けての貢献について述べる。

Modern computer vision has moved beyond the domain of internet photo collections and into the physical world, guiding camera-equipped robots and autonomous cars through unstructured environments. To enable these embodied agents to interact with real-world objects, cameras are increasingly being used as depth sensors, reconstructing the environment for a variety of downstream reasoning tasks. Machine-learning-aided depth perception, or depth estimation, predicts for each pixel in an image the distance to the imaged scene point. While impressive strides have been made in depth estimation, significant challenges remain: (1) ground truth depth labels are difficult and expensive to collect at scale, (2) camera information is typically assumed to be known, but is often unreliable and (3) restrictive camera assumptions are common, even though a great variety of camera types and lenses are used in practice. In this thesis, we focus on relaxing these assumptions, and describe contributions toward the ultimate goal of turning cameras into truly generic depth sensors.
翻訳日:2022-08-30 13:45:30 公開日:2022-08-27
# RepParser: 代表部分を持つ複数人のパース

RepParser: End-to-End Multiple Human Parsing with Representative Parts ( http://arxiv.org/abs/2208.12908v1 )

ライセンス: Link先を確認
Xiaojia Chen, Xuanhan Wang, Lianli Gao, Jingkuan Song(参考訳) 既存のマルチヒューマンパーシングの方法は、通常、2段階戦略(通常はトップダウンとボトムアップ)を採用するが、これは事前検出に強く依存するか、ポストグループ化時に高い計算冗長性に悩まされる。 本稿では、RepParserと呼ばれる代表部品を用いたエンドツーエンドのマルチパーシングフレームワークを提案する。 主流の方法と異なり、RepParserは、人検出や後グループ化に頼ることなく、新しい単一ステージの方法で、複数のヒューマンパーシングを解決している。この目的のために、RepParserは、パーシングパイプラインをインスタンス対応カーネル生成と、インスタンス分離とインスタンス固有の部分分割をそれぞれ担当する部分認識ヒューマンパーシングに分離する。 特に、インスタンス認識キーポイントが特徴であり、各個人インスタンスを動的に解析するために使用できるため、代表部品による解析パイプラインの強化を図る。 具体的には、インスタンスのセンタを共同でローカライズし、本体部分領域のキーポイントを推定して代表部を得る。 After that, we dynamically predict instance-aware convolution kernels through representative parts, thus encoding person-part context into each kernel responsible for casting an image feature as an instance-specific representation.Furthermore, a multi-branch structure is adopted to divide each instance-specific representation into several part-aware representations for separate part segmentation.In this way, RepParser accordingly focuses on person instances with the guidance of representative parts and directly outputs parsing results for each person instance, thus eliminating the requirement of the prior detection or post-grouping.Extensive experiments on two challenging benchmarks demonstrate that our proposed RepParser is a simple yet effective framework and achieves very competitive performance.

Existing methods of multiple human parsing usually adopt a two-stage strategy (typically top-down and bottom-up), which suffers from either strong dependence on prior detection or highly computational redundancy during post-grouping. In this work, we present an end-to-end multiple human parsing framework using representative parts, termed RepParser. Different from mainstream methods, RepParser solves the multiple human parsing in a new single-stage manner without resorting to person detection or post-grouping.To this end, RepParser decouples the parsing pipeline into instance-aware kernel generation and part-aware human parsing, which are responsible for instance separation and instance-specific part segmentation, respectively. In particular, we empower the parsing pipeline by representative parts, since they are characterized by instance-aware keypoints and can be utilized to dynamically parse each person instance. Specifically, representative parts are obtained by jointly localizing centers of instances and estimating keypoints of body part regions. After that, we dynamically predict instance-aware convolution kernels through representative parts, thus encoding person-part context into each kernel responsible for casting an image feature as an instance-specific representation.Furthermore, a multi-branch structure is adopted to divide each instance-specific representation into several part-aware representations for separate part segmentation.In this way, RepParser accordingly focuses on person instances with the guidance of representative parts and directly outputs parsing results for each person instance, thus eliminating the requirement of the prior detection or post-grouping.Extensive experiments on two challenging benchmarks demonstrate that our proposed RepParser is a simple yet effective framework and achieves very competitive performance.
翻訳日:2022-08-30 13:45:11 公開日:2022-08-27
# 関連サンプルの検索によるドメイン特化NER

Domain-Specific NER via Retrieving Correlated Samples ( http://arxiv.org/abs/2208.12995v1 )

ライセンス: Link先を確認
Xin Zhang, Yong Jiang, Xiaobin Wang, Xuming Hu, Yueheng Sun, Pengjun Xie, Meishan Zhang(参考訳) 名前付きエンティティ認識モデルの成功は、中国のアドレスやeコマースのタイトルといった、適切なバックグラウンド知識を必要とする特定のドメインのテキストで失敗する可能性がある。 このような文章は人間の注釈にも難しい。 実際、テキスト理解を助けるために、共通のエンティティを持つ相関したテキストから、潜在的に有用な情報を得ることができる。 そして、相関サンプルを参照することにより、正しい回答を容易に推論できる。 本稿では,NERモデルの相関サンプルによる拡張を提案する。 大規模領域非ラベルデータからスパースbm25レトリバーによる相関サンプルを抽出した。 人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。 トレーニングステージにおける相関特徴を捉えるために,トランスベースマルチインスタンスクロスエンコーダによる相関サンプルのモデル化を提案する。 以上の2つのドメインのデータセットにおける実験結果は,提案手法の有効性を示している。

Successful Machine Learning based Named Entity Recognition models could fail on texts from some special domains, for instance, Chinese addresses and e-commerce titles, where requires adequate background knowledge. Such texts are also difficult for human annotators. In fact, we can obtain some potentially helpful information from correlated texts, which have some common entities, to help the text understanding. Then, one can easily reason out the correct answer by referencing correlated samples. In this paper, we suggest enhancing NER models with correlated samples. We draw correlated samples by the sparse BM25 retriever from large-scale in-domain unlabeled data. To explicitly simulate the human reasoning process, we perform a training-free entity type calibrating by majority voting. To capture correlation features in the training stage, we suggest to model correlated samples by the transformer-based multi-instance cross-encoder. Empirical results on datasets of the above two domains show the efficacy of our methods.
翻訳日:2022-08-30 13:40:50 公開日:2022-08-27
# 変動情報を用いたイベント引数抽出のための多形式変換学習モデル

A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck ( http://arxiv.org/abs/2208.13017v1 )

ライセンス: Link先を確認
Jie Zhou and Qi Zhang and Qin Chen and Liang He and Xuanjing Huang(参考訳) イベント引数抽出(EAE)は、自然言語処理で広く研究されているテキストから与えられた役割を持つ引数を抽出することを目的としている。 これまでのほとんどの研究は、専用のニューラルネットワークを備えた特定のEAEデータセットで優れたパフォーマンスを実現している。 しかしながら、これらのアーキテクチャは、さまざまなアノテーションスキーマやフォーマットを持つ新しいデータセットやシナリオに適応することが通常難しい。 さらに、トレーニングには大規模なラベル付きデータに依存するが、多くの場合、ラベル付きコストが高いため使用できない。 本稿では,新しいデータセットにおける既存のEAEデータセットにおける情報,特に共通知識を利用した多変量情報ボトルネックを有するマルチフォーマットトランスファー学習モデルを提案する。 具体的には、異なるフォーマットのデータセットから、フォーマット共有とフォーマット固有の知識の両方を学ぶための、共有固有のプロンプトフレームワークを紹介します。 EAEの共通知識をさらに吸収し、無関係なノイズを除去するために、我々は、変動情報ボトルネックをアーキテクチャに統合し、共有表現を洗練します。 3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。

Event argument extraction (EAE) aims to extract arguments with given roles from texts, which have been widely studied in natural language processing. Most previous works have achieved good performance in specific EAE datasets with dedicated neural architectures. Whereas, these architectures are usually difficult to adapt to new datasets/scenarios with various annotation schemas or formats. Furthermore, they rely on large-scale labeled data for training, which is unavailable due to the high labelling cost in most cases. In this paper, we propose a multi-format transfer learning model with variational information bottleneck, which makes use of the information especially the common knowledge in existing datasets for EAE in new datasets. Specifically, we introduce a shared-specific prompt framework to learn both format-shared and format-specific knowledge from datasets with different formats. In order to further absorb the common knowledge for EAE and eliminate the irrelevant noise, we integrate variational information bottleneck into our architecture to refine the shared representation. We conduct extensive experiments on three benchmark datasets, and obtain new state-of-the-art performance on EAE.
翻訳日:2022-08-30 13:40:37 公開日:2022-08-27
# MDIA:46言語における多言語対話生成ベンチマーク

MDIA: A Benchmark for Multilingual Dialogue Generation in 46 Languages ( http://arxiv.org/abs/2208.13078v1 )

ライセンス: Link先を確認
Qingyu Zhang, Xiaoyu Shen, Ernie Chang, Jidong Ge and Pengke Chen(参考訳) 低リソース言語のためのコーパスがないため、対話生成に関する現在の研究は主に英語に焦点を当てている。 本稿では,低-高リソース言語間の対話生成のための最初の大規模多言語ベンチマークであるmdiaを提案する。 19の言語ファミリーの46言語で実際の会話をカバーしている。 本研究は,多言語・非対話型事前学習モデルmT5と,英語中心の対話型事前学習チャットボットDialoGPTを微調整したベースライン結果を示す。 その結果,mT5ベースのモデルではサクレBLEUやBertScoreの方が優れていたが,多様性は優れていた。 数ショットとゼロショットのシナリオで有望な結果が見つかるが、英語と他の言語の世代品質の間には大きなギャップがある。 言語多様性を促進するために,mDIAのリリースが多言語対話生成へのさらなる取り組みを促進することを期待している。

Owing to the lack of corpora for low-resource languages, current works on dialogue generation have mainly focused on English. In this paper, we present mDIA, the first large-scale multilingual benchmark for dialogue generation across low- to high-resource languages. It covers real-life conversations in 46 languages across 19 language families. We present baseline results obtained by fine-tuning the multilingual, non-dialogue-focused pre-trained model mT5 as well as English-centric, dialogue-focused pre-trained chatbot DialoGPT. The results show that mT5-based models perform better on sacreBLEU and BertScore but worse on diversity. Even though promising results are found in few-shot and zero-shot scenarios, there is a large gap between the generation quality in English and other languages. We hope that the release of mDIA could encourage more works on multilingual dialogue generation to promote language diversity.
翻訳日:2022-08-30 13:40:20 公開日:2022-08-27
# 量子化階層vaesによる損失画像圧縮

Lossy Image Compression with Quantized Hierarchical VAEs ( http://arxiv.org/abs/2208.13056v1 )

ライセンス: Link先を確認
Zhihao Duan, Ming Lu, Zhan Ma, Fengqing Zhu(参考訳) 近年の研究では、変分オートエンコーダ(VAE)と速度歪み理論の強い関係が示されている。 そこで本研究では,画像圧縮の問題点について,生成モデルの観点から考察する。 データ(画像)分散モデリング用に当初設計されたresnet vaesを出発点として,量子化アウェアの後方および前後を用いた潜在変数モデルの再設計を行い,画像圧縮のための量子化およびエントロピー符号化を容易に行えるようにした。 ニューラルネットワークブロックの改良とともに,従来の自然画像圧縮法(lossy)よりも優れる,高能率で効率的なロス画像符号化方式を提案する。 本モデルでは,画像を粗い方法で圧縮し,並列エンコーディングとデコードをサポートし,gpu上での実行を高速化する。

Recent work has shown a strong theoretical connection between variational autoencoders (VAEs) and the rate distortion theory. Motivated by this, we consider the problem of lossy image compression from the perspective of generative modeling. Starting from ResNet VAEs, which are originally designed for data (image) distribution modeling, we redesign their latent variable model using a quantization-aware posterior and prior, enabling easy quantization and entropy coding for image compression. Along with improved neural network blocks, we present a powerful and efficient class of lossy image coders, outperforming previous methods on natural image (lossy) compression. Our model compresses images in a coarse-to-fine fashion and supports parallel encoding and decoding, leading to fast execution on GPUs.
翻訳日:2022-08-30 13:35:04 公開日:2022-08-27
# 情報FOMO(Information FOMO):情報の欠落に対する不健康な恐れ。 健康モデルにおける誤解を招くデータ除去法

Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models ( http://arxiv.org/abs/2208.13080v1 )

ライセンス: Link先を確認
Ethan Pickering and Themistoklis P. Sapsis(参考訳) すべてのデータが等しいわけではない。 ミスリーディングや不要なデータは、機械学習(ML)モデルの精度を著しく損なう可能性がある。 データが豊富である場合、誤解を招く効果は克服できるが、多くの現実世界のアプリケーションではデータが希少で取得に費用がかかる。 本稿では,MLモデルを正確にトレーニングするために必要なデータサイズを大幅に削減する手法を提案する。 本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。 具体的には、より多くのデータがパフォーマンスを悪化させる「二重降下」現象を除去する。 このアプローチはMLコミュニティにいくつかの重要な機能をもたらす。 特に、このメソッドは自然に収束し、データセットをトレーニング、テスト、検証データに分割する従来のニーズを取り除く。 代わりに、選択基準は本質的にテストエラーを評価する。 これにより、重要な情報がテストや検証に費やされることがなくなる。

Not all data are equal. Misleading or unnecessary data can critically hinder the accuracy of Machine Learning (ML) models. When data is plentiful, misleading effects can be overcome, but in many real-world applications data is sparse and expensive to acquire. We present a method that substantially reduces the data size necessary to accurately train ML models, potentially opening the door for many new, limited-data applications in ML. Our method extracts the most informative data, while ignoring and omitting data that misleads the ML model to inferior generalization properties. Specifically, the method eliminates the phenomena of "double descent", where more data leads to worse performance. This approach brings several key features to the ML community. Notably, the method naturally converges and removes the traditional need to divide the dataset into training, testing, and validation data. Instead, the selection metric inherently assesses testing error. This ensures that key information is never wasted in testing or validation.
翻訳日:2022-08-30 13:24:57 公開日:2022-08-27
# RL-DistPrivacy: 低レイテンシIoTシステムのためのプライバシ対応分散深層推論

RL-DistPrivacy: Privacy-Aware Distributed Deep Inference for low latency IoT systems ( http://arxiv.org/abs/2208.13032v1 )

ライセンス: Link先を確認
Emna Baccour, Aiman Erbad, Amr Mohamed, Mounir Hamdi, Mohsen Guizani(参考訳) Deep Neural Networks (DNN) は、いくつかのユビキタスアプリケーションのバックボーン技術となっているが、IoT(Internet of Things)デバイスなどのリソース制約されたマシンへの展開は依然として難しい。 このようなパラダイムのリソース要件を満たすため、IoTシナジーとの協調的な深い推論が導入された。 しかし、DNNネットワークの分布は深刻なデータ漏洩に悩まされている。 悪意のある参加者がデバイスに入力された任意の入力を回復できるブラックボックス攻撃など、さまざまな脅威が提示されている。 多くの対策は、プライバシー保護DNNを実現するために設計されたが、そのほとんどは、さらなる計算と精度の低下をもたらす。 本稿では,モデル性能を犠牲にすることなく,分散戦略を再考することで協調的深層推論の安全性を目標とする手法を提案する。 特に,ブラックボックスの脅威の影響を受けやすい異なるDNNパーティションについて検討し,デバイス毎に割り当てるべきデータ量を導出し,元の入力のプロパティを隠蔽する。 この手法を最適化として定式化し、コ推論のレイテンシとプライバシーレベルのデータのトレードオフを確立する。 次に、最適解を緩和するために、異種デバイスと複数のDNN/データセットをサポートする強化学習(RL)設計としてアプローチを形作る。

Although Deep Neural Networks (DNN) have become the backbone technology of several ubiquitous applications, their deployment in resource-constrained machines, e.g., Internet of Things (IoT) devices, is still challenging. To satisfy the resource requirements of such a paradigm, collaborative deep inference with IoT synergy was introduced. However, the distribution of DNN networks suffers from severe data leakage. Various threats have been presented, including black-box attacks, where malicious participants can recover arbitrary inputs fed into their devices. Although many countermeasures were designed to achieve privacy-preserving DNN, most of them result in additional computation and lower accuracy. In this paper, we present an approach that targets the security of collaborative deep inference via re-thinking the distribution strategy, without sacrificing the model performance. Particularly, we examine different DNN partitions that make the model susceptible to black-box threats and we derive the amount of data that should be allocated per device to hide proprieties of the original input. We formulate this methodology, as an optimization, where we establish a trade-off between the latency of co-inference and the privacy-level of data. Next, to relax the optimal solution, we shape our approach as a Reinforcement Learning (RL) design that supports heterogeneous devices as well as multiple DNNs/datasets.
翻訳日:2022-08-30 13:18:10 公開日:2022-08-27
# 雑音環境下での符号化レート変化に対する分離Digit認識のための最小特性解析

Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments ( http://arxiv.org/abs/2208.13100v1 )

ライセンス: Link先を確認
Muskan Garg and Naveen Aggarwal(参考訳) 本研究は,音声認識における最近の発展について述べる。 本研究では,異なるビットレートと異なるノイズレベルの存在下での孤立した桁認識の分析を行った。 この研究は、audacityとhtk toolkitを使って進められている。 隠れマルコフモデル(hidden markov model, hmm)は、この実験に用いられた認識モデルである。 特徴抽出技術として、メル周波数ケプストラム係数(MFCC)、線形予測符号化(LPC)、知覚線形予測(PLP)、メルスペクトル(MELSPEC)、フィルタバンク(FBANK)がある。 データテストのために検討されてきた3種類の異なるノイズレベルがあった。 これには、リアルタイム環境におけるランダムノイズ、ファンノイズ、ランダムノイズが含まれる。 これは、リアルタイムアプリケーションで使用できる最良の環境を分析するために行われた。 さらに、サンプリングレートの異なる5種類の一般的なビットレートが最適なビットレートを求めるために検討された。

This research work is about recent development made in speech recognition. In this research work, analysis of isolated digit recognition in the presence of different bit rates and at different noise levels has been performed. This research work has been carried using audacity and HTK toolkit. Hidden Markov Model (HMM) is the recognition model which was used to perform this experiment. The feature extraction techniques used are Mel Frequency Cepstrum coefficient (MFCC), Linear Predictive Coding (LPC), perceptual linear predictive (PLP), mel spectrum (MELSPEC), filter bank (FBANK). There were three types of different noise levels which have been considered for testing of data. These include random noise, fan noise and random noise in real time environment. This was done to analyse the best environment which can used for real time applications. Further, five different types of commonly used bit rates at different sampling rates were considered to find out the most optimum bit rate.
翻訳日:2022-08-30 13:14:42 公開日:2022-08-27
# フェデレーション学習型スマートストリート光モニタリングアプリケーション:メリットと今後の課題

A Federated Learning-enabled Smart Street Light Monitoring Application: Benefits and Future Challenges ( http://arxiv.org/abs/2208.12996v1 )

ライセンス: Link先を確認
Diya Anand and Ioannis Mavromatis and Pietro Carnelli and Aftab Khan(参考訳) データ対応都市は最近、スマートシティアプリケーションを改善するための自動学習によって加速され、強化されている。 IoT(Internet of Things)エコシステムのコンテキストでは、データ通信はコストがかかり、非効率で、スケーラビリティがなく、セキュリティが欠如しています。 フェデレートラーニング(FL)は、プライバシ保護とコミュニケーションの効率的な機械学習(ML)フレームワークを提供する上で、重要な役割を果たす。 本稿では,スマートシティの街路灯モニタリングアプリケーションにおいて,flの実現可能性を評価する。 ランプポスト操作の分類タスクにおいて、集中型および(完全に)パーソナライズされた機械学習手法のベンチマークに対してflを評価する。 このようなシナリオにFLを組み込むと、分類作業における性能が最小限に抑えられるが、通信コストとプライバシ保護に大きな改善がある。 これらの結果は、IoTアプリケーションのFLの生存性と可能性を強化する。

Data-enabled cities are recently accelerated and enhanced with automated learning for improved Smart Cities applications. In the context of an Internet of Things (IoT) ecosystem, the data communication is frequently costly, inefficient, not scalable and lacks security. Federated Learning (FL) plays a pivotal role in providing privacy-preserving and communication efficient Machine Learning (ML) frameworks. In this paper we evaluate the feasibility of FL in the context of a Smart Cities Street Light Monitoring application. FL is evaluated against benchmarks of centralised and (fully) personalised machine learning techniques for the classification task of the lampposts operation. Incorporating FL in such a scenario shows minimal performance reduction in terms of the classification task, but huge improvements in the communication cost and the privacy preserving. These outcomes strengthen FL's viability and potential for IoT applications.
翻訳日:2022-08-30 13:13:58 公開日:2022-08-27
# 台湾の土石流避難警報の機械学習による改善

Improving debris flow evacuation alerts in Taiwan using machine learning ( http://arxiv.org/abs/2208.13027v1 )

ライセンス: Link先を確認
Yi-Lin Tsai (1), Jeremy Irvin (2), Suhas Chundi (2), Jo\~ao Estacio Gaspar Araujo (2), Andrew Y. Ng (2), Christopher B. Field (3, 4, and 5), Peter K. Kitanidis (1, 3, and 6) ((1) Department of Civil and Environmental Engineering, Stanford University, Stanford, CA, USA, (2) Department of Computer Science, Stanford University, Stanford, CA, USA, (3) Woods Institute for the Environment, Stanford University, Stanford, CA, USA, (4) Interdisciplinary Environmental Studies Program, Stanford University, Stanford, CA, USA, (5) Department of Earth System Science, Stanford University, Stanford, CA, USA, (6) Institute for Computational and Mathematical Engineering, Stanford University, Stanford, CA, USA)(参考訳) 台湾は世界の破片流による死亡率が最も高い。 既存の台湾の土石流警報システムは、降雨量の時間的重み付けを利用したもので、事前に決められたしきい値を超えると警告される。 しかし、このシステムは多くの誤報を発生させ、実際の破片の流れのかなりの部分を見逃している。 本システムの改良に向けて,過去の降雨データを入力し,選択時間内に破片流が発生するかどうかを予測する機械学習モデルを5種類実装した。 台湾では,ランダム森林モデルが5つのモデルの中で最高の性能を示し,既存システムよりも優れていた。 さらに, 破片流の発生に強く関連する降雨軌跡を同定し, 欠落する破片流の危険性と頻繁な誤報とのトレードオフを検討した。 これらの結果は、命を救うために時間単位の降雨データだけでトレーニングされた機械学習モデルの可能性を示している。

Taiwan has the highest susceptibility to and fatalities from debris flows worldwide. The existing debris flow warning system in Taiwan, which uses a time-weighted measure of rainfall, leads to alerts when the measure exceeds a predefined threshold. However, this system generates many false alarms and misses a substantial fraction of the actual debris flows. Towards improving this system, we implemented five machine learning models that input historical rainfall data and predict whether a debris flow will occur within a selected time. We found that a random forest model performed the best among the five models and outperformed the existing system in Taiwan. Furthermore, we identified the rainfall trajectories strongly related to debris flow occurrences and explored trade-offs between the risks of missing debris flows versus frequent false alerts. These results suggest the potential for machine learning models trained on hourly rainfall data alone to save lives while reducing false alerts.
翻訳日:2022-08-30 13:09:39 公開日:2022-08-27
# 計算制約による過パラメータ(ロバスト)モデル

Overparameterized (robust) models from computational constraints ( http://arxiv.org/abs/2208.12926v1 )

ライセンス: Link先を確認
Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Mingyuan Wang(参考訳) 数百万のパラメータを持つ過パラメータ化モデルは、非常に成功した。 大規模モデルの必要性は、少なくとも部分的には、学習者の \emph{computational} 制限のためにあるのだろうか? さらに、この状況は \emph{robust} 学習を悪化させるのでしょうか? これは本当にあり得ることを示しています。 情報理論学習者に必要なパラメータよりも,計算的に有界な学習者に必要なモデルパラメータを必要とする学習タスクを示す。 さらに,頑健な学習にはさらに多くのモデルパラメータが必要であることを示す。 特に、計算的に有界な学習者に対しては、頑健なモデルがより多くのパラメータを必要とする可能性があることを示すBubeck and Sellke [NeurIPS'2021]の最近の結果を拡張し、有界な学習者がさらに多くのパラメータを必要とすることを示す。 emph{adversaries} を限定することで、より少ないパラメータのモデルを得るために計算的に有界になることで、堅牢な計算的有界学習の状況を改善することができるか? ここでも、これが可能であることを示す。 具体的には、Garg, Jha, Mahloujifar, Mahmoody (ALT'2020) の作業に基づいて、情報理論攻撃者に対して堅牢であるためには、学習者がはるかに多くのパラメータを利用する必要がある一方で、計算的に拘束された攻撃者に対して効率的かつ堅牢に学習できる学習タスクを実証する。

Overparameterized models with millions of parameters have been hugely successful. In this work, we ask: can the need for large models be, at least in part, due to the \emph{computational} limitations of the learner? Additionally, we ask, is this situation exacerbated for \emph{robust} learning? We show that this indeed could be the case. We show learning tasks for which computationally bounded learners need \emph{significantly more} model parameters than what information-theoretic learners need. Furthermore, we show that even more model parameters could be necessary for robust learning. In particular, for computationally bounded learners, we extend the recent result of Bubeck and Sellke [NeurIPS'2021] which shows that robust models might need more parameters, to the computational regime and show that bounded learners could provably need an even larger number of parameters. Then, we address the following related question: can we hope to remedy the situation for robust computationally bounded learning by restricting \emph{adversaries} to also be computationally bounded for sake of obtaining models with fewer parameters? Here again, we show that this could be possible. Specifically, building on the work of Garg, Jha, Mahloujifar, and Mahmoody [ALT'2020], we demonstrate a learning task that can be learned efficiently and robustly against a computationally bounded attacker, while to be robust against an information-theoretic attacker requires the learner to utilize significantly more parameters.
翻訳日:2022-08-30 13:07:06 公開日:2022-08-27
# 高次元雑音データからの動的モデルの深いカーネル学習

Deep Kernel Learning of Dynamical Models from High-Dimensional Noisy Data ( http://arxiv.org/abs/2208.12975v1 )

ライセンス: Link先を確認
Nicol\`o Botteghi, Mengwu Guo, Christoph Brune(参考訳) 本研究では,高次元雑音データから低次元力学モデルのデータ駆動的発見のための確率変動深層カーネル学習法を提案する。 このフレームワークは、高次元の測定を低次元の状態変数に圧縮するエンコーダと、システムの経時的進化を予測する状態変数の潜在力学モデルで構成されている。 提案したモデルのトレーニングは教師なしの方法で行われ、すなわちラベル付きデータに依存しない。 連続状態と制御入力を用いた非線形モデル同定と制御のためのよく研究されたベースラインである振り子の動作を,高次元ノイズrgb画像を用いて評価した。 提案手法は, 実測値を効果的に識別し, コンパクトな状態表現と潜在動的モデルを学習し, モデリングの不確実性を特定し定量化する。

This work proposes a Stochastic Variational Deep Kernel Learning method for the data-driven discovery of low-dimensional dynamical models from high-dimensional noisy data. The framework is composed of an encoder that compresses high-dimensional measurements into low-dimensional state variables, and a latent dynamical model for the state variables that predicts the system evolution over time. The training of the proposed model is carried out in an unsupervised manner, i.e., not relying on labeled data. Our learning method is evaluated on the motion of a pendulum -- a well studied baseline for nonlinear model identification and control with continuous states and control inputs -- measured via high-dimensional noisy RGB images. Results show that the method can effectively denoise measurements, learn compact state representations and latent dynamical models, as well as identify and quantify modeling uncertainties.
翻訳日:2022-08-30 13:06:37 公開日:2022-08-27
# フランス文書の複雑さの定量化

Quantifying French Document Complexity ( http://arxiv.org/abs/2208.12924v1 )

ライセンス: Link先を確認
Vincent Primpied, David Beauchemin, Richard Khoury(参考訳) 文書の複雑さレベルを測定することはオープンな課題であり、特に類似のトピックに関する複数の文書を比較したり、英語以外の言語で作業したりするよりも、文書のさまざまなコーパスに取り組んでいる場合である。 本稿では,フランス語文書の複雑さを測定するための方法論を定義し,新しい汎用的・多様化されたテキストコーパス,"フランス語カナダ複雑さレベルコーパス",および幅広いメトリクスを用いた。 異なる学習アルゴリズムをこのタスクと比較し、その性能と、テキストのどの特性が複雑さにとってより重要であるかの観察を対比する。 その結果,本手法はフランス語のテキスト複雑性を汎用的に測定できることがわかった。

Measuring a document's complexity level is an open challenge, particularly when one is working on a diverse corpus of documents rather than comparing several documents on a similar topic or working on a language other than English. In this paper, we define a methodology to measure the complexity of French documents, using a new general and diversified corpus of texts, the "French Canadian complexity level corpus", and a wide range of metrics. We compare different learning algorithms to this task and contrast their performances and their observations on which characteristics of the texts are more significant to their complexity. Our results show that our methodology gives a general-purpose measurement of text complexity in French.
翻訳日:2022-08-30 13:01:33 公開日:2022-08-27
# SupervisorBot: 深層強化学習による心理療法治療戦略のNLP対応リアルタイム勧告

SupervisorBot: NLP-Annotated Real-Time Recommendations of Psychotherapy Treatment Strategies with Deep Reinforcement Learning ( http://arxiv.org/abs/2208.13077v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 本稿では,心理療法セッション中のセラピストに対して,リアルタイムで治療戦略を提案するレコメンデーションシステムを提案する。 本システムでは,評価項目の深層埋め込みと患者が話している現在文との類似度スコアを計算し,治療結果を予測するターンレベル評価機構を用いる。 このシステムは、連続した音声ストリームを自動で書き起こし、オンライン登録不要ダイアリゼーション法を用いて患者とセラピストのターンに分離する。 対話ペアと計算されたレーティングは、ユーザとしてセッションを扱い、トピックをアイテムとして扱う深層強化学習レコメンデータに送られます。 既存のデータセット上でコアコンポーネントが持つ経験的メリットを評価する以外に,本システムの有効性をWebアプリケーションで実証する。

We propose a recommendation system that suggests treatment strategies to a therapist during the psychotherapy session in real-time. Our system uses a turn-level rating mechanism that predicts the therapeutic outcome by computing a similarity score between the deep embedding of a scoring inventory, and the current sentence that the patient is speaking. The system automatically transcribes a continuous audio stream and separates it into turns of the patient and of the therapist using an online registration-free diarization method. The dialogue pairs along with their computed ratings are then fed into a deep reinforcement learning recommender where the sessions are treated as users and the topics are treated as items. Other than evaluating the empirical advantages of the core components on existing datasets, we demonstrate the effectiveness of this system in a web app.
翻訳日:2022-08-30 12:57:12 公開日:2022-08-27
# リンク文法に基づく言語モデルの教師なし学習について

On Unsupervised Training of Link Grammar Based Language Models ( http://arxiv.org/abs/2208.13021v1 )

ライセンス: Link先を確認
Nikolay Mikhaylovskiy(参考訳) この短い注記では、リンク文法に基づくグラフ言語モデルの教師なしトレーニングに必要なものについて検討する。 まず,sleator と temperley [21] のリンク文法形式に基づく言語モデルの構築に必要なターミネーションタグ形式を導入し,リンク文法の教師なし学習における文脈の影響について考察する。 第2に,統計的リンク文法形式を提案し,統計的言語生成を可能にする。 第3に, 上記の形式主義に基づき, 語彙抽出による言語関係の発見に関する古典的論文 [25] が, 言語の文脈的特性を無視し, ビッグラムのみに依存した教師なし言語学習へのアプローチに欠陥があることが示される。 これは、yuretのbigramアプローチに基づいたグラフ言語モデルの教師なしトレーニングの結果とよく関連している。

In this short note we explore what is needed for the unsupervised training of graph language models based on link grammars. First, we introduce the ter-mination tags formalism required to build a language model based on a link grammar formalism of Sleator and Temperley [21] and discuss the influence of context on the unsupervised learning of link grammars. Second, we pro-pose a statistical link grammar formalism, allowing for statistical language generation. Third, based on the above formalism, we show that the classical dissertation of Yuret [25] on discovery of linguistic relations using lexical at-traction ignores contextual properties of the language, and thus the approach to unsupervised language learning relying just on bigrams is flawed. This correlates well with the unimpressive results in unsupervised training of graph language models based on bigram approach of Yuret.
翻訳日:2022-08-30 12:55:28 公開日:2022-08-27
# ロックプールとXyloを用いたサブmWニューロモルフィックSNNオーディオ処理

Sub-mW Neuromorphic SNN audio processing applications with Rockpool and Xylo ( http://arxiv.org/abs/2208.12991v1 )

ライセンス: Link先を確認
Hannah Bos and Dylan Muir(参考訳) スパイキングニューラルネットワーク(SNN)は、特に低消費電力のSNN推論ASICと組み合わせた場合、時間信号処理のための効率的な計算機構を提供する。 SNNは歴史的に構成が困難であり、任意のタスクの解を見つけるための一般的な方法が欠如している。 近年,SNNに対して勾配差最適化法が適用されやすくなっている。 したがって、SNNとSNN推論プロセッサは、クラウドに依存しないエネルギー制約環境において、商用の低消費電力信号処理に適したプラットフォームを提供する。 しかし、これまでのところ、これらの手法は産業のMLエンジニアにはアクセスできず、単一のSNNアプリケーションをうまく構成するために大学院レベルのトレーニングを必要としている。 本稿では、任意の時間信号処理アプリケーションをサブmW SNN推論ハードウェアに設計、訓練、デプロイするための便利な高レベルパイプラインを示す。 時間スケールの信号特徴を抽出するためにシナプス時間定数のピラミッドを用いて、時間信号処理用に設計された新しい単純なSNNアーキテクチャを適用する。 我々は、このアーキテクチャを、ストリーミングモードでXylo SNN推論プロセッサにデプロイされた環境音声分類タスクで実証する。 本アプリケーションは,低消費電力で高い精度(98%)と低レイテンシ(100ms)を実現する(<4muW推論パワー)。 当社のアプローチでは,SNNアプリケーションのトレーニングとデプロイを,一般的なNNバックグラウンドを持つMLエンジニアに提供しています。 我々は、NeuromorphicハードウェアとSNNを商用の低消費電力・エッジ信号処理アプリケーションにとって魅力的な選択肢にしたいと考えています。

Spiking Neural Networks (SNNs) provide an efficient computational mechanism for temporal signal processing, especially when coupled with low-power SNN inference ASICs. SNNs have been historically difficult to configure, lacking a general method for finding solutions for arbitrary tasks. In recent years, gradient-descent optimization methods have been applied to SNNs with increasing ease. SNNs and SNN inference processors therefore offer a good platform for commercial low-power signal processing in energy constrained environments without cloud dependencies. However, to date these methods have not been accessible to ML engineers in industry, requiring graduate-level training to successfully configure a single SNN application. Here we demonstrate a convenient high-level pipeline to design, train and deploy arbitrary temporal signal processing applications to sub-mW SNN inference hardware. We apply a new straightforward SNN architecture designed for temporal signal processing, using a pyramid of synaptic time constants to extract signal features at a range of temporal scales. We demonstrate this architecture on an ambient audio classification task, deployed to the Xylo SNN inference processor in streaming mode. Our application achieves high accuracy (98%) and low latency (100ms) at low power (<4muW inference power). Our approach makes training and deploying SNN applications available to ML engineers with general NN backgrounds, without requiring specific prior experience with spiking NNs. We intend for our approach to make Neuromorphic hardware and SNNs an attractive choice for commercial low-power and edge signal processing applications.
翻訳日:2022-08-30 12:48:59 公開日:2022-08-27
# 顔認証のためのGANの持続的バイアスについて

On GANs perpetuating biases for face verification ( http://arxiv.org/abs/2208.13061v1 )

ライセンス: Link先を確認
Sasikanth Kotti, Mayank Vatsa, Richa Singh(参考訳) deeplearningsystemsneedlargedatafortraining.datasets for training face verification systemsは、取得が難しく、プライバシの問題が発生しやすい。 GANのような生成モデルによって生成された合成データは、良い代替となる。 しかし, GANから生成されたデータは, 偏見や公平性の問題が多い。 特に、FFHQデータセットでトレーニングされたGANは、20~29歳の年齢層で白人の顔を生成するバイアスを示している。 また, 顔認証システムの微調整に使用する場合, 合成顔が, 特にレース属性に異種影響をもたらすことを実証した。 これは、顔認証のための GAR@FAR の標準偏差として定義される $DoB_{fv}$ metric を用いて測定される。

DeepLearningsystemsneedlargedatafortraining.Datasets for training face verification systems are difficult to obtain and prone to privacy issues. Synthetic data generated by generative models such as GANs can be a good alternative. However, we show that data generated from GANs are prone to bias and fairness issues. Specifically GANs trained on FFHQ dataset show bias towards generating white faces in the age group of 20-29. We also demonstrate that synthetic faces cause disparate impact, specifically for race attribute, when used for fine tuning face verification systems. This is measured using $DoB_{fv}$ metric, which is defined as standard deviation of GAR@FAR for face verification.
翻訳日:2022-08-30 12:48:35 公開日:2022-08-27
# イメージングのためのマルチレゾリューションニューラルネットワーク

Multiresolution Neural Networks for Imaging ( http://arxiv.org/abs/2208.11813v2 )

ライセンス: Link先を確認
Hallison Paz, Tiago Novello, Vinicius Silva, Luiz Schirmer, Guilherme Schardong, Fabio Chagas, Helio Lopes, Luiz Velho(参考訳) 本稿では,マルチレゾリューションニューラルネットワークの汎用アーキテクチャであるMR-Netと,このアーキテクチャに基づくアプリケーションイメージングフレームワークを提案する。 座標に基づくネットワークは、空間的にも規模的にも連続的であり、さらに細部を段階的に追加する複数のステージで構成されている。 さらに、それらはコンパクトで効率的な表現である。 マルチレゾリューション画像表現の例とテクスチャ磁化,縮小,アンチエイリアス化への応用について述べる。 この文書は紙[PNS+22]の拡張版です。 出版のためのカンファレンストラックのページ制限に合致しない追加の資料が含まれている。

We present MR-Net, a general architecture for multiresolution neural networks, and a framework for imaging applications based on this architecture. Our coordinate-based networks are continuous both in space and in scale as they are composed of multiple stages that progressively add finer details. Besides that, they are a compact and efficient representation. We show examples of multiresolution image representation and applications to texturemagnification, minification, and antialiasing. This document is the extended version of the paper [PNS+22]. It includes additional material that would not fit the page limitations of the conference track for publication.
翻訳日:2022-08-30 11:12:05 公開日:2022-08-27